Loading market data...

AI-агенты справляются лишь с 2,6% реальных задач в новейшем тесте

AI-агенты справляются лишь с 2,6% реальных задач в новейшем тесте

AI-агенты провалили недавний тест, разработанный для оценки их способности справляться с реальными рабочими задачами, пройдя лишь 2,6% испытаний. Результаты теста под названием «Последний экзамен агентов» показывают, что нынешнее поколение агентов всё ещё не может надёжно выполнять запутанные многоэтапные задания, из которых состоят большинство офисных должностей.

Что измерял экзамен

Экзамен поставил агентов перед серией задач, смоделированных на основе типичных рабочих действий — таких как планирование встреч, составление корреспонденции, проведение базовых исследований и координация с другими инструментами. Это не простые вопросы-ответы; они требуют планирования, использования инструментов и адаптации, когда что-то идёт не так. Проходной балл в 2,6% означает, что агенты преуспели лишь в нескольких из сотен поставленных задач.

Почему этот результат важен

Для компаний, стремящихся внедрить AI-агентов для автоматизации целых рабочих процессов, этот результат является проверкой реальности. Агенты уже могут блестяще проходить тесты с множественным выбором и генерировать беглый текст, но они спотыкаются на открытых задачах, которые люди решают ежедневно не задумываясь. Низкий балл предполагает, что полагаться на агентов в чём-то, кроме узких, чётко определённых задач, может обернуться неудачей — по крайней мере, пока.

Где агенты всё ещё отстают

Тест не разбивал результаты по типам задач, но общий уровень неудач указывает на то, что агенты слабее всего в заданиях, требующих здравого смысла, восстановления после ошибок и работы с неопределённостью. Задача, включающая уточняющий вопрос или обнаружение противоречия в инструкциях, очевидно, способна их запутать. Это серьёзный пробел, если бизнес хочет, чтобы агенты работали вместе с людьми, а не просто следовали сценарию.

Разработчики теста пока не сообщили, планируют ли они выпустить повторное испытание, но показатель в 2,6% устанавливает низкую планку для преодоления. На данный момент посыл ясен: последний экзамен для AI-агентов — это не тот, который они готовы сдать.