Агенти ШІ пройшли лише 2,6% реальних робочих завдань у новому бенчмарку

Що вимірював іспит

Іспит провів агентів через серію завдань, змодельованих на основі типових робочих активностей — таких як планування зустрічей, написання листів, проведення базових досліджень і координація з іншими інструментами. Це не прості запитання-відповіді; вони вимагають планування, використання інструментів та адаптації, коли щось іде не так. Показник у 2,6% означає, що агенти досягли успіху лише в невеликій кількості з сотень завдань, які їм довелося виконати.

Чому цей результат важливий

Для компаній, які прагнуть використовувати агентів ШІ для автоматизації цілих робочих процесів, цей результат є перевіркою реальністю. Агенти вже можуть блискуче складати тести з вибором відповіді та генерувати зв'язний текст, але вони спотикаються на відкритих завданнях, які люди вирішують щодня не замислюючись. Низький бал свідчить про те, що покладатися на агентів для чогось, окрім вузьких чітко визначених завдань, може дати зворотний ефект — принай

Що вимірював іспит

Чому цей результат важливий

Related Articles