Agenci AI zdali zaledwie 2,6% rzeczywistych zadań w najnowszym teście porównawczym

Agenci AI oblali niedawny test porównawczy zaprojektowany do oceny, jak dobrze radzą sobie z rzeczywistymi zadaniami zawodowymi, zdając zaledwie 2,6% wyzwań. Wyniki testu o nazwie „Agents’ Last Exam” pokazują, że obecna generacja agentów wciąż nie potrafi niezawodnie poruszać się po tego rodzaju nieuporządkowanych, wieloetapowych zadaniach, które wypełniają większość prac biurowych.

Co mierzył test

Test poddał agentów serii zadań wzorowanych na typowych czynnościach w miejscu pracy — takich jak planowanie spotkań, redagowanie korespondencji, prowadzenie podstawowych badań i koordynacja z innymi narzędziami. To nie są proste pytania i odpowiedzi; wymagają planowania, korzystania z narzędzi i dostosowywania się, gdy coś pójdzie nie tak. Wskaźnik zaliczeń na poziomie 2,6% oznacza, że agenci odnieśli sukces tylko w przypadku kilku z setek zadań, przed którymi stanęli.

Dlaczego ten wynik ma znaczenie

Dla firm, które chcą wdrożyć agentów AI do automatyzacji całych przepływów pracy, wynik ten jest trzeźwiącą rzeczywistością. Agenci potrafią już zdawać testy wielokrotnego wyboru i generować płynny tekst, ale potykają się na otwartych problemach, które ludzie rozwiązują codziennie bez zastanowienia. Niski wynik sugeruje, że poleganie na agentach w przypadku czegokolwiek poza wąskimi, dobrze zdefiniowanymi zadaniami może przynieść odwrotny skutek — przynajmniej na razie.

Gdzie agenci wciąż zawodzą

Test nie podzielił wyników według rodzaju zadania, ale ogólny wskaźnik niepowodzeń sugeruje, że agenci są najsłabsi w przypadku zadań wymagających zdrowego rozsądku, odzyskiwania po błędach i radzenia sobie z niejednoznacznością. Zadanie polegające na zadaniu pytania uzupełniającego lub zauważeniu sprzeczności w instrukcjach najwyraźniej wystarczy, by ich powstrzymać. To duża luka, jeśli firmy chcą, aby agenci pracowali obok ludzi, a nie tylko postępowali według scenariusza.

Twórcy testu porównawczego nie ogłosili jeszcze, czy planują wydanie kolejnego testu, ale wynik 2,6% wyznacza niską poprzeczkę do pobicia. Na razie przekaz jest jasny: ostatni egzamin dla agentów AI to nie ten, który są gotowi zdać.

Co mierzył test

Dlaczego ten wynik ma znaczenie

Gdzie agenci wciąż zawodzą

Related Articles