Agenții AI trec doar 2,6% din sarcinile reale în cel mai recent benchmark

Agenții AI au picat recentul test conceput pentru a măsura cât de bine gestionează sarcinile de lucru din lumea reală, trecând doar 2,6% dintre provocări. Rezultatele testului numit „Agents’ Last Exam” arată că actuala generație de agenți încă nu poate naviga în mod fiabil tipul de sarcini complexe și multi-etapă care umplu majoritatea locurilor de muncă de birou.

Ce a măsurat testul

Testul a supus agenții unei serii de sarcini modelate pe activități comune la locul de muncă — cum ar fi programarea întâlnirilor, redactarea corespondenței, efectuarea de cercetări de bază și coordonarea cu alte instrumente. Acestea nu sunt simple întrebări și răspunsuri; necesită planificare, utilizarea instrumentelor și adaptare atunci când ceva merge prost. Rata de promovare de 2,6% înseamnă că agenții au reușit doar la o mână de sarcini dintre sutele cu care s-au confruntat.

De ce contează scorul

Pentru companiile care doresc să implementeze agenți AI pentru a automatiza fluxuri de lucru întregi, rezultatul este un semnal de alarmă. Agenții pot deja să obțină scoruri maxime la testele cu alegere multiplă și să genereze text fluent, dar se poticnesc la probleme deschise pe care oamenii le rezolvă zilnic fără să se gândească. Scorul scăzut sugerează că a te baza pe agenți pentru altceva decât sarcini înguste și bine definite s-ar putea întoarce împotriva ta — cel puțin deocamdată.

Unde agenții încă nu sunt la înălțime

Testul nu a defalcat rezultatele pe tipuri de sarcini, dar rata generală de eșec indică faptul că agenții sunt cei mai slabi la tipurile de sarcini care necesită simț comun, recuperare după erori și gestionarea ambiguității. O sarcină care implică adresarea unei întrebări suplimentare sau observarea unei contradicții în instrucțiuni este aparent suficientă pentru a-i face să se împiedice. Aceasta este o lacună mare dacă afacerile doresc ca agenții să lucreze alături de oameni, nu doar să urmeze un scenariu.

Proiectanții testului nu au spus încă dacă intenționează să lanseze un test ulterior, dar cifra de 2,6% stabilește un prag scăzut de depășit. Deocamdată, mesajul este clar: ultimul examen pentru agenții AI nu este unul pe care sunt pregătiți să-l treacă.

Ce a măsurat testul

De ce contează scorul

Unde agenții încă nu sunt la înălțime

Related Articles