Loading market data...

Agenti umělé inteligence uspěli jen u 2,6 % reálných úkolů v nejnovějším benchmarku

Agenti umělé inteligence uspěli jen u 2,6 % reálných úkolů v nejnovějším benchmarku

Agenti umělé inteligence propadli v nedávném benchmarku navrženém k měření toho, jak dobře zvládají reálné pracovní úkoly – uspěli pouze u 2,6 % výzev. Výsledky testu nazvaného „Agents’ Last Exam“ ukazují, že současná generace agentů stále nedokáže spolehlivě zvládat chaotické, vícekrokové úkoly, které tvoří většinu kancelářské práce.

Co test měřil

Test postavil agenty před sérii úkolů modelovaných podle běžných pracovních činností – například plánování schůzek, psaní korespondence, provádění základního výzkumu a koordinaci s dalšími nástroji. Nejedná se o jednoduché dotazy a odpovědi; vyžadují plánování, používání nástrojů a přizpůsobení se, když se něco pokazí. Úspěšnost 2,6 % znamená, že agenti uspěli jen u hrstky ze stovek úkolů, kterým čelili.

Proč na skóre záleží

Pro společnosti, které chtějí nasadit agenty umělé inteligence k automatizaci celých pracovních postupů, je výsledek střízlivým probuzením. Agenti už dokážou excelovat v testech s výběrem odpovědí a generovat plynulý text, ale selhávají u otevřených problémů, které lidé denně řeší bez přemýšlení. Nízké skóre naznačuje, že spoléhat se na agenty u čehokoli jiného než úzkých, dobře definovaných úkolů by se mohlo vymstít – alespoň prozatím.

Kde agenti stále zaostávají

Test nerozlišoval výsledky podle typu úkolu, ale celková míra neúspěchu naznačuje, že agenti jsou nejslabší v úkolech vyžadujících selský rozum, zotavení z chyb a práci s nejednoznačností. Úkol, který zahrnuje položení doplňující otázky nebo zaznamenání rozporu v pokynech, je zjevně dokáže zaskočit. To je velká mezera, pokud firmy chtějí, aby agenti pracovali po boku lidí, a ne jen slepě následovali scénář.

Tvůrci benchmarku neuvedli, zda plánují zveřejnit navazující test, ale hodnota 2,6 % nastavuje nízkou laťku k překonání. Prozatím je vzkaz jasný: poslední zkouška pro agenty umělé inteligence není taková, kterou by byli připraveni složit.