Az AI-ügynökök a legfrissebb benchmarkon a valós feladatok mindössze 2,6%-át teljesítették

Az AI-ügynökök megbuktak a legutóbbi benchmarkon, amelyet arra terveztek, hogy mérje, mennyire boldogulnak a valós munkahelyi feladatokkal: a kihívások mindössze 2,6%-át sikerült teljesíteniük. Az „Ügynökök utolsó vizsgája” nevű teszt eredményei azt mutatják, hogy a jelenlegi ügynökök még mindig nem képesek megbízhatóan kezelni azokat a rendezetlen, több lépésből álló feladatokat, amelyek a legtöbb irodai munkát kitöltik.

Mit mért a vizsga?

A vizsga az ügynököket olyan feladatsorok elé állította, amelyeket általános munkahelyi tevékenységek alapján modelleztek – például értekezletek ütemezése, levelezés megfogalmazása, alapvető kutatás végzése és más eszközökkel való koordináció. Ezek nem egyszerű kérdés-felelet promptok; tervezést, eszközhasználatot és alkalmazkodást igényelnek, ha valami rosszul megy. A 2,6%-os teljesítési arány azt jelenti, hogy az ügynökök a több száz feladat közül csak néhányat sikerrel teljesítettek.

Miért számít az eredmény?

Azon vállalatok számára, amelyek AI-ügynököket szeretnének bevetni teljes munkafolyamatok automatizálására, az eredmény realitásellenőrzés. Az ügynökök már most képesek tökéletesen megoldani a feleletválasztós teszteket és folyékony szövegeket generálni, de elakadnak a nyitott végű problémákon, amelyeket az emberek nap mint nap gondolkodás nélkül megoldanak. Az alacsony pontszám arra utal, hogy az ügynökökre való támaszkodás a szűk, jól körülhatárolt feladatokon túl – legalábbis egyelőre – visszaüthet.

Hol buknak el még az ügynökök?

A teszt nem bontotta ki az eredményeket feladattípusonként, de az általános kudarcarány arra utal, hogy az ügynökök a legrosszabbul azokon a feladatokon teljesítenek, amelyek józan észt, hibakezelést és kétértelműség kezelését igénylik. Egy olyan feladat, amely egy utólagos kérdés feltevését vagy egy ellentmondás észrevételét igényli az utasításokban, láthatóan elegendő ahhoz, hogy megbuktassa őket. Ez nagy hiányosság, ha a vállalkozások azt szeretnék, hogy az ügynökök emberekkel együtt dolgozzanak, ne csak egy forgatókönyvet kövessenek.

A benchmark tervezői nem közölték, hogy terveznek-e követő tesztet kiadni, de a 2,6%-os érték alacsony lécet állít a megdöntésre. Egyelőre az üzenet világos: az AI-ügynökök utolsó vizsgája nem olyan, amelyet készen állnak letenni.

Mit mért a vizsga?

Miért számít az eredmény?

Hol buknak el még az ügynökök?

Related Articles