AI-agenter klarar bara 2,6 % av verkliga arbetsuppgifter i senaste testet

AI-agenter underkändes i ett nyligen genomfört test utformat för att mäta hur väl de hanterar verkliga arbetsuppgifter – de klarade endast 2,6 % av utmaningarna. Resultaten från testet som kallas 'Agents’ Last Exam' visar att dagens agenter fortfarande inte på ett tillförlitligt sätt kan navigera i den typ av röriga, flerstegsuppgifter som fyller de flesta kontorsjobb.

Vad testet mätte

Testet utsatte agenterna för en serie uppgifter baserade på vanliga arbetsplatsaktiviteter – såsom att boka möten, utkast till korrespondens, genomföra grundläggande efterforskningar och samordna med andra verktyg. Det här är inte enkla frågor och svar; de kräver planering, användning av verktyg och anpassning när något går fel. Godkännandegraden på 2,6 % innebär att agenterna lyckades med endast en handfull av de hundratals uppgifter de ställdes inför.

Varför resultatet är viktigt

För företag som överväger att använda AI-agenter för att automatisera hela arbetsflöden är resultatet en verklighetskontroll. Agenter kan redan klara flervalstester med toppbetyg och generera flytande text, men de snubblar på öppna problem som människor löser dagligen utan att tänka efter. Den låga poängen tyder på att det kan slå tillbaka att förlita sig på agenter för annat än snäva, väldefinierade uppgifter – åtminstone för närvarande.

Där agenterna fortfarande brister

Testet redovisade inte resultat uppdelade efter uppgiftstyp, men den totala misslyckandegraden antyder att agenterna är svagast på uppgifter som kräver sunt förnuft, felhantering och hantering av tvetydighet. En uppgift som innebär att ställa en följdfråga eller upptäcka en motsägelse i instruktionerna räcker tydligen för att få dem på fall. Det är ett stort glapp om företag vill att agenter ska arbeta tillsammans med människor, inte bara följa ett manus.

Testets konstruktörer har inte sagt om de planerar att släppa ett uppföljningstest, men siffran 2,6 % sätter en låg ribba att slå. För närvarande är budskapet tydligt: det sista provet för AI-agenter är inte ett de är redo att klara.

Vad testet mätte

Varför resultatet är viktigt

Där agenterna fortfarande brister

Related Articles