AI-agenter består kun 2,6 % av virkelige oppgaver i nyeste benchmark

Hva eksamen målte

Eksamen satte agenter gjennom en rekke oppgaver modellert etter vanlige arbeidsplassaktiviteter – ting som å planlegge møter, utforme korrespondanse, gjennomføre grunnleggende forskning og samordne med andre verktøy. Dette er ikke enkle spørsmål-og-svar-spørsmål; de krever planlegging, verktøybruk og tilpasning når noe går galt. Bestått-raten på 2,6 % betyr at agentene lyktes med bare en håndfull av de hundrevis av oppgavene de sto overfor.

Hvorfor poengsummen betyr noe

For selskaper som ønsker å ta i bruk AI-agenter for å automatisere hele arbeidsflyter, er resultatet en virkelighetssjekk. Agenter kan allerede mestre flervalgstester og generere flytende tekst, men de snubler over åpne problemer som mennesker løser daglig uten å tenke. Den lave poengsummen antyder at å stole på agenter for noe utover smale, veldefinerte oppgaver kan slå tilbake – i hvert fall foreløpig.

Hvor agenter fortsatt kommer til kort

Testen delte ikke opp resultater etter oppgavetype, men den generelle feilraten antyder at agenter er svakest på den typen oppgaver som krever sunn fornuft, feilhåndtering og håndtering av tvetydighet. En oppgave som innebærer å stille et oppfølgingsspørsmål eller oppdage en selvmotsigelse i instruksjoner

Hva eksamen målte

Hvorfor poengsummen betyr noe

Hvor agenter fortsatt kommer til kort

Related Articles