AI-agenter består kun 2,6 % af virkelige opgaver i nyeste benchmark

Hvad eksamen målte

Eksamenen satte agenterne igennem en række opgaver modelleret efter almindelige arbejdspladsaktiviteter – ting som at planlægge møder, udarbejde korrespondance, udføre grundlæggende research og koordinere med andre værktøjer. Det er ikke enkle spørgsmål-og-svar-prompter; de kræver planlægning, brug af værktøjer og tilpasning, når noget går galt. Beståelsesraten på 2,6 % betyder, at agenterne kun lykkedes med en håndfuld af de hundredvis af opgaver, de stod overfor.

Hvorfor scoren betyder noget

For virksomheder, der ønsker at implementere AI-agenter til at automatisere hele arbejdsgange, er resultatet et realitetstjek. Agenter kan allerede klare multiple-choice-tests perfekt og generere flydende tekst, men de snubler over åbne problemer, som mennesker løser dagligt uden at tænke. Den lave score antyder, at det at stole på agenter til noget ud over snævre, veldefinerede opgaver kunne give bagslag

Hvad eksamen målte

Hvorfor scoren betyder noget

Related Articles