AI-agenten slagen slechts voor 2,6% van de realistische taken in nieuwste benchmark

AI-agenten hebben op een recente benchmark, die is ontworpen om te meten hoe goed ze omgaan met realistische werkzaamheden, slecht gepresteerd: ze slaagden voor slechts 2,6% van de uitdagingen. De resultaten van de test, genaamd de 'Agents’ Last Exam', tonen aan dat de huidige generatie agenten nog steeds niet betrouwbaar kan omgaan met de rommelige, meerstapsopdrachten die de meeste kantoorbanen kenmerken.

Wat de examentest meet

De test stelde agenten een reeks taken voor die zijn gemodelleerd naar alledaagse werkzaamheden – zoals het plannen van vergaderingen, het opstellen van correspondentie, het uitvoeren van basisonderzoek en het coördineren met andere tools. Dit zijn geen eenvoudige vraag-en-antwoord prompts; ze vereisen planning, het gebruik van hulpmiddelen en aanpassingsvermogen wanneer er iets misgaat. Het slagingspercentage van 2,6% betekent dat de agenten slechts een handvol van de honderden taken met succes hebben volbracht.

Waarom de score ertoe doet

Voor bedrijven die AI-agenten willen inzetten om hele workflows te automatiseren, is het resultaat een realiteitscheck. Agenten kunnen al moeiteloos meerkeuzetoetsen afleggen en vloeiende teksten genereren, maar ze struikelen bij open problemen die mensen dagelijks zonder nadenken oplossen. De lage score suggereert dat het vertrouwen op agenten voor alles behalve nauw omschreven taken averechts kan werken – althans voorlopig.

Waar agenten nog tekortschieten

De test maakte geen onderscheid per taaktype, maar het algemene faalpercentage wijst erop dat agenten het zwakst zijn bij opdrachten die gezond verstand, foutherstel en omgaan met dubbelzinnigheid vereisen. Een taak waarbij een vervolgvraag moet worden gesteld of een tegenstrijdigheid in de instructies moet worden opgemerkt, blijkt al voldoende om ze te laten struikelen. Dat is een groot gat als bedrijven willen dat agenten samenwerken met mensen, en niet alleen een script volgen.

De ontwerpers van de benchmark hebben nog niet aangegeven of ze een vervolgexamen willen uitbrengen, maar de 2,6% zet een lage lat om te verbeteren. Voor nu is de boodschap duidelijk: het laatste examen voor AI-agenten is er een waarvoor ze nog niet klaar zijn.

Wat de examentest meet

Waarom de score ertoe doet

Waar agenten nog tekortschieten

Related Articles