Gli agenti AI superano solo il 2,6% dei compiti del mondo reale nell'ultimo benchmark

Gli agenti AI hanno fallito un recente benchmark progettato per misurare quanto bene gestiscono compiti lavorativi reali, superando solo il 2,6% delle sfide. I risultati del test chiamato 'Agents’ Last Exam' mostrano che l'attuale generazione di agenti non è ancora in grado di navigare in modo affidabile il tipo di incarichi complessi e multi-step che riempiono la maggior parte dei lavori d'ufficio.

Cosa ha misurato l'esame

L'esame ha sottoposto gli agenti a una serie di compiti modellati su attività lavorative comuni – cose come programmare riunioni, redigere corrispondenza, condurre ricerche di base e coordinarsi con altri strumenti. Non si tratta di semplici domande e risposte; richiedono pianificazione, uso di strumenti e adattamento quando qualcosa va storto. Il tasso di successo del 2,6% significa che gli agenti hanno avuto successo solo in una manciata delle centinaia di compiti affrontati.

Perché il punteggio è importante

Per le aziende che cercano di implementare agenti AI per automatizzare interi flussi di lavoro, il risultato è un campanello d'allarme. Gli agenti possono già superare test a scelta multipla e generare testo fluente, ma inciampano su problemi aperti che gli umani risolvono quotidianamente senza pensarci. Il punteggio basso suggerisce che affidarsi agli agenti per qualsiasi cosa al di là di compiti ristretti e ben definiti potrebbe rivelarsi controproducente – almeno per ora.

Dove gli agenti sono ancora carenti

Il test non ha suddiviso i risultati per tipo di compito, ma il tasso di fallimento complessivo implica che gli agenti sono più deboli su quel tipo di incarichi che richiedono buon senso, recupero da errori e gestione dell'ambiguità. Un compito che implica fare una domanda di follow-up o notare una contraddizione nelle istruzioni è apparentemente sufficiente a farli inciampare. Questo è un grande divario se le aziende vogliono che gli agenti lavorino insieme alle persone, non solo seguano un copione.

I progettisti del benchmark non hanno detto se intendono pubblicare un test successivo, ma il dato del 2,6% stabilisce un livello basso da battere. Per ora, il messaggio è chiaro: l'ultimo esame per gli agenti AI non è uno che siano pronti a superare.

Cosa ha misurato l'esame

Perché il punteggio è importante

Dove gli agenti sono ancora carenti

Articoli Correlati