Les agents IA ne réussissent que 2,6 % des tâches du monde réel dans le dernier benchmark

Les agents IA ont échoué à un récent benchmark conçu pour mesurer leur capacité à gérer des tâches professionnelles du monde réel, ne réussissant que 2,6 % des défis. Les résultats du test appelé « Agents’ Last Exam » montrent que la génération actuelle d'agents ne parvient toujours pas à naviguer de manière fiable dans le genre d'assignations complexes et désordonnées qui remplissent la plupart des emplois de bureau.

Ce que l'examen mesurait

L'examen a soumis les agents à une série de tâches calquées sur des activités courantes en milieu professionnel — planifier des réunions, rédiger de la correspondance, effectuer des recherches de base et coordonner avec d'autres outils. Ce ne sont pas de simples questions-réponses ; elles nécessitent de la planification, l'utilisation d'outils et de l'adaptation en cas de problème. Le taux de réussite de 2,6 % signifie que les agents n'ont réussi qu'une poignée des centaines de tâches auxquelles ils ont été confrontés.

Pourquoi ce score est important

Pour les entreprises qui cherchent à déployer des agents IA pour automatiser des flux de travail entiers, ce résultat est une remise en question. Les agents peuvent déjà réussir des tests à choix multiples et générer un texte fluide, mais ils butent sur des problèmes ouverts que les humains résolvent quotidiennement sans y penser. Ce faible score suggère que compter sur les agents pour des tâches autres que celles qui sont étroites et bien définies pourrait se retourner contre vous — du moins pour l'instant.

Là où les agents échouent encore

Le test n'a pas ventilé les résultats par type de tâche, mais le taux d'échec global implique que les agents sont les plus faibles sur les types d'assignations qui exigent du bon sens, la capacité à corriger des erreurs et à gérer l'ambiguïté. Une tâche qui implique de poser une question de suivi ou de remarquer une contradiction dans les instructions semble suffire à les faire trébucher. C'est un écart important si les entreprises veulent que les agents travaillent aux côtés des humains, et non pas simplement suivre un script.

Les concepteurs du benchmark n'ont pas indiqué s'ils prévoient de publier un test de suivi, mais le chiffre de 2,6 % fixe une barre basse à battre. Pour l'instant, le message est clair : le dernier examen pour les agents IA n'est pas un examen qu'ils sont prêts à réussir.

Ce que l'examen mesurait

Pourquoi ce score est important

Là où les agents échouent encore

Articles Connexes