Los agentes de IA solo superan el 2.6% de las tareas del mundo real en el último benchmark

Los agentes de IA fracasaron en un reciente benchmark diseñado para medir su desempeño en tareas laborales del mundo real, superando solo el 2.6% de los desafíos. Los resultados de la prueba llamada 'Agents’ Last Exam' muestran que la actual generación de agentes aún no puede navegar de manera confiable el tipo de asignaciones complejas y de múltiples pasos que ocupan la mayoría de los trabajos de oficina.

Qué midió el examen

El examen sometió a los agentes a una serie de tareas modeladas a partir de actividades laborales comunes — como programar reuniones, redactar correspondencia, realizar investigación básica y coordinarse con otras herramientas. Estas no son simples preguntas y respuestas; requieren planificación, uso de herramientas y adaptación cuando algo sale mal. La tasa de aprobación del 2.6% significa que los agentes tuvieron éxito solo en un puñado de las cientos de tareas que enfrentaron.

Por qué importa la puntuación

Para las empresas que buscan implementar agentes de IA para automatizar flujos de trabajo completos, el resultado es un llamado de atención. Los agentes ya pueden aprobar exámenes de opción múltiple y generar texto fluido, pero tropiezan con problemas abiertos que los humanos resuelven a diario sin pensar. La baja puntuación sugiere que confiar en agentes para algo más que tareas estrechas y bien definidas podría resultar contraproducente — al menos por ahora.

Dónde siguen fallando los agentes

La prueba no desglosó los resultados por tipo de tarea, pero la tasa de fracaso general implica que los agentes son más débiles en el tipo de asignaciones que requieren sentido común, recuperación de errores y manejo de ambigüedad. Una tarea que implica hacer una pregunta de seguimiento o notar una contradicción en las instrucciones aparentemente es suficiente para hacerlos tropezar. Esa es una gran brecha si las empresas quieren que los agentes trabajen junto a las personas, no solo que sigan un guion.

Los diseñadores del benchmark no han dicho si planean publicar una prueba de seguimiento, pero la cifra del 2.6% establece un listón bajo para superar. Por ahora, el mensaje es claro: el último examen para los agentes de IA no es uno que estén listos para aprobar.

Qué midió el examen

Por qué importa la puntuación

Dónde siguen fallando los agentes

Artículos Relacionados