Agentes de IA passam em apenas 2,6% das tarefas do mundo real no mais recente benchmark

O que o exame mediu

O exame submeteu os agentes a uma série de tarefas modeladas a partir de atividades comuns no local de trabalho — como agendar reuniões, redigir correspondência, realizar pesquisas básicas e coordenar com outras ferramentas. Não são simples perguntas e respostas; exigem planejamento, uso de ferramentas e adaptação quando algo dá errado. A taxa de aprovação de 2,6% significa que os agentes tiveram sucesso em apenas um punhado das centenas de tarefas que enfrentaram.

Por que a pontuação é importante

Para empresas que buscam implantar agentes de IA para automatizar fluxos de trabalho inteiros, o resultado é um choque de realidade. Os agentes já podem se sair bem em testes de múltipla escolha e gerar texto fluente, mas tropeçam em problemas abertos que os humanos resolvem diariamente sem pensar. A pontuação baixa sugere que confiar em agentes para algo além de tarefas estreitas e bem definidas pode sair pela culatra — pelo menos por enquanto.

Onde os agentes ainda ficam aquém

O teste não detalhou resultados por tipo

O que o exame mediu

Por que a pontuação é importante

Onde os agentes ainda ficam aquém

Artigos Relacionados