O que o exame mediu
O exame submeteu os agentes a uma série de tarefas modeladas a partir de atividades comuns no local de trabalho — como agendar reuniões, redigir correspondência, realizar pesquisas básicas e coordenar com outras ferramentas. Não são simples perguntas e respostas; exigem planejamento, uso de ferramentas e adaptação quando algo dá errado. A taxa de aprovação de 2,6% significa que os agentes tiveram sucesso em apenas um punhado das centenas de tarefas que enfrentaram.
Por que a pontuação é importante
Para empresas que buscam implantar agentes de IA para automatizar fluxos de trabalho inteiros, o resultado é um choque de realidade. Os agentes já podem se sair bem em testes de múltipla escolha e gerar texto fluente, mas tropeçam em problemas abertos que os humanos resolvem diariamente sem pensar. A pontuação baixa sugere que confiar em agentes para algo além de tarefas estreitas e bem definidas pode sair pela culatra — pelo menos por enquanto.
Onde os agentes ainda ficam aquém
O teste não detalhou resultados por tipo




