A equipe CAISI do Instituto Nacional de Padrões e Tecnologia avaliou o DeepSeek V4 Pro da China usando benchmarks privados — mas somente após um filtro de comparação de custos que excluiu todos os modelos de IA dos EUA, exceto o GPT-5.4 mini da OpenAI. O governo dos EUA afirma que os resultados provam que a melhor IA da China ainda está atrás das contrapartes americanas. Nem todos estão convencidos.
A configuração da avaliação
O CAISI do NIST — seu Centro de Segurança e Inovação em IA — executou o DeepSeek V4 Pro por meio de uma série de benchmarks privados. A agência não divulgou esses benchmarks publicamente. O que foi divulgado foi um filtro de comparação de custos que reduziu o campo de modelos concorrentes a apenas um participante dos EUA: o GPT-5.4 mini. Todos os outros modelos dos EUA foram excluídos da comparação.
Por que o filtro é importante
Esse filtro está atraindo mais escrutínio. Ao colocar o DeepSeek V4 Pro contra apenas uma versão menor e mais barata do GPT-5 — em vez da linha completa de modelos de fronteira dos EUA — a avaliação cria um campo de jogo estreito. O governo dos EUA citou os resultados para afirmar que os melhores sistemas de IA da China ficam atrás daqueles desenvolvidos nos Estados Unidos. Mas os críticos dizem que a metodologia torna essa afirmação difícil de aceitar pelo valor de face.
Especialistas chamam a metodologia de 'conveniente'
Alguns pesquisadores e observadores do setor questionam a validade de todo o exercício. Eles descrevem o filtro como 'conveniente' — um termo que sugere que a comparação foi projetada para produzir um resultado favorável ao lado dos EUA. Ao excluir modelos concorrentes dos EUA, a avaliação evita comparações mais difíceis que poderiam mostrar o DeepSeek V4 Pro com desempenho mais próximo — ou até mesmo comparável — aos principais sistemas americanos. Os críticos não estão contestando os dados brutos dos benchmarks. Eles estão contestando se esses dados significam o que o governo diz que significam.
O que o NIST não disse
O NIST não explicou por que escolheu o filtro de comparação de custos ou por que excluiu todos os modelos dos EUA, exceto o GPT-5.4 mini. A agência também não divulgou os benchmarks privados que usou, impossibilitando que pesquisadores externos repliquem o trabalho. Sem essa transparência, a alegação do governo sobre a IA chinesa estar atrasada baseia-se em uma metodologia que até mesmo observadores amigáveis têm dificuldade em defender.
A pergunta não respondida: será que o NIST divulgará a metodologia completa e os benchmarks para que o público possa julgar por si mesmo? Até agora, silêncio.




