Loading market data...

Críticos Questionam Avaliação do DeepSeek V4 Pro pelo NIST Após Exclusão de Modelos dos EUA

Críticos Questionam Avaliação do DeepSeek V4 Pro pelo NIST Após Exclusão de Modelos dos EUA

A equipe CAISI do Instituto Nacional de Padrões e Tecnologia avaliou o DeepSeek V4 Pro da China usando benchmarks privados — mas somente após um filtro de comparação de custos que excluiu todos os modelos de IA dos EUA, exceto o GPT-5.4 mini da OpenAI. O governo dos EUA afirma que os resultados provam que a melhor IA da China ainda está atrás das contrapartes americanas. Nem todos estão convencidos.

A configuração da avaliação

O CAISI do NIST — seu Centro de Segurança e Inovação em IA — executou o DeepSeek V4 Pro por meio de uma série de benchmarks privados. A agência não divulgou esses benchmarks publicamente. O que foi divulgado foi um filtro de comparação de custos que reduziu o campo de modelos concorrentes a apenas um participante dos EUA: o GPT-5.4 mini. Todos os outros modelos dos EUA foram excluídos da comparação.

Por que o filtro é importante

Esse filtro está atraindo mais escrutínio. Ao colocar o DeepSeek V4 Pro contra apenas uma versão menor e mais barata do GPT-5 — em vez da linha completa de modelos de fronteira dos EUA — a avaliação cria um campo de jogo estreito. O governo dos EUA citou os resultados para afirmar que os melhores sistemas de IA da China ficam atrás daqueles desenvolvidos nos Estados Unidos. Mas os críticos dizem que a metodologia torna essa afirmação difícil de aceitar pelo valor de face.

Especialistas chamam a metodologia de 'conveniente'

Alguns pesquisadores e observadores do setor questionam a validade de todo o exercício. Eles descrevem o filtro como 'conveniente' — um termo que sugere que a comparação foi projetada para produzir um resultado favorável ao lado dos EUA. Ao excluir modelos concorrentes dos EUA, a avaliação evita comparações mais difíceis que poderiam mostrar o DeepSeek V4 Pro com desempenho mais próximo — ou até mesmo comparável — aos principais sistemas americanos. Os críticos não estão contestando os dados brutos dos benchmarks. Eles estão contestando se esses dados significam o que o governo diz que significam.

O que o NIST não disse

O NIST não explicou por que escolheu o filtro de comparação de custos ou por que excluiu todos os modelos dos EUA, exceto o GPT-5.4 mini. A agência também não divulgou os benchmarks privados que usou, impossibilitando que pesquisadores externos repliquem o trabalho. Sem essa transparência, a alegação do governo sobre a IA chinesa estar atrasada baseia-se em uma metodologia que até mesmo observadores amigáveis têm dificuldade em defender.

A pergunta não respondida: será que o NIST divulgará a metodologia completa e os benchmarks para que o público possa julgar por si mesmo? Até agora, silêncio.