Critiques interrogent l'évaluation de DeepSeek V4 Pro par le NIST après l'exclusion des modèles américains

L'équipe CAISI du NIST a évalué le DeepSeek V4 Pro chinois à l'aide de benchmarks privés — mais uniquement après l'application d'un filtre de comparaison des coûts qui a exclu tous les modèles d'IA américains, à l'exception de GPT-5.4 mini d'OpenAI. Le gouvernement américain affirme que les résultats démontrent que la meilleure IA chinoise reste en retrait par rapport à ses homologues américaines. Tout le monde n'est pas convaincu.

La configuration de l'évaluation

Le CAISI du NIST — son Centre de sécurité et d'innovation en IA — a soumis DeepSeek V4 Pro à une série de benchmarks privés. L'agence n'a pas rendu ces benchmarks publics. Ce qu'elle a révélé, en revanche, est un filtre de comparaison des coûts qui a restreint les modèles concurrents à un seul représentant américain : GPT-5.4 mini. Tous les autres modèles américains ont été exclus de la comparaison.

Pourquoi ce filtre est important

Ce filtre suscite les plus vives critiques. En opposant DeepSeek V4 Pro uniquement à une version plus petite et moins coûteuse de GPT-5 — plutôt qu'à l'ensemble des modèles de pointe américains — l'évaluation crée un champ de confrontation très limité. Le gouvernement américain a cité ces résultats pour affirmer que les meilleurs systèmes d'IA chinois restent en retrait par rapport à ceux développés aux États-Unis. Mais les critiques estiment que cette méthodologie rend cette affirmation difficile à prendre au premier degré.

Des experts qualifient la méthodologie de « commode »

Certains chercheurs et observateurs du secteur contestent la validité de cette évaluation. Ils décrivent ce filtre comme « commode » — un terme suggérant que la comparaison a été conçue pour aboutir à un résultat favorable aux États-Unis. En excluant les autres modèles américains, l'évaluation évite des confrontations plus exigeantes qui pourraient montrer que DeepSeek V4 Pro se rapproche — voire égale — les principaux systèmes américains. Les critiques ne remettent pas en cause les données brutes des benchmarks. Ils contestent simplement l'interprétation que le gouvernement en fait.

Ce que le NIST n'a pas dit

Le NIST n'a pas expliqué pourquoi il a choisi ce filtre de comparaison des coûts ni pourquoi il a exclu tous les modèles américains, à l'exception de GPT-5.4 mini. L'agence n'a pas non plus publié les benchmarks privés utilisés, rendant impossible pour les chercheurs externes de reproduire cette analyse. Sans cette transparence, l'affirmation du gouvernement selon laquelle l'IA chinoise accuse un retard repose sur une méthodologie que même les observateurs bienveillants peinent à défendre.

La question sans réponse : le NIST publiera-t-il la méthodologie complète et les benchmarks afin que le public puisse se forger sa propre opinion ? Pour l'instant, silence.

La configuration de l'évaluation

Pourquoi ce filtre est important

Des experts qualifient la méthodologie de « commode »

Ce que le NIST n'a pas dit

Articles Connexes