米国モデル除外後のNISTのDeepSeek V4 Pro評価に批判の声

米国立標準技術研究所（NIST）のCAISIチームは、中国のDeepSeek V4 Proをプライベートベンチマークで評価した。しかし、その前にコスト比較フィルターを適用し、OpenAIのGPT-5.4 miniを除く全ての米国AIモデルを除外していた。米国政府は、この結果が中国の最高のAIは依然として米国の競合製品に劣ることを証明していると主張する。しかし、誰もがその主張を信じているわけではない。

評価の設定

NISTのCAISI（AI安全性・革新センター）は、DeepSeek V4 Proを一連のプライベートベンチマークで評価した。同機関はこれらのベンチマークを公開していない。公開されたのは、競合モデルの候補を1つの米国エントリー（GPT-5.4 mini）だけに絞り込んだコスト比較フィルターだった。他の全ての米国モデルは比較対象から除外された。

フィルターが重要な理由

このフィルターが最も注目を集めている。DeepSeek V4 Proを、米国の最先端モデルのフルラインナップではなく、GPT-5の小型で安価なバージョンとのみ対決させることで、評価は狭い競技場を作り出している。米国政府はこの結果を引用し、中国の最高のAIシステムは米国で開発されたものに劣ると主張した。しかし、批判者たちは、この方法論ではその主張を額面通りに受け取るのは難しいと述べている。

専門家は方法論を「都合が良い」と指摘

一部の研究者や業界ウォッチャーは、この実験全体の妥当性に疑問を呈している。彼らはフィルターを「都合が良い」と表現している。これは、比較が米国側に有利な結果を生み出すように仕組まれたことを示唆する言葉だ。競合する米国モデルを除外することで、評価はより厳しい比較を避けている。そのような比較があれば、DeepSeek V4 Proが主要な米国システムに近い、あるいは同等の性能を示す可能性もあっただろう。批判者たちは、生のベンチマークデータそのものに異議を唱えているわけではない。問題は、そのデータが政府の主張する意味を持つかどうかだ。

NISTが明らかにしていないこと

NISTは、なぜコスト比較フィルターを選んだのか、なぜGPT-5.4 mini以外の全ての米国モデルを除外したのかを説明していない。また、同機関は使用したプライベートベンチマークも公開しておらず、外部の研究者がその作業を再現することは不可能だ。その透明性の欠如により、中国のAIが遅れているという政府の主張は、友好的な観測者でさえ擁護するのが難しい方法論に依存している。

未回答の疑問：NISTは完全な方法論とベンチマークを公開し、国民が自ら判断できるようにするのか？今のところ、沈黙が続いている。

評価の設定

フィルターが重要な理由

専門家は方法論を「都合が良い」と指摘

NISTが明らかにしていないこと

関連記事