Kritiker hinterfragen NISTs DeepSeek V4 Pro-Bewertung nach Ausschluss US-amerikanischer Modelle

Das CAISI-Team des National Institute of Standards and Technology bewertete Chinas DeepSeek V4 Pro mithilfe privater Benchmarks – jedoch erst nach Anwendung eines Kostenvergleichsfilters, der alle US-AI-Modelle außer OpenAIs GPT-5.4 mini ausschloss. Die US-Regierung behauptet, die Ergebnisse beweisen, dass Chinas beste KI den amerikanischen Gegenstücken weiterhin unterlegen ist. Nicht alle sind davon überzeugt.

Der Evaluierungsrahmen

NISTs CAISI – sein Center for AI Safety and Innovation – führte DeepSeek V4 Pro durch eine Reihe privater Benchmarks. Die Behörde veröffentlichte diese Benchmarks nicht öffentlich. Offen gelegt wurde hingegen ein Kostenvergleichsfilter, der das Feld der konkurrierenden Modelle auf einen einzigen US-Teilnehmer einengte: GPT-5.4 mini. Alle anderen US-Modelle wurden von dem Vergleich ausgeschlossen.

Warum der Filter wichtig ist

Dieser Filter steht besonders unter Beobachtung. Indem DeepSeek V4 Pro lediglich gegen eine kleinere, günstigere Version von GPT-5 antritt – statt gegen die gesamte Palette US-amerikanischer Frontier-Modelle – schafft die Evaluierung ein eingeschränktes Spielfeld. Die US-Regierung verwies auf die Ergebnisse, um zu behaupten, dass Chinas beste KI-Systeme den in den Vereinigten Staaten entwickelten unterlegen sind. Kritiker argumentieren jedoch, dass die Methodik diese Behauptung schwer nachvollziehbar macht.

Experten bezeichnen die Methodik als „zweckdienlich“

Einige Forscher und Beobachter der Branche hinterfragen die Validität der gesamten Übung. Sie beschreiben den Filter als „zweckdienlich“ – ein Begriff, der nahelegt, dass der Vergleich so konstruiert wurde, um ein für die US-Seite günstiges Ergebnis zu erzielen. Durch den Ausschluss konkurrierender US-Modelle vermeidet die Evaluierung schwierigere Vergleiche, die zeigen könnten, dass DeepSeek V4 Pro den führenden amerikanischen Systemen näher kommt – oder sogar gleichwertig ist. Die Kritiker bestreiten nicht die rohen Benchmark-Daten. Sie bezweifeln vielmehr, ob diese Daten das bedeuten, was die Regierung behauptet.

Was NIST nicht gesagt hat

NIST hat nicht erklärt, warum es den Kostenvergleichsfilter wählte oder warum alle US-Modelle außer GPT-5.4 mini ausgeschlossen wurden. Die Behörde hat auch die verwendeten privaten Benchmarks nicht veröffentlicht, was es externen Forschern unmöglich macht, die Arbeit nachzuvollziehen. Ohne diese Transparenz beruht die Regierungsbehauptung, dass die chinesische KI zurückliegt, auf einer Methodik, die selbst wohlwollende Beobachter schwer verteidigen können. Die unbeantwortete Frage: Wird NIST die vollständige Methodik und die Benchmarks veröffentlichen, sodass die Öffentlichkeit selbst urteilen kann? Bislang herrscht Stille.

Der Evaluierungsrahmen

Warum der Filter wichtig ist

Experten bezeichnen die Methodik als „zweckdienlich“

Was NIST nicht gesagt hat

Ähnliche Artikel