Critici trekken NIST's DeepSeek V4 Pro-evaluatie in twijfel na uitsluiting van Amerikaanse modellen

Het CAISI-team van het National Institute of Standards and Technology evalueerde China's DeepSeek V4 Pro met behulp van privébenchmarks — maar pas nadat een kostenvergelijkingfilter elk Amerikaans AI-model behalve OpenAI's GPT-5.4 mini uitsloot. De Amerikaanse overheid stelt dat de resultaten bewijzen dat China's beste AI nog steeds achterblijft bij Amerikaanse tegenhangers. Niet iedereen neemt dat voor zoete koek aan.

De opzet van de evaluatie

NIST's CAISI — het Center for AI Safety and Innovation — liet DeepSeek V4 Pro een reeks privébenchmarks doorlopen. Het agentschap maakte die benchmarks niet openbaar. Wat het wel bekendmaakte, was een kostenvergelijkingfilter dat het veld van concurrerende modellen beperkte tot slechts één Amerikaanse deelnemer: GPT-5.4 mini. Alle andere Amerikaanse modellen werden uitgesloten van de vergelijking.

Waarom het filter ertoe doet

Dat filter trekt de meeste aandacht. Door DeepSeek V4 Pro alleen te laten concurreren met een kleinere, goedkopere versie van GPT-5 — in plaats van met het volledige scala aan Amerikaanse grensverleggende modellen — creëert de evaluatie een smal speelveld. De Amerikaanse overheid verwees naar de resultaten om te beweren dat China's beste AI-systemen achterblijven bij die welke in de Verenigde Staten zijn ontwikkeld. Maar critici zeggen dat de methodologie die bewering moeilijk voor waar aan te nemen maakt.

Experts noemen de methodologie 'handig'

Sommige onderzoekers en industrie-watchers betwijfelen de validiteit van de hele oefening. Ze omschrijven het filter als 'handig' — een term die suggereert dat de vergelijking zo was opgezet om een gunstige uitkomst voor de Amerikaanse kant te produceren. Door concurrerende Amerikaanse modellen uit te sluiten, vermijdt de evaluatie moeilijkere vergelijkingen die zouden kunnen laten zien dat DeepSeek V4 Pro dichter bij — of zelfs op gelijke hoogte met — toonaangevende Amerikaanse systemen presteert. De critici betwisten de ruwe benchmarkdata niet. Ze betwisten of die data betekent wat de overheid zegt dat het betekent.

Wat NIST niet heeft gezegd

NIST heeft niet uitgelegd waarom het voor het kostenvergelijkingfilter koos of waarom het alle Amerikaanse modellen behalve GPT-5.4 mini uitsloot. Het agentschap heeft ook de gebruikte privébenchmarks niet vrijgegeven, waardoor het voor externe onderzoekers onmogelijk is om het werk te repliceren. Zonder die transparantie rust de bewering van de overheid over achterblijvende Chinese AI op een methodologie die zelfs welwillende waarnemers moeilijk kunnen verdedigen.

De onbeantwoorde vraag: zal NIST de volledige methodologie en benchmarks vrijgeven zodat het publiek zelf kan oordelen? Tot nu toe: stilte.

De opzet van de evaluatie

Waarom het filter ertoe doet

Experts noemen de methodologie 'handig'

Wat NIST niet heeft gezegd

Related Articles