Kritiker ifrågasätter NIST:s utvärdering av DeepSeek V4 Pro efter uteslutning av amerikanska modeller

National Institute of Standards and Technologys CAISI-team utvärderade Kinas DeepSeek V4 Pro med hjälp av privata riktmärken – men först efter ett kostnadsjämförelsefilter som uteslöt alla amerikanska AI-modeller utom OpenAI:s GPT-5.4 mini. Den amerikanska regeringen säger att resultaten bevisar att Kinas bästa AI fortfarande ligger efter amerikanska motsvarigheter. Alla är inte övertygade.

Utvärderingsupplägget

NIST:s CAISI – dess Center for AI Safety and Innovation – körde DeepSeek V4 Pro genom en serie privata riktmärken. Myndigheten offentliggjorde inte dessa riktmärken. Vad den däremot avslöjade var ett kostnadsjämförelsefilter som begränsade fältet av konkurrerande modeller till endast en amerikansk deltagare: GPT-5.4 mini. Alla andra amerikanska modeller uteslöts från jämförelsen.

Varför filtret är viktigt

Det filtret drar mest uppmärksamhet. Genom att ställa DeepSeek V4 Pro endast mot en mindre, billigare version av GPT-5 – snarare än hela uppställningen av amerikanska frontmodeller – skapar utvärderingen en snäv spelplan. Den amerikanska regeringen hänvisade till resultaten för att hävda att Kinas bästa AI-system släpar efter dem som utvecklats i USA. Men kritiker menar att metodiken gör påståendet svårt att ta för givet.

Experter kallar metodiken 'bekväm'

Vissa forskare och branschbevakare ifrågasätter hela övningens giltighet. De beskriver filtret som 'bekvämt' – en term som antyder att jämförelsen konstruerades för att ge ett gynnsamt resultat för den amerikanska sidan. Genom att utesluta konkurrerande amerikanska modeller undviker utvärderingen svårare jämförelser som kanske skulle visa att DeepSeek V4 Pro presterar närmare – eller till och med i nivå med – ledande amerikanska system. Kritikerna ifrågasätter inte rådata från riktmärkena. De ifrågasätter om dessa data betyder vad regeringen säger att de betyder.

Vad NIST inte har sagt

NIST har inte förklarat varför myndigheten valde kostnadsjämförelsefiltret eller varför den uteslöt alla amerikanska modeller utom GPT-5.4 mini. Myndigheten har inte heller offentliggjort de privata riktmärken som användes, vilket gör det omöjligt för externa forskare att replikera arbetet. Utan den transparensen vilar regeringens påstående om att kinesisk AI ligger efter på en metodik som även vänligt sinnade observatörer har svårt att försvara.

Den obesvarade frågan: kommer NIST att offentliggöra hela metodiken och riktmärkena så att allmänheten kan bedöma själv? Hittills har det varit tyst.

Utvärderingsupplägget

Varför filtret är viktigt

Experter kallar metodiken 'bekväm'

Vad NIST inte har sagt

Related Articles