National Institute of Standards and Technologys CAISI-team evaluerte Kinas DeepSeek V4 Pro ved hjelp av private referansetester – men først etter et kostnadssammenligningsfilter som utelukket alle amerikanske AI-modeller unntatt OpenAIs GPT-5.4 mini. USAs regjering sier resultatene beviser at Kinas beste AI fortsatt henger etter amerikanske motparter. Ikke alle kjøper det.
Oppsettet for evalueringen
NISTs CAISI – senteret for AI-sikkerhet og innovasjon – kjørte DeepSeek V4 Pro gjennom en serie private referansetester. Etaten offentliggjorde ikke disse testene offentlig. Det den avslørte var et kostnadssammenligningsfilter som snevret inn feltet av konkurrerende modeller til kun én amerikansk deltaker: GPT-5.4 mini. Hver eneste andre amerikanske modell ble utelukket fra sammenligningen.
Hvorfor filteret har betydning
Det er dette filteret som vekker mest oppmerksomhet. Ved å sette DeepSeek V4 Pro opp mot kun en mindre, billigere versjon av GPT-5 – i stedet for hele spekteret av amerikanske frontmodeller – skaper evalueringen en smal konkurransearena. USAs regjering siterte resultatene for å hevde at Kinas beste AI-systemer ligger etter de som er utviklet i USA. Men kritikere sier metodikken gjør påstanden vanskelig å ta på alvor.
Eksperter kaller metodikken «beleilig»
Noen forskere og bransjeobservatører stiller spørsmål ved hele øvelsens gyldighet. De beskriver filteret som «beleilig» – et begrep som antyder at sammenligningen var konstruert for å gi et gunstig utfall for USAs side. Ved å utelukke konkurrerende amerikanske modeller unngår evalueringen vanskeligere sammenligninger som kunne vist at DeepSeek V4 Pro presterer nærmere – eller til og med på nivå med – ledende amerikanske systemer. Kritikerne bestrider ikke rådataene fra testene. De bestrider hvorvidt dataene betyr det regjeringen sier de betyr.
Hva NIST ikke har sagt
NIST har ikke forklart hvorfor de valgte kostnadssammenligningsfilteret eller hvorfor de utelukket alle amerikanske modeller unntatt GPT-5.4 mini. Etaten har heller ikke offentliggjort de private referansetestene den brukte, noe som gjør det umulig for eksterne forskere å gjenskape arbeidet. Uten den åpenheten hviler regjeringens påstand om at kinesisk AI henger etter på en metodikk som selv vennligsinnede observatører har vanskelig for å forsvare.
Det ubesvarte spørsmålet: Vil NIST offentliggjøre hele metodikken og referansetestene slik at publikum kan dømme selv? Så langt: stillhet.




