Loading market data...

Kritikere stiller spørgsmålstegn ved NIST's evaluering af DeepSeek V4 Pro efter udelukkelse af amerikanske modeller

Kritikere stiller spørgsmålstegn ved NIST's evaluering af DeepSeek V4 Pro efter udelukkelse af amerikanske modeller

CAISI-teamet fra National Institute of Standards and Technology (NIST) evaluerede Kinas DeepSeek V4 Pro ved hjælp af private benchmarks – men først efter et omkostningssammenligningsfilter, der udelukkede alle amerikanske AI-modeller undtagen OpenAIs GPT-5.4 mini. Den amerikanske regering siger, at resultaterne beviser, at Kinas bedste AI stadig halter bagefter amerikanske modparter. Ikke alle køber den påstand.

Opsætningen af evalueringen

NIST's CAISI – Center for AI Safety and Innovation – testede DeepSeek V4 Pro gennem en række private benchmarks. Agenturet offentliggjorde ikke disse benchmarks offentligt. Det, de oplyste, var et omkostningssammenligningsfilter, der indsnævrede feltet af konkurrerende modeller til kun én amerikansk deltager: GPT-5.4 mini. Alle andre amerikanske modeller blev udelukket fra sammenligningen.

Hvorfor filteret betyder noget

Det er dette filter, der tiltrækker mest opmærksomhed. Ved at stille DeepSeek V4 Pro op mod kun en mindre, billigere version af GPT-5 – frem for hele rækken af amerikanske frontløbermodeller – skaber evalueringen en snæver spillebane. Den amerikanske regering brugte resultaterne til at hævde, at Kinas bedste AI-systemer halter bagefter dem, der er udviklet i USA. Men kritikere siger, at metodikken gør det svært at tage påstanden for pålydende.

Eksperter kalder metodikken 'bekvem'

Nogle forskere og brancheobservatører sætter spørgsmålstegn ved validiteten af hele øvelsen. De beskriver filteret som 'bekvemt' – et udtryk, der antyder, at sammenligningen var konstrueret til at give et gunstigt resultat for den amerikanske side. Ved at udelukke konkurrerende amerikanske modeller undgår evalueringen hårdere sammenligninger, der kunne vise DeepSeek V4 Pro præstere tættere på – eller endda på niveau med – førende amerikanske systemer. Kritikerne bestrider ikke rå benchmarkdata. De bestrider, om disse data betyder, hvad regeringen siger, de gør.

Hvad NIST ikke har sagt

NIST har ikke forklaret, hvorfor de valgte omkostningssammenligningsfilteret, eller hvorfor de udelukkede alle amerikanske modeller undtagen GPT-5.4 mini. Agenturet har heller ikke offentliggjort de private benchmarks, de brugte, hvilket gør det umuligt for eksterne forskere at replikere arbejdet. Uden den gennemsigtighed hviler regeringens påstand om, at kinesisk AI halter bagefter, på en metodik, som selv venligtsindede observatører har svært ved at forsvare.

Det ubesvarede spørgsmål: Vil NIST offentliggøre den fulde metodik og benchmarks, så offentligheden selv kan vurdere? Indtil videre: tavshed.