Criticii pun sub semnul întrebării evaluarea DeepSeek V4 Pro de către NIST după excluderea modelelor americane

Echipa CAISI a Institutului Național de Standarde și Tehnologie a evaluat DeepSeek V4 Pro din China folosind benchmarkuri private – dar numai după un filtru de comparare a costurilor care a exclus toate modelele americane de AI, cu excepția GPT-5.4 mini de la OpenAI. Guvernul SUA susține că rezultatele demonstrează că cel mai bun AI al Chinei rămâne în urma omologilor americani. Nu toată lumea este convinsă.

Configurația evaluării

CAISI – Centrul pentru Siguranța și Inovarea în AI al NIST – a testat DeepSeek V4 Pro printr-o serie de benchmarkuri private. Agenția nu a făcut publice aceste benchmarkuri. Ceea ce a dezvăluit a fost un filtru de comparare a costurilor care a redus numărul modelelor concurente la un singur participant american: GPT-5.4 mini. Toate celelalte modele americane au fost excluse din comparație.

De ce contează filtrul

Acest filtru atrage cea mai mare atenție. Punând DeepSeek V4 Pro față în față doar cu o versiune mai mică și mai ieftină a GPT-5 – în loc de întreaga gamă de modele americane de frontieră – evaluarea creează un teren restrâns. Guvernul SUA a invocat rezultatele pentru a susține că cele mai bune sisteme de AI ale Chinei sunt în urma celor dezvoltate în Statele Unite. Dar criticii spun că metodologia face ca această afirmație să fie greu de luat de bună.

Experții numesc metodologia „convenabilă”

Unii cercetători și observatori din industrie pun la îndoială validitatea întregului exercițiu. Ei descriu filtrul drept „convenabil” – un termen care sugerează că comparația a fost concepută pentru a produce un rezultat favorabil părții americane. Excluzând modelele americane concurente, evaluarea evită comparații mai dificile care ar putea arăta că DeepSeek V4 Pro se apropie sau chiar egalează sistemele americane de top. Criticii nu contestă datele brute ale benchmarkurilor. Ei contestă dacă acele date înseamnă ceea ce spune guvernul că înseamnă.

Ce nu a spus NIST

NIST nu a explicat de ce a ales filtrul de comparare a costurilor sau de ce a exclus toate modelele americane, cu excepția GPT-5.4 mini. De asemenea, agenția nu a publicat benchmarkurile private pe care le-a folosit, ceea ce face imposibil pentru cercetătorii externi să reproducă munca. Fără această transparență, afirmația guvernului despre întârzierea AI-ului chinez se bazează pe o metodologie pe care chiar și observatorii binevoitori o găsesc greu de apărat.

Întrebarea fără răspuns: va publica NIST metodologia completă și benchmarkurile, astfel încât publicul să poată judeca singur? Până acum, tăcere.

Configurația evaluării

De ce contează filtrul

Experții numesc metodologia „convenabilă”

Ce nu a spus NIST

Related Articles