Kritikusok kérdőjelezik meg a NIST DeepSeek V4 Pro értékelését az amerikai modellek kizárása után

A Nemzeti Szabványok és Technológiai Intézet (NIST) CAISI csoportja magánjellegű benchmarkokat használva értékelte a kínai DeepSeek V4 Pro modellt – de csak egy költség-összehasonlító szűrő alkalmazása után, amely minden amerikai AI modellt kizárt, kivéve az OpenAI GPT-5.4 mini-jét. Az amerikai kormány szerint az eredmények bizonyítják, hogy Kína legjobb mesterséges intelligenciája még mindig lemarad az amerikai vetélytársaitól. Nem mindenki hiszi el ezt.

Az értékelési kialakítás

A NIST CAISI — az AI Biztonsági és Innovációs Központja — a DeepSeek V4 Pro modellt magánjellegű benchmarkokon tesztelte. Az ügynökség nem tette közzé nyilvánosan ezeket a benchmarkokat. Ami nyilvánosságra került, az egy költség-összehasonlító szűrő volt, amely a versenyző modellek körét egyetlen amerikai résztvevőre szűkítette: a GPT-5.4 mini-re. Minden más amerikai modellt kizártak az összehasonlításból.

Miért fontos a szűrő

Ez a szűrő kiváltja a legnagyobb figyelmet. A DeepSeek V4 Pro csak a GPT-5 kisebb, olcsóbb változatával — nem pedig az amerikai vezető modellek teljes palettájával — való összehasonlítása miatt az értékelés korlátozott keretet hoz létre. Az amerikai kormány az eredményeket idézve állítja, hogy Kína legjobb AI rendszerei lemaradnak az amerikai fejlesztésektől. A kritikusok azonban úgy vélik, hogy a módszer miatt nehéz komolyan venni ezt az állítást.

Szakértők „kényelmesnek” nevezik a módszertant

Egyes kutatók és iparfigyelők kérdőjelezik meg a teljes gyakorlat érvényességét. A szűrőt „kényelmesnek” nevezik — egy kifejezés, amely arra utal, hogy az összehasonlítást úgy alakították ki, hogy kedvező eredményt hozzon az amerikai oldal számára. Az amerikai versenymodellek kizárásával az értékelés elkerüli az olyan nehezebb összehasonlításokat, amelyek esetleg azt mutatnák, hogy a DeepSeek V4 Pro közelebb áll — vagy akár egyenlő szinten van — a vezető amerikai rendszerekkel. A kritikusok nem vitatják a nyers benchmark adatokat. Azt vitatják, hogy az adatok valóban azt jelentik-e, amit a kormány állít.

Amit a NIST nem mondott el

A NIST nem magyarázta meg, miért választotta a költség-összehasonlító szűrőt, vagy miért zárták ki minden amerikai modellt, kivéve a GPT-5.4 mini-t. Az intézet továbbá nem tette közzé a használt magánjellegű benchmarkokat, így külső kutatók számára lehetetlen megismételni a munkát. Az átláthatatlanság miatt a kormány kínai AI lemaradására vonatkozó állítása egy olyan módszertanra épül, amelyet még a baráti megfigyelők is nehezen tudnak védelmezni.

A megválaszolatlan kérdés: kiadja-e a NIST a teljes módszertant és benchmarkokat, hogy a közönség maga is meg tudja ítélni? Eddig csend.

Az értékelési kialakítás

Miért fontos a szűrő

Szakértők „kényelmesnek” nevezik a módszertant

Amit a NIST nem mondott el

Related Articles