Zespół CAISI Narodowego Instytutu Standardów i Technologii (NIST) ocenił chiński model DeepSeek V4 Pro przy użyciu prywatnych benchmarków – ale dopiero po zastosowaniu filtra porównania kosztów, który wykluczył wszystkie amerykańskie modele AI z wyjątkiem GPT-5.4 mini od OpenAI. Rząd USA twierdzi, że wyniki dowodzą, iż najlepsze chińskie AI wciąż odstaje od amerykańskich odpowiedników. Nie wszyscy w to wierzą.
Schemat oceny
Zespół CAISI NIST – czyli Centrum Bezpieczeństwa i Innowacji AI – przepuścił DeepSeek V4 Pro przez serię prywatnych benchmarków. Agencja nie upubliczniła tych testów. To, co ujawniła, to filtr porównania kosztów, który zawęził pole rywalizujących modeli do zaledwie jednego amerykańskiego kandydata: GPT-5.4 mini. Wszystkie pozostałe modele z USA zostały wykluczone z porównania.
Dlaczego filtr ma znaczenie
To właśnie ten filtr budzi największe wątpliwości. Konfrontując DeepSeek V4 Pro wyłącznie z mniejszą, tańszą wersją GPT-5 – a nie z pełną gamą amerykańskich modeli granicznych – ocena tworzy wąskie pole gry. Rząd USA powołał się na wyniki, aby stwierdzić, że najlepsze chińskie systemy AI pozostają w tyle za tymi opracowanymi w Stanach Zjednoczonych. Krytycy twierdzą jednak, że metodologia sprawia, iż trudno brać to twierdzenie za dobrą monetę.
Eksperci nazywają metodologię „wygodną”
Niektórzy badacze i obserwatorzy branży kwestionują zasadność całego przedsięwzięcia. Określają filtr jako „wygodny” – termin sugerujący, że porównanie zostało zaprojektowane tak, aby przynieść korzystny wynik dla strony amerykańskiej. Wykluczając konkurencyjne modele amerykańskie, ocena unika trudniejszych porównań, które mogłyby pokazać, że DeepSeek V4 Pro dorównuje lub nawet przewyższa wiodące systemy amerykańskie. Krytycy nie kwestionują surowych danych benchmarkowych. Kwestionują to, czy dane te oznaczają to, co twierdzi rząd.
Czego NIST nie ujawnił
NIST nie wyjaśnił, dlaczego wybrał filtr porównania kosztów ani dlaczego wykluczył wszystkie amerykańskie modele z wyjątkiem GPT-5.4 mini. Agencja nie opublikowała również prywatnych benchmarków, których użyła, co uniemożliwia zewnętrznym badaczom powtórzenie pracy. Bez tej przejrzystości rządowe twierdzenie o opóźnieniu chińskiego AI opiera się na metodologii, której nawet życzliwi obserwatorzy mają trudności z obroną.
Pozostaje pytanie bez odpowiedzi: czy NIST ujawni pełną metodologię i benchmarki, aby opinia publiczna mogła ocenić je samodzielnie? Na razie – cisza.



