Loading market data...

Technology

Critics Question NIST

By GFdaily Newsroom

NIST DeepSeek V4 Pro AI evaluation GPT-5.4 mini China AI methodology criticism

May 11, 2026 5 min read

Read in:🇺🇸 English 🇹🇷 Türkçe 🇦🇱 Shqip 🇸🇦 العربية 🇫🇷 Français 🇩🇪 Deutsch 🇪🇸 Español 🇮🇹 Italiano 🇧🇷 Português 🇨🇳 中文 🇯🇵 日本語 🇷🇴 Română 🇩🇰 Dansk 🇳🇴 Norsk 🇫🇮 Suomi 🇬🇷 Ελληνικά 🇻🇳 Tiếng Việt 🇮🇱 עברית 🇰🇷 한국어 🇮🇩 Bahasa Indonesia 🇮🇳 हिन्दी 🇲🇾 Bahasa Melayu 🇺🇦 Українська 🇳🇱 Nederlands 🇵🇱 Polski 🇨🇿 Čeština 🇭🇺 Magyar 🇸🇪 Svenska

Critics Question NIST

,

. Ensure accurate numbers: "GPT-5.4 mini" stays. Let's translate paragraph by paragraph. Title: "Kritici zpochybňují hodnocení DeepSeek V4 Pro ze strany NIST po vyloučení amerických modelů" (or "Kritici se ptají na hodnocení...") Content: First paragraph: "The National Institute of Standards and Technology's CAISI team evaluated China's DeepSeek V4 Pro using private benchmarks — but only after a cost-comparison filter that excluded every US AI model except OpenAI's GPT-5.4 mini. The US government says the results prove China's best AI still trails American counterparts. Not everyone is buying it." Translation: "Tým CAISI (Centrum pro bezpečnost a inovace v AI) Národního institutu pro standardy a technologie (NIST) hodnotil čínský model DeepSeek V4 Pro pomocí soukromých benchmarků – avšak až po aplikování filtru srovnání nákladů, který vyloučil všechny americké modely AI kromě GPT-5.4 mini od OpenAI. Americká vláda tvrdí, že výsledky dokazují, že nejlepší čínská AI stále zaostává za svými americkými protějšky. Ne každý to však kupuje." Note: Keep "CAISI" as is, but maybe explain? Original says "NIST's CAISI — its Center for AI Safety and Innovation". In later h2, we have that. For first paragraph, we can keep "CAISI" without translation, but in Czech we might add "jeho Centrum pro bezpečnost a inovace v AI" in parentheses. However, to avoid repetition, we can keep as in original: "NIST's CAISI team" -> "tým CAISI NIST". But original says "National Institute of Standards and Technology's CAISI team" - we can translate institute name: "Národní institut pro standardy a technologie (NIST)". But careful: in Czech, we often keep NIST as acronym. I'll write: "Tým CAISI (Centrum pro bezpečnost a inovace v AI) Národního institutu pro standardy a technologie (NIST) hodnotil..." Second h2: "The evaluation setup" -> "Nastavení hodnocení" Paragraph: "NIST's CAISI — its Center for AI Safety and Innovation — ran DeepSeek V4 Pro through a series of private benchmarks. The agency didn't release those benchmarks publicly. What it did disclose was a cost-comparison filter that narrowed the field of competing models to just one US entrant: GPT-5.4 mini. Every other US model was excluded from the comparison." Translation: "CAISI NIST – jeho Centrum pro bezpečnost a inovace v AI – otestoval DeepSeek V4 Pro na sérii soukromých benchmarků. Agentura tyto benchmarky nezveřejnila. To, co zveřejnila, byl filtr srovnání nákladů, který zúžil pole konkurenčních modelů pouze na jednoho amerického účastníka: GPT-5.4 mini. Všechny ostatní americké modely byly ze srovnání vyloučeny." Third h2: "Why the filter matters" -> "Proč na filtru záleží" Paragraph: "That filter is drawing the most scrutiny. By pitting DeepSeek V4 Pro against only a smaller, cheaper version of GPT-5 — rather than the full lineup of US frontier models — the evaluation creates a narrow playing field. The US government cited the results to assert that China's best AI systems lag behind those developed in the United States. But critics say the methodology makes that claim hard to take at face value." Translation: "Tento filtr přitahuje největší pozornost. Tím, že DeepSeek V4 Pro postavil pouze proti menší, levnější verzi GPT-5 – namísto celé řady amerických špičkových modelů – vytváří hodnocení úzké hrací pole. Americká vláda se na výsledky odvolávala s tvrzením, že nejlepší čínské systémy AI zaostávají za těmi vyvinutými ve Spojených státech. Kritici však tvrdí, že metodika toto tvrzení ztěžuje brát doslovně." Fourth h2: "Experts call the methodology 'convenient'" -> "Odborníci označují metodiku za 'výhodnou'" Paragraph: "Some researchers and industry watchers question the validity of the whole exercise. They describe the filter as 'convenient' — a term that suggests the comparison was engineered to produce a favorable outcome for the US side. By excluding competing US models, the evaluation avoids harder comparisons that might show DeepSeek V4 Pro performing closer to — or even on par with — leading American systems. The critics aren't disputing the raw benchmark data. They're disputing whether that data means what the government says it means." Translation: "Někteří výzkumníci a pozorovatelé z oboru zpochybňují platnost celého cvičení. Filtr označují za 'výhodný' – termín, který naznačuje, že srovnání bylo zkonstruováno tak, aby přineslo příznivý výsledek pro americkou stranu. Vyloučením konkurenčních amerických modelů se hodnocení vyhýbá tvrdším srovnáním, která by mohla ukázat, že DeepSeek V4 Pro se blíží výkonnosti předních amerických systémů, nebo je dokonce dorovnává. Kritici nezpochybňují samotná data benchmarků. Zpochybňují, zda tato data znamenají to, co vláda tvrdí." Fifth h2: "What NIST hasn't said" -> "Co NIST neřekl" Paragraph: "NIST hasn't explained why it chose the cost-comparison filter or why it excluded all US models except GPT-5.4 mini. The agency also hasn't released the private benchmarks it used, making it impossible for outside researchers to replicate the work. Without that transparency, the government's claim about Chinese AI lagging rests on a methodology that even friendly observers have trouble defending." Translation: "NIST nevysvětlil, proč zvolil filtr srovnání nákladů ani proč vyloučil všechny americké modely kromě GPT-5.4 mini. Agentura také nezveřejnila soukromé benchmarky, které použila, což znemožňuje externím výzkumníkům práci zopakovat. Bez této transparentnosti stojí vládní tvrzení o zaostávání čínské AI na metodice, kterou mají problém obhájit i přátelští pozorovatelé." Final paragraph: "The unanswered question: will NIST release the full methodology and benchmarks so the public can judge for itself? So far, silence." Translation: "Nezodpovězená otázka: zveřejní NIST úplnou metodiku a benchmarky, aby si veřejnost mohla udělat vlastní úsudek? Zatím ticho." Meta description: "NIST's evaluation of DeepSeek V4 Pro excluded all US AI models except GPT-5.4 mini, leading critics to question the methodology and the government's claim about Chinese AI lagging." Translation: "Hodnocení DeepSeek V4 Pro ze strany NIST vyloučilo všechny americké modely AI