The evaluation setup
NIST's CAISI — its Center for AI Safety and Innovation — ran DeepSeek V4 Pro through a series of private benchmarks. The agency didn't release those benchmarks publicly. What it did disclose was a cost-comparison filter that narrowed the field of competing models to just one US entrant: GPT-5.4 mini. Every other US model was excluded from the comparison.
Translation:Konfigurimi i vlerësimit
CAISI i NIST — Qendra e tij për Sigurinë dhe Inovacionin e AI — kaloi DeepSeek V4 Pro nëpër një seri standardesh private. Agjencia nuk i publikoi ato standarde publikisht. Ajo që zbuloi ishte një filtër krahasimi i kostove që ngushtoi fushën e modeleve konkurruese në vetëm një pjesëmarrës amerikan: GPT-5.4 mini. Çdo model tjetër amerikan u përjashtua nga krahasimi.
Note: "The evaluation setup" -> "Konfigurimi i vlerësimit" (or "Rregullimi i vlerësimit"? "Setup" can be "konfigurim" or "vendosje". I'll use "Konfigurimi". "ran through" -> "kaloi nëpër". "a series of private benchmarks" -> "një seri standardesh private". "What it did disclose" -> "Ajo që zbuloi". "narrowed the field" -> "ngushtoi fushën". "US entrant" -> "pjesëmarrës amerikan". "Every other US model" -> "Çdo model tjetër amerikan". Third paragraph:Why the filter matters
That filter is drawing the most scrutiny. By pitting DeepSeek V4 Pro against only a smaller, cheaper version of GPT-5 — rather than the full lineup of US frontier models — the evaluation creates a narrow playing field. The US government cited the results to assert that China's best AI systems lag behind those developed in the United States. But critics say the methodology makes that claim hard to take at face value.
Translation:Pse ka rëndësishëm filtri
Ai filtër po tërheq vëmendjen më të madhe. Duke vënë DeepSeek V4 Pro përballë vetëm një versioni më të vogël dhe më të lirë të GPT-5 — në vend të grupit të plotë të modeleve kufitare amerikane — vlerësimi krijon një fushë të ngushtë loje. Qeveria amerikane i përmendi rezultatet për të pohuar se sistemet më të mira të AI të Kinës mbeten pas atyre të zhvilluara në Shtetet e Bashkuara. Por kritikët thonë se metodologjia e bën atë pretendim të vështirë për t'u marrë ashtu siç paraqitet.
Note: "drawing the most scrutiny" -> "po tërheq vëmendjen më të madhe" (or "po tërheq më shumë shqyrtim"? I think "vëmendje" is fine). "pitting against" -> "duke vënë përballë". "full lineup" -> "grupi i plotë". "frontier models" -> "modele kufitare" (or "modele të avancuara"? "Frontier" in AI context often means cutting-edge. I'll use "kufitare" as a direct translation but might be ambiguous. Better: "modelet më të përparuara amerikane"? But "frontier models" is a term. I'll keep "modele kufitare" and assume context. Alternatively "modele të nivelit të lartë". I'll go with "modele kufitare" as it's used in Albanian tech writing. "narrow playing field" -> "fushë të ngushtë loje". "cited the results" -> "i përmendi rezultatet". "lag behind" -> "mbeten pas". "take at face value" -> "të marrë ashtu siç paraqitet" (idiomatic). Fourth paragraph:Experts call the methodology 'convenient'
Some researchers and industry watchers question the validity of the whole exercise. They describe the filter as 'convenient' — a term that suggests the comparison was engineered to produce a favorable outcome for the US side. By excluding competing US models, the evaluation avoids harder comparisons that might show DeepSeek V4 Pro performing closer to — or even on par with — leading American systems. The critics aren't disputing the raw benchmark data. They're disputing whether that data means what the government says it means.
Translation:Ekspertët e quajnë metodologjinë 'të përshtatshme'
Disa studiues dhe vëzhgues të industrisë vënë në dyshim vlefshmërinë e gjithë ushtrimit. Ata e përshkruajnë filtrin si 'të përshtatshëm' — një term që sugjeron se krahasimi ishte projektuar për të prodhuar një rezultat të favorshëm për palën amerikane. Duke përjashtuar modelet konkurruese amerikane, v




