Critics Question NIST

The evaluation setup

NIST's CAISI — its Center for AI Safety and Innovation — ran DeepSeek V4 Pro through a series of private benchmarks. The agency didn't release those benchmarks publicly. What it did disclose was a cost-comparison filter that narrowed the field of competing models to just one US entrant: GPT-5.4 mini. Every other US model was excluded from the comparison.

" Translation: "

Η ρύθμιση της αξιολόγησης

Το CAISI του NIST — το Κέντρο για την Ασφάλεια και την Καινοτομία στην Τεχνητή Νοημοσύνη — υπέβαλε το DeepSeek V4 Pro σε μια σειρά ιδιωτικών σημείων αναφοράς. Ο οργανισμός δεν δημοσιοποίησε αυτά τα σημεία αναφοράς. Αυτό που αποκάλυψε ήταν ένα φίλτρο σύγκρισης κόστους που περιόρισε το πεδίο των ανταγωνιστικών μοντέλων σε μόνο έναν αμερικανικό συμμετέχοντα: το GPT-5.4 mini. Κάθε άλλο αμερικανικό μοντέλο αποκλείστηκε από τη σύγκριση.

" Note: "Center for AI Safety and Innovation" -> "Κέντρο για την Ασφάλεια και την Καινοτομία στην Τεχνητή Νοημοσύνη". "ran through" -> "υπέβαλε σε". "narrowed the field" -> "περιόρισε το πεδίο". "entrant" -> "συμμετέχοντα". Third paragraph: "

Why the filter matters

That filter is drawing the most scrutiny. By pitting DeepSeek V4 Pro against only a smaller, cheaper version of GPT-5 — rather than the full lineup of US frontier models — the evaluation creates a narrow playing field. The US government cited the results to assert that China's best AI systems lag behind those developed in the United States. But critics say the methodology makes that claim hard to take at face value.

" Translation: "

Γιατί έχει σημασία το φίλτρο

Αυτό το φίλτρο προσελκύει τον περισσότερο έλεγχο. Αντιπαραθέτοντας το DeepSeek V4 Pro μόνο με μια μικρότερη, φθηνότερη έκδοση του GPT-5 — αντί για την πλήρη σειρά των αμερικανικών μοντέλων αιχμής — η αξιολόγηση δημιουργεί ένα στενό πεδίο δράσης. Η αμερικανική κυβέρνηση επικαλέστηκε τα αποτελέσματα για να ισχυριστεί ότι τα καλύτερα συστήματα AI της Κίνας υστερούν σε σχέση με εκείνα που αναπτύχθηκαν στις Ηνωμένες Πολιτείες. Αλλά οι κριτικοί λένε ότι η μεθοδολογία καθιστά δύσκολο να ληφθεί αυτός ο ισχυρισμός στην ονομαστική του αξία.

" Note: "drawing the most scrutiny" -> "προσελκύει τον περισσότερο έλεγχο". "pitting against" -> "αντιπαραθέτοντας με". "frontier models" -> "μοντέλων αιχμής". "lag behind" -> "υστερούν σε σχέση με". "take at face value" -> "ληφθεί στην ονομαστική του αξία" (idiomatic). Fourth paragraph: "

Experts call the methodology 'convenient'

Some researchers and industry watchers question the validity of the whole exercise. They describe the filter as 'convenient' — a term that suggests the comparison was engineered to produce a favorable outcome for the US side. By excluding competing US models, the evaluation avoids harder comparisons that might show DeepSeek V4 Pro performing closer to — or even on par with — leading American systems. The critics aren't disputing the raw benchmark data. They're disputing whether that data means what the government says it means.

" Translation: "

Οι ειδικοί χαρακτηρίζουν τη μεθοδολογία 'βολική'

Ορισμένοι ερευνητές και παρατηρητές του κλάδου αμφισβητούν την εγκυρότητα ολόκληρης της άσκησης. Περιγράφουν το φίλτρο ως 'βολικό' — ένας όρος που υποδηλώνει ότι η σύγκριση σχεδιάστηκε για να παράγει ένα ευνοϊκό αποτέλεσμα για την αμερικανική πλευρά. Αποκλείοντας ανταγωνιστικά αμερικανικά μοντέλα, η αξιολόγηση αποφεύγει πιο δύσκολες συγκρίσεις που θα μπορούσαν να δείξουν το DeepSeek V4 Pro να αποδίδει πιο κοντά — ή ακόμα και στο ίδιο επίπεδο — με κορυφαία αμερικανικά συστήματα. Οι κριτικοί δεν αμφισβητούν τα ακατέργαστα δεδομένα των σημείων αναφοράς. Αμφισβητούν αν αυτά τα δεδομένα σημαίνουν αυτό που λέει

The evaluation setup

Η ρύθμιση της αξιολόγησης

Why the filter matters

Γιατί έχει σημασία το φίλτρο

Experts call the methodology 'convenient'

Οι ειδικοί χαρακτηρίζουν τη μεθοδολογία 'βολική'

Related Articles