I critici mettono in dubbio la valutazione del DeepSeek V4 Pro da parte del NIST dopo l'esclusione dei modelli statunitensi

Il team CAISI del National Institute of Standards and Technology ha valutato il DeepSeek V4 Pro cinese utilizzando benchmark privati, ma solo dopo un filtro di confronto dei costi che ha escluso tutti i modelli di intelligenza artificiale statunitensi, eccetto GPT-5.4 mini di OpenAI. Il governo USA sostiene che i risultati dimostrano che la migliore IA cinese è ancora in ritardo rispetto alle controparti americane. Non tutti ci credono.

L'impostazione della valutazione

Il CAISI del NIST — il suo Centro per la Sicurezza e l'Innovazione dell'IA — ha sottoposto DeepSeek V4 Pro a una serie di benchmark privati. L'agenzia non ha reso pubblici tali benchmark. Ciò che ha divulgato è stato un filtro di confronto dei costi che ha ristretto il campo dei modelli concorrenti a un solo partecipante statunitense: GPT-5.4 mini. Ogni altro modello USA è stato escluso dal confronto.

Perché il filtro è importante

È proprio quel filtro ad attirare maggiori critiche. Mettendo DeepSeek V4 Pro contro solo una versione più piccola ed economica di GPT-5 — anziché l'intera gamma dei modelli di frontiera statunitensi — la valutazione crea un campo di gioco ristretto. Il governo USA ha citato i risultati per affermare che i migliori sistemi di IA cinesi sono in ritardo rispetto a quelli sviluppati negli Stati Uniti. Ma i critici sostengono che la metodologia renda difficile prendere questa affermazione per buona.

Gli esperti definiscono la metodologia 'comoda'

Alcuni ricercatori e osservatori del settore mettono in dubbio la validità dell'intero esercizio. Descrivono il filtro come 'comodo' — un termine che suggerisce che il confronto sia stato progettato per produrre un risultato favorevole alla parte statunitense. Escludendo i modelli concorrenti americani, la valutazione evita confronti più difficili che potrebbero mostrare DeepSeek V4 Pro più vicino — o addirittura alla pari — con i sistemi americani leader. I critici non contestano i dati grezzi dei benchmark. Contestano se quei dati significhino ciò che il governo afferma che significhino.

Ciò che il NIST non ha detto

Il NIST non ha spiegato perché ha scelto il filtro di confronto dei costi né perché ha escluso tutti i modelli statunitensi tranne GPT-5.4 mini. L'agenzia non ha nemmeno rilasciato i benchmark privati utilizzati, rendendo impossibile per i ricercatori esterni replicare il lavoro. Senza questa trasparenza, l'affermazione del governo secondo cui l'IA cinese è in ritardo si basa su una metodologia che persino osservatori benevoli faticano a difendere.

La domanda senza risposta: il NIST rilascerà la metodologia completa e i benchmark affinché il pubblico possa giudicare da sé? Finora, silenzio.

L'impostazione della valutazione

Perché il filtro è importante

Gli esperti definiscono la metodologia 'comoda'

Ciò che il NIST non ha detto

Articoli Correlati