Ulusal Standartlar ve Teknoloji Enstitüsü'nün CAISI ekibi, Çin'in DeepSeek V4 Pro modelini özel kıyaslama testleri kullanarak değerlendirdi — ancak sadece OpenAI'nin GPT-5.4 mini hariç tüm ABD yapay zeka modellerini dışlayan bir maliyet-karşılaştırma filtresinden sonra. ABD hükümeti, sonuçların Çin'in en iyi yapay zekasının hâlâ Amerikan rakiplerinin gerisinde olduğunu kanıtladığını iddia ediyor. Herkes bunu kabul etmiyor.
Değerlendirme düzeni
NIST'in CAISI — Yapay Zeka Güvenliği ve İnovasyon Merkezi — DeepSeek V4 Pro'yu bir dizi özel kıyaslama testinden geçirdi. Kurum bu kıyaslama testlerini kamuya açıklamadı. Açıkladığı şey, yarışan modellerin alanını sadece bir ABD girdisi olan GPT-5.4 mini'ye daraltan bir maliyet-karşılaştırma filtresiydi. Diğer tüm ABD modelleri karşılaştırmadan hariç tutuldu.
Filtrenin önemi
Bu filtre en fazla eleştiriye konu oluyor. DeepSeek V4 Pro'yu GPT-5'in daha küçük ve ucuz bir sürümüyle — ABD'nin öncü modellerinin tam yelpazesinin yerine — karşılaştırarak değerlendirme dar bir sahne oluşturuyor. ABD hükümeti, sonuçları Çin'in en iyi yapay zeka sistemlerinin ABD'de geliştirilenlerin gerisinde olduğunu iddia etmek için referans gösterdi. Ancak eleştirmenler, metodolojinin bu iddiayı yüzeyde kabul etmeyi zorlaştırdığını söylüyor.
Uzmanlar metodolojiyi 'uygun' olarak nitelendiriyor
Bazı araştırmacılar ve sektör izleyicileri, tüm çalışmanın geçerliliğini sorguluyor. Filtreyi 'uygun' olarak tanımlıyorlar — bu terim, karşılaştırmanın ABD tarafı için olumlu bir sonuç üretmek üzere tasarlandığını ima ediyor. Rakip ABD modellerini dışlayarak değerlendirme, DeepSeek V4 Pro'nun önde gelen Amerikan sistemlerine daha yakın — hatta eşit — performans göstermesini gösterebilecek daha zor karşılaştırmalardan kaçınıyor. Eleştirmenler ham kıyaslama verilerini değil, bu verilerin hükümetin iddia ettiği şeyi temsil edip etmediğini tartışıyor.
NIST'in söylemediği şeyler
NIST, neden maliyet-karşılaştırma filtresini seçtiğini veya GPT-5.4 mini dışında tüm ABD modellerini neden hariç tuttuğunu açıklamadı. Kurum ayrıca kullandığı özel kıyaslama testlerini de yayımlamadı, bu da dış araştırmacıların çalışmayı tekrarlamasını imkansız hale getiriyor. Bu şeffaflık olmadan, Çin yapay zekasının geride olduğu yönündeki hükümet iddiası, hatta dost gözlemcilerin bile savunması zor olan bir metodolojiye dayanıyor. Cevaplanmamış soru: NIST, kamuoyunun kendi başına karar verebilmesi için tam metodolojiyi ve kıyaslama testlerini yayımlayacak mı? Şimdiye kadar sessizlik.




