Eleştirmenler, ABD Modellerinin Hariç Tutulmasının Ardından NIST'in DeepSeek V4 Pro Değerlendirmesini Sorguluyor

Ulusal Standartlar ve Teknoloji Enstitüsü'nün CAISI ekibi, Çin'in DeepSeek V4 Pro modelini özel kıyaslama testleri kullanarak değerlendirdi — ancak sadece OpenAI'nin GPT-5.4 mini hariç tüm ABD yapay zeka modellerini dışlayan bir maliyet-karşılaştırma filtresinden sonra. ABD hükümeti, sonuçların Çin'in en iyi yapay zekasının hâlâ Amerikan rakiplerinin gerisinde olduğunu kanıtladığını iddia ediyor. Herkes bunu kabul etmiyor.

Değerlendirme düzeni

NIST'in CAISI — Yapay Zeka Güvenliği ve İnovasyon Merkezi — DeepSeek V4 Pro'yu bir dizi özel kıyaslama testinden geçirdi. Kurum bu kıyaslama testlerini kamuya açıklamadı. Açıkladığı şey, yarışan modellerin alanını sadece bir ABD girdisi olan GPT-5.4 mini'ye daraltan bir maliyet-karşılaştırma filtresiydi. Diğer tüm ABD modelleri karşılaştırmadan hariç tutuldu.

Filtrenin önemi

Bu filtre en fazla eleştiriye konu oluyor. DeepSeek V4 Pro'yu GPT-5'in daha küçük ve ucuz bir sürümüyle — ABD'nin öncü modellerinin tam yelpazesinin yerine — karşılaştırarak değerlendirme dar bir sahne oluşturuyor. ABD hükümeti, sonuçları Çin'in en iyi yapay zeka sistemlerinin ABD'de geliştirilenlerin gerisinde olduğunu iddia etmek için referans gösterdi. Ancak eleştirmenler, metodolojinin bu iddiayı yüzeyde kabul etmeyi zorlaştırdığını söylüyor.

Uzmanlar metodolojiyi 'uygun' olarak nitelendiriyor

Bazı araştırmacılar ve sektör izleyicileri, tüm çalışmanın geçerliliğini sorguluyor. Filtreyi 'uygun' olarak tanımlıyorlar — bu terim, karşılaştırmanın ABD tarafı için olumlu bir sonuç üretmek üzere tasarlandığını ima ediyor. Rakip ABD modellerini dışlayarak değerlendirme, DeepSeek V4 Pro'nun önde gelen Amerikan sistemlerine daha yakın — hatta eşit — performans göstermesini gösterebilecek daha zor karşılaştırmalardan kaçınıyor. Eleştirmenler ham kıyaslama verilerini değil, bu verilerin hükümetin iddia ettiği şeyi temsil edip etmediğini tartışıyor.

NIST'in söylemediği şeyler

NIST, neden maliyet-karşılaştırma filtresini seçtiğini veya GPT-5.4 mini dışında tüm ABD modellerini neden hariç tuttuğunu açıklamadı. Kurum ayrıca kullandığı özel kıyaslama testlerini de yayımlamadı, bu da dış araştırmacıların çalışmayı tekrarlamasını imkansız hale getiriyor. Bu şeffaflık olmadan, Çin yapay zekasının geride olduğu yönündeki hükümet iddiası, hatta dost gözlemcilerin bile savunması zor olan bir metodolojiye dayanıyor. Cevaplanmamış soru: NIST, kamuoyunun kendi başına karar verebilmesi için tam metodolojiyi ve kıyaslama testlerini yayımlayacak mı? Şimdiye kadar sessizlik.

Değerlendirme düzeni

Filtrenin önemi

Uzmanlar metodolojiyi 'uygun' olarak nitelendiriyor

NIST'in söylemediği şeyler

İlgili Haberler