Pengkritik Menyoal Penilaian DeepSeek V4 Pro oleh NIST Selepas Pengecualian Model AS

Pasukan CAISI Institut Kebangsaan untuk Piawaian dan Teknologi menilai DeepSeek V4 Pro dari China menggunakan penanda aras peribadi — tetapi hanya selepas penapis perbandingan kos yang mengecualikan semua model AI AS kecuali GPT-5.4 mini OpenAI. Kerajaan AS mengatakan hasilnya membuktikan AI terbaik China masih ketinggalan di belakang rakan sejawat Amerika. Tidak semua orang menerimanya.

Persediaan penilaian

CAISI NIST — Pusat Keselamatan dan Inovasi AI — menjalankan DeepSeek V4 Pro melalui satu siri penanda aras peribadi. Agensi itu tidak mengeluarkan penanda aras tersebut secara umum. Apa yang didedahkan adalah penapis perbandingan kos yang mengecilkan bidang model bersaing kepada hanya satu penyertaan AS: GPT-5.4 mini. Setiap model AS yang lain dikecualikan daripada perbandingan.

Mengapa penapis itu penting

Penapis itu yang paling mendapat perhatian. Dengan mempertarungkan DeepSeek V4 Pro hanya dengan versi GPT-5 yang lebih kecil dan lebih murah — bukannya barisan penuh model sempadan AS — penilaian itu mewujudkan padang permainan yang sempit. Kerajaan AS memetik hasil tersebut untuk menegaskan bahawa sistem AI terbaik China ketinggalan di belakang yang dibangunkan di Amerika Syarikat. Tetapi pengkritik mengatakan metodologi itu membuatkan tuntutan tersebut sukar diterima secara langsung.

Pakar menyebut metodologi itu 'mudah'

Beberapa penyelidik dan pemerhati industri mempersoalkan kesahihan keseluruhan latihan ini. Mereka menyifatkan penapis itu sebagai 'mudah' — istilah yang mencadangkan perbandingan direka untuk menghasilkan hasil yang menguntungkan pihak AS. Dengan mengecualikan model AS yang bersaing, penilaian mengelakkan perbandingan yang lebih sukar yang mungkin menunjukkan DeepSeek V4 Pro berprestasi lebih dekat — atau setanding — dengan sistem Amerika terkemuka. Pengkritik tidak mempertikaikan data penanda aras mentah. Mereka mempertikaikan sama ada data itu bermaksud apa yang kerajaan katakan.

Apa yang tidak dinyatakan NIST

NIST tidak menjelaskan mengapa ia memilih penapis perbandingan kos atau mengapa ia mengecualikan semua model AS kecuali GPT-5.4 mini. Agensi itu juga tidak mengeluarkan penanda aras peribadi yang digunakannya, menjadikannya mustahil bagi penyelidik luar untuk mengulangi kerja tersebut. Tanpa ketelusan itu, tuntutan kerajaan tentang AI China yang ketinggalan bergantung pada metodologi yang sukar dipertahankan walaupun oleh pemerhati yang mesra.

Soalan yang tidak terjawab: adakah NIST akan mengeluarkan metodologi penuh dan penanda aras supaya orang ramai boleh menilai sendiri? Setakat ini, senyap.

Persediaan penilaian

Mengapa penapis itu penting

Pakar menyebut metodologi itu 'mudah'

Apa yang tidak dinyatakan NIST

Related Articles