Các nhà phê bình đặt câu hỏi về đánh giá DeepSeek V4 Pro của NIST sau khi loại trừ các mô hình Mỹ

Nhóm CAISI của Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) đã đánh giá DeepSeek V4 Pro của Trung Quốc bằng các điểm chuẩn riêng tư — nhưng chỉ sau một bộ lọc so sánh chi phí đã loại trừ mọi mô hình AI của Mỹ ngoại trừ GPT-5.4 mini của OpenAI. Chính phủ Mỹ cho rằng kết quả chứng minh AI tốt nhất của Trung Quốc vẫn thua kém các đối thủ Mỹ. Không phải ai cũng tin điều đó.

Thiết lập đánh giá

CAISI của NIST — Trung tâm An toàn và Đổi mới AI — đã đưa DeepSeek V4 Pro qua một loạt điểm chuẩn riêng tư. Cơ quan này không công bố các điểm chuẩn đó ra công chúng. Điều họ tiết lộ là một bộ lọc so sánh chi phí đã thu hẹp nhóm các mô hình cạnh tranh chỉ còn một đại diện Mỹ: GPT-5.4 mini. Mọi mô hình Mỹ khác đều bị loại khỏi so sánh.

Tại sao bộ lọc lại quan trọng

Bộ lọc đó đang thu hút nhiều sự chú ý nhất. Bằng cách chỉ so sánh DeepSeek V4 Pro với một phiên bản nhỏ hơn, rẻ hơn của GPT-5 — thay vì toàn bộ các mô hình tiên tiến của Mỹ — đánh giá này tạo ra một sân chơi hẹp. Chính phủ Mỹ đã trích dẫn kết quả để khẳng định rằng các hệ thống AI tốt nhất của Trung Quốc tụt hậu so với những hệ thống được phát triển tại Mỹ. Nhưng các nhà phê bình cho rằng phương pháp luận khiến tuyên bố đó khó có thể được chấp nhận một cách dễ dàng.

Các chuyên gia gọi phương pháp luận là 'tiện lợi'

Một số nhà nghiên cứu và nhà quan sát trong ngành đặt câu hỏi về tính hợp lệ của toàn bộ bài tập này. Họ mô tả bộ lọc là 'tiện lợi' — một thuật ngữ ám chỉ rằng sự so sánh được thiết kế để tạo ra kết quả có lợi cho phía Mỹ. Bằng cách loại trừ các mô hình Mỹ cạnh tranh, đánh giá tránh được những so sánh khó khăn hơn có thể cho thấy DeepSeek V4 Pro hoạt động gần hơn — hoặc thậm chí ngang bằng — với các hệ thống hàng đầu của Mỹ. Các nhà phê bình không phủ nhận dữ liệu điểm chuẩn thô. Họ đang tranh luận liệu dữ liệu đó có ý nghĩa như chính phủ tuyên bố hay không.

Những gì NIST chưa nói

NIST chưa giải thích tại sao họ chọn bộ lọc so sánh chi phí hoặc tại sao họ loại trừ tất cả các mô hình Mỹ ngoại trừ GPT-5.4 mini. Cơ quan này cũng chưa công bố các điểm chuẩn riêng tư đã sử dụng, khiến các nhà nghiên cứu bên ngoài không thể tái tạo công trình. Nếu không có sự minh bạch đó, tuyên bố của chính phủ về việc AI Trung Quốc tụt hậu dựa trên một phương pháp luận mà ngay cả những người quan sát thiện chí cũng khó bảo vệ.

Câu hỏi chưa được trả lời: liệu NIST có công bố đầy đủ phương pháp luận và điểm chuẩn để công chúng tự đánh giá? Cho đến nay, vẫn im lặng.

Thiết lập đánh giá

Tại sao bộ lọc lại quan trọng

Các chuyên gia gọi phương pháp luận là 'tiện lợi'

Những gì NIST chưa nói

Related Articles