قام فريق CAISI التابع للمعهد الوطني للمعايير والتكنولوجيا (NIST) بتقييم نموذج DeepSeek V4 Pro الصيني باستخدام مقاييس مقارنة خاصة — ولكن بعد تطبيق مرشح مقارنة التكلفة الذي استبعد جميع النماذج الأمريكية للذكاء الاصطناعي باستثناء GPT-5.4 mini من OpenAI. وتقول الحكومة الأمريكية إن النتائج تثبت أن أفضل نموذج صيني للذكاء الاصطناعي لا يزال يتخلف عن نظيره الأمريكي. لكن ليس الجميع يقتنعون بذلك.
إعداد التقييم
قام فريق CAISI التابع لـ NIST، وهو مركز السلامة والابتكار في الذكاء الاصطناعي، بخضوع نموذج DeepSeek V4 Pro لسلسلة من مقاييس المقارنة الخاصة. لم تنشر الوكالة هذه المقاييس علنًا. ما كشفت عنه هو مرشح مقارنة التكلفة الذي ضيق نطاق النماذج المنافسة ليشمل مشاركًا أمريكيًا واحدًا فقط: GPT-5.4 mini. وتم استبعاد جميع النماذج الأمريكية الأخرى من المقارنة.
لماذا يهم المرشح
هذا المرشح يجذب أشد الانتقادات. من خلال مواجهة DeepSeek V4 Pro مع إصدار أصغر وأرخص من GPT-5 فقط — بدلًا من المجموعة الكاملة من النماذج الرائدة الأمريكية — يخلق التقييم مجالًا محدودًا للمقارنة. وذكرت الحكومة الأمريكية النتائج لتأكيد أن أفضل أنظمة الذكاء الاصطناعي الصينية تتخلف عن تلك المطورة في الولايات المتحدة. لكن النقاد يقولون إن المنهجية تجعل هذا الادعاء صعب التصديق عليه دون تدقيق.
يصف الخبراء المنهجية بأنها 'ملائمة'
يتساءل بعض الباحثين ومراقبو الصناعة حول صحة هذا التمرين بأكمله. ويصفون المرشح بأنه 'ملائم' — مصطلح يشير إلى أن المقارنة تم تصميمها لتوليد نتيجة مواتية للجانب الأمريكي. من خلال استبعاد النماذج الأمريكية المنافسة، يتجنب التقييم مقارنات أصعب قد تظهر أن DeepSeek V4 Pro تؤدي بشكل أقرب — أو حتى مساوي — للأنظمة الأمريكية الرائدة. النقاد لا يختلفون حول البيانات الأولية للمقاييس، بل يختلفون حول ما إذا كانت هذه البيانات تعني ما تقوله الحكومة أنها تعني.
ما لم تصرح به NIST
لم توضح NIST سبب اختيارها لمرشح مقارنة التكلفة أو سبب استبعاد جميع النماذج الأمريكية باستثناء GPT-5.4 mini. كما لم تنشر الوكالة المقاييس الخاصة التي استخدمتها، مما يجعل من المستحيل على الباحثين الخارجيين إعادة إجراء الدراسة. دون هذه الشفافية، يعتمد ادعاء الحكومة حول تأخر الذكاء الاصطناعي الصيني على منهجية يصعب حتى على المراقبين المتعاطفين معها دعمها.
السؤال الذي لم يُجب عنه: هل ستنشر NIST المنهجية الكاملة والمقاييس حتى يتمكن الجمهور من الحكم بنفسه؟ حتى الآن، الصمت.




