מבקרים מטילים ספק בהערכת NIST ל-DeepSeek V4 Pro לאחר הדרת מודלים אמריקאיים

צוות CAISI של המכון הלאומי לתקנים וטכנולוגיה (NIST) העריך את DeepSeek V4 Pro הסיני באמצעות מדדים פרטיים – אך רק לאחר סינון השוואת עלויות שהדיר את כל מודלי הבינה המלאכותית האמריקאיים מלבד GPT-5.4 mini של OpenAI. ממשלת ארה"ב טוענת שהתוצאות מוכיחות שהבינה המלאכותית הטובה ביותר של סין עדיין מפגרת אחרי מקבילותיה האמריקאיות. לא כולם קונים את זה.

מסגרת ההערכה

CAISI של NIST – המרכז לבטיחות וחדשנות בבינה מלאכותית – הריץ את DeepSeek V4 Pro דרך סדרת מדדים פרטיים. הסוכנות לא פרסמה את המדדים הללו בפומבי. מה שהיא כן חשפה היה סינון השוואת עלויות שהצמצם את שדה המודלים המתחרים לכניסה אמריקאית אחת בלבד: GPT-5.4 mini. כל מודל אמריקאי אחר הודר מההשוואה.

מדוע הסינון משנה

הסינון הזה הוא שמושך את מירב תשומת הלב. בכך שמעמידים את DeepSeek V4 Pro מול גרסה קטנה וזולה יותר של GPT-5 – במקום מול המערך המלא של מודלי החזית האמריקאיים – ההערכה יוצרת מגרש משחקים מצומצם. ממשלת ארה"ב ציטטה את התוצאות כדי לטעון שמערכות הבינה המלאכותית הטובות ביותר של סין מפגרות אחרי אלו שפותחו בארצות הברית. אך המבקרים אומרים שהמתודולוגיה מקשה על קבלת הטענה הזו כפשוטה.

מומחים מכנים את המתודולוגיה 'נוחה'

כמה חוקרים ומשקיפים בתעשייה מטילים ספק בתקפותו של כל התרגיל. הם מתארים את הסינון כ'נוח' – מונח המרמז על כך שההשוואה תוכננה להניב תוצאה חיובית לצד האמריקאי. על ידי הדרת מודלים אמריקאיים מתחרים, ההערכה נמנעת מהשוואות קשות יותר שאולי היו מראות את DeepSeek V4 Pro מתקרב לביצועים של מערכות אמריקאיות מובילות – או אפילו משתווה להן. המבקרים אינם חולקים על נתוני המדדים הגולמיים. הם חולקים על השאלה האם נתונים אלה אומרים מה שהממשלה אומרת שהם אומרים.

מה NIST לא אמרה

NIST לא הסבירה מדוע בחרה בסינון השוואת העלויות או מדוע הדירה את כל המודלים האמריקאיים מלבד GPT-5.4 mini. הסוכנות גם לא פרסמה את המדדים הפרטיים שבהם השתמשה, מה שהופך את זה לבלתי אפשרי עבור חוקרים חיצוניים לשחזר את העבודה. ללא שקיפות זו, טענת הממשלה לפיה הבינה המלאכותית הסינית מפגרת נשענת על מתודולוגיה שגם משקיפים ידידותיים מתקשים להגן עליה.

השאלה שנותרה ללא מענה: האם NIST תפרסם את המתודולוגיה המלאה ואת המדדים כדי שהציבור יוכל לשפוט בעצמו? עד כה – שתיקה.

מסגרת ההערכה

מדוע הסינון משנה

מומחים מכנים את המתודולוגיה 'נוחה'

מה NIST לא אמרה

Related Articles