Критики ставлять під сумнів оцінку NIST DeepSeek V4 Pro після виключення американських моделей

Команда CAISI Національного інституту стандартів і технологій (NIST) оцінила китайську модель DeepSeek V4 Pro за допомогою приватних бенчмарків — але лише після застосування фільтра порівняння вартості, який виключив усі американські моделі ШІ, крім OpenAI GPT-5.4 mini. Уряд США стверджує, що результати доводять: найкращий китайський ШІ все ще відстає від американських аналогів. Не всі в це вірять.

Налаштування оцінювання

CAISI — Центр безпеки та інновацій у сфері ШІ при NIST — провів серію приватних бенчмарків для DeepSeek V4 Pro. Агентство не оприлюднило ці бенчмарки публічно. Що воно розкрило — це фільтр порівняння вартості, який звузив коло конкуруючих моделей до єдиного американського учасника: GPT-5.4 mini. Усі інші американські моделі були виключені з порівняння.

Чому фільтр має значення

Саме цей фільтр викликає найбільше запитань. Протиставляючи DeepSeek V4 Pro лише меншій і дешевшій версії GPT-5, а не повній лінійці передових американських моделей, оцінювання створює вузьке поле для порівняння. Уряд США використав результати, щоб стверджувати, що найкращі китайські системи ШІ відстають від тих, що розроблені в Сполучених Штатах. Але критики кажуть, що методологія робить це твердження важко сприймати за чисту монету.

Експерти називають методологію «зручною»

Деякі дослідники та спостерігачі галузі ставлять під сумнів обґрунтованість усього експерименту. Вони описують фільтр як «зручний» — термін, який натякає на те, що порівняння було сконструйоване для отримання вигідного для американської сторони результату. Виключаючи конкуруючі американські моделі, оцінювання уникає складніших порівнянь, які могли б показати, що DeepSeek V4 Pro працює ближче до провідних американських систем — або навіть нарівні з ними. Критики не заперечують сирі дані бенчмарків. Вони заперечують, чи означають ці дані те, що стверджує уряд.

Чого NIST не сказав

NIST не пояснив, чому обрав фільтр порівняння вартості або чому виключив усі американські моделі, крім GPT-5.4 mini. Агентство також не оприлюднило приватні бенчмарки, які використовувало, що унеможливлює для сторонніх дослідників повторення роботи. Без такої прозорості твердження уряду про відставання китайського ШІ спирається на методологію, яку навіть прихильні спостерігачі насилу можуть захистити.

Невирішене питання: чи оприлюднить NIST повну методологію та бенчмарки, щоб громадськість могла судити сама? Поки що — мовчання.

Налаштування оцінювання

Чому фільтр має значення

Експерти називають методологію «зручною»

Чого NIST не сказав

Related Articles