Críticos cuestionan la evaluación del NIST a DeepSeek V4 Pro tras excluir modelos estadounidenses

El equipo CAISI del Instituto Nacional de Estándares y Tecnología evaluó el DeepSeek V4 Pro de China utilizando pruebas de referencia privadas, pero solo después de aplicar un filtro de comparación de costos que excluyó a todos los modelos de IA de EE. UU., excepto el GPT-5.4 mini de OpenAI. El gobierno de EE. UU. afirma que los resultados demuestran que la mejor IA de China aún está rezagada frente a sus contrapartes estadounidenses. No todos están convencidos.

La configuración de la evaluación

El CAISI del NIST —su Centro para la Seguridad e Innovación en IA— sometió al DeepSeek V4 Pro a una serie de pruebas de referencia privadas. La agencia no hizo públicas esas pruebas. Lo que sí reveló fue un filtro de comparación de costos que redujo el campo de modelos competidores a solo un participante estadounidense: GPT-5.4 mini. Todos los demás modelos de EE. UU. fueron excluidos de la comparación.

Por qué el filtro es importante

Ese filtro es el que atrae la mayor atención. Al enfrentar a DeepSeek V4 Pro solo contra una versión más pequeña y económica de GPT-5 —en lugar de la gama completa de modelos fronterizos estadounidenses— la evaluación crea un campo de juego reducido. El gobierno de EE. UU. citó los resultados para afirmar que los mejores sistemas de IA de China están por detrás de los desarrollados en Estados Unidos. Pero los críticos dicen que la metodología hace que esa afirmación sea difícil de tomar al pie de la letra.

Expertos califican la metodología de 'conveniente'

Algunos investigadores y observadores de la industria cuestionan la validez de todo el ejercicio. Describen el filtro como 'conveniente' —un término que sugiere que la comparación fue diseñada para producir un resultado favorable para el lado estadounidense. Al excluir modelos competidores de EE. UU., la evaluación evita comparaciones más difíciles que podrían mostrar al DeepSeek V4 Pro rindiendo más cerca —o incluso a la par— de los sistemas estadounidenses líderes. Los críticos no discuten los datos brutos de las pruebas. Lo que discuten es si esos datos significan lo que el gobierno dice que significan.

Lo que el NIST no ha dicho

El NIST no ha explicado por qué eligió el filtro de comparación de costos ni por qué excluyó todos los modelos de EE. UU. excepto GPT-5.4 mini. La agencia tampoco ha publicado las pruebas de referencia privadas que utilizó, lo que hace imposible que investigadores externos repliquen el trabajo. Sin esa transparencia, la afirmación del gobierno sobre el rezago de la IA china se basa en una metodología que incluso observadores amigos tienen dificultades para defender.

La pregunta sin respuesta: ¿publicará el NIST la metodología completa y las pruebas de referencia para que el público pueda juzgar por sí mismo? Hasta ahora, silencio.

La configuración de la evaluación

Por qué el filtro es importante

Expertos califican la metodología de 'conveniente'

Lo que el NIST no ha dicho

Artículos Relacionados