批评者质疑NIST对DeepSeek V4 Pro的评估：排除美国模型后得出中国AI落后的结论

美国国家标准与技术研究院（NIST）的CAISI团队使用私有基准测试评估了中国DeepSeek V4 Pro——但在此之前，他们通过一项成本比较过滤器排除了除OpenAI的GPT-5.4 mini之外的所有美国AI模型。美国政府称结果显示中国最优秀的AI仍落后于美国同行。但并非所有人都买账。

评估设置

NIST的CAISI（即其人工智能安全与创新中心）对DeepSeek V4 Pro进行了一系列私有基准测试。该机构未公开这些基准测试。它所披露的是一项成本比较过滤器，该过滤器将竞争模型的范围缩小到仅剩一个美国参赛者：GPT-5.4 mini。所有其他美国模型都被排除在比较之外。

过滤器为何重要

该过滤器正受到最多质疑。通过让DeepSeek V4 Pro仅与GPT-5的较小、较便宜版本（而非完整的美国前沿模型阵容）进行对比，评估创造了一个狭窄的竞争环境。美国政府引用这些结果来声称中国最好的AI系统落后于美国开发的系统。但批评者表示，这种方法论使得这一说法难以令人信服。

专家称该方法论“方便”

一些研究人员和行业观察者对整个评估的有效性提出质疑。他们将过滤器描述为“方便”——这个词暗示比较是为了让美方获得有利结果而精心设计的。通过排除其他竞争性美国模型，评估避免了更困难的比较，而这些比较可能会显示DeepSeek V4 Pro的表现接近甚至媲美领先的美国系统。批评者并非质疑原始基准数据本身，而是质疑这些数据是否如政府所言具有那样的意义。

NIST未说明的内容

NIST尚未解释为何选择成本比较过滤器，以及为何排除除GPT-5.4 mini之外的所有美国模型。该机构也未公开所使用的私有基准测试，这使得外部研究人员无法重复验证。缺乏透明度的情况下，政府关于中国AI落后的说法基于一种连友好观察者都难以辩护的方法论。

悬而未决的问题是：NIST是否会公布完整的方法论和基准测试，让公众自行判断？目前，沉默依旧。

评估设置

过滤器为何重要

专家称该方法论“方便”

NIST未说明的内容

相关文章