미국 모델 배제 후 NIST의 DeepSeek V4 Pro 평가에 비판 제기

국립표준기술연구소(NIST)의 CAISI 팀은 비공개 벤치마크를 사용해 중국의 DeepSeek V4 Pro를 평가했습니다. 하지만 비용 비교 필터를 적용한 결과, 미국 AI 모델 중 OpenAI의 GPT-5.4 mini만 남고 나머지는 모두 배제되었습니다. 미국 정부는 이 결과가 중국 최고의 AI가 미국 경쟁사에 여전히 뒤처져 있음을 입증한다고 밝혔습니다. 하지만 모든 사람이 이를 믿는 것은 아닙니다.

평가 설정

NIST의 CAISI(인공지능 안전 및 혁신 센터)는 일련의 비공개 벤치마크를 통해 DeepSeek V4 Pro를 테스트했습니다. 해당 기관은 이 벤치마크를 공개하지 않았습니다. 공개된 것은 비용 비교 필터로, 이 필터는 경쟁 모델을 단 하나의 미국 모델인 GPT-5.4 mini로 좁혔습니다. 다른 모든 미국 모델은 비교에서 제외되었습니다.

필터의 중요성

이 필터가 가장 큰 논란을 불러일으키고 있습니다. DeepSeek V4 Pro를 미국의 모든 최첨단 모델이 아닌 더 작고 저렴한 GPT-5 버전과만 비교함으로써, 평가는 좁은 범위에서 이루어졌습니다. 미국 정부는 이 결과를 인용해 중국 최고의 AI 시스템이 미국에서 개발된 시스템에 뒤처진다고 주장했습니다. 그러나 비판론자들은 방법론상 이 주장을 액면 그대로 받아들이기 어렵다고 말합니다.

전문가들, 방법론을 '편의적'이라고 평가

일부 연구자와 업계 관찰자들은 전체 평가의 타당성에 의문을 제기합니다. 그들은 이 필터를 '편의적'이라고 표현하며, 이는 미국 측에 유리한 결과를 내도록 비교가 조작되었음을 암시합니다. 경쟁 미국 모델을 배제함으로써, 평가는 DeepSeek V4 Pro가 선도적인 미국 시스템에 더 근접하거나 동등한 성능을 보일 수 있는 더 까다로운 비교를 피했습니다. 비판론자들은 원시 벤치마크 데이터 자체를 부정하는 것이 아닙니다. 그들이 문제 삼는 것은 그 데이터가 정부가 주장하는 의미를 가지는지 여부입니다.

NIST가 밝히지 않은 사항

NIST는 비용 비교 필터를 선택한 이유나 GPT-5.4 mini를 제외한 모든 미국 모델을 배제한 이유를 설명하지 않았습니다. 또한 사용된 비공개 벤치마크를 공개하지 않아 외부 연구자들이 작업을 재현할 수 없습니다. 이러한 투명성 부재 속에서, 중국 AI가 뒤처졌다는 정부의 주장은 우호적인 관찰자조차 방어하기 어려운 방법론에 기반하고 있습니다.

미해결 질문: NIST가 전체 방법론과 벤치마크를 공개하여 대중이 스스로 판단할 수 있게 할 것인가? 현재까지는 침묵입니다.

평가 설정

필터의 중요성

전문가들, 방법론을 '편의적'이라고 평가

NIST가 밝히지 않은 사항

Related Articles