Kriitikot kyseenalaistavat NIST:n DeepSeek V4 Pro -arvioinnin Yhdysvaltalaismallien poissulkemisen jälkeen

National Institute of Standards and Technologyn CAISI-tiimi arvioi Kiinan DeepSeek V4 Pro -mallia yksityisillä benchmarkeilla – mutta vasta kustannusvertailusuodattimen jälkeen, joka sulki pois kaikki Yhdysvaltain tekoälymallit paitsi OpenAI:n GPT-5.4 minin. Yhdysvaltain hallituksen mukaan tulokset osoittavat, että Kiinan paras tekoäly on edelleen jäljessä amerikkalaisista vastineistaan. Kaikki eivät osta tätä väitettä.

Arvioinnin asetelma

NIST:n CAISI – sen tekoälyn turvallisuuden ja innovaation keskus – testasi DeepSeek V4 Pro:n sarjalla yksityisiä benchmarkkeja. Virasto ei julkaissut näitä benchmarkkeja julkisesti. Se, mitä se paljasti, oli kustannusvertailusuodatin, joka kavensi kilpailevien mallien joukon yhteen Yhdysvaltain ehdokkaaseen: GPT-5.4 miniin. Kaikki muut Yhdysvaltain mallit suljettiin vertailun ulkopuolelle.

Miksi suodatin on merkityksellinen

Tämä suodatin herättää eniten huomiota. Asettamalla DeepSeek V4 Pro vastakkain vain pienemmän ja halvemman GPT-5-version kanssa – sen sijaan että se olisi verrannut koko Yhdysvaltain huippumallien valikoimaa – arviointi luo kapean pelikentän. Yhdysvaltain hallitus viittasi tuloksiin väittääkseen, että Kiinan parhaat tekoälyjärjestelmät ovat jäljessä Yhdysvalloissa kehitetyistä. Kriitikot kuitenkin sanovat, että menetelmä tekee väitteestä vaikeasti uskottavan.

Asiantuntijat kutsuvat menetelmää 'sopivaksi'

Jotkut tutkijat ja alan tarkkailijat kyseenalaistavat koko harjoituksen pätevyyden. He kuvailevat suodatinta 'sopivaksi' – termi, joka viittaa siihen, että vertailu on suunniteltu tuottamaan Yhdysvaltain kannalta suotuisa tulos. Sulkemalla pois kilpailevat Yhdysvaltain mallit arviointi välttää vaikeampia vertailuja, jotka saattaisivat osoittaa DeepSeek V4 Pro:n suoriutuvan lähempänä – tai jopa samalla tasolla – johtavien amerikkalaisten järjestelmien kanssa. Kriitikot eivät kiistä raakaa benchmark-dataa. He kiistävät sen, tarkoittaako data sitä, mitä hallitus väittää sen tarkoittavan.

Mitä NIST ei ole kertonut

NIST ei ole selittänyt, miksi se valitsi kustannusvertailusuodattimen tai miksi se sulki pois kaikki Yhdysvaltain mallit paitsi GPT-5.4 minin. Virasto ei myöskään ole julkaissut käyttämiään yksityisiä benchmarkkeja, mikä tekee mahdottomaksi ulkopuolisten tutkijoiden toistaa työtä. Ilman tätä läpinäkyvyyttä hallituksen väite kiinalaisen tekoälyn jälkeenjääneisyydestä perustuu menetelmään, jota edes ystävällismieliset tarkkailijat eivät pysty puolustamaan.

Vastaamaton kysymys: julkaiseeko NIST täyden menetelmän ja benchmarkit, jotta yleisö voi itse arvioida? Toistaiseksi vain hiljaisuus.

Arvioinnin asetelma

Miksi suodatin on merkityksellinen

Asiantuntijat kutsuvat menetelmää 'sopivaksi'

Mitä NIST ei ole kertonut

Related Articles