Perplexity a început să deservească modele Qwen3 235B pe rack-uri Nvidia GB200, o mișcare care aduce câștiguri majore de performanță în inferență. Implementarea, raportată prima dată de Crypto Briefing, subliniază poziția de lider continuă a Nvidia în hardware-ul AI și ar putea schimba dinamica competitivă a servirii modelelor de mari dimensiuni.
Câștiguri de inferență pe GB200
Trecerea la rack-uri GB200 oferă Perplexity un impuls vizibil în viteza cu care poate rula modelul Qwen3 cu 235 de miliarde de parametri. Atât debitul de inferență, cât și latența s-au îmbunătățit, deși compania nu a publicat benchmark-uri specifice. Câștigurile provin din integrarea strânsă a CPU-ului Grace și GPU-ului Blackwell de la Nvidia, care reduce blocajele de transfer de date.
Avantajul hardware al Nvidia
Această implementare este un alt exemplu al modului în care Nvidia se distanțează în cursa cipurilor AI. Rack-urile GB200 sunt proiectate exact pentru astfel de sarcini cu parametri ridicați, iar alegerea Perplexity sugerează că hardware-ul livrează acolo unde contează. Concurenți precum AMD și Intel se confruntă cu o urcare dificilă pentru a egala această performanță la scară.
Accelerarea implementării modelelor
Cu o inferență mai bună, Perplexity poate lansa actualizări și modele noi mai rapid. Qwen3 235B este un model dens și puternic, iar rularea sa eficientă înseamnă mai puțin timp între antrenare și producție. Această viteză contează pe măsură ce cursa pentru implementarea unor modele lingvistice din ce în ce mai mari se intensifică.
Această mișcare ar putea presa alți furnizori de inferență să își modernizeze hardware-ul sau să riște să rămână în urmă. Dacă Perplexity menține acest avantaj, ar putea atrage mai mulți dezvoltatori AI care au nevoie de servire cu debit ridicat și latență scăzută. Următoarele luni vor arăta dacă rivalii pot închide decalajul sau dacă GB200 de la Nvidia devine standardul de facto pentru modelele grele.




