Perplexity ha iniziato a servire modelli Qwen3 235B su rack Nvidia GB200, una mossa che offre significativi miglioramenti nelle prestazioni di inferenza. L'implementazione, riportata per la prima volta da Crypto Briefing, sottolinea il continuo vantaggio di Nvidia nell'hardware AI e potrebbe modificare le dinamiche competitive del serving di modelli di grandi dimensioni.
Vantaggi di inferenza su GB200
Il passaggio ai rack GB200 offre a Perplexity un notevole incremento nella velocità di esecuzione del modello Qwen3 da 235 miliardi di parametri. La produttività di inferenza e la latenza sono entrambe migliorate, anche se l'azienda non ha rilasciato benchmark specifici. I guadagni derivano dalla stretta integrazione della CPU Grace e della GPU Blackwell di Nvidia, che riduce i colli di bottiglia nel trasferimento dati.
Il vantaggio hardware di Nvidia
Questa implementazione è un altro esempio del predominio di Nvidia nella corsa ai chip AI. I rack GB200 sono progettati proprio per carichi di lavoro con un numero elevato di parametri, e la scelta di Perplexity suggerisce che l'hardware offre risultati concreti. Concorrenti come AMD e Intel affrontano una salita in salita per eguagliare tali prestazioni su larga scala.
Accelerare la distribuzione dei modelli
Con una migliore inferenza, Perplexity può implementare aggiornamenti e nuovi modelli più rapidamente. Qwen3 235B è un modello denso e potente, e gestirlo in modo efficiente significa ridurre il tempo tra addestramento e produzione. Questa velocità è cruciale mentre la corsa per distribuire modelli linguistici sempre più grandi si intensifica.
La mossa potrebbe mettere pressione ad altri fornitori di inferenza affinché aggiornino il proprio hardware o rischino di rimanere indietro. Se Perplexity manterrà questo vantaggio, potrebbe attrarre più sviluppatori AI che necessitano di serving ad alta produttività e bassa latenza. I prossimi mesi mostreranno se i rivali riusciranno a colmare il divario o se i GB200 di Nvidia diventeranno lo standard de facto per i modelli pesanti.




