Perplexity telah mulai melayani model Qwen3 235B di rak Nvidia GB200, sebuah langkah yang memberikan peningkatan kinerja inferensi yang signifikan. Penyebaran ini, pertama kali dilaporkan oleh Crypto Briefing, menegaskan keunggulan berkelanjutan Nvidia dalam perangkat keras AI dan dapat menggeser dinamika persaingan dalam penyajian model besar.
Peningkatan inferensi di GB200
Peralihan ke rak GB200 memberikan Perplexity peningkatan yang nyata dalam kecepatan menjalankan model Qwen3 dengan 235 miliar parameter. Throughput dan latensi inferensi keduanya membaik, meskipun perusahaan belum merilis tolok ukur spesifik. Peningkatan ini berasal dari integrasi erat antara CPU Grace dan GPU Blackwell dari Nvidia, yang memotong hambatan transfer data.
Keunggulan perangkat keras Nvidia
Penyebaran ini adalah contoh lain dari Nvidia yang unggul dalam persaingan chip AI. Rak GB200 dirancang khusus untuk beban kerja berparameter tinggi seperti ini, dan pilihan Perplexity menunjukkan bahwa perangkat keras tersebut memberikan hasil di tempat yang penting. Pesaing seperti AMD dan Intel menghadapi tantangan berat untuk menyamai kinerja tersebut dalam skala besar.
Mempercepat penyebaran model
Dengan inferensi yang lebih baik, Perplexity dapat meluncurkan pembaruan dan model baru lebih cepat. Qwen3 235B adalah model yang padat dan kuat, dan menjalankannya secara efisien berarti waktu yang lebih singkat antara pelatihan dan produksi. Kecepatan ini penting seiring dengan memanasnya persaingan untuk menyebarkan model bahasa yang semakin besar.
Langkah ini dapat mendorong penyedia inferensi lain untuk meningkatkan perangkat keras mereka atau berisiko tertinggal. Jika Perplexity mempertahankan keunggulan ini, ia dapat menarik lebih banyak pengembang AI yang membutuhkan layanan throughput tinggi dan latensi rendah. Beberapa bulan ke depan akan menunjukkan apakah pesaing dapat menutup kesenjangan atau apakah GB200 Nvidia menjadi standar de facto untuk model berat.




