Perplexity a commencé à déployer les modèles Qwen3 235B sur des racks Nvidia GB200, une mesure qui apporte des gains de performance d'inférence majeurs. Ce déploiement, rapporté pour la première fois par Crypto Briefing, souligne la position de leader continu d'Nvidia dans le matériel IA et pourrait modifier la dynamique compétitive du déploiement de modèles de grande taille.
Gains d'inférence sur GB200
Le passage aux racks GB200 permet à Perplexity de gagner en vitesse pour exécuter le modèle Qwen3 à 235 milliards de paramètres. Le débit d'inférence et la latence ont tous deux été améliorés, bien que l'entreprise n'ait pas publié de benchmarks spécifiques. Ces gains découlent de l'intégration étroite du CPU Grace et du GPU Blackwell d'Nvidia, qui réduit les goulots d'étranglement liés au transfert de données.
L'avantage matériel d'Nvidia
Ce déploiement illustre une fois de plus la supériorité d'Nvidia dans la course aux puces IA. Les racks GB200 sont conçus spécifiquement pour ce type de charges de travail à paramètres élevés, et le choix de Perplexity indique que le matériel répond aux besoins critiques. Des concurrents comme AMD et Intel doivent surmonter de nombreux défis pour égaler cette performance à grande échelle.
Accélération du déploiement des modèles
Grâce à une meilleure inférence, Perplexity peut déployer des mises à jour et de nouveaux modèles plus rapidement. Le Qwen3 235B est un modèle dense et puissant, et son exécution efficace réduit le temps entre la formation et la production. Cette vitesse est cruciale alors que la course au déploiement de modèles linguistiques de plus en plus volumineux s'intensifie.
Cette initiative pourrait pousser d'autres fournisseurs d'inférence à mettre à jour leur matériel sous peine de se retrouver en retrait. Si Perplexity conserve cet avantage, cela pourrait attirer davantage de développeurs IA ayant besoin de services à haut débit et faible latence. Les prochains mois révéleront si les concurrents parviennent à combler l'écart ou si le GB200 d'Nvidia devient la norme de facto pour les modèles lourds.




