Perplexity、Nvidia GB200ラックにQwen3 235Bをデプロイし推論性能を向上

Perplexityは、Nvidia GB200ラック上でQwen3 235Bモデルの提供を開始し、推論パフォーマンスの大幅な向上を実現しました。Crypto Briefingが最初に報じたこのデプロイは、NvidiaのAIハードウェア分野での優位性をさらに強調し、大規模モデルの提供における競争動態を変える可能性があります。

GB200での推論性能の向上

GB200ラックへの移行により、Perplexityは2350億パラメータのQwen3モデルを実行する速度が顕著に向上しました。推論スループットと遅延は改善されましたが、具体的なベンチマークは公表されていません。この向上は、NvidiaのGrace CPUとBlackwell GPUが密接に統合された構造により、データ転送のボトルネックが解消された結果です。

Nvidiaのハードウェア優位性

このデプロイは、NvidiaがAIチップ市場で優位性を拡大し続けている一例です。GB200ラックは高パラメータワークロードに特化して設計されており、Perplexityの選択は実用的な場面での性能を裏付けています。AMDやIntelなどの競合企業は、大規模な運用で同レベルの性能を達成するため厳しい課題に直面しています。

モデルデプロイの加速

推論性能の向上により、Perplexityはアップデートや新モデルをより迅速に展開できます。Qwen3 235Bは高密度で強力なモデルであり、効率的な運用によりトレーニングから本番環境への導入までの時間が短縮されます。大規模言語モデルのデプロイ競争が激化する中、この速度は重要な差別化要因です。

この動きは他社の推論プロバイダーに対し、ハードウェアのアップグレードを迫る圧力となる可能性があります。Perplexityがこの優位性を維持すれば、高スループット・低遅延のサービスを求めるAI開発者の獲得につながるでしょう。今後数か月で、競合他社が性能差を埋められるか、NvidiaのGB200が大規模モデルの事実上の標準となるかが明らかになります。

GB200での推論性能の向上

Nvidiaのハードウェア優位性

モデルデプロイの加速

関連記事