Perplexity 已开始在 Nvidia GB200 机架上部署 Qwen3 235B 模型,此举显著提升了推理性能。据 Crypto Briefing 首次报道,此次部署凸显了英伟达在 AI 硬件领域的持续领先地位,并可能改变大模型服务的竞争格局。
GB200 上的推理性能提升
转向 GB200 机架使 Perplexity 运行 2350 亿参数的 Qwen3 模型的速度显著提升。推理吞吐量和延迟均有所改善,但公司尚未公布具体基准测试数据。这一提升得益于英伟达 Grace CPU 与 Blackwell GPU 的深度集成,有效消除了数据传输瓶颈。
英伟达硬件优势
此次部署再次印证了英伟达在 AI 芯片竞赛中的领先地位。GB200 机架专为这类高参数量工作负载设计,Perplexity 的选择表明该硬件在关键性能上表现优异。AMD 和英特尔等竞争对手若要在此类大规模部署中达到同等性能,将面临艰难挑战。
加速模型部署
凭借更优的推理性能,Perplexity 能够更快地推出模型更新和新模型。Qwen3 235B 是一款致密且强大的模型,其高效运行大幅缩短了从训练到生产的周期。随着部署更大规模语言模型的竞争日益激烈,这一速度优势显得尤为重要。
此举可能迫使其他推理服务提供商升级硬件,否则将面临落后风险。若 Perplexity 能保持这一优势,或将吸引更多需要高吞吐量、低延迟服务的 AI 开发者。未来数月将验证竞争对手能否缩小差距,或英伟达的 GB200 是否会成为重型模型的事实标准。




