Loading market data...

Perplexity Implanta Qwen3 235B em Racks Nvidia GB200, Aumentando Desempenho de Inferência

Perplexity Implanta Qwen3 235B em Racks Nvidia GB200, Aumentando Desempenho de Inferência

Perplexity começou a implantar modelos Qwen3 235B em racks Nvidia GB200, uma medida que oferece ganhos significativos no desempenho de inferência. Essa implantação, primeiro relatada pelo Crypto Briefing, reforça a liderança contínua da Nvidia em hardware de IA e pode alterar a dinâmica competitiva do fornecimento de modelos de grande porte.

Ganhos de inferência no GB200

A migração para racks GB200 proporciona à Perplexity uma melhoria notável na velocidade com que pode executar o modelo Qwen3 de 235 bilhões de parâmetros. Tanto a vazão de inferência quanto a latência foram aprimoradas, embora a empresa não tenha divulgado benchmarks específicos. Os ganhos resultam da integração estreita entre a CPU Grace e a GPU Blackwell da Nvidia, o que reduz os gargalos na transferência de dados.

Vantagem de hardware da Nvidia

Essa implantação é mais um exemplo de a Nvidia se destacar na corrida por chips de IA. Os racks GB200 foram projetados exatamente para esse tipo de carga de trabalho com muitos parâmetros, e a escolha da Perplexity sugere que o hardware entrega resultados onde mais importa. Concorrentes como AMD e Intel enfrentam um desafio árduo para igualar esse desempenho em larga escala.

Acelerando a implantação de modelos

Com uma inferência mais eficiente, a Perplexity pode lançar atualizações e novos modelos mais rapidamente. O Qwen3 235B é um modelo denso e poderoso, e executá-lo de forma eficiente significa reduzir o tempo entre o treinamento e a produção. Essa velocidade é crucial à medida que a corrida para implantar modelos de linguagem cada vez maiores se intensifica.

Essa medida pode pressionar outros fornecedores de inferência a atualizarem seu hardware ou correrem o risco de ficarem para trás. Se a Perplexity mantiver essa vantagem, pode atrair mais desenvolvedores de IA que necessitam de serviços com alta vazão e baixa latência. Nos próximos meses, veremos se os concorrentes conseguirão reduzir a diferença ou se o GB200 da Nvidia se tornará o padrão de fato para modelos pesados.