Perplexity почав обслуговувати моделі Qwen3 235B на стійках Nvidia GB200, що забезпечує значне підвищення продуктивності інференсу. Це розгортання, вперше повідомлене Crypto Briefing, підкреслює лідерство Nvidia в апаратному забезпеченні ШІ та може змінити конкурентну динаміку обслуговування великих моделей.
Покращення інференсу на GB200
Перехід на стійки GB200 дає Perplexity помітний приріст швидкості роботи моделі Qwen3 із 235 мільярдами параметрів. Пропускна здатність інференсу та затримка покращилися, хоча компанія не оприлюднила конкретних показників. Виграш досягається завдяки тісній інтеграції процесора Grace та графічного процесора Blackwell від Nvidia, що зменшує вузькі місця передачі даних.
Апаратна перевага Nvidia
Це розгортання — ще один приклад того, як Nvidia виривається вперед у гонці ШІ-чіпів. Стійки GB200 розроблені саме для таких високопараметричних навантажень, і вибір Perplexity свідчить про те, що апаратне забезпечення працює там, де це важливо. Конкуренти, такі як AMD та Intel, зіткнуться з серйозними труднощами, намагаючись досягти такої продуктивності в масштабі.
Прискорення розгортання моделей
Завдяки кращому інференсу Perplexity може швидше випускати оновлення та нові моделі. Qwen3 235B — це щільна потужна модель, і її ефективна робота скорочує час між навчанням і виробництвом. Ця швидкість має значення, оскільки гонка за розгортанням дедалі більших мовних моделей набирає обертів.
Цей крок може змусити інших постачальників інференсу модернізувати своє обладнання або ризикувати відстати. Якщо Perplexity збереже цю перевагу, він може залучити більше розробників ШІ, які потребують високопродуктивного обслуговування з низькою затримкою. Наступні кілька місяців покажуть, чи зможуть конкуренти скоротити розрив, або чи стане GB200 від Nvidia де-факто стандартом для важких моделей.




