Perplexity ka filluar të shërbejë modelët Qwen3 235B në rrakët Nvidia GB200, një lëvizje që sjell përmirësime të mëdha në performancën e inferencës. Zbatimi, i raportuar për herë të parë nga Crypto Briefing, thekson pozicionin e vazhdueshëm të Nvidia në harduerin AI dhe mund të ndryshojë dinamikën konkurruese të shërbimit të modeleve të mëdha.
Përmirësime të Inferencës në GB200
Ndërroja në rrakët GB200 i jep Perplexity një rritje të dukshme në shpejtësinë me të cilën mund të ekzekutojë modelin Qwen3 me 235 miliardë parametra. Vëllimi i inferencës dhe vonesa janë përmirësuar, edhe pse kompania nuk ka publikuar ndonjë benchmark specifik. Këto përmirësime vijnë nga integrimi i ngushtë i CPU-së Grace dhe GPU-së Blackwell të Nvidia, i cili zvogëlon gurinë e transferimit të të dhënave.
Përparësia e Harduerit të Nvidia
Ky zbatim është një shembull tjetër i largimit të Nvidia në garën e çipave AI. Rrakët GB200 janë dizajnuar për pikërisht këto lloje punë ngarkese me parametra të larta, dhe zgjedhja e Perplexity tregon se hardueri furnizon aty ku është rëndësishëm. Konkurrentët si AMD dhe Intel ndeshin një kërcënim të madh për të arritur atë performancë në skalë.
Shpejtësimi i Zbatimit të Modelit
Me inferencë më të mirë, Perplexity mund të lansojë përditësime dhe modele të reja më shpejt. Qwen3 235B është një model i dendur dhe i fuqishëm, dhe ekzekutimi i tij efikas do të thotë më pak kohë midis trajnimit dhe prodhimit. Kjo shpejtësi është e rëndësishme siç përshpejtohet gara për zbatimin e modeleve gjuhësore gjithmonë më të mëdha.
Kjo lëvizje mund të shtyjë furnizuesit e tjerë të inferencës të përditësojnë harduerin e tyre ose të rrezikojnë të mbeten prapa. Nëse Perplexity mbetet me këtë përparësi, mund të tërheqë më shumë zhvillues AI që kanë nevojë për shërbime me vëllim të lartë dhe vonesë të ulët. Disa muajt e ardhshëm do të tregojnë nëse konkurrentët mund të mbyllin hapësirën ose nëse GB200 i Nvidia bëhet standardi de facto për modelet e rënda.




