ประสิทธิภาพการอนุมานบน GB200
การเปลี่ยนมาใช้แร็ค GB200 ช่วยให้ Perplexity เพิ่มความเร็วในการรันโมเดล Qwen3 ที่มีพารามิเตอร์ 235 พันล้านตัวอย่างเห็นได้ชัด ทั้งปริมาณงานอนุมานและความหน่วงดีขึ้น แม้ว่าบริษัทยังไม่ได้เปิดเผยเกณฑ์วัดเฉพาะเจาะจง ประสิทธิภาพที่เพิ่มขึ้นมาจากการบูรณาการอย่างใกล้ชิดระหว่าง CPU Grace และ GPU Blackwell ของ Nvidia ซึ่งช่วยลดปัญหาคอขวดในการถ่ายโอนข้อมูล
ความได้เปรียบด้านฮาร์ดแวร์ของ Nvidia
การติดตั้งนี้เป็นอีกตัวอย่างหนึ่งที่แสดงให้เห็นว่า Nvidia ก้าวนำในการแข่งขันชิป AI แร็ค GB200 ได้รับการออกแบบมาโดยเฉพาะสำหรับงานที่มีพารามิเตอร์สูงเช่นนี้ และการเลือกของ Perplexity ชี้ให้เห็นว่าฮาร์ดแวร์ทำงานได้ดีในจุดที่สำคัญ คู่แข่งอย่าง AMD และ Intel ต้องเผชิญกับความท้าทายอย่างหนักเพื่อให้เทียบเท่าประสิทธิภาพในระดับนี้
เร่งการปรับใช้โมเดล
ด้วยประสิทธิภาพการอนุมานที่ดีขึ้น Perplexity สามารถเปิดตัวอัปเดตและโมเดลใหม่ได้เร็วขึ้น Qwen3 235B เป็นโมเดลที่มีความหนาแน่นและทรงพลัง การรันอย่างมีประสิทธิภาพหมายถึงเวลาที่น้อยลงระหว่างการฝึกและการผลิต ความเร็วนี้มีความสำคัญเมื่อการแข่งขันในการปรับใช้โมเดลภาษาที่ใหญ่ขึ้นเรื่อยๆ ทวีความรุนแรงขึ้น
การเคลื่อนไหวนี้อาจกดดันให้ผู้ให้บริการอนุมานรายอื่นอัปเกรดฮาร์ดแวร์ของตน หรือเสี่ยงที่จะตามหลัง หาก Perplexity รักษาความได้เปรียบนี้ไว้ ก็อาจดึงดูดนักพัฒนา AI ที่ต้องการการให้บริการที่มีปริมาณงานสูงและความหน่วงต่ำได้มากขึ้น อีกไม่กี่เดือนข้างหน้าจะแสดงให้เห็นว่าคู่แข่งสามารถลดช่องว่างได้หรือไม่ หรือว่า GB200 ของ Nvidia จะกลายเป็นมาตรฐาน




