StepFun ห้องปฏิบัติการที่ตั้งอยู่ในเซี่ยงไฮ้ซึ่งมีชื่อเสียงด้านการสร้างโมเดลภาษาขนาดใหญ่ที่ประสิทธิภาพสูง ได้พัฒนา AI เสียงที่เหนือกว่าเกณฑ์มาตรฐานที่มีอยู่ทั้งหมด ระบบยังสามารถตรวจจับสัญญาณทางอารมณ์ที่ละเอียดอ่อน เช่น เสียงถอนหายใจ ตามรายละเอียดที่ห้องปฏิบัติการเปิดเผย
วิธีทดสอบระบบ
StepFun ไม่ได้ระบุว่าใช้เกณฑ์มาตรฐานใดหรือเปิดเผยคะแนนที่แน่นอน แต่ระบุว่าโมเดลเอาชนะคู่แข่งทั้งหมดในการประเมิน AI เสียงมาตรฐานชุดหนึ่ง ห้องปฏิบัติการเคยเผยแพร่ LLM แบบโอเพนซอร์สที่อยู่ในอันดับต้น ๆ ของลีดเดอร์บอร์ดสำหรับงานภาษาจีนและอังกฤษ
ความหมายของการตรวจจับอารมณ์
นอกเหนือจากการรู้จำเสียงและการสังเคราะห์เสียงแล้ว โมเดลใหม่นี้ยังสามารถรับสัญญาณที่ไม่ใช่คำพูด เช่น เสียงถอนหายใจ ซึ่งเป็นตัวบ่งชี้ถึงความหงุดหงิด โล่งใจ หรือเหนื่อยล้า ความละเอียดอ่อนระดับนี้สามารถทำให้ AI มีประโยชน์ในการบริการลูกค้า การคัดกรองสุขภาพจิต หรือผู้ช่วยในรถยนต์ แม้ว่า StepFun ยังไม่ได้ประกาศความร่วมมือหรือการใช้งานเชิงพาณิชย์ใด ๆ
ห้องปฏิบัติการ AI ของจีนแข่งขันกันอย่างดุเดือดกับคู่แข่งในสหรัฐฯ ทั้งในงานข้อความและเสียง การอ้างของ StepFun ว่ามีโมเดลเสียงอันดับหนึ่งเพิ่มแรงกดดันให้กับคู่แข่ง เช่น Baidu, Alibaba และ SenseTime ซึ่งมีโครงการวิจัย AI เสียงเช่นกัน ห้องปฏิบัติการยังไม่ได้เปิดเผยว่าโมเดลดังกล่าวจะเผยแพร่เป็นโอเพนซอร์สหรือเก็บไว้เป็นผลิตภัณฑ์ที่เป็นกรรมสิทธิ์
ห้องปฏิบัติการปฏิเสธที่จะแสดงความคิดเห็นเกี่ยวกับข้อมูลฝึกอบรม ขนาดโมเดล หรือการคำนวณที่ใช้เพื่อให้ได้ผลลัพธ์ การขาดรายละเอียดดังกล่าวเป็นเรื่องปกติในสาขานี้ ซึ่งการอ้างประสิทธิภาพมักจะแซงหน้าการตรวจสอบโดยผู้เชี่ยวชาญ
คำถามที่ยังไม่มีคำตอบเกี่ยวกับการนำไปใช้
StepFun ยังไม่ได้ประกาศไทม์ไลน์สำหรับการรวม AI เสียงเข้ากับแอปพลิเคชันหรือแพลตฟอร์มใด ๆ ห้องปฏิบัติการกล่าวเพียงว่าจะเผยแพร่เอกสารทางเทคนิคและอาจปล่อยโค้ดตัวอย่างในอีกไม่กี่เดือนข้างหน้า ยังไม่ทราบว่าเทคโนโลยีนี้จะถูกอนุญาตให้ใช้สิทธิ์แก่บุคคลที่สามหรือสร้างเป็นผลิตภัณฑ์สำหรับผู้บริโภค



