StepFun, शंघाई स्थित लैब जो उच्च प्रदर्शन वाले बड़े भाषा मॉडल बनाने के लिए जानी जाती है, ने एक वॉइस AI विकसित किया है जो हर मौजूदा बेंचमार्क से बेहतर प्रदर्शन करता है। लैब द्वारा जारी विवरण के अनुसार, यह सिस्टम आहों जैसे सूक्ष्म भावनात्मक संकेतों का पता लगाने में भी सक्षम है।
सिस्टम का परीक्षण कैसे किया गया
StepFun ने यह निर्दिष्ट नहीं किया कि किन बेंचमार्क का उपयोग किया गया या सटीक स्कोर का खुलासा नहीं किया, लेकिन दावा किया कि मॉडल ने वॉइस-एआई मूल्यांकनों के एक मानक सेट में सभी प्रतिस्पर्धियों को पीछे छोड़ दिया। लैब ने पहले ओपन-सोर्स LLM प्रकाशित किए हैं जो चीनी और अंग्रेजी भाषा के कार्यों के लिए लीडरबोर्ड पर शीर्ष के पास रैंक करते थे।
भावनात्मक पहचान का क्या अर्थ है
भाषण पहचान और संश्लेषण से परे, नया मॉडल आहों जैसे गैर-मौखिक संकेतों को पकड़ सकता है - जो निराशा, राहत, या थकान का संकेत है। सूक्ष्मता का यह स्तर AI को ग्राहक सेवा, मानसिक-स्वास्थ्य जांच, या कार-इन असिस्टेंट में उपयोगी बना सकता है, हालांकि StepFun ने कोई वाणिज्यिक साझेदारी या तैनाती की घोषणा नहीं की है।
चीनी AI लैब्स पाठ और वॉइस दोनों कार्यों में अमेरिकी समकक्षों के साथ आक्रामक रूप से प्रतिस्पर्धा कर रहे हैं। StepFun के शीर्ष-रैंक वाले वॉइस मॉडल के दावे ने Baidu, Alibaba, और SenseTime जैसे प्रतिद्वंद्वियों पर दबाव डाला है, जो वॉइस-AI अनुसंधान कार्यक्रम भी चलाते हैं। लैब ने यह साझा नहीं किया है कि मॉडल को ओपन-सोर्स के रूप में जारी किया जाएगा या मालिकाना उत्पाद के रूप में रखा जाएगा।
लैब ने प्रशिक्षण डेटा, मॉडल आकार, या परिणाम प्राप्त करने के लिए उपयोग की गई कंप्यूट शक्ति पर टिप्पणी करने से इनकार कर दिया। विवरण की यह कमी क्षेत्र में आम है, जहां प्रदर्शन के दावे अक्सर सहकर्मी-समीक्षित सत्यापन से आगे निकल जाते हैं।
तैनाती के बारे में अनुत्तरित प्रश्न
StepFun ने वॉइस AI को किसी भी एप्लिकेशन या प्लेटफॉर्म में एकीकृत करने की समय-सारिणी की घोषणा नहीं की है। लैब ने केवल इतना कहा कि वह एक तकनीकी पेपर प्रकाशित करेगा और संभवतः आने वाले महीनों में नमूना कोड जारी करेगा। क्या तकनीक को तीसरे पक्षों को लाइसेंस दिया जाएगा या उपभोक्ता-सामना वाले उत्पाद में बनाया जाएगा, यह अज्ञात है।



