Założone w Szanghaju laboratorium StepFun, znane z budowania wysokowydajnych dużych modeli językowych, opracowało system AI głosowego, który przewyższa wszystkie istniejące benchmarki. System jest również zdolny do wykrywania subtelnych sygnałów emocjonalnych, takich jak westchnienia, zgodnie z informacjami opublikowanymi przez laboratorium.
Jak testowano system
StepFun nie określiło, które benchmarki zostały użyte ani nie podało dokładnych wyników, ale stwierdziło, że model pokonał wszystkich konkurentów w standardowym zestawie ocen dla AI głosowego. Laboratorium wcześniej opublikowało open-source'owe modele językowe, które zajmowały czołowe miejsca w rankingach zadań w języku chińskim i angielskim.
Co oznacza detekcja emocji
Poza rozpoznawaniem mowy i syntezą, nowy model potrafi wychwytywać sygnały niewerbalne, takie jak westchnienia – wskaźniki frustracji, ulgi lub zmęczenia. Taki poziom niuansów może sprawić, że AI będzie przydatny w obsłudze klienta, badaniach zdrowia psychicznego lub asystentach samochodowych, choć StepFun nie ogłosiło jeszcze żadnych partnerstw komercyjnych ani wdrożeń.
Chińskie laboratoria AI agresywnie konkurują z amerykańskimi odpowiednikami zarówno w zadaniach tekstowych, jak i głosowych. Oświadczenie StepFun o posiadaniu najlepszego modelu głosowego zwiększa presję na rywali, takich jak Baidu, Alibaba i SenseTime, które również prowadzą programy badawcze w zakresie AI głosowego. Laboratorium nie ujawniło, czy model zostanie udostępniony jako open-source, czy pozostanie produktem zastrzeżonym.
Laboratorium odmówiło komentarza na temat danych treningowych, rozmiaru modelu ani mocy obliczeniowej użytej do osiągnięcia wyników. Ten brak szczegółów jest powszechny w tej dziedzinie, gdzie deklaracje osiągnięć często wyprzedzają recenzowaną weryfikację.
Nierozwiązane pytania dotyczące wdrożenia
StepFun nie ogłosiło harmonogramu integracji AI głosowego z jakąkolwiek aplikacją lub platformą. Laboratorium stwierdziło jedynie, że w nadchodzących miesiącach opublikuje artykuł techniczny i być może udostępni przykładowy kod. Nie wiadomo jeszcze, czy technologia będzie licencjonowana stronom trzecim, czy wbudowana w produkt konsumencki.




