A StepFun, a Shanghai-i székhelyű laboratórium, amely nagy teljesítményű nyelvi modellek (LLM) építéséről ismert, kifejlesztett egy hang-AI-t, amely minden meglévő benchmarknál jobban teljesít. A laboratórium által közreadott információk szerint a rendszer képes olyan finom érzelmi jelzések érzékelésére is, mint a sóhajok.
Hogyan tesztelték a rendszert
A StepFun nem határozta meg, hogy mely benchmarkokat használták, és nem közölt pontos pontszámokat sem, de azt állította, hogy a modell legyőzte az összes versenytársat a hang-AI értékelések szabványos sorozatában. A laboratórium korábban nyílt forráskódú LLM-eket publikált, amelyek a kínai és angol nyelvű feladatok rangsorában a legjobbak között szerepeltek.
Mit jelent az érzelemérzékelés
A beszédfelismerésen és -szintézisen túl az új modell képes érzékelni olyan nonverbális jeleket is, mint a sóhajok – amelyek a frusztráció, a megkönnyebbülés vagy a fáradtság jelzői. Ez a finomsági szint hasznossá teheti az AI-t az ügyfélszolgálat, a mentális egészség szűrése vagy az autós asszisztensek terén, bár a StepFun még nem jelentett be semmilyen kereskedelmi partnerséget vagy bevezetést.
A kínai AI-laboratóriumok agresszívan versenyeznek az amerikai társaikkal mind a szöveges, mind a hangalapú feladatok terén. A StepFun azon állítása, hogy egy csúcsminőségű hangmodellt hozott létre, nyomást gyakorol az olyan riválisokra, mint a Baidu, az Alibaba és a SenseTime, amelyek szintén hang-AI kutatási programokat működtetnek. A laboratórium nem osztotta meg, hogy a modellt nyílt forráskódúként adják-e ki, vagy védett termékként tartják-e meg.
A laboratórium nem kívánt nyilatkozni a képzési adatokról, a modell méretéről vagy az eredmények eléréséhez használt számítási kapacitásról. Ez a részletesség hiánya gyakori a területen, ahol a teljesítményre vonatkozó állítások gyakran megelőzik a szakértői felülvizsgálatot.
Megválaszolatlan kérdések a bevezetésről
A StepFun nem jelentett be ütemtervet a hang-AI bármely alkalmazásba vagy platformba való integrálására. A laboratórium csak annyit közölt, hogy a következő hónapokban publikál egy technikai tanulmányt, és esetleg mintakódot is kiad. Az nem ismert, hogy a technológiát harmadik feleknek licencelik-e, vagy egy fogyasztói termékbe építik be.




