StepFun, Shanghaissa toimiva laboratorio, joka tunnetaan korkean suorituskyvyn suurten kielimallien rakentamisesta, on kehittänyt ääni-AI:n, joka päihittää kaikki olemassa olevat vertailuarvot. Järjestelmä pystyy myös havaitsemaan hienovaraisia tunnepiirteitä, kuten huokauksia, laboratorion julkistamien tietojen mukaan.
Miten järjestelmää testattiin
StepFun ei täsmentänyt, mitä vertailuarvoja käytettiin, eikä paljastanut tarkkoja tuloksia, mutta väitti mallin päihittäneen kaikki kilpailijat tavallisessa ääni-AI-arviointisarjassa. Laboratorio on aiemmin julkaissut avoimen lähdekoodin suuria kielimalleja, jotka sijoittuivat lähelle kärkeä kiinan- ja englanninkielisten tehtävien listoilla.
Mitä tunnistus tarkoittaa
Puheentunnistuksen ja -synteesin lisäksi uusi malli pystyy poimimaan non-verbaalisia signaaleja, kuten huokauksia – turhautumisen, helpotuksen tai väsymyksen osoittimia. Tällainen vivahteikkuus voisi tehdä tekoälystä hyödyllisen asiakaspalvelussa, mielenterveyden seulonnassa tai auton kojelauta-assistenteissa, vaikka StepFun ei ole ilmoittanut kaupallisista kumppanuuksista tai käyttöönotoista.
Kiinalaiset tekoälylaboratoriot ovat kilpailleet aggressiivisesti yhdysvaltalaisten vastineidensa kanssa sekä teksti- että äänitehtävissä. StepFunin väite parhaasta äänimallista lisää painetta kilpailijoille, kuten Baidulle, Alibaballe ja SenseTimelle, joilla on myös ääni-AI-tutkimusohjelmia. Laboratorio ei ole kertonut, julkaistaanko malli avoimena lähdekoodina vai pidetäänkö se omisteisena tuotteena.
Laboratorio kieltäytyi kommentoimasta harjoitusdataa, mallin kokoa tai laskentatehoa, jota tulosten saavuttamiseen käytettiin. Tällainen yksityiskohtien puute on alalla yleistä, missä suorituskykyväitteet usein ohittavat vertaisarvioitujen varmennusten tahdin.
Vastaamattomia kysymyksiä käyttöönotosta
StepFun ei ole ilmoittanut aikataulua ääni-AI:n integroimiseksi mihinkään sovellukseen tai alustaan. Laboratorio sanoi vain, että se julkaisee teknisen artikkelin ja mahdollisesti esimerkkikoodia tulevina kuukausina. On edelleen epäselvää, lisensoidaanko teknologia kolmansille osapuolille vai rakennetaanko se kuluttajille suunnattuun tuotteeseen.




