Loading market data...

Shanghai-labbet StepFun utvecklar röst-AI som toppar alla riktmärken och upptäcker suckar

Shanghai-labbet StepFun utvecklar röst-AI som toppar alla riktmärken och upptäcker suckar

StepFun, det Shanghai-baserade labbet känt för att bygga högpresterande stora språkmodeller, har utvecklat en röst-AI som överträffar alla befintliga riktmärken. Systemet kan också upptäcka subtila emotionella signaler som suckar, enligt uppgifter som släppts av labbet.

Så testades systemet

StepFun specificerade inte vilka riktmärken som användes eller avslöjade exakta poäng, men hävdade att modellen slog alla konkurrenter över en standarduppsättning av röst-AI-utvärderingar. Labbet har tidigare publicerat öppna källkods-LLM:er som rankades nära toppen av topplistor för kinesiska och engelska språkuppgifter.

Vad den känslomässiga detektionen innebär

Utöver taligenkänning och syntes kan den nya modellen fånga upp icke-verbala signaler som suckar – en indikation på frustration, lättnad eller trötthet. Den nivån av nyans skulle kunna göra AI:n användbar inom kundtjänst, psykisk hälsascreening eller bilassistenter, även om StepFun inte har meddelat några kommersiella partnerskap eller driftsättningar.

Kinesiska AI-labb har konkurrerat aggressivt med amerikanska motsvarigheter inom både text- och röstuppgifter. StepFuns påstående om en topprankad röstmodell ökar pressen på konkurrenter som Baidu, Alibaba och SenseTime, som också driver röst-AI-forskningsprogram. Labbet har inte delat med sig av huruvida modellen kommer att släppas som öppen källkod eller hållas som en proprietär produkt.

Labbet avböjde att kommentera träningsdata, modellstorlek eller beräkningsresurser som användes för att uppnå resultaten. Den bristen på detaljer är vanlig inom området, där prestandapåståenden ofta går före peer-reviewed-verifiering.

Obesvarade frågor om driftsättning

StepFun har inte meddelat en tidslinje för att integrera röst-AI:n i någon applikation eller plattform. Labbet sa endast att det kommer att publicera en teknisk artikel och möjligen släppa exempelkod under de kommande månaderna. Huruvida tekniken kommer att licensieras till tredje part eller byggas in i en konsumentinriktad produkt är fortfarande okänt.