Loading market data...

Shanghai-laboratoriet StepFun bygger stemme-AI, der topper alle benchmarks og opdager suk

Shanghai-laboratoriet StepFun bygger stemme-AI, der topper alle benchmarks og opdager suk

StepFun, laboratoriet i Shanghai kendt for at bygge højtydende store sprogmodeller, har udviklet en stemme-AI, der overgår alle eksisterende benchmarks. Systemet er også i stand til at opdage subtile følelsesmæssige signaler som suk, ifølge detaljer offentliggjort af laboratoriet.

Sådan blev systemet testet

StepFun specificerede ikke, hvilke benchmarks der blev brugt, eller offentliggjorde nøjagtige scorer, men hævdede, at modellen slog alle konkurrenter på tværs af et standardsæt af stemme-AI-evalueringer. Laboratoriet har tidligere udgivet open-source LLM'er, der lå i toppen af leaderboards for kinesiske og engelske sprogopgaver.

Hvad den følelsesmæssige detektion betyder

Ud over talegenkendelse og syntese kan den nye model opfange non-verbale signaler som suk—en indikator for frustration, lettelse eller træthed. Det niveau af nuance kunne gøre AI'en nyttig i kundeservice, mental sundheds-screening eller bilassistenter, selvom StepFun ikke har annonceret nogen kommercielle partnerskaber eller implementeringer.

Kinesiske AI-laboratorier har konkurreret aggressivt med amerikanske modparter på både tekst- og stemmeopgaver. StepFuns påstand om en top-rangeret stemmemodel lægger pres på rivaler som Baidu, Alibaba og SenseTime, som også driver stemme-AI-forskningsprogrammer. Laboratoriet har ikke delt, om modellen vil blive udgivet som open-source eller holdes som et proprietært produkt.

Laboratoriet afviste at kommentere på træningsdata, modelstørrelse eller beregningskraft brugt til at opnå resultaterne. Den mangel på detaljer er almindelig i feltet, hvor præstationspåstande ofte overgår peer-reviewet verifikation.

Ubesvarede spørgsmål om implementering

StepFun har ikke annonceret en tidsplan for integration af stemme-AI'en i nogen applikation eller platform. Laboratoriet sagde kun, at det vil offentliggøre et teknisk papir og muligvis frigive prøvekode i de kommende måneder. Det vides endnu ikke, om teknologien vil blive licenseret til tredjeparter eller bygget ind i et forbrugerrettet produkt.