Il laboratorio shanghaiense StepFun sviluppa un'IA vocale che supera tutti i benchmark e rileva i sospiri

StepFun, il laboratorio con sede a Shanghai noto per la realizzazione di modelli linguistici di grandi dimensioni ad alte prestazioni, ha sviluppato un'IA vocale che supera tutti i benchmark esistenti. Il sistema è in grado anche di rilevare segnali emotivi sottili come i sospiri, secondo i dettagli resi noti dal laboratorio.

Come è stato testato il sistema

StepFun non ha specificato quali benchmark sono stati utilizzati né ha rivelato i punteggi esatti, ma ha affermato che il modello ha battuto tutti i concorrenti in un insieme standard di valutazioni per l'IA vocale. Il laboratorio ha precedentemente pubblicato modelli linguistici di grandi dimensioni open source che si sono classificati tra i primi posti nelle classifiche per compiti linguistici in cinese e inglese.

Cosa significa il rilevamento emotivo

Oltre al riconoscimento e alla sintesi vocale, il nuovo modello è in grado di rilevare segnali non verbali come i sospiri, indicatore di frustrazione, sollievo o stanchezza. Questo livello di sfumatura potrebbe rendere l'IA utile nel servizio clienti, nella valutazione della salute mentale o negli assistenti per auto, sebbene StepFun non abbia annunciato alcuna partnership o implementazione commerciale.

I laboratori di IA cinesi stanno competendo aggressivamente con i loro omologhi statunitensi sia per compiti testuali che vocali. La rivendicazione di StepFun di un modello vocale ai vertici della classifica aumenta la pressione su rivali come Baidu, Alibaba e SenseTime, che gestiscono anche programmi di ricerca sull'IA vocale. Il laboratorio non ha rivelato se il modello verrà rilasciato come open source o mantenuto come prodotto proprietario.

Il laboratorio ha rifiutato di commentare sui dati di addestramento, le dimensioni del modello o la potenza di calcolo utilizzata per ottenere i risultati. Questa mancanza di dettagli è comune nel settore, in cui le rivendicazioni sulle prestazioni spesso precedono la verifica peer-reviewed.

Domande senza risposta sull'implementazione

StepFun non ha annunciato una tempistica per l'integrazione dell'IA vocale in qualsiasi applicazione o piattaforma. Il laboratorio ha dichiarato solo che pubblicherà un articolo tecnico e potrebbe rilasciare codice di esempio nei prossimi mesi. Se la tecnologia verrà concessa in licenza a terze parti o integrata in un prodotto rivolto ai consumatori rimane sconosciuto.

Come è stato testato il sistema

Cosa significa il rilevamento emotivo

Domande senza risposta sull'implementazione

Articoli Correlati