StepFun, le laboratoire basé à Shanghai connu pour le développement de modèles de langage à grande échelle performants, a mis au point une IA vocale qui surpasse tous les benchmarks existants. Le système est également capable de détecter des indices émotionnels subtils tels que les soupirs, selon les détails publiés par le laboratoire.
Comment le système a été testé
StepFun n'a pas précisé quels benchmarks ont été utilisés ni révélé les scores exacts, mais a affirmé que le modèle surpassait tous les concurrents dans un ensemble standard d'évaluations d'IA vocale. Le laboratoire a précédemment publié des LLM open source qui se classaient parmi les meilleurs dans les classements des tâches de langage chinois et anglais.
Ce que signifie la détection émotionnelle
Au-delà de la reconnaissance et de la synthèse vocale, le nouveau modèle peut détecter des signaux non verbaux tels que les soupirs — un indicateur de frustration, de soulagement ou de fatigue. Ce niveau de finesse pourrait rendre l'IA utile dans le service client, le dépistage de la santé mentale ou les assistants embarqués dans les véhicules, bien que StepFun n'ait annoncé aucun partenariat commercial ni déploiement.
Les laboratoires chinois d'IA rivalisent avec agressivité avec leurs homologues américains dans les tâches textuelles et vocales. L'affirmation de StepFun selon laquelle son modèle vocal est classé premier exerce une pression sur des concurrents tels que Baidu, Alibaba et SenseTime, qui mènent également des programmes de recherche en IA vocale. Le laboratoire n'a pas précisé si le modèle sera publié en open source ou conservé comme produit propriétaire.
Le laboratoire a refusé de commenter les données d'entraînement, la taille du modèle ou la puissance de calcul utilisées pour obtenir ces résultats. Ce manque de détails est courant dans le domaine, où les revendications de performance devancent souvent la vérification par les pairs.
Questions sans réponse concernant le déploiement
StepFun n'a pas annoncé de calendrier pour l'intégration de l'IA vocale dans une application ou une plateforme quelconque. Le laboratoire a seulement indiqué qu'il publiera un article technique et pourrait publier du code d'exemple dans les prochains mois. Il reste inconnu si la technologie sera concédée sous licence à des tiers ou intégrée dans un produit destiné aux consommateurs.



