StepFun, el laboratorio con sede en Shanghái conocido por desarrollar modelos de lenguaje grande de alto rendimiento, ha desarrollado una IA de voz que supera todos los estándares de referencia existentes. El sistema también es capaz de detectar señales emocionales sutiles, como los suspiros, según los detalles publicados por el laboratorio.
Cómo se probó el sistema
StepFun no especificó qué estándares de referencia se utilizaron ni reveló puntajes exactos, pero afirmó que el modelo superó a todos los competidores en un conjunto estándar de evaluaciones de IA de voz. El laboratorio previamente ha publicado LLM de código abierto que se ubicaron cerca de la cima en clasificaciones para tareas de lenguaje chino e inglés.
Qué significa la detección emocional
Más allá del reconocimiento y síntesis de voz, el nuevo modelo puede detectar señales no verbales como los suspiros, un indicador de frustración, alivio o fatiga. Ese nivel de matices podría hacer que la IA sea útil en atención al cliente, cribado de salud mental o asistentes en automóviles, aunque StepFun no ha anunciado ninguna asociación comercial ni despliegue.
Los laboratorios de IA chinos han estado compitiendo agresivamente con sus contrapartes estadounidenses en tareas de texto y voz. La afirmación de StepFun sobre un modelo de voz líder aumenta la presión sobre rivales como Baidu, Alibaba y SenseTime, que también cuentan con programas de investigación en IA de voz. El laboratorio no ha compartido si el modelo se lanzará como código abierto o se mantendrá como un producto propietario.
El laboratorio se negó a comentar sobre los datos de entrenamiento, el tamaño del modelo o la potencia computacional utilizada para lograr los resultados. Esa falta de detalles es común en el campo, donde las afirmaciones de rendimiento a menudo superan la verificación revisada por pares.
Preguntas sin respuesta sobre el despliegue
StepFun no ha anunciado un cronograma para integrar la IA de voz en ninguna aplicación o plataforma. El laboratorio solo indicó que publicará un documento técnico y posiblemente liberará código de muestra en los próximos meses. Si la tecnología se licenciará a terceros o se integrará en un producto orientado al consumidor sigue siendo desconocido.



