StepFun, шанхайская лаборатория, известная созданием высокопроизводительных больших языковых моделей, разработала голосовой ИИ, который превосходит все существующие бенчмарки. Система также способна улавливать тонкие эмоциональные сигналы, такие как вздохи, согласно данным, опубликованным лабораторией.
Как проводилось тестирование
StepFun не уточнила, какие именно бенчмарки использовались, и не раскрыла точные показатели, но заявила, что модель превзошла всех конкурентов в стандартном наборе оценок голосового ИИ. Ранее лаборатория публиковала открытые большие языковые модели, которые занимали верхние строчки в таблицах лидеров по задачам на китайском и английском языках.
Что означает распознавание эмоций
Помимо распознавания и синтеза речи, новая модель способна улавливать невербальные сигналы, такие как вздохи — показатель разочарования, облегчения или усталости. Такой уровень нюансов может сделать ИИ полезным в службах поддержки, при скрининге психического здоровья или в автомобильных ассистентах, хотя StepFun пока не объявила о каких-либо коммерческих партнерствах или внедрениях.
Китайские лаборатории ИИ активно конкурируют с американскими коллегами как в текстовых, так и в голосовых задачах. Заявление StepFun о голосовой модели, занявшей первое место, усиливает давление на таких конкурентов, как Baidu, Alibaba и SenseTime, которые также ведут исследовательские программы в области голосового ИИ. Лаборатория не сообщила, будет ли модель выпущена с открытым исходным кодом или останется проприетарным продуктом.
Лаборатория отказалась комментировать данные обучения, размер модели или вычислительные мощности, использованные для достижения результатов. Отсутствие таких подробностей распространено в этой области, где заявления о производительности часто опережают рецензируемую проверку.
Неотвеченные вопросы о внедрении
StepFun не объявила сроков интеграции голосового ИИ в какое-либо приложение или платформу. Лаборатория лишь сообщила, что опубликует техническую статью и, возможно, выпустит пример кода в ближайшие месяцы. Останется ли технология лицензированной для третьих сторон или будет встроена в потребительский продукт, пока неизвестно.



