Loading market data...

Шанхайська лабораторія StepFun створила голосовий ШІ, який перевершує всі бенчмарки та виявляє зітхання

Шанхайська лабораторія StepFun створила голосовий ШІ, який перевершує всі бенчмарки та виявляє зітхання

StepFun, шанхайська лабораторія, відома створенням високопродуктивних великих мовних моделей, розробила голосовий ШІ, який перевершує всі існуючі бенчмарки. Система також здатна виявляти тонкі емоційні сигнали, як-от зітхання, згідно з деталями, оприлюдненими лабораторією.

Як тестували систему

StepFun не уточнив, які бенчмарки використовувалися чи які точні показники були досягнуті, але заявив, що модель перевершила всіх конкурентів у стандартному наборі оцінок голосового ШІ. Раніше лабораторія публікувала відкриті мовні моделі, які посідали високі місця в рейтингах для завдань китайською та англійською мовами.

Що означає виявлення емоцій

Окрім розпізнавання та синтезу мовлення, нова модель може вловлювати невербальні сигнали, як-от зітхання — ознаку розчарування, полегшення або втоми. Такий рівень нюансу може зробити ШІ корисним в обслуговуванні клієнтів, скринінгу психічного здоров'я або автомобільних помічниках, хоча StepFun не оголосив про жодні комерційні партнерства чи впровадження.

Китайські лабораторії ШІ активно конкурують з американськими аналогами як у текстових, так і в голосових завданнях. Заява StepFun про найкращу голосову модель посилює тиск на конкурентів, таких як Baidu, Alibaba та SenseTime, які також ведуть дослідницькі програми з голосового ШІ. Лабораторія не повідомила, чи буде модель випущена як відкритий вихідний код, чи залишиться власницьким продуктом.

Лабораторія відмовилася коментувати дані для навчання, розмір моделі чи обчислювальні ресурси, використані для досягнення результатів. Така відсутність деталей є поширеною в цій галузі, де заяви про продуктивність часто випереджають рецензовану перевірку.

Нез'ясовані питання щодо впровадження

StepFun не оголосив терміни інтеграції голосового ШІ в будь-який додаток чи платформу. Лабораторія лише зазначила, що опублікує технічну статтю і, можливо, випустить зразок коду в найближчі місяці. Чи буде технологія ліцензована третім сторонам, чи вбудована в продукт для споживачів, залишається невідомим.