中国・上海に拠点を置く高性能な大規模言語モデルの開発で知られるStepFunは、既存のすべてのベンチマークを上回る性能を誇る音声AIを開発した。同ラボが公開した情報によると、このシステムはため息など微細な感情の手がかりを検出できるという。
システムの評価方法
StepFunは使用したベンチマークや具体的なスコアを明示しなかったが、標準的な音声AI評価においてすべての競合を上回ったと主張している。同ラボは以前、中国語および英語の言語タスクでランキング上位に位置するオープンソースLLMを公開している。
感情検出の意義
音声認識や音声生成に加え、この新しいモデルはため息といった非言語的サインを検出可能だ。これはイライラ、安堵、疲労の兆候となるため、カスタマーサービス、メンタルヘルススクリーニング、車載アシスタントなどへの応用が期待される。ただしStepFunは、現時点で商業的な提携や実用化の計画を発表していない。
中国のAIラボは米国企業との間でテキストおよび音声タスクの両面で激しく競合している。StepFunの音声モデルがトップクラスであるという主張は、Baidu、Alibaba、SenseTimeなど同分野で研究を進めるライバル企業にプレッシャーを与えることになる。モデルがオープンソースとして公開されるのか、あるいは独自製品として保持されるのかについても、同ラボは詳細を明らかにしていない。
StepFunは、この成果を実現した訓練データやモデル規模、計算リソースについてコメントを拒否した。この分野では、パフォーマンスの主張がピアレビューによる検証を先行するケースが一般的である。
実用化に関する未解決の課題
StepFunは、この音声AIをアプリケーションやプラットフォームに統合する具体的なスケジュールを発表していない。技術論文の公開と、今後数か月以内にサンプルコードを提供する可能性があると述べるにとどまっている。この技術がサードパーティにライセンス供与されるのか、あるいは消費者向け製品に組み込まれるのかは現時点で不明である。



