StepFun, šanghajské laboratoře známé vývojem vysoce výkonných velkých jazykových modelů, vytvořily hlasovou umělou inteligenci, která překonává všechny stávající benchmarky. Systém je také schopen detekovat jemné emocionální signály, jako jsou povzdechy, uvádí laboratoř v podrobnostech, které zveřejnila.
Jak byl systém testován
StepFun neuvedl, které benchmarky byly použity ani přesné skóre, ale tvrdí, že model porazil všechny konkurenty v rámci standardní sady hodnocení hlasové AI. Laboratoř již dříve zveřejnila open-source velké jazykové modely, které se umístily na předních příčkách žebříčků pro úlohy v čínštině a angličtině.
Co znamená detekce emocí
Kromě rozpoznávání řeči a syntézy dokáže nový model zachytit neverbální signály, jako jsou povzdechy – indikátory frustrace, úlevy nebo únavy. Tato úroveň nuancí by mohla být užitečná pro AI v zákaznickém servisu, screeningu duševního zdraví nebo asistentech v autech, i když StepFun neoznámil žádná obchodní partnerství ani nasazení.
Čínské AI laboratoře agresivně soutěží s protějšky z USA v textových i hlasových úlohách. StepFunovo tvrzení o nejlépe hodnoceném hlasovém modelu zvyšuje tlak na konkurenty, jako jsou Baidu, Alibaba a SenseTime, které také provozují výzkumné programy v oblasti hlasové AI. Laboratoř neuvedla, zda bude model uvolněn jako open-source nebo zůstane proprietárním produktem.
Laboratoř se odmítla vyjádřit k trénovacím datům, velikosti modelu nebo výpočetnímu výkonu použitému k dosažení výsledků. Tento nedostatek podrobností je v oboru běžný, kde tvrzení o výkonu často předbíhají ověření odborníky.
Neodpovězené otázky ohledně nasazení
StepFun neoznámil časový plán integrace hlasové AI do jakékoli aplikace nebo platformy. Laboratoř uvedla pouze to, že v nadcházejících měsících zveřejní technický dokument a případně uvolní ukázkový kód. Zda bude technologie licencována třetím stranám nebo zabudována do produktu určeného pro spotřebitele, zůstává neznámé.




