استپفان، آزمایشگاه مستقر در شانگهای که به ساخت مدلهای زبانی بزرگ با عملکرد بالا معروف است، یک هوش مصنوعی صوتی ساخته که از تمام معیارهای موجود بهتر عمل میکند. این سیستم همچنین قادر به تشخیص نشانههای عاطفی ظریف مانند آه کشیدن است، طبق جزئیات منتشر شده توسط آزمایشگاه.
نحوه آزمایش سیستم
استپفان مشخص نکرد که از کدام معیارها استفاده شده یا نمرات دقیق را فاش نکرد، اما ادعا کرد که این مدل در یک مجموعه استاندارد از ارزیابیهای هوش مصنوعی صوتی از تمام رقبا پیشی گرفته است. این آزمایشگاه پیشتر مدلهای زبانی بزرگ منبعباز منتشر کرده بود که در رتبهبندیهای وظایف زبانی چینی و انگلیسی در نزدیکی صدر قرار داشتند.
معنای تشخیص عاطفی
فراتر از تشخیص و ترکیب گفتار، مدل جدید میتواند سیگنالهای غیرکلامی مانند آه را تشخیص دهد - که نشاندهنده ناامیدی، آرامش یا خستگی است. این سطح از ظرافت میتواند هوش مصنوعی را در خدمات مشتریان، غربالگری سلامت روان یا دستیارهای داخل خودرو مفید کند، اگرچه استپفان هیچ مشارکت یا استقرار تجاری اعلام نکرده است.
آزمایشگاههای هوش مصنوعی چین به شدت با همتایان آمریکایی خود در وظایف متنی و صوتی رقابت کردهاند. ادعای استپفان مبنی بر یک مدل صوتی در صدر رتبهبندی، به رقبایی مانند بایدو، علیبابا و سنستایم که برنامههای تحقیقاتی هوش مصنوعی صوتی دارند، فشار وارد میکند. این آزمایشگاه اعلام نکرده که آیا مدل به صورت منبعباز منتشر میشود یا به عنوان یک محصول اختصاصی نگه داشته میشود.
این آزمایشگاه از اظهار نظر در مورد دادههای آموزشی، اندازه مدل یا محاسبات استفاده شده برای دستیابی به نتایج خودداری کرد. این کمبود جزئیات در این زمینه رایج است، جایی که ادعاهای عملکرد اغلب از تأیید همتا فراتر میروند.
سوالات بیپاسخ درباره استقرار
استپفان جدول زمانی برای ادغام هوش مصنوعی صوتی در هر برنامه یا پلتفرمی اعلام نکرده است. این آزمایشگاه فقط گفت که یک مقاله فنی منتشر خواهد کرد و احتمالاً در ماههای آینده نمونه کد را منتشر میکند. اینکه آیا این فناوری به اشخاص ثالث مجوز داده میشود یا در محصولی مصرفکننده ساخته میشود، ناشناخته باقی مانده است.




