StepFun, המעבדה המבוססת בשנחאי הידועה בבניית מודלי שפה גדולים בעלי ביצועים גבוהים, פיתחה בינה מלאכותית קולית שעולה על כל מדד קיים. המערכת מסוגלת גם לזהות רמזים רגשיים עדינים כמו אנחות, לפי פרטים שפרסמה המעבדה.
כיצד נבדקה המערכת
StepFun לא ציינה באילו מדדים נעשה שימוש או חשפה ציונים מדויקים, אך טענה שהמודל ניצח את כל המתחרים במערך סטנדרטי של הערכות בינה מלאכותית קולית. המעבדה פרסמה בעבר מודלי שפה גדולים בקוד פתוח שדורגו קרוב לראש טבלאות הדירוג במשימות בשפה הסינית והאנגלית.
מה המשמעות של זיהוי הרגש
מעבר לזיהוי דיבור וסינתזה, המודל החדש יכול לקלוט אותות לא-מילוליים כמו אנחות – אינדיקטור לתסכול, הקלה או עייפות. רמת ניואנס זו עשויה להפוך את הבינה המלאכותית לשימושית בשירות לקוחות, סינון בריאות נפשית או עוזרים ברכב, אם כי StepFun לא הכריזה על שותפויות מסחריות או פריסות.
מעבדות בינה מלאכותית סיניות מתחרות באגרסיביות עם מקבילותיהן האמריקאיות במשימות טקסט וקול. הטענה של StepFun על מודל קולי מדורג ראשון מוסיפה לחץ על יריבות כמו Baidu, Alibaba ו-SenseTime, שמפעילות גם הן תוכניות מחקר בתחום הבינה המלאכותית הקולית. המעבדה לא שיתפה האם המודל ישוחרר כקוד פתוח או יישמר כמוצר קנייני.
המעבדה סירבה להתייחס לנתוני האימון, גודל המודל או כוח החישוב ששימש להשגת התוצאות. חוסר פירוט זה נפוץ בתחום, שבו טענות ביצועים מקדימות לרוב את האימות המבוקר על ידי עמיתים.
שאלות ללא מענה לגבי פריסה
StepFun לא הכריזה על לוח זמנים לשילוב הבינה המלאכותית הקולית בכל יישום או פלטפורמה. המעבדה אמרה רק כי תפרסם מאמר טכני ואולי תשחרר קוד לדוגמה בחודשים הקרובים. האם הטכנולוגיה תורשה לצדדים שלישיים או תיבנה לתוך מוצר צרכני נותר לא ידוע.



