StepFun, সাংহাই-ভিত্তিক ল্যাব যা উচ্চ-কার্যক্ষমতা সম্পন্ন বড় ভাষার মডেল তৈরি করার জন্য পরিচিত, একটি ভয়েস এআই তৈরি করেছে যা প্রতিটি বিদ্যমান বেঞ্চমার্ককে ছাড়িয়ে যায়। ল্যাবের প্রকাশিত বিবরণ অনুযায়ী, সিস্টেমটি দীর্ঘশ্বাসের মতো সূক্ষ্ম আবেগগত সংকেত সনাক্ত করতেও সক্ষম।
সিস্টেমটি কীভাবে পরীক্ষা করা হয়েছিল
StepFun কোন বেঞ্চমার্ক ব্যবহার করা হয়েছে তা উল্লেখ করেনি বা সঠিক স্কোর প্রকাশ করেনি, তবে দাবি করেছে যে মডেলটি ভয়েস-এআই মূল্যায়নের একটি মানক সেট জুড়ে সমস্ত প্রতিযোগীকে পরাজিত করেছে। ল্যাবটি পূর্বে ওপেন-সোর্স LLM (বড় ভাষার মডেল) প্রকাশ করেছে যা চীনা এবং ইংরেজি ভাষার কাজের জন্য লিডারবোর্ডের শীর্ষের কাছাকাছি স্থান পেয়েছে।
আবেগ সনাক্তকরণের অর্থ কী
বক্তৃতা শনাক্তকরণ ও সংশ্লেষণের বাইরে, নতুন মডেলটি দীর্ঘশ্বাসের মতো অ-মৌখিক সংকেতও ধরতে পারে—যা হতাশা, স্বস্তি বা ক্লান্তির নির্দেশক। এই স্তরের সূক্ষ্মতা এআইকে গ্রাহক পরিষেবা, মানসিক স্বাস্থ্য স্ক্রিনিং বা গাড়ির সহায়কগুলিতে কার্যকর করে তুলতে পারে, যদিও StepFun কোনো বাণিজ্যিক অংশীদারিত্ব বা স্থাপনার ঘোষণা দেয়নি।
চীনের এআই ল্যাবগুলি পাঠ্য এবং ভয়েস উভয় কাজেই মার্কিন প্রতিপক্ষের সাথে আক্রমণাত্মকভাবে প্রতিযোগিতা করে আসছে। StepFun-এর শীর্ষ-স্থানীয় ভয়েস মডেলের দাবি Baidu, Alibaba, এবং SenseTime-এর মতো প্রতিদ্বন্দ্বীদের উপর চাপ সৃষ্টি করে, যারা ভয়েস-এআই গবেষণা কার্যক্রমও চালায়। ল্যাবটি মডেলটি ওপেন-সোর্স হিসাবে প্রকাশ করবে নাকি মালিকানাধীন পণ্য হিসাবে রাখবে তা জানায়নি।
ল্যাবটি ফলাফল অর্জনের জন্য ব্যবহৃত প্রশিক্ষণ ডেটা, মডেলের আকার বা কম্পিউট সম্পর্কে মন্তব্য করতে অস্বীকার করেছে। এই বিশদ অভাব ক্ষেত্রটিতে সাধারণ, যেখানে কর্মক্ষমতা দাবি প্রায়শই পিয়ার-রিভিউ যাচাইকে ছাড়িয়ে যায়।
স্থাপনা সম্পর্কে অনুল্লেখিত প্রশ্ন
StepFun ভয়েস এআইকে কোনো অ্যাপ্লিকেশন বা প্ল্যাটফর্মে সংহত করার জন্য কোনো সময়সীমা ঘোষণা করেনি। ল্যাবটি শুধু বলেছে যে এটি একটি প্রযুক্তিগত গবেষণাপত্র প্রকাশ করবে এবং সম্ভবত আগামী মাসগুলিতে নমুনা কোড প্রকাশ করবে। প্রযুক্তিটি তৃতীয় পক্ষের কাছে লাইসেন্স দেওয়া হবে নাকি ভোক্তা-মুখী পণ্যে নির্মিত হবে তা অজানা থেকে গেছে।




