একটি সাম্প্রতিক বেঞ্চমার্কে, যা বাস্তব বিশ্বের কাজের দক্ষতা পরিমাপের জন্য ডিজাইন করা হয়েছে, এআই এজেন্টরা ব্যর্থ হয়েছে—তারা মাত্র ২.৬% চ্যালেঞ্জ পাস করেছে। 'এজেন্টস লাস্ট এক্সাম' নামক এই পরীক্ষার ফলাফল দেখায় যে বর্তমান প্রজন্মের এজেন্টরা এখনও এমন জটিল, বহু-পদক্ষেপবিশিষ্ট কাজগুলি নির্ভরযোগ্যভাবে সম্পাদন করতে পারে না যা অধিকাংশ অফিসের চাকরিতে দেখা যায়।
পরীক্ষায় কী পরিমাপ করা হয়েছিল
পরীক্ষায় এজেন্টদের সাধারণ কর্মক্ষেত্রের কার্যকলাপের অনুকরণে তৈরি করা কাজের একটি সিরিজের মুখোমুখি করা হয়েছিল—যেমন মিটিং শিডিউল করা, চিঠিপত্র খসড়া করা, মৌলিক গবেষণা পরিচালনা করা এবং অন্যান্য সরঞ্জামের সাথে সমন্বয় করা। এগুলি সহজ প্রশ্নোত্তর প্রম্পট নয়; এগুলির জন্য পরিকল্পনা, সরঞ্জাম ব্যবহার এবং কিছু ভুল হলে মানিয়ে নেওয়ার প্রয়োজন। ২.৬% পাসের হার মানে এজেন্টরা তাদের মুখোমুখি হওয়া শত শত কাজের মধ্যে মাত্র কয়েকটিতে সফল হয়েছে।
স্কোরটি কেন গুরুত্বপূর্ণ
যে সংস্থাগুলি সম্পূর্ণ কর্মপ্রবাহ স্বয়ংক্রিয় করতে এআই এজেন্ট স্থাপন করতে চায়, তাদের জন্য ফলাফলটি একটি বাস্তবতা পরীক্ষা। এজেন্টরা ইতিমধ্যে বহু-পছন্দের পরীক্ষায় ভালো করতে পারে এবং সাবলীল টেক্সট তৈরি করতে পারে, কিন্তু তারা খোলামেলা সমস্যায় হোঁচট খায় যা মানুষ প্রতিদিন চিন্তা না করেই সমাধান করে। কম স্কোর ইঙ্গিত দেয় যে সংকীর্ণ, সুসংজ্ঞায়িত কাজের বাইরে এজেন্টদের উপর নির্ভর করা ব্যাকফায়ার করতে পারে—অন্তত আপাতত।
এজেন্টরা এখনও কোথায় পিছিয়ে আছে
পরীক্ষাটি কাজের ধরন অনুযায়ী ফলাফল ভাগ করেনি, তবে সামগ্রিক ব্যর্থতার হার থেকে বোঝা যায় যে এজেন্টরা সবচেয়ে দুর্বল সেই ধরনের কাজগুলিতে যার জন্য সাধারণ জ্ঞান, ত্রুটি পুনরুদ্ধার এবং অস্পষ্টতা মোকাবিলার প্রয়োজন। একটি কাজ যাতে একটি অনুসরণমূলক প্রশ্ন জিজ্ঞাসা করা বা নির্দেশাবলীতে দ্বন্দ্ব লক্ষ্য করা জড়িত, তা তাদের থামানোর জন্য যথেষ্ট বলে মনে হয়। এটি একটি বড় ফাঁক যদি ব্যবসাগুলি এজেন্টদের মানুষের পাশাপাশি কাজ করতে চায়, শুধু একটি স্ক্রিপ্ট অনুসরণ না করে।
বেঞ্চমার্কের ডিজাইনাররা এখনও বলেননি যে তারা একটি ফলো-আপ পরীক্ষা প্রকাশ করার পরিকল্পনা করছে কিনা, তবে ২.৬% সংখ্যাটি হারানোর জন্য একটি নিম্ন বার সেট করে। আপাতত, বার্তাটি পরিষ্কার: এআই এজেন্টদের শেষ পরীক্ষাটি এমন নয় যা তারা পাস করতে প্রস্তুত।




