عوامل هوش مصنوعی در یک آزمون معیار جدید که برای سنجش توانایی آنها در انجام وظایف کاری دنیای واقعی طراحی شده بود، مردود شدند و تنها ۲.۶٪ از چالشها را با موفقیت پشت سر گذاشتند. نتایج این آزمون که «آخرین امتحان عوامل» (Agents’ Last Exam) نام دارد، نشان میدهد که نسل فعلی عوامل هنوز نمیتوانند به طور قابل اعتمادی از پس وظایف پیچیده و چندمرحلهای که بیشتر مشاغل اداری را پر میکنند، برآیند.
آزمون چه چیزی را سنجید
در این آزمون، عوامل با مجموعهای از وظایف الگوبرداریشده از فعالیتهای رایج محیط کار مواجه شدند – کارهایی مانند تنظیم جلسات، نگارش مکاتبات، انجام تحقیقات پایه و هماهنگی با ابزارهای دیگر. اینها پرسشهای ساده و پاسخهای سریع نیستند؛ بلکه نیاز به برنامهریزی، استفاده از ابزارها و تطبیق با شرایط هنگام بروز مشکل دارند. نرخ موفقیت ۲.۶٪ به این معناست که عوامل تنها در تعداد معدودی از صدها وظیفهای که با آن روبرو شدند، موفق عمل کردند.
چرا این نمره مهم است
برای شرکتهایی که به دنبال به کارگیری عوامل هوش مصنوعی برای خودکارسازی کل گردشهای کاری هستند، این نتیجه یک واقعیتنمایی است. عوامل هوش مصنوعی هماکنون میتوانند در آزمونهای چندگزینهای نمره کامل بگیرند و متون روان تولید کنند، اما در مسائل باز که انسانها روزانه بدون فکر کردن حل میکنند، دچار مشکل میشوند. نمره پایین نشان میدهد که اتکا به عوامل برای هر چیزی فراتر از وظایف محدود و کاملاً تعریفشده، حداقل در حال حاضر، میتواند نتیجه معکوس داشته باشد.
عوامل هنوز در کجا ضعف دارند
این آزمون نتایج را بر اساس نوع وظیفه تفکیک نکرده است، اما نرخ کلی شکست نشان میدهد که عوامل در آن دسته از وظایفی که نیاز به عقل سلیم، بازیابی از خطا و مدیریت ابهام دارند، ضعیفترین عملکرد را دارند. ظاهراً وظیفهای که شامل پرسیدن یک سوال پیگیری یا تشخیص تناقض در دستورالعملها باشد، برای به زانو درآوردن آنها کافی است. این یک شکاف بزرگ است اگر کسبوکارها بخواهند عوامل در کنار انسانها کار کنند، نه اینکه فقط از یک سناریوی از پیش تعیینشده پیروی کنند.
طراحان این آزمون معیار هنوز اعلام نکردهاند که آیا قصد انتشار آزمون بعدی را دارند یا خیر، اما رقم ۲.۶٪ یک سطح پایین برای شکست دادن تعیین میکند. در حال حاضر، پیام واضح است: آخرین امتحان برای عوامل هوش مصنوعی، امتحانی نیست که آنها آماده قبول شدن در آن باشند.




