عوامل هوش مصنوعی تنها ۲.۶٪ از وظایف دنیای واقعی را در آخرین آزمون معیار پشت سر گذاشتند

عوامل هوش مصنوعی در یک آزمون معیار جدید که برای سنجش توانایی آن‌ها در انجام وظایف کاری دنیای واقعی طراحی شده بود، مردود شدند و تنها ۲.۶٪ از چالش‌ها را با موفقیت پشت سر گذاشتند. نتایج این آزمون که «آخرین امتحان عوامل» (Agents’ Last Exam) نام دارد، نشان می‌دهد که نسل فعلی عوامل هنوز نمی‌توانند به طور قابل اعتمادی از پس وظایف پیچیده و چندمرحله‌ای که بیشتر مشاغل اداری را پر می‌کنند، برآیند.

آزمون چه چیزی را سنجید

در این آزمون، عوامل با مجموعه‌ای از وظایف الگوبرداری‌شده از فعالیت‌های رایج محیط کار مواجه شدند – کارهایی مانند تنظیم جلسات، نگارش مکاتبات، انجام تحقیقات پایه و هماهنگی با ابزارهای دیگر. این‌ها پرسش‌های ساده و پاسخ‌های سریع نیستند؛ بلکه نیاز به برنامه‌ریزی، استفاده از ابزارها و تطبیق با شرایط هنگام بروز مشکل دارند. نرخ موفقیت ۲.۶٪ به این معناست که عوامل تنها در تعداد معدودی از صدها وظیفه‌ای که با آن روبرو شدند، موفق عمل کردند.

چرا این نمره مهم است

برای شرکت‌هایی که به دنبال به کارگیری عوامل هوش مصنوعی برای خودکارسازی کل گردش‌های کاری هستند، این نتیجه یک واقعیت‌نمایی است. عوامل هوش مصنوعی هم‌اکنون می‌توانند در آزمون‌های چندگزینه‌ای نمره کامل بگیرند و متون روان تولید کنند، اما در مسائل باز که انسان‌ها روزانه بدون فکر کردن حل می‌کنند، دچار مشکل می‌شوند. نمره پایین نشان می‌دهد که اتکا به عوامل برای هر چیزی فراتر از وظایف محدود و کاملاً تعریف‌شده، حداقل در حال حاضر، می‌تواند نتیجه معکوس داشته باشد.

عوامل هنوز در کجا ضعف دارند

این آزمون نتایج را بر اساس نوع وظیفه تفکیک نکرده است، اما نرخ کلی شکست نشان می‌دهد که عوامل در آن دسته از وظایفی که نیاز به عقل سلیم، بازیابی از خطا و مدیریت ابهام دارند، ضعیف‌ترین عملکرد را دارند. ظاهراً وظیفه‌ای که شامل پرسیدن یک سوال پیگیری یا تشخیص تناقض در دستورالعمل‌ها باشد، برای به زانو درآوردن آن‌ها کافی است. این یک شکاف بزرگ است اگر کسب‌وکارها بخواهند عوامل در کنار انسان‌ها کار کنند، نه اینکه فقط از یک سناریوی از پیش تعیین‌شده پیروی کنند.

طراحان این آزمون معیار هنوز اعلام نکرده‌اند که آیا قصد انتشار آزمون بعدی را دارند یا خیر، اما رقم ۲.۶٪ یک سطح پایین برای شکست دادن تعیین می‌کند. در حال حاضر، پیام واضح است: آخرین امتحان برای عوامل هوش مصنوعی، امتحانی نیست که آن‌ها آماده قبول شدن در آن باشند.

آزمون چه چیزی را سنجید

چرا این نمره مهم است

عوامل هنوز در کجا ضعف دارند

Related Articles