סוכני AI נכשלו במדד עדכני שנועד למדוד את יכולתם להתמודד עם משימות עבודה בעולם האמיתי, ועברו רק 2.6% מהאתגרים. תוצאות המבחן, שנקרא 'Agents’ Last Exam', מראות שהדור הנוכחי של סוכנים עדיין לא מסוגל לנווט באופן אמין במשימות מורכבות ורבות-שלבים שממלאות את רוב משרות המשרד.
מה המדד בדק
המדד הציב לסוכנים סדרת משימות שדוגמות פעילויות נפוצות במקום העבודה — דברים כמו תזמון פגישות, ניסוח התכתבויות, ביצוע מחקר בסיסי ותיאום עם כלים אחרים. אלה אינן שאלות פשוטות של תשובה-קצרה; הן דורשות תכנון, שימוש בכלים והתאמה כאשר משהו משתבש. שיעור המעבר של 2.6% אומר שהסוכנים הצליחו רק במספר מצומצם של משימות מתוך מאות שעמדו בפניהם.
מדוע הציון חשוב
עבור חברות השואפות לפרוס סוכני AI לאוטומציה של זרימות עבודה שלמות, התוצאה היא בדיקת מציאות. סוכנים כבר יכולים להצליח במבחנים רב-ברירתיים וליצור טקסט שוטף, אך הם נכשלים בבעיות פתוחות שבני אדם פותרים מדי יום בלי לחשוב. הציון הנמוך מרמז שהסתמכות על סוכנים לכל דבר מעבר למשימות מצומצמות ומוגדרות היטב עלולה להתגלות כמוטעית — לפחות לעת עתה.
היכן הסוכנים עדיין נכשלים
המבחן לא פירט תוצאות לפי סוג משימה, אך שיעור הכישלון הכולל מרמז שהסוכנים חלשים ביותר במשימות הדורשות שכל ישר, התאוששות משגיאות וטיפול בעמימות. משימה הכוללת שאלת המשך או זיהוי סתירה בהוראות מספיקה כנראה כדי להכשיל אותם. זהו פער גדול אם עסקים רוצים שהסוכנים יעבדו לצד אנשים, ולא רק יבצעו תסריט קבוע מראש.
מעצבי המדד לא הודיעו אם הם מתכננים לפרסם מבחן המשך, אך הנתון של 2.6% קובע רף נמוך לשבירה. לעת עתה, המסר ברור: המבחן האחרון עבור סוכני AI אינו כזה שהם מוכנים לעבור.




