ما الذي قاسه الاختبار
وضع الاختبار الوكلاء أمام سلسلة من المهام المستوحاة من الأنشطة المكتبية الشائعة - مثل جدولة الاجتماعات، وصياغة المراسلات، وإجراء البحوث الأساسية، والتنسيق مع الأدوات الأخرى. هذه ليست أسئلة وأجوبة بسيطة؛ بل تتطلب التخطيط واستخدام الأدوات والتكيف عند حدوث خطأ. ويعني معدل النجاح البالغ 2.6% أن الوكلاء نجحوا في عدد قليل فقط من مئات المهام التي واجهوها.
لماذا تعتبر النتيجة مهمة
بالنسبة للشركات التي تسعى لنشر وكلاء الذكاء الاصطناعي لأتمتة سير العمل بالكامل، فإن النتيجة هي تذكير بالواقع. يمكن للوكلاء بالفعل التفوق في اختبارات الاختيار من متعدد وتوليد نصوص سلسة، لكنهم يتعثرون في المشكلات المفتوحة التي يحلها البشر يوميًا دون تفكير. ويشير المعدل المنخفض إلى أن الاعتماد على الوكلاء في أي شيء يتجاوز المهام الضيقة والمحددة بوضوح قد يأتي بنتائج عكسية - على الأقل في الوقت الحالي.
أين لا يزال الوكلاء يقصرون
لم




