สิ่งที่การทดสอบวัด
การทดสอบนี้ให้เอเจนต์ทำงานหลายอย่างที่จำลองจากกิจกรรมทั่วไปในที่ทำงาน เช่น การจัดตารางประชุม การร่างจดหมาย การค้นคว้าพื้นฐาน และการประสานงานกับเครื่องมืออื่นๆ สิ่งเหล่านี้ไม่ใช่คำถาม-คำตอบง่ายๆ แต่ต้องใช้การวางแผน การใช้เครื่องมือ และการปรับตัวเมื่อมีสิ่งผิดพลาด อัตราการผ่าน 2.6% หมายความว่าเอเจนต์ประสบความสำเร็จเพียงไม่กี่งานจากหลายร้อยงานที่พวกเขาเผชิญ
เหตุใดคะแนนนี้จึงสำคัญ
สำหรับบริษัทที่ต้องการนำเอเจนต์ AI มาใช้เพื่อทำให้กระบวนการทำงานทั้งหมดเป็นอัตโนมัติ ผลลัพธ์นี้คือการตรวจสอบความเป็นจริง เอเจนต์สามารถทำข้อสอบแบบเลือกตอบได้ดีและสร้างข้อความที่คล่องแคล่ว แต่พวกเขาสะดุดกับปัญหาปลายเปิดที่มนุษย์แก้ไขได้ทุกวันโดยไม่ต้องคิด คะแนนที่ต่ำชี้ให้เห็นว่าการพึ่งพาเอเจนต์สำหรับ




