Apa yang diukur oleh ujian ini
Ujian tersebut memberikan serangkaian tugas yang dimodelkan dari aktivitas kerja umum — seperti menjadwalkan rapat, menyusun korespondensi, melakukan riset dasar, dan berkoordinasi dengan alat lain. Ini bukan pertanyaan-pertanyaan sederhana; mereka membutuhkan perencanaan, penggunaan alat, dan adaptasi ketika ada yang salah. Tingkat kelulusan 2,6% berarti agen hanya berhasil pada segelintir dari ratusan tugas yang mereka hadapi.
Mengapa skor ini penting
Bagi perusahaan yang ingin menggunakan agen AI untuk mengotomatiskan seluruh alur kerja, hasil ini merupakan pemeriksaan realitas. Agen sudah bisa unggul dalam tes pilihan ganda dan menghasilkan teks yang lancar,




