Ejen AI Hanya Lulus 2.6% Tugasan Dunia Nyata dalam Penanda Aras Terkini

Ejen AI gagal dalam penanda aras terkini yang direka untuk mengukur sejauh mana mereka mengendalikan tugasan kerja dunia nyata, hanya lulus 2.6% daripada cabaran. Keputusan daripada ujian yang dipanggil 'Agents’ Last Exam' menunjukkan bahawa kumpulan ejen semasa masih belum boleh mengemudi dengan boleh dipercayai jenis tugasan yang rumit dan pelbagai langkah yang mengisi kebanyakan kerja pejabat.

Apa yang diukur oleh peperiksaan

Peperiksaan itu meletakkan ejen melalui satu siri tugasan yang dimodelkan pada aktiviti kerja biasa — perkara seperti menjadualkan mesyuarat, menulis draf surat-menyurat, menjalankan penyelidikan asas, dan menyelaras dengan alat lain. Ini bukan soalan Q&A yang mudah; ia memerlukan perancangan, penggunaan alat, dan penyesuaian apabila sesuatu berlaku tidak kena. Kadar lulus 2.6% bermakna ejen hanya berjaya dalam segelintir daripada ratusan tugasan yang mereka hadapi.

Mengapa skor itu penting

Bagi syarikat yang ingin menggunakan ejen AI untuk mengautomasikan aliran kerja sepenuhnya, hasilnya adalah semakan realiti. Ejen sudah boleh lulus ujian pelbagai pilihan dan menjana teks yang lancar, tetapi mereka tersadung pada masalah terbuka yang manusia selesaikan setiap hari tanpa berfikir. Skor rendah itu menunjukkan bahawa bergantung pada ejen untuk apa-apa di luar tugasan yang sempit dan jelas boleh menjadi bumerang — sekurang-kurangnya buat masa ini.

Di mana ejen masih lemah

Ujian itu tidak memecahkan keputusan mengikut jenis tugasan, tetapi kadar kegagalan keseluruhan menunjukkan bahawa ejen paling lemah pada jenis tugasan yang memerlukan akal sehat, pemulihan ralat, dan mengendalikan kekaburan. Tugasan yang melibatkan mengemukakan soalan susulan atau menyedari percanggahan dalam arahan nampaknya cukup untuk membuat mereka tersadung. Itu adalah jurang yang besar jika perniagaan mahu ejen bekerja bersama manusia, bukan sekadar mengikut skrip.

Perancang penanda aras tidak menyatakan sama ada mereka bercadang untuk mengeluarkan ujian susulan, tetapi angka 2.6% menetapkan palang rendah untuk diatasi. Buat masa ini, mesejnya jelas: peperiksaan terakhir untuk ejen AI bukanlah satu yang mereka bersedia untuk lulus.

Apa yang diukur oleh peperiksaan

Mengapa skor itu penting

Di mana ejen masih lemah

Related Articles