Yapay zeka ajanları, gerçek dünyadaki iş görevlerini ne kadar iyi yerine getirdiklerini ölçmek için tasarlanan son kıyaslama testinde başarısız oldu ve zorlukların yalnızca %2,6'sını geçti. 'Agents’ Last Exam' adlı testin sonuçları, mevcut ajan grubunun hâlâ çoğu ofis işini dolduran karmaşık, çok adımlı görev türlerini güvenilir bir şekilde yönetemediğini gösteriyor.
Sınav neyi ölçtü
Sınav, ajanları yaygın iş yeri




