最新ベンチマークでAIエージェントが現実のタスクをわずか2.6%しかクリアできず

試験の測定内容

この試験では、エージェントに一般的な職場活動をモデルにした一連のタスク（会議のスケジュール調整、書類の下書き、基礎調査の実施、他のツールとの連携など）が課されました。これらは単純なQ&Aプロンプトではなく、計画立案、ツールの使用、問題発生時の適応が求められます。2.6%という合格率は、エージェントが直面した数百のタスクのうちごく一部しか成功しなかったことを意味します。

スコアの重要性

ワークフロー全体を自動化するためにAIエージェントの導入を検討している企業にとって、この結果は現実を突きつけるものとなっています。エージェントはすでに多肢選択式テストで高得点を取り、流暢な文章を生成できますが、人間が日常的に何気なく解決している自由形式の問題ではつまずいてしまいます。この低いスコアは、狭く明確に定義されたタスク以外でエージェントに依存すると、少なくとも現時点では逆効果になる可能性を示唆しています。

エージェントが依然として不足している点

テストではタスクの種類ごとの結果は公表されていませんが、全体的な失敗率から、エージェントは常識、エラーからの回復、曖昧さへの対応が必要な課題で最も弱いことが示唆されています。フォローアップの質問をしたり、指示の矛盾

試験の測定内容

スコアの重要性

エージェントが依然として不足している点

関連記事