Loading market data...

科技

最新基准测试中，AI代理仅完成2.6%的真实世界任务

By GFdaily Newsroom

AI agents benchmark real-world tasks AI performance Agents' Last Exam

June 18, 2026 1 分钟阅读

Read in:🇺🇸 English 🇦🇱 Shqip 🇫🇷 Français 🇷🇺 Русский 🇨🇳 中文 🇯🇵 日本語 🇰🇷 한국어 🇨🇿 Čeština

最新基准测试中，AI代理仅完成2.6%的真实世界任务

在最近一项旨在衡量AI代理处理真实工作任务能力的基准测试中，它们表现不佳，仅通过了2.6%的挑战。这项名为“代理的最后考试”的测试结果显示，当前这批AI代理仍然无法可靠地处理办公室工作中常见的那些杂乱、多步骤的任务。

考试测量了什么

该考试让AI代理完成一系列模拟常见工作场景的任务——比如安排会议、起草信函、进行基础研究以及与其他工具协调。这些不是简单的问答提示；它们需要规划、工具使用以及在出错时进行调整。2.6%的通过率意味着AI代理在数百个任务中仅成功完成了少数几个。

为何分数重要

对于希望部署AI代理来自动化整个工作流程的公司来说，这一结果是个现实检验。AI代理已经能够轻松应对多项选择题并生成流畅的文本，但在面对人类日常无需思考就能解决的开放式问题时却会卡壳。低分表明，至少在目前，依赖AI代理处理超出狭窄、明确任务范围的工作可能会适得其反。

AI代理仍在哪里不足

测试并未按任务类型公布结果，但整体失败率表明，AI代理在需要常识、错误恢复和处理模糊性的任务上最为薄弱。涉及提出后续问题或注意到指令矛盾的任务显然足以让它们出错。如果企业希望AI代理与人类并肩工作而不仅仅是遵循脚本，这是一个巨大的差距。

该基准测试的设计者尚未表示是否计划发布后续测试，但2.6%的数字设定了一个较低的超越标准。目前，信息很明确：AI代理的最后一次考试，它们还没准备好通过。