Loading market data...

最新基准测试中,AI代理仅完成2.6%的真实世界任务

最新基准测试中,AI代理仅完成2.6%的真实世界任务

在最近一项旨在衡量AI代理处理真实工作任务能力的基准测试中,它们表现不佳,仅通过了2.6%的挑战。这项名为“代理的最后考试”的测试结果显示,当前这批AI代理仍然无法可靠地处理办公室工作中常见的那些杂乱、多步骤的任务。

考试测量了什么

该考试让AI代理完成一系列模拟常见工作场景的任务——比如安排会议、起草信函、进行基础研究以及与其他工具协调。这些不是简单的问答提示;它们需要规划、工具使用以及在出错时进行调整。2.6%的通过率意味着AI代理在数百个任务中仅成功完成了少数几个。

为何分数重要

对于希望部署AI代理来自动化整个工作流程的公司来说,这一结果是个现实检验。AI代理已经能够轻松应对多项选择题并生成流畅的文本,但在面对人类日常无需思考就能解决的开放式问题时却会卡壳。低分表明,至少在目前,依赖AI代理处理超出狭窄、明确任务范围的工作可能会适得其反。

AI代理仍在哪里不足

测试并未按任务类型公布结果,但整体失败率表明,AI代理在需要常识、错误恢复和处理模糊性的任务上最为薄弱。涉及提出后续问题或注意到指令矛盾的任务显然足以让它们出错。如果企业希望AI代理与人类并肩工作而不仅仅是遵循脚本,这是一个巨大的差距。

该基准测试的设计者尚未表示是否计划发布后续测试,但2.6%的数字设定了一个较低的超越标准。目前,信息很明确:AI代理的最后一次考试,它们还没准备好通过。