AI 에이전트, 최신 벤치마크에서 실제 업무 과제의 2.6%만 통과

시험이 측정한 것

시험은 에이전트에게 회의 일정 잡기, 서신 작성, 기본 조사 수행, 다른 도구와의 조정 등 일반적인 직장 활동을 모델로 한 일련의 과제를 부여했습니다. 이는 단순한 질의응답 프롬프트가 아니라 계획 수립, 도구 사용, 문제 발생 시 적응을 요구합니다. 2.6%의 통과율은 에이전트가 수백 개의 과제 중 극소수만 성공했음을 의미합니다.

점수가 중요한 이유

전체 워크플로를 자동화하기 위해 AI 에이전트를 도입하려는 기업에게 이 결과는 현실 점검입니다. 에이전트는 이미 객관식 시험에서 만점을 받고 유창한 텍스트를 생성할 수 있지만, 인간이 생각 없이 매일 해결하는 개방형 문제에서는 실패합니다. 낮은 점수는 좁고 잘 정의된 작업을 넘어 에이전트에 의존하는 것이 역효과를 낼 수 있음을 시사합니다. 적어도 지금은 말이죠.

에이전트가 여전히 부족한 점

테스트는 과제 유형별 결과를 분류하지 않았지만, 전체 실패율은 에이전트가 상식, 오류 복구, 모호함 처리 등이 필요한 과제에서 가장 취약함을 시사합니다. 후속 질문을 하거나 지침의 모순을 알아차리는 작업만으로도 에이전트가 어려움을 겪는 것으로 보입니다. 이는 기업이 에이전트가 단순히 스크립트를 따르는 것이 아니라 사람과 함께 작업하기를 원한다면 큰 격차입니다.

벤치마크 설계자들은 후속 테스트를 공개할 계

시험이 측정한 것

점수가 중요한 이유

에이전트가 여전히 부족한 점

Related Articles