KI-Agenten sind bei einem aktuellen Benchmark, der messen soll, wie gut sie mit realen Arbeitsaufgaben zurechtkommen, durchgefallen – sie bestanden nur 2,6 % der Herausforderungen. Die Ergebnisse des Tests namens „Agents’ Last Exam“ zeigen, dass die derzeitigen Agenten immer noch nicht zuverlässig mit der chaotischen, mehrstufigen Art von Aufgaben umgehen können, die die meisten Büroarbeitsplätze ausmachen.
Was der Test gemessen hat
Der Test stellte die Agenten vor eine Reihe von Aufgaben, die typischen Arbeitsplatzaktivitäten nachempfunden waren – darunter Terminplanung, Verfassen von Korrespondenz, grundlegende Recherche und Koordination mit anderen Tools. Es handelt sich nicht um einfache Frage-und-Antwort-Aufforderungen; sie erfordern Planung, Werkzeugnutzung und Anpassung, wenn etwas schiefgeht. Die Bestehensquote von 2,6 % bedeutet, dass die Agenten nur bei einer Handvoll der Hunderte von Aufgaben, mit denen sie konfrontiert wurden, erfolgreich waren.
Warum die Punktzahl wichtig ist
Für Unternehmen, die KI-Agenten einsetzen wollen, um ganze Arbeitsabläufe zu automatisieren, ist das Ergebnis ein Realitätscheck. Agenten können bereits Multiple-Choice-Tests mit Bravour bestehen und fließende Texte generieren, aber sie scheitern an offenen Problemen, die Menschen täglich ohne Nachdenken lösen. Die niedrige Punktzahl deutet darauf hin, dass es zumindest derzeit nach hinten losgehen könnte, wenn man sich bei mehr als nur engen, klar definierten Aufgaben auf Agenten verlässt.
Wo Agenten noch Defizite haben
Der Test hat die Ergebnisse nicht nach Aufgabentyp aufgeschlüsselt, aber die insgesamt hohe Fehlerquote legt nahe, dass Agenten bei Aufgaben am schwächsten sind, die gesunden Menschenverstand, Fehlerbehebung und den Umgang mit Mehrdeutigkeit erfordern. Eine Aufgabe, die eine Rückfrage oder das Erkennen eines Widerspruchs in der Anweisung beinhaltet, reicht offenbar aus, um sie zu Fall zu bringen. Das ist eine große Lücke, wenn Unternehmen möchten, dass Agenten mit Menschen zusammenarbeiten und nicht nur einem Skript folgen.
Die Entwickler des Benchmarks haben nicht gesagt, ob sie einen Folgetest veröffentlichen wollen, aber die 2,6 % setzen eine niedrige Messlatte, die es zu übertreffen gilt. Vorerst ist die Botschaft klar: Die letzte Prüfung für KI-Agenten ist eine, die sie noch nicht bestehen können.




