Agjentët e AI kalojnë vetëm 2.6% të detyrave reale në benchmark-un më të ri

Agjentët e AI dështuan në një benchmark të fundit të krijuar për të matur se sa mirë i trajtojnë detyrat reale të punës, duke kaluar vetëm 2.6% të sfidave. Rezultatet nga testi i quajtur 'Agents’ Last Exam' tregojnë se brezi aktual i agjentëve ende nuk mund të lundrojë në mënyrë të besueshme në llojin e detyrave të ndërlikuara dhe me shumë hapa që mbushin shumicën e punëve të zyrës.

Çfarë mati provimi

Provimi i vuri agjentët përballë një sërë detyrash të modeluara sipas aktiviteteve të zakonshme të vendit të punës – gjëra si planifikimi i takimeve, hartimi i korrespondencës, kryerja e kërkimeve bazë dhe koordinimi me mjete të tjera. Këto nuk janë pyetje të thjeshta përgjigjesh; ato kërkojnë planifikim, përdorim mjetesh dhe përshtatje kur diçka shkon keq. Shkalla e kalueshmërisë prej 2.6% do të thotë se agjentët ia dolën vetëm në një pjesë të vogël të qindra detyrave me të cilat u përballën.

Pse ka rëndësi rezultati

Për kompanitë që kërkojnë të vendosin agjentë të AI për të automatizuar rrjedha të plota pune, rezultati është një kontroll i realitetit. Agjentët tashmë mund të kalojnë me sukses testet me zgjedhje të shumëfishta dhe të gjenerojnë tekst të rrjedhshëm, por pengohen në problemet e hapura që njerëzit i zgjidhin çdo ditë pa u menduar. Rezultati i ulët sugjeron se mbështetja tek agjentët për çdo gjë përtej detyrave të ngushta dhe të përcaktuara mirë mund të sjellë pasoja negative – të paktën tani për tani.

Ku agjentët ende mbeten prapa

Testi nuk i ndau rezultatet sipas llojit të detyrës, por shkalla e përgjithshme e dështimit nënkupton se agjentët janë më të dobët në llojin e detyrave që kërkojnë sens të përbashkët, rimëkëmbje nga gabimet dhe trajtim të paqartësive. Një detyrë që përfshin bërjen e një pyetjeje vijuese ose vërejtjen e një kontradikte në udhëzime duket se mjafton për t'i penguar. Kjo është një hendek i madh nëse bizneset duan që agjentët të punojnë krahas njerëzve, jo thjesht të ndjekin një skenar.

Dizajnuesit e benchmark-ut nuk kanë thënë nëse planifikojnë të lëshojnë një test pasues, por shifra prej 2.6% vendos një nivel të ulët për t'u tejkaluar. Tani për tani, mesazhi është i qartë: provimi i fundit për agjentët e AI nuk është një provim që ata janë gati ta kalojnë.

Çfarë mati provimi

Pse ka rëndësi rezultati

Ku agjentët ende mbeten prapa

Related Articles