Loading market data...

Harvey lansează un benchmark open-source pentru evaluarea performanței AI-ului juridic

Harvey lansează un benchmark open-source pentru evaluarea performanței AI-ului juridic

Harvey, compania de AI juridic, a lansat LAB, un benchmark open-source conceput pentru a măsura cât de bine gestionează inteligența artificială sarcinile juridice. Noul instrument de evaluare acoperă 24 de domenii de practică și include peste 1.200 de sarcini individuale, oferind o modalitate de a compara sistemele AI cap la cap.

Ce acoperă benchmark-ul

LAB nu testează un singur tip de activitate juridică. Acesta acoperă un spectru larg — de la tranzacții corporative la litigii, conformitate normativă la proprietate intelectuală. Fiecare sarcină este concepută pentru a imita o misiune juridică reală, cum ar fi redactarea unei clauze, rezumarea unui caz sau identificarea unui risc într-un contract. Cele 24 de domenii de practică înseamnă că benchmark-ul poate evalua atât cunoștințele juridice generale, cât și expertiza specializată.

De ce contează un standard open-source

În prezent, nu există o modalitate larg acceptată de a evalua AI-ul juridic. Diferite companii își desfășoară propriile teste, păstrând adesea rezultatele private. LAB de la Harvey este open-source, astfel încât oricine poate inspecta sarcinile, poate rula testele și poate trimite rezultate. Această transparență ar putea ajuta firmele de avocatură, echipele juridice interne și autoritățile de reglementare să facă comparații mai bune. De asemenea, permite comunității de tehnologie juridică să contribuie cu noi sarcini și domenii de practică în timp.

Impact potențial asupra industriei juridice

Pentru firmele de avocatură care evaluează instrumentele AI, LAB oferă un etalon consistent. În loc să se bazeze pe afirmațiile furnizorilor sau pe demonstrații limitate, acestea pot rula singure benchmark-ul. Acest lucru ar putea accelera adoptarea — sau ar putea dezvălui lacune în sistemele actuale. Pentru dezvoltatorii de AI, benchmark-ul evidențiază domeniile în care modelele întâmpină dificultăți, împingându-i să se îmbunătățească. Harvey însuși folosește LAB intern, dar publicarea sa deschisă invită la o mai largă analiză și colaborare.

Ce urmează

Benchmark-ul este disponibil acum pe GitHub sub o licență open-source. Harvey spune că intenționează să actualizeze LAB în mod regulat, adăugând noi sarcini pe măsură ce munca juridică evoluează. Marea întrebare este dacă alte companii de AI juridic vor adopta benchmark-ul — sau își vor construi propriul. Fără o adoptare largă, valoarea oricărui benchmark unic este limitată. Deocamdată, LAB oferă industriei juridice un punct de plecare pentru măsurarea performanței AI, sarcină cu sarcină.