Harvey lancerer open-source benchmark til evaluering af juridisk AI-ydeevne

Harvey, det juridiske AI-selskab, har udgivet LAB, en open-source benchmark designet til at måle, hvor godt kunstig intelligens håndterer juridisk arbejde. Det nye evalueringsværktøj dækker 24 praksisområder og indeholder mere end 1.200 individuelle opgaver, hvilket giver en måde at sammenligne AI-systemer direkte.

Hvad benchmarken dækker

LAB tester ikke kun én type juridisk arbejde. Den dækker en bred vifte – fra virksomhedstransaktioner til retssager, regulativ overholdelse til intellektuel ejendomsret. Hver opgave er designet til at efterligne en reel juridisk opgave, såsom at udarbejde en klausul, opsummere en sag eller identificere en risiko i en kontrakt. De 24 praksisområder betyder, at benchmarken kan vurdere både generel juridisk viden og specialiseret ekspertise.

Hvorfor en open-source standard er vigtig

Lige nu er der ingen bredt accepteret måde at bedømme juridisk AI på. Forskellige virksomheder kører deres egne tests, ofte med private resultater. Harveys LAB er open-source, så alle kan inspicere opgaverne, køre testene og indsende resultater. Den gennemsigtighed kan hjælpe advokatfirmaer, interne juridiske teams og tilsynsmyndigheder med at foretage bedre sammenligninger. Det giver også det juridiske teknologisamfund mulighed for at bidrage med nye opgaver og praksisområder over tid.

Potentiel indvirkning på den juridiske industri

For advokatfirmaer, der evaluerer AI-værktøjer, giver LAB en konsistent målestok. I stedet for at stole på leverandørers påstande eller begrænsede demoer kan de selv køre benchmarken. Det kan fremskynde adoption – eller afsløre huller i nuværende systemer. For AI-udviklere fremhæver benchmarken, hvor modeller har svært ved det, hvilket presser dem til at forbedre sig. Harvey selv bruger LAB internt, men ved at gøre det offentligt inviterer det til bredere granskning og samarbejde.

Hvad der kommer næste

Benchmarken er nu tilgængelig på GitHub under en open-source licens. Harvey siger, at de planlægger at opdatere LAB regelmæssigt og tilføje nye opgaver, efterhånden som juridisk arbejde udvikler sig. Det store spørgsmål er, om andre juridiske AI-virksomheder vil adoptere benchmarken – eller bygge deres egen. Uden bred tilslutning er værdien af en enkelt benchmark begrænset. For nu giver LAB den juridiske industri et sted at begynde at måle AI-ydeevne, opgave for opgave.

Hvad benchmarken dækker

Hvorfor en open-source standard er vigtig

Potentiel indvirkning på den juridiske industri

Hvad der kommer næste

Related Articles