Loading market data...

Harvey lance un benchmark open-source pour évaluer les performances de l'IA juridique

Harvey lance un benchmark open-source pour évaluer les performances de l'IA juridique

Harvey, l'entreprise spécialisée dans l'IA juridique, a publié LAB, un benchmark open-source conçu pour mesurer la capacité de l'intelligence artificielle à effectuer des tâches juridiques. Ce nouvel outil d'évaluation couvre 24 domaines de pratique et inclut plus de 1 200 tâches individuelles, offrant un moyen de comparer les systèmes d'IA en face à face.

Ce que couvre le benchmark

LAB ne teste pas un seul type de pratique juridique. Il couvre un large éventail — des transactions d'entreprise au contentieux, en passant par la conformité réglementaire et la propriété intellectuelle. Chaque tâche est conçue pour imiter un travail juridique réel, comme la rédaction d'une clause, le résumé d'un cas ou l'identification d'un risque dans un contrat. Les 24 domaines de pratique permettent au benchmark d'évaluer à la fois les connaissances juridiques générales et l'expertise spécialisée.

Pourquoi un standard open-source est important

Actuellement, il n'existe pas de méthode largement acceptée pour juger l'IA juridique. Différentes entreprises effectuent leurs propres tests, gardant souvent les résultats privés. LAB de Harvey est open-source, donc n'importe qui peut inspecter les tâches, exécuter les tests et soumettre les résultats. Cette transparence pourrait aider les cabinets d'avocats, les équipes juridiques internes et les régulateurs à faire de meilleures comparaisons. Elle permet également à la communauté legal tech d'ajouter de nouvelles tâches et domaines de pratique au fil du temps.

Impact potentiel sur le secteur juridique

Pour les cabinets d'avocats qui évaluent les outils d'IA, LAB fournit un étalon cohérent. Au lieu de se fier aux affirmations des fournisseurs ou à des démonstrations limitées, ils peuvent exécuter eux-mêmes le benchmark. Cela pourrait accélérer l'adoption — ou révéler des lacunes dans les systèmes actuels. Pour les développeurs d'IA, le benchmark met en évidence les domaines où les modèles peinent, les poussant à s'améliorer. Harvey lui-même utilise LAB en interne, mais le rendre public invite à un examen plus large et à une collaboration.

Prochaines étapes

Le benchmark est désormais disponible sur GitHub sous licence open-source. Harvey indique qu'il prévoit de mettre à jour LAB régulièrement, en ajoutant de nouvelles tâches à mesure que le travail juridique évolue. La grande question est de savoir si d'autres entreprises d'IA juridique adopteront le benchmark — ou construiront le leur. Sans adhésion généralisée, la valeur d'un benchmark unique est limitée. Pour l'instant, LAB donne au secteur juridique un point de départ pour mesurer les performances de l'IA, tâche par tâche.