Harvey lanza un benchmark de código abierto para evaluar el rendimiento de la IA legal

Harvey, la empresa de inteligencia artificial legal, ha lanzado LAB, un benchmark de código abierto diseñado para medir qué tan bien maneja la inteligencia artificial el trabajo legal. La nueva herramienta de evaluación abarca 24 áreas de práctica e incluye más de 1.200 tareas individuales, ofreciendo una forma de comparar sistemas de IA cara a cara.

Qué cubre el benchmark

LAB no solo prueba un tipo de práctica legal. Cubre un amplio espectro, desde transacciones corporativas hasta litigios, cumplimiento normativo y propiedad intelectual. Cada tarea está diseñada para imitar una tarea legal real, como redactar una cláusula, resumir un caso o identificar un riesgo en un contrato. Las 24 áreas de práctica significan que el benchmark puede evaluar tanto el conocimiento legal general como la experiencia especializada.

Por qué es importante un estándar de código abierto

En este momento, no existe una forma ampliamente aceptada de juzgar la IA legal. Diferentes empresas realizan sus propias pruebas, a menudo manteniendo los resultados en privado. LAB de Harvey es de código abierto, por lo que cualquiera puede inspeccionar las tareas, ejecutar las pruebas y enviar resultados. Esa transparencia podría ayudar a bufetes de abogados, equipos legales internos y reguladores a hacer mejores comparaciones. También permite que la comunidad de tecnología legal contribuya con nuevas tareas y áreas de práctica con el tiempo.

Impacto potencial en la industria legal

Para los bufetes de abogados que evalúan herramientas de IA, LAB proporciona una vara de medir consistente. En lugar de confiar en afirmaciones de proveedores o demostraciones limitadas, pueden ejecutar el benchmark ellos mismos. Eso podría acelerar la adopción, o revelar brechas en los sistemas actuales. Para los desarrolladores de IA, el benchmark destaca dónde los modelos tienen dificultades, impulsándolos a mejorar. Harvey mismo utiliza LAB internamente, pero hacerlo público invita a un escrutinio y colaboración más amplios.

Qué sigue

El benchmark ya está disponible en GitHub bajo una licencia de código abierto. Harvey dice que planea actualizar LAB, añadiendo nuevas tareas a medida que el trabajo legal evoluciona. La gran pregunta es si otras empresas de IA legal adoptarán el benchmark o construirán el suyo propio. Sin una aceptación generalizada, el valor de cualquier benchmark individual es limitado. Por ahora, LAB le da a la industria legal un punto de partida para medir el rendimiento de la IA, tarea por tarea.

Qué cubre el benchmark

Por qué es importante un estándar de código abierto

Impacto potencial en la industria legal

Qué sigue

Artículos Relacionados