Harvey 推出开源基准测试，评估法律 AI 性能

法律 AI 公司 Harvey 发布了 LAB，这是一个开源基准测试，旨在衡量人工智能处理法律工作的能力。这一新评估工具涵盖 24 个执业领域，包含超过 1200 项独立任务，为 AI 系统之间的对比提供了统一标准。

基准测试覆盖范围

LAB 并非仅测试某一类法律工作。它覆盖广泛领域——从公司交易到诉讼、监管合规到知识产权。每项任务都旨在模拟真实的法律工作，例如起草条款、总结判例或识别合同中的风险。24 个执业领域意味着该基准测试能够评估通用法律知识与专业特长。

开源标准为何重要

目前，业界缺乏公认的法律 AI 评估方法。不同公司自行测试，结果往往保密。Harvey 的 LAB 采用开源模式，任何人都可以查看任务、运行测试并提交结果。这种透明度有助于律所、企业法务团队和监管机构进行更有效的比较。同时，法律科技社区也能随时间推移贡献新任务和执业领域。

对法律行业的潜在影响

对于评估 AI 工具的律所而言，LAB 提供了统一标尺。他们可以自行运行基准测试，而非依赖供应商宣传或有限演示。这既能加速采用，也可能揭示当前系统的不足。对于 AI 开发者，该基准测试突显了模型的薄弱环节，推动改进。Harvey 自身已在内部使用 LAB，但公开后能吸引更广泛的审视与合作。

未来展望

该基准测试现已通过开源许可在 GitHub 上提供。Harvey 表示计划定期更新 LAB，随着法律工作演变添加新任务。关键问题在于其他法律 AI 公司是否会采用该基准测试——或者构建自己的标准。没有广泛认可，任何单一基准测试的价值都有限。目前，LAB 为法律行业提供了一个起点，逐项任务衡量 AI 性能。

基准测试覆盖范围

开源标准为何重要

对法律行业的潜在影响

未来展望

相关文章