法律 AI 公司 Harvey 发布了 LAB,这是一个开源基准测试,旨在衡量人工智能处理法律工作的能力。这一新评估工具涵盖 24 个执业领域,包含超过 1200 项独立任务,为 AI 系统之间的对比提供了统一标准。
基准测试覆盖范围
LAB 并非仅测试某一类法律工作。它覆盖广泛领域——从公司交易到诉讼、监管合规到知识产权。每项任务都旨在模拟真实的法律工作,例如起草条款、总结判例或识别合同中的风险。24 个执业领域意味着该基准测试能够评估通用法律知识与专业特长。
开源标准为何重要
目前,业界缺乏公认的法律 AI 评估方法。不同公司自行测试,结果往往保密。Harvey 的 LAB 采用开源模式,任何人都可以查看任务、运行测试并提交结果。这种透明度有助于律所、企业法务团队和监管机构进行更有效的比较。同时,法律科技社区也能随时间推移贡献新任务和执业领域。
对法律行业的潜在影响
对于评估 AI 工具的律所而言,LAB 提供了统一标尺。他们可以自行运行基准测试,而非依赖供应商宣传或有限演示。这既能加速采用,也可能揭示当前系统的不足。对于 AI 开发者,该基准测试突显了模型的薄弱环节,推动改进。Harvey 自身已在内部使用 LAB,但公开后能吸引更广泛的审视与合作。
未来展望
该基准测试现已通过开源许可在 GitHub 上提供。Harvey 表示计划定期更新 LAB,随着法律工作演变添加新任务。关键问题在于其他法律 AI 公司是否会采用该基准测试——或者构建自己的标准。没有广泛认可,任何单一基准测试的价值都有限。目前,LAB 为法律行业提供了一个起点,逐项任务衡量 AI 性能。




