ハーベイ、リーガルAIの性能評価のためのオープンソースベンチマークを公開

法律AI企業のハーベイ（Harvey）は、人工知能が法律業務をどの程度こなせるかを測定するために設計されたオープンソースのベンチマーク「LAB」を公開した。この新しい評価ツールは24の実務分野にわたり、1,200以上の個別タスクを含み、AIシステムを直接比較する手段を提供する。

ベンチマークの対象範囲

LABは単一の法務タイプのみをテストするわけではない。企業取引から訴訟、規制順守、知的財産に至るまで幅広い範囲をカバーする。各タスクは、条項の起草、判例の要約、契約書のリスク特定など、実際の法律業務を模倣するように設計されている。24の実務分野により、このベンチマークは一般的な法律知識と専門的な専門性の両方を評価できる。

オープンソース標準の重要性

現時点では、リーガルAIを評価する広く受け入れられた方法は存在しない。各企業は独自のテストを実施し、結果を非公開にすることが多い。ハーベイのLABはオープンソースであるため、誰でもタスクを確認し、テストを実行し、結果を提出できる。この透明性により、法律事務所、社内法務チーム、規制当局がより適切な比較を行えるようになる可能性がある。また、法務テックコミュニティが時間の経過とともに新しいタスクや実務分野を追加することも可能にする。

法律業界への潜在的影響

AIツールを評価する法律事務所にとって、LABは一貫した物差しを提供する。ベンダーの主張や限られたデモに頼る代わりに、自らベンチマークを実行できる。これにより導入が加速されるか、あるいは現在のシステムのギャップが明らかになる可能性がある。AI開発者にとっては、モデルが苦手とする箇所を浮き彫りにし、改善を促す。ハーベイ自身も社内でLABを使用しているが、公開することでより広範な精査と協力を招くことになる。

今後の展望

ベンチマークは現在、オープンソースライセンスのもとでGitHub上で利用可能である。ハーベイは、法律業務の進化に合わせて新しいタスクを追加し、LABを定期的に更新する計画だと述べている。大きな疑問は、他のリーガルAI企業がこのベンチマークを採用するか、それとも独自のものを構築するかである。広範な受け入れがなければ、単一のベンチマークの価値は限定的となる。現時点では、LABは法律業界に、タスクごとにAI性能を測定し始めるための出発点を提供している。

ベンチマークの対象範囲

オープンソース標準の重要性

法律業界への潜在的影響

今後の展望

関連記事