Harvey, công ty chuyên về AI pháp lý, vừa công bố LAB, một bộ chuẩn mã nguồn mở được thiết kế để đo lường hiệu quả của trí tuệ nhân tạo trong xử lý công việc pháp lý. Công cụ đánh giá mới này bao gồm 24 lĩnh vực hành nghề và hơn 1.200 nhiệm vụ cụ thể, cung cấp cách so sánh trực tiếp các hệ thống AI.
Nội Dung Bộ Chuẩn Đánh Giá
LAB không chỉ đánh giá một dạng công việc pháp lý duy nhất. Bộ chuẩn này bao quát nhiều lĩnh vực — từ giao dịch doanh nghiệp đến tố tụng, tuân thủ quy định đến sở hữu trí tuệ. Mỗi nhiệm vụ được thiết kế để mô phỏng công việc pháp lý thực tế, chẳng hạn như soạn thảo điều khoản, tóm tắt vụ án hoặc xác định rủi ro trong hợp đồng. Với 24 lĩnh vực hành nghề, bộ chuẩn có thể đánh giá cả kiến thức pháp lý tổng quát lẫn chuyên môn sâu.
Tầm Quan Trọng Của Một Tiêu Chuẩn Mã Nguồn Mở
Hiện tại, chưa có phương pháp đánh giá AI pháp lý nào được công nhận rộng rãi. Các công ty khác nhau tự tiến hành thử nghiệm riêng, thường giữ kết quả kín. LAB của Harvey là mã nguồn mở, cho phép bất kỳ ai kiểm tra nhiệm vụ, chạy thử nghiệm và nộp kết quả. Sự minh bạch này có thể giúp các công ty luật, đội ngũ pháp chế nội bộ và cơ quan quản lý so sánh hiệu quả tốt hơn. Đồng thời, cộng đồng công nghệ pháp lý có thể đóng góp nhiệm vụ và lĩnh vực mới theo thời gian.
Tác Động Tiềm Tàng Đến Ngành Pháp Lý
Đối với các công ty luật đang đánh giá công cụ AI, LAB cung cấp một thước đo thống nhất. Thay vì dựa vào tuyên bố của nhà cung cấp hoặc bản demo hạn chế, họ có thể tự chạy bộ chuẩn này. Điều này có thể thúc đẩy việc áp dụng rộng rãi — hoặc phơi bày điểm yếu của hệ thống hiện tại. Với các nhà phát triển AI, bộ chuẩn chỉ ra nơi mô hình còn hạn chế, thúc đẩy cải tiến. Harvey sử dụng LAB nội bộ, nhưng việc công khai giúp thu nhận đánh giá và hợp tác rộng rãi hơn.
Điều Gì Sẽ Đến Tiếp Theo
Bộ chuẩn hiện đã có sẵn trên GitHub dưới giấy phép mã nguồn mở. Harvey cho biết họ dự định cập nhật LAB thường xuyên, bổ sung nhiệm vụ mới khi công việc pháp lý phát triển. Câu hỏi lớn là liệu các công ty AI pháp lý khác có áp dụng bộ chuẩn này — hay tự xây dựng riêng. Nếu không có sự đồng thuận rộng rãi, giá trị của bất kỳ bộ chuẩn đơn lẻ nào sẽ bị hạn chế. Tạm thời, LAB cung cấp cho ngành pháp lý một điểm khởi đầu để đo lường hiệu suất AI, từng nhiệm vụ một.




