هاروی، شرکت هوش مصنوعی حقوقی، بنچمارک متنبازی به نام LAB منتشر کرده است که برای اندازهگیری میزان عملکرد هوش مصنوعی در کارهای حقوقی طراحی شده است. این ابزار ارزیابی جدید، ۲۴ حوزه تمرینی را پوشش میدهد و شامل بیش از ۱۲۰۰ وظیفه مجزا است و راهی برای مقایسه مستقیم سامانههای هوش مصنوعی فراهم میکند.
پوشش بنچمارک
LAB فقط یک نوع وکالت را آزمایش نمیکند. طیف گستردهای را پوشش میدهد — از معاملات شرکتی گرفته تا دعاوی قضایی، انطباق با مقررات و مالکیت فکری. هر وظیفه به گونهای طراحی شده است که یک تکلیف حقوقی واقعی را شبیهسازی کند، مانند پیشنویس یک بند، خلاصهسازی یک پرونده، یا شناسایی ریسک در یک قرارداد. ۲۴ حوزه تمرینی به این معناست که بنچمارک میتواند هم دانش عمومی حقوقی و هم تخصص ویژه را ارزیابی کند.
اهمیت یک استاندارد متنباز
در حال حاضر، هیچ روش پذیرفتهشدهای برای قضاوت درباره هوش مصنوعی حقوقی وجود ندارد. شرکتهای مختلف آزمایشهای خود را انجام میدهند و اغلب نتایج را خصوصی نگه میدارند. LAB هاروی متنباز است، بنابراین هر کسی میتواند وظایف را بررسی کند، آزمایشها را اجرا کند و نتایج را ارائه دهد. این شفافیت میتواند به شرکتهای حقوقی، تیمهای حقوقی داخلی و نهادهای نظارتی کمک کند تا مقایسه بهتری انجام دهند. همچنین به جامعه فناوری حقوقی اجازه میدهد تا به مرور زمان وظایف و حوزههای تمرینی جدیدی اضافه کند.
تأثیر بالقوه بر صنعت حقوقی
برای شرکتهای حقوقی که ابزارهای هوش مصنوعی را ارزیابی میکنند، LAB یک معیار ثابت فراهم میکند. به جای تکیه بر ادعاهای فروشندگان یا نمایشهای محدود، میتوانند خود بنچمارک را اجرا کنند. این میتواند پذیرش را تسریع کند — یا شکافهای سامانههای فعلی را آشکار کند. برای توسعهدهندگان هوش مصنوعی، بنچمارک نقاط ضعف مدلها را مشخص کرده و آنها را به بهبود وادار میکند. هاروی خود از LAB به صورت داخلی استفاده میکند، اما عمومی کردن آن دعوت به بررسی و همکاری گستردهتر است.
مراحل بعدی
این بنچمارک اکنون در GitHub تحت مجوز متنباز در دسترس است. هاروی میگوید قصد دارد LAB را بهطور منظم بهروزرسانی کند و با تکامل کارهای حقوقی، وظایف جدیدی اضافه کند. سوال بزرگ این است که آیا سایر شرکتهای هوش مصنوعی حقوقی این بنچمارک را میپذیرند — یا بنچمارک خود را میسازند. بدون پذیرش گسترده، ارزش هر بنچمارک واحدی محدود است. در حال حاضر، LAB به صنعت حقوقی نقطه شروعی برای اندازهگیری عملکرد هوش مصنوعی، وظیفه به وظیفه، میدهد.



