هاروی بنچمارک متن‌بازی برای ارزیابی عملکرد هوش مصنوعی حقوقی راه‌اندازی کرد

هاروی، شرکت هوش مصنوعی حقوقی، بنچمارک متن‌بازی به نام LAB منتشر کرده است که برای اندازه‌گیری میزان عملکرد هوش مصنوعی در کارهای حقوقی طراحی شده است. این ابزار ارزیابی جدید، ۲۴ حوزه تمرینی را پوشش می‌دهد و شامل بیش از ۱۲۰۰ وظیفه مجزا است و راهی برای مقایسه مستقیم سامانه‌های هوش مصنوعی فراهم می‌کند.

پوشش بنچمارک

LAB فقط یک نوع وکالت را آزمایش نمی‌کند. طیف گسترده‌ای را پوشش می‌دهد — از معاملات شرکتی گرفته تا دعاوی قضایی، انطباق با مقررات و مالکیت فکری. هر وظیفه به گونه‌ای طراحی شده است که یک تکلیف حقوقی واقعی را شبیه‌سازی کند، مانند پیش‌نویس یک بند، خلاصه‌سازی یک پرونده، یا شناسایی ریسک در یک قرارداد. ۲۴ حوزه تمرینی به این معناست که بنچمارک می‌تواند هم دانش عمومی حقوقی و هم تخصص ویژه را ارزیابی کند.

اهمیت یک استاندارد متن‌باز

در حال حاضر، هیچ روش پذیرفته‌شده‌ای برای قضاوت درباره هوش مصنوعی حقوقی وجود ندارد. شرکت‌های مختلف آزمایش‌های خود را انجام می‌دهند و اغلب نتایج را خصوصی نگه می‌دارند. LAB هاروی متن‌باز است، بنابراین هر کسی می‌تواند وظایف را بررسی کند، آزمایش‌ها را اجرا کند و نتایج را ارائه دهد. این شفافیت می‌تواند به شرکت‌های حقوقی، تیم‌های حقوقی داخلی و نهادهای نظارتی کمک کند تا مقایسه بهتری انجام دهند. همچنین به جامعه فناوری حقوقی اجازه می‌دهد تا به مرور زمان وظایف و حوزه‌های تمرینی جدیدی اضافه کند.

تأثیر بالقوه بر صنعت حقوقی

برای شرکت‌های حقوقی که ابزارهای هوش مصنوعی را ارزیابی می‌کنند، LAB یک معیار ثابت فراهم می‌کند. به جای تکیه بر ادعاهای فروشندگان یا نمایش‌های محدود، می‌توانند خود بنچمارک را اجرا کنند. این می‌تواند پذیرش را تسریع کند — یا شکاف‌های سامانه‌های فعلی را آشکار کند. برای توسعه‌دهندگان هوش مصنوعی، بنچمارک نقاط ضعف مدل‌ها را مشخص کرده و آنها را به بهبود وادار می‌کند. هاروی خود از LAB به صورت داخلی استفاده می‌کند، اما عمومی کردن آن دعوت به بررسی و همکاری گسترده‌تر است.

مراحل بعدی

این بنچمارک اکنون در GitHub تحت مجوز متن‌باز در دسترس است. هاروی می‌گوید قصد دارد LAB را به‌طور منظم به‌روزرسانی کند و با تکامل کارهای حقوقی، وظایف جدیدی اضافه کند. سوال بزرگ این است که آیا سایر شرکت‌های هوش مصنوعی حقوقی این بنچمارک را می‌پذیرند — یا بنچمارک خود را می‌سازند. بدون پذیرش گسترده، ارزش هر بنچمارک واحدی محدود است. در حال حاضر، LAB به صنعت حقوقی نقطه شروعی برای اندازه‌گیری عملکرد هوش مصنوعی، وظیفه به وظیفه، می‌دهد.

پوشش بنچمارک

اهمیت یک استاندارد متن‌باز

تأثیر بالقوه بر صنعت حقوقی

مراحل بعدی

Related Articles