ওপেনএআই তার সবচেয়ে উন্নত কৃত্রিম বুদ্ধিমত্তা সিস্টেম পরীক্ষার জন্য নিযুক্ত স্বাধীন গবেষক ও সংস্থাগুলির জন্য একটি বিস্তারিত নির্দেশিকা প্রকাশ করেছে। এই সপ্তাহে প্রকাশিত নির্দেশিকাটি তৃতীয়-পক্ষের মূল্যায়নকারীদের কীভাবে ফ্রন্টিয়ার এআই মডেল—ক্ষেত্রের অগ্রভাগে থাকা শক্তিশালী, সাধারণ-উদ্দেশ্যের সিস্টেমগুলি—মূল্যায়ন করা উচিত তা নির্ধারণ করে দেয়।
নির্দেশিকায় কী রয়েছে
দস্তাবেজটি তিনটি স্তম্ভের উপর দৃষ্টি নিবদ্ধ করে: নিরাপত্তা ব্যবস্থা, বৈধতা এবং কাঠামোবদ্ধ পরীক্ষার কাঠামো। নিরাপত্তা ব্যবস্থা বলতে সেই সুরক্ষা পদক্ষেপগুলো বোঝায় যা মূল্যায়নকারীদের পরীক্ষার সময় অপ্রত্যাশিত পরিণতি এড়াতে অনুসরণ করতে হবে। বৈধতা নিশ্চিত করে যে পরীক্ষাগুলো আসলে কী দাবি করে তা পরিমাপ করে—ফলাফল পুনরুত্পাদনযোগ্য এবং অর্থপূর্ণ। কাঠামোবদ্ধ পরীক্ষার কাঠামো হলো প্রযুক্তিগত কাঠামো যা মূল্যায়নকারীদের মডেলগুলিতে মানসম্মত, নিয়ন্ত্রিত পরীক্ষা চালানোর অনুমতি দেয়।
ওপেনএআইয়ের লক্ষ্য বাহ্যিক মূল্যায়নকে ধারাবাহিক ও বিশ্বাসযোগ্য করা। কোম্পানিটি দীর্ঘদিন ধরে বাইরের গবেষকদের তার মডেলগুলো পরীক্ষা করার জন্য আমন্ত্রণ জানিয়ে এসেছে, তবে এই প্রথম এটি প্রক্রিয়াটির জন্য একটি আনুষ্ঠানিক, ধাপে ধাপে নির্দেশিকা প্রদান করছে। নির্দেশিকাটি অস্পষ্টতা কমাতে এবং মূল্যায়নকারীদের সাধারণ ভুলগুলি এড়াতে সাহায্য করার জন্য তৈরি করা হয়েছে, যেমন পরীক্ষার সময় ভুলবশত মডেলটিকে প্রশিক্ষণ দেওয়া বা আউটপুট ভুল ব্যাখ্যা করা।
কেন কাঠামোবদ্ধ পরীক্ষা গুরুত্বপূর্ণ
ফ্রন্টিয়ার এআই মডেলগুলি বিস্তৃত কাজ সম্পাদন করতে পারে—কোড লেখা থেকে বাস্তবসম্মত ছবি তৈরি করা পর্যন্ত—যা তাদের ব্যাপকভাবে মূল্যায়ন করা কঠিন করে তোলে। একটি সাধারণ চ্যাট-ভিত্তিক পরীক্ষা সূক্ষ্ম ঝুঁকি যেমন মডেলের ম্যানিপুলেট বা প্রতারণা করার ক্ষমতা মিস করতে পারে। ওপেনএআইয়ের নির্দেশিকা মূল্যায়নকারীদের আরও কঠোর, মডুলার পরীক্ষার সেটআপের দিকে ঠেলে দিয়ে এটি সমাধান করার চেষ্টা করে।
অতীতে কোম্পানিটি অভ্যন্তরীণ পরীক্ষার উপর অতিরিক্ত নির্ভর করার জন্য সমালোচনার মুখোমুখি হয়েছে। বাহ্যিক নিরীক্ষা নীতিনির্ধারক ও নিরাপত্তা সমর্থকদের একটি মূল দাবিতে পরিণত হয়েছে। একটি মানসম্মত নির্দেশিকা প্রদান করে, ওপেনএআই দেখাতে চায় যে এটি স্বাধীন তদারকির ব্যাপারে গুরুতর—এবং এটি বাকি শিল্পের জন্য একটি ভিত্তি স্থাপন করতে চায়।
কোম্পানিটি বলেছে যে নির্দেশিকাটি বাহ্যিক মূল্যায়নকারীদের তার অভ্যন্তরীণ দলের মতো একই সরঞ্জাম ও জ্ঞান প্রদানের জন্য ডিজাইন করা হয়েছে।
গবেষক ও নিরীক্ষা সংস্থাগুলির জন্য, নির্দেশিকাটির অর্থ হল তাদের আর শুরু থেকে শুরু করতে হবে না। এতে পরীক্ষার পরিকল্পনার জন্য টেমপ্লেট, তথ্য পরিচালনার নির্দেশিকা এবং ফলাফল নথিভুক্ত করার জন্য চেকলিস্ট অন্তর্ভুক্ত রয়েছে। ওপেনএআই বলেছে যে গাইডটি একটি জীবন্ত দস্তাবেজ হওয়ার উদ্দেশ্যে তৈরি—মডেলগুলি বিকশিত হওয়ার সাথে সাথে এবং সম্প্রদায় কী কাজ করে তা শিখার সাথে সাথে এটি আপডেট করা হবে।
নির্দেশিকাটি নৈতিক উদ্বেগগুলিও সমাধান করে। মূল্যায়নকারীদের এমন পরীক্ষা এড়াতে বলা হয়েছে যা মানুষকে ক্ষতি করতে বা গোপনীয়তা লঙ্ঘন করতে পারে এবং তারা যে কোনো বিপজ্জনক ক্ষমতা আবিষ্কার করে তা অবিলম্বে রিপোর্ট করতে বলা হয়েছে। সেই রিপোর্টিং পাইপলাইন প্রক্রিয়াটির একটি গুরুত্বপূর্ণ অংশ: ওপেনএআই সমস্যাগুলো প্রকাশ্যে আসার আগে জানতে চায়।
কিছু পর্যবেক্ষক উল্লেখ করেছেন যে নির্দেশিকাটি স্বেচ্ছাসেবী—তৃতীয় পক্ষের এটি অনুসরণ করার প্রয়োজন নেই। তবে ওপেনএআই আশা করে যে একটি পরিষ্কার, সু-পরিকল্পিত পদ্ধতি প্রদান করে, এটি ফ্রন্টিয়ার এআই মূল্যায়নের জন্য ডি ফ্যাক্টো স্ট্যান্ডার্ড হয়ে উঠবে। কোম্পানিটি স্বয়ংক্রিয় সরঞ্জামগুলিতেও কাজ করছে যা নির্দেশিকার নিয়মগুলি প্রয়োগ করতে সাহায্য করতে পারে।
পরবর্তী পদক্ষেপ: ওপেনএআই এই বছর পরে নির্দেশিকাটি জনসাধারণের মন্তব্যের জন্য উন্মুক্ত করার এবং ছোট, কম সক্ষম মডেলগুলির জন্য উপযোগী একটি সংস্করণ প্রকাশ করার পরিকল্পনা করছে। কোম্পানিটি এখনও বলেনি কখন নির্দেশিকা ব্যবহার করে আনুষ্ঠানিক তৃতীয়-পক্ষের মূল্যায়নের প্রথম ব্যাচ প্রকাশিত হবে।




