Az OpenAI részletes útmutatót tett közzé azon független kutatók és szervezetek számára, amelyek feladata a legfejlettebb mesterséges intelligencia rendszereinek tesztelése. Az ezen a héten kiadott kézikönyv leírja, hogyan kell a harmadik feles értékelőknek értékelniük a határvonali AI-modelleket — az erőteljes, általános célú rendszereket, amelyek a terület élvonalát képviselik.
Mit tartalmaz a kézikönyv
A dokumentum három pillérre összpontosít: biztonsági intézkedések (safeguards), érvényesség (validity) és strukturált tesztelési keretrendszerek (structured harnesses). A biztonsági intézkedések azokra a védelmi lépésekre vonatkoznak, amelyeket az értékelőknek be kell tartaniuk a tesztelés során fellépő nem kívánt következmények megelőzése érdekében. Az érvényesség biztosítja, hogy a tesztek valóban azt mérjék, amit állítanak – az eredmények reprodukálhatók és értelmesek legyenek. A strukturált tesztelési keretrendszerek olyan technikai keretek, amelyek lehetővé teszik az értékelők számára, hogy szabványosított, kontrollált kísérleteket futtassanak a modelleken.
Az OpenAI célja, hogy a külső értékelések egységesek és megbízhatók legyenek. A vállalat régóta hívja meg külső kutatókat modelljeinek vizsgálatára, de most először kínál hivatalos, lépésről lépésre haladó útmutatót a folyamathoz. A kézikönyv célja a kétértelműség csökkentése és az értékelők segítése a gyakori buktatók elkerülésében, mint például a modell véletlen betanítása egy teszt során vagy a kimenetek félreértelmezése.
Miért fontos a strukturált tesztelés
A határvonali AI-modellek számos feladatot képesek ellátni – a kódírástól a valósághű képek generálásáig –, ami megnehezíti az átfogó értékelést. Egy egyszerű chat-alapú teszt nem biztos, hogy észleli a finom kockázatokat, mint például a modell manipulációs vagy megtévesztő képességét. Az OpenAI kézikönyve ezt próbálja orvosolni azzal, hogy az értékelőket szigorúbb, moduláris tesztelési beállítások felé tereli.
A vállalat a múltban kritikát kapott amiatt, hogy túlzottan támaszkodott a belső tesztelésre. A külső auditok a döntéshozók és a biztonsági szakértők kulcsfontosságú követelésévé váltak. Az egységes kézikönyv biztosításával az OpenAI azt kívánja bizonyítani, hogy komolyan veszi a független felügyeletet – és hogy mércét kíván állítani az iparág többi szereplője számára.
A vállalat kijelentette, hogy a kézikönyv célja, hogy a külső értékelők a belső csapatokkal összehasonlítható képességeket kapjanak.
A kutatók és auditáló cégek számára a kézikönyv azt jelenti, hogy többé nem kell a nulláról kezdeniük. Tartalmaz sablonokat teszttervekhez, útmutatást az adatkezeléshez, valamint ellenőrző listákat az eredmények dokumentálásához. Az OpenAI szerint az útmutató egy élő dokumentum – frissíteni fogják, ahogy a modellek fejlődnek és ahogy a közösség megtanulja, mi működik.
A kézikönyv etikai aggályokkal is foglalkozik. Az értékelőknek megtiltják olyan tesztek elvégzését, amelyek kárt okozhatnak vagy megsérthetik a magánéletet, és azonnal jelenteniük kell minden veszélyes képességet, amit felfedeznek. Ez a jelentési csatorna a folyamat kritikus része: az OpenAI tudni akar a problémákról, mielőtt azok nyilvánosságra kerülnének.
Néhány megfigyelő megjegyezte, hogy a kézikönyv önkéntes – a harmadik felek nem kötelesek követni. Az OpenAI azonban reméli, hogy egy világos, jól megtervezett módszertan felkínálásával ez lesz a határvonali AI-értékelések de facto szabványa. A vállalat emellett olyan automatizált eszközökön dolgozik, amelyek segíthetnek a kézikönyv szabályainak betartatásában.
Következő lépés: Az OpenAI még idén nyilvános véleményezésre tervezi bocsátani a kézikönyvet, és kiad egy verziót, amelyet kisebb, kevésbé fejlett modellekhez igazítanak. A vállalat egyelőre nem közölte, hogy mikor jelennek meg az első, a kézikönyvet használó hivatalos harmadik feles értékelések.




