A 'jailbreaking' kifejezés régen az iPhone-ok feltörését jelentette, hogy nem engedélyezett alkalmazásokat telepítsenek. Most egy másfajta hacket ír le: az AI chatbotok beépített védelmének kijátszását. A ChatGPT-hez hasonló nagy nyelvi modellek fejlesztői számára ez a macska-egér játék állandó fejfájást okoz.
Telefonoktól a promptokig
A 'jailbreaking' szó az iPhone-korszakból származik, amikor a felhasználók olyan eszközökkel, mint a Cydia, megkerülték az Apple korlátozásait. Ugyanezt az ötletet alkalmazták az AI-rendszerekre is. Ahogy az iPhone-jailbreakerek olyan szoftvereket akartak futtatni, amelyeket az Apple nem hagyott jóvá, az AI-jailbreakerek azt szeretnék elérni, hogy a chatbotok olyan dolgokat mondjanak, amiket nem szabadna. A cél nem mindig rosszindulatú – néha kíváncsiság, néha határok tesztelése. De a hatás ugyanaz: a modell korlátozásait felülírják.
Hogyan működik a játék
A macska-egér játék a promptokban zajlik. A felhasználók olyan üzeneteket fogalmaznak meg, amelyekben arra kérik a modellt, hogy korlátozások nélküli karakterként szerepeljen, vagy hipotetikus forgatókönyvekként fogalmazzák meg kéréseiket. Néhányan megpróbálják rávenni a modellt, hogy figyelmen kívül hagyja a saját tanítását azzal, hogy a beszélgetést játéknak vagy történetnek álcázzák. A fejlesztők ezzel szemben frissítik biztonsági szűrőiket, hogy elkapják ezeket a trükköket. De amint egy kiskaput bezárnak, egy másik nyílik. Ez egy oda-vissza játék, amely nem mutatja a lassulás jeleit.
Miért aggódnak a fejlesztők
Az AI-laboratóriumok azért aggódnak, mert a sikeres jailbreak-ek káros kimenetekhez vezethetnek. Egy chatbot, amely normál esetben megtagadja a veszélyes tevékenységekre vonatkozó utasítások megadását, ha becsapják, lépésről lépésre útmutatást adhat. Ugyanez vonatkozik a gyűlöletbeszéd, félretájékoztatás vagy explicit tartalom generálására is. A fejlesztők jelentős erőforrásokat fordítanak a modellek biztonságos és hasznos beállítására. A jailbreaking aláássa ezt a munkát, és kérdéseket vet fel azzal kapcsolatban, hogy mennyire megbízhatóak ezek a rendszerek. A tét nagy, mert az LLM-eket nap mint nap integrálják egyre több termékbe.
Nincs jele annak, hogy a csata hamarosan véget érne. Ahogy a fejlesztők befoltoznak egy kiskaput, a felhasználók találnak egy másikat. A kérdés az, hogy a jövőbeli modellek elég robusztusak lesznek-e ahhoz, hogy ellenálljanak ezeknek a támadásoknak, vagy a jailbreaking az AI-ökoszisztéma állandó jellemzője marad.




