Termín „jailbreaking“ dříve označoval hackování iPhonů za účelem instalace neschválených aplikací. Nyní popisuje jiný typ útoku: přimět AI chatboty, aby ignorovaly své vestavěné bezpečnostní mechanismy. Pro vývojáře velkých jazykových modelů, jako je ChatGPT, je tato hra na kočku a myš neustálou bolestí hlavy.
Od telefonů k promptům
Slovo „jailbreaking“ pochází z éry iPhonů, kdy uživatelé obcházeli Apple omezení pomocí nástrojů jako Cydia. Stejný princip byl přenesen na AI systémy. Stejně jako jailbreakeři iPhonů chtěli spouštět software, který Apple neschválil, chtějí jailbreakeři AI přimět chatboty, aby říkali věci, které by neměly. Cíl není vždy zlomyslný – někdy je to zvědavost, jindy testování hranic. Ale efekt je stejný: omezení modelu jsou překonána.
Jak hra funguje
Hra na kočku a myš se odehrává v promptech. Uživatelé vytvářejí zprávy, které model žádají, aby hrál roli postavy bez omezení, nebo formulují požadavky jako hypotetické scénáře. Někteří se snaží přimět model, aby ignoroval své vlastní trénování tím, že předstírají, že konverzace je hra nebo příběh. Vývojáři na oplátku aktualizují své bezpečnostní filtry, aby tyto triky zachytili. Ale jakmile je jedna skulinka uzavřena, otevře se další. Je to neustálý ping-pong, který nejeví známky zpomalení.
Proč se vývojáři obávají
AI laboratoře mají obavy, protože úspěšné jailbreaky mohou vést ke škodlivým výstupům. Chatbot, který normálně odmítá poskytovat instrukce k nebezpečným činnostem, může být přelstěn a poskytnout podrobný návod. Totéž platí pro generování nenávistných projevů, dezinformací nebo explicitního obsahu. Vývojáři vynakládají značné prostředky na sladění modelů tak, aby byly bezpečné a užitečné. Jailbreaking tuto práci podkopává a vyvolává otázky, jak důvěryhodné tyto systémy skutečně jsou. Sázky jsou vysoké, protože LLM jsou každým dnem integrovány do více produktů.
Není náznak, že by bitva brzy skončila. Jak vývojáři opraví jednu skulinku, uživatelé najdou další. Otázkou je, zda budoucí modely mohou být dostatečně robustní, aby tyto útoky odolaly, nebo zda jailbreaking zůstane trvalým rysem prostředí AI.




