Begrepet «jailbreaking» pleide å bety å knekke iPhone for å installere uautoriserte apper. Nå beskriver det en annen type hacking: å lure AI-chatboter til å ignorere sine innebygde sikkerhetssperrer. For utviklere av store språkmodeller som ChatGPT er dette katt-og-mus-spillet en konstant hodepine.
Fra telefoner til prompter
Ordet «jailbreaking» kommer fra iPhone-tiden, da brukere omgikk Apples begrensninger via verktøy som Cydia. Den samme ideen er nå tatt i bruk for AI-systemer. Akkurat som iPhone-jailbreakere ønsket å kjøre programvare Apple ikke hadde godkjent, vil AI-jailbreakere få chatboter til å si ting de ikke skal. Målet er ikke alltid ondsinnet – noen ganger er det nysgjerrighet, andre ganger testing av grenser. Men effekten er den samme: modellens begrensninger blir overstyrt.
Slik fungerer spillet
Katt-og-mus-spillet utspiller seg i prompter. Brukere lager meldinger som ber modellen om å rollespille som en karakter uten begrensninger, eller de formulerer forespørsler som hypotetiske scenarioer. Noen prøver å få modellen til å ignorere sin egen trening ved å late som samtalen er et spill eller en historie. Utviklere oppdaterer på sin side sine sikkerhetsfiltre for å fange opp disse triksene. Men så snart ett smutthull er tettet, åpner et annet seg. Det er en frem-og-tilbake som ikke viser tegn til å avta.
Hvorfor utviklere bekymrer seg
AI-laboratorier er bekymret fordi vellykkede jailbreaks kan føre til skadelige utdata. En chatbot som normalt nekter å gi instruksjoner for farlige aktiviteter, kan, hvis den blir lurt, gi steg-for-steg-veiledning. Det samme gjelder generering av hatspråk, feilinformasjon eller eksplisitt innhold. Utviklere bruker betydelige ressurser på å justere modeller til å være trygge og nyttige. Jailbreaking undergraver dette arbeidet og reiser spørsmål om hvor pålitelige disse systemene egentlig er. Innsatsen er høy fordi LLM-er integreres i flere produkter for hver dag.
Det er ingen tegn til at kampen vil ta slutt med det første. Når utviklere tetter ett smutthull, finner brukerne et annet. Spørsmålet er om fremtidige modeller kan gjøres robuste nok til å motstå disse angrepene, eller om jailbreaking vil forbli et permanent trekk ved AI-landskapet.




