Jailbreaking flytter fra iPhones til AI-chatbots og vækker sikkerhedsbekymringer

Udtrykket 'jailbreaking' plejede at betyde at knække iPhones for at installere uautoriserede apps. Nu beskriver det en anden form for hack: at narre AI-chatbots til at ignorere deres indbyggede sikkerhedsforanstaltninger. For udviklere af store sprogmodeller som ChatGPT er dette kat-og-mus-spil en konstant hovedpine.

Fra telefoner til prompter

Ordet 'jailbreaking' stammer fra iPhone-æraen, hvor brugere omgik Apples begrænsninger gennem værktøjer som Cydia. Den samme idé er blevet genbrugt til AI-systemer. Ligesom iPhone-jailbreakere ønskede at køre software, Apple ikke havde godkendt, ønsker AI-jailbreakere at få chatbots til at sige ting, de ikke må. Målet er ikke altid ondsindet – nogle gange er det nysgerrighed, nogle gange er det at teste grænser. Men effekten er den samme: modellens begrænsninger bliver tilsidesat.

Sådan fungerer spillet

Kat-og-mus-spillet udspiller sig i prompter. Brugere formulerer beskeder, der beder modellen om at rollespille som en karakter uden begrænsninger, eller de formulerer anmodninger som hypotetiske scenarier. Nogle forsøger at få modellen til at ignorere sin egen træning ved at lade som om samtalen er et spil eller en historie. Udviklere opdaterer til gengæld deres sikkerhedsfiltre for at fange disse tricks. Men så snart ét smuthul er lukket, åbner et andet sig. Det er en frem og tilbage, der ikke viser tegn på at aftage.

Hvorfor udviklere bekymrer sig

AI-laboratorier er bekymrede, fordi succesfulde jailbreaks kan føre til skadelige outputs. En chatbot, der normalt nægter at give instruktioner til farlige aktiviteter, kan, hvis den bliver narret, give trin-for-trin-vejledning. Det samme gælder for generering af hadefuld tale, misinformation eller eksplicit indhold. Udviklere bruger betydelige ressourcer på at justere modeller, så de er sikre og nyttige. Jailbreaking underminerer dette arbejde og rejser spørgsmål om, hvor pålidelige disse systemer virkelig er. Indsatsen er høj, fordi LLM'er integreres i flere produkter hver dag.

Der er ingen tegn på, at kampen snart slutter. Mens udviklere lapper ét smuthul, finder brugerne et andet. Spørgsmålet er, om fremtidige modeller kan gøres robuste nok til at modstå disse angreb, eller om jailbreaking vil forblive et permanent træk ved AI-landskabet.

Fra telefoner til prompter

Sådan fungerer spillet

Hvorfor udviklere bekymrer sig

Related Articles