Jailbreaking przenosi się z iPhone'ów na chatboty AI, budząc obawy o bezpieczeństwo

Termin „jailbreaking” oznaczał kiedyś łamanie zabezpieczeń iPhone'ów w celu instalowania nieautoryzowanych aplikacji. Teraz opisuje inny rodzaj hakerskiego ataku: oszukiwanie chatbotów AI, by ignorowały wbudowane zabezpieczenia. Dla twórców dużych modeli językowych, takich jak ChatGPT, ta gra w kotka i myszkę to nieustanny ból głowy.

Od telefonów do podpowiedzi

Słowo „jailbreaking” pochodzi z ery iPhone'ów, gdy użytkownicy omijali ograniczenia Apple za pomocą narzędzi takich jak Cydia. Ta sama idea została zaadaptowana na potrzeby systemów AI. Tak jak osoby jailbreakingujące iPhone'y chciały uruchamiać oprogramowanie, którego Apple nie zatwierdził, tak jailbreakingujący AI chcą, by chatboty mówiły rzeczy, których nie powinny. Cel nie zawsze jest złośliwy – czasem to ciekawość, czasem testowanie granic. Ale efekt jest ten sam: ograniczenia modelu zostają przełamane.

Jak działa ta gra

Gra w kotka i myszkę rozgrywa się w podpowiedziach. Użytkownicy tworzą wiadomości, które proszą model, by wcielił się w postać bez ograniczeń, albo formułują prośby jako hipotetyczne scenariusze. Niektórzy próbują sprawić, by model zignorował własne szkolenie, udając, że rozmowa to gra lub opowieść. Twórcy z kolei aktualizują swoje filtry bezpieczeństwa, by wyłapywać te sztuczki. Ale gdy tylko jedna luka zostaje zamknięta, otwiera się kolejna. To ciągłe przeciąganie liny, które nie wykazuje oznak spowolnienia.

Dlaczego twórcy się martwią

Laboratoria AI są zaniepokojone, ponieważ udane jailbreakingi mogą prowadzić do szkodliwych wyników. Chatbot, który normalnie odmawia udzielania instrukcji do niebezpiecznych działań, może – jeśli zostanie oszukany – podać szczegółowe wskazówki. To samo dotyczy generowania mowy nienawiści, dezinformacji lub treści o charakterze jednoznacznie seksualnym. Twórcy przeznaczają znaczne zasoby na dostosowanie modeli, by były bezpieczne i pomocne. Jailbreaking podważa tę pracę i rodzi pytania o to, jak bardzo tym systemom można ufać. Stawka jest wysoka, ponieważ modele LLM są codziennie integrowane z coraz większą liczbą produktów.

Nie ma oznak, by walka miała się szybko zakończyć. Gdy twórcy łatają jedną lukę, użytkownicy znajdują inną. Pytanie brzmi, czy przyszłe modele będą wystarczająco odporne, by wytrzymać te ataki, czy też jailbreaking pozostanie trwałym elementem krajobrazu AI.

Od telefonów do podpowiedzi

Jak działa ta gra

Dlaczego twórcy się martwią

Related Articles