Termenul „jailbreaking” însemna odată spargerea iPhone-urilor pentru a instala aplicații neautorizate. Acum descrie un alt tip de hack: păcălirea chatbot-urilor AI pentru a ignora propriile măsuri de siguranță. Pentru dezvoltatorii de modele lingvistice mari precum ChatGPT, acest joc de-a pisica și șoarecele este o durere de cap constantă.
De la telefoane la prompturi
Cuvântul „jailbreaking” provine din era iPhone, când utilizatorii ocoleau restricțiile Apple prin instrumente precum Cydia. Aceeași idee a fost reutilizată pentru sistemele AI. Așa cum spărgătorii de iPhone doreau să ruleze software neaprobat de Apple, spărgătorii de AI vor să obțină de la chatbot-uri lucruri pe care nu ar trebui să le spună. Scopul nu este întotdeauna rău intenționat – uneori este curiozitate, alteori testarea limitelor. Dar efectul este același: restricțiile modelului sunt încălcate.
Cum funcționează jocul
Jocul de-a pisica și șoarecele se desfășoară în prompturi. Utilizatorii creează mesaje care cer modelului să joace rolul unui personaj fără restricții sau formulează cereri ca scenarii ipotetice. Unii încearcă să facă modelul să-și ignore propria instruire, prefăcându-se că conversația este un joc sau o poveste. La rândul lor, dezvoltatorii își actualizează filtrele de siguranță pentru a prinde aceste trucuri. Dar de îndată ce o portiță este închisă, alta se deschide. Este un schimb care nu dă semne de încetinire.
De ce se îngrijorează dezvoltatorii
Laboratoarele de AI sunt preocupate deoarece spargerile reușite pot duce la rezultate dăunătoare. Un chatbot care refuză în mod normal să ofere instrucțiuni pentru activități periculoase ar putea, dacă este păcălit, să ofere îndrumări pas cu pas. Același lucru este valabil și pentru generarea de discurs instigator la ură, dezinformare sau conținut explicit. Dezvoltatorii alocă resurse semnificative pentru alinierea modelelor astfel încât să fie sigure și utile. Jailbreaking-ul subminează această muncă și ridică întrebări legate de cât de demne de încredere sunt aceste sisteme. Miza este mare, deoarece modelele lingvistice mari sunt integrate în tot mai multe produse în fiecare zi.
Nu există semne că bătălia se va încheia curând. Pe măsură ce dezvoltatorii închid o portiță, utilizatorii găsesc alta. Întrebarea este dacă modelele viitoare pot fi făcute suficient de robuste pentru a rezista acestor atacuri sau dacă jailbreaking-ul va rămâne o caracteristică permanentă a peisajului AI.




