Termi 'jailbreaking' dikur nënkuptonte çkodimin e iPhone-ve për të instaluar aplikacione të paautorizuara. Tani ai përshkruan një lloj tjetër hakimi: mashtrimin e chatbot-eve të AI për të injoruar mbrojtjet e tyre të integruara. Për zhvilluesit e modeleve të mëdha gjuhësore si ChatGPT, kjo lojë mace e miu është një dhimbje koke e vazhdueshme.
Nga telefonat te pyetjet
Fjala 'jailbreaking' vjen nga epoka e iPhone, kur përdoruesit anashkalonin kufizimet e Apple përmes mjeteve si Cydia. E njëjta ide është ripërdorur për sistemet e AI. Ashtu siç çkoduesit e iPhone donin të ekzekutonin softuer që Apple nuk e kishte miratuar, çkoduesit e AI duan të bëjnë chatbot-et të thonë gjëra që nuk duhet t'i thonë. Qëllimi nuk është gjithmonë keqdashës — ndonjëherë është kuriozitet, ndonjëherë është testimi i kufijve. Por efekti është i njëjtë: kufizimet e modelit anashkalohen.
Si funksionon loja
Loja mace e miu zhvillohet përmes pyetjeve. Përdoruesit krijojnë mesazhe që i kërkojnë modelit të luajë rolin e një personazhi pa kufizime, ose i formulojnë kërkesat si skenarë hipotetikë. Disa përpiqen ta bëjnë modelin të injorojë trajnimin e vet duke pretenduar se biseda është një lojë ose një histori. Zhvilluesit, nga ana tjetër, përditësojnë filtrat e tyre të sigurisë për të kapur këto mashtrime. Por sapo mbyllet një boshllëk, hapet një tjetër. Është një përballje e vazhdueshme që nuk tregon shenja ngadalësimi.
Pse shqetësohen zhvilluesit
Laboratorët e AI janë të shqetësuar sepse çkodimet e suksesshme mund të çojnë në rezultate të dëmshme. Një chatbot që normalisht refuzon të japë udhëzime për aktivitete të rrezikshme, mund të sigurojë udhëzime hap pas hapi nëse mashtrohet. E njëjta gjë vlen për gjenerimin e gjuhës së urrejtjes, dezinformimit ose përmbajtjes eksplicite. Zhvilluesit shpenzojnë burime të konsiderueshme për të përafruar modelet që të jenë të sigurta dhe të dobishme. Çkodimi minon atë punë dhe ngre pyetje se sa të besueshme janë vërtet këto sisteme. Akset janë të larta sepse LLM-të po integrohen në gjithnjë e më shumë produkte çdo ditë.
Nuk ka shenja se beteja do të përfundojë së shpejti. Ndërsa zhvilluesit mbyllin një boshllëk, përdoruesit gjejnë një tjetër. Pyetja është nëse modelet e ardhshme mund të bëhen mjaft të forta për t'i bërë ballë këtyre sulmeve, apo nëse çkodimi do të mbetet një tipar i përhershëm i peizazhit të AI.




