Istilah 'jailbreaking' dahulunya bermaksud meretas iPhone untuk memasang aplikasi yang tidak dibenarkan. Kini ia menggambarkan jenis penggodaman yang berbeza: menipu chatbot AI supaya mengabaikan langkah keselamatan terbina dalam mereka. Bagi pembangun model bahasa besar seperti ChatGPT, permainan kejar-mengejar ini menjadi sakit kepala yang berterusan.
Dari Telefon ke Gesaan
Perkataan 'jailbreaking' berasal dari era iPhone, apabila pengguna akan memintas sekatan Apple melalui alat seperti Cydia. Idea yang sama telah digunakan semula untuk sistem AI. Sama seperti penggodam iPhone mahu menjalankan perisian yang tidak diluluskan Apple, penggodam AI mahu chatbot mengeluarkan perkara yang sepatutnya tidak boleh. Matlamatnya tidak selalu berniat jahat — kadang-kadang ia rasa ingin tahu, kadang-kadang menguji had. Namun kesannya sama: sekatan model diatasi.
Bagaimana Permainan Ini Berfungsi
Permainan kejar-mengejar ini berlaku dalam gesaan. Pengguna mencipta mesej yang meminta model melakonkan watak tanpa sekatan, atau mereka merangka permintaan sebagai senario hipotetikal. Ada yang cuba membuat model mengabaikan latihannya sendiri dengan berpura-pura perbualan itu adalah permainan atau cerita. Pembangun pula mengemas kini penapis keselamatan mereka untuk menangkap helah ini. Tetapi sebaik sahaja satu celah ditutup, celah lain terbuka. Ia adalah perbalahan yang tidak menunjukkan tanda akan perlahan.
Mengapa Pembangun Bimbang
Makmal AI bimbang kerana jailbreaking yang berjaya boleh membawa kepada output berbahaya. Chatbot yang biasanya enggan memberi arahan untuk aktiviti berbahaya mungkin, jika ditipu, memberikan panduan langkah demi langkah. Perkara yang sama berlaku untuk menjana ucapan kebencian, maklumat palsu, atau kandungan eksplisit. Pembangun menghabiskan sumber yang besar untuk menyelaraskan model supaya selamat dan membantu. Jailbreaking menjejaskan kerja itu dan menimbulkan persoalan tentang sejauh mana sistem ini boleh dipercayai. Taruhannya tinggi kerana LLM diintegrasikan ke dalam lebih banyak produk setiap hari.
Tidak ada tanda pertempuran akan berakhir tidak lama lagi. Apabila pembangun menampal satu celah, pengguna mencari yang lain. Persoalannya sama ada model masa depan boleh dibuat cukup kukuh untuk menahan serangan ini, atau sama ada jailbreaking akan kekal sebagai ciri tetap landskap AI.




