Thuật ngữ 'jailbreaking' trước đây thường dùng để chỉ việc crack iPhone nhằm cài đặt ứng dụng trái phép. Giờ đây, nó mô tả một kiểu hack khác: đánh lừa chatbot AI bỏ qua các cơ chế bảo vệ vốn có. Đối với các nhà phát triển mô hình ngôn ngữ lớn như ChatGPT, trò chơi mèo vờn chuột này là một cơn đau đầu thường trực.
Từ điện thoại đến lời nhắc
Từ 'jailbreaking' bắt nguồn từ thời iPhone, khi người dùng vượt qua các hạn chế của Apple thông qua các công cụ như Cydia. Ý tưởng đó nay được tái sử dụng cho các hệ thống AI. Cũng giống như người jailbreak iPhone muốn chạy phần mềm mà Apple chưa phê duyệt, những kẻ jailbreak AI muốn chatbot nói những điều không được phép. Mục đích không phải lúc nào cũng xấu — đôi khi là vì tò mò, đôi khi là để kiểm tra giới hạn. Nhưng kết quả thì giống nhau: các ràng buộc của mô hình bị phá vỡ.
Cách thức hoạt động
Trò chơi mèo vờn chuột diễn ra thông qua các lời nhắc. Người dùng tạo ra các tin nhắn yêu cầu mô hình nhập vai như một nhân vật không bị ràng buộc, hoặc họ trình bày yêu cầu dưới dạng các tình huống giả định. Một số cố gắng khiến mô hình phớt lờ quá trình huấn luyện của chính nó bằng cách giả vờ cuộc trò chuyện là một trò chơi hay câu chuyện. Các nhà phát triển, đến lượt mình, cập nhật bộ lọc an toàn để bắt những thủ thuật này. Nhưng ngay khi một lỗ hổng được vá, một lỗ hổng khác lại xuất hiện. Đó là một cuộc giằng co không có dấu hiệu chậm lại.
Tại sao các nhà phát triển lo ngại
Các phòng thí nghiệm AI lo ngại vì các vụ jailbreak thành công có thể dẫn đến đầu ra có hại. Một chatbot bình thường từ chối đưa ra hướng dẫn cho các hoạt động nguy hiểm, nếu bị lừa, có thể cung cấp chỉ dẫn từng bước. Điều tương tự cũng xảy ra với việc tạo ra ngôn từ thù hận, thông tin sai lệch hoặc nội dung khiêu dâm. Các nhà phát triển dành nhiều nguồn lực để điều chỉnh mô hình sao cho an toàn và hữu ích. Jailbreaking làm suy yếu công việc đó và đặt ra câu hỏi về mức độ đáng tin cậy thực sự của các hệ thống này. Rủi ro rất lớn vì các mô hình ngôn ngữ lớn đang được tích hợp vào ngày càng nhiều sản phẩm mỗi ngày.
Không có dấu hiệu cho thấy cuộc chiến sẽ sớm kết thúc. Khi các nhà phát triển vá một lỗ hổng, người dùng lại tìm ra lỗ hổng khác. Câu hỏi đặt ra là liệu các mô hình trong tương lai có thể đủ mạnh để chống lại các cuộc tấn công này hay không, hay jailbreaking sẽ mãi là một đặc điểm thường trực của bối cảnh AI.




