越狱从iPhone转向AI聊天机器人，引发安全担忧

“越狱”一词过去常指破解iPhone以安装未经授权的应用。如今，它用来描述另一种黑客行为：诱骗AI聊天机器人无视其内置安全防护。对于ChatGPT等大型语言模型的开发者而言，这场猫鼠游戏始终令人头疼。

从手机到提示词

“越狱”一词源于iPhone时代，用户通过Cydia等工具绕过苹果的限制。这一概念如今被重新用于AI系统。正如iPhone越狱者想运行苹果未批准的软件，AI越狱者则想让聊天机器人说出本不该说的话。其目的不一定是恶意的——有时出于好奇，有时是测试边界。但效果相同：模型的限制被突破。

游戏如何运作

猫鼠游戏在提示词中上演。用户精心编写消息，要求模型扮演一个没有限制的角色，或将请求表述为假设场景。有些人试图通过假装对话是一场游戏或故事，让模型忽略自身训练。开发者则不断更新安全过滤器，以捕捉这些技巧。但一个漏洞被堵上，另一个又会打开。这种拉锯战毫无放缓迹象。

开发者为何担忧

AI实验室之所以担忧，是因为成功的越狱可能导致有害输出。一个通常拒绝提供危险活动指导的聊天机器人，若被诱骗，可能会给出分步指南。同样，它也可能生成仇恨言论、虚假信息或露骨内容。开发者投入大量资源来对齐模型，使其既安全又有用。越狱破坏了这一工作，并引发对这些系统可信度的质疑。风险很高，因为大语言模型正日益融入各类产品中。

这场战斗没有很快结束的迹象。开发者修补一个漏洞，用户就找到另一个。问题在于，未来的模型能否足够强大以抵御这些攻击，还是越狱将永久成为AI领域的一个特征。

从手机到提示词

游戏如何运作

开发者为何担忧

相关文章