“越狱”一词过去常指破解iPhone以安装未经授权的应用。如今,它用来描述另一种黑客行为:诱骗AI聊天机器人无视其内置安全防护。对于ChatGPT等大型语言模型的开发者而言,这场猫鼠游戏始终令人头疼。
从手机到提示词
“越狱”一词源于iPhone时代,用户通过Cydia等工具绕过苹果的限制。这一概念如今被重新用于AI系统。正如iPhone越狱者想运行苹果未批准的软件,AI越狱者则想让聊天机器人说出本不该说的话。其目的不一定是恶意的——有时出于好奇,有时是测试边界。但效果相同:模型的限制被突破。
游戏如何运作
猫鼠游戏在提示词中上演。用户精心编写消息,要求模型扮演一个没有限制的角色,或将请求表述为假设场景。有些人试图通过假装对话是一场游戏或故事,让模型忽略自身训练。开发者则不断更新安全过滤器,以捕捉这些技巧。但一个漏洞被堵上,另一个又会打开。这种拉锯战毫无放缓迹象。
开发者为何担忧
AI实验室之所以担忧,是因为成功的越狱可能导致有害输出。一个通常拒绝提供危险活动指导的聊天机器人,若被诱骗,可能会给出分步指南。同样,它也可能生成仇恨言论、虚假信息或露骨内容。开发者投入大量资源来对齐模型,使其既安全又有用。越狱破坏了这一工作,并引发对这些系统可信度的质疑。风险很高,因为大语言模型正日益融入各类产品中。
这场战斗没有很快结束的迹象。开发者修补一个漏洞,用户就找到另一个。问题在于,未来的模型能否足够强大以抵御这些攻击,还是越狱将永久成为AI领域的一个特征。




