「脱獄(ジェイルブレイク)」という言葉は、かつてiPhoneをクラックして許可されていないアプリをインストールすることを意味していた。今では、AIチャットボットに組み込まれた安全対策を無視させるという別のハッキング手法を指すようになった。ChatGPTのような大規模言語モデルの開発者にとって、このいたちごっこは頭の痛い問題となっている。
スマホからプロンプトへ
「脱獄」という言葉は、ユーザーがCydiaなどのツールを通じてAppleの制限を回避していたiPhone時代に由来する。同じ概念がAIシステムに転用されたのだ。iPhoneの脱獄者がAppleが承認していないソフトウェアを実行したかったのと同様に、AIの脱獄者はチャットボットに本来言ってはいけないことを言わせたいと考えている。その目的は必ずしも悪意があるわけではない——好奇心の場合もあれば、限界を試す場合もある。しかし結果は同じで、モデルの制限が無効化される。
いたちごっこの仕組み
いたちごっこはプロンプトの中で繰り広げられる。ユーザーは、モデルに制限のないキャラクターとしてロールプレイさせるメッセージを作成したり、仮想的なシナリオとしてリクエストを言い換えたりする。中には、会話がゲームや物語であるかのように装って、モデルに自身のトレーニングを無視させようとする者もいる。開発者はこれに対抗するため、安全フィルターを更新してこうした手口を捉えようとする。しかし、一つの抜け穴が塞がれるとすぐに別の抜け穴が現れる。この攻防は収束の兆しを見せていない。
開発者が懸念する理由
AI研究所が懸念するのは、脱獄が成功すると有害な出力につながる可能性があるからだ。通常は危険な活動の指示を拒否するチャットボットも、騙されれば段階的な手順を提供するかもしれない。同様に、ヘイトスピーチや誤情報、露骨なコンテンツを生成する恐れもある。開発者はモデルを安全で有用なものにするために多大なリソースを投入している。脱獄はその努力を台無しにし、これらのシステムがどれほど信頼できるのかという疑問を引き起こす。大規模言語モデルが日々多くの製品に統合されているため、その影響は大きい。
この戦いに終わりが近い兆しはない。開発者が一つの抜け穴を塞ぐと、ユーザーは別の抜け穴を見つける。課題は、将来のモデルがこれらの攻撃に耐えられるほど堅牢になるか、それとも脱獄がAIの世界に永遠に残る特徴であり続けるかである。




