كان مصطلح "الجيلبريك" يشير في الأصل إلى اختراق هواتف iPhone لتثبيت تطبيقات غير مصرح بها. واليوم، يصف نوعًا مختلفًا من الاختراق: خداع روبوتات المحادثة بالذكاء الاصطناعي لتجاهل ضوابط السلامة المدمجة فيها. فللمطورين نماذج اللغة الكبيرة مثل ChatGPT، تُشكّل هذه اللعبة المستمرة بين القط والفأر مصدرًا دائمًا للقلق.
من الهواتف إلى المُحرِّكات
ينبع مصطلح "الجيلبريك" من عصر iPhone، عندما كان المستخدمون يتجاوزون قيود آبل عبر أدوات مثل Cydia. وقد جُدِّد تطبيق هذه الفكرة في أنظمة الذكاء الاصطناعي. فكما أراد مستخدمو الجيلبريك لهواتف iPhone تشغيل برامج لم توافق آبل عليها، يسعى مستخدمو الجيلبريك للذكاء الاصطناعي إلى إقناع روبوتات المحادثة بقول أشياء غير مسموح بها. ولا يكون الهدف دائمًا ضارًّا — ففي بعض الأحيان يكون فضولًا، وفي أخرى اختبار الحدود. لكن النتيجة واحدة: يتم تجاوز قيود النموذج.
كيف تسير اللعبة
تتجلى لعبة القط والفأر هذه في المُحرِّكات. يصيغ المستخدمون رسائل تطلب من النموذج التصرف كشخصية دون قيود، أو يصيغون طلباتهم كسيناريوهات افتراضية. يحاول البعض جعل النموذج يتجاهل تدريبه الذاتي من خلال التظاهر بأن المحادثة لعبة أو قصة. في المقابل، يُحدّث المطورون مرشحات السلامة لالتقاط هذه الحيل. لكن بمجرد إغلاق ثغرة، تظهر أخرى. هذه المواجهة المستمرة لا تظهر أي علامات على التوقف.
لماذا يشعر المطورون بالقلق
تشعر مختبرات الذكاء الاصطناعي بالقلق لأن الجيلبريك الناجح قد يؤدي إلى مخرجات ضارة. فروبوت المحادثة الذي يرفض عادةً تقديم تعليمات لأنشطة خطرة قد يُقدّم، إذا تم خداعه، إرشادات خطوة بخطوة. وينطبق الشيء نفسه على توليد خطاب الكراهية أو المعلومات المغلوطة أو المحتوى الصريح. ينفق المطورون موارد كبيرة على محاذاة النماذج لجعلها آمنة ومفيدة. يُضعف الجيلبريك هذا العمل ويرفع تساؤلات حول مدى موثوقية هذه الأنظمة فعلاً. ترتفع المخاطر لأن النماذج اللغوية الكبيرة (LLMs) تُدمج في منتجات أكثر يومًا بعد يوم.
لا توجد إشارات على أن هذه المعركة ستنتهي قريبًا. فكلما أصلح المطورون ثغرة، يجد المستخدمون أخرى. والسؤال هو ما إذا كان بالإمكان جعل النماذج المستقبلية قوية بما يكفي لصَدّ هذه الهجمات، أو ما إذا كان الجيلبريك سيظل جزءًا دائمًا من مشهد الذكاء الاصطناعي.




