
يقول باحثون إن روبوتات الدردشة المدعومة بالذكاء الاصطناعي، تُهدد بإتاحة معلومات خطيرة بسهولة من خلال إنتاج معلومات غير مشروعة تستوعبها البرامج أثناء التدريب.
ويأتي هذا التحذير في ظل اتجاه مُقلق لروبوتات الدردشة التي تم اختراقها للتحايل على ضوابط الأمان المُدمجة فيها، إذ أنه من المفترض أن تمنع هذه القيود البرامج من تقديم ردود ضارة أو مُتحيزة أو غير لائقة على أسئلة المستخدمين، وفقًا لما ذكرته صحيفة «ذا جارديان».
تتلقى محركات روبوتات الدردشة، مثل «ChatGPT» و«Gemini» و«Claude»- نماذج اللغة الكبيرة (LLMs)- كميات هائلة من المواد من الإنترنت، وعلى الرغم من الجهود المبذولة لإزالة النصوص الضارة من بيانات التدريب، لا يزال بإمكان نماذج اللغة الكبيرة استيعاب معلومات حول أنشطة غير قانونية مثل القرصنة وغسيل الأموال والتداول الداخلي وصنع القنابل، إذ صُممت ضوابط الأمان لمنعها من استخدام هذه المعلومات في ردودها.
وفي تقرير عن التهديد، خلص الباحثون إلى أنه من السهل خداع معظم برامج الدردشة الآلية التي تعمل بالذكاء الاصطناعي لتوليد معلومات ضارة وغير قانونية، مما يدل على أن الخطر «فوري وملموس ومثير للقلق بشدة»، إذ يحذر المؤلفون من أن ما كان يقتصر سابقًا على الجهات الحكومية أو جماعات الجريمة المنظمة قد يصبح قريبًا في أيدي أي شخص لديه جهاز كمبيوتر محمول أو حتى هاتف محمول.
حدد البحث، الذي قاده البروفيسور ليور روكاش والدكتور مايكل فاير، تهديدًا متزايدًا من «برامج ماجستير القانون المظلمة»، وهي نماذج ذكاء اصطناعي مصممة عمدًا دون ضوابط أمان أو معدلة من خلال عمليات كسر الحماية، والتي يُعلن عن بعضها علنًا عبر الإنترنت على أنها لا تخضع لضوابط أخلاقية وأنها مستعدة للمساعدة في الأنشطة غير القانونية مثل الجرائم الإلكترونية والاحتيال.
ويميل كسر الحماية إلى استخدام مطالبات مُصممة بعناية لخداع روبوتات الدردشة لتوليد ردود محظورة عادةً، وتعمل هذه المطالبات من خلال استغلال التناقض بين الهدف الرئيسي للبرنامج المتمثل في اتباع تعليمات المستخدم، وهدفه الثانوي المتمثل في تجنب توليد إجابات ضارة أو متحيزة أو غير أخلاقية أو غير قانونية، وتميل هذه المطالبات إلى خلق سيناريوهات يُعطي فيها البرنامج الأولوية للمساعدة على قيوده الأمنية.
ولتوضيح المشكلة، طور الباحثون كسر حماية شاملًا اخترق العديد من روبوتات الدردشة الرائدة، مما مكّنها من الإجابة على أسئلة كان من المفترض رفضها عادةً، بمجرد اختراقها، كانت روبوتات الدردشة تُنتج باستمرار ردودًا على أي استفسار تقريبًا، وفقًا للتقرير.
يقول التقرير الصادر عن البحث، إنه ينبغي على شركات التكنولوجيا فحص بيانات التدريب بدقة أكبر، وإضافة جدران حماية قوية لمنع الاستفسارات والردود الخطرة، وتطوير تقنيات إلغاء التعلم الآلي، حتى تتمكن روبوتات الدردشة من نسيان أي معلومات غير مشروعة تستوعبها، مُضيفًا أنه ينبغي النظر إلى برامج ماجستير القانون المظلمة على أنها «مخاطر أمنية جسيمة»، تُضاهي الأسلحة والمتفجرات غير المرخصة، مع محاسبة مقدميها.