
التحيز
استكشف التحيز في الذكاء الاصطناعي: تعرف على مصادره، تأثيره على تعلم الآلة، أمثلة واقعية، واستراتيجيات التخفيف لبناء أنظمة ذكاء اصطناعي عادلة وموثوقة....

يدرس التعلم الآلي الخصومي الهجمات التي تتلاعب عمداً بمدخلات نماذج الذكاء الاصطناعي لإنتاج مخرجات غير صحيحة، والدفاعات ضدها. تتراوح التقنيات من الاضطرابات غير المرئية في الصور التي تخدع المصنفات إلى مطالبات نصية مصممة تسيطر على سلوك نماذج اللغة الكبيرة.
التعلم الآلي الخصومي هو دراسة الهجمات التي تجعل نماذج الذكاء الاصطناعي تنتج مخرجات غير صحيحة أو غير آمنة أو غير مقصودة من خلال التلاعب المتعمد بمدخلاتها. وهو يشمل كلاً من تقنيات الهجوم التي تستغل ثغرات النموذج والأساليب الدفاعية التي تجعل النماذج أكثر قوة ضدها.
ظهر التعلم الآلي الخصومي من أبحاث الرؤية الحاسوبية في أوائل عام 2010، عندما اكتشف الباحثون أن إضافة اضطرابات صغيرة غير محسوسة إلى الصور يمكن أن تتسبب في تصنيف خاطئ من قبل مصنفات متقدمة بثقة عالية. تتحول الباندا إلى قرد الجيبون؛ وتتحول علامة التوقف إلى علامة حد السرعة — مع تغييرات في البكسل غير مرئية للمراقبين البشريين.
كشف هذا الاكتشاف أن الشبكات العصبية، على الرغم من أدائها المثير للإعجاب، تتعلم أنماطاً إحصائية يمكن استغلالها بدلاً من الفهم الدلالي القوي. ينطبق نفس المبدأ الأساسي — أن النماذج يمكن خداعها بشكل منهجي من خلال مدخلات مصممة بعناية — على جميع طرائق الذكاء الاصطناعي، بما في ذلك نماذج اللغة.
يتعرض النموذج للهجوم في وقت الاستدلال بمدخلات مصممة لإحداث تصنيف خاطئ أو سلوك غير متوقع. في الرؤية الحاسوبية، هذه هي الصور الخصومية. في معالجة اللغة الطبيعية ونماذج اللغة الكبيرة، تشمل هجمات التهرب:
يتعرض النموذج أو مصادر بياناته للهجوم أثناء التدريب أو الاسترجاع. تشمل الأمثلة:
يستخدم الخصوم استعلامات متكررة لاستخراج معلومات حول حدود قرار النموذج، أو إعادة بناء بيانات التدريب، أو تكرار قدرات النموذج — وهو تهديد للاستخبارات التنافسية لأنظمة الذكاء الاصطناعي الخاصة.
يحدد المهاجمون ما إذا كانت بيانات معينة قد استخدمت في التدريب، مما قد يكشف عما إذا كانت المعلومات الشخصية الحساسة قد تم تضمينها في مجموعات بيانات التدريب.
تواجه نماذج اللغة الكبيرة هجمات خصومية تختلف عن الأمثلة الخصومية الكلاسيكية للتعلم الآلي:
هجمات اللغة الطبيعية يمكن قراءتها من قبل البشر. على عكس اضطرابات الصور (تغييرات البكسل غير المحسوسة)، غالباً ما تستخدم هجمات نماذج اللغة الكبيرة الخصومية الفعالة لغة طبيعية متماسكة — مما يجعل من الصعب جداً تمييزها عن المدخلات المشروعة.
سطح الهجوم هو واجهة التعليمات. تم تصميم نماذج اللغة الكبيرة لاتباع التعليمات. تستغل الهجمات الخصومية ذلك من خلال صياغة مدخلات تبدو وكأنها تعليمات مشروعة للنموذج ولكنها تحقق أهداف المهاجم.
الهجمات القائمة على التدرج ممكنة. بالنسبة للنماذج مفتوحة المصدر أو ذات الوصول الكامل، يمكن للمهاجمين حساب اللواحق الخصومية باستخدام النزول التدريجي — نفس التقنية المستخدمة للعثور على اضطرابات الصور الخصومية. أظهرت الأبحاث أن هذه السلاسل المحسوبة تنتقل بشكل مفاجئ إلى النماذج الخاصة.
نظير الهندسة الاجتماعية. تشبه العديد من الهجمات الخصومية على نماذج اللغة الكبيرة الهندسة الاجتماعية أكثر من هجمات التعلم الآلي الكلاسيكية — حيث تستغل ميول النموذج نحو المساعدة والاتساق والامتثال للسلطة.
يؤدي تضمين الأمثلة الخصومية في التدريب إلى تحسين القوة. يتضمن تدريب المواءمة الأمنية لنماذج اللغة الكبيرة أمثلة على محاولات حقن المطالبات وكسر الحماية، مما يعلم النماذج مقاومتها. ومع ذلك، فإن ديناميكية سباق التسلح هذه تعني أن الهجمات الجديدة تظهر بانتظام وتتجاوز التدريب الحالي.
توفر تقنيات التحقق الرسمي ضمانات رياضية بأن النموذج سيصنف المدخلات بشكل صحيح ضمن حد اضطراب معين. محدودة حالياً بالنماذج الأصغر ومجالات المدخلات الأبسط، ولكنها مجال بحث نشط.
تعقيم المدخلات لإزالة أو تحييد المكونات الخصومية المحتملة قبل وصولها إلى النموذج. بالنسبة لنماذج اللغة الكبيرة، يتضمن ذلك اكتشاف أنماط الحقن والهياكل المدخلة الشاذة.
يقلل استخدام نماذج متعددة وطلب الاتفاق من قابلية النقل الخصومي. من غير المرجح أن يخدع الهجوم الذي يخدع نموذجاً واحداً جميع النماذج في المجموعة.
اكتشاف المدخلات الخصومية في وقت التشغيل من خلال تحديد الشذوذات الإحصائية أو الأنماط السلوكية غير المتسقة مع الاستخدام العادي.
بالنسبة للمؤسسات التي تنشر روبوتات دردشة مدعومة بالذكاء الاصطناعي، تُعلم مبادئ التعلم الآلي الخصومي:
الأمثلة الخصومية هي مدخلات مصممة بعناية لخداع نموذج التعلم الآلي لإجراء تنبؤات غير صحيحة. بالنسبة لمصنفات الصور، قد تكون صورة بها تغييرات غير محسوسة في البكسل تسبب تصنيفاً خاطئاً. بالنسبة لنماذج اللغة الكبيرة، تشمل الأمثلة الخصومية مطالبات مصممة تؤدي إلى مخرجات غير آمنة أو تتجاوز مرشحات الأمان.
أمن نماذج اللغة الكبيرة هو تطبيق متخصص لمبادئ التعلم الآلي الخصومي. حقن المطالبات وكسر الحماية هي هجمات خصومية على نماذج اللغة الكبيرة — مدخلات مصممة لإحداث سلوك غير صحيح أو ضار. اللواحق الخصومية (سلاسل محسوبة تكسر حماية النماذج بشكل موثوق) هي تطبيق مباشر لأبحاث الأمثلة الخصومية الكلاسيكية على نماذج اللغة.
التدريب الخصومي هو تقنية دفاعية تحسن قوة النموذج من خلال تضمين أمثلة خصومية في مجموعة بيانات التدريب. يتعلم النموذج التعامل بشكل صحيح مع المدخلات التي كانت خصومية سابقاً. بالنسبة لنماذج اللغة الكبيرة، يتم دمج هذا في تدريب المواءمة الأمنية — حيث يتم تدريب النماذج على أمثلة من الهجمات لتعلم مقاومتها.
لا تقتصر الثغرات الخصومية في روبوتات الدردشة المدعومة بالذكاء الاصطناعي على هجمات التعلم الآلي الكلاسيكية. تغطي تقييماتنا حقن المطالبات، وكسر الحماية، وجميع التقنيات الخصومية الخاصة بنماذج اللغة الكبيرة.

استكشف التحيز في الذكاء الاصطناعي: تعرف على مصادره، تأثيره على تعلم الآلة، أمثلة واقعية، واستراتيجيات التخفيف لبناء أنظمة ذكاء اصطناعي عادلة وموثوقة....

اختبار اختراق الذكاء الاصطناعي هو تقييم أمني منظم لأنظمة الذكاء الاصطناعي — بما في ذلك روبوتات الدردشة LLM، والوكلاء المستقلين، وخطوط أنابيب RAG — باستخدام هجما...

يشير التمييز في الذكاء الاصطناعي إلى المعاملة غير العادلة أو غير المتكافئة للأفراد أو المجموعات بناءً على خصائص محمية مثل العرق أو الجنس أو العمر أو الإعاقة. غا...