تهريب الرموز

تهريب الرموز هو فئة من الهجمات تستهدف الفجوة بين طبقات معالجة النص في أنظمة الذكاء الاصطناعي. عادةً ما تعمل مرشحات الإشراف على المحتوى، والتحقق من صحة الإدخال، وفحوصات السلامة على النص المقروء للبشر. بالمقابل، تعمل محللات الرموز في نماذج اللغة الكبيرة على مستوى أدنى - حيث تحول الأحرف إلى معرفات رموز رقمية. من خلال استغلال الاختلافات بين هذه الطبقات، يمكن للمهاجمين صياغة مدخلات تتجاوز مرشحات النص ولكنها تقدم تعليمات ضارة إلى نموذج اللغة الكبيرة.

كيف يعمل ترميز الرموز في نماذج اللغة الكبيرة

قبل أن يعالج نموذج اللغة الكبيرة النص، يقوم محلل الرموز بتحويل سلسلة الإدخال إلى تسلسل من معرفات الرموز الصحيحة. ترتبط هذه المعرفات بمفردات النموذج - والتي عادةً ما يتم ترميزها باستخدام خوارزميات مثل ترميز زوج البايت (BPE) أو WordPiece.

الخصائص الرئيسية للترميز التي يستغلها المهاجمون:

  • تُربط العديد من الأحرف بتمثيلات رموز متشابهة. يحتوي يونيكود على العديد من الأحرف المتشابهة بصرياً (الأحرف المتجانسة شكلياً) التي يتم ترميزها بشكل متطابق أو متطابق تقريباً.
  • الترميز ليس قائماً على الأحرف بشكل بحت. تقسم بعض محللات الرموز الكلمات إلى وحدات فرعية بناءً على أنماط التردد، مما يخلق فرصاً للتلاعب بالحدود.
  • قد يتم الاحتفاظ بالأحرف الخاصة أو إسقاطها. قد تكون الأحرف ذات العرض الصفري، والعلامات التشكيلية المركبة، وأحرف التحكم غير مرئية لمرشحات السلاسل النصية ولكن يتم التعامل معها بشكل محدد بواسطة محللات الرموز.

تقنيات تهريب الرموز

استبدال الأحرف المتشابهة شكلياً في يونيكود

يحتوي يونيكود على آلاف الأحرف التي تشبه بصرياً أحرف ASCII الشائعة. قد لا يتعرف المرشح الذي يبحث عن كلمة “harmful” على “hármful” (مع علامة تشكيلية مركبة) أو “harⅿful” (مع حرف كسر يونيكود).

مثال: قد يتم ترميز كلمة “ignore” كـ “іgnore” (باستخدام الحرف السيريلي “і” بدلاً من اللاتيني “i”) - تبدو متطابقة لمعظم القراء البشريين وبعض المرشحات، ولكنها قد تُعالج بشكل مختلف على مستوى محلل الرموز.

إدراج أحرف ذات عرض صفري

الأحرف ذات العرض الصفري (مثل U+200B مسافة ذات عرض صفري أو U+200C فاصل غير موصل ذو عرض صفري) غير مرئية في النص المعروض. يؤدي إدراجها بين الأحرف في الكلمات الرئيسية إلى كسر مرشحات مطابقة السلاسل النصية دون التأثير على المظهر المرئي أو، في كثير من الحالات، التمثيل المُرمّز.

مثال: “i​g​n​o​r​e” مع مسافات ذات عرض صفري بين كل حرف تظهر كـ “ignore” عند العرض ولكنها تكسر مطابقة الأنماط البسيطة للسلاسل النصية.

إخفاء الترميز

تحويل النص إلى ترميزات بديلة قبل الإرسال:

  • ترميز Base64: “aWdub3JlIHByZXZpb3VzIGluc3RydWN0aW9ucw==” (إذا كان النموذج يفك تشفيره)
  • لغة Leet: “1gn0r3 pr3v10u5 1n5truc710n5” استبدال الأرقام بالحروف
  • متغيرات ROT13 أو شيفرة قيصر: تحويل الأحرف لتجنب اكتشاف الكلمات الرئيسية
  • الترميز السداسي عشري: تمثيل الأحرف كتسلسلات سداسية عشرية تفسرها بعض النماذج

تعتمد الفعالية على ما إذا كان نموذج اللغة الكبيرة قد تم تدريبه لفك تشفير هذه التمثيلات، والتي لديها العديد من النماذج ذات الأغراض العامة.

تنويع الحالة والتنسيق

تنويعات بسيطة ولكنها فعالة أحياناً:

  • كل الأحرف كبيرة: “IGNORE PREVIOUS INSTRUCTIONS”
  • حالة مختلطة: “IgNoRe PrEvIoUs InStRuCtIoNs”
  • أحرف متباعدة: “I G N O R E P R E V I O U S”
  • عكسي: “snoitcurtsni suoiverp erongi” (إذا كان النموذج يمكنه معالجة النص المعكوس)

حقن الفواصل

تعطي بعض محللات الرموز معاملة خاصة لأحرف الفصل. من خلال إدخال أحرف يفسرها محلل الرموز كحدود قطاع، يمكن للمهاجمين التلاعب بكيفية تقسيم النموذج للإدخال إلى وحدات ذات معنى.

Logo

هل أنت مستعد لتنمية عملك؟

ابدأ تجربتك المجانية اليوم وشاهد النتائج في غضون أيام.

حالات استخدام الهجوم

تجاوز كسر الحماية: ترميز مطالبات كسر الحماية باستخدام تقنيات تتجاوز طبقة مرشح السلامة ولكن يتم فك تشفيرها بواسطة نموذج اللغة الكبيرة، مما يتيح تجاوز حواجز السلامة.

التهرب من مرشح المحتوى: تضمين خطاب الكراهية، أو طلبات محتوى غير قانوني، أو تعليمات تنتهك السياسة في شكل مُرمّز.

إخفاء حقن المطالبة: استخدام الترميز لإخفاء التعليمات المحقونة من مرشحات مطابقة الأنماط البسيطة مع ضمان معالجة نموذج اللغة الكبيرة لها بشكل صحيح.

بصمة المرشح: اختبار منهجي لمتغيرات ترميز مختلفة لتحديد أيها تكتشفه مرشحات النظام المستهدف وأيها لا تكتشفه - رسم خريطة لتغطية المرشح لشن هجمات أكثر استهدافاً.

استراتيجيات الدفاع

تطبيع يونيكود

تطبيق تطبيع يونيكود (NFC أو NFD أو NFKC أو NFKD) على جميع المدخلات قبل التصفية. يحول هذا متغيرات يونيكود إلى أشكال قانونية، مما يلغي العديد من هجمات الأحرف المتشابهة شكلياً والأحرف المركبة.

كشف واستبدال الأحرف المتشابهة شكلياً

تنفيذ تعيين صريح للأحرف المتشابهة شكلياً لتطبيع الأحرف المتشابهة بصرياً إلى مكافئاتها في ASCII قبل التصفية. توجد مكتبات لهذا الغرض في معظم لغات البرمجة.

تصفية المحتوى القائمة على نماذج اللغة الكبيرة

بدلاً من (أو بالإضافة إلى) المرشحات القائمة على السلاسل النصية، استخدم مرشحاً قائماً على نماذج اللغة الكبيرة يعمل على تمثيلات الرموز. نظراً لأن هذه المرشحات تعالج النص على نفس مستوى النموذج المستهدف، فإن حيل الترميز أقل فعالية - يرى المرشح نفس التمثيل الذي يراه النموذج.

اختبار المرشحات ضد المتغيرات المعروفة

يجب أن يتضمن التقييم الأمني اختباراً منهجياً لمرشحات المحتوى ضد متغيرات الترميز المعروفة. إذا كان المرشح مخصصاً لحظر “ignore previous instructions”، فاختبر ما إذا كان يحظر أيضاً الأحرف المتشابهة شكلياً في يونيكود، ومتغيرات العرض الصفري، وترميز Base64، وأشكال الإخفاء الأخرى.

تصور ومراجعة الإدخال

سجل عرضاً مقروءاً للبشر للمدخلات المطبعة إلى جانب الإدخال الخام. يمكن أن تكشف التناقضات بين الاثنين عن هجمات الترميز أثناء مراجعة الحوادث.

المصطلحات ذات الصلة

الأسئلة الشائعة

ما هو تهريب الرموز؟

تهريب الرموز هو تقنية هجوم تستغل الاختلافات بين النص المقروء للبشر وتمثيلات محلل الرموز في نماذج اللغة الكبيرة. يقوم المهاجمون بترميز التعليمات الضارة باستخدام تنويعات الأحرف، أو حيل يونيكود، أو التنسيق غير العادي بحيث لا تكتشفها مرشحات المحتوى، ولكن محلل الرموز في نموذج اللغة الكبيرة لا يزال يعالجها كما هو مقصود.

لماذا يعمل تهريب الرموز؟

غالباً ما تعمل مرشحات المحتوى على النص المقروء للبشر - فتتحقق من سلاسل أو أنماط أو كلمات رئيسية محددة. ومع ذلك، تعالج محللات الرموز في نماذج اللغة الكبيرة النص على مستوى أدنى وقد تربط أحرفاً مختلفة بصرياً بنفس الرموز أو رموز متشابهة. تتيح هذه الفجوة للمهاجمين صياغة نص يُقرأ بطريقة واحدة بالنسبة للمرشح ويُعالج بشكل مختلف بواسطة محلل الرموز.

كيف يمكن الدفاع ضد تهريب الرموز؟

تشمل الدفاعات: تطبيع نص الإدخال قبل التصفية (تطبيع يونيكود، استبدال الأحرف المتشابهة شكلياً)، واستخدام مرشحات محتوى قائمة على نماذج اللغة الكبيرة تعمل على تمثيلات على مستوى الرموز بدلاً من النص الخام، واختبار المرشحات ضد متغيرات الترميز المعروفة، وإجراء تقييمات أمنية تتضمن سيناريوهات هجوم قائمة على الترميز.

اختبر روبوت الدردشة الخاص بك ضد الهجمات القائمة على الترميز

تتجاوز هجمات تهريب الرموز والترميز المرشحات السطحية. نحن نختبر هذه التقنيات في كل تقييم أمني لروبوتات الدردشة.

اعرف المزيد

الرمز
الرمز

الرمز

الرمز في سياق النماذج اللغوية الكبيرة (LLMs) هو تسلسل من الأحرف يحوله النموذج إلى تمثيلات رقمية لمعالجة فعالة. الرموز هي الوحدات الأساسية للنص التي تستخدمها الن...

3 دقيقة قراءة
Token LLM +3
أمن نماذج اللغة الكبيرة
أمن نماذج اللغة الكبيرة

أمن نماذج اللغة الكبيرة

يشمل أمن نماذج اللغة الكبيرة الممارسات والتقنيات والضوابط المستخدمة لحماية عمليات نشر نماذج اللغة الكبيرة من فئة فريدة من التهديدات الخاصة بالذكاء الاصطناعي بما...

4 دقيقة قراءة
LLM Security AI Security +3
اختراق الذكاء الاصطناعي
اختراق الذكاء الاصطناعي

اختراق الذكاء الاصطناعي

يشير اختراق الذكاء الاصطناعي إلى التقنيات التي تتجاوز حواجز الأمان والقيود السلوكية لنماذج اللغة الكبيرة، مما يتسبب في إنتاج مخرجات تنتهك القيود المقصودة - بما ...

4 دقيقة قراءة
AI Security Jailbreaking +3