
الرمز
الرمز في سياق النماذج اللغوية الكبيرة (LLMs) هو تسلسل من الأحرف يحوله النموذج إلى تمثيلات رقمية لمعالجة فعالة. الرموز هي الوحدات الأساسية للنص التي تستخدمها الن...

يستغل تهريب الرموز الفجوة بين كيفية قراءة البشر للنص وكيفية معالجة محللات الرموز في نماذج اللغة الكبيرة له. يستخدم المهاجمون تنويعات يونيكود، أو أحرف ذات عرض صفري، أو أحرف متشابهة شكلياً، أو ترميزات غير عادية لإخفاء التعليمات الضارة من مرشحات المحتوى بينما تظل قابلة للقراءة بواسطة محلل الرموز.
تهريب الرموز هو فئة من الهجمات تستهدف الفجوة بين طبقات معالجة النص في أنظمة الذكاء الاصطناعي. عادةً ما تعمل مرشحات الإشراف على المحتوى، والتحقق من صحة الإدخال، وفحوصات السلامة على النص المقروء للبشر. بالمقابل، تعمل محللات الرموز في نماذج اللغة الكبيرة على مستوى أدنى - حيث تحول الأحرف إلى معرفات رموز رقمية. من خلال استغلال الاختلافات بين هذه الطبقات، يمكن للمهاجمين صياغة مدخلات تتجاوز مرشحات النص ولكنها تقدم تعليمات ضارة إلى نموذج اللغة الكبيرة.
قبل أن يعالج نموذج اللغة الكبيرة النص، يقوم محلل الرموز بتحويل سلسلة الإدخال إلى تسلسل من معرفات الرموز الصحيحة. ترتبط هذه المعرفات بمفردات النموذج - والتي عادةً ما يتم ترميزها باستخدام خوارزميات مثل ترميز زوج البايت (BPE) أو WordPiece.
الخصائص الرئيسية للترميز التي يستغلها المهاجمون:
يحتوي يونيكود على آلاف الأحرف التي تشبه بصرياً أحرف ASCII الشائعة. قد لا يتعرف المرشح الذي يبحث عن كلمة “harmful” على “hármful” (مع علامة تشكيلية مركبة) أو “harⅿful” (مع حرف كسر يونيكود).
مثال: قد يتم ترميز كلمة “ignore” كـ “іgnore” (باستخدام الحرف السيريلي “і” بدلاً من اللاتيني “i”) - تبدو متطابقة لمعظم القراء البشريين وبعض المرشحات، ولكنها قد تُعالج بشكل مختلف على مستوى محلل الرموز.
الأحرف ذات العرض الصفري (مثل U+200B مسافة ذات عرض صفري أو U+200C فاصل غير موصل ذو عرض صفري) غير مرئية في النص المعروض. يؤدي إدراجها بين الأحرف في الكلمات الرئيسية إلى كسر مرشحات مطابقة السلاسل النصية دون التأثير على المظهر المرئي أو، في كثير من الحالات، التمثيل المُرمّز.
مثال: “ignore” مع مسافات ذات عرض صفري بين كل حرف تظهر كـ “ignore” عند العرض ولكنها تكسر مطابقة الأنماط البسيطة للسلاسل النصية.
تحويل النص إلى ترميزات بديلة قبل الإرسال:
تعتمد الفعالية على ما إذا كان نموذج اللغة الكبيرة قد تم تدريبه لفك تشفير هذه التمثيلات، والتي لديها العديد من النماذج ذات الأغراض العامة.
تنويعات بسيطة ولكنها فعالة أحياناً:
تعطي بعض محللات الرموز معاملة خاصة لأحرف الفصل. من خلال إدخال أحرف يفسرها محلل الرموز كحدود قطاع، يمكن للمهاجمين التلاعب بكيفية تقسيم النموذج للإدخال إلى وحدات ذات معنى.
تجاوز كسر الحماية: ترميز مطالبات كسر الحماية باستخدام تقنيات تتجاوز طبقة مرشح السلامة ولكن يتم فك تشفيرها بواسطة نموذج اللغة الكبيرة، مما يتيح تجاوز حواجز السلامة.
التهرب من مرشح المحتوى: تضمين خطاب الكراهية، أو طلبات محتوى غير قانوني، أو تعليمات تنتهك السياسة في شكل مُرمّز.
إخفاء حقن المطالبة: استخدام الترميز لإخفاء التعليمات المحقونة من مرشحات مطابقة الأنماط البسيطة مع ضمان معالجة نموذج اللغة الكبيرة لها بشكل صحيح.
بصمة المرشح: اختبار منهجي لمتغيرات ترميز مختلفة لتحديد أيها تكتشفه مرشحات النظام المستهدف وأيها لا تكتشفه - رسم خريطة لتغطية المرشح لشن هجمات أكثر استهدافاً.
تطبيق تطبيع يونيكود (NFC أو NFD أو NFKC أو NFKD) على جميع المدخلات قبل التصفية. يحول هذا متغيرات يونيكود إلى أشكال قانونية، مما يلغي العديد من هجمات الأحرف المتشابهة شكلياً والأحرف المركبة.
تنفيذ تعيين صريح للأحرف المتشابهة شكلياً لتطبيع الأحرف المتشابهة بصرياً إلى مكافئاتها في ASCII قبل التصفية. توجد مكتبات لهذا الغرض في معظم لغات البرمجة.
بدلاً من (أو بالإضافة إلى) المرشحات القائمة على السلاسل النصية، استخدم مرشحاً قائماً على نماذج اللغة الكبيرة يعمل على تمثيلات الرموز. نظراً لأن هذه المرشحات تعالج النص على نفس مستوى النموذج المستهدف، فإن حيل الترميز أقل فعالية - يرى المرشح نفس التمثيل الذي يراه النموذج.
يجب أن يتضمن التقييم الأمني اختباراً منهجياً لمرشحات المحتوى ضد متغيرات الترميز المعروفة. إذا كان المرشح مخصصاً لحظر “ignore previous instructions”، فاختبر ما إذا كان يحظر أيضاً الأحرف المتشابهة شكلياً في يونيكود، ومتغيرات العرض الصفري، وترميز Base64، وأشكال الإخفاء الأخرى.
سجل عرضاً مقروءاً للبشر للمدخلات المطبعة إلى جانب الإدخال الخام. يمكن أن تكشف التناقضات بين الاثنين عن هجمات الترميز أثناء مراجعة الحوادث.
تهريب الرموز هو تقنية هجوم تستغل الاختلافات بين النص المقروء للبشر وتمثيلات محلل الرموز في نماذج اللغة الكبيرة. يقوم المهاجمون بترميز التعليمات الضارة باستخدام تنويعات الأحرف، أو حيل يونيكود، أو التنسيق غير العادي بحيث لا تكتشفها مرشحات المحتوى، ولكن محلل الرموز في نموذج اللغة الكبيرة لا يزال يعالجها كما هو مقصود.
غالباً ما تعمل مرشحات المحتوى على النص المقروء للبشر - فتتحقق من سلاسل أو أنماط أو كلمات رئيسية محددة. ومع ذلك، تعالج محللات الرموز في نماذج اللغة الكبيرة النص على مستوى أدنى وقد تربط أحرفاً مختلفة بصرياً بنفس الرموز أو رموز متشابهة. تتيح هذه الفجوة للمهاجمين صياغة نص يُقرأ بطريقة واحدة بالنسبة للمرشح ويُعالج بشكل مختلف بواسطة محلل الرموز.
تشمل الدفاعات: تطبيع نص الإدخال قبل التصفية (تطبيع يونيكود، استبدال الأحرف المتشابهة شكلياً)، واستخدام مرشحات محتوى قائمة على نماذج اللغة الكبيرة تعمل على تمثيلات على مستوى الرموز بدلاً من النص الخام، واختبار المرشحات ضد متغيرات الترميز المعروفة، وإجراء تقييمات أمنية تتضمن سيناريوهات هجوم قائمة على الترميز.
تتجاوز هجمات تهريب الرموز والترميز المرشحات السطحية. نحن نختبر هذه التقنيات في كل تقييم أمني لروبوتات الدردشة.

الرمز في سياق النماذج اللغوية الكبيرة (LLMs) هو تسلسل من الأحرف يحوله النموذج إلى تمثيلات رقمية لمعالجة فعالة. الرموز هي الوحدات الأساسية للنص التي تستخدمها الن...

يشمل أمن نماذج اللغة الكبيرة الممارسات والتقنيات والضوابط المستخدمة لحماية عمليات نشر نماذج اللغة الكبيرة من فئة فريدة من التهديدات الخاصة بالذكاء الاصطناعي بما...

يشير اختراق الذكاء الاصطناعي إلى التقنيات التي تتجاوز حواجز الأمان والقيود السلوكية لنماذج اللغة الكبيرة، مما يتسبب في إنتاج مخرجات تنتهك القيود المقصودة - بما ...