
درجة ROUGE
درجة ROUGE هي مجموعة من المقاييس المستخدمة لتقييم جودة الملخصات والترجمات التي يتم إنشاؤها بواسطة الآلات من خلال مقارنتها بالمرجع البشري. تُستخدم على نطاق واسع ...
درجة BLEU هي مقياس شائع الاستخدام لتقييم جودة الترجمات التي تنشئها الآلة من خلال مقارنتها بالترجمات البشرية باستخدام n-grams والدقة وعقوبة الإيجاز.
درجة BLEU، أو التقييم الثنائي للترجمة، هو مقياس حاسم في تقييم جودة النصوص التي تنتجها أنظمة الترجمة الآلية. تم تطويره من قبل شركة IBM في عام 2001، وكان مقياسًا رائدًا أظهر ارتباطًا قويًا مع التقييمات البشرية لجودة الترجمة. لا تزال درجة BLEU حجر الزاوية في مجال معالجة اللغة الطبيعية (NLP) وتُستخدم على نطاق واسع لتقييم أنظمة الترجمة الآلية.
في جوهره، تقيس درجة BLEU مدى التشابه بين الترجمة التي تنتجها الآلة وواحدة أو أكثر من الترجمات البشرية المرجعية. كلما اقتربت الترجمة الآلية من المرجع البشري، زادت درجة BLEU، والتي تتراوح من 0 إلى 1. تشير الدرجات القريبة من 1 إلى تشابه أكبر، على الرغم من أن الدرجة الكاملة (1) نادرة وقد تشير إلى تخصيص مفرط، وهو أمر غير مرغوب فيه.
n-grams هي تسلسلات متجاورة من “n” عناصر من نص أو عينة كلام، وغالبًا ما تكون كلمات. في BLEU، تُستخدم n-grams لمقارنة الترجمات الآلية بالترجمات المرجعية. على سبيل المثال، في العبارة “القط على السجادة”، تشمل n-grams:
يحسب BLEU الدقة باستخدام هذه n-grams لتقييم مدى التداخل بين الترجمة المرشحة والترجمات المرجعية.
يعرّف BLEU الدقة بأنها نسبة n-grams في الترجمة المرشحة التي تظهر أيضًا في الترجمات المرجعية. لمنع مكافأة تكرار n-gram، يستخدم BLEU “الدقة المعدلة”، التي تحد من عدد مرات احتساب كل n-gram في الترجمة المرشحة إلى الحد الأقصى لظهورها في أي ترجمة مرجعية.
عقوبة الإيجاز عنصر أساسي في BLEU، حيث تعاقب الترجمات التي تكون قصيرة جدًا. قد تحقق الترجمات الأقصر دقة عالية عبر حذف أجزاء غير مؤكدة من النص. تُحسب هذه العقوبة بناءً على نسبة طول الترجمة المرشحة إلى المرجعية، لضمان عدم كون الترجمة أقصر أو أطول من اللازم مقارنة بالمرجع.
يجمع BLEU درجات الدقة عبر أحجام n-gram مختلفة (عادة حتى 4-gram) باستخدام المتوسط الهندسي، لتحقيق توازن بين التقاط السياق المحلي والأوسع في الترجمة.
يتم تمثيل درجة BLEU رياضيًا كالتالي:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
حيث:
تُستخدم BLEU بشكل أساسي لتقييم أنظمة الترجمة الآلية، حيث توفر مقياسًا كميًا لمقارنة الأنظمة المختلفة وتتبع التحسينات. إنها ذات قيمة خاصة في البحث والتطوير لاختبار فعالية نماذج الترجمة.
بالرغم من أنها صُممت للترجمة، تُستخدم BLEU أيضًا في مهام معالجة اللغة الطبيعية الأخرى مثل تلخيص النصوص وإعادة الصياغة، حيث يُرغب في إنتاج نص مشابه للمرجع البشري.
يمكن استخدام BLEU لتقييم جودة الردود التي تنتجها نماذج الذكاء الاصطناعي في الأتمتة والشات بوتات، لضمان أن تكون المخرجات متماسكة وملائمة للسياق مقارنة بالردود البشرية.
على الرغم من استخدامها الواسع، لدى BLEU بعض القيود:
درجة BLEU (التقييم الثنائي للترجمة) هي مقياس يُستخدم لتقييم جودة الترجمات التي تنتجها الآلة من خلال مقارنتها بواحدة أو أكثر من الترجمات البشرية المرجعية باستخدام تداخل n-gram والدقة وعقوبة الإيجاز والمتوسط الهندسي.
تشمل المكونات الرئيسية n-grams والدقة المعدلة وعقوبة الإيجاز والمتوسط الهندسي لدرجات الدقة عبر أحجام n-gram المختلفة.
تركز درجة BLEU على تشابه السلاسل ولا تأخذ في الاعتبار المعنى الدلالي، وهي حساسة لعدد وجودة الترجمات المرجعية، ويمكن أن تعطي درجات عالية مضللة للأنظمة المفرطة في التخصيص، ولا تعاقب ترتيب الكلمات غير الصحيح بشكل كافٍ.
شات بوتات وأدوات ذكاء اصطناعي ذكية تحت سقف واحد. اربط بين الكتل الذكية وحوّل أفكارك إلى تدفقات مؤتمتة.
درجة ROUGE هي مجموعة من المقاييس المستخدمة لتقييم جودة الملخصات والترجمات التي يتم إنشاؤها بواسطة الآلات من خلال مقارنتها بالمرجع البشري. تُستخدم على نطاق واسع ...
مقياس فليش لسهولة القراءة هو معادلة لتقييم مدى سهولة فهم النص. طوره رودولف فليش في الأربعينيات، ويعطي درجة بناءً على طول الجمل وعدد المقاطع الصوتية للكلمات ليدل...
دليل شامل لاستخدام نماذج اللغة الكبيرة كقضاة لتقييم وكلاء الذكاء الاصطناعي والدردشة الآلية. تعرّف على منهجية LLM كقاضي، وأفضل الممارسات لكتابة تعليمات التقييم، ...