درجة BLEU
درجة BLEU، أو التقييم الثنائي للترجمة، هو مقياس حاسم في تقييم جودة النصوص التي تنتجها أنظمة الترجمة الآلية. تم تطويره من قبل شركة IBM في عام 2001، وكان مقياسًا ...
ROUGE هي مجموعة مقاييس تركز على الاسترجاع لتقييم الملخصات والترجمات التي يتم إنشاؤها آليًا من خلال مقارنتها بالمراجع البشرية في مهام معالجة اللغة الطبيعية.
تم تصميم ROUGE لقياس التداخل بين ملخص مقترح (الملخص الذي تنتجه الآلة تلقائيًا) ومجموعة من الملخصات المرجعية (عادةً ما يُنشئها البشر). يركز على إحصائيات الاسترجاع، مع التأكيد على مدى احتواء الملخص المقترح على المعلومات المهمة من الملخصات المرجعية.
ROUGE ليست مقياسًا واحدًا، بل مجموعة من المقاييس، حيث صُمم كل واحد منها لالتقاط جانب مختلف من التشابه بين النصوص. أكثر مقاييس ROUGE استخدامًا هي:
يقيم ROUGE-N مدى تداخل n-grams بين الملخص المقترح والمرجعي. الـ n-gram هو تسلسل متصل من “n” كلمات في النص. على سبيل المثال:
كيف يعمل ROUGE-N
يتم حساب درجة ROUGE-N باستخدام الصيغة التالية:
ROUGE-N = (مجموع n-grams المتطابقة في المرجع) / (إجمالي n-grams في المرجع)
حيث:
مثال على الحساب
افترض:
استخرج الـ unigrams (ROUGE-1):
عد الـ unigrams المتداخلة:
احسب الاسترجاع:
الاسترجاع = عدد unigrams المتداخلة / إجمالي unigrams في المرجع = 6 / 6 = 1.0
احسب الدقة:
الدقة = عدد unigrams المتداخلة / إجمالي unigrams في المقترح = 6 / 7 ≈ 0.857
احسب درجة F1 (ROUGE-1):
درجة F1 = 2 × (الدقة × الاسترجاع) / (الدقة + الاسترجاع) ≈ 0.923
يستخدم ROUGE-L أطول تسلسل مشترك (LCS) بين الملخص المقترح والمرجعي. على عكس n-grams، لا يشترط LCS أن تكون التطابقات متجاورة ولكن يجب أن تكون بنفس الترتيب.
كيف يعمل ROUGE-L
LCS هو أطول تسلسل من الكلمات يظهر في كل من الملخص المقترح والمرجعي بنفس الترتيب، وليس بالضرورة بشكل متتالٍ.
مثال على الحساب
باستخدام نفس الملخصين:
حدد LCS:
احسب استرجاع ROUGE-L:
Recall_LCS = طول LCS / إجمالي الكلمات في المرجع = 6 / 6 = 1.0
احسب دقة ROUGE-L:
Precision_LCS = طول LCS / إجمالي الكلمات في المقترح = 6 / 7 ≈ 0.857
احسب درجة F1 (ROUGE-L):
F1 Score_LCS = 2 × (Precision_LCS × Recall_LCS) / (Precision_LCS + Recall_LCS) ≈ 0.923
ROUGE-S، أو ROUGE-Skip-Bigram، يأخذ في الاعتبار أزواج skip-bigram في الملخصين. skip-bigram هو أي زوج من الكلمات يظهران بنفس الترتيب مع السماح بوجود فجوات بينهما.
كيف يعمل ROUGE-S
يقيس تداخل أزواج skip-bigram بين الملخص المقترح والمرجعي.
يتم حساب عدد skip-bigrams المتداخلة، ثم حساب الدقة، الاسترجاع، ودرجة F1 بطريقة مماثلة لـ ROUGE-N.
يُستخدم ROUGE بشكل أساسي لتقييم:
في تلخيص النصوص، يقيس ROUGE مدى احتواء محتوى الملخص المرجعي داخل الملخص المُنتج.
مثال على حالة استخدام
تخيل أنك تطور خوارزمية ذكاء اصطناعي لتلخيص الأخبار. لتقييم الأداء:
بالنسبة للترجمة الآلية، يمكن أن يكمل ROUGE مقاييس أخرى مثل BLEU من خلال التركيز على الاسترجاع.
مثال على حالة استخدام
افترض أن روبوت دردشة يترجم رسائل المستخدمين من الإسبانية إلى الإنجليزية. لتقييم جودة الترجمة:
في مجال الذكاء الاصطناعي، خاصة مع تصاعد نماذج اللغة الكبيرة (LLMs) والوكلاء الحواريين، يعد تقييم جودة النص المُولّد أمرًا أساسيًا. تلعب درجات ROUGE دورًا مهمًا في:
غالبًا ما يحتاج روبوت الدردشة والمساعدون الافتراضيون إلى تلخيص المعلومات أو إعادة صياغة مدخلات المستخدم.
يساعد تقييم هذه الوظائف باستخدام ROUGE في ضمان احتفاظ الروبوت بالمعلومات الأساسية.
تعتمد الأنظمة التي تُولد المحتوى مثل كتابة الأخبار أو التقارير التلقائية على ROUGE لتقييم مدى توافق المحتوى المُولّد مع الملخصات أو النقاط الرئيسية المتوقعة.
عند تدريب نماذج اللغة لمهام مثل التلخيص أو الترجمة، تساعد درجات ROUGE في:
الدقة تقيس نسبة الوحدات المتداخلة (n-grams أو الكلمات أو التسلسلات) بين الملخص المقترح والمرجعي إلى إجمالي الوحدات في الملخص المقترح.
الدقة = الوحدات المتداخلة / إجمالي الوحدات في المقترح
الاسترجاع يقيس نسبة الوحدات المتداخلة إلى إجمالي الوحدات في الملخص المرجعي.
الاسترجاع = الوحدات المتداخلة / إجمالي الوحدات في المرجع
درجة F1 هي المتوسط التوافقي للدقة والاسترجاع.
درجة F1 = 2 × (الدقة × الاسترجاع) / (الدقة + الاسترجاع)
بالنسبة لطول n-gram معين “n”، يتم حساب ROUGE-N من خلال مطابقة n-grams بين الملخص المقترح والمرجعي.
مثال مع ROUGE-2 (Bigrams)
باستخدام الملخصين السابقين:
عد الـ bigrams المتداخلة:
احسب الاسترجاع:
Recall_ROUGE-2 = 4 / 5 = 0.8
احسب الدقة:
Precision_ROUGE-2 = 4 / 6 ≈ 0.667
احسب درجة F1 (ROUGE-2):
F1 Score_ROUGE-2 = 2 × (0.8 × 0.667) / (0.8 + 0.667) ≈ 0.727
عند توفر عدة ملخصات بشرية مرجعية، يمكن حساب درجات ROUGE مقابل كل واحد منها، ثم اختيار أعلى درجة. هذا يأخذ في الاعتبار إمكانية وجود عدة ملخصات صحيحة لنفس المحتوى.
تستخدم أدوات التلخيص المدعومة بالذكاء الاصطناعي للوثائق أو المقالات أو التقارير ROUGE لتقييم وتحسين أدائها.
يكمل ROUGE مقاييس التقييم الأخرى لتقديم تقييم أشمل لجودة الترجمة، خاصة مع التركيز على الحفاظ على المحتوى.
عند تطوير روبوتات الدردشة، خاصة المساعدين الذين يقدمون ملخصات أو يعيدون صياغة مدخلات المستخدم، يساعد ROUGE في ضمان احتفاظ المساعد بالمعلومات الأساسية.
على الرغم من أن ROUGE يُستخدم على نطاق واسع، إلا أن له بعض القيود:
للتقليل من هذه المشكلات:
في أتمتة الذكاء الاصطناعي وتطوير روبوتات الدردشة، يساعد دمج ROUGE في دورة التطوير على:
درجة ROUGE هي مجموعة من المقاييس المستخدمة لتقييم التلخيص التلقائي والترجمة الآلية. تركز على قياس التداخل بين الملخصات المتوقعة والمرجعية، بشكل أساسي من خلال تكرار n-gram. تقدم ورقة كافيتا جانيسان “ROUGE 2.0: Updated and Improved Measures for Evaluation of Summarization Tasks” عدة تحسينات على مقاييس ROUGE الأصلية. تهدف هذه التحسينات إلى معالجة قيود المقاييس التقليدية في احتساب المفاهيم المرادفة وتغطية الموضوعات، وتقدم مقاييس جديدة مثل ROUGE-N+Synonyms وROUGE-Topic. اقرأ المزيد.
في ورقة “Revisiting Summarization Evaluation for Scientific Articles”، يستعرض أرمين كوهان ونازلي جوهاريان فعالية ROUGE، خصوصًا في تلخيص المقالات العلمية. يجادل الكاتبان بأن اعتماد ROUGE على التداخل اللفظي قد يكون غير كافٍ في الحالات التي تتضمن اختلافات في المصطلحات وإعادة الصياغة، ويقترحان مقياسًا بديلًا هو SERA الذي يرتبط بشكل أفضل مع التقييم البشري. اقرأ المزيد.
يقترح إيلاهي شفيعي بفاني وزملاؤه نهجًا قائمًا على الدلالة في ورقة “A Semantically Motivated Approach to Compute ROUGE Scores”، حيث يدمجون خوارزمية قائمة على الرسم البياني لاحتساب التشابه الدلالي إلى جانب التطابق اللفظي. تظهر طريقتهم ارتباطًا أفضل مع الحكم البشري في التلخيص التجميعي، كما هو موضح على مجموعات بيانات TAC AESOP. اقرأ المزيد.
أخيرًا، تناقش ورقة “Point-less: More Abstractive Summarization with Pointer-Generator Networks” لفريك بوتكان وآخرين، التطورات في نماذج التلخيص التجميعي. رغم أنها لا تركز فقط على ROUGE، إلا أنها تبرز التحديات في مقاييس التقييم للملخصات غير الاستخراجية، مشيرة إلى الحاجة لمقاييس تقييم أكثر دقة وتنوعًا. اقرأ المزيد.
درجة ROUGE (اختصار لـ Recall-Oriented Understudy for Gisting Evaluation) هي مجموعة من المقاييس تُستخدم لتقييم جودة الملخصات والترجمات التي يتم إنشاؤها بواسطة الآلات من خلال قياس مدى تداخلها مع المراجع المكتوبة يدويًا.
تشمل المقاييس الرئيسية لـ ROUGE: ROUGE-N (تداخل n-gram)، ROUGE-L (أطول تسلسل مشترك)، ROUGE-S (skip-bigram)، وROUGE-W (إصدار موزون من LCS). كل مقياس يلتقط جانبًا مختلفًا من التشابه بين النصوص.
يُستخدم ROUGE على نطاق واسع لتقييم التلخيص التلقائي للنصوص، والترجمة الآلية، ومخرجات نماذج اللغة، مما يساعد المطورين على تقييم مدى مطابقة المحتوى الذي تُنتجه الآلة للنصوص المرجعية.
يركز ROUGE على التطابق السطحي وقد لا يلتقط التشابه الدلالي أو إعادة الصياغة أو السياق. يمكن أن يكون متحيزًا نحو الملخصات الأطول ويجب أن يُستكمل بمقاييس تقييم أخرى والحكم البشري.
يتم حساب ROUGE-N من خلال عد n-grams المتداخلة بين الملخص المقترح والمرجع، ثم حساب الاسترجاع والدقة والمتوسط التوافقي لهما (درجة F1).
اكتشف كيف يمكنك الاستفادة من أدوات FlowHunt للذكاء الاصطناعي وروبوتات الدردشة لأتمتة سير عملك وتعزيز إنشاء المحتوى.
درجة BLEU، أو التقييم الثنائي للترجمة، هو مقياس حاسم في تقييم جودة النصوص التي تنتجها أنظمة الترجمة الآلية. تم تطويره من قبل شركة IBM في عام 2001، وكان مقياسًا ...
المساحة تحت المنحنى (AUC) هي مقياس أساسي في تعلم الآلة يُستخدم لتقييم أداء نماذج التصنيف الثنائي. يُحدد القدرة الكلية للنموذج على التمييز بين الفئات الإيجابية و...
تقييم المستندات في توليد الاسترجاع المعزز (RAG) هو عملية تقييم وترتيب المستندات بناءً على مدى ملاءمتها وجودتها استجابةً لاستعلام، لضمان استخدام أكثر المستندات ص...