ROUGE-Score
Der ROUGE-Score ist eine Reihe von Metriken zur Bewertung der Qualität von maschinell generierten Zusammenfassungen und Übersetzungen durch den Vergleich mit me...
Der BLEU-Score (Bilingual Evaluation Understudy) ist eine entscheidende Kennzahl zur Bewertung der Qualität von Texten, die von maschinellen Übersetzungssystemen erzeugt werden. Entwickelt von IBM im Jahr 2001, war er ein wegweisendes Maß, das eine starke Korrelation mit menschlichen Bewertungen der Übersetzungsqualität zeigte. Der BLEU-Score ist ein Grundpfeiler im Bereich der Verarbeitung natürlicher Sprache (NLP) und wird umfassend zur Beurteilung von maschinellen Übersetzungssystemen eingesetzt.
Der BLEU-Score (Bilingual Evaluation Understudy) ist eine entscheidende Kennzahl zur Bewertung der Qualität von Texten, die von maschinellen Übersetzungssystemen erzeugt werden. Entwickelt von IBM im Jahr 2001, war er ein wegweisendes Maß, das eine starke Korrelation mit menschlichen Bewertungen der Übersetzungsqualität zeigte. Der BLEU-Score ist ein Grundpfeiler im Bereich der Verarbeitung natürlicher Sprache (NLP) und wird umfassend zur Beurteilung von maschinellen Übersetzungssystemen eingesetzt.
Im Kern misst der BLEU-Score die Ähnlichkeit zwischen einer maschinell erzeugten Übersetzung und einer oder mehreren menschlichen Referenzübersetzungen. Je näher die maschinelle Übersetzung der menschlichen Referenz kommt, desto höher ist der BLEU-Score, der von 0 bis 1 reicht. Werte nahe 1 deuten auf eine große Ähnlichkeit hin, wobei ein perfekter Wert von 1 selten ist und auf eine Überanpassung hindeuten könnte, was nicht ideal ist.
N-Gramme sind zusammenhängende Sequenzen von „n“ Elementen aus einem gegebenen Text- oder Sprachbeispiel, meist Wörter. Beim BLEU werden N-Gramme verwendet, um maschinelle Übersetzungen mit Referenzübersetzungen zu vergleichen. Zum Beispiel im Satz „The cat is on the mat“ lauten die N-Gramme:
BLEU berechnet die Präzision anhand dieser N-Gramme, um die Überlappung zwischen der Kandidatenübersetzung und den Referenzübersetzungen zu ermitteln.
BLEU definiert Präzision als den Anteil der N-Gramme in der Kandidatenübersetzung, die auch in den Referenzübersetzungen vorkommen. Um Wiederholungen von N-Grammen nicht zu belohnen, verwendet BLEU die „modifizierte Präzision“, die die Zählung jedes N-Gramms in der Kandidatenübersetzung auf das Maximum in einer beliebigen Referenzübersetzung begrenzt.
Die Kürzungsstrafe ist beim BLEU entscheidend, da sie zu kurze Übersetzungen bestraft. Kürzere Übersetzungen könnten durch das Weglassen unsicherer Textteile eine hohe Präzision erreichen. Diese Strafe wird anhand des Längenverhältnisses von Kandidaten- und Referenzübersetzung berechnet und stellt sicher, dass Übersetzungen weder zu kurz noch zu lang im Vergleich zur Referenz sind.
BLEU aggregiert die Präzisionswerte über verschiedene N-Gramm-Größen (typischerweise bis zu 4-Gramm) mittels des geometrischen Mittels und balanciert dabei das Erfassen sowohl lokaler als auch weiterer Zusammenhänge in der Übersetzung aus.
Der BLEU-Score wird mathematisch dargestellt als:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Dabei gilt:
BLEU wird in erster Linie zur Bewertung von maschinellen Übersetzungssystemen genutzt und liefert eine quantitative Kennzahl, um verschiedene Systeme zu vergleichen und Verbesserungen nachzuverfolgen. Besonders in Forschung und Entwicklung ist er wertvoll, um die Wirksamkeit von Übersetzungsmodellen zu testen.
Ursprünglich für Übersetzungen entwickelt, findet BLEU auch bei anderen NLP-Aufgaben Anwendung, wie etwa der Textzusammenfassung oder beim Paraphrasieren, wo eine Ähnlichkeit zum menschlichen Referenztext gewünscht ist.
BLEU kann die Qualität von durch KI-Modellen generierten Antworten in der Automatisierung und bei Chatbots beurteilen, um sicherzustellen, dass die Ausgaben kohärent und im Kontext passend zu menschlichen Antworten sind.
Trotz seiner weiten Verbreitung hat BLEU folgende Einschränkungen:
Intelligente Chatbots und KI-Tools unter einem Dach. Verbinden Sie intuitive Bausteine, um Ihre Ideen in automatisierte Flows zu verwandeln.
Der ROUGE-Score ist eine Reihe von Metriken zur Bewertung der Qualität von maschinell generierten Zusammenfassungen und Übersetzungen durch den Vergleich mit me...
Der F-Score, auch bekannt als F-Maß oder F1-Score, ist eine statistische Kennzahl zur Bewertung der Genauigkeit eines Tests oder Modells, insbesondere bei binär...
Ein SEO-Score ist eine numerische Darstellung dafür, wie gut eine Website den SEO-Best Practices entspricht. Er bewertet technische Aspekte, Inhaltsqualität, Nu...
Cookie-Zustimmung
Wir verwenden Cookies, um Ihr Surferlebnis zu verbessern und unseren Datenverkehr zu analysieren. See our privacy policy.