
Verstehen natürlicher Sprache (NLU)
Natural Language Understanding (NLU) ist ein Teilbereich der KI, der darauf abzielt, Maschinen in die Lage zu versetzen, menschliche Sprache kontextbezogen zu v...
Der BLEU-Score ist eine weit verbreitete Kennzahl zur Bewertung der Qualität maschineller Übersetzungen, indem er diese anhand von N-Grammen, Präzision und Kürzungsstrafe mit menschlichen Referenzen vergleicht.
Der BLEU-Score (Bilingual Evaluation Understudy) ist eine entscheidende Kennzahl zur Bewertung der Qualität von Texten, die von maschinellen Übersetzungssystemen erzeugt werden. Entwickelt von IBM im Jahr 2001, war er ein wegweisendes Maß, das eine starke Korrelation mit menschlichen Bewertungen der Übersetzungsqualität zeigte. Der BLEU-Score ist ein Grundpfeiler im Bereich der Verarbeitung natürlicher Sprache (NLP) und wird umfassend zur Beurteilung von maschinellen Übersetzungssystemen eingesetzt.
Im Kern misst der BLEU-Score die Ähnlichkeit zwischen einer maschinell erzeugten Übersetzung und einer oder mehreren menschlichen Referenzübersetzungen. Je näher die maschinelle Übersetzung der menschlichen Referenz kommt, desto höher ist der BLEU-Score, der von 0 bis 1 reicht. Werte nahe 1 deuten auf eine große Ähnlichkeit hin, wobei ein perfekter Wert von 1 selten ist und auf eine Überanpassung hindeuten könnte, was nicht ideal ist.
N-Gramme sind zusammenhängende Sequenzen von „n“ Elementen aus einem gegebenen Text- oder Sprachbeispiel, meist Wörter. Beim BLEU werden N-Gramme verwendet, um maschinelle Übersetzungen mit Referenzübersetzungen zu vergleichen. Zum Beispiel im Satz „The cat is on the mat“ lauten die N-Gramme:
BLEU berechnet die Präzision anhand dieser N-Gramme, um die Überlappung zwischen der Kandidatenübersetzung und den Referenzübersetzungen zu ermitteln.
BLEU definiert Präzision als den Anteil der N-Gramme in der Kandidatenübersetzung, die auch in den Referenzübersetzungen vorkommen. Um Wiederholungen von N-Grammen nicht zu belohnen, verwendet BLEU die „modifizierte Präzision“, die die Zählung jedes N-Gramms in der Kandidatenübersetzung auf das Maximum in einer beliebigen Referenzübersetzung begrenzt.
Die Kürzungsstrafe ist beim BLEU entscheidend, da sie zu kurze Übersetzungen bestraft. Kürzere Übersetzungen könnten durch das Weglassen unsicherer Textteile eine hohe Präzision erreichen. Diese Strafe wird anhand des Längenverhältnisses von Kandidaten- und Referenzübersetzung berechnet und stellt sicher, dass Übersetzungen weder zu kurz noch zu lang im Vergleich zur Referenz sind.
BLEU aggregiert die Präzisionswerte über verschiedene N-Gramm-Größen (typischerweise bis zu 4-Gramm) mittels des geometrischen Mittels und balanciert dabei das Erfassen sowohl lokaler als auch weiterer Zusammenhänge in der Übersetzung aus.
Der BLEU-Score wird mathematisch dargestellt als:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Dabei gilt:
BLEU wird in erster Linie zur Bewertung von maschinellen Übersetzungssystemen genutzt und liefert eine quantitative Kennzahl, um verschiedene Systeme zu vergleichen und Verbesserungen nachzuverfolgen. Besonders in Forschung und Entwicklung ist er wertvoll, um die Wirksamkeit von Übersetzungsmodellen zu testen.
Ursprünglich für Übersetzungen entwickelt, findet BLEU auch bei anderen NLP-Aufgaben Anwendung, wie etwa der Textzusammenfassung oder beim Paraphrasieren, wo eine Ähnlichkeit zum menschlichen Referenztext gewünscht ist.
BLEU kann die Qualität von durch KI-Modellen generierten Antworten in der Automatisierung und bei Chatbots beurteilen, um sicherzustellen, dass die Ausgaben kohärent und im Kontext passend zu menschlichen Antworten sind.
Trotz seiner weiten Verbreitung hat BLEU folgende Einschränkungen:
Der BLEU-Score (Bilingual Evaluation Understudy) ist eine Kennzahl zur Bewertung der Qualität maschinell erzeugter Übersetzungen, indem sie mit einer oder mehreren menschlichen Referenzübersetzungen anhand von N-Gramm-Überlappung, Präzision, Kürzungsstrafe und geometrischem Mittel verglichen werden.
Wesentliche Bestandteile sind N-Gramme, modifizierte Präzision, Kürzungsstrafe und das geometrische Mittel der Präzisionswerte über verschiedene N-Gramm-Größen hinweg.
BLEU konzentriert sich auf Zeichenfolgenähnlichkeit und berücksichtigt keine semantische Bedeutung, ist empfindlich gegenüber Anzahl und Qualität der Referenzübersetzungen, kann bei überangepassten Systemen irreführend hohe Werte liefern und bestraft fehlerhafte Wortstellung nicht ausreichend.
Intelligente Chatbots und KI-Tools unter einem Dach. Verbinden Sie intuitive Bausteine, um Ihre Ideen in automatisierte Flows zu verwandeln.
Natural Language Understanding (NLU) ist ein Teilbereich der KI, der darauf abzielt, Maschinen in die Lage zu versetzen, menschliche Sprache kontextbezogen zu v...
Probieren Sie unsere Dale Chall Lesbarkeits-Tools aus. Analysieren Sie Klartext, überprüfen Sie die Lesbarkeit einer URL oder generieren Sie mit KI-gestützter Ü...
Der Flesch-Lesbarkeitsindex ist eine Lesbarkeitsformel, die bewertet, wie leicht ein Text zu verstehen ist. Entwickelt von Rudolf Flesch in den 1940er Jahren, w...