
Begrip van Natuurlijke Taal (NLU)
Begrip van Natuurlijke Taal (NLU) is een subveld van AI dat zich richt op het in staat stellen van machines om menselijke taal contextueel te begrijpen en te in...
BLEU-score is een veelgebruikte maatstaf voor het evalueren van de kwaliteit van door machines gegenereerde vertalingen door deze te vergelijken met menselijke referenties aan de hand van n-grams, precisie en breviteitsstraf.
De BLEU-score, of Bilingual Evaluation Understudy, is een cruciale maatstaf voor het evalueren van de kwaliteit van tekst die door machinevertalingssystemen wordt geproduceerd. Ontwikkeld door IBM in 2001, was het een baanbrekende maatstaf die een sterke correlatie toonde met menselijke beoordelingen van vertaalde kwaliteit. De BLEU-score blijft een hoeksteen binnen het domein van natuurlijke taalverwerking (NLP) en wordt uitgebreid gebruikt om machinevertalingssystemen te beoordelen.
In de kern meet de BLEU-score de gelijkenis tussen een door een machine gemaakte vertaling en een of meer menselijke referentievertalingen. Hoe dichter de machinevertaling bij de menselijke referentie ligt, hoe hoger de BLEU-score, die varieert van 0 tot 1. Scores dicht bij 1 duiden op meer gelijkenis, hoewel een perfecte score van 1 zelden voorkomt en kan wijzen op overfitting, wat niet ideaal is.
N-grams zijn aaneengesloten reeksen van ‘n’ items uit een gegeven tekst of spraakvoorbeeld, meestal woorden. In BLEU worden n-grams gebruikt om machinevertalingen te vergelijken met referentievertalingen. Bijvoorbeeld, in de zin “The cat is on the mat,” zijn de n-grams:
BLEU berekent de precisie met deze n-grams om de overlap tussen de kandidaatvertaling en referentievertalingen te beoordelen.
BLEU definieert precisie als het aandeel n-grams in de kandidaatvertaling die ook voorkomen in de referentievertalingen. Om te voorkomen dat herhaling van n-grams wordt beloond, gebruikt BLEU “aangepaste precisie,” waarbij het aantal van elke n-gram in de kandidaatvertaling wordt beperkt tot het maximale aantal in een van de referentievertalingen.
De breviteitsstraf is cruciaal in BLEU en straft vertalingen die te kort zijn. Kortere vertalingen kunnen hoge precisie behalen door onzekere tekstonderdelen weg te laten. Deze straf wordt berekend op basis van de lengteratio van de kandidaat- en referentievertalingen, zodat vertalingen niet te kort of te lang zijn ten opzichte van de referentie.
BLEU aggregeert precisiescores over verschillende n-gramgroottes (meestal tot 4-grams) met behulp van een meetkundig gemiddelde, zodat er een balans is tussen het vastleggen van zowel lokale als bredere context in de vertaling.
De BLEU-score wordt wiskundig weergegeven als:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Waarbij:
BLEU wordt voornamelijk gebruikt om machinevertalingssystemen te evalueren en biedt een kwantitatieve maatstaf om verschillende systemen te vergelijken en verbeteringen bij te houden. Het is vooral waardevol in onderzoek en ontwikkeling om de effectiviteit van vertaalmodellen te testen.
Hoewel oorspronkelijk bedoeld voor vertaling, wordt BLEU ook toegepast op andere NLP-taken zoals tekstsamenvatting en parafraseren, waarbij het de bedoeling is tekst te genereren die lijkt op een menselijke referentie.
BLEU kan de kwaliteit beoordelen van de antwoorden die door AI-modellen in automatisering en chatbots worden gegenereerd, zodat outputs samenhangend en contextueel passend zijn ten opzichte van menselijke reacties.
Ondanks het brede gebruik heeft BLEU beperkingen:
De BLEU-score (Bilingual Evaluation Understudy) is een maatstaf die wordt gebruikt om de kwaliteit van door machines gegenereerde vertalingen te beoordelen door deze te vergelijken met één of meer menselijke referentievertalingen aan de hand van n-gram overlap, precisie, breviteitsstraf en het meetkundig gemiddelde.
Belangrijke componenten zijn n-grams, aangepaste precisie, breviteitsstraf en het meetkundig gemiddelde van precisiescores over verschillende n-gramgroottes.
BLEU richt zich op stringovereenkomst en houdt geen rekening met semantische betekenis, is gevoelig voor het aantal en de kwaliteit van referentievertalingen, kan misleidend hoge scores geven voor overgefite systemen, en straft onjuiste woordvolgorde onvoldoende.
Slimme chatbots en AI-tools onder één dak. Verbind intuïtieve blokken om je ideeën om te zetten in geautomatiseerde Flows.
Begrip van Natuurlijke Taal (NLU) is een subveld van AI dat zich richt op het in staat stellen van machines om menselijke taal contextueel te begrijpen en te in...
De ROUGE-score is een verzameling metriek die wordt gebruikt om de kwaliteit van door machines gegenereerde samenvattingen en vertalingen te evalueren door deze...
Een uitgebreid overzicht van het gebruik van Large Language Models als rechters voor het evalueren van AI-agenten en chatbots. Leer meer over de LLM als Rechter...