
BLEU-score
De BLEU-score, of Bilingual Evaluation Understudy, is een cruciale maatstaf voor het evalueren van de kwaliteit van tekst die door machinevertalingssystemen wor...
ROUGE is een recall-georiënteerde verzameling metriek voor het evalueren van door machines gegenereerde samenvattingen en vertalingen door ze te vergelijken met door mensen gemaakte referenties in NLP-taken.
ROUGE is ontworpen om de overlap te meten tussen een kandidaat-samenvatting (de automatisch gegenereerde samenvatting) en een set referentiesamenvattingen (meestal door mensen gemaakt). De focus ligt op recall-statistieken, waarbij het accent ligt op hoeveel van de belangrijke inhoud uit de referentiesamenvattingen wordt vastgelegd in de kandidaat-samenvatting.
ROUGE is niet één enkele metriek, maar een verzameling metriek die elk verschillende aspecten van tekstovereenkomst meten. De meest gebruikte ROUGE-metriek zijn:
ROUGE-N evalueert de overlap van n-grams tussen de kandidaat- en referentiesamenvattingen. Een n-gram is een opeenvolgende reeks van ‘n’ woorden uit een tekst. Bijvoorbeeld:
Hoe werkt ROUGE-N
De ROUGE-N-score wordt berekend met de volgende formule:
ROUGE-N = (Som van overeenkomende n-grams in referentie) / (Totaal aantal n-grams in referentie)
Waarbij:
Voorbeeldberekening
Beschouw:
Haal de unigrams eruit (ROUGE-1):
Tel de overlappende unigrams:
Bereken Recall:
Recall = Aantal overlappende unigrams / Totaal aantal unigrams in referentie = 6 / 6 = 1.0
Bereken Precisie:
Precisie = Aantal overlappende unigrams / Totaal aantal unigrams in kandidaat = 6 / 7 ≈ 0.857
Bereken F1-score (ROUGE-1):
F1-score = 2 × (Precisie × Recall) / (Precisie + Recall) ≈ 0.923
ROUGE-L gebruikt de Longest Common Subsequence (LCS) tussen de kandidaat- en referentiesamenvattingen. In tegenstelling tot n-grams hoeven overeenkomsten niet aaneengesloten te zijn, maar wel in volgorde.
Hoe werkt ROUGE-L
De LCS is de langste reeks woorden die in beide samenvattingen in dezelfde volgorde voorkomen, maar niet noodzakelijk aaneengesloten.
Voorbeeldberekening
Met dezelfde samenvattingen:
Identificeer de LCS:
Bereken ROUGE-L Recall:
Recall_LCS = LCS-lengte / Totaal aantal woorden in referentie = 6 / 6 = 1.0
Bereken ROUGE-L Precisie:
Precisie_LCS = LCS-lengte / Totaal aantal woorden in kandidaat = 6 / 7 ≈ 0.857
Bereken F1-score (ROUGE-L):
F1-score_LCS = 2 × (Precisie_LCS × Recall_LCS) / (Precisie_LCS + Recall_LCS) ≈ 0.923
ROUGE-S, of ROUGE-Skip-Bigram, kijkt naar skip-bigramparen in de kandidaat- en referentiesamenvattingen. Een skip-bigram is elk paar woorden in hun volgorde van verschijnen, waarbij sprongen zijn toegestaan.
Hoe werkt ROUGE-S
Het meet de overlap van skip-bigramparen tussen de kandidaat- en referentiesamenvattingen.
Tel het aantal overeenkomende skip-bigrams en bereken vervolgens precisie, recall en F1-score op dezelfde manier als bij ROUGE-N.
ROUGE wordt voornamelijk gebruikt voor het evalueren van:
Bij tekstsamenvatting meet ROUGE hoeveel van de inhoud van de referentiesamenvatting aanwezig is in de gegenereerde samenvatting.
Voorbeeld use case
Stel je ontwikkelt een AI-algoritme om nieuwsartikelen samen te vatten. Om de prestaties te evalueren:
Voor machinevertaling kan ROUGE andere metriek zoals BLEU aanvullen door te focussen op recall.
Voorbeeld use case
Stel dat een AI-chatbot gebruikersberichten vertaalt van Spaans naar Engels. Om de vertaalkwaliteit te evalueren:
Binnen kunstmatige intelligentie, vooral met de opkomst van grote taalmodellen (LLM’s) en conversatie-agenten, is het evalueren van de kwaliteit van gegenereerde tekst essentieel. ROUGE-scores spelen een belangrijke rol in:
Chatbots en virtuele assistenten moeten vaak informatie samenvatten of gebruikersinvoer herformuleren.
Door deze functies met ROUGE te evalueren, verzeker je dat de chatbot de essentiële informatie behoudt.
AI-systemen die content genereren, zoals geautomatiseerd nieuws of rapporten, vertrouwen op ROUGE om te beoordelen hoe goed de gegenereerde inhoud overeenkomt met verwachte samenvattingen of kernpunten.
Bij het trainen van taalmodellen voor taken als samenvatting of vertaling helpen ROUGE-scores bij:
Precisie meet het aandeel overlappende eenheden (n-grams, woorden, sequenties) tussen de kandidaat- en referentiesamenvatting ten opzichte van het totaal in de kandidaat-samenvatting.
Precisie = Overlappende eenheden / Totaal aantal eenheden in kandidaat
Recall meet het aandeel overlappende eenheden ten opzichte van het totaal in de referentiesamenvatting.
Recall = Overlappende eenheden / Totaal aantal eenheden in referentie
F1-score is het harmonisch gemiddelde van precisie en recall.
F1-score = 2 × (Precisie × Recall) / (Precisie + Recall)
Voor een gegeven n-gramlengte ‘n’ wordt ROUGE-N berekend door n-grams te matchen tussen de kandidaat- en referentiesamenvattingen.
Voorbeeld met ROUGE-2 (bigrams)
Met de eerder gebruikte samenvattingen:
Tel de overlappende bigrams:
Bereken Recall:
Recall_ROUGE-2 = 4 / 5 = 0.8
Bereken Precisie:
Precisie_ROUGE-2 = 4 / 6 ≈ 0.667
Bereken F1-score (ROUGE-2):
F1-score_ROUGE-2 = 2 × (0.8 × 0.667) / (0.8 + 0.667) ≈ 0.727
Wanneer er meerdere menselijke referentiesamenvattingen zijn, kan de ROUGE-score per referentie worden berekend, waarna de hoogste score wordt genomen. Dit houdt er rekening mee dat er verschillende geldige samenvattingen van dezelfde inhoud kunnen zijn.
AI-aangedreven samenvattingstools voor documenten, artikelen of rapporten gebruiken ROUGE om hun prestaties te evalueren en verbeteren.
ROUGE vult andere evaluatiemetriek aan om een vollediger beeld van de vertaalkwaliteit te geven, met name gericht op het behouden van inhoud.
Bij de ontwikkeling van chatbots, vooral AI-assistenten die samenvattingen geven of gebruikersinput parafraseren, helpt ROUGE om te waarborgen dat de assistent de essentiële informatie behoudt.
Hoewel ROUGE veel wordt gebruikt, zijn er beperkingen:
Om deze problemen te verminderen:
In AI-automatisering en chatbotontwikkeling helpt integratie van ROUGE in de ontwikkelcyclus bij:
De ROUGE-score is een verzameling metriek voor het evalueren van automatische samenvatting en machinevertaling. Het richt zich op het meten van de overlap tussen de voorspelde en referentiesamenvattingen, voornamelijk via n-gram-co-occurrences. Het artikel van Kavita Ganesan, “ROUGE 2.0: Updated and Improved Measures for Evaluation of Summarization Tasks,” introduceert diverse verbeteringen aan de oorspronkelijke ROUGE-metriek. Deze verbeteringen zijn bedoeld om de beperkingen van traditionele maatstaven aan te pakken bij het vastleggen van synonieme concepten en onderwerpdekking; ze bieden onder meer ROUGE-N+Synonyms en ROUGE-Topic aan. Lees meer.
In “Revisiting Summarization Evaluation for Scientific Articles” onderzoeken Arman Cohan en Nazli Goharian de effectiviteit van ROUGE, met name bij het samenvatten van wetenschappelijke artikelen. Ze stellen dat ROUGE’s afhankelijkheid van lexicale overlap onvoldoende kan zijn bij terminologievariaties en parafrasering, en stellen een alternatieve metriek voor, SERA, die beter correleert met handmatige evaluatiescores. Lees meer.
Elaheh ShafieiBavani en collega’s stellen in “A Semantically Motivated Approach to Compute ROUGE Scores” een semantisch gemotiveerde aanpak voor, waarbij een algoritme op basis van grafen wordt geïntegreerd om semantische overeenkomsten naast lexicale overeenkomsten te meten. Hun methode laat een betere correlatie met menselijke beoordelingen zien bij abstractive samenvatting, zoals aangetoond op TAC AESOP-data. Lees meer.
Tot slot bespreekt het artikel “Point-less: More Abstractive Summarization with Pointer-Generator Networks” van Freek Boutkan e.a. de vooruitgang in abstractive-samenvattingsmodellen. Hoewel niet uitsluitend gericht op ROUGE, benadrukt het de uitdagingen van evaluatiemetriek voor samenvattingen die niet alleen extractief zijn, wat wijst op de behoefte aan meer genuanceerde evaluatietechnieken. Lees meer.
De ROUGE-score (Recall-Oriented Understudy for Gisting Evaluation) is een verzameling metriek die wordt gebruikt om de kwaliteit van door machines gegenereerde samenvattingen en vertalingen te evalueren door de overlap met door mensen geschreven referenties te meten.
De belangrijkste ROUGE-metriek zijn onder andere ROUGE-N (n-gram overlap), ROUGE-L (Longest Common Subsequence), ROUGE-S (skip-bigram) en ROUGE-W (gewogen LCS). Elke metriek vangt verschillende aspecten van inhoudsovereenkomst tussen teksten.
ROUGE wordt veel gebruikt om automatische tekstsamenvatting, machinevertaling en de output van taalmodellen te evalueren, zodat ontwikkelaars kunnen beoordelen hoe goed door machines gegenereerde inhoud overeenkomt met referentieteksten.
ROUGE richt zich op oppervlakkige overeenkomsten en kan semantische overeenkomst, parafrasering of context missen. Het kan bevooroordeeld zijn richting langere samenvattingen en moet worden aangevuld met andere evaluatiemetriek en menselijke beoordeling.
ROUGE-N wordt berekend door het aantal overlappende n-grams tussen de kandidaat- en referentiesamenvattingen te tellen, waarna recall, precisie en hun harmonisch gemiddelde (F1-score) wordt berekend.
Ontdek hoe je de AI-tools en chatbots van FlowHunt kunt inzetten om je workflows te automatiseren en contentcreatie te verbeteren.
De BLEU-score, of Bilingual Evaluation Understudy, is een cruciale maatstaf voor het evalueren van de kwaliteit van tekst die door machinevertalingssystemen wor...
Retrieval Augmented Generation (RAG) is een geavanceerd AI-framework dat traditionele informatieretrievialsystemen combineert met generatieve grote taalmodellen...
Documentherordening is het proces waarbij opgehaalde documenten opnieuw gerangschikt worden op basis van hun relevantie voor de zoekopdracht van een gebruiker, ...