
Retrieval Augmented Generation (RAG)
Retrieval Augmented Generation (RAG) er en avanceret AI-ramme, der kombinerer traditionelle informationshentningssystemer med generative store sprogmodeller (LL...
ROUGE er et recall-orienteret metrik-sæt til evaluering af maskin-genererede resuméer og oversættelser ved at sammenligne dem med menneskeskabte referencer i NLP-opgaver.
ROUGE er designet til at måle overlap mellem et kandidat-resumé (det automatisk producerede resumé) og et sæt referenceresuméer (normalt lavet af mennesker). Det fokuserer på recall-statistik og understreger, hvor meget af det vigtige indhold fra referenceresuméerne, der fanges i kandidat-resuméet.
ROUGE er ikke én enkelt metrik, men en samling af metrikker, der hver især er designet til at fange forskellige aspekter af lighed mellem tekster. De mest anvendte ROUGE-metrikker er:
ROUGE-N evaluerer overlap af n-grammer mellem kandidat- og referenceresuméer. Et n-gram er en sammenhængende sekvens af ‘n’ ord fra en tekst. For eksempel:
Sådan fungerer ROUGE-N
ROUGE-N-scoren beregnes ved hjælp af følgende formel:
ROUGE-N = (Sum af matchede n-grammer i Reference) / (Totalt antal n-grammer i Reference)
Hvor:
Eksempel på beregning
Overvej:
Udtræk unigrams (ROUGE-1):
Tæl overlappende unigrams:
Beregn Recall:
Recall = Antal overlappende unigrams / Totalt antal unigrams i reference = 6 / 6 = 1.0
Beregn Præcision:
Præcision = Antal overlappende unigrams / Totalt antal unigrams i kandidat = 6 / 7 ≈ 0.857
Beregn F1-score (ROUGE-1):
F1-score = 2 × (Præcision × Recall) / (Præcision + Recall) ≈ 0.923
ROUGE-L bruger Longest Common Subsequence (LCS) mellem kandidat- og referenceresuméer. I modsætning til n-grammer kræver LCS ikke, at matches er sammenhængende, men blot at de er i rækkefølge.
Sådan fungerer ROUGE-L
LCS er den længste sekvens af ord, der optræder i både kandidat- og referenceresuméet i samme rækkefølge, ikke nødvendigvis sammenhængende.
Eksempel på beregning
Med de samme resuméer:
Identificér LCS:
Beregn ROUGE-L Recall:
Recall_LCS = LCS-længde / Totalt antal ord i reference = 6 / 6 = 1.0
Beregn ROUGE-L Præcision:
Præcision_LCS = LCS-længde / Totalt antal ord i kandidat = 6 / 7 ≈ 0.857
Beregn F1-score (ROUGE-L):
F1-score_LCS = 2 × (Præcision_LCS × Recall_LCS) / (Præcision_LCS + Recall_LCS) ≈ 0.923
ROUGE-S, eller ROUGE-Skip-Bigram, tager højde for skip-bigram-par i kandidat- og referenceresuméerne. Et skip-bigram er ethvert ordpar i deres rækkefølge af fremkomst, hvor der gerne må være mellemrum imellem.
Sådan fungerer ROUGE-S
Den måler overlap af skip-bigram-par mellem kandidat- og referenceresuméer.
Tæl antallet af matchede skip-bigrams og beregn præcision, recall og F1-score på samme måde som for ROUGE-N.
ROUGE anvendes primært til at evaluere:
Ved tekstopsummering måler ROUGE, hvor meget af referenceresuméets indhold, der er til stede i det genererede resumé.
Eksempel på brugssag
Forestil dig at udvikle en AI-algoritme til at opsummere nyhedsartikler. For at evaluere dens præstation:
For maskinoversættelse kan ROUGE supplere andre metrikker som BLEU ved at fokusere på recall.
Eksempel på brugssag
Antag, at en AI-chatbot oversætter brugermeddelelser fra spansk til engelsk. For at evaluere dens oversættelseskvalitet:
Inden for kunstig intelligens, især med fremkomsten af store sprogmodeller (LLMs) og samtaleagenter, er det essentielt at evaluere kvaliteten af genereret tekst. ROUGE-scorer spiller en væsentlig rolle i:
Chatbots og virtuelle assistenter skal ofte opsummere information eller omformulere brugerinput.
Evaluering af disse funktioner med ROUGE sikrer, at chatbotten bevarer de væsentlige informationer.
AI-systemer, der genererer indhold, såsom automatiseret nyhedsskrivning eller rapportgenerering, bruger ROUGE til at vurdere, hvor godt det genererede indhold stemmer overens med forventede resuméer eller nøglepunkter.
Når man træner sprogmodeller til opgaver som opsummering eller oversættelse, hjælper ROUGE-scorer med:
Præcision måler andelen af overlappende enheder (n-grammer, ord, sekvenser) mellem kandidat- og referenceresuméer i forhold til det samlede antal enheder i kandidat-resuméet.
Præcision = Overlappende enheder / Totalt antal enheder i kandidat
Recall måler andelen af overlappende enheder i forhold til det samlede antal enheder i referenceresuméet.
Recall = Overlappende enheder / Totalt antal enheder i reference
F1-score er det harmoniske gennemsnit af præcision og recall.
F1-score = 2 × (Præcision × Recall) / (Præcision + Recall)
For en given n-gram-længde ‘n’ beregnes ROUGE-N ved at matche n-grammer mellem kandidat- og referenceresuméer.
Eksempel med ROUGE-2 (bigrams)
Med de tidligere resuméer:
Tæl overlappende bigrams:
Beregn Recall:
Recall_ROUGE-2 = 4 / 5 = 0.8
Beregn Præcision:
Præcision_ROUGE-2 = 4 / 6 ≈ 0.667
Beregn F1-score (ROUGE-2):
F1-score_ROUGE-2 = 2 × (0.8 × 0.667) / (0.8 + 0.667) ≈ 0.727
Når der er flere menneskelige referenceresuméer tilgængelige, kan ROUGE-scorer beregnes mod hver enkelt, og den højeste score vælges. Dette tager højde for, at der kan være flere gyldige resuméer af det samme indhold.
AI-drevne opsummeringsværktøjer til dokumenter, artikler eller rapporter bruger ROUGE til at evaluere og forbedre deres præstation.
ROUGE supplerer andre evalueringsmetrikker for at give en mere omfattende vurdering af oversættelseskvalitet, især med fokus på indholdsbevarelse.
Ved udvikling af chatbots, især til AI-assistenter, der leverer resuméer eller omformulerer brugerinput, hjælper ROUGE med at sikre, at assistenten bevarer de vigtigste informationer.
Selvom ROUGE er udbredt, har det begrænsninger:
For at afbøde disse problemer:
Inden for AI-automatisering og chatbot-udvikling hjælper integrationen af ROUGE i udviklingsprocessen med:
ROUGE-scoren er et sæt metrikker, der bruges til evaluering af automatisk opsummering og maskinoversættelse. Den fokuserer på at måle overlap mellem de forudsagte og reference-resuméer, primært gennem n-gram-sammenfald. Kavita Ganesans artikel, “ROUGE 2.0: Updated and Improved Measures for Evaluation of Summarization Tasks”, introducerer flere forbedringer af de oprindelige ROUGE-metrikker. Disse forbedringer har til formål at tackle begrænsninger ved traditionelle målinger i forhold til synonyme begreber og emnedækning, og tilbyder nye målinger som ROUGE-N+Synonymer og ROUGE-Topic. Læs mere.
I “Revisiting Summarization Evaluation for Scientific Articles” undersøger Arman Cohan og Nazli Goharian ROUGE’s effektivitet, især inden for opsummering af videnskabelige artikler. De argumenterer for, at ROUGE’s afhængighed af leksikalsk overlap kan være utilstrækkelig i tilfælde med terminologiske variationer og omskrivninger, og foreslår en alternativ metrik, SERA, som bedre korrelerer med manuelle vurderinger. Læs mere.
Elaheh ShafieiBavani og kolleger foreslår en semantisk motiveret tilgang i “A Semantically Motivated Approach to Compute ROUGE Scores”, hvor de integrerer en grafbaseret algoritme for at fange semantiske ligheder ud over de leksikalske. Deres metode viser bedre overensstemmelse med menneskelig vurdering i abstraktiv opsummering, som demonstreret på TAC AESOP-datasæt. Læs mere.
Endelig diskuterer artiklen “Point-less: More Abstractive Summarization with Pointer-Generator Networks” af Freek Boutkan m.fl. fremskridt inden for abstraktive opsummeringsmodeller. Selvom fokus ikke kun er på ROUGE, fremhæver den udfordringerne ved evalueringsmetrikker for resuméer, der ikke blot er ekstraktive, og påpeger behovet for mere nuancerede evalueringsmetoder. Læs mere.
ROUGE-scoren (Recall-Oriented Understudy for Gisting Evaluation) er et sæt metrikker, der bruges til at evaluere kvaliteten af resuméer og oversættelser genereret af maskiner ved at måle deres overlap med menneskeskrevne referencer.
De vigtigste ROUGE-metrikker omfatter ROUGE-N (n-gram-overlap), ROUGE-L (Longest Common Subsequence), ROUGE-S (skip-bigram) og ROUGE-W (vægtet LCS). Hver metrik fanger forskellige aspekter af indholdslighed mellem tekster.
ROUGE bruges bredt til at evaluere automatisk tekstopsummering, maskinoversættelse og output fra sprogmodeller, hvilket hjælper udviklere med at vurdere, hvor godt maskin-genereret indhold matcher referencetekster.
ROUGE fokuserer på overflade-matchning og opfanger muligvis ikke semantisk lighed, omskrivning eller kontekst. Den kan være biased mod længere resuméer og bør suppleres med andre evalueringsmetrikker og menneskelig vurdering.
ROUGE-N beregnes ved at tælle overlappende n-grams mellem kandidat- og referenceresuméer, og derefter udregne recall, præcision og deres harmoniske gennemsnit (F1-score).
Opdag hvordan du kan udnytte FlowHunt's AI-værktøjer og chatbots til at automatisere dine arbejdsgange og forbedre indholdsgenerering.
Retrieval Augmented Generation (RAG) er en avanceret AI-ramme, der kombinerer traditionelle informationshentningssystemer med generative store sprogmodeller (LL...
Opdag de vigtigste forskelle mellem Retrieval-Augmented Generation (RAG) og Cache-Augmented Generation (CAG) i AI. Lær, hvordan RAG dynamisk henter realtidsinfo...
BLEU-score, eller Bilingual Evaluation Understudy, er en afgørende måleenhed til vurdering af kvaliteten af tekst genereret af maskinoversættelsessystemer. Udvi...