
Retrieval Augmented Generation (RAG)
Retrieval Augmented Generation (RAG) er et avansert AI-rammeverk som kombinerer tradisjonelle informasjonshentingssystemer med generative store språkmodeller (L...
ROUGE er et recall-orientert metriksett for å evaluere maskin-genererte sammendrag og oversettelser ved å sammenligne dem med menneskeskapte referanser i NLP-oppgaver.
ROUGE er utviklet for å måle overlappet mellom et kandidat-sammendrag (det automatisk produserte sammendraget) og et sett med referansesammendrag (vanligvis laget av mennesker). Det fokuserer på recall-statistikk og fremhever hvor mye av det viktige innholdet fra referansesammendragene som er fanget opp i kandidat-sammendraget.
ROUGE er ikke én enkelt metrikk, men en samling av metrikker, der hver er laget for å fange ulike aspekter av likhet mellom tekster. De mest brukte ROUGE-metrikkene er:
ROUGE-N vurderer overlappet av n-gram mellom kandidat- og referansesammendrag. Et n-gram er en sammenhengende sekvens av ‘n’ ord fra en tekst. For eksempel:
Hvordan ROUGE-N fungerer
ROUGE-N-score beregnes med følgende formel:
ROUGE-N = (Sum av samsvarende n-gram i referanse) / (Totalt n-gram i referanse)
Hvor:
Eksempelberegning
Tenk deg følgende:
Trekk ut unigrammene (ROUGE-1):
Tell overlappende unigrammer:
Beregn recall:
Recall = Antall overlappende unigram / Totalt antall unigram i referanse = 6 / 6 = 1,0
Beregn presisjon:
Presisjon = Antall overlappende unigram / Totalt antall unigram i kandidat = 6 / 7 ≈ 0,857
Beregn F1-score (ROUGE-1):
F1-score = 2 × (Presisjon × Recall) / (Presisjon + Recall) ≈ 0,923
ROUGE-L bruker Lengste Felles Delsekvens (LCS) mellom kandidat- og referansesammendrag. I motsetning til n-gram krever ikke LCS at treffene er sammenhengende, bare i samme rekkefølge.
Hvordan ROUGE-L fungerer
LCS er den lengste sekvensen av ord som finnes i både kandidat- og referansesammendrag i samme rekkefølge, ikke nødvendigvis sammenhengende.
Eksempelberegning
Med de samme sammendragene:
Identifiser LCS:
Beregn ROUGE-L recall:
Recall_LCS = LCS-lengde / Totalt antall ord i referanse = 6 / 6 = 1,0
Beregn ROUGE-L presisjon:
Presisjon_LCS = LCS-lengde / Totalt antall ord i kandidat = 6 / 7 ≈ 0,857
Beregn F1-score (ROUGE-L):
F1-score_LCS = 2 × (Presisjon_LCS × Recall_LCS) / (Presisjon_LCS + Recall_LCS) ≈ 0,923
ROUGE-S, eller ROUGE-Skip-Bigram, tar hensyn til skip-bigram-par i kandidat- og referansesammendrag. Et skip-bigram er ethvert ordpar i rekkefølge, med mulighet for mellomrom.
Hvordan ROUGE-S fungerer
Den måler overlappet av skip-bigram-par mellom kandidat- og referansesammendrag.
Beregn antall samsvarende skip-bigrammer og kalkuler presisjon, recall og F1-score på samme måte som for ROUGE-N.
ROUGE brukes hovedsakelig til å evaluere:
Ved tekstoppsummering måler ROUGE hvor mye av innholdet i referansesammendraget som er tilstede i det genererte sammendraget.
Eksempel på brukstilfelle
Tenk deg at du utvikler en AI-algoritme for å oppsummere nyhetsartikler. For å evaluere ytelsen:
For maskinoversettelse kan ROUGE supplere andre måleverdier som BLEU ved å fokusere på recall.
Eksempel på brukstilfelle
Anta at en AI-chatbot oversetter brukermeldinger fra spansk til engelsk. For å evaluere oversettelseskvaliteten:
Innen kunstig intelligens, spesielt med fremveksten av store språkmodeller (LLM-er) og konversasjonelle agenter, er det avgjørende å evaluere kvaliteten på generert tekst. ROUGE-score spiller en viktig rolle i:
Chatboter og virtuelle assistenter må ofte oppsummere informasjon eller omformulere brukerinnspill.
Å evaluere disse funksjonene med ROUGE sikrer at chatboten bevarer essensiell informasjon.
AI-systemer som genererer innhold, som automatisert nyhetsskriving eller rapportgenerering, bruker ROUGE for å vurdere hvor godt det genererte innholdet samsvarer med forventede sammendrag eller hovedpunkter.
Ved trening av språkmodeller for oppgaver som oppsummering eller oversettelse hjelper ROUGE-score med:
Presisjon måler andelen overlappende enheter (n-gram, ord, sekvenser) mellom kandidat- og referansesammendrag av det totale antallet i kandidat-sammendraget.
Presisjon = Overlappende enheter / Totalt antall enheter i kandidat
Recall måler andelen overlappende enheter av det totale antallet i referansesammendraget.
Recall = Overlappende enheter / Totalt antall enheter i referanse
F1-score er det harmoniske gjennomsnittet av presisjon og recall.
F1-score = 2 × (Presisjon × Recall) / (Presisjon + Recall)
For en gitt n-gram-lengde ‘n’ beregnes ROUGE-N ved å matche n-gram mellom kandidat- og referansesammendrag.
Eksempel med ROUGE-2 (bigrammer)
Med de tidligere sammendragene:
Tell overlappende bigrammer:
Beregn recall:
Recall_ROUGE-2 = 4 / 5 = 0,8
Beregn presisjon:
Presisjon_ROUGE-2 = 4 / 6 ≈ 0,667
Beregn F1-score (ROUGE-2):
F1-score_ROUGE-2 = 2 × (0,8 × 0,667) / (0,8 + 0,667) ≈ 0,727
Når flere menneskelige referansesammendrag er tilgjengelige, kan ROUGE-score beregnes mot hver enkelt, og den høyeste scoren velges. Dette tar hensyn til at det kan finnes flere gyldige sammendrag av samme innhold.
AI-drevne oppsummeringsverktøy for dokumenter, artikler eller rapporter bruker ROUGE til å evaluere og forbedre ytelsen.
ROUGE supplerer andre evalueringsmetrikker for å gi en mer helhetlig vurdering av oversettelseskvalitet, særlig med fokus på innholdsbevaring.
Ved utvikling av chatboter, spesielt AI-assistenter som gir sammendrag eller omformulerer brukerinput, hjelper ROUGE med å sikre at assistenten bevarer essensiell informasjon.
Selv om ROUGE er mye brukt, har den sine begrensninger:
For å bøte på disse utfordringene:
Ved AI-automatisering og utvikling av chatboter hjelper integrering av ROUGE i utviklingssyklusen med:
ROUGE-score er et sett med metrikker som brukes til å evaluere automatisk oppsummering og maskinoversettelse. Den fokuserer på å måle overlappet mellom predikerte og referansesammendrag, hovedsakelig gjennom n-gram-samsvar. Kavita Ganesans artikkel, “ROUGE 2.0: Updated and Improved Measures for Evaluation of Summarization Tasks,” introduserer flere forbedringer til de opprinnelige ROUGE-metrikkene. Disse forbedringene tar sikte på å møte begrensningene ved tradisjonelle målinger for å fange opp synonyme konsepter og temadekning, og tilbyr nye metrikker som ROUGE-N+Synonyms og ROUGE-Topic. Les mer.
I “Revisiting Summarization Evaluation for Scientific Articles” undersøker Arman Cohan og Nazli Goharian hvor effektiv ROUGE er, spesielt for oppsummering av vitenskapelige artikler. De argumenterer for at ROUGE sin avhengighet av leksikalsk overlapp kan være utilstrekkelig i tilfeller med terminologivariant og omskriving, og foreslår en alternativ metrikk, SERA, som korrelerer bedre med manuelle vurderinger. Les mer.
Elaheh ShafieiBavani og kolleger foreslår en semantisk motivert tilnærming i “A Semantically Motivated Approach to Compute ROUGE Scores”, hvor de integrerer en grafbasert algoritme for å fange opp semantiske likheter i tillegg til leksikalske. Metoden deres viser forbedret samsvar med menneskelige vurderinger i abstraktiv oppsummering, demonstrert på TAC AESOP-datasett. Les mer.
Til slutt diskuterer artikkelen “Point-less: More Abstractive Summarization with Pointer-Generator Networks” av Freek Boutkan m.fl. fremskritt innen abstraktive oppsummeringsmodeller. Selv om den ikke fokuserer utelukkende på ROUGE, fremhever den utfordringene med evalueringsmetrikker for sammendrag som ikke bare er ekstraktive, og antyder behovet for mer nyanserte evalueringsmetoder. Les mer.
ROUGE-score (Recall-Oriented Understudy for Gisting Evaluation) er et sett med måleverdier som brukes til å evaluere kvaliteten på sammendrag og oversettelser laget av maskiner ved å måle overlapp med referanser skrevet av mennesker.
De viktigste ROUGE-metrikkene inkluderer ROUGE-N (n-gram overlapp), ROUGE-L (Lengste felles delsekvens), ROUGE-S (skip-bigram) og ROUGE-W (vektet LCS). Hver metrikk fanger ulike aspekter av innholdslikhet mellom tekster.
ROUGE brukes mye til å evaluere automatisk tekstoppsummering, maskinoversettelse og output fra språkmodeller. Det hjelper utviklere å vurdere hvor godt maskin-generert innhold samsvarer med referansetekster.
ROUGE fokuserer på overfladisk samsvar og fanger kanskje ikke opp semantisk likhet, omskriving eller kontekst. Den kan være partisk mot lengre sammendrag og bør suppleres med andre evalueringsmetoder og menneskelig vurdering.
ROUGE-N beregnes ved å telle overlappende n-gram mellom kandidat- og referansesammendrag, og deretter regne ut recall, presisjon og deres harmoniske gjennomsnitt (F1-score).
Oppdag hvordan du kan utnytte FlowHunt sine AI-verktøy og chatboter til å automatisere arbeidsflyten og forbedre innholdsgenerering.
Retrieval Augmented Generation (RAG) er et avansert AI-rammeverk som kombinerer tradisjonelle informasjonshentingssystemer med generative store språkmodeller (L...
BLEU-score, eller Bilingual Evaluation Understudy, er en kritisk målemetode for å evaluere kvaliteten på tekst produsert av maskinoversettelsessystemer. Utvikle...
Oppdag de viktigste forskjellene mellom Retrieval-Augmented Generation (RAG) og Cache-Augmented Generation (CAG) innen AI. Lær hvordan RAG henter sanntidsinform...