
Naturlig sprogforståelse (NLU)
Naturlig sprogforståelse (NLU) er et underområde af AI, der fokuserer på at gøre maskiner i stand til at forstå og fortolke menneskesprog i kontekst, hvilket gå...
BLEU-score er en udbredt metrik til vurdering af kvaliteten af maskin-genererede oversættelser ved at sammenligne dem med menneskelige referencer ved hjælp af n-grammer, præcision og kortheds-straf.
BLEU-score, eller Bilingual Evaluation Understudy, er en afgørende metrik til at vurdere kvaliteten af tekst produceret af maskinoversættelsessystemer. BLEU blev udviklet af IBM i 2001 og var en banebrydende måleenhed, der viste en stærk sammenhæng med menneskelige vurderinger af oversættelseskvalitet. BLEU-score er stadig en hjørnesten inden for natural language processing (NLP) og bruges bredt til at evaluere maskinoversættelsessystemer.
I sin kerne måler BLEU-score ligheden mellem en maskin-genereret oversættelse og en eller flere menneskelige referenceoversættelser. Jo tættere maskinoversættelsen ligger på referenceoversættelsen, desto højere BLEU-score, som rangerer fra 0 til 1. Scorer tæt på 1 indikerer større lighed, selvom en perfekt score på 1 er sjælden og kan indikere overtilpasning, hvilket ikke er ideelt.
N-grammer er sammenhængende sekvenser af ‘n’ elementer fra en given tekst eller taleprøve, som oftest ord. I BLEU anvendes n-grammer til at sammenligne maskinoversættelser med referenceoversættelser. For eksempel, i sætningen “The cat is on the mat,” er n-grammerne:
BLEU beregner præcision ved hjælp af disse n-grammer for at vurdere overlap mellem kandidatoversættelsen og referenceoversættelser.
BLEU definerer præcision som andelen af n-grammer i kandidatoversættelsen, der også forekommer i referenceoversættelsen/-erne. For at undgå at belønne gentagelse af de samme n-grammer, anvender BLEU “modificeret præcision”, hvor antallet af hver n-gram i kandidatoversættelsen begrænses til det maksimale antal forekomster i nogen referenceoversættelse.
Kortheds-straf er essentiel i BLEU, da den straffer oversættelser, der er for korte. Kortere oversættelser kan opnå høj præcision ved at udelade usikre tekstdele. Denne straf beregnes ud fra længdeforholdet mellem kandidat- og referenceoversættelser og sikrer, at oversættelser hverken er for korte eller for lange i forhold til reference.
BLEU samler præcisionsscore på tværs af forskellige n-gramstørrelser (typisk op til 4-grammer) ved hjælp af et geometrisk gennemsnit, hvilket balancerer behovet for at fange både lokale og bredere kontekster i oversættelsen.
BLEU-score er matematisk repræsenteret som:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Hvor:
BLEU bruges primært til at evaluere maskinoversættelsessystemer og giver et kvantitativt mål til at sammenligne forskellige systemer og følge forbedringer. Det er især værdifuldt i forskning og udvikling til at teste oversættelsesmodellernes effektivitet.
Selvom BLEU oprindeligt blev udviklet til oversættelse, bruges det også til andre NLP-opgaver som tekstsammenfatning og parafrasering, hvor det er ønsket at generere tekst, der minder om en menneskelig reference.
BLEU kan også bruges til at vurdere kvaliteten af svar genereret af AI-modeller i automatisering og chatbots, hvilket sikrer, at output er sammenhængende og kontekstuelt passende i forhold til menneskelige svar.
På trods af sin udbredte anvendelse har BLEU også begrænsninger:
BLEU-score (Bilingual Evaluation Understudy) er en metrik, der bruges til at evaluere kvaliteten af maskin-genererede oversættelser ved at sammenligne dem med en eller flere menneskelige referenceoversættelser via n-gram overlap, præcision, kortheds-straf og den geometriske gennemsnit.
Vigtige elementer inkluderer n-grammer, modificeret præcision, kortheds-straf og det geometriske gennemsnit af præcisionsscore på tværs af forskellige n-gramstørrelser.
BLEU fokuserer på streng-lighed og tager ikke højde for semantisk betydning, er følsom over for antallet og kvaliteten af referenceoversættelser, kan give vildledende høje scorer for overtilpassede systemer og straffer ikke forkert ordstilling tilstrækkeligt.
Smarte chatbots og AI-værktøjer samlet ét sted. Forbind intuitive blokke og gør dine idéer til automatiserede Flows.
Naturlig sprogforståelse (NLU) er et underområde af AI, der fokuserer på at gøre maskiner i stand til at forstå og fortolke menneskesprog i kontekst, hvilket gå...
ROUGE-scoren er et sæt af metrikker, der bruges til at evaluere kvaliteten af maskin-genererede resuméer og oversættelser ved at sammenligne dem med menneskeska...
Prøv vores Dale Chall-læselighedsværktøjer. Analyser almindelig tekst, tjek læselighed fra en URL, eller generer ny, lettere forståelig tekst med AI-drevet omsk...