
ROUGE-score
ROUGE-score er et sett med måleverdier som brukes til å evaluere kvaliteten på maskin-genererte sammendrag og oversettelser ved å sammenligne dem med menneskeli...
BLEU-score er en mye brukt målemetode for å evaluere kvaliteten på maskin-genererte oversettelser ved å sammenligne dem med menneskelige referanser ved bruk av n-gram, presisjon og korthetsstraff.
BLEU-score, eller Bilingual Evaluation Understudy, er en kritisk målemetode for å evaluere kvaliteten på tekst produsert av maskinoversettelsessystemer. Utviklet av IBM i 2001, var det et banebrytende mål som viste sterk korrelasjon med menneskelige vurderinger av oversettelseskvalitet. BLEU-score er fortsatt en hjørnestein innen naturlig språkprosessering (NLP) og brukes mye for å vurdere maskinoversettelsessystemer.
I bunn og grunn måler BLEU-score likheten mellom en maskin-generert oversettelse og en eller flere menneskelige referanseoversettelser. Jo nærmere maskinoversettelsen er referansen, desto høyere BLEU-score, som varierer fra 0 til 1. Poeng nær 1 indikerer større likhet, selv om en perfekt score på 1 er sjelden og kan indikere overtilpasning, noe som ikke er ideelt.
N-gram er sammenhengende sekvenser av ‘n’ elementer fra en gitt tekst eller taleprøve, vanligvis ord. I BLEU brukes n-gram for å sammenligne maskinoversettelser med referanseoversettelser. For eksempel, i frasen «Katten er på matten», inkluderer n-grammene:
BLEU beregner presisjon ved å bruke disse n-grammene for å måle overlapp mellom kandidatoversettelsen og referanseoversettelsene.
BLEU definerer presisjon som andelen n-gram i kandidatoversettelsen som også finnes i referanseoversettelsene. For å unngå å belønne gjentakelse av n-gram, bruker BLEU «modifisert presisjon», som begrenser antallet av hvert n-gram i kandidatoversettelsen til maksimal forekomst i noen referanseoversettelse.
Korthetsstraffen er avgjørende i BLEU, og straffer oversettelser som er for korte. Kortere oversettelser kan oppnå høy presisjon ved å utelate usikre deler av teksten. Denne straffen beregnes basert på lengdeforholdet mellom kandidat- og referanseoversettelsen, og sikrer at oversettelsene verken er for korte eller for lange sammenlignet med referansen.
BLEU samler presisjonspoeng på tvers av ulike n-gram-størrelser (vanligvis opp til 4-gram) ved å bruke et geometrisk gjennomsnitt, og balanserer behovet for både lokal og bredere kontekst i oversettelsen.
BLEU-score er matematisk representert som:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Hvor:
BLEU brukes primært til å evaluere maskinoversettelsessystemer, og gir et kvantitativt mål for å sammenligne forskjellige systemer og spore forbedringer. Det er spesielt verdifullt innen forskning og utvikling for å teste oversettelsesmodellers effektivitet.
Selv om det opprinnelig var for oversettelse, brukes BLEU også i andre NLP-oppgaver som tekstsammendrag og parafrasering, hvor det er ønskelig å generere tekst lik en menneskelig referanse.
BLEU kan vurdere kvaliteten på svar generert av AI-modeller i automatisering og chatboter, og sørge for at utdataene er sammenhengende og kontekstuelt riktige i forhold til menneskelige svar.
Til tross for utstrakt bruk har BLEU noen begrensninger:
BLEU-score (Bilingual Evaluation Understudy) er en målemetode brukt for å evaluere kvaliteten på maskin-genererte oversettelser ved å sammenligne dem med en eller flere menneskelige referanseoversettelser ved bruk av n-gram-overlapp, presisjon, korthetsstraff og geometrisk gjennomsnitt.
Viktige komponenter inkluderer n-gram, modifisert presisjon, korthetsstraff og det geometriske gjennomsnittet av presisjon på tvers av ulike n-gram-størrelser.
BLEU fokuserer på strenglikhet og tar ikke hensyn til semantisk mening, er følsom for antall og kvalitet på referanseoversettelser, kan gi villedende høye poeng for overtilpassede systemer, og straffer ikke feil ordrekkefølge tilstrekkelig.
Smarte chatboter og AI-verktøy samlet på ett sted. Koble intuitive blokker for å gjøre idéer om til automatiserte Flows.
ROUGE-score er et sett med måleverdier som brukes til å evaluere kvaliteten på maskin-genererte sammendrag og oversettelser ved å sammenligne dem med menneskeli...
Naturlig språkforståelse (NLU) er et underfelt av KI som har fokus på å gjøre maskiner i stand til å forstå og tolke menneskespråk i kontekst, og går utover gru...
Natural Language Toolkit (NLTK) er en omfattende pakke med Python-biblioteker og programmer for symbolsk og statistisk behandling av naturlig språk (NLP). Mye b...