ROUGE-poäng
ROUGE-poängen är en uppsättning mått som används för att utvärdera kvaliteten på maskin-genererade sammanfattningar och översättningar genom att jämföra dem med...
BLEU-poäng är ett mycket använt mått för att utvärdera kvaliteten på maskinöversättningar genom att jämföra dem med mänskliga referenser med hjälp av n-gram, precision och längdstraff.
BLEU-poängen, eller Bilingual Evaluation Understudy, är ett avgörande mått för att utvärdera kvaliteten på text som produceras av maskinöversättningssystem. Utvecklad av IBM år 2001 var det ett banbrytande mått som visade stark korrelation med mänskliga bedömningar av översättningskvalitet. BLEU-poängen är fortfarande en hörnsten inom området för naturlig språkbehandling (NLP) och används i stor utsträckning för att utvärdera maskinöversättningssystem.
I grunden mäter BLEU-poängen likheten mellan en maskinöversättning och en eller flera mänskliga referensöversättningar. Ju närmare maskinens översättning är referensen, desto högre blir BLEU-poängen, som varierar från 0 till 1. Poäng nära 1 tyder på större likhet, även om ett perfekt resultat på 1 är sällsynt och kan indikera överanpassning, vilket inte är önskvärt.
N-gram är intilliggande sekvenser av ‘n’ element från en given text eller talprov, vanligtvis ord. I BLEU används n-gram för att jämföra maskinöversättningar med referensöversättningar. Till exempel i frasen ”The cat is on the mat” består n-grammen av:
BLEU beräknar precisionen med hjälp av dessa n-gram för att bedöma överlappningen mellan kandidatöversättningen och referensöversättningarna.
BLEU definierar precision som andelen n-gram i kandidatöversättningen som också förekommer i referensöversättningarna. För att undvika att belöna upprepning av n-gram används ”modifierad precision”, vilket begränsar antalet förekomster av varje n-gram i kandidatöversättningen till dess maximala förekomst i någon referensöversättning.
Längdstraffet är avgörande i BLEU och straffar översättningar som är för korta. Kortare översättningar kan få hög precision genom att utelämna osäkra delar av texten. Straffet beräknas baserat på längdförhållandet mellan kandidat- och referensöversättningarna, vilket säkerställer att översättningarna varken är för korta eller för långa jämfört med referensen.
BLEU samlar precisionspoäng från olika n-gramstorlekar (vanligtvis upp till 4-gram) med hjälp av det geometriska medelvärdet, vilket balanserar behovet av att fånga både lokalt och bredare sammanhang i översättningen.
BLEU-poängen representeras matematiskt som:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Där:
BLEU används främst för att utvärdera maskinöversättningssystem och ger ett kvantitativt mått för att jämföra olika system och följa förbättringar. Det är särskilt värdefullt inom forskning och utveckling för att testa effektiviteten hos översättningsmodeller.
Även om BLEU ursprungligen utvecklades för översättning används det även i andra NLP-uppgifter som textsammanfattning och omformulering, där det är önskvärt att generera text som liknar en mänsklig referens.
BLEU kan användas för att bedöma kvaliteten på svar som genereras av AI-modeller inom automation och chattbottar, och säkerställer att resultaten är sammanhängande och kontextuellt lämpliga i förhållande till mänskliga svar.
Trots sin utbredda användning har BLEU vissa begränsningar:
BLEU-poäng (Bilingual Evaluation Understudy) är ett mått som används för att utvärdera kvaliteten på maskinöversättningar genom att jämföra dem med en eller flera mänskliga referensöversättningar, med hjälp av n-gramöverlappning, precision, längdstraff och det geometriska medelvärdet.
Viktiga komponenter inkluderar n-gram, modifierad precision, längdstraff och det geometriska medelvärdet av precisionspoäng över olika n-gramstorlekar.
BLEU fokuserar på stränglikhet och tar inte hänsyn till semantisk betydelse, är känslig för antalet och kvaliteten på referensöversättningarna, kan ge missvisande höga poäng för överanpassade system och straffar inte tillräckligt felaktig ordföljd.
Smarta chattbottar och AI-verktyg under ett och samma tak. Koppla ihop intuitiva block för att förvandla dina idéer till automatiserade Flows.
ROUGE-poängen är en uppsättning mått som används för att utvärdera kvaliteten på maskin-genererade sammanfattningar och översättningar genom att jämföra dem med...
En SEO-poäng är en numerisk representation av hur väl en webbplats följer SEO:s bästa praxis, och utvärderar tekniska aspekter, innehållskvalitet, användarupple...
Bidirektionellt Long Short-Term Memory (BiLSTM) är en avancerad typ av Recurrent Neural Network (RNN)-arkitektur som bearbetar sekventiell data i både framåt- o...