Scorul ROUGE
Scorul ROUGE este un set de metrici folosite pentru a evalua calitatea rezumatelor și traducerilor generate de mașini prin compararea acestora cu referințele um...
Scorul BLEU este o metrică larg utilizată pentru evaluarea calității traducerilor generate de mașină, prin compararea acestora cu referințe umane folosind n-grame, precizie și penalizare pentru concizie.
Scorul BLEU, sau Bilingual Evaluation Understudy, este o metrică esențială pentru evaluarea calității textului produs de sistemele de traducere automată. Dezvoltat de IBM în 2001, a fost o metrică inovatoare care a demonstrat o corelație puternică cu evaluările umane ale calității traducerii. Scorul BLEU rămâne o piatră de temelie în domeniul procesării limbajului natural (NLP) și este utilizat pe scară largă pentru a evalua sistemele de traducere automată.
În esență, scorul BLEU măsoară similaritatea dintre o traducere generată de mașină și una sau mai multe traduceri de referință umane. Cu cât traducerea automată este mai apropiată de referința umană, cu atât scorul BLEU este mai mare, acesta variind între 0 și 1. Scoruri apropiate de 1 indică o similaritate mai mare, deși un scor perfect de 1 este rar și poate indica suprainstruire, ceea ce nu este ideal.
N-gramele sunt secvențe continue de „n” elemente dintr-un text sau eșantion de vorbire dat, de obicei cuvinte. În BLEU, n-gramele sunt folosite pentru a compara traducerile automate cu cele de referință. De exemplu, în fraza „Pisica este pe covor”, n-gramele includ:
BLEU calculează precizia folosind aceste n-grame pentru a evalua suprapunerea dintre traducerea candidat și traducerile de referință.
BLEU definește precizia ca proporția n-gramelor din traducerea candidat care apar și în traducerile de referință. Pentru a preveni recompensarea repetițiilor de n-grame, BLEU utilizează „precizia modificată”, care limitează numărul fiecărui n-gram din traducerea candidat la apariția sa maximă în orice traducere de referință.
Penalizarea pentru concizie este crucială în BLEU, penalizând traducerile prea scurte. Traducerile mai scurte pot obține o precizie mare omisiunând părți incerte ale textului. Această penalizare este calculată pe baza raportului de lungime dintre traducerea candidat și traducerea de referință, asigurându-se că traducerile nu sunt nici prea scurte, nici prea lungi față de referință.
BLEU agregă scorurile de precizie pentru diferite dimensiuni de n-grame (de obicei până la 4-grame) folosind media geometrică, echilibrând necesitatea de a surprinde atât contextul local, cât și pe cel larg în traducere.
Scorul BLEU este reprezentat matematic astfel:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Unde:
BLEU este folosit în principal pentru evaluarea sistemelor de traducere automată, oferind o măsură cantitativă pentru compararea diferitelor sisteme și urmărirea îmbunătățirilor. Este deosebit de valoros în cercetare și dezvoltare pentru testarea eficienței modelelor de traducere.
Deși a fost conceput inițial pentru traduceri, BLEU se aplică și altor sarcini NLP precum rezumarea textului și parafrazarea, unde generarea unui text similar cu o referință umană este de dorit.
BLEU poate evalua calitatea răspunsurilor generate de modelele AI în automatizări și chatboți, asigurând coerența și adecvarea contextuală a outputului față de răspunsurile umane.
În ciuda utilizării pe scară largă, BLEU are și limitări:
Scorul BLEU (Bilingual Evaluation Understudy) este o metrică folosită pentru a evalua calitatea traducerilor generate de mașină, comparându-le cu una sau mai multe traduceri de referință umane, folosind suprapunerea n-gramelor, precizie, penalizare pentru concizie și media geometrică.
Componentele cheie includ n-grame, precizia modificată, penalizarea pentru concizie și media geometrică a scorurilor de precizie pentru diferite dimensiuni de n-grame.
BLEU se concentrează pe similaritatea șirurilor și nu ia în considerare sensul semantic, este sensibil la numărul și calitatea traducerilor de referință, poate oferi scoruri ridicate în mod înșelător pentru sisteme suprainstruite și nu penalizează suficient ordinea incorectă a cuvintelor.
Chatboți inteligenți și instrumente AI sub același acoperiș. Conectează blocuri intuitive pentru a-ți transforma ideile în fluxuri automatizate.
Scorul ROUGE este un set de metrici folosite pentru a evalua calitatea rezumatelor și traducerilor generate de mașini prin compararea acestora cu referințele um...
F-Score, cunoscut și ca F-Măsură sau F1 Score, este o metrică statistică folosită pentru a evalua acuratețea unui test sau model, în special în clasificarea bin...
Înțelegerea Limbajului Natural (NLU) este un subdomeniu al inteligenței artificiale axat pe permiterea mașinilor să înțeleagă și să interpreteze limbajul uman î...