
BLEU skóre
BLEU skóre, alebo Bilingual Evaluation Understudy, je kľúčová metrika na hodnotenie kvality textu vytvoreného systémami strojového prekladu. Vyvinuté spoločnosť...
ROUGE je recall-orientovaný súbor metrík na hodnotenie strojom generovaných súhrnov a prekladov porovnávaním s ľudskými referenciami v úlohách NLP.
ROUGE je navrhnuté na meranie prekryvu medzi kandidátskym súhrnom (automaticky vytvorený súhrn) a súborom referenčných súhrnov (zvyčajne vytvorených ľuďmi). Zameriava sa na štatistiku recall, pričom kladie dôraz na to, koľko dôležitého obsahu z referenčných súhrnov je zachyteného v kandidátskom súhrne.
ROUGE nie je jedna metrika, ale kolekcia metrík, pričom každá je navrhnutá na zachytenie rôznych aspektov podobnosti medzi textami. Najčastejšie používané ROUGE metriky sú:
ROUGE-N hodnotí prekryv n-gramov medzi kandidátskym a referenčnými súhrnmi. N-gram je súvislá postupnosť ‘n’ slov z textu. Napríklad:
Ako funguje ROUGE-N
ROUGE-N skóre sa počíta podľa nasledujúceho vzorca:
ROUGE-N = (Súčet zhodných n-gramov v referencii) / (Celkový počet n-gramov v referencii)
Kde:
Príklad výpočtu
Zoberme:
Extrahujeme unigramy (ROUGE-1):
Spočítame prekryvajúce sa unigramy:
Vypočítame recall:
Recall = Počet prekryvajúcich sa unigramov / Celkový počet unigramov v referencii = 6 / 6 = 1.0
Vypočítame precision:
Precision = Počet prekryvajúcich sa unigramov / Celkový počet unigramov v kandidátovi = 6 / 7 ≈ 0.857
Vypočítame F1 skóre (ROUGE-1):
F1 skóre = 2 × (Precision × Recall) / (Precision + Recall) ≈ 0.923
ROUGE-L využíva najdlhšiu spoločnú subsekvenciu (LCS) medzi kandidátskym a referenčným súhrnom. Na rozdiel od n-gramov LCS nevyžaduje, aby zhody boli súvislé, ale musia byť v poradí.
Ako funguje ROUGE-L
LCS je najdlhšia postupnosť slov, ktorá sa vyskytuje v kandidátskom aj referenčnom súhrne v rovnakom poradí, nie však nutne po sebe.
Príklad výpočtu
Použijeme tie isté súhrny:
Identifikujeme LCS:
Vypočítame ROUGE-L recall:
Recall_LCS = Dĺžka LCS / Celkový počet slov v referencii = 6 / 6 = 1.0
Vypočítame ROUGE-L precision:
Precision_LCS = Dĺžka LCS / Celkový počet slov v kandidátovi = 6 / 7 ≈ 0.857
Vypočítame F1 skóre (ROUGE-L):
F1 skóre_LCS = 2 × (Precision_LCS × Recall_LCS) / (Precision_LCS + Recall_LCS) ≈ 0.923
ROUGE-S, alebo ROUGE-Skip-Bigram, zohľadňuje skip-bigram páry v kandidátskych a referenčných súhrnoch. Skip-bigram je akákoľvek dvojica slov v poradí ich výskytu, umožňujúca medzery medzi nimi.
Ako funguje ROUGE-S
Meria prekryv skip-bigram párov medzi kandidátskym a referenčnými súhrnmi.
Spočítajte počet zhodných skip-bigramov a vypočítajte precision, recall a F1 skóre podobne ako pri ROUGE-N.
ROUGE sa primárne používa na hodnotenie:
Pri sumarizácii textu meria ROUGE, koľko obsahu z referenčného súhrnu je prítomného v generovanom súhrne.
Príklad použitia
Predstavte si vývoj AI algoritmu na sumarizáciu spravodajských článkov. Na hodnotenie jeho výkonu:
Pri strojovom preklade môže ROUGE doplniť iné metriky ako BLEU, keďže sa zameriava na recall.
Príklad použitia
Predpokladajme, že AI chatbot prekladá správy používateľov zo španielčiny do angličtiny. Na hodnotenie kvality prekladu:
V oblasti umelej inteligencie, najmä s nástupom veľkých jazykových modelov (LLM) a konverzačných agentov, je hodnotenie kvality generovaného textu zásadné. ROUGE skóre zohráva významnú úlohu pri:
Chatboty a virtuálni asistenti často potrebujú sumarizovať informácie alebo parafrázovať vstupy používateľov.
Hodnotenie týchto funkcií pomocou ROUGE zabezpečuje, že chatbot zachová podstatné informácie.
AI systémy, ktoré generujú obsah, ako automatizované písanie správ či generovanie reportov, sa spoliehajú na ROUGE, aby posúdili, ako dobre generovaný obsah zodpovedá očakávaným súhrnom alebo kľúčovým bodom.
Pri trénovaní jazykových modelov na úlohy ako sumarizácia či preklad, ROUGE skóre pomáha pri:
Precision meria podiel prekryvajúcich sa jednotiek (n-gramov, slov, sekvencií) medzi kandidátskym a referenčným súhrnom k celkovému počtu jednotiek v kandidátovi.
Precision = Prekryvajúce sa jednotky / Celkový počet jednotiek v kandidátovi
Recall meria podiel prekryvajúcich sa jednotiek k celkovému počtu jednotiek v referenčnom súhrne.
Recall = Prekryvajúce sa jednotky / Celkový počet jednotiek v referencii
F1 skóre je harmonický priemer precision a recall.
F1 skóre = 2 × (Precision × Recall) / (Precision + Recall)
Pre danú dĺžku n-gramu ‘n’ sa ROUGE-N vypočíta zhodou n-gramov medzi kandidátskym a referenčným súhrnom.
Príklad s ROUGE-2 (bigrama)
Použijeme vyššie uvedené súhrny:
Spočítajte prekryvajúce sa bigramy:
Vypočítajte recall:
Recall_ROUGE-2 = 4 / 5 = 0.8
Vypočítajte precision:
Precision_ROUGE-2 = 4 / 6 ≈ 0.667
Vypočítajte F1 skóre (ROUGE-2):
F1 skóre_ROUGE-2 = 2 × (0.8 × 0.667) / (0.8 + 0.667) ≈ 0.727
Ak je k dispozícii viacero ľudských referenčných súhrnov, ROUGE skóre možno vypočítať voči každému z nich a vybrať najvyššie skóre. To zohľadňuje, že existuje viacero platných súhrnov toho istého obsahu.
AI nástroje na sumarizáciu dokumentov, článkov či správ používajú ROUGE na hodnotenie a zlepšovanie svojho výkonu.
ROUGE dopĺňa iné hodnotiace metriky a poskytuje komplexnejšie posúdenie kvality prekladu, najmä z hľadiska zachovania obsahu.
Pri vývoji chatbotov – najmä AI asistentov, ktorí sumarizujú alebo parafrázujú vstup používateľa – ROUGE pomáha zabezpečiť, že asistent zachováva kľúčové informácie.
Hoci je ROUGE široko používaný, má aj obmedzenia:
Na zmiernenie týchto problémov:
V AI automatizácii a vývoji chatbotov integrácia ROUGE do vývojového cyklu pomáha pri:
ROUGE skóre je súbor metrík používaných na hodnotenie automatickej sumarizácie a strojového prekladu. Zameriava sa na meranie prekryvu medzi predikovanými a referenčnými súhrnmi, najmä cez n-gramové ko-výskyty. Práca Kavity Ganesan „ROUGE 2.0: Updated and Improved Measures for Evaluation of Summarization Tasks“ zavádza viaceré vylepšenia pôvodných ROUGE metrík. Tieto vylepšenia sa snažia riešiť obmedzenia tradičných meraní pri zachytávaní synonymických konceptov a pokrytia tém, pričom ponúkajú nové metriky ako ROUGE-N+Synonyms a ROUGE-Topic. Čítajte viac.
Vo „Revisiting Summarization Evaluation for Scientific Articles“ Arman Cohan a Nazli Goharian skúmajú efektivitu ROUGE, najmä pri sumarizácii vedeckých článkov. Tvrdia, že závislosť ROUGE na lexikálnom prekryve môže byť nedostatočná pri variáciách terminológie a parafrázovaní, a navrhujú alternatívnu metriku SERA, ktorá lepšie koreluje s manuálnym hodnotením. Čítajte viac.
Elaheh ShafieiBavani a kolegovia navrhujú sémanticky motivovaný prístup v práci „A Semantically Motivated Approach to Compute ROUGE Scores“, kde integrujú algoritmus založený na grafe na zachytenie sémantických podobností popri lexikálnych. Ich metóda vykazuje lepšiu koreláciu s ľudským hodnotením pri abstraktnej sumarizácii, ako ukazujú výsledky na dátach TAC AESOP. Čítajte viac.
Napokon, práca „Point-less: More Abstractive Summarization with Pointer-Generator Networks“ od Freeka Boutkana a kol. diskutuje pokroky v modeloch abstraktnej sumarizácie. Hoci sa nezameriava výlučne na ROUGE, poukazuje na výzvy hodnotiacich metrík pre neextraktívne súhrny a naznačuje potrebu nuansovanejších hodnotiacich techník. Čítajte viac.
ROUGE skóre (Recall-Oriented Understudy for Gisting Evaluation) je súbor metrík používaných na hodnotenie kvality súhrnov a prekladov generovaných strojom meraním ich prekryvu s ľudskými referenčnými textami.
Hlavné metriky ROUGE zahŕňajú ROUGE-N (prekryv n-gramov), ROUGE-L (najdlhšia spoločná subsekvencia), ROUGE-S (skip-bigram) a ROUGE-W (vážená LCS). Každá metrika zachytáva odlišné aspekty podobnosti obsahu medzi textami.
ROUGE sa široko používa na hodnotenie automatickej sumarizácie textu, strojového prekladu a výstupov jazykových modelov, čím pomáha vývojárom posúdiť, ako dobre strojom generovaný obsah zodpovedá referenčným textom.
ROUGE sa zameriava na povrchovú zhodu a nemusí zachytiť sémantickú podobnosť, parafrázovanie alebo kontext. Môže byť zaujatá v prospech dlhších súhrnov a mala by byť doplnená inými hodnotiacimi metrikami a ľudským posúdením.
ROUGE-N sa počíta spočítaním prekryvajúcich sa n-gramov medzi kandidátskym a referenčným súhrnom a následným výpočtom recall, precision a ich harmonického priemeru (F1 skóre).
Zistite, ako môžete využiť AI nástroje a chatboty FlowHunt na automatizáciu svojich pracovných tokov a zlepšenie generovania obsahu.
BLEU skóre, alebo Bilingual Evaluation Understudy, je kľúčová metrika na hodnotenie kvality textu vytvoreného systémami strojového prekladu. Vyvinuté spoločnosť...
Plocha pod krivkou (AUC) je základná metrika v strojovom učení, ktorá sa používa na hodnotenie výkonnosti binárnych klasifikačných modelov. Kvantifikuje celkovú...
Retrieval Augmented Generation (RAG) je pokročilý AI rámec, ktorý kombinuje tradičné systémy na vyhľadávanie informácií s generatívnymi veľkými jazykovými model...