
Średni błąd bezwzględny (MAE)
Średni błąd bezwzględny (MAE) to podstawowa miara w uczeniu maszynowym służąca do oceny modeli regresyjnych. Mierzy średnią wielkość błędów prognoz, zapewniając...
ROUGE to zestaw metryk zorientowanych na recall do oceny streszczeń i tłumaczeń generowanych przez maszyny, poprzez porównanie ich z referencjami przygotowanymi przez ludzi w zadaniach NLP.
ROUGE został zaprojektowany do mierzenia pokrycia pomiędzy kandydackim streszczeniem (automatycznie wygenerowanym) a zestawem streszczeń referencyjnych (zazwyczaj tworzonych przez ludzi). Koncentruje się na statystykach przypomnienia (recall), podkreślając, jak dużo ważnej treści z referencyjnych streszczeń znalazło się w kandydackim streszczeniu.
ROUGE to nie jedna metryka, lecz zbiór miar, z których każda mierzy inny aspekt podobieństwa tekstów. Najczęściej wykorzystywane metryki ROUGE to:
ROUGE-N ocenia pokrycie n-gramów pomiędzy kandydatem a referencyjnymi streszczeniami. N-gram to ciąg ‘n’ kolejnych słów z tekstu. Przykłady:
Jak działa ROUGE-N
Wynik ROUGE-N oblicza się według wzoru:
ROUGE-N = (Suma dopasowanych n-gramów w referencji) / (Liczba wszystkich n-gramów w referencji)
Gdzie:
Przykład obliczenia
Załóżmy:
Wyciągamy unigramy (ROUGE-1):
Liczymy pokrywające się unigramy:
Obliczamy recall:
Recall = liczba pokrywających się unigramów / liczba unigramów w referencji = 6 / 6 = 1.0
Precyzja:
Precision = liczba pokrywających się unigramów / liczba unigramów w kandydacie = 6 / 7 ≈ 0.857
Wynik F1 (ROUGE-1):
F1 Score = 2 × (Precision × Recall) / (Precision + Recall) ≈ 0.923
ROUGE-L wykorzystuje najdłuższy wspólny podciąg (LCS) pomiędzy kandydatem a streszczeniem referencyjnym. W przeciwieństwie do n-gramów, LCS nie wymaga ciągłości, lecz zachowania kolejności słów.
Jak działa ROUGE-L
LCS to najdłuższa sekwencja słów występująca zarówno w kandydacie, jak i referencji, w tej samej kolejności, ale niekoniecznie bez przerw.
Przykład obliczenia
Dla tych samych streszczeń:
Wyznaczamy LCS:
ROUGE-L Recall:
Recall_LCS = długość LCS / liczba słów w referencji = 6 / 6 = 1.0
Precyzja:
Precision_LCS = długość LCS / liczba słów w kandydacie = 6 / 7 ≈ 0.857
Wynik F1 (ROUGE-L):
F1 Score_LCS = 2 × (Precision_LCS × Recall_LCS) / (Precision_LCS + Recall_LCS) ≈ 0.923
ROUGE-S, czyli ROUGE-Skip-Bigram, uwzględnia pary skip-bigramów w kandydacie i referencji. Skip-bigram to dowolna para słów w zachowanej kolejności, pozwalając na przerwy między słowami.
Jak działa ROUGE-S
Mierzy pokrycie par skip-bigramów pomiędzy kandydatem a referencją.
Liczymy liczbę dopasowanych skip-bigramów i na tej podstawie obliczamy precyzję, recall i wynik F1 tak jak dla ROUGE-N.
ROUGE jest wykorzystywany głównie do oceny:
W streszczaniu tekstu ROUGE mierzy, jaka część treści z referencyjnego streszczenia znalazła się w wygenerowanym streszczeniu.
Przykład użycia
Tworząc algorytm AI do streszczania artykułów prasowych:
W tłumaczeniach maszynowych ROUGE może uzupełniać inne metryki, jak BLEU, koncentrując się na recall.
Przykład użycia
Załóżmy, że chatbot AI tłumaczy wiadomości z hiszpańskiego na angielski. By ocenić jakość tłumaczeń:
W obszarze sztucznej inteligencji, zwłaszcza z rozwojem dużych modeli językowych (LLM) i agentów konwersacyjnych, ocena jakości generowanego tekstu jest kluczowa. Wyniki ROUGE pełnią ważną rolę w:
Chatboty i asystenci wirtualni często muszą streszczać informacje lub parafrazować wypowiedzi użytkowników.
Ocena tych funkcji za pomocą ROUGE pozwala upewnić się, że chatbot zachowuje kluczowe informacje.
Systemy AI generujące treści, np. automatyczne pisanie newsów lub raportów, polegają na ROUGE do oceny, na ile wygenerowana treść odpowiada oczekiwanym streszczeniom czy punktom kluczowym.
Podczas trenowania modeli do zadań takich jak streszczanie czy tłumaczenie, wyniki ROUGE pomagają w:
Precyzja mierzy stosunek pokrywających się jednostek (n-gramów, słów, sekwencji) pomiędzy kandydatem a referencją do wszystkich jednostek w streszczeniu kandydata.
Precision = liczba pokrywających się jednostek / liczba jednostek w kandydacie
Recall mierzy stosunek pokrywających się jednostek do wszystkich jednostek w streszczeniu referencyjnym.
Recall = liczba pokrywających się jednostek / liczba jednostek w referencji
Wynik F1 to średnia harmoniczna precyzji i recall.
F1 Score = 2 × (Precision × Recall) / (Precision + Recall)
Dla podanej długości n-gramu ‘n’ ROUGE-N oblicza się poprzez dopasowanie n-gramów pomiędzy kandydatem a referencją.
Przykład dla ROUGE-2 (bigramy)
Używając wcześniejszych streszczeń:
Liczba pokrywających się bigramów:
Recall:
Recall_ROUGE-2 = 4 / 5 = 0.8
Precyzja:
Precision_ROUGE-2 = 4 / 6 ≈ 0.667
Wynik F1 (ROUGE-2):
F1 Score_ROUGE-2 = 2 × (0.8 × 0.667) / (0.8 + 0.667) ≈ 0.727
Gdy dostępnych jest kilka streszczeń referencyjnych, wyniki ROUGE oblicza się względem każdego z nich i wybiera ten najwyższy. Uwzględnia to fakt, że istnieje wiele poprawnych streszczeń tej samej treści.
Narzędzia do streszczania dokumentów, artykułów czy raportów wykorzystujące AI używają ROUGE do oceny i poprawy swojej wydajności.
ROUGE uzupełnia inne metryki oceny, zapewniając szerszą ocenę jakości tłumaczenia, zwłaszcza pod kątem zachowania treści.
Przy tworzeniu chatbotów, zwłaszcza asystentów AI, którzy streszczają lub parafrazują wypowiedzi użytkowników, ROUGE pomaga sprawdzić, czy asystent nie traci kluczowych informacji.
Mimo szerokiego zastosowania ROUGE nie jest pozbawiony wad:
By zminimalizować te problemy:
W automatyzacji AI i tworzeniu chatbotów integracja ROUGE w cyklu rozwoju pomaga w:
Wynik ROUGE to zbiór metryk stosowanych do oceny automatycznego streszczania i tłumaczeń maszynowych. Skupia się na mierzeniu pokrycia pomiędzy przewidywanymi i referencyjnymi streszczeniami, głównie poprzez współwystępowanie n-gramów. Artykuł Kavity Ganesan „ROUGE 2.0: Updated and Improved Measures for Evaluation of Summarization Tasks” wprowadza kilka ulepszeń do oryginalnych metryk ROUGE. Ulepszenia te mają na celu lepsze uchwycenie synonimicznych pojęć i pokrycia tematów, oferując m.in. ROUGE-N+Synonyms i ROUGE-Topic. Czytaj więcej.
W artykule „Revisiting Summarization Evaluation for Scientific Articles” Arman Cohan i Nazli Goharian analizują skuteczność ROUGE, szczególnie dla streszczeń artykułów naukowych. Wskazują, że oparcie ROUGE na pokryciu leksykalnym może być niewystarczające w przypadku zmienności terminologii i parafrazowania, proponując alternatywną metrykę SERA, lepiej korelującą z ocenami ekspertów. Czytaj więcej.
Elaheh ShafieiBavani i współautorzy proponują podejście motywowane semantycznie w „A Semantically Motivated Approach to Compute ROUGE Scores”, integrując algorytm bazujący na grafach, który uchwytuje podobieństwa semantyczne obok leksykalnych. Ich metoda wykazuje lepszą zgodność z ocenami ludzkimi w streszczeniach abstrakcyjnych, co pokazano na zbiorach TAC AESOP. Czytaj więcej.
Wreszcie, artykuł „Point-less: More Abstractive Summarization with Pointer-Generator Networks” Freeka Boutkana i in. omawia rozwój modeli streszczeń abstrakcyjnych. Choć nie koncentruje się wyłącznie na ROUGE, podkreśla wyzwania związane z oceną streszczeń niebędących ekstraktywnymi, sugerując potrzebę bardziej zniuansowanych technik ewaluacyjnych. Czytaj więcej.
Wynik ROUGE (Recall-Oriented Understudy for Gisting Evaluation) to zestaw miar służących do oceny jakości streszczeń i tłumaczeń generowanych przez maszyny poprzez mierzenie ich pokrycia z referencjami napisanymi przez ludzi.
Główne metryki ROUGE to ROUGE-N (pokrycie n-gramów), ROUGE-L (najdłuższy wspólny podciąg), ROUGE-S (skip-bigram) oraz ROUGE-W (ważony LCS). Każda z nich uchwytuje inny aspekt podobieństwa treści między tekstami.
ROUGE jest szeroko wykorzystywany do oceny automatycznego streszczania tekstów, tłumaczeń maszynowych oraz wyników modeli językowych, pomagając deweloperom ocenić, na ile treści generowane przez maszynę pokrywają się z referencyjnymi tekstami.
ROUGE koncentruje się na dopasowaniach powierzchniowych i może nie uchwycić podobieństwa semantycznego, parafraz czy kontekstu. Może faworyzować dłuższe streszczenia i powinien być uzupełniany innymi miarami i oceną ludzką.
ROUGE-N oblicza się licząc pokrywające się n-gramy między kandydatem a streszczeniem referencyjnym, a następnie wyliczając recall, precyzję oraz ich średnią harmoniczną (F1 score).
Odkryj, jak możesz wykorzystać narzędzia AI i chatboty FlowHunt, by automatyzować swoje procesy i usprawnić generowanie treści.
Średni błąd bezwzględny (MAE) to podstawowa miara w uczeniu maszynowym służąca do oceny modeli regresyjnych. Mierzy średnią wielkość błędów prognoz, zapewniając...
Lexile Framework for Reading to naukowa metoda mierzenia zarówno umiejętności czytelnika, jak i złożoności tekstu na tej samej skali rozwojowej, pomagająca dopa...
Pole pod krzywą (AUC) to podstawowa miara w uczeniu maszynowym służąca do oceny skuteczności modeli klasyfikacji binarnej. Określa ogólną zdolność modelu do roz...