ROUGE skóre
ROUGE skóre je sada metrik používaných k hodnocení kvality strojově generovaných shrnutí a překladů porovnáním s lidskými referencemi. Široce používané v NLP, R...
BLEU skóre je široce využívaná metrika pro hodnocení kvality strojově generovaných překladů porovnáním s lidskými referencemi pomocí n-gramů, přesnosti a penalizace přílišné stručnosti.
BLEU skóre (Bilingual Evaluation Understudy) je klíčová metrika pro hodnocení kvality textu generovaného strojovými překladatelskými systémy. Byla vyvinuta společností IBM v roce 2001 a představovala průlomový ukazatel, který vykazoval silnou korelaci s lidským hodnocením kvality překladu. BLEU skóre zůstává základním pilířem v oblasti zpracování přirozeného jazyka (NLP) a je široce využíváno k posuzování strojových překladů.
V jádru BLEU skóre měří podobnost mezi strojově generovaným překladem a jedním či více lidskými referenčními překlady. Čím bližší je strojový překlad lidské referenci, tím vyšší je BLEU skóre, které se pohybuje od 0 do 1. Skóre blížící se 1 naznačuje vysokou podobnost, přičemž dokonalé skóre 1 je vzácné a může naznačovat přetrénování, což není žádoucí.
N-gramy jsou souvislé sekvence ‘n’ prvků z daného textu nebo mluveného vzorku, obvykle slov. V BLEU se n-gramy používají k porovnání strojových překladů s referenčními překlady. Například ve větě „The cat is on the mat“ jsou n-gramy:
BLEU vypočítává přesnost pomocí těchto n-gramů, aby posoudilo překrytí mezi kandidátním překladem a referenčními překlady.
BLEU definuje přesnost jako podíl n-gramů v kandidátním překladu, které se také objevují v referenčních překladech. Aby se zabránilo nadhodnocení opakovaných n-gramů, BLEU používá „modifikovanou přesnost“, která omezuje počet každého n-gramu v kandidátním překladu na jeho maximální výskyt v některém z referenčních překladů.
Penalizace přílišné stručnosti je v BLEU zásadní, protože penalizuje překlady, které jsou příliš krátké. Kratší překlady mohou dosáhnout vysoké přesnosti tím, že vynechají nejisté části textu. Tato penalizace se počítá na základě poměru délek kandidátního a referenčního překladu, což zajišťuje, že překlady nejsou ani příliš krátké, ani příliš dlouhé ve srovnání s referencí.
BLEU agreguje přesnostní skóre napříč různými velikostmi n-gramů (obvykle až do 4-gramů) pomocí geometrického průměru, čímž vyvažuje potřebu zachytit jak lokální, tak širší kontext v překladu.
BLEU skóre je matematicky reprezentováno jako:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Kde:
BLEU se primárně používá k hodnocení systémů strojového překladu, kde poskytuje kvantitativní měřítko pro srovnání různých systémů a sledování zlepšení. Je obzvláště cenný ve výzkumu a vývoji pro testování účinnosti překladových modelů.
Ačkoliv byl BLEU původně zamýšlen pro překlad, využívá se i v dalších NLP úlohách jako sumarizace textu či parafrázování, kde je požadována podobnost výstupu s lidskou referencí.
BLEU může hodnotit kvalitu odpovědí generovaných AI modely v automatizaci a chatbotech, čímž zajišťuje, že výstupy jsou srozumitelné a kontextuálně vhodné vůči lidským odpovědím.
Navzdory širokému využití má BLEU jistá omezení:
BLEU skóre (Bilingual Evaluation Understudy) je metrika používaná pro hodnocení kvality strojově generovaných překladů porovnáním s jedním nebo více lidskými referenčními překlady pomocí překryvu n-gramů, přesnosti, penalizace přílišné stručnosti a geometrického průměru.
Klíčové složky zahrnují n-gramy, modifikovanou přesnost, penalizaci přílišné stručnosti a geometrický průměr přesnostních skóre napříč různými velikostmi n-gramů.
BLEU se zaměřuje na podobnost řetězců a nezohledňuje sémantický význam, je citlivé na počet a kvalitu referenčních překladů, může dávat zavádějící vysoké skóre u přetrénovaných systémů a nedostatečně penalizuje nesprávné pořadí slov.
Chytré chatboty a AI nástroje pod jednou střechou. Propojte intuitivní bloky a proměňte své nápady v automatizované toky.
ROUGE skóre je sada metrik používaných k hodnocení kvality strojově generovaných shrnutí a překladů porovnáním s lidskými referencemi. Široce používané v NLP, R...
Zpracování přirozeného jazyka (NLP) umožňuje počítačům porozumět, interpretovat a generovat lidský jazyk s využitím počítačové lingvistiky, strojového učení a h...
Velký jazykový model Meta AI (LLaMA) je špičkový model pro zpracování přirozeného jazyka vyvinutý společností Meta. S až 65 miliardami parametrů vyniká LLaMA v ...