Křivka učení
Křivka učení v umělé inteligenci je grafické znázornění, které ilustruje vztah mezi výkonností modelu a proměnnými, jako je velikost datové sady nebo počet trén...
Upravené R-kvadrát je statistická míra používaná k hodnocení kvality přizpůsobení regresního modelu, která zohledňuje počet prediktorů, aby se zabránilo přeplnění modelu a poskytlo přesnější posouzení jeho výkonnosti.
Upravené R-kvadrát hodnotí přizpůsobení regresního modelu s ohledem na prediktory, aby se zabránilo přeplnění modelu. Na rozdíl od R-kvadrátu se zvyšuje pouze při významných prediktorech. Je zásadní v regresní analýze, pomáhá při výběru modelu a hodnocení výkonnosti v oblastech jako je finance.
Upravené R-kvadrát je statistická míra používaná k hodnocení kvality přizpůsobení regresního modelu. Jde o upravenou verzi R-kvadrátu (neboli koeficientu determinace), která zohledňuje počet prediktorů v modelu. Na rozdíl od R-kvadrátu, který může být uměle navýšen přidáním dalších nezávislých proměnných, Upravené R-kvadrát upravuje hodnotu s ohledem na počet prediktorů a poskytuje tak přesnější měřítko vysvětlovací síly modelu. Zvyšuje se pouze v případě, že nový prediktor zlepšuje prediktivní sílu modelu více, než by se dalo očekávat náhodou, a snižuje se, když prediktor nepřináší významnou hodnotu.
Upravené R-kvadrát hraje klíčovou roli při hodnocení regresních modelů supervised strojového učení a doplňuje metriky jako RMSE, MAE a skóre křížové validace. Zatímco obyčejné R-kvadrát monotónně roste s každým přidaným prediktorem — což jej činí nebezpečným pro porovnávání modelů s různým počtem proměnných — Upravené R-kvadrát explicitně penalizuje přidané prediktory, které si svou pozici nezasloužily, a je proto přirozenou volbou pro pracovní postupy výběru rysů v pipeline postavených na scikit-learn, statsmodels nebo XGBoost. Praktici typicky kombinují Upravené R-kvadrát s k-fold křížovou validací: křížová validace chrání před optimistickým in-sample biasem na neviděných datech, zatímco Upravené R-kvadrát poskytuje interpretovatelný a o komplexitě informovaný in-sample souhrn, který je užitečný při porovnávání vnořených lineárních modelů nebo kandidátů krokové regrese. V regularizovaných nastaveních jako Ridge, Lasso a Elastic Net lze Upravené R-kvadrát uvádět spolu se zvolenou silou regularizace, abychom ověřili, že zmenšování koeficientů neobětovalo smysluplnou vysvětlovací sílu. Pro vysokodimenzionální ML problémy, kde se počet rysů blíží velikosti vzorku nebo ji překračuje, se však Upravené R-kvadrát stává nespolehlivým a měl by být nahrazen informačními kritérii (AIC, BIC) nebo predikčními metrikami mimo vzorek, které jsou robustní vůči přeučení v moderních pracovních postupech strojového učení.
Vzorec pro Upravené R-kvadrát je:
[ \text{Adjusted } R^2 = 1 – \left( \frac{1-R^2}{n-k-1} \right) \times (n-1) ]
Kde:
Upravené R-kvadrát je klíčové v regresní analýze, zejména při práci s vícenásobnými regresními modely, kde je zahrnuto několik nezávislých proměnných. Pomáhá určit, které proměnné přinášejí smysluplné informace a které nikoli. To je zvláště důležité v oblastech jako finance, ekonomie nebo datová věda, kde je prediktivní modelování zásadní.
Jednou z hlavních výhod Upraveného R-kvadrátu je schopnost penalizovat přidání nevýznamných prediktorů. Přidání dalších proměnných do regresního modelu obvykle zvyšuje R-kvadrát díky vyšší pravděpodobnosti zachycení náhodného šumu. Upravené R-kvadrát se však zvýší jen tehdy, pokud nová proměnná zlepšuje prediktivní sílu modelu, čímž napomáhá vyhnout se přeplnění.
Ve strojovém učení se Upravené R-kvadrát používá k hodnocení výkonnosti regresních modelů. Je obzvlášť užitečné při výběru příznaků, což je klíčová část optimalizace modelu. Díky Upravenému R-kvadrátu mohou datoví analytici zajistit, že do modelu jsou zahrnuty pouze ty příznaky, které skutečně přispívají k jeho přesnosti.
Ve financích se Upravené R-kvadrát často používá ke srovnání výkonnosti investičních portfolií vůči referenčnímu indexu. Díky úpravě podle počtu proměnných mohou investoři lépe pochopit, jak dobře jsou výnosy portfolia vysvětleny různými ekonomickými faktory.
Uvažujme model, který predikuje cenu domu na základě obytné plochy a počtu ložnic. Na začátku model vykazuje vysokou hodnotu R-kvadrátu, což naznačuje dobré přizpůsobení. Pokud však přidáme další nerelevantní proměnné, například barvu vchodových dveří, může R-kvadrát zůstat vysoký. Upravené R-kvadrát by se v tomto případě snížilo, což signalizuje, že nové proměnné nepřispívají ke zlepšení prediktivní síly modelu.
Dle průvodce Corporate Finance Institute zvažte dva regresní modely pro odhad ceny pizzy. První model používá jako jedinou vstupní proměnnou cenu těsta, výsledkem je R-kvadrát 0,9557 a Upravené R-kvadrát 0,9493. Druhý model přidává jako druhou vstupní proměnnou teplotu, výsledkem je R-kvadrát 0,9573, ale nižší Upravené R-kvadrát 0,9431. Upravené R-kvadrát správně ukazuje, že teplota nezlepšuje prediktivní sílu modelu, a analytici by měli dát přednost prvnímu modelu.
Ačkoli R-kvadrát i Upravené R-kvadrát slouží k měření kvality přizpůsobení modelu, nejsou zaměnitelné a mají různé účely. R-kvadrát je vhodnější pro jednoduchou lineární regresi s jednou nezávislou proměnnou, zatímco Upravené R-kvadrát je vhodnější pro vícenásobné regresní modely s více prediktory.
Využijte AI nástroje FlowHunt k vytváření, testování a optimalizaci regresních modelů s pokročilými metrikami jako Upravené R-kvadrát.
Křivka učení v umělé inteligenci je grafické znázornění, které ilustruje vztah mezi výkonností modelu a proměnnými, jako je velikost datové sady nebo počet trén...
Robustnost modelu označuje schopnost modelu strojového učení (ML) zachovat konzistentní a přesný výkon i přes variace a nejistoty ve vstupních datech. Robustní ...
ROC křivka (Receiver Operating Characteristic) je grafické znázornění používané pro posouzení výkonnosti binárního klasifikačního systému při změně jeho rozhodo...
Souhlas s cookies
Používáme cookies ke zlepšení vašeho prohlížení a analýze naší návštěvnosti. See our privacy policy.