Oikaistu R-neliö

Oikaistu R-neliö arvioi regressiomallin sopivuutta, huomioiden selittävien muuttujien määrän ylisovittamisen välttämiseksi. Toisin kuin R-neliö, se kasvaa vain merkittävien muuttujien myötä. Keskeinen regressioanalyysissä, se auttaa mallin valinnassa ja suorituskyvyn arvioinnissa esimerkiksi rahoitusalalla.

Oikaistu R-neliö on tilastollinen mittari, jolla arvioidaan regressiomallin selitysastetta. Se on muokattu versio R-neliöstä (tai selitysasteesta), joka ottaa huomioon mallin selittävien muuttujien määrän. Toisin kuin R-neliö, joka voi kasvaa keinotekoisesti, kun malliin lisätään uusia riippumattomia muuttujia, oikaistu R-neliö korjaa muuttujien määrän mukaan ja antaa tarkemman arvion mallin selitysvoimasta. Se kasvaa vain, jos uusi muuttuja parantaa mallin ennustustarkkuutta enemmän kuin satunnaisesti odotettavissa olisi, ja pienenee, jos muuttuja ei tuo merkittävää lisäarvoa.

Käsitteen ymmärtäminen

R-neliö vs. oikaistu R-neliö

  • R-neliö: Kuvaa sitä osuutta riippuvan muuttujan vaihtelusta, jonka selittävät muuttujat kykenevät selittämään. Se lasketaan selitetyn varianssin ja kokonaisvarianssin suhteena ja vaihtelee välillä 0–1, missä 1 tarkoittaa, että malli selittää kaiken vasteen vaihtelun keskiarvon ympärillä.
  • Oikaistu R-neliö: Tämä mittari korjaa R-neliön arvoa mallissa olevien selittävien muuttujien määrän perusteella. Korjaus tehdään ylisovittamisen mahdollisuuden huomioimiseksi, joka voi ilmetä, kun malliin lisätään liikaa muuttujia. Oikaistu R-neliö on aina pienempi tai yhtä suuri kuin R-neliö ja voi olla negatiivinen, mikä kertoo, että malli on heikompi kuin vaakasuora viiva riippuvan muuttujan keskiarvon kohdalla.

Matemaattinen kaava

Oikaistun R-neliön kaava on:

[ \text{Oikaistu } R^2 = 1 – \left( \frac{1-R^2}{n-k-1} \right) \times (n-1) ]

Missä:

  • ( R^2 ) on R-neliö,
  • ( n ) on havaintojen määrä,
  • ( k ) on itsenäisten muuttujien (selittäjien) määrä.

Merkitys regressioanalyysissä

Oikaistu R-neliö on olennainen regressioanalyysissä, erityisesti monimuuttujaregressiossa, jossa mallissa on useita selittäviä muuttujia. Sen avulla voidaan tunnistaa, mitkä muuttujat tuovat merkityksellistä informaatiota ja mitkä eivät. Tämä on erityisen tärkeää esimerkiksi rahoituksessa, taloustieteessä ja data-analytiikassa, joissa ennustemallinnus on keskeistä.

Ylisovittaminen ja mallin monimutkaisuus

Yksi oikaistun R-neliön tärkeimmistä eduista on sen kyky rankaista epäolennaisten muuttujien lisäämisestä. Uusien muuttujien lisääminen regressiomalliin kasvattaa yleensä R-neliötä, koska satunnaista vaihtelua tulee mukaan. Oikaistu R-neliö kuitenkin kasvaa vain, jos lisätty muuttuja parantaa mallin ennustustarkkuutta, jolloin ylisovittamista voidaan välttää.

FlowHunt Logo

Valmis kasvattamaan liiketoimintaasi?

Aloita ilmainen kokeilujakso tänään ja näe tulokset muutamassa päivässä.

Käyttötapaukset ja esimerkit

Käyttö koneoppimisessa

Koneoppimisessa oikaistua R-neliötä käytetään regressiomallien suorituskyvyn arviointiin. Se on erityisen hyödyllinen ominaisuuksien valinnassa, joka on olennainen osa mallin optimointia. Oikaistun R-neliön avulla data-analyytikot voivat varmistaa, että malliin sisällytetään vain aidosti mallin tarkkuuteen vaikuttavat muuttujat.

Sovellus rahoitusalalla

Rahoituksessa oikaistua R-neliötä käytetään usein sijoitussalkkujen suorituskyvyn vertaamiseen vertailuindeksiin. Kun muuttujien määrä huomioidaan, sijoittajat voivat ymmärtää paremmin, kuinka hyvin salkun tuotot selittyvät erilaisilla taloudellisilla tekijöillä.

Yksinkertainen esimerkki

Kuvitellaan malli, joka ennustaa talon hintaa neliöiden ja makuuhuoneiden määrän perusteella. Aluksi malli antaa korkean R-neliön, mikä viittaa hyvään sopivuuteen. Jos malliin lisätään epäolennaisia muuttujia, kuten ulko-oven väri, R-neliö saattaa pysyä korkeana. Oikaistu R-neliö kuitenkin laskisi tässä tapauksessa, mikä osoittaa, että uudet muuttujat eivät paranna mallin ennustustarkkuutta.

Yksityiskohtainen esimerkki

Corporate Finance Instituten oppaan mukaan tarkastellaan kahta regressiomallia, jotka ennustavat pizzan hintaa. Ensimmäisessä mallissa käytetään taikinan hintaa ainoana muuttujana, jolloin R-neliö on 0,9557 ja oikaistu R-neliö 0,9493. Toiseen malliin lisätään lämpötila toisena muuttujana, jolloin R-neliö on 0,9573 mutta oikaistu R-neliö laskee arvoon 0,9431. Oikaistu R-neliö osoittaa oikein, ettei lämpötila paranna mallin selitysvoimaa, ja ohjaa analyytikkoa valitsemaan ensimmäisen mallin.

Vertailu muihin mittareihin

Vaikka sekä R-neliö että oikaistu R-neliö mittaavat mallin selitysastetta, ne eivät ole keskenään vaihdettavissa ja niillä on eri käyttötarkoitukset. R-neliö voi olla sopivampi yksinkertaisessa lineaarisessa regressiossa, jossa on vain yksi selittävä muuttuja, kun taas oikaistu R-neliö soveltuu paremmin monimuuttujaregressioon, jossa on useita selittäjiä.

Usein kysytyt kysymykset

Kokeile FlowHuntia älykkäämpään mallin arviointiin

Hyödynnä FlowHuntin tekoälytyökaluja regressiomallien rakentamiseen, testaamiseen ja optimointiin kehittyneillä mittareilla, kuten oikaistulla R-neliöllä.

Lue lisää

Lineaarinen regressio

Lineaarinen regressio

Lineaarinen regressio on tilastotieteen ja koneoppimisen keskeinen analyysimenetelmä, joka mallintaa riippuvien ja riippumattomien muuttujien välistä suhdetta. ...

3 min lukuaika
Statistics Machine Learning +3
Ennustava mallinnus

Ennustava mallinnus

Ennustava mallinnus on edistynyt prosessi data-analytiikassa ja tilastotieteessä, jossa ennustetaan tulevia tapahtumia analysoimalla historiallisten tietojen ma...

5 min lukuaika
Predictive Modeling Data Science +3
Logistinen regressio

Logistinen regressio

Logistinen regressio on tilastollinen ja koneoppimisen menetelmä, jota käytetään binaaristen lopputulosten ennustamiseen datasta. Se arvioi tapahtuman todennäkö...

4 min lukuaika
Logistic Regression Machine Learning +3