Random Forest Regression
Random Forest Regression er en kraftfuld maskinlæringsalgoritme, der bruges til forudsigende analyse. Den konstruerer flere beslutningstræer og gennemsnitliggør...
Justeret R-kvadrat er et statistisk mål, der bruges til at evaluere, hvor godt en regressionsmodel passer, idet der tages højde for antallet af prædiktorer for at undgå overfitting og give en mere præcis vurdering af modellens ydeevne.
Justeret R-kvadrat vurderer regressionsmodellens tilpasning ved at justere for prædiktorer for at undgå overfitting. I modsætning til R-kvadrat stiger den kun med signifikante prædiktorer. Væsentlig i regressionsanalyse hjælper den med modelvalg og performancevurdering i bl.a. finanssektoren.
Justeret R-kvadrat er et statistisk mål, der bruges til at vurdere, hvor godt en regressionsmodel passer. Det er en modificeret version af R-kvadrat (eller forklaringsgraden), som tager højde for antallet af prædiktorer i modellen. I modsætning til R-kvadrat, som kan blive kunstigt høj ved tilføjelse af flere uafhængige variabler, justerer justeret R-kvadrat for antallet af prædiktorer og giver et mere præcist mål for modellens forklaringskraft. Den stiger kun, hvis den nye prædiktor forbedrer modellens forudsigelsesevne mere end forventet ved tilfældighed og falder, når en prædiktor ikke tilføjer væsentlig værdi.
Justeret R-kvadrat spiller en central rolle i evalueringen af superviserede regressionsmodeller i maskinlæring og supplerer metrikker som RMSE, MAE og krydsvalideringsscores. Mens almindelig R-kvadrat monotont stiger, når man tilføjer flere features — hvilket gør den farlig at bruge til at sammenligne modeller med forskellige antal prædiktorer — straffer justeret R-kvadrat eksplicit ekstra features, som ikke fortjener deres plads, hvilket gør den til et naturligt valg i feature selection-arbejdsgange i pipelines bygget med scikit-learn, statsmodels eller XGBoost. Praktikere kombinerer typisk justeret R-kvadrat med k-fold krydsvalidering: krydsvalidering beskytter mod optimistisk in-sample bias på data, der er holdt ude, mens justeret R-kvadrat giver et fortolkbart, kompleksitetsbevidst in-sample-resumé, som er nyttigt ved sammenligning af nestede lineære modeller eller kandidater til stepwise regression. I regulariserede opsætninger som Ridge, Lasso og Elastic Net kan justeret R-kvadrat rapporteres sammen med den valgte regulariseringsstyrke for at verificere, at krympning af koefficienter ikke har ofret meningsfuld forklaringskraft. For højdimensionale ML-problemer, hvor antallet af features nærmer sig eller overstiger stikprøvestørrelsen, bliver justeret R-kvadrat dog upålidelig og bør erstattes af informationskriterier (AIC, BIC) eller out-of-sample prædiktive metrikker, der er robuste over for overfitting i moderne maskinlæringsarbejdsgange.
Formlen for justeret R-kvadrat er:
[ \text{Justeret } R^2 = 1 – \left( \frac{1-R^2}{n-k-1} \right) \times (n-1) ]
Hvor:
Justeret R-kvadrat er afgørende i regressionsanalyse, især når man arbejder med multiple regressionsmodeller, hvor flere uafhængige variabler indgår. Den hjælper med at afgøre, hvilke variabler der bidrager med meningsfuld information, og hvilke der ikke gør. Dette er særligt vigtigt i felter som finans, økonomi og data science, hvor prædiktiv modellering er centralt.
En af de største fordele ved justeret R-kvadrat er dens evne til at straffe tilføjelsen af ikke-signifikante prædiktorer. Tilføjelse af flere variabler til en regressionsmodel øger typisk R-kvadrat på grund af muligheden for at fange tilfældig støj. Justeret R-kvadrat vil dog kun stige, hvis den tilføjede variabel forbedrer modellens forudsigelsesevne, og dermed undgås overfitting.
I maskinlæring anvendes justeret R-kvadrat til at vurdere regressionsmodellers ydeevne. Den er særligt nyttig til feature selection, som er en vigtig del af modeloptimering. Ved at bruge justeret R-kvadrat kan dataforskere sikre, at kun de features, der reelt bidrager til modellens nøjagtighed, inkluderes.
I finans bruges justeret R-kvadrat ofte til at sammenligne investeringsporteføljers ydeevne mod et benchmarkindeks. Ved at justere for antallet af variabler kan investorer bedre forstå, hvor godt en porteføljes afkast forklares af forskellige økonomiske faktorer.
Overvej en model, der forudsiger huspriser ud fra kvadratmeter og antal soveværelser. Indledningsvist viser modellen en høj R-kvadrat-værdi, hvilket tyder på et godt fit. Når der tilføjes irrelevante variabler, som f.eks. farven på hoveddøren, forbliver R-kvadrat måske høj. Justeret R-kvadrat vil i dette tilfælde falde og indikere, at de nye variabler ikke forbedrer modellens forudsigelsesevne.
Ifølge en vejledning fra Corporate Finance Institute kan man overveje to regressionsmodeller til at forudsige prisen på en pizza. Den første model bruger prisen på dej som eneste inputvariabel og giver en R-kvadrat på 0,9557 og en justeret R-kvadrat på 0,9493. En anden model tilføjer temperatur som en anden inputvariabel, hvilket giver en R-kvadrat på 0,9573 men en lavere justeret R-kvadrat på 0,9431. Den justerede R-kvadrat indikerer korrekt, at temperatur ikke forbedrer modellens forudsigelsesevne, og guider analytikere til at foretrække den første model.
Selvom både R-kvadrat og justeret R-kvadrat bruges til at måle modeltilpasning, er de ikke indbyrdes udskiftelige og har forskellige formål. R-kvadrat kan være mere passende for simpel lineær regression med én uafhængig variabel, mens justeret R-kvadrat er bedre egnet til multiple regressionsmodeller med flere prædiktorer.
Udnyt FlowHunt’s AI-værktøjer til at bygge, teste og optimere regressionsmodeller med avancerede metrikker som justeret R-kvadrat.
Random Forest Regression er en kraftfuld maskinlæringsalgoritme, der bruges til forudsigende analyse. Den konstruerer flere beslutningstræer og gennemsnitliggør...
Model finjustering tilpasser fortrænede modeller til nye opgaver ved at foretage mindre justeringer, hvilket reducerer behovet for data og ressourcer. Lær hvord...
En Receiver Operating Characteristic (ROC) kurve er en grafisk repræsentation, der bruges til at vurdere ydeevnen af et binært klassifikationssystem, mens dets ...