Lineær Regression
Lineær regression er en grundlæggende analytisk teknik inden for statistik og maskinlæring, der modellerer forholdet mellem afhængige og uafhængige variabler. K...
Justeret R-kvadrat er et statistisk mål, der bruges til at evaluere, hvor godt en regressionsmodel passer, idet der tages højde for antallet af prædiktorer for at undgå overfitting og give en mere præcis vurdering af modellens ydeevne.
Justeret R-kvadrat vurderer regressionsmodellens tilpasning ved at justere for prædiktorer for at undgå overfitting. I modsætning til R-kvadrat stiger den kun med signifikante prædiktorer. Væsentlig i regressionsanalyse hjælper den med modelvalg og performancevurdering i bl.a. finanssektoren.
Justeret R-kvadrat er et statistisk mål, der bruges til at vurdere, hvor godt en regressionsmodel passer. Det er en modificeret version af R-kvadrat (eller forklaringsgraden), som tager højde for antallet af prædiktorer i modellen. I modsætning til R-kvadrat, som kan blive kunstigt høj ved tilføjelse af flere uafhængige variabler, justerer justeret R-kvadrat for antallet af prædiktorer og giver et mere præcist mål for modellens forklaringskraft. Den stiger kun, hvis den nye prædiktor forbedrer modellens forudsigelsesevne mere end forventet ved tilfældighed og falder, når en prædiktor ikke tilføjer væsentlig værdi.
Justeret R-kvadrat spiller en central rolle i evalueringen af superviserede regressionsmodeller i maskinlæring og supplerer metrikker som RMSE, MAE og krydsvalideringsscores. Mens almindelig R-kvadrat monotont stiger, når man tilføjer flere features — hvilket gør den farlig at bruge til at sammenligne modeller med forskellige antal prædiktorer — straffer justeret R-kvadrat eksplicit ekstra features, som ikke fortjener deres plads, hvilket gør den til et naturligt valg i feature selection-arbejdsgange i pipelines bygget med scikit-learn, statsmodels eller XGBoost. Praktikere kombinerer typisk justeret R-kvadrat med k-fold krydsvalidering: krydsvalidering beskytter mod optimistisk in-sample bias på data, der er holdt ude, mens justeret R-kvadrat giver et fortolkbart, kompleksitetsbevidst in-sample-resumé, som er nyttigt ved sammenligning af nestede lineære modeller eller kandidater til stepwise regression. I regulariserede opsætninger som Ridge, Lasso og Elastic Net kan justeret R-kvadrat rapporteres sammen med den valgte regulariseringsstyrke for at verificere, at krympning af koefficienter ikke har ofret meningsfuld forklaringskraft. For højdimensionale ML-problemer, hvor antallet af features nærmer sig eller overstiger stikprøvestørrelsen, bliver justeret R-kvadrat dog upålidelig og bør erstattes af informationskriterier (AIC, BIC) eller out-of-sample prædiktive metrikker, der er robuste over for overfitting i moderne maskinlæringsarbejdsgange.
Formlen for justeret R-kvadrat er:
[ \text{Justeret } R^2 = 1 – \left( \frac{1-R^2}{n-k-1} \right) \times (n-1) ]
Hvor:
Justeret R-kvadrat er afgørende i regressionsanalyse, især når man arbejder med multiple regressionsmodeller, hvor flere uafhængige variabler indgår. Den hjælper med at afgøre, hvilke variabler der bidrager med meningsfuld information, og hvilke der ikke gør. Dette er særligt vigtigt i felter som finans, økonomi og data science, hvor prædiktiv modellering er centralt.
En af de største fordele ved justeret R-kvadrat er dens evne til at straffe tilføjelsen af ikke-signifikante prædiktorer. Tilføjelse af flere variabler til en regressionsmodel øger typisk R-kvadrat på grund af muligheden for at fange tilfældig støj. Justeret R-kvadrat vil dog kun stige, hvis den tilføjede variabel forbedrer modellens forudsigelsesevne, og dermed undgås overfitting.
I maskinlæring anvendes justeret R-kvadrat til at vurdere regressionsmodellers ydeevne. Den er særligt nyttig til feature selection, som er en vigtig del af modeloptimering. Ved at bruge justeret R-kvadrat kan dataforskere sikre, at kun de features, der reelt bidrager til modellens nøjagtighed, inkluderes.
I finans bruges justeret R-kvadrat ofte til at sammenligne investeringsporteføljers ydeevne mod et benchmarkindeks. Ved at justere for antallet af variabler kan investorer bedre forstå, hvor godt en porteføljes afkast forklares af forskellige økonomiske faktorer.
Overvej en model, der forudsiger huspriser ud fra kvadratmeter og antal soveværelser. Indledningsvist viser modellen en høj R-kvadrat-værdi, hvilket tyder på et godt fit. Når der tilføjes irrelevante variabler, som f.eks. farven på hoveddøren, forbliver R-kvadrat måske høj. Justeret R-kvadrat vil i dette tilfælde falde og indikere, at de nye variabler ikke forbedrer modellens forudsigelsesevne.
Ifølge en vejledning fra Corporate Finance Institute kan man overveje to regressionsmodeller til at forudsige prisen på en pizza. Den første model bruger prisen på dej som eneste inputvariabel og giver en R-kvadrat på 0,9557 og en justeret R-kvadrat på 0,9493. En anden model tilføjer temperatur som en anden inputvariabel, hvilket giver en R-kvadrat på 0,9573 men en lavere justeret R-kvadrat på 0,9431. Den justerede R-kvadrat indikerer korrekt, at temperatur ikke forbedrer modellens forudsigelsesevne, og guider analytikere til at foretrække den første model.
Selvom både R-kvadrat og justeret R-kvadrat bruges til at måle modeltilpasning, er de ikke indbyrdes udskiftelige og har forskellige formål. R-kvadrat kan være mere passende for simpel lineær regression med én uafhængig variabel, mens justeret R-kvadrat er bedre egnet til multiple regressionsmodeller med flere prædiktorer.
Udnyt FlowHunt’s AI-værktøjer til at bygge, teste og optimere regressionsmodeller med avancerede metrikker som justeret R-kvadrat.
Lineær regression er en grundlæggende analytisk teknik inden for statistik og maskinlæring, der modellerer forholdet mellem afhængige og uafhængige variabler. K...
Krydsvalidering er en statistisk metode, der bruges til at evaluere og sammenligne maskinlæringsmodeller ved gentagne gange at opdele data i trænings- og valide...
Regularisering i kunstig intelligens (AI) henviser til et sæt teknikker, der bruges til at forhindre overfitting i maskinlæringsmodeller ved at indføre begrænsn...
Cookie Samtykke
Vi bruger cookies til at forbedre din browsingoplevelse og analysere vores trafik. See our privacy policy.