선형 회귀
선형 회귀는 통계와 머신러닝에서 종속 변수와 독립 변수 간의 관계를 모델링하는 핵심 분석 기법입니다. 단순성과 해석 용이성으로 잘 알려져 있으며, 예측 분석과 데이터 모델링의 기초가 됩니다....
수정된 결정계수는 예측 변수의 수를 보정하여 회귀 모델의 적합도를 평가하며, 과적합을 방지하고 유의미한 변수만이 모델 성능 향상에 기여하도록 합니다.
수정된 결정계수(Adjusted R-squared)는 예측 변수의 수를 보정하여 회귀 모델의 적합도를 평가합니다. R-squared와 달리, 유의미한 예측 변수가 추가될 때만 값이 증가하므로 과적합을 방지할 수 있습니다. 회귀 분석에서 필수적인 지표로, 금융 등 다양한 분야에서 모델 선택과 성능 평가에 활용됩니다.
수정된 결정계수는 회귀 모델의 적합도를 평가하는 데 사용되는 통계적 지표입니다. 이는 R-squared(결정계수)를 예측 변수의 개수에 맞게 보정한 값으로, 단순히 독립 변수를 추가하는 것만으로 높아지는 R-squared의 한계를 보완합니다. 즉, 독립 변수를 추가할 때마다 모델의 설명력이 우연히 높아지는 현상을 막고, 실제로 예측력을 높이는 변수만을 반영합니다. 새로운 예측 변수가 우연 이상의 설명력을 제공할 때만 값이 증가하며, 그렇지 않으면 오히려 감소합니다.
수정된 결정계수의 공식은 다음과 같습니다:
[ \text{Adjusted } R^2 = 1 – \left( \frac{1-R^2}{n-k-1} \right) \times (n-1) ]
여기서
수정된 결정계수는 특히 여러 독립 변수를 사용하는 다중 회귀 분석에서 중요합니다. 어떤 변수가 실제로 의미 있는 정보를 제공하는지, 어떤 변수는 불필요한지를 구분하는 데 도움이 됩니다. 이는 금융, 경제, 데이터 사이언스 등 예측 모델링이 중요한 분야에서 더욱 중요하게 사용됩니다.
수정된 결정계수의 주요 장점 중 하나는 유의미하지 않은 예측 변수 추가 시 이를 패널티로 반영한다는 점입니다. 예측 변수를 추가하면 R-squared 값은 일반적으로 높아지지만, 이는 우연히 잡음까지 포착하는 경우가 많습니다. 반면, 수정된 결정계수는 추가된 변수가 모델의 예측력을 실질적으로 향상시킬 때만 값이 증가하므로 과적합을 방지할 수 있습니다.
머신러닝에서는 회귀 모델의 성능을 평가할 때 수정된 결정계수를 많이 사용합니다. 특히 특징(Feature) 선택 과정에서 실질적으로 모델 정확도에 기여하는 변수만 남길 수 있도록 도와줍니다.
금융 분야에서는 투자 포트폴리오의 성과를 벤치마크 지수와 비교할 때 수정된 결정계수를 사용합니다. 변수의 개수를 보정함으로써 다양한 경제적 요인이 포트폴리오 수익률을 얼마나 잘 설명하는지 더 정확히 파악할 수 있습니다.
예를 들어, 주택 가격을 평수와 침실 개수로 예측하는 모델이 있다고 합시다. 이때 R-squared 값이 높게 나와 모델이 잘 맞는 것처럼 보일 수 있습니다. 그러나 현관문 색상과 같은 무관한 변수를 추가하면 R-squared는 여전히 높을 수 있지만, 수정된 결정계수는 감소하여 해당 변수가 예측력 향상에 기여하지 않음을 알려줍니다.
Corporate Finance Institute의 가이드에 따르면, 피자 가격을 예측하는 두 회귀 모델을 생각해볼 수 있습니다. 첫 번째 모델은 도우 가격만을 입력 변수로 사용하였을 때 R-squared가 0.9557, 수정된 결정계수가 0.9493입니다. 두 번째 모델은 온도를 추가해 R-squared가 0.9573으로 약간 높아졌지만, 수정된 결정계수는 0.9431로 더 낮아졌습니다. 즉, 온도 변수는 예측력 향상에 기여하지 않음을 수정된 결정계수가 정확히 보여주므로, 분석가는 첫 번째 모델을 선택하게 됩니다.
R-squared와 수정된 결정계수는 모두 모델의 적합도를 평가하는 지표지만, 동일하게 사용할 수 없으며 그 목적도 다릅니다. 독립 변수가 하나인 단순 선형 회귀에는 R-squared가 적합할 수 있지만, 예측 변수가 여러 개인 다중 회귀 모델에서는 수정된 결정계수를 사용하는 것이 더 적절합니다.
수정된 결정계수는 회귀 모델의 예측 변수 수를 반영하여 R-squared 값을 보정한 통계 지표로, 모델 적합도를 보다 정확하게 측정하고 의미 없는 변수로 인한 인위적 상승을 방지합니다.
R-squared와 달리, 수정된 결정계수는 중요하지 않은 예측 변수의 추가를 페널티로 반영하여 과적합을 막고, 의미 있는 변수만 모델에 포함되도록 도와줍니다.
네, 모델이 종속 변수의 평균값을 기준으로 한 수평선보다 데이터를 더 잘 설명하지 못할 경우, 수정된 결정계수는 음수가 될 수 있습니다.
머신러닝에서는 회귀 모델의 실제 예측력을 평가할 때 수정된 결정계수를 사용하며, 특히 특징 선택 과정에서 의미 있는 특징만 남기도록 할 때 유용합니다.
선형 회귀는 통계와 머신러닝에서 종속 변수와 독립 변수 간의 관계를 모델링하는 핵심 분석 기법입니다. 단순성과 해석 용이성으로 잘 알려져 있으며, 예측 분석과 데이터 모델링의 기초가 됩니다....
머신러닝에서의 리콜(Recall)에 대해 알아보세요. 분류 작업에서 모델 성능을 평가하는 데 중요한 이 지표는 양성 인스턴스를 올바르게 식별하는 것이 얼마나 중요한지 설명합니다. 정의, 계산 방법, 중요성, 활용 사례, 개선 전략까지 모두 확인해보세요....
로지스틱 회귀는 데이터를 기반으로 이진 결과를 예측하는 통계 및 머신러닝 기법입니다. 하나 이상의 독립 변수에 따라 사건이 발생할 확률을 추정하며, 의료, 금융, 마케팅, AI 등 다양한 분야에 널리 적용됩니다....