수정된 결정계수(Adjusted R-squared)

수정된 결정계수는 예측 변수의 수를 보정하여 회귀 모델의 적합도를 평가하며, 과적합을 방지하고 유의미한 변수만이 모델 성능 향상에 기여하도록 합니다.

수정된 결정계수(Adjusted R-squared)는 예측 변수의 수를 보정하여 회귀 모델의 적합도를 평가합니다. R-squared와 달리, 유의미한 예측 변수가 추가될 때만 값이 증가하므로 과적합을 방지할 수 있습니다. 회귀 분석에서 필수적인 지표로, 금융 등 다양한 분야에서 모델 선택과 성능 평가에 활용됩니다.

수정된 결정계수는 회귀 모델의 적합도를 평가하는 데 사용되는 통계적 지표입니다. 이는 R-squared(결정계수)를 예측 변수의 개수에 맞게 보정한 값으로, 단순히 독립 변수를 추가하는 것만으로 높아지는 R-squared의 한계를 보완합니다. 즉, 독립 변수를 추가할 때마다 모델의 설명력이 우연히 높아지는 현상을 막고, 실제로 예측력을 높이는 변수만을 반영합니다. 새로운 예측 변수가 우연 이상의 설명력을 제공할 때만 값이 증가하며, 그렇지 않으면 오히려 감소합니다.

개념 이해하기

R-squared와 수정된 결정계수의 차이

  • R-squared(결정계수): 종속 변수의 변동성 중 독립 변수로 예측 가능한 비율을 나타내는 지표입니다. 설명된 분산을 전체 분산으로 나눈 값으로 0에서 1 사이이며, 1은 모델이 데이터의 변동을 모두 설명함을 의미합니다.
  • 수정된 결정계수: 모델의 예측 변수 개수를 반영하여 R-squared 값을 조정합니다. 예측 변수가 많아질수록 과적합 위험이 커지는데, 이를 보정해 실제 설명력이 떨어지는 변수가 추가되면 값이 감소할 수 있습니다. R-squared보다 항상 작거나 같으며, 모델이 종속 변수의 평균값을 기준으로 한 수평선보다 못할 경우 음수가 될 수도 있습니다.

수식

수정된 결정계수의 공식은 다음과 같습니다:

[ \text{Adjusted } R^2 = 1 – \left( \frac{1-R^2}{n-k-1} \right) \times (n-1) ]

여기서

  • ( R^2 )는 R-squared 값,
  • ( n )은 관측치의 수,
  • ( k )는 독립 변수(예측 변수)의 개수입니다.

회귀 분석에서의 중요성

수정된 결정계수는 특히 여러 독립 변수를 사용하는 다중 회귀 분석에서 중요합니다. 어떤 변수가 실제로 의미 있는 정보를 제공하는지, 어떤 변수는 불필요한지를 구분하는 데 도움이 됩니다. 이는 금융, 경제, 데이터 사이언스 등 예측 모델링이 중요한 분야에서 더욱 중요하게 사용됩니다.

과적합과 모델 복잡성

수정된 결정계수의 주요 장점 중 하나는 유의미하지 않은 예측 변수 추가 시 이를 패널티로 반영한다는 점입니다. 예측 변수를 추가하면 R-squared 값은 일반적으로 높아지지만, 이는 우연히 잡음까지 포착하는 경우가 많습니다. 반면, 수정된 결정계수는 추가된 변수가 모델의 예측력을 실질적으로 향상시킬 때만 값이 증가하므로 과적합을 방지할 수 있습니다.

활용 사례 및 예시

머신러닝에서의 활용

머신러닝에서는 회귀 모델의 성능을 평가할 때 수정된 결정계수를 많이 사용합니다. 특히 특징(Feature) 선택 과정에서 실질적으로 모델 정확도에 기여하는 변수만 남길 수 있도록 도와줍니다.

금융 분야에서의 활용

금융 분야에서는 투자 포트폴리오의 성과를 벤치마크 지수와 비교할 때 수정된 결정계수를 사용합니다. 변수의 개수를 보정함으로써 다양한 경제적 요인이 포트폴리오 수익률을 얼마나 잘 설명하는지 더 정확히 파악할 수 있습니다.

간단한 예시

예를 들어, 주택 가격을 평수와 침실 개수로 예측하는 모델이 있다고 합시다. 이때 R-squared 값이 높게 나와 모델이 잘 맞는 것처럼 보일 수 있습니다. 그러나 현관문 색상과 같은 무관한 변수를 추가하면 R-squared는 여전히 높을 수 있지만, 수정된 결정계수는 감소하여 해당 변수가 예측력 향상에 기여하지 않음을 알려줍니다.

구체적 예시

Corporate Finance Institute의 가이드에 따르면, 피자 가격을 예측하는 두 회귀 모델을 생각해볼 수 있습니다. 첫 번째 모델은 도우 가격만을 입력 변수로 사용하였을 때 R-squared가 0.9557, 수정된 결정계수가 0.9493입니다. 두 번째 모델은 온도를 추가해 R-squared가 0.9573으로 약간 높아졌지만, 수정된 결정계수는 0.9431로 더 낮아졌습니다. 즉, 온도 변수는 예측력 향상에 기여하지 않음을 수정된 결정계수가 정확히 보여주므로, 분석가는 첫 번째 모델을 선택하게 됩니다.

다른 지표와의 비교

R-squared와 수정된 결정계수는 모두 모델의 적합도를 평가하는 지표지만, 동일하게 사용할 수 없으며 그 목적도 다릅니다. 독립 변수가 하나인 단순 선형 회귀에는 R-squared가 적합할 수 있지만, 예측 변수가 여러 개인 다중 회귀 모델에서는 수정된 결정계수를 사용하는 것이 더 적절합니다.

자주 묻는 질문

수정된 결정계수(Adjusted R-squared)란 무엇인가요?

수정된 결정계수는 회귀 모델의 예측 변수 수를 반영하여 R-squared 값을 보정한 통계 지표로, 모델 적합도를 보다 정확하게 측정하고 의미 없는 변수로 인한 인위적 상승을 방지합니다.

R-squared 대신 수정된 결정계수를 사용하는 이유는 무엇인가요?

R-squared와 달리, 수정된 결정계수는 중요하지 않은 예측 변수의 추가를 페널티로 반영하여 과적합을 막고, 의미 있는 변수만 모델에 포함되도록 도와줍니다.

수정된 결정계수가 음수가 될 수 있나요?

네, 모델이 종속 변수의 평균값을 기준으로 한 수평선보다 데이터를 더 잘 설명하지 못할 경우, 수정된 결정계수는 음수가 될 수 있습니다.

머신러닝에서 수정된 결정계수는 어떻게 활용되나요?

머신러닝에서는 회귀 모델의 실제 예측력을 평가할 때 수정된 결정계수를 사용하며, 특히 특징 선택 과정에서 의미 있는 특징만 남기도록 할 때 유용합니다.

더 스마트한 모델 평가를 FlowHunt로 경험하세요

FlowHunt의 AI 도구를 활용해 수정된 결정계수 등 고급 지표로 회귀 모델을 구축, 테스트, 최적화해보세요.

더 알아보기

선형 회귀

선형 회귀

선형 회귀는 통계와 머신러닝에서 종속 변수와 독립 변수 간의 관계를 모델링하는 핵심 분석 기법입니다. 단순성과 해석 용이성으로 잘 알려져 있으며, 예측 분석과 데이터 모델링의 기초가 됩니다....

3 분 읽기
Statistics Machine Learning +3
머신러닝에서의 리콜(Recall)

머신러닝에서의 리콜(Recall)

머신러닝에서의 리콜(Recall)에 대해 알아보세요. 분류 작업에서 모델 성능을 평가하는 데 중요한 이 지표는 양성 인스턴스를 올바르게 식별하는 것이 얼마나 중요한지 설명합니다. 정의, 계산 방법, 중요성, 활용 사례, 개선 전략까지 모두 확인해보세요....

6 분 읽기
Machine Learning Recall +3
로지스틱 회귀

로지스틱 회귀

로지스틱 회귀는 데이터를 기반으로 이진 결과를 예측하는 통계 및 머신러닝 기법입니다. 하나 이상의 독립 변수에 따라 사건이 발생할 확률을 추정하며, 의료, 금융, 마케팅, AI 등 다양한 분야에 널리 적용됩니다....

3 분 읽기
Logistic Regression Machine Learning +3