調整済みR二乗値

調整済みR二乗値は、説明変数の数を考慮して回帰モデルの適合度を評価し、過学習を防ぐとともに、有意な変数のみがモデル性能を向上させることを保証します。

調整済みR二乗値は、回帰モデルの適合度を評価する際に説明変数の数を調整して過学習を防ぎます。R二乗値とは異なり、有意な説明変数が加わった場合のみ値が上昇します。回帰分析において不可欠であり、モデル選択や金融分野などのモデル性能評価にも活用されます。

調整済みR二乗値は、回帰モデルの当てはまりの良さを評価するために用いられる統計的指標です。これはR二乗値(決定係数)を説明変数の数で補正したもので、モデル内の説明変数の数を考慮します。R二乗値は説明変数を増やすと人工的に高くなる傾向がありますが、調整済みR二乗値は説明変数の数を調整することで、モデルの説明力をより正確に測定します。新しい説明変数が偶然ではなくモデルの予測力を向上させた場合のみ値が上昇し、有意な価値を加えない場合は減少します。

概念の理解

R二乗値と調整済みR二乗値の違い

  • R二乗値: 従属変数の分散のうち、独立変数から予測できる割合を示します。説明された分散と全体分散の比率として計算され、0から1の範囲をとります。1はモデルが平均値周りの全てのばらつきを説明できることを意味します。
  • 調整済みR二乗値: モデル内の説明変数数を考慮してR二乗値を補正した指標です。説明変数が多すぎることで生じる過学習のリスクを調整します。調整済みR二乗値は常にR二乗値以下となり、従属変数の平均値を通る水平線よりもモデルの当てはまりが悪い場合は負の値となることもあります。

数式

調整済みR二乗値の数式は以下の通りです。

[ \text{Adjusted } R^2 = 1 – \left( \frac{1-R^2}{n-k-1} \right) \times (n-1) ]

ここで、

  • ( R^2 ) はR二乗値
  • ( n ) は観測値の数
  • ( k ) は独立変数(説明変数)の数

回帰分析における重要性

調整済みR二乗値は、特に複数の説明変数を含む重回帰モデルを扱う際に重要となります。どの説明変数が有意な情報をもたらし、どれがそうでないかを判断するうえで役立ちます。これは金融、経済学、データサイエンスなど、予測モデルが重要な分野で特に重視されます。

過学習とモデルの複雑性

調整済みR二乗値の主な利点の一つは、有意でない説明変数の追加をペナルティとして扱う点です。説明変数を増やすとR二乗値は一般的に上昇しますが、それはランダムノイズを拾ってしまう可能性があるためです。しかし、調整済みR二乗値は追加された変数がモデルの予測力を本当に向上させた場合のみ増加し、過学習を防ぎます。

利用例と活用シーン

機械学習での利用

機械学習では、調整済みR二乗値は回帰モデルの性能評価に利用されます。とくに特徴量選択(フィーチャーセレクション)のプロセスで、モデルの精度向上に本当に寄与する特徴量のみを残すために役立ちます。

金融での応用

金融分野では、調整済みR二乗値を用いて投資ポートフォリオのパフォーマンスをベンチマーク指標と比較する際などに活用されます。変数の数で補正することで、さまざまな経済要因がどれほどリターンを説明できているかを明確に把握できます。

簡単な例

たとえば、家の価格を床面積と寝室数で予測するモデルを考えます。最初は高いR二乗値が得られ、適合度が高いように見えます。しかし、玄関ドアの色のような無関係な変数を追加するとR二乗値は依然高いままですが、調整済みR二乗値は減少し、新たな変数が予測力を向上させていないことを示します。

詳細な例

コーポレートファイナンスインスティテュートのガイドによると、ピザの価格を予測する2つの回帰モデルを考えます。1つ目のモデルは生地の価格のみを説明変数とし、R二乗値0.9557、調整済みR二乗値0.9493となります。2つ目のモデルは温度を加え、R二乗値0.9573ですが調整済みR二乗値は0.9431まで低下します。調整済みR二乗値が低下したことから、温度はモデルの予測力を高めていないと判断でき、1つ目のモデルが推奨されます。

他の指標との比較

R二乗値も調整済みR二乗値もモデルの適合度を測る指標ですが、役割や用途が異なります。単回帰分析(説明変数が1つ)にはR二乗値が適している一方で、複数の説明変数を含む重回帰モデルには調整済みR二乗値がより適しています。

よくある質問

調整済みR二乗値とは何ですか?

調整済みR二乗値は、回帰モデルの説明変数の数を考慮してR二乗値を修正する統計指標であり、モデルの当てはまりをより正確に測定し、不必要な変数による人工的な値の上昇を防ぎます。

なぜR二乗値の代わりに調整済みR二乗値を使うのですか?

R二乗値と異なり、調整済みR二乗値は重要でない説明変数の追加をペナルティとして扱い、過学習を防ぐとともに、有意な変数のみがモデルに含まれるようにします。

調整済みR二乗値が負になることはありますか?

はい、調整済みR二乗値は、モデルが従属変数の平均値を通る水平線よりもデータへの当てはまりが悪い場合に負の値になることがあります。

機械学習で調整済みR二乗値はどのように使われますか?

機械学習では、調整済みR二乗値は回帰モデルの真の予測力を評価するために利用され、とくに特徴量選択の際に有効な特徴量のみが残るよう役立ちます。

FlowHuntでより賢いモデル評価を体験

FlowHuntのAIツールを活用し、調整済みR二乗値などの高度な指標で回帰モデルの構築・テスト・最適化を行いましょう。

詳細はこちら

ロジスティック回帰

ロジスティック回帰

ロジスティック回帰は、データから2値(バイナリ)アウトカムを予測するために用いられる統計および機械学習手法です。1つまたは複数の独立変数に基づいて事象が発生する確率を推定し、医療、金融、マーケティング、AIなど幅広い分野で活用されています。...

1 分で読める
Logistic Regression Machine Learning +3
ROC曲線

ROC曲線

ROC(受信者動作特性)曲線は、バイナリ分類器システムの性能を、識別閾値を変化させながら評価するためのグラフ表現です。第二次世界大戦中の信号検出理論から発展し、現在では機械学習、医療、AI分野でモデル評価のために不可欠な手法となっています。...

2 分で読める
ROC Curve Model Evaluation +3
モデルのロバスト性

モデルのロバスト性

モデルのロバスト性とは、機械学習(ML)モデルが入力データの変動や不確実性にもかかわらず、一貫した正確なパフォーマンスを維持する能力を指します。ロバストなモデルは、信頼性の高いAIアプリケーションに不可欠であり、ノイズ、外れ値、分布の変化、敵対的攻撃に対する耐性を確保します。...

1 分で読める
AI Machine Learning +4