R-cuadrado ajustado

El R-cuadrado ajustado evalúa el ajuste de un modelo de regresión, ajustando por los predictores para evitar el sobreajuste. A diferencia del R-cuadrado, solo aumenta con predictores significativos. Esencial en el análisis de regresión, ayuda en la selección de modelos y evaluación del rendimiento en campos como las finanzas.

El R-cuadrado ajustado es una medida estadística utilizada para evaluar la bondad de ajuste de un modelo de regresión. Es una versión modificada del R-cuadrado (o coeficiente de determinación) que considera el número de predictores en el modelo. A diferencia del R-cuadrado, que puede inflarse artificialmente al agregar más variables independientes, el R-cuadrado ajustado ajusta según el número de predictores, proporcionando una medida más precisa del poder explicativo del modelo. Solo aumenta si el nuevo predictor mejora el poder predictivo del modelo más de lo esperado por azar, y disminuye cuando un predictor no aporta valor significativo.

R-cuadrado ajustado en la evaluación de modelos de Machine Learning

El R-cuadrado ajustado desempeña un papel central en la evaluación de modelos de regresión supervisada en machine learning, complementando métricas como RMSE, MAE y los puntajes de validación cruzada. Mientras que el R-cuadrado simple aumenta de forma monótona al añadir más variables — lo que lo vuelve peligroso para comparar modelos con distinta cantidad de predictores — el R-cuadrado ajustado penaliza explícitamente las características adicionales que no justifican su inclusión, lo que lo convierte en una opción natural para flujos de selección de variables en pipelines construidos con scikit-learn, statsmodels o XGBoost. Los profesionales suelen combinar el R-cuadrado ajustado con validación cruzada k-fold: la validación cruzada protege frente al sesgo optimista dentro de muestra sobre datos retenidos, mientras que el R-cuadrado ajustado ofrece un resumen interpretable y consciente de la complejidad dentro de muestra, útil al comparar modelos lineales anidados o candidatos de regresión por pasos. En entornos regularizados como Ridge, Lasso y Elastic Net, el R-cuadrado ajustado puede reportarse junto con la fuerza de regularización elegida para verificar que la contracción de coeficientes no sacrificó poder explicativo significativo. Sin embargo, en problemas de ML de alta dimensionalidad donde el número de variables se acerca o supera al tamaño de la muestra, el R-cuadrado ajustado pierde fiabilidad y debería reemplazarse por criterios de información (AIC, BIC) o por métricas predictivas fuera de muestra que sean robustas frente al sobreajuste en los flujos de trabajo modernos de machine learning.

Comprendiendo el concepto

R-cuadrado vs. R-cuadrado ajustado

  • R-cuadrado: Representa la proporción de la varianza en la variable dependiente que puede predecirse a partir de las variables independientes. Se calcula como la razón entre la varianza explicada y la varianza total, y varía de 0 a 1, donde 1 indica que el modelo explica toda la variabilidad de los datos de respuesta alrededor de su media.
  • R-cuadrado ajustado: Esta métrica ajusta el valor de R-cuadrado en función del número de predictores en el modelo. El ajuste se realiza para tener en cuenta la posibilidad de sobreajuste que puede ocurrir cuando se incluyen demasiados predictores en el modelo. El R-cuadrado ajustado siempre es menor o igual que el R-cuadrado y puede ser negativo, lo que indica que el modelo es peor que una línea horizontal a través de la media de la variable dependiente.

Fórmula matemática

La fórmula para el R-cuadrado ajustado es:

[ \text{R-cuadrado ajustado} = 1 – \left( \frac{1-R^2}{n-k-1} \right) \times (n-1) ]

Donde:

  • ( R^2 ) es el R-cuadrado,
  • ( n ) es el número de observaciones,
  • ( k ) es el número de variables independientes (predictores).
Logo

¿Listo para hacer crecer tu negocio?

Comienza tu prueba gratuita hoy y ve resultados en días.

Importancia en el análisis de regresión

El R-cuadrado ajustado es crucial en el análisis de regresión, especialmente cuando se trabaja con modelos de regresión múltiple, donde se incluyen varias variables independientes. Ayuda a determinar qué variables aportan información significativa y cuáles no. Esto se vuelve particularmente importante en campos como las finanzas, la economía y la ciencia de datos, donde el modelado predictivo es clave.

Sobreajuste y complejidad del modelo

Una de las principales ventajas del R-cuadrado ajustado es su capacidad para penalizar la adición de predictores no significativos. Agregar más variables a un modelo de regresión generalmente aumenta el R-cuadrado debido a la probabilidad de captar ruido aleatorio. Sin embargo, el R-cuadrado ajustado solo aumentará si la variable agregada mejora el poder predictivo del modelo, evitando así el sobreajuste.

Casos de uso y ejemplos

Uso en el aprendizaje automático

En el aprendizaje automático, el R-cuadrado ajustado se utiliza para evaluar el rendimiento de los modelos de regresión. Es especialmente útil en la selección de características, que es una parte integral de la optimización del modelo. Al usar el R-cuadrado ajustado, los científicos de datos pueden asegurarse de que solo se incluyan aquellas características que realmente contribuyen a la precisión del modelo.

Aplicación en finanzas

En finanzas, el R-cuadrado ajustado se utiliza a menudo para comparar el rendimiento de carteras de inversión frente a un índice de referencia. Al ajustar por el número de variables, los inversores pueden comprender mejor en qué medida los rendimientos de una cartera se explican por diversos factores económicos.

Ejemplo sencillo

Considera un modelo que predice el precio de viviendas en función de los metros cuadrados y el número de habitaciones. Inicialmente, el modelo muestra un alto valor de R-cuadrado, lo que sugiere un buen ajuste. Sin embargo, al agregar variables irrelevantes, como el color de la puerta principal, el R-cuadrado puede seguir siendo alto. El R-cuadrado ajustado disminuiría en este escenario, indicando que las nuevas variables no mejoran el poder predictivo del modelo.

Ejemplo detallado

Según una guía del Corporate Finance Institute, considera dos modelos de regresión para predecir el precio de una pizza. El primer modelo utiliza el precio de la masa como única variable de entrada, obteniendo un R-cuadrado de 0.9557 y un R-cuadrado ajustado de 0.9493. Un segundo modelo añade la temperatura como segunda variable de entrada, obteniendo un R-cuadrado de 0.9573 pero un R-cuadrado ajustado menor de 0.9431. El R-cuadrado ajustado indica correctamente que la temperatura no mejora el poder predictivo del modelo, guiando a los analistas a preferir el primer modelo.

Comparación con otras métricas

Aunque tanto el R-cuadrado como el R-cuadrado ajustado sirven para medir la bondad de ajuste de un modelo, no son intercambiables y cumplen diferentes propósitos. El R-cuadrado puede ser más apropiado para la regresión lineal simple con una sola variable independiente, mientras que el R-cuadrado ajustado es más adecuado para modelos de regresión múltiple con varios predictores.

Preguntas frecuentes

Prueba FlowHunt para una evaluación de modelos más inteligente

Aprovecha las herramientas de IA de FlowHunt para construir, probar y optimizar modelos de regresión con métricas avanzadas como el R-cuadrado ajustado.

Saber más

Curva ROC

Curva ROC

Una curva Característica Operativa del Receptor (ROC) es una representación gráfica utilizada para evaluar el rendimiento de un sistema clasificador binario a m...

11 min de lectura
ROC Curve Model Evaluation +3
Ajuste Fino

Ajuste Fino

El ajuste fino de modelos adapta modelos pre-entrenados a nuevas tareas realizando pequeñas modificaciones, reduciendo la necesidad de datos y recursos. Descubr...

9 min de lectura
Fine-Tuning Transfer Learning +6
Ajuste de Hiperparámetros

Ajuste de Hiperparámetros

El ajuste de hiperparámetros es un proceso fundamental en el aprendizaje automático para optimizar el rendimiento del modelo ajustando parámetros como la tasa d...

7 min de lectura
Hyperparameter Tuning Machine Learning +5