Regresión lineal

La regresión lineal es una técnica estadística que se utiliza para predecir la variable de resultado (variable dependiente) a partir de una o más variables predictoras (variables independientes).

Contexto

En una regresión lineal, una variable explica otra variable. Por eso, al hacer una regresión lineal utilizo el término variable predictora para referirme a lo que típicamente llamaría la variable independiente, o factor. De forma similar, utilizamos el término variable resultado para referirnos a la variable dependiente.

\space \space \space \small \text{Variable predictora} \large \xrightarrow{predice} \small {\text{Variable resultado}}

\space \space \space \small \text{Variable independiente o factor} \large \xrightarrow{tiene \space efecto \space sobre} \small \text{Variable dependiente}

Fundamento

La regresión lineal es una técnica estadística que se utiliza para predecir la variable de resultado (variable dependiente) a partir de una o más variables predictoras (variables independientes). La lógica básica que sigue la regresión lineal es la siguiente:

\text{Puntuación observada}_i = \text{Modelo} + \text{Error}_i

Puntuación observada: Es el valor real observado de la variable dependiente para la observación $i$ .
Modelo: Es la parte que predice el modelo de regresión. En el caso de la regresión lineal simple, el modelo se expresa como: $\text{Modelo} = \beta_0 + \beta_1 \times X_i$ $Modelo = β_{0} + β_{1} \times X_{i}$ donde:
- $\beta_0$ es la ordenada en el origen (intercepto).
- $\beta_1$ es el coeficiente de la pendiente que indica el cambio en la variable dependiente por cada unidad de cambio en la variable independiente $X$ .
Error: Es la diferencia entre el valor observado y el valor predicho por el modelo para la observación $i$ . Se denota como: $\text{Error}_i = \text{Puntuación observada}_i - \text{Modelo}$

Linealidad

Una regresión lineal es lineal porque genera una línea recta. Si hago un poco de memoria, puedo recordar que en la escuela me explicaron que una recta se puede expresar en estos términos:

Y = m X + b

Donde:

$m$ es la pendiente.
$b$ es el valor desde el que empieza la línea. Mejor dicho, el valor de $y$ cuando $x = 0$
$X$ e $Y$ son las coordenadas del punto, de manera que puedo calcular el valor $y$ para cada valor $x$ .

El objetivo de la regresión lineal es encontrar la línea que minimiza el error total. Esta línea recta será la que mejor prediga valores desconocidos.

Como he dicho antes, generalmente una línea recta se expresa así:

Y = m X + b

Esto también es cierto en la regresión lineal. No obstante, en una regresión lineal hay que considerar que se produce un error, ya que la predicción no será perfecta. Por lo tanto:

Y = ( m X + b ) + \text{Error}

Sin embargo, al expresar una regresión lineal, utilizo una notación ligeramente distina para seguir las convenciones estadísticas:

Y_i = ( \beta_1 \times X_i + \beta_0 ) + \text{Error}_i

$m \implies \beta_1$
$b \implies \beta_0$

De hecho, al expresar la ecuación de una regresión lineal, intercambio la posición de la pendiente y la constante, así:

Y_i = ( \beta_0 + \beta_1 \times X_i ) + \text{Error}_i

El motivo de este cambio de orden es que cuando escribo una regresión lineal multivariable (con más de un predictor), tengo que añadir múltiples variables a la ecuación. Mantener el intercepto primero y luego los coeficientes de los predictores, ayuda a identificar rápidamente qué es qué.

Y_i = \beta_0 + \boxed{\beta_1 X_{i1}} + \boxed{\beta_2 X_{i2}} + \cdots + \text{Error}_i

Valor observado y valor predicho

$Y_i$ : Representa el valor observado de la variable dependiente para la observación $i$ . Es el valor real que hemos medido o registrado.
$\hat{Y}_i$ : Representa el valor predicho por el modelo de regresión para la observación $i$ . Es el valor estimado por la ecuación de regresión.

Es resumen: la ecuación de una regresión lineal simple se expresa así:

Y = \beta_0 + \beta_1 X + \epsilon

Donde:

$Y$ es la variable dependiente (lo que estoy tratando de predecir).
$X$ es la variable independiente (el predictor).
$\beta_0$ es la constante, llamada también intersección e intercepto.
$\beta_1$ es el coeficiente de la pendiente, llamada también gradiente o slope, que indica el cambio en $Y$ por cada unidad de cambio en $X$ .
$\epsilon$ representa el de error (la diferencia entre el valor observado y el valor predicho).

Pregunta

La constante (b₀) hace referencia al valor de la variable de resultado cuando la puntuación en la variable predictora es de cero.

Intercepto

Y_i = ( \space \Large \boxed{\beta_0} + \normalsize \beta_1 \times X_i ) + \epsilon_i

El intercepto ( $\beta_0$ ), también llamado constante o intersección, tiene un significado importante en el contexto del modelo. En el contexto de la línea expresada como $y = mx + b$ , el intercepto es $b$ . Sin embargo, la convención en regresiones lineales es llamarlo $\beta_0$ .

El intercepto representa el valor esperado de la variable dependiente $Y$ cuando la variable independiente $X$ es igual a cero. En otras palabras, es el punto en el que la línea de regresión cruza el eje Y.

El valor del intercepto debe interpretarse en el contexto del problema específico. En algunos casos, un valor de $X$ igual a cero puede no tener sentido práctico, y en esos casos, el intercepto puede no ser relevante. Sin embargo, sirve como una base de comparación para evaluar el impacto de la variable independiente $X$ sobre la variable dependiente $Y$ .

Gradiente

Y_i = ( \beta_0 + \space \Large \boxed{\beta_1} \normalsize \times X_i ) + \epsilon_i

El gradiente ( $\beta_1$ ), también llamado pendiente o slope, tiene un significado importante en el contexto del modelo.

En el contexto de la línea expresada como $y = mx + b$ , el gradiente es $m$ . Sin embargo, la convención en regresiones lineales es llamarlo $\beta_1$ .

El gradiente representa el cambio esperado en la variable dependiente ( $Y$ ) por cada unidad de cambio en la variable independiente ( $X$ ). Específicamente:

Pendiente positiva ( $\beta_1 > 0$ ): Indica que a medida que $X$ aumenta, $Y$ también tiende a aumentar. La relación entre $X$ y $Y$ es directa.
Pendiente negativa ( $\beta_1 < 0$ ): Indica que a medida que $X$ aumenta, $Y$ tiende a disminuir. La relación entre $X$ y $Y$ es inversa.
Pendiente cero ( $\beta_1 = 0$ ): Indica que no hay relación lineal entre $X$ y $Y$ . Los cambios en $X$ no afectan a $Y$ .

La interpretación del gradiente debe hacerse en el contexto de los datos y del dominio específico del problema. Es importante considerar no solo el valor numérico de $\beta_1$ , sino también su significancia estadística y el intervalo de confianza asociado, para asegurar que la relación observada no es producto del azar.

Pregunta

Si la pendiente (b₁) es negativa, la variable de resultado aumenta cuando la variable predictora disminuye y viceversa.

Error

Y_i = ( \beta_0 + \beta_1 \times X_i ) + \space \LARGE \boxed{\epsilon_i}

En una regresión lineal, el error ( $\large \epsilon$ ), también llamado valores residuales o sencillamente residuos, es la diferencia entre el valor observado $Y_i$ y el valor predicho $\hat{Y_i}$ para una observación $i$ . Es decir, es el efecto del error del modelo en cada valor.

Es decir: en una regresión lineal, el residuo es la diferencia entre el valor observado $Y_i$ y el valor predicho $\hat{Y_i}$ para una observación $i$ . Así, representa el error del modelo para cada valor observado.

En una gráfica, el residuo se puede visualizar como la distancia vertical entre la línea de regresión y el valor real observado. En términos matemáticos, se puede expresar de la siguiente manera:

e_i = Y_i - \hat{Y}_i

Donde:

$e_i$ es el residuo para la observación $i$ .
$Y_i$ es el valor observado de la variable dependiente para la observación $i$ .
$\hat{Y_i}$ es el valor predicho por el modelo de regresión para la observación $i$ .

La magnitud del residuo indica el tamaño del error de predicción. Un residuo grande significa que hay una gran discrepancia entre el valor observado y el valor predicho, lo que puede indicar que el modelo no está ajustando bien esa observación en particular.

El signo del residuo (positivo o negativo) indica la dirección del error. Un residuo positivo significa que el valor observado es mayor que el valor predicho, mientras que un residuo negativo significa que el valor observado es menor que el valor predicho.

Los residuos se utilizan para diagnosticar problemas con el modelo, como la falta de linealidad, la presencia de outliers y la heterocedasticidad (varianza no constante de los residuos).

Los gráficos de residuos, como el gráfico de valores residuales versus valores predichos, ayudan a visualizar patrones en los errores y a detectar problemas potenciales con el modelo.

Pregunta

En la regresión lineal, la variable predictora (VI) va siempre en el eje Y, mientras que la variable de resultado (VD) va en el eje X.

Supuestos

Para que una regresión lineal sea válida, los datos deben cumplir ciertos supuestos. Es decir, deben darse ciertas condiciones teóricas para que la regresión lineal sea una estrategia de análisis adecuada. Estos supuestos son:

La variable de resultado es continua: la variable dependiente debe ser continua, lo que significa que puede tomar un rango amplio de valores numéricos.
La variable predictora es continua o categórica binaria (solo 2 niveles): la variable independiente puede ser continua (con valores numéricos) o binaria (con solo dos niveles, como 0 y 1).
La variable predictora no es constante: las variables independientes no deben ser constantes; es decir, no todos los participantes deben tener el mismo valor en esa variable, ya que esto no proporcionaría información útil para la predicción.
Hay baja correlación de los predictores con terceras variables (extrañas): los predictores no deben estar altamente correlacionados con otras variables externas que no están incluidas en el modelo, para evitar confusiones sobre las fuentes de variabilidad.
Homoscedasticidad (igualdad de varianzas): la varianza de los errores debe ser constante a lo largo de todos los niveles de la variable independiente. En otras palabras, los residuos deben mostrar una dispersión uniforme a lo largo de los valores predichos.
Independencia de residuales: los residuos o errores deben ser independientes entre sí, lo que significa que no debe haber patrones sistemáticos en los errores de predicción.
Normalidad en las puntuaciones residuales: los residuos o errores deben seguir una distribución normal. Esto es importante para hacer inferencias estadísticas válidas.
Independencia de resultados (cada valor es de un sujeto distinto): cada observación debe ser independiente, lo que significa que los valores de la variable dependiente deben provenir de sujetos distintos y no relacionados.
Linealidad entre variable predictora y resultado: debe existir una relación lineal entre la variable independiente y la variable dependiente. Esto significa que los cambios en la variable independiente deben asociarse con cambios proporcionales en la variable dependiente.

En el caso de una regresión lineal múltiple, hay su puesto adicional muy imporante:

No hay multicolinealidad, es decir los predictores está muy relacionados: los predictores deben ser relativamente independientes entre sí. Si los predictores están muy correlacionados, puede ser difícil distinguir sus efectos individuales en la variable dependiente.

Pregunta

En la regresión múltiple debe existir multicolinealidad: que dos o más variables predictoras estén altamente relacionadas entre sí.

Comprobación de no-multicolinealidad (VIF)

Hay una prueba que permite verificar que no se produzca multicolinealidad. Esta prueba se llama Factor de Inflación de Varianza, aunque generalmente se denomina $VIF$ .

del inglés: Variance Inflation Factor.

Esta prueba se calcula de forma automática al ejecutar una regresión lineal en SPSS. Cuando ejecuto una prueba VIF, el supuesto de no-multicolinealidad se contrasta en base a un valor estándar de 5, de manera que:

Si $VIF < 5$ , hay una correlación moderada. Por lo tanto, no hay multicolinealidad.
Si $VIF > 5$ , considero que sí hay riesgo de multicolinealidad.

En caso de que hubiera riesgo de multicolinealidad en los datos, podría bien eliminar uno de los predictores que se correlacionan tan alto, o combinar algunas variables. Esto dependería del estudio y sería una decisión muy deliberada.

Método de Mínimos Cuadrados

La regresión lineal se fundamenta en el Método de Mínimos Cuadrados. A través del método de mínimos cuadrados, podemos encontrar el modelo que mejor ajusta nuestros datos y, por lo tanto, realizar predicciones más precisas.

El método de mínimos cuadrados es una técnica matemática que busca minimizar la suma de los cuadrados de las diferencias (errores) entre los valores observados y los valores predichos por el modelo. Matemáticamente, se define como la minimización de la siguiente suma:

\sum_{i=1}^{n} (\text{Puntuación observada}_i - \text{Modelo})^2

Donde $n$ es el número de observaciones.

Pregunta

El método de los mínimos cuadrados consiste en encontrar una línea recta que maximice el valor de los residuos (es decir, la distancia entre cada una de las puntuaciones y dicha línea).

Cálculo

Dado el siguiente conjunto de datos:

$X$	$Y$
7	2
1	9
10	5
5	5
4	7
11	3
13	2
10	5
2	14

Primero, calculo, para cada coordenada $(X,Y)$ , el valor $X \cdot Y$ y el valor $X^2$ :

$X$	$Y$	$X \cdot Y$	$X^2$
7	2	14	49
1	9	9	1
10	5	50	100
5	5	25	25
4	7	28	16
11	3	33	121
13	2	26	169
10	5	50	100
2	14	28	4

Después, sumo todas las columnas y obtengo los siguientes resultados:

$\sum X = 55$
$\sum Y = 57$
$\sum (X \cdot Y) = 233$
$\sum (X^2) = 473$

La ecuación de la recta es:

Y = mx + b

Primero, voy a calcular la pendiente ( $m$ ). En el contexto de una regresión lineal, esta será el gradiente ( $\beta_1$ ). La fórmula para calcular la pendiente $m$ es:

m = \frac{\sum (X \cdot Y) - \frac{\sum X \cdot \sum Y}{n}}{\sum (X^2) - \frac{(\sum X)^2}{n}}

Sustituyendo los valores:

m = \frac{233 - \frac{55 \cdot 57}{9}}{473 - \frac{55^2}{9}} = \frac{233 - 348.33}{473 - 336.11} = \frac{-115.33}{136.89} = -0.8425

Es decir, la pendiente $m = -0.8425$ .

Ahora calculo la intersección ( $b$ ). En el contexto de una regresión lineal, este será el intercepto ( $\beta_0$ ). La fórmula para calcular la intersección $b$ es:

b = \bar{Y} - m \bar{X}

Donde $\bar{Y}$ y $\bar{X}$ son las medias de $Y$ y $X$ respectivamente.

\bar{Y} = \frac{\sum Y}{n} = \frac{57}{9} = 6.3333

\bar{X} = \frac{\sum X}{n} = \frac{55}{9} = 6.1111

Ahora sustituyo los valores:

b = 6.3333 - (-0.8425) \times 6.1111 = 6.3333 + 5.1441 = 11.4774

Finalmente, la ecuación de la recta de regresión es:

Y = -0.8425 X + 11.4774

Esta es la recta que mejor minimiza el error. Por lo tanto, es la recta que mejor predice valores desconocidos.

Bondad de ajuste del modelo

La bondad de ajuste es una medida que indica, en esencia, cómo de bueno es el modelo. Es decir, cómo de bien predice valores. Dicho de otra manera: cómo de bien las predicciones del modelo se alinean con los valores reales observados.

Mediante comparación de modelos

Una de las formas de evaluar la bondad de ajuste de un modelo de regresión lineal es comparar dos modelos:

Modelo de Relación: asume una relación entre la variable independiente y la variable dependiente.
Modelo de No-Relación: asume que no existe relación entre las variables, es decir, la variable dependiente se predice simplemente por su media.

Para evaluar cuál de los dos modelos explica mejor la variabilidad de los datos, utilizo las sumas de cuadrados de ambos modelos.

Pregunta

En el modelo de no relación, cualquier cambio en la variable predictora va a dar lugar a un valor aleatorio en la otra variable.

Suma de Cuadrados Total ( $SCT$ )

Representa la variabilidad total de los datos observados con respecto a su media. Es decir, la variabilidad en ambos modelos.

Se calcula como:

SC_T = \sum (Y_i - \bar{Y})^2

Esta medida no depende de ningún modelo y simplemente mide la dispersión de los datos.

Suma de Cuadrados del Modelo de No-Relación

Es igual a la suma de cuadrados total, ya que el modelo de no-relación asume que todas las predicciones son iguales a la media de los valores observados.

Por lo tanto:

SC_{NR} = SC_T

Suma de Cuadrados del Modelo de Relación

Representa la variabilidad explicada por el modelo de relación, es decir, cuánto se reduce la variabilidad total al ajustar el modelo de regresión.

Se calcula como:

SC_{R} = \sum (\hat{Y}_i - \bar{Y})^2

Pregunta

La suma de cuadrados del modelo (SCₘ) es la diferencia entre la cantidad de información que el modelo de no relación no puede explicar y la cantidad de información que el modelo de relación no puede explicar.

Suma de Cuadrados Residual

Representa la variabilidad que no es explicada por el modelo de relación.

Se calcula como:

SC_R = \sum (Y_i - \hat{Y}_i)^2

Evaluación de la bondad de ajuste

La comparación entre el modelo de relación y el modelo de no-relación se realiza utilizando la Suma de Cuadrados del Modelo ( $SC_M$ ), que mide la mejora del modelo de relación sobre el modelo de no-relación.

SC_M = SC_T - SC_R

Donde:

$SC_M$ : Suma de Cuadrados del Modelo.
$SC_T$ : Suma de Cuadrados Total.
$SC_R$ : Suma de Cuadrados Residual.

Esta medida me dice cuánta de la variabilidad total de los datos es explicada por el modelo de relación.

Un valor alto de $SC_M$ indica que el modelo de relación explica una gran parte de la variabilidad de los datos en comparación con el modelo de no-relación.
Un valor bajo de $SC_R$ indica que los errores de predicción del modelo de relación son pequeños, lo que sugiere un buen ajuste del modelo.

Así, el método de comparación entre el modelo de relación y el modelo de no-relación utilizando las sumas de cuadrados proporciona una forma efectiva de evaluar la bondad de ajuste de un modelo de regresión. Este enfoque nos permite cuantificar la mejora en la explicación de la variabilidad de los datos que ofrece el modelo de relación en comparación con un modelo que no asume ninguna relación entre las variables.

ANOVA

Otra forma de evaluar la bondad del ajuste es el análisis de la varianza (ANOVA). El ANOVA se utiliza precisamente para realizar comparaciones. Por eso, se puede utilizar también en el contexto de la regresión lineal para evaluar la bondad de ajuste.

Este método descompone la variabilidad total en componentes explicados por el modelo y componentes residuales, y utiliza el estadístico $F$ para determinar la significancia del modelo.

Si el valor de $F$ calculado es mayor que el valor crítico de $F$ (obtenido de la tabla de distribución $F$ ), rechazo la hipótesis nula y concluyo que el modelo de regresión proporciona un mejor ajuste que el modelo de no-relación.

Los cálculos necesarios se pueden visualizar bien en la tabla de ANOVA, que descompone la variabilidad total en la variabilidad explicada por el modelo y la variabilidad de los residuos. Los componentes principales de la tabla de ANOVA son:

Fuente	Suma de Cuadrados	$df$	Medias de Cuadrados
Regresión	$SC_M = \sum (\hat{Y}_i - \bar{Y})^2$	1	$MC_M = \frac{SC_M}{1}$
Residuos	$SC_R = \sum (Y_i - \hat{Y}_i)^2$	$n-2$	$MC_R = \frac{SC_R}{n-2}$
Total	$SC_T = \sum (Y_i - \bar{Y})^2$	$n-1$

Con esta información, puedo calcular el estadístico $F$ :

F = \frac{MC_M}{MC_R}

Y finalmente, comparo el valor $F_{\space \text{calculado}}$ contra el valor $F_{\space \text{critico}}$ , que he buscado en la tabla con las coordernadas $F_{1, n-2; \alpha}$ .

En un ANOVA para calcular la bondad de ajuste de un modelo de regresión lineal, la hipótesis nula ( $H_0$ ) es que el modelo no tiene capacidad predictiva significativa. Es decir, el modelo no explica una cantidad significativa de la variabilidad en la variable dependiente. La hipótesis alternativa ( $H_1$ ) es que el modelo sí tiene capacidad predictiva significativa.

si $F_{\space \text{calculado}} \lt F_{1, n-2; \alpha}$ , acepto $H_0$
si $F_{\space \text{calculado}} \geq F_{1, n-2; \alpha}$ , rechazo $H_0$ , es decir: que el modelo sí predice con suficiente significancia. Dicho de otra manera: la variable predictora predice la variable resultado.

Por ejemplo, si tuviera una muestra con $N = 8627$ participantes y quiero comprobar si un modelo de regresión con una variable independiente predice la variable dependiente, tras aplicar las fórmulas de sumas de cuadrados y medias de cuadrados, los datos de ANOVA son los siguientes:

Fuente	Suma de Cuadrados ( $SC$ )	Grados de Libertad ( $df$ )	Medias de Cuadrados ( $MC$ )
Regresión	144988.556	1	144988.556
Residuos	1989851.328	8625	230.70
Total	2134839.884	8626

Con esta información, puedo calcular el estadístico $F$ :

F = \frac{MC_M}{MC_R} = \frac{144988.556}{230.70} = 628.45

Luego, comparo el valor $F_{\text{calculado}}$ contra el valor $F_{\text{crítico}}$ , que busco en la tabla de distribución F con las coordenadas $F_{1, 8625; 0.05}$ :

Si $F_{\text{calculado}} < F_{1, 8625; \alpha}$ , acepto $H_0$ .
Si $F_{\text{calculado}} \geq F_{1, 8625; \alpha}$ , rechazo $H_0$ .

En este ejemplo, el valor $F_{\text{calculado}}$ es 628.45, y el valor $F_{\text{crítico}}$ para $\alpha = 0.05$ es aproximadamente 3.85 (según la tabla de distribución F).

Dado que $628.45 \geq 3.85$ , rechazo $H_0$ .

Coeficiente de determinación (R²)

Otra forma de evaluar la bondad del ajuste es el coeficiente de determinación.

Doble uso del (

R^2

)

En una regresión lineal, el coeficiente de determinación ( $R^2$ ) se utiliza tanto para evaluar la bondad de ajuste como para medir el tamaño del efecto.

$R^2$ es una medida que indica la proporción de la variabilidad total de la variable dependiente que es explicada por el modelo de regresión. Por eso, lo utilizo en el contexto de la regresión lineal para evaluar la bondad de ajuste.

La fórmula de $R^2$ es:

R^2 = 1 - \frac{\sum (Y_i - \hat{Y}_i)^2}{\sum (Y_i - \bar{Y})^2}

Donde:

$Y_i$ es el valor observado.
$\hat{Y}_i$ es el valor predicho por el modelo.
$\bar{Y}$ es la media de los valores observados.

Sin embargo, otra forma de representarlo sería utilizando las sumas de cuadrados:

R^2 = \frac{SC_M}{SC_T}

Donde:

$SC_M$ es la Suma de Cuadrados del Modelo.
$SC_T$ es la Suma de Cuadrados Totales.

De esto se desprende que:

\frac{SC_M}{SC_T} = 1 - \frac{\sum (Y_i - \hat{Y}_i)^2}{\sum (Y_i - \bar{Y})^2}

$R^2$ toma valores entre 0 y 1. Un valor de 1 indica que el modelo explica toda la variabilidad de los datos, mientras que un valor de 0 indica que el modelo no explica ninguna variabilidad.

Sin embargo, un $R^2$ bajo no siempre significa que el modelo es malo; puede ser que la relación entre las variables no sea lineal o que existan otros factores no considerados en el modelo.

Pregunta

Que un R²=0.26 sea interpretado como bajo, medio o alto depende de muchos factores, pero equivaldría a una relación alta entre dos variables si fuera transformado en correlación (r).

Imagina que tengo los siguientes valores observados y predichos:

$Y_i$ (observado)	$\hat{Y}_i$ (predicho)
2	2.5
3	2.8
4	4.1
5	5.2

Para evaluar la bondad de ajuste del modelo, puedo calcular el coeficiente de determinación ( $R^2$ ).

Para ello, primero calculo $\bar{Y}$ , que es la media de los valores observados:

\bar{Y} = \frac{2 + 3 + 4 + 5}{4} = 3.5

Después, calculo la suma de los cuadrados de los residuales ( $SC_R$ ):

\sum (Y_i - \hat{Y}_i)^2 = (2 - 2.5)^2 + (3 - 2.8)^2 + (4 - 4.1)^2 + (5 - 5.2)^2 = 0.25 + 0.04 + 0.01 + 0.04 = 0.34

Finalmente, calculo la suma de los cuadrados totales ( $SC_T$ ):

\sum (Y_i - \bar{Y})^2 = (2 - 3.5)^2 + (3 - 3.5)^2 + (4 - 3.5)^2 + (5 - 3.5)^2 = 2.25 + 0.25 + 0.25 + 2.25 = 5

Ahora puedo aplicar la fórmula para calcular $R^2$ :

R^2 = 1 - \frac{0.34}{5} = 1 - 0.068 = 0.932

Por lo tanto, el coeficiente de determinación es $R^2 = 0.932$ . El alto valor de $R^2$ indica que el modelo explica una gran proporción de la variabilidad de los datos.

Coeficiente de determinación ajustado (R²_ajustado)

El Coeficiente de determinación ajustado ( $\bar{R_2}$ ) se utiliza para evitar el problema de sobreajuste (overfitting) que puede ocurrir cuando se añaden demasiadas variables predictoras al modelo

$\bar{R_2}$ ajusta el $R_2$ por el número de predictores en el modelo. Penaliza la inclusión de variables que no aportan mejora significativa al modelo.

$R_2$ mide la cantidad de variabilidad explicada por el modelo sin tener en cuenta la complejidad del mismo, mientras que $\bar{R_2}$ ofrece una medida que considera tanto la variabilidad explicada como la cantidad de predictores utilizados, penalizando modelos que añaden predictores sin mejorar sustancialmente el ajuste.

Pregunta

El coeficiente de determinación (R²) en una regresión múltiple podría inflarse si existen numerosas variables predictoras, por lo que conviene calcular y considerar el R² ajustado.

Error Cuadrático Medio (MSE)

Otra medida que permite evaluar la bondad del ajuste es el Error Cuadrático Medio (MSE).

Del inglés: Mean Squared Error

MSE mide la media de los cuadrados de los errores (residuales). Es una medida de la magnitud promedio de los errores de predicción.

La fórmula del MSE es:

MSE = \frac{1}{n} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2

Donde:

$n$ es el número de observaciones.
$Y_i$ es el valor observado.
$\hat{Y}_i$ es el valor predicho por el modelo.

Un MSE menor indica un mejor ajuste del modelo a los datos.

Raíz del Error Cuadrático Medio (RMSE)

De forma similar, la Raíz del Error Cuadrático Medio (RMSE) también sirve para evaluar la bondad del ajuste.

Del inglés: Root Mean Squared Error

RMSE es la raíz cuadrada del MSE. Proporciona una medida de la magnitud promedio de los errores de predicción en las mismas unidades que la variable dependiente.

La fórmula del RMSE es:

RMSE = \sqrt{MSE}

Valores bajos de MSE y RMSE indican que los valores predichos por el modelo están cerca de los valores observados, lo que implica un buen ajuste del modelo.

Tamaño del efecto (R²)

En el contexto de la regresión lineal, el coeficiente de determinación ( $R^2$ ) se utiliza como una medida del tamaño del efecto. El tamaño del efecto se refiere a la magnitud de la relación entre las variables independientes y la variable dependiente.

Doble uso del (

R^2

)

En una regresión lineal, el coeficiente de determinación ( $R^2$ ) se utiliza tanto para evaluar la bondad de ajuste como para medir el tamaño del efecto.

El coeficiente de determinación ( $R^2$ ) se define como la proporción de la variabilidad total en la variable dependiente que es explicada por las variables independientes en el modelo. Matemáticamente, se expresa como:

R^2 = 1 - \frac{\sum (Y_i - \hat{Y}_i)^2}{\sum (Y_i - \bar{Y})^2}

Donde:

$Y_i$ es el valor observado de la variable dependiente.
$\hat{Y}_i$ es el valor predicho por el modelo.
$\bar{Y}$ es la media de los valores observados.

El valor de $R^2$ indica la proporción de la variabilidad en la variable dependiente que es explicada por las variables independientes. Un valor más alto de $R^2$ sugiere un mayor tamaño del efecto, es decir, una relación más fuerte entre las variables independientes y la variable dependiente.

Pequeño tamaño del efecto: $R^2$ alrededor de 0.01
Mediano tamaño del efecto: $R^2$ alrededor de 0.09
Grande tamaño del efecto: $R^2$ alrededor de 0.25 o mayor

Puesto que $R^2$ es siempre un valor entre 0 y 1, frecuentemente se expresa en forma de porcentaje.

Regresión lineal simple

Cuando sólo hay una variable predictora, hago una regresión lineal simple.

En una regresión lineal simple, el modelo matemático se expresa como:

Y = \beta_0 + \beta_1 X + \epsilon

Donde:

$Y$ es la variable dependiente (lo que estoy tratando de predecir).
$X$ es la variable independiente (el predictor).
$\beta_0$ es la constante, llamada también intersección e intercepto.
$\beta_1$ es el coeficiente de la pendiente, llamada también gradiente o slope, que indica el cambio en $Y$ por cada unidad de cambio en $X$ .
$\epsilon$ representa el de error (la diferencia entre el valor observado y el valor predicho).

Supongamos que estoy estudiando la relación entre las horas de ejercicio (variable independiente $X$ ) y la pérdida de peso (variable dependiente $Y$ ). Si el modelo de regresión lineal es:

\text{Pérdida de peso} = 2 + 0.5 \times \text{Horas de ejercicio}

Aquí, el coeficiente de regresión $\beta_1$ es 0.5. Esto significa que por cada hora adicional de ejercicio, la pérdida de peso esperada aumenta en 0.5 kg. La constante $\beta_0$ es 2, lo que indica la pérdida de peso esperada cuando no se realiza ejercicio (aunque esto debe interpretarse con cuidado en contexto).

Cálculo con SPSS

Los pasos a seguir en SPSS son:

Cargar los datos
Abrir la barra de herramientas Analizar y desplegar Regresión.
Hacer click en la opción Lineales.
Ahora defino las variables de la regresión lineal. En la ventana que se ha abierto:
- Añadir la variable resultado a Dependientes.
- Añadir la variable predictora a Independientes
- Hacer click sobre Estadísticos.
Ahora selecciono los estadísticos. En la nueva ventana:
- Marco el checkbox Estimaciones.
- Marco el checkbox Ajuste del modelo.
- Marco el checkbox Diagnóstico de colinealidad.
- Hago click sobre Continuar.
Hacer click sobre Aceptar.

Esto crea una hoja con varios grupos de datos, entre ellos:

Variables entradas/eliminadas: al ser una regresión lineal simple, sólo hay una variable; precisamente la variable predictora o independiente. En este apartado también se ve el método elegido, que por defecto es Introducir.
Resumen del modelo: esta tabla contiene el coeficiente de determinación ( $R^2$ o R cuadrado). No es necesario fijarse en R cuadrado ajustado porque es una regresión lineal simple. El valor de $R^2$ oscila entre 0 y 1, por lo que también se puede leer como porcentaje; multiplicando el valor por 100. Este coeficiente refleja la proporción de la variable resultado que es explicada por la variable predictora. Esta tabla también contiene el estadístico $R$ , que es la raíz cuadrada de $R^2$ .
ANOVA: esta tabla muestra los resultados de la prueba de analisis de la varianza, que contiene el valor de significación ( $p$ ) para contrastar si el modelo predice significativamente. La hipótesis nula es que el modelo no predice, por lo que si $p < 0.05$ , rechazo la hipótesis nula y concluyo que el modelo sí predice significativamente.
Coeficientes: contiene los valores que describen la ecuación de la recta. En la primera columna, llamada B, se encuentran la constante ( $\beta_0$ ) y la pendiente ( $\beta_1$ ). Con estos valores, ya se puede describir la ecuación de la recta: $Y = \beta_0 + \beta_1 X$ . En la segunda columna, llamada Desv. Error, veo los residuos para ambos valores, que constituyen el error del modelo. Esta tabla también tiene una Sig., que contiene la significación ( $p$ ) que utilizo para contrastar que la variable predictora predice significativamente la variable resultado. Al final, en la última columna, llamada VIF, se encuentra el valor que utilizo para comprobar si se cumple el supuesto de no-multicolinealidad: si $VIF > 5$ , significa que el riesgo de multicolinealidad es demasiado alto y hay que re-plantear el modelo.

Regresión lineal múltiple

Cuando hay más de una variable predictora, hago una regresión lineal múltiple.

En una regresión lineal simple, el modelo matemático se expresa como:

Y_i = \beta_0 + \boxed{\beta_1 X_{i1}} + \boxed{\beta_2 X_{i2}} + \cdots + \Large \epsilon_i

$Y_i$ : Es el valor observado de la variable dependiente para la $i$ -ésima observación. Representa el resultado que estoy tratando de predecir o explicar con el modelo de regresión.
$\beta_0$ : Es el intercepto o la ordenada al origen del modelo. Representa el valor esperado de $Y$ cuando todas las variables independientes ( $X_{i1}, X_{i2}, \ldots$ ) son iguales a cero. En otras palabras, es el punto en el que la línea de regresión cruza el eje $Y$ .
$\boxed{\beta_1 X_{i1}}$ :
- $\beta_1$ : Es la pendiente o coeficiente de regresión asociado con la primera variable independiente $X_{i1}$ . Indica el cambio esperado en $Y$ por cada unidad de cambio en $X_{i1}$ , manteniendo constantes todas las demás variables independientes.
- $X_{i1}$ : Es el valor de la primera variable independiente para la $i$ -ésima observación. Representa uno de los factores que puede influir en $Y$ .
$\boxed{\beta_2 X_{i2}}$ :
- $\beta_2$ : Es la pendiente o coeficiente de regresión asociado con la segunda variable independiente $X_{i2}$ . Indica el cambio esperado en $Y$ por cada unidad de cambio en $X_{i2}$ , manteniendo constantes todas las demás variables independientes.
- $X_{i2}$ : Es el valor de la segunda variable independiente para la $i$ -ésima observación. Representa otro factor que puede influir en $Y$ .
$\cdots$ : Representa que el modelo puede incluir más términos similares para cada una de las variables independientes adicionales ( $X_{i3}$ , $X_{i4}$ , etc.), con sus respectivos coeficientes ( $\beta_3$ , $\beta_4$ , etc.).
$\large \epsilon_i$ : También conocido como el residuo o error. Representa la diferencia entre el valor observado $Y_i$ y el valor predicho por el modelo de regresión. Captura la variabilidad en $Y$ que no es explicada por las variables independientes en el modelo. Se asume que estos errores son independientes y están normalmente distribuidos con media cero y varianza constante.

En una ecuación de regresión lineal múltiple, cada $\beta_j$ (donde $j = 1, 2, \ldots$ ) representa el efecto parcial de la variable independiente $X_{ij}$ en la variable dependiente $Y_i$ , controlando por las demás variables independientes.

El término $\beta_0$ proporciona el valor de $Y$ cuando todas las variables independientes son cero, y el término de error $\text{Error}_i$ captura la variabilidad no explicada por el modelo.

Cálculo con SPSS

Los pasos a seguir en SPSS son:

Cargar los datos
Abrir la barra de herramientas Analizar y desplegar Regresión.
Hacer click en la opción Lineales.
Ahora defino las variables de la regresión lineal. En la ventana que se ha abierto:
- Añadir la variable resultado a Dependientes.
- Añadir todas las variables predictoras a Independientes
- Hacer click sobre Estadísticos.
Ahora selecciono los estadísticos. En la nueva ventana:
- Marco el checkbox Estimaciones.
- Marco el checkbox Ajuste del modelo.
- Marco el checkbox Diagnóstico de colinealidad.
- Hago click sobre Continuar.
Hacer click sobre Aceptar.

Esto crea una hoja con varios grupos de datos, entre ellos:

Variables entradas/eliminadas: al ser una regresión lineal múltiple, hay múltiples variables; precisamente las variables predictoras o independientes. En este apartado también se ve el método elegido, que por defecto es Introducir.
Resumen del modelo: esta tabla contiene el coeficiente de determinación ( $R^2$ o R cuadrado). Esta vez, tengo que fijarme en R cuadrado ajustado ( $\bar{R_2}$ ) porque es una regresión lineal múltiple. El valor de $R^2$ y $\bar{R_2}$ oscila entre 0 y 1, por lo que también se puede leer como porcentaje; multiplicando el valor por 100. Este coeficiente refleja la proporción de la variable resultado que es explicada por la variable predictora. Esta tabla también contiene el estadístico $R$ , que es la raíz cuadrada de $R^2$ .
ANOVA: esta tabla muestra los resultados de la prueba de analisis de la varianza, que contiene el valor de significación ( $p$ ) para contrastar si el modelo predice significativamente. La hipótesis nula es que el modelo no predice, por lo que si $p < 0.05$ , rechazo la hipótesis nula y concluyo que el modelo sí predice significativamente.
Coeficientes: contiene los valores que describen la ecuación de la recta. En la primera columna, llamada B, se encuentra la constante ( $\beta_0$ ). Además, hay múltiples valores de pendiente ( $\beta_1$ ); uno por cada variable predictora. Con estos valores, se puede describir la ecuación de la recta: $Y_i = \beta_0 + \boxed{\beta_1 X_{i1}} + \boxed{\beta_2 X_{i2}} + \cdots$ . En la segunda columna, llamada Desv. Error, veo los residuos para todos valores, que constituyen el error del modelo. La siguiente columna, llamada Coeficientes estandarizados Beta contiene el valor estandarizado de la pendiente, cuyo utilidad es comparar las distintas pendientes. Esta tabla también tiene una Sig., que contiene la significación ( $p$ ) que utilizo para contrastar que las variables predictoras predicen significativamente la variable resultado. Cada una de las variables predictoras tiene su propio valor $p$ de significación. Al final, en la última columna, llamada VIF, se encuentra el valor que utilizo para comprobar si se cumple el supuesto de no-multicolinealidad: si en alguna de las variable $VIF > 5$ , significa que el riesgo de multicolinealidad es demasiado alto y hay que re-plantear el modelo.

$X$	$Y$	$X \cdot Y$	$X^2$
7	2	14	49
1	9	9	1
10	5	50	100
5	5	25	25
4	7	28	16
11	3	33	121
13	2	26	169
10	5	50	100
2	14	28	4

$X$	$Y$	$X \cdot Y$	$X^2$
7	2	14	49
1	9	9	1
10	5	50	100
5	5	25	25
4	7	28	16
11	3	33	121
13	2	26	169
10	5	50	100
2	14	28	4

Fundamento​

Intercepto​

Gradiente​

Error​

Supuestos​

Comprobación de no-multicolinealidad (VIF)​

Método de Mínimos Cuadrados​

Cálculo​

Bondad de ajuste del modelo​

Mediante comparación de modelos​

Suma de Cuadrados Total (SCTSCTSCT)​

Suma de Cuadrados del Modelo de No-Relación​

Suma de Cuadrados del Modelo de Relación​

Suma de Cuadrados Residual​

Evaluación de la bondad de ajuste​

ANOVA​

Coeficiente de determinación (R²)​

Coeficiente de determinación ajustado (R²ajustado)​

Error Cuadrático Medio (MSE)​

Raíz del Error Cuadrático Medio (RMSE)​

Tamaño del efecto (R²)​

Regresión lineal simple​

Cálculo con SPSS​

Regresión lineal múltiple​

Cálculo con SPSS​

Fundamento

Intercepto

Gradiente

Error

Supuestos

Comprobación de no-multicolinealidad (VIF)

Método de Mínimos Cuadrados

Cálculo

Bondad de ajuste del modelo

Mediante comparación de modelos

Suma de Cuadrados Total ( $SCT$ )

Suma de Cuadrados del Modelo de No-Relación

Suma de Cuadrados del Modelo de Relación

Suma de Cuadrados Residual

Evaluación de la bondad de ajuste

ANOVA

Coeficiente de determinación (R²)

Coeficiente de determinación ajustado (R²_ajustado)

Error Cuadrático Medio (MSE)

Raíz del Error Cuadrático Medio (RMSE)

Tamaño del efecto (R²)

Regresión lineal simple

Cálculo con SPSS

Regresión lineal múltiple

Cálculo con SPSS

$X$	$Y$	$X \cdot Y$	$X^2$
7	2	14	49
1	9	9	1
10	5	50	100
5	5	25	25
4	7	28	16
11	3	33	121
13	2	26	169
10	5	50	100
2	14	28	4