Saltar al contenido principal

Regresión lineal

La regresión lineal es una técnica estadística que se utiliza para predecir la variable de resultado (variable dependiente) a partir de una o más variables predictoras (variables independientes).

Contexto

En una regresión lineal, una variable explica otra variable. Por eso, al hacer una regresión lineal utilizo el término variable predictora para referirme a lo que típicamente llamaría la variable independiente, o factor. De forma similar, utilizamos el término variable resultado para referirnos a la variable dependiente.

   Variable predictoraprediceVariable resultado\space \space \space \small \text{Variable predictora} \large \xrightarrow{predice} \small {\text{Variable resultado}}   Variable independiente o factortiene efecto sobreVariable dependiente\space \space \space \small \text{Variable independiente o factor} \large \xrightarrow{tiene \space efecto \space sobre} \small \text{Variable dependiente}

Fundamento

La regresión lineal es una técnica estadística que se utiliza para predecir la variable de resultado (variable dependiente) a partir de una o más variables predictoras (variables independientes). La lógica básica que sigue la regresión lineal es la siguiente:

Puntuacioˊn observadai=Modelo+Errori\text{Puntuación observada}_i = \text{Modelo} + \text{Error}_i
  • Puntuación observada: Es el valor real observado de la variable dependiente para la observación ii.
  • Modelo: Es la parte que predice el modelo de regresión. En el caso de la regresión lineal simple, el modelo se expresa como: Modelo=β0+β1×Xi\text{Modelo} = \beta_0 + \beta_1 \times X_i donde:
    • β0\beta_0 es la ordenada en el origen (intercepto).
    • β1\beta_1 es el coeficiente de la pendiente que indica el cambio en la variable dependiente por cada unidad de cambio en la variable independiente XX.
  • Error: Es la diferencia entre el valor observado y el valor predicho por el modelo para la observación ii. Se denota como: Errori=Puntuacioˊn observadaiModelo\text{Error}_i = \text{Puntuación observada}_i - \text{Modelo}
Linealidad

Una regresión lineal es lineal porque genera una línea recta. Si hago un poco de memoria, puedo recordar que en la escuela me explicaron que una recta se puede expresar en estos términos:

Y=mX+bY = m X + b

Donde:

  • mm es la pendiente.
  • bb es el valor desde el que empieza la línea. Mejor dicho, el valor de yy cuando x=0x = 0
  • XX e YY son las coordenadas del punto, de manera que puedo calcular el valor yy para cada valor xx.

El objetivo de la regresión lineal es encontrar la línea que minimiza el error total. Esta línea recta será la que mejor prediga valores desconocidos.

Como he dicho antes, generalmente una línea recta se expresa así:

Y=mX+bY = m X + b

Esto también es cierto en la regresión lineal. No obstante, en una regresión lineal hay que considerar que se produce un error, ya que la predicción no será perfecta. Por lo tanto:

Y=(mX+b)+ErrorY = ( m X + b ) + \text{Error}

Sin embargo, al expresar una regresión lineal, utilizo una notación ligeramente distina para seguir las convenciones estadísticas:

Yi=(β1×Xi+β0)+ErroriY_i = ( \beta_1 \times X_i + \beta_0 ) + \text{Error}_i
  • m    β1m \implies \beta_1
  • b    β0b \implies \beta_0

De hecho, al expresar la ecuación de una regresión lineal, intercambio la posición de la pendiente y la constante, así:

Yi=(β0+β1×Xi)+ErroriY_i = ( \beta_0 + \beta_1 \times X_i ) + \text{Error}_i

El motivo de este cambio de orden es que cuando escribo una regresión lineal multivariable (con más de un predictor), tengo que añadir múltiples variables a la ecuación. Mantener el intercepto primero y luego los coeficientes de los predictores, ayuda a identificar rápidamente qué es qué.

Yi=β0+β1Xi1+β2Xi2++ErroriY_i = \beta_0 + \boxed{\beta_1 X_{i1}} + \boxed{\beta_2 X_{i2}} + \cdots + \text{Error}_i
Valor observado y valor predicho
  • YiY_i: Representa el valor observado de la variable dependiente para la observación ii. Es el valor real que hemos medido o registrado.
  • Y^i\hat{Y}_i: Representa el valor predicho por el modelo de regresión para la observación ii. Es el valor estimado por la ecuación de regresión.

Es resumen: la ecuación de una regresión lineal simple se expresa así:

Y=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon

Donde:

  • YY es la variable dependiente (lo que estoy tratando de predecir).
  • XX es la variable independiente (el predictor).
  • β0\beta_0 es la constante, llamada también intersección e intercepto.
  • β1\beta_1 es el coeficiente de la pendiente, llamada también gradiente o slope, que indica el cambio en YY por cada unidad de cambio en XX.
  • ϵ\epsilon representa el de error (la diferencia entre el valor observado y el valor predicho).

Pregunta

La constante (b₀) hace referencia al valor de la variable de resultado cuando la puntuación en la variable predictora es de cero.

Intercepto

Yi=( β0+β1×Xi)+ϵiY_i = ( \space \Large \boxed{\beta_0} + \normalsize \beta_1 \times X_i ) + \epsilon_i

El intercepto (β0\beta_0), también llamado constante o intersección, tiene un significado importante en el contexto del modelo. En el contexto de la línea expresada como y=mx+by = mx + b, el intercepto es bb. Sin embargo, la convención en regresiones lineales es llamarlo β0\beta_0.

El intercepto representa el valor esperado de la variable dependiente YY cuando la variable independiente XX es igual a cero. En otras palabras, es el punto en el que la línea de regresión cruza el eje Y.

El valor del intercepto debe interpretarse en el contexto del problema específico. En algunos casos, un valor de XX igual a cero puede no tener sentido práctico, y en esos casos, el intercepto puede no ser relevante. Sin embargo, sirve como una base de comparación para evaluar el impacto de la variable independiente XX sobre la variable dependiente YY.

Gradiente

Yi=(β0+ β1×Xi)+ϵiY_i = ( \beta_0 + \space \Large \boxed{\beta_1} \normalsize \times X_i ) + \epsilon_i

El gradiente (β1\beta_1), también llamado pendiente o slope, tiene un significado importante en el contexto del modelo.

En el contexto de la línea expresada como y=mx+by = mx + b, el gradiente es mm. Sin embargo, la convención en regresiones lineales es llamarlo β1\beta_1.

El gradiente representa el cambio esperado en la variable dependiente (YY) por cada unidad de cambio en la variable independiente (XX). Específicamente:

  • Pendiente positiva (β1>0\beta_1 > 0): Indica que a medida que XX aumenta, YY también tiende a aumentar. La relación entre XX y YY es directa.
  • Pendiente negativa (β1<0\beta_1 < 0): Indica que a medida que XX aumenta, YY tiende a disminuir. La relación entre XX y YY es inversa.
  • Pendiente cero (β1=0\beta_1 = 0): Indica que no hay relación lineal entre XX y YY. Los cambios en XX no afectan a YY.

La interpretación del gradiente debe hacerse en el contexto de los datos y del dominio específico del problema. Es importante considerar no solo el valor numérico de β1\beta_1, sino también su significancia estadística y el intervalo de confianza asociado, para asegurar que la relación observada no es producto del azar.

Pregunta

Si la pendiente (b₁) es negativa, la variable de resultado aumenta cuando la variable predictora disminuye y viceversa.

Error

Yi=(β0+β1×Xi)+ ϵiY_i = ( \beta_0 + \beta_1 \times X_i ) + \space \LARGE \boxed{\epsilon_i}

En una regresión lineal, el error (ϵ\large \epsilon), también llamado valores residuales o sencillamente residuos, es la diferencia entre el valor observado YiY_i y el valor predicho Yi^\hat{Y_i} para una observación ii. Es decir, es el efecto del error del modelo en cada valor.

Es decir: en una regresión lineal, el residuo es la diferencia entre el valor observado YiY_i y el valor predicho Yi^\hat{Y_i} para una observación ii. Así, representa el error del modelo para cada valor observado.

En una gráfica, el residuo se puede visualizar como la distancia vertical entre la línea de regresión y el valor real observado. En términos matemáticos, se puede expresar de la siguiente manera:

ei=YiY^ie_i = Y_i - \hat{Y}_i

Donde:

  • eie_i es el residuo para la observación ii.
  • YiY_i es el valor observado de la variable dependiente para la observación ii.
  • Yi^\hat{Y_i} es el valor predicho por el modelo de regresión para la observación ii.

La magnitud del residuo indica el tamaño del error de predicción. Un residuo grande significa que hay una gran discrepancia entre el valor observado y el valor predicho, lo que puede indicar que el modelo no está ajustando bien esa observación en particular.

El signo del residuo (positivo o negativo) indica la dirección del error. Un residuo positivo significa que el valor observado es mayor que el valor predicho, mientras que un residuo negativo significa que el valor observado es menor que el valor predicho.

Los residuos se utilizan para diagnosticar problemas con el modelo, como la falta de linealidad, la presencia de outliers y la heterocedasticidad (varianza no constante de los residuos).

Los gráficos de residuos, como el gráfico de valores residuales versus valores predichos, ayudan a visualizar patrones en los errores y a detectar problemas potenciales con el modelo.

Pregunta

En la regresión lineal, la variable predictora (VI) va siempre en el eje Y, mientras que la variable de resultado (VD) va en el eje X.

Supuestos

Para que una regresión lineal sea válida, los datos deben cumplir ciertos supuestos. Es decir, deben darse ciertas condiciones teóricas para que la regresión lineal sea una estrategia de análisis adecuada. Estos supuestos son:

  1. La variable de resultado es continua: la variable dependiente debe ser continua, lo que significa que puede tomar un rango amplio de valores numéricos.
  2. La variable predictora es continua o categórica binaria (solo 2 niveles): la variable independiente puede ser continua (con valores numéricos) o binaria (con solo dos niveles, como 0 y 1).
  3. La variable predictora no es constante: las variables independientes no deben ser constantes; es decir, no todos los participantes deben tener el mismo valor en esa variable, ya que esto no proporcionaría información útil para la predicción.
  4. Hay baja correlación de los predictores con terceras variables (extrañas): los predictores no deben estar altamente correlacionados con otras variables externas que no están incluidas en el modelo, para evitar confusiones sobre las fuentes de variabilidad.
  5. Homoscedasticidad (igualdad de varianzas): la varianza de los errores debe ser constante a lo largo de todos los niveles de la variable independiente. En otras palabras, los residuos deben mostrar una dispersión uniforme a lo largo de los valores predichos.
  6. Independencia de residuales: los residuos o errores deben ser independientes entre sí, lo que significa que no debe haber patrones sistemáticos en los errores de predicción.
  7. Normalidad en las puntuaciones residuales: los residuos o errores deben seguir una distribución normal. Esto es importante para hacer inferencias estadísticas válidas.
  8. Independencia de resultados (cada valor es de un sujeto distinto): cada observación debe ser independiente, lo que significa que los valores de la variable dependiente deben provenir de sujetos distintos y no relacionados.
  9. Linealidad entre variable predictora y resultado: debe existir una relación lineal entre la variable independiente y la variable dependiente. Esto significa que los cambios en la variable independiente deben asociarse con cambios proporcionales en la variable dependiente.

En el caso de una regresión lineal múltiple, hay su puesto adicional muy imporante:

  1. No hay multicolinealidad, es decir los predictores está muy relacionados: los predictores deben ser relativamente independientes entre sí. Si los predictores están muy correlacionados, puede ser difícil distinguir sus efectos individuales en la variable dependiente.

Pregunta

En la regresión múltiple debe existir multicolinealidad: que dos o más variables predictoras estén altamente relacionadas entre sí.

Comprobación de no-multicolinealidad (VIF)

Hay una prueba que permite verificar que no se produzca multicolinealidad. Esta prueba se llama Factor de Inflación de Varianza, aunque generalmente se denomina VIFVIF.

del inglés: Variance Inflation Factor.

Esta prueba se calcula de forma automática al ejecutar una regresión lineal en SPSS. Cuando ejecuto una prueba VIF, el supuesto de no-multicolinealidad se contrasta en base a un valor estándar de 5, de manera que:

  • Si VIF<5VIF < 5, hay una correlación moderada. Por lo tanto, no hay multicolinealidad.
  • Si VIF>5VIF > 5, considero que sí hay riesgo de multicolinealidad.

En caso de que hubiera riesgo de multicolinealidad en los datos, podría bien eliminar uno de los predictores que se correlacionan tan alto, o combinar algunas variables. Esto dependería del estudio y sería una decisión muy deliberada.

Método de Mínimos Cuadrados

La regresión lineal se fundamenta en el Método de Mínimos Cuadrados. A través del método de mínimos cuadrados, podemos encontrar el modelo que mejor ajusta nuestros datos y, por lo tanto, realizar predicciones más precisas.

El método de mínimos cuadrados es una técnica matemática que busca minimizar la suma de los cuadrados de las diferencias (errores) entre los valores observados y los valores predichos por el modelo. Matemáticamente, se define como la minimización de la siguiente suma:

i=1n(Puntuacioˊn observadaiModelo)2\sum_{i=1}^{n} (\text{Puntuación observada}_i - \text{Modelo})^2

Donde nn es el número de observaciones.

Pregunta

El método de los mínimos cuadrados consiste en encontrar una línea recta que maximice el valor de los residuos (es decir, la distancia entre cada una de las puntuaciones y dicha línea).

Cálculo

Dado el siguiente conjunto de datos:

XXYY
72
19
105
55
47
113
132
105
214

Primero, calculo, para cada coordenada (X,Y)(X,Y), el valor XYX \cdot Y y el valor X2X^2:

XXYYXYX \cdot YX2X^2
721449
1991
10550100
552525
472816
11333121
13226169
10550100
214284

Después, sumo todas las columnas y obtengo los siguientes resultados:

  • X=55\sum X = 55
  • Y=57\sum Y = 57
  • (XY)=233\sum (X \cdot Y) = 233
  • (X2)=473\sum (X^2) = 473

La ecuación de la recta es:

Y=mx+bY = mx + b

Primero, voy a calcular la pendiente (mm). En el contexto de una regresión lineal, esta será el gradiente (β1\beta_1). La fórmula para calcular la pendiente mm es:

m=(XY)XYn(X2)(X)2nm = \frac{\sum (X \cdot Y) - \frac{\sum X \cdot \sum Y}{n}}{\sum (X^2) - \frac{(\sum X)^2}{n}}

Sustituyendo los valores:

m=233555794735529=233348.33473336.11=115.33136.89=0.8425m = \frac{233 - \frac{55 \cdot 57}{9}}{473 - \frac{55^2}{9}} = \frac{233 - 348.33}{473 - 336.11} = \frac{-115.33}{136.89} = -0.8425

Es decir, la pendiente m=0.8425m = -0.8425.

Ahora calculo la intersección (bb). En el contexto de una regresión lineal, este será el intercepto (β0\beta_0). La fórmula para calcular la intersección bb es:

b=YˉmXˉb = \bar{Y} - m \bar{X}

Donde Yˉ\bar{Y} y Xˉ\bar{X} son las medias de YY y XX respectivamente.

Yˉ=Yn=579=6.3333\bar{Y} = \frac{\sum Y}{n} = \frac{57}{9} = 6.3333 Xˉ=Xn=559=6.1111\bar{X} = \frac{\sum X}{n} = \frac{55}{9} = 6.1111

Ahora sustituyo los valores:

b=6.3333(0.8425)×6.1111=6.3333+5.1441=11.4774b = 6.3333 - (-0.8425) \times 6.1111 = 6.3333 + 5.1441 = 11.4774

Finalmente, la ecuación de la recta de regresión es:

Y=0.8425X+11.4774Y = -0.8425 X + 11.4774

Esta es la recta que mejor minimiza el error. Por lo tanto, es la recta que mejor predice valores desconocidos.

Bondad de ajuste del modelo

La bondad de ajuste es una medida que indica, en esencia, cómo de bueno es el modelo. Es decir, cómo de bien predice valores. Dicho de otra manera: cómo de bien las predicciones del modelo se alinean con los valores reales observados.

Mediante comparación de modelos

Una de las formas de evaluar la bondad de ajuste de un modelo de regresión lineal es comparar dos modelos:

  1. Modelo de Relación: asume una relación entre la variable independiente y la variable dependiente.
  2. Modelo de No-Relación: asume que no existe relación entre las variables, es decir, la variable dependiente se predice simplemente por su media.

Para evaluar cuál de los dos modelos explica mejor la variabilidad de los datos, utilizo las sumas de cuadrados de ambos modelos.

Pregunta

En el modelo de no relación, cualquier cambio en la variable predictora va a dar lugar a un valor aleatorio en la otra variable.

Suma de Cuadrados Total (SCTSCT)

Representa la variabilidad total de los datos observados con respecto a su media. Es decir, la variabilidad en ambos modelos.

Se calcula como:

SCT=(YiYˉ)2SC_T = \sum (Y_i - \bar{Y})^2

Esta medida no depende de ningún modelo y simplemente mide la dispersión de los datos.

Suma de Cuadrados del Modelo de No-Relación

Es igual a la suma de cuadrados total, ya que el modelo de no-relación asume que todas las predicciones son iguales a la media de los valores observados.

Por lo tanto:

SCNR=SCTSC_{NR} = SC_T

Suma de Cuadrados del Modelo de Relación

Representa la variabilidad explicada por el modelo de relación, es decir, cuánto se reduce la variabilidad total al ajustar el modelo de regresión.

Se calcula como:

SCR=(Y^iYˉ)2SC_{R} = \sum (\hat{Y}_i - \bar{Y})^2

Pregunta

La suma de cuadrados del modelo (SCₘ) es la diferencia entre la cantidad de información que el modelo de no relación no puede explicar y la cantidad de información que el modelo de relación no puede explicar.

Suma de Cuadrados Residual

Representa la variabilidad que no es explicada por el modelo de relación.

Se calcula como:

SCR=(YiY^i)2SC_R = \sum (Y_i - \hat{Y}_i)^2

Evaluación de la bondad de ajuste

La comparación entre el modelo de relación y el modelo de no-relación se realiza utilizando la Suma de Cuadrados del Modelo (SCMSC_M), que mide la mejora del modelo de relación sobre el modelo de no-relación.

SCM=SCTSCRSC_M = SC_T - SC_R

Donde:

  • SCMSC_M: Suma de Cuadrados del Modelo.
  • SCTSC_T: Suma de Cuadrados Total.
  • SCRSC_R: Suma de Cuadrados Residual.

Esta medida me dice cuánta de la variabilidad total de los datos es explicada por el modelo de relación.

  • Un valor alto de SCMSC_M indica que el modelo de relación explica una gran parte de la variabilidad de los datos en comparación con el modelo de no-relación.
  • Un valor bajo de SCRSC_R indica que los errores de predicción del modelo de relación son pequeños, lo que sugiere un buen ajuste del modelo.

Así, el método de comparación entre el modelo de relación y el modelo de no-relación utilizando las sumas de cuadrados proporciona una forma efectiva de evaluar la bondad de ajuste de un modelo de regresión. Este enfoque nos permite cuantificar la mejora en la explicación de la variabilidad de los datos que ofrece el modelo de relación en comparación con un modelo que no asume ninguna relación entre las variables.

ANOVA

Otra forma de evaluar la bondad del ajuste es el análisis de la varianza (ANOVA). El ANOVA se utiliza precisamente para realizar comparaciones. Por eso, se puede utilizar también en el contexto de la regresión lineal para evaluar la bondad de ajuste.

Este método descompone la variabilidad total en componentes explicados por el modelo y componentes residuales, y utiliza el estadístico FF para determinar la significancia del modelo.

Si el valor de FF calculado es mayor que el valor crítico de FF (obtenido de la tabla de distribución FF), rechazo la hipótesis nula y concluyo que el modelo de regresión proporciona un mejor ajuste que el modelo de no-relación.

Los cálculos necesarios se pueden visualizar bien en la tabla de ANOVA, que descompone la variabilidad total en la variabilidad explicada por el modelo y la variabilidad de los residuos. Los componentes principales de la tabla de ANOVA son:

FuenteSuma de CuadradosdfdfMedias de Cuadrados
RegresiónSCM=(Y^iYˉ)2SC_M = \sum (\hat{Y}_i - \bar{Y})^21MCM=SCM1MC_M = \frac{SC_M}{1}
ResiduosSCR=(YiY^i)2SC_R = \sum (Y_i - \hat{Y}_i)^2n2n-2MCR=SCRn2MC_R = \frac{SC_R}{n-2}
TotalSCT=(YiYˉ)2SC_T = \sum (Y_i - \bar{Y})^2n1n-1

Con esta información, puedo calcular el estadístico FF:

F=MCMMCRF = \frac{MC_M}{MC_R}

Y finalmente, comparo el valor F calculadoF_{\space \text{calculado}} contra el valor F criticoF_{\space \text{critico}}, que he buscado en la tabla con las coordernadas F1,n2;αF_{1, n-2; \alpha}.

En un ANOVA para calcular la bondad de ajuste de un modelo de regresión lineal, la hipótesis nula (H0H_0) es que el modelo no tiene capacidad predictiva significativa. Es decir, el modelo no explica una cantidad significativa de la variabilidad en la variable dependiente. La hipótesis alternativa (H1H_1) es que el modelo sí tiene capacidad predictiva significativa.

  • si F calculado<F1,n2;αF_{\space \text{calculado}} \lt F_{1, n-2; \alpha}, acepto H0H_0
  • si F calculadoF1,n2;αF_{\space \text{calculado}} \geq F_{1, n-2; \alpha}, rechazo H0H_0, es decir: que el modelo sí predice con suficiente significancia. Dicho de otra manera: la variable predictora predice la variable resultado.

Por ejemplo, si tuviera una muestra con N=8627N = 8627 participantes y quiero comprobar si un modelo de regresión con una variable independiente predice la variable dependiente, tras aplicar las fórmulas de sumas de cuadrados y medias de cuadrados, los datos de ANOVA son los siguientes:

FuenteSuma de Cuadrados (SCSC)Grados de Libertad (dfdf)Medias de Cuadrados (MCMC)
Regresión144988.5561144988.556
Residuos1989851.3288625230.70
Total2134839.8848626

Con esta información, puedo calcular el estadístico FF:

F=MCMMCR=144988.556230.70=628.45F = \frac{MC_M}{MC_R} = \frac{144988.556}{230.70} = 628.45

Luego, comparo el valor FcalculadoF_{\text{calculado}} contra el valor FcrıˊticoF_{\text{crítico}}, que busco en la tabla de distribución F con las coordenadas F1,8625;0.05F_{1, 8625; 0.05}:

  • Si Fcalculado<F1,8625;αF_{\text{calculado}} < F_{1, 8625; \alpha}, acepto H0H_0.
  • Si FcalculadoF1,8625;αF_{\text{calculado}} \geq F_{1, 8625; \alpha}, rechazo H0H_0.

En este ejemplo, el valor FcalculadoF_{\text{calculado}} es 628.45, y el valor FcrıˊticoF_{\text{crítico}} para α=0.05\alpha = 0.05 es aproximadamente 3.85 (según la tabla de distribución F).

Dado que 628.453.85628.45 \geq 3.85, rechazo H0H_0.

Coeficiente de determinación (R²)

Otra forma de evaluar la bondad del ajuste es el coeficiente de determinación.

Doble uso del (R2R^2)

En una regresión lineal, el coeficiente de determinación (R2R^2) se utiliza tanto para evaluar la bondad de ajuste como para medir el tamaño del efecto.

R2R^2 es una medida que indica la proporción de la variabilidad total de la variable dependiente que es explicada por el modelo de regresión. Por eso, lo utilizo en el contexto de la regresión lineal para evaluar la bondad de ajuste.

La fórmula de R2R^2 es:

R2=1(YiY^i)2(YiYˉ)2R^2 = 1 - \frac{\sum (Y_i - \hat{Y}_i)^2}{\sum (Y_i - \bar{Y})^2}

Donde:

  • YiY_i es el valor observado.
  • Y^i\hat{Y}_i es el valor predicho por el modelo.
  • Yˉ\bar{Y} es la media de los valores observados.

Sin embargo, otra forma de representarlo sería utilizando las sumas de cuadrados:

R2=SCMSCTR^2 = \frac{SC_M}{SC_T}

Donde:

  • SCMSC_M es la Suma de Cuadrados del Modelo.
  • SCTSC_T es la Suma de Cuadrados Totales.

De esto se desprende que:

SCMSCT=1(YiY^i)2(YiYˉ)2\frac{SC_M}{SC_T} = 1 - \frac{\sum (Y_i - \hat{Y}_i)^2}{\sum (Y_i - \bar{Y})^2}

R2R^2 toma valores entre 0 y 1. Un valor de 1 indica que el modelo explica toda la variabilidad de los datos, mientras que un valor de 0 indica que el modelo no explica ninguna variabilidad.

Sin embargo, un R2R^2 bajo no siempre significa que el modelo es malo; puede ser que la relación entre las variables no sea lineal o que existan otros factores no considerados en el modelo.

Pregunta

Que un R²=0.26 sea interpretado como bajo, medio o alto depende de muchos factores, pero equivaldría a una relación alta entre dos variables si fuera transformado en correlación (r).

Imagina que tengo los siguientes valores observados y predichos:

YiY_i (observado)Y^i\hat{Y}_i (predicho)
22.5
32.8
44.1
55.2

Para evaluar la bondad de ajuste del modelo, puedo calcular el coeficiente de determinación (R2R^2).

Para ello, primero calculo Yˉ\bar{Y}, que es la media de los valores observados:

Yˉ=2+3+4+54=3.5\bar{Y} = \frac{2 + 3 + 4 + 5}{4} = 3.5

Después, calculo la suma de los cuadrados de los residuales (SCRSC_R):

(YiY^i)2=(22.5)2+(32.8)2+(44.1)2+(55.2)2=0.25+0.04+0.01+0.04=0.34\sum (Y_i - \hat{Y}_i)^2 = (2 - 2.5)^2 + (3 - 2.8)^2 + (4 - 4.1)^2 + (5 - 5.2)^2 = 0.25 + 0.04 + 0.01 + 0.04 = 0.34

Finalmente, calculo la suma de los cuadrados totales (SCTSC_T):

(YiYˉ)2=(23.5)2+(33.5)2+(43.5)2+(53.5)2=2.25+0.25+0.25+2.25=5\sum (Y_i - \bar{Y})^2 = (2 - 3.5)^2 + (3 - 3.5)^2 + (4 - 3.5)^2 + (5 - 3.5)^2 = 2.25 + 0.25 + 0.25 + 2.25 = 5

Ahora puedo aplicar la fórmula para calcular R2R^2:

R2=10.345=10.068=0.932R^2 = 1 - \frac{0.34}{5} = 1 - 0.068 = 0.932

Por lo tanto, el coeficiente de determinación es R2=0.932R^2 = 0.932. El alto valor de R2R^2 indica que el modelo explica una gran proporción de la variabilidad de los datos.

Coeficiente de determinación ajustado (R²ajustado)

El Coeficiente de determinación ajustado (R2ˉ\bar{R_2}) se utiliza para evitar el problema de sobreajuste (overfitting) que puede ocurrir cuando se añaden demasiadas variables predictoras al modelo

R2ˉ\bar{R_2} ajusta el R2R_2 por el número de predictores en el modelo. Penaliza la inclusión de variables que no aportan mejora significativa al modelo.

R2R_2 mide la cantidad de variabilidad explicada por el modelo sin tener en cuenta la complejidad del mismo, mientras que R2ˉ\bar{R_2} ofrece una medida que considera tanto la variabilidad explicada como la cantidad de predictores utilizados, penalizando modelos que añaden predictores sin mejorar sustancialmente el ajuste.

Pregunta

El coeficiente de determinación (R²) en una regresión múltiple podría inflarse si existen numerosas variables predictoras, por lo que conviene calcular y considerar el R² ajustado.

Error Cuadrático Medio (MSE)

Otra medida que permite evaluar la bondad del ajuste es el Error Cuadrático Medio (MSE).

Del inglés: Mean Squared Error

MSE mide la media de los cuadrados de los errores (residuales). Es una medida de la magnitud promedio de los errores de predicción.

La fórmula del MSE es:

MSE=1ni=1n(YiY^i)2MSE = \frac{1}{n} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2

Donde:

  • nn es el número de observaciones.
  • YiY_i es el valor observado.
  • Y^i\hat{Y}_i es el valor predicho por el modelo.

Un MSE menor indica un mejor ajuste del modelo a los datos.

Raíz del Error Cuadrático Medio (RMSE)

De forma similar, la Raíz del Error Cuadrático Medio (RMSE) también sirve para evaluar la bondad del ajuste.

Del inglés: Root Mean Squared Error

RMSE es la raíz cuadrada del MSE. Proporciona una medida de la magnitud promedio de los errores de predicción en las mismas unidades que la variable dependiente.

La fórmula del RMSE es:

RMSE=MSERMSE = \sqrt{MSE}

Valores bajos de MSE y RMSE indican que los valores predichos por el modelo están cerca de los valores observados, lo que implica un buen ajuste del modelo.

Tamaño del efecto (R²)

En el contexto de la regresión lineal, el coeficiente de determinación (R2R^2) se utiliza como una medida del tamaño del efecto. El tamaño del efecto se refiere a la magnitud de la relación entre las variables independientes y la variable dependiente.

Doble uso del (R2R^2)

En una regresión lineal, el coeficiente de determinación (R2R^2) se utiliza tanto para evaluar la bondad de ajuste como para medir el tamaño del efecto.

El coeficiente de determinación (R2R^2) se define como la proporción de la variabilidad total en la variable dependiente que es explicada por las variables independientes en el modelo. Matemáticamente, se expresa como:

R2=1(YiY^i)2(YiYˉ)2R^2 = 1 - \frac{\sum (Y_i - \hat{Y}_i)^2}{\sum (Y_i - \bar{Y})^2}

Donde:

  • YiY_i es el valor observado de la variable dependiente.
  • Y^i\hat{Y}_i es el valor predicho por el modelo.
  • Yˉ\bar{Y} es la media de los valores observados.

El valor de R2R^2 indica la proporción de la variabilidad en la variable dependiente que es explicada por las variables independientes. Un valor más alto de R2R^2 sugiere un mayor tamaño del efecto, es decir, una relación más fuerte entre las variables independientes y la variable dependiente.

  • Pequeño tamaño del efecto: R2R^2 alrededor de 0.01
  • Mediano tamaño del efecto: R2R^2 alrededor de 0.09
  • Grande tamaño del efecto: R2R^2 alrededor de 0.25 o mayor

Puesto que R2R^2 es siempre un valor entre 0 y 1, frecuentemente se expresa en forma de porcentaje.

Regresión lineal simple

Cuando sólo hay una variable predictora, hago una regresión lineal simple.

En una regresión lineal simple, el modelo matemático se expresa como:

Y=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon

Donde:

  • YY es la variable dependiente (lo que estoy tratando de predecir).
  • XX es la variable independiente (el predictor).
  • β0\beta_0 es la constante, llamada también intersección e intercepto.
  • β1\beta_1 es el coeficiente de la pendiente, llamada también gradiente o slope, que indica el cambio en YY por cada unidad de cambio en XX.
  • ϵ\epsilon representa el de error (la diferencia entre el valor observado y el valor predicho).

Supongamos que estoy estudiando la relación entre las horas de ejercicio (variable independiente XX) y la pérdida de peso (variable dependiente YY). Si el modelo de regresión lineal es:

Peˊrdida de peso=2+0.5×Horas de ejercicio\text{Pérdida de peso} = 2 + 0.5 \times \text{Horas de ejercicio}

Aquí, el coeficiente de regresión β1\beta_1 es 0.5. Esto significa que por cada hora adicional de ejercicio, la pérdida de peso esperada aumenta en 0.5 kg. La constante β0\beta_0 es 2, lo que indica la pérdida de peso esperada cuando no se realiza ejercicio (aunque esto debe interpretarse con cuidado en contexto).

Cálculo con SPSS

Los pasos a seguir en SPSS son:

  1. Cargar los datos
  2. Abrir la barra de herramientas Analizar y desplegar Regresión.
  3. Hacer click en la opción Lineales.
  4. Ahora defino las variables de la regresión lineal. En la ventana que se ha abierto:
    • Añadir la variable resultado a Dependientes.
    • Añadir la variable predictora a Independientes
    • Hacer click sobre Estadísticos.
  5. Ahora selecciono los estadísticos. En la nueva ventana:
    • Marco el checkbox Estimaciones.
    • Marco el checkbox Ajuste del modelo.
    • Marco el checkbox Diagnóstico de colinealidad.
    • Hago click sobre Continuar.
  6. Hacer click sobre Aceptar.

Esto crea una hoja con varios grupos de datos, entre ellos:

  1. Variables entradas/eliminadas: al ser una regresión lineal simple, sólo hay una variable; precisamente la variable predictora o independiente. En este apartado también se ve el método elegido, que por defecto es Introducir.
  2. Resumen del modelo: esta tabla contiene el coeficiente de determinación (R2R^2 o R cuadrado). No es necesario fijarse en R cuadrado ajustado porque es una regresión lineal simple. El valor de R2R^2 oscila entre 0 y 1, por lo que también se puede leer como porcentaje; multiplicando el valor por 100. Este coeficiente refleja la proporción de la variable resultado que es explicada por la variable predictora. Esta tabla también contiene el estadístico RR, que es la raíz cuadrada de R2R^2.
  3. ANOVA: esta tabla muestra los resultados de la prueba de analisis de la varianza, que contiene el valor de significación (pp) para contrastar si el modelo predice significativamente. La hipótesis nula es que el modelo no predice, por lo que si p<0.05p < 0.05, rechazo la hipótesis nula y concluyo que el modelo sí predice significativamente.
  4. Coeficientes: contiene los valores que describen la ecuación de la recta. En la primera columna, llamada B, se encuentran la constante (β0\beta_0) y la pendiente (β1\beta_1). Con estos valores, ya se puede describir la ecuación de la recta: Y=β0+β1XY = \beta_0 + \beta_1 X. En la segunda columna, llamada Desv. Error, veo los residuos para ambos valores, que constituyen el error del modelo. Esta tabla también tiene una Sig., que contiene la significación (pp) que utilizo para contrastar que la variable predictora predice significativamente la variable resultado. Al final, en la última columna, llamada VIF, se encuentra el valor que utilizo para comprobar si se cumple el supuesto de no-multicolinealidad: si VIF>5VIF > 5, significa que el riesgo de multicolinealidad es demasiado alto y hay que re-plantear el modelo.

Regresión lineal múltiple

Cuando hay más de una variable predictora, hago una regresión lineal múltiple.

En una regresión lineal simple, el modelo matemático se expresa como:

Yi=β0+β1Xi1+β2Xi2++ϵiY_i = \beta_0 + \boxed{\beta_1 X_{i1}} + \boxed{\beta_2 X_{i2}} + \cdots + \Large \epsilon_i
  • YiY_i: Es el valor observado de la variable dependiente para la ii-ésima observación. Representa el resultado que estoy tratando de predecir o explicar con el modelo de regresión.
  • β0\beta_0: Es el intercepto o la ordenada al origen del modelo. Representa el valor esperado de YY cuando todas las variables independientes (Xi1,Xi2,X_{i1}, X_{i2}, \ldots) son iguales a cero. En otras palabras, es el punto en el que la línea de regresión cruza el eje YY.
  • β1Xi1\boxed{\beta_1 X_{i1}}:
    • β1\beta_1: Es la pendiente o coeficiente de regresión asociado con la primera variable independiente Xi1X_{i1}. Indica el cambio esperado en YY por cada unidad de cambio en Xi1X_{i1}, manteniendo constantes todas las demás variables independientes.
    • Xi1X_{i1}: Es el valor de la primera variable independiente para la ii-ésima observación. Representa uno de los factores que puede influir en YY.
  • β2Xi2\boxed{\beta_2 X_{i2}}:
    • β2\beta_2: Es la pendiente o coeficiente de regresión asociado con la segunda variable independiente Xi2X_{i2}. Indica el cambio esperado en YY por cada unidad de cambio en Xi2X_{i2}, manteniendo constantes todas las demás variables independientes.
    • Xi2X_{i2}: Es el valor de la segunda variable independiente para la ii-ésima observación. Representa otro factor que puede influir en YY.
  • \cdots: Representa que el modelo puede incluir más términos similares para cada una de las variables independientes adicionales (Xi3X_{i3}, Xi4X_{i4}, etc.), con sus respectivos coeficientes (β3\beta_3, β4\beta_4, etc.).
  • ϵi\large \epsilon_i: También conocido como el residuo o error. Representa la diferencia entre el valor observado YiY_i y el valor predicho por el modelo de regresión. Captura la variabilidad en YY que no es explicada por las variables independientes en el modelo. Se asume que estos errores son independientes y están normalmente distribuidos con media cero y varianza constante.

En una ecuación de regresión lineal múltiple, cada βj\beta_j (donde j=1,2,j = 1, 2, \ldots) representa el efecto parcial de la variable independiente XijX_{ij} en la variable dependiente YiY_i, controlando por las demás variables independientes.

El término β0\beta_0 proporciona el valor de YY cuando todas las variables independientes son cero, y el término de error Errori\text{Error}_i captura la variabilidad no explicada por el modelo.

Cálculo con SPSS

Los pasos a seguir en SPSS son:

  1. Cargar los datos
  2. Abrir la barra de herramientas Analizar y desplegar Regresión.
  3. Hacer click en la opción Lineales.
  4. Ahora defino las variables de la regresión lineal. En la ventana que se ha abierto:
    • Añadir la variable resultado a Dependientes.
    • Añadir todas las variables predictoras a Independientes
    • Hacer click sobre Estadísticos.
  5. Ahora selecciono los estadísticos. En la nueva ventana:
    • Marco el checkbox Estimaciones.
    • Marco el checkbox Ajuste del modelo.
    • Marco el checkbox Diagnóstico de colinealidad.
    • Hago click sobre Continuar.
  6. Hacer click sobre Aceptar.

Esto crea una hoja con varios grupos de datos, entre ellos:

  1. Variables entradas/eliminadas: al ser una regresión lineal múltiple, hay múltiples variables; precisamente las variables predictoras o independientes. En este apartado también se ve el método elegido, que por defecto es Introducir.
  2. Resumen del modelo: esta tabla contiene el coeficiente de determinación (R2R^2 o R cuadrado). Esta vez, tengo que fijarme en R cuadrado ajustado (R2ˉ\bar{R_2}) porque es una regresión lineal múltiple. El valor de R2R^2 y R2ˉ\bar{R_2} oscila entre 0 y 1, por lo que también se puede leer como porcentaje; multiplicando el valor por 100. Este coeficiente refleja la proporción de la variable resultado que es explicada por la variable predictora. Esta tabla también contiene el estadístico RR, que es la raíz cuadrada de R2R^2.
  3. ANOVA: esta tabla muestra los resultados de la prueba de analisis de la varianza, que contiene el valor de significación (pp) para contrastar si el modelo predice significativamente. La hipótesis nula es que el modelo no predice, por lo que si p<0.05p < 0.05, rechazo la hipótesis nula y concluyo que el modelo sí predice significativamente.
  4. Coeficientes: contiene los valores que describen la ecuación de la recta. En la primera columna, llamada B, se encuentra la constante (β0\beta_0). Además, hay múltiples valores de pendiente (β1\beta_1); uno por cada variable predictora. Con estos valores, se puede describir la ecuación de la recta: Yi=β0+β1Xi1+β2Xi2+Y_i = \beta_0 + \boxed{\beta_1 X_{i1}} + \boxed{\beta_2 X_{i2}} + \cdots. En la segunda columna, llamada Desv. Error, veo los residuos para todos valores, que constituyen el error del modelo. La siguiente columna, llamada Coeficientes estandarizados Beta contiene el valor estandarizado de la pendiente, cuyo utilidad es comparar las distintas pendientes. Esta tabla también tiene una Sig., que contiene la significación (pp) que utilizo para contrastar que las variables predictoras predicen significativamente la variable resultado. Cada una de las variables predictoras tiene su propio valor pp de significación. Al final, en la última columna, llamada VIF, se encuentra el valor que utilizo para comprobar si se cumple el supuesto de no-multicolinealidad: si en alguna de las variable VIF>5VIF > 5, significa que el riesgo de multicolinealidad es demasiado alto y hay que re-plantear el modelo.