Saltar al contenido principal

Ejercicios

Regresión lineal

Pronostica las notas de matemáticas (YY) a través del cociente intelectual (XX) en un grupo de alumnos. La correlación RxyR_{xy} es 0.600.60. La desviación estándar de X es 1515, y la de Y es 22. La media de X es 100100 y la media de Y es 44.

Recta de regresión en puntuaciones directas

Para calcular la recta de regresión en puntuaciones directas, necesito calcular β0\beta_0 y β1\beta_1. Puesto que tengo las desviaciones estándar y la correlación, puedo utilizar la siguiente fórmula:

β1=rXYsYsX=0.60215=0.08\beta_1 = r_{_{XY}} \cdot \frac{s_Y}{s_X} = 0.60 \cdot \frac{2}{15} = 0.08

Para calcular β0\beta_0, necesito la media de las puntuaciones, además de β1\beta_1:

β0=Yˉβ1Xˉ=40.08100=48=4\beta_0 = \bar{Y} - \beta_1 \cdot \bar{X} = 4 - 0.08 \cdot 100 = 4 - 8 = -4

Es decir, la recta de regresión en puntuaciones directas sería:

Yi=4+0.08XiY^{\prime}_i = -4 + 0.08 \cdot X_i

Eso significa que por cada unidad de XX hay un incremento de 0.080.08 en YY.

Recta de regresión en puntuaciones típicas

En este caso es mucho más sencillo:

  • sé que β0=0\beta_0 = 0
  • sé que β1=rXY=0.60\beta_1 = r_{_{XY}} = 0.60

Por lo tanto, la recta de regresión en puntuaciones típicas sería:

zYi=0+0.60zXiz_{Y^{\prime}_i} = 0 + 0.60 \cdot z_{X_i}

Eso significa que por cada desviación estándar de XX hay un incremento de 0.600.60 en la desviación estándar de YY.

¿Qué puntuación pronosticarías, tanto directa como típica, en matemáticas, a una persona que tuviera un CI de 110 en directas?

Para responder a esta pregunta, utilizo las rectas de regresión que he calculado previamente, y reemplazo el valor 110 en la fórmula:

Para puntuaciones directas:

Yi=4+0.08110=4+8.8=4.8Y^{\prime}_i = -4 + 0.08 \cdot 110 = -4 + 8.8 = 4.8

Es decir, que la puntuación pronosticada en matemáticas para una persona con un CI de 110 sería de 4.8.

Para puntuaciones típicas, primero calculo la puntuación típica de 110:

z110=XiXˉsX=11010015=1015=0.6667z_{110} = \frac{X_i - \bar{X}}{s_X} = \frac{110 - 100}{15} = \frac{10}{15} = 0.6667

Ahora reemplazo la puntuación típica en la fórmula de la recta de regresión en puntuaciones típicas:

zYi=0+0.600.6667=0.40z_{Y^{\prime}_i} = 0 + 0.60 \cdot 0.6667 = 0.40

Es decir, que la puntuación pronosticada en matemáticas para una persona con un CI de 110 sería de 0.40 desviaciones estándar.

Coeficiente de determinación

Pronostica las notas de matemáticas (YY) a través del cociente intelectual (XX) en un grupo de alumnos. La correlación RxyR_{xy} es 0.600.60. La desviación estándar de X es 1515, y la de Y es 22. La media de X es 100100 y la media de Y es 44.

Coeficiente de determinación

El coeficiente de determinación (R2R^2) se calcula como el cuadrado de la correlación. En este caso, la correlación es 0.600.60, por lo que el coeficiente de determinación sería:

R2=0.602=0.36R^2 = 0.60^2 = 0.36

Es decir, que el 36% de la varianza de las notas de matemáticas se explica por el cociente intelectual.

Error típico de la estimación

El error típico de la estimación se calcula a partir de la siguiente fórmula:

sYY^=sY1RXY2s_{Y - \hat{Y}} = s_Y \sqrt{1 - R^2_{XY}}

Reemplazando los valores:

sYY^=210.36=20.64=20.8=1.6s_{Y - \hat{Y}} = 2 \sqrt{1 - 0.36} = 2 \sqrt{0.64} = 2 \cdot 0.8 = 1.6

Es decir, que el error típico de la estimación es de 1.61.6.

Contraste mediante pruebas de significación z y t

Dada la siguiente ecuación en puntuaciones directas: Y=0.1+2XY^{\prime} = 0.1 + 2 \cdot X, calcula la puntuación de una persona en YY^{\prime} si ha obtenido un 22 en XX. Sabiendo que sx=2s_x = 2, sy=2s_y = 2, RXY=0.5R_{XY} = 0.5 y N=100N = 100. α=0,05\alpha = 0,05. Comprobar la significación de los coeficientes.

Puntuación pronosticada

Para calcular la puntuación pronosticada, reemplazo el valor de XX en la ecuación:

Y=0.1+22=0.1+4=4.1Y^{\prime} = 0.1 + 2 \cdot 2 = 0.1 + 4 = 4.1

Es decir, que la puntuación pronosticada en YY^{\prime} para una persona con una puntuación de 22 en XX sería de 4.14.1.

Significación de los coeficientes

En primer lugar, analizo si la muestra es mayor que 30. En este caso, N=100N = 100, por lo que puedo utilizar la puntuación ZZ.

Conozco las betas de la ecuación:

  • β0=0.1\beta_0 = 0.1
  • β1=2\beta_1 = 2

Ahora necesito calcular la puntuación ZZ para hacer los intervalos de confianza. Para un α=0.05\alpha = 0.05, el valor crítico es 1.961.96.

Ahora, calculo los intervalos de confianza para β0\beta_0 y β1\beta_1.

Para β0\beta_0:

βi±z1α/2sYsX1RXY2N\beta_i \pm z_{1-\alpha/2} \cdot \frac{s_Y}{s_X} \cdot \sqrt{\frac{1 - R^2_{XY}}{N}}

Cuidado, porque necesito el coeficiente de determinación (RXY2R^2_{XY}), pero el enunciado sólo proporciona la correlación (RXYR_{XY}). Por lo tanto, necesito calcularlo:

RXY2=RXY2=0.52=0.25R^2_{XY} = R_{XY}^2 = 0.5^2 = 0.25

Ahora sí, reemplazo los valores para encontrar los límites del intervalo de confianza para ambos beta:

  • Para β0\beta_0:
    • 0.1+1.962210.25100=0.26970.1 + 1.96 \cdot \frac{2}{2} \cdot \sqrt{\frac{1 - 0.25}{100}} = 0.2697
    • 0.11.962210.25100=0.06970.1 - 1.96 \cdot \frac{2}{2} \cdot \sqrt{\frac{1 - 0.25}{100}} = -0.0697
  • Para β1\beta_1:
    • 2+1.962210.25100=2.16972 + 1.96 \cdot \frac{2}{2} \cdot \sqrt{\frac{1 - 0.25}{100}} = 2.1697
    • 21.962210.25100=1.83032 - 1.96 \cdot \frac{2}{2} \cdot \sqrt{\frac{1 - 0.25}{100}} = 1.8303

En el caso de β0\beta_0, el valor 00 entra dentro del intervalo de confianza, por lo que no puedo rechazar la hipótesis nula. Es decir, que el valor de β0\beta_0 no es significativo.

En el caso de β1\beta_1, el valor 22 también entra dentro del intervalo de confianza, por lo que tampoco puedo rechazar la hipótesis nula. Es decir, que el valor de β1\beta_1 sí es significativo.

Contraste mediante F

La Ecuación de regresión de rendimiento (RR) sobre Ansiedad (AA) es R=90.2AR = 9 - 0.2 \cdot A. Datos: SCR=3SCR = 3, SCT=60SCT = 60. α=0.05\alpha = 0.05. N=30N = 30 sujetos.

SCR=SCMSCR = SC_M

El enunciado proporciona SCRSCR, que se supone que significa Suma de Cuadrados de la Regresión. Sin embargo, yo utilizo la notación SCMSC_M que significa Suma de Cuadrados del Modelo. Por lo tanto, en el enunciado, SCR=SCMSCR = SC_M.

De forma similar, yo hablo de SCRSC_R como la Suma de Cuadrados Residual, que en algunos materiales se denomina SCESCE, que significa Suma de Cuadrados del Error.

Contrastar si la pendiente de la recta es igual a cero

Es decir, está preguntando si se puede afirmar con un nivel de significación del 5% que la pendiente (\beta_1) es igual a cero. Para ello, necesito calcular el estadístico FF. Sin embargo, hay dos posibles vías para resolver este ejercicio:

Utilizar las sumas y medias de los cuadrados

F=MCMMCRF = \frac{MC_M}{MC_R}

La fórmula requiere la media de los cuadrados, no las sumas que proporciona el enunciado. Por lo tanto, necesito calcularlas.

Comienzo por calcular la media de los cuadrados del modelo, que es la suma de cuadrados del modelo dividida por el número de parámetros del modelo (1 en este caso):

MCM=SCM1=3MC_M = \frac{SC_M}{1} = 3

Ahora me falta calcular la media de los cuadrados residual (MCRMC_R), que es la suma de cuadrados residual (SCRSC_R) dividida por el número de grados de libertad del error (n2n - 2):

MCR=SCRn2MC_R = \frac{SC_R}{n-2}

Sin embargo, aún no tengo la suma de cuadrados residual (SCRSC_R). Por suerte, se puede deducir a partir de la suma de cuadrados del modelo (SCMSC_M) y la suma de cuadrados total (SCTSC_T), que se proporciona en el enunciado:

SCT=SCM+SCR    SCR=SCTSCM=603=57SC_T = SC_M + SC_R \implies SC_R = SC_T - SC_M = 60 - 3 = 57

Ahora sí, puedo calcular la media de los cuadrados residual:

MCR=57302=2.0357MC_R = \frac{57}{30-2} = 2.0357

Por lo tanto, el estadístico FF sería:

F=MCMMCR=32.0357=1.471F = \frac{MC_M}{MC_R} = \frac{3}{2.0357} = 1.471

Utilizar el coeficiente de determinación R2

Para calcular el coeficiente de determinación (RXY2R^2_{XY}), necesito la suma de cuadrados del modelo (SCMSC_M) y la suma de cuadrados total (SCTSC_T), que se proporciona en el enunciado:

RXY2=SCMSCT=360=0.05R^2_{XY} = \frac{SC_M}{SC_T} = \frac{3}{60} = 0.05

Una vez tengo el coeficiente de determinación, puedo calcular el estadístico FF:

F=(n2)RXY21RXY2=(302)0.0510.05=1.47F = \frac{(n - 2) \cdot R^2_{XY}}{1 - R^2_{XY}} = \frac{(30 - 2) \cdot 0.05}{1 - 0.05} = 1.47

Interpretación

En ambos casos, el valor de FF es 1.471.47. Ahora, la pregunta es si el valor de FF es significativo. Para ello, necesito compararlo con el valor crítico de la tabla de la distribución FF.

El valor F crítico se expresa como:

Fk1,nk\large F_{\small k-1, n-k}
  • kk es la cantidad de grupos
  • nn es la cantidad total de sujetos

En este caso, k=2k = 2 y n=30n = 30. Por lo tanto:

F21,302=F1,28\large F_{\small 2-1, 30-2} = F_{1, 28}

El valor crítico es 4.204.20. Esta valor es mayor que el resultado de 1.471.47. Por lo tanto, no puedo rechazar la hipótesis nula. Es decir, que la pendiente de la recta no es significativa. El motivo es que el valor de FF es menor que el valor crítico de la tabla de la distribución FF. En este caso, el valor crítico es 4.174.17. Por lo tanto, no puedo rechazar la hipótesis nula.

Calcular el coeficiente de determinación e interpretarlo

Lo bueno del segundo método es que ya he calculado el coeficiente de determinación.

RXY2=SCMSCT=360=0.05R^2_{XY} = \frac{SC_M}{SC_T} = \frac{3}{60} = 0.05

Es decir, que el 5% de la varianza de la variable dependiente se explica por la variable independiente. O sea, que la ansiedad explica el 5% del rendimiento.