Saltar al contenido principal

Ejercicios

Regresión lineal

Pronostica las notas de matemáticas (YY) a través del cociente intelectual (XX) en un grupo de alumnos. La correlación RxyR_{xy} es 0.600.60. La desviación estándar de X es 1515, y la de Y es 22. La media de X es 100100 y la media de Y es 44.

Recta de regresión en puntuaciones directas

Para calcular la recta de regresión en puntuaciones directas, necesito calcular β0\beta_0 y β1\beta_1. Puesto que tengo las desviaciones estándar y la correlación, puedo utilizar la siguiente fórmula:

β1=rXYsYsX=0.60215=0.08\beta_1 = r_{_{XY}} \cdot \frac{s_Y}{s_X} = 0.60 \cdot \frac{2}{15} = 0.08

Para calcular β0\beta_0, necesito la media de las puntuaciones, además de β1\beta_1:

β0=Yˉβ1Xˉ=40.08100=48=4\beta_0 = \bar{Y} - \beta_1 \cdot \bar{X} = 4 - 0.08 \cdot 100 = 4 - 8 = -4

Es decir, la recta de regresión en puntuaciones directas sería:

Yi=4+0.08XiY^{\prime}_i = -4 + 0.08 \cdot X_i

Eso significa que por cada unidad de XX hay un incremento de 0.080.08 en YY.

Recta de regresión en puntuaciones típicas

En este caso es mucho más sencillo:

  • sé que β0=0\beta_0 = 0
  • sé que β1=rXY=0.60\beta_1 = r_{_{XY}} = 0.60

Por lo tanto, la recta de regresión en puntuaciones típicas sería:

zYi=0+0.60zXiz_{Y^{\prime}_i} = 0 + 0.60 \cdot z_{X_i}

Eso significa que por cada desviación estándar de XX hay un incremento de 0.600.60 en la desviación estándar de YY.

¿Qué puntuación pronosticarías, tanto directa como típica, en matemáticas, a una persona que tuviera un CI de 110 en directas?

Para responder a esta pregunta, utilizo las rectas de regresión que he calculado previamente, y reemplazo el valor 110 en la fórmula:

Para puntuaciones directas:

Yi=4+0.08110=4+8.8=4.8Y^{\prime}_i = -4 + 0.08 \cdot 110 = -4 + 8.8 = 4.8

Es decir, que la puntuación pronosticada en matemáticas para una persona con un CI de 110 sería de 4.8.

Para puntuaciones típicas, primero calculo la puntuación típica de 110:

z110=XiXˉsX=11010015=1015=0.6667z_{110} = \frac{X_i - \bar{X}}{s_X} = \frac{110 - 100}{15} = \frac{10}{15} = 0.6667

Ahora reemplazo la puntuación típica en la fórmula de la recta de regresión en puntuaciones típicas:

zYi=0+0.600.6667=0.40z_{Y^{\prime}_i} = 0 + 0.60 \cdot 0.6667 = 0.40

Es decir, que la puntuación pronosticada en matemáticas para una persona con un CI de 110 sería de 0.40 desviaciones estándar.

Coeficiente de determinación

Pronostica las notas de matemáticas (YY) a través del cociente intelectual (XX) en un grupo de alumnos. La correlación RxyR_{xy} es 0.600.60. La desviación estándar de X es 1515, y la de Y es 22. La media de X es 100100 y la media de Y es 44.

Coeficiente de determinación

El coeficiente de determinación (R2R^2) se calcula como el cuadrado de la correlación. En este caso, la correlación es 0.600.60, por lo que el coeficiente de determinación sería:

R2=0.602=0.36R^2 = 0.60^2 = 0.36

Es decir, que el 36% de la varianza de las notas de matemáticas se explica por el cociente intelectual.

Error típico de la estimación

El error típico de la estimación se calcula a partir de la siguiente fórmula:

sYY^=sY1RXY2s_{Y - \hat{Y}} = s_Y \sqrt{1 - R^2_{XY}}

Reemplazando los valores:

sYY^=210.36=20.64=20.8=1.6s_{Y - \hat{Y}} = 2 \sqrt{1 - 0.36} = 2 \sqrt{0.64} = 2 \cdot 0.8 = 1.6

Es decir, que el error típico de la estimación es de 1.61.6.

Contraste mediante pruebas de significación z y t

Enunciado

Dada la siguiente ecuación en puntuaciones directas: Y=0.5+2XY^{\prime} = 0.5 + 2 \cdot X, calcula la puntuación de una persona en YY^{\prime} si ha obtenido un 22 en XX. Sabiendo que sx=2s_x = 2, sy=2s_y = 2, RXY=0.5R_{XY} = 0.5 y N=100N = 100. α=0,05\alpha = 0,05.

Comprueba la significación de los coeficientes.

Puntuación pronosticada

Para calcular la puntuación pronosticada, reemplazo el valor de XX en la ecuación:

Y=0.5+22=0.5+4=4.5Y^{\prime} = 0.5 + 2 \cdot 2 = 0.5 + 4 = 4.5

Es decir, que la puntuación pronosticada en YY^{\prime} para una persona con una puntuación de 22 en XX sería de 4.54.5.

Significación de los coeficientes

En primer lugar, analizo si la muestra es mayor que 30. En este caso, N=100N = 100, por lo que puedo utilizar la puntuación ZZ.

Conozco las betas de la ecuación:

  • β0=0.5\beta_0 = 0.5
  • β1=2\beta_1 = 2

Ahora necesito calcular la puntuación ZZ para hacer los intervalos de confianza. Para un α=0.05\alpha = 0.05, el valor crítico es 1.961.96.

Ahora, calculo los intervalos de confianza para β0\beta_0 y β1\beta_1.

Para β0\beta_0:

βi±z1α/2sYsX1RXY2N\beta_i \pm z_{1-\alpha/2} \cdot \frac{s_Y}{s_X} \cdot \sqrt{\frac{1 - R^2_{XY}}{N}}

Cuidado, porque necesito el coeficiente de determinación (RXY2R^2_{XY}), pero el enunciado sólo proporciona la correlación (RXYR_{XY}). Por lo tanto, necesito calcularlo:

RXY2=RXY2=0.52=0.25R^2_{XY} = R_{XY}^2 = 0.5^2 = 0.25

Ahora sí, reemplazo los valores para encontrar los límites del intervalo de confianza para ambos beta:

  • Para β0\beta_0:
    • 0.5+1.962210.25100=0.66970.5 + 1.96 \cdot \frac{2}{2} \cdot \sqrt{\frac{1 - 0.25}{100}} = 0.6697
    • 0.51.962210.25100=0.33030.5 - 1.96 \cdot \frac{2}{2} \cdot \sqrt{\frac{1 - 0.25}{100}} = 0.3303
  • Para β1\beta_1:
    • 2+1.962210.25100=2.16972 + 1.96 \cdot \frac{2}{2} \cdot \sqrt{\frac{1 - 0.25}{100}} = 2.1697
    • 21.962210.25100=1.83032 - 1.96 \cdot \frac{2}{2} \cdot \sqrt{\frac{1 - 0.25}{100}} = 1.8303

En el caso de β0\beta_0, el valor 00 entra dentro del intervalo de confianza, por lo que no puedo rechazar la hipótesis nula. Es decir, que el valor de β0\beta_0 no es significativo.

En el caso de β1\beta_1, el valor 00 no entra dentro del intervalo de confianza, por lo que puedo rechazar la hipótesis nula. Es decir, que el valor de β1\beta_1 sí es significativo.

Contraste mediante F

Enunciado

La Ecuación de regresión de rendimiento (RR) sobre Ansiedad (AA) es:

R=90.2AR = 9 - 0.2 \cdot A

Datos:

  • SCR=3SCR = 3,
  • SCT=60SCT = 60
  • α=0.05\alpha = 0.05
  • N=30N = 30 sujetos.
SCR=SCMSCR = SC_M

El enunciado proporciona SCRSCR, que se supone que significa Suma de Cuadrados de la Regresión. Sin embargo, yo utilizo la notación SCMSC_M que significa Suma de Cuadrados del Modelo. Por lo tanto, en el enunciado, SCR=SCMSCR = SC_M.

De forma similar, yo hablo de SCRSC_R como la Suma de Cuadrados Residual, que en algunos materiales se denomina SCESCE, que significa Suma de Cuadrados del Error.

Contrastar si la pendiente de la recta es igual a cero

Es decir, está preguntando si se puede afirmar con un nivel de significación del 5% que la pendiente (β1\beta_1) es igual a cero. Para ello, necesito calcular el estadístico FF. Sin embargo, hay dos posibles vías para resolver este ejercicio:

Opción 1: Utilizar las sumas y medias de los cuadrados

F=MCMMCRF = \frac{MC_M}{MC_R}

La fórmula requiere la media de los cuadrados, no las sumas que proporciona el enunciado. Por lo tanto, necesito calcularlas.

Comienzo por calcular la media de los cuadrados del modelo, que es la suma de cuadrados del modelo dividida por el número de parámetros del modelo (1 en este caso):

MCM=SCM1=3MC_M = \frac{SC_M}{1} = 3

Ahora me falta calcular la media de los cuadrados residual (MCRMC_R), que es la suma de cuadrados residual (SCRSC_R) dividida por el número de grados de libertad del error (n2n - 2):

MCR=SCRn2MC_R = \frac{SC_R}{n-2}

Sin embargo, aún no tengo la suma de cuadrados residual (SCRSC_R). Por suerte, se puede deducir a partir de la suma de cuadrados del modelo (SCMSC_M) y la suma de cuadrados total (SCTSC_T), que se proporciona en el enunciado:

SCT=SCM+SCR    SCR=SCTSCM=603=57SC_T = SC_M + SC_R \implies SC_R = SC_T - SC_M = 60 - 3 = 57

Ahora sí, puedo calcular la media de los cuadrados residual:

MCR=57302=2.0357MC_R = \frac{57}{30-2} = 2.0357

Por lo tanto, el estadístico FF sería:

F=MCMMCR=32.0357=1.471F = \frac{MC_M}{MC_R} = \frac{3}{2.0357} = 1.471

Opción 2: Utilizar el coeficiente de determinación R2

Para calcular el coeficiente de determinación (RXY2R^2_{XY}), necesito la suma de cuadrados del modelo (SCMSC_M) y la suma de cuadrados total (SCTSC_T), que se proporciona en el enunciado:

RXY2=SCMSCT=360=0.05R^2_{XY} = \frac{SC_M}{SC_T} = \frac{3}{60} = 0.05

Una vez tengo el coeficiente de determinación, puedo calcular el estadístico FF:

F=(n2)RXY21RXY2=(302)0.0510.05=1.47F = \frac{(n - 2) \cdot R^2_{XY}}{1 - R^2_{XY}} = \frac{(30 - 2) \cdot 0.05}{1 - 0.05} = 1.47

Prueba de significación

En ambos casos, el valor de FF es 1.471.47. Ahora, la pregunta es si el valor de FF es significativo. Para ello, necesito compararlo con el valor crítico de la tabla de la distribución FF.

El valor F crítico se expresa como:

Fk1,nk\large F_{\small k-1, n-k}
  • kk es la cantidad de grupos
  • nn es la cantidad total de sujetos

En este caso, k=2k = 2 y n=30n = 30. Por lo tanto:

F21,302=F1,28\large F_{\small 2-1, 30-2} = F_{1, 28}

El valor crítico es 4.204.20. Esta valor es mayor que el resultado de 1.471.47. Dicho de otra manera:

FEmpıˊrica<FCrıˊtica    1.473<4.20F_{\text{Empírica}} < F_{\text{Crítica}} \implies 1.473 < 4.20

Por lo tanto, no puedo rechazar la hipótesis nula. Es decir, que la pendiente de la recta no es significativa. El motivo es que el valor de FF es menor que el valor crítico de la tabla de la distribución FF. En este caso, el valor crítico es 4.174.17. Por lo tanto, no puedo rechazar la hipótesis nula.

Calcular e interpretar el coeficiente de determinación

Lo bueno del segundo método es que ya he calculado el coeficiente de determinación.

RXY2=SCMSCT=360=0.05R^2_{XY} = \frac{SC_M}{SC_T} = \frac{3}{60} = 0.05

Es decir, que el 5% de la varianza de la variable dependiente se explica por la variable independiente. O sea, que la ansiedad explica el 5% del rendimiento.

Calcular el rango de posibles valores de Y

Enunciado

Dada la siguiente ecuación en puntuaciones directas: Y=0.5+2XY^{\prime} = 0.5 + 2 \cdot X, calcula la puntuación de una persona en YY^{\prime} si ha obtenido un 22 en XX. Sabiendo que sx=2s_x = 2, sy=2s_y = 2, RXY=0.5R_{XY} = 0.5 y N=100N = 100. α=0,05\alpha = 0,05.

Calcula el rango entre el cual pueden caer los valores de YY.

Solución

El intervalo de confianza para la predicción de YY' se calcula con la siguiente fórmula:

Y±z1α/2SYYY' \pm z_{1-\alpha/2} \cdot S_{Y-Y'}

Donde:

  • YY' es la puntuación predicha.
  • z1α/2z_{1-\alpha/2} es el valor crítico de la distribución normal estándar para el nivel de confianza deseado.
  • SYYS_{Y-Y'} es el error estándar de la estimación, calculado como:
SYY=SY1R2S_{Y-Y'} = S_Y \cdot \sqrt{1 - R^2}

Ahora puedo sustituir los valores sustitución de valores

Dado que:

  • SY=2S_Y = 2,
  • RXY=0.5R_{XY} = 0.5,
  • N=100N = 100,
  • α=0.05\alpha = 0.05z1α/2=1.96z_{1-\alpha/2} = 1.96,
  • Y=4.5Y' = 4.5,

Calculamos el error estándar de la estimación:

SYY=210.52S_{Y-Y'} = 2 \cdot \sqrt{1 - 0.5^2} SYY=20.75=20.866=1.732S_{Y-Y'} = 2 \cdot \sqrt{0.75} = 2 \cdot 0.866 = 1.732

Ahora, los límites del intervalo de confianza son:

Y±1.96SYYY' \pm 1.96 \cdot S_{Y-Y'} 4.5±1.961.7324.5 \pm 1.96 \cdot 1.732

Ahora puedo calcular el intervalo:

LI=4.5(1.961.732)=4.53.3948=1.105LI = 4.5 - (1.96 \cdot 1.732) = 4.5 - 3.3948 = 1.105 LS=4.5+(1.961.732)=4.5+3.3948=7.895LS = 4.5 + (1.96 \cdot 1.732) = 4.5 + 3.3948 = 7.895

Es decir, el intervalo de confianza para la predicción de YY' es [1.105,7.895][1.105, 7.895].

Esto significa que, con un 95% de confianza, la puntuación real en YY para una persona con X=2X = 2 caerá dentro de este rango.

Validez máxima del coeficiente de validación

Enunciado

¿Cuál sería la validez máxima que obtendríamos entre el rendimiento en un puesto de trabajo (YY) y una prueba que mide el mismo (XX)? Rxx=0.85R_{xx^\prime} = 0.85 y Ryy=0.80R_{yy^\prime} = 0.80.

Solución

La validez máxima se calcula mediante la siguiente fórmula:

rxyρxxρyyr_{xy} \leq \sqrt{\rho_{xx'}} \cdot \sqrt{\rho_{yy'}}

Reemplazando los valores:

rxy0.850.80=0.8246r_{xy} \leq \sqrt{0.85} \cdot \sqrt{0.80} = 0.8246

Es decir, que en el mejor de los casos, la validez que puedo obtener para el test utilizando este criterio es de 0.8246.

Validez atenuada

Enunciado

¿Cuál sería la correlación si elimináramos los errores de medida completamente en el rendimiento en un puesto de trabajo (YY) y una prueba que mide el mismo (XX)? Rxx' = 0.85, Ryy' = 0.80 y Rxy = 0.40.

Solución

La fórmula para corregir la atenuación de la validez es la siguiente:

rvxvy=rxyρxxρyyr_{v_x v_y} = \frac{r_{xy}}{\sqrt{\rho_{xx'} \cdot \rho_{yy'}}}

Reemplazando los valores:

rvxvy=0.400.850.80=0.400.68=0.400.8246=0.485r_{v_x v_y} = \frac{0.40}{\sqrt{0.85 \cdot 0.80}} = \frac{0.40}{\sqrt{0.68}} = \frac{0.40}{0.8246} = 0.485

Es decir, que si elimináramos los errores de medida completamente, la correlación entre el rendimiento en un puesto de trabajo y una prueba que mide el mismo sería de 0.485. Es decir, que en lugar de 0.400.40, la correlación sería de 0,4850,485, que es un poco mayor.

Validez por cambio de fiabilidad

Enunciado

La correlación entre un test de ansiedad (XX) y las conductas manifiestas de ansiedad (YY) es de 0.55. Sabiendo: Rxx' = 0.85, Ryy' = 0.80. ¿Cuál sería la validez de criterio si aumentáramos la fiabilidad del test a 0.90?

Solución

La fórmula para calcular la validez por cambio de fiabilidad es:

rx2y2=rx1y1ρx1x1ρy1y1ρx2x2ρy2y2\Large r_{x_2 y_2} = \frac{r_{x_1 y_1}}{\sqrt{\frac{\rho_{x_1 x_1} \cdot \rho_{y_1 y_1}}{\rho_{x_2 x_2} \cdot \rho_{y_2 y_2}}}}

Donde:

  • rx2y2r_{x_2 y_2} = validez final (ajustada a los nuevos valores de fiabilidad).
  • rx1y1r_{x_1 y_1} = validez inicial (cuando se usaron los primeros valores de fiabilidad).
  • ρx1x1\rho_{x_1 x_1} = fiabilidad del test en la primera medición.
  • ρy1y1\rho_{y_1 y_1} = fiabilidad del criterio en la primera medición.
  • ρx2x2\rho_{x_2 x_2} = fiabilidad del test en la segunda medición.
  • ρy2y2\rho_{y_2 y_2} = fiabilidad del criterio en la segunda medición.

Por lo tanto, debo sustituir los valores:

rx2y2=0.55(0.850.80)(0.900.80)=0.5659r_{x_2 y_2} = \frac{0.55}{\sqrt{\frac{(0.85 \cdot 0.80)}{(0.90 \cdot 0.80)}}} = 0.5659

Es decir, que la validez de criterio sería 0.56590.5659 tras cambiar la fiabilidad.