Ejercicios
Regresión lineal
Pronostica las notas de matemáticas () a través del cociente intelectual () en un grupo de alumnos. La correlación es . La desviación estándar de X es , y la de Y es . La media de X es y la media de Y es .
Recta de regresión en puntuaciones directas
Para calcular la recta de regresión en puntuaciones directas, necesito calcular y . Puesto que tengo las desviaciones estándar y la correlación, puedo utilizar la siguiente fórmula:
Para calcular , necesito la media de las puntuaciones, además de :
Es decir, la recta de regresión en puntuaciones directas sería:
Eso significa que por cada unidad de hay un incremento de en .
Recta de regresión en puntuaciones típicas
En este caso es mucho más sencillo:
- sé que
- sé que
Por lo tanto, la recta de regresión en puntuaciones típicas sería:
Eso significa que por cada desviación estándar de hay un incremento de en la desviación estándar de .
¿Qué puntuación pronosticarías, tanto directa como típica, en matemáticas, a una persona que tuviera un CI de 110 en directas?
Para responder a esta pregunta, utilizo las rectas de regresión que he calculado previamente, y reemplazo el valor 110 en la fórmula:
Para puntuaciones directas:
Es decir, que la puntuación pronosticada en matemáticas para una persona con un CI de 110 sería de 4.8.
Para puntuaciones típicas, primero calculo la puntuación típica de 110:
Ahora reemplazo la puntuación típica en la fórmula de la recta de regresión en puntuaciones típicas:
Es decir, que la puntuación pronosticada en matemáticas para una persona con un CI de 110 sería de 0.40 desviaciones estándar.
Coeficiente de determinación
Pronostica las notas de matemáticas () a través del cociente intelectual () en un grupo de alumnos. La correlación es . La desviación estándar de X es , y la de Y es . La media de X es y la media de Y es .
Coeficiente de determinación
El coeficiente de determinación () se calcula como el cuadrado de la correlación. En este caso, la correlación es , por lo que el coeficiente de determinación sería:
Es decir, que el 36% de la varianza de las notas de matemáticas se explica por el cociente intelectual.
Error típico de la estimación
El error típico de la estimación se calcula a partir de la siguiente fórmula:
Reemplazando los valores:
Es decir, que el error típico de la estimación es de .
Contraste mediante pruebas de significación z y t
Enunciado
Dada la siguiente ecuación en puntuaciones directas: , calcula la puntuación de una persona en si ha obtenido un en . Sabiendo que , , y . .
Comprueba la significación de los coeficientes.
Puntuación pronosticada
Para calcular la puntuación pronosticada, reemplazo el valor de en la ecuación:
Es decir, que la puntuación pronosticada en para una persona con una puntuación de en sería de .
Significación de los coeficientes
En primer lugar, analizo si la muestra es mayor que 30. En este caso, , por lo que puedo utilizar la puntuación .
Conozco las betas de la ecuación:
Ahora necesito calcular la puntuación para hacer los intervalos de confianza. Para un , el valor crítico es .
Ahora, calculo los intervalos de confianza para y .
Para :
Cuidado, porque necesito el coeficiente de determinación (), pero el enunciado sólo proporciona la correlación (). Por lo tanto, necesito calcularlo:
Ahora sí, reemplazo los valores para encontrar los límites del intervalo de confianza para ambos beta:
- Para :
- Para :
En el caso de , el valor entra dentro del intervalo de confianza, por lo que no puedo rechazar la hipótesis nula. Es decir, que el valor de no es significativo.
En el caso de , el valor no entra dentro del intervalo de confianza, por lo que puedo rechazar la hipótesis nula. Es decir, que el valor de sí es significativo.
Contraste mediante F
Enunciado
La Ecuación de regresión de rendimiento () sobre Ansiedad () es:
Datos:
- ,
- sujetos.
El enunciado proporciona , que se supone que significa Suma de Cuadrados de la Regresión. Sin embargo, yo utilizo la notación que significa Suma de Cuadrados del Modelo. Por lo tanto, en el enunciado, .
De forma similar, yo hablo de como la Suma de Cuadrados Residual, que en algunos materiales se denomina , que significa Suma de Cuadrados del Error.
Contrastar si la pendiente de la recta es igual a cero
Es decir, está preguntando si se puede afirmar con un nivel de significación del 5% que la pendiente () es igual a cero. Para ello, necesito calcular el estadístico . Sin embargo, hay dos posibles vías para resolver este ejercicio:
Opción 1: Utilizar las sumas y medias de los cuadrados
La fórmula requiere la media de los cuadrados, no las sumas que proporciona el enunciado. Por lo tanto, necesito calcularlas.
Comienzo por calcular la media de los cuadrados del modelo, que es la suma de cuadrados del modelo dividida por el número de parámetros del modelo (1 en este caso):
Ahora me falta calcular la media de los cuadrados residual (), que es la suma de cuadrados residual () dividida por el número de grados de libertad del error ():
Sin embargo, aún no tengo la suma de cuadrados residual (). Por suerte, se puede deducir a partir de la suma de cuadrados del modelo () y la suma de cuadrados total (), que se proporciona en el enunciado:
Ahora sí, puedo calcular la media de los cuadrados residual:
Por lo tanto, el estadístico sería:
Opción 2: Utilizar el coeficiente de determinación R2
Para calcular el coeficiente de determinación (), necesito la suma de cuadrados del modelo () y la suma de cuadrados total (), que se proporciona en el enunciado:
Una vez tengo el coeficiente de determinación, puedo calcular el estadístico :
Prueba de significación
En ambos casos, el valor de es . Ahora, la pregunta es si el valor de es significativo. Para ello, necesito compararlo con el valor crítico de la tabla de la distribución .
El valor F crítico se expresa como:
- es la cantidad de grupos
- es la cantidad total de sujetos
En este caso, y . Por lo tanto:
El valor crítico es . Esta valor es mayor que el resultado de . Dicho de otra manera:
Por lo tanto, no puedo rechazar la hipótesis nula. Es decir, que la pendiente de la recta no es significativa. El motivo es que el valor de es menor que el valor crítico de la tabla de la distribución . En este caso, el valor crítico es . Por lo tanto, no puedo rechazar la hipótesis nula.
Calcular e interpretar el coeficiente de determinación
Lo bueno del segundo método es que ya he calculado el coeficiente de determinación.
Es decir, que el 5% de la varianza de la variable dependiente se explica por la variable independiente. O sea, que la ansiedad explica el 5% del rendimiento.
Calcular el rango de posibles valores de Y
Enunciado
Dada la siguiente ecuación en puntuaciones directas: , calcula la puntuación de una persona en si ha obtenido un en . Sabiendo que , , y . .
Calcula el rango entre el cual pueden caer los valores de .
Solución
El intervalo de confianza para la predicción de se calcula con la siguiente fórmula:
Donde:
- es la puntuación predicha.
- es el valor crítico de la distribución normal estándar para el nivel de confianza deseado.
- es el error estándar de la estimación, calculado como:
Ahora puedo sustituir los valores sustitución de valores
Dado que:
- ,
- ,
- ,
- → ,
- ,
Calculamos el error estándar de la estimación:
Ahora, los límites del intervalo de confianza son:
Ahora puedo calcular el intervalo:
Es decir, el intervalo de confianza para la predicción de es .
Esto significa que, con un 95% de confianza, la puntuación real en para una persona con caerá dentro de este rango.
Validez máxima del coeficiente de validación
Enunciado
¿Cuál sería la validez máxima que obtendríamos entre el rendimiento en un puesto de trabajo () y una prueba que mide el mismo ()? y .
Solución
La validez máxima se calcula mediante la siguiente fórmula:
Reemplazando los valores:
Es decir, que en el mejor de los casos, la validez que puedo obtener para el test utilizando este criterio es de 0.8246.
Validez atenuada
Enunciado
¿Cuál sería la correlación si elimináramos los errores de medida completamente en el rendimiento en un puesto de trabajo () y una prueba que mide el mismo ()? Rxx' = 0.85, Ryy' = 0.80 y Rxy = 0.40.
Solución
La fórmula para corregir la atenuación de la validez es la siguiente:
Reemplazando los valores:
Es decir, que si elimináramos los errores de medida completamente, la correlación entre el rendimiento en un puesto de trabajo y una prueba que mide el mismo sería de 0.485. Es decir, que en lugar de , la correlación sería de , que es un poco mayor.
Validez por cambio de fiabilidad
Enunciado
La correlación entre un test de ansiedad () y las conductas manifiestas de ansiedad () es de 0.55. Sabiendo: Rxx' = 0.85, Ryy' = 0.80. ¿Cuál sería la validez de criterio si aumentáramos la fiabilidad del test a 0.90?
Solución
La fórmula para calcular la validez por cambio de fiabilidad es:
Donde:
- = validez final (ajustada a los nuevos valores de fiabilidad).
- = validez inicial (cuando se usaron los primeros valores de fiabilidad).
- = fiabilidad del test en la primera medición.
- = fiabilidad del criterio en la primera medición.
- = fiabilidad del test en la segunda medición.
- = fiabilidad del criterio en la segunda medición.
Por lo tanto, debo sustituir los valores:
Es decir, que la validez de criterio sería tras cambiar la fiabilidad.