Fiabilidad del test y análisis de ítems
- Asignatura: 14GPSI_10_C_2024-25_Psicometría
- Actividad: UC 4. Fiabilidad del Test y Análisis de los ítems
- Alumnos:
- Jahir Falon
- Taig Mac Carthy
- Profesor: Ana Hernández Dorado
Fiabilidad del test
Para calcular la fiabilidad del test, utilizamos la consistencia interna del test. Es decir: el grado de coherencia entre los ítems de un test. Para evaluar la consistencia interna, utilizamos dos técnicas:
- Dividir el test en dos mitades: utilizando el método de split-half, donde la fiabilidad se calcula correlacionando las puntuaciones de las dos mitades del test.
- Analizar la covarianza entre los ítems: con los coeficientes de Cronbach y de Guttman, que proporcionan una medida de la fiabilidad basada en las relaciones internas entre los ítems.
División en dos mitades
Esta división se hace por pares-impares, como es habitual en test de rendimiento típico. La división resulta en:
Mean | Variance | Std. Deviation | N of Items | |
---|---|---|---|---|
Part 1 | 17.69 | 12.883 | 3.589 | 6 |
Part 2 | 16.45 | 14.129 | 3.759 | 6 |
Both Parts | 34.14 | 44.566 | 6.676 | 12 |
Una vez divididos los ítems en dos grupos, la consistencia interna se calcula de forma distintas dependiendo de si son medidas paralelas o equivalentes. En el caso de que la división de ítems de lugar a dos medidas que son paralelas, el cálculo de la consistencia interna se realiza con la fórmula de Spearman-Brown. Por el contrario, en el caso de que la división de ítems de lugar a dos medidas que son equivalentes, pero no paralelas, el cálculo de la consistencia interna se realiza con la fórmula de Rulon y Guttman-Flanagan.
Los resultados de la correlación entre las dos mitades son los siguientes:
Statistic | Value |
---|---|
Correlation Between Forms | 0.651 |
Spearman-Brown Coefficient (Equal Length) | 0.788 |
Spearman-Brown Coefficient (Unequal Length) | 0.788 |
Guttman Split-Half Coefficient | 0.788 |
Es decir, que la correlación () es de , lo que indica una fiabilidad aceptable del test.
Covarianza
La matriz de covarianzas resultante es la siguiente:
Item_1 | Item_2 | Item_3_r | Item_4 | Item_5_r | Item_6 | Item_7_r | Item_8 | Item_9_r | Item_10 | Item_11_r | Item_12 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Item_1 | 0.846 | 0.535 | 0.070 | 0.391 | 0.200 | 0.296 | 0.317 | 0.025 | 0.090 | -0.019 | 0.141 | 0.323 |
Item_2 | 0.535 | 1.211 | 0.104 | 0.398 | -0.055 | 0.143 | -0.160 | -0.006 | 0.321 | 0.114 | 0.343 | 0.404 |
Item_3_r | 0.070 | 0.104 | 0.850 | 0.381 | -0.468 | -0.007 | 0.509 | 0.409 | 0.459 | 0.357 | 0.517 | 0.202 |
Item_4 | 0.391 | 0.398 | 0.381 | 0.717 | 0.238 | 0.207 | 0.352 | 0.207 | 0.187 | -0.370 | 0.315 | 0.394 |
Item_5_r | 0.200 | -0.055 | -0.468 | 0.238 | 0.788 | 0.306 | 0.345 | 0.264 | 0.147 | 0.225 | 0.182 | 0.182 |
Item_6 | 0.296 | 0.143 | -0.007 | 0.207 | 0.306 | 1.119 | 0.253 | 0.518 | 0.028 | 0.046 | -0.206 | 0.121 |
Item_7_r | 0.317 | -0.160 | 0.509 | 0.252 | 0.345 | 0.253 | 0.929 | 0.424 | 0.482 | -0.006 | 0.176 | 0.091 |
Item_8 | 0.025 | -0.006 | 0.409 | 0.187 | 0.264 | 0.518 | 0.424 | 1.442 | 0.147 | 0.537 | -0.059 | 0.222 |
Item_9_r | 0.090 | 0.321 | 0.459 | 0.370 | 0.147 | 0.028 | 0.482 | 0.147 | 0.693 | 0.156 | 0.433 | 0.101 |
Item_10 | -0.019 | 0.114 | 0.357 | -0.315 | 0.225 | 0.046 | -0.006 | 0.537 | 0.156 | 1.286 | 0.446 | 0.545 |
Item_11_r | 0.141 | 0.343 | 0.517 | 0.315 | 0.182 | -0.206 | 0.176 | -0.059 | 0.433 | 0.446 | 1.181 | 0.364 |
Item_12 | 0.323 | 0.404 | 0.202 | 0.394 | 0.182 | 0.121 | 0.091 | 0.222 | 0.101 | 0.545 | 0.364 | 1.071 |
La covarianza entre ítems se puede calcular mediante tres métodos:
- Alfa de Cronbach () permite calcular la covarianza de ítems de cualquier tipo, incluyendo ítems de rendimiento típico.
- Kuder-Richardson () permite calcular la covarianza con mayor precisión en ítems de rendimiento óptimo.
- Lambda de Guttman () sirve para lo mismo que el alfa de Cronbach, pero es más preciso.
- Beta de Revelle () permite calcular la covarianza entre tests de distinta longitud. Es decir, cuando tienen diferente número de ítems.
- Análisis de la varianza (ANOVA)
- Omega de McDonald () permite calcular la covarianza entre ítems con pesos factoriales.
Dado que es un test de rendimiento típico, podemos calcular el coeficiente alpha de Cronbach ()
Cronbach's Alpha | Cronbach's Alpha Based on Standardized Items | N of Items | |
---|---|---|---|
Values | 0.794 | 0.805 | 12 |
El valor de es de , lo que indica una fiabilidad aceptable del test.
Sin embargo, también calculamos los coeficientes lambda de Guttman:
Lambda | Value |
---|---|
1 | 0.728 |
2 | 0.809 |
3 | 0.794 |
4 | 0.788 |
5 | 0.782 |
6 | 0.875 |
N of Items | 12 |
Los más utilizados son , , y (siendo equivalente al coeficiente de Cronbach ). En este caso, los valores de , , y son de , , y , respectivamente. Por lo tanto, la fiabilidad del test es aceptable.
Ítems necesario para una fiabilidad de 0,90
La longitud del test es uno de los factores que influyen en la fiabilidad de un test. Para calcular la cantidad de ítems para una fiabilidad dada, en este caso de , se puede utilizar la fórmula de Spearman-Brown:
Sin embargo, puesto que necesito conocer el multiplicador, despejo de la fórmula de la fiabilidad:
Los datos de fiabiliad inicial y deseada son:
Por lo tanto:
Por lo tanto, la cantidad de items necesaria es:
Es decir, el test debería tener 28 ítems para alcanzar una fiabilidad de . Dicho de otra manera, el test debería tener 16 ítems más.
Análisis de ítems
El análisis de ítems sirve para evaluar la calidad de los ítems de un test. El objetivo del análisis de ítems es identificar aquellos ítems que no cumplen con los requisitos de validez y fiabilidad, para eliminarlos o revisarlos en caso necesario.
Estadísticos descriptivos
Antes de proceder a análisis más complejos, con el propósito de identificar patrones y hacer un análisis exploratorio, ejecutamos el análisis descriptivo.
Item | N | Minimum | Maximum | Mean | Std. Deviation | Variance |
---|---|---|---|---|---|---|
Item_1 | 100 | 1 | 5 | 3.27 | 0.920 | 0.846 |
Item_2 | 100 | 1 | 5 | 3.04 | 1.100 | 1.211 |
Item_3_r | 100 | 1 | 5 | 2.67 | 0.922 | 0.850 |
Item_4 | 100 | 2 | 5 | 2.90 | 0.847 | 0.717 |
Item_5_r | 100 | 1 | 5 | 2.86 | 0.888 | 0.788 |
Item_6 | 100 | 1 | 5 | 2.95 | 1.058 | 1.119 |
Item_7_r | 100 | 1 | 5 | 2.80 | 0.964 | 0.929 |
Item_8 | 100 | 1 | 5 | 2.65 | 1.201 | 1.442 |
Item_9_r | 100 | 1 | 4 | 2.56 | 0.833 | 0.693 |
Item_10 | 100 | 1 | 5 | 2.92 | 1.134 | 1.286 |
Item_11_r | 100 | 1 | 5 | 2.52 | 1.087 | 1.181 |
Item_12 | 100 | 1 | 5 | 3.00 | 1.035 | 1.071 |
Valid N (listwise) | 100 |
En todos los ítems hay respuestas de todos los rangos posibles. La media de los ítems oscila entre y , con una media de .
La desviación estándar oscila entre y , con una media de . La desviación estándar es un indicador de la variabilidad de las respuestas. A mayor desviación estándar, mayor variabilidad en las respuestas.
La varianza de los ítems oscila entre y , con una media de . La varianza representa la capacidad de discriminación interna de los ítems. A mayor varianza, mayor capacidad del ítem para discriminar entre sujetos, ya que refleja una mayor dispersión en las respuestas.
Los ítems cuya varianza se sitúa por debajo de la media, ordenados de menor a mayor, son:
- Item_9_r:
- Item_4:
- Item_5_r:
- Item_1:
- Item_3_r:
- Item_7_r:
De entre ellos, el único con un valor inferior a es el Item_9_r. Sin embargo, esto no supone necesariamente un problema y no se observan patrones extremos ni outliers claros en los datos. Por ello, se procede al análisis de ítems.
Frecuencias
A continuación, se presentan las frecuencias de las respuestas para cada ítem:
Item_1
Value | N | % |
---|---|---|
1 | 4 | 4.0% |
2 | 16 | 16.0% |
3 | 33 | 33.0% |
4 | 43 | 43.0% |
5 | 4 | 4.0% |
Item_2
Value | N | % |
---|---|---|
1 | 8 | 8.0% |
2 | 24 | 24.0% |
3 | 34 | 34.0% |
4 | 24 | 24.0% |
5 | 10 | 10.0% |
Item_3_r
Value | N | % |
---|---|---|
1 | 6 | 6.0% |
2 | 42 | 42.0% |
3 | 35 | 35.0% |
4 | 13 | 13.0% |
5 | 4 | 4.0% |
Item_4
Value | N | % |
---|---|---|
2 | 37 | 37.0% |
3 | 40 | 40.0% |
4 | 19 | 19.0% |
5 | 4 | 4.0% |
Item_5_r
Value | N | % |
---|---|---|
1 | 5 | 5.0% |
2 | 30 | 30.0% |
3 | 41 | 41.0% |
4 | 22 | 22.0% |
5 | 2 | 2.0% |
Item_6
Value | N | % |
---|---|---|
1 | 8 | 8.0% |
2 | 29 | 29.0% |
3 | 28 | 28.0% |
4 | 30 | 30.0% |
5 | 5 | 5.0% |
Item_7_r
Value | N | % |
---|---|---|
1 | 2 | 2.0% |
2 | 44 | 44.0% |
3 | 34 | 34.0% |
4 | 12 | 12.0% |
5 | 8 | 8.0% |
Item_8
Value | N | % |
---|---|---|
1 | 20 | 20.0% |
2 | 27 | 27.0% |
3 | 29 | 29.0% |
4 | 16 | 16.0% |
5 | 8 | 8.0% |
Item_9_r
Value | N | % |
---|---|---|
1 | 7 | 7.0% |
2 | 45 | 45.0% |
3 | 33 | 33.0% |
4 | 15 | 15.0% |
Item_10
Value | N | % |
---|---|---|
1 | 8 | 8.0% |
2 | 32 | 32.0% |
3 | 32 | 32.0% |
4 | 16 | 16.0% |
5 | 12 | 12.0% |
Item_11_r
Value | N | % |
---|---|---|
1 | 14 | 14.0% |
2 | 44 | 44.0% |
3 | 26 | 26.0% |
4 | 8 | 8.0% |
5 | 8 | 8.0% |
Item_12
Value | N | % |
---|---|---|
1 | 7 | 7.0% |
2 | 25 | 25.0% |
3 | 36 | 36.0% |
4 | 25 | 25.0% |
5 | 7 | 7.0% |
Discriminación interna
La discriminación interna se refiere a la correlación de cada ítem con la puntuación total del test.
La siguiente tabla, Item-Total Statistics, muestra la correlación de cada ítem con la puntuación total del test excluyendo al propio ítem (ítem-test corregida). En particular, la columna Corrected Item-Total Correlation muestra el valor relevante:
Item | Scale Mean if Item Deleted | Scale Variance if Item Deleted | Corrected Item-Total Correlation | Squared Multiple Correlation | Cronbach's Alpha if Item Deleted |
---|---|---|---|---|---|
Item_1 | 30.87 | 38.983 | 0.413 | 0.600 | 0.781 |
Item_2 | 31.10 | 38.434 | 0.361 | 0.477 | 0.787 |
Item_3_r | 31.47 | 36.777 | 0.621 | 0.802 | 0.763 |
Item_4 | 31.24 | 36.629 | 0.704 | 0.667 | 0.757 |
Item_5_r | 31.28 | 38.749 | 0.455 | 0.548 | 0.778 |
Item_6 | 31.19 | 40.034 | 0.255 | 0.485 | 0.797 |
Item_7_r | 31.34 | 38.328 | 0.445 | 0.587 | 0.778 |
Item_8 | 31.49 | 37.788 | 0.361 | 0.492 | 0.789 |
Item_9_r | 31.58 | 38.973 | 0.471 | 0.553 | 0.777 |
Item_10 | 31.22 | 37.931 | 0.383 | 0.470 | 0.785 |
Item_11_r | 31.62 | 37.571 | 0.436 | 0.560 | 0.779 |
Item_12 | 31.14 | 37.596 | 0.465 | 0.403 | 0.776 |
Si el valor es muy bajo (), indica baja discriminación y a menudo conviene eliminar o reformular el ítem. Sin embargo, ninguno de los ítems tiene una correlación ítem-test inferior a .
Sin embargo, hay un ítem con un correlación , el Item_6 (). Por ello, convendría re-formular el ítem.
Para mayor claridad, se procede a calcular con la correlación entre cada item y la puntuación total del test incluyendo al propio ítem (ítem-test sin corregir). Esta tabla está extraída de la matriz de correlaciones. Los resultados son los siguientes:
Item_1 | Item_2 | Item_3_r | Item_4 | Item_5_r | Item_6 | Item_7_r | Item_8 | Item_9_r | Item_10 | Item_11_r | Item_12 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Pearson Correlation | .359** | .422** | .620** | .568** | .376** | .218* | .549** | .610** | .588** | .532** | .400** | .367** |
Sig. (2-tailed) | <.001 | <.001 | <.001 | <.001 | <.001 | .029 | <.001 | <.001 | <.001 | <.001 | <.001 | <.001 |
N | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
** Correlación significativa al nivel 0.01 (2-tailed).
En todos los casos, la correlación es significativa; aunque no es alta. Sin embargo, en todos los casos la correlación supera el umbral de , lo que indica que los ítems están discriminando adecuadamente con respecto a la puntuación total.
Discriminación externa
La discriminación externa se refiere a la correlación ítem-criterio. La siguiente tabla muestra la correlación de cada ítem con el criterio y su significación estadística. Esta tabla está extraída de la matriz de correlaciones, y se enfoca en la correlación de cada ítem con la puntuación total del test.
Item_1 | Item_2 | Item_3_r | Item_4 | Item_5_r | Item_6 | Item_7_r | Item_8 | Item_9_r | Item_10 | Item_11_r | Item_12 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Pearson Correlation | .359** | .422** | .620** | .568** | .376** | .218* | .549** | .610** | .588** | .532** | .400** | .367** |
Sig. (2-tailed) | <.001 | <.001 | <.001 | <.001 | <.001 | .029 | <.001 | <.001 | <.001 | <.001 | <.001 | <.001 |
N | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
** Correlación significativa al nivel 0.01 (2-tailed).
En todos los casos, la correlación es significativa, aunque no es muy alta. Sin embargo, está por encima del umbral que exija eliminarlos. Esto significa que se puede decir, con un alto grado de significancia, que los ítems están discriminando adecuadamente con respecto al criterio.