Fiabilidad del test y análisis de ítems
- Asignatura: 14GPSI_10_C_2024-25_Psicometría
- Actividad: UC 4. Fiabilidad del Test y Análisis de los ítems
- Alumno: Taig Mac Carthy (72516712N)
- Profesor: Ana Hernández Dorado
Marco teórico y objetivos
La fiabilidad es una propiedad psicométrica fundamental que indica el grado en que las puntuaciones de un test están libres de errores de medida (Muñiz, 2018)1. Un test con alta fiabilidad proporciona mediciones consistentes y reproducibles, mientras que un instrumento con baja fiabilidad produciría resultados variables e imprecisos.
En el presente análisis, evaluamos la fiabilidad del Test C12 diseñado para medir el constructo de conscientiousness (responsabilidad o escrupulosidad) en contextos académicos. Los objetivos específicos son:
- Determinar la consistencia interna del instrumento mediante métodos clásicos (división en mitades, alpha de Cronbach y lambda de Guttman)
- Analizar el comportamiento psicométrico de cada ítem individualmente
- Establecer si el test alcanza niveles aceptables de fiabilidad para su uso en contextos de investigación
- Identificar ítems que puedan necesitar reformulación o eliminación
Siguiendo a Nunnally y Bernstein (1994)2, consideramos valores de fiabilidad superiores a 0.70 como aceptables para investigación básica, aunque valores superiores a 0.80 serían preferibles para toma de decisiones importantes.
Fiabilidad del test
Para calcular la fiabilidad del test, utilizamos la consistencia interna del test. Es decir: el grado de coherencia entre los ítems de un test. Para evaluar la consistencia interna, utilizamos dos técnicas:
- Dividir el test en dos mitades: utilizando el método de split-half, donde la fiabilidad se calcula correlacionando las puntuaciones de las dos mitades del test.
- Analizar la covarianza entre los ítems: con los coeficientes de Cronbach y de Guttman, que proporcionan una medida de la fiabilidad basada en las relaciones internas entre los ítems.
División en dos mitades
Esta división se hace por pares-impares, como es habitual en test de rendimiento típico. La división resulta en:
Mean | Variance | Std. Deviation | N of Items | |
---|---|---|---|---|
Part 1 | 17.69 | 12.883 | 3.589 | 6 |
Part 2 | 16.45 | 14.129 | 3.759 | 6 |
Both Parts | 34.14 | 44.566 | 6.676 | 12 |
Una vez divididos los ítems en dos grupos, la consistencia interna se calcula de forma distintas dependiendo de si son medidas paralelas o equivalentes. En el caso de que la división de ítems de lugar a dos medidas que son paralelas, el cálculo de la consistencia interna se realiza con la fórmula de Spearman-Brown. Por el contrario, en el caso de que la división de ítems de lugar a dos medidas que son equivalentes, pero no paralelas, el cálculo de la consistencia interna se realiza con la fórmula de Rulon y Guttman-Flanagan.
Los resultados de la correlación entre las dos mitades son los siguientes:
Statistic | Value |
---|---|
Correlation Between Forms | 0.651 |
Spearman-Brown Coefficient (Equal Length) | 0.788 |
Spearman-Brown Coefficient (Unequal Length) | 0.788 |
Guttman Split-Half Coefficient | 0.788 |
Es decir, que la correlación () es de , lo que indica una fiabilidad aceptable del test.
Covarianza
La matriz de covarianzas resultante es la siguiente:
Item_1 | Item_2 | Item_3_r | Item_4 | Item_5_r | Item_6 | Item_7_r | Item_8 | Item_9_r | Item_10 | Item_11_r | Item_12 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Item_1 | 0.846 | 0.535 | 0.070 | 0.391 | 0.200 | 0.296 | 0.317 | 0.025 | 0.090 | -0.019 | 0.141 | 0.323 |
Item_2 | 0.535 | 1.211 | 0.104 | 0.398 | -0.055 | 0.143 | -0.160 | -0.006 | 0.321 | 0.114 | 0.343 | 0.404 |
Item_3_r | 0.070 | 0.104 | 0.850 | 0.381 | -0.468 | -0.007 | 0.509 | 0.409 | 0.459 | 0.357 | 0.517 | 0.202 |
Item_4 | 0.391 | 0.398 | 0.381 | 0.717 | 0.238 | 0.207 | 0.352 | 0.207 | 0.187 | -0.370 | 0.315 | 0.394 |
Item_5_r | 0.200 | -0.055 | -0.468 | 0.238 | 0.788 | 0.306 | 0.345 | 0.264 | 0.147 | 0.225 | 0.182 | 0.182 |
Item_6 | 0.296 | 0.143 | -0.007 | 0.207 | 0.306 | 1.119 | 0.253 | 0.518 | 0.028 | 0.046 | -0.206 | 0.121 |
Item_7_r | 0.317 | -0.160 | 0.509 | 0.252 | 0.345 | 0.253 | 0.929 | 0.424 | 0.482 | -0.006 | 0.176 | 0.091 |
Item_8 | 0.025 | -0.006 | 0.409 | 0.187 | 0.264 | 0.518 | 0.424 | 1.442 | 0.147 | 0.537 | -0.059 | 0.222 |
Item_9_r | 0.090 | 0.321 | 0.459 | 0.370 | 0.147 | 0.028 | 0.482 | 0.147 | 0.693 | 0.156 | 0.433 | 0.101 |
Item_10 | -0.019 | 0.114 | 0.357 | -0.315 | 0.225 | 0.046 | -0.006 | 0.537 | 0.156 | 1.286 | 0.446 | 0.545 |
Item_11_r | 0.141 | 0.343 | 0.517 | 0.315 | 0.182 | -0.206 | 0.176 | -0.059 | 0.433 | 0.446 | 1.181 | 0.364 |
Item_12 | 0.323 | 0.404 | 0.202 | 0.394 | 0.182 | 0.121 | 0.091 | 0.222 | 0.101 | 0.545 | 0.364 | 1.071 |
La covarianza entre ítems se puede calcular mediante tres métodos:
- Alfa de Cronbach () permite calcular la covarianza de ítems de cualquier tipo, incluyendo ítems de rendimiento típico.
- Kuder-Richardson () permite calcular la covarianza con mayor precisión en ítems de rendimiento óptimo.
- Lambda de Guttman () sirve para lo mismo que el alfa de Cronbach, pero es más preciso.
- Beta de Revelle () permite calcular la covarianza entre tests de distinta longitud. Es decir, cuando tienen diferente número de ítems.
- Análisis de la varianza (ANOVA)
- Omega de McDonald () permite calcular la covarianza entre ítems con pesos factoriales.
Dado que es un test de rendimiento típico, podemos calcular el coeficiente alpha de Cronbach ()
Cronbach's Alpha | Cronbach's Alpha Based on Standardized Items | N of Items | |
---|---|---|---|
Values | 0.794 | 0.805 | 12 |
El valor de es de , lo que indica una fiabilidad aceptable del test.
Sin embargo, también calculamos los coeficientes lambda de Guttman:
Lambda | Value |
---|---|
1 | 0.728 |
2 | 0.809 |
3 | 0.794 |
4 | 0.788 |
5 | 0.782 |
6 | 0.875 |
N of Items | 12 |
Los más utilizados son , , y (siendo equivalente al coeficiente de Cronbach ). En este caso, los valores de , , y son de , , y , respectivamente. Por lo tanto, la fiabilidad del test es aceptable.
Ítems necesario para una fiabilidad de 0,90
La longitud del test es uno de los factores que influyen en la fiabilidad de un test. Para calcular la cantidad de ítems para una fiabilidad dada, en este caso de , se puede utilizar la fórmula de Spearman-Brown:
Sin embargo, puesto que necesito conocer el multiplicador, despejo de la fórmula de la fiabilidad:
Los datos de fiabiliad inicial y deseada son:
Por lo tanto:
Por lo tanto, la cantidad de items necesaria es:
Es decir, el test debería tener 28 ítems para alcanzar una fiabilidad de . Dicho de otra manera, el test debería tener 16 ítems más.
Análisis de ítems
El análisis de ítems sirve para evaluar la calidad de los ítems de un test. El objetivo del análisis de ítems es identificar aquellos ítems que no cumplen con los requisitos de validez y fiabilidad, para eliminarlos o revisarlos en caso necesario.
Estadísticos descriptivos
Antes de proceder a análisis más complejos, con el propósito de identificar patrones y hacer un análisis exploratorio, ejecutamos el análisis descriptivo.
Item | N | Minimum | Maximum | Mean | Std. Deviation | Variance |
---|---|---|---|---|---|---|
Item_1 | 100 | 1 | 5 | 3.27 | 0.920 | 0.846 |
Item_2 | 100 | 1 | 5 | 3.04 | 1.100 | 1.211 |
Item_3_r | 100 | 1 | 5 | 2.67 | 0.922 | 0.850 |
Item_4 | 100 | 2 | 5 | 2.90 | 0.847 | 0.717 |
Item_5_r | 100 | 1 | 5 | 2.86 | 0.888 | 0.788 |
Item_6 | 100 | 1 | 5 | 2.95 | 1.058 | 1.119 |
Item_7_r | 100 | 1 | 5 | 2.80 | 0.964 | 0.929 |
Item_8 | 100 | 1 | 5 | 2.65 | 1.201 | 1.442 |
Item_9_r | 100 | 1 | 4 | 2.56 | 0.833 | 0.693 |
Item_10 | 100 | 1 | 5 | 2.92 | 1.134 | 1.286 |
Item_11_r | 100 | 1 | 5 | 2.52 | 1.087 | 1.181 |
Item_12 | 100 | 1 | 5 | 3.00 | 1.035 | 1.071 |
Valid N (listwise) | 100 |
En todos los ítems hay respuestas de todos los rangos posibles. La media de los ítems oscila entre y , con una media de .
La desviación estándar oscila entre y , con una media de . La desviación estándar es un indicador de la variabilidad de las respuestas. A mayor desviación estándar, mayor variabilidad en las respuestas.
La varianza de los ítems oscila entre y , con una media de . La varianza representa la capacidad de discriminación interna de los ítems. A mayor varianza, mayor capacidad del ítem para discriminar entre sujetos, ya que refleja una mayor dispersión en las respuestas.
Los ítems cuya varianza se sitúa por debajo de la media, ordenados de menor a mayor, son:
- Item_9_r:
- Item_4:
- Item_5_r:
- Item_1:
- Item_3_r:
- Item_7_r:
De entre ellos, el único con un valor inferior a es el Item_9_r. Sin embargo, esto no supone necesariamente un problema y no se observan patrones extremos ni outliers claros en los datos. Por ello, se procede al análisis de ítems.
Frecuencias
A continuación, se presentan las frecuencias de las respuestas para cada ítem:
Item_1
Value | N | % |
---|---|---|
1 | 4 | 4.0% |
2 | 16 | 16.0% |
3 | 33 | 33.0% |
4 | 43 | 43.0% |
5 | 4 | 4.0% |
Item_2
Value | N | % |
---|---|---|
1 | 8 | 8.0% |
2 | 24 | 24.0% |
3 | 34 | 34.0% |
4 | 24 | 24.0% |
5 | 10 | 10.0% |
Item_3_r
Value | N | % |
---|---|---|
1 | 6 | 6.0% |
2 | 42 | 42.0% |
3 | 35 | 35.0% |
4 | 13 | 13.0% |
5 | 4 | 4.0% |
Item_4
Value | N | % |
---|---|---|
2 | 37 | 37.0% |
3 | 40 | 40.0% |
4 | 19 | 19.0% |
5 | 4 | 4.0% |
Item_5_r
Value | N | % |
---|---|---|
1 | 5 | 5.0% |
2 | 30 | 30.0% |
3 | 41 | 41.0% |
4 | 22 | 22.0% |
5 | 2 | 2.0% |
Item_6
Value | N | % |
---|---|---|
1 | 8 | 8.0% |
2 | 29 | 29.0% |
3 | 28 | 28.0% |
4 | 30 | 30.0% |
5 | 5 | 5.0% |
Item_7_r
Value | N | % |
---|---|---|
1 | 2 | 2.0% |
2 | 44 | 44.0% |
3 | 34 | 34.0% |
4 | 12 | 12.0% |
5 | 8 | 8.0% |
Item_8
Value | N | % |
---|---|---|
1 | 20 | 20.0% |
2 | 27 | 27.0% |
3 | 29 | 29.0% |
4 | 16 | 16.0% |
5 | 8 | 8.0% |
Item_9_r
Value | N | % |
---|---|---|
1 | 7 | 7.0% |
2 | 45 | 45.0% |
3 | 33 | 33.0% |
4 | 15 | 15.0% |
Item_10
Value | N | % |
---|---|---|
1 | 8 | 8.0% |
2 | 32 | 32.0% |
3 | 32 | 32.0% |
4 | 16 | 16.0% |
5 | 12 | 12.0% |
Item_11_r
Value | N | % |
---|---|---|
1 | 14 | 14.0% |
2 | 44 | 44.0% |
3 | 26 | 26.0% |
4 | 8 | 8.0% |
5 | 8 | 8.0% |
Item_12
Value | N | % |
---|---|---|
1 | 7 | 7.0% |
2 | 25 | 25.0% |
3 | 36 | 36.0% |
4 | 25 | 25.0% |
5 | 7 | 7.0% |
Discriminación interna
La discriminación interna se refiere a la correlación de cada ítem con la puntuación total del test.
La siguiente tabla, Item-Total Statistics, muestra la correlación de cada ítem con la puntuación total del test excluyendo al propio ítem (ítem-test corregida). En particular, la columna Corrected Item-Total Correlation muestra el valor relevante:
Item | Scale Mean if Item Deleted | Scale Variance if Item Deleted | Corrected Item-Total Correlation | Squared Multiple Correlation | Cronbach's Alpha if Item Deleted |
---|---|---|---|---|---|
Item_1 | 30.87 | 38.983 | 0.413 | 0.600 | 0.781 |
Item_2 | 31.10 | 38.434 | 0.361 | 0.477 | 0.787 |
Item_3_r | 31.47 | 36.777 | 0.621 | 0.802 | 0.763 |
Item_4 | 31.24 | 36.629 | 0.704 | 0.667 | 0.757 |
Item_5_r | 31.28 | 38.749 | 0.455 | 0.548 | 0.778 |
Item_6 | 31.19 | 40.034 | 0.255 | 0.485 | 0.797 |
Item_7_r | 31.34 | 38.328 | 0.445 | 0.587 | 0.778 |
Item_8 | 31.49 | 37.788 | 0.361 | 0.492 | 0.789 |
Item_9_r | 31.58 | 38.973 | 0.471 | 0.553 | 0.777 |
Item_10 | 31.22 | 37.931 | 0.383 | 0.470 | 0.785 |
Item_11_r | 31.62 | 37.571 | 0.436 | 0.560 | 0.779 |
Item_12 | 31.14 | 37.596 | 0.465 | 0.403 | 0.776 |
Si el valor es muy bajo (), indica baja discriminación y a menudo conviene eliminar o reformular el ítem. Sin embargo, ninguno de los ítems tiene una correlación ítem-test inferior a .
Sin embargo, hay un ítem con un correlación , el Item_6 (). Por ello, convendría re-formular el ítem.
Para mayor claridad, se procede a calcular con la correlación entre cada item y la puntuación total del test incluyendo al propio ítem (ítem-test sin corregir). Esta tabla está extraída de la matriz de correlaciones. Los resultados son los siguientes:
Item_1 | Item_2 | Item_3_r | Item_4 | Item_5_r | Item_6 | Item_7_r | Item_8 | Item_9_r | Item_10 | Item_11_r | Item_12 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Pearson Correlation | .359** | .422** | .620** | .568** | .376** | .218* | .549** | .610** | .588** | .532** | .400** | .367** |
Sig. (2-tailed) | <.001 | <.001 | <.001 | <.001 | <.001 | .029 | <.001 | <.001 | <.001 | <.001 | <.001 | <.001 |
N | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
** Correlación significativa al nivel 0.01 (2-tailed).
En todos los casos, la correlación es significativa; aunque no es alta. Sin embargo, en todos los casos la correlación supera el umbral de , lo que indica que los ítems están discriminando adecuadamente con respecto a la puntuación total.
Análisis detallado de discriminación externa
Para profundizar en la capacidad predictiva de los ítems individuales respecto al criterio externo (rendimiento académico), calculamos la correlación de cada ítem con la puntuación total del criterio. Este análisis complementa la evaluación de consistencia interna y nos permite identificar los ítems con mayor capacidad predictiva.
Item_1 | Item_2 | Item_3_r | Item_4 | Item_5_r | Item_6 | Item_7_r | Item_8 | Item_9_r | Item_10 | Item_11_r | Item_12 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Pearson Correlation | .359** | .422** | .620** | .568** | .376** | .218* | .549** | .610** | .588** | .532** | .400** | .367** |
Sig. (2-tailed) | <.001 | <.001 | <.001 | <.001 | <.001 | .029 | <.001 | <.001 | <.001 | <.001 | <.001 | <.001 |
N | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
** Correlación significativa al nivel 0.01 (2-tailed).
Estos datos se pueden resumir en la siguiente tabla:
Ítem | Correlación con criterio | Significación | Interpretación |
---|---|---|---|
Item_3_r | 0.620 | p < .001 | Alta capacidad predictiva |
Item_8 | 0.610 | p < .001 | Alta capacidad predictiva |
Item_9_r | 0.588 | p < .001 | Moderada-alta capacidad |
Item_4 | 0.568 | p < .001 | Moderada-alta capacidad |
Item_7_r | 0.549 | p < .001 | Moderada capacidad |
Item_10 | 0.532 | p < .001 | Moderada capacidad |
Item_2 | 0.422 | p < .001 | Moderada-baja capacidad |
Item_11_r | 0.400 | p < .001 | Moderada-baja capacidad |
Item_5_r | 0.376 | p < .001 | Moderada-baja capacidad |
Item_12 | 0.367 | p < .001 | Moderada-baja capacidad |
Item_1 | 0.359 | p < .001 | Moderada-baja capacidad |
Item_6 | 0.218 | p = .029 | Baja capacidad predictiva |
Como se observa en la tabla, el Item_6 muestra una correlación significativamente menor que el resto (0.218), apenas superando el umbral mínimo aceptable de 0.20 propuesto por autores como Nunnally y Bernstein (1994)2. Si bien no sería estrictamente necesario eliminarlo, su reformulación podría mejorar las propiedades psicométricas globales del instrumento.
Los ítems 3_r y 8 presentan las correlaciones más altas con el criterio (aproximadamente 0.62 y 0.61 respectivamente), lo que sugiere que son particularmente efectivos para predecir el rendimiento académico.
Interpretación integrada y recomendaciones
Evaluación global de la fiabilidad
El Test C12 muestra niveles satisfactorios de fiabilidad según diferentes métodos de estimación:
Método de estimación | Coeficiente | Valor | Interpretación |
---|---|---|---|
División en mitades | Spearman-Brown | 0.788 | Aceptable |
División en mitades | Guttman Split-Half | 0.788 | Aceptable |
Consistencia interna | Alpha de Cronbach | 0.794 | Aceptable |
Consistencia interna | Lambda 2 de Guttman | 0.809 | Buena |
Consistencia interna | Lambda 6 de Guttman | 0.875 | Muy buena |
Según los criterios establecidos por George y Mallery (2003)3:
- α < 0.5: Inaceptable
- 0.5 ≤ α < 0.6: Pobre
- 0.6 ≤ α < 0.7: Cuestionable
- 0.7 ≤ α < 0.8: Aceptable
- 0.8 ≤ α < 0.9: Bueno
- α ≥ 0.9: Excelente
Los valores obtenidos se sitúan en el rango entre "aceptable" y "bueno", superando el umbral mínimo de 0.70 recomendado para investigación básica (Nunnally, 1978)4. Sin embargo, no alcanza el valor de 0.90 que sería deseable para toma de decisiones individuales de alto impacto.
El coeficiente Lambda 6 de Guttman (0.875) merece especial atención por su proximidad al umbral de excelencia (0.90) y por ser considerado por algunos autores (Sijtsma, 2009)5 como una mejor estimación de la fiabilidad que el Alpha de Cronbach en determinadas circunstancias.
Análisis de ítems problemáticos
Item_6: "No me detengo hasta que mis apuntes o esquemas están perfectos"
- Presenta la menor correlación ítem-test corregida (0.255)
- Muestra la correlación más baja con el criterio (0.218)
- Su eliminación mejoraría ligeramente el Alpha de Cronbach (de 0.794 a 0.797)
Este ítem podría estar midiendo una dimensión diferente del constructo o podría presentar problemas en su redacción. La formulación actual podría estar evaluando perfeccionismo más que conscientiousness orientada al rendimiento académico.
Recomendación: Reformular el ítem para que evalúe de forma más clara la persistencia orientada al logro académico. Por ejemplo: "Continúo trabajando en mis apuntes o esquemas hasta asegurarme de que son útiles para mi aprendizaje".
Mejoras potenciales del test
- Ampliación del número de ítems: para alcanzar una fiabilidad de 0.90, se recomienda incrementar el número de ítems de 12 a 28, añadiendo 16 nuevos ítems con características psicométricas similares a los actuales.
- Equilibrio de subdimensiones: el análisis factorial posterior (no incluido en este informe) podría informar sobre qué dimensiones específicas de conscientiousness están subrepresentadas y necesitan más ítems.
- Refinamiento de ítems con menor rendimiento: además del Item_6 ya mencionado, los ítems con correlaciones ítem-total por debajo de 0.40 (Item_1, Item_2, Item_8) podrían ser candidatos a revisión para mejorar su contribución a la medida del constructo.
- Homogeneización del formato de respuesta: se observa que el Item_9_r tiene un rango de respuesta de 1-4 en lugar de 1-5 como el resto de ítems. Esto podría ser un error en la codificación o un problema en el diseño del ítem que debería corregirse.
Referencias bibliográficas
Footnotes
-
Muñiz, J. (2018). Introducción a la psicometría. Madrid: Ediciones Pirámide. ↩
-
Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). New York: McGraw-Hill. ↩ ↩2
-
George, D., & Mallery, P. (2003). SPSS for Windows step by step: A simple guide and reference. Boston: Allyn & Bacon. ↩
-
Nunnally, J. C. (1978). Psychometric theory (2nd ed.). New York: McGraw-Hill. ↩
-
Sijtsma, K. (2009). On the use, the misuse, and the very limited usefulness of Cronbach's alpha. Psychometrika, 74(1), 107-120. ↩