Saltar al contenido principal

Fiabilidad del test y análisis de ítems

Datos de la actividad
  • Asignatura: 14GPSI_10_C_2024-25_Psicometría
  • Actividad: UC 4. Fiabilidad del Test y Análisis de los ítems
  • Alumno: Taig Mac Carthy (72516712N)
  • Profesor: Ana Hernández Dorado

Marco teórico y objetivos

La fiabilidad es una propiedad psicométrica fundamental que indica el grado en que las puntuaciones de un test están libres de errores de medida (Muñiz, 2018)1. Un test con alta fiabilidad proporciona mediciones consistentes y reproducibles, mientras que un instrumento con baja fiabilidad produciría resultados variables e imprecisos.

En el presente análisis, evaluamos la fiabilidad del Test C12 diseñado para medir el constructo de conscientiousness (responsabilidad o escrupulosidad) en contextos académicos. Los objetivos específicos son:

  1. Determinar la consistencia interna del instrumento mediante métodos clásicos (división en mitades, alpha de Cronbach y lambda de Guttman)
  2. Analizar el comportamiento psicométrico de cada ítem individualmente
  3. Establecer si el test alcanza niveles aceptables de fiabilidad para su uso en contextos de investigación
  4. Identificar ítems que puedan necesitar reformulación o eliminación

Siguiendo a Nunnally y Bernstein (1994)2, consideramos valores de fiabilidad superiores a 0.70 como aceptables para investigación básica, aunque valores superiores a 0.80 serían preferibles para toma de decisiones importantes.

Fiabilidad del test

Para calcular la fiabilidad del test, utilizamos la consistencia interna del test. Es decir: el grado de coherencia entre los ítems de un test. Para evaluar la consistencia interna, utilizamos dos técnicas:

  • Dividir el test en dos mitades: utilizando el método de split-half, donde la fiabilidad se calcula correlacionando las puntuaciones de las dos mitades del test.
  • Analizar la covarianza entre los ítems: con los coeficientes α\alpha de Cronbach y λ\lambda de Guttman, que proporcionan una medida de la fiabilidad basada en las relaciones internas entre los ítems.

División en dos mitades

Esta división se hace por pares-impares, como es habitual en test de rendimiento típico. La división resulta en:

MeanVarianceStd. DeviationN of Items
Part 117.6912.8833.5896
Part 216.4514.1293.7596
Both Parts34.1444.5666.67612

Una vez divididos los ítems en dos grupos, la consistencia interna se calcula de forma distintas dependiendo de si son medidas paralelas o equivalentes. En el caso de que la división de ítems de lugar a dos medidas que son paralelas, el cálculo de la consistencia interna se realiza con la fórmula de Spearman-Brown. Por el contrario, en el caso de que la división de ítems de lugar a dos medidas que son equivalentes, pero no paralelas, el cálculo de la consistencia interna se realiza con la fórmula de Rulon y Guttman-Flanagan.

Los resultados de la correlación entre las dos mitades son los siguientes:

StatisticValue
Correlation Between Forms0.651
Spearman-Brown Coefficient (Equal Length)0.788
Spearman-Brown Coefficient (Unequal Length)0.788
Guttman Split-Half Coefficient0.788

Es decir, que la correlación (ρ\rho) es de 0.7880.788, lo que indica una fiabilidad aceptable del test.

Covarianza

La matriz de covarianzas resultante es la siguiente:

Item_1Item_2Item_3_rItem_4Item_5_rItem_6Item_7_rItem_8Item_9_rItem_10Item_11_rItem_12
Item_10.8460.5350.0700.3910.2000.2960.3170.0250.090-0.0190.1410.323
Item_20.5351.2110.1040.398-0.0550.143-0.160-0.0060.3210.1140.3430.404
Item_3_r0.0700.1040.8500.381-0.468-0.0070.5090.4090.4590.3570.5170.202
Item_40.3910.3980.3810.7170.2380.2070.3520.2070.187-0.3700.3150.394
Item_5_r0.200-0.055-0.4680.2380.7880.3060.3450.2640.1470.2250.1820.182
Item_60.2960.143-0.0070.2070.3061.1190.2530.5180.0280.046-0.2060.121
Item_7_r0.317-0.1600.5090.2520.3450.2530.9290.4240.482-0.0060.1760.091
Item_80.025-0.0060.4090.1870.2640.5180.4241.4420.1470.537-0.0590.222
Item_9_r0.0900.3210.4590.3700.1470.0280.4820.1470.6930.1560.4330.101
Item_10-0.0190.1140.357-0.3150.2250.046-0.0060.5370.1561.2860.4460.545
Item_11_r0.1410.3430.5170.3150.182-0.2060.176-0.0590.4330.4461.1810.364
Item_120.3230.4040.2020.3940.1820.1210.0910.2220.1010.5450.3641.071

La covarianza entre ítems se puede calcular mediante tres métodos:

  • Alfa de Cronbach (α\alpha) permite calcular la covarianza de ítems de cualquier tipo, incluyendo ítems de rendimiento típico.
  • Kuder-Richardson (KR20KR_{20}) permite calcular la covarianza con mayor precisión en ítems de rendimiento óptimo.
  • Lambda de Guttman (λ\lambda) sirve para lo mismo que el alfa de Cronbach, pero es más preciso.
  • Beta de Revelle (β\beta) permite calcular la covarianza entre tests de distinta longitud. Es decir, cuando tienen diferente número de ítems.
  • Análisis de la varianza (ANOVA)
  • Omega de McDonald (ω\omega) permite calcular la covarianza entre ítems con pesos factoriales.

Dado que es un test de rendimiento típico, podemos calcular el coeficiente alpha de Cronbach (α\alpha)

Cronbach's AlphaCronbach's Alpha Based on Standardized ItemsN of Items
Values0.7940.80512

El valor de α\alpha es de 0.7940.794, lo que indica una fiabilidad aceptable del test.

Sin embargo, también calculamos los coeficientes lambda de Guttman:

LambdaValue
10.728
20.809
30.794
40.788
50.782
60.875
N of Items12

Los más utilizados son λ1\lambda_1, λ2\lambda_2, y λ3\lambda_3 (siendo λ3\lambda_3 equivalente al coeficiente de Cronbach α\alpha). En este caso, los valores de λ1\lambda_1, λ2\lambda_2, y λ3\lambda_3 son de 0.7280.728, 0.8090.809, y 0.7940.794, respectivamente. Por lo tanto, la fiabilidad del test es aceptable.

Ítems necesario para una fiabilidad de 0,90

La longitud del test es uno de los factores que influyen en la fiabilidad de un test. Para calcular la cantidad de ítems para una fiabilidad dada, en este caso de 0.900.90, se puede utilizar la fórmula de Spearman-Brown:

ρk=kρXX1+(k1)ρXX\rho_k = \frac{k \cdot \rho_{XX^{\prime}}}{1 + (k - 1) \cdot \rho_{XX^{\prime}}}

Sin embargo, puesto que necesito conocer el multiplicador, despejo kk de la fórmula de la fiabilidad:

k=ρk(1ρXX)ρXX(1ρk)k = \frac{\rho_k \cdot (1 - \rho_{XX^{\prime}})}{\rho_{XX^{\prime}} \cdot (1 - \rho_k)}

Los datos de fiabiliad inicial y deseada son:

  • ρXX=0.794\rho_{XX^{\prime}} = 0.794
  • ρk=0.90\rho_k = 0.90

Por lo tanto:

k=0.90×(10.794)0.794×(10.90)=2.335k = \frac{0.90 \times (1 - 0.794)}{0.794 \times (1 - 0.90)} = 2.335

Por lo tanto, la cantidad de items necesaria es:

ni=n×k=12×2.335=28.02n_i = n \times k = 12 \times 2.335 = 28.02

Es decir, el test debería tener 28 ítems para alcanzar una fiabilidad de 0.900.90. Dicho de otra manera, el test debería tener 16 ítems más.

Análisis de ítems

El análisis de ítems sirve para evaluar la calidad de los ítems de un test. El objetivo del análisis de ítems es identificar aquellos ítems que no cumplen con los requisitos de validez y fiabilidad, para eliminarlos o revisarlos en caso necesario.

Estadísticos descriptivos

Antes de proceder a análisis más complejos, con el propósito de identificar patrones y hacer un análisis exploratorio, ejecutamos el análisis descriptivo.

ItemNMinimumMaximumMeanStd. DeviationVariance
Item_1100153.270.9200.846
Item_2100153.041.1001.211
Item_3_r100152.670.9220.850
Item_4100252.900.8470.717
Item_5_r100152.860.8880.788
Item_6100152.951.0581.119
Item_7_r100152.800.9640.929
Item_8100152.651.2011.442
Item_9_r100142.560.8330.693
Item_10100152.921.1341.286
Item_11_r100152.521.0871.181
Item_12100153.001.0351.071
Valid N (listwise)100

En todos los ítems hay respuestas de todos los rangos posibles. La media de los ítems oscila entre 2.522.52 y 3.273.27, con una media de 2.952.95.

La desviación estándar oscila entre 0.8330.833 y 1.4421.442, con una media de 1.0581.058. La desviación estándar es un indicador de la variabilidad de las respuestas. A mayor desviación estándar, mayor variabilidad en las respuestas.

La varianza de los ítems oscila entre 0.6930.693 y 1.4421.442, con una media de 1.0001.000. La varianza representa la capacidad de discriminación interna de los ítems. A mayor varianza, mayor capacidad del ítem para discriminar entre sujetos, ya que refleja una mayor dispersión en las respuestas.

Los ítems cuya varianza se sitúa por debajo de la media, ordenados de menor a mayor, son:

  • Item_9_r: 0.6930.693
  • Item_4: 0.7170.717
  • Item_5_r: 0.7880.788
  • Item_1: 0.8460.846
  • Item_3_r: 0.8500.850
  • Item_7_r: 0.9290.929

De entre ellos, el único con un valor inferior a 0.7000.700 es el Item_9_r. Sin embargo, esto no supone necesariamente un problema y no se observan patrones extremos ni outliers claros en los datos. Por ello, se procede al análisis de ítems.

Frecuencias

A continuación, se presentan las frecuencias de las respuestas para cada ítem:

Item_1

ValueN%
144.0%
21616.0%
33333.0%
44343.0%
544.0%

Item_2

ValueN%
188.0%
22424.0%
33434.0%
42424.0%
51010.0%

Item_3_r

ValueN%
166.0%
24242.0%
33535.0%
41313.0%
544.0%

Item_4

ValueN%
23737.0%
34040.0%
41919.0%
544.0%

Item_5_r

ValueN%
155.0%
23030.0%
34141.0%
42222.0%
522.0%

Item_6

ValueN%
188.0%
22929.0%
32828.0%
43030.0%
555.0%

Item_7_r

ValueN%
122.0%
24444.0%
33434.0%
41212.0%
588.0%

Item_8

ValueN%
12020.0%
22727.0%
32929.0%
41616.0%
588.0%

Item_9_r

ValueN%
177.0%
24545.0%
33333.0%
41515.0%

Item_10

ValueN%
188.0%
23232.0%
33232.0%
41616.0%
51212.0%

Item_11_r

ValueN%
11414.0%
24444.0%
32626.0%
488.0%
588.0%

Item_12

ValueN%
177.0%
22525.0%
33636.0%
42525.0%
577.0%

Discriminación interna

La discriminación interna se refiere a la correlación de cada ítem con la puntuación total del test.

La siguiente tabla, Item-Total Statistics, muestra la correlación de cada ítem con la puntuación total del test excluyendo al propio ítem (ítem-test corregida). En particular, la columna Corrected Item-Total Correlation muestra el valor relevante:

ItemScale Mean if Item DeletedScale Variance if Item DeletedCorrected Item-Total CorrelationSquared Multiple CorrelationCronbach's Alpha if Item Deleted
Item_130.8738.9830.4130.6000.781
Item_231.1038.4340.3610.4770.787
Item_3_r31.4736.7770.6210.8020.763
Item_431.2436.6290.7040.6670.757
Item_5_r31.2838.7490.4550.5480.778
Item_631.1940.0340.2550.4850.797
Item_7_r31.3438.3280.4450.5870.778
Item_831.4937.7880.3610.4920.789
Item_9_r31.5838.9730.4710.5530.777
Item_1031.2237.9310.3830.4700.785
Item_11_r31.6237.5710.4360.5600.779
Item_1231.1437.5960.4650.4030.776

Si el valor es muy bajo (<0.20\lt0.20), indica baja discriminación y a menudo conviene eliminar o reformular el ítem. Sin embargo, ninguno de los ítems tiene una correlación ítem-test inferior a 0.200.20.

Sin embargo, hay un ítem con un correlación <0.20\lt0.20, el Item_6 (0.2550.255). Por ello, convendría re-formular el ítem.

Para mayor claridad, se procede a calcular con la correlación entre cada item y la puntuación total del test incluyendo al propio ítem (ítem-test sin corregir). Esta tabla está extraída de la matriz de correlaciones. Los resultados son los siguientes:

Item_1Item_2Item_3_rItem_4Item_5_rItem_6Item_7_rItem_8Item_9_rItem_10Item_11_rItem_12
Pearson Correlation.359**.422**.620**.568**.376**.218*.549**.610**.588**.532**.400**.367**
Sig. (2-tailed)<.001<.001<.001<.001<.001.029<.001<.001<.001<.001<.001<.001
N100100100100100100100100100100100100

** Correlación significativa al nivel 0.01 (2-tailed).

En todos los casos, la correlación es significativa; aunque no es alta. Sin embargo, en todos los casos la correlación supera el umbral de 0.200.20, lo que indica que los ítems están discriminando adecuadamente con respecto a la puntuación total.

Análisis detallado de discriminación externa

Para profundizar en la capacidad predictiva de los ítems individuales respecto al criterio externo (rendimiento académico), calculamos la correlación de cada ítem con la puntuación total del criterio. Este análisis complementa la evaluación de consistencia interna y nos permite identificar los ítems con mayor capacidad predictiva.

Item_1Item_2Item_3_rItem_4Item_5_rItem_6Item_7_rItem_8Item_9_rItem_10Item_11_rItem_12
Pearson Correlation.359**.422**.620**.568**.376**.218*.549**.610**.588**.532**.400**.367**
Sig. (2-tailed)<.001<.001<.001<.001<.001.029<.001<.001<.001<.001<.001<.001
N100100100100100100100100100100100100

** Correlación significativa al nivel 0.01 (2-tailed).

Estos datos se pueden resumir en la siguiente tabla:

ÍtemCorrelación con criterioSignificaciónInterpretación
Item_3_r0.620p < .001Alta capacidad predictiva
Item_80.610p < .001Alta capacidad predictiva
Item_9_r0.588p < .001Moderada-alta capacidad
Item_40.568p < .001Moderada-alta capacidad
Item_7_r0.549p < .001Moderada capacidad
Item_100.532p < .001Moderada capacidad
Item_20.422p < .001Moderada-baja capacidad
Item_11_r0.400p < .001Moderada-baja capacidad
Item_5_r0.376p < .001Moderada-baja capacidad
Item_120.367p < .001Moderada-baja capacidad
Item_10.359p < .001Moderada-baja capacidad
Item_60.218p = .029Baja capacidad predictiva

Como se observa en la tabla, el Item_6 muestra una correlación significativamente menor que el resto (0.218), apenas superando el umbral mínimo aceptable de 0.20 propuesto por autores como Nunnally y Bernstein (1994)2. Si bien no sería estrictamente necesario eliminarlo, su reformulación podría mejorar las propiedades psicométricas globales del instrumento.

Los ítems 3_r y 8 presentan las correlaciones más altas con el criterio (aproximadamente 0.62 y 0.61 respectivamente), lo que sugiere que son particularmente efectivos para predecir el rendimiento académico.

Interpretación integrada y recomendaciones

Evaluación global de la fiabilidad

El Test C12 muestra niveles satisfactorios de fiabilidad según diferentes métodos de estimación:

Método de estimaciónCoeficienteValorInterpretación
División en mitadesSpearman-Brown0.788Aceptable
División en mitadesGuttman Split-Half0.788Aceptable
Consistencia internaAlpha de Cronbach0.794Aceptable
Consistencia internaLambda 2 de Guttman0.809Buena
Consistencia internaLambda 6 de Guttman0.875Muy buena

Según los criterios establecidos por George y Mallery (2003)3:

  • α < 0.5: Inaceptable
  • 0.5 ≤ α < 0.6: Pobre
  • 0.6 ≤ α < 0.7: Cuestionable
  • 0.7 ≤ α < 0.8: Aceptable
  • 0.8 ≤ α < 0.9: Bueno
  • α ≥ 0.9: Excelente

Los valores obtenidos se sitúan en el rango entre "aceptable" y "bueno", superando el umbral mínimo de 0.70 recomendado para investigación básica (Nunnally, 1978)4. Sin embargo, no alcanza el valor de 0.90 que sería deseable para toma de decisiones individuales de alto impacto.

El coeficiente Lambda 6 de Guttman (0.875) merece especial atención por su proximidad al umbral de excelencia (0.90) y por ser considerado por algunos autores (Sijtsma, 2009)5 como una mejor estimación de la fiabilidad que el Alpha de Cronbach en determinadas circunstancias.

Análisis de ítems problemáticos

Item_6: "No me detengo hasta que mis apuntes o esquemas están perfectos"

  • Presenta la menor correlación ítem-test corregida (0.255)
  • Muestra la correlación más baja con el criterio (0.218)
  • Su eliminación mejoraría ligeramente el Alpha de Cronbach (de 0.794 a 0.797)

Este ítem podría estar midiendo una dimensión diferente del constructo o podría presentar problemas en su redacción. La formulación actual podría estar evaluando perfeccionismo más que conscientiousness orientada al rendimiento académico.

Recomendación: Reformular el ítem para que evalúe de forma más clara la persistencia orientada al logro académico. Por ejemplo: "Continúo trabajando en mis apuntes o esquemas hasta asegurarme de que son útiles para mi aprendizaje".

Mejoras potenciales del test

  1. Ampliación del número de ítems: para alcanzar una fiabilidad de 0.90, se recomienda incrementar el número de ítems de 12 a 28, añadiendo 16 nuevos ítems con características psicométricas similares a los actuales.
  2. Equilibrio de subdimensiones: el análisis factorial posterior (no incluido en este informe) podría informar sobre qué dimensiones específicas de conscientiousness están subrepresentadas y necesitan más ítems.
  3. Refinamiento de ítems con menor rendimiento: además del Item_6 ya mencionado, los ítems con correlaciones ítem-total por debajo de 0.40 (Item_1, Item_2, Item_8) podrían ser candidatos a revisión para mejorar su contribución a la medida del constructo.
  4. Homogeneización del formato de respuesta: se observa que el Item_9_r tiene un rango de respuesta de 1-4 en lugar de 1-5 como el resto de ítems. Esto podría ser un error en la codificación o un problema en el diseño del ítem que debería corregirse.

Referencias bibliográficas

Footnotes

  1. Muñiz, J. (2018). Introducción a la psicometría. Madrid: Ediciones Pirámide.

  2. Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). New York: McGraw-Hill. 2

  3. George, D., & Mallery, P. (2003). SPSS for Windows step by step: A simple guide and reference. Boston: Allyn & Bacon.

  4. Nunnally, J. C. (1978). Psychometric theory (2nd ed.). New York: McGraw-Hill.

  5. Sijtsma, K. (2009). On the use, the misuse, and the very limited usefulness of Cronbach's alpha. Psychometrika, 74(1), 107-120.