Saltar al contenido principal

Fiabilidad del test y análisis de ítems

Datos de la actividad
  • Asignatura: 14GPSI_10_C_2024-25_Psicometría
  • Actividad: UC 4. Fiabilidad del Test y Análisis de los ítems
  • Alumnos:
    • Jahir Falon
    • Taig Mac Carthy
  • Profesor: Ana Hernández Dorado

Fiabilidad del test

Para calcular la fiabilidad del test, utilizamos la consistencia interna del test. Es decir: el grado de coherencia entre los ítems de un test. Para evaluar la consistencia interna, utilizamos dos técnicas:

  • Dividir el test en dos mitades: utilizando el método de split-half, donde la fiabilidad se calcula correlacionando las puntuaciones de las dos mitades del test.
  • Analizar la covarianza entre los ítems: con los coeficientes α\alpha de Cronbach y λ\lambda de Guttman, que proporcionan una medida de la fiabilidad basada en las relaciones internas entre los ítems.

División en dos mitades

Esta división se hace por pares-impares, como es habitual en test de rendimiento típico. La división resulta en:

MeanVarianceStd. DeviationN of Items
Part 117.6912.8833.5896
Part 216.4514.1293.7596
Both Parts34.1444.5666.67612

Una vez divididos los ítems en dos grupos, la consistencia interna se calcula de forma distintas dependiendo de si son medidas paralelas o equivalentes. En el caso de que la división de ítems de lugar a dos medidas que son paralelas, el cálculo de la consistencia interna se realiza con la fórmula de Spearman-Brown. Por el contrario, en el caso de que la división de ítems de lugar a dos medidas que son equivalentes, pero no paralelas, el cálculo de la consistencia interna se realiza con la fórmula de Rulon y Guttman-Flanagan.

Los resultados de la correlación entre las dos mitades son los siguientes:

StatisticValue
Correlation Between Forms0.651
Spearman-Brown Coefficient (Equal Length)0.788
Spearman-Brown Coefficient (Unequal Length)0.788
Guttman Split-Half Coefficient0.788

Es decir, que la correlación (ρ\rho) es de 0.7880.788, lo que indica una fiabilidad aceptable del test.

Covarianza

La matriz de covarianzas resultante es la siguiente:

Item_1Item_2Item_3_rItem_4Item_5_rItem_6Item_7_rItem_8Item_9_rItem_10Item_11_rItem_12
Item_10.8460.5350.0700.3910.2000.2960.3170.0250.090-0.0190.1410.323
Item_20.5351.2110.1040.398-0.0550.143-0.160-0.0060.3210.1140.3430.404
Item_3_r0.0700.1040.8500.381-0.468-0.0070.5090.4090.4590.3570.5170.202
Item_40.3910.3980.3810.7170.2380.2070.3520.2070.187-0.3700.3150.394
Item_5_r0.200-0.055-0.4680.2380.7880.3060.3450.2640.1470.2250.1820.182
Item_60.2960.143-0.0070.2070.3061.1190.2530.5180.0280.046-0.2060.121
Item_7_r0.317-0.1600.5090.2520.3450.2530.9290.4240.482-0.0060.1760.091
Item_80.025-0.0060.4090.1870.2640.5180.4241.4420.1470.537-0.0590.222
Item_9_r0.0900.3210.4590.3700.1470.0280.4820.1470.6930.1560.4330.101
Item_10-0.0190.1140.357-0.3150.2250.046-0.0060.5370.1561.2860.4460.545
Item_11_r0.1410.3430.5170.3150.182-0.2060.176-0.0590.4330.4461.1810.364
Item_120.3230.4040.2020.3940.1820.1210.0910.2220.1010.5450.3641.071

La covarianza entre ítems se puede calcular mediante tres métodos:

  • Alfa de Cronbach (α\alpha) permite calcular la covarianza de ítems de cualquier tipo, incluyendo ítems de rendimiento típico.
  • Kuder-Richardson (KR20KR_{20}) permite calcular la covarianza con mayor precisión en ítems de rendimiento óptimo.
  • Lambda de Guttman (λ\lambda) sirve para lo mismo que el alfa de Cronbach, pero es más preciso.
  • Beta de Revelle (β\beta) permite calcular la covarianza entre tests de distinta longitud. Es decir, cuando tienen diferente número de ítems.
  • Análisis de la varianza (ANOVA)
  • Omega de McDonald (ω\omega) permite calcular la covarianza entre ítems con pesos factoriales.

Dado que es un test de rendimiento típico, podemos calcular el coeficiente alpha de Cronbach (α\alpha)

Cronbach's AlphaCronbach's Alpha Based on Standardized ItemsN of Items
Values0.7940.80512

El valor de α\alpha es de 0.7940.794, lo que indica una fiabilidad aceptable del test.

Sin embargo, también calculamos los coeficientes lambda de Guttman:

LambdaValue
10.728
20.809
30.794
40.788
50.782
60.875
N of Items12

Los más utilizados son λ1\lambda_1, λ2\lambda_2, y λ3\lambda_3 (siendo λ3\lambda_3 equivalente al coeficiente de Cronbach α\alpha). En este caso, los valores de λ1\lambda_1, λ2\lambda_2, y λ3\lambda_3 son de 0.7280.728, 0.8090.809, y 0.7940.794, respectivamente. Por lo tanto, la fiabilidad del test es aceptable.

Ítems necesario para una fiabilidad de 0,90

La longitud del test es uno de los factores que influyen en la fiabilidad de un test. Para calcular la cantidad de ítems para una fiabilidad dada, en este caso de 0.900.90, se puede utilizar la fórmula de Spearman-Brown:

ρk=kρXX1+(k1)ρXX\rho_k = \frac{k \cdot \rho_{XX^{\prime}}}{1 + (k - 1) \cdot \rho_{XX^{\prime}}}

Sin embargo, puesto que necesito conocer el multiplicador, despejo kk de la fórmula de la fiabilidad:

k=ρk(1ρXX)ρXX(1ρk)k = \frac{\rho_k \cdot (1 - \rho_{XX^{\prime}})}{\rho_{XX^{\prime}} \cdot (1 - \rho_k)}

Los datos de fiabiliad inicial y deseada son:

  • ρXX=0.794\rho_{XX^{\prime}} = 0.794
  • ρk=0.90\rho_k = 0.90

Por lo tanto:

k=0.90×(10.794)0.794×(10.90)=2.335k = \frac{0.90 \times (1 - 0.794)}{0.794 \times (1 - 0.90)} = 2.335

Por lo tanto, la cantidad de items necesaria es:

ni=n×k=12×2.335=28.02n_i = n \times k = 12 \times 2.335 = 28.02

Es decir, el test debería tener 28 ítems para alcanzar una fiabilidad de 0.900.90. Dicho de otra manera, el test debería tener 16 ítems más.

Análisis de ítems

El análisis de ítems sirve para evaluar la calidad de los ítems de un test. El objetivo del análisis de ítems es identificar aquellos ítems que no cumplen con los requisitos de validez y fiabilidad, para eliminarlos o revisarlos en caso necesario.

Estadísticos descriptivos

Antes de proceder a análisis más complejos, con el propósito de identificar patrones y hacer un análisis exploratorio, ejecutamos el análisis descriptivo.

ItemNMinimumMaximumMeanStd. DeviationVariance
Item_1100153.270.9200.846
Item_2100153.041.1001.211
Item_3_r100152.670.9220.850
Item_4100252.900.8470.717
Item_5_r100152.860.8880.788
Item_6100152.951.0581.119
Item_7_r100152.800.9640.929
Item_8100152.651.2011.442
Item_9_r100142.560.8330.693
Item_10100152.921.1341.286
Item_11_r100152.521.0871.181
Item_12100153.001.0351.071
Valid N (listwise)100

En todos los ítems hay respuestas de todos los rangos posibles. La media de los ítems oscila entre 2.522.52 y 3.273.27, con una media de 2.952.95.

La desviación estándar oscila entre 0.8330.833 y 1.4421.442, con una media de 1.0581.058. La desviación estándar es un indicador de la variabilidad de las respuestas. A mayor desviación estándar, mayor variabilidad en las respuestas.

La varianza de los ítems oscila entre 0.6930.693 y 1.4421.442, con una media de 1.0001.000. La varianza representa la capacidad de discriminación interna de los ítems. A mayor varianza, mayor capacidad del ítem para discriminar entre sujetos, ya que refleja una mayor dispersión en las respuestas.

Los ítems cuya varianza se sitúa por debajo de la media, ordenados de menor a mayor, son:

  • Item_9_r: 0.6930.693
  • Item_4: 0.7170.717
  • Item_5_r: 0.7880.788
  • Item_1: 0.8460.846
  • Item_3_r: 0.8500.850
  • Item_7_r: 0.9290.929

De entre ellos, el único con un valor inferior a 0.7000.700 es el Item_9_r. Sin embargo, esto no supone necesariamente un problema y no se observan patrones extremos ni outliers claros en los datos. Por ello, se procede al análisis de ítems.

Frecuencias

A continuación, se presentan las frecuencias de las respuestas para cada ítem:

Item_1

ValueN%
144.0%
21616.0%
33333.0%
44343.0%
544.0%

Item_2

ValueN%
188.0%
22424.0%
33434.0%
42424.0%
51010.0%

Item_3_r

ValueN%
166.0%
24242.0%
33535.0%
41313.0%
544.0%

Item_4

ValueN%
23737.0%
34040.0%
41919.0%
544.0%

Item_5_r

ValueN%
155.0%
23030.0%
34141.0%
42222.0%
522.0%

Item_6

ValueN%
188.0%
22929.0%
32828.0%
43030.0%
555.0%

Item_7_r

ValueN%
122.0%
24444.0%
33434.0%
41212.0%
588.0%

Item_8

ValueN%
12020.0%
22727.0%
32929.0%
41616.0%
588.0%

Item_9_r

ValueN%
177.0%
24545.0%
33333.0%
41515.0%

Item_10

ValueN%
188.0%
23232.0%
33232.0%
41616.0%
51212.0%

Item_11_r

ValueN%
11414.0%
24444.0%
32626.0%
488.0%
588.0%

Item_12

ValueN%
177.0%
22525.0%
33636.0%
42525.0%
577.0%

Discriminación interna

La discriminación interna se refiere a la correlación de cada ítem con la puntuación total del test.

La siguiente tabla, Item-Total Statistics, muestra la correlación de cada ítem con la puntuación total del test excluyendo al propio ítem (ítem-test corregida). En particular, la columna Corrected Item-Total Correlation muestra el valor relevante:

ItemScale Mean if Item DeletedScale Variance if Item DeletedCorrected Item-Total CorrelationSquared Multiple CorrelationCronbach's Alpha if Item Deleted
Item_130.8738.9830.4130.6000.781
Item_231.1038.4340.3610.4770.787
Item_3_r31.4736.7770.6210.8020.763
Item_431.2436.6290.7040.6670.757
Item_5_r31.2838.7490.4550.5480.778
Item_631.1940.0340.2550.4850.797
Item_7_r31.3438.3280.4450.5870.778
Item_831.4937.7880.3610.4920.789
Item_9_r31.5838.9730.4710.5530.777
Item_1031.2237.9310.3830.4700.785
Item_11_r31.6237.5710.4360.5600.779
Item_1231.1437.5960.4650.4030.776

Si el valor es muy bajo (<0.20\lt0.20), indica baja discriminación y a menudo conviene eliminar o reformular el ítem. Sin embargo, ninguno de los ítems tiene una correlación ítem-test inferior a 0.200.20.

Sin embargo, hay un ítem con un correlación <0.20\lt0.20, el Item_6 (0.2550.255). Por ello, convendría re-formular el ítem.

Para mayor claridad, se procede a calcular con la correlación entre cada item y la puntuación total del test incluyendo al propio ítem (ítem-test sin corregir). Esta tabla está extraída de la matriz de correlaciones. Los resultados son los siguientes:

Item_1Item_2Item_3_rItem_4Item_5_rItem_6Item_7_rItem_8Item_9_rItem_10Item_11_rItem_12
Pearson Correlation.359**.422**.620**.568**.376**.218*.549**.610**.588**.532**.400**.367**
Sig. (2-tailed)<.001<.001<.001<.001<.001.029<.001<.001<.001<.001<.001<.001
N100100100100100100100100100100100100

** Correlación significativa al nivel 0.01 (2-tailed).

En todos los casos, la correlación es significativa; aunque no es alta. Sin embargo, en todos los casos la correlación supera el umbral de 0.200.20, lo que indica que los ítems están discriminando adecuadamente con respecto a la puntuación total.

Discriminación externa

La discriminación externa se refiere a la correlación ítem-criterio. La siguiente tabla muestra la correlación de cada ítem con el criterio y su significación estadística. Esta tabla está extraída de la matriz de correlaciones, y se enfoca en la correlación de cada ítem con la puntuación total del test.

Item_1Item_2Item_3_rItem_4Item_5_rItem_6Item_7_rItem_8Item_9_rItem_10Item_11_rItem_12
Pearson Correlation.359**.422**.620**.568**.376**.218*.549**.610**.588**.532**.400**.367**
Sig. (2-tailed)<.001<.001<.001<.001<.001.029<.001<.001<.001<.001<.001<.001
N100100100100100100100100100100100100

** Correlación significativa al nivel 0.01 (2-tailed).

En todos los casos, la correlación es significativa, aunque no es muy alta. Sin embargo, está por encima del umbral que exija eliminarlos. Esto significa que se puede decir, con un alto grado de significancia, que los ítems están discriminando adecuadamente con respecto al criterio.