Saltar al contenido principal

Factores que afectan a la fiabilidad

Conceptualización

La fiabilidad de un test puede verse afectada por diversos factores que influyen en la consistencia y precisión de las mediciones. Algunos de los factores más comunes que pueden afectar la fiabilidad de un test son:

  • Variabilidad de las puntuaciones
  • Longitud del test
  • Ítems problemáticos
  • Condiciones de aplicación

Para corregir estos problemas, puedo aplicar estrategias como el ajuste de restrcción de rango o la modificación en la cantidad de ítems.

Estrategias de corrección

1. Ajustar con restricción de rango

No todas las muestras son iguales, ni representan a la población de la misma manera. Por ejemplo, en un test de inteligencia, la media de las puntuaciones puede ser mayor en una muestra de estudiantes universitarios. Asimismo, la varianza puede ser menor en el grupo universitario, por ser personas de la misma edad y mismo nivel de estudios.

Esto puede afectar la fiabilidad del test, ya que la variabilidad de las puntuaciones puede ser diferente en diferentes grupos de sujetos. Al tener varianzas distintas, la correlación entre las puntuaciones observadas en dos tests paralelos puede ser menor, lo que reduce la fiabilidad.

En psicometría, este fenómeno se denomina restricción de rango en la muestra. Ocurre cuando una muestra no representa toda la variabilidad de la población en un determinado constructo, lo cual puede llevar a una subestimación de la fiabilidad.

Pregunta

La correlación entre Neuroticismo y rendimiento académico en una muestra es de 0,30:

La restricción de rango se refiere a la situación en la que se observa solo un subconjunto específico de individuos, lo que reduce la varianza observada en la muestra en comparación con la varianza de la población.

Esta reducción de la variabilidad en las puntuaciones observadas suele resultar en una fiabilidad observada menor en la muestra restringida que en la población.

Hay una técnica para ajustar la fiabilidad observada en una muestra restringida para reflejar la fiabilidad poblacional real. La notación es la siguiente:

ρkk=1σj2σk2(1ρjj)\rho_{kk'} = 1 - \frac{\sigma^2_j}{\sigma^2_k} (1 - \rho_{jj'})

donde:

  • ρkk\rho_{kk{\prime}}: es la fiabilidad ajustada para la población, es decir, la fiabilidad que se esperaría en una muestra sin restricción de rango.
  • Cociente entre la varianza de la muestra restringida (σj2\sigma^2_j) y la varianza poblacional (σk2\sigma^2_k):
    • σj2\sigma^2_j: es la varianza observada en la muestra restringida, es decir, la varianza en la muestra específica que presenta restricción de rango.
    • σk2\sigma^2_k: representa la varianza poblacional esperada, o la varianza en una muestra que incluye toda la amplitud de variabilidad de la población.
  • 1ρjj1 - \rho_{jj{\prime}}: representa el error de fiabilidad en la muestra restringida. Aquí, ρjj\rho_{jj{\prime}} es la fiabilidad calculada en la muestra restringida, por lo que 1ρjj1 - \rho_{jj'} indica la proporción de varianza atribuible al error en esa muestra.

La fórmula indica que la fiabilidad poblacional ajustada (ρkk\rho_{kk{\prime}}) se obtiene restando de 1 el producto entre el cociente de varianzas (que refleja la restricción de rango) y el error de fiabilidad en la muestra restringida. Este ajuste es útil para estimar la verdadera fiabilidad en una muestra representativa de la población.

Este ajuste permite estimar la fiabilidad poblacional real que el test podría tener en una muestra completa y representativa de la población, en lugar de la muestra restringida utilizada.

Con este ajuste, se puede:

  • Anticipar la fiabilidad real de un test en una muestra más amplia y representativa de la población general.
  • Evaluar el impacto de la restricción de rango en la consistencia del test, y realizar ajustes en los coeficientes de fiabilidad para hacerlos más comparables con estudios poblacionales o en muestras sin restricciones.

2. Modificar la cantidad de ítems

La longitud del test es uno de los factores que influyen en la fiabilidad de un test. La longitud del test se refiere al número de ítems o preguntas que componen el test.

Si se mantienen todos los factores constantes, es generalmente cierto que a menor longitud del test, menor fiabilidad. Es decir: si reduzco el número de ítems en un test, la fiabilidad disminuye, ya que hay menos oportunidades de observar el constructo que estoy midiendo.

Eso significa que puedo incrementar la fiabilidad añadiendo ítems paralelos. Cuando agrego más ítems que midan el mismo constructo (ítems paralelos), aumento la fiabilidad del test porque reduzco el impacto del error de medida.

Por ejemplo, la siguiente tabla muestra cómo cambia la fiabilidad a medida que reduzco o aumento las preguntas. Inicialmente, tengo un test que tiene 10 items (nn'). El valor kk es 11, porque no he aumentado ni disminuído ítems. La fiabilidad RXXR_{XX^{\prime}} es de 0.700.70. Asimismo, la fiabilidad tras modificar los items (RkR_k) es también 0.700.70, porque no he cambiado nada.

kknnnn'RXXR_{XX^{\prime}}RkR_k
110100.700.70

Sin embargo, puedo calcular escenarios donde aumento o disminuyo el número de ítems. Por ejemplo, si reduzco el número de ítems a 2 (nn'), la fiabilidad disminuye a 0.320.32. Por otro lado, si aumento el número de ítems a 20, la fiabilidad aumenta a 0.820.82.

kknnnn'RXXR_{XX^{\prime}}RkR_k
0.21020.700.32
0.51050.700.54
1.510150.700.78
210200.700.82
  • kk: Factor de multiplicación de la longitud del test (indica cuántas veces se ha aumentado la longitud inicial).
  • nn: Número de ítems iniciales en el test.
  • nn': Número de ítems finales en el test tras multiplicar la longitud por el factor k.
  • RXXR_{XX^{\prime}}: Fiabilidad inicial del test.
  • RkR_k: Fiabilidad final del test tras añadir ítems.

La tabla muestra que la fiabilidad aumenta a medida que se incrementa el número de ítems en el test, y disminuye cuando se reduce. Sin embargo, la relación entre la longitud del test y la fiabilidad no es lineal, sino que sigue una curva de crecimiento:

Cuando se aumenta la longitud del test manteniendo constantes los ítems paralelos, las propiedades estadísticas del test cambian de la siguiente manera:

  • La media del test (XKX\overline{X}_{KX}) se escala proporcionalmente al factor de aumento, kk:

    xKX=kxX\overline{x}_{KX} = k \cdot \overline{x}_X
  • La varianza de las puntuaciones observadas σKX2\sigma^2_{KX} se incrementa en función de kk y la fiabilidad inicial ρXX\rho_{XX^{\prime}}:

    σKX2=kσX2+k(k1)ρXXσX2\sigma^2_{KX} = k \cdot \sigma^2_X + k(k - 1) \cdot \rho_{XX^{\prime}} \cdot \sigma^2_X
  • La varianza de las puntuaciones verdaderas σKV2\sigma^2_{KV} aumenta al cuadrado del factor kk:

    σKV2=k2σV2\sigma^2_{KV} = k^2 \cdot \sigma^2_V
  • La varianza del error σKE2\sigma^2_{KE} se incrementa en proporción a kk:

    σKE2=kσE2\sigma^2_{KE} = k \cdot \sigma^2_E

Fórmula de Spearman-Brown

La fiabilidad final del test (ρk\rho_k) depende tanto del número de ítems adicionales como de la fiabilidad inicial ρXX\rho_{XX^{\prime}}:

ρk=kρXX1+(k1)ρXX\rho_k = \frac{k \cdot \rho_{XX^{\prime}}}{1 + (k - 1) \cdot \rho_{XX^{\prime}}}

La fórmula de fiabilidad muestra que a medida que se añaden ítems, la fiabilidad tiende a acercarse a 1, pero nunca la alcanza completamente. Esto implica que siempre habrá algo de error, aunque sea mínimo, en las mediciones.

En un ejercicio es posible que pregunten por el multiplicador de la longitud del test para alcanzar una fiabilidad específica. Para ello, se puede despejar kk de la fórmula de fiabilidad:

k=ρk(1ρXX)ρXX(1ρk)k = \frac{\rho_k (1 - \rho_{XX^{\prime}})}{\rho_{XX^{\prime}} (1 - \rho_k)}

Potencial de mejora

El siguiente gráfico demuestra un principio importante: los tests que ya tienen una fiabilidad alta presentan menos oportunidades de mejora al añadir ítems adicionales. Por ejemplo:

  • En la curva roja (ρXX=0.8\rho_{XX^{\prime}} = 0.8), la fiabilidad comienza cerca de 0.8 y rápidamente alcanza valores muy altos. Al duplicar los ítems (k=2k = 2), la fiabilidad se aproxima a 0.9, y al triplicarlos se acerca a 0.95. Sin embargo, añadir más ítems produce mejoras cada vez menores, ya que el límite de fiabilidad es 1.
  • En cambio, en la curva negra (ρXX=0.2\rho_{XX^{\prime}} = 0.2), el test tiene una fiabilidad muy baja al inicio. Aquí, al aumentar la longitud del test, la fiabilidad experimenta incrementos significativos. Por ejemplo, duplicar el número de ítems puede elevar la fiabilidad a más de 0.4, y triplicarla la lleva a 0.5 o más.

La fórmula de Spearman-Brown muestra que, a medida que aumentamos la longitud del test (añadiendo más ítems paralelos), la fiabilidad del test tiende a aumentar. Sin embargo, la magnitud de esta mejora depende de la fiabilidad inicial del test. La fórmula en cuestión es:

ρk=kρXX1+(k1)ρXX\rho_k = \frac{k \cdot \rho_{XX^{\prime}}}{1 + (k - 1) \cdot \rho_{XX^{\prime}}}

donde:

  • kk es el factor por el cual se multiplica la longitud del test original,
  • ρXX\rho_{XX^{\prime}} es la fiabilidad inicial del test, y
  • ρk\rho_k es la fiabilidad final tras añadir ítems.

3. Eliminar ítems problemáticos

La calidad de los ítems en un test también puede afectar la fiabilidad. Si un ítem no mide correctamente el constructo que se pretende evaluar, puede introducir ruido en las mediciones, lo que reduce la consistencia y precisión del test.

Sin embargo, eliminar ítems es una decisión delicada, ya que puede afectar la validez del test. Por ello, es importante revisar y mejorar los ítems problemáticos en lugar de eliminarlos directamente. Por ejemplo, si un ítem problemático es uno de los que sirve para calcular la fiabilidad por su equivalencia con otro test, eliminarlo puede afectar la consistencia interna del test.

4. Controlar las condiciones de aplicación

Las condiciones de aplicación del test también pueden influir en la fiabilidad. Si el test se administra en un entorno poco adecuado, con distracciones o interrupciones, los resultados pueden verse afectados por factores externos que no están relacionados con el constructo que se está midiendo.