Validez interna

La validez interna está relacionada con la consistencia interna de las puntuaciones de los ítems de un test, es decir, cómo de bien funcionan los ítems en conjunto para medir el mismo constructo. Cuando hablo de consistencia interna, estamos evaluando si los ítems están alineados y aportan información sobre la misma dimensión psicológica.

Esta validez se asocia directamente con la fiabilidad del test, ya que una forma común de evaluar la fiabilidad es calcular la consistencia interna, por ejemplo, mediante el coeficiente alfa de Cronbach.

Procedimiento

Para evaluar la validez interna, analizo si los ítems realmente miden el mismo constructo o si, por el contrario, están midiendo aspectos diferentes. Aquí hay dos extremos posibles:

Validez interna baja: Cada ítem mide algo diferente o de forma aleatoria.
Validez interna alta: Los ítems miden lo mismo, ya sea variando de forma idéntica o agrupándose en clusters homogéneos (dimensiones relacionadas).

Es decir, el procedimiento consiste en analizar si hay congruencia entre las puntuaciones de los ítems. Puedo hacer esto mediante distintos procedimientos, entre ellos:

Dimensionalidad: determina si el test mide una única dimensión (unidimensionalidad) o varias dimensiones (multidimensionalidad). Si el test mide varias dimensiones, estas deberían estar claramente definidas y ser consistentes.
Análisis factorial (AF): es una técnica estadística para descubrir o confirmar las dimensiones del test. Puede ser de dos tipos:
- Exploratorio (AFE): empleado cuando desconozco cuántas dimensiones puede haber. El análisis busca agrupar los ítems según cómo se relacionan estadísticamente.
- Confirmatorio (AFC): empleado cuando ya tengo una teoría previa que define las dimensiones. Este análisis evalúa si los datos se ajustan a esa teoría.
Funcionamiento diferencial del Ítem (DIF): es decir, analizar el sesgo. DIF es el grado en el que un ítem genera desviaciones en un grupo de sujetos en relación a otro, de forma sistemática, sin que esas desviaciones se deban realmente a diferencias en el nivel del atributo. Para hacer este análisis, es necesario tener grupos cuyas puntuaciones verdaderas sean conocidas, que teóricamente deberían ser iguales, para anlizar el grado en el que se desvían en este test.

De todos estos procedimientos, el más utilizado es el análisis factorial, que explico en la siguiente sección.

Procedimiento​

Procedimiento