Saltar al contenido principal

Validez

Conceptualización

La forma de medir las evidencias de validez ha cambiado a lo largo del tiempo. Además, hay distintas dimensiones de validez. Sin embargo, es un concepto unitario. Es decir, todos los tipos de validez se refieren a la misma cosa: la capacidad de un test para medir lo que pretende medir.

La validez es la propiedad psicométrica más importante en psicometría. Si las puntuaciones de un test no tienen evidencias de validez, no importa cuán fiable sean. Además, si las puntuaciones de un test tienen validez, también tendrán fiabilidad; pero pueden tener fiabilidad sin tener validez.

De acuerdo al Standards for Educational and Psychological Testing (1999), la validez se define como:

Grado en que la teoría y los datos apoyan la interpretación de las puntuaciones de un test para un uso concreto

Como se puede ver, la validez no es una propiedad de un test, sino de las puntuaciones de un test. Es decir: lo que es más o menos válido no es el test, sino a la interpretación de sus puntuaciones.

La validez es un proceso acumulativo de evidencias para las puntuaciones de un test.

Por otro lado, la validez es específica del contexto y de la muestra con la que se haya validado el test. Por ejemplo, un test validado sólo en una muestra de estudiantes universitarios no se puede considerar válido para una población geriátrica. Por tanto, la validez es específica de la muestra y del contexto.

Relación con la fiabilidad

La siguiente imagen muestra los intentos de un arquero por disparar en el centro de la diana:

Baja fiabilidad

Baja precisión

Baja validez

Alta fiabilidad

Baja precisión

Baja validez

Alta fiabilidad

Alta precisión

Baja validez

Alta fiabilidad

Alta precisión

Alta validez

En el primer intento, es evidente que el arquero está fallando. Pero está fallando de dos maneras: tiene baja fiabilidad, porque no dispara siempre al mismo sitio, y además no acierta en el centro de la diana, lo que indica baja validez.

En la segunda, el arquero sí dispara de manera consistente, pero no acierta en el centro de la diana. Es decir: tiene alta fiabilidad, pero baja validez. Sin embargo, los disparos podrían estar más cerca entre sí, por lo que tiene baja precisión.

En el tercero, se reduce la distancia entre los disparos. Es decir, aumenta la precisión, pero sigue sin acertar en el centro de la diana.

Finalmente, en el cuarto cuadro, el arquero dispara de forma consistente, los disparos están muy cerca y además acierta en la diana. Es decir: tiene alta fiabilidad, alta precisión y alta validez.

Proceso de validez

La validez se puede entender como un proceso.

  1. Primero, tengo que definir una matriz de especificaciones, que es una lista de las cosas que quiero medir. La matriz de especificaciones recoge los componentes del constructo. Es, por tanto, una red nomológica que indica las relaciones con otros constructos.
  2. Después, debo generar hipótesis rivales para refutar la hipótesis de que el test mide el constructo. Estas hipótesis suelen ser dos:
    1. que el constructo está infra-representado; es decir, que el test no recoge todos los aspectos del constructo
    2. que la varianza del constructo está contaminada por otros factores, es decir: que las puntuaciones varían por factores no relacionados con el constructo.
  3. Por último, debo hacer una revisión continua de la validez del test. La validez no es algo que se establece una vez y ya está. La validez es un proceso acumulativo de evidencias.

Dimensiones de validez

La validez es un concepto unitario. Es decir, todos los tipos de validez se refieren a la misma cosa: la capacidad de un test para medir lo que pretende medir. Sin embargo, hay distintas dimensiones de validez.

  • Validez de constructo: se refiere a la capacidad de un test para medir un constructo teórico. La validez de constructo es la más importante de todas las dimensiones de validez. De hecho, esta dimensión de validez incluye todas las demás.
  • Validez de contenido: se refiere a la representatividad de los ítems del test con respecto al constructo que se pretende medir. Es decir, mide si los ítems cumplen con los objetivos del test.
  • Validez referida a un criterio: se refiere a la capacidad de un test para predecir un criterio externo. Dicho de otra manera, mide hasta qué punto las puntuaciones de un test se relacionan con conductas reales. Se puede dividir en:
    • Validez predictiva: se refiere a la capacidad de un test para predecir un criterio futuro.
    • Validez concurrente: se refiere a la capacidad de un test para predecir un criterio presente.
  • Validez interna: se refiere a la consistencia interna de un test. Es decir, mide hasta qué punto los ítems de un test miden el mismo constructo. Esta métrica coincide con la fiabilidad.
  • Validez consecuencial: se refiere a las consecuencias de un test. Es decir, mide hasta qué punto las puntuaciones de un test tienen consecuencias negativas o positivas para los evaluados.
  • Validez externa: se refiere a la capacidad de las puntuaciones de un test para asociarse con otras pruebas que miden el mismo constructo. Estas pruebas pueden ser test psicométricos o cualquier otra medida de resultados (pruebas fisiológicas, historial académico, etc.). La validez externa puede ser de dos tipos:
    • Validez de convergencia: se refiere a la capacidad de un test para coincidir con otros test que miden el mismo constructo.
    • Validez de discriminación: se refiere a la capacidad de un test para diferenciarse de otros test que miden constructos distintos.
  • Generalización: se refiere a la capacidad de un test para generalizarse a otras poblaciones, contextos o momentos. Es decir, mide hasta qué punto las puntuaciones de un test son válidas en otros contextos.

Validez de contenido

Se refiere a la representatividad de los ítems del test con respecto al constructo que se pretende medir. Es decir, mide si los ítems cumplen con los objetivos del test.

Evidencias de validez relacionadas

La validez de contenido se relaciona con otras dimensiones de validez:

  • Validez curricular: grado en que los ítems del test son relevantes para estudiar el currículo académico.
  • Validez instruccional: grado en que el test refleja lo que los alumnos han aprendido de los contenidos de clase.
  • Validez aparente: hasta qué punto el test aparenta medir lo que mide. Por ejemplo, si las preguntas son transparentes respecto a lo que está midiendo. Esto es importante para motivar a los sujetos durante la evaluación.

Procedimiento

Para el análisis de evidencia de validez de contenido, es crucial que el dominio esté bien definido y los conceptos bien acotados.

Por ejemplo, la siguiente tabla muestra la distribución porcentual de ítems en una prueba diseñada para evaluar distintos contenidos psicológicos en relación con tres tipos de procesos psicológicos relacionados con la ansiedad:

ContenidosActivaciónPensamientoCompulsión
Cognitivo7%21%6%
Fisiológico25%3%5%
Motor8%9%16%
  • Procesos psicológicos: Activación, Pensamiento y Compulsión, que son los aspectos generales que se quieren medir.
  • Contenidos psicológicos: Cognitivo, Fisiológico y Motor, que representan las áreas específicas de los ítems.

Cada celda indica el porcentaje de ítems que evalúan una combinación específica de contenido y proceso. Por ejemplo:

  • El 7% de los ítems evalúan procesos de activación con contenido cognitivo.
  • El 16% de los ítems evalúan procesos de compulsión con contenido motor.

Para este análisis, es necesario contar con un panel de expertos que evalúe la representatividad de los ítems. Es decir, expertos en el dominio que juzguen si los ítems del test son representativos del constructo que se pretende medir.

El cálculo de las evidencias de validez de contenido se puede hacer de dos maneras:

  • Índice de congruencia ítem-objetivo: un panel de expertos evalúa cada ítem y juzga si refleja cada uno de los objetivos del test. Es procedimiento es complejo y largo, porque implica evaluar cada ítem con respecto a cada objetivo.
  • Emparejamiento: un panel de experto juzga qué objetivo mide cada ítem. Es decir, cada ítem se asocia con un objetivos. Este procedimiento es más sencillo y rápido, pero menos preciso.

Limitaciones

Las limitaciones de esta dimensión de validez es que es posible que el constructo esté infra-representado. Para evitar esto, se debe hacer un esfuerzo al elaborar la matriz de especidicaciones para que no falte ningún aspecto del constructo.

Por otro lado, es posible que haya una varianza en las puntuaciones que no sea debida al constructo. Es decir, que las puntuaciones varíen por factores no relacionados con el constructo. Esto puede ser por dos motivos:

  • Dificultad alta irrelevante: es decir, que los ítems sean dificiles en una medida que no refleja realmente el constructo. Por ejemplo, en un test de matemáticas, una redacción linguísticamente compleja.
  • Dificultad baja irrelevante: es decir, que algunos ítems sean fáciles sin relación con el constructo. Por ejemplo, un ítem cuya pregunta aporta pistas sobre la respuesta sólo a personas que conozcan previamente cierta historia.

Validez interna

La validez interna está relacionada con la consistencia interna de las puntuaciones de los ítems de un test, es decir, cómo de bien funcionan los ítems en conjunto para medir el mismo constructo. Cuando hablo de consistencia interna, estamos evaluando si los ítems están alineados y aportan información sobre la misma dimensión psicológica.

Esta validez se asocia directamente con la fiabilidad del test, ya que una forma común de evaluar la fiabilidad es calcular la consistencia interna, por ejemplo, mediante el coeficiente alfa de Cronbach.

Procedimiento

Para evaluar la validez interna, analizo si los ítems realmente miden el mismo constructo o si, por el contrario, están midiendo aspectos diferentes. Aquí hay dos extremos posibles:

  • Validez interna baja: Cada ítem mide algo diferente o de forma aleatoria.
  • Validez interna alta: Los ítems miden lo mismo, ya sea variando de forma idéntica o agrupándose en clusters homogéneos (dimensiones relacionadas).

Es decir, el procedimiento consiste en analizar si hay congruencia entre las puntuaciones de los ítems. Puedo hacer esto mediante distintos procedimientos, entre ellos:

  • Dimensionalidad: determina si el test mide una única dimensión (unidimensionalidad) o varias dimensiones (multidimensionalidad). Si el test mide varias dimensiones, estas deberían estar claramente definidas y ser consistentes.
  • Análisis factorial (AF): es una técnica estadística para descubrir o confirmar las dimensiones del test. Puede ser de dos tipos:
    • Exploratorio (AFE): empleado cuando no sé cuántas dimensiones puede haber. El análisis busca agrupar los ítems según cómo se relacionan estadísticamente.
    • Confirmatorio (AFC): empleado cuando ya tengo una teoría previa que define las dimensiones. Este análisis evalúa si los datos se ajustan a esa teoría.
  • Funcionamiento diferencial del Ítem (DIF): es decir, analizar el sesgo. DIF es el grado en el que un ítem genera desviaciones en un grupo de sujetos en relación a otro, de forma sistemática, sin que esas desviaciones se deban realmente a diferencias en el nivel del atributo. Para hacer este análisis, es necesario tener grupos cuyas puntuaciones verdaderas sean conocidas, que teóricamente deberían ser iguales, para anlizar el grado en el que se desvían en este test.

Validez externa

La validez externa se refiere a la capacidad de las puntuaciones de un test para asociarse con otras pruebas que miden el mismo constructo. Es decir, mide hasta qué punto las puntuaciones de un test se alejan de constructos con los que debería no estar relacionado, y se acercan a constructos con los que sí debería estar relacionado.

Hay tres tipos de validez externa:

  • Validez de convergencia: se refiere a la capacidad de un test para coincidir con otros test que miden el mismo constructo y diferenciarse de test que miden un constructo opuesto.
  • Validez de discriminación: se refiere a la capacidad de un test para no tener relación con otros test que miden constructos distintos.
  • Validez de criterio: se refiere a la capacidad de un test para predecir un criterio externo, por ejemplo rendimiento académico, rendimiento laboral, etc.

Convergencia y divergencia

Por ejemplo, en un test de ansiedad, puedo recabar evidencias de convergencia y evidencias de divergencia analizando cómo se relacionan las puntuaciones del test respecto a puntuaciones de otros constructos relacionados y no relacionados con la ansiedad.

Evidencia de convergencia

Siguiendo el ejemplo anterior, si las puntuaciones del test de ansiedad se relacionan de forma positiva con la depresión y el estrés, y de forma negativa con la autoestima y la felicidad, tendré evidencias de validez de convergencia.

Evidencia de divergencia

Por otro lado, si las puntuaciones del test de ansiedad no se relacionan con la inteligencia y atención, tendré evidencias de validez de discriminación.

Matriz Multirrasgo-Multimétodo (MTMM)

Otra forma de evaluar la validez externa es mediante la Matriz Multirasgo-Multimétodo, llamada MTMM por sus siglas en inglés (Multitrait-Multimethod Matrix). El acrónimo es un poco estúpido, porque falta una M; o debería llamarse Multi Trait-Method Matrix, pero bueno, así es la psicometría.

Esta matriz es una técnica que permite evaluar la validez de un test comparando las correlaciones entre distintos constructos y distintos métodos de evaluación. Fue propuesta por Campbell y Fiske (1959), y analiza al mismo tiempo la validez de convergencia y la validez de discriminación. Es un método muy potente para evaluar la validez de un test, y de hecho tiene implicaciones mucho más profundas respecto al método científico en general.

La lógica que subyace es que si un test mide un constructo específico, las correlaciones entre las puntuaciones de ese test y las puntuaciones de otros test que miden el mismo constructo deberían ser más altas que las correlaciones con test que miden constructos distintos. Dicho de otra manera, el motivo por el que dos pruebas co-varían es porque miden el mismo constructo.

Loading...

Validez de criterio

La evidencia de validez de criterio evalúa la relación entre el test y un criterio externo. Los tipos de validez de criterio dependen de la relación temporal entre el test y el criterio:

  • Validez predictiva, también llamada prospectiva: se refiere a la capacidad de un test para predecir un criterio futuro. Por ejemplo, si las puntuaciones de un test de admisión predicen el rendimiento académico que aún no ha sucedido.
  • Validez concurrente: se refiere a la capacidad de un test para predecir un criterio presente. Por ejemplo, si las puntuaciones de un test de depresión se relacionan con las puntuaciones de un test de ansiedad.
  • Validez retrospectiva: se refiere a la capacidad de un test para predecir un criterio pasado. Por ejemplo, si las puntuaciones de un test de memoria se relacionan con las puntuaciones de un test de inteligencia ya realizado.

La relación entre el criterio y el constructo es nomológica. Es decir, el criterio y el constructo están relacionados por una teoría que explica cómo se relacionan. Por ejemplo, si un test de depresión se relaciona con un test de ansiedad, es porque hay una teoría que explica cómo se relacionan la depresión y la ansiedad.

Limitaciones

Las evidencias de validez de criterio tienen una serie de limitaciones que amenazan su validez.

Por un lado, puede haber sesgos en alguna de las medidas. Por ejemplo, el muestreo puede ser inadecuado, el criterio puede estar mal definido, etc.

Además, la literatura no parece estar de acuerdo si es mejor utilizar un sólo criterio o varios para evaluar la validez de criterio.

Además, los criterios pueden no ser estables. Es decir, los criterios pueden cambiar con el paso del tiempo.

Por último, puede ser que los criterios utilizados para medir la validez de la prueba, tengan en sí baja validez. Por ejemplo, puede ser que el test de depresión que estoy utilizando no mida realmente la depresión. O puede ser que el test de ansiedad que estoy utilizando no mida realmente la ansiedad, sino otro constructo como el estrés.

Validez consecuencial

La validez consecuencial se refiere a evaluar las consecuencias de un test. Es decir, mide hasta qué punto las puntuaciones de un test tienen consecuencias negativas o positivas para los evaluados.

Es normal que haya consecuencias buscadas, o deseadas. Por ejemplo, si elaboro un test para medir la inteligencia, la consecuencia será que pueda seleccionar personas con más inteligencia. Esto es, precisamente, para lo que utilizo el test.

Sin embargo, puede haber consecuencias no-buscadas, que debo minimizar en el proceso de administración.

Procedimiento

Para evaluar la validez consecuencial, puedo establecer una especie de técnicas que alerten de que pueda haber un problema.

La técnica más común es la alteración de la estructura interna. Consiste en alterar la estructura interna del test para ver si las puntuaciones cambian. Por ejemplo, si cambio el orden de los ítems, o si cambio el formato de respuesta, o si cambio el tiempo de respuesta, o si cambio el formato de presentación, etc. generan cambios en las puntuaciones.

También se pueden aplicar cuestionarios para medir cómo afecta el test a los sujetos.

Además, puedo hacer una investigación longitudinal para analizar cambios en los sujetos tras la administración del test. Por ejemplo, puedo analizar si las puntuaciones de un test de depresión se relacionan con cambios en la conducta de los sujetos.