Validez referida a criterio

Conceptualización

La validez referida a criterio se refiere a la capacidad de un test para predecir un criterio externo. El criterio externo puede ser resultados de laboratorio, notas en la universidad... cualquier variable externa que se considere relevante para evaluar la validez del test y que esté bien definida.

La evidencia de validez de criterio evalúa la relación entre el test y un criterio externo. Los tipos de validez de criterio dependen de la relación temporal entre el test y el criterio:

Validez predictiva, también llamada prospectiva: se refiere a la capacidad de un test para predecir un criterio futuro. Por ejemplo, si las puntuaciones de un test de admisión predicen el rendimiento académico que aún no ha sucedido.
Validez concurrente: se refiere a la capacidad de un test para predecir un criterio presente. Por ejemplo, comparar un test de depresión con un diagnóstico clínico de depresión realizado en el mismo momento.
Validez retrospectiva: se refiere a la capacidad de un test para predecir un criterio pasado. Por ejemplo, si las puntuaciones de un test de memoria se relacionan con las puntuaciones de un test de inteligencia ya realizado.

Entre todas las dimensiones de validez en psicometría, la validez referida a criterio es una de las más importantes y cuyo cálculo tiene mayor complejidad.

La relación entre el criterio y el constructo es nomológica. Es decir, el criterio y el constructo están relacionados por una teoría pre-existente que explica cómo se relacionan. Por ejemplo, si un test de depresión se relaciona con un test de ansiedad, es porque hay una teoría que explica cómo se relacionan la depresión y la ansiedad.

Regresión lineal

Conceptualmente, la validez referida a criterio se expresa en términos de regresión lineal. En el contexto del cálculo de la validez referida a criterio, nos referimos a la puntuación observada como predictor, porque se utiliza para predecir la puntuación en el criterio.

Predictor: puntuación en el test ( $X$ ). Se denomina predictor porque se utiliza para predecir el criterio. Constituye la variable independiente.
Criterio: puntuación en el criterio ( $Y$ ). Se denomina criterio porque es la variable que se pretende predecir. Constituye la variable dependiente.

Índices

Se pueden utilizar dos indicadores para calcular la validez referida a criterio:

Coeficiente de validez: utilizando la regresión lineal, se ajusta una recta de regresión para predecir las puntuaciones en el criterio a partir de las puntuaciones en el test.
Coeficiente de determinación: se calcula la correlación entre las puntuaciones en el test y las puntuaciones en el criterio. Esto representa el tamaño del efecto.

Coeficiente de validez

El coeficiente de validez se calcula a partir de la regresión lineal. En una regresión lineal simple, el modelo matemático se expresa como:

Y^{\prime}_i = \beta_0 + \beta_1 \cdot X_i + \epsilon_i

Donde:

$Y_i$ es la variable dependiente (lo que estoy tratando de predecir). En el cálculo de la validez, esto es la puntuación predicha en el criterio para el individuo $i$ .
$X$ es la variable independiente (el predictor). Es la puntuación observada en el test para el individuo $i$ .
$\beta_0$ es la constante, llamada también intersección e intercepto.
$\beta_1$ es el coeficiente de la pendiente, llamada también gradiente o slope, que indica el cambio en $Y$ por cada unidad de cambio en $X$ .
$\epsilon$ representa el de error (la diferencia entre el valor observado y el valor predicho).

En una regresión lineal, lo que se expresa es la unidad de cambio en $X$ por cada unidad de cambio en $Y$ . Eso permite, para nuevos valores de $X$ , predecir los valores de $Y$ .

En el contexto de la regresión lineal, el objetivo es encontrar la recta de mejor ajuste que minimice los errores de predicción. Para ello, se utiliza el criterio de mínimos cuadrados, que consiste en minimizar la suma de los cuadrados de los residuos:

SC_{Y - Y'} = \sum_{i} (Y_i - Y'_i)^2

Donde:

$SC$ significa suma de cuadrados.
$Y_i$ son las puntuaciones observadas en la variable criterio.
$Y'_i$ son las puntuaciones predichas por el modelo de regresión.
La diferencia $(Y_i - Y'_i)$ representa el residuo o error de predicción.
El cuadrado de los residuos evita que los valores positivos y negativos se cancelen entre sí y penaliza los errores más grandes.

El modelo de regresión óptimo es aquel que minimiza esta suma de cuadrados, asegurando que la recta obtenida maximiza la precisión de las predicciones. En otras palabras, de todas las rectas posibles, se elige la que minimiza los errores de predicción.

Estimación del criterio

La estimación del criterio se refiere a la predicción de la puntuación en el criterio a partir de la puntuación en el test. La puntuación en el criterio se estima a partir de la puntuación en el test, utilizando la ecuación de regresión lineal.

La estimación del criterio se puede calcular de dos maneras:

Estimación puntual: se calcula la puntuación en el criterio para un valor específico de la puntuación en el test.
Estimación por intervalo: se calcula un intervalo de confianza para la puntuación en el criterio, basado en la puntuación en el test.

Estimación puntual

En estadística, una estimación puntual es una estimación que devuelve un solo punto en lugar de un rango o intervalo.

La "estimación puntual" se llama así porque proporciona un único valor estimado para el criterio ( $Y$ ) a partir del predictor ( $X$ ), sin considerar la incertidumbre o variabilidad de la predicción.

Es decir: el término "puntual" se refiere a que la estimación no tiene margen de error explícito y es un solo punto en la escala de la variable criterio.

Con puntuaciones directas

Si cuento con una puntuación en el test ( $X_i$ ), puedo estimar la puntuación en el criterio utilizando la ecuación de regresión lineal. Sin embargo, para ello necesito conocer los valores de $\beta_0$ y $\beta_1$ .

Procedimiento

Primero tengo que calcular $\beta_1$ . Para ello, necesito conocer las covarianzas y la desviación típica de las puntuaciones:

\beta_1 = \frac{Cov(X, Y)}{Var(X)}

De forma alternativa, puedo calcular $\beta_1$ a partir de la correlación entre $X$ e $Y$ ( $r_{XY}$ ) y la desviación típica de $X$ y $Y$ ( $s_X$ y $s_Y$ ):

\beta_1 = r_{_{XY}} \cdot \frac{s_Y}{s_X}

Una vez tengo $\beta_1$ , para calcular $\beta_0$ , necesito conocer las medias de la puntuaciones:

\beta_0 = \bar{Y} - \beta_1 \cdot \bar{X}

Interpretación

Si la regresión lineal resultante fuera:

Y^{\prime}_i = 3 + 0.5 \cdot X_1

Significaría que por cada unidad de $X$ , hay un incremento de 0,5 puntos en $Y$ .

Con puntuaciones típicas

Sin embargo, es posible que el enunciado pida estimar las puntuaciones a partir de las puntuaciones típicas ( $z$ ).

Procedimiento

En este caso, dada la naturaleza de la puntuación $z$ , calcular $\beta_0$ y $\beta_1$ es más sencillo. Según los fundamentos de la puntuacuón $z$ , la media de $z_X$ y $z_Y$ es siempre 0. Además, la desviación estándar de $z_X$ y $z_Y$ es siempre 1. Por lo tanto:

\beta_0 = 0

\beta_1 = r_{_{XY}}

Por otro lado, la fórmula de la puntuación típica es:

z_i = \frac{X_i - \bar{X}}{s_X}

donde:

$X_i$ es la puntuación observada en el test para el individuo $i$ .
$\bar{X}$ es la media de las puntuaciones en el test.
$s_X$ es la desviación típica de las puntuaciones en el test.

Interpretación

Con puntuaciones típicas, la interpretación de la regresión lineal es distinta. Si la regresión lineal resultante fuera:

z_{Y^{\prime}_i} = 3 + 0.5 \cdot z_{X_i}

Significaría que por cada desviación estándar de $Y$ hay un incremento de 0,5 puntos en la desviación estándar $X$ .

Esto se debe a que las puntuaciones típicas son una medida de la distancia de una puntuación con respecto a la media, en unidades de desviaciones típicas.

Factores que afectan al coeficiente de validez

El coeficiente de validez, que mide la relación entre un test y un criterio externo, puede verse afectado por diversos factores. Estos factores pueden distorsionar la estimación de la validez, reduciendo la capacidad del test para predecir con precisión el criterio.

Fiabilidad del test o del criterio: la fiabilidad se refiere a la precisión con la que un test mide un constructo. Si un test o el criterio presentan baja fiabilidad, la relación entre ambos estará contaminada por errores de medida, lo que reducirá la correlación observada y, por lo tanto, el coeficiente de validez.
Error muestral: el coeficiente de validez se estima a partir de una muestra, pero puede diferir de la correlación real en la población debido a fluctuaciones aleatorias en la selección de la muestra. A menor tamaño muestral, mayor es el impacto del error muestral, lo que puede llevar a una subestimación o sobrestimación de la validez.
Características de la muestra
- Tamaño muestral: Muestras pequeñas pueden generar estimaciones poco precisas del coeficiente de validez.
- Representatividad: Si la muestra no es representativa de la población a la que se aplicará el test, la validez estimada puede no generalizarse correctamente.
Naturaleza del criterio dicotómico: cuando el criterio es dicotómico (por ejemplo, éxito-fracaso, aprobado-suspenso), la correlación entre el test y el criterio puede verse afectada. Esto se debe a que la variabilidad del criterio es menor en comparación con una variable continua, lo que limita la capacidad del test para predecir diferencias individuales con precisión.
Cambios en la variabilidad del criterio o el predictor: la correlación entre dos variables depende en parte de su variabilidad. Si la variabilidad en el criterio o en el predictor es baja (por ejemplo, si los datos están restringidos a un rango muy limitado), la correlación tiende a disminuir, reduciendo artificialmente el coeficiente de validez. Por el contrario, una mayor variabilidad en los datos permite detectar relaciones más fuertes entre el test y el criterio.
Definición incorrecta del constructo: si el test o el criterio no están bien definidos en términos del constructo que intentan medir, la validez del test se verá comprometida.
Variables extrañas no controladas: factores externos no considerados en el diseño del estudio pueden influir en la relación entre el test y el criterio, introduciendo sesgos en la estimación del coeficiente de validez.

Validez máxima

La validez máxima es el límite superior que puede alcanzar la correlación entre un test ( $X$ ) y un criterio ( $Y$ ), teniendo en cuenta la fiabilidad de ambas medidas. Esto se expresa mediante la siguiente fórmula:

r_{xy} \leq \sqrt{\rho_{xx'}} \cdot \sqrt{\rho_{yy'}}

Donde:

$r_{xy}$ es la correlación observada entre el test y el criterio.
$\rho_{xx^\prime}$ es la fiabilidad del test ( $X$ ).
$\rho_{yy^\prime}$ es la fiabilidad del criterio ( $Y$ ).
La raíz cuadrada de la fiabilidad representa el límite superior de la correlación entre dos variables.

Si un test tuviera fiabilidad perfecta ( $\rho = 1$ ), la validez máxima sería 1, lo que significa que podría predecir perfectamente el criterio. Sin embargo, imagina un test con los siguientes datos:

La fiabilidad del test es 0.81 ( $\rho_{xx^\prime}$ ) = 0.81 $).
La fiabilidad del criterio es 0.64 ( $\rho_{yy^\prime}$ ) = 0.64 $).

Entonces, la validez máxima sería:

r_{xy} \leq \sqrt{0.81} \cdot \sqrt{0.64} \implies r_{xy} \leq 0.72

Esto significa que, aun en el mejor de los casos, la validez del test no podrá ser mayor que 0.72, debido a la fiabilidad limitada de las medidas.

Validez desatenuada

La validez atenuada se refiere a la reducción de la correlación entre un test y un criterio debido a la presencia de errores de medida. La validez atenuada puede ocurrir cuando las puntuaciones en el test y el criterio están contaminadas por errores de medida, lo que reduce la precisión de la relación observada.

Sin embargo, esta atenuación se puede corregir. Al aplicar la corrección por atenuación, se obtiene la validez desatenuada, que refleja la correlación "real" sin errores de medida.

La validez desatenuada se calcula con la siguiente ecuación:

r_{v_x v_y} = \frac{r_{xy}}{\sqrt{\rho_{xx'} \cdot \rho_{yy'}}}

Donde:

$r_{xy}$ es la correlación observada entre el test y el criterio (validez atenuada).
$\rho_{xx^\prime}$ es la fiabilidad del test ( $X$ ).
$\rho_{yy^\prime}$ es la fiabilidad del criterio ( $Y$ ).
$r_{v_x v_y}$ es la correlación desatenuada, es decir, la relación real entre el test y el criterio si no hubiera errores de medida.

Validez por cambio de fiabilidad

Puedo aplicar distintas estrategias para modificar la fiabilidad, generalmente intentando mejorar la validez del test. Por ejemplo, puedo aumentar la longitud del test, mejorar la calidad de los ítems, etc.

La fiabilidad de un test y la fiabilidad del criterio afectan directamente la validez del test. Si la fiabilidad cambia, la validez también se verá afectada.

La fórmula para calcular la validez por cambio de fiabilidad es:

\Large r_{x_2 y_2} = \frac{r_{x_1 y_1}}{\sqrt{\frac{\rho_{x_1 x_1} \cdot \rho_{y_1 y_1}}{\rho_{x_2 x_2} \cdot \rho_{y_2 y_2}}}}

Donde:
- $r_{x_1 y_1}$ = validez inicial (cuando se usaron los primeros valores de fiabilidad).
- $r_{x_2 y_2}$ = validez final (ajustada a los nuevos valores de fiabilidad).
- $\rho_{x_1 x_1}$ = fiabilidad del test en la primera medición.
- $\rho_{y_1 y_1}$ = fiabilidad del criterio en la primera medición.
- $\rho_{x_2 x_2}$ = fiabilidad del test en la segunda medición.
- $\rho_{y_2 y_2}$ = fiabilidad del criterio en la segunda medición.

Coeficiente de determinación

En el contexto de la regresión lineal, el coeficiente de determinación ( $R^2$ ) se utiliza tanto para evaluar la bondad de ajuste como para medir el tamaño del efecto.

El coeficiente de determinación ( $R^2_{XY}$ ) es una medida de la proporción de la varianza de la variable dependiente que es predecible a partir de la variable independiente. En otras palabras, el coeficiente de determinación indica cuánto de la variabilidad de la variable dependiente es explicada por la variable independiente.

En este caso, relaciona la varianza de las puntuaciones en el criterio ( $Y$ ) que es explicada por las puntuaciones en el test ( $X$ ). Se calcula como:

R^2 = 1 - \frac{\sum (Y_i - \hat{Y}_i)^2}{\sum (Y_i - \bar{Y})^2}

El valor de $R^2$ indica la proporción de la variabilidad en la variable dependiente que es explicada por las variables independientes, que puede ser un valor entre 0 y 100%.

Error estándar de la estimación

El error estándar de la estimación ( $S_{Y-Y^{\prime}}$ ) es una medida de la precisión de las predicciones realizadas por el modelo de regresión. Se calcula como la raíz cuadrada de la varianza residual.

Mide qué tanto se desvían los valores reales de Y respecto a los valores predichos por el modelo. Es decir, es lo opuesto al coeficiente de determinación.

La fórmula para calcular el error estándar de la estimación es:

s_{Y - \hat{Y}} = s_Y \sqrt{1 - R^2_{XY}}

Contraste mediante pruebas de significación

Significación de β₀ y β₁

Una vez calculados los coeficientes de la regresión lineal $\beta_0$ y $\beta_1$ , es posible realizar un contraste de hipótesis para determinar si la regresión es significativa.

Para ello, se plantean las siguientes hipótesis:

Para $\beta_0$ $β_{0}$ :
- $H_0$ : $\beta_0 = 0$ , es decir, que el valor $0$ entra dentro del intervalo de confianza.
- $H_1$ : $\beta_0 \neq 0$
Para $\beta_1$ $β_{1}$ :
- $H_0$ : $\beta_1 = 0$ , es decir, que el valor $0$ entra dentro del intervalo de confianza.
- $H_1$ : $\beta_1 \neq 0$

Si el valor $p$ asociado al contraste de hipótesis es menor que el nivel de significación $\alpha$ , se rechaza la hipótesis nula y se concluye que la regresión es significativa.

Puedo hacer esta comprobación utilizando un estadístico de contraste, ya sea $Z$ o $t$ de Student, en función del tamaño de la muestra.

Si $N < 30$ : utilizo $t_{1-\alpha/2}$ , ya que la muestra es pequeña y la distribución $t$ es más precisa.
Si $N \geq 30$ : utilizo $z_{1-\alpha/2}$ , porque la distribución normal estándar es una buena aproximación.

La fórmula para construir un intervalo de confianza alrededor de $\beta_i$ es:

\beta_i \pm \footnotesize \boxed{\text{estadístico de contraste}} \normalsize \cdot \frac{s_Y}{s_X} \cdot \sqrt{\frac{1 - R^2_{XY}}{N-2}}

donde:

$\sqrt{\frac{1 - R^2_{XY}}{N-2}}$ es el error estándar de la pendiente, que depende de la dispersión de los datos y del tamaño muestral.
$R^2_{XY}$ es el coeficiente de determinación.
$s_Y$ y $s_X$ son las desviaciones estándar de las variables $X$ e $Y$ , respectivame.

Con puntuación Z

Utilizando la puntuación $Z$ , el estadístico de contraste se calcula como:

\beta_i \pm z_{1-\alpha/2} \cdot \frac{s_Y}{s_X} \cdot \sqrt{\frac{1 - R^2_{XY}}{N}}

Conviene recordar que, para un nivel de significación $\alpha = 0.05$ , el valor crítico de $z_{1-\alpha/2}$ es $1.96$ .

Con t de Student

Utilizando la $t$ de Student, el estadístico de contraste se calcula como:

\beta_i \pm \left|_{N-2} t_{1-\alpha/2} \right| \cdot \frac{s_Y}{s_X} \cdot \sqrt{\frac{1 - R^2_{XY}}{N-2}}

Significación de β₁ y R²_XY

Además de la significación de los coeficientes de la regresión, es posible realizar un contraste de hipótesis para determinar si la correlación entre las puntuaciones en el test y las puntuaciones en el criterio es significativa.

Las hipótesis son distintas a las anteriores:

Para $\beta_1$ $β_{1}$ :
- $H_0$ : $\beta_1 \leq 0$ , es decir, que el estadístico F es menor que $0$ .
- $H_1$ : $\beta_1 \gt 0$
Para $R^2_{XY}$ $R_{X Y}^{2}$ :
- $H_0$ : $R^2_{XY} \leq 0$ , es decir, que el estadístico F es menor que $0$ .
- $H_1$ : $R^2_{XY} \gt 0$

El estadístico de contraste es distinto, ya que se utiliza la distribución $F$ de Fisher-Snedecor.

Con F de Fisher

Para comprender cómo funciona la prueba $F$ de Fisher, es esencial entender dos conceptos:

Sumas de cuadrados (SC): proporcionan una medida de la variabilidad total en los datos.
Medias de cuadrados (MC): por el contrario, ajustan esta variabilidad teniendo en cuentra los grados de liberad. Sirven, además, para realizar comparaciones estadísticas formales.

Estos conceptos son parte de la fórmula del estadístico F, por lo que es necesario realizar su cálculo. Pero, además, proporcionan en sí mismos información sobre las comparaciones.

A su vez, estos cuadrados pueden hacer referencia a distintas cosas:

Sumas de cuadrados (SC)
- $SC_T$ : Suma de Cuadrados Total
- $SC_M$ : Suma de Cuadrados del Modelo (variabilidad explicada por las diferencias entre grupos)
- $SC_R$ : Suma de Cuadrados Residual (variabilidad dentro de los grupos)
- $SC_T = SC_M + SC_R$
Medias de cuadrados (MC)
- $MC_M$ : Media de cuadrados del Modelo ( $SC_M ÷ df_M$ )
- $MC_R$ : Media de cuadrados Residual ( $SC_R ÷ df_R$ )

La fórmula del estadístico de contraste $F$ que se utiliza para $\beta_1$ y $R^2_{XY}$ se calcula como:

F = \frac{MC_M}{MC_R}

$MC_M$ : Media de Cuadrados del Modelo
$MC_R$ : Media de Cuadrados Residual

Aunque muchas veces es más sencillo calcular el estadístico $F$ a partir de la correlación $R^2_{XY}$ :

F = \frac{(n - 2) \cdot R^2_{XY}}{1 - R^2_{XY}}

El valor $F$ representa la razón de dos varianzas y se utiliza para determinar si las diferencias entre las medias de varios grupos son estadísticamente significativas

Por otro lado, se puede establecer una relación entre el coeficiente de determinación y el estadístico F:

R^2_{XY} = \frac{SC_M}{SC_T} = 1 - \frac{SC_E}{SC_T}

Para saber si el valor F obtenido proporciona suficiente evidencia para rechazar la hipótesis nula, lo comparo contra un valor F crítico. El valor F crítico depende de los grados de libertad del modelo, grados de libertad residuales y el nivel de significancia elegido ( $\alpha$ ).

El valor F crítico se expresa como:

\large F_{\small k-1, n-k}

$k$ es la cantidad de grupos
$n$ es la cantidad total de sujetos

Limitaciones

Las evidencias de validez de criterio tienen una serie de limitaciones que amenazan su validez.

Por un lado, puede haber sesgos en alguna de las medidas. Por ejemplo, el muestreo puede ser inadecuado, el criterio puede estar mal definido, etc.

Además, la literatura no parece estar de acuerdo si es mejor utilizar un sólo criterio o varios para evaluar la validez de criterio.

Además, los criterios pueden no ser estables. Es decir, los criterios pueden cambiar con el paso del tiempo.

Por último, puede ser que los criterios utilizados para medir la validez de la prueba, tengan en sí baja validez. Por ejemplo, puede ser que el test de depresión que estoy utilizando no mida realmente la depresión. O puede ser que el test de ansiedad que estoy utilizando no mida realmente la ansiedad, sino otro constructo como el estrés.

Conceptualización​

Regresión lineal​

Índices​

Coeficiente de validez​

Estimación del criterio​

Estimación puntual​

Con puntuaciones directas​

Procedimiento​

Interpretación​

Con puntuaciones típicas​

Procedimiento​

Interpretación​

Factores que afectan al coeficiente de validez​

Validez máxima​

Validez desatenuada​

Validez por cambio de fiabilidad​

Coeficiente de determinación​

Error estándar de la estimación​

Contraste mediante pruebas de significación​

Significación de β0 y β1​

Con puntuación Z​

Con t de Student​

Significación de β1 y R2XY​

Con F de Fisher​

Limitaciones​

Conceptualización

Regresión lineal

Índices

Coeficiente de validez

Estimación del criterio

Estimación puntual

Con puntuaciones directas

Procedimiento

Interpretación

Con puntuaciones típicas

Procedimiento

Interpretación

Factores que afectan al coeficiente de validez

Validez máxima

Validez desatenuada

Validez por cambio de fiabilidad

Coeficiente de determinación

Error estándar de la estimación

Contraste mediante pruebas de significación

Significación de β₀ y β₁

Con puntuación Z

Con t de Student

Significación de β₁ y R²_XY

Con F de Fisher

Limitaciones