Saltar al contenido principal

Validez referida a criterio

Conceptualización

La validez referida a criterio se refiere a la capacidad de un test para predecir un criterio externo. El criterio externo puede ser resultados de laboratorio, notas en la universidad... cualquier variable externa que se considere relevante para evaluar la validez del test y que esté bien definida.

La evidencia de validez de criterio evalúa la relación entre el test y un criterio externo. Los tipos de validez de criterio dependen de la relación temporal entre el test y el criterio:

  • Validez predictiva, también llamada prospectiva: se refiere a la capacidad de un test para predecir un criterio futuro. Por ejemplo, si las puntuaciones de un test de admisión predicen el rendimiento académico que aún no ha sucedido.
  • Validez concurrente: se refiere a la capacidad de un test para predecir un criterio presente. Por ejemplo, comparar un test de depresión con un diagnóstico clínico de depresión realizado en el mismo momento.
  • Validez retrospectiva: se refiere a la capacidad de un test para predecir un criterio pasado. Por ejemplo, si las puntuaciones de un test de memoria se relacionan con las puntuaciones de un test de inteligencia ya realizado.

Entre todas las dimensiones de validez en psicometría, la validez referida a criterio es una de las más importantes y cuyo cálculo tiene mayor complejidad.

La relación entre el criterio y el constructo es nomológica. Es decir, el criterio y el constructo están relacionados por una teoría pre-existente que explica cómo se relacionan. Por ejemplo, si un test de depresión se relaciona con un test de ansiedad, es porque hay una teoría que explica cómo se relacionan la depresión y la ansiedad.

Regresión lineal

Conceptualmente, la validez referida a criterio se expresa en términos de regresión lineal. En el contexto del cálculo de la validez referida a criterio, nos referimos a la puntuación observada como predictor, porque se utiliza para predecir la puntuación en el criterio.

  • Predictor: puntuación en el test (XX). Se denomina predictor porque se utiliza para predecir el criterio. Constituye la variable independiente.
  • Criterio: puntuación en el criterio (YY). Se denomina criterio porque es la variable que se pretende predecir. Constituye la variable dependiente.

Índices

Se pueden utilizar dos indicadores para calcular la validez referida a criterio:

  • Coeficiente de validez: utilizando la regresión lineal, se ajusta una recta de regresión para predecir las puntuaciones en el criterio a partir de las puntuaciones en el test.
  • Coeficiente de determinación: se calcula la correlación entre las puntuaciones en el test y las puntuaciones en el criterio. Esto representa el tamaño del efecto.

Coeficiente de validez

El coeficiente de validez se calcula a partir de la regresión lineal. En una regresión lineal simple, el modelo matemático se expresa como:

Yi=β0+β1Xi+ϵiY^{\prime}_i = \beta_0 + \beta_1 \cdot X_i + \epsilon_i

Donde:

  • YiY_i es la variable dependiente (lo que estoy tratando de predecir). En el cálculo de la validez, esto es la puntuación predicha en el criterio para el individuo ii.
  • XX es la variable independiente (el predictor). Es la puntuación observada en el test para el individuo ii.
  • β0\beta_0 es la constante, llamada también intersección e intercepto.
  • β1\beta_1 es el coeficiente de la pendiente, llamada también gradiente o slope, que indica el cambio en YY por cada unidad de cambio en XX.
  • ϵ\epsilon representa el de error (la diferencia entre el valor observado y el valor predicho).

En una regresión lineal, lo que se expresa es la unidad de cambio en XX por cada unidad de cambio en YY. Eso permite, para nuevos valores de XX, predecir los valores de YY.

En el contexto de la regresión lineal, el objetivo es encontrar la recta de mejor ajuste que minimice los errores de predicción. Para ello, se utiliza el criterio de mínimos cuadrados, que consiste en minimizar la suma de los cuadrados de los residuos:

SCYY=i(YiYi)2SC_{Y - Y'} = \sum_{i} (Y_i - Y'_i)^2

Donde:

  • SCSC significa suma de cuadrados.
  • YiY_i son las puntuaciones observadas en la variable criterio.
  • YiY'_i son las puntuaciones predichas por el modelo de regresión.
  • La diferencia (YiYi)(Y_i - Y'_i) representa el residuo o error de predicción.
  • El cuadrado de los residuos evita que los valores positivos y negativos se cancelen entre sí y penaliza los errores más grandes.

El modelo de regresión óptimo es aquel que minimiza esta suma de cuadrados, asegurando que la recta obtenida maximiza la precisión de las predicciones. En otras palabras, de todas las rectas posibles, se elige la que minimiza los errores de predicción.

Estimación del criterio

La estimación del criterio se refiere a la predicción de la puntuación en el criterio a partir de la puntuación en el test. La puntuación en el criterio se estima a partir de la puntuación en el test, utilizando la ecuación de regresión lineal.

La estimación del criterio se puede calcular de dos maneras:

  • Estimación puntual: se calcula la puntuación en el criterio para un valor específico de la puntuación en el test.
  • Estimación por intervalo: se calcula un intervalo de confianza para la puntuación en el criterio, basado en la puntuación en el test.

Estimación puntual

En estadística, una estimación puntual es una estimación que devuelve un solo punto en lugar de un rango o intervalo.

La "estimación puntual" se llama así porque proporciona un único valor estimado para el criterio (YY) a partir del predictor (XX), sin considerar la incertidumbre o variabilidad de la predicción.

Es decir: el término "puntual" se refiere a que la estimación no tiene margen de error explícito y es un solo punto en la escala de la variable criterio.

Con puntuaciones directas

Si cuento con una puntuación en el test (XiX_i), puedo estimar la puntuación en el criterio utilizando la ecuación de regresión lineal. Sin embargo, para ello necesito conocer los valores de β0\beta_0 y β1\beta_1.

Procedimiento

Primero tengo que calcular β1\beta_1. Para ello, necesito conocer las covarianzas y la desviación típica de las puntuaciones:

β1=Cov(X,Y)Var(X)\beta_1 = \frac{Cov(X, Y)}{Var(X)}

De forma alternativa, puedo calcular β1\beta_1 a partir de la correlación entre XX e YY (rXYr_{XY}) y la desviación típica de XX y YY (sXs_X y sYs_Y):

β1=rXYsYsX\beta_1 = r_{_{XY}} \cdot \frac{s_Y}{s_X}

Una vez tengo β1\beta_1, para calcular β0\beta_0, necesito conocer las medias de la puntuaciones:

β0=Yˉβ1Xˉ\beta_0 = \bar{Y} - \beta_1 \cdot \bar{X}
Interpretación

Si la regresión lineal resultante fuera:

Yi=3+0.5X1Y^{\prime}_i = 3 + 0.5 \cdot X_1

Significaría que por cada unidad de XX, hay un incremento de 0,5 puntos en YY.

Con puntuaciones típicas

Sin embargo, es posible que el enunciado pida estimar las puntuaciones a partir de las puntuaciones típicas (zz).

Procedimiento

En este caso, dada la naturaleza de la puntuación zz, calcular β0\beta_0 y β1\beta_1 es más sencillo. Según los fundamentos de la puntuacuón zz, la media de zXz_X y zYz_Y es siempre 0. Además, la desviación estándar de zXz_X y zYz_Y es siempre 1. Por lo tanto:

β0=0\beta_0 = 0 β1=rXY\beta_1 = r_{_{XY}}

Por otro lado, la fórmula de la puntuación típica es:

zi=XiXˉsXz_i = \frac{X_i - \bar{X}}{s_X}

donde:

  • XiX_i es la puntuación observada en el test para el individuo ii.
  • Xˉ\bar{X} es la media de las puntuaciones en el test.
  • sXs_X es la desviación típica de las puntuaciones en el test.
Interpretación

Con puntuaciones típicas, la interpretación de la regresión lineal es distinta. Si la regresión lineal resultante fuera:

zYi=3+0.5zXiz_{Y^{\prime}_i} = 3 + 0.5 \cdot z_{X_i}

Significaría que por cada desviación estándar de YY hay un incremento de 0,5 puntos en la desviación estándar XX.

Esto se debe a que las puntuaciones típicas son una medida de la distancia de una puntuación con respecto a la media, en unidades de desviaciones típicas.

Factores que afectan al coeficiente de validez

El coeficiente de validez, que mide la relación entre un test y un criterio externo, puede verse afectado por diversos factores. Estos factores pueden distorsionar la estimación de la validez, reduciendo la capacidad del test para predecir con precisión el criterio.

  • Fiabilidad del test o del criterio: la fiabilidad se refiere a la precisión con la que un test mide un constructo. Si un test o el criterio presentan baja fiabilidad, la relación entre ambos estará contaminada por errores de medida, lo que reducirá la correlación observada y, por lo tanto, el coeficiente de validez.
  • Error muestral: el coeficiente de validez se estima a partir de una muestra, pero puede diferir de la correlación real en la población debido a fluctuaciones aleatorias en la selección de la muestra. A menor tamaño muestral, mayor es el impacto del error muestral, lo que puede llevar a una subestimación o sobrestimación de la validez.
  • Características de la muestra
    • Tamaño muestral: Muestras pequeñas pueden generar estimaciones poco precisas del coeficiente de validez.
    • Representatividad: Si la muestra no es representativa de la población a la que se aplicará el test, la validez estimada puede no generalizarse correctamente.
  • Naturaleza del criterio dicotómico: cuando el criterio es dicotómico (por ejemplo, éxito-fracaso, aprobado-suspenso), la correlación entre el test y el criterio puede verse afectada. Esto se debe a que la variabilidad del criterio es menor en comparación con una variable continua, lo que limita la capacidad del test para predecir diferencias individuales con precisión.
  • Cambios en la variabilidad del criterio o el predictor: la correlación entre dos variables depende en parte de su variabilidad. Si la variabilidad en el criterio o en el predictor es baja (por ejemplo, si los datos están restringidos a un rango muy limitado), la correlación tiende a disminuir, reduciendo artificialmente el coeficiente de validez. Por el contrario, una mayor variabilidad en los datos permite detectar relaciones más fuertes entre el test y el criterio.
  • Definición incorrecta del constructo: si el test o el criterio no están bien definidos en términos del constructo que intentan medir, la validez del test se verá comprometida.
  • Variables extrañas no controladas: factores externos no considerados en el diseño del estudio pueden influir en la relación entre el test y el criterio, introduciendo sesgos en la estimación del coeficiente de validez.

Validez máxima

La validez máxima es el límite superior que puede alcanzar la correlación entre un test (XX) y un criterio (YY), teniendo en cuenta la fiabilidad de ambas medidas. Esto se expresa mediante la siguiente fórmula:

rxyρxxρyyr_{xy} \leq \sqrt{\rho_{xx'}} \cdot \sqrt{\rho_{yy'}}

Donde:

  • rxyr_{xy} es la correlación observada entre el test y el criterio.
  • ρxx\rho_{xx^\prime} es la fiabilidad del test (XX).
  • ρyy\rho_{yy^\prime} es la fiabilidad del criterio (YY).
  • La raíz cuadrada de la fiabilidad representa el límite superior de la correlación entre dos variables.

Si un test tuviera fiabilidad perfecta (ρ=1\rho = 1 ), la validez máxima sería 1, lo que significa que podría predecir perfectamente el criterio. Sin embargo, imagina un test con los siguientes datos:

  • La fiabilidad del test es 0.81 (ρxx\rho_{xx^\prime}) = 0.81 $).
  • La fiabilidad del criterio es 0.64 (ρyy\rho_{yy^\prime}) = 0.64 $).

Entonces, la validez máxima sería:

rxy0.810.64    rxy0.72r_{xy} \leq \sqrt{0.81} \cdot \sqrt{0.64} \implies r_{xy} \leq 0.72

Esto significa que, aun en el mejor de los casos, la validez del test no podrá ser mayor que 0.72, debido a la fiabilidad limitada de las medidas.

Validez desatenuada

La validez atenuada se refiere a la reducción de la correlación entre un test y un criterio debido a la presencia de errores de medida. La validez atenuada puede ocurrir cuando las puntuaciones en el test y el criterio están contaminadas por errores de medida, lo que reduce la precisión de la relación observada.

Sin embargo, esta atenuación se puede corregir. Al aplicar la corrección por atenuación, se obtiene la validez desatenuada, que refleja la correlación "real" sin errores de medida.

La validez desatenuada se calcula con la siguiente ecuación:

rvxvy=rxyρxxρyyr_{v_x v_y} = \frac{r_{xy}}{\sqrt{\rho_{xx'} \cdot \rho_{yy'}}}

Donde:

  • rxyr_{xy} es la correlación observada entre el test y el criterio (validez atenuada).
  • ρxx\rho_{xx^\prime} es la fiabilidad del test (XX).
  • ρyy\rho_{yy^\prime} es la fiabilidad del criterio (YY).
  • rvxvyr_{v_x v_y} es la correlación desatenuada, es decir, la relación real entre el test y el criterio si no hubiera errores de medida.

Validez por cambio de fiabilidad

Puedo aplicar distintas estrategias para modificar la fiabilidad, generalmente intentando mejorar la validez del test. Por ejemplo, puedo aumentar la longitud del test, mejorar la calidad de los ítems, etc.

La fiabilidad de un test y la fiabilidad del criterio afectan directamente la validez del test. Si la fiabilidad cambia, la validez también se verá afectada.

La fórmula para calcular la validez por cambio de fiabilidad es:

rx2y2=rx1y1ρx1x1ρy1y1ρx2x2ρy2y2\Large r_{x_2 y_2} = \frac{r_{x_1 y_1}}{\sqrt{\frac{\rho_{x_1 x_1} \cdot \rho_{y_1 y_1}}{\rho_{x_2 x_2} \cdot \rho_{y_2 y_2}}}}

Donde:
-rx1y1r_{x_1 y_1} = validez inicial (cuando se usaron los primeros valores de fiabilidad).
-rx2y2r_{x_2 y_2} = validez final (ajustada a los nuevos valores de fiabilidad).
-ρx1x1\rho_{x_1 x_1} = fiabilidad del test en la primera medición.
-ρy1y1\rho_{y_1 y_1} = fiabilidad del criterio en la primera medición.
-ρx2x2\rho_{x_2 x_2} = fiabilidad del test en la segunda medición.
-ρy2y2\rho_{y_2 y_2} = fiabilidad del criterio en la segunda medición.

Coeficiente de determinación

En el contexto de la regresión lineal, el coeficiente de determinación (R2R^2) se utiliza tanto para evaluar la bondad de ajuste como para medir el tamaño del efecto.

El coeficiente de determinación (RXY2R^2_{XY}) es una medida de la proporción de la varianza de la variable dependiente que es predecible a partir de la variable independiente. En otras palabras, el coeficiente de determinación indica cuánto de la variabilidad de la variable dependiente es explicada por la variable independiente.

En este caso, relaciona la varianza de las puntuaciones en el criterio (YY) que es explicada por las puntuaciones en el test (XX). Se calcula como:

R2=1(YiY^i)2(YiYˉ)2R^2 = 1 - \frac{\sum (Y_i - \hat{Y}_i)^2}{\sum (Y_i - \bar{Y})^2}

El valor de R2R^2 indica la proporción de la variabilidad en la variable dependiente que es explicada por las variables independientes, que puede ser un valor entre 0 y 100%.

Error estándar de la estimación

El error estándar de la estimación (SYYS_{Y-Y^{\prime}}) es una medida de la precisión de las predicciones realizadas por el modelo de regresión. Se calcula como la raíz cuadrada de la varianza residual.

Mide qué tanto se desvían los valores reales de Y respecto a los valores predichos por el modelo. Es decir, es lo opuesto al coeficiente de determinación.

La fórmula para calcular el error estándar de la estimación es:

sYY^=sY1RXY2s_{Y - \hat{Y}} = s_Y \sqrt{1 - R^2_{XY}}

Contraste mediante pruebas de significación

Significación de β0 y β1

Una vez calculados los coeficientes de la regresión lineal β0\beta_0 y β1\beta_1, es posible realizar un contraste de hipótesis para determinar si la regresión es significativa.

Para ello, se plantean las siguientes hipótesis:

  • Para β0\beta_0:
    • H0H_0: β0=0\beta_0 = 0, es decir, que el valor 00 entra dentro del intervalo de confianza.
    • H1H_1: β00\beta_0 \neq 0
  • Para β1\beta_1:
    • H0H_0: β1=0\beta_1 = 0, es decir, que el valor 00 entra dentro del intervalo de confianza.
    • H1H_1: β10\beta_1 \neq 0

Si el valor pp asociado al contraste de hipótesis es menor que el nivel de significación α\alpha, se rechaza la hipótesis nula y se concluye que la regresión es significativa.

Puedo hacer esta comprobación utilizando un estadístico de contraste, ya sea ZZ o tt de Student, en función del tamaño de la muestra.

  • Si N<30N < 30: utilizo t1α/2t_{1-\alpha/2}, ya que la muestra es pequeña y la distribución tt es más precisa.
  • Si N30N \geq 30: utilizo z1α/2z_{1-\alpha/2}, porque la distribución normal estándar es una buena aproximación.

La fórmula para construir un intervalo de confianza alrededor de βi\beta_i es:

βi±estadıˊstico de contrastesYsX1RXY2N2\beta_i \pm \footnotesize \boxed{\text{estadístico de contraste}} \normalsize \cdot \frac{s_Y}{s_X} \cdot \sqrt{\frac{1 - R^2_{XY}}{N-2}}

donde:

  • 1RXY2N2\sqrt{\frac{1 - R^2_{XY}}{N-2}} es el error estándar de la pendiente, que depende de la dispersión de los datos y del tamaño muestral.
  • RXY2R^2_{XY} es el coeficiente de determinación.
  • sYs_Y y sXs_X son las desviaciones estándar de las variables XX e YY, respectivame.

Con puntuación Z

Utilizando la puntuación ZZ, el estadístico de contraste se calcula como:

βi±z1α/2sYsX1RXY2N\beta_i \pm z_{1-\alpha/2} \cdot \frac{s_Y}{s_X} \cdot \sqrt{\frac{1 - R^2_{XY}}{N}}

Conviene recordar que, para un nivel de significación α=0.05\alpha = 0.05, el valor crítico de z1α/2z_{1-\alpha/2} es 1.961.96.

Con t de Student

Utilizando la tt de Student, el estadístico de contraste se calcula como:

βi±N2t1α/2sYsX1RXY2N2\beta_i \pm \left|_{N-2} t_{1-\alpha/2} \right| \cdot \frac{s_Y}{s_X} \cdot \sqrt{\frac{1 - R^2_{XY}}{N-2}}

Significación de β1 y R2XY

Además de la significación de los coeficientes de la regresión, es posible realizar un contraste de hipótesis para determinar si la correlación entre las puntuaciones en el test y las puntuaciones en el criterio es significativa.

Las hipótesis son distintas a las anteriores:

  • Para β1\beta_1:
    • H0H_0: β10\beta_1 \leq 0, es decir, que el estadístico F es menor que 00.
    • H1H_1: β1>0\beta_1 \gt 0
  • Para RXY2R^2_{XY}:
    • H0H_0: RXY20R^2_{XY} \leq 0, es decir, que el estadístico F es menor que 00.
    • H1H_1: RXY2>0R^2_{XY} \gt 0

El estadístico de contraste es distinto, ya que se utiliza la distribución FF de Fisher-Snedecor.

Con F de Fisher

Para comprender cómo funciona la prueba FF de Fisher, es esencial entender dos conceptos:

  • Sumas de cuadrados (SC): proporcionan una medida de la variabilidad total en los datos.
  • Medias de cuadrados (MC): por el contrario, ajustan esta variabilidad teniendo en cuentra los grados de liberad. Sirven, además, para realizar comparaciones estadísticas formales.

Estos conceptos son parte de la fórmula del estadístico F, por lo que es necesario realizar su cálculo. Pero, además, proporcionan en sí mismos información sobre las comparaciones.

A su vez, estos cuadrados pueden hacer referencia a distintas cosas:

  • Sumas de cuadrados (SC)
    • SCTSC_T: Suma de Cuadrados Total
    • SCMSC_M: Suma de Cuadrados del Modelo (variabilidad explicada por las diferencias entre grupos)
    • SCRSC_R: Suma de Cuadrados Residual (variabilidad dentro de los grupos)
    • SCT=SCM+SCRSC_T = SC_M + SC_R
  • Medias de cuadrados (MC)
    • MCMMC_M: Media de cuadrados del Modelo (SCM÷dfMSC_M ÷ df_M)
    • MCRMC_R: Media de cuadrados Residual (SCR÷dfRSC_R ÷ df_R)

La fórmula del estadístico de contraste FF que se utiliza para β1\beta_1 y RXY2R^2_{XY} se calcula como:

F=MCMMCRF = \frac{MC_M}{MC_R}
  • MCMMC_M: Media de Cuadrados del Modelo
  • MCRMC_R: Media de Cuadrados Residual

Aunque muchas veces es más sencillo calcular el estadístico FF a partir de la correlación RXY2R^2_{XY}:

F=(n2)RXY21RXY2F = \frac{(n - 2) \cdot R^2_{XY}}{1 - R^2_{XY}}

El valor FF representa la razón de dos varianzas y se utiliza para determinar si las diferencias entre las medias de varios grupos son estadísticamente significativas

Por otro lado, se puede establecer una relación entre el coeficiente de determinación y el estadístico F:

RXY2=SCMSCT=1SCESCTR^2_{XY} = \frac{SC_M}{SC_T} = 1 - \frac{SC_E}{SC_T}

Para saber si el valor F obtenido proporciona suficiente evidencia para rechazar la hipótesis nula, lo comparo contra un valor F crítico. El valor F crítico depende de los grados de libertad del modelo, grados de libertad residuales y el nivel de significancia elegido (α\alpha).

El valor F crítico se expresa como:

Fk1,nk\large F_{\small k-1, n-k}
  • kk es la cantidad de grupos
  • nn es la cantidad total de sujetos
Limitaciones

Las evidencias de validez de criterio tienen una serie de limitaciones que amenazan su validez.

Por un lado, puede haber sesgos en alguna de las medidas. Por ejemplo, el muestreo puede ser inadecuado, el criterio puede estar mal definido, etc.

Además, la literatura no parece estar de acuerdo si es mejor utilizar un sólo criterio o varios para evaluar la validez de criterio.

Además, los criterios pueden no ser estables. Es decir, los criterios pueden cambiar con el paso del tiempo.

Por último, puede ser que los criterios utilizados para medir la validez de la prueba, tengan en sí baja validez. Por ejemplo, puede ser que el test de depresión que estoy utilizando no mida realmente la depresión. O puede ser que el test de ansiedad que estoy utilizando no mida realmente la ansiedad, sino otro constructo como el estrés.