Análisis de la discriminación
La discriminación, en el contexto de un test psicométrico, se refiere a la capacidad de un ítem para diferenciar a los sujetos en función del constructo que pretendo medir.
Dicho de otra manera: se refiere a la habilidad de un ítem para distinguir entre sujetos con diferentes niveles del atributo medido. Por lo tanto, un ítem tiene "buena discriminación" si sus respuestas permiten dividir a la población según niveles altos y bajos del atributo evaluado.
El término "buena discriminación" es un término técnico utilizado ampliamente en literatura científica. Sin embargo, sería más adecuado decir buena capacidad discriminatoria, porque es una habilidad del ítem, no una acción o resultado. Sin embargo, todo el mundo dice "discriminación", así que lo utilizaré así.
Puedo analizar la discriminación en dos niveles:
- Discriminación de un ítem: evalúa hasta qué punto un ítem específico es capaz de distinguir entre sujetos con diferentes niveles en el atributo medido. Esto se analiza observando cómo las respuestas a un sólo ítem varían según las puntuaciones totales del test.
- Discriminación entre ítems: evalúa cómo se relacionan las puntuaciones de diferentes ítems entre sí y con las puntuaciones totales del test. El objetivo es identificar ítems que contribuyen de manera consistente y significativa al constructo que se evalúa.
El análisis de discriminación permite no solo identificar qué tan bien un ítem distingue entre sujetos con niveles altos y bajos en el atributo medido, sino también determinar si los ítems del test están alineados entre sí para medir el constructo de manera coherente.
Discriminación de un ítem
Este análisis se centra exclusivamente en un ítem, sin considerar cómo interactúa con otros ítems del test. Por ejemplo, si un test de matemáticas tiene un ítem que pregunta , puedo preguntar:
- ¿Cuántos sujetos con puntuación alta en el test lo responden correctamente?
- ¿Cuántos sujetos con puntuación baja lo fallan?
El análisis de discriminación de ese ítem se enfoca únicamente en cómo este ítem diferencia entre los sujetos. Si el ítem lo responden correctamente casi todos los sujetos, su discriminación es baja.
Discriminación de un ítem dicotómico
En ítems dicotómicos, la discriminación de un ítem se mide mediante la varianza del ítem (), que evalúa la dispersión de las respuestas:
donde:
- : Probabilidad de acertar el ítem (equivale a la dificultad del ítem).
- : Probabilidad de fallar el ítem ().
La varianza puede tomar valores entre y , ya que:
- Si (nadie acierta) o (todos aciertan), , lo que indica que el ítem no discrimina.
- La máxima discriminación ocurre cuando , ya que . En este caso, el ítem divide perfectamente a la muestra en dos grupos iguales.
En resumen, un ítem tiene alta capacidad de discriminación cuando su dificultad () está cerca de , ya que maximiza la dispersión de las respuestas.
Discriminación de un ítem no-dicotómico
En ítems no-dicotómicos, no puedo calcular la discriminación de un ítem con la fórmula anterior, ya que estos ítems tienen más de dos categorías de respuesta. En su lugar, utilizo la varianza muestral, que mide la dispersión total de las puntuaciones en el ítem:
donde:
- es la puntuación obtenida por el sujeto en el ítem .
- es la media de las puntuaciones en el ítem .
- : es el número total de sujetos que respondieron al ítem.
A mayor varianza, mayor capacidad del ítem para discriminar entre sujetos, ya que refleja una mayor dispersión en las respuestas. Es decir:
- Un ítem con puntuaciones concentradas en una sola categoría (baja varianza) discrimina poco entre sujetos.
- Un ítem con puntuaciones distribuidas uniformemente entre las categorías tiene alta capacidad de discriminación.
Discriminación entre ítems
A diferencia de la discriminación de un ítem, el análisis de la discriminación entre ítems no se centra en un ítem específico. El foco aquí está en la relación entre varios ítems del test. Analiza si las puntuaciones en diferentes ítems están relacionadas entre sí y con el constructo global que mide el test.
Por ejemplo, si un test de matemáticas tiene estos dos ítems:
- Ítem 1: "¿Cuánto es ?"
- Ítem 2: "¿Cuánto es ?"
Si un sujeto responde correctamente el ítem 1, ¿es más probable que también acierte el Ítem 2? Si ambos ítems están correlacionados, eso indica que miden el mismo atributo. Por eso, este análisis entre ítems ayuda también a evaluar si el test tiene coherencia interna.
Procedimientos para calcular la discriminación entre ítems
La discriminación entre ítems se puede entender como la relación entre las puntuaciones del ítem y las puntuaciones totales del test. Por eso, es el reflejo del grado en el que un ítem contribuye al objetivo general del test.
No obstante, puedo utilizar distintos índices para analizar la discriminación entre ítems, en función de las características del test. Los más comunes son:
- Proporción de aciertos (), también llamado análisis de grupos extremos.
- Correlaciones, entre las que destacan:
- Correlación de Pearson (): para ítems continuos.
- Correlación de Spearman (): para datos ordinales.
- Correlación biserial y biserial-puntual (): para ítems dicotómicos y continuos.
- Coeficiente (): para ítems dicotómicos.
- Correlación tetracórica (): para ítems dicotómicos con distribuciones subyacentes continuas.
- Correlación policórica: para ítems politómicos.
Proporción de aciertos (Di)
El método de proporción de aciertos, también llamado análisis de grupos extremos, compara las tasas de acierto entre dos grupos extremos de sujetos, uno con puntuaciones altas y otro con puntuaciones bajas. Este enfoque, propuesto por Kelley (1939), es simple y eficaz para analizar la discriminación de un ítem en relación con el test.
Para ello, divido la muestra en dos grupos extremos:
- 27% superior: sujetos con puntuaciones totales en el percentil 73 o superior.
- 27% inferior: sujetos con puntuaciones totales en el percentil 27 o inferior.
Después, puedo calcular la proporción de aciertos () en el ítem para cada grupo extremo:
- : Proporción de sujetos del grupo superior que acertaron el ítem.
- : Proporción de sujetos del grupo inferior que acertaron el ítem.
Después, calculo el índice de discriminación () utilizando la fórmula:
El índice () toma valores entre , donde:
- : el ítem discrimina a favor del grupo superior.
- : el ítem discrimina en contra del grupo superior (discriminación invertida).
- : el ítem no discrimina entre los grupos.
Las ventajas de este método son la simplicidad, porque es fácil de calcular e interpretar; y la eficiencia, porque es útil para identificar ítems problemáticos en tests de opción múltiple.
Sin embargo, tiene algunas limitaciones. Por un lado, hay una pérdida de información: solo utiliza el 54% de la muestra (27% superior e inferior) ignorando el grupo intermedio. Por otro lado, no considera correlaciones completas, lo que limita el análisis de las relaciones más finas entre el ítem y el test completo.
Este índice es especialmente útil en tests de rendimiento óptimo con ítems dicotómicos o politómicos. Para análisis más avanzados o en tests con distribuciones complejas, es recomendable complementar este enfoque con correlaciones (biserial, tetracórica, etc.) para obtener una evaluación más detallada de la discriminación de los ítems.
no es el símbolo general para referirse a la discriminación, sino que es específicamente el índice calculado a partir de las proporciones de aciertos de los grupos extremos. Esto significa que representa un método particular para medir la discriminación de un ítem, pero no abarca todas las formas de analizar la discriminación en psicometría.
Correlaciones
Los métodos de correlaciones son más avanzados y permiten analizar la discriminación entre ítems de manera más detallada. A nivel fundamental, la correlación sucede en dos dimensiones:
- Correlación interna es el parecido entre un ítem y el resto de ítems del test. Es decir, la consistencia interna del test, que a su vez es una forma de medir la fiabilidad. También se puede llamar homogeneidad; es decir: el hecho de que los distintos ítems midan una misma cosa.
- Correlación externa, el parecido entre un ítem y el constructo que se pretende medir. Es decir, la validez del test.
La fiabilidad depende de la relación entre los ítems, mientras que la validez depende de la relación entre los ítems y el constructo:
La siguiente imagen muestra los intentos de un arquero por disparar en el centro de la diana:
Baja fiabilidad
Baja precisión
Baja validez
Alta fiabilidad
Baja precisión
Baja validez
Alta fiabilidad
Alta precisión
Baja validez
Alta fiabilidad
Alta precisión
Alta validez
En el primer intento, es evidente que el arquero está fallando. Pero está fallando de dos maneras: tiene baja fiabilidad, porque no dispara siempre al mismo sitio, y además no acierta en el centro de la diana, lo que indica baja validez.
En la segunda, el arquero sí dispara de manera consistente, pero no acierta en el centro de la diana. Es decir: tiene alta fiabilidad, pero baja validez. Sin embargo, los disparos podrían estar más cerca entre sí, por lo que tiene baja precisión.
En el tercero, se reduce la distancia entre los disparos. Es decir, aumenta la precisión, pero sigue sin acertar en el centro de la diana.
Finalmente, en el cuarto cuadro, el arquero dispara de forma consistente, los disparos están muy cerca y además acierta en la diana. Es decir: tiene alta fiabilidad, alta precisión y alta validez.
Lógicamente, estos dos aspectos están asociados. Cuanto mejor represente un ítem el constructo, mayor será su correlación con los otros ítems que también representan el constructo. Esto queda claro cuando explico que la consistencia interna es una de las formas de medir la fiabilidad.
Ahora bien, hay varios índices de correlación que son adecuados para datos de distinta naturaleza. En psicometría, las variables más habituales son de los siguientes tipos:
- Cuantitativa: que puede ser de intervalo o razón.
- Ordinal: como una escala tipo Likert.
- Dicotómica: con dos tipos de respuesta, como verdadero/falso.
- Dicotomizada: inicialmente es cuantitativa y se convierte en dicotómica. Por ejemplo, un examen con puntuación de 0 a 10 se recodifica en 0: suspenso de 0 a 4, y 1 aprobado de 5 a 10.
La siguiente tabla explica qué índices de correlación son más apropiados para evaluar la capacidad de discriminación entre ítems dependiendo del tipo de dato involucrado en el análisis.
Cuantitativa | Ordinal | Dicotómica | Dicotomizada | |
---|---|---|---|---|
Cuantitativa | Pearson (r) | Biserial o biserial puntual ( rbp ) | ||
Ordinal | Spearman ( rs ) | Biserial por rangos | ||
Dicotómica | Biserial o biserial puntual ( rbp ) | Biserial por rangos | Phi (φ) | |
Dicotomizada | Tetracórica ( rs ) |
Al comparar dos variables cuantitativas, utilizo el coeficiente de Pearson, que requiere que las variables sean de intervalo o razón.
Si comparo dos variables ordinales, como las de tipo Likert, utilizo el coeficiente de correlación de Spearman, que considera el orden sin asumir intervalos iguales. El cálculo de la correlación de Spearman no requiere asumir una relación lineal entre las variables, por lo que es un índice adecuado.
Cuando comparo dos variables dicotómicas, utilizo el coeficiente Phi (φ), que es específico para este tipo de datos.
Ahora bien, si pretendo comparar variables ordinales o cuantitativas con un ítem dicotómico, puesto que los ítems dicotómicos no representan magnitud, sino presencia () o ausencia (), la correlación de Pearson o Spearman no son adecuadas. En su lugar, utilizo:
- la correlación biserial puntual cuando comparo una variable dicotómica con una cuantitativa
- la correlación biserial por rangos cuando comparo una variable dicotómica con una ordinal.
Sin embargo, si puedo dicotomizar las dos variables, el índice más apropiado es el coeficiente tetracórico, que es una extensión del coeficiente biserial puntual para datos dicotomizados.
En cuanto a la interpretación, en todos los índices, considero que:
- es un discriminación satisfactoria.
- es una discriminación aceptable.
- es una discriminación pobre, por lo que debería revisar el ítem.
- es una discriminación muy pobre, por lo que debería eliminar el ítem.
Eliminar ()
Satisfactorio ()
Correlación biserial-puntual (rbp)
La correlación biserial-puntual () se utiliza para analizar la relación entre un ítem dicotómico (acierto-fallo, 0-1) y un criterio cuantitativo (puntuación total en el test).
La correlación biserial-puntual es matemáticamente equivalente a la correlación de Pearson, aplicada en contextos binarios. La correlación biserial puntual no requiere suponer que haya una distribución continua latente, por lo que se puede utilizar en más situaciones que la biserial.
Su fórmula se puede representar de dos maneras, que resultan útiles dependiendo de los datos disponibles:
donde:
- : media de los sujetos que aciertan el ítem.
- : media de todos los sujetos del test.
- : desviación estándar del test.
- : proporción de aciertos en el ítem ().
- : proporción de errores en el ítem ().
- : media de los sujetos que fallan el ítem.
Por ejemplo, si un ítem de un test es acertado por el 40% de los participantes () y fallado por el 60% (), y las medias de los grupos son y , puedo calcular la correlación biserial-puntual para determinar qué tan bien discrimina ese ítem entre participantes con puntuaciones altas y bajas en el test total.
La ventaja es que evalúa la capacidad de discriminación de un ítem respecto a la habilidad general medida por el test. Sin embargo, la limitación es que su sensibilidad al índice de dificultad implica que los ítems extremos (muy fáciles o muy difíciles) tienden a mostrar correlaciones más bajas, aunque puedan ser válidos en otros contextos.
Correlación biserial (rb)
La correlación biserial () se utiliza para analizar la relación entre un ítem dicotomizado y un criterio cuantitativo. Matemáticamente, no es equivalente a la correlación de Pearson.
La correlación biserial es útil para evaluar la capacidad de discriminación de un ítem que inicialmente es cuantitativo, pero se transforma en dicotómico para el análisis (e.g., aprobado/suspenso). Es más adecuada que el biserial puntual en escenarios donde el modelo presupone una distribución normal subyacente. Por eso, con distribuciones no normales, el valor de puede exceder el límite de .
Su fórmula se puede representar de dos maneras, que resultan útiles dependiendo de los datos disponibles:
donde:
- : media de las puntuaciones de los sujetos que aciertan el ítem.
- : media de las puntuaciones de los sujetos que fallan el ítem.
- : media total de las puntuaciones del test.
- : desviación típica de las puntuaciones totales del test.
- : proporción de sujetos que aciertan el ítem.
- : proporción de sujetos que fallan el ítem, calculada como .
- : densidad de probabilidad de la distribución normal estándar en el punto correspondiente a la proporción .
El término proviene de la densidad de la distribución normal estándar. Su inclusión refleja que la correlación biserial supone una normalidad subyacente en las puntuaciones. Si se encuentra en torno a 0.5, alcanza su valor máximo, favoreciendo una mejor discriminación.
Relaciones entre rbp y rb
La relación entre la correlación biserial-puntual () y la correlación biserial () se define mediante la siguiente fórmula:
donde:
- es la correlación biserial.
- es la correlación biserial-puntual.
- es la proporción de aciertos del ítem (índice de dificultad).
- es la ordenada de la distribución normal estandarizada en el punto correspondiente a ().
En general, se cumple que:
Esto implica que la correlación biserial () es siempre mayor o igual a la correlación biserial-puntual ().
Para casos específicos:
- Si (dificultad media del ítem), la diferencia entre y es pequeña.
- Si (ítems muy fáciles o muy difíciles), la diferencia entre y aumenta significativamente.
- puede ocurrir en distribuciones muy asimétricas debido a su dependencia de la normalidad subyacente.
Coeficiente Phi (φ)
El coeficiente Phi () se utiliza para analizar la relación entre un ítem dicotomico y un criterio dicotomico. Matemáticamente, es equivalente a la correlación de Pearson.
Este coeficiente considera las frecuencias de las categorías. Por eso, utilizo una tabla de contingencias que presentada organiza las frecuencias de aciertos y errores en un ítem en relación con los niveles de un criterio dicotómico (por ejemplo, "bajos" y "altos"). Aquí tienes una explicación más detallada:
Aciertos en el ítem | Errores en el ítem | Total | |
---|---|---|---|
Entre los que pertenecen al grupo de puntuación baja en la variable criterio | |||
Entre los que pertenecen al grupo de puntuación alta en la variable criterio criterio | |||
Total |
La tabla representa la relación entre dos variables dicotómicas:
- Las filas categorizan a los sujetos en función de su pertenencia a uno de los dos grupos (bajos/altos) según el criterio. Aunque la variable sea dicotómica, los términos "alto" y "bajo" suelen utilizarse cuando el criterio tiene algún tipo de orden implícito. Por ejemplo, suspender un examen sería "bajo" y aprobarlo sería "alto".
- Las columnas (acierto/error) muestran cómo se distribuyen las respuestas al ítem dentro de cada grupo del criterio. Es decir, evalúa el ítem del test.
Por lo tanto:
- : cantidad de sujetos con puntuaciones bajas en el criterio que acertaron el ítem.
- : cantidad de sujetos con puntuaciones bajas en el criterio que fallaron el ítem.
- : cantidad de sujetos con puntuaciones altas en el criterio que acertaron el ítem.
- : cantidad de sujetos con puntuaciones altas en el criterio que fallaron el ítem.
La fórmula del coeficiente es:
El valor de oscila entre y , y se considera que:
- : Relación perfecta positiva.
- : Relación perfecta negativa.
- : No hay relación entre el ítem y el criterio.
Para que sea máximo, las frecuencias deben estar equilibradas (es decir, ninguna categoría debe dominar de manera extrema).
Correlación tetracórica (rt)
La correlación tetracórica () se utiliza cuando ambas variables son dicotómicas pero se asume que, en realidad, existe una distribución continua subyacente y que la dicotomización es solo una forma de categorizar esos valores continuos.
El caso típico es un (dos variables) que realmente podrían ser consideradas continuas en un plano normal bivariante, pero que se han recortado en dos niveles (0 y 1) por alguna razón de medición. Por ejemplo, una variable de resultado que se dicotomiza como suspenso/aprobado, o baja/alta puntuación. Este supuesto de normalidad bivariante subyacente diferencia a la correlación tetracórica de la correlación Phi (), que no asume la existencia de un continuo subyacente.
En la literatura hay diversas representaciones de la correlación tetracórica. La más clásica (procedente de Pearson) se define vía máxima verosimilitud, que parte de la tabla de contingencia:
Variable | Variable | Total | |
---|---|---|---|
Variable | |||
Variable | |||
Total |
Las frecuencias se asocian con la probabilidad de que cada observación caiga en una de las cuatro áreas resultantes del cruce de ambos cortes.
No obstante, existen fórmulas que, a partir de la tabla , expresan la correlación tetracórica mediante ángulos o a través de funciones trigonométricas, como el coseno:
- cercana a 1 indica que, debajo de la aparente dicotomía, ambas variables latentes se relacionan fuertemente.
- cercana a 0 indica poca relación real entre ambas variables en el continuo subyacente.
- negativa indica que, en el plano continuo, las dos variables latentes varían en sentido inverso.
De este modo, la correlación tetracórica ofrece una perspectiva más completa de la fuerza de la relación latente que la correlación Phi, la cual solo describe la asociación entre dos variables categóricas sin asumir ningún continuo normal subyacente.