Saltar al contenido principal

Tipos de test psicométricos

Los test psicométricos se pueden clasificar de diversas maneras según diferentes criterios. A continuación, presento las principales categorías de test psicométricos, organizadas según el tipo de rendimiento, las consecuencias para el evaluado, las demandas temporales, la cultura o grupo del evaluado, el modo de administración, el formato de respuesta, el modo de interpretar las puntuaciones y el modelo psicométrico en el que se basan.

Según el tipo de rendimiento

El concepto de rendimiento en el contexto de los test psicométricos se refiere a la manera en que se mide y evalúa la capacidad, habilidades, o características de un individuo a través de sus respuestas a los ítems del test. Hay dos tipos, dependiendo de si se busca medir la capacidad máxima del individuo en una tarea específica o su comportamiento habitual en situaciones cotidianas.

Test de rendimiento óptimo

Estos test tienen un valor teórico máximo conocido y permiten identificar la respuesta más correcta. Un ejemplo claro es un test de capacidad académica, donde las respuestas pueden ser correctas o incorrectas. Si el evaluado responde correctamente a todos los ítems, puede alcanzar la puntuación máxima.

Los test de rendimiento óptimo suelen ser más fáciles de calificar y analizar, ya que las respuestas son objetivas y se pueden comparar con un criterio claro. Los formato de respuesta son más cerrados, generalmente nominales. Esto quiere decir que las respuestas son categorías discretas, como "correcto" o "incorrecto".

Test de rendimiento típico

En estos test no existe una puntuación máxima, ya que no hay respuestas correctas o incorrectas. Un ejemplo es un test de personalidad. No busco medir la capacidad frente a un objetivo concreto, sino evaluar la realidad de un constructo psicológico en la persona.

Por otro lado, los test de rendimiento típico ofrecen una visión más amplia y subjetiva del evaluado, permitiendo explorar aspectos más complejos de su personalidad o comportamiento.

Pregunta

Una prueba la podemos interpretar relacionándola con:

Diferencias

Tiempo de aplicación

  • Rendimiento óptimo: El tiempo es un factor clave. Existen dos tipos de tests dentro de esta categoría:
    • Velocidad: Se asigna poco tiempo y los ítems son generalmente fáciles. El objetivo es ver cuántos ítems correctos se pueden contestar en un tiempo limitado.
    • Potencia: Se permite suficiente tiempo para que la mayoría de los evaluados respondan, pero los ítems son difíciles y requieren habilidades avanzadas. La mayor parte de los tests de este tipo son de potencia.
  • Rendimiento típico: El tiempo no es relevante. No hay límite de tiempo en la mayoría de los casos, ya que el objetivo no es la rapidez, sino evaluar las respuestas típicas del evaluado en condiciones sin presión temporal.

Ítems sin contestar

  • Rendimiento óptimo:
    • No alcanzado: Los ítems no se responden porque el tiempo se agota antes de que el evaluado pueda completarlos.
    • Omisión: En tests de potencia, un ítem no se responde porque el evaluado lo considera demasiado difícil o decide saltarlo.
  • Rendimiento típico: Los ítems no respondidos suelen deberse a que el evaluado no entiende el ítem o no quiere responderlo, sin que esto esté relacionado con un límite de tiempo.

Respuestas al azar

  • Rendimiento óptimo: Existe la posibilidad de acertar al azar. Para reducir este efecto, se utilizan correcciones específicas que disminuyen la puntuación si hay respuestas aleatorias.
  • Rendimiento típico: No hay respuestas correctas o incorrectas, por lo que el azar no influye en el resultado del test.

Sesgos de respuesta

  • Rendimiento óptimo: Los sesgos principales son las respuestas al azar, y se aplican técnicas de corrección para minimizarlos y garantizar una evaluación precisa.
  • Rendimiento típico: Los sesgos más comunes son:
    • Categorías extremas: Tendencia a elegir las opciones más extremas en escalas.
    • Aquiescencia: Tendencia a estar de acuerdo con los enunciados, independientemente del contenido.
    • Deseabilidad social: Tendencia a dar respuestas que se consideran socialmente aceptables, más que reflejar la realidad del evaluado.

Según las consecuencias para el evaluado

  • Test de consecuencias altas: estos test tienen un impacto significativo en la vida del evaluado, como ocurre en una prueba de selección de personal o de admisión a estudios. La puntuación puede influir directamente en su futuro.
  • Test de consecuencias bajas: En este caso, la puntuación no tiene un impacto relevante en la vida del evaluado. Por ejemplo, un test anónimo usado con fines de investigación no altera el bienestar del individuo evaluado.

Según las demandas temporales

  • Test de velocidad: aquí la dificultad de los ítems es baja, pero existe un límite de tiempo para responder. El objetivo es evaluar la rapidez con la que el evaluado puede completar tareas sencillas bajo presión temporal.
  • Test de potencia: en este tipo de test, la dificultad de los ítems es alta, pero no hay un límite temporal. Aquí me interesa medir la capacidad máxima del evaluado sin el condicionante del tiempo.

En general, los test de velocidad y de potencia suelen pertenecer a la categoría de test de rendimiento óptimo, ya que buscan medir el nivel de capacidad en relación con un constructo específico.

Según la cultura o grupo del evaluado

  • Test libres de influencias culturales: estos test están diseñados de manera que los ítems no dependan del grado de educación, conocimiento del lenguaje o contexto cultural del evaluado. Un ejemplo es el test de matrices progresivas de Raven, que mide la inteligencia a través de la identificación de patrones sin depender del lenguaje o conocimientos culturales.
  • Test influenciados por la cultura: en este caso, los ítems hacen referencia a conocimientos o contextos específicos que pueden variar según la cultura del evaluado. Un ejemplo claro es el test de razonamiento verbal, donde el dominio del lenguaje y la familiaridad con el contexto juegan un papel importante en el resultado.

Según el modo de administración

  • Test de papel y lápiz: estos son los test tradicionales donde el evaluado responde de manera manual con lápiz y papel.
  • Test informatizado: en este caso, los test se administran a través de dispositivos electrónicos, como ordenadores o tabletas. Este formato ofrece ventajas en términos de automatización del proceso de corrección y análisis de los resultados.

Según el formato de respuesta

  • Test de respuesta construida: en estos test, las respuestas requieren desarrollo escrito por parte del evaluado. Se trata de tests más cualitativos, donde las respuestas no siempre se pueden parametrizar fácilmente. Un ejemplo sería un ensayo o una pregunta abierta que evalúa el razonamiento.
  • Test de respuesta seleccionada: aquí, los ítems presentan al evaluado una serie de opciones cerradas entre las cuales debe seleccionar. Los exámenes de tipo test son el ejemplo más común, donde el evaluado elige una opción entre varias predeterminadas.
  • Test de categorías ordenadas: Estos test ofrecen respuestas en una escala graduada de más a menos. El ejemplo clásico es el test de tipo Likert, donde el evaluado elige una respuesta en una escala (por ejemplo, de "totalmente en desacuerdo" a "totalmente de acuerdo").
  • Test de respuesta binaria o elección forzosa: estos test presentan únicamente dos opciones de respuesta, como "verdadero" o "falso", "sí" o "no". El evaluado está obligado a elegir una de las opciones.

Según el modo de interpretar las puntuaciones

  • Test referido a criterio: en este caso, interpreto las puntuaciones en función del rendimiento obtenido en comparación con un criterio específico. Por ejemplo, en un test académico, la interpretación se hace con base en si el evaluado ha alcanzado o no un determinado nivel de competencia.
  • Test referido a norma: aquí, la interpretación de las puntuaciones se realiza comparando los resultados del evaluado con un grupo normativo o baremo. Un ejemplo común son los test de inteligencia o los de personalidad, donde las puntuaciones se ubican en relación con una distribución poblacional, permitiendo ver si un evaluado está por encima, por debajo o dentro de la media.

Distribución normal de un
estadístico

Según el modelo psicométrico

Los test psicométricos se pueden diseñar basados en dos grandes teorías o modelos psicométricos:

De acuerdo a la Teoría Clásica de los Test (TCT)

La TCT sigue un modelo lineal en el que la puntuación final es la suma de las respuestas obtenidas en todos los ítems. En otras palabras, cada ítem contribuye de igual manera a la puntuación total.

Aunque es el modelo más utilizado y sencillo de aplicar, la TCT presenta limitaciones, como el hecho de que no todos los ítems son igualmente eficaces para medir el constructo. Por lo tanto, este modelo conlleva un error inherente en la medición.

Definición: Teoría Clásica de los Tests (TCT)

También conocida como la Teoría débil de la puntuación verdadera, la TCT es un modelo psicométrico que busca estimar los errores de medición que se producen al intentar medir variables psicológicas no observables mediante tests. Según la TCT, la puntuación que un individuo obtiene en un test (XX) es el resultado de la suma de dos componentes principales: la puntuación verdadera del individuo (VV), que refleja el nivel real del rasgo que se está midiendo, y el error aleatorio de medición (ee), que representa las fluctuaciones no sistemáticas que afectan la medición. Este modelo asume una relación aditiva y lineal entre estos componentes, donde:

X=V+eX = V + e

La TCT permite analizar y controlar el grado en que los resultados de un test están influenciados por factores ajenos al rasgo que se pretende medir, proporcionando una base para evaluar la fiabilidad del test.

De acuerdo a la Teoría de Respuesta al Ítem (TRI)

La TRI evalúa cada ítem de manera no lineal, asignando un valor individual a cada ítem según su relevancia, dificultad, capacidad de discriminación y probabilidad de acierto al azar. Esto significa que no todos los ítems tienen el mismo peso en la puntuación final, lo que mejora la precisión del test.

Los test basados en la TRI son más complejos de desarrollar, ya que requieren una muestra más grande para su construcción, pero permiten una evaluación más detallada y precisa.

Además, estos test pueden ser adaptativos. Esto significa que la respuesta a un ítem determina cuál será el siguiente ítem que presento al evaluado. Por ejemplo, en una prueba de comprensión lingüística, si el evaluado responde correctamente, el siguiente ítem será más difícil, y viceversa.

Pregunta

La Teoría de Respuesta al Ítem: