Multitud de grupos
En la sección anterior, explico cómo comparar las medias entre dos ensayos. Para ello, utilizo pruebas como la prueba de Student. Sin embargo, estas pruebas no sirven cuando quiero comparar estadísticos de más de dos ensayos. Para comparar medias de tres o más ensayos, necesito analizar la varianza. Es decir, necesito hacer un ANOVA.
Introducción
Imagina, en el caso de estudios intragrupo, si una investigación mide el efecto de una terapia en múltiples momentos, no sólo al inicio o al final, sino también durante el estudio. De forma similar, en el caso de estudios intergrupo, si la investigación quiere medir el efecto de varios tratamientos, y por lo tanto necesita el grupo de control y además un grupo por cada tratamiento.
En estos casos, no vale con analizar la media de cada grupo y compararla. Necesito realizar análisis de la varianza (ANOVA), una técnica estadística fundamental que amplía los conceptos de la comparación de medias para evaluar si las diferencias entre las medias de tres o más grupos son estadísticamente significativas.
Esta técnica no solo se centra en comparar las medias directamente, sino que también analiza la varianza para entender cómo la variabilidad dentro de los grupos y entre ellos influye en estas diferencias.
En estadística, en lugar de decir "análisis de la varianza" decimos ANOVA. Este acrónimo proviene de las siglas en inglés (ANanalysis Of VAriance). Es un término muy discendido.
El ANOVA permite descomponer la variación observada en componentes asociados con variables específicas y errores aleatorios, proporcionando una visión más completa de la dinámica entre los grupos y facilitando decisiones informadas sobre la significancia estadística de las diferencias encontradas.
Por otro lado, es importante saber que el análisis de la varianza se hace de forma distinta en función de si la comparación se hace con un factor o con varios factores. En este contexto, un factor es una variable independiente.
Es muy buena pregunta. Al comparar tres grupos, es cierto que técnicamente podría comparar dos grupos, después otros dos grupos y finalmente hacer una tercera comparación. Por lo tanto, podría hacer tres pruebas de Student que me darían la misma información.
Sin embargo, en un estudio con tres ensayos, esto no es recomendable porque el hecho de realizar múltiples cálculos aumenta el error. Es decir, cada comparación entre ensayos tiene su propio margen de error, y este error se iría acumulando en las sucesivas comparaciones.
En términos de probabilidad, la probabilidad de cometer un error tipo 1 en un sólo ensayo se calcula como . Por el contrario, la probabilidad al hacerlo con 3 ensayos aumenta así: . Es decir, la probabilidad de error es casi el triple.
Por eso, para comparar medias de tres o más ensayos, necesito analizar la varianza.
Pregunta
El ANOVA se utiliza en lugar de hacer múltiples comparaciones t de Student para evitar el error tipo II.
Prueba F de Fisher
La prueba de Fisher es una herramienta versátil y poderosa en el análisis de varianza, utilizada tanto en ANOVA de un factor como en ANOVA de dos factores para detectar diferencias significativas entre grupos y evaluar la influencia de uno o más factores sobre una variable dependiente.
La prueba de Fisher puede parecer similar a la prueba de Student, pero la lógica subyacente es muy distinta. Lo que varía, concretamente, es cómo se mide la variación no-sistemática.
Cuando realizo un ANOVA, estoy comparando más de dos ensayos. En este contexto, la variación no-sistemática se refiere a la diferencia entre los sujetos de un mismo ensayo. Esto es distinto a la prueba de Student, donde la variación no-sistemática se refiere a la variación entre los grupos.
Prueba de Student | Prueba de Fisher | |
---|---|---|
Variación sistemática | Variación intergrupo | Variación intergrupo |
Variación no-sistemática | Desvíación estándar de la variación entre grupos (intergrupo) | Variación o diferencia entre los sujetos (intragrupo) |
Sumas y medias de cuadrados
Para comprender cómo funciona la prueba de Fisher, es esencial entender dos conceptos:
- Sumas de cuadrados (SC): proporcionan una medida de la variabilidad total en los datos.
- Medias de cuadrados (MC): por el contrario, ajustan esta variabilidad teniendo en cuentra los grados de liberad. Sirven, además, para realizar comparaciones estadísticas formales.
Estos conceptos son parte de la fórmula del estadístico F, por lo que es necesario realizar su cálculo. Pero, además, proporcionan en sí mismos información sobre las comparaciones.
A su vez, estos cuadrados pueden hacer referencia a distintas cosas:
- Sumas de cuadrados (SC)
- : Suma de Cuadrados Total
- : Suma de Cuadrados del Modelo (variabilidad explicada por las diferencias entre grupos)
- : Suma de Cuadrados Residual (variabilidad dentro de los grupos)
- Medias de cuadrados (MC)
- : Media de cuadrados del Modelo ()
- : Media de cuadrados Residual ()
Se llaman cuadrados porque se calculan al elevar al cuadrado las diferencias entre las observaciones y las medias. Esto cumple varios propósitos: por un lado, elimina los valores negativos, permitiendo una suma efectiva de diferencias; y por otro lado, amplifica las diferencias más grandes, dándoles mayor peso en el análisis.
Lógica del estadístico F
La prueba de Fisher se calcula como la razón de la variación sistemática a la no-sistemática. En el contexto de un ANOVA, esto se puede expresar de tres maneras:
Primero, de forma general:
Después, puedo concretar más sobre la naturaleza de la variación. Sabiendo que estoy comparando distintos grupos, la variación no-sistemática es precisamente la variación dentro de los sujetos de un mismo grupo:
En el caso de un ANOVA de dos factores, se podría añadir un pequeño matiz, ya que se analizan dos variables independientes y además la interacción entre ambas:
Finalmente, puedo utilizar la expresión matemática. La diferencia entre los grupos es, técnicamente hablando, la Media de Cuadrados del Modelo (); y la diferencia dentro de cada grupo es la Media de Cuadrados Residual (). Por lo tanto:
Para esto, precisamente, calculo las medias de cuadrados.
En resumen:
Un valor de significativamente alto sugiere que las diferencias entre las medias de los grupos son más grandes de lo que se esperaría por la variación aleatoria dentro de los grupos, lo que indica efectos significativos del factor o variables estudiadas.
Cálculo
Hacer la prueba de Fisher consiste en calcular el estadístico . Para ello, hay que hacer varios cálculos intermedios a partir de los datos del estudio. Por ejemplo, es necesario calcular las sumas de cuadrados y las medias de cuadrados. Luego se aplica la fórmula y se consulta la distribución F para determinar si el valor calculado del estadístico F es suficientemente extremo como para rechazar la hipótesis nula.
A continuación, explico los pasos en detalle.
1. Calcular las sumas de cuadrados
Este paso consiste en encontrar tres valores a partir de los datos de la muestra:
- : Suma de los cuadrados total
- : Suma de los cuadrados del modelo
- : Suma de los cuadrados residual
Suma de los cuadrados total (SCT)
La suma de los cuadrados total () es la cantidad de variación total que se ha producido en el estudio, independientemente del ensayo al que pertenecen los casos. Es decir, es la variación entre datos en todos los sujetos.
- es la media total, calculada usando la fórmula de la media
- es cada una de las puntuaciones observadas
Por ejemplo, consideremos el siguiente conjunto de datos, en el que hay 6 participantes divididos en tres grupos.
🙋 | Grupo | Puntuación () |
---|---|---|
1 | A | 57 |
2 | A | 55 |
3 | B | 55 |
4 | B | 55 |
5 | C | 62 |
6 | C | 78 |
Primero calculo la media de todos los casos:
Ahora, puedo aplicar el primer paso de la fórmula:
🙋 | Grupo | Puntuación () | |
---|---|---|---|
1 | A | 57 | |
2 | A | 55 | |
3 | B | 55 | |
4 | B | 55 | |
5 | C | 62 | |
6 | C | 78 |
Finalmente, hay que sumar todos los valores . Es decir, que la suma de los cuadrados total () es 411.3328.
Suma de los cuadrados del modelo (SCM)
La suma de los cuadrados del modelo () es la cantidad de variación que se debe a las diferencias entre ensayos. Es decir, es la variación entre datos de un grupo a otro.
- es la media total, que ya conocemos por el paso anterior:
- es la media del ensayo
- es la cantidad de casos que hay en ese ensayo o grupo, que se que son 2
Grupo | Media del grupo () | |
---|---|---|
A | ||
B | ||
C |
Finalmente, hay que sumar todos los valores . Es decir, que la suma de los cuadrados del modelo () es 281.3328.
Suma de los cuadrados residual (SCR)
La suma de los cuadrados residual () es la cantidad de variación que se debe a factores distintos a la manipulación experimental. Es decir, es la variación entre datos que no puede ser explicada por el modelo.
La fórmula es . Puesto que en los pasos anteriores hemos calculado y , puedo calcular sin mucho lío:
Es decir, que la suma de los cuadrados residual () es 130.
2. Calcular las medias de cuadrados
El siguiente paso es calcular la media de cuadrados.
Para ello, hay que conocer los grados de libertad (, o por sus siglas en inglés) totales, del modelo y residuales. Los grados de libertad se calculan de la siguiente manera:
La razón de utilizar en lugar de se debe a que, cuando calculo la variación entre grupos, estoy interesado en cuánto se desvía cada grupo de la media general. Ya que la suma de las desviaciones de las medias de los grupos respecto a la media total es cero, una de las desviaciones no es independiente y debe calcularse a partir de las otras. Esto reduce el número de desviaciones independientes a .
Sin embargo, hay que tener en cuenta que es distinto para y . En el caso de , n es 6
porque es el total de casos. Pero en , el tamaño se refiere a la cantidad de grupos, que es 3
.
Por lo tanto, cada uno de ellos:
Ahora que tenemos los grados de libertad, puedo calcular la media de cuadrados:
Por fin, se que y . Ahora puedo aplicar la fórmula del estadístico F.
3. Aplicar la fórmula de F
Finalmente, concluyo la prueba de Fisher aplicando la fórmula del valor F. Matemáticamente, el estadístico F se calcula de la siguiente manera:
Recordemos que el valor representa la razón de dos varianzas y se utiliza para determinar si las diferencias entre las medias de varios grupos son estadísticamente significativas. Sin embargo, aún no se si 1.2984 es un valor alto o bajo.
Pregunta
La fórmula del valor F consiste en dividir la variación debida al azar entre individuos del mismo grupo, por la variación entre las medias de los diferentes grupos debida al azar y al efecto del tratamiento (si lo hay). ¿Es esta afirmación correcta?
4. Encontrar el valor F crítico en la tabla de distribución F
Para saber si el valor F obtenido proporciona suficiente evidencia para rechazar la hipótesis nula, lo comparo contra un valor F crítico. El valor F crítico depende de los grados de libertad del modelo, grados de libertad residuales y el nivel de significancia elegido ().
El valor F crítico se expresa como:
- es la cantidad de grupos
- es la cantidad total de sujetos
En este caso, es 3 y es 6. Por lo tanto:
Para encontrar el valor equivalente a , hay que consultar la tabla de distribución F, en las coordenadas 2 y 3, para el nivel de significación escogido: .
Tras comprobar la tabla, vemos que
df2\df1 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
1 | 161.448 | 199.5 | 215.707 | 224.583 | 230.162 | 233.986 | 236.768 | 238.883 |
2 | 18.513 | 19 | 19.164 | 19.247 | 19.296 | 19.33 | 19.353 | 19.371 |
3 | 10.128 | 9.552 | 9.277 | 9.117 | 9.013 | 8.941 | 8.887 | 8.845 |
4 | 7.709 | 6.944 | 6.591 | 6.388 | 6.256 | 6.163 | 6.094 | 6.041 |
5 | 6.608 | 5.786 | 5.409 | 5.192 | 5.05 | 4.95 | 4.876 | 4.818 |
5. Realizar el contraste de hipótesis
Ahora que se tanto el valor F del modelo, como el valor F crítico, puedo hacer el contraste de hipótesis:
- Si , rechazamos la hipótesis nula
- Si , aceptamos la hipótesis nula
En este caso, no se cumple la condición:
Por lo tanto, no puedo rechazar la hipótesis nula. Es decir, que sea cual sea la intervención, no ha afectado de forma significativa los resultados de los ensayos.
ANOVA de un factor
En esta sección explico cómo realizar un ANOVA de un factor. Es decir, comparar la media de más de dos ensayos cuando sólo varía una variable dependiente.
En el contexto de ANOVA de un factor, la prueba de Fisher se refiere específicamente al uso del estadístico F para evaluar la significancia estadística de las diferencias entre las medias de los grupos. El estadístico F refleja cuánto mayor es la variación entre los grupos que la variación esperada por casualidad, basándose en la distribución F.
ANOVA unifactorial para grupos independientes
El ANOVA unifactorial para grupos independientes se utiliza cuando se quiere comparar las medias de tres o más grupos que son independientes entre sí, es decir, no hay ninguna relación o emparejamiento entre los sujetos de los distintos grupos. Este tipo de ANOVA examina el efecto de una sola variable independiente (factor) sobre una variable dependiente cuantitativa.
Un investigador quiere evaluar el efecto de tres diferentes dietas (A, B, C) sobre el peso corporal. Cada sujeto participa en una y solo una de las dietas, haciendo que los grupos sean independientes.
Cálculo con SPSS
Los pasos a seguir en SPSS son:
- Cargar los datos
- Abrir la barra de herramientas
Analizar
y desplegarModelo lineal general
. - Hacer click en la opción
Univariado
. - En la ventana que se ha abierto:
- Añadir la variable dependiente al cuadro Variable dependiente.
- A la variable independiente al cuadro Factores fijos.
- Hacer click sobre
Gráficos
. - En la ventana que se ha abierto:
- Añadir la variable independiente al cuadro Eje horizontal.
- Hacer click sobre
Añadir
. - Seleccionar Gráfico de líneas.
- Seleccionar Incluir barras de error.
- Hacer click sobre
Continuar
.
- Hacer click sobre
Post hoc
. - En la ventana que se ha abierto:
- Añadir la variable independiente al cuadro Pruebas post hoc para.
- Marcar las pruebas que interesen, como Bonferroni.
- Hacer click sobre
Continuar
.
- Hacer click sobre
Opciones
. - En la ventana que se ha abierto:
- Marcar el checkbox Estadísticos descriptivos.
- Marcar el checkbox Estimaciones del tamaño del efecto.
- Marcar el checkbox Pruebas de homogeneidad.
- Hacer click sobre
Continuar
.
- Hacer click sobre
Aceptar
.
Esto crea una hoja con seis grupos de datos:
- Factores inter-sujetos: contiene el tamaño muestral de cada grupo.
- Estadísticos descriptivos: las medias y desvíaciones típicas de cada grupo.
- Prueba de Levene: contiene los resultados de la prueba de Levene para verificar si las varianzas son homogéneas. Si la prueba de Levene arrojase un valor de significación menor que (generalmente ), significa que las varianzas no son iguales. Por lo tanto, sería necesario repetir el proceso, pero en lugar de usando Bonferroni, deberíamos utilizar la prueba de Games-Howell.
- Prueba del efecto inter-sujeto: contiene el análisis de la varianza (ANOVA) utilizando la Prueba F de Fisher. Nos muestra, además del estadístico F resultante de la prueba, los valores intermedios como las sumas de cuadrados o los grados de libertad. Asimismo, muestra el tamaño del efecto con (eta parcial al cuadrado) y la significación. Con esta información, puedo hacer dos cosas:
- Contrastar la hipótesis nula: si la significación es menor que (generalmente ), rechazo la hipótesis nula.
- Medir el tamaño del efecto: consultando los valores estándar de , se el tamaño del efecto. Por ejemplo, si fuera , sería un efecto muy grande.
- Comparaciones múltiples: contiene las comparaciones post-hoc, para las que hemos elegido el ajuste de Bonferroni. Muestra, para cada posible comparación entre grupos, la diferencia entre las medias, el nivel de significación y el valor de significación (p) ajustado. Con esta información, puedo:
- Contrastar la hipótesis nula: consulto la tabla para ver qué comparación tiene significación menor que la significación ajustada.
- Medias marginales estimadas: muestra una gráfica con la puntuación de los distintos grupos. Con esta información, también puedo contrastar la hipótesis nula. En esencia: si todas las comparaciones están en la misma línea, significa que no hay diferencias. Sin embargo, si alguna de las comparaciones se desmarca de las demás, y en una medida que es mayor que las barras de error, significa que sí hay diferencias significativas en esa comparación.
ANOVA unifactorial para grupos dependientes (medidas repetidas)
El ANOVA unifactorial para grupos dependientes, también conocido como ANOVA para medidas repetidas, se utiliza cuando los mismos sujetos participan en todas las categorías que se están comparando o cuando los sujetos en los diferentes grupos están emparejados de alguna manera (por ejemplo, por características demográficas).
Un estudio en el que se mide el nivel de estrés de un grupo de pacientes antes, durante, y después de completar un programa de terapia. Aquí, cada paciente es medido en tres puntos de tiempo, haciendo que las muestras sean dependientes.
Prueba de esfericidad
Como norma general, para verificar el supuesto de homogeneidad de varianzas en ANOVA unifactorial para grupos independientes, utilizo la prueba de Levene. Sin embargo, en el contexto de ANOVA unifactorial para grupos dependientes (o medidas repetidas), el supuesto relevante no es la homogeneidad de varianzas entre las mediciones, sino la esfericidad de las covarianzas entre todas las diferencias de las comparaciones de medidas repetidas.
Por eso, en lugar de la prueba de Levene, utilizo la prueba de esfericidad de Mauchly.
Pregunta
La esfericidad es un supuesto que debe cumplirse en el ANOVA de medidas repetidas. ¿Es esta afirmación correcta?
Cálculo con SPSS
Los pasos a seguir en SPSS son:
- Cargar los datos
- Abrir la barra de herramientas
Analizar
y desplegarModelo lineal general
. - Hacer click en la opción
Medidas repetidas
. - Primero definimos los factores. En la ventana que se ha abierto:
- Añadir el Número de niveles, que es la cantidad de mediciones que voy a comparar. Por ejemplo, en un estudio en el que mido 3 veces a los participantes, el número de niveles sería 3.
- Opcionalmente, poner un nombre a la variable.
- Hacer click sobre
Definir
.
- Ahora seleccionamos los niveles de las medidas repetidas. En la nueva ventana:
- Añadir los niveles de la variable independiente de manera ordenada. Por ejemplo, primero meto la primera medición, después la segunda y abajo del todo la tercera.
- Hacer click sobre
Gráficos
.
- Seleccionamos los gráficos. En la ventana que se ha abierto:
- Añadir la variable independiente (el factor) al cuadro Eje horizontal.
- Hacer click sobre
Añadir
. - Seleccionar Gráfico de líneas.
- Seleccionar Incluir barras de error.
- Hacer click sobre
Continuar
.
- Hacer click sobre
Medias marginales estimadas
. - En la ventana que se ha abierto:
- Añadir la variable independiente (el factor) al cuadro Mostrar medias para.
- Marcar el checkbox Comparar los efectos principales.
- Seleccionar el Ajuste del intervalo de confianza, generalmente
Bonferroni
. - Hacer click sobre
Continuar
.
- Hacer click sobre
Opciones
. - En la ventana de opciones que se ha abierto:
- Marcar el checkbox Estadísticos descriptivos.
- Marcar el checkbox Estimaciones del tamaño del efecto.
- Marcar el checkbox Pruebas de homogeneidad.
- Hacer click sobre
Continuar
.
- Hacer click sobre
Aceptar
.
Esto crea una hoja con varios grupos de datos, entre ellos:
- Prueba de esfericidad de Mauchly: Evalúa la esfericidad de las covarianzas entre las medidas repetidas. Si la significación de la prueba de esfericidad es menor que , significa que el supuesto de esfericidad ha sido violado, indicando que las covarianzas no son homogéneas.
- Prueba del efecto intrasujetos: contiene el análisis de la varianza (ANOVA) utilizando la Prueba F de Fisher. Nos muestra, además del estadístico F resultante de la prueba, los valores intermedios como las sumas de cuadrados o los grados de libertad. Asimismo, muestra el tamaño del efecto con (eta parcial al cuadrado) y la significación.
- Hay tres filas:
Esfericidad asumida
,Greenhouse-Gelsser
yHuyhn-Feldt
. Si se cumple el supuesto de esfericidad, de acuerdo a la prueba de esfericidad, me fijo en los valores de la filaEsfericidad asumida
; de lo contrario, me fijo en los valores de la filaGreenhouse-Gelsser
. Con esta información puedo:- Contrastar la hipótesis nula: si la significación es menor que (generalmente ), rechazo la hipótesis nula.
- Medir el tamaño del efecto: consultando los valores estándar de , se el tamaño del efecto. Por ejemplo, si fuera , sería un efecto muy grande.
- Hay tres filas:
- Comparaciones por parejas: contiene las comparaciones post-hoc, para las que hemos elegido el ajuste de Bonferroni. Muestra, para cada posible comparación entre grupos, la diferencia entre las medias, el nivel de significación y el valor de significación (p) ajustado. Con esta información, puedo:
- Contrastar la hipótesis nula: consulto la tabla para ver qué comparación tiene significación menor que la significación ajustada.
- Medias marginales estimadas: muestra una gráfica con la puntuación de los distintos niveles. Con esta información, también puedo contrastar la hipótesis nula. En esencia: si todas las comparaciones están en la misma línea, significa que no hay diferencias. Sin embargo, si alguna de las comparaciones se desmarca de las demás, y en una medida que es mayor que las barras de error, significa que sí hay diferencias significativas en esa comparación. En un estudio prospectivo de series temporales, cabría pensar que de un nivel a otro haya cambios, siguiendo una progresión en la misma dirección.
Pregunta
Utilizo el ANOVA unifactorial de medidas repetidas cuando estoy ante el diseño clásico de comparación de un grupo control y dos o más grupos que reciben distintos tipos de tratamiento. ¿Es esta afirmación correcta?
ANOVA no-paramétrico
Este tipo de análisis es útil para datos que son ordinales, no cumplen con la distribución normal, o cuando las muestras son pequeñas.
Hay varios métodos no-paramétricos que pueden ser utilizados para el análisis de varianza, dependiendo del diseño del estudio y de los datos específicos. El más común es la prueba de Kruskal-Wallis.
La prueba de Kruskal-Wallis el equivalente no-paramétrico del ANOVA de un factor. Se usa para comparar tres o más grupos independientes. Dicho de otra manera: Kruskal-Wallis es una alternativa al ANOVA unifactorial que no requiere la normalidad de los datos y es adecuado para datos ordinales o cuando las muestras son pequeñas.
Comparar las calificaciones de tres diferentes grupos de estudiantes en un examen. Dado que las calificaciones no necesariamente siguen una distribución normal, la prueba de Kruskal-Wallis sería el método adecuado para analizar estas diferencias.
Hay otra prueba, llamada prueba de Friedman, que es apropiada cuando las muestras son dependientes. Es decir, para medidas repetidas o emparejadas.
Pregunta
Cuando el supuesto de normalidad no se cumple, debemos llevar a cabo un análisis no paramétrico llamado Kruskal-Wallis. ¿Es esta afirmación correcta?
Cálculo con SPSS
Los pasos a seguir en SPSS son:
- Cargar los datos
- Abrir la barra de herramientas
Analizar
y desplegarPruebas no paramétricas
. - Hacer click en la opción
Muestras independientes
. - Primero definimos el objetivo factores. En la ventana que se ha abierto:
- Marcamos la opción Personalizar análisis.
- Hacer click sobre
Campos
.
- Ahora seleccionamos los campos. En la nueva pestaña:
- Añadir las variables dependientes al cuadro Campos de prueba.
- Añadir la variable de agrupación (o sea, la independiente o factor) al cuadro Grupos.
- Hacer click sobre
Configuración
.
- Seleccionamos la configuración gráficos. En la nueva pestaña:
- Seleccionar el checkbox Personalizar pruebas.
- Seleccionar el checkbox ANOVA de 1 factor de Kruskal-Wallis (k muestras).
- Hacer click sobre
Ejecutar
.
Esto crea una hoja con varios grupos de datos, entre ellos:
- Resumen de prueba de hipótesis: contiene una tabla en la que cada fila representa la distribución de cada variable dependiente a lo largo de la variable de agrupación, y las columnas son directamente la expresión de la hipótesis nula, la significación y la decisión sobre si rechazar o aceptar la hipótesis nula.
ANOVA de dos factores
Tras explicar cómo realizar un ANOVA de un factor, voy a explicar el ANOVA de dos factores. Es decir, comparar la media de más de dos ensayos cuando varían dos o más variables dependientes.
Por ejemplo, imagina que quiero medir, por un lado, qué fármaco tiene mayor efecto sobre la ansiedad, y por otro lado, qué vía de administrar el fármaco tiene mayor efecto sobre la ansiedad. Es decir, habría dos variables independientes. Para ello, reclutamos tres grupos; uno por cada fármaco, y otro de control. Esto da lugar a 6 combinaciones (:
Fármaco A | Fármaco B | Control | |
---|---|---|---|
Vía de administración A | Combinación 1 | Combinación 2 | Combinación 3 |
Vía de administración B | Combinación 4 | Combinación 5 | Combinación 6 |
La forma correcta de verlo es en términos de variable dependiente vs. independiente, y cuantificar cuántos niveles tiene cada una. Como puedo ver, tenemos dos variables independientes:
- Variables independientes
- Fármaco
- Fármaco A
- Fármaco B
- Vía de administración
- Vía de administración A
- Vía de administración B
- Fármaco
- Variables dependientes
- Puntuación en el test de ansiedad
Eso significa que hay que hacer tres contrastes, un contraste por cada variable independiente, y además otro contraste para medir el efecto de las interacciones entre las variables independientes.
-
: El fármaco no ha tenido ningún efecto:
-
: La vía de administración no tiene efecto:
-
: La variación entre la combinación de fármaco y vía de administración no tiene efecto:
Pregunta
En una comparación de tres o más medias, la hipótesis nula siempre es que...
Lógica del estadístico F
El resultado de estos contrastes de podría visualizar en un gráfico de líneas, de la siguiente manera:
Para encontrar estos valores, tengo que calcular el estadístico F; al igual que hago el ANOVA de un factor. Sin embargo, al tener varias variables independientes, necesito varias F.
ANOVA de dos factores paramétrico
Como he explicado, El ANOVA de dos factores es un análisis de varianza de dos vías. En esencia, permite investigar los efectos de dos factores diferentes de manera simultánea sobre una variable dependiente.
El ANOVA de dos factores puede ser tanto paramétrico como no paramétrico, y la elección entre uno y otro depende principalmente de las propiedades de los datos con los que se trabaja. Es decir: depende del conjunto de suposiciones que debe cumplir la distribución de los datos para que el análisis sea válido, como la normalidad. En este caso, voy a explicar cómo calcular un ANOVA de dos factores paramétrico.
Cálculo con SPSS
Los pasos a seguir en SPSS son:
- Cargar los datos
- Abrir la barra de herramientas
Analizar
y desplegarModelo lineal general
. - Hacer click en la opción
Univariado
. - Añadir la variable dependiente al cuadro Variable dependiente
- Añadir las variables independientes al cuadro Factores fijos.
- Hacer click sobre
Gráficos
. - Ahora selecciono los gráficos. En esta nueva ventana:
- Añadir una de las variables independientes al cuadro Eje horizontal.
- Añadir la otra variable independiente al cuadro Líneas separadas.
- Seleccionar Gráfico de líneas e Incluir barras de error.
- Hacer click sobre
Continuar
.
- Hacer click sobre
Post hoc
. - Ahora selecciono las pruebas. En esta nueva ventaja:
- Añadir ambas variables independientes al cuadro Pruebas post hoc para.
- Seleccionar el checkbox Bonferroni.
- Seleccionar el checkbox Tukey.
- Seleccionar el checkbox Duncan.
- Hacer click sobre
Continuar
.
- Hacer click sobre
Opciones
. - Ahora selecciono las opciones. En esta nueva ventana:
- Seleccionar el checkbox Estadísticos descriptivos.
- Seleccionar el checkbox Estimaciones del tamaño del efecto.
- Seleccionar el checkbox Pruebas de homogeneidad.
- Hacer click sobre
Continuar
.
- Hacer click sobre
Aceptar
.
Esto crea una hoja con varios grupos de datos, entre ellos:
- Prueba de igualdad de Levene de varianzas de error: contiene los resultados de la prueba de Levene para verificar si las varianzas son homogéneas. Si la prueba de Levene arrojase un valor de significación menor que (generalmente ), significa que las varianzas no son iguales. Por lo tanto, sería necesario repetir el proceso de comparación post hoc, pero en lugar de usando Bonferroni, deberíamos utilizar la prueba de Games-Howell.
- Prueba del efecto: contiene el análisis de la varianza utilizando la Prueba F de Fisher. Nos muestra, además del estadístico F resultante de la prueba, los valores intermedios como las sumas de cuadrados o los grados de libertad. Asimismo, muestra el tamaño del efecto con (eta parcial al cuadrado) y la significación. Con esta información, puedo hacer dos cosas:
- Contrastar las hipótesis nulas: puesto que es un análisis de dos factores, hay tres hipótesis nulas: una para cada variable independiente, y otra para la intersección de ambas. Por lo tanto, miro en cada una de esas filas si la significación es menor que (generalmente ). En caso afirmativo, rechazo la hipótesis nula, pero sólo para esa variable.
- Medir el tamaño del efecto: consultando los valores estándar de , se el tamaño del efecto. Por ejemplo, si fuera , sería un efecto muy grande, pero sólo para esa variable.
- Comparaciones múltiples: contiene las comparaciones post-hoc, para las que hemos elegido el ajuste de Bonferroni, las pruebas de Tukey y de Duncan. Esta tabla muestra, para cada posible comparación entre variables, la diferencia entre las medias y el nivel de significación, entre otras cosas. Con esta información, puedo:
- Contrastar las hipótesis nulas: consulto la tabla para ver qué comparación tiene significación menor que , y acepto o rechazo la hipótesis nula de acuerdo a ese valor. Sin embargo, no sé si el efecto sobre la variable dependiente es positivo o negativo; es decir: directo o inverso - para eso tengo que mirar los estadísticos descriptivos.
- Estadísticos descriptivos: contiene una tabla que muestra, por cada posible combinación, la media, la desviación y el tamaño. Con esta información, puedo:
- Comprobar la dirección de las diferencias: después de saber qué combinaciones tienen significación suficiente para rechazar la hipótesis nula, consulto la tabla para ver si esa comparación tiene un efecto positivo o negativo. Para ello, observo si el valor de las medias para esa comparación es mayor o menos que las medias del control.
- Medias marginales estimadas de la variable dependiente: contiene el gráfico de líneas con barras de error. Con esta información puedo, de forma visual, saber tanto si el efecto de una variable sobre otra es significativo como si el efecto es positivo o negativo. El resultado es exactamente el gráfico que he enseñado antes:
Como se puede observar, la puntuación de ansiedad es mayor en el control que en ambos fármacos. Sin embargo, no hay grandes diferencias causadas por las distintas vías de administración. Para comprobar exactamente cuáles son los valores, tendría que observar las tablas de descriptivos y de prueba del efecto.
Tamaño del efecto (eta²)
Para medir la intensidad del efecto, tanto en ANOVA de un factor como de dos factores, utilizo la prueba (eta cuadrado). Esta prueba cuantifica la proporción de la variable dependiente que está explicada por la variable independiente. Es decir, calcula el tamaño del efecto.
Aunque su finalidad es la misma que la de Cohen, sus rangos son distintos. Los valores de oscilan entre 0 y 1. No puede tener valores negativos, ni superar el 1:
- Efecto muy pequeño o trival:
- Efecto pequeño:
- Efecto moderado:
- Efecto grande:
- Efecto muy grande:
Sin embargo, tiene dos variantes:
- Prueba (eta al cuadrado).
- Prueba (eta parcial al cuadrado).
Pregunta
El valor eta² es un tamaño del efecto que puede ser negativo y que se utiliza para interpretar la magnitud de las diferencias entre dos medias. ¿Es esta afirmación correcta?
Eta al cuadrado (η²)
Eta al cuadrado es una medida del tamaño del efecto que indica la proporción de la varianza total en la variable dependiente que es explicada por una variable independiente (factor).
Se calcula de la siguiente manera:
Donde es la suma de los cuadrados debido al modelo (factor) y es la suma de los cuadrados total.
Eta parcial al cuadrado (ηp²)
Eta parcial al cuadrado mide la proporción de la varianza en la variable dependiente que es atribuible a un factor, después de haber controlado el efecto de otros factores en el modelo.
Se calcula de la siguiente manera:
Donde es la suma de los cuadrados del modelo para el factor específico y es la suma de los cuadrados residual.
Estrategias de comparación post-hoc
Para analizar más a fondo los datos después de realizar un ANOVA, utilizo ciertas técnicas estadísticas que permiten entender mejor la realidad de los datos y profundizar en las comparaciones.
Estas estrategias se vuelven especialmente necesarias cuando el ANOVA indica que hay diferencias estadísticamente significativas entre los grupos o niveles de un factor, y necesito entender las diferencias específicas con mayor profundidad. Es decir: cuando encuentro un efecto, decido someter los datos a mayor escrutinio para asegurarme de que las conclusiones son correctas y para entender mejor las diferencias entre grupos o niveles.
El principal motivo por el que efectúo comparaciones después de un ANOVA es reducir el riesgo de error debido a comparaciones secuenciales.
Reducción del riesgo de error
En todos los casos, las comparaciones secuenciales aumentan el riesgo de falsos positivos, también llamado error tipo I. Esto se debe a que cada prueba individual lleva consigo una probabilidad de cometer un error tipo I y estas probabilidades se acumulan con cada prueba adicional realizada.
La relación entre la probabilidad de falso positivo y cantidad de grupos se puede expresar de la siguiente manera:
La lógica es que, cuantos más grupos, en análisis ofrece más comparaciones, como muestra la siguiente table:
Grupos () | Comparaciones () | Probabilidad de Error Tipo I |
---|---|---|
3 | 3 | 0.1426 |
4 | 6 | 0.2649 |
5 | 10 | 0.4013 |
6 | 15 | 0.5367 |
7 | 21 | 0.6594 |
8 | 28 | 0.7622 |
9 | 36 | 0.8422 |
10 | 45 | 0.9006 |
Hay estrategias para reducir el riesgo de cometer error tipo 1. Las más utilizadas son:
- Ajustar manualmente el umbral de significancia: implica ajustar el nivel de significancia () utilizado para determinar la significancia estadística de cada comparación. Este ajuste puede realizarse a través de varios métodos, siendo uno de los más comunes el ajuste de Bonferroni.
- Utilizar valores p ajustados automáticamente: consiste en utilizar valores p que ya han sido ajustados por el software estadístico para reflejar el número de comparaciones realizadas. Los métodos de corrección que podrían aplicarse incluyen Método de Benjamini-Hochberg, Pruebas de Tukey
Estas estrategias son especialmente útiles en estudios exploratorios donde no tengo hipótesis específicas sobre las diferencias entre los grupos o cuando el número de grupos es grande. El objetivo de estas estrategia es identificar qué pares específicos de grupos difieren entre sí.
Pregunta
Las estrategias post hoc deben su nombre a que se llevan a cabo después de realizar el ANOVA. ¿Es esta afirmación correcta?
En las comparaciones post-hoc, el riesgo de cometer un error tipo I es especialmente considerable, porque la naturaleza exploratoria del análisis hace más probable comparar muchos grupos o realizar muchas comparaciones secuenciales. Por eso, las pruebas en comparaciones post-hoc incorporan estrategias post-hoc que disminuyen el riesgo de este error.
Pregunta
El tipo de post hoc se decide en función de si se cumple el supuesto de normalidad o no. ¿Es esta afirmación correcta?
Ajuste de Bonferroni
- Voy a hacer un número planeado de comparaciones.
El ajuste se Bonferroni se puede usar tanto cuando se cumple como cuando no se cumple el supuesto de varianzas iguales:
- Se cumple el principio de varianzas iguales
- Se cumple el principio de varianzas iguales
El ajuste de Bonferroni es utilizado para controlar el incremento en la probabilidad de cometer errores tipo I, que ocurre cuando se realizan múltiples pruebas estadísticas simultáneamente.
El ajuste de Bonferroni no es una prueba en sí misma. Su propósito principal es reducir el riesgo de conclusiones erróneas debido a la casualidad en múltiples pruebas, ajustando el umbral de significancia para cada prueba individual.
El ajuste consiste en dividir el nivel de significancia () por el número de comparaciones:
Si se compara cada par de grupos dentro de un conjunto de grupos:
Donde es el número total de grupos, y es el número total de pares de comparaciones posibles entre estos grupos.
Tras aplicar el ajuste de Bonferroni, se utiliza el nuevo valor p para realizar el contraste de hipótesis, comparando si , usando el valor p ajustado.
Pregunta
En Bonferroni, el valor p se corrige dividiendo p = 0.05 entre el número de grupos que vamos a comparar. ¿Es esta afirmación correcta?
Prueba de Tukey
- Se cumple el principio de varianzas iguales
- Deseo comparar todas las diferencias posibles entre pares de grupos.
Cuando asumo que hay varianzas iguales y deseo realizar comparaciones múltiples entre todos los grupos, la prueba de Tukey es la elección adecuada.
Existen dos variantes de la prueba de Tukey, dependiendo de la igualdad de los tamaños muestrales entre los grupos:
- HSD de Tukey: aplicable cuando el tamaño muestral es igual en todos los grupos.
- Tukey-Kramer: necesario cuando los tamaños de las muestras varían entre los grupos.
Aunque la prueba de Tukey es robusta en el control del error tipo I con múltiples comparaciones. La elección entre HSD de Tukey y Tukey-Kramer depende estrictamente de la homogeneidad de los tamaños muestrales entre los grupos comparados.
Pregunta
Utilizamos Tukey cuando quiero estudiar las diferencias entre todas las combinaciones posibles de grupos. ¿Es esta afirmación correcta?
Otras pruebas (Games-Howell, etc)
- Se cumple el principio de varianzas iguales
- Voy a hacer un número planeado de comparaciones
Cuando no asumo que hay varianzas iguales y no voy a hacer un número previamente conocido de comparaciones, utilizo otras técnicas, como podrían ser Games-Howell, T2 de Tamhane, T3 de Dunnet y C de Dunnet.
Estrategias de comparaciones planeadas
Las comparaciones planeadas, también conocidas como contrastes planeados o a priori, son pruebas específicas que se definen antes de recolectar los datos. Estas pruebas se basan en hipótesis teóricas que predicen diferencias específicas entre grupos seleccionados dentro del estudio.
Pregunta
Los contrastes planeados se pueden llevar a cabo siempre y cuando haya hipótesis específicas antes de recoger los datos del estudio. ¿Es esta afirmación correcta?
A diferencia de las comparaciones post-hoc que se deciden después del análisis inicial y pueden ser numerosas, las comparaciones planeadas deben ser definidas claramente en el diseño de la investigación. No hay un límite fijo en el número de comparaciones planeadas que se pueden realizar; la determinación de cuántos contrastes realizar depende de las hipótesis específicas y los objetivos del estudio.
Es importante señalar que los grupos utilizados en un contraste pueden ser incluidos en otros contrastes si es necesario. Sin embargo, hay una limitación importante: el número de contrastes planeados debe ser igual o inferior al número de grupos menos uno ().
Los grados de libertad para contrastes entre grupos en un ANOVA son , que es el número máximo de comparaciones independientes que pueden realizarse sin sobreajustar el modelo. Esto se debe a que cada grupo aporta una estimación independiente a la varianza total, pero uno de estos grados de libertad se utiliza para estimar la media general, dejando para las comparaciones entre los grupos.
Cada inclusión debe estar bien justificada por la teoría y las hipótesis subyacentes, y se deben aplicar técnicas estadísticas adecuadas para ajustar por múltiples comparaciones y mantener la integridad estadística del estudio. Es fundamental gestionar cuidadosamente el control del error tipo I, especialmente cuando el número de comparaciones aumenta.
Pregunta
En los contrastes planeados, puedo utilizar la misma variable varias veces siempre y cuando el número de contrastes sea igual o inferior al número de grupos menos 1 (k-1). ¿Es esta afirmación correcta?