Saltar al contenido principal

Multitud de grupos

En la sección anterior, explico cómo comparar las medias entre dos ensayos. Para ello, utilizo pruebas como la prueba tt de Student. Sin embargo, estas pruebas no sirven cuando quiero comparar estadísticos de más de dos ensayos. Para comparar medias de tres o más ensayos, necesito analizar la varianza. Es decir, necesito hacer un ANOVA.

Contexto

Introducción

Imagina, en el caso de estudios intragrupo, si una investigación mide el efecto de una terapia en múltiples momentos, no sólo al inicio o al final, sino también durante el estudio. De forma similar, en el caso de estudios intergrupo, si la investigación quiere medir el efecto de varios tratamientos, y por lo tanto necesita el grupo de control y además un grupo por cada tratamiento.

En estos casos, no vale con analizar la media de cada grupo y compararla. Necesito realizar análisis de la varianza (ANOVA), una técnica estadística fundamental que amplía los conceptos de la comparación de medias para evaluar si las diferencias entre las medias de tres o más grupos son estadísticamente significativas.

Esta técnica no solo se centra en comparar las medias directamente, sino que también analiza la varianza para entender cómo la variabilidad dentro de los grupos y entre ellos influye en estas diferencias.

ANOVA

En estadística, en lugar de decir "análisis de la varianza" decimos ANOVA. Este acrónimo proviene de las siglas en inglés (ANanalysis Of VAriance). Es un término muy discendido.

El ANOVA permite descomponer la variación observada en componentes asociados con variables específicas y errores aleatorios, proporcionando una visión más completa de la dinámica entre los grupos y facilitando decisiones informadas sobre la significancia estadística de las diferencias encontradas.

Por otro lado, es importante saber que el análisis de la varianza se hace de forma distinta en función de si la comparación se hace con un factor o con varios factores. En este contexto, un factor es una variable independiente.

¿Por qué no se pueden comparar directamente las medias?

Es muy buena pregunta. Al comparar tres grupos, es cierto que técnicamente podría comparar dos grupos, después otros dos grupos y finalmente hacer una tercera comparación. Por lo tanto, podría hacer tres pruebas tt de Student que me darían la misma información.

Sin embargo, en un estudio con tres ensayos, esto no es recomendable porque el hecho de realizar múltiples cálculos aumenta el error. Es decir, cada comparación entre ensayos tiene su propio margen de error, y este error se iría acumulando en las sucesivas comparaciones.

En términos de probabilidad, la probabilidad de cometer un error tipo 1 en un sólo ensayo se calcula como 10.95=0.05=51 - 0.95 = 0.05 = 5%. Por el contrario, la probabilidad al hacerlo con 3 ensayos aumenta así: 10.95×0.95×0.95=0.143=14.31 - 0.95 \times 0.95 \times 0.95 = 0.143 = 14.3%. Es decir, la probabilidad de error es casi el triple.

Por eso, para comparar medias de tres o más ensayos, necesito analizar la varianza.

Pregunta

El ANOVA se utiliza en lugar de hacer múltiples comparaciones t de Student para evitar el error tipo II.

Prueba F de Fisher

La prueba FF de Fisher es una herramienta versátil y poderosa en el análisis de varianza, utilizada tanto en ANOVA de un factor como en ANOVA de dos factores para detectar diferencias significativas entre grupos y evaluar la influencia de uno o más factores sobre una variable dependiente.

La prueba FF de Fisher puede parecer similar a la prueba tt de Student, pero la lógica subyacente es muy distinta. Lo que varía, concretamente, es cómo se mide la variación no-sistemática.

Cuando realizamos un ANOVA, estamos comparando más de dos ensayos. En este contexto, la variación no-sistemática se refiere a la diferencia entre los sujetos de un mismo ensayo. Esto es distinto a la prueba tt de Student, donde la variación no-sistemática se refiere a la variación entre los grupos.

Prueba tt de StudentPrueba FF de Fisher
Variación sistemáticaVariación intergrupoVariación intergrupo
Variación no-sistemáticaDesvíación estándar de la variación entre grupos (intergrupo)Variación o diferencia entre los sujetos (intragrupo)

Sumas y medias de cuadrados

Para comprender cómo funciona la prueba FF de Fisher, es esencial entender dos conceptos:

  • Sumas de cuadrados (SC): proporcionan una medida de la variabilidad total en los datos.
  • Medias de cuadrados (MC): por el contrario, ajustan esta variabilidad teniendo en cuentra los grados de liberad. Sirven, además, para realizar comparaciones estadísticas formales.

Estos conceptos son parte de la fórmula del estadístico F, por lo que es necesario realizar su cálculo. Pero, además, proporcionan en sí mismos información sobre las comparaciones.

A su vez, estos cuadrados pueden hacer referencia a distintas cosas:

  • Sumas de cuadrados (SC)
    • SCTSC_T: Suma de Cuadrados Total
    • SCMSC_M: Suma de Cuadrados del Modelo (variabilidad explicada por las diferencias entre grupos)
    • SCRSC_R: Suma de Cuadrados Residual (variabilidad dentro de los grupos)
    • SCT=SCM+SCRSC_T = SC_M + SC_R
  • Medias de cuadrados (MC)
    • MCMMC_M: Media de cuadrados del Modelo (SCM÷dfMSC_M ÷ df_M)
    • MCRMC_R: Media de cuadrados Residual (SCR÷dfRSC_R ÷ df_R)
¿Por qué cuadrados?

Se llaman cuadrados porque se calculan al elevar al cuadrado las diferencias entre las observaciones y las medias. Esto cumple varios propósitos: por un lado, elimina los valores negativos, permitiendo una suma efectiva de diferencias; y por otro lado, amplifica las diferencias más grandes, dándoles mayor peso en el análisis.

Lógica del estadístico F

La prueba FF de Fisher se calcula como la razón de la variación sistemática a la no-sistemática. En el contexto de un ANOVA, esto se puede expresar de tres maneras:

Primero, de forma general:

F=Variacioˊn sistemaˊticaVariacioˊn no-sistemaˊticaF = \frac{\text{Variación sistemática}}{\text{Variación no-sistemática}}

Después, puedo concretar más sobre la naturaleza de la variación. Sabiendo que estoy comparando distintos grupos, la variación no-sistemática es precisamente la variación dentro de los sujetos de un mismo grupo:

F=Variacioˊn entre los gruposVariacioˊn entre los sujetos del mismo grupoF = \frac{\text{Variación entre los grupos}}{\text{Variación entre los sujetos del mismo grupo}}

En el caso de un ANOVA de dos factores, se podría añadir un pequeño matiz, ya que se analizan dos variables independientes y además la interacción entre ambas:

F=Variacioˊn entre los grupos o nivelesVariacioˊn entre los sujetos del mismo grupoF = \frac{\text{Variación entre los grupos o niveles}}{\text{Variación entre los sujetos del mismo grupo}}

Finalmente, puedo utilizar la expresión matemática. La diferencia entre los grupos es, técnicamente hablando, la Media de Cuadrados del Modelo (MCMMC_M); y la diferencia dentro de cada grupo es la Media de Cuadrados Residual (MCRMC_R). Por lo tanto:

F=MCMMCRF = \frac{MC_M}{MC_R}

Para esto, precisamente, calculo las medias de cuadrados.

En resumen:

F=Variacioˊn sistemaˊticaVariacioˊn no-sistemaˊtica=MCMMCR=Variacioˊn entre grupos o nivelesVariacioˊn entre los sujetos del mismo grupoF = \frac{\text{Variación sistemática}}{\text{Variación no-sistemática}} = \frac{MC_M}{MC_R} = \frac{\text{Variación entre grupos o niveles}}{\text{Variación entre los sujetos del mismo grupo}}

Un valor de FF significativamente alto sugiere que las diferencias entre las medias de los grupos son más grandes de lo que se esperaría por la variación aleatoria dentro de los grupos, lo que indica efectos significativos del factor o variables estudiadas.

Cálculo

Hacer la prueba FF de Fisher consiste en calcular el estadístico FF. Para ello, hay que hacer varios cálculos intermedios a partir de los datos del estudio. Por ejemplo, es necesario calcular las sumas de cuadrados y las medias de cuadrados. Luego se aplica la fórmula y se consulta la distribución F para determinar si el valor calculado del estadístico F es suficientemente extremo como para rechazar la hipótesis nula.

A continuación, explico los pasos en detalle.

1. Calcular las sumas de cuadrados

Este paso consiste en encontrar tres valores a partir de los datos de la muestra:

  • SCTSC_T: Suma de los cuadrados total
  • SCMSC_M: Suma de los cuadrados del modelo
  • SCRSC_R: Suma de los cuadrados residual
Suma de los cuadrados total (SCT)

La suma de los cuadrados total (SCTSC_T) es la cantidad de variación total que se ha producido en el estudio, independientemente del ensayo al que pertenecen los casos. Es decir, es la variación entre datos en todos los sujetos.

SCT=i=1n(xixˉT)2SC_T = \sum_{i=1}^n (x_i - \bar{x}_T)^2
  • xˉT\bar{x}_T es la media total, calculada usando la fórmula de la media xˉ=i=1nxin\bar{x} = \frac{\sum_{i=1}^n x_i}{n}
  • xix_i es cada una de las puntuaciones observadas

Por ejemplo, consideremos el siguiente conjunto de datos, en el que hay 6 participantes divididos en tres grupos.

🙋GrupoPuntuación (xix_i)
1A57
2A55
3B55
4B55
5C62
6C78

Primero calculo la media de todos los casos:

xˉT=57+55+55+55+62+786=60,3333\bar{x}_T = \frac{57 + 55 + 55 + 55 + 62 + 78}{6} = 60,3333

Ahora, puedo aplicar el primer paso de la fórmula:

🙋GrupoPuntuación (xix_i)(xixˉT)2(x_i - \bar{x}_T)^2
1A57(5760.3333)2=11.1108(57 - 60.3333)^2 = 11.1108
2A55(5560.3333)2=28.4440(55 - 60.3333)^2 = 28.4440
3B55(5560.3333)2=28.4440(55 - 60.3333)^2 = 28.4440
4B55(5560.3333)2=28.4440(55 - 60.3333)^2 = 28.4440
5C62(6260.3333)2=2.7778(62 - 60.3333)^2 = 2.7778
6C78(7860.3333)2=312.1122(78 - 60.3333)^2 = 312.1122

Finalmente, hay que sumar todos los valores 11.1108+28.4440+28.4440+28.4440+2.7778+312.1122=411.3328 11.1108 + 28.4440 + 28.4440 + 28.4440 + 2.7778 + 312.1122 = 411.3328. Es decir, que la suma de los cuadrados total (SCTSC_T) es 411.3328.

Suma de los cuadrados del modelo (SCM)

La suma de los cuadrados del modelo (SCMSC_M) es la cantidad de variación que se debe a las diferencias entre ensayos. Es decir, es la variación entre datos de un grupo a otro.

SCM=i=1nn×(xˉExˉT)2SC_M = \sum_{i=1}^n n \times (\bar{x}_E - \bar{x}_T)^2
  • xˉT\bar{x}_T es la media total, que ya conocemos por el paso anterior: xˉT=60,3333\bar{x}_T = 60,3333
  • xˉE\bar{x}_E es la media del ensayo
  • nEn_E es la cantidad de casos que hay en ese ensayo o grupo, que se que son 2
GrupoMedia del grupo (xˉE\bar{x}_E)nE×(xˉExˉT)2n_E \times (\bar{x}_E - \bar{x}_T)^2
AxˉA=57+552=56\bar{x}_A = \frac{57 + 55}{2} = 562×(5660.3333)2=37.55482 \times (56 - 60.3333)^2 = 37.5548
BxˉA=55+552=55\bar{x}_A = \frac{55 + 55}{2} = 552×(5560.3333)2=56.8882 \times (55 - 60.3333)^2 = 56.888
CxˉA=62+782=70\bar{x}_A = \frac{62 + 78}{2} = 702×(7060.3333)2=186.892 \times (70 - 60.3333)^2 = 186.89

Finalmente, hay que sumar todos los valores 37.5548+56.888+186.89=281.3328 37.5548 + 56.888 + 186.89 = 281.3328. Es decir, que la suma de los cuadrados del modelo (SCMSC_M) es 281.3328.

Suma de los cuadrados residual (SCR)

La suma de los cuadrados residual (SCRSC_R) es la cantidad de variación que se debe a factores distintos a la manipulación experimental. Es decir, es la variación entre datos que no puede ser explicada por el modelo.

La fórmula es SCR=SCTSCMSC_R = SC_T - SC_M. Puesto que en los pasos anteriores hemos calculado SCTSC_T y SCMSC_M, puedo calcular SCRSC_R sin mucho lío:

SCR=SCTSCM=411.3328281.3328=130SC_R = SC_T - SC_M = 411.3328 - 281.3328 = 130

Es decir, que la suma de los cuadrados residual (SCRSC_R) es 130.

2. Calcular las medias de cuadrados

El siguiente paso es calcular la media de cuadrados.

Para ello, hay que conocer los grados de libertad (glgl, o dfdf por sus siglas en inglés) totales, del modelo y residuales. Los grados de libertad se calculan de la siguiente manera:

df=n1df = n - 1
¿Por qué n1n - 1 y no simplemente nn?

La razón de utilizar n1n - 1 en lugar de nn se debe a que, cuando calculo la variación entre grupos, estamos interesados en cuánto se desvía cada grupo de la media general. Ya que la suma de las desviaciones de las medias de los grupos respecto a la media total es cero, una de las desviaciones no es independiente y debe calcularse a partir de las otras. Esto reduce el número de desviaciones independientes a n1n - 1.

Sin embargo, hay que tener en cuenta que nn es distinto para SCTSC_T y SCMSC_M. En el caso de SCTSC_T, n es 6 porque es el total de casos. Pero en SCMSC_M, el tamaño nn se refiere a la cantidad de grupos, que es 3.

Por lo tanto, cada uno de ellos:

  • dfT=61=5df_T = 6-1 = 5
  • dfM=31=2df_M = 3-1 = 2
  • dfR=dfTdfM=52=3df_R = df_T - df_M = 5 - 2 = 3

Ahora que tenemos los grados de libertad, puedo calcular la media de cuadrados:

MCM=SCMdfM=281.33282=140.6664MC_M = \frac{SC_M}{df_M} = \frac{281.3328}{2} = 140.6664 MCR=SCRdfR=1303=43.3333MC_R = \frac{SC_R}{df_R} = \frac{130}{3} = 43.3333

Por fin, se que MCM=56.2665MC_M = 56.2665 y MCR=43.3333MC_R = 43.3333. Ahora puedo aplicar la fórmula del estadístico F.

3. Aplicar la fórmula de F

Finalmente, concluyo la prueba FF de Fisher aplicando la fórmula del valor F. Matemáticamente, el estadístico F se calcula de la siguiente manera:

F=MCMMCRF = \frac{MC_M}{MC_R} F=56.266543.3333=1.2984F = \frac{56.2665}{43.3333} = 1.2984

Recordemos que el valor FF representa la razón de dos varianzas y se utiliza para determinar si las diferencias entre las medias de varios grupos son estadísticamente significativas. Sin embargo, aún no se si 1.2984 es un valor alto o bajo.

Pregunta

La fórmula del valor F consiste en dividir la variación debida al azar entre individuos del mismo grupo, por la variación entre las medias de los diferentes grupos debida al azar y al efecto del tratamiento (si lo hay). ¿Es esta afirmación correcta?

4. Encontrar el valor F crítico en la tabla de distribución F

Para saber si el valor F obtenido proporciona suficiente evidencia para rechazar la hipótesis nula, lo comparo contra un valor F crítico. El valor F crítico depende de los grados de libertad del modelo, grados de libertad residuales y el nivel de significancia elegido (α\alpha).

El valor F crítico se expresa como:

Fk1,nk\large F_{\small k-1, n-k}
  • kk es la cantidad de grupos
  • nn es la cantidad total de sujetos

En este caso, kk es 3 y nn es 6. Por lo tanto:

Fk1,nk=F31,63=F2,3F_{\small k-1, n-k} = F_{\small 3-1, 6-3} = F_{\small 2, 3}

Para encontrar el valor equivalente a F2,3F_{2, 3}, hay que consultar la tabla de distribución F, en las coordenadas 2 y 3, para el nivel de significación escogido: α=0.05\alpha = 0.05.

Tras comprobar la tabla, vemos que F2,3=19.164F_{2, 3} = 19.164

df2\df112345678
1161.448199.5215.707224.583230.162233.986236.768238.883
218.51319

19.164

19.24719.29619.3319.35319.371
310.1289.5529.2779.1179.0138.9418.8878.845
47.7096.9446.5916.3886.2566.1636.0946.041
56.6085.7865.4095.1925.054.954.8764.818

5. Realizar el contraste de hipótesis

Ahora que se tanto el valor F del modelo, como el valor F crítico, puedo hacer el contraste de hipótesis:

  • Si F>Fk1,nkF > F_{\normalsize k-1, n-k}, rechazamos la hipótesis nula
  • Si FFk1,nkF \leq F_{\normalsize k-1, n-k}, aceptamos la hipótesis nula

En este caso, no se cumple la condición:

F=1.2984Fk1,nk=19.164\boxed{F = 1.2984} \ngtr \boxed{F_{k-1, n-k} = 19.164}

Por lo tanto, no puedo rechazar la hipótesis nula. Es decir, que sea cual sea la intervención, no ha afectado de forma significativa los resultados de los ensayos.

ANOVA de un factor

En esta sección explico cómo realizar un ANOVA de un factor. Es decir, comparar la media de más de dos ensayos cuando sólo varía una variable dependiente.

En el contexto de ANOVA de un factor, la prueba FF de Fisher se refiere específicamente al uso del estadístico F para evaluar la significancia estadística de las diferencias entre las medias de los grupos. El estadístico F refleja cuánto mayor es la variación entre los grupos que la variación esperada por casualidad, basándose en la distribución F.

ANOVA unifactorial para grupos independientes

El ANOVA unifactorial para grupos independientes se utiliza cuando se quiere comparar las medias de tres o más grupos que son independientes entre sí, es decir, no hay ninguna relación o emparejamiento entre los sujetos de los distintos grupos. Este tipo de ANOVA examina el efecto de una sola variable independiente (factor) sobre una variable dependiente cuantitativa.

Ejemplo

Un investigador quiere evaluar el efecto de tres diferentes dietas (A, B, C) sobre el peso corporal. Cada sujeto participa en una y solo una de las dietas, haciendo que los grupos sean independientes.

Cálculo con SPSS

Los pasos a seguir en SPSS son:

  1. Cargar los datos
  2. Abrir la barra de herramientas Analizar y desplegar Modelo lineal general.
  3. Hacer click en la opción Univariado.
  4. En la ventana que se ha abierto:
    • Añadir la variable dependiente al cuadro Variable dependiente.
    • A la variable independiente al cuadro Factores fijos.
  5. Hacer click sobre Gráficos.
  6. En la ventana que se ha abierto:
    • Añadir la variable independiente al cuadro Eje horizontal.
    • Hacer click sobre Añadir.
    • Seleccionar Gráfico de líneas.
    • Seleccionar Incluir barras de error.
    • Hacer click sobre Continuar.
  7. Hacer click sobre Post hoc.
  8. En la ventana que se ha abierto:
    • Añadir la variable independiente al cuadro Pruebas post hoc para.
    • Marcar las pruebas que interesen, como Bonferroni.
    • Hacer click sobre Continuar.
  9. Hacer click sobre Opciones.
  10. En la ventana que se ha abierto:
    • Marcar el checkbox Estadísticos descriptivos.
    • Marcar el checkbox Estimaciones del tamaño del efecto.
    • Marcar el checkbox Pruebas de homogeneidad.
    • Hacer click sobre Continuar.
  11. Hacer click sobre Aceptar.

Esto crea una hoja con seis grupos de datos:

  1. Factores inter-sujetos: contiene el tamaño muestral de cada grupo.
  2. Estadísticos descriptivos: las medias y desvíaciones típicas de cada grupo.
  3. Prueba de Levene: contiene los resultados de la prueba de Levene para verificar si las varianzas son homogéneas. Si la prueba de Levene arrojase un valor de significación menor que α\alpha (generalmente α=0.05\alpha = 0.05), significa que las varianzas no son iguales. Por lo tanto, sería necesario repetir el proceso, pero en lugar de usando Bonferroni, deberíamos utilizar la prueba de Games-Howell.
  4. Prueba del efecto inter-sujeto: contiene el análisis de la varianza (ANOVA) utilizando la Prueba F de Fisher. Nos muestra, además del estadístico F resultante de la prueba, los valores intermedios como las sumas de cuadrados o los grados de libertad. Asimismo, muestra el tamaño del efecto con ηp2\eta_p^2 (eta parcial al cuadrado) y la significación. Con esta información, puedo hacer dos cosas:
    • Contrastar la hipótesis nula: si la significación es menor que α\alpha (generalmente α=0.05\alpha = 0.05), rechazo la hipótesis nula.
    • Medir el tamaño del efecto: consultando los valores estándar de η2\eta^2, se el tamaño del efecto. Por ejemplo, si fuera 0.5\geq 0.5 , sería un efecto muy grande.
  5. Comparaciones múltiples: contiene las comparaciones post-hoc, para las que hemos elegido el ajuste de Bonferroni. Muestra, para cada posible comparación entre grupos, la diferencia entre las medias, el nivel de significación y el valor de significación (p) ajustado. Con esta información, puedo:
    • Contrastar la hipótesis nula: consulto la tabla para ver qué comparación tiene significación menor que la significación ajustada.
  6. Medias marginales estimadas: muestra una gráfica con la puntuación de los distintos grupos. Con esta información, también puedo contrastar la hipótesis nula. En esencia: si todas las comparaciones están en la misma línea, significa que no hay diferencias. Sin embargo, si alguna de las comparaciones se desmarca de las demás, y en una medida que es mayor que las barras de error, significa que sí hay diferencias significativas en esa comparación.

ANOVA unifactorial para grupos dependientes (medidas repetidas)

El ANOVA unifactorial para grupos dependientes, también conocido como ANOVA para medidas repetidas, se utiliza cuando los mismos sujetos participan en todas las categorías que se están comparando o cuando los sujetos en los diferentes grupos están emparejados de alguna manera (por ejemplo, por características demográficas).

Ejemplo

Un estudio en el que se mide el nivel de estrés de un grupo de pacientes antes, durante, y después de completar un programa de terapia. Aquí, cada paciente es medido en tres puntos de tiempo, haciendo que las muestras sean dependientes.

Prueba de esfericidad

Como norma general, para verificar el supuesto de homogeneidad de varianzas en ANOVA unifactorial para grupos independientes, utilizo la prueba de Levene. Sin embargo, en el contexto de ANOVA unifactorial para grupos dependientes (o medidas repetidas), el supuesto relevante no es la homogeneidad de varianzas entre las mediciones, sino la esfericidad de las covarianzas entre todas las diferencias de las comparaciones de medidas repetidas.

Por eso, en lugar de la prueba de Levene, utilizo la prueba de esfericidad de Mauchly.

Pregunta

La esfericidad es un supuesto que debe cumplirse en el ANOVA de medidas repetidas. ¿Es esta afirmación correcta?

Cálculo con SPSS

Los pasos a seguir en SPSS son:

  1. Cargar los datos
  2. Abrir la barra de herramientas Analizar y desplegar Modelo lineal general.
  3. Hacer click en la opción Medidas repetidas.
  4. Primero definimos los factores. En la ventana que se ha abierto:
    • Añadir el Número de niveles, que es la cantidad de mediciones que voy a comparar. Por ejemplo, en un estudio en el que mido 3 veces a los participantes, el número de niveles sería 3.
    • Opcionalmente, poner un nombre a la variable.
    • Hacer click sobre Definir.
  5. Ahora seleccionamos los niveles de las medidas repetidas. En la nueva ventana:
    • Añadir los niveles de la variable independiente de manera ordenada. Por ejemplo, primero meto la primera medición, después la segunda y abajo del todo la tercera.
    • Hacer click sobre Gráficos.
  6. Seleccionamos los gráficos. En la ventana que se ha abierto:
    • Añadir la variable independiente (el factor) al cuadro Eje horizontal.
    • Hacer click sobre Añadir.
    • Seleccionar Gráfico de líneas.
    • Seleccionar Incluir barras de error.
    • Hacer click sobre Continuar.
  7. Hacer click sobre Medias marginales estimadas.
  8. En la ventana que se ha abierto:
    • Añadir la variable independiente (el factor) al cuadro Mostrar medias para.
    • Marcar el checkbox Comparar los efectos principales.
    • Seleccionar el Ajuste del intervalo de confianza, generalmente Bonferroni.
    • Hacer click sobre Continuar.
  9. Hacer click sobre Opciones.
  10. En la ventana de opciones que se ha abierto:
    • Marcar el checkbox Estadísticos descriptivos.
    • Marcar el checkbox Estimaciones del tamaño del efecto.
    • Marcar el checkbox Pruebas de homogeneidad.
    • Hacer click sobre Continuar.
  11. Hacer click sobre Aceptar.

Esto crea una hoja con varios grupos de datos, entre ellos:

  1. Prueba de esfericidad de Mauchly: Evalúa la esfericidad de las covarianzas entre las medidas repetidas. Si la significación de la prueba de esfericidad es menor que α\alpha, significa que el supuesto de esfericidad ha sido violado, indicando que las covarianzas no son homogéneas.
  2. Prueba del efecto intrasujetos: contiene el análisis de la varianza (ANOVA) utilizando la Prueba F de Fisher. Nos muestra, además del estadístico F resultante de la prueba, los valores intermedios como las sumas de cuadrados o los grados de libertad. Asimismo, muestra el tamaño del efecto con ηp2\eta_p^2 (eta parcial al cuadrado) y la significación.
    • Hay tres filas: Esfericidad asumida, Greenhouse-Gelsser y Huyhn-Feldt. Si se cumple el supuesto de esfericidad, de acuerdo a la prueba de esfericidad, me fijo en los valores de la fila Esfericidad asumida; de lo contrario, me fijo en los valores de la fila Greenhouse-Gelsser. Con esta información puedo:
      • Contrastar la hipótesis nula: si la significación es menor que α\alpha (generalmente α=0.05\alpha = 0.05), rechazo la hipótesis nula.
      • Medir el tamaño del efecto: consultando los valores estándar de η2\eta^2, se el tamaño del efecto. Por ejemplo, si fuera 0.5\geq 0.5 , sería un efecto muy grande.
  3. Comparaciones por parejas: contiene las comparaciones post-hoc, para las que hemos elegido el ajuste de Bonferroni. Muestra, para cada posible comparación entre grupos, la diferencia entre las medias, el nivel de significación y el valor de significación (p) ajustado. Con esta información, puedo:
    • Contrastar la hipótesis nula: consulto la tabla para ver qué comparación tiene significación menor que la significación ajustada.
  4. Medias marginales estimadas: muestra una gráfica con la puntuación de los distintos niveles. Con esta información, también puedo contrastar la hipótesis nula. En esencia: si todas las comparaciones están en la misma línea, significa que no hay diferencias. Sin embargo, si alguna de las comparaciones se desmarca de las demás, y en una medida que es mayor que las barras de error, significa que sí hay diferencias significativas en esa comparación. En un estudio prospectivo de series temporales, cabría pensar que de un nivel a otro haya cambios, siguiendo una progresión en la misma dirección.

Pregunta

Utilizo el ANOVA unifactorial de medidas repetidas cuando estoy ante el diseño clásico de comparación de un grupo control y dos o más grupos que reciben distintos tipos de tratamiento. ¿Es esta afirmación correcta?

ANOVA no-paramétrico

Este tipo de análisis es útil para datos que son ordinales, no cumplen con la distribución normal, o cuando las muestras son pequeñas.

Hay varios métodos no-paramétricos que pueden ser utilizados para el análisis de varianza, dependiendo del diseño del estudio y de los datos específicos. El más común es la prueba HH de Kruskal-Wallis.

La prueba HH de Kruskal-Wallis el equivalente no-paramétrico del ANOVA de un factor. Se usa para comparar tres o más grupos independientes. Dicho de otra manera: Kruskal-Wallis es una alternativa al ANOVA unifactorial que no requiere la normalidad de los datos y es adecuado para datos ordinales o cuando las muestras son pequeñas.

Ejemplo

Comparar las calificaciones de tres diferentes grupos de estudiantes en un examen. Dado que las calificaciones no necesariamente siguen una distribución normal, la prueba de Kruskal-Wallis sería el método adecuado para analizar estas diferencias.

Hay otra prueba, llamada prueba de Friedman, que es apropiada cuando las muestras son dependientes. Es decir, para medidas repetidas o emparejadas.

Pregunta

Cuando el supuesto de normalidad no se cumple, debemos llevar a cabo un análisis no paramétrico llamado Kruskal-Wallis. ¿Es esta afirmación correcta?

Cálculo con SPSS

Los pasos a seguir en SPSS son:

  1. Cargar los datos
  2. Abrir la barra de herramientas Analizar y desplegar Pruebas no paramétricas.
  3. Hacer click en la opción Muestras independientes.
  4. Primero definimos el objetivo factores. En la ventana que se ha abierto:
    • Marcamos la opción Personalizar análisis.
    • Hacer click sobre Campos.
  5. Ahora seleccionamos los campos. En la nueva pestaña:
    • Añadir las variables dependientes al cuadro Campos de prueba.
    • Añadir la variable de agrupación (o sea, la independiente o factor) al cuadro Grupos.
    • Hacer click sobre Configuración.
  6. Seleccionamos la configuración gráficos. En la nueva pestaña:
    • Seleccionar el checkbox Personalizar pruebas.
    • Seleccionar el checkbox ANOVA de 1 factor de Kruskal-Wallis (k muestras).
  7. Hacer click sobre Ejecutar.

Esto crea una hoja con varios grupos de datos, entre ellos:

  1. Resumen de prueba de hipótesis: contiene una tabla en la que cada fila representa la distribución de cada variable dependiente a lo largo de la variable de agrupación, y las columnas son directamente la expresión de la hipótesis nula, la significación y la decisión sobre si rechazar o aceptar la hipótesis nula.

ANOVA de dos factores

Tras explicar cómo realizar un ANOVA de un factor, voy a explicar el ANOVA de dos factores. Es decir, comparar la media de más de dos ensayos cuando varían dos o más variables dependientes.

Por ejemplo, imagina que quiero medir, por un lado, qué fármaco tiene mayor efecto sobre la ansiedad, y por otro lado, qué vía de administrar el fármaco tiene mayor efecto sobre la ansiedad. Es decir, habría dos variables independientes. Para ello, reclutamos tres grupos; uno por cada fármaco, y otro de control. Esto da lugar a 6 combinaciones (3×2)3 \times 2):

Fármaco AFármaco BControl
Vía de administración ACombinación 1Combinación 2Combinación 3
Vía de administración BCombinación 4Combinación 5Combinación 6

La forma correcta de verlo es en términos de variable dependiente vs. independiente, y cuantificar cuántos niveles tiene cada una. Como puedo ver, tenemos dos variables independientes:

  • Variables independientes
    1. Fármaco
      1. Fármaco A
      2. Fármaco B
    2. Vía de administración
      1. Vía de administración A
      2. Vía de administración B
  • Variables dependientes
    1. Puntuación en el test de ansiedad

Eso significa que hay que hacer tres contrastes, un contraste por cada variable independiente, y además otro contraste para medir el efecto de las interacciones entre las variables independientes.

  1. H0H_0: El fármaco no ha tenido ningún efecto:

    • xˉfaˊrmaco A=xˉfaˊrmaco B=xˉcontrol\large \bar{x}_{\text{fármaco A}} = \bar{x}_{\text{fármaco B}} = \bar{x}\scriptsize control
  2. H0H_0: La vía de administración no tiene efecto:

    • xˉvıˊa A=xˉvıˊa B=xˉcontrol\large \bar{x}_{\text{vía A}} = \bar{x}_{\text{vía B}} = \bar{x} \scriptsize control
  3. H0H_0: La variación entre la combinación de fármaco y vía de administración no tiene efecto:

    • xˉfaˊrmaco A, vıˊa A=xˉfaˊrmaco A, vıˊa B=xˉfaˊrmaco B, vıˊa A=xˉfaˊrmaco B, vıˊa B=xˉcontrol\bar{x}_{\text{fármaco A, vía A}} = \bar{x}_{\text{fármaco A, vía B}} = \bar{x}_{\text{fármaco B, vía A}} = \bar{x}_{\text{fármaco B, vía B}} = \bar{x} \scriptsize control

Pregunta

En una comparación de tres o más medias, la hipótesis nula siempre es que...

Lógica del estadístico F

El resultado de estos contrastes de podría visualizar en un gráfico de líneas, de la siguiente manera:

Para encontrar estos valores, tengo que calcular el estadístico F; al igual que hago el ANOVA de un factor. Sin embargo, al tener varias variables independientes, necesito varias F.

F=Variacioˊn en ansiedad debida al faˊrmacoVariacioˊn en ansiedad no-sistemaˊtica\small F = \frac{\text{Variación en ansiedad debida al fármaco}}{\text{Variación en ansiedad no-sistemática}} F=Variacioˊn en ansiedad debida a la vıˊa de administracioˊnVariacioˊn en ansiedad no-sistemaˊtica\small F = \frac{\text{\small Variación en ansiedad debida a la vía de administración}}{\text{Variación en ansiedad no-sistemática}} F=Variacioˊn en ansiedad debida a la interaccioˊn entre faˊrmaco y vıˊaVariacioˊn en ansiedad no-sistemaˊtica\small F = \frac{\text{\footnotesize Variación en ansiedad debida a la interacción entre fármaco y vía}}{\text{Variación en ansiedad no-sistemática}}

ANOVA de dos factores paramétrico

Como he explicado, El ANOVA de dos factores es un análisis de varianza de dos vías. En esencia, permite investigar los efectos de dos factores diferentes de manera simultánea sobre una variable dependiente.

El ANOVA de dos factores puede ser tanto paramétrico como no paramétrico, y la elección entre uno y otro depende principalmente de las propiedades de los datos con los que se trabaja. Es decir: depende del conjunto de suposiciones que debe cumplir la distribución de los datos para que el análisis sea válido, como la normalidad. En este caso, voy a explicar cómo calcular un ANOVA de dos factores paramétrico.

Cálculo con SPSS

Los pasos a seguir en SPSS son:

  1. Cargar los datos
  2. Abrir la barra de herramientas Analizar y desplegar Modelo lineal general.
  3. Hacer click en la opción Univariado.
  4. Añadir la variable dependiente al cuadro Variable dependiente
  5. Añadir las variables independientes al cuadro Factores fijos.
  6. Hacer click sobre Gráficos.
  7. Ahora selecciono los gráficos. En esta nueva ventana:
    • Añadir una de las variables independientes al cuadro Eje horizontal.
    • Añadir la otra variable independiente al cuadro Líneas separadas.
    • Seleccionar Gráfico de líneas e Incluir barras de error.
    • Hacer click sobre Continuar.
  8. Hacer click sobre Post hoc.
  9. Ahora selecciono las pruebas. En esta nueva ventaja:
    • Añadir ambas variables independientes al cuadro Pruebas post hoc para.
    • Seleccionar el checkbox Bonferroni.
    • Seleccionar el checkbox Tukey.
    • Seleccionar el checkbox Duncan.
    • Hacer click sobre Continuar.
  10. Hacer click sobre Opciones.
  11. Ahora selecciono las opciones. En esta nueva ventana:
    • Seleccionar el checkbox Estadísticos descriptivos.
    • Seleccionar el checkbox Estimaciones del tamaño del efecto.
    • Seleccionar el checkbox Pruebas de homogeneidad.
    • Hacer click sobre Continuar.
  12. Hacer click sobre Aceptar.

Esto crea una hoja con varios grupos de datos, entre ellos:

  1. Prueba de igualdad de Levene de varianzas de error: contiene los resultados de la prueba de Levene para verificar si las varianzas son homogéneas. Si la prueba de Levene arrojase un valor de significación menor que α\alpha (generalmente α=0.05\alpha = 0.05), significa que las varianzas no son iguales. Por lo tanto, sería necesario repetir el proceso de comparación post hoc, pero en lugar de usando Bonferroni, deberíamos utilizar la prueba de Games-Howell.
  2. Prueba del efecto: contiene el análisis de la varianza utilizando la Prueba F de Fisher. Nos muestra, además del estadístico F resultante de la prueba, los valores intermedios como las sumas de cuadrados o los grados de libertad. Asimismo, muestra el tamaño del efecto con ηp2\eta_p^2 (eta parcial al cuadrado) y la significación. Con esta información, puedo hacer dos cosas:
    • Contrastar las hipótesis nulas: puesto que es un análisis de dos factores, hay tres hipótesis nulas: una para cada variable independiente, y otra para la intersección de ambas. Por lo tanto, miro en cada una de esas filas si la significación es menor que α\alpha (generalmente α=0.05\alpha = 0.05). En caso afirmativo, rechazo la hipótesis nula, pero sólo para esa variable.
    • Medir el tamaño del efecto: consultando los valores estándar de η2\eta^2, se el tamaño del efecto. Por ejemplo, si fuera 0.5\geq 0.5 , sería un efecto muy grande, pero sólo para esa variable.
  3. Comparaciones múltiples: contiene las comparaciones post-hoc, para las que hemos elegido el ajuste de Bonferroni, las pruebas de Tukey y de Duncan. Esta tabla muestra, para cada posible comparación entre variables, la diferencia entre las medias y el nivel de significación, entre otras cosas. Con esta información, puedo:
    • Contrastar las hipótesis nulas: consulto la tabla para ver qué comparación tiene significación menor que α\alpha, y acepto o rechazo la hipótesis nula de acuerdo a ese valor. Sin embargo, no sé si el efecto sobre la variable dependiente es positivo o negativo; es decir: directo o inverso - para eso tengo que mirar los estadísticos descriptivos.
  4. Estadísticos descriptivos: contiene una tabla que muestra, por cada posible combinación, la media, la desviación y el tamaño. Con esta información, puedo:
    • Comprobar la dirección de las diferencias: después de saber qué combinaciones tienen significación suficiente para rechazar la hipótesis nula, consulto la tabla para ver si esa comparación tiene un efecto positivo o negativo. Para ello, observo si el valor de las medias para esa comparación es mayor o menos que las medias del control.
  5. Medias marginales estimadas de la variable dependiente: contiene el gráfico de líneas con barras de error. Con esta información puedo, de forma visual, saber tanto si el efecto de una variable sobre otra es significativo como si el efecto es positivo o negativo. El resultado es exactamente el gráfico que he enseñado antes:

Como se puede observar, la puntuación de ansiedad es mayor en el control que en ambos fármacos. Sin embargo, no hay grandes diferencias causadas por las distintas vías de administración. Para comprobar exactamente cuáles son los valores, tendría que observar las tablas de descriptivos y de prueba del efecto.

Tamaño del efecto (eta2)

Para medir la intensidad del efecto, tanto en ANOVA de un factor como de dos factores, utilizo la prueba η2\eta^2 (eta cuadrado). Esta prueba cuantifica la proporción de la variable dependiente que está explicada por la variable independiente. Es decir, calcula el tamaño del efecto.

Aunque su finalidad es la misma que la dd de Cohen, sus rangos son distintos. Los valores de η2\eta^2 oscilan entre 0 y 1. No puede tener valores negativos, ni superar el 1:

  • Efecto muy pequeño o trival: η2<0.01\eta^2 < 0.01
  • Efecto pequeño: 0.01η2<0.060.01 \leq \eta^2 < 0.06
  • Efecto moderado: 0.06η2<0.140.06 \leq \eta^2 < 0.14
  • Efecto grande: 0.14η2<0.50.14 \leq \eta^2 < 0.5
  • Efecto muy grande: d0.5d \geq 0.5

Sin embargo, η2\eta^2 tiene dos variantes:

  • Prueba η2\eta^2 (eta al cuadrado).
  • Prueba ηp2\eta_p^2 (eta parcial al cuadrado).

Pregunta

El valor eta² es un tamaño del efecto que puede ser negativo y que se utiliza para interpretar la magnitud de las diferencias entre dos medias. ¿Es esta afirmación correcta?

Eta al cuadrado (η2)

Eta al cuadrado es una medida del tamaño del efecto que indica la proporción de la varianza total en la variable dependiente que es explicada por una variable independiente (factor).

Se calcula de la siguiente manera:

η2=SCMSCT\eta^2 = \frac{SC_M}{SC_T}

Donde SCMSC_M es la suma de los cuadrados debido al modelo (factor) y SCTSC_T es la suma de los cuadrados total.

Eta parcial al cuadrado (ηp2)

Eta parcial al cuadrado mide la proporción de la varianza en la variable dependiente que es atribuible a un factor, después de haber controlado el efecto de otros factores en el modelo.

Se calcula de la siguiente manera:

ηp2=SCMSCM+SCR\eta_p^2 = \frac{SC_M}{SC_M + SC_R}

Donde SCMSC_M es la suma de los cuadrados del modelo para el factor específico y SCRSC_R es la suma de los cuadrados residual.

Estrategias de comparación post-hoc

Para analizar más a fondo los datos después de realizar un ANOVA, utilizo ciertas técnicas estadísticas que permiten entender mejor la realidad de los datos y profundizar en las comparaciones.

Estas estrategias se vuelven especialmente necesarias cuando el ANOVA indica que hay diferencias estadísticamente significativas entre los grupos o niveles de un factor, y necesito entender las diferencias específicas con mayor profundidad. Es decir: cuando encuentro un efecto, decido someter los datos a mayor escrutinio para asegurarme de que las conclusiones son correctas y para entender mejor las diferencias entre grupos o niveles.

El principal motivo por el que efectúo comparaciones después de un ANOVA es reducir el riesgo de error debido a comparaciones secuenciales.

Reducción del riesgo de error

En todos los casos, las comparaciones secuenciales aumentan el riesgo de falsos positivos, también llamado error tipo I. Esto se debe a que cada prueba individual lleva consigo una probabilidad de cometer un error tipo I y estas probabilidades se acumulan con cada prueba adicional realizada.

La relación entre la probabilidad de falso positivo y cantidad de grupos se puede expresar de la siguiente manera:

Comparaciones=k(k1)2\text{Comparaciones} = \frac{k(k-1)}{2}

La lógica es que, cuantos más grupos, en análisis ofrece más comparaciones, como muestra la siguiente table:

Grupos (kk)Comparaciones (k(k1)2\frac{k(k-1)}{2})Probabilidad de Error Tipo I
330.1426
460.2649
5100.4013
6150.5367
7210.6594
8280.7622
9360.8422
10450.9006

Hay estrategias para reducir el riesgo de cometer error tipo 1. Las más utilizadas son:

  1. Ajustar manualmente el umbral de significancia: implica ajustar el nivel de significancia (α\alpha) utilizado para determinar la significancia estadística de cada comparación. Este ajuste puede realizarse a través de varios métodos, siendo uno de los más comunes el ajuste de Bonferroni.
  2. Utilizar valores p ajustados automáticamente: consiste en utilizar valores p que ya han sido ajustados por el software estadístico para reflejar el número de comparaciones realizadas. Los métodos de corrección que podrían aplicarse incluyen Método de Benjamini-Hochberg, Pruebas de Tukey

Estas estrategias son especialmente útiles en estudios exploratorios donde no tengo hipótesis específicas sobre las diferencias entre los grupos o cuando el número de grupos es grande. El objetivo de estas estrategia es identificar qué pares específicos de grupos difieren entre sí.

Pregunta

Las estrategias post hoc deben su nombre a que se llevan a cabo después de realizar el ANOVA. ¿Es esta afirmación correcta?

En las comparaciones post-hoc, el riesgo de cometer un error tipo I es especialmente considerable, porque la naturaleza exploratoria del análisis hace más probable comparar muchos grupos o realizar muchas comparaciones secuenciales. Por eso, las pruebas en comparaciones post-hoc incorporan estrategias post-hoc que disminuyen el riesgo de este error.

Pregunta

El tipo de post hoc se decide en función de si se cumple el supuesto de normalidad o no. ¿Es esta afirmación correcta?

Ajuste de Bonferroni

Utilizo este ajuste cuando...
  • Voy a hacer un número planeado de comparaciones.

El ajuste se Bonferroni se puede usar tanto cuando se cumple como cuando no se cumple el supuesto de varianzas iguales:

  • Se cumple el principio de varianzas iguales
  • Se cumple el principio de varianzas iguales

El ajuste de Bonferroni es utilizado para controlar el incremento en la probabilidad de cometer errores tipo I, que ocurre cuando se realizan múltiples pruebas estadísticas simultáneamente.

El ajuste de Bonferroni no es una prueba en sí misma. Su propósito principal es reducir el riesgo de conclusiones erróneas debido a la casualidad en múltiples pruebas, ajustando el umbral de significancia para cada prueba individual.

El ajuste consiste en dividir el nivel de significancia (α\alpha) por el número de comparaciones:

pnuevo=poriginalnuˊmero de comparaciones\Large p_{\text{nuevo}} = \frac{\Large p_{\text{original}}}{\text{\small número de comparaciones}}

Si se compara cada par de grupos dentro de un conjunto de kk grupos:

pnuevo=poriginalk(k1)÷2\Large p_{\text{nuevo}} = \frac{\Large p_{\text{original}}}{\small k(k-1) ÷ 2}

Donde kk es el número total de grupos, y k(k1)÷2k(k-1) ÷ 2 es el número total de pares de comparaciones posibles entre estos grupos.

Tras aplicar el ajuste de Bonferroni, se utiliza el nuevo valor p para realizar el contraste de hipótesis, comparando si p<αp < \alpha, usando el valor p ajustado.

Pregunta

En Bonferroni, el valor p se corrige dividiendo p = 0.05 entre el número de grupos que vamos a comparar. ¿Es esta afirmación correcta?

Prueba de Tukey

Utilizo esta prueba cuando...
  • Se cumple el principio de varianzas iguales
  • Deseo comparar todas las diferencias posibles entre pares de grupos.

Cuando asumo que hay varianzas iguales y deseo realizar comparaciones múltiples entre todos los grupos, la prueba de Tukey es la elección adecuada.

Existen dos variantes de la prueba de Tukey, dependiendo de la igualdad de los tamaños muestrales entre los grupos:

  • HSD de Tukey: aplicable cuando el tamaño muestral es igual en todos los grupos.
  • Tukey-Kramer: necesario cuando los tamaños de las muestras varían entre los grupos.

Aunque la prueba de Tukey es robusta en el control del error tipo I con múltiples comparaciones. La elección entre HSD de Tukey y Tukey-Kramer depende estrictamente de la homogeneidad de los tamaños muestrales entre los grupos comparados.

Pregunta

Utilizamos Tukey cuando quiero estudiar las diferencias entre todas las combinaciones posibles de grupos. ¿Es esta afirmación correcta?

Otras pruebas (Games-Howell, etc)

Utilizo esta prueba cuando...
  • Se cumple el principio de varianzas iguales
  • Voy a hacer un número planeado de comparaciones

Cuando no asumo que hay varianzas iguales y no voy a hacer un número previamente conocido de comparaciones, utilizo otras técnicas, como podrían ser Games-Howell, T2 de Tamhane, T3 de Dunnet y C de Dunnet.

Estrategias de comparaciones planeadas

Las comparaciones planeadas, también conocidas como contrastes planeados o a priori, son pruebas específicas que se definen antes de recolectar los datos. Estas pruebas se basan en hipótesis teóricas que predicen diferencias específicas entre grupos seleccionados dentro del estudio.

Pregunta

Los contrastes planeados se pueden llevar a cabo siempre y cuando haya hipótesis específicas antes de recoger los datos del estudio. ¿Es esta afirmación correcta?

A diferencia de las comparaciones post-hoc que se deciden después del análisis inicial y pueden ser numerosas, las comparaciones planeadas deben ser definidas claramente en el diseño de la investigación. No hay un límite fijo en el número de comparaciones planeadas que se pueden realizar; la determinación de cuántos contrastes realizar depende de las hipótesis específicas y los objetivos del estudio.

Es importante señalar que los grupos utilizados en un contraste pueden ser incluidos en otros contrastes si es necesario. Sin embargo, hay una limitación importante: el número de contrastes planeados debe ser igual o inferior al número de grupos menos uno (k1k - 1).

Los grados de libertad para contrastes entre grupos en un ANOVA son k1k - 1, que es el número máximo de comparaciones independientes que pueden realizarse sin sobreajustar el modelo. Esto se debe a que cada grupo aporta una estimación independiente a la varianza total, pero uno de estos grados de libertad se utiliza para estimar la media general, dejando k1k - 1 para las comparaciones entre los grupos.

Cada inclusión debe estar bien justificada por la teoría y las hipótesis subyacentes, y se deben aplicar técnicas estadísticas adecuadas para ajustar por múltiples comparaciones y mantener la integridad estadística del estudio. Es fundamental gestionar cuidadosamente el control del error tipo I, especialmente cuando el número de comparaciones aumenta.

Pregunta

En los contrastes planeados, puedo utilizar la misma variable varias veces siempre y cuando el número de contrastes sea igual o inferior al número de grupos menos 1 (k-1). ¿Es esta afirmación correcta?