Saltar al contenido principal

Ejercicios

Premisa

Quiero averiguar si ver capítulos de One Piece mejora el nivel de felicidad de un grupo de pacientes con depresión. Para ello, he dividido a mis pacientes en dos grupos: el grupo experimental, que visualiza una serie de capítulos a lo largo de un mes, y el grupo control, que no verá ningún capítulo de One Piece.

Después, administro a ambos grupos un cuestionario de medición de la felicidad y comparo las puntuaciones para ver si existen diferencias significativas entre ambos.

Datos

Haz click para ver toda la base de datos

PacienteGrupoPuntuación
127.5
.........

Base de datos completa:

PacienteGrupoPuntuación
127.5
227.0
316.0
416.0
517.5
616.0
728.0
829.0
915.0
1027.5
1116.5
1216.5
1317.0
1416.5
1529.0
1628.5
1727.0
1816.5
1927.5
2026.5
2127.5
2214.5
2326.5
2428.5
2515.0
2627.0
2715.5
2815.5
2915.5
3027.0
3116.0
3227.5
3326.5
3428.5
3517.0
3616.5
3717.0
3817.0
3928.0
4028.0
4128.0
4228.0
4318.5
4418.0
4517.5
4618.0
4717.5
4828.0
4928.0
5028.5
5114.5
5215.0
5315.5
5416.0
5516.5
5617.0
5717.5
5818.0
5914.5
6015.0
6115.5
6216.0
6316.5
6417.0
6517.5
6618.0
6718.5
6819.0
6914.0
7028.5
7128.5
7228.5
7328.5
7428.5
7528.5
7628.5
7729.0
7829.0
7929.0
8029.0
8129.0
8229.0
8329.0
8429.0
8529.0
8629.0
8729.0
8829.0

El programa SPSS genera también una pestaña llamada Variable view que muestra un resumen de las variables.

NameTypeWidthDecimalsValuesColumnsAlignMeasure
PacienteNumeric80None8RightScale
GrupoNumeric80{1, Control (…)}21RightNominal
PuntuaciónNumeric82None8RightScale

Son tres variables:

  1. Alumno: número de identificación del alumno.
  2. Grupo:
    • 1 significa Grupo de control sin visualización de capítulos
    • 2 significa Grupo experimental con visualización de capítulos
  3. Puntuación: puntuación en el cuestionario de medición de la felicidad

Preguntas

Fundamentos del estudio

¿Cuál es la variable dependiente y la independiente?

  • Variable independiente (VI): aplicación de la visualización de capítulos, por lo tanto: Grupo
  • Variable dependiente (VD): puntuación en el cuestionario, por lo tanto, Puntuación

¿Cuál es la hipótesis nula y la alternativa?

  • Hipótesis nula (H0H_0): las medias en ambos grupos son iguales; es decir: xˉGrupo 1=xˉGrupo 2\bar{x}_{\text{Grupo 1}} = \bar{x}_{\text{Grupo 2}}
  • Hipótesis alternativa (H1H_1): lo contrario; es decir: xˉGrupo 1xˉGrupo 2\bar{x}_{\text{Grupo 1}} \neq \bar{x}_{\text{Grupo 2}}

Tipos de error

Señala qué tipo de error se produce en los siguientes casos:

Rechazo la hipótesis nula cuando es verdadera

Es un Error Tipo I, también llamado falso positivo.

Al rechazar la hipótesis nula cuando esta es verdadera, lo que he hecho es aceptar la alternativa. Es decir: he concluído que se produce un efecto cuando en realidad no se produce. Por eso es un error de falso positivo.

Acepto la hipótesis nula cuando es falsa

Es un Error Tipo II, también llamado falso negativo.

Al aceptar la hipótesis nula cuando esta es falsa, lo que he hecho es rechazar la alternativa. Es decir: he concluido que no se produce un efecto cuando en realidad sí se produce. Por eso es un error de falso negativo.

Rechazo la hipótesis nula cuando es falsa

No es un error. Este es el resultado ideal en una prueba de hipótesis. Significa que la decisión tomada por la prueba estadística es correcta.

Supuestos

¿Qué es un supuesto y para qué sirve?

Un supuesto es una propiedad de un conjunto de datos que un investigador asume, o no asume, para seleccionar la prueba estadística adecuada en función de esta decisión. Es decir, son condiciones teóricas que se deben cumplir para que las conclusiones de las pruebas estadísticas sean válidas.

Los supuestos se asumen al iniciar el análisis para escoger una prueba estadística u otra, pero se verifican al ejecutar el análisis mediante pruebas estadísticas específicas, como la prueba de Levene o la prueba de esfericidad.

¿Cuáles son los supuestos más importantes?

  • Homocedasticidad: también llamado de homogeneidad de varianzas. Consiste en asumir que las varianzas en los distintos grupos o niveles son muy similares.
  • Normalidad: consiste en asumir que los datos se distribuyen de acuerdo a una distribución normal, también llamada "de Gauss". De acuerdo al Teorema del Limite Central, los datos tienden a mostrar una distribución normal a medida que aumenta el tamaño de la muestra.
  • Independencia: consiste en asumir que los datos no dependen unos de otros, o que no están relacionados. En términos de probabilidad, significa que las posibilidades de que un caso tenga un valor no está influenciado por el valor proporcionado por otro caso.
  • Esfericidad: consiste en asumir que las diferencias entre las varianzas de las distintas comparaciones son iguales. Este supuesto es específico del ANOVA.
  • Linealidad: consiste en asumir que hay una relación lineal entre las variables independientes y la variable dependiente. Es decir, asumir que un cambio en una variable independiente conduzca a un cambio proporcional y constante en la variable dependiente. Este supuesto es la base de la regresión lineal y otros modelos lineales.
  • Continuidad de la variable dependiente: la variable dependiente debe ser continua. Es decir, la variable dependiente debe representar un continum constante, de manera que puede tomar cualquier valor numérico, incluyendo decimales. No importa si es de intervalo (como la temperatura) o de razón (como el tiempo o la altura), siempre que sea continua.

Normalidad

Para comprobar que el supuesto de normalidad se cumple, puedo seguir tres estrategias:

  • Estimación visual
  • Puntuación Z de asimetría y curtosis
  • Pruebas estadísticas
Estimación visual
Añade los histogramas de la puntuación para ambos grupos
¿La distribución es normal en los dos grupos?
  • Grupo control: presenta una distribución que parece más cercana a la normalidad, con un centro bien definido y frecuencias que disminuyen simétricamente a medida que se alejan de este centro. Sin embargo, aún puede observarse un ligero sesgo y una ligera leptocurtosis.
  • Grupo experimental: muestra una distribución que no es simétrica, ya que tiene un sesgo hacia las puntuaciones más altas. La mayoría de las frecuencias se acumulan hacia el extremo derecho del gráfico, indicando una tendencia hacia puntuaciones más altas.

La distribución no es simétrica en el grupo experimental probablemente porque ver One Piece puede haber mejorado la felicidad de muchos pacientes, resultando en una concentración de puntuaciones altas y dejando menos frecuencia en puntuaciones bajas. Los efectos de la intervención (ver One Piece) podrían haber resultado en un rendimiento más uniformemente mejorado, agrupando más puntuaciones alrededor de un valor medio más alto.

Puntuación Z de asimetría y curtosis

Para comprobar si los datos de una variable siguen una distribución normal, mido la asimetría y la curtosis de la distribución. Concretamente, la simetría debe ser simétrica y la curtosis mesocurtica.

Para ello, estandarizo los valores utilizando la puntuación Z, que permite determinar cuántas desviaciones estándar se encuentran del valor teórico en una distribución normal. La fórmula es:

  • ZAsimetria=Asimetria÷Error EstaˊndarAsimetriaZ_{\text{Asimetria}} = \text{Asimetria}\div \text{Error Estándar}_{\text{Asimetria}}
  • ZCurtosis=Curtosis÷Error EstaˊndarCurtosisZ_{\text{Curtosis}} = \text{Curtosis}\div \text{Error Estándar}_{\text{Curtosis}}

Utilizando SPSS, abro Analizar > Estadísticos descriptivos > Descriptivos. En opciones, selecciono Curtosis y Asimetría. Esto genera una tabla con los siguientes datos:

Descriptive Statistics

NStatisticSkewnessStd. ErrorKurtosisStd. Error
Grupo88.000.257-2.047.508.508
Puntuación88- .531.257- .636.508.508
Valid N (listwise)88

Sin embargo, esto no me sirve para una comparación porque veo los valores de ambos grupos. Primero tengo que separar los datos por grupos, desde el apartado Datos > Dividir archivo.... En la ventana que aparece, selecciono Organizar los análisis por grupos y añado la variable Grupo al cuadro Grupos basados en.

Después, vuelvo a Analizar > Estadísticos Descriptivos > Frecuencias... y esta vez al añadir la variable Puntuación, SPSS me da dos tablas, una por cada grupo.

Puntuación Grupo de Control

NValid44
Missing0
Skewness

.009

Std. Error of Skewness.357
Kurtosis

-.655

Std. Error of Kurtosis.702

Grupo Experimental

NValid44
Missing0
Skewness

-.750

Std. Error of Skewness.357
Kurtosis

-.533

Std. Error of Kurtosis.702


Ahora puedo aplicar la fórmula de la puntuación Z para ambas, asimetría y curtosis, para ambos grupos, el de control y el experimental.

  • ZAsimetria=Asimetria÷Error EstaˊndarAsimetriaZ_{\text{Asimetria}} = \text{Asimetria}\div \text{Error Estándar}_{\text{Asimetria}}
  • ZCurtosis=Curtosis÷Error EstaˊndarCurtosisZ_{\text{Curtosis}} = \text{Curtosis}\div \text{Error Estándar}_{\text{Curtosis}}

Y ya conozco el error estándar de asimetría y curtosis, por lo que:

  • ZAsimetria=Asimetria÷0.357Z_{\text{Asimetria}} = \text{Asimetria} \div 0.357
  • ZCurtosis=Curtosis÷0.702Z_{\text{Curtosis}} = \text{Curtosis} \div 0.702

Ahora procedo al cálculo de cada uno de ellos:

ZAsimetria Control=0.0090.357=0.0252Z_{\text{Asimetria Control}} = \footnotesize \frac{0.009}{0.357} \normalsize =0.0252 ZCurtosis Control=0.6550.702=0.933Z_{\text{Curtosis Control}} = \footnotesize \frac{-0.655}{0.702} \normalsize = -0.933 ZAsimetria Experimental=0.7500.357=2.1008Z_{\text{Asimetria Experimental}} = \footnotesize \frac{-0.750}{0.357} \normalsize = -2.1008 ZCurtosis Experimental=0.5330.702=0.7593Z_{\text{Curtosis Experimental}} = \footnotesize \frac{-0.533}{0.702} \normalsize = -0.7593

Ahora consulto esas puntuaciones Z en la tabla de valores de referencia. Cuando la muestra es pequeña (p<0.05p < 0.05), la lógica es la siguiente para asimetría y curtosis:

  • Asimetría:
    • Z<1.96Z < -1.96: asimetría negativa
    • 1.96<Z<1.96-1.96 < Z < 1.96: simetría
    • Z>1.96Z > 1.96: simetría positiva
  • Curtosis:
    • Z<1.96Z < -1.96: forma platicúrtica
    • 1.96<Z<1.96-1.96 < Z < 1.96: forma mesocúrtica
    • Z>1.96Z > 1.96: forma leptocúrtica

Por lo tanto, finalmente puedo responder a la pregunta:

  • Grupo de control
    • Asimetría: la distribución es muy simétrica, porque el valor 0.02520.0252 está muy cerca de 00, y claramentre dentro del rango 1.96<Z<1.96-1.96 < Z < 1.96
    • Curtosis: la curtosis tiene forma ligeramente platicúrtica, porque el valor 0.933-0.933 no llega al rango Z<1.96Z < -1.96, pero está más cerca de este que de 00.
  • Grupo experimental
    • Asimetría: la distribución presenta una clara asimetría negativa, porque el valor 2.1008-2.1008 está por debajo de 1.96-1.96.
    • Curtosis: la curtosis es mesocúrtica, o ligeramente platicúrtica, porque el valor 0.7593-0.7593 está entre 00 y 1.96-1.96.

Esto apoya la conclusión que ya había extraído a través de la estimación visual: que el grupo de control presenta una distribución que se aproxima a la normal, mientras que el grupo experimental no tiene una distribución normal porque presenta una clara asimetría negativa.

Comprobación mediante pruebas estadísticas
¿Qué tamaño tienen los grupos?

Ambos, tanto el grupo experimental como el grupo control, tienen un tamaño de 44 participantes.

¿Qué prueba estadística es más adecuada para evaluar la normalidad en cada grupo?

Hay dos pruebas disponibles, y entre ellas, la más apropiada es:

  • Prueba de Shapiro-Wilk
  • Prueba de Kolmogorov-Smirnov (K-S)

La prueba de Shapiro-Wilk es especialmente adecuada para medir la normalidad en muestras de menos de 50 participantes, como es el caso aquí. La prueba de Kolmogorov-Smirnov también mide la normalidad, pero es más apropiada para muestras grandes. Por lo tanto, la prueba de Shapiro-Wilk es más recomendada debido a su mayor potencia y precisión en este rango de tamaño de muestra.

Ejecución de la prueba de normalidad

Desde SPSS, voy a Analizar > Estadísticos Descriptivos > Explorar... y en el cuadro que se abre, añado la Puntuación a la Lista de Dependientes, y el Grupo a la Lista de factor. Aquí es importante que seleccione ambos resultados: gráfico y estadísticos. Si abro la sección Gráficos, selecciono el checkbox Gráficos de normalidad con pruebas.

El resultado es esta tabla:

Kolmogorov-SmirnovaShapiro-Wilk
GrupoStatisticdfSig.StatisticdfSig.
Puntuación Control (no relación).08344.200*.97844.542
Puntuación Experimental (sí relación).21944<.001.86244<.001

* This is a lower bound of the true significance.
a Lilliefors Significance Correction

La prueba apropiada es Shapiro-Wilk, por lo que me fijo en los siguientes valores:

  • Puntuación Control (no relación): p=0.542p = 0.542
  • Puntuación Experimental (sí relación): p<0.001p < 0.001
¿Cómo refleja esta prueba la normalidad?

En una prueba de normalidad, la hipótesis nula (H0H_0) es que sí hay normalidad.

Ambas pruebas de normalidad generan un valor de significancia pp que se puede comparar con el nivel de confianza (generalmente: α=0.05\alpha = 0.05) para realizar un contraste de hipótesis.

  • Si p>0.05p > 0.05, aceptamos la hipótesis nula. Es decir: hay normalidad.
  • Si p<0.05p < 0.05, rechazamos la nula y aceptamos la hipótesis alternativa: no hay normalidad.

En este caso:

  • Puntuación Control (no relación): p=0.542>α=0.05\boxed{p = 0.542} > \boxed{\alpha = 0.05}, por lo que aceptamos la hipótesis nula.
  • Puntuación Experimental (sí relación): p<0.001α=0.05\boxed{p \lt 0.001} \ngtr \boxed{\alpha = 0.05}, por lo que rechazamos la hipótesis nula.

Es decir: el grupo de control presenta una distribución normal, mientras que el grupo experimental no. De hecho, su valor de significancia para la prueba de normalidad es extremadamente bajo.

Homocedasticidad

¿Qué dice el supuesto de homocedasticidad?

El supuesto de homocedasticidad, también conocido como homogeneidad de varianzas, varianzas de los errores o de las variables dependientes son constantes a través de diferentes niveles de las variables independientes o entre grupos.

En ANOVA, la homocedasticidad implica que las varianzas dentro de cada grupo comparado son iguales.

En la Regresión Lineal, la homocedasticidad asegura que la varianza de los residuos (errores) es la misma para todos los valores predichos.

¿Qué prueba estadística es más adecuada para evaluar la homocedasticidad?

La prueba de Levene es una prueba estadística utilizada para evaluar la homogeneidad de las varianzas, también conocida como homocedasticidad, entre dos o más grupos.

¿Cuál es la hipótesis nula y la hipótesis alternativa que siempre tiene este test?

En la prueba de Levene, la homocedasticidad de las variables es la hipótesis nula (H0H_0), que se puede generalizar para múltiples grupos de la siguiente manera:

  • H0:Varianza Grupo A=Varianza Grupo BH_0: \text{Varianza}_{\text{ Grupo A}} = \text{Varianza}_{\text{ Grupo B}}
  • H1:Varianza Grupo AVarianza Grupo BH_1: \text{Varianza}_{\text{ Grupo A}} \neq \text{Varianza}_{\text{ Grupo B}}

La prueba de Levene genera un valor pp, que está asociado a un estadístico FF. La interpretación del resultado es:

  • Si el valor p>0.05p > 0.05, acepto la hipótesis nula porque no hay suficiente evidencia en su contra. Es decir: concluyo que hay homocedasticidad.
  • Si el valor p<0.05p < 0.05, rechazo la hipótesis nula y concluyo que no hay homocedasticidad.
Ejecuta la prueba de varianzas homogéneas

Desde SPSS, voy a Analizar > Estadísticos Descriptivos > Explorar... y en el cuadro que se abre, añado la Puntuación a la Lista de Dependientes, y el Grupo a la Lista de factor. Aquí es importante que seleccione ambos resultados: gráfico y estadísticos. Si abro la sección Gráficos, selecciono el checkbox Sin transformación dentro de la sección Dispersión vs Nivel con Prueba de Levene. El resultado es:

Levene Statisticdf1df2Sig.
Based on Mean6.680186

.011

Based on Median6.606186.012
Based on Median and with adjusted df6.606182.413.012
Based on trimmed mean6.890186.010

Hay otra manera de obetener este valor: voy a Analizar > Comparar medias y proporciones > T-test para muestras independientes y en el cuadro que se abre, añado la Puntuación a Variables de prueba, y el Grupo a la Variable de agrupación. El resultado es:

FSig.tdf
PuntuaciónEqual variances assumed6.680

.011

-7.94986
Equal variances not assumed-7.94974.085

Ahora realizo la comprobación, siguiendo esta lógica:

  • Si el valor p>0.05p > 0.05, acepto la hipótesis nula, por lo que puedo concluir que hay homocedasticidad.
  • Si el valor p<0.05p < 0.05, rechazo la hipótesis nula y concluimos que no hay homocedasticidad.

En este caso, p=0.011<0.05\boxed{p = 0.011} < 0.05, por lo que hay evidencia para rechazar la hipótesis nula. Es decir, no hay homocedasticidad en esta muestra. Dicho de otra manera: las varianzas entre los grupos son significativamente diferentes.

Estrategia de análisis

Para llevar a cabo el análisis estadístico y contrastar la hipótesis del estudio, debería utilizar

  • Pruebas paramétricas
  • Pruebas no-paramétricas

El motivo es que estoy comparando medidas independientes, también llamadas no-relacionadas, porque son dos grupos con distintos sujetos. Siendo así, para poder realizar una prueba paramétrica, se tendría que cumplir también el principio de homocedasticidad, no sólo el de normalidad. Al no ser así, sería necesario utilizar pruebas no-paramétricas. En este caso, la más apropiada sería la prueba UU de Mann-Whitney.

Cuestionario

Pregunta 1

Pregunta

En cuanto a los valores de asimetría del grupo control y experimental, ¿cuál de las siguientes afirmaciones es correcta?

Pregunta 2

Pregunta

¿Qué tipo de test debe realizar la investigadora según las características de los datos?

Pregunta 3

Pregunta

Siempre que me encuentro con un valor p inferior a 0,05, ¿qué acción es correcta?

Pregunta 4

Pregunta

¿Cuál sería la hipótesis nula del estudio presentado?

Pregunta 5

Pregunta

Para comprobar el supuesto de homogeneidad de varianzas, ¿qué prueba debería usarse?

Pregunta 6

Pregunta

En cuanto a los valores de curtosis del grupo control y experimental:

Pregunta 7

Pregunta

Nos referimos al nivel de confianza cuando:

Pregunta 8

Pregunta

Para comprobar el supuesto de normalidad se debe elegir:

Pregunta 9

Pregunta

Para llevar a cabo análisis paramétricos los supuestos más importantes son:

Pregunta 10

Pregunta

Mirando los histogramas, ¿en qué grupo/s la distribución de la variable no parece normal?