Saltar al contenido principal

Estadistica inferencial

La estadística estudia las regularidades en una muestra extraída al azar de una población, para generalizar estos datos a la población. A esto se le llama estadística inferencial: es la estadística que, después de recabar datos en una investigación, busca extraer las características de la muestra al total de la población que representa.

Técnicas de muestreo

En estadística, llamamos población al conjunto de elementos que comparten al menos una característica.

Sin embargo, la población puede ser muy grande, o incluso infinita, lo que impide el estudio exautivo de toda la población. Por eso, en investigación trabajamos con muestras representativas de la población. Las muestras son finitas y deben estar extraídas al azar, para que sean representativas de la población

Convención en el uso de letras

Una convención en estadística es el uso de letras griegas para los valores que se refieren a la población, y utilizar letras latinas para referirse a valores de la muestra.

Muestra    xˉ,s\text{Muestra} \implies \bar{x}, s \cdotsPoblacioˊn    μ,σ\text{Población} \implies \mu , \sigma \cdots

La siguiente tabla muestra algunas equivalencias:

Muestra (latín)Población (griego)
Media aritméticaxˉ\bar{x}μ\mu
Desviación estándarssσ\sigma
Varianzas2s^2σ2\sigma^2
Proporciónp^\hat{p}π\pi
Covarianzasxys_{xy}σxy\sigma_{xy}
Coeficiente de correlaciónrrρ\rho

Para describir a la población, utilizo parámetros como la media, la desviación estándar o la proporción, entre otros. Estos parámetros representan a toda la población. Sin embargo, nosotros estudiamos una muestra, por lo que en realidad averiguamos los parámetros de la muestra, y a esos valores los llamamos descriptivos. Es decir, para describir a la muestra, utilizo los descriptivos. Y después, con estadística inferencial, inferimos los parámetros de la población.

El proceso por el cual extraemos los parámetros de la población a la muestra se llama muestreo. Es decir, el muestreo es el proceso que permite hacer inferencias desde una muestra representativa a una población.

Tipos de muestro (probabilístico vs no-probabilístico)

El muestreo puede ser de dos tipos:

  • Probabilístico, también llamado al azar: todos los elementos de la población tienen la misma probabilidad de formar la muestra. Es posible cuando el investigador tiene acceso a todos los elementos de la población. Por ejemplo, los alumnos de una clase son todos conocidos, están todos en una lista de la cual se puede extraer miembros al azar.
  • No-probabilístico: No todos los elementos tienen la misma probabilidad de formar parte de la muestra. Por ejemplo, si pongo un cartel en el pasillo invitando a los alumnos a participar en una investigación; sólo aquellos que vean el cartel podrán participar.

Como es lógico, el muestro probabilístico tiene mayor representatividad, porque habrá menos sesgos en el proceso de reclutamiento de participantes.

Pregunta

Los muestreos no probabilisticos aseguran poder conseguir muestras representativas

Representatividad de una muestra

La representatividad de una muestra depende de varios factores:

  • El tipo de muestreo: si la muestra es probabilística, más representativos serán los datos. Recuerda que el muestreo probabilístico es aquel en el que todos los elementos tienen las misma probabilidad de formar parte de la muestra.
  • La estructura de la muestra: cuanto la estructura de la muestra sea más similar a la estructura de la población, mayor será la representatividad.
  • El tamaño de la muestra: cuanto mayor es la muestra, más representativos serán los resultados.

Otra forma de referirse a la representatividad es la ausencia de sesgos. Es decir, una muestra menos representativa es aquella que tiene más sesgos en el proceso de muestreo.

Cuanto más representativas sea una muestra (o cuanto menos sesgada esté), los descriptivos de la muestra apuntan con más precisión a la realidad del parámetro de la población.

Conceptos básicos de la inferencia

Distribución muestral de un estadístico

La distribución muestral de un estadístico es la distribución teórica que asigna una probabilidad concreta a cada uno de los valores que puede tomar un estadístico en todas las muestras que es posible extraer de una población.

Se puede construir una distribución de probabilidad para un estadístico, como la media de la muestra o la desviación estándar, basándose en todas las posibles muestras de un tamaño determinado que podrían extraerse de la población.

Cada posible valor del estadístico tiene una probabilidad asociada de ocurrencia. Por ejemplo, si calculo la media de todas las posibles muestras de tamaño n de una población, obtendremos una distribución de esas medias, conocida como la distribución muestral de la media.

Veamos específicamente el caso de la media.

Distribución muestral de la media

Imaginemos una población con estas puntuaciones. Es una población de 15 personas. La media es μ=302\mu = 302.

926265157159115
424247136148165
575786156143126

Sin embargo, puedo extraer varias muestras aleatorias de n=5n = 5. Y cada muestra tendría su propia media y su desviación estándar. Por ejemplo:

926265157159115

xˉi=333\bar{x}_i = 333

424247136148165

xˉj=224\bar{x}_j = 224

575786156143126

xˉk=357\bar{x}_k = 357

Como puedo ver, distintas medias son posibles en esa población, dependiendo de la muestra.

Algunas muestras son más realistas, en el sentido de que se acerca más a la media de la población. Es decir, algunas tienen un error mayor que otras. Para calcular el error, basta con restar la media poblacional a la de la muestra:

  • 333302=31333 - 302 = 31
  • 224302=78224 - 302 = -78
  • 357203=55357 - 203 = 55

Por ejemplo, puedo ver que xˉk=357\bar{x}_k = 357 está bastante cerca de la media poblacional μ=302\mu = 302. Sin embargo xˉj=224\bar{x}_j = 224 tiene un error de 78 puntos.

Error vs. Error Estándar

El error, calculado de esta manera, no es una escala estandarizada. Es decir, no se si es mucho o poco ni puedo comparar el error de dos variables (por ejemplo segundos y metros). Para ello, se utiliza la métrica de error estándar (EE) que veremos después.

La cosa es que los resultados observados en una muestra pueden diferir de la población por simple variación aleatoria. Siendo así, no se si la investigación ha dado con un sesgo que muestra que no se puede extrapolar el valor de la muestra a la población.

Calculo de la distribución muestral de la media

Si recordamos, la distribución normal se representaba por N(μ;σ)N(\mu; \sigma). En esa fórmula, NN representa la distribución normal.

La fórmula de la distribución muestral es similar. La distribución muestral de la media se representa de la siguiente manera:

N(μ;σn)N(\mu; \frac{\sigma}{\sqrt{n}})

En esta fórmula:

  • μ\mu es la media de la población.
  • σn\frac{\sigma}{\sqrt{n}} es el error estándar de la media, que indica cuánto se espera que varíe la media de las muestras en torno a la media de la población.

Es decir, al igual que la distribución normal se representa por N y dos valores, también la distribución muestral se representa por dos valores: la media y el error estándar.

Error estándar

La fórmula es:

EE=σnEE = \frac{\sigma}{\sqrt{n}}
  • σ\sigma es la desviación estándar de la población.
  • nn es el tamaño de la muestra.

Esta distribución nos permite realizar inferencias sobre la población a partir de las muestras, y es especialmente útil para calcular intervalos de confianza y realizar pruebas de hipótesis sobre la media de la población.

Fíjate en el n\sqrt{n}

Si observamos la fórmula, vemos por ejemplo que el valor se divide entre la raíz cuadrada de la muestra (n\sqrt{n}). Es decir, cuanto mayor sea la muestra, menor será el error estándar. Esto tiene sentido porque Recuerda que cuanto mayor en la muestra, más tiende a una distribución normal. Por lo tanto, la anomalía es más improbable y por tanto más significativa.

Esto es, precisamente, el Teorema del límite central que explico a continuación

Teorema del Límite Central (TLC)

El Teorema del Límite Central (TLC) es uno de los teoremas más importantes en estadística.

Afirma que si se toman muestras aleatorias de tamaño nn de una población con cualquier distribución, la distribución de las medias de esas muestras tenderá a una distribución normal a medida que el tamaño de la muestra nn se hace grande. Esto es cierto independientemente de la forma de la distribución de la población.

A partir de n30n \leq 30, cualquier distribución empieza a parecerse a la normal.

Formalmente, el TLC se puede expresar como:

Si X1,X2,...,XnX_1, X_2, ..., X_n son variables aleatorias independientes e idénticamente distribuidas (i.i.d.) con media μ\mu y desviación estándar σ\sigma, entonces la variable se distribuye aproximadamente como una distribución normal estándar N(0,1)N(0,1) cuando nn es grande.

Z=XˉμσnZ = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}

Donde Xˉ\bar{X} es la media de la muestra de las variables aleatorias.

El TLC es fundamental porque permite a los estadísticos realizar pruebas de hipótesis y construir intervalos de confianza para poblaciones con distribuciones desconocidas, basándose únicamente en los datos de la muestra.

Características deseables de un estadístico

Para hacer una buena inferencia, un estadístico (por ejemplo, la media) debe tener las siguientes características:

  • Insesgado: Al extraer un gran número de muestras de una población, el promedio de todas coincide con el parámetro
  • Eficiente: Al extraer un gran número de muestras de una población, la varianza de todas es pequeña. A menor varianza (error), mayor eficiencia
  • Consistente: Garantiza que según aumenta el tamaño de la muestra el valor del estadístico coincida con el parámetro
  • Suficiente: Si el estadístico emplea toda la información de la muestra para calcular el parámetro

Pregunta

Cuando afirmamos que un estadístico es deseable, asumimos que es: consistente, eficiente, suficiente y sesgado

Estimación de un parámetro

Llamamos a estimar un parámetro al proceso por el cual estimamos el valor de un parámetro de una muestra a partir del estadístico de la muestra.

Hay dos maneras de estimar un parámetro, y son la estimación puntual y la estimación por intervalo.

Estimación puntual

La estimación puntual consiste en estimar un parámetro a partir de un único estadístico. Es decir, estimar el parámetro de la población a partir de un único valor muestral.

La estimación puntual no está recomendada

En psicología, donde hay mucha variabilidad, esta manera de estimar parámetros es muy falible y no está recomendada. Lo más profesional es utilizar la estimación por intervalos.

El proceso es el siguiente:

  1. Extrar una muestra aleatoria de una población
  2. Calcular el estadístico de la muestra
  3. Asumir que el estadístico representa al parámetro de la población

El problema es que se pueden utilizar diferentes estimadores, como la media, la mediana, etc. Y no está claro cuál es el adecuado. La solución consiste en utilizar los mejores estimadores que son la media (xˉ\bar{x}), la desviación típica (ss) y la probabilidad (pp).

Estimación por intervalos

La estimación por intervalos consiste en estimar un parámetro a partir de un rango de valores entre los que se espera encontrar el valor del parámetro, dado un margen de error que puedo aceptar dada la variabilidad de la muestra.

En esencia, lo que quiero conseguir es una muestra lo más grande posible, para tener un intervalo de confianza lo más pequeño posible. Cuanto menor sea el intervalo de confianza, significa que puedo estimar con mayor precisión la probabilidad de que un valor del descriptivo represente el valor del parámetro. DIcho de otra manera: un intervalo de confianza más estrecho indica una estimación más precisa del parámetro poblacional.

Pregunta

A mayor tamaño muestral, menor error de estimación y, por lo tanto, mayor precisión

Los conceptos fundamentales de la estimación por intervalos son:

  • Error Estándar (EE): El error estándar EEEE mide la variabilidad de las estimaciones muestrales del parámetro poblacional y es crucial para determinar la precisión de la estimación.
  • Nivel de Confianza (NC): El nivel de confianza (1α)(1 - \alpha) representa la proporción de veces que se espera que el intervalo de confianza contenga el parámetro poblacional si el experimento se repitiera muchas veces.
  • Intervalo de Confianza (IC): Es el rango calculado a partir de los datos de la muestra que se espera que contenga el parámetro poblacional. Se expresa como una estimación puntual más o menos el margen de error, el cual está basado en el error estándar y el nivel de confianza.
  • Zona de Rechazo: La zona de rechazo α\alpha se refiere a la probabilidad de rechazar incorrectamente la hipótesis nula en una prueba de hipótesis y determina los puntos críticos que limitan el intervalo de confianza.
  • Tamaño de la Muestra: El tamaño de la muestra nn influye directamente en el error estándar y, por ende, en el ancho del intervalo de confianza.

Para entender mejor los conceptos, veamos la siguiente distribución normal de un estadístico, que podría ser una media, mediana, proporción o cualquier otra medida que se distribuya normalmente.

Distribución normal de un estadístico

  • El área central en azul es el intervalo de confianza (1α1 - \alpha). Cubre la probabilidad donde se espera que caiga el verdadero valor del parámetro poblacional con un nivel de confianza de 1α1 - \alpha (ejemplo, 0.95 para un 95% de confianza).
  • Las áreas rojas en cada extremo de la distribución indican las zonas de rechazo (α/2\alpha/2), que son las dos mitades del total la zona de significancia (α\alpha). En un intervalo de confianza del 95%, α\alpha sería 0.05, y cada cola tendría un área de 0.025, representando una probabilidad de α/2\alpha/2 de que el verdadero parámetro poblacional caiga fuera del intervalo de confianza en cada extremo.
  • La zona verde representa el Error Estándar (EEEE), que es la desviación estándar de la distribución muestral del estimador. Este valor determina la amplitud del intervalo de confianza. Un rrror estándar más pequeño conduce a un intervalo de confianza más estrecho, indicando una estimación más precisa.
Nivel de confianza vs. Intervalo de confianza

El nivel de confianza se refiere a la probabilidad de que un intervalo de confianza captura el parámetro poblacional, mientras que el intervalo de confianza es el rango que es probable que contenga dicho parámetro.

  • Nivel de confianza     \implies probabilidad (%\%)
  • Intervalo de confianza     \implies rango (±\pm)

El Nivel de Confianza es un porcentaje que refleja cuán seguro quiero estar de que los intervalos de confianza calculados a partir de muestras aleatorias contienen el parámetro poblacional real. Comúnmente se utiliza un nivel de confianza del 95% o 99%, aunque este valor puede variar según la situación.

El Intervalo de Confianza es el rango calculado a partir de los datos de la muestra que es probable que contenga el parámetro poblacional. Está formado por dos valores: el límite inferior y el límite superior entre los cuales se espera que se encuentre el parámetro poblacional.

Cuanto mayor es la muestra, menor es el error

La fórmula del error estándar es EE=σnEE = \frac{\sigma_\emptyset}{\sqrt{n}}. Como se puede ver, el valor se calcula dividiendo σ\sigma entre la raíz cuadrada del tamaño de la muestra (nn).

Por ello, por definición, cuanto mayor es la muestra, menor es el error muestral.

Error estándar de 0,05

Hay un acuerdo general en la investigación en psicología: que un error estándar de 0,05 se considera adecuado. Este valor es más o menos arbitrario, basado en el empirismo.

Un error estándar de 0,05 implica que el intervalo de confianza es del 95%. Es decir: hay un 95% de posibilidades de que el valor del estadístico sea parte del parámetro de la población.

Calcular el intervalo de confianza: IC(1-α)

El intervalo de confianza se expresa como una estimación puntual más o menos el margen de error, el cual está basado en el error estándar y el nivel de confianza. Es decir, es un rango que tiene un ímite inferior (LiL_i) y un límite superior (LsL_s).

El intervalo de confianza de expresa de la siguiente manera:

IC(1α)IC(1-\alpha)

Por ejemplo, el intervalo de confianza de la media sería IC(1α) de XˉIC(1-\alpha) \text{ de } \bar{X}.

Para calcular el intervalo de confianza, hay que seguir dos pasos:

  1. Calcular el error muestral
  2. Calcular el intervalo de confianza
  3. Ver si el valor entra dentro del rango

En ambos casos, depende de si conocemos la varianza poblacional (σ\sigma), o si sólo tenemos la varianza de la muestra (ss).

1. Calcular el error muestral

Primero calculo el error estándar. La fórmula es muy sencilla. utilizo la varianza y la dividimos entre la raíz cuadrada del tamaño de la muestra (nn).

En este ejemplo, como se trata de la media, calculo EE(Xˉ)EE(\bar{X})

EE(Xˉ)=σn    EE(Xˉ)=snEE(\bar{X}) = \frac{\sigma}{\sqrt{n}} \iff EE(\bar{X}) = \frac{s}{\sqrt{n}}

Si conocemos la varianza de la población, la utiliza (σ\sigma); de lo contrario, utiliza la varianza de la muestra (ss).

2. Calcular el intervalo de confianza

Después, pasamos a calcular el intervalo de confianza. Una vez más, la fórmula depende de si se o no la varianza poblacional.

En ambos casos, hay que restarle un valor al estadístico en cuestión, que en este caso es la media. Es decir, es la media ±\pm algo.

Sí se la varianza poblacional

se la varianza poblacional, sumo y resto (±\pm) la puntuación ZZ a la media:

IC(1α) de M=m±zα/2×EE(M)\textcolor{gray}{IC(1-\alpha) \text{ de } M } = \boxed{m \pm |z_{\alpha/2}| \times \textcolor{gray}{EE(M)}}

Donde:

  • mm es la media muestral
  • zα/2|z_{\alpha/2}| es el valor crítico de la distribución normal estándar para el nivel de confianza deseado, en valor absoluto.
  • EE(M)EE(M) es el error estándar, que calculo en el paso anterior

Para calcular zα/2|z_{\alpha/2}|, es necesario calcular α/2\alpha/2. Por ejemplo, en una muestra en la que α=0.05\alpha = 0.05, sería z0.025z_{0.025}. Ahora necesito saber z0.025z_{0.025}. Para ello, es necesario buscar en la tabla de distribución normal estándar.

Puntuación Z.00.01.02.03.04.05.06.07.08.09
-2.2.0139.0136.0132.0129.0125.0122.0119.0116.0113.0110
-2.1.0179.0174.0170.0166.0162.0158.0154.0150.0146.0143
-2.0.0228.0222.0217.0212.0207.0202.0197.0192.0188.0183
-1.9 👈.0287.0281.0274.0268.0262.0256.0250.0244.0239.0233
-1.8.0359.0351.0344.0336.0329.0322.0314.0307.0301.0294
-1.7.0446.0436.0427.0418.0409.0401.0392.0384.0375.0367

Como puedo ver, para el valor 0.0250.025, la puntuación-z es -1.9. Es decir: z0.025=1.9z_{0.025} = -1.9. Sin embargo, como hay que utilizar el valor absoluto, z0.025=1.9|z_{0.025}| = 1.9. Por lo tanto, en la fórmula del IC utilizaríamos el valor 1.9.

No utilizo valores negativos de la puntuación-Z

Cuando buscas en la tabla de distribución normal estándar la puntuación z de la frecuencia acumulada de 0.025, verás que es 1.96-1.96. Es decir, la puntuación z tiene un valor negativo.

Sin embargo, en la construcción de intervalos de confianza, utilizo el valor absoluto de estos z-scores porque estoy interesado en la distancia desde la media muestral hasta los límites superior e inferior del intervalo.

Estas distancias son simétricas respecto a la media en una distribución normal. Por lo tanto, aunque el z-score para el 2.5% en el extremo inferior de la distribución normal es -1.96, para el cálculo del intervalo de confianza utilizo 1.96 para obtener la distancia en ambos lados de la media muestral.

No se la varianza poblacional

no se la varianza poblacional, pero se la varianza muestral, sumo y resto (±\pm) la distribución tt de Student a la media:

IC(1α) de Xˉ=m±tn1,α/2×EE(M)\textcolor{gray}{IC(1-\alpha) \text{ de } \bar{X} } = \boxed{m \pm |t_{n-1,\alpha/2}| \times \textcolor{gray}{EE(M)}}

Para encontrar el valor de tn1,  α/2t_{n-1,\space\space \alpha/2}, necesito saber dos cosas:

  • Grados de libertad (glgl, o dfdf por sus siglas en inglés), que se calculan como el tamaño de la muestra menos uno, n1n-1.
  • Nivel de significancia (α\alpha), que estará ya determinado. Por ejemplo, para un nivel de confianza del 95%, α\alpha sería 0.05. Para pruebas de dos colas, utilizo α/2\alpha/2.

Por ejemplo, en una situacción en la que la muestra es de 100 personas, y alpha=0.05alpha=0.05:

  • tn1, α/2t_{n-1, \space\alpha/2}
    • n1=1001=99n-1 = 100 -1 = 99
    • alpha/2=0.05/2=0.025alpha/2 = 0.05 / 2 = 0.025

Cuando sepamos esto, para obtener el valor tenemos que utilizar las Tablas de distribución t de Student.

3. Ver si el valor entra dentro del rango

Ahora que tenemos el intervalo de confianza, verificamos si el valor...

  • entra dentro del intervalo de confianza (1α1 - \alpha), también llamada zona de aceptación
  • cae en la zona de rechazo (α\alpha), también llamada zona crítica

Si el valor no entra dentro del intervalo de confianza, se que es un error y que no es posible.

Ejercicio práctico

Cuando se la varianza poblacional

Calcula el intervalo de confianza asociado a una media muestral de 26 que ha sido obtenida en una muestra de 100 sujetos, con una varianza poblacional de 16, asumiento un α=0.05\alpha = 0.05.

¿Puede ser 2323 la media poblacional?

Nos está pidiendo el intervalo de confianza de la media (Xˉ\bar{X}). Para ello, necesito sumar y restar un valor a la media.

Ese valor dependerá de si conocemos o no la varianza poblacional. En este caso, sí se que la vaianza poblacional es 16. Por lo tanto, aplicamos la fórmula correspondiente.

  • Li=Xˉzα/2×σnL_i = \bar{X} - |z_{\alpha/2}| \times \boxed{\frac{\sigma}{\sqrt{n}}}
  • Ls=Xˉ+zα/2×σnL_s = \bar{X} + |z_{\alpha/2}| \times \boxed{\frac{\sigma}{\sqrt{n}}}

Donde:

  • Xˉ\bar{X} es la media muestral, que es 25.
  • σn\boxed{\frac{\sigma}{\sqrt{n}}} es la fórmula del error estándar (EE(Xˉ)EE(\bar{X})), donde:
    • σ\sigma es la desviación estándar poblacional
    • nn es el tamaño de la muestra, que es 100.
  • zα/2z_{\alpha/2} es el valor crítico de la distribución normal Estándar
    • Al estar entre líneas zα/2|z_{\alpha/2}| implica que es un valor absoluto. Es decir, aunque sea un valor negativo, debe tratarse como positivo.
Cuidado: la varianza no es la desviación típica σ2σ\sigma^2 \neq \sigma

La fórmula σn\frac{\sigma}{\sqrt{n}} requiere la desviación estándar, no la varianza. Por ello, es importante hacer la raíz cuadrada:

EE(Xˉ)=σn=16100=0.4EE(\bar{X}) = \frac{\sigma}{\sqrt{n}} = \frac{\sqrt{16}}{\sqrt{100}} = 0.4

Ahora que tenemos el error estándar, aplicamos la fórmula:

IC(1α) de Xˉ=m±zα/2×EE(Xˉ)\textcolor{gray}{IC(1-\alpha) \text{ de } \bar{X} } = \boxed{m \pm z_{\alpha/2} \times \textcolor{gray}{EE(\bar{X})}}

Ya se que la media es m=100m=100 y se que el error estándar es EE(Xˉ)=0.4EE(\bar{X})=0.4. Nos queda la puntuación Z de la zona de rechazo.

Sabiendo que α=0.05\alpha = 0.05, necesito la puntuación Z de 0.025 (es decir 0.052\frac{0.05}{2}). Pare ello, basta con buscar en la tabla de distribución normal estándar y encontrar la frecuencia acumulada para 0.025, que es 1.96-1.96. Y por tanto, su valor absoluto sería 1,9.

Y aplicamos la fórmula para encontrar los límites interior e inferior:

  • Li=251.96×0.4=24.216L_i = 25 - 1.96 \times 0.4 = 24.216
  • Ls=25+1.96×0.4=25.784L_s = 25 + 1.96 \times 0.4 = 25.784

Por lo tanto, el intervalo de confianza al 95% para la media poblacional es (24.216, 25.784). Es decir, la media poblacional se encontraría con un 95% de probabilidad entre los valores 24,216 y 25,784.

Siendo así, no es posible que la media poblacional sea 2323 porque cae fuera del intervalo de confianza. Es decir, hay menos de un 5% de posibilidades de que la media sea 23.

Cuando no se la varianza poblacional

Calcula el intervalo de confianza asociado a una media muestral de 25 que ha sido obtenida en una muestra de 100 sujetos, con una varianza 👉 muestral 👈 de 16, asumiento un α=0.01\alpha = 0.01.

¿Puede ser 2323 la media poblacional?

En este caso, no se la varianza poblacional; sólo la varianza poblacional. Por lo tanto, no puedo utilizar la puntuación-z. En lugar de eso, utilizo tn1,α/2t_{n-1, \alpha/2}.

Pero antes calculemos el error estándar:

EE(Xˉ)=sn=1630=0.7303EE(\bar{X}) = \frac{s}{\sqrt{n}} = \frac{\sqrt{16}}{\sqrt{30}} = 0.7303

Ahora, recordemos la fórmula del IC cuando no se la varianza poblacional:

IC(1α) de Xˉ=m±tn1,  α/2×EE(M)IC(1-\alpha) \text{ de } \bar{X} = m \pm |t_{n-1,\space\space \alpha/2}| \times EE(M)

Ya se la media y el error estándar, por lo qué:

IC(1α) de Xˉ=25±tn1,  α/2×0.7303IC(1-\alpha) \text{ de } \bar{X} = 25 \pm |t_{n-1,\space\space \alpha/2}| \times 0.7303

Sin embargo, aún nos falta el valor tn1, α/2t_{n-1,\space \alpha/2}. Se que:

  • n1=301=29n-1 = 30 - 1 = 29
  • α/2=0.01/2=0.005\alpha/2 = 0.01 / 2 = 0.005

Por lo tanto, el valor tt que estoy buscando es el de t 29, 0.005t_{\space 29,\space 0.005} . Por eso, busco la tabla de distribución t de Student el valor en las coordenadas 29 y 0.005:

Conf. Level50%80%90%95%98%99%
One Tail0.2500.1000.0500.0250.0100.005
Two Tail0.5000.2000.1000.0500.0200.010
gl (grados de libertad)
11.0003.0786.31412.70631.82163.657
200.6871.3251.7252.0862.5282.845
210.6861.3231.7212.0802.5182.831
220.6861.3211.7172.0742.5082.819
230.6851.3191.7142.0692.5002.807
240.6851.3181.7112.0642.4922.797
250.6841.3161.7082.0602.4852.787
260.6841.3151.7062.0562.4792.779
270.6841.3141.7032.0522.4732.771
280.6831.3131.7012.0482.4672.763
290.6831.3111.6992.0452.4622.756
300.6831.3101.6972.0422.4572.750
400.6811.3031.6842.0212.4232.704
1000.6771.2901.6601.9842.3642.626

Vemos que el valor es 2,750. Es decir: t 29, 0.005=2.756t_{\space29,\space 0.005} = 2.756. Por lo tanto, finalmente puedo aplicar la fórmula:

IC(1α) de Xˉ=25±2.756×0.7303IC(1-\alpha) \text{ de } \bar{X} = 25 \pm 2.756 \times 0.7303

Y aplicamos la fórmula para encontrar los límites interior e inferior:

  • Li=252.756×0.7303=22.9873L_i = 25 - 2.756 \times 0.7303 = 22.9873
  • Ls=25+2.756×0.7303=27.0127L_s = 25 + 2.756 \times 0.7303 = 27.0127

Por lo tanto, el intervalo de confianza al 99% para la media poblacional es (22.9873, 27.0127). Es decir, la media poblacional se encontraría con un 99% de probabilidad entre los valores 22.9873 y 27.0127.

Siendo así, sí es posible que la media poblacional sea 2323 porque cae dentro del intervalo de confianza.