Saltar al contenido principal

Análisis descriptivo

En esta sección, explico qué índices son aplicables al análisis de distintos tipos de datos. Estos índices son las métricas que tenemos a nuestra disposición para analizar los datos obtenidos durante una investigación. Dicho de otra manera, son las métricas que describen los datos. Por eso, a esta sección se le llama análisis descriptivo.

Por recapitular, recuerda que en una investigación obtenemos datos. Al conjunto de datos obtenidos en la investigación los llamamos la matriz de datos. Esos datos los organizamos en una tabla llamada tabla de frecuencias, que muestra todos los datos de manera organizada, y además contiene los índices que describen los datos.

Ahora bien, es importante saber que la matriz de datos, y por tanto la tabla de frecuencias, se organiza de forma distinta dependiendo de si son datos cualitativos o cuantitativos. Como veremos, muchos de los índices son similares, pero algunos índices sólo aplican a variables cuantitativas o cualitativas, debido a la propia naturaleza de los datos.

Pregunta

La tabla de frecuencias es...

A continuación, explico qué indices se aplican a los datos. Primero explicaré los índices en datos cuantitativos, y después en datos cualitativos.

Matriz de datos

Es una tabla que tiene dos ejes, cuyas filas son los casos y cuyas columnas son las variables. Por ejemplo, las filas serían los sujetos que participan en el estudio, y las columnas serían sus respuestas a las preguntas de un cuestionario.

Cuando analizamos datos, la matriz de datos se organiza de forma que los casos son las filas, y las columnas son las variables. En la siguiente gráfica, vemos cómo el eje y se refiere a los casos, y el eje x se refiere a las variables.

IdSexoEdadColor de ojos
1Hombre23Azul
2Mujer25Marrón

Una vez los casos están organizados, procedemos a crear la tabla de frecuencias, que refleja cuántas veces se repiten los valores; es decir, la distribución de la frecuencia.

Distribución de frecuencia

La distribución de frecuencia se refiere al número de veces que aparece un valor. Sin embargo, hay distintas formas de analizar la distribución de la frecuencia.

Frecuencia absoluta (ni)

La frecuencia absoluta indica el número de casos que tiene un valor xix_i.

xix_inin_i
03
112 👈
22 👈
33
45

La tabla anterior representa el número de veces que se repite el valor de una variable. Por ejemplo, en esa tabla 12 personas han puntuado 1 en una escala de gravedad, mientras que sólo 2 personas han puntuado 2.

De forma similar, en la próxima tabla 45 personas han dicho que prefieren Coca-Cola, y sólo 15 prefieren Pepsi.

xix_inin_i
Coca-cola45
Pepsi15
  • nn representa la frecuencia absoluta
  • xx representa el valor
¿Qué es ii?

Hace referencia a una variable. De manera que xix_i es el valor en una variable ii, y nin_i es la frecuencia absoluta en la misma variable ii.

Frecuencia relativa (pi)

La frecuencia relativa es una medida estadística que se usa para describir el número de veces (la frecuencia) que ocurre un resultado en un conjunto de datos, en relación con el número total de observaciones.

Se calcula dividiendo la frecuencia absoluta de un resultado particular.

pi=ninp_i = \frac{n_i}{n}

Donde:

  • pip_i es la frecuencia relativa de la categoría ii-ésima.
  • nin_i es la frecuencia absoluta, o el número de veces que se observa la categoría ii-ésima.
  • nn es el tamaño total de la muestra, o el número total de observaciones en el conjunto de datos.

La frecuencia relativa nos permite entender la proporción que representa una categoría específica dentro del total de observaciones. Por ejemplo, si quiero calcular la frecuencia relativa de un color específico en una bolsa de canicas, dividiríamos el número de canicas de ese color por el número total de canicas.

La suma de todas las frecuencias relativas en un conjunto de datos debe ser igual a 1, lo que refleja la totalidad del conjunto de observaciones.

Por ejemplo:

xix_inin_ipip_i
Coca-cola450.75
Pepsi150.25

Las 45 personas han dicho que prefieren Coca-Cola, sobre el total de 60 personas, constituyen el 75%. O sea, el valor pip_i es 0.75.

Porcentaje relativo (%i)

El porcentaje relativo es similar a la frecuencia relativa, pero expresado como un porcentaje. Para convertir una frecuencia relativa en un porcentaje, simplemente multiplicamos la frecuencia relativa por 100.

La fórmula para calcular el porcentaje relativo %i\%_i es:

%i=pi×100\%_i = p_i \times 100

Por ejemplo:

xix_inin_ipip_i%i\%_i
Coca-cola450.7575%
Pepsi150.2525%

Frecuencia absoluta acumulada (na)

La frecuencia absoluta acumulada es la suma acumulativa de las frecuencias absolutas (nin_i) de cada categoría. Es útil para entender la distribución acumulativa de los datos.

La fórmula para calcular la frecuencia absoluta acumulada nan_a es:

na=nin_a = \sum n_i
  • Donde \sum indica la suma acumulativa.

Por ejemplo, si tenemos un conjunto de datos que muestra la frecuencia de puntuaciones:

xix_inin_inan_a
033
11215
2217
3320
4525

Cada valor en la columna nan_a es la suma de todas las frecuencias absolutas hasta ese punto. Por ejemplo, para el valor 2, la frecuencia absoluta acumulada es 17, que es la suma de las frecuencias de los valores 0, 1, y 2.

Frecuencia relativa acumulada (pa)

La frecuencia relativa acumulada pap_a representa la suma acumulativa de las frecuencias relativas pip_i. Indica la proporción de datos que se encuentra por debajo de un cierto valor o categoría.

La suma de las frecuencias relativas hasta un cierto punto nos da la frecuencia relativa acumulada:

pa=pip_a = \sum p_i
  • Donde \sum denota la suma acumulativa de las frecuencias relativas.

Por ejemplo, consideremos la siguiente tabla de distribución de frecuencias:

xix_inin_ipip_ipap_a
030.120.12
1120.480.60
220.080.68
330.120.80
450.201.00

Esta tabla nos permite responder rápidamente a preguntas como: ¿qué proporción de casos han puntuado menos de 2? Mirando la columna pap_a, puedo ver que el 68% de los casos tienen una puntuación de 2 o menos.

Porcentaje acumulado (pa)

El porcentaje acumulado %a\%_a es similar a la frecuencia relativa y absoluta acumulada, pero expresado en términos de porcentaje. Se calcula sumando los porcentajes de cada categoría sucesivamente hasta llegar al 100%, o también puede obtenerse multiplicando la frecuencia relativa acumulada pap_a por 100.

La fórmula para calcular el porcentaje acumulado %a\%_a es la siguiente:

%a=pa×100\%_a = p_a \times 100

Este cálculo nos permite observar el porcentaje total acumulado hasta cada categoría, de forma secuencial sucesiva.

Por ejemplo, si continuamos con la tabla anterior y añadimos el porcentaje acumulado, tendríamos:

xix_inin_ipip_ipap_a%a\%_a
030.120.1212%
1120.480.6060%
220.080.6868%
330.120.8080%
450.201.00100%

De esta manera, el porcentaje acumulado nos muestra que, por ejemplo, hasta la categoría 2, se ha acumulado el 68% del total de puntuación.

Índices basados en momentos

Son cálculos estadísticos que ayudan a comprender cómo se organizan o se distribuyen los datos.

  • Índices de tendencia central
    • Media aritmética
  • Índices de dispersion
    • Varianza
    • Desviación típica
    • Coeficiente de variación de Pearson
  • Índices de forma
    • Asimetría
    • Curtosis
Convención en el uso de letras

Una convención en estadística es el uso de letras griegas para los valores que se refieren a la población, y utilizar letras latinas para referirse a valores de la muestra.

La siguiente tabla muestra algunas equivalencias:

Muestra (latín)Población (griego)
Media aritméticaxˉ\bar{x}μ\mu
Desviación estándarssσ\sigma
Varianzas2s^2σ2\sigma^2
Proporciónp^\hat{p}π\pi
Covarianzasxys_{xy}σxy\sigma_{xy}
Coeficiente de correlaciónrrρ\rho

Índices de tendencia central

Los índices de tendencia central son muy útiles para los datos cuantitativos, aunque tienen ciertas limitaciones.

Media aritmética (x̄)

La media explica la tendencia que tiene la distribución.

Se representa por el símbolo xˉ\bar{x} cuando se refiere a la muestra, y el símbolo μ\mu cuando se refiere a la población.

Es el sumatorio de los valores de la distribución, dividido entre el número de casos (nn).

Fórmula de media aritmética
xˉ=i=1nxin\bar{x} = \frac{\sum_{i=1}^n x_i}{n}
  • la xx con una barra encima (xˉ\bar{x}) indica la media aritmética.
  • nn es el número total de elementos en el conjunto.
  • La media aritmética se calcula sumando todos los valores xix_i, donde ii representa cada posición individual en el conjunto de datos, desde el primer elemento (cuando i=1i = 1) hasta el último elemento (cuando i=ni = n)
  • Después de sumar todos estos valores, el resultado se divide por nn, que es el número de elementos que se sumaron, para encontrar la media.

La media el centro de gravedad de la distribución de masas. Si entendemos una distribución como una balanza en la que se distribuyen los datos de una variable, la media sería el lugar del centro de la balanza.

Sin embargo, la media no siempre refleja la gravedad, especialmente cuando hay outliers o cuando la distribución es muy asimétrica.

Propiedades de la media

La media tiene las siguientes propiedades:

  1. Puntuación diferencial: Informa sobre la distancia de una puntuación concreta respecto a la media. Se calcula restando la media al valor en cuestión: xi=Xixˉx_i = X_i - \bar{x}, donde xix_i es la puntuación diferencial, XiX_i es el valor de la variable y xˉ\bar{x} es la media de la variable.
  2. Suma de una constante: Si a todos los valores de la variable XiX_i se les suma una constante kk, la media se incrementa en esa constante. Es decir: yˉ=xˉ+k\bar{y} = \bar{x} + k, donde yˉ\bar{y} es la nueva media después de sumar la constante, y xˉ\bar{x} es la media original.
  3. Producto por una constante: Si todos los valores de la variable XiX_i se multiplican por una constante kk, la media se multiplica por esa constante. Es decir: yˉ=xˉk\bar{y} = \bar{x} \cdot k, donde yˉ\bar{y} es la nueva media después de multiplicar por la constante.
  4. Combinación lineal: La media de una combinación lineal de una variable es la combinación lineal de la media. Si a todos los valores de la variable XiX_i les sumamos un número aa y multiplicamos los valores por un número bb, la media resulta de aplicar esas operaciones a la media original. Es decir: yˉ=a+xˉb\bar{y} = a + \bar{x} \cdot b. Esto es, en esencia, la combinación de las dos propiedades anteriores. Funciona porque la media resulta de una combinación lineal, lo cual se refiere a una ecuación de primer grado (una función lineal), que genera una línea recta al representarla en una gráfica.

Pregunta

Los índices basados en momentos (por ejemplo, la media) son aconsejables ante distribuciones asimétricas y cuando hay casos atípicos

Índices de dispersión

Explican qué tanto varían los datos de una distribución.

Varianza (s2)

La varianza (s2s^2) refleja la variabilidad de la distribución. En realidad, Es el grado en el que los datos se distancian de la media. A la varianza también se le puede llamar concentración.

Se representa por el símbolo s2s^2 cuando se refiere a la muestra, y el símbolo σ2\sigma^2 cuando se refiere a la población.

  • No puede tener valores negativos
  • Cuando el valor es 0 significa que todos los valores son el mismo número.
  • Cuanto mayor es la varianza, mayor es la variabilidad de la distribución.
  • Solo se pueden comparar variables medidas con la misma unidad. Es decir, deben ser valores de una misma escala.
Fórmula de varianza (s2s^2)

En el cálculo de la varianza, hay que elevar al cuadrado los valores, para que los valores negativos no anulen los positivos.

La fórmula de la varianza es:

s2=(xixˉ)2n1s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1}

Aquí está el significado de cada símbolo:

  • s2s^2: Representa la varianza de la muestra. La varianza es una medida de la dispersión que indica qué tan esparcidos están los datos alrededor de la media. El cuadrado (2^2) indica que estamos hablando de varianza y no de desviación estándar (que sería ss).
  • \sum: Este es el símbolo de suma y significa que debes sumar la expresión que sigue a este símbolo para todos los valores de la muestra.
  • xix_i: Representa cada valor individual en tu conjunto de datos. El subíndice "i" es un índice que recorre todos los datos de la muestra.
  • x\overline{x}: Es la media aritmética de los datos. Se calcula sumando todos los valores de la muestra y dividiendo el resultado entre el número total de datos.
  • (xix)2(x_i - \overline{x})^2: Esto indica que para cada valor de la muestra, debes restar la media y luego elevar al cuadrado el resultado. Esto se hace para calcular la distancia al cuadrado de cada valor respecto a la media.
  • n1n-1: "n" es el número total de valores en la muestra. Se resta 1 para obtener los grados de libertad, lo que proporciona una estimación imparcial de la varianza de la población a partir de una muestra.

El denominador n1n-1 se utiliza en lugar de nn para corregir el sesgo en la estimación de la varianza de la población a partir de una muestra. Si solo se tuviera nn en el denominador, estaríamos calculando la varianza poblacional bajo la suposición de que tenemos acceso a todos los datos de la población, lo cual no es el caso cuando trabajamos con muestras.

Propiedades de la varianza

La varianza tiene las siguientes propiedades:

  1. Suma de una constante: Si a todos los valores de la variable XiX_i se les suma una constante kk, la varianza no cambia. Es decir, si yˉ=xˉ+k\bar{y} = \bar{x} + k, entonces sy2=sx2s_y^2 = s_x^2.
  2. Producto por una constante: Si todos los valores de la variable XiX_i se multiplican por una constante kk, es necesario multiplicar también la varianza por el valor k2k^2 para mantener la varianza proporcional. Es decir, si yˉ=xˉk\bar{y} = \bar{x} \cdot k, entonces sy2=sx2k2s_y^2 = s_x^2 \cdot k^2.
  3. Combinación lineal: Si a todos los valores de la variable XiX_i se les suma un número aa y se multiplican los valores por un número bb, es necesario multiplicar también la varianza por b2b^2 y sumar a2a^2. Es decir, si yˉ=a+xˉb\bar{y} = a + \bar{x} \cdot b, entonces sy2=sx2b2s_y^2 = s_x^2 \cdot b^2. Esta propiedad es, en esencia, la combinación de las dos propiedades anteriores.
Explicación de la fórmula

La fórmula está relacionada con las propiedades de la varianza en estadística, específicamente cómo se transforma la varianza cuando aplicas una transformación lineal a un conjunto de datos.

La primera parte de la fórmula:

yˉ=a+xˉb\bar{y} = a + \bar{x} \cdot b

indica que cada valor en un nuevo conjunto de datos yˉ\bar{y} es el resultado de tomar cada valor del conjunto de datos original xˉ\bar{x}, multiplicándolo por bb y luego sumándole aa. Este tipo de operación es una transformación lineal de los datos.

La segunda parte de la fórmula:

sy2=sx2b2s_y^2 = s_x^2 \cdot b^2

nos dice cómo cambia la varianza s2s^2 de ese conjunto de datos como resultado de la transformación lineal. La varianza del nuevo conjunto de datos sy2s_y^2 es igual a la varianza del conjunto de datos original sx2s_x^2 multiplicada por el cuadrado del factor de escala b2b^2. Esto es debido a que la varianza, siendo una medida de dispersión, se afecta por cambios de escala en los datos.

La adición de aa no afecta a la varianza, ya que solo desplaza los datos, pero no afecta a su dispersión. En resumen, la fórmula nos está diciendo que la transformación lineal de los datos escala la varianza por el cuadrado del factor de escala de la transformación.

Desviación típica o estándar (s)

La desviación típica (ss), también llamada desviación estándar, es una medida estadística de dispersión, al igual que la varianza. Es decir: refleja del grado en el que los datos se separan de la media.

Se representa por el símbolo ss cuando se refiere a la muestra, y el símbolo σ\sigma cuando se refiere a la población.

¿Desviación típica y desviación estándar son lo mismo?

Sí, "desviación típica" y "desviación estándar" son términos equivalentes que se refieren a la misma medida estadística. En inglés, este concepto se denomina "standard deviation", y en español, se traduce comúnmente como "desviación estándar", aunque el término "desviación típica" también se utiliza en algunos contextos.

También hay confusión con respecto a la notación (ss, DSDS, DTDT, SDSD...). La notación para la desviación estándar puede variar dependiendo de varios factores, como el idioma, la tradición académica, y el contexto específico. Utilizar ss es una convención estándar en muchos textos de matemáticas y estadísticas, independientemente del idioma. Sin embargo, hay quien utiliza las iniciales de desviación típica (DTDT) o en inglés standar deviation (SD). Yo voy a evitar hacer tal cosa.

La desviación típica se calcula haciendo la raíz cuadrada de la varianza. Recuerda que la varianza se calcula haciendo el cuadrado de los valores, para evitar que los valores negativos se anulen. Por eso, ahora corregimos esa operación, haciendo la raíz cuadrada de la varianza, y así conseguimos la desviación típica.

Fórmula de desviación estándar

Si ya tienes la varianza (s2s^2), la desviación típica (ss) es sencillamente s=s2s = \sqrt{s^2}.

Sin embargo, la forma de calcularla a partir del conjunto de datos es:

s=1n1i=1n(xixˉ)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}
  • Se toma cada dato individual del conjunto, denotado por xix_i.
  • Se calcula la diferencia entre ese dato individual y la media del conjunto, x\overline{x}, para determinar cuánto se desvía cada dato de la media.
  • Se eleva al cuadrado esta diferencia para asegurar que los resultados sean positivos y para dar más peso a las desviaciones más grandes.
  • Se suman todas estas diferencias al cuadrado. \sum es el símbolo de sumatoria, que indica que se debe sumar la expresión que le sigue para todos los valores de ii desde 1 hasta nn.
  • Se divide la suma por n1n-1, donde nn es el número total de datos. Se usa n1n-1 en lugar de nn para obtener una estimación imparcial de la varianza poblacional, lo cual es importante en muestras pequeñas y es conocido como "corrección de Bessel".
  • Finalmente, se obtiene la raíz cuadrada de este resultado para volver a la unidad original de los datos y obtener la desviación estándar.
¿Por qué es útil la desviación estándar si ya tenemos la varianza?

La desviación estándar es una medida estadística que, a diferencia de la varianza, se expresa en las mismas unidades que los datos originales.

Esto la hace intuitivamente más fácil de interpretar y aplicar en contextos prácticos. Mientras que la varianza nos da una idea general de la dispersión, la desviación estándar nos permite comprender y comunicar esta dispersión en términos más concretos.

Además, como está en las mismas unidades que los datos originales, también está en la misma unidad que la media. Gracias a esto se puede comparar con la media. La forma más habitual de utilizar la desviación estándar es restar o sumar la desviación estándar a la media, para obtener un rango dentro del cual se espera que caiga la mayoría de los datos. Este rango es conocido como "una desviación estándar" y cubre aproximadamente el 68% de los datos en una distribución normal. Al extender este rango a "dos desviaciones estándar", aumentamos la cobertura al 95%.

Desviaciones estándar

Esta característica es particularmente útil en áreas como el diagnóstico clínico. En psicología, por ejemplo, la desviación estándar permite establecer umbrales clínicos. Un paciente cuya puntuación en una prueba está más allá de cierto número de desviaciones estándar de la media puede considerarse atípico y, por lo tanto, puede ser elegible para un diagnóstico específico.

Ventajas de la desviación estándar sobre la varianza:

  • Proporciona una medida de dispersión en la misma escala que los datos.
  • Facilita la interpretación y la comunicación de la variabilidad de los datos.
  • Permite construir intervalos alrededor de la media que son directamente significativos en el contexto de los datos observados.
Características de la desviación estándar
  • Puede tener valores positivos o negativos
  • Cuando el valor es 0, significa que los valores son iguales. A esto se le denomina constante.
  • Cuando mayor es la desciación típica, mayor es la variabilidad. Esto hay que mirarlo sin fijarse en si es un número positivo o negativo. Por ejemplo, una desviación típica de -10 significa más desviación estándar que -5.
  • Solo se pueden comparar variables medidas con la misma unidad. Es decir, deben ser valores de una misma escala.
Propiedades de la desviación estándar

La desviación estándar tiene las siguientes propiedades:

  1. Suma de una constance: si a todos los valores de la desviación estándar xix_i les suma una constante kk, la desviación estándar no cambia. Es decir, si y=x+ky = x + k , entonces sy=sxs_y = s_x .
  2. Producto de una constance: si a todos los valores de la desviación estándar xix_i les multiplica una constante kk, es necesario multiplicar también la desviación estándar por el mismo valor kk al cuadrado, para que se mantenga igual. Es decir, si y=xky = x \cdot k, entonces sy=sxk2s_y = s_x \cdot k^2.
  3. Combinación lineal: si a todos los valores de la variable xix_i sumamos un número a y multiplicamos los valores por un número b, es necesario multiplicar también la varianza por el número b al cuadrado. Es decir, si y=a+xby = a + x \cdot b , entonces sy=sxbs_y = s_x \cdot |b| . Esto es, en esencia, la combinación de las dos propiedades anteriores.
Coeficiente de Variación de Pearson (CV)

El Coeficiente de Variación de Pearson, a diferencia de los anteriores, sirve para comparar variables medidas en distintas unidades o con distintas medias. En esencia, sirve para medir la dispersión relativa. Por eso, se considera que el Coeficiente de Variación de Pearson sirve para estandarizar la desviación típica.

Se define como la desviación estándar dividida entre la media, a menudo expresada en porcentaje. La fórmula es la siguiente:

CV=sxxˉ×100CV = \frac{s_x}{\bar{x}} \times 100

donde

  • CVCV es el Coeficiente de Variación
  • ss es la desviación estándar
  • xˉ\bar{x} es la media aritmética

Como norma general, cuando el CV está por debajo de 50 se considera una desviación pequeña, y por encima de 100 se considera una desviación alta.

No confundir los coeficientes de variación y de correlación de Pearson

El coeficiente de correlación de Pearson se utiliza para describir el grado de relación lineal entre dos variables, mientras que el coeficiente de variación de Pearson se usa para evaluar la variabilidad de una sola variable en relación con su media. Ambos son útiles en su contexto, pero sirven para propósitos estadísticos diferentes.

Utilidad del Coeficiente de Variación de Pearson

El Coeficiente de Variación de Pearson es útil por varias razones:

  1. Comparabilidad: Permite comparar la variabilidad entre conjuntos de datos con diferentes unidades de medida o diferentes medias. Esto es particularmente útil cuando se quieren comparar los resultados de dos o más series de datos que no comparten una escala común.
  2. Normalización de la dispersión: Al normalizar la desviación estándar con respecto a la media, proporciona una medida de la dispersión relativa que es independiente de la escala de los datos, lo que facilita la interpretación de la variabilidad.
  3. Identificación de homogeneidad: Un CV bajo indica que los datos están menos dispersos alrededor de la media (más homogéneos), mientras que un CV alto sugiere una mayor dispersión (menos homogeneidad).
  4. Aplicaciones en diversos campos: Se utiliza en finanzas para comparar el riesgo relativo de diferentes activos, en control de calidad para evaluar la consistencia en la producción, en biología para comparar la variabilidad entre características biológicas y en cualquier área donde la variabilidad relativa es de interés.

En resumen, el Coeficiente de Variación de Pearson proporciona contexto a la desviación estándar, permitiendo una comprensión más profunda de la dispersión de los datos en relación con su media.

Índices de forma

Asimetría

La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno.

George Bernard Shaw

La asimetría decribe el patrón alrededor del promedio en la distribución de valores.

Sirve para dar un contexto a la media aritmética que muchas veces es necesario, especialmente teniendo en cuenta que tendemos a pensar que los valores de una muestra se distribuyen de forma simétrica.

Ejemplo: los sueldos en España

El sueldo medio en España ronda los 1.600 euros. Ese valor es la media. Sin embargo, el 47% de los trabajadores cobra menos de 1.000 euros. Eso quiere decir que la mitad de las personas cobran un sueldo muy por debajo de la media. Es decir, se trata de una asimetría positiva. Muy lejos de ser una distribución simétrica. En este caso, la media no es un dato falso; sencillamente no es el dato que mejor informa sobre la distribución de los datos.

En términos más generales, si la muestra es muy asimétrica, puedo concluir que los índices basados en momentos no van a ser los adecuados para extraer conclusiones. El motivo es que los índices basados en momentos se basan en la media, y si la muestra es muy asimétrica, la media no es demasiado esclarecedora.

Pregunta

Las distribuciones asimétricas negativas son aquellas que presentan valores en la parte baja de la distribución

Escala ZAsimetría

Para comparar la asimetría, utilizo una métrica estandarizada llamada escala zz.

ZAsimetria=AsimetriaError estandarAsimetriaZ_{Asimetria} = \frac{Asimetria}{Error\ estandar_{Asimetria}}
Valores de referencia

Dependiendo de cómo de representativa sea la muestra, es decir, dependiendo del valor de pp, hay unos valores estándar de simetría en función de los cuales puedo determinar si la muestra es asimétrica.

  • Cuando la muestra es pequeña (p<0.05p < 0.05)
    • Z<1.96Z < -1.96: asimetría negativa
    • 1.96<Z<1.96-1.96 < Z < 1.96: simetría
    • Z>1.96Z > 1.96: simetría positiva
  • Cuando la muestra es mediana (p<0.01p < 0.01)
    • Z<2.58Z < -2.58: asimetría negativa
    • -2.58 < Z < 2.58: simetría
    • Z>2.58Z > 2.58: simetría positiva
  • Cuando la muestra es grande (p<0.001p < 0.001)
    • Z<3.29Z < -3.29: asimetría negativa
    • 3.29<Z<3.29-3.29 < Z < 3.29: simetría
    • Z>3.29Z > 3.29: simetría positiva
Tipos de asimetría

La asimetría puede ser de tres tipos:

  1. Asimetría positiva: cuando los datos tienden hacia valores por debajo del promedio. En consecuencia, cuando el vacío de datos está en la derecha.
  2. Simetría: cuando los datos se distribuyen igual hacia valores bajos o altos respecto al promedio.
  3. Asimetría negativa: cuando los datos tienden hacia valores por encima del promedio. En consecuencia, cuando el vacío de datos está en la izquieda.
Curtosis

La curtosis es el grado de apuntamiento de la distribución. Es decir, cómo de concrentrados están los datos. Otra forma de verlo es la distribución de los datos en el eje y. Proviene del griego κυρτός (kurtos), que significa curvado.

Cumple una función similar a la asimetría, ya que informa sobre aspectos de la distribución que la media no está revelando. Por ejemplo, una distribución muy plana significa que los valores no se concentran en la media. En el caso de los sueldos, significa que la mayoría no va a tener el sueldo medio. Aunque sea simétrico y haya el mismo número de personas por debajo y por encima de la media, significa que las personas que cobran la media son una minoría.

En términos más generales, si la muestra presenta mucha curtosis, puedo concluir que los índices basados en momentos no van a ser los adecuados para extraer conclusiones. El motivo es que los índices basados en momentos se basan en la media, y si la muestra tiene mucha curtosis, la media no es demasiado esclarecedora.

Tipos de curtosis

La curtosis puede ser de tres tipos:

  1. Curtosis positiva: cuando los datos están muy concentrados.
  2. Curtosis negativa: cuando los datos no están concentrados.

A su vez, la curtosis da lugar a tres formas:

  1. Leptocúrtica: cuando hay un alto grado de concentración. Es decir, cuando la curtosis es positiva. Proviene del griego leptos (λεπτός), que significa delgado o fino.
  2. Mesocúrtica: un punto medio entre las otras dos. Deriva de meso (μέσος), un prefijo griego que significa medio.
  3. Platicúrtica: cuando los datos no están concentrados. La curtosis es negativa. "Platicúrtica" viene de platus (πλατύς), que en griego significa plano o ancho.
Escala ZCurtosis

Para comparar la asimetría, utilizo una métrica estandarizada llamada escala zz.

ZCurtosis=CurtosisError estandarCurtosisZ_{Curtosis} = \frac{Curtosis}{Error\ estandar_{Curtosis}}
Valores de referencia

Dependiendo de cómo de representativa sea la muestra, es decir, dependiendo del valor de pp, hay unos valores estándar de curtosis en función de los cuales puedo determinar la curtosis.

  • Cuando la muestra es pequeña (p<0.05p < 0.05)
    • Z<1.96Z < -1.96: forma platicúrtica
    • 1.96<Z<1.96-1.96 < Z < 1.96: forma mesocúrtica
    • Z>1.96Z > 1.96: forma leptocúrtica
  • Cuando la muestra es mediana (p<0.01p < 0.01)
    • Z<2.58Z < -2.58: forma platicúrtica
    • 2.58<Z<2.58-2.58 < Z < 2.58: forma mesocúrtica
    • Z>2.58Z > 2.58: forma leptocúrtica
  • Cuando la muestra es grande (p<0.001p < 0.001)
    • Z<3.29Z < -3.29: forma platicúrtica
    • 3.29<Z<3.29-3.29 < Z < 3.29: forma mesocúrtica
    • Z>3.29Z > 3.29: forma leptocúrtica

Índices basados en ordenaciones

Los índices basados en ordenaciones son resistentes a las asimetrías y los casos atípicos. Se constituyen a través de ordenar los valores de la variable.

Mediana (Mdn)

La mediana se calcula dividiendo el conjunto de datos ordenado en dos partes, tomando como corte el valor que deja por debajo el 50% de los casos. Por eso, es lo mismo que el P50P_{50}.

Es decir: Mdn=P50Mdn = P_{50}.

Si el conjunto de datos es par, no hay número del medio. Por lo tanto, hay que hacer la media de los dos números centrales.

Si la distribución es simétrica, la mediana coincide con la media. Por eso, la mediana se emplea en distribuciones asimétricas, que es donde aporta valor descriptivo.

Percentil (Pk)

El percentil es el cuantil más usado. Los cuantiles son medidas de posición que se obtienen al dividir el conjunto ordenado de valores de una variable en qq partes iguales.

Es decir, consiste en ordenar los datos en función de su valor en una variables, y dividir la muestra en partes, para posicionarlos en estas partes.

El percentil consiste en ordenar y dividir la muestra en 99 puntos de corte, generando 100 unidades.

El percentil se representa por la letra pp, seguido del orden kk. Por ejemplo, el percentil 50 se representa por P50P_{50}, mientras que el percentil 7 sería P7P_7.

Si un valor 123 se encuentra en el percentil 50 (P50P_{50}), significa que el caso tiene un valor que coincide con el 50% de los valores de la muestra. Dicho de otra manera, significa que el 50% de los casos son iguales o menores a 123.

Cómo calcular percentiles

Hay que seguir los siguientes pasos:

  1. Ordenar los valores. Es decir, asignar posición j.
  2. Escoger el percentil cuyo valor quieres averiguar.
  3. Aplicar la fórmula.
  4. Observar qué valor corresponde a esa posición.
Fórmula para el cálculo de percentil
Pk=k(n+1)100P_k = \frac{k \cdot {(n + 1)}}{100}

Por ejemplo, dado el siguiente conjunto de datos:

jxix_i
110
223
324
426
5102
6320
7321

Si quiero calcular el percentil 70 (P70P_{70}), la fórmula sería:

P70=70(7+1)100=5P_{70} = \frac{70 \cdot {(7 + 1)}}{100} = 5

Eso significa que j=5j = 5, es decir: que el P70P_{70} comienza en la posición 5, cuyo valor es 102.

Cuando la posición kk tiene decimales

Si quiero calcular el percentil 20 (P20P_{20}), el resultado genera un decimal:

P20=20(7+1)100=1.6P_{20} = \frac{20 \cdot {(7 + 1)}}{100} = 1.6

Eso significa que el percentil 20 (P20P_{20}) está entre las posiciones 1 y 2, pero no se exactamente dónde. En este caso, hay que aplicar la siguiente fórmula:

Pk=(1d)xi+dxi+1P_k = (1-d) \cdot x_i + d \cdot x_{i+1}
  • El símbolo dd representa el decimal del percentil, por lo que d=0.6d = 0.6
  • x1x_1 es el valor en la posición 1, por lo que X1=10X_1 = 10
  • xi+1x_{i+1} es el valor en la posición 2, por lo que X1=23X_1 = 23

Por lo tanto, la fórmula es:

P20=(10.6)10+0.623=17.8P_{20} = (1-0.6) \cdot 10 + 0.6 \cdot 23 = 17.8
Utiliza el valor en la posición

En los valores xix_i y xi+1x_{i+1} hay que poner el valor en la posición, no la posición. Es decir, xi=2x_i = 2, y el valor en la posición 2ª es 22, por eso ponemos 2. Igualmente, xi+1=3x_{i+1} = 3, y el valor en la posición 3ª es 22, por eso ponemos 2.

Cuartil (Qk)

El cuartil es un tipo de cuantil. se calcula dividiendo el conjunto de datos ordenado en tres puntos de corte, generando 4 fracciones.

El primer cuartil se corresponde con el percentil 25. Es decir: Q1=P25Q_1 = P_{25}. De forma similar, el tercer cuartil se corresponde con el percentil 75: Q3=P75Q_3 = P_{75}.

De forma esquemática:

  • Q1=P25Q_1 = P_{25}
  • Q2=P50=MdnQ_2 = P_{50} = Mdn
  • Q4=P75Q_4 = P_{75}

Amplitud intercuartil (IQR)

Es la medida de dispersion para cuartiles, que refleja cómo de dispersos están los valores.

IQR=Q3Q1IQR = Q_3 - Q_1, que, a su vez, es igual a P75P25P_{75} - P_{25}. Es decir:

IQR=Q3Q1=P75P25IQR = Q_3 - Q_1 = P_{75} - P_{25}

Por ejemplo, dado el siguiente conjunto de datos:

PercentilCuartilxx
P10P_{10}15
P25P_{25}Q1Q_119
P50P_{50}Q2Q_224
P75P_{75}Q3Q_328.3
P90P_{90}30

El IQR se calcula así:

IQR=28.319=9.3IQR = 28.3 - 19 = 9.3

Desviación cuartil (DC)

Es lo mismo que la amplitud intercuartil (IQR), dividido entre dos.

DC=Q3Q12=P75P252DC = \frac{Q_3 - Q_1}{2} = \frac{P_{75} - P_{25}}{2}

Coeficiente de Variación Cuartil (CVC)

El Coeficiente de Variación Cuartil refleja la dispersión relativa, de forma que se puede comparar con otros valores, incluyendo valores con distintas unidades de medida

CVC=Q3Q1Q3+Q1=P75P25P75+P25CVC = \frac{Q_3 - Q_1}{Q_3 + Q_1} = \frac{P_{75} - P_{25}}{P_{75} + P_{25}}

Es lo equivalente al Coeficiente de Pearson, pero aplicado a índices basados en ordenaciones.

Otros índices descriptivos

Media recortada

Es la medida resultante de excluir un porcentaje de casos de las dos colas de distribución.

Sirve para excluir los casos atípicos (outliers) que puedan estar causando ruido sobre la media aritmética, y reduce las asimetrías.

Trimedia

La trimedia es un índice de tendencia central resistente que se basa en la media de los tres cuartiles.

Trimedia=Q1+2Q2+Q34Trimedia = \frac{{Q_1} + 2 \cdot {Q_2} + {Q_3}}{4}

Recuerda que los cuartiles (Q) también se pueden expresar como percentiles (P), y el segundo cuartil además coincide con la mediana (Mdn)

Moda

La moda es un índice de tendencia central que refleja cuál es el valor más repetido. Dicho de otra manera, cuál es el valor con mayor frecuencia absoluta.

Puede ser unimodal, si el valor que más se repite es sólo uno, o bimodal, si hay dos valores que son los más repetidos y con la misma frecuencia. Asimismo, puede ser polimodal, si el valor más frecuencte es más de tres.

Si todos los valores de la muestra tienen la misma frecuencia, se considera amodal, porque no hay ninguna moda.

Amplitud

Es la medida de dispersión que se define por la diferencia entre el valor mínimo y el valor máximo de la distribución de valores ordenados.

La amplitud es la forma más simple de conocer la dispersión de los datos. Es útil en los casos en los que otros índices no son aplicables debido a la naturaleza de los datos. Por ejemplo, cuando son variables nominales.

Descripción estadística de datos cualitativos

Las tablas de frecuencia en datos cualitativos se ordenan de forma distinta a como lo hacemos en datos cuantitativos.

Cuando analizamos datos cualitativos, la matriz de datos se organiza de forma que las categorías son las filas, y las columnas son el número de casos de cada categoría.

En la siguiente gráfica, vemos cómo el eje y se refiere a las categorías, y el eje x se refiere a las frecuencias.

Categoríanin_i
Desempleado20
Trabajador43
Jubilado12

Una vez los casos están organizados, procedemos a crear la tabla de frecuencias, que refleja cuántas veces se repiten los valores; es decir, la distribución de la frecuencia.

Para ello, el primer paso es convertir las categorías en un valor numérico.

xix_iCategoríanin_i
0Desempleado20
1Trabajador43
3Jubilado12

Variable nominal

Una variable nominal es aquella que no se puede ordenar. Es decir, es un dato cualitativo cuyas categorías no guardan un orden. Cuando se trata de una variable nominal, no tiene sentido calcular valores acumulados. Lo que sí calculo es la frecuencia relativa (pip_i) y el porcentaje relativo i_i.

Recuerda que estas medidas indican la proporción de casos que tiene un valor xix_i. Es decir, sobre el total de casos, cuántos han elegido el valor xx.

xix_iCategoríanin_ipip_ii_i
0Desempleado200.266726.67
1Trabajador430.573353.33
2Jubilado120.160016.00

Variable ordinal

Una variable ordinal es aquella que sí se puede ordenar. Es decir, es un dato cualitativo cuyas categorías guardan un orden. Por eso, en las variables ordinales sí tiene sentido mostrar los acumulados.

xix_iCategoríanin_ipip_ipip_inan_apip_ipap_a
0Poco200.266726.67200.266726.67
1Algo430.573353.33640.840084.00
2Mucho120.160016.00761.0000100.0
tip

Tiene sentido decir que el 84% de la muestra tiene una puntuación de algo o menos, porque hay un orden entre Poco, Algo y Mucho. Sin embargo, no tiene sentio decir que el 84% de la muestra tiene una puntuación de trabajados o menos, porque no hay un orden entre las categorías Desempleado, Trabajador y Jubilado.

Representación gráfica de datos

BoxPlot (Diagrama de cajas y bigotes)

En SPSS se puede crear un diagrama que refleja la distribución de los cuartiles de forma visual.

Es un diagrama que refleja, en vertical, la distribución de los datos, y tiene distintas barras que reflejan los cuartiles.

Comparación

Diagrama de tallos y hojas (stem and leaf)

En SPSS hay una tabla llamada Diagrama de tallos y hojas, que es frecuentemente utilizada al analizar datos. Tiene las siguientes propiedades:

  • Muestra los datos conservando los valores originales de la variable
  • Permite localizar valores centrales
  • Facilita identificar la concentración de datos
  • Permite ver saltos o discontinuidades en los que no haya datos
  • Permite ver la amplitud de la distribución
  • Permite localizar casos atípicos

Divide los datos de manera que separa el primer dígito, y después muestra los siguientes dígitos. Por ejemplo, en la siguiente tabla vemos que hay 8 personas que tienen 30-y-algo años. Se que son 8 por la columna frecuencia, y se que son 30-y-algo por el stem (3). Y más concretamente, mirando la hoja, vemos que tres personas tienen 35 años (555) mientras que sólo una tiene 36 (6)

EDAD

FrecuenciaStem&Hoja
12-23
83-55568889

También permite ver asimetrías, ya que hemos que hay más personas con 30-y-pico que con 20-y-pico.

Histograma

Es un gráfico que agrupa los casos en barras, de manera que más casos genera una barra más alta.

Gracias a esto, se puede ver con claridad la distribución de la variable.

En SPSS, el histograma va acompañado de:

  • La media
  • La desviación estándar
  • El tamaño de la muestra (N)

Sin embargo, conviene recordad que si la distribución es asimétrica, la media y la desviación típica no tienen mucha utilidad.