Análisis descriptivo
En esta sección, explico qué índices son aplicables al análisis de distintos tipos de datos. Estos índices son las métricas que tenemos a nuestra disposición para analizar los datos obtenidos durante una investigación. Dicho de otra manera, son las métricas que describen los datos. Por eso, a esta sección se le llama análisis descriptivo.
Por recapitular, recuerda que en una investigación obtenemos datos. Al conjunto de datos obtenidos en la investigación los llamamos la matriz de datos. Esos datos los organizamos en una tabla llamada tabla de frecuencias, que muestra todos los datos de manera organizada, y además contiene los índices que describen los datos.
Ahora bien, es importante saber que la matriz de datos, y por tanto la tabla de frecuencias, se organiza de forma distinta dependiendo de si son datos cualitativos o cuantitativos. Como veremos, muchos de los índices son similares, pero algunos índices sólo aplican a variables cuantitativas o cualitativas, debido a la propia naturaleza de los datos.

Pregunta
La tabla de frecuencias es...
A continuación, explico qué indices se aplican a los datos. Primero explicaré los índices en datos cuantitativos, y después en datos cualitativos.
Matriz de datos
Es una tabla que tiene dos ejes, cuyas filas son los casos y cuyas columnas son las variables. Por ejemplo, las filas serían los sujetos que participan en el estudio, y las columnas serían sus respuestas a las preguntas de un cuestionario.
Cuando analizamos datos, la matriz de datos se organiza de forma que los casos son las filas, y las columnas son las variables. En la siguiente gráfica, vemos cómo el eje y
se refiere a los casos, y el eje x
se refiere a las variables.
Id | Sexo | Edad | Color de ojos |
---|---|---|---|
1 | Hombre | 23 | Azul |
2 | Mujer | 25 | Marrón |
Una vez los casos están organizados, procedemos a crear la tabla de frecuencias, que refleja cuántas veces se repiten los valores; es decir, la distribución de la frecuencia.
Distribución de frecuencia
La distribución de frecuencia se refiere al número de veces que aparece un valor. Sin embargo, hay distintas formas de analizar la distribución de la frecuencia.
Frecuencia absoluta (ni)
La frecuencia absoluta indica el número de casos que tiene un valor .
0 | 3 |
1 | 12 👈 |
2 | 2 👈 |
3 | 3 |
4 | 5 |
La tabla anterior representa el número de veces que se repite el valor de una variable. Por ejemplo, en esa tabla 12 personas han puntuado 1
en una escala de gravedad, mientras que sólo 2 personas han puntuado 2
.
De forma similar, en la próxima tabla 45 personas han dicho que prefieren Coca-Cola
, y sólo 15 prefieren Pepsi
.
Coca-cola | 45 |
Pepsi | 15 |
- representa la frecuencia absoluta
- representa el valor
Hace referencia a una variable. De manera que es el valor en una variable , y es la frecuencia absoluta en la misma variable .
Frecuencia relativa (pi)
La frecuencia relativa es una medida estadística que se usa para describir el número de veces (la frecuencia) que ocurre un resultado en un conjunto de datos, en relación con el número total de observaciones.
Se calcula dividiendo la frecuencia absoluta de un resultado particular.
Donde:
- es la frecuencia relativa de la categoría -ésima.
- es la frecuencia absoluta, o el número de veces que se observa la categoría -ésima.
- es el tamaño total de la muestra, o el número total de observaciones en el conjunto de datos.
La frecuencia relativa nos permite entender la proporción que representa una categoría específica dentro del total de observaciones. Por ejemplo, si quiero calcular la frecuencia relativa de un color específico en una bolsa de canicas, dividiríamos el número de canicas de ese color por el número total de canicas.
La suma de todas las frecuencias relativas en un conjunto de datos debe ser igual a 1, lo que refleja la totalidad del conjunto de observaciones.
Por ejemplo:
Coca-cola | 45 | 0.75 |
Pepsi | 15 | 0.25 |
Las 45 personas han dicho que prefieren Coca-Cola
, sobre el total de 60 personas, constituyen el 75%. O sea, el valor es 0.75
.
Porcentaje relativo (%i)
El porcentaje relativo es similar a la frecuencia relativa, pero expresado como un porcentaje. Para convertir una frecuencia relativa en un porcentaje, simplemente multiplico la frecuencia relativa por 100.
La fórmula para calcular el porcentaje relativo %i es:
Por ejemplo:
%i | |||
---|---|---|---|
Coca-cola | 45 | 0.75 | 75% |
Pepsi | 15 | 0.25 | 25% |
Frecuencia absoluta acumulada (na)
La frecuencia absoluta acumulada es la suma acumulativa de las frecuencias absolutas () de cada categoría. Es útil para entender la distribución acumulativa de los datos.
La fórmula para calcular la frecuencia absoluta acumulada es:
- Donde indica la suma acumulativa.
Por ejemplo, si tenemos un conjunto de datos que muestra la frecuencia de puntuaciones:
0 | 3 | 3 |
1 | 12 | 15 |
2 | 2 | 17 |
3 | 3 | 20 |
4 | 5 | 25 |
Cada valor en la columna es la suma de todas las frecuencias absolutas hasta ese punto. Por ejemplo, para el valor 2, la frecuencia absoluta acumulada es 17
, que es la suma de las frecuencias de los valores 0, 1, y 2.
Frecuencia relativa acumulada (pa)
La frecuencia relativa acumulada representa la suma acumulativa de las frecuencias relativas . Indica la proporción de datos que se encuentra por debajo de un cierto valor o categoría.
La suma de las frecuencias relativas hasta un cierto punto nos da la frecuencia relativa acumulada:
- Donde denota la suma acumulativa de las frecuencias relativas.
Por ejemplo, consideremos la siguiente tabla de distribución de frecuencias:
0 | 3 | 0.12 | 0.12 |
1 | 12 | 0.48 | 0.60 |
2 | 2 | 0.08 | 0.68 |
3 | 3 | 0.12 | 0.80 |
4 | 5 | 0.20 | 1.00 |
Esta tabla nos permite responder rápidamente a preguntas como: ¿qué proporción de casos han puntuado menos de 2? Mirando la columna , puedo ver que el 68% de los casos tienen una puntuación de 2 o menos.
Porcentaje acumulado (pa)
El porcentaje acumulado %a es similar a la frecuencia relativa y absoluta acumulada, pero expresado en términos de porcentaje. Se calcula sumando los porcentajes de cada categoría sucesivamente hasta llegar al 100%, o también puede obtenerse multiplicando la frecuencia relativa acumulada por 100.
La fórmula para calcular el porcentaje acumulado es la siguiente:
Este cálculo nos permite observar el porcentaje total acumulado hasta cada categoría, de forma secuencial sucesiva.
Por ejemplo, si continuamos con la tabla anterior y añadimos el porcentaje acumulado, tendríamos:
%a | ||||
---|---|---|---|---|
0 | 3 | 0.12 | 0.12 | 12% |
1 | 12 | 0.48 | 0.60 | 60% |
2 | 2 | 0.08 | 0.68 | 68% |
3 | 3 | 0.12 | 0.80 | 80% |
4 | 5 | 0.20 | 1.00 | 100% |
De esta manera, el porcentaje acumulado nos muestra que, por ejemplo, hasta la categoría 2, se ha acumulado el 68% del total de puntuación.
Índices basados en momentos
Son cálculos estadísticos que ayudan a comprender cómo se organizan o se distribuyen los datos.
- Índices de tendencia central
- Media aritmética
- Índices de dispersion
- Varianza
- Desviación típica
- Coeficiente de variación de Pearson
- Índices de forma
- Asimetría
- Curtosis
Una convención en estadística es el uso de letras griegas para los valores que se refieren a la población, y utilizar letras latinas para referirse a valores de la muestra.
La siguiente tabla muestra algunas equivalencias:
Muestra (latín) | Población (griego) | |
---|---|---|
Media aritmética | ||
Desviación estándar | ||
Varianza | ||
Proporción | ||
Covarianza | ||
Coeficiente de correlación |
Índices de tendencia central
Los índices de tendencia central son muy útiles para los datos cuantitativos, aunque tienen ciertas limitaciones.
Media aritmética (x̄)
La media explica la tendencia que tiene la distribución.
Se representa por el símbolo cuando se refiere a la muestra, y el símbolo cuando se refiere a la población.
Es el sumatorio de los valores de la distribución, dividido entre el número de casos ().
- la con una barra encima () indica la media aritmética.
- es el número total de elementos en el conjunto.
- La media aritmética se calcula sumando todos los valores , donde representa cada posición individual en el conjunto de datos, desde el primer elemento (cuando ) hasta el último elemento (cuando )
- Después de sumar todos estos valores, el resultado se divide por , que es el número de elementos que se sumaron, para encontrar la media.
La media el centro de gravedad de la distribución de masas. Si entendemos una distribución como una balanza en la que se distribuyen los datos de una variable, la media sería el lugar del centro de la balanza.
Sin embargo, la media no siempre refleja la gravedad, especialmente cuando hay outliers o cuando la distribución es muy asimétrica.
Propiedades de la media
La media tiene las siguientes propiedades:
- Puntuación diferencial: Informa sobre la distancia de una puntuación concreta respecto a la media. Se calcula restando la media al valor en cuestión: , donde es la puntuación diferencial, es el valor de la variable y es la media de la variable.
- Suma de una constante: Si a todos los valores de la variable se les suma una constante , la media se incrementa en esa constante. Es decir: , donde es la nueva media después de sumar la constante, y es la media original.
- Producto por una constante: Si todos los valores de la variable se multiplican por una constante , la media se multiplica por esa constante. Es decir: , donde es la nueva media después de multiplicar por la constante.
- Combinación lineal: La media de una combinación lineal de una variable es la combinación lineal de la media. Si a todos los valores de la variable les sumo un número y multiplico los valores por un número , la media resulta de aplicar esas operaciones a la media original. Es decir: . Esto es, en esencia, la combinación de las dos propiedades anteriores. Funciona porque la media resulta de una combinación lineal, lo cual se refiere a una ecuación de primer grado (una función lineal), que genera una línea recta al representarla en una gráfica.

Pregunta
Los índices basados en momentos (por ejemplo, la media) son aconsejables ante distribuciones asimétricas y cuando hay casos atípicos
Índices de dispersión
Explican qué tanto varían los datos de una distribución.
Varianza (s²)
La varianza () refleja la variabilidad de la distribución. Es el grado en el que los datos se distancian de la media. A la varianza también se le puede llamar concentración.
Se representa por el símbolo cuando se refiere a la muestra, y el símbolo cuando se refiere a la población.
- No puede tener valores negativos
- Cuando el valor es
0
significa que todos los valores son el mismo número. - Cuanto mayor es la varianza, mayor es la variabilidad de la distribución.
- Solo se pueden comparar variables medidas con la misma unidad. Es decir, deben ser valores de una misma escala.
En el cálculo de la varianza, hay que elevar al cuadrado los valores, para que los valores negativos no anulen los positivos.
La fórmula de la varianza es:
Aquí está el significado de cada símbolo:
- : Representa la varianza de la muestra. La varianza es una medida de la dispersión que indica qué tan esparcidos están los datos alrededor de la media. El cuadrado () indica que estoy hablando de varianza y no de desviación estándar (que sería ).
- : Este es el símbolo de suma y significa que debes sumar la expresión que sigue a este símbolo para todos los valores de la muestra.
- : Representa cada valor individual en tu conjunto de datos. El subíndice "i" es un índice que recorre todos los datos de la muestra.
- : Es la media aritmética de los datos. Se calcula sumando todos los valores de la muestra y dividiendo el resultado entre el número total de datos.
- : Esto indica que para cada valor de la muestra, debes restar la media y luego elevar al cuadrado el resultado. Esto se hace para calcular la distancia al cuadrado de cada valor respecto a la media.
- : "n" es el número total de valores en la muestra. Se resta 1 para obtener los grados de libertad, lo que proporciona una estimación imparcial de la varianza de la población a partir de una muestra.
El denominador se utiliza en lugar de para corregir el sesgo en la estimación de la varianza de la población a partir de una muestra. Si solo se tuviera en el denominador, estaríamos calculando la varianza poblacional bajo la suposición de que tenemos acceso a todos los datos de la población, lo cual no es el caso cuando trabajamos con muestras.
Propiedades de la varianza
La varianza tiene las siguientes propiedades:
- Suma de una constante: Si a todos los valores de la variable se les suma una constante , la varianza no cambia. Es decir, si , entonces .
- Producto por una constante: Si todos los valores de la variable se multiplican por una constante , es necesario multiplicar también la varianza por el valor para mantener la varianza proporcional. Es decir, si , entonces .
- Combinación lineal: Si a todos los valores de la variable se les suma un número y se multiplican los valores por un número , es necesario multiplicar también la varianza por y sumar . Es decir, si , entonces . Esta propiedad es, en esencia, la combinación de las dos propiedades anteriores.
La fórmula está relacionada con las propiedades de la varianza en estadística, específicamente cómo se transforma la varianza cuando aplicas una transformación lineal a un conjunto de datos.
La primera parte de la fórmula:
indica que cada valor en un nuevo conjunto de datos es el resultado de tomar cada valor del conjunto de datos original , multiplicándolo por y luego sumándole . Este tipo de operación es una transformación lineal de los datos.
La segunda parte de la fórmula:
nos dice cómo cambia la varianza de ese conjunto de datos como resultado de la transformación lineal. La varianza del nuevo conjunto de datos es igual a la varianza del conjunto de datos original multiplicada por el cuadrado del factor de escala . Esto es debido a que la varianza, siendo una medida de dispersión, se afecta por cambios de escala en los datos.
La adición de no afecta a la varianza, ya que solo desplaza los datos, pero no afecta a su dispersión. En resumen, la fórmula nos está diciendo que la transformación lineal de los datos escala la varianza por el cuadrado del factor de escala de la transformación.
Desviación típica o estándar (s)
La desviación típica (), también llamada desviación estándar, es una medida estadística de dispersión, al igual que la varianza. Es decir: refleja del grado en el que los datos se separan de la media.
Se representa por el símbolo cuando se refiere a la muestra, y el símbolo cuando se refiere a la población.
Sí, "desviación típica" y "desviación estándar" son términos equivalentes que se refieren a la misma medida estadística. En inglés, este concepto se denomina "standard deviation", y en español, se traduce comúnmente como "desviación estándar", aunque el término "desviación típica" también se utiliza en algunos contextos.
También hay confusión con respecto a la notación (, , , ...). La notación para la desviación estándar puede variar dependiendo de varios factores, como el idioma, la tradición académica, y el contexto específico. Utilizar es una convención estándar en muchos textos de matemáticas y estadísticas, independientemente del idioma. Sin embargo, hay quien utiliza las iniciales de desviación típica () o en inglés standar deviation (SD). Yo voy a evitar hacer tal cosa.
La desviación típica se calcula haciendo la raíz cuadrada de la varianza. Recuerda que la varianza se calcula haciendo el cuadrado de los valores, para evitar que los valores negativos se anulen. Por eso, ahora corregimos esa operación, haciendo la raíz cuadrada de la varianza, y así conseguimos la desviación típica.
Si ya tienes la varianza (), la desviación típica () es sencillamente .
Sin embargo, la forma de calcularla a partir del conjunto de datos es:
- Se toma cada dato individual del conjunto, denotado por .
- Se calcula la diferencia entre ese dato individual y la media del conjunto, , para determinar cuánto se desvía cada dato de la media.
- Se eleva al cuadrado esta diferencia para asegurar que los resultados sean positivos y para dar más peso a las desviaciones más grandes.
- Se suman todas estas diferencias al cuadrado. es el símbolo de sumatoria, que indica que se debe sumar la expresión que le sigue para todos los valores de desde 1 hasta .
- Se divide la suma por , donde es el número total de datos. Se usa en lugar de para obtener una estimación imparcial de la varianza poblacional, lo cual es importante en muestras pequeñas y es conocido como "corrección de Bessel".
- Finalmente, se obtiene la raíz cuadrada de este resultado para volver a la unidad original de los datos y obtener la desviación estándar.
¿Por qué es útil la desviación estándar si ya tenemos la varianza?
La desviación estándar es una medida estadística que, a diferencia de la varianza, se expresa en las mismas unidades que los datos originales.
Esto la hace intuitivamente más fácil de interpretar y aplicar en contextos prácticos. Mientras que la varianza nos da una idea general de la dispersión, la desviación estándar nos permite comprender y comunicar esta dispersión en términos más concretos.
Además, como está en las mismas unidades que los datos originales, también está en la misma unidad que la media. Gracias a esto se puede comparar con la media. La forma más habitual de utilizar la desviación estándar es restar o sumar la desviación estándar a la media, para obtener un rango dentro del cual se espera que caiga la mayoría de los datos. Este rango es conocido como "una desviación estándar" y cubre aproximadamente el 68% de los datos en una distribución normal. Al extender este rango a "dos desviaciones estándar", aumentamos la cobertura al 95%.
Esta característica es particularmente útil en áreas como el diagnóstico clínico. En psicología, por ejemplo, la desviación estándar permite establecer umbrales clínicos. Un paciente cuya puntuación en una prueba está más allá de cierto número de desviaciones estándar de la media puede considerarse atípico y, por lo tanto, puede ser elegible para un diagnóstico específico.
Ventajas de la desviación estándar sobre la varianza:
- Proporciona una medida de dispersión en la misma escala que los datos.
- Facilita la interpretación y la comunicación de la variabilidad de los datos.
- Permite construir intervalos alrededor de la media que son directamente significativos en el contexto de los datos observados.
Características de la desviación estándar
- Puede tener valores positivos o negativos
- Cuando el valor es
0
, significa que los valores son iguales. A esto se le denomina constante. - Cuando mayor es la desciación típica, mayor es la variabilidad. Esto hay que mirarlo sin fijarse en si es un número positivo o negativo. Por ejemplo, una desviación típica de
-10
significa más desviación estándar que-5
. - Solo se pueden comparar variables medidas con la misma unidad. Es decir, deben ser valores de una misma escala.
Propiedades de la desviación estándar
La desviación estándar tiene las siguientes propiedades:
- Suma de una constance: si a todos los valores de la desviación estándar les suma una constante , la desviación estándar no cambia. Es decir, si , entonces .
- Producto de una constance: si a todos los valores de la desviación estándar les multiplica una constante , es necesario multiplicar también la desviación estándar por el mismo valor al cuadrado, para que se mantenga igual. Es decir, si , entonces .
- Combinación lineal: si a todos los valores de la variable sumo un número
a
y multiplico los valores por un númerob
, es necesario multiplicar también la varianza por el númerob
al cuadrado. Es decir, si , entonces . Esto es, en esencia, la combinación de las dos propiedades anteriores.
Coeficiente de Variación de Pearson (CV)
El Coeficiente de Variación de Pearson, a diferencia de los anteriores, sirve para comparar variables medidas en distintas unidades o con distintas medias. En esencia, sirve para medir la dispersión relativa. Por eso, se considera que el Coeficiente de Variación de Pearson sirve para estandarizar la desviación típica.
Se define como la desviación estándar dividida entre la media, a menudo expresada en porcentaje. La fórmula es la siguiente:
donde
- es el Coeficiente de Variación
- es la desviación estándar
- es la media aritmética
Como norma general, cuando el CV está por debajo de 50
se considera una desviación pequeña, y por encima de 100
se considera una desviación alta.
El coeficiente de correlación de Pearson se utiliza para describir el grado de relación lineal entre dos variables, mientras que el coeficiente de variación de Pearson se usa para evaluar la variabilidad de una sola variable en relación con su media. Ambos son útiles en su contexto, pero sirven para propósitos estadísticos diferentes.
Utilidad del Coeficiente de Variación de Pearson
El Coeficiente de Variación de Pearson es útil por varias razones:
- Comparabilidad: Permite comparar la variabilidad entre conjuntos de datos con diferentes unidades de medida o diferentes medias. Esto es particularmente útil cuando se quieren comparar los resultados de dos o más series de datos que no comparten una escala común.
- Normalización de la dispersión: Al normalizar la desviación estándar con respecto a la media, proporciona una medida de la dispersión relativa que es independiente de la escala de los datos, lo que facilita la interpretación de la variabilidad.
- Identificación de homogeneidad: Un CV bajo indica que los datos están menos dispersos alrededor de la media (más homogéneos), mientras que un CV alto sugiere una mayor dispersión (menos homogeneidad).
- Aplicaciones en diversos campos: Se utiliza en finanzas para comparar el riesgo relativo de diferentes activos, en control de calidad para evaluar la consistencia en la producción, en biología para comparar la variabilidad entre características biológicas y en cualquier área donde la variabilidad relativa es de interés.
En resumen, el Coeficiente de Variación de Pearson proporciona contexto a la desviación estándar, permitiendo una comprensión más profunda de la dispersión de los datos en relación con su media.
Índices de forma
Asimetría
La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno.
George Bernard Shaw
La asimetría decribe el patrón alrededor del promedio en la distribución de valores.
Sirve para dar un contexto a la media aritmética que muchas veces es necesario, especialmente teniendo en cuenta que tendemos a pensar que los valores de una muestra se distribuyen de forma simétrica.
El sueldo medio en España ronda los 1.600
euros. Ese valor es la media. Sin embargo, el 47% de los trabajadores cobra menos de 1.000
euros. Eso quiere decir que la mitad de las personas cobran un sueldo muy por debajo de la media. Es decir, se trata de una asimetría positiva. Muy lejos de ser una distribución simétrica. En este caso, la media no es un dato falso; sencillamente no es el dato que mejor informa sobre la distribución de los datos.
En términos más generales, si la muestra es muy asimétrica, puedo concluir que los índices basados en momentos no van a ser los adecuados para extraer conclusiones. El motivo es que los índices basados en momentos se basan en la media, y si la muestra es muy asimétrica, la media no es demasiado esclarecedora.

Pregunta
Las distribuciones asimétricas negativas son aquellas que presentan valores en la parte baja de la distribución
Escala ZAsimetría
Para comparar la asimetría, utilizo una métrica estandarizada llamada escala .
Valores de referencia
Dependiendo de cómo de representativa sea la muestra, es decir, dependiendo del valor de , hay unos valores estándar de simetría en función de los cuales puedo determinar si la muestra es asimétrica.
- Cuando la muestra es pequeña ()
- : asimetría negativa
- : simetría
- : simetría positiva
- Cuando la muestra es mediana ()
- : asimetría negativa
- -2.58 < Z < 2.58: simetría
- : simetría positiva
- Cuando la muestra es grande ()
- : asimetría negativa
- : simetría
- : simetría positiva
Tipos de asimetría
La asimetría puede ser de tres tipos:
- Asimetría positiva: cuando los datos tienden hacia valores por debajo del promedio. En consecuencia, cuando el vacío de datos está en la derecha.
- Simetría: cuando los datos se distribuyen igual hacia valores bajos o altos respecto al promedio.
- Asimetría negativa: cuando los datos tienden hacia valores por encima del promedio. En consecuencia, cuando el vacío de datos está en la izquieda.
Curtosis
La curtosis es el grado de apuntamiento de la distribución. Es decir, cómo de concrentrados están los datos. Otra forma de verlo es la distribución de los datos en el eje y
. Proviene del griego κυρτός (kurtos), que significa curvado.
Cumple una función similar a la asimetría, ya que informa sobre aspectos de la distribución que la media no está revelando. Por ejemplo, una distribución muy plana significa que los valores no se concentran en la media. En el caso de los sueldos, significa que la mayoría no va a tener el sueldo medio. Aunque sea simétrico y haya el mismo número de personas por debajo y por encima de la media, significa que las personas que cobran la media son una minoría.
En términos más generales, si la muestra presenta mucha curtosis, puedo concluir que los índices basados en momentos no van a ser los adecuados para extraer conclusiones. El motivo es que los índices basados en momentos se basan en la media, y si la muestra tiene mucha curtosis, la media no es demasiado esclarecedora.
Tipos de curtosis
La curtosis puede ser de tres tipos:
- Curtosis positiva: cuando los datos están muy concentrados.
- Curtosis negativa: cuando los datos no están concentrados.
A su vez, la curtosis da lugar a tres formas:
- Leptocúrtica: cuando hay un alto grado de concentración. Es decir, cuando la curtosis es positiva. Proviene del griego leptos (λεπτός), que significa delgado o fino.
- Mesocúrtica: un punto medio entre las otras dos. Deriva de meso (μέσος), un prefijo griego que significa medio.
- Platicúrtica: cuando los datos no están concentrados. La curtosis es negativa. "Platicúrtica" viene de platus (πλατύς), que en griego significa plano o ancho.
Escala ZCurtosis
Para comparar la asimetría, utilizo una métrica estandarizada llamada escala .
Valores de referencia
Dependiendo de cómo de representativa sea la muestra, es decir, dependiendo del valor de , hay unos valores estándar de curtosis en función de los cuales puedo determinar la curtosis.
- Cuando la muestra es pequeña ()
- : forma platicúrtica
- : forma mesocúrtica
- : forma leptocúrtica
- Cuando la muestra es mediana ()
- : forma platicúrtica
- : forma mesocúrtica
- : forma leptocúrtica
- Cuando la muestra es grande ()
- : forma platicúrtica
- : forma mesocúrtica
- : forma leptocúrtica
Índices basados en ordenaciones
Los índices basados en ordenaciones son resistentes a las asimetrías y los casos atípicos. Se constituyen a través de ordenar los valores de la variable.
Mediana (Mdn)
La mediana se calcula dividiendo el conjunto de datos ordenado en dos partes, tomando como corte el valor que deja por debajo el 50% de los casos. Por eso, es lo mismo que el .
Es decir: .
Si el conjunto de datos es par, no hay número del medio. Por lo tanto, hay que hacer la media de los dos números centrales.
Si la distribución es simétrica, la mediana coincide con la media. Por eso, la mediana se emplea en distribuciones asimétricas, que es donde aporta valor descriptivo.
Percentil (Pk)
El percentil es el cuantil más usado. Los cuantiles son medidas de posición que se obtienen al dividir el conjunto ordenado de valores de una variable en partes iguales.
Es decir, consiste en ordenar los datos en función de su valor en una variables, y dividir la muestra en partes, para posicionarlos en estas partes.
El percentil consiste en ordenar y dividir la muestra en 99 puntos de corte, generando 100 unidades.
El percentil se representa por la letra , seguido del orden . Por ejemplo, el percentil 50 se representa por , mientras que el percentil 7 sería .
Si un valor 123
se encuentra en el percentil 50 (), significa que el caso tiene un valor que coincide con el 50% de los valores de la muestra. Dicho de otra manera, significa que el 50% de los casos son iguales o menores a 123
.
Cómo calcular percentiles
Hay que seguir los siguientes pasos:
- Ordenar los valores. Es decir, asignar posición .
- Escoger el percentil cuyo valor quieres averiguar.
- Aplicar la fórmula.
- Observar qué valor corresponde a esa posición.
Por ejemplo, dado el siguiente conjunto de datos:
j | |
---|---|
1 | 10 |
2 | 23 |
3 | 24 |
4 | 26 |
5 | 102 |
6 | 320 |
7 | 321 |
Si quiero calcular el percentil 70 (), la fórmula sería:
Eso significa que , es decir: que el comienza en la posición 5, cuyo valor es 102
.
Si quiero calcular el percentil 20 (), el resultado genera un decimal:
Eso significa que el percentil 20 () está entre las posiciones 1 y 2, pero no se exactamente dónde. En este caso, hay que aplicar la siguiente fórmula:
- El símbolo representa el decimal del percentil, por lo que
- es el valor en la posición
1
, por lo que - es el valor en la posición
2
, por lo que
Por lo tanto, la fórmula es:
En los valores y hay que poner el valor en la posición, no la posición. Es decir, , y el valor en la posición 2ª es , por eso ponemos 2. Igualmente, , y el valor en la posición 3ª es , por eso ponemos 2.
Cuartil (Qk)
El cuartil es un tipo de cuantil. se calcula dividiendo el conjunto de datos ordenado en tres puntos de corte, generando 4 fracciones.
El primer cuartil se corresponde con el percentil 25. Es decir: . De forma similar, el tercer cuartil se corresponde con el percentil 75: .
De forma esquemática:
Amplitud intercuartil (IQR)
Es la medida de dispersion para cuartiles, que refleja cómo de dispersos están los valores.
, que, a su vez, es igual a . Es decir:
Por ejemplo, dado el siguiente conjunto de datos:
Percentil | Cuartil | |
---|---|---|
15 | ||
19 | ||
24 | ||
28.3 | ||
30 |
El IQR se calcula así:
Desviación cuartil (DC)
Es lo mismo que la amplitud intercuartil (IQR), dividido entre dos.
Coeficiente de Variación Cuartil (CVC)
El Coeficiente de Variación Cuartil refleja la dispersión relativa, de forma que se puede comparar con otros valores, incluyendo valores con distintas unidades de medida
Es lo equivalente al Coeficiente de Pearson, pero aplicado a índices basados en ordenaciones.
Otros índices descriptivos
Media recortada
Es la medida resultante de excluir un porcentaje de casos de las dos colas de distribución.
Sirve para excluir los casos atípicos (outliers) que puedan estar causando ruido sobre la media aritmética, y reduce las asimetrías.
Trimedia
La trimedia es un índice de tendencia central resistente que se basa en la media de los tres cuartiles.
Recuerda que los cuartiles (Q) también se pueden expresar como percentiles (P), y el segundo cuartil además coincide con la mediana (Mdn)
Moda
La moda es un índice de tendencia central que refleja cuál es el valor más repetido. Dicho de otra manera, cuál es el valor con mayor frecuencia absoluta.
Puede ser unimodal, si el valor que más se repite es sólo uno, o bimodal, si hay dos valores que son los más repetidos y con la misma frecuencia. Asimismo, puede ser polimodal, si el valor más frecuencte es más de tres.
Si todos los valores de la muestra tienen la misma frecuencia, se considera amodal, porque no hay ninguna moda.
Amplitud
Es la medida de dispersión que se define por la diferencia entre el valor mínimo y el valor máximo de la distribución de valores ordenados.
La amplitud es la forma más simple de conocer la dispersión de los datos. Es útil en los casos en los que otros índices no son aplicables debido a la naturaleza de los datos. Por ejemplo, cuando son variables nominales.
Descripción estadística de datos cualitativos
Las tablas de frecuencia en datos cualitativos se ordenan de forma distinta a como lo hacemos en datos cuantitativos.
Cuando analizamos datos cualitativos, la matriz de datos se organiza de forma que las categorías son las filas, y las columnas son el número de casos de cada categoría.
En la siguiente gráfica, vemos cómo el eje y
se refiere a las categorías, y el eje x
se refiere a las frecuencias.
Categoría | |
---|---|
Desempleado | 20 |
Trabajador | 43 |
Jubilado | 12 |
Una vez los casos están organizados, procedemos a crear la tabla de frecuencias, que refleja cuántas veces se repiten los valores; es decir, la distribución de la frecuencia.
Para ello, el primer paso es convertir las categorías en un valor numérico.
Categoría | ||
---|---|---|
0 | Desempleado | 20 |
1 | Trabajador | 43 |
3 | Jubilado | 12 |
Variable nominal
Una variable nominal es aquella que no se puede ordenar. Es decir, es un dato cualitativo cuyas categorías no guardan un orden. Cuando se trata de una variable nominal, no tiene sentido calcular valores acumulados. Lo que sí calculo es la frecuencia relativa () y el porcentaje relativo .
Recuerda que estas medidas indican la proporción de casos que tiene un valor . Es decir, sobre el total de casos, cuántos han elegido el valor .
Categoría | ||||
---|---|---|---|---|
0 | Desempleado | 20 | 0.2667 | 26.67 |
1 | Trabajador | 43 | 0.5733 | 53.33 |
2 | Jubilado | 12 | 0.1600 | 16.00 |
Variable ordinal
Una variable ordinal es aquella que sí se puede ordenar. Es decir, es un dato cualitativo cuyas categorías guardan un orden. Por eso, en las variables ordinales sí tiene sentido mostrar los acumulados.
Categoría | |||||||
---|---|---|---|---|---|---|---|
0 | Poco | 20 | 0.2667 | 26.67 | 20 | 0.2667 | 26.67 |
1 | Algo | 43 | 0.5733 | 53.33 | 64 | 0.8400 | 84.00 |
2 | Mucho | 12 | 0.1600 | 16.00 | 76 | 1.0000 | 100.0 |
Tiene sentido decir que el 84% de la muestra tiene una puntuación de algo o menos, porque hay un orden entre Poco, Algo y Mucho. Sin embargo, no tiene sentio decir que el 84% de la muestra tiene una puntuación de trabajados o menos, porque no hay un orden entre las categorías Desempleado, Trabajador y Jubilado.
Representación gráfica de datos
BoxPlot (Diagrama de cajas y bigotes)
En SPSS se puede crear un diagrama que refleja la distribución de los cuartiles de forma visual.
Es un diagrama que refleja, en vertical, la distribución de los datos, y tiene distintas barras que reflejan los cuartiles.
Diagrama de tallos y hojas (stem and leaf)
En SPSS hay una tabla llamada Diagrama de tallos y hojas, que es frecuentemente utilizada al analizar datos. Tiene las siguientes propiedades:
- Muestra los datos conservando los valores originales de la variable
- Permite localizar valores centrales
- Facilita identificar la concentración de datos
- Permite ver saltos o discontinuidades en los que no haya datos
- Permite ver la amplitud de la distribución
- Permite localizar casos atípicos
Divide los datos de manera que separa el primer dígito, y después muestra los siguientes dígitos. Por ejemplo, en la siguiente tabla vemos que hay 8 personas que tienen 30-y-algo años. Se que son 8
por la columna frecuencia, y se que son 30-y-algo por el stem (3
). Y más concretamente, mirando la hoja, vemos que tres personas tienen 35 años (555
) mientras que sólo una tiene 36 (6
)
EDAD
Frecuencia | Stem | & | Hoja |
---|---|---|---|
1 | 2 | - | 23 |
8 | 3 | - | 55568889 |
También permite ver asimetrías, ya que hemos que hay más personas con 30-y-pico que con 20-y-pico.
Histograma
Es un gráfico que agrupa los casos en barras, de manera que más casos genera una barra más alta.
Gracias a esto, se puede ver con claridad la distribución de la variable.
En SPSS, el histograma va acompañado de:
- La media
- La desviación estándar
- El tamaño de la muestra (N)
Sin embargo, conviene recordar que si la distribución es asimétrica, la media y la desviación típica no tienen mucha utilidad.