Correlación
En esta sección explico la relación entre variables. O mejor dicho: la descripción estadística de la relación entre dos variables.
Lo que explico en esta sección es la correlación. La correlación sirve para encontrar asociaciones entre variables en un estudio observacional; a diferencia de la regresión, que sirve para predecir cómo los datos de una variable se comportan con respecto a otra.
En un apartado anterior expliqué los índices que describen variables, como la varianza o desviación típica . Sin embargo, ahora explico índices que describen la relación entre dos variables, como la Covarianza () o la Correlación de Pearson ().
Como es lógico, los índices que describen la relación entre variables están relacionados con los que describen las variables. Por ejemplo, la fórmula de consiste en hacer una operación con la covariaza () y con la desviación típica (, ).
Asociación y causalidad
Antes de explicar los índices, es importante aclarar una realidad fundamental: asociación no es causalidad. Es decir, que dos variables estén relacionadas, no significa que una sea causa de la otra.
La asociación y la causalidad son cosas distintas. Cuando estudio la relación entre dos variables, lo único que puedo analizar es cómo cambian en conjunto. Es decir, la relación estadística demuestra asociación o covariación, pero no necesariamente causalidad. Que dos variables tengan relación, no implica que una sea causa de la otra.
Un señor llamado Tyler Vigen tiene un blog con una sección llamada spurious correlations, donde presenta datos con muy alta correlación que, evidentemente, no tienen relación causa efecto.
Por ejemplo, el siguiente gráfico explica la altísima correlación (del 99.79%) entre el gasto en ciencia y tecnología del gobierno de los EEUU, y los suicidios por ahorcamiento.
Fuente: Oficina de Gestión y Presupuesto de EE.UU. y Centros para el Control y la Prevención de Enfermedades
Pregunta
En la correlación podemos asumir causalidad de una variable sobre otra.
Para que correlación sea también causalidad, deben cumplirse varias condiciones:
- Debe estar fundamentado en teorías y hechos contrastados
- No debe haber teceras variables que puedan ser la causa de la covariación.
Esto es especialmente dificil en las ciencias sociales. Debido a que en ciencias sociales es imposible controlar todas las variables en una investigación, sólo puedo concluir de que la variable predictora está asociada a un resultado.
Por el contrario, en el método experimental, especialmente cuando utilizo procesos de muestreo al azar y con muestras representativas, puedo concluir que hay una relación causa-efecto.
En estudios experimentales hablamos de variable independiente y variable independiente, mientras que en estudios no-experimentales hablamos de variable predictora y variable resultante.
Al estudiar correlaciones, mostramos la relación entre variables de manera que el eje representa la variable predictora, y el eje representa la variable resultante.
Tipos de covariación
Covariar significa que los valores de una variables varían en función de la otra. Es decir, que hay algún tipo de relación, por ejemplo:
- Sin relación
- Relación lineal
- Relación cuadráticas
- Relación exponencial
- Relación logarítmica
- Relación inversa
La covarianza, por lo tanto, es el constructo estadístico que mide la relación entre variables.
A continuación, muestro gráficos de dispersión (en inglés: scatter plot) que reflejan los seis tipos de relación entre dos variables:
En las siguientes secciones explico índices como la Covarianza o la Correlación de Pearson. Sin embargo, es importante aclarar que estos índices están muy vinculados entre sí, e incluso están vinculados con los índices descriptivos de una sola variable.
Por ejemplo, hay una relación importante entre la varianza y la covarianza:
- Varianza (): mide la dispersión de los datos alrededor de su media.
- Covarianza (): mide cómo dos variables varían juntas respecto a sus medias.
Ambas miden la fuerza y la dirección de la relación lineal entre dos variables cuantitativas. Sin embargo, ambas carecen de estandarización.
- Para estanzarizar la varianza, utilizo la desviación estándar (): es la raíz cuadrada de la varianza y proporciona una medida de la dispersión de los datos en las mismas unidades que los datos originales.
- Para estandarizar la covarianza, utilizo la correlación de pearson (): mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas.
Sin embargo, curiosamente, la correlación de pearson se calcula a partir de la covarianza y de la desviación estándar.
Como se puede ver, estos índices están super relacionados unos con otros, algo que no es de extrañar dada la naturaleza de su función.
Relación entre dos variables cuantitativas
La asociación entre dos variables puede ser:
- Asociación positiva: es positiva cuando el valor de la variable resultante () aumenta a medida que aumenta la variables predictora (). Es decir, a más , más .
- Asociación negativa: es negativa cuando el valor de la variable resultante () se reduce a medida que aumenta la variables predictora (). Es decir, a menos , más .
- Sin asociación: puede no haber relación cuando el aumento en el valor de la variable predictora () no tiene relación con los valores de la variable resultante ().
La asociación se puede medir utilizando índices, que indican precisamente si hay o no hay asociación entre dos variables, en qué medida se produce, y si es positiva o negativa.
Covarianza (Sxy)
La covarianza mide qué tanto dos variables cambian juntas; un valor positivo indica que tienden a moverse en la misma dirección, mientras que un valor negativo significa que tienden a moverse en direcciones opuestas. Si la covarianza es cero, sugiere que las variables son independientes, aunque la independencia no implica covarianza cero.
En términos matemáticos, covarianza es la suma de todas las puntuaciones diferenciales de la variable entrelazadas con .
La covarianza de dos variables y se representa con la fórmula siguiente:
Esta fórmula se descompone de la manera siguiente:
- es la Covarianza de y .
- es el número de puntos de datos (muestras).
- y son los puntos de muestra individuales indexados con .
- y son las medias muestrales de y , respectivamente.
- denota la sumatoria sobre todas las muestras.
La fórmula calcula el producto promedio de las desviaciones de cada par de valores de sus respectivas medias.
Los posibles resultados de esta fórmula son cualquier valor entre y . Esto se debe a que una variable podría ser kilómetros, y la otra podría ser cantidad de personas; por eso los resultados pueden ser tan variados.
Cómo interpretar la covarianza
Al interpretar la covarianza no es relevante el valor, sino el hecho de si es mayor, menor o igual que cero.
- Si , la relación es negativa
- Si , no hay relación entre las variables
- Si , la relación es positiva
Ejemplo práctico
Dada una tabla con valores e para una muestra:
2 | 3 | 1 | 5 | 3 | 5 | 7 | 2 | 3 | |
---|---|---|---|---|---|---|---|---|---|
1 | 4 | 0 | 3 | 4 | 2 | 5 | 1 | 1 |
Las medias de las muestras son:
La fórmula para calcular la covarianza () es:
Aplicando los valores de nuestra muestra, obtenemos:
Es decir, la covarianza es 2,33, que es un valor positivo (mayor que cero). Por lo tanto, puedo deducir que hay asociación positiva entre las variables. Sin embargo, no se si es una covarianza alta o baja, porque no es un índice estandarizado.
Matriz de covarianzas
La matriz de covarianzas es una tabla que muestra las covarianzas entre varias variables.
Por ejemplo, si tenemos tres variables, , y , la matriz de covarianzas tendría el siguiente aspecto:
Z | X | Y | |
---|---|---|---|
Z | (Varianza de ) | (Covarianza de y ) | (Covarianza de y ) |
X | (Covarianza de y ) | (Varianza de ) | (Covarianza de y ) |
Y | (Covarianza de y ) | (Covarianza de y ) | (Varianza de ) |
La matriz de covarianzas se organiza de la siguiente manera:
- En la diagonal principal de la matriz, encontrarás las varianzas de cada variable, que son las covarianzas de las variables consigo mismas.
- Los elementos fuera de la diagonal principal son las covarianzas entre las variables diferentes.
La expresión matemática es:
Donde
- es la varianza de
- es la varianza de
- es la varianza de ,
- es la Covarianza de e
- es la Covarianza de y
- es la Covarianza de y .
Dado que la covarianza es simétrica:
La matriz de covarianzas permite calcular de forma muy rápida el Coeficiente de Correlación de Pearson (). La fórmula es:
Y en la matriz de covarianzas puedo encontrar todos esos valores necesarios para calcular el Coeficiente de Correlación de Pearson, y puedo aplicar directamente la fórmula.
Recuerda que la varianza es , y que la fórmula del Coeficiente de Correlación de Pearson () requiere usar la desviación típica . Por lo tanto, hay que hacer la raíz cuadrada de las varianzas.
Correlación
La correlación mide la proporción del cambio en una variable a partir del cambio en la otra.
Para medir la correlación de variables cuantitativas contínuas, utilizo el Coeficiente de Correlación de Pearson ()
- Coeficiente de Correlación de Pearson: relación lineal entre variables cuantitativas continuas.
- Correlación de Spearman: relación monotónica entre variables ordinales o no lineales.
- Correlación de Kendall: concordancia de orden entre variables, robusta frente a valores atípicos.
Coeficiente de Correlación de Pearson (rxy)
El coeficiente de correlación de Pearson, denotado como , es una medida que expresa el grado de la relación lineal entre dos variables cuantitativas. Se calcula de la siguiente manera:
Donde:
- es la covarianza entre las variables e .
- y son las desviaciones estándar de e , respectivamente.
El valor de siempre es un valor entre -1
y 1
, lo que permite saber si la covarianza es alta o baja, además de saber si es positiva o negativa.
El coeficiente de correlación de Pearson se utiliza para describir el grado de relación lineal entre dos variables, mientras que el coeficiente de variación de Pearson se usa para evaluar la variabilidad de una sola variable en relación con su media. Ambos son útiles en su contexto, pero sirven para propósitos estadísticos diferentes.
Interpretar la Correlación de Pearson
A diferencia de la covarianza, el coeficiente de correlación de Pearson está normalizado y, por lo tanto, es independiente de las unidades de medida de las variables. Esto permite comparar directamente la fuerza de la relación lineal entre diferentes pares de variables.
El coeficiente de correlación de Pearson puede interpretarse fácilmente para determinar la fuerza de la relación entre dos variables. El valor de varía entre -1
y 1
, donde:
- indica una correlación positiva, donde:
- indica una correlación positiva perfecta.
- indica una correlación positiva alta.
- indica una correlación positiva media.
- indica una correlación positiva baja.
- indica que no hay correlación lineal entre las variables.
- indica una correlación negativa, donde:
- indica una correlación negativa baja.
- indica una correlación negativa media.
- indica una correlación negativa alta.
- indica una correlación negativa perfecta.
Estos rangos proporcionan una guía general para evaluar la correlación lineal entre las variables. Sin embargo, es importante recordar que la correlación no implica causalidad y que otros factores pueden influir en la relación entre las variables.
Por ejemplo, en la siguiente imágen vemos distintos grados de correlaciones positivas.
Calcular la Correlación de Pearson
Dado el siguiente conjunto de datos:
Yi | 2 | 3 | 1 | 5 | 3 | 5 | 7 | 2 | 3 |
---|---|---|---|---|---|---|---|---|---|
Xi | 1 | 4 | 0 | 3 | 4 | 2 | 5 | 1 | 1 |
Aplicamos la fórmula de la varianza:
Recuerda que la varianza es . Es decir, el valor resultante da la fórmula de la varianza debe ser sometido a su raíz cuadrada para aplicarse en la fórmula. Otra forma de verlo es que la fórmula utiliza la desviación típica, que ya es la raíz cuadrada de la varianza.
El resultado de 0,8047 refleja que las variables e tienen una correlación positiva y alta.