Saltar al contenido principal

Correlación

En esta sección explico la relación entre variables. O mejor dicho: la descripción estadística de la relación entre dos variables.

Contexto

Lo que explico en esta sección es la correlación. La correlación sirve para encontrar asociaciones entre variables en un estudio observacional; a diferencia de la regresión, que sirve para predecir cómo los datos de una variable se comportan con respecto a otra.

En un apartado anterior expliqué los índices que describen variables, como la varianza sx2s^2_{x} o desviación típica sxs_{x}. Sin embargo, ahora explico índices que describen la relación entre dos variables, como la Covarianza (SxyS_{xy}) o la Correlación de Pearson (rxyr_{xy}).

Como es lógico, los índices que describen la relación entre variables están relacionados con los que describen las variables. Por ejemplo, la fórmula de rxyr_{xy} consiste en hacer una operación con la covariaza (SxyS_{xy}) y con la desviación típica (sxs_{x}, sys_{y}).

Asociación y causalidad

Antes de explicar los índices, es importante aclarar una realidad fundamental: asociación no es causalidad. Es decir, que dos variables estén relacionadas, no significa que una sea causa de la otra.

La asociación y la causalidad son cosas distintas. Cuando estudio la relación entre dos variables, lo único que puedo analizar es cómo cambian en conjunto. Es decir, la relación estadística demuestra asociación o covariación, pero no necesariamente causalidad. Que dos variables tengan relación, no implica que una sea causa de la otra.

Correlaciones rarunas

Un señor llamado Tyler Vigen tiene un blog con una sección llamada spurious correlations, donde presenta datos con muy alta correlación que, evidentemente, no tienen relación causa efecto.

Por ejemplo, el siguiente gráfico explica la altísima correlación (del 99.79%) entre el gasto en ciencia y tecnología del gobierno de los EEUU, y los suicidios por ahorcamiento.

Correlación estadística

Fuente: Oficina de Gestión y Presupuesto de EE.UU. y Centros para el Control y la Prevención de Enfermedades

Pregunta

En la correlación podemos asumir causalidad de una variable sobre otra.

Para que correlación sea también causalidad, deben cumplirse varias condiciones:

  1. Debe estar fundamentado en teorías y hechos contrastados
  2. No debe haber teceras variables que puedan ser la causa de la covariación.

Esto es especialmente dificil en las ciencias sociales. Debido a que en ciencias sociales es imposible controlar todas las variables en una investigación, sólo puedo concluir de que la variable predictora está asociada a un resultado.

Por el contrario, en el método experimental, especialmente cuando utilizo procesos de muestreo al azar y con muestras representativas, puedo concluir que hay una relación causa-efecto.

Variable predictora

En estudios experimentales hablamos de variable independiente y variable independiente, mientras que en estudios no-experimentales hablamos de variable predictora y variable resultante.

Al estudiar correlaciones, mostramos la relación entre variables de manera que el eje xx representa la variable predictora, y el eje yy representa la variable resultante.

Tipos de covariación

Covariar significa que los valores de una variables varían en función de la otra. Es decir, que hay algún tipo de relación, por ejemplo:

  1. Sin relación
  2. Relación lineal
  3. Relación cuadráticas
  4. Relación exponencial
  5. Relación logarítmica
  6. Relación inversa

La covarianza, por lo tanto, es el constructo estadístico que mide la relación entre variables.

A continuación, muestro gráficos de dispersión (en inglés: scatter plot) que reflejan los seis tipos de relación entre dos variables:

Aclaración sobre íncides descriptivos

En las siguientes secciones explico índices como la Covarianza o la Correlación de Pearson. Sin embargo, es importante aclarar que estos índices están muy vinculados entre sí, e incluso están vinculados con los índices descriptivos de una sola variable.

Por ejemplo, hay una relación importante entre la varianza y la covarianza:

  • Varianza (sx2s^2_{x}): mide la dispersión de los datos alrededor de su media.
  • Covarianza (SxyS_{xy}): mide cómo dos variables varían juntas respecto a sus medias.

Ambas miden la fuerza y la dirección de la relación lineal entre dos variables cuantitativas. Sin embargo, ambas carecen de estandarización.

  • Para estanzarizar la varianza, utilizo la desviación estándar (sxs_{x}): es la raíz cuadrada de la varianza y proporciona una medida de la dispersión de los datos en las mismas unidades que los datos originales.
  • Para estandarizar la covarianza, utilizo la correlación de pearson (rxyr_{xy}): mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas.

Sin embargo, curiosamente, la correlación de pearson se calcula a partir de la covarianza y de la desviación estándar.

Como se puede ver, estos índices están super relacionados unos con otros, algo que no es de extrañar dada la naturaleza de su función.

Relación entre dos variables cuantitativas

La asociación entre dos variables puede ser:

  • Asociación positiva: es positiva cuando el valor de la variable resultante (yy) aumenta a medida que aumenta la variables predictora (xx). Es decir, a más xx, más yy.
  • Asociación negativa: es negativa cuando el valor de la variable resultante (yy) se reduce a medida que aumenta la variables predictora (xx). Es decir, a menos xx, más yy.
  • Sin asociación: puede no haber relación cuando el aumento en el valor de la variable predictora (XX) no tiene relación con los valores de la variable resultante (YY).

La asociación se puede medir utilizando índices, que indican precisamente si hay o no hay asociación entre dos variables, en qué medida se produce, y si es positiva o negativa.

Covarianza (Sxy)

La covarianza mide qué tanto dos variables cambian juntas; un valor positivo indica que tienden a moverse en la misma dirección, mientras que un valor negativo significa que tienden a moverse en direcciones opuestas. Si la covarianza es cero, sugiere que las variables son independientes, aunque la independencia no implica covarianza cero.

En términos matemáticos, covarianza es la suma de todas las puntuaciones diferenciales de la variable xx entrelazadas con yy.

Fórmula de covarianza

La covarianza de dos variables XX y YY se representa con la siguiente fórmula:

Sxy=[(Xix)(Yiy)]nS_{xy} = \frac{\sum[ (X_i - \overline{x})(Y_i - \overline{y})]}{n}

Esta fórmula se descompone de la siguiente manera:

  • SxyS_{xy} es la Covarianza de XX y YY.
  • nn es el número de puntos de datos (muestras).
  • XiX_i y YiY_i son los puntos de muestra individuales indexados con ii.
  • x\overline{x} y y\overline{y} son las medias muestrales de XX y YY, respectivamente.
  • \sum denota la sumatoria sobre todas las nn muestras.

La fórmula calcula el producto promedio de las desviaciones de cada par de valores de sus respectivas medias.

Los posibles resultados de esta fórmula son cualquier valor entre -\infty y ++\infty. Esto se debe a que una variable podría ser kilómetros, y la otra podría ser cantidad de personas; por eso los resultados pueden ser tan variados.

Cómo interpretar la covarianza

Al interpretar la covarianza no es relevante el valor, sino el hecho de si es mayor, menor o igual que cero.

  • Si Sxy<0S_{xy} < 0, la relación es negativa
  • Si Sxy=0S_{xy} = 0, no hay relación entre las variables
  • Si Sxy>0S_{xy} > 0, la relación es positiva
Ejemplo práctico

Dada una tabla con valores XiX_i e YiY_i para una muestra:

YiY_i231535723
XiX_i140342511

Las medias de las muestras son:

yˉ=3,44\bar{y} = 3,44 xˉ=2,33\bar{x} = 2,33

La fórmula para calcular la covarianza (SxyS_{xy}) es:

Sxy=1ni=1n(xixˉ)(yiyˉ)S_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})

Aplicando los valores de nuestra muestra, obtenemos:

Sxy=(12.33)(23.44)+(42.33)(33.44)++(12.33)(33.44)9S_{xy} = \frac{(1-2.33)(2-3.44) + (4-2.33)(3-3.44) + \ldots + (1-2.33)(3-3.44)}{9} Sxy=18,679=2.33S_{xy} = \frac{18,67}{9} = 2.33

Es decir, la covarianza es 2,33, que es un valor positivo (mayor que cero). Por lo tanto, puedo deducir que hay asociación positiva entre las variables. Sin embargo, no se si es una covarianza alta o baja, porque no es un índice estandarizado.

Matriz de covarianzas

La matriz de covarianzas es una tabla que muestra las covarianzas entre varias variables.

Por ejemplo, si tenemos tres variables, XX, YY y ZZ, la matriz de covarianzas tendría el siguiente aspecto:

ZXY
Zsx2s^2_{x}
(Varianza de xx)
sxys_{xy}
(Covarianza de xx y yy)
sxzs_{xz}
(Covarianza de xx y yy)
Xsyxs_{yx}
(Covarianza de yy y xx)
sy2s^2_{y}
(Varianza de yy)
syzs_{yz}
(Covarianza de yy y zz)
Yszxs_{zx}
(Covarianza de zz y xx)
szys_{zy}
(Covarianza de zz y yy)
sz2s^2_{z}
(Varianza de zz)

La matriz de covarianzas se organiza de la siguiente manera:

  • En la diagonal principal de la matriz, encontrarás las varianzas de cada variable, que son las covarianzas de las variables consigo mismas.
  • Los elementos fuera de la diagonal principal son las covarianzas entre las variables diferentes.

La expresión matemática es:

(sx2sxysxzsyxsy2syzszxszysz2)\begin{pmatrix} s^2_{x} & s_{xy} & s_{xz} \\ s_{yx} & s^2_{y} & s_{yz} \\ s_{zx} & s_{zy} & s^2_{z} \end{pmatrix}

Donde

  • sx2s^2_{x} es la varianza de XX
  • sy2s^2_{y} es la varianza de YY
  • sz2s^2_{z} es la varianza de ZZ,
  • sxys_{xy} es la Covarianza de XX e YY
  • sxzs_{xz} es la Covarianza de XX y ZZ
  • syzs_{yz} es la Covarianza de YY y ZZ.

Dado que la covarianza es simétrica:

  • sxy=syxs_{xy} = s_{yx}
  • sxz=szxs_{xz} = s_{zx}
  • syz=szys_{yz} = s_{zy}
Utilidad de la matriz de covarianzas

La matriz de covarianzas permite calcular de forma muy rápida el Coeficiente de Correlación de Pearson (rxyr_{xy}). La fórmula es:

rxy=Sxysxsyr_{xy} = \frac{S_{xy}}{s_x \cdot s_y}

Y en la matriz de covarianzas puedo encontrar todos esos valores necesarios para calcular el Coeficiente de Correlación de Pearson, y puedo aplicar directamente la fórmula.

Recuerda que la varianza es s2s^2, y que la fórmula del Coeficiente de Correlación de Pearson (rxyr_{xy}) requiere usar la desviación típica s2s^2. Por lo tanto, hay que hacer la raíz cuadrada de las varianzas.

rxy=Sxysx2sy2r_{xy} = \frac{S_{xy}}{\sqrt{s_x^2} \cdot \sqrt{s_y^2}}

Correlación

La correlación mide la proporción del cambio en una variable a partir del cambio en la otra.

Para medir la correlación de variables cuantitativas contínuas, utilizo el Coeficiente de Correlación de Pearson (rxyr_{xy})

Correlaciones
  • Coeficiente de Correlación de Pearson: relación lineal entre variables cuantitativas continuas.
  • Correlación de Spearman: relación monotónica entre variables ordinales o no lineales.
  • Correlación de Kendall: concordancia de orden entre variables, robusta frente a valores atípicos.
Coeficiente de Correlación de Pearson (rxy)

El coeficiente de correlación de Pearson, denotado como rr, es una medida que expresa el grado de la relación lineal entre dos variables cuantitativas. Se calcula de la siguiente manera:

Fórmula del Coeficiente de Correlación de Pearson
rxy=Sxysxsyr_{xy} = \frac{S_{xy}}{s_x \cdot s_y}

Donde:

  • SxyS_{xy} es la covarianza entre las variables XX e YY.
  • sxs_x y sys_y son las desviaciones estándar de XX e YY, respectivamente.

El valor de rr siempre es un valor entre -1 y 1, lo que permite saber si la covarianza es alta o baja, además de saber si es positiva o negativa.

No confundir los coeficientes de variación y de correlación de Pearson

El coeficiente de correlación de Pearson se utiliza para describir el grado de relación lineal entre dos variables, mientras que el coeficiente de variación de Pearson se usa para evaluar la variabilidad de una sola variable en relación con su media. Ambos son útiles en su contexto, pero sirven para propósitos estadísticos diferentes.

Interpretar la Correlación de Pearson

A diferencia de la covarianza, el coeficiente de correlación de Pearson está normalizado y, por lo tanto, es independiente de las unidades de medida de las variables. Esto permite comparar directamente la fuerza de la relación lineal entre diferentes pares de variables.

El coeficiente de correlación de Pearson puede interpretarse fácilmente para determinar la fuerza de la relación entre dos variables. El valor de rr varía entre -1 y 1, donde:

  • r>0r > 0 indica una correlación positiva, donde:
    • r=1r = 1 indica una correlación positiva perfecta.
    • r>0.5r > 0.5 indica una correlación positiva alta.
    • r>0.3r > 0.3 indica una correlación positiva media.
    • r>0.1r > 0.1 indica una correlación positiva baja.
  • r=0r = 0 indica que no hay correlación lineal entre las variables.
  • r<0r < 0 indica una correlación negativa, donde:
    • r<0.1r < -0.1 indica una correlación negativa baja.
    • r<0.3r < -0.3 indica una correlación negativa media.
    • r<0.5r < -0.5 indica una correlación negativa alta.
    • r=1r = -1 indica una correlación negativa perfecta.

Estos rangos proporcionan una guía general para evaluar la correlación lineal entre las variables. Sin embargo, es importante recordar que la correlación no implica causalidad y que otros factores pueden influir en la relación entre las variables.

Por ejemplo, en la siguiente imágen vemos distintos grados de correlaciones positivas.

Calcular la Correlación de Pearson

Dado el siguiente conjunto de datos:

Yi231535723
Xi140342511

Aplicamos la fórmula de la varianza:

rxy=Sxysxsy    2.333.142.67=0.8047r_{xy} = \frac{S_{xy}}{s_x \cdot s_y} \implies \frac{2.33}{\sqrt{3.14} \cdot \sqrt{2.67}} = 0.8047

Recuerda que la varianza es s2s^2. Es decir, el valor resultante da la fórmula de la varianza debe ser sometido a su raíz cuadrada para aplicarse en la fórmula. Otra forma de verlo es que la fórmula utiliza la desviación típica, que ya es la raíz cuadrada de la varianza.

El resultado de 0,8047 refleja que las variables xx e yy tienen una correlación positiva y alta.

Coeficiente de determinación (R²xy)

El coeficiente de determinación, conocido como R2R^2 (R cuadrado), es una medida estadística que representa la proporción de la varianza para una variable dependiente que es explicada por una o más variables independientes en un modelo de regresión.

Permite conocer qué parte de la variable yy es atribuible a la variable xx, o viceversa. Consiste en medir qué proporción de la varianza está compartida por ambas variables.

El R2R^2 se calcula como el cuadrado del coeficiente de correlación de Pearson (rxyr_{xy}).

Rxy2=rxy2R_{xy}^2 = r_{xy}^2

El valor se expresa en porcentaje. Su valor varía entre 0 (equivale a 0%) y 1 (equivale a 100%):

  • Un R2R^2 de 0 (0%) indica que el modelo no explica nada de la variabilidad de los datos de respuesta alrededor de su media.
  • Un R2R^2 de 1 (100%) indica que el modelo explica toda la variabilidad de los datos de respuesta alrededor de su media.

Si tenemos un rxyr_{xy} de 0.8944, significa que el Rxy2R_{xy}^2 es de 0.8, así que el 80% de la variabilidad en la variable dependiente puede ser explicada por el modelo y las variables independientes.

Relación entre dos variables categóricas

Las variables categóricas, como el sexo o el estado civil, no se pueden analizar como las variables cuantitativas.

Tablas de contingencia

Una tabla de contingencia cruza las frecuencias absolutas de dos variables. Es decir, es una tabla cruzada.

Por ejemplo, la siguiente tabla de contingencia cruza dos variables: cantidad de horas que duerme una persona, y si tiene o no tiene parálisis.

PARALISIS
NoTotal

Cantidad de sueño

4,00235
5,00527
6,00101828
7,00161329
8,00131124
9,00437
Total 5050100

Con esta tabla, puedo visualizar las frecuencias de distintas cosas. Por ejemplo, vemos que las personas duermen entre 4 y 9 horas, y que hay tantas personas con parálisis como sin parálisis. Pero no se si están o no relacionadas.

Para saber si están relacionadas, necesito analizar el índice Chi-Cuadrado de Pearson (χ2\chi^2).

Correlación

Chi-Cuadrado de Pearson (χ²)

Las variables categóricas, como el sexo o el estado civil, no se pueden analizar como las variables cuantitativas. Para hacer correlaciones, utilizo χ2\chi^2.

El χ2\chi^2 es un índice que cuantifica la asociación entre dos variables categóricas. Sin embargo, para calcular χ2\chi^2 necesito averiguar las puntuaciones esperadas, como explico a continuación.

Fórmula de Chi-Cuadrado (χ2\chi^2)
χ2=(OijEij)2Eij\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

donde:

  • OijO_{ij} representa las frecuencias observadas (frecuencias absolutas).
  • EijE_{ij} representa las frecuencias esperadas.

El χ2\chi^2 proporciona valores intre 00 e \infin. Si el valor es 0, significa que no hay asociación, es decir: Oij=EijO_{ij} = E_{ij}. Por el contrario, si es mayor que cero, es que sí hay asociación; y cuanto mayor sea el número, mayor será la asociación.

Calcular Chi-Cuadrado de Pearson

En la siguiente tablas de contingencia, vemos dos variables cruzadas:

Sexo
VarónMujer
Favorable20920
Intermedia147116
Desfavorable52172

La formula de Chi-Cuadrado (χ2\chi^2) es:

χ2=(OijEij)2Eij\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

Necesito, en primer lugar, calcular la puntuación observada (OijO_{ij}). Para ello, tenemos que calcular los totales.

Sexo

Total

VarónMujer
Favorable20920229
Intermedia147116263
Desfavorable52172224
Total408308

716

Es decir, el número total de personas en la muestra es 716 (Oij=716O_{ij} = 716).

Ahora, necesito calcular las puntuaciones esperadas (EijE_{ij}) para cada una de las combinaciones.

Para ello, tenemos que seguir la siguiente fórmula:

Eij=ncolumna×nfilantotalE_{ij} = n_{columna} \times \frac{n_{fila}}{n_{total}}

Por ejemplo, para conseguir la puntuación esperada de Varón que es Favorable, necesitaríamos el total de la columna Varón (408), el total de la columna favorable (229), y el total de la muestra (716):

SexoTotal
VarónMujer
Favorable20920229
Intermedia147116263
Desfavorable52172224
Total

408

308

716

Y entonces aplicaríamos la fórmula:

Evaron favorable=408×229716=130.4916E_{\text{varon favorable}} = 408 \times \frac{229}{716} = 130.4916

Es decir, que el valor esperado para la combinación varón-favorable es 130,49. Eso significa que si no hubiera asociaciones entre variables, lo más normal sería que el valor fuera 130,49.

Después, hacemos lo mismo para todas las combinaciones.

Sexo
VarónMujer
Favorable

209

(130,49)

20

(95,5)

Intermedia

147

(149,9)

116

(113,1)

Desfavorable

52

(127,6)

172

(96,4)

Y finalmente aplicamos la fórmula de χ2\chi^2:

χ2=(OijEij)2Eij=(209130.5)2130.5+(2098.5)298.5+\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} = \frac{(209 - 130.5)^2}{130.5} + \frac{(20 - 98.5)^2}{98.5} + \dots

El resultado es χ2=214.14\chi^2 = 214.14. Es decir, que sí hay asociación entre el sexo y la favorabilidad. Sin embargo, no se si la asociación es alta o baja.

Phi de Pearson (ϕ)

El Phi de Pearson (ϕ\phi) es un índice que cuantifica la asociación entre dos variables categóricas, y que funciona cuando hay sólo dos categorías; es decir, una matríz de 2x2.

Fórmula de ϕ\phi

La fórmula simplificada consiste en haver la raíz cuadrada de Chi-Cuadrado (χ2\chi^2) entre el total de la muestra (nn)

ϕ=χ2n\phi = \sqrt{\frac{\chi^2}{n}}

donde:

  • χ2\chi^2 es el valor de Chi-Cuadrado de Pearson
  • nn es el total de casos de la muestra

Hay otra fórmula que sirve también para reflejar valores negativos, pero es mucho más compleja y no explicola en esta sección.

La ventaja que tiene es que, a diferencia del índice Chi de Pearson, el Phi de Pearson sí informa sobre la intensidad de la correlación. Los posibles valores son:

  • ϕ=1\phi = -1 significa asociación perfecta negativa
  • ϕ=0\phi = 0 significa que no hay asociación
  • ϕ=1\phi = 1 significa asociación perfecta positiva

Utilizando el ejemplo anterior:

ϕ=214.147162=0.423\phi = \sqrt[2]{\frac{214.14}{716}} = 0.423

Es decir, que el valor Phi es ϕ=0.423\phi = 0.423, que significa que hay una asociación positiva que no es alta.

V de Cramér (V)

La V de Cramér es un índice que cuantifica la asociación entre dos variables categóricas, y que funciona cuando hay más de dos categorías.

Es muy similar a la Phi de Pearson, sólo que sirve cuando hay más de dos variables. La fórmula es muy similar también, con una pequeña diferencia.

Fórmula de la V de Cramér
V=χ2n(k1)V = \sqrt{\frac{\chi^2}{n(k - 1)}}

donde:

  • χ2\chi^2 es el estadístico Chi-cuadrado,
  • nn es el número total de observaciones,
  • kk es el número de categorías de la variable con menos categorías

La V de Cramer da puntuaciones de 0 a 1, donde 0 indica ninguna asociación entre las variables y 1 indica una asociación perfecta.

Correlación de Spearman
Work in progress

Relación entre una variables cuantitativa y una categórica

No explico fórmulas ni índices para describir estas relaciones entre una variables cuantitativa y una categórica. En su defecto, para saber si ha relación entre una variable cuantitativa y otra categórica, lo tienes que hacer de forma visual, fijándote en los gráfico que representan los datos:

Por ejemplo, dado el siguiente gráfico:

Vemos que la variable de edad agrupada es ordinal, y que la medida de depresión es cuantitativa. Puedo deducir que sí hay asociación, porque los datos de la variable cuantitativa se distribuyen de forma muy particular entre las categorías.

En realidad, el análisis de la asociación entre las variables cuali y cuanti es muy similar al uso de los índices descriptivos de una sola variable, pero considerando que cada categoría fuera su propia muestra. Es decir, realmente estoy analizando cómo se distribuyen los valores de la variable cuantitativa en las categorías de la variable categórica. Por eso, a la variable categórica la llamamos variable de agrupación.

Generalmente se comparan los siguientes índices, para cada una de las categorías:

  • Valores de tendencia central: media, mediana...
  • Valores de posición: percentiles...
  • Valores de dispersión: IQR...

Correlación

Correlación de Kendall
Work in progress