Correlación de Pearson en Excel: Guía Paso a Paso

By Leonard Cucoses
ExcelPruebas EstadísticasTutoriales Excel

Aprende a calcular el coeficiente de correlación de Pearson en Excel usando la función CORREL y el Data Analysis ToolPak. Esta guía paso a paso te muestra cómo medir la correlación entre dos variables, interpretar los resultados y verificar los supuestos.

El coeficiente de correlación de Pearson mide la fuerza y dirección de la relación lineal entre dos variables continuas. La función CORREL integrada en Excel facilita el cálculo de coeficientes de correlación, ya sea que estés analizando gasto publicitario vs ingresos, calificaciones vs horas de estudio, o cualquier par de variables relacionadas.

Descarga el dataset de práctica desde la barra lateral (contraseña: uedufy) y sigue los ejemplos.

¿Qué es el coeficiente de correlación de Pearson?

Supongamos que tienes una tienda de ropa y quieres saber si existe una relación entre cuánto gastas en publicidad y cuánto dinero ganas. Aquí es donde el coeficiente de correlación de Pearson resulta útil.

Por otro lado, si el coeficiente está cerca de -1, significa que a medida que gastas más en publicidad, tus ingresos probablemente disminuyan. Y si el coeficiente está cerca de 0, no existe una relación real entre publicidad e ingresos.

Revisaste tus datos y el coeficiente de correlación de Pearson fue 0.8. Esto significa que hay una relación positiva fuerte entre Publicidad e Ingresos: mientras más gastes en publicidad, más dinero ganas. Pero no te emociones demasiado todavía. Otros factores también pueden afectar los ingresos. Conocer el coeficiente de correlación de Pearson es solo una pieza del rompecabezas, pero una métrica importante a considerar.

El coeficiente de correlación de Pearson mide la fuerza de la relación entre dos elementos, en este caso, publicidad e ingresos. Si el coeficiente está cerca de 1, significa que a medida que gastas más en publicidad, probablemente verás un aumento en los ingresos.

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2r=\frac{\sum\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum\left(x_i-\bar{x}\right)^2 \sum\left(y_i-\bar{y}\right)^2}}

Donde:

  • r es el coeficiente de correlación
  • xi representa los valores de la variable x en una muestra
  • es la media de los valores de la variable x
  • yi representa los valores de la variable y en una muestra
  • ȳ es la media de los valores de la variable y

Supuestos de la Correlación de Pearson

Antes de calcular el coeficiente de correlación de Pearson en Excel, verifica que tus datos cumplan con estos supuestos:

1. Variables Continuas

Ambas variables deben medirse en una escala continua (nivel de intervalo o razón). La correlación de Pearson NO es apropiada para datos categóricos u ordinales.

Ejemplos de variables continuas: estatura, peso, temperatura, calificaciones, ingresos, tiempo

2. Linealidad

La relación entre las dos variables debe ser lineal. Esto significa que a medida que una variable aumenta, la otra aumenta (o disminuye) a una tasa constante.

Cómo verificar en Excel: Crea un gráfico de dispersión con tus datos. Si los puntos forman aproximadamente un patrón de línea recta (no una curva), el supuesto de linealidad se cumple.

3. Independencia de Observaciones

Cada observación debe ser independiente, lo que significa que el valor de una observación no debe influir ni estar relacionado con el valor de otra observación.

Ejemplo: Medir a la misma persona múltiples veces viola la independencia. Cada punto de datos debe provenir de un sujeto o momento de medición diferente.

4. Normalidad Bivariada

Para pruebas de significancia precisas, ambas variables deben seguir una distribución normal bivariada. Sin embargo, la correlación de Pearson es bastante robusta ante violaciones de normalidad en muestras grandes (n > 30).

Cómo verificar en Excel: Crea histogramas para cada variable para evaluar visualmente la normalidad. Para muestras menores a 30, considera usar pruebas de normalidad.

¿Qué pasa si se violan los supuestos?

Si tus datos violan estos supuestos (especialmente linealidad o normalidad), considera usar el coeficiente de correlación de rangos de Spearman, que es una alternativa no paramétrica que no requiere estos supuestos estrictos.

Método 1: Calcular el coeficiente de correlación en Excel usando la función CORREL

Volvamos a nuestro ejemplo de la tienda de ropa y aprendamos a calcular el coeficiente de correlación de Pearson en Excel para determinar si existe una relación entre cuánto gastamos en publicidad y cuánto dinero ganamos.

1. Prepara tus datos: Organiza tus datos en dos columnas, con una columna representando cada una de las dos variables que quieres analizar. En nuestro dataset, las dos variables que queremos verificar si están correlacionadas son Publicidad e Ingresos.

Dataset para el coeficiente de correlación de Pearson en Excel mostrando dos columnas de Publicidad e Ingresos Figura 1: Ejemplo de dos variables para el cálculo del coeficiente de correlación en Excel

2. Selecciona una celda: Elige una celda en tu hoja de cálculo donde quieras mostrar el resultado del coeficiente de correlación de Pearson.

Hoja de cálculo de Excel con celda seleccionada para mostrar el resultado de la correlación de Pearson Figura 2: Selecciona una celda en la hoja de cálculo para el resultado de la correlación

3. Ingresa la función de correlación: Escribe "=CORREL(" seguido del rango de la primera columna de datos, una coma y el rango de la segunda columna de datos, y cierra el paréntesis. Por ejemplo, si tus datos están en las columnas B y C (como en la captura), la función de correlación sería: =CORREL(B2:B13, C2:C13).

Excel mostrando la sintaxis de la función CORREL para calcular el coeficiente de correlación de Pearson Figura 3: Función CORREL en Excel

4. Calcula el resultado: Presiona la tecla ENTER para calcular el coeficiente de correlación de Pearson. El resultado se mostrará en la celda seleccionada. El coeficiente de correlación entre Publicidad e Ingresos en nuestro dataset es 0.9.

Excel mostrando el resultado del coeficiente de correlación de Pearson de 0.9 Figura 4: Resultado del coeficiente de correlación de Pearson para las variables seleccionadas

Método 2: Calcular el coeficiente de correlación usando Analysis Tool en Excel

Otra forma de calcular la correlación entre dos variables en Excel es usando el Data Analysis ToolPak.

1. Prepara tus datos: Asegúrate de que tus datos estén organizados en dos columnas, cada columna representando una variable (igual que antes).

2. Instala Data Analysis en Excel: si no ves el ícono Data Analysis en la pestaña Data de Excel, primero debes instalar el Data Analysis ToolPak.

Cinta de Excel mostrando la ubicación del botón Data Analysis en la pestaña Data Figura 5: Ubicación de Data Analysis en Excel

3. Abre la herramienta Data Analysis: Desde la pestaña Data, haz clic en Data Analysis y selecciona Correlation.

Cuadro de diálogo Data Analysis de Excel con la opción Correlation seleccionada Figura 6: Data Analysis, selección de Correlation

4. Selecciona los datos: En el cuadro de diálogo de Data Analysis, selecciona el rango de entrada, que es el rango de las dos columnas de datos. Si incluiste las etiquetas de columna en tu selección (Advertising y Revenue), marca la casilla Labels in First Row.

NOTA: En la sección "Output Options", también puedes elegir dónde quieres que se muestre el resultado, ya sea en una nueva hoja de cálculo o en un rango de celdas. Por ahora dejemos la configuración predeterminada.

Cuadro de diálogo de Correlación en Excel mostrando la selección del rango de entrada para los datos de Publicidad e Ingresos Figura 7: Selecciona el rango de valores para la correlación

5. Ejecuta el análisis: Haz clic en OK para calcular. El resultado del coeficiente de correlación de Pearson se mostrará en la ubicación de salida que seleccionaste. Como era de esperar, para el mismo conjunto de datos, el coeficiente es el mismo: 0.9.

Resultado del coeficiente de correlación de Pearson de 0.9 usando Data Analysis ToolPak en Excel Figura 8: Resultado del coeficiente de correlación de Pearson en Excel

Cómo Interpretar los Resultados de Correlación de Pearson

El coeficiente de correlación de Pearson (r) siempre será un valor entre -1 y 1. Así se interpretan los resultados en Excel:

Entendiendo los Valores de Correlación

Valor del coeficiente:

  • r = 1: Correlación positiva perfecta (a medida que una variable aumenta, la otra aumenta proporcionalmente)
  • r = -1: Correlación negativa perfecta (a medida que una variable aumenta, la otra disminuye proporcionalmente)
  • r = 0: Sin correlación lineal (no hay relación lineal entre las variables)

Dirección:

  • Correlación positiva (0 a 1): Ambas variables se mueven en la misma dirección
  • Correlación negativa (0 a -1): Las variables se mueven en direcciones opuestas

Interpretación de la Fuerza de Correlación

Usa estas pautas para interpretar la fuerza de tu coeficiente de correlación de Pearson:

Valor de CorrelaciónFuerzaInterpretación
0.9 a 1.0 (o -0.9 a -1.0)Muy fuerteLas variables están altamente correlacionadas
0.7 a 0.9 (o -0.7 a -0.9)FuerteExiste una relación fuerte
0.4 a 0.7 (o -0.4 a -0.7)ModeradaRelación moderada
0.1 a 0.4 (o -0.1 a -0.4)DébilRelación débil
0 a 0.1 (o 0 a -0.1)NingunaNo hay correlación significativa

Ejemplo de Interpretación

En nuestro ejemplo, el coeficiente de correlación de r = 0.9 indica una correlación positiva muy fuerte entre las variables Publicidad e Ingresos.

Qué significa esto:

  • A medida que el gasto en publicidad aumenta en 1 unidad, los ingresos tienden a aumentar a un ritmo muy consistente
  • El 81% de la varianza en los ingresos puede explicarse por el gasto en publicidad (calculado como r² = 0.9² = 0.81)
  • Esta es una relación muy fuerte, pero no prueba causalidad

Importante: Correlación vs Causalidad

Recordatorio fundamental: Un coeficiente de correlación de Pearson alto NO significa que una variable cause la otra. Solo muestra que tienden a cambiar juntas.

Por qué esto importa:

  • La correlación muestra asociación, no causalidad
  • Una tercera variable podría estar influyendo en ambas variables
  • La relación podría ser coincidencia
  • Podría existir causalidad inversa (B causa A, no A causa B)

Para establecer causalidad, necesitas diseños de investigación experimental o métodos estadísticos adicionales como el análisis de regresión.

Pearson vs Spearman: ¿Cuál Usar?

Al analizar correlación en Excel, podrías preguntarte si usar Pearson o Spearman. Así puedes elegir el método correcto:

Correlación de Pearson

Usa Pearson cuando:

  • Ambas variables son continuas (escala de intervalo o razón)
  • La relación entre variables es lineal
  • Los datos tienen distribución aproximadamente normal
  • No hay valores atípicos significativos

Ventajas:

  • Prueba estadística más potente (mejor para detectar correlaciones verdaderas)
  • Ampliamente reconocida y reportada en investigación
  • Fácil de calcular en Excel con la función CORREL

Desventajas:

  • Sensible a valores atípicos
  • Requiere supuestos (linealidad, normalidad)
  • Solo detecta relaciones lineales

Correlación de Spearman

Usa Spearman cuando:

  • Las variables son ordinales (datos clasificados)
  • La relación es monotónica pero no necesariamente lineal
  • Los datos contienen valores atípicos
  • Los datos no tienen distribución normal

Ventajas:

  • No paramétrica (no requiere supuestos de distribución)
  • Robusta ante valores atípicos
  • Funciona con datos clasificados/ordinales
  • Detecta relaciones monotónicas (no solo lineales)

Desventajas:

  • Menos potente que Pearson cuando se cumplen los supuestos
  • Más compleja de calcular en Excel (requiere clasificar los datos primero)
  • Puede perder algunos matices de la relación

Guía Rápida de Decisión

Elige la correlación de Pearson si:

  • Tus datos son continuos y tienen distribución normal
  • El gráfico de dispersión muestra un patrón aproximadamente lineal
  • No tienes valores atípicos extremos

Elige la correlación de Spearman si:

  • Tus datos son ordinales/clasificados
  • El gráfico de dispersión muestra un patrón curvo o no lineal
  • Tienes valores atípicos significativos
  • Tus datos violan los supuestos de normalidad

Ejemplo: Si estás correlacionando calificaciones de exámenes (continuas, distribución normal) con horas de estudio (continuas), usa Pearson. Si estás correlacionando clasificaciones de satisfacción del cliente (ordinal: 1-5 estrellas) con calificaciones de calidad del producto, usa Spearman.

Para la mayoría de los usuarios de Excel que trabajan con datos continuos y de distribución normal, la correlación de Pearson es la opción apropiada.

Preguntas Frecuentes

Próximos Pasos

Ahora que sabes cómo calcular e interpretar el coeficiente de correlación de Pearson en Excel, puedes profundizar en tu análisis estadístico.

Si necesitas analizar datos de encuestas usando las herramientas estadísticas de Excel, consulta nuestra guía sobre cómo analizar datos de encuestas en Excel. Para extender tu análisis más allá de la correlación y explorar relaciones predictivas, aprende a calcular estadísticas descriptivas en Excel.