Medidas de Tendencia Central: Media, Mediana y Moda

By Leonard Cucoses
Estadística DescriptivaPruebas Estadísticas

Una medida de tendencia central es un concepto estadístico fundamental que te ayuda a comprender el valor típico o central de un conjunto de datos. En esta guía, aprenderás las tres medidas principales (media, mediana y moda), cómo calcular cada una y cuándo utilizarlas en tu análisis estadístico descriptivo.

Objetivos de Aprendizaje

Al finalizar este artículo, deberías ser capaz de:

  • Comprender el concepto de medidas de tendencia central y su importancia en estadística y análisis de datos.

  • Definir y diferenciar entre media, mediana y moda como medidas de tendencia central.

  • Explicar las fórmulas y los procedimientos para calcular la media, mediana y moda.

  • Reconocer las diferencias en sensibilidad a valores atípicos y aplicabilidad entre media, mediana y moda.

  • Interpretar histogramas e identificar las posiciones de la media, mediana y moda en la distribución de datos.

¿Qué es una Medida de Tendencia Central?

Una medida de tendencia central es un valor único que representa el centro o valor típico de un conjunto de datos. Proporciona una forma de resumir múltiples puntos de datos con un solo número representativo. Las medidas de tendencia central nos ayudan a comprender el comportamiento general o la tendencia de un conjunto de datos, facilitando la obtención de conclusiones y la toma de decisiones informadas basadas en los datos.

Existen tres medidas principales de tendencia central: la media, la mediana y la moda. Exploremos cada una en detalle.

1. Media: El Promedio Aritmético

La media, comúnmente llamada promedio, es la medida de tendencia central más utilizada. Se calcula sumando todos los puntos de datos de un conjunto y dividiendo entre el número total de puntos de datos. Esta es la fórmula de la media:

xˉ=1ni=1nxi\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i

Donde:

  • : Este símbolo representa la media (promedio) del conjunto de datos.

  • n: Representa el número total de puntos de datos en el conjunto.

  • xᵢ: Representa cada punto de datos individual en el conjunto, donde i es el índice que varía de 1 a n.

  • Σ (de i=1 a n): Este es el símbolo de sumatoria, que indica que debemos sumar los valores de xᵢ para todos los índices de 1 a n. En otras palabras, sumar todos los puntos de datos del conjunto.

Cuando buscamos una representación gráfica de la media, obtenemos algo similar al histograma de abajo. Aquí, generamos un conjunto de datos de 100 números aleatorios con una media de 50 y una desviación estándar de 10.

Histograma con la media representada por una línea vertical roja punteada

Figura 1: Histograma que muestra la distribución de datos con la línea vertical roja representando la media

NOTA:

  • Un histograma es una representación visual del conjunto de datos. Divide los datos en un cierto número de intervalos (grupos), y la altura de cada barra en el histograma representa la frecuencia (cuántas veces) los puntos de datos caen en ese intervalo específico. En otras palabras, las barras más altas indican más puntos de datos en ese rango de valores.

  • La línea roja punteada vertical en el gráfico de arriba representa el valor de la media del conjunto de datos. La media se calcula sumando todos los puntos de datos y dividiendo la suma entre el número total de puntos de datos. Proporciona una idea de la tendencia central o "promedio" de los datos.

Cuando observas el gráfico, puedes ver cómo se distribuyen los datos, y la línea vertical te ayuda a identificar dónde se encuentra el valor de la media dentro de esa distribución. Esto puede darte una idea general de la tendencia global de los datos y ayudarte a comprender mejor el comportamiento del conjunto de datos.

Sin embargo, es importante recordar que la media puede ser sensible a valores atípicos (valores extremos), los cuales podrían sesgar la media y hacerla menos representativa de la tendencia central del conjunto de datos.

Aprende cómo calcular la media manualmente, en Excel y en R en unos pocos pasos simples.

2. Mediana: El Valor Central

La mediana es el valor central de un conjunto de datos cuando los puntos de datos se organizan en orden ascendente o descendente. Aunque frecuentemente se pasa por alto, la mediana es una medida importante de tendencia central, particularmente para distribuciones asimétricas.

Para encontrar la mediana, primero ordena el conjunto de datos en orden ascendente o descendente. Si hay un número impar de puntos de datos, la mediana es el valor central. Si hay un número par de puntos de datos, la mediana es el promedio de los dos valores centrales. Aquí tienes un ejemplo rápido:

  • Conjunto de datos: 2,4,6,8,102, 4, 6, 8, 10. La mediana es 6 porque es el valor central.

  • Conjunto de datos: 2,4,6,82, 4, 6, 8. La mediana es 5 porque es el promedio de 4 y 6, los dos valores centrales.

Un aspecto positivo de la mediana es que es menos sensible a valores extremos, lo que significa que puede representar mejor el centro de distribuciones asimétricas.

Así se ve la representación gráfica de la mediana utilizando los mismos criterios de conjunto de datos que usamos anteriormente:

Histograma con la mediana representada por una línea vertical roja punteada

Figura 2: Histograma que muestra la distribución de datos con la línea vertical roja representando la mediana

El histograma de la mediana de arriba puede parecer similar al anterior que generamos para la media. Sin embargo, si prestas atención, la línea roja punteada que representa la mediana está ligeramente desplazada. Aquí está la explicación:

  • La media (promedio) se calcula sumando todos los puntos de datos y dividiendo la suma entre el número total de puntos de datos. Proporciona una idea de la tendencia central o "promedio" de los datos. Sin embargo, la media puede ser sensible a valores atípicos (valores extremos) y podría no representar el verdadero centro del conjunto de datos cuando hay valores atípicos presentes.

  • La mediana es el valor central del conjunto de datos, representada por la línea roja punteada, cuando los datos se ordenan de forma ascendente o descendente. Si hay un número par de puntos de datos, la mediana es el promedio de los dos valores centrales. La mediana es menos sensible a valores atípicos que la media y puede representar mejor la tendencia central del conjunto de datos cuando hay valores atípicos presentes.

NOTA: En los histogramas generados, las líneas verticales para la media y la mediana son ligeramente diferentes porque representan medidas distintas de tendencia central. Sus posiciones pueden variar según la distribución de los puntos de datos del conjunto. En algunos casos, la media y la mediana pueden ser cercanas o iguales. En contraste, en otros casos, pueden ser diferentes debido a la presencia de valores atípicos o la distribución específica de los datos.

Aprende cómo calcular la mediana manualmente, en Excel y en R con facilidad.

3. Moda: El Valor Más Frecuente

La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. Representa la observación más común en tus datos.

A diferencia de la media, no existe una ecuación matemática específica para calcular la moda. La moda es simplemente el valor o valores que aparecen con mayor frecuencia en un conjunto de datos. Para encontrar la moda, necesitas contar la frecuencia de cada valor único en el conjunto de datos e identificar el (los) que tienen la mayor frecuencia.

En algunos casos, un conjunto de datos podría tener:

  • Una moda (unimodal): Un solo valor aparece con mayor frecuencia que cualquier otro valor.

  • Dos modas (bimodal): Dos valores diferentes aparecen con la misma frecuencia máxima.

  • Múltiples modas (multimodal): Más de dos valores aparecen con la misma frecuencia máxima.

  • Sin moda: Todos los valores en el conjunto de datos aparecen con la misma frecuencia.

Es importante señalar que la moda puede usarse para cualquier tipo de datos, incluyendo datos nominales, ordinales, de intervalo o de razón, ya que solo se basa en la frecuencia de cada valor único.

El histograma para la moda, junto con una línea vertical representando el valor de la moda, se ve así:

Histograma con la moda representada por una línea vertical roja punteada

Figura 3: Histograma que muestra la distribución de datos con la línea vertical roja representando la moda

A continuación, un desglose simple de lo que nos dice el histograma de la moda:

  • El histograma es una representación visual del conjunto de datos. Divide los datos en un cierto número de intervalos (grupos), y la altura de cada barra en el histograma representa la frecuencia (cuántas veces) los puntos de datos caen en ese intervalo específico. En otras palabras, las barras más altas indican más puntos de datos en ese rango de valores.

  • La línea roja punteada vertical en el gráfico representa el valor de la moda del conjunto de datos. La moda es el valor que aparece con mayor frecuencia en el conjunto de datos. Es una medida de tendencia central que puede ayudar a identificar el valor o valores más comunes del conjunto de datos.

Cuando observas el histograma de la moda, puedes ver cómo se distribuyen los datos, y la línea vertical te ayuda a identificar dónde se encuentra el valor (o valores) de la moda dentro de esa distribución.

La moda puede proporcionar información sobre el comportamiento general del conjunto de datos y ayudarte a comprender los valores más comunes. A diferencia de la media y la mediana, la moda no se ve afectada por valores atípicos o valores extremos, lo que la convierte en una medida adecuada de tendencia central cuando el conjunto de datos tiene una distribución asimétrica o contiene valores atípicos.

Aprende cómo calcular la moda manualmente, en Excel y en R rápidamente.

¿Por Qué Nos Importan las Medidas de Tendencia Central?

Las medidas de tendencia central se utilizan para analizar e interpretar datos en diversos campos, como estadística, economía, psicología y otras ciencias. Nos ayudan a:

  • Resumir conjuntos grandes de datos: En lugar de analizar cada punto de datos individualmente, podemos usar una medida de tendencia central para obtener una idea general de cómo se ven los datos. Esto simplifica nuestro análisis y facilita la comprensión del patrón o tendencia general en los datos.

  • Comparar diferentes conjuntos de datos: Las medidas de tendencia central nos permiten comparar conjuntos de datos proporcionando un solo valor que representa el centro de cada conjunto. Esto facilita ver qué conjunto tiene valores más altos o más bajos en promedio.

  • Identificar tendencias y patrones: Al observar la media, mediana o moda, podemos identificar tendencias y patrones en los datos. Esto puede ser útil para hacer predicciones, identificar áreas de mejora o monitorear cambios a lo largo del tiempo.

  • Tomar decisiones informadas: En muchos campos, los tomadores de decisiones se apoyan en medidas de tendencia central para guiar sus elecciones. Por ejemplo, un propietario de negocio podría observar los ingresos promedio de diferentes productos para decidir en cuáles enfocarse en la promoción, o un profesor podría usar la mediana de las calificaciones para determinar la efectividad de sus métodos de enseñanza.

Cómo Elegir la Medida de Tendencia Central Correcta

Ahora que sabes qué es una medida de tendencia central y por qué es importante, quizás te preguntes cuál usar en diferentes situaciones. Aquí tienes algunas pautas generales para ayudarte a elegir la medida correcta para tus necesidades:

  • Usa la media cuando: Tus datos son relativamente simétricos y libres de valores extremos o atípicos. La media es excelente para proporcionar una tendencia general en los datos y se utiliza comúnmente en muchos campos, incluyendo el análisis descriptivo en R.

  • Usa la mediana cuando: Tus datos son asimétricos o tienen valores extremos que podrían afectar la media. La mediana es menos sensible a valores atípicos y representa mejor el centro de distribuciones asimétricas. Es especialmente útil al verificar supuestos de normalidad en tu análisis.

  • Usa la moda cuando: Quieres identificar el valor más frecuente o popular de un conjunto de datos. La moda es particularmente útil para datos categóricos o discretos donde otras medidas de tendencia central podrían no ser aplicables.

Preguntas Frecuentes

Próximos Pasos

Las medidas de tendencia central (media, mediana y moda) son herramientas esenciales para resumir y comprender distribuciones de datos. Cada medida ofrece ventajas únicas: la media proporciona un promedio general, la mediana resiste la influencia de valores atípicos, y la moda identifica el valor más común en tu conjunto de datos.

Al seleccionar la medida de tendencia central adecuada para las características específicas de tus datos y preguntas de investigación, puedes obtener conclusiones más precisas y tomar decisiones mejor informadas a partir de tus análisis estadísticos.

Para profundizar en estos conceptos, te recomendamos explorar la desviación estándar en Excel, que te permitirá medir la dispersión de tus datos alrededor de la media. También puedes aprender sobre el error estándar, una medida clave para estimar la precisión de tus estimaciones de la media en estudios con muestras.