¿Cómo se calcula la línea de regresión por mínimos cuadrados?

Para calcular la línea de regresión por mínimos cuadrados: (1) Calcula las medias de los valores x e y, (2) Calcula la pendiente usando b = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)², (3) Calcula el intercepto usando a = ȳ - b·x̄, y (4) Escribe la ecuación como ŷ = a + bx. Calcula siempre la pendiente primero, luego úsala para encontrar el intercepto. La ecuación resultante minimiza la suma de residuos al cuadrado y proporciona la línea de mejor ajuste a través de tus puntos de datos.

¿Qué minimiza la línea de regresión por mínimos cuadrados?

La línea de regresión por mínimos cuadrados minimiza la suma de residuos al cuadrado (SSR), que es la suma de las distancias verticales al cuadrado entre los valores y observados y los valores y predichos sobre la línea de regresión. El método eleva al cuadrado estas distancias para asegurar que las desviaciones positivas y negativas no se cancelen entre sí y para penalizar los errores grandes más que los errores pequeños. Esta minimización produce valores únicos y óptimos para la pendiente y el intercepto que dan la línea de mejor ajuste a través de los puntos de datos.

¿Cuál es la fórmula de la línea de regresión por mínimos cuadrados?

La línea de regresión por mínimos cuadrados sigue la fórmula: ŷ = a + bx, donde ŷ es el valor y predicho, x es la variable independiente, a es el intercepto y b es la pendiente. La pendiente se calcula como b = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)², y el intercepto es a = ȳ - b·x̄, donde x̄ e ȳ son las medias de x e y respectivamente. Estas fórmulas se derivan usando cálculo diferencial para encontrar los valores que minimizan la suma de residuos al cuadrado.

¿Cuáles son los supuestos de la regresión por mínimos cuadrados?

La regresión por mínimos cuadrados asume: (1) Linealidad, la relación entre x e y es lineal, (2) Independencia, las observaciones son independientes entre sí, (3) Homocedasticidad, la varianza de los residuos es constante en todos los valores de x, (4) Normalidad, los residuos siguen una distribución normal para las pruebas de hipótesis, y (5) Ausencia de valores atípicos extremos o puntos influyentes que afecten desproporcionadamente la línea. Las violaciones de estos supuestos pueden reducir la validez y fiabilidad de los resultados de regresión y deben verificarse usando gráficos de diagnóstico.

¿Cómo se interpreta la pendiente en la regresión por mínimos cuadrados?

La pendiente (b) representa el cambio promedio en la variable dependiente (y) por cada aumento de una unidad en la variable independiente (x). Por ejemplo, si la pendiente es 5.31 en una regresión de puntajes de examen sobre horas de estudio, esto significa que por cada hora adicional de estudio, el puntaje del examen se predice que aumentará 5.31 puntos en promedio. Una pendiente positiva indica una relación positiva (y aumenta cuando x aumenta), mientras que una pendiente negativa indica una relación inversa (y disminuye cuando x aumenta).

¿Qué es R-cuadrado en la regresión por mínimos cuadrados?

R-cuadrado (R²) es el coeficiente de determinación que mide la proporción de varianza en la variable dependiente explicada por la variable independiente. Va de 0 a 1, donde 0 significa que la línea de regresión no explica nada de la varianza y 1 significa ajuste perfecto con todos los puntos sobre la línea. Por ejemplo, R² = 0.75 significa que el 75% de la variación en y es explicada por x. Lo que constituye un buen R² depende de tu campo: ciencias sociales frecuentemente aceptan R² superior a 0.3, mientras que ciencias exactas pueden esperar superior a 0.9.

¿Cuándo se debe usar la regresión por mínimos cuadrados?

Usa la regresión por mínimos cuadrados cuando: (1) quieras predecir valores de una variable dependiente basándote en una variable independiente, (2) tengas datos numéricos continuos para ambas variables, (3) la relación parezca aproximadamente lineal en un diagrama de dispersión, (4) tu tamaño de muestra sea adecuado (generalmente n mayor que 30), (5) los supuestos de linealidad, independencia y homocedasticidad se cumplan razonablemente, y (6) quieras un modelo simple e interpretable. Es ideal para predicción, comprensión de relaciones y establecimiento de modelos de referencia antes de probar enfoques más complejos.

Regresión por Mínimos Cuadrados: Fórmula y Ejemplos

La línea de regresión por mínimos cuadrados es un método estadístico que encuentra la recta de mejor ajuste a través de un conjunto de puntos de datos, minimizando la suma de las distancias verticales al cuadrado (residuos) entre los valores observados y los valores predichos. Esta línea, representada por la ecuación $y = a + bx$ , proporciona la predicción lineal más precisa de la variable dependiente a partir de la variable independiente.

Esta guía explica qué es el método de mínimos cuadrados, cómo calcular la ecuación de la línea de regresión, ejemplos de cálculo paso a paso y cómo interpretar los resultados para el análisis estadístico y la predicción.

¿Qué es la línea de regresión por mínimos cuadrados?

La línea de regresión por mínimos cuadrados (también llamada línea de mejor ajuste o línea de regresión OLS) es una recta que representa la relación entre dos variables minimizando los errores de predicción. Este método es fundamental para el análisis de regresión lineal y el modelado predictivo.

El principio fundamental

El método funciona encontrando la línea que hace que la suma de residuos al cuadrado sea lo más pequeña posible. Un residuo es la distancia vertical entre un punto de datos observado y el valor predicho sobre la línea de regresión.

¿Por qué elevar los residuos al cuadrado?

Las desviaciones positivas y negativas no se cancelan entre sí
Los errores grandes se penalizan más que los errores pequeños
Elevar al cuadrado produce una función suave y diferenciable para la optimización matemática
La solución produce valores únicos e inequívocos para la pendiente y el intercepto

La ecuación de la línea de regresión

La línea de regresión por mínimos cuadrados sigue la forma:

$y = a + bx$

Donde:

$y$ = valor predicho de la variable dependiente
$x$ = valor de la variable independiente
$a$ = intercepto (valor de $y$ cuando $x = 0$ )
$b$ = pendiente (cambio en $y$ por cada unidad de cambio en $x$ )

El objetivo es encontrar los valores de $a$ y $b$ que minimicen la suma de residuos al cuadrado.

Cómo funciona el método de mínimos cuadrados

El método de mínimos cuadrados usa cálculo diferencial para encontrar los valores óptimos de la pendiente y el intercepto que minimicen los errores de predicción.

La función objetivo

Queremos minimizar la suma de residuos al cuadrado (SSR):

$SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (a + bx_i))^2$

Donde:

$y_i$ = valor observado para el punto de datos $i$
$\hat{y}_i$ = valor predicho para el punto de datos $i$
$n$ = número de puntos de datos
$(y_i - \hat{y}_i)$ = residuo para el punto de datos $i$

Minimización mediante cálculo diferencial

Para encontrar el mínimo, tomamos las derivadas parciales de SSR con respecto a $a$ y $b$ , las igualamos a cero y resolvemos el sistema de ecuaciones resultante (llamadas ecuaciones normales).

Este proceso matemático produce dos fórmulas para calcular la pendiente y el intercepto óptimos.

Herramienta Gratuita

Calcula tu Tamaño de Muestra

Usa nuestra calculadora gratuita para determinar el tamaño de muestra requerido con Yamane, Cochran y Krejcie & Morgan. Compara los tres métodos y obtén una cita lista para APA.

Probar Calculadora

Fórmulas para la pendiente y el intercepto

Cálculo de la pendiente (b)

$b = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$

Fórmula computacional alternativa:

$b = \frac{n\sum x_iy_i - \sum x_i \sum y_i}{n\sum x_i^2 - (\sum x_i)^2}$

Donde:

$\bar{x}$ = media de los valores $x$
$\bar{y}$ = media de los valores $y$
$n$ = número de puntos de datos

Cálculo del intercepto (a)

$a = \bar{y} - b\bar{x}$

Importante: Calcula siempre la pendiente primero, luego úsala para calcular el intercepto. La fórmula del intercepto depende del valor de la pendiente.

Ejemplo de cálculo paso a paso

Calculemos la línea de regresión por mínimos cuadrados para un conjunto de datos que examina la relación entre horas de estudio y puntajes de examen.

Los datos

Estudiante	Horas de estudio (x)	Puntaje del examen (y)
1	2	65
2	3	70
3	4	75
4	5	82
5	6	88
6	7	90

Tabla 1: Datos de horas de estudio y puntajes de examen para 6 estudiantes.

Pregunta de investigación: ¿Podemos predecir puntajes de examen basándonos en las horas de estudio?

Paso 1: Calcular las medias

Primero, calcula la media (promedio) para los valores de x e y:

$\bar{x} = \frac{2 + 3 + 4 + 5 + 6 + 7}{6} = \frac{27}{6} = 4.5$

$\bar{y} = \frac{65 + 70 + 75 + 82 + 88 + 90}{6} = \frac{470}{6} = 78.33$

Paso 2: Crear una tabla de cálculo

xᵢ	yᵢ	xᵢ - x̄	yᵢ - ȳ	(xᵢ - x̄)(yᵢ - ȳ)	(xᵢ - x̄)²
2	65	-2.5	-13.33	33.33	6.25
3	70	-1.5	-8.33	12.50	2.25
4	75	-0.5	-3.33	1.67	0.25
5	82	0.5	3.67	1.83	0.25
6	88	1.5	9.67	14.50	2.25
7	90	2.5	11.67	29.17	6.25
Suma				93.00	17.50

Tabla 2: Tabla de cálculo con desviaciones, productos cruzados y desviaciones al cuadrado.

Paso 3: Calcular la pendiente

$b = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2} = \frac{93.00}{17.50} = 5.31$

Interpretación: Por cada hora adicional de estudio, el puntaje del examen aumenta aproximadamente 5.31 puntos.

Paso 4: Calcular el intercepto

$a = \bar{y} - b\bar{x} = 78.33 - (5.31 \times 4.5) = 78.33 - 23.90 = 54.43$

Interpretación: Un estudiante que estudia 0 horas tendría un puntaje predicho de 54.43 puntos (aunque esta extrapolación puede no ser significativa en la práctica).

Paso 5: Escribir la ecuación de regresión

$\hat{y} = 54.43 + 5.31x$

Esta ecuación permite predecir puntajes de examen para cualquier número de horas de estudio.

Paso 6: Realizar predicciones

Ejemplo de predicción: ¿Cuánto obtendría un estudiante que estudia 4.5 horas?

$\hat{y} = 54.43 + 5.31(4.5) = 54.43 + 23.90 = 78.33$

El estudiante tendría un puntaje predicho de aproximadamente 78.33 puntos.

Métricas de precisión del modelo

Después de calcular la línea de regresión, evalúa qué tan bien se ajusta a los datos usando estas métricas clave:

Suma de cuadrados de los residuos (RSS)

RSS mide el error total de predicción:

$RSS = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2$

Un RSS más bajo indica mejor ajuste. Sin embargo, el RSS por sí solo no indica si el ajuste es bueno o malo porque depende de la escala de los datos.

Coeficiente de determinación (R²)

R² indica la proporción de varianza en $y$ explicada por $x$ :

$R^2 = 1 - \frac{RSS}{TSS}$

Donde TSS (suma total de cuadrados) = $\sum(y_i - \bar{y})^2$

Interpretación:

$R^2 = 1$ : Ajuste perfecto (todos los puntos sobre la línea)
$R^2 = 0$ : La línea no explica nada de la varianza
$R^2 = 0.75$ : El modelo explica el 75% de la varianza en $y$

Rangos típicos:

Ciencias sociales: $R^2 > 0.3$ frecuentemente se considera aceptable
Ciencias exactas: $R^2 > 0.9$ frecuentemente se espera
El contexto importa: evalúa según tu campo y objetivos de investigación

Error estándar de la estimación

El error estándar mide la distancia promedio de los puntos de datos respecto a la línea de regresión:

$SE = \sqrt{\frac{RSS}{n-2}}$

Interpretación: Valores más pequeños indican predicciones más cercanas a las observaciones reales. El denominador $n-2$ compensa la estimación de dos parámetros (pendiente e intercepto).

Supuestos de la regresión por mínimos cuadrados

El método de mínimos cuadrados asume que ciertas condiciones se cumplen para que los resultados sean válidos y fiables:

1. Linealidad

La relación entre $x$ e $y$ debe ser lineal. Las relaciones no lineales requieren transformaciones o enfoques de modelado diferentes.

Verificación: Crea un diagrama de dispersión. Los puntos deben agruparse alrededor de un patrón de línea recta.

2. Independencia

Las observaciones deben ser independientes entre sí. Una observación no debe influir en otra.

Ejemplo de violación: Datos de series temporales donde mediciones consecutivas están correlacionadas.

3. Homocedasticidad

La varianza de los residuos debe ser constante en todos los niveles de $x$ (dispersión uniforme).

Verificación: Grafica los residuos versus los valores predichos. La dispersión debe ser aproximadamente constante, no con forma de embudo.

4. Normalidad de los residuos

Para las pruebas de hipótesis y los intervalos de confianza, los residuos deben seguir una distribución normal.

Verificación: Crea un histograma o un gráfico Q-Q de los residuos. Deben aproximarse a una distribución normal.

5. Ausencia de valores atípicos o puntos influyentes

Los valores extremos pueden afectar desproporcionadamente la línea de regresión.

Verificación: Examina la distancia de Cook o las estadísticas de influencia para identificar observaciones influyentes.

Cuándo usar la regresión por mínimos cuadrados

La regresión por mínimos cuadrados es apropiada cuando:

Escenarios de investigación

Predicción: Quieres predecir valores de una variable dependiente basándote en una variable independiente

Predecir ventas basándote en gasto publicitario
Estimar puntajes de examen basándote en horas de estudio
Pronosticar rendimiento de cultivos basándote en precipitación

Comprensión de relaciones: Quieres cuantificar la relación entre dos variables

¿Cómo afecta la temperatura al consumo de energía?
¿Cuál es la relación entre edad e ingreso?
¿Cómo afecta la cantidad de fertilizante al crecimiento de las plantas?

Comparación de modelos: Quieres comparar diferentes modelos o probar hipótesis sobre relaciones

¿Es la relación significativa?
¿La pendiente difiere de cero?
¿Cuál variable predictora es más fuerte?

Características de los datos

Usa la regresión por mínimos cuadrados cuando:

Tengas datos numéricos continuos para ambas variables
La relación parezca aproximadamente lineal
El tamaño de muestra sea adecuado (generalmente n > 30 para resultados fiables)
Los supuestos se cumplan razonablemente (verifica los diagnósticos)
Quieras un modelo interpretable y transparente

Ventajas

Simple e interpretable: Fácil de entender y explicar
Computacionalmente eficiente: Cálculos rápidos incluso con conjuntos de datos grandes
Bien establecida: Teoría estadística extensa y herramientas de diagnóstico
Modelo base: Proporciona un punto de referencia para comparar modelos más complejos
Solución analítica: Fórmulas exactas (no se necesitan algoritmos iterativos)

Herramienta Gratuita

Calcula tu Tamaño de Muestra

Usa nuestra calculadora gratuita para determinar el tamaño de muestra requerido con Yamane, Cochran y Krejcie & Morgan. Compara los tres métodos y obtén una cita lista para APA.

Probar Calculadora

Limitaciones y alternativas

Limitaciones de los mínimos cuadrados

1. Sensible a valores atípicos: Los valores extremos influyen desproporcionadamente en la línea porque los errores se elevan al cuadrado

2. Asume linealidad: No puede capturar relaciones no lineales sin transformación

3. Requiere supuestos: Las violaciones de homocedasticidad o normalidad reducen la validez

4. Solo mide asociación lineal: Un R² alto no implica causalidad

5. Riesgos de extrapolación: Las predicciones fuera del rango de datos pueden ser poco fiables

Métodos alternativos

Regresión robusta: Menos sensible a valores atípicos (por ejemplo, M-estimadores, mínimas desviaciones absolutas)

Regresión polinomial: Ajusta relaciones curvas usando polinomios de grado superior

Regresión no lineal: Modela explícitamente formas funcionales no lineales

Regresión Ridge/Lasso: Maneja la multicolinealidad y realiza selección de variables

Modelos lineales generalizados: Se extiende a variables de respuesta no normales (regresión logística, Poisson)

Errores comunes y cómo evitarlos

Error 1: Confundir correlación con causalidad

Problema: Una relación de regresión fuerte no demuestra que $x$ cause $y$ . La correlación podría deberse a variables confusoras o causalidad inversa.

Ejemplo: Las ventas de helados y las muertes por ahogamiento tienen una relación positiva fuerte, pero los helados no causan ahogamientos. Ambos aumentan en verano (variable confusora: temperatura).

Solución: Usa la regresión para predicción y descripción, no para inferencia causal sin evidencia adicional (experimentos, teoría, ordenamiento temporal).

Error 2: Extrapolar fuera del rango de datos

Problema: Usar la ecuación de regresión para predecir $y$ para valores de $x$ muy fuera del rango observado.

Ejemplo: Si tus datos incluyen horas de estudio de 1 a 7, predecir el puntaje para alguien que estudió 20 horas no es fiable.

Solución: Realiza predicciones dentro del rango de valores $x$ observados. Si la extrapolación es necesaria, reconoce la mayor incertidumbre.

Error 3: Ignorar las violaciones de los supuestos

Problema: Proceder con mínimos cuadrados a pesar de violaciones claras de linealidad, homocedasticidad o normalidad.

Solución: Verifica siempre los gráficos de diagnóstico:

Diagrama de dispersión (linealidad)
Gráfico de residuos (homocedasticidad)
Gráfico Q-Q (normalidad)
Usa transformaciones o métodos alternativos si los supuestos se violan

Error 4: Reportar solo R² sin contexto

Problema: Presentar R² como la única medida de calidad del modelo sin considerar los patrones de residuos, la significancia práctica o la plausibilidad teórica.

Solución: Reporta múltiples estadísticas de ajuste (R², error estándar, gráficos de residuos) e interpreta los resultados en el contexto de tu pregunta de investigación.

Error 5: Invertir las variables independiente y dependiente

Problema: Intercambiar cuál variable es $x$ y cuál es $y$ produce líneas de regresión diferentes.

Ejemplo: Regresar peso sobre estatura da una ecuación diferente que regresar estatura sobre peso.

Solución: Identifica claramente cuál variable estás prediciendo (variable dependiente = $y$ ) basándote en tu pregunta de investigación y marco teórico.

Cómo calcular la regresión por mínimos cuadrados en software

Excel

Ingresa los valores de $x$ en la columna A, los valores de $y$ en la columna B
Usa =PENDIENTE(B:B, A:A) para calcular la pendiente
Usa =INTERSECCION.EJE(B:B, A:A) para calcular el intercepto
O usa Herramientas para análisis de datos > Regresión para un resultado completo

R

Para una guía completa sobre regresión lineal en R, usa el siguiente código:

# Crear datos
x <- c(2, 3, 4, 5, 6, 7)
y <- c(65, 70, 75, 82, 88, 90)
 
# Ajustar modelo de regresión
modelo <- lm(y ~ x)
 
# Ver resultados
summary(modelo)
 
# Obtener coeficientes
coef(modelo)  # Intercepto y pendiente

Python

import numpy as np
from scipy import stats
 
# Crear datos
x = np.array([2, 3, 4, 5, 6, 7])
y = np.array([65, 70, 75, 82, 88, 90])
 
# Calcular regresión
pendiente, intercepto, r_valor, p_valor, error_std = stats.linregress(x, y)
 
print(f"Pendiente: {pendiente}")
print(f"Intercepto: {intercepto}")
print(f"R-cuadrado: {r_valor**2}")

SPSS

Analizar > Regresión > Lineal
Mueve la variable dependiente al cuadro "Dependiente"
Mueve la variable independiente al cuadro "Independiente(s)"
Haz clic en "Estadísticos" para R², residuos y pruebas de diagnóstico
Haz clic en "Gráficos" para diagnósticos de residuos
Haz clic en Aceptar

Ejemplo de aplicación: predicción de precios de vivienda

Un analista inmobiliario quiere predecir precios de casas basándose en los metros cuadrados usando datos de 50 ventas recientes.

Datos: Los metros cuadrados van de 75 a 300 m², precios de $150,000 a$ 450,000

Pasos del análisis:

Crear diagrama de dispersión: Confirma una relación lineal positiva
Calcular regresión:
- Pendiente: $b = 1,333$ (cada metro cuadrado adicional agrega $1,333 al precio)
- Intercepto: $a = 50,000$
- Ecuación: Precio = $50,000 +$ 1,333 × (metros cuadrados)
Verificar supuestos:
- Linealidad: ✓ (diagrama de dispersión lineal)
- Homocedasticidad: ✓ (gráfico de residuos muestra dispersión constante)
- Normalidad: ✓ (gráfico Q-Q aproximadamente lineal)
Evaluar ajuste: R² = 0.82 (el 82% de la variación en precios es explicada por los metros cuadrados)
Realizar predicciones:
- Casa de 140 m²: $50,000 +$ 1,333(140) = $236,620
- Casa de 185 m²: $50,000 +$ 1,333(185) = $296,605

Valor práctico: El modelo proporciona estimaciones fiables de precios para propiedades dentro del rango de tamaño observado, ayudando a establecer precios de venta e identificar propiedades subvaluadas.

Próximos Pasos

Si quieres profundizar en la regresión lineal, estos recursos te resultarán útiles:

Cómo calcular la regresión lineal simple en Excel: Aprende a aplicar el método de mínimos cuadrados directamente en una hoja de cálculo con funciones integradas y el complemento de análisis de datos.
Qué es la homocedasticidad en estadística: Comprende en detalle uno de los supuestos fundamentales de la regresión por mínimos cuadrados y cómo verificarlo en tus datos.

Referencias

Chatterjee, S., & Hadi, A. S. (2015). Regression Analysis by Example (5th ed.). Wiley.
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis (6th ed.). Wiley.
Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models (5th ed.). McGraw-Hill.
Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley.