Regresión por Mínimos Cuadrados: Fórmula y Ejemplos

By Leonard Cucoses
EstadísticaMétodos de Investigación

La línea de regresión por mínimos cuadrados es un método estadístico que encuentra la recta de mejor ajuste a través de un conjunto de puntos de datos, minimizando la suma de las distancias verticales al cuadrado (residuos) entre los valores observados y los valores predichos. Esta línea, representada por la ecuación y=a+bxy = a + bx, proporciona la predicción lineal más precisa de la variable dependiente a partir de la variable independiente.

Esta guía explica qué es el método de mínimos cuadrados, cómo calcular la ecuación de la línea de regresión, ejemplos de cálculo paso a paso y cómo interpretar los resultados para el análisis estadístico y la predicción.

¿Qué es la línea de regresión por mínimos cuadrados?

La línea de regresión por mínimos cuadrados (también llamada línea de mejor ajuste o línea de regresión OLS) es una recta que representa la relación entre dos variables minimizando los errores de predicción. Este método es fundamental para el análisis de regresión lineal y el modelado predictivo.

El principio fundamental

El método funciona encontrando la línea que hace que la suma de residuos al cuadrado sea lo más pequeña posible. Un residuo es la distancia vertical entre un punto de datos observado y el valor predicho sobre la línea de regresión.

¿Por qué elevar los residuos al cuadrado?

  • Las desviaciones positivas y negativas no se cancelan entre sí
  • Los errores grandes se penalizan más que los errores pequeños
  • Elevar al cuadrado produce una función suave y diferenciable para la optimización matemática
  • La solución produce valores únicos e inequívocos para la pendiente y el intercepto

La ecuación de la línea de regresión

La línea de regresión por mínimos cuadrados sigue la forma:

y=a+bxy = a + bx

Donde:

  • yy = valor predicho de la variable dependiente
  • xx = valor de la variable independiente
  • aa = intercepto (valor de yy cuando x=0x = 0)
  • bb = pendiente (cambio en yy por cada unidad de cambio en xx)

El objetivo es encontrar los valores de aa y bb que minimicen la suma de residuos al cuadrado.

Cómo funciona el método de mínimos cuadrados

El método de mínimos cuadrados usa cálculo diferencial para encontrar los valores óptimos de la pendiente y el intercepto que minimicen los errores de predicción.

La función objetivo

Queremos minimizar la suma de residuos al cuadrado (SSR):

SSR=i=1n(yiy^i)2=i=1n(yi(a+bxi))2SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (a + bx_i))^2

Donde:

  • yiy_i = valor observado para el punto de datos ii
  • y^i\hat{y}_i = valor predicho para el punto de datos ii
  • nn = número de puntos de datos
  • (yiy^i)(y_i - \hat{y}_i) = residuo para el punto de datos ii

Minimización mediante cálculo diferencial

Para encontrar el mínimo, tomamos las derivadas parciales de SSR con respecto a aa y bb, las igualamos a cero y resolvemos el sistema de ecuaciones resultante (llamadas ecuaciones normales).

Este proceso matemático produce dos fórmulas para calcular la pendiente y el intercepto óptimos.

Herramienta Gratuita

Calcula tu Tamaño de Muestra

Usa nuestra calculadora gratuita para determinar el tamaño de muestra requerido con Yamane, Cochran y Krejcie & Morgan. Compara los tres métodos y obtén una cita lista para APA.

Probar Calculadora

Fórmulas para la pendiente y el intercepto

Cálculo de la pendiente (b)

b=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}

Fórmula computacional alternativa:

b=nxiyixiyinxi2(xi)2b = \frac{n\sum x_iy_i - \sum x_i \sum y_i}{n\sum x_i^2 - (\sum x_i)^2}

Donde:

  • xˉ\bar{x} = media de los valores xx
  • yˉ\bar{y} = media de los valores yy
  • nn = número de puntos de datos

Cálculo del intercepto (a)

a=yˉbxˉa = \bar{y} - b\bar{x}

Importante: Calcula siempre la pendiente primero, luego úsala para calcular el intercepto. La fórmula del intercepto depende del valor de la pendiente.

Ejemplo de cálculo paso a paso

Calculemos la línea de regresión por mínimos cuadrados para un conjunto de datos que examina la relación entre horas de estudio y puntajes de examen.

Los datos

EstudianteHoras de estudio (x)Puntaje del examen (y)
1265
2370
3475
4582
5688
6790

Tabla 1: Datos de horas de estudio y puntajes de examen para 6 estudiantes.

Pregunta de investigación: ¿Podemos predecir puntajes de examen basándonos en las horas de estudio?

Paso 1: Calcular las medias

Primero, calcula la media (promedio) para los valores de x e y:

xˉ=2+3+4+5+6+76=276=4.5\bar{x} = \frac{2 + 3 + 4 + 5 + 6 + 7}{6} = \frac{27}{6} = 4.5

yˉ=65+70+75+82+88+906=4706=78.33\bar{y} = \frac{65 + 70 + 75 + 82 + 88 + 90}{6} = \frac{470}{6} = 78.33

Paso 2: Crear una tabla de cálculo

xᵢyᵢxᵢ - x̄yᵢ - ȳ(xᵢ - x̄)(yᵢ - ȳ)(xᵢ - x̄)²
265-2.5-13.3333.336.25
370-1.5-8.3312.502.25
475-0.5-3.331.670.25
5820.53.671.830.25
6881.59.6714.502.25
7902.511.6729.176.25
Suma93.0017.50

Tabla 2: Tabla de cálculo con desviaciones, productos cruzados y desviaciones al cuadrado.

Paso 3: Calcular la pendiente

b=(xixˉ)(yiyˉ)(xixˉ)2=93.0017.50=5.31b = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2} = \frac{93.00}{17.50} = 5.31

Interpretación: Por cada hora adicional de estudio, el puntaje del examen aumenta aproximadamente 5.31 puntos.

Paso 4: Calcular el intercepto

a=yˉbxˉ=78.33(5.31×4.5)=78.3323.90=54.43a = \bar{y} - b\bar{x} = 78.33 - (5.31 \times 4.5) = 78.33 - 23.90 = 54.43

Interpretación: Un estudiante que estudia 0 horas tendría un puntaje predicho de 54.43 puntos (aunque esta extrapolación puede no ser significativa en la práctica).

Paso 5: Escribir la ecuación de regresión

y^=54.43+5.31x\hat{y} = 54.43 + 5.31x

Esta ecuación permite predecir puntajes de examen para cualquier número de horas de estudio.

Paso 6: Realizar predicciones

Ejemplo de predicción: ¿Cuánto obtendría un estudiante que estudia 4.5 horas?

y^=54.43+5.31(4.5)=54.43+23.90=78.33\hat{y} = 54.43 + 5.31(4.5) = 54.43 + 23.90 = 78.33

El estudiante tendría un puntaje predicho de aproximadamente 78.33 puntos.

Métricas de precisión del modelo

Después de calcular la línea de regresión, evalúa qué tan bien se ajusta a los datos usando estas métricas clave:

Suma de cuadrados de los residuos (RSS)

RSS mide el error total de predicción:

RSS=i=1n(yiy^i)2RSS = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2

Un RSS más bajo indica mejor ajuste. Sin embargo, el RSS por sí solo no indica si el ajuste es bueno o malo porque depende de la escala de los datos.

Coeficiente de determinación (R²)

R² indica la proporción de varianza en yy explicada por xx:

R2=1RSSTSSR^2 = 1 - \frac{RSS}{TSS}

Donde TSS (suma total de cuadrados) = (yiyˉ)2\sum(y_i - \bar{y})^2

Interpretación:

  • R2=1R^2 = 1: Ajuste perfecto (todos los puntos sobre la línea)
  • R2=0R^2 = 0: La línea no explica nada de la varianza
  • R2=0.75R^2 = 0.75: El modelo explica el 75% de la varianza en yy

Rangos típicos:

  • Ciencias sociales: R2>0.3R^2 > 0.3 frecuentemente se considera aceptable
  • Ciencias exactas: R2>0.9R^2 > 0.9 frecuentemente se espera
  • El contexto importa: evalúa según tu campo y objetivos de investigación

Error estándar de la estimación

El error estándar mide la distancia promedio de los puntos de datos respecto a la línea de regresión:

SE=RSSn2SE = \sqrt{\frac{RSS}{n-2}}

Interpretación: Valores más pequeños indican predicciones más cercanas a las observaciones reales. El denominador n2n-2 compensa la estimación de dos parámetros (pendiente e intercepto).

Supuestos de la regresión por mínimos cuadrados

El método de mínimos cuadrados asume que ciertas condiciones se cumplen para que los resultados sean válidos y fiables:

1. Linealidad

La relación entre xx e yy debe ser lineal. Las relaciones no lineales requieren transformaciones o enfoques de modelado diferentes.

Verificación: Crea un diagrama de dispersión. Los puntos deben agruparse alrededor de un patrón de línea recta.

2. Independencia

Las observaciones deben ser independientes entre sí. Una observación no debe influir en otra.

Ejemplo de violación: Datos de series temporales donde mediciones consecutivas están correlacionadas.

3. Homocedasticidad

La varianza de los residuos debe ser constante en todos los niveles de xx (dispersión uniforme).

Verificación: Grafica los residuos versus los valores predichos. La dispersión debe ser aproximadamente constante, no con forma de embudo.

4. Normalidad de los residuos

Para las pruebas de hipótesis y los intervalos de confianza, los residuos deben seguir una distribución normal.

Verificación: Crea un histograma o un gráfico Q-Q de los residuos. Deben aproximarse a una distribución normal.

5. Ausencia de valores atípicos o puntos influyentes

Los valores extremos pueden afectar desproporcionadamente la línea de regresión.

Verificación: Examina la distancia de Cook o las estadísticas de influencia para identificar observaciones influyentes.

Cuándo usar la regresión por mínimos cuadrados

La regresión por mínimos cuadrados es apropiada cuando:

Escenarios de investigación

Predicción: Quieres predecir valores de una variable dependiente basándote en una variable independiente

  • Predecir ventas basándote en gasto publicitario
  • Estimar puntajes de examen basándote en horas de estudio
  • Pronosticar rendimiento de cultivos basándote en precipitación

Comprensión de relaciones: Quieres cuantificar la relación entre dos variables

  • ¿Cómo afecta la temperatura al consumo de energía?
  • ¿Cuál es la relación entre edad e ingreso?
  • ¿Cómo afecta la cantidad de fertilizante al crecimiento de las plantas?

Comparación de modelos: Quieres comparar diferentes modelos o probar hipótesis sobre relaciones

  • ¿Es la relación significativa?
  • ¿La pendiente difiere de cero?
  • ¿Cuál variable predictora es más fuerte?

Características de los datos

Usa la regresión por mínimos cuadrados cuando:

  • Tengas datos numéricos continuos para ambas variables
  • La relación parezca aproximadamente lineal
  • El tamaño de muestra sea adecuado (generalmente n > 30 para resultados fiables)
  • Los supuestos se cumplan razonablemente (verifica los diagnósticos)
  • Quieras un modelo interpretable y transparente

Ventajas

  • Simple e interpretable: Fácil de entender y explicar
  • Computacionalmente eficiente: Cálculos rápidos incluso con conjuntos de datos grandes
  • Bien establecida: Teoría estadística extensa y herramientas de diagnóstico
  • Modelo base: Proporciona un punto de referencia para comparar modelos más complejos
  • Solución analítica: Fórmulas exactas (no se necesitan algoritmos iterativos)
Herramienta Gratuita

Calcula tu Tamaño de Muestra

Usa nuestra calculadora gratuita para determinar el tamaño de muestra requerido con Yamane, Cochran y Krejcie & Morgan. Compara los tres métodos y obtén una cita lista para APA.

Probar Calculadora

Limitaciones y alternativas

Limitaciones de los mínimos cuadrados

1. Sensible a valores atípicos: Los valores extremos influyen desproporcionadamente en la línea porque los errores se elevan al cuadrado

2. Asume linealidad: No puede capturar relaciones no lineales sin transformación

3. Requiere supuestos: Las violaciones de homocedasticidad o normalidad reducen la validez

4. Solo mide asociación lineal: Un R² alto no implica causalidad

5. Riesgos de extrapolación: Las predicciones fuera del rango de datos pueden ser poco fiables

Métodos alternativos

Regresión robusta: Menos sensible a valores atípicos (por ejemplo, M-estimadores, mínimas desviaciones absolutas)

Regresión polinomial: Ajusta relaciones curvas usando polinomios de grado superior

Regresión no lineal: Modela explícitamente formas funcionales no lineales

Regresión Ridge/Lasso: Maneja la multicolinealidad y realiza selección de variables

Modelos lineales generalizados: Se extiende a variables de respuesta no normales (regresión logística, Poisson)

Errores comunes y cómo evitarlos

Error 1: Confundir correlación con causalidad

Problema: Una relación de regresión fuerte no demuestra que xx cause yy. La correlación podría deberse a variables confusoras o causalidad inversa.

Ejemplo: Las ventas de helados y las muertes por ahogamiento tienen una relación positiva fuerte, pero los helados no causan ahogamientos. Ambos aumentan en verano (variable confusora: temperatura).

Solución: Usa la regresión para predicción y descripción, no para inferencia causal sin evidencia adicional (experimentos, teoría, ordenamiento temporal).

Error 2: Extrapolar fuera del rango de datos

Problema: Usar la ecuación de regresión para predecir yy para valores de xx muy fuera del rango observado.

Ejemplo: Si tus datos incluyen horas de estudio de 1 a 7, predecir el puntaje para alguien que estudió 20 horas no es fiable.

Solución: Realiza predicciones dentro del rango de valores xx observados. Si la extrapolación es necesaria, reconoce la mayor incertidumbre.

Error 3: Ignorar las violaciones de los supuestos

Problema: Proceder con mínimos cuadrados a pesar de violaciones claras de linealidad, homocedasticidad o normalidad.

Solución: Verifica siempre los gráficos de diagnóstico:

  • Diagrama de dispersión (linealidad)
  • Gráfico de residuos (homocedasticidad)
  • Gráfico Q-Q (normalidad)
  • Usa transformaciones o métodos alternativos si los supuestos se violan

Error 4: Reportar solo R² sin contexto

Problema: Presentar R² como la única medida de calidad del modelo sin considerar los patrones de residuos, la significancia práctica o la plausibilidad teórica.

Solución: Reporta múltiples estadísticas de ajuste (R², error estándar, gráficos de residuos) e interpreta los resultados en el contexto de tu pregunta de investigación.

Error 5: Invertir las variables independiente y dependiente

Problema: Intercambiar cuál variable es xx y cuál es yy produce líneas de regresión diferentes.

Ejemplo: Regresar peso sobre estatura da una ecuación diferente que regresar estatura sobre peso.

Solución: Identifica claramente cuál variable estás prediciendo (variable dependiente = yy) basándote en tu pregunta de investigación y marco teórico.

Cómo calcular la regresión por mínimos cuadrados en software

Excel

  1. Ingresa los valores de xx en la columna A, los valores de yy en la columna B
  2. Usa =PENDIENTE(B:B, A:A) para calcular la pendiente
  3. Usa =INTERSECCION.EJE(B:B, A:A) para calcular el intercepto
  4. O usa Herramientas para análisis de datos > Regresión para un resultado completo

R

Para una guía completa sobre regresión lineal en R, usa el siguiente código:

# Crear datos
x <- c(2, 3, 4, 5, 6, 7)
y <- c(65, 70, 75, 82, 88, 90)
 
# Ajustar modelo de regresión
modelo <- lm(y ~ x)
 
# Ver resultados
summary(modelo)
 
# Obtener coeficientes
coef(modelo)  # Intercepto y pendiente

Python

import numpy as np
from scipy import stats
 
# Crear datos
x = np.array([2, 3, 4, 5, 6, 7])
y = np.array([65, 70, 75, 82, 88, 90])
 
# Calcular regresión
pendiente, intercepto, r_valor, p_valor, error_std = stats.linregress(x, y)
 
print(f"Pendiente: {pendiente}")
print(f"Intercepto: {intercepto}")
print(f"R-cuadrado: {r_valor**2}")

SPSS

  1. Analizar > Regresión > Lineal
  2. Mueve la variable dependiente al cuadro "Dependiente"
  3. Mueve la variable independiente al cuadro "Independiente(s)"
  4. Haz clic en "Estadísticos" para R², residuos y pruebas de diagnóstico
  5. Haz clic en "Gráficos" para diagnósticos de residuos
  6. Haz clic en Aceptar

Ejemplo de aplicación: predicción de precios de vivienda

Un analista inmobiliario quiere predecir precios de casas basándose en los metros cuadrados usando datos de 50 ventas recientes.

Datos: Los metros cuadrados van de 75 a 300 m², precios de 150,000a150,000 a 450,000

Pasos del análisis:

  1. Crear diagrama de dispersión: Confirma una relación lineal positiva
  2. Calcular regresión:
    • Pendiente: b=1,333b = 1,333 (cada metro cuadrado adicional agrega $1,333 al precio)
    • Intercepto: a=50,000a = 50,000
    • Ecuación: Precio = 50,000+50,000 + 1,333 × (metros cuadrados)
  3. Verificar supuestos:
    • Linealidad: ✓ (diagrama de dispersión lineal)
    • Homocedasticidad: ✓ (gráfico de residuos muestra dispersión constante)
    • Normalidad: ✓ (gráfico Q-Q aproximadamente lineal)
  4. Evaluar ajuste: R² = 0.82 (el 82% de la variación en precios es explicada por los metros cuadrados)
  5. Realizar predicciones:
    • Casa de 140 m²: 50,000+50,000 + 1,333(140) = $236,620
    • Casa de 185 m²: 50,000+50,000 + 1,333(185) = $296,605

Valor práctico: El modelo proporciona estimaciones fiables de precios para propiedades dentro del rango de tamaño observado, ayudando a establecer precios de venta e identificar propiedades subvaluadas.

Próximos Pasos

Si quieres profundizar en la regresión lineal, estos recursos te resultarán útiles:

Referencias

  • Chatterjee, S., & Hadi, A. S. (2015). Regression Analysis by Example (5th ed.). Wiley.
  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis (6th ed.). Wiley.
  • Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models (5th ed.). McGraw-Hill.
  • Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley.