Prueba T Muestras Pareadas en SPSS: Guía para Tesis

By Leonard Cucoses
SPSSStatisticsResearch Methods

La prueba t de muestras pareadas compara dos mediciones tomadas de los mismos participantes. Es el análisis estándar para diseños pre-test/post-test, estudios de tipo antes y después, y cualquier investigación donde el mismo grupo se mide dos veces bajo condiciones diferentes. A diferencia de la prueba t de muestras independientes, que compara dos grupos separados, la prueba pareada considera la correlación intrasujetos entre las mediciones, lo que le otorga mayor potencia estadística para detectar una diferencia real.

Esta guía cubre el proceso completo en SPSS: verificación de supuestos, ejecución de la prueba, interpretación de las tres tablas de output, cálculo de la d de Cohen para diseños pareados y reporte de resultados en formato APA 7.ª edición. Si ya trabajaste con la guía de la prueba t de muestras independientes, ten en cuenta que la versión pareada tiene requisitos de normalidad distintos y una fórmula diferente para el tamaño del efecto. El tutorial utiliza una versión extendida del conjunto de datos de tesis de guías anteriores, con dos variables nuevas para las puntuaciones pre-test y post-test.

Puntos clave:

  • La prueba t de muestras pareadas compara dos mediciones de los mismos participantes (por ejemplo, pre-test vs. post-test, antes vs. después de una intervención)
  • El supuesto de normalidad se aplica a las puntuaciones de diferencia, no a cada variable individualmente
  • SPSS calcula la diferencia como Variable 1 menos Variable 2, lo que frecuentemente produce un valor t negativo cuando las puntuaciones mejoran. Esto no es un error.
  • La d de Cohen para diseños pareados usa una fórmula diferente a la versión independiente: d = Media de Diferencias / DE de Diferencias
  • Reporta el estadístico t, grados de libertad, valor p, ambas medias con DE y tamaño del efecto en tu capítulo de Resultados

Antes de comenzar: Esta guía asume que tienes tus datos cargados en SPSS con dos mediciones relacionadas (por ejemplo, puntuaciones pre-test y post-test) definidas en Vista de Variables. Ya deberías haber examinado las estadísticas descriptivas de tus variables. Si necesitas verificar la normalidad de las puntuaciones de diferencia, consulta nuestra guía sobre cómo verificar la normalidad en SPSS.

Cuándo Usar una Prueba T de Muestras Pareadas

La prueba t de muestras pareadas es apropiada cuando tu diseño de investigación cumple estas condiciones:

  1. Tienes una variable dependiente continua medida en dos momentos o bajo dos condiciones.
  2. Los mismos participantes proporcionan ambas mediciones (o los participantes están emparejados en pares).
  3. Quieres determinar si la diferencia de medias entre las dos mediciones es estadísticamente significativa.

Si las dos mediciones provienen de participantes distintos, usa la prueba t de muestras independientes. Si tienes tres o más mediciones relacionadas, usa ANOVA de medidas repetidas.

Ejemplos comunes en tesis:

Pregunta de investigaciónVariable 1Variable 2Diseño
¿El programa de capacitación mejora las puntuaciones?PreTestScorePostTestScoreIntervención pre/post
¿Los estudiantes califican el curso diferente a mitad y al final?MidtermRatingFinalRatingDos momentos
¿Hay diferencia entre la conducta autorreportada y la observada?SelfReportObservedScoreDos métodos de medición

Tabla 1: Diseños de investigación comunes apropiados para la prueba t de muestras pareadas

Supuestos

La prueba t de muestras pareadas tiene tres supuestos. Dos son directos; el tercero requiere una verificación específica que difiere de la prueba t independiente.

1. Observaciones Relacionadas (Datos Pareados)

Cada caso en el conjunto de datos debe tener ambas mediciones. El participante 1 tiene una puntuación pre-test y una post-test; el participante 2 tiene una puntuación pre-test y una post-test; y así sucesivamente. Esto se satisface por el diseño de investigación. Si algunos participantes abandonaron entre mediciones, SPSS maneja esto mediante eliminación por lista (esos casos se excluyen del análisis).

2. Variable Dependiente Continua

Ambas mediciones deben estar en escala de intervalo o razón. Puntuaciones de exámenes, calificaciones en escala continua y mediciones fisiológicas califican. Los datos ordinales con pocas categorías (por ejemplo, una escala de 3 puntos) se analizan mejor con la prueba de rangos con signo de Wilcoxon.

3. Normalidad de las Puntuaciones de Diferencia

Aquí es donde la prueba t pareada difiere de la versión independiente. El supuesto de normalidad no se aplica a cada variable por separado. Se aplica a las puntuaciones de diferencia (Variable 1 menos Variable 2 para cada participante).

Para verificar esto:

  1. Crea una variable nueva: Transformar > Calcular Variable. Asigna un nombre como Diferencia y la expresión PostTestScore - PreTestScore.
  2. Evalúa la normalidad de esta nueva variable usando el procedimiento Explorar, como se describe en la guía de normalidad.

Con 30 o más participantes, la prueba t pareada es robusta ante violaciones moderadas de normalidad (Schmider et al., 2010). Con nuestra muestra de 150, este supuesto se cumple con facilidad. Si tu muestra es pequeña y las puntuaciones de diferencia son severamente no normales, usa la prueba de rangos con signo de Wilcoxon como alternativa no paramétrica.

Ten en cuenta que la prueba de Levene para igualdad de varianzas, que forma parte del flujo de trabajo de la prueba t independiente, no se aplica aquí. Solo hay un grupo, medido dos veces, por lo que no hay varianzas entre grupos que comparar.

Conjunto de Datos de Ejemplo

Este tutorial utiliza una versión extendida del conjunto de datos de tesis de las guías de estadísticas descriptivas y normalidad. Se agregaron dos variables nuevas al conjunto de datos: PreTestScore y PostTestScore, que representan las puntuaciones antes y después de una intervención de técnicas de estudio. Puedes descargar el conjunto de datos extendido desde la barra lateral.

Pregunta de investigación: ¿La intervención de técnicas de estudio mejoró las puntuaciones?

  • Variable 1: PreTestScore (continua, Escala, rango 40-90)
  • Variable 2: PostTestScore (continua, Escala, rango 45-95)
  • Muestra: 150 participantes medidos antes y después de la intervención
  • Diseño: Grupo único pre-test/post-test

Vista de Variables en SPSS mostrando las variables PreTestScore y PostTestScore como Numérica, medida de Escala

Figura 1: Vista de Variables en SPSS mostrando las variables PreTestScore y PostTestScore

Vista de Datos en SPSS mostrando los primeros 30 casos con columnas PreTestScore y PostTestScore

Figura 2: Vista de Datos en SPSS con puntuaciones pre-test y post-test para 150 participantes

Paso a Paso: Ejecutar la Prueba T de Muestras Pareadas

Paso 1: Navegar al Cuadro de Diálogo de la Prueba T

Ve a Analizar > Comparar Medias > Prueba T de Muestras Relacionadas.

Ruta del menú de SPSS mostrando Analizar, Comparar Medias, Prueba T de Muestras Relacionadas resaltada

Figura 3: Navega a Analizar > Comparar Medias > Prueba T de Muestras Relacionadas

Paso 2: Seleccionar las Variables Pareadas

En el cuadro de diálogo Prueba T de Muestras Relacionadas:

  1. Selecciona PreTestScore de la lista de variables a la izquierda.
  2. Mantén presionado Ctrl (o Cmd en Mac) y selecciona también PostTestScore.
  3. Haz clic en el botón de flecha azul para mover ambas variables al cuadro de Variables Pareadas.
  4. SPSS las muestra como Par 1: PreTestScore - PostTestScore.

El orden importa para el signo del output. SPSS calcula Variable 1 menos Variable 2 (PreTestScore menos PostTestScore). Como esperamos que las puntuaciones post-test sean más altas, la diferencia de medias será negativa. Esto no es un error.

Cuadro de diálogo Prueba T de Muestras Relacionadas en SPSS con PreTestScore y PostTestScore en el cuadro de Variables Pareadas

Figura 4: Cuadro de diálogo con PreTestScore como Variable 1 y PostTestScore como Variable 2

Paso 3: Ejecutar la Prueba

Haz clic en Aceptar. SPSS produce tres tablas de output: Paired Samples Statistics, Paired Samples Correlations y Paired Samples Test.

Interpretación del Output

SPSS genera tres tablas para la prueba t de muestras pareadas. Cada una proporciona información distinta, y necesitarás valores de las tres para una interpretación completa y un reporte APA.

Tabla Paired Samples Statistics

Esta tabla reporta las estadísticas descriptivas de cada variable por separado.

Tablas de output de SPSS: Paired Samples Statistics, Correlations y Test

Figura 5: Output completo de la prueba t de muestras pareadas mostrando las tres tablas

Qué observar:

  • Mean: PreTestScore = 62.11, PostTestScore = 68.86. Las puntuaciones post-test son en promedio 6.75 puntos más altas.
  • N: 150 para ambas variables. No se excluyeron casos por datos faltantes.
  • Std. Deviation: PreTestScore = 10.291, PostTestScore = 10.392. La dispersión de las puntuaciones es similar en ambas mediciones.
  • Std. Error Mean: La precisión de cada estimación de la media. Valores más pequeños indican estimaciones más precisas.

Tabla Paired Samples Correlations

Esta tabla muestra la correlación de Pearson entre las dos mediciones.

  • Correlation: .668, Sig.: .000 (p < .001)

La correlación de .668 es moderada a fuerte y estadísticamente significativa. Esto confirma que las puntuaciones pre-test y post-test están positivamente relacionadas: los participantes que obtuvieron puntuaciones más altas antes de la intervención también tendieron a obtener puntuaciones más altas después. Esto es esperado en un diseño intrasujetos y es una razón por la que la prueba t pareada tiene más potencia que la versión independiente. Al considerar esta correlación, la prueba pareada elimina la variabilidad entre sujetos del término de error.

Si esta correlación estuviera cerca de cero o fuera negativa, sugeriría algo inusual en tus datos (por ejemplo, la estructura de emparejamiento podría estar equivocada, o las dos mediciones podrían no corresponder al mismo constructo).

Tabla Paired Samples Test

Esta es la tabla principal de resultados. Reporta las diferencias pareadas y el resultado de la prueba t.

Lectura de las columnas Paired Differences:

  • Mean: -6.753. Esta es la media de todas las diferencias individuales (PreTestScore menos PostTestScore). El signo negativo significa que las puntuaciones post-test son mayores que las pre-test en promedio.
  • Std. Deviation: 8.428. Esta es la desviación estándar de las puntuaciones de diferencia, no de cada variable individualmente. Necesitarás este valor para calcular la d de Cohen.
  • Std. Error Mean: 0.688. El error estándar de la diferencia de medias.
  • 95% Confidence Interval: [-8.113, -5.394]. El intervalo completo es negativo, lo que significa que estamos 95% seguros de que la verdadera diferencia de medias poblacional se encuentra entre -8.11 y -5.39. Como el intervalo no contiene cero, la diferencia es estadísticamente significativa.

Lectura de los estadísticos de la prueba:

  • t: -9.814. El estadístico t es negativo porque la diferencia de medias es negativa (pre-test menos post-test). El valor absoluto (9.814) representa cuántos errores estándar está la diferencia de medias respecto a cero.
  • df: 149 (N - 1 = 150 - 1).
  • Sig. (2-tailed): .000 (p < .001). El resultado es estadísticamente significativo en cualquier nivel alfa convencional.

Integración del Output

La prueba t de muestras pareadas muestra un incremento estadísticamente significativo en las puntuaciones desde el pre-test (M = 62.11, DE = 10.29) hasta el post-test (M = 68.86, DE = 10.39), con una mejora promedio de 6.75 puntos. El intervalo de confianza del 95% para la diferencia de medias [-8.11, -5.39] no incluye cero, y la prueba t es significativa, t(149) = -9.81, p < .001.

La correlación entre las puntuaciones pre-test y post-test (r = .668) confirma que el diseño intrasujetos es apropiado y que la prueba t pareada es la elección correcta sobre la versión independiente.

Cálculo de la d de Cohen (Tamaño del Efecto)

La fórmula de la d de Cohen para diseños pareados difiere de la versión para muestras independientes. Para muestras independientes, se divide entre la desviación estándar combinada de los dos grupos. Para muestras pareadas, se divide entre la desviación estándar de las puntuaciones de diferencia.

Fórmula

d=MdiffSDdiffd = \frac{M_{\text{diff}}}{SD_{\text{diff}}}

Donde:

  • MdiffM_{\text{diff}} es la media de las diferencias pareadas (de la tabla Paired Samples Test)
  • SDdiffSD_{\text{diff}} es la desviación estándar de las diferencias pareadas (de la misma tabla)

Ambos valores provienen directamente del output de SPSS. No se necesita calcular una DE combinada manualmente.

Cálculo

Usando los valores de la tabla Paired Samples Test:

d=6.7538.428=0.801d = \frac{-6.753}{8.428} = -0.801

El valor absoluto es 0.80.

Interpretación

d de CohenTamaño del efectoSignificado práctico
0.2PequeñoLa diferencia existe pero es difícil de observar
0.5MedianoLa diferencia es notable y puede ser prácticamente significativa
0.8GrandeLa diferencia es sustancial y claramente significativa

Tabla 2: Criterios de la d de Cohen para interpretar el tamaño del efecto (Cohen, 1988)

Con d = 0.80, este es un efecto grande. La intervención de técnicas de estudio produjo una mejora de aproximadamente 0.80 desviaciones estándar en las puntuaciones. Combinado con el valor p altamente significativo (p < .001) y el intervalo de confianza estrecho, estos resultados proporcionan evidencia sólida de que la intervención tuvo un impacto positivo sustancial en el rendimiento estudiantil.

Por Qué la Fórmula Pareada Difiere

En la prueba t de muestras independientes, la d de Cohen usa la desviación estándar combinada porque se comparan dos grupos separados con su propia variabilidad. En el diseño pareado, solo hay un conjunto de puntuaciones de diferencia, y la variabilidad relevante es cuánto varían esas diferencias entre participantes. Usar la DE combinada de las dos variables inflaría el denominador y subestimaría el tamaño del efecto, porque ignora la correlación entre las mediciones.

Algunos metodólogos distinguen entre dzd_z (usando la DE de las diferencias, que es lo que calculamos aquí) y davd_{av} (usando el promedio de las dos DE). La versión dzd_z es el enfoque estándar para diseños intrasujetos y es lo que los comités de tesis generalmente esperan (Lakens, 2013).

Qué Hacer Cuando se Violan los Supuestos

Puntuaciones de Diferencia No Normales

Si las puntuaciones de diferencia son severamente no normales (asimetría más allá de +/-2) y tu muestra es menor a 30, la prueba de rangos con signo de Wilcoxon es la alternativa no paramétrica estándar. Compara los rangos de las diferencias absolutas en lugar de los valores crudos.

Para ejecutarla en SPSS: Analizar > Pruebas no paramétricas > Cuadros de diálogo clásicos > 2 muestras relacionadas. Mueve ambas variables a la Lista de pares de prueba y selecciona "Wilcoxon" en Tipo de prueba. Haz clic en Aceptar.

Con 30 o más participantes, la prueba t pareada es robusta ante violaciones moderadas de normalidad (Schmider et al., 2010). Documenta la violación, reporta la asimetría y curtosis de las puntuaciones de diferencia, cita la literatura sobre robustez y procede con la prueba paramétrica.

Valores Atípicos en las Puntuaciones de Diferencia

Los valores atípicos extremos en las puntuaciones de diferencia pueden afectar desproporcionadamente la media y la desviación estándar. Identifica los valores atípicos usando diagramas de caja de las puntuaciones de diferencia o examinando valores estandarizados más allá de +/-3.

Si existen valores atípicos, primero verifica que sean puntos de datos legítimos (no errores de captura). Si son legítimos, ejecuta el análisis con y sin los valores atípicos y reporta ambos resultados. Si la conclusión no cambia, los valores atípicos no son influyentes. Si la conclusión cambia, discute esta sensibilidad en tu capítulo de Resultados.

Reporte en Formato APA

Reporte de los Resultados Reales de Este Tutorial

Se condujo una prueba t de muestras pareadas para evaluar el efecto de una intervención de técnicas de estudio en las puntuaciones de examen. Las puntuaciones post-test (M = 68.86, DE = 10.39) fueron significativamente mayores que las puntuaciones pre-test (M = 62.11, DE = 10.29), t(149) = -9.81, p < .001, d = 0.80, IC 95% [-8.11, -5.39]. El tamaño del efecto fue grande, indicando que la intervención produjo una mejora sustancial en el rendimiento estudiantil.

Plantilla para Resultado No Significativo

Si el resultado no hubiera sido significativo, el reporte seguiría esta estructura:

Se condujo una prueba t de muestras pareadas para comparar las puntuaciones antes y después de la intervención. No hubo diferencia significativa entre las puntuaciones pre-test (M = 62.11, DE = 10.29) y las puntuaciones post-test (M = 63.40, DE = 10.55), t(149) = -1.12, p = .264, d = 0.13. El tamaño del efecto fue insignificante.

Con Alternativa Wilcoxon (Diferencias No Normales)

La prueba de Shapiro-Wilk indicó que las puntuaciones de diferencia no se distribuían normalmente (W = 0.94, p = .003). Por lo tanto, se condujo una prueba de rangos con signo de Wilcoxon. Las puntuaciones post-test fueron significativamente mayores que las puntuaciones pre-test (Z = -5.42, p < .001, r = .44).

Formato de Tabla APA

Para capítulos de Resultados de tesis que requieren una tabla resumen:

VariableCondiciónNMDEtglpd
Puntuación del examenPre-test15062.1110.29-9.81149< .0010.80
Post-test15068.8610.39

Tabla 3: Resultados de la prueba t de muestras pareadas comparando puntuaciones pre-test y post-test

Lista de Verificación para el Reporte

Todo reporte de prueba t de muestras pareadas debe incluir:

  1. El propósito de la prueba (qué comparación se realizó y por qué)
  2. Las medias y desviaciones estándar de ambas condiciones
  3. El estadístico t, grados de libertad y valor p exacto (o "< .001" cuando es muy pequeño)
  4. Tamaño del efecto (d de Cohen) con interpretación
  5. El intervalo de confianza del 95% de la diferencia de medias
  6. La correlación entre las dos mediciones (opcional pero recomendado, especialmente al justificar el diseño pareado)

Errores Comunes

1. Evaluar la Normalidad de Cada Variable en Lugar de las Diferencias

Como se cubrió en la sección de Supuestos anterior, la prueba t pareada verifica la normalidad de las puntuaciones de diferencia, no de cada variable por separado. Dos variables no normales pueden producir diferencias distribuidas normalmente. Siempre calcula y evalúa la variable de diferencia.

2. Usar la Prueba T de Muestras Independientes para Datos Pareados

Si los mismos participantes se miden dos veces, las mediciones están correlacionadas. Usar la prueba t independiente ignora esta correlación, infla el término de error y reduce la potencia estadística. Podrías no detectar un efecto real que la prueba pareada sí detectaría. Verifica tu diseño de investigación: las mismas personas medidas dos veces significan datos pareados; personas diferentes significan datos independientes.

3. Ignorar el Signo del Valor T

Como se explicó en el Paso 2, SPSS calcula Variable 1 menos Variable 2 en el orden en que las ingresaste, por lo que una mejora del pre al post produce un valor t negativo. Esto no es un error. Reporta el valor tal como lo muestra SPSS y aclara la dirección usando las medias de la tabla Paired Samples Statistics.

4. Omitir la d de Cohen o Usar la Fórmula Incorrecta

El diseño pareado requiere dividir entre la DE de las diferencias, no la DE combinada utilizada para muestras independientes (ver Por Qué la Fórmula Pareada Difiere arriba). Confundir las fórmulas subestima tu tamaño del efecto. Ambos valores que necesitas están en la tabla Paired Samples Test.

5. Ejecutar Múltiples Pruebas T Pareadas con Varios Momentos

Si mediste a los participantes en tres o más momentos (pre, intermedio, post), ejecutar todas las pruebas t pareadas por pares infla la tasa de error Tipo I. Con tres comparaciones a alfa = .05, la probabilidad de al menos un falso positivo sube a aproximadamente .14. Usa ANOVA de medidas repetidas; luego realiza comparaciones por pares con corrección de Bonferroni si la prueba ómnibus es significativa.

Lo Que Tu Comité de Tesis Preguntará

"¿Por qué usaste una prueba t de muestras pareadas y no una prueba t de muestras independientes?" Los mismos participantes se midieron antes y después de la intervención, haciendo las observaciones dependientes. La prueba t pareada considera esta dependencia al analizar las puntuaciones de diferencia, lo que elimina la variabilidad entre sujetos y aumenta la potencia estadística. Usar la prueba independiente con datos pareados violaría el supuesto de independencia y desperdiciaría la ventaja del diseño intrasujetos.

"¿Cómo verificaste el supuesto de normalidad?" Se calcularon las puntuaciones de diferencia (PostTestScore menos PreTestScore) y se evaluó su normalidad. Con una muestra de 150, se puede citar la robustez de la prueba t ante violaciones moderadas de normalidad (Schmider et al., 2010) y reportar la asimetría y curtosis de las diferencias si corresponde.

"El tamaño del efecto es grande. ¿Podría deberse a efectos de práctica en lugar de la intervención?" Esta es una preocupación legítima con diseños pre/post. Sin un grupo control, no es posible atribuir definitivamente la mejora solo a la intervención. Los efectos de práctica, maduración, regresión a la media y otras amenazas a la validez interna son posibles. Si tu tesis utiliza un diseño de grupo único, discute estas limitaciones con honestidad en el capítulo de Discusión. Un diseño más fuerte incluiría un grupo control que toma las mismas pruebas sin recibir la intervención.

"¿Por qué debería confiar en una prueba t cuando solo tienes dos momentos?" La prueba t pareada está diseñada específicamente para dos mediciones relacionadas. Es la prueba más potente disponible para esta comparación exacta. Si hubiera momentos adicionales, ANOVA de medidas repetidas sería apropiada. Para examinar relaciones predictivas entre variables, la regresión lineal ofrece un marco complementario. Dos momentos con una prueba t pareada es el enfoque estándar en investigación pre/post (Field, 2018).

Preguntas Frecuentes

Próximos Pasos

Ahora que sabes cómo ejecutar e interpretar una prueba t de muestras pareadas en SPSS, puedes expandir tu repertorio de análisis.

Para explorar si variables continuas predicen tu resultado en lugar de comparar condiciones, consulta cómo calcular una regresión lineal múltiple en SPSS. Si tu diseño incluye una variable que podría modificar la relación entre tus variables principales, aprende a realizar un análisis de moderación en SPSS.

Referencias

American Psychological Association. (2020). Publication manual of the American Psychological Association (7th ed.). American Psychological Association.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.

Field, A. (2018). Discovering statistics using IBM SPSS statistics (5th ed.). SAGE Publications.

Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: A practical primer for t-tests and ANOVAs. Frontiers in Psychology, 4, 863.

Pallant, J. (2020). SPSS survival manual (7th ed.). Open University Press.

Schmider, E., Ziegler, M., Danay, E., Beyer, L., & Bühner, M. (2010). Is it really robust? Reinvestigating the robustness of ANOVA against violations of the normal distribution assumption. Methodology, 6(4), 147-151.