Cum sa Rulezi un Test T pentru Esantioane Perechi in SPSS (Ghid pentru Teza)

By Leonard Cucosro
SPSSStatisticsResearch Methods

Testul t pentru esantioane perechi compara doua masuratori prelevate de la aceiasi participanti. Este analiza standard pentru designuri pre-test/post-test, studii de tip inainte-si-dupa si orice cercetare in care acelasi grup este masurat de doua ori in conditii diferite. Spre deosebire de testul t pentru esantioane independente, care compara doua grupuri separate, testul pereche tine cont de corelatia intra-subiecti dintre masuratori, conferindu-i mai multa putere statistica pentru a detecta o diferenta reala.

Acest ghid acopera intregul proces in SPSS: verificarea asumptiilor, rularea testului, interpretarea celor trei tabele de output, calcularea Cohen's d pentru designuri pereche si raportarea rezultatelor in format APA editia a 7-a. Daca ai parcurs ghidul pentru testul t pentru esantioane independente, retine ca versiunea pereche are cerinte diferite de normalitate si o formula diferita pentru marimea efectului. Tutorialul foloseste o versiune extinsa a setului de date pentru teza din ghidurile anterioare, cu doua variabile noi adaugate pentru scorurile pre-test si post-test.

Puncte cheie:

  • Testul t pentru esantioane perechi compara doua masuratori de la aceiasi participanti (de ex., pre-test vs. post-test, inainte vs. dupa interventie)
  • Asumptia de normalitate se aplica scorurilor diferenta, nu fiecarei variabile individual
  • SPSS calculeaza diferenta ca Variabila 1 minus Variabila 2, ceea ce produce adesea o valoare t negativa cand scorurile se imbunatatesc. Aceasta nu este o eroare.
  • Cohen's d pentru designuri pereche foloseste o formula diferita fata de versiunea independenta: d = Media Diferentelor / SD al Diferentelor
  • Raporteaza statistica t, gradele de libertate, valoarea p, ambele medii cu SD si marimea efectului in capitolul de Rezultate

Inainte de a incepe: Acest ghid presupune ca ai datele incarcate in SPSS cu doua masuratori corelate (de ex., scoruri pre-test si post-test) definite in Variable View. Ar trebui sa fi verificat deja statistica descriptiva pentru variabilele tale. Daca trebuie sa verifici normalitatea scorurilor diferenta, consulta ghidul nostru despre testarea normalitatii in SPSS.

Cand sa folosesti testul t pentru esantioane perechi

Testul t pentru esantioane perechi este adecvat cand designul cercetarii tale indeplineste aceste conditii:

  1. Ai o variabila dependenta continua masurata in doua momente sau in doua conditii.
  2. Aceiasi participanti furnizeaza ambele masuratori (sau participantii sunt corelati in perechi).
  3. Vrei sa determini daca diferenta medie dintre cele doua masuratori este semnificativa statistic.

Daca cele doua masuratori provin de la participanti diferiti, foloseste testul t pentru esantioane independente. Daca ai trei sau mai multe masuratori corelate, foloseste ANOVA cu masuri repetate.

Exemple frecvente in teze:

Intrebare de cercetareVariabila 1Variabila 2Design
Programul de formare imbunatateste scorurile la test?PreTestScorePostTestScorePre/post interventie
Studentii evalueaza cursul diferit la mijloc vs. la final?EvaluareIntermediaraEvaluareFinalaDoua momente
Exista o diferenta intre comportamentul auto-raportat si cel observat?AutoRaportareScorObservatDoua metode de masurare

Tabel 1: Designuri de cercetare frecvente adecvate testului t pentru esantioane perechi

Asumptii

Testul t pentru esantioane perechi are trei asumptii. Doua dintre ele sunt directe; a treia necesita o verificare specifica, diferita de testul t independent.

1. Observatii corelate (date pereche)

Fiecare caz din setul de date trebuie sa aiba ambele masuratori. Participantul 1 are un scor pre-test si un scor post-test; participantul 2 are un scor pre-test si un scor post-test; si asa mai departe. Aceasta asumptie este indeplinita prin designul cercetarii. Daca unii participanti au abandonat intre masuratori, SPSS gestioneaza aceasta situatie prin stergere listwise (acele cazuri sunt excluse din analiza).

2. Variabila dependenta continua

Ambele masuratori trebuie sa fie pe o scala de interval sau de raport. Scorurile la teste, evaluarile pe o scala continua si masuratorile fiziologice se califica. Datele ordinale cu putine categorii (de ex., o scala de 3 puncte) sunt mai bine analizate cu testul Wilcoxon signed-rank.

3. Normalitatea scorurilor diferenta

Aici difera testul t pereche fata de versiunea independenta. Asumptia de normalitate nu se aplica fiecarei variabile separat. Se aplica scorurilor diferenta (Variabila 1 minus Variabila 2 pentru fiecare participant).

Pentru a verifica:

  1. Creaza o variabila noua: Transform > Compute Variable. Seteaza variabila tinta la ceva precum Diferenta si expresia la PostTestScore - PreTestScore.
  2. Testeaza normalitatea pe aceasta variabila noua folosind procedura Explore, asa cum este descris in ghidul de normalitate.

Cu 30 sau mai multi participanti, testul t pereche este robust la incalcari moderate ale normalitatii (Schmider et al., 2010). Cu esantionul nostru de 150, aceasta asumptie este usor de indeplinit. Daca esantionul este mic si scorurile diferenta sunt sever anormale, foloseste testul Wilcoxon signed-rank ca alternativa neparametrica.

Retine ca testul Levene pentru egalitatea variantelor, care face parte din fluxul testului t independent, nu se aplica aici. Exista un singur grup, masurat de doua ori, deci nu exista variante intre grupuri de comparat.

Setul de date exemplu

Acest tutorial foloseste o versiune extinsa a setului de date pentru teza din ghidurile de statistica descriptiva si normalitate. Doua variabile noi au fost adaugate: PreTestScore si PostTestScore, reprezentand scorurile inainte si dupa o interventie de tehnici de studiu. Poti descarca setul de date extins din bara laterala.

Intrebare de cercetare: Interventia de tehnici de studiu a imbunatatit scorurile la test?

  • Variabila 1: PreTestScore (continua, Scale, interval 40-90)
  • Variabila 2: PostTestScore (continua, Scale, interval 45-95)
  • Esantion: 150 de participanti masurati inainte si dupa interventie
  • Design: Un singur grup pre-test/post-test

SPSS Variable View cu variabilele PreTestScore si PostTestScore de tip Numeric, masurare Scale

Figura 1: Variable View in SPSS cu variabilele PreTestScore si PostTestScore

SPSS Data View cu primele 30 de cazuri si coloanele PreTestScore si PostTestScore

Figura 2: Data View in SPSS cu scorurile pre-test si post-test pentru 150 de participanti

Pas cu pas: Rularea testului t pentru esantioane perechi

Pasul 1: Navigheaza la dialogul testului T

Mergi la Analyze > Compare Means > Paired-Samples T Test.

Meniul SPSS cu calea Analyze, Compare Means, Paired-Samples T Test selectat

Figura 3: Navigheaza la Analyze > Compare Means > Paired-Samples T Test

Pasul 2: Selecteaza variabilele pereche

In dialogul Paired-Samples T Test:

  1. Selecteaza PreTestScore din lista de variabile din stanga.
  2. Tine apasat Ctrl (sau Cmd pe Mac) si selecteaza si PostTestScore.
  3. Apasa butonul cu sageata albastra pentru a muta ambele variabile in caseta Paired Variables.
  4. SPSS le afiseaza ca Pair 1: PreTestScore - PostTestScore.

Ordinea conteaza pentru semnul output-ului. SPSS calculeaza Variabila 1 minus Variabila 2 (PreTestScore minus PostTestScore). Deoarece ne asteptam ca scorurile post-test sa fie mai mari, diferenta medie va fi negativa. Aceasta nu este o eroare.

Dialogul SPSS Paired-Samples T Test cu PreTestScore si PostTestScore in caseta Paired Variables

Figura 4: Dialogul Paired-Samples T Test cu PreTestScore ca Variabila 1 si PostTestScore ca Variabila 2

Pasul 3: Ruleaza testul

Apasa OK. SPSS produce trei tabele de output: Paired Samples Statistics, Paired Samples Correlations si Paired Samples Test.

Interpretarea output-ului

SPSS genereaza trei tabele pentru testul t pereche. Fiecare ofera informatii diferite, iar vei avea nevoie de valori din toate trei pentru o interpretare completa si un raport APA.

Tabelul Paired Samples Statistics

Acest tabel raporteaza statisticile descriptive pentru fiecare variabila separat.

Tabelele de output SPSS Paired Samples Statistics, Correlations si Test

Figura 5: Output-ul complet al testului t pereche cu toate cele trei tabele

La ce sa te uiti:

  • Mean: PreTestScore = 62.11, PostTestScore = 68.86. Scorurile post-test sunt in medie cu 6.75 puncte mai mari.
  • N: 150 pentru ambele variabile. Niciun caz nu a fost exclus din cauza datelor lipsa.
  • Std. Deviation: PreTestScore = 10.291, PostTestScore = 10.392. Dispersia scorurilor este similara pentru ambele masuratori.
  • Std. Error Mean: Precizia estimarii fiecarei medii. Valorile mai mici indica estimari mai precise.

Tabelul Paired Samples Correlations

Acest tabel arata corelatia Pearson dintre cele doua masuratori.

  • Correlation: .668, Sig.: .000 (p < .001)

Corelatia de .668 este moderata spre puternica si semnificativa statistic. Aceasta confirma ca scorurile pre-test si post-test sunt pozitiv corelate: participantii care au obtinut scoruri mai mari inainte de interventie au avut tendinta de a obtine scoruri mai mari si dupa aceasta. Acest lucru este de asteptat intr-un design intra-subiecti si este unul dintre motivele pentru care testul t pereche are mai multa putere decat versiunea independenta. Prin eliminarea variabilitatii inter-subiecti din termenul de eroare, testul pereche tine cont de aceasta corelatie.

Daca aceasta corelatie ar fi fost aproape de zero sau negativa, ar fi sugerat ceva neobisnuit in datele tale (de ex., structura de perechere ar putea fi gresita, sau cele doua masuratori ar putea sa nu provina din acelasi construct).

Tabelul Paired Samples Test

Acesta este tabelul principal de rezultate. Raporteaza diferentele pereche si rezultatul testului t.

Citirea coloanelor Paired Differences:

  • Mean: -6.753. Aceasta este media tuturor diferentelor individuale (PreTestScore minus PostTestScore). Semnul negativ inseamna ca scorurile post-test sunt mai mari decat scorurile pre-test in medie.
  • Std. Deviation: 8.428. Aceasta este abaterea standard a scorurilor diferenta, nu a vreunei variabile individual. Vei avea nevoie de aceasta valoare pentru calcularea Cohen's d.
  • Std. Error Mean: 0.688. Eroarea standard a diferentei medii.
  • 95% Confidence Interval: [-8.113, -5.394]. Intregul interval este negativ, ceea ce inseamna ca suntem 95% siguri ca diferenta medie reala din populatie se afla intre -8.11 si -5.39. Deoarece intervalul nu contine zero, diferenta este semnificativa statistic.

Citirea statisticilor testului:

  • t: -9.814. Statistica t este negativa deoarece diferenta medie este negativa (scoruri pre-test minus scoruri post-test). Valoarea absoluta (9.814) reprezinta cate erori standard se afla diferenta medie fata de zero.
  • df: 149 (N - 1 = 150 - 1).
  • Sig. (2-tailed): .000 (p < .001). Rezultatul este semnificativ statistic la orice nivel conventional alpha.

Interpretarea combinata a output-ului

Testul t pentru esantioane perechi arata o crestere semnificativa statistic a scorurilor la test de la pre-test (M = 62.11, SD = 10.29) la post-test (M = 68.86, SD = 10.39), cu o imbunatatire medie de 6.75 puncte. Intervalul de incredere de 95% pentru diferenta medie [-8.11, -5.39] nu include zero, iar testul t este semnificativ, t(149) = -9.81, p < .001.

Corelatia dintre scorurile pre-test si post-test (r = .668) confirma ca designul intra-subiecti este adecvat si ca testul t pereche este alegerea corecta fata de versiunea independenta.

Calcularea Cohen's d (marimea efectului)

Formula pentru Cohen's d in designurile pereche difera de versiunea pentru esantioane independente. Pentru esantioane independente, imparti la abaterea standard combinata (pooled) a celor doua grupuri. Pentru esantioane perechi, imparti la abaterea standard a scorurilor diferenta.

Formula

d=MdiffSDdiffd = \frac{M_{\text{diff}}}{SD_{\text{diff}}}

Unde:

  • MdiffM_{\text{diff}} este media diferentelor pereche (din tabelul Paired Samples Test)
  • SDdiffSD_{\text{diff}} este abaterea standard a diferentelor pereche (din acelasi tabel)

Ambele valori provin direct din output-ul SPSS. Nu este necesara nicio combinare manuala.

Exemplu de calcul

Folosind valorile din tabelul Paired Samples Test:

d=6.7538.428=0.801d = \frac{-6.753}{8.428} = -0.801

Valoarea absoluta este 0.80.

Interpretare

Cohen's dMarimea efectuluiSemnificatie practica
0.2MicDiferenta exista dar este dificil de observat
0.5MediuDiferenta este vizibila si poate fi relevanta practic
0.8MareDiferenta este substantiala si clar relevanta

Tabel 2: Reperele Cohen's d pentru interpretarea marimii efectului (Cohen, 1988)

Cu d = 0.80, acesta este un efect mare. Interventia de tehnici de studiu a produs o imbunatatire de aproximativ 0.80 abateri standard in scorurile la test. Combinat cu valoarea p foarte semnificativa (p < .001) si intervalul de incredere ingust, aceste rezultate ofera dovezi puternice ca interventia a avut un impact substantial pozitiv asupra performantei studentilor.

De ce formula pereche difera

In testul t pentru esantioane independente, Cohen's d foloseste abaterea standard combinata (pooled) deoarece compari doua grupuri separate, fiecare cu propria variabilitate. In designul pereche, exista un singur set de scoruri diferenta, iar variabilitatea relevanta este cat de mult variaza aceste diferente intre participanti. Folosirea SD-ului combinat al celor doua variabile ar umfla numitorul si ar subestima marimea efectului, deoarece ignora corelatia dintre masuratori.

Unii metodologi disting intre dzd_z (folosind SD-ul diferentelor, care este ceea ce am calculat aici) si davd_{av} (folosind media celor doua SD-uri). Versiunea dzd_z este abordarea standard pentru designurile intra-subiecti si este ceea ce asteapta de obicei comisiile de teza (Lakens, 2013).

Ce sa faci cand asumptiile sunt incalcate

Scoruri diferenta non-normale

Daca scorurile diferenta sunt sever anormale (asimetrie peste +/-2) si esantionul este sub 30, testul Wilcoxon signed-rank este alternativa neparametrica standard. Compara rangurile diferentelor absolute in loc de valorile brute.

Pentru a-l rula in SPSS: Analyze > Nonparametric Tests > Legacy Dialogs > 2 Related Samples. Muta ambele variabile in Test Pairs List si selecteaza "Wilcoxon" la Test Type. Apasa OK.

Cu 30 sau mai multi participanti, testul t pereche este robust la incalcari moderate ale normalitatii (Schmider et al., 2010). Documenteaza incalcarea, raporteaza asimetria si boltirea scorurilor diferenta, citeaza literatura privind robustetea si continua cu testul parametric.

Valori aberante in scorurile diferenta

Valorile aberante extreme in scorurile diferenta pot afecta disproportionat media si abaterea standard. Identifica valorile aberante folosind boxplot-uri ale scorurilor diferenta sau examinand valorile standardizate care depasesc +/-3.

Daca exista valori aberante, verifica mai intai daca sunt puncte de date legitime (nu erori de introducere). Daca sunt legitime, ruleaza analiza cu si fara valorile aberante si raporteaza ambele rezultate. Daca concluzia nu se schimba, valorile aberante nu sunt influentiale. Daca concluzia se schimba, discuta aceasta sensibilitate in capitolul de Rezultate.

Raportarea in format APA

Raportarea rezultatelor din acest tutorial

A paired samples t-test was conducted to evaluate the effect of a study skills intervention on test scores. Post-test scores (M = 68.86, SD = 10.39) were significantly higher than pre-test scores (M = 62.11, SD = 10.29), t(149) = -9.81, p < .001, d = 0.80, 95% CI [-8.11, -5.39]. The effect size was large, indicating that the intervention produced a substantial improvement in student performance.

Sablon pentru rezultat nesemnificativ

Daca rezultatul ar fi fost nesemnificativ, raportarea ar urma aceasta structura:

A paired samples t-test was conducted to compare test scores before and after the intervention. There was no significant difference between pre-test scores (M = 62.11, SD = 10.29) and post-test scores (M = 63.40, SD = 10.55), t(149) = -1.12, p = .264, d = 0.13. The effect size was negligible.

Cu alternativa Wilcoxon (scoruri diferenta non-normale)

The Shapiro-Wilk test indicated that the difference scores were not normally distributed (W = 0.94, p = .003). A Wilcoxon signed-rank test was therefore conducted. Post-test scores were significantly higher than pre-test scores (Z = -5.42, p < .001, r = .44).

Format tabel APA

Pentru capitolele de Rezultate ale tezei care necesita un tabel sumar:

VariabilaConditieNMSDtdfpd
Scor la testPre-test15062.1110.29-9.81149< .0010.80
Post-test15068.8610.39

Tabel 3: Rezultatele testului t pentru esantioane perechi comparand scorurile pre-test si post-test

Lista de verificare pentru raportare

Fiecare raport de test t pereche ar trebui sa includa:

  1. Scopul testului (ce comparatie s-a facut si de ce)
  2. Mediile si abaterile standard pentru ambele conditii
  3. Statistica t, gradele de libertate si valoarea p exacta (sau "< .001" cand este foarte mica)
  4. Marimea efectului (Cohen's d) cu interpretare
  5. Intervalul de incredere de 95% al diferentei mediilor
  6. Corelatia dintre cele doua masuratori (optional dar recomandat, mai ales cand justifici designul pereche)

Greseli frecvente

1. Testarea normalitatii pe fiecare variabila in loc de diferente

Asa cum este acoperit in sectiunea Asumptii de mai sus, testul t pereche verifica normalitatea scorurilor diferenta, nu a fiecarei variabile separat. Doua variabile anormale pot produce totusi diferente distribuite normal. Calculeaza si testeaza intotdeauna variabila diferenta.

2. Folosirea testului t pentru esantioane independente pentru date pereche

Daca aceiasi participanti sunt masurati de doua ori, masuratorile sunt corelate. Folosirea testului t independent ignora aceasta corelatie, umfla termenul de eroare si reduce puterea statistica. Poti rata un efect real pe care testul pereche l-ar detecta. Verifica designul cercetarii: aceleasi persoane masurate de doua ori inseamna pereche, persoane diferite inseamna independent.

3. Ignorarea semnului valorii t

Asa cum este explicat in Pasul 2, SPSS calculeaza Variabila 1 minus Variabila 2 in ordinea in care le-ai introdus, deci o imbunatatire de la pre la post produce o valoare t negativa. Aceasta nu este o eroare. Raporteaza valoarea asa cum o da SPSS si clarifica directia folosind mediile din tabelul Paired Samples Statistics.

4. Omiterea Cohen's d sau folosirea formulei gresite

Designul pereche necesita impartirea la SD-ul diferentelor, nu la SD-ul combinat folosit pentru esantioane independente (vezi De ce formula pereche difera mai sus). Confuzia intre formule subestimeaza marimea efectului. Ambele valori de care ai nevoie sunt in tabelul Paired Samples Test.

5. Rularea mai multor teste t pereche pentru mai multe momente

Daca ai masurat participantii in trei sau mai multe momente (pre, intermediar, post), rularea tuturor testelor t pereche pentru toate perechile creste rata erorii de tip I. Cu trei comparatii la alpha = .05, probabilitatea a cel putin un fals pozitiv creste la aproximativ .14. Foloseste ANOVA cu masuri repetate, apoi urmeaza cu comparatii pereche folosind o corectie Bonferroni daca testul omnibus este semnificativ.

Ce va intreba comisia de teza

"De ce ai folosit testul t pentru esantioane perechi si nu testul t pentru esantioane independente?" Explica ca aceiasi participanti au fost masurati inainte si dupa interventie, facand observatiile dependente. Testul t pereche tine cont de aceasta dependenta analizand scorurile diferenta, ceea ce elimina variabilitatea inter-subiecti si creste puterea statistica. Folosirea testului independent pe date pereche ar incalca asumptia de independenta si ar irosi avantajul designului intra-subiecti.

"Cum ai verificat asumptia de normalitate?" Descrie ca ai calculat scorurile diferenta (PostTestScore minus PreTestScore) si ai testat normalitatea acestora. Cu un esantion de 150, citeaza robustetea testului t la incalcari moderate ale normalitatii (Schmider et al., 2010) si raporteaza asimetria si boltirea diferentelor daca este cazul.

"Marimea efectului este mare. Ar putea fi din cauza efectelor de practica si nu a interventiei?" Aceasta este o ingrijorare legitima in designurile pre/post. Recunoaste ca, fara un grup de control, nu poti atribui definitiv imbunatatirea exclusiv interventiei. Efectele de practica, maturizarea, regresia catre medie si alte amenintari la adresa validitatii interne sunt posibile. Daca teza ta foloseste un design cu un singur grup, discuta aceste limitari onest in capitolul de Discutii. Un design mai puternic ar include un grup de control care sustine aceleasi teste fara a primi interventia.

"De ce ar trebui sa am incredere in testul t cand ai doar doua momente?" Testul t pereche este proiectat specific pentru doua masuratori corelate. Este cel mai puternic test disponibil pentru aceasta comparatie exacta. Daca ar fi existat momente suplimentare, ANOVA cu masuri repetate ar fi fost adecvat. Doua momente cu un test t pereche este abordarea standard in cercetarea pre/post (Field, 2018).

Intrebari frecvente

Pasii urmatori

Dupa finalizarea testului t pereche, urmatoarea analiza depinde de designul cercetarii si intrebarile care raman.

Daca studiul tau include un grup de control alaturi de masuratorile pre/post, este posibil sa ai nevoie de o ANOVA cu design mixt pentru a testa atat efectele intra-subiecti cat si cele inter-subiecti simultan. Daca designul implica trei sau mai multe masuratori corelate, treci la ANOVA cu masuri repetate, care extinde logica testului t pereche la mai multe momente.

Pentru a examina daca variabilele continue prezic rezultatul, in loc sa compari conditii, regresia liniara ofera cadrul necesar. Asigura-te ca analizele fundamentale sunt documentate: statistica descriptiva pentru caracteristicile esantionului si testarea normalitatii pentru documentarea asumptiilor ar trebui sa apara in capitolul de Rezultate inaintea testului t.

Referinte

American Psychological Association. (2020). Publication manual of the American Psychological Association (7th ed.). American Psychological Association.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.

Field, A. (2018). Discovering statistics using IBM SPSS statistics (5th ed.). SAGE Publications.

Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: A practical primer for t-tests and ANOVAs. Frontiers in Psychology, 4, 863.

Pallant, J. (2020). SPSS survival manual (7th ed.). Open University Press.

Schmider, E., Ziegler, M., Danay, E., Beyer, L., & Bühner, M. (2010). Is it really robust? Reinvestigating the robustness of ANOVA against violations of the normal distribution assumption. Methodology, 6(4), 147-151.