Cum să Gestionezi Datele Lipsă în Analiză Excel pentru Teză (Ghid Complet)

By Leonard Cucosro

Ai colectat date pentru chestionarul tezei tale, doar pentru a descoperi că unii participanți au omis întrebări sau au abandonat complet. Nu ești singur - aproape fiecare student de doctorat se confruntă cu datele lipsă când analizează datele din chestionar în Excel. Întrebarea nu este dacă vei avea date lipsă, ci cum vei gestiona acestea în mod corespunzător pentru teza ta.

Datele lipsă pot:

  • Reduce puterea statistică - mai puține puncte de date înseamnă teste mai puțin fiabile
  • Introduce bias - dacă anumite grupuri au mai multe date lipsă, rezultatele tale pot fi denaturate
  • Generează întrebări de la comisia ta - va trebui să explici cum le-ai gestionat

Validitatea Concluziilor: Comisia ta știe că modul în care gestionezi datele lipsă afectează validitatea fiecărui test statistic pe care îl rulezi. Corelațiile, testele t, ANOVA și analizele de regresie produc toate rezultate diferite în funcție de abordarea ta privind datele lipsă. Dacă le gestionezi incorect, întreaga ta secțiune de rezultate devine discutabilă.

Vestea bună? Excel are instrumente puternice pentru a gestiona datele lipsă, iar acest ghid îți va arăta exact cum să le folosești pentru teza ta.

Vei învăța:

  • Cum să diagnostichezi tipurile de date lipsă (MCAR, MAR, NMAR) în Excel
  • 4 metode de gestionare a datelor lipsă cu formule Excel pas cu pas
  • Framework de decizie pentru alegerea metodei potrivite pentru teza ta
  • Cum să raportezi datele lipsă în format APA pentru secțiunea Metodelor
  • Scenarii comune din teze și ce metodă să folosești pentru fiecare

Să ne asigurăm că datele tale lipsă nu afectează valabilitatea tezei tale.


Înțelegerea Tipurilor de Date Lipsă (MCAR, MAR, NMAR)

Înainte de a alege o metodă de gestionare, trebuie să înțelegi de ce datele tale sunt lipsă. Acest lucru determină ce metode sunt corespunzătoare.

1. MCAR: Missing Completely at Random (Lipsă Complet la Întâmplare)

Datele lipsă nu au nicio legătură cu datele tale - este pur întâmplător.

Exemplu: Un participant s-a deconectat din cauza problemelor WiFi în timpul completării chestionarului online. Deconectarea WiFi nu are nicio legătură cu răspunsurile lor la întrebările despre satisfacție la locul de muncă.

Cum să testezi pentru MCAR în Excel:

  1. Creează o coloană "Missing_Flag" pentru fiecare variabilă:
=IF(ISBLANK(C2); 1; 0)
  1. Rulează teste t comparând completers vs. non-completers pentru alte variabile:
  • Dacă participanții care au omis Întrebarea 5 au răspunsuri similare la Întrebările 1-4 ca cei care au răspuns la Întrebarea 5, probabil este MCAR
  • Dacă grupurile diferă semnificativ, nu este MCAR

Testul statistic: Little's MCAR Test (necesită SPSS sau R - Excel nu are acest lucru încorporat)

Implicații pentru teză: Datele MCAR sunt cele mai sigure de gestionat - majoritatea metodelor funcționează fără a introduce bias.


2. MAR: Missing at Random (Lipsă la Întâmplare)

Datele lipsă sunt legate de variabilele observate, nu de valoarea lipsă în sine.

Exemplu: Participanții bărbați omit mai des întrebări despre sănătatea mentală din cauza stigmei, nu pentru că au sănătate mentală mai slabă. Lipsa este legată de sex (observat), nu de scorurile sănătății mentale (lipsă).

Cum să testezi pentru MAR în Excel:

  1. Creează tabele pivot comparând rate de date lipsă între grupuri demografice:
  • Selectează date → Insert → PivotTable
  • Rânduri: Sex (sau altă variabilă demografică)
  • Valori: Count of Missing_Flag
  1. Dacă anumite grupuri au mai multe date lipsă, este probabil MAR

Implicații pentru teză: Datele MAR pot fi gestionate cu imputare sau ștergere listwise dacă raportezi modelul.


3. NMAR: Not Missing at Random (Nu Lipsă la Întâmplare)

Datele lipsă sunt legate de valoarea lipsă în sine.

Exemplu: Participanții cu anxietate mai ridicată omit întrebările scalei de anxietate pentru că gândirea despre anxietatea lor le provoacă disconfort. Lipsa este direct legată de nivelurile ridicate de anxietate (valoarea lipsă).

Cum să detectezi NMAR în Excel:

Dificil de testat definitiv, dar suspectat când:

  • Întrebări sensibile (venituri, sănătate mentală, comportament deviant) au rate ridicate de lipsă
  • Itemii târzii din chestionare au mai multă lipsă (oboseală)
  • Participanții cu scoruri extreme în variabile similare au mai multă lipsă

Implicații pentru teză: Datele NMAR sunt problematice - pot necesita tehnici avansate (modele de imputare multiplă) sau analize de sensibilitate.

Notă privind setările regionale: Formulele Excel folosesc separatori diferiți în funcție de localizare. Excel în SUA/UK folosește virgule: =IF(ISBLANK(A1),0,A1) în timp ce Excel în Europa folosește punct și virgulă: =IF(ISBLANK(A1);0;A1). Dacă o formulă returnează eroare, încercați să înlocuiți virgulele cu punct și virgulă (sau invers). Pentru a verifica sau modifica setările:

  • Windows: File → Options → Advanced → Editing options → "Use system separators"
  • Mac: System Preferences → Language & Region → Advanced → Number separators

Metoda 1: Ștergerea Listwise (Analiza Cazurilor Complete)

Când să o folosești:

  • Ai mai puțin de 5% date lipsă
  • Datele sunt MCAR (testate mai sus)
  • Dimensiunea eșantionului este mare (poți să pierzi câteva cazuri)

Când să NU o folosești:

  • Peste 10% date lipsă (prea multă pierdere de putere)
  • Datele sunt MAR sau NMAR (introduce bias)
  • Dimensiune mică a eșantionului (fiecare participant contează)

Pași Excel pentru Ștergerea Listwise

Pasul 1: Identifică rândurile cu date lipsă

Mai întâi, trebuie să găsești care rânduri au valori lipsă în variabilele cheie de analiză.

Set de date de sondaj cu date lipsă în Excel - celule goale care indică răspunsuri lipsă

Figura 1: Set de date de sondaj cu date lipsă în Excel - celule goale care indică răspunsuri lipsă

Creează o coloană helper pentru a număra spațiile goale pe rând:

=COUNTBLANK(B2:Y2)

Formula COUNTBLANK din Excel pentru a identifica rândurile cu date lipsă - coloană helper care arată numărul de celule goale

Figura 2: Formula COUNTBLANK din Excel pentru a identifica rândurile cu date lipsă - coloană helper care arată numărul de celule goale

Unde B2:Y2 sunt coloanele tale de variabile. Trage în jos pentru toate rândurile.

Pasul 2: Filtrează pentru cazuri complete

Folosește funcția FILTER pentru a crea un set de date curate:

=FILTER(A2:Y1000; Z2:Z1000=0; "Nu există cazuri complete")

Formula FILTER din Excel creând un set de date doar cu cazuri complete - fără date lipsă

Figura 3: Formula FILTER din Excel creând un set de date doar cu cazuri complete - fără date lipsă

Unde:

  • A2:Y1000 = intervalul tău complet de date
  • Z2:Z1000 = coloana ta COUNTBLANK
  • 0 = păstrează doar rândurile cu zero spații goale

Pasul 3: Copiază datele filtrate într-o foaie nouă

  1. Selectează rezultatul FILTER
  2. Copiază → Paste Special → Values
  3. Denumește foaia "Complete_Cases"

Pasul 4: Efectuează analizele tale pe cazurile complete

Rulează toate testele tale statistice (Cronbach's Alpha, statistici descriptive, teste t, ANOVA, corelații) pe acest set de date filtrat doar cu cazuri complete.


Raportare APA pentru Ștergerea Listwise

În secțiunea Metodelor tale:

"Analiza datelor lipsă a relevat 8,2% (n = 37) din participanți cu cel puțin un răspuns lipsă. Testul Little's MCAR a indicat date lipsă complet la întâmplare, χ²(84) = 92.14, p = .26. S-a utilizat ștergerea listwise, rezultând o dimensiune finală a eșantionului de n = 413 (91,8% din eșantionul original). Analizele de sensibilitate comparând caracteristicile demografice ale cazurilor complete versus incomplete nu au arătat diferențe semnificative (toate p > .05), susținând presupunerea MCAR."

Informații cheie de raportat:

  1. Procentul și numărul de cazuri cu date lipsă
  2. Rezultatul testului MCAR (dacă este disponibil)
  3. Dimensiunea finală a eșantionului după ștergere
  4. Analize comparative (completers vs. non-completers) - folosește teste t pentru a compara mediile variabilelor observate

Metoda 2: Imputarea Mediei/Medianei

Când să o folosești:

  • Între 5 și 10% date lipsă (prea mult pentru ștergere, suficient de puțin pentru imputare)
  • Datele sunt MCAR sau MAR
  • Variabile Likert sau continue (nu categorice)
  • Vrei să păstrezi dimensiunea eșantionului

Când să NU o folosești:

  • Peste 10% date lipsă (reduce prea mult variabilitatea)
  • Date categorice (sexul, ocupația - nu poți face media acestora)
  • Variabile cheie în analiza ta principală (slăbește corelațiile)

Pași Excel pentru Imputarea Mediei

Pasul 1: Calculează media pentru fiecare variabilă

În celulele din partea de sus (de ex., rândul 1):

=AVERAGE(C2:C1000)

Aceasta calculează media tuturor valorilor non-blank din coloana C (de ex., Întrebarea 1).

Pasul 2: Înlocuiește spațiile goale cu media

Creează o nouă coloană folosind IF + ISBLANK:

=IF(ISBLANK(C2); $C$1; C2)

Formula IF ISBLANK din Excel înlocuind valorile lipsă cu media pentru imputare

Figura 4: Formula IF ISBLANK din Excel înlocuind valorile lipsă cu media pentru imputare

Unde:

  • C2 = celula originală
  • CC1 = celula mediei tale (referință absolută)
  • Dacă C2 este goală, folosește media; altfel, folosește valoarea originală

Pasul 3: Trage formula în jos

Copiază formula pentru toate rândurile și coloanele.


Imputarea Medianei (pentru Date Denaturate)

Dacă datele tale au valori extreme (outliers), mediana este mai robustă decât media.

Formula:

=MEDIAN(C2:C1000)

Apoi folosește aceeași logică IF:

=IF(ISBLANK(C2); $C$1; C2)

Unde CC1 acum conține mediana.

Când să folosești mediana în loc de medie:

  • Scale Likert cu valori extreme (toată lumea răspunde 4-5, dar câțiva răspund 1)
  • Date despre venituri sau vârstă (distributii denaturate)
  • Orice variabilă în care outliers ar denatura media

Raportare APA pentru Imputarea Mediei

"Datele lipsă au variat de la 2,3% (variabila X) la 9,1% (variabila Y). Testul Little's MCAR a indicat date lipsă la întâmplare, χ²(112) = 118.45, p = .32. Imputarea mediei a fost aplicată pentru itemii scalei Likert folosind media specifică variabilei calculate din cazurile observate. Analizele de sensibilitate comparând rezultatele folosind ștergerea listwise versus imputarea mediei nu au arătat diferențe substanțiale în rezultatele analizei de regresie (diferențele β < .03, toate p > .05), susținând robustețea concluziilor."

Informații cheie de raportat:

  1. Intervalul de date lipsă între variabile
  2. Justificare pentru alegerea imputării mediei
  3. Analize de sensibilitate - compararea rezultatelor cu/fără imputare
  4. Impactul asupra variabilității (de ex., "Abaterile standard au scăzut cu mai puțin de 5%")

Metoda 3: Forward/Backward Fill (Date Longitudinale)

Când să o folosești:

  • Date longitudinale (măsuri repetate de-a lungul timpului)
  • Stabilitate așteptată în variabilă (de ex., demografia, grupul de tratament)
  • Abandonul apare târziu în studiu (participanții lipsesc la ultimul follow-up)

Când să NU o folosești:

  • Date cross-sectionale (un singur punct în timp)
  • Variabile care se schimbă rapid (dispoziția, simptomele)
  • Date lipsă la început (nu există valoare anterioară de copiat)

Pași Excel pentru Forward Fill (LOCF)

Scenario: Ai măsuri lunare de la Ianuarie până în Iunie. Unii participanți au abandonat în Mai - vrei să "copiezi înainte" ultima lor observație.

Pasul 1: Configurarea datelor

ID_ParticipantIanFebMarAprMaiIun
00125272628
002302931303231

Pasul 2: Formula Forward Fill

În coloana Mai (E2):

=IF(ISBLANK(E2); D2; E2)

Logica: Dacă Mai este goală, folosește valoarea din Aprilie (D2). Altfel, folosește valoarea Mai.

Pasul 3: Extinde pe mai multe luni

Pentru Iunie (F2):

=IF(ISBLANK(F2); E2; F2)

Aceasta se construiește pe umplerea anterioară - dacă Mai a fost de asemenea goală, copiază din Aprilie.


Formula Backward Fill

Folosește atunci când vrei să "copiezi înapoi" de la observațiile ulterioare.

=IF(ISBLANK(C2); D2; C2)

Logica: Dacă Martie este gol, folosește Aprilie. Altfel, folosește Martie.

Utilizare tipică în teză: Când participanții lipsesc puncte de timp timpurii, dar completează cele ulterioare.


Formula Avansată: Forward Fill cu Verificare ID

Dacă ai mai mulți participanți într-o singură foaie, asigură-te că nu copiezi între participanți:

=IF(A2<>A1; C2; IF(ISBLANK(C2); D1; C2))

Logica:

  • Dacă ID_Participant s-a schimbat (A2 diferit de A1), nu umple - începe cu valoarea actuală
  • Altfel, dacă blank, folosește valoarea anterioară

Raportare APA pentru Forward/Backward Fill

"Pentru date longitudinale lipsă, s-a folosit metoda Last Observation Carried Forward (LOCF) pentru participanții care au abandonat înainte de evaluarea finală (n = 23, 5,1%). LOCF presupune că valorile rămân stabile după abandon, ceea ce este rezonabil pentru caracteristicile demografice și variabilele de grup. Analizele de sensibilitate comparând analiza intenției de a trata (LOCF) cu analiza cazurilor complete (n = 427) au arătat modele consistente de rezultate (diferențele OR < 1.15, toate p > .05), susținând validitatea presupunerii LOCF."

Informații cheie de raportat:

  1. Numărul și procentul de cazuri cu forward/backward fill
  2. Justificarea presupunerii de stabilitate
  3. Analize de sensibilitate (LOCF vs. cazuri complete)
  4. Limitări (de ex., "LOCF poate subestima îmbunătățirea în timp")

Metoda 4: Crearea Categoriei "Lipsă" (Variabile Categorice)

Când să o folosești:

  • Variabile categorice (sex, ocupație, nivel educațional)
  • Suspectezi că lipsa răspunsului este semnificativă (de ex., refuzul de a raporta venitul)
  • Vrei să păstrezi toți participanții în analiză

Când să NU o folosești:

  • Variabile continue (nu poți avea "Vârstă = Lipsă")
  • Când lipsa răspunsului este cu adevărat aleatorie (adaugă complexitate inutilă)

Pași Excel pentru Categoria "Lipsă"

Scenario: Ai o coloană "Nivel Educațional" cu unele spații goale.

Pasul 1: Formula pentru adăugarea categoriei "Lipsă"

=IF(ISBLANK(E2); "Nu a raportat"; E2)

Formula IF ISBLANK creând categoria Nu a raportat pentru valorile lipsă de Gen în Excel

Figura 5: Formula IF ISBLANK creând categoria Nu a raportat pentru valorile lipsă de Gen în Excel

Aceasta creează o nouă categorie "Nu a raportat" pentru spațiile goale.

Pasul 2: Verifică distribuția

Creează un tabel pivot:

  • Rânduri: Nivel Educațional (incluzând "Nu a raportat")
  • Valori: Count

Pasul 3: Rulează analiza cu "Nu a raportat" ca grup

De exemplu, teste ANOVA sau Chi-Square care compară:

  • Liceu
  • Facultate
  • Masterat
  • Nu a raportat ← tratat ca grup separat

Interpretarea Rezultatelor cu Categoria "Lipsă"

Dacă grupul "Nu a raportat" diferă semnificativ:

  • Raportează modelul (de ex., "Participanții care nu au raportat educația au avut scoruri de satisfacție mai scăzute, F(3, 446) = 4.23, p = .006")
  • Discută de ce lipsa poate fi semnificativă (de ex., niveluri scăzute de educație → ezitare de a dezvălui)

Dacă grupul "Nu a raportat" nu diferă:

  • Raportează că nu există niciun efect al lipsei răspunsului (susține MCAR)
  • Consideră combinarea cu altă categorie sau ștergerea listwise

Raportare APA pentru Categoria "Lipsă"

"Pentru variabilele categorice demografice, s-a creeat o categorie separată 'Nu a raportat' pentru a păstra toate cazurile (nivelul educațional: n = 34 Nu a raportat, 7,6%). Analizele ANOVA comparând grupurile de educație au arătat că participanții 'Nu a raportat' nu au diferit semnificativ de cei cu liceu în privința variabilei dependente, F(4, 445) = 2.18, p = .07, η² = .019. Analizele de sensibilitate excluzând grupul 'Nu a raportat' au dat rezultate substanțial similare (diferențele F < 0.30), indicând că includerea nu a denaturat concluziile."

Informații cheie de raportat:

  1. Numărul și procentul în categoria "Nu a raportat"
  2. Comparații statistice cu alte grupuri
  3. Analize de sensibilitate (cu vs. fără "Nu a raportat")
  4. Interpretare (de ce lipsa poate fi semnificativă)

Flowchart-ul Deciziei: Care Metodă Să Folosești?

Folosește acest flowchart de decizie pentru a alege metoda potrivită de gestionare a datelor lipsă pentru scenariul specific al tezei tale.

Diagramă de Decizie pentru Date Lipsă - Alege metoda potrivită pentru gestionarea datelor lipsă în analiza chestionarului tezei

Figură: Diagramă de Decizie pentru Date Lipsă - Alege metoda potrivită pentru gestionarea datelor lipsă în analiza chestionarului tezei

Urmează acest arbore de decizie pentru a alege metoda potrivită pentru teza ta:

Întrebarea 1: Câte procent de date lipsă ai?

  • Mai puțin de 5% → Mergi la Întrebarea 2
  • Între 5 și 10% → Mergi la Întrebarea 3
  • Peste 10% → Mergi la Întrebarea 4

Întrebarea 2: Datele sunt MCAR? (Testează cu comparații de grupuri)

  • Da (MCAR)Folosește Ștergerea Listwise
    • Simplu, acceptat pe scară largă, bias minim
  • Nu (MAR/NMAR) → Mergi la Întrebarea 3

Întrebarea 3: Variabilele tale sunt continue sau categorice?

  • Continue (Likert, vârstă, scoruri) → Mergi la Întrebarea 5
  • Categorice (sex, ocupație)Folosește Categoria "Lipsă"
    • Păstrează toate datele, explorează modele de lipsă

Întrebarea 4: Ai date longitudinale (măsuri repetate)?

  • DaFolosește Forward/Backward Fill
    • Presupune stabilitate în timp
    • Raportează analize de sensibilitate
  • Nu → Mergi la Întrebarea 5

Întrebarea 5: Este acceptabilă reducerea variabilității?

  • Da (nu sunt variabile cheie)Folosește Imputarea Mediei/Medianei
    • Păstrează dimensiunea eșantionului
    • Raportează impactul asupra SD
  • Nu (variabile cheie de rezultat)Consideră Imputarea Multiplă (necesită SPSS/R)

Scenarii Comune din Teze și Soluții

Scenario 1: Răspunsuri Parțiale la Scale Likert

Problema: Participanții au completat 8 din 10 itemi ai scalei de satisfacție la locul de muncă.

Soluție:

  1. Dacă mai puțin de 20% itemi lipsă pe scală: Folosește imputarea mediei specifică persoanei
    • Formula: =IF(ISBLANK(C2); AVERAGE($C2:$L2); C2)
    • Aceasta imputează bazat pe răspunsurile lor personale la alți itemi
  2. Dacă ≥20% itemi lipsă: Exclude acea persoană din calculul scorului scalei
    • Scorurile scalei cu imputare excesivă nu sunt fiabile

Raportare APA:

"Participanții cu mai puțin de 20% itemi lipsă pe scală (n = 47) au avut valori imputate folosind media itemelor completate ale persoanei respective. Participanții cu ≥20% itemi lipsă (n = 12) au fost excluși din calculul scorului scalei pentru a menține fiabilitatea (Cronbach's α = .89 pentru cazuri complete)."


Scenario 2: Date Demografice Lipsă (Vârstă, Sex, Educație)

Problema: 15 participanți nu au raportat vârsta; 22 nu au raportat educația.

Soluție:

  1. Pentru variabile continue (vârstă):

    • Dacă vârsta nu este o variabilă cheie → Folosește imputarea mediei
    • Dacă vârsta este o variabilă cheie → Raportează analiza de sensibilitate (cu vs. fără vârstă lipsă)
  2. Pentru variabile categorice (educație):

    • Creează categoria "Nu a raportat" (vezi Metoda 4)
    • Testează dacă "Nu a raportat" diferă de alte grupuri

Raportare APA:

"Vârsta lipsă (n = 15, 3,3%) a fost imputată cu vârsta medie a eșantionului (M = 34,2). Educația lipsă (n = 22, 4,9%) a fost codificată ca 'Nu a raportat' și inclusă ca grup separat în analize. Participanții 'Nu a raportat' nu au diferit semnificativ de grupul educațional cu liceu în privința variabilei dependente, t(418) = 0.87, p = .39."


Scenario 3: Abandon Ridicat la Sfârșitul Chestionarului

Problema: Primele 30 de întrebări au 5% date lipsă; ultimele 10 întrebări au 25% date lipsă.

Soluție:

  1. Identifică cauza: Oboseală? Întrebări sensibile? Probleme tehnice?
  2. Opțiuni de Analiză:
    • Opțiunea A: Analizează separat întrebările timpurii (eșantion complet) de întrebările târzii (eșantion redus)
    • Opțiunea B: Folosește ștergerea listwise doar pentru analizele care necesită întrebări târzii
    • Opțiunea C: Raportează că întrebările târzii au putere redusă și interpretează cu precauție

Raportare APA:

"Ratele de răspuns au scăzut de la 95% (Întrebări 1-30) la 75% (Întrebări 31-40), indicând oboseala participanților. Analizele principale au folosit date complet disponibile (Întrebări 1-30, n = 427). Analizele secundare incluzând Întrebările 31-40 au folosit ștergerea listwise (n = 337, 75% din eșantionul original). Comparațiile demografice dintre cei care au completat versus cei care nu au completat nu au arătat diferențe semnificative (toate p > .05), susținând generalizabilitatea."


Scenario 4: Date Lipsă pentru Întrebări Sensibile (Venituri, Sănătate Mentală)

Problema: 30% din participanți au omis întrebările despre venituri anuale.

Soluție:

  1. Recunoaște că datele sunt probabil NMAR (persoanele cu venituri foarte mari/scăzute pot refuza)
  2. NU folosi imputarea mediei - introduce bias major
  3. Opțiuni:
    • Opțiunea A: Raportează doar pe baza celor care au răspuns (n = 315) și recunoaște limita
    • Opțiunea B: Creează categorii de venituri (Scăzut/Mediu/Ridicat/Nu a raportat) și analizează modelul
    • Opțiunea C: Folosește imputarea multiplă cu variabile predictive (necesită SPSS/R)

Raportare APA:

"Venitul anual a avut o rată ridicată de non-răspuns (30,2%, n = 136), probabil datorită sensibilității întrebării. Dată fiind natura probabil NMAR a acestor date lipsă (persoanele cu venituri extreme pot refuza de preferință), nu s-a utilizat imputare. Analizele care implică venituri sunt raportate doar pentru respondenți (n = 314) și rezultatele ar trebui interpretate cu precauție dată fiind posibilitatea de bias de selecție. Comparațiile respondenților versus non-respondenților pe variabilele observate (vârstă, sex, educație) au arătat că non-respondenții erau mai susceptibili de a fi mai în vârstă (M = 42,3 vs. 36,1, p = .002), sugerând non-răspuns nealeator."


Cum să Raportezi Datele Lipsă în Teza Ta (Secțiunea Metodelor APA)

Comisia ta va căuta aceste elemente cheie în secțiunea ta Metodelor:

1. Cantitatea de Date Lipsă

Raportează:

  • Procent general de date lipsă
  • Date lipsă specifice variabilei (mai ales pentru variabile cheie)
  • Număr de participanți afectați

Exemplu:

"Datele lipsă au fost minime, variind de la 1,2% (sex) la 8,7% (scorul de satisfacție la locul de muncă). În total, 67 din 450 de participanți (14,9%) aveau cel puțin un răspuns lipsă."


2. Modelul de Date Lipsă (Analiza MCAR/MAR/NMAR)

Raportează:

  • Rezultatele testului Little's MCAR (dacă este disponibil)
  • Comparații între completers și non-completers
  • Modele observate (de ex., o anumită grupă demografică cu mai multe date lipsă)

Exemplu:

"Testul Little's MCAR a indicat date lipsă complet la întâmplare, χ²(124) = 132.18, p = .29. Analizele suplimentare comparând participanții cu date complete versus incomplete nu au arătat diferențe semnificative în privința vârstei, t(448) = 1.23, p = .22, sexului, χ²(1) = 0.87, p = .35, sau nivelului educațional, χ²(3) = 2.45, p = .48."


3. Metoda de Gestionare Aleasă

Raportează:

  • Ce metodă ai folosit (ștergere listwise, imputare medie, etc.)
  • De ce ai ales acea metodă (justificare)
  • Orice presupuneri făcute

Exemplu:

"Având în vedere procent scăzut de date lipsă (8,7%) și confirmarea MCAR, s-a utilizat ștergerea listwise pentru analizele principale. Aceasta a rezultat într-o dimensiune finală a eșantionului de n = 383 (85,1% din eșantionul original), păstrând putere statistică adecvată pentru analizele planificate (putere = .89 pentru detectarea efectelor de dimensiune medie la α = .05)."


4. Analize de Sensibilitate

Raportează:

  • Compararea rezultatelor folosind diferite metode (de ex., ștergerea listwise vs. imputarea mediei)
  • Dacă rezultatele s-au schimbat substanțial
  • Justificare pentru alegerea metodei finale

Exemplu:

"Analizele de sensibilitate au comparat ștergerea listwise (n = 383) cu imputarea mediei (n = 450). Rezultatele analizei de regresie au arătat modele consistente: ștergerea listwise β = .34, p < .001; imputarea mediei β = .32, p < .001. Având în vedere diferența minimă (Δβ = .02) și robutețea ștergerii listwise sub MCAR, s-a selectat ștergerea listwise pentru analizele raportate."


5. Impactul asupra Dimensiunii Eșantionului și Puterii

Raportează:

  • Dimensiunea eșantionului înainte și după gestionarea datelor lipsă
  • Dacă puterea statistică rămâne adecvată
  • Orice ajustări la analiza planificată

Exemplu:

"Dimensiunea eșantionului final (n = 383) a depășit dimensiunea țintă determinată prin analiza puterii a priori (n = 350 pentru detectarea efectelor de dimensiune medie la putere = .80, α = .05). Astfel, gestionarea datelor lipsă nu a compromis puterea statistică pentru testele de ipoteze planificate."


Model de Secțiune Metodelor (Gestionarea Datelor Lipsă)

Iată un paragraf complet de exemplu pe care îl poți adapta:

Gestionarea Datelor Lipsă. Analiza preliminară a datelor a relevat 14,9% (n = 67) din participanți cu cel puțin un răspuns lipsă, variind de la 1,2% (sex) la 8,7% (scorul de satisfacție la locul de muncă). Testul Little's MCAR a indicat date lipsă complet la întâmplare, χ²(124) = 132.18, p = .29. Comparațiile suplimentare ale caracteristicilor demografice între participanții cu date complete (n = 383) și cei cu date incomplete (n = 67) nu au arătat diferențe semnificative în privința vârstei, t(448) = 1.23, p = .22, sexului, χ²(1) = 0.87, p = .35, sau nivelului educațional, χ²(3) = 2.45, p = .48, susținând în plus presupunerea MCAR.

Având în vedere procentul scăzut de date lipsă și confirmarea MCAR, s-a utilizat ștergerea listwise pentru analizele principale, rezultând n = 383 (85,1% din eșantionul original). Această dimensiune a eșantionului a depășit dimensiunea țintă determinată prin analiza puterii a priori (n = 350), asigurând putere statistică adecvată (putere observată = .89 pentru detectarea efectelor de dimensiune medie la α = .05).

Analizele de sensibilitate au comparat ștergerea listwise cu imputarea mediei (n = 450). Rezultatele analizei de regresie au arătat modele consistente (ștergerea listwise β = .34, p < .001; imputarea mediei β = .32, p < .001), cu o diferență minimă (Δβ = .02). Dată fiind robutețea ștergerii listwise sub presupunerea MCAR și prevenirea reducerii artificiale a variabilității asociate cu imputarea mediei, s-a selectat ștergerea listwise pentru toate analizele raportate.


Întrebări Frecvente (FAQ)


Pașii Următori

Acum știi cum să gestionezi datele lipsă în Excel pentru teza ta. Iată ce să faci mai departe:

1. Diagnostichează Datele Tale Lipsă

  • Calculează procentele de date lipsă pentru fiecare variabilă
  • Testează pentru MCAR folosind comparații de grupuri
  • Identifică modele (anumite grupuri demografice cu mai multe date lipsă?)

2. Alege Metoda Potrivită

  • Folosește flowchart-ul de decizie din acest ghid
  • Documentează justificarea alegerii tale
  • Pregătește analize de sensibilitate

3. Implementează în Excel

  • Folosește formulele pas cu pas din acest ghid
  • Creează foi separate pentru date originale vs. gestionate
  • Păstrează o pistă de audit (documentează ce ai schimbat)

4. Raportează în Teza Ta

  • Scrie secțiunea Metodelor folosind modelele APA din acest ghid
  • Include analize de sensibilitate în Rezultate
  • Discută limitări în secțiunea Discuției

5. Învață Mai Mult

Pentru pașii tăi următori în analiza chestionarelor, învață cum să raportezi statisticile descriptive în format APA sau revizuiește greșelile comune în analiza chestionarelor pentru a evita alte amenințări la validitate.

Dacă trebuie să mergi dincolo de Excel pentru date lipsă complexe:

Întrebări despre gestionarea datelor lipsă pentru teza ta? Lasă un comentariu mai jos - îți voi răspunde cu sfaturi specifice situației tale!