วิธีจัดการข้อมูลหายใน Excel สำหรับวิทยานิพนธ์ (คู่มือฉบับสมบูรณ์)

By Natcharee Chaisirijirasinth

คุณเก็บข้อมูลจากแบบสอบถามสำหรับวิทยานิพนธ์เสร็จแล้ว แต่พอเปิดดูก็พบว่าบางคนข้ามคำถามไป หรือบางคนก็ทิ้งแบบสอบถามไปเลย ไม่ต้องกังวลนะ เพราะนักศึกษาเกือบทุกคนเจอปัญหานี้เมื่อวิเคราะห์ข้อมูลแบบสอบถามใน Excel คำถามไม่ใช่ว่าคุณจะมีข้อมูลหายหรือเปล่า แต่คือคุณจะจัดการมันยังไงให้ถูกต้องสำหรับวิทยานิพนธ์

ข้อมูลหายทำให้:

  • ผลการทดสอบเชื่อถือได้น้อยลง เพราะข้อมูลน้อยลง
  • ผลวิจัยอาจบิดเบือน ถ้าบางกลุ่มมีข้อมูลหายเยอะกว่ากลุ่มอื่น
  • อาจารย์ที่ปรึกษาจะถามแน่ คุณต้องอธิบายได้ว่าจัดการยังไง

ความถูกต้องของผลการวิจัย: อาจารย์ที่ปรึกษารู้ดีว่าการจัดการข้อมูลหายส่งผลต่อความถูกต้องของการทดสอบทางสถิติทุกตัว ไม่ว่าจะเป็นค่าสหสัมพันธ์ t-test ANOVA หรือการวิเคราะห์ถดถอย ล้วนให้ผลต่างกันไปตามวิธีที่คุณจัดการข้อมูลหาย ถ้าคุณจัดการผิด ผลการวิจัยทั้งหมดจะถูกตั้งคำถาม

ข่าวดีก็คือ Excel มีเครื่องมือที่ใช้จัดการข้อมูลหายได้ดี คู่มือนี้จะสอนให้คุณใช้มันสำหรับวิทยานิพนธ์ได้

คุณจะได้เรียนรู้:

  • วิธีเช็คว่าข้อมูลหายเป็นแบบไหน (MCAR, MAR, NMAR) ใน Excel
  • 4 วิธีจัดการข้อมูลหายพร้อมสูตร Excel ทีละขั้นตอน
  • วิธีเลือกว่าควรใช้วิธีไหนสำหรับวิทยานิพนธ์ของคุณ
  • วิธีรายงานข้อมูลหายในรูปแบบ APA สำหรับบทที่ 3
  • ตัวอย่างสถานการณ์จริงจากวิทยานิพนธ์และวิธีแก้

มาดูกันว่าจะจัดการข้อมูลหายยังไงให้ไม่ทำลายความถูกต้องของวิทยานิพนธ์


ทำความเข้าใจประเภทของข้อมูลหาย (MCAR, MAR, NMAR)

ก่อนจะเลือกวิธีจัดการ คุณต้องเข้าใจก่อนว่าทำไมข้อมูลถึงหาย เพราะมันจะบอกว่าควรใช้วิธีไหน

1. MCAR: Missing Completely at Random (หายแบบสุ่มจริงๆ)

ข้อมูลหายไปไม่เกี่ยวกับอะไรเลย สุ่มจริงๆ

ตัวอย่าง: คนตอบแบบสอบถามออนไลน์อยู่ แล้ว WiFi หลุด การหลุดนี้ไม่เกี่ยวกับคำตอบเรื่องความพึงพอใจในการทำงานของเขาเลย

วิธีเช็ค MCAR ใน Excel:

  1. สร้างคอลัมน์ "Missing_Flag" สำหรับแต่ละตัวแปร:
=IF(ISBLANK(C2), 1, 0)
  1. รัน t-test เปรียบเทียบคนที่ตอบครบกับคนที่ไม่ครบ:
  • ถ้าคนที่ข้ามคำถาม 5 มีคำตอบคำถาม 1-4 คล้ายกับคนที่ตอบครบ ก็น่าจะเป็น MCAR
  • ถ้าสองกลุ่มต่างกันมาก ไม่ใช่ MCAR

การทดสอบทางสถิติ: Little's MCAR Test (ต้องใช้ SPSS หรือ R นะ Excel ไม่มี)

สำหรับวิทยานิพนธ์: ข้อมูล MCAR จัดการง่ายที่สุด วิธีส่วนใหญ่ใช้ได้หมดโดยไม่ทำให้เกิดอคติ


2. MAR: Missing at Random (หายแบบสุ่ม แต่เกี่ยวกับตัวแปรอื่น)

ข้อมูลหายเกี่ยวกับตัวแปรอื่นที่เราเห็น แต่ไม่เกี่ยวกับค่าที่หายเอง

ตัวอย่าง: ผู้ชายมักข้ามคำถามเรื่องสุขภาพจิตเพราะรู้สึกอาย ไม่ใช่เพราะสุขภาพจิตแย่กว่า การหายเกี่ยวกับเพศ (ที่เราเห็น) ไม่เกี่ยวกับคะแนนสุขภาพจิต (ที่หาย)

วิธีเช็ค MAR ใน Excel:

  1. สร้าง Pivot Table เปรียบเทียบอัตราข้อมูลหายระหว่างกลุ่ม:
  • เลือกข้อมูล → Insert → PivotTable
  • Rows: เพศ (หรือตัวแปรประชากรอื่น)
  • Values: Count of Missing_Flag
  1. ถ้าบางกลุ่มมีข้อมูลหายเยอะกว่า ก็น่าจะเป็น MAR

สำหรับวิทยานิพนธ์: ข้อมูล MAR จัดการได้ด้วย imputation หรือ listwise deletion แต่ต้องรายงานรูปแบบการหายด้วย


3. NMAR: Not Missing at Random (ไม่หายแบบสุ่ม)

ข้อมูลหายเกี่ยวกับค่าที่หายเอง

ตัวอย่าง: คนที่วิตกกังวลสูงมักข้ามแบบวัดความวิตกกังวล เพราะคิดเรื่องนี้แล้วไม่สบายใจ การหายเกี่ยวกับระดับความวิตกกังวลโดยตรง (ค่าที่หาย)

วิธีสังเกต NMAR ใน Excel:

ยากที่จะเช็คได้ชัดเจน แต่ให้สงสัยเมื่อ:

  • คำถามละเอียดอ่อน (รายได้ สุขภาพจิต พฤติกรรมเบี่ยงเบน) มีข้อมูลหายเยอะ
  • ข้อท้ายๆ ในแบบสอบถามหายเยอะ (เพราะเหนื่อย)
  • คนที่มีคะแนนสุดโต่งในตัวแปรคล้ายกันมีข้อมูลหายเยอะ

สำหรับวิทยานิพนธ์: ข้อมูล NMAR ค่อนข้างยุ่งยาก อาจต้องใช้เทคนิคขั้นสูง เช่น multiple imputation หรือต้องทำ sensitivity analysis

หมายเหตุเรื่องการตั้งค่าภูมิภาค: สูตร Excel ใช้ตัวคั่นที่แตกต่างกันขึ้นอยู่กับการตั้งค่าภูมิภาค Excel ในสหรัฐ/UK ใช้เครื่องหมายจุลภาค: =IF(ISBLANK(A1),0,A1) ในขณะที่ Excel ในยุโรปใช้เครื่องหมายอัฒภาค: =IF(ISBLANK(A1);0;A1) ถ้าสูตรแสดงข้อผิดพลาด ลองเปลี่ยนเครื่องหมายจุลภาคเป็นอัฒภาค (หรือกลับกัน) วิธีตรวจสอบหรือเปลี่ยนการตั้งค่า:

  • Windows: File → Options → Advanced → Editing options → "Use system separators"
  • Mac: System Preferences → Language & Region → Advanced → Number separators

วิธีที่ 1: Listwise Deletion (ลบคนที่ตอบไม่ครบออก)

ใช้เมื่อ:

  • ข้อมูลหาย น้อยกว่า 5%
  • ข้อมูลเป็น MCAR (เช็คแล้วจากข้างบน)
  • กลุ่มตัวอย่างใหญ่พอ ที่จะลบบางคนออกได้

ไม่ควรใช้เมื่อ:

  • ข้อมูลหายเกิน 10% (เสียอำนาจทางสถิติเยอะ)
  • ข้อมูลเป็น MAR หรือ NMAR (จะเกิดอคติ)
  • กลุ่มตัวอย่างเล็ก (ทุกคนมีค่า)

ขั้นตอน Excel สำหรับ Listwise Deletion

ขั้นตอนที่ 1: หาว่าแถวไหนมีข้อมูลหาย

ก่อนอื่น ต้องหาว่าแถวไหนมีค่าหายในตัวแปรสำคัญที่จะวิเคราะห์

ชุดข้อมูลแบบสำรวจที่มีข้อมูลหายใน Excel - ช่องว่างที่บ่งบอกคำตอบที่หาย

รูปที่ 1: ชุดข้อมูลแบบสำรวจที่มีข้อมูลหายใน Excel - ช่องว่างที่บ่งบอกคำตอบที่หาย

สร้างคอลัมน์ช่วยเพื่อนับช่องว่างในแต่ละแถว:

=COUNTBLANK(B2:Y2)

สูตร COUNTBLANK ใน Excel เพื่อหาแถวที่มีข้อมูลหาย - คอลัมน์ช่วยแสดงจำนวนช่องว่าง

รูปที่ 2: สูตร COUNTBLANK ใน Excel เพื่อหาแถวที่มีข้อมูลหาย - คอลัมน์ช่วยแสดงจำนวนช่องว่าง

โดย B2:Y2 คือคอลัมน์ตัวแปรของคุณ ลากสูตรลงสำหรับทุกแถว

ขั้นตอนที่ 2: กรองเอาเฉพาะคนที่ตอบครบ

ใช้ฟังก์ชัน FILTER สร้างชุดข้อมูลที่สะอาด:

=FILTER(A2:Y1000, Z2:Z1000=0, "ไม่มีคนตอบครบ")

สูตร FILTER ใน Excel สร้างชุดข้อมูลที่มีเฉพาะคนที่ตอบครบ - ไม่มีข้อมูลหาย

รูปที่ 3: สูตร FILTER ใน Excel สร้างชุดข้อมูลที่มีเฉพาะคนที่ตอบครบ - ไม่มีข้อมูลหาย

โดย:

  • A2:Y1000 = ข้อมูลทั้งหมดของคุณ
  • Z2:Z1000 = คอลัมน์ COUNTBLANK
  • 0 = เก็บเฉพาะแถวที่ไม่มีช่องว่าง

ขั้นตอนที่ 3: คัดลอกข้อมูลที่กรองแล้วไปชีตใหม่

  1. เลือกผลลัพธ์ FILTER
  2. Copy → Paste Special → Values
  3. ตั้งชื่อชีตว่า "Complete_Cases"

ขั้นตอนที่ 4: วิเคราะห์ข้อมูลที่สมบูรณ์

รันการทดสอบทางสถิติทั้งหมด (Cronbach's Alpha, สถิติเชิงพรรณนา, t-test, ANOVA, correlation) กับชุดข้อมูลที่กรองแล้วนี้เท่านั้น


การรายงาน APA สำหรับ Listwise Deletion

ในบทที่ 3 (Methods) ให้เขียนแบบนี้:

"การวิเคราะห์ข้อมูลหายพบว่า 8.2% (n = 37) มีคำตอบหายอย่างน้อย 1 ข้อ Little's MCAR test บ่งชี้ว่าข้อมูลหายแบบสุ่ม χ²(84) = 92.14, p = .26 ใช้ listwise deletion ทำให้กลุ่มตัวอย่างสุดท้ายเป็น n = 413 (91.8% ของกลุ่มตัวอย่างเดิม) Sensitivity analysis เปรียบเทียบลักษณะประชากรของคนที่ตอบครบกับไม่ครบ ไม่พบความแตกต่างที่มีนัยสำคัญ (ทุก p > .05) สนับสนุนข้อสมมติ MCAR"

สิ่งสำคัญที่ต้องรายงาน:

  1. เปอร์เซ็นต์และจำนวนคนที่มีข้อมูลหาย
  2. ผลการทดสอบ MCAR (ถ้ามี)
  3. จำนวนกลุ่มตัวอย่างสุดท้ายหลังลบ
  4. การเปรียบเทียบคนที่ตอบครบกับไม่ครบ - ใช้ t-test เปรียบเทียบค่าเฉลี่ยของตัวแปรที่สังเกตได้

วิธีที่ 2: Mean/Median Imputation (เติมด้วยค่าเฉลี่ย/มัธยฐาน)

ใช้เมื่อ:

  • ข้อมูลหาย 5-10% (เยอะไปสำหรับลบ แต่น้อยพอสำหรับเติม)
  • ข้อมูลเป็น MCAR หรือ MAR
  • เป็นตัวแปร Likert หรือตัวแปรต่อเนื่อง (ไม่ใช่หมวดหมู่)
  • ต้องการรักษาจำนวนกลุ่มตัวอย่าง

ไม่ควรใช้เมื่อ:

  • ข้อมูลหายเกิน 10% (ทำให้ความแปรปรวนลดลงเยอะ)
  • เป็นข้อมูลหมวดหมู่ (เพศ อาชีพ หาค่าเฉลี่ยไม่ได้)
  • เป็นตัวแปรหลักในการวิเคราะห์ (ทำให้ความสัมพันธ์อ่อนลง)

ขั้นตอน Excel สำหรับ Mean Imputation

ขั้นตอนที่ 1: คำนวณค่าเฉลี่ยสำหรับแต่ละตัวแปร

ในเซลล์ด้านบน (เช่น แถว 1):

=AVERAGE(C2:C1000)

สูตรนี้คำนวณค่าเฉลี่ยของค่าที่ไม่ว่างในคอลัมน์ C (เช่น คำถามที่ 1)

ขั้นตอนที่ 2: แทนที่ช่องว่างด้วยค่าเฉลี่ย

สร้างคอลัมน์ใหม่โดยใช้ IF + ISBLANK:

=IF(ISBLANK(C2), $C$1, C2)

สูตร IF ISBLANK ใน Excel แทนที่ค่าหายด้วยค่าเฉลี่ยสำหรับ imputation

รูปที่ 4: สูตร IF ISBLANK ใน Excel แทนที่ค่าหายด้วยค่าเฉลี่ยสำหรับ imputation

โดย:

  • C2 = เซลล์เดิม
  • CC1 = เซลล์ค่าเฉลี่ย (ใส่ $ เพื่อล็อคตำแหน่ง)
  • ถ้า C2 ว่าง ใช้ค่าเฉลี่ย ถ้าไม่ว่าง ใช้ค่าเดิม

ขั้นตอนที่ 3: ลากสูตรลง

คัดลอกสูตรสำหรับทุกแถวและคอลัมน์


Median Imputation (สำหรับข้อมูลที่เบ้)

ถ้าข้อมูลมีค่าสุดโต่ง (outliers) มัธยฐานจะดีกว่าค่าเฉลี่ย

สูตร:

=MEDIAN(C2:C1000)

แล้วใช้ IF เหมือนเดิม:

=IF(ISBLANK(C2), $C$1, C2)

โดย CC1 ตอนนี้เป็นมัธยฐาน

ใช้มัธยฐานเมื่อ:

  • ระดับ Likert ที่มีค่าสุดโต่ง (ส่วนใหญ่ตอบ 4-5 แต่บางคนตอบ 1)
  • ข้อมูลรายได้หรืออายุ (มักเบ้)
  • ตัวแปรใดๆ ที่ outliers จะทำให้ค่าเฉลี่ยผิดเพี้ยน

การรายงาน APA สำหรับ Mean Imputation

"ข้อมูลหายอยู่ระหว่าง 2.3% (ตัวแปร X) ถึง 9.1% (ตัวแปร Y) Little's MCAR test บ่งชี้ว่าข้อมูลหายแบบสุ่ม χ²(112) = 118.45, p = .32 ใช้ mean imputation สำหรับข้อ Likert โดยใช้ค่าเฉลี่ยเฉพาะตัวแปรที่คำนวณจากคนที่ตอบ Sensitivity analysis เปรียบเทียบผลลัพธ์ระหว่าง listwise deletion กับ mean imputation ไม่พบความแตกต่างสำคัญในผลการถดถอย (ความแตกต่าง β < .03, ทุก p > .05) สนับสนุนความแข็งแกร่งของข้อสรุป"

สิ่งสำคัญที่ต้องรายงาน:

  1. ช่วงของข้อมูลหายในแต่ละตัวแปร
  2. เหตุผลที่เลือก mean imputation
  3. Sensitivity analysis เปรียบเทียบผลลัพธ์แบบเติมกับไม่เติม
  4. ผลกระทบต่อความแปรปรวน (เช่น "SD ลดลงน้อยกว่า 5%")

วิธีที่ 3: Forward/Backward Fill (สำหรับข้อมูลระยะยาว)

ใช้เมื่อ:

  • เป็นข้อมูลระยะยาว (วัดซ้ำหลายครั้ง)
  • คาดว่าค่าจะคงที่ในตัวแปรนั้น (เช่น ประชากร กลุ่มการรักษา)
  • คนทิ้งแบบสอบถามตอนท้ายๆ (หายตรงการติดตามครั้งสุดท้าย)

ไม่ควรใช้เมื่อ:

  • เป็นข้อมูล cross-sectional (วัดครั้งเดียว)
  • ตัวแปรที่เปลี่ยนเร็ว (อารมณ์ อาการ)
  • ข้อมูลหายตอนต้น (ไม่มีค่าก่อนหน้าให้คัดลอก)

ขั้นตอน Excel สำหรับ Forward Fill (LOCF)

สถานการณ์: คุณมีข้อมูลรายเดือนตั้งแต่มกราคมถึงมิถุนายน บางคนทิ้งไปในเดือนพฤษภาคม คุณต้องการ "คัดลอกไปข้างหน้า" ค่าล่าสุดของเขา

ขั้นตอนที่ 1: ตั้งค่าข้อมูล

IDม.ค.ก.พ.มี.ค.เม.ย.พ.ค.มิ.ย.
00125272628
002302931303231

ขั้นตอนที่ 2: สูตร Forward Fill

ในคอลัมน์พฤษภาคม (E2):

=IF(ISBLANK(E2), D2, E2)

หมายความว่า: ถ้าพฤษภาคมว่าง ใช้ค่าจากเมษายน (D2) ถ้าไม่ว่าง ใช้ค่าพฤษภาคม

ขั้นตอนที่ 3: ขยายไปหลายเดือน

สำหรับมิถุนายน (F2):

=IF(ISBLANK(F2), E2, F2)

สูตรนี้ต่อจากการเติมก่อนหน้า ถ้าพฤษภาคมก็ว่าง ก็คัดลอกจากเมษายน


สูตร Backward Fill

ใช้เมื่อต้องการ "คัดลอกย้อนกลับ" จากค่าที่มีทีหลัง

=IF(ISBLANK(C2), D2, C2)

หมายความว่า: ถ้ามีนาคมว่าง ใช้เมษายน ถ้าไม่ว่าง ใช้มีนาคม

ใช้ในวิทยานิพนธ์เมื่อ: คนหายตรงจุดเวลาต้นๆ แต่มีข้อมูลตอนหลัง


สูตรขั้นสูง: Forward Fill พร้อมเช็ค ID

ถ้ามีหลายคนในชีตเดียว ต้องเช็คไม่ให้คัดลอกข้ามคน:

=IF(A2<>A1, C2, IF(ISBLANK(C2), D1, C2))

หมายความว่า:

  • ถ้า ID เปลี่ยน (A2 ไม่เท่ากับ A1) ไม่เติม เริ่มใหม่
  • ถ้า ID เดิมและว่าง ใช้ค่าก่อนหน้า

การรายงาน APA สำหรับ Forward/Backward Fill

"สำหรับข้อมูลระยะยาวที่หาย ใช้วิธี Last Observation Carried Forward (LOCF) สำหรับคนที่ทิ้งก่อนการประเมินสุดท้าย (n = 23, 5.1%) LOCF สมมติว่าค่าคงที่หลังทิ้ง ซึ่งสมเหตุสมผลสำหรับลักษณะประชากรและตัวแปรกลุ่ม Sensitivity analysis เปรียบเทียบการวิเคราะห์แบบ intention-to-treat (LOCF) กับการวิเคราะห์เฉพาะคนที่ตอบครบ (n = 427) แสดงผลลัพธ์ที่สอดคล้องกัน (ความแตกต่าง OR < 1.15, ทุก p > .05) สนับสนุนความถูกต้องของข้อสมมติ LOCF"

สิ่งสำคัญที่ต้องรายงาน:

  1. จำนวนและเปอร์เซ็นต์คนที่ใช้ forward/backward fill
  2. เหตุผลที่สมมติว่าค่าคงที่
  3. Sensitivity analysis (LOCF vs. คนที่ตอบครบ)
  4. ข้อจำกัด (เช่น "LOCF อาจประมาณการปรับปรุงต่ำไป")

วิธีที่ 4: สร้างหมวดหมู่ "หาย" (สำหรับตัวแปรหมวดหมู่)

ใช้เมื่อ:

  • เป็นตัวแปรหมวดหมู่ (เพศ อาชีพ ระดับการศึกษา)
  • สงสัยว่าการไม่ตอบมีความหมาย (เช่น ไม่ยอมบอกรายได้)
  • ต้องการรักษาทุกคนไว้ในการวิเคราะห์

ไม่ควรใช้เมื่อ:

  • เป็นตัวแปรต่อเนื่อง (ไม่มี "อายุ = หาย")
  • การไม่ตอบเป็นสุ่มจริงๆ (เพิ่มความซับซ้อนโดยไม่จำเป็น)

ขั้นตอน Excel สำหรับหมวดหมู่ "หาย"

สถานการณ์: คุณมีคอลัมน์ "ระดับการศึกษา" ที่มีบางช่องว่าง

ขั้นตอนที่ 1: สูตรสร้างหมวดหมู่ "หาย"

=IF(ISBLANK(E2), "ไม่รายงาน", E2)

สูตร IF ISBLANK สร้างหมวดหมู่ไม่รายงานสำหรับค่าเพศที่หายใน Excel

รูปที่ 5: สูตร IF ISBLANK สร้างหมวดหมู่ไม่รายงานสำหรับค่าเพศที่หายใน Excel

สูตรนี้สร้างหมวดหมู่ใหม่ชื่อ "ไม่รายงาน" สำหรับช่องว่าง

ขั้นตอนที่ 2: เช็คการกระจาย

สร้าง Pivot Table:

  • Rows: ระดับการศึกษา (รวม "ไม่รายงาน")
  • Values: Count

ขั้นตอนที่ 3: รันการวิเคราะห์โดยมี "ไม่รายงาน" เป็นกลุ่มหนึ่ง

เช่น ANOVA หรือ Chi-Square เปรียบเทียบ:

  • มัธยมศึกษา
  • ปริญญาตรี
  • ปริญญาโท
  • ไม่รายงาน ← เป็นกลุ่มแยก

การตีความผลลัพธ์กับหมวดหมู่ "หาย"

ถ้ากลุ่ม "ไม่รายงาน" ต่างจากกลุ่มอื่นอย่างมีนัยสำคัญ:

  • รายงานรูปแบบนี้ (เช่น "คนที่ไม่รายงานการศึกษามีคะแนนความพึงพอใจต่ำกว่า F(3, 446) = 4.23, p = .006")
  • อภิปรายว่าทำไมการหายอาจมีความหมาย (เช่น การศึกษาต่ำ → ลังเลที่จะบอก)

ถ้ากลุ่ม "ไม่รายงาน" ไม่ต่างจากกลุ่มอื่น:

  • รายงานว่าไม่มีผลของการไม่ตอบ (สนับสนุน MCAR)
  • พิจารณารวมกับกลุ่มอื่นหรือใช้ listwise deletion

การรายงาน APA สำหรับหมวดหมู่ "หาย"

"สำหรับตัวแปรประชากรหมวดหมู่ สร้างหมวดหมู่แยก 'ไม่รายงาน' เพื่อรักษาทุกกรณี (ระดับการศึกษา: n = 34 ไม่รายงาน, 7.6%) ANOVA เปรียบเทียบกลุ่มการศึกษาพบว่ากลุ่ม 'ไม่รายงาน' ไม่ต่างจากกลุ่มมัธยมศึกษาในตัวแปรตามอย่างมีนัยสำคัญ F(4, 445) = 2.18, p = .07, η² = .019 Sensitivity analysis ที่ไม่รวมกลุ่ม 'ไม่รายงาน' ได้ผลลัพธ์คล้ายกัน (ความแตกต่าง F < 0.30) บ่งชี้ว่าการรวมไม่ได้ทำให้ข้อสรุปบิดเบือน"

สิ่งสำคัญที่ต้องรายงาน:

  1. จำนวนและเปอร์เซ็นต์ในหมวดหมู่ "ไม่รายงาน"
  2. การเปรียบเทียบทางสถิติกับกลุ่มอื่น
  3. Sensitivity analysis (รวม vs. ไม่รวม "ไม่รายงาน")
  4. การตีความ (ทำไมการหายอาจมีความหมาย)

แผนผังตัดสินใจ: ควรใช้วิธีไหน?

ใช้แผนผังตัดสินใจนี้เพื่อเลือกวิธีจัดการข้อมูลหายที่เหมาะสมสำหรับสถานการณ์เฉพาะของวิทยานิพนธ์ของคุณ

แผนผังตัดสินใจจัดการข้อมูลหาย - เลือกวิธีที่เหมาะสมสำหรับการจัดการข้อมูลหายในการวิเคราะห์แบบสอบถามวิทยานิพนธ์

รูป: แผนผังตัดสินใจจัดการข้อมูลหาย - เลือกวิธีที่เหมาะสมสำหรับการจัดการข้อมูลหายในการวิเคราะห์แบบสอบถามวิทยานิพนธ์

ทำตามคำถามเหล่านี้เพื่อเลือกวิธีที่เหมาะกับวิทยานิพนธ์ของคุณ:

คำถามที่ 1: ข้อมูลหายกี่เปอร์เซ็นต์?

  • น้อยกว่า 5% → ไปคำถามที่ 2
  • 5-10% → ไปคำถามที่ 3
  • เกิน 10% → ไปคำถามที่ 4

คำถามที่ 2: ข้อมูลเป็น MCAR ไหม? (เช็คด้วยการเปรียบเทียบกลุ่ม)

  • ใช่ (MCAR)ใช้ Listwise Deletion
    • ง่าย อาจารย์ยอมรับ อคติน้อย
  • ไม่ใช่ (MAR/NMAR) → ไปคำถามที่ 3

คำถามที่ 3: ตัวแปรเป็นตัวเลขต่อเนื่องหรือหมวดหมู่?

  • ต่อเนื่อง (Likert อายุ คะแนน) → ไปคำถามที่ 5
  • หมวดหมู่ (เพศ อาชีพ)ใช้หมวดหมู่ "หาย"
    • รักษาข้อมูลทั้งหมด ดูรูปแบบการหายได้

คำถามที่ 4: เป็นข้อมูลระยะยาว (วัดซ้ำ) ไหม?

  • ใช่ใช้ Forward/Backward Fill
    • สมมติว่าค่าคงที่ในช่วงเวลา
    • ต้องรายงาน sensitivity analysis
  • ไม่ใช่ → ไปคำถามที่ 5

คำถามที่ 5: ยอมรับได้ไหมถ้าความแปรปรวนลดลง?

  • ยอมรับได้ (ไม่ใช่ตัวแปรหลัก)ใช้ Mean/Median Imputation
    • รักษาจำนวนกลุ่มตัวอย่าง
    • ต้องรายงานผลกระทบต่อ SD
  • ยอมรับไม่ได้ (ตัวแปรผลลัพธ์หลัก)พิจารณา Multiple Imputation (ต้องใช้ SPSS/R)

ตัวอย่างสถานการณ์จริงจากวิทยานิพนธ์

สถานการณ์ที่ 1: คำตอบไม่ครบในระดับ Likert

ปัญหา: คนตอบได้ 8 จาก 10 ข้อในแบบวัดความพึงพอใจในการทำงาน

วิธีแก้:

  1. ถ้าหายน้อยกว่า 20% ของข้อในแบบวัด: ใช้ค่าเฉลี่ยของคนนั้นเอง
    • สูตร: =IF(ISBLANK(C2), AVERAGE($C2:$L2), C2)
    • เติมจากคำตอบของคนนั้นในข้ออื่นๆ
  2. ถ้าหาย ≥20% ของข้อ: ลบคนนั้นออกจากการคำนวณคะแนนแบบวัด
    • คะแนนแบบวัดที่เติมเยอะเกินไปไม่น่าเชื่อถือ

การรายงาน APA:

"คนที่มีข้อหายน้อยกว่า 20% ในแบบวัด (n = 47) ถูกเติมด้วยค่าเฉลี่ยของข้อที่คนนั้นตอบ คนที่มีข้อหาย ≥20% (n = 12) ถูกลบออกจากการคำนวณคะแนนแบบวัดเพื่อรักษาความน่าเชื่อถือ (Cronbach's α = .89 สำหรับคนที่ตอบครบ)"


สถานการณ์ที่ 2: ข้อมูลประชากรหาย (อายุ เพศ การศึกษา)

ปัญหา: 15 คนไม่บอกอายุ 22 คนไม่บอกการศึกษา

วิธีแก้:

  1. สำหรับตัวแปรต่อเนื่อง (อายุ):

    • ถ้าอายุไม่ใช่ตัวแปรหลัก → ใช้ mean imputation
    • ถ้าอายุเป็นตัวแปรหลัก → รายงาน sensitivity analysis (รวม vs. ไม่รวมอายุหาย)
  2. สำหรับตัวแปรหมวดหมู่ (การศึกษา):

    • สร้างหมวดหมู่ "ไม่รายงาน" (ดูวิธีที่ 4)
    • เช็คว่า "ไม่รายงาน" ต่างจากกลุ่มอื่นไหม

การรายงาน APA:

"อายุที่หาย (n = 15, 3.3%) ถูกเติมด้วยอายุเฉลี่ยของกลุ่มตัวอย่าง (M = 34.2) การศึกษาที่หาย (n = 22, 4.9%) ถูกเข้ารหัสเป็น 'ไม่รายงาน' และรวมเป็นกลุ่มแยกในการวิเคราะห์ กลุ่ม 'ไม่รายงาน' ไม่ต่างจากกลุ่มมัธยมศึกษาในตัวแปรตามอย่างมีนัยสำคัญ t(418) = 0.87, p = .39"


สถานการณ์ที่ 3: คนทิ้งเยอะตอนท้ายแบบสอบถาม

ปัญหา: คำถาม 30 ข้อแรกหาย 5% คำถาม 10 ข้อสุดท้ายหาย 25%

วิธีแก้:

  1. หาสาเหตุ: เหนื่อย? คำถามละเอียดอ่อน? ปัญหาเทคนิค?
  2. ตัวเลือกในการวิเคราะห์:
    • ตัวเลือก A: วิเคราะห์คำถามต้นๆ แยกจากคำถามท้ายๆ
    • ตัวเลือก B: ใช้ listwise deletion เฉพาะการวิเคราะห์ที่ต้องใช้คำถามท้ายๆ
    • ตัวเลือก C: รายงานว่าคำถามท้ายๆ มีอำนาจทางสถิติต่ำ และตีความด้วยความระมัดระวัง

การรายงาน APA:

"อัตราการตอบลดลงจาก 95% (คำถาม 1-30) เป็น 75% (คำถาม 31-40) บ่งบอกถึงความเหนื่อยล้าของผู้ตอบ การวิเคราะห์หลักใช้ข้อมูลที่มีครบ (คำถาม 1-30, n = 427) การวิเคราะห์รองที่รวมคำถาม 31-40 ใช้ listwise deletion (n = 337, 75% ของกลุ่มตัวอย่างเดิม) การเปรียบเทียบประชากรระหว่างคนที่ตอบครบกับไม่ครบ ไม่พบความแตกต่างที่มีนัยสำคัญ (ทุก p > .05) สนับสนุนความสามารถในการสรุปทั่วไป"


สถานการณ์ที่ 4: ข้อมูลหายสำหรับคำถามละเอียดอ่อน (รายได้ สุขภาพจิต)

ปัญหา: 30% ของคนข้ามคำถามเรื่องรายได้ประจำปี

วิธีแก้:

  1. ยอมรับว่าข้อมูลน่าจะเป็น NMAR (คนรายได้สูงหรือต่ำมากอาจไม่อยากบอก)
  2. อย่าใช้ mean imputation จะทำให้เกิดอคติมาก
  3. ตัวเลือก:
    • ตัวเลือก A: รายงานเฉพาะคนที่ตอบ (n = 315) และยอมรับข้อจำกัด
    • ตัวเลือก B: สร้างหมวดหมู่รายได้ (ต่ำ/กลาง/สูง/ไม่รายงาน) และวิเคราะห์รูปแบบ
    • ตัวเลือก C: ใช้ multiple imputation กับตัวแปรทำนาย (ต้องใช้ SPSS/R)

การรายงาน APA:

"รายได้ประจำปีมีอัตราไม่ตอบสูง (30.2%, n = 136) น่าจะเพราะความละเอียดอ่อนของคำถาม เนื่องจากข้อมูลน่าจะเป็น NMAR (คนรายได้สุดโต่งอาจไม่ยอมบอก) จึงไม่ใช้ imputation การวิเคราะห์ที่เกี่ยวกับรายได้รายงานเฉพาะคนที่ตอบ (n = 314) และควรตีความด้วยความระมัดระวังเพราะอาจมีอคติจากการเลือก การเปรียบเทียบคนที่ตอบกับไม่ตอบในตัวแปรอื่น (อายุ เพศ การศึกษา) พบว่าคนไม่ตอบมีแนวโน้มอายุมากกว่า (M = 42.3 vs. 36.1, p = .002) บ่งบอกว่าไม่ใช่การหายแบบสุ่ม"


วิธีรายงานข้อมูลหายในวิทยานิพนธ์ (บทที่ 3 Methods APA)

อาจารย์ที่ปรึกษาจะมองหาสิ่งเหล่านี้ในบทที่ 3 ของคุณ:

1. ปริมาณข้อมูลหาย

รายงาน:

  • เปอร์เซ็นต์รวมของข้อมูลหาย
  • ข้อมูลหายในแต่ละตัวแปร (โดยเฉพาะตัวแปรสำคัญ)
  • จำนวนคนที่ได้รับผลกระทบ

ตัวอย่าง:

"ข้อมูลหายมีน้อย อยู่ระหว่าง 1.2% (เพศ) ถึง 8.7% (คะแนนความพึงพอใจในการทำงาน) รวมแล้ว 67 จาก 450 คน (14.9%) มีคำตอบหายอย่างน้อย 1 ข้อ"


2. รูปแบบข้อมูลหาย (วิเคราะห์ MCAR/MAR/NMAR)

รายงาน:

  • ผล Little's MCAR test (ถ้ามี)
  • การเปรียบเทียบคนที่ตอบครบกับไม่ครบ
  • รูปแบบที่พบ (เช่น บางกลุ่มประชากรมีข้อมูลหายเยอะกว่า)

ตัวอย่าง:

"Little's MCAR test บ่งชี้ว่าข้อมูลหายแบบสุ่ม χ²(124) = 132.18, p = .29 การเปรียบเทียบเพิ่มเติมระหว่างคนที่มีข้อมูลครบกับไม่ครบ ไม่พบความแตกต่างที่มีนัยสำคัญในอายุ t(448) = 1.23, p = .22, เพศ χ²(1) = 0.87, p = .35, หรือระดับการศึกษา χ²(3) = 2.45, p = .48"


3. วิธีการจัดการที่เลือก

รายงาน:

  • วิธีที่ใช้ (listwise deletion, mean imputation ฯลฯ)
  • ทำไมถึงเลือกวิธีนั้น (เหตุผล)
  • ข้อสมมติที่ใช้

ตัวอย่าง:

"เนื่องจากข้อมูลหายน้อย (8.7%) และยืนยันว่าเป็น MCAR จึงใช้ listwise deletion สำหรับการวิเคราะห์หลัก ทำให้กลุ่มตัวอย่างสุดท้ายเป็น n = 383 (85.1% ของกลุ่มตัวอย่างเดิม) รักษาอำนาจทางสถิติที่เพียงพอสำหรับการวิเคราะห์ที่วางแผนไว้ (power = .89 สำหรับการตรวจจับ effect size ขนาดกลางที่ α = .05)"


4. Sensitivity Analyses

รายงาน:

  • การเปรียบเทียบผลลัพธ์ระหว่างวิธีต่างๆ (เช่น listwise deletion vs. mean imputation)
  • ผลลัพธ์เปลี่ยนไปมากไหม
  • เหตุผลที่เลือกวิธีสุดท้าย

ตัวอย่าง:

"Sensitivity analysis เปรียบเทียบ listwise deletion (n = 383) กับ mean imputation (n = 450) ผลการถดถอยแสดงรูปแบบที่สอดคล้องกัน: listwise deletion β = .34, p < .001; mean imputation β = .32, p < .001 เนื่องจากความแตกต่างน้อย (Δβ = .02) และความแข็งแกร่งของ listwise deletion ภายใต้ MCAR จึงเลือก listwise deletion สำหรับการวิเคราะห์ที่รายงาน"


5. ผลกระทบต่อขนาดกลุ่มตัวอย่างและอำนาจทางสถิติ

รายงาน:

  • ขนาดกลุ่มตัวอย่างก่อนและหลังจัดการข้อมูลหาย
  • อำนาจทางสถิติยังเพียงพอไหม
  • การปรับเปลี่ยนการวิเคราะห์ที่วางแผนไว้

ตัวอย่าง:

"กลุ่มตัวอย่างสุดท้าย (n = 383) เกินขนาดเป้าหมายจากการวิเคราะห์อำนาจก่อนหน้า (n = 350 สำหรับการตรวจจับ effect size ขนาดกลางที่ power = .80, α = .05) ดังนั้นการจัดการข้อมูลหายไม่ได้ทำให้อำนาจทางสถิติลดลงสำหรับการทดสอบสมมติฐานที่วางแผนไว้"


ตัวอย่างย่อหน้าบทที่ 3 (การจัดการข้อมูลหาย)

นี่คือย่อหน้าตัวอย่างที่คุณปรับใช้ได้:

การจัดการข้อมูลหาย. การวิเคราะห์ข้อมูลเบื้องต้นพบ 14.9% (n = 67) มีคำตอบหายอย่างน้อย 1 ข้อ อยู่ระหว่าง 1.2% (เพศ) ถึง 8.7% (คะแนนความพึงพอใจในการทำงาน) Little's MCAR test บ่งชี้ว่าข้อมูลหายแบบสุ่ม χ²(124) = 132.18, p = .29 การเปรียบเทียบลักษณะประชากรเพิ่มเติมระหว่างคนที่มีข้อมูลครบ (n = 383) กับไม่ครบ (n = 67) ไม่พบความแตกต่างที่มีนัยสำคัญในอายุ t(448) = 1.23, p = .22, เพศ χ²(1) = 0.87, p = .35, หรือระดับการศึกษา χ²(3) = 2.45, p = .48 สนับสนุนข้อสมมติ MCAR

เนื่องจากข้อมูลหายน้อยและยืนยัน MCAR จึงใช้ listwise deletion สำหรับการวิเคราะห์หลัก ทำให้ n = 383 (85.1% ของกลุ่มตัวอย่างเดิม) ขนาดนี้เกินเป้าหมายจากการวิเคราะห์อำนาจก่อนหน้า (n = 350) รับประกันอำนาจทางสถิติที่เพียงพอ (power ที่สังเกตได้ = .89 สำหรับการตรวจจับ effect size ขนาดกลางที่ α = .05)

Sensitivity analysis เปรียบเทียบ listwise deletion กับ mean imputation (n = 450) ผลการถดถอยแสดงรูปแบบที่สอดคล้องกัน (listwise deletion β = .34, p < .001; mean imputation β = .32, p < .001) ความแตกต่างน้อย (Δβ = .02) เนื่องจากความแข็งแกร่งของ listwise deletion ภายใต้ข้อสมมติ MCAR และการป้องกันการลดความแปรปรวนเทียมที่เกี่ยวกับ mean imputation จึงเลือก listwise deletion สำหรับการวิเคราะห์ที่รายงานทั้งหมด


คำถามที่พบบ่อย (FAQ)


ขั้นตอนต่อไป

ตอนนี้คุณรู้วิธีจัดการข้อมูลหายใน Excel สำหรับวิทยานิพนธ์แล้ว ทำตามขั้นตอนนี้ต่อได้เลย:

1. วินิจฉัยข้อมูลหายของคุณ

  • คำนวณเปอร์เซ็นต์ข้อมูลหายในแต่ละตัวแปร
  • เช็ค MCAR ด้วยการเปรียบเทียบกลุ่ม
  • ดูรูปแบบ (บางกลุ่มประชากรหายเยอะกว่าไหม?)

2. เลือกวิธีที่เหมาะสม

  • ใช้แผนผังตัดสินใจจากคู่มือนี้
  • จดเหตุผลที่เลือก
  • เตรียม sensitivity analysis

3. ทำใน Excel

  • ใช้สูตรทีละขั้นตอนจากคู่มือนี้
  • สร้างชีตแยกสำหรับข้อมูลเดิมกับข้อมูลที่จัดการแล้ว
  • เก็บบันทึกสิ่งที่เปลี่ยน (audit trail)

4. รายงานในวิทยานิพนธ์

  • เขียนบทที่ 3 ตามแม่แบบ APA จากคู่มือนี้
  • รวม sensitivity analysis ในผลลัพธ์
  • อภิปรายข้อจำกัดในบทอภิปราย

5. เรียนรู้เพิ่มเติม

สำหรับขั้นตอนถัดไปในการวิเคราะห์แบบสอบถาม เรียนรู้วิธีรายงานสถิติเชิงพรรณนาในรูปแบบ APA หรือดูข้อผิดพลาดทั่วไปในการวิเคราะห์แบบสอบถาม เพื่อหลีกเลี่ยงปัญหาความถูกต้องอื่นๆ

ถ้าต้องใช้เทคนิคที่เกิน Excel:

มีคำถามเกี่ยวกับการจัดการข้อมูลหายสำหรับวิทยานิพนธ์ของคุณไหม? ทิ้งความคิดเห็นด้านล่าง แล้วฉันจะตอบด้วยคำแนะนำที่เหมาะกับสถานการณ์ของคุณ!