Sunday, December 18, 2016

Naked Statistics ทำไมต้องเรียนสถิติ?

Naked Statistics (2013) by Charles Wheelan


สถิติคืออะไร เรียนไปทำไม เป็นสิ่งที่อาจารย์ไม่เคยบอก เข้าห้องเรียนไปแบบงงๆ สูตรเต็มไปหมดเลยแล้วก็สอบให้มันผ่านๆไป ... แค่นั้น จริงหรอ !?

คนส่วนใหญ่บอกว่าไม่ชอบวิชาคณิตศาสตร์ เลยไม่ชอบสถิติ แต่สองวิชานี้ต่างกันตรงนี้ฮะ ... pure mathematics เป็นเรื่องของการคำนวณพิสูจน์สมการล้วนๆ ... ส่วน statistics เป็นเรื่องของความหมายที่มากับตัวเลข... ซึ่งถ้าเราเข้าใจความหมายและที่มาของตัวเลขเหล่านั้น จะทำให้เราเข้าใจปรากฎการณ์ที่เรากำลังศึกษาอยู่ และช่วยให้เราตัดสินใจเรื่องนั้นๆได้ดีขึ้นอย่างมาก ก. ล้านตัว และนี่คือประโยชน์ของการเรียนสถิตินั่นเอง

สถิติช่วยให้เราเข้าใจทุกสิ่งทุกอย่างบนโลกใบนี้ เริ่มตั้งแต่ DNA ของมนุษย์ไปจนถึงการซื้อล๊อตเตอรี่ แพทย์สามารถใช้สถิติเพื่อหาปัจจัยที่ส่งผลกับความเสี่ยงของโรคต่างๆได้ นักการตลาดใช้สถิติเพื่อพยากรณ์ยอดขาย เป็นต้น ไม่ว่าวันนี้เราจะทำงานในสายงานไหน ความรู้ความเข้าใจในสถิติจะช่วยให้เราทำงานได้ดีขึ้น ตัดสินใจได้ดีขึ้น และไม่ถูกหลอกได้ง่ายๆ ด้วยตัวเลขที่ถูกนำเสนอผ่านโทรทัศน์ หนังสือพิมพ์ รายงานบริษัท อินเตอร์เน็ท หรือ poll แบบสอบถามต่างๆ
"โลกนี้มีการโกหกอยู่ 3 แบบ ได้แก่ Lies (โกหก), Damned Lies (ตอแหล), and Statistics (สถิติ)" กล่าวโดย เบนจามิน ดิสราเอลี่ นายกรัฐมนตรีประเทศอังกฤษ ช่วงปี 1800s
โดยหนังสือในตำนาน ขายดีระดับโลกอย่าง How to lie with statistics เขียนโดย Darrell Huff ในปี 1954 ได้อธิบายเรื่องนี้ไว้ชัดเจนมากๆ ว่าสถิติสามารถบิดเบือนความจริงได้ขนาดไหน เวอร์ชั่นแปลไทยของหนังสือเล่มนี้ก็มีแล้ว (แต่อ่านไม่ค่อยรู้เรื่อง 555+) มันเป็นเรื่องง่ายมากเลยที่เราจะหลอกคนด้วยสถิติ ยิ่งคนที่ไม่เข้าใจสถิติเนี่ย ยิ่งถูกหลอกได้ง่ายไปอี๊กกก เสียงสูง! ตัวอย่างเช่น ข่าวด้านล่างนี้


ทำงานกะดึก เพิ่มความเสี่ยงการเสียชีวิตด้วยโรคมะเร็งและโรคหัวใจ

ข่าวของเว็บไซต์ time.com รายงานผลการศึกษาของ Dr. Eva Schernhammer นักวิทยาศาสตร์ของโรงพยาบาล Brigham and Woman ที่ศึกษานางและนายพยาบาล จำนวน 74,862 คน ตั้งแต่ปี 1976 พบว่า

➧ กลุ่มที่ทำงานกะดึกมีโอกาสเสียชีวิตด้วยโรคหัวใจสูงกว่ากลุ่มที่ทำงานเฉพาะกะกลางวันสูงถึง 38%
➧ และยังเสี่ยงตายด้วยโรคมะเร็งปอด - lung cancer - สูงกว่าอีกกลุ่มถึง 25%
➧ และยังเสี่ยงตายด้วยโรคมะเร็งลำไส้ - colon cancer - สูงกว่าอีกกลุ่มถึง 33%
➧ สรุปทำงานกะดึก มีอะไรดีบ้างเนี่ย 😂

นี่มันวาระแห่งชาติเลยนะเนี่ย ผลวิจัยออกมาแบบนี้แปลว่าควรเลิกทำงานกะดึกเลยใช่ไหม? ถ้าเป็นคนทั่วไปที่ไม่เข้าใจสถิติอาจจะด่วนสรุปไปเลยว่าทำงานตอนกลางวันดีต่อใจและสุขภาพมากกว่า แต่ถ้าเข้าใจหลักการและวิธีการทางสถิติ มุมมองของคุณต่อเนื้อหาข่าวนี้จะเปลี่ยนไป

หลักสถิติที่สำคัญมากและใช้ในการอธิบายเหตุการณ์นี้ได้ตรงๆเลยคือเรื่อง Correlation does not imply causation ภาษาคนแปลว่า การทำงานตอนกลางคืนมีความสัมพันธ์กับความเสี่ยงต่อโรคหัวใจหรือโรคมะเร็งก็จริง แต่ไม่ได้หมายความว่าการทำงานตอนกลางคืนเป็นปัจจัยที่ทำให้เกิดโรคหัวใจหรือโรคมะเร็ง

ในทางเทคนิค เขียนได้แบบนี้ 
การทำงานกะดึก (x) และ โรคหัวใจโรคมะเร็ง (y) มีความสัมพันธ์กัน
แต่เรายังไม่สามารถสรุปได้ว่า การทำงานกะดึก (x) เป็นปัจจัยที่ทำให้เกิดโรคหัวใจโรคมะเร็ง (y) จริงๆ

ประเด็นคือกลุ่มที่ทำงานกะดึกอาจมีพฤติกรรมเสี่ยงอื่นๆ เช่น การสูบบุหรี่จัด การทานอาหารขยะเยอะๆ และไม่ค่อยชอบออกกำลังกาย ซึ่งปัจจัยเหล่านี้ในทางสถิติเรียกว่า "Confounding variable" หรือตัวแปรอื่นๆที่เรามองไม่เห็น (i.e. หรือที่เราอาจจะนึกไม่ถึงด้วยซ้ำ) ที่มากระทบกับความสัมพันธ์ที่เรากำลังศึกษาอยู่ ในที่นี้คือความสัมพันธ์ระหว่างการทำงานกะดึกและความเสี่ยงในการเกิดโรคหัวใจและโรคมะเร็ง

การทดลองแบบ randomization แบ่งคนเป็นสองกลุ่ม (A/B)

ก่อนที่จะด่วนสรุปว่า การทำงานกะดึกไม่ดีต่อร่างกาย เราต้องมองภาพกว้างและหา confounding variable ที่เป็นไปได้ทั้งหมดของปรากฏการณ์นั้นๆก่อน
"มันเป็นเรื่องง่ายมากที่เราจะหลอกคนด้วยสถิติ แต่ในทางตรงกันข้ามเป็นเรื่องที่ยากมากถ้าต้องเล่าความจริงโดยไม่มีสถิติมายืนยัน" กล่าวโดย Andrejs Dunkels นักคณิตศาสตร์ชาวสวีเดน
ซึ่งถ้าเราอยากจะพิสูจน์ให้ได้ว่า การทำงานกะดึกไม่ดีต่อร่างกายจริงๆ เราต้องทำการทดลองที่เรียกว่า Randomization ซึ่งถือเป็นหนึ่งในวิธีการทดลองทางวิทยาศาสตร์ โดยมีขั้นตอนดังนี้

1. แบ่งพยาบาลเป็นสองกลุ่มแบบ random คละกันทั้งหมดทั้งคนที่ทำงานกะดึกกะเช้าเลย
2. เสร็จแล้วก็จัดให้กลุ่มแรก (A) ทำงานกะเช้า แล้วกลุ่มที่สอง (B) ทำงานกะดึก ตรวจสภาพร่างกายวันนี้
3. ผ่านไปสักสามเดือน ก็มาตรวจสภาพร่างกายอีกรอบ และเปรียบเทียบว่าสุขภาพของกลุ่ม A vs. B กลุ่มไหนดีกว่ากันผ่านการทดสอบนัยสำคัญทางสถิติ (statistical tests)
4. ถ้าผลออกมาว่ากลุ่ม A ดีกว่า B อย่างมีนัยสำคัญทางสถิติ แสดงว่าการทำงานกะเช้าดีต่อใจและสุขภาพมากกว่าการทำงานกะดึกจริงๆ ปล. ตัวแปรที่ใช้เปรียบเทียบอาจเป็นเรื่องความดันโลหิต หรือพวกอัตราการเต้นของหัวใจ หรือค่า health index อื่นๆ

Randomization มีชื่อเรียกหลายแบบมากๆ ในทางการแพทย์ ชื่อที่คุ้นเคยคือ Randomized controlled trial (RCT) หรือในวงการอินเตอร์เน็ท/ การตลาด เค้าเรียกกันว่า A/B testing หรือ split test นั่นเอง ซึ่งถือเป็นวิธีการที่ใช้กันอย่างแพร่หลายในการพิสูจน์เรื่อง causation (x ทำให้เกิด y จริงหรือไม่) โดยความยากอยู่ที่การระบุ confounding variable ทั้งหมดที่เราต้องควบคุมก่อนที่เราจะเริ่มทำการทดลอง

ผู้หญิงที่เรียนสูงขึ้นมีโอกาสขึ้นคานสูงกว่าผู้หญิงทั่วไป?

correlation vs. causation กับเรื่อง confounding variable เป็นเรื่องสำคัญมากในทางสถิติ เพราะตัวเลขหรือผลวิจัยที่ได้มา อาจไม่ถูกต้องเสมอไป และอาจนำไปสู่การตีความแบบผิดๆ มาลองดูกันอีกตัวอย่าง ในประเทศอเมริกา (รวมถึงในไทย) จำนวนผู้หญิงเรียนจบสูงๆมีมากขึ้นเรื่อยๆเลย แต่ปัญหาที่ตามมาคือ ผู้หญิงเรียนจบสูง (highly educated) มีแนวโน้มที่จะขึ้นคานมากขึ้นเรื่อยๆเช่นกัน

จากผลการศึกษาหลายๆ study พบว่า การเรียนจบสูงของผู้หญิงสมัยนี้มีความสัมพันธ์กับโอกาสการขึ้นคานจริงๆ (correaltion confirmed) แบบนี้แปลว่า การเรียนจบสูง (x) ทำให้ผู้หญิงหาแฟนไม่ได้ (y) จริงหรือมั่วนิ่ม?

หรือว่ามีปัจจัยอื่นที่มากระทบกับความสัมพันธ์นี้ เช่น หน้าตา อายุ ฐานะ หรือว่าจำนวนผู้ชายโสดนิสัยดีมันหายากขึ้นเรื่อยๆ? หรือว่าจริงๆแล้ว ผู้หญิงเลือกที่จะโสดแต่แรก (y) เลยเรียนสูงขึ้น (x) เพื่อที่จะได้หาเงินได้เยอะๆ เพื่อที่จะได้ดูแลตัวเองและครอบครัวได้?

ตกลง x → y หรือว่า y → x? ความสัมพันธ์เป็นแบบไหนขึ้นอยู่กับการตีความตัวเลขที่เราเห็นทั้งนั้นเลย ซึ่งสามารถพิสูจน์ได้ด้วยหลักการทางสถิตินั่นเอง

สรุปสิ่งที่อยากบอกวันนี้คือ สถิติไม่ใช่แค่การวิเคราะห์ตัวเลข แต่รวมไปถึงความเข้าใจในหลักการ ความหมาย และที่มาของข้อมูลที่เราเก็บมาด้วย และการสรุปผลแบบ causation จากผล correlation ทั่วไป เป็นเรื่องที่ไม่ควรทำอย่างยิ่ง 😝

อ้างอิง
Why working at night boosts the risk of early death
How to lie with statistics by Darrell Huff
Naked statistics by Charles Wheelan
Randomization
Why college-educated women can't find love

1 comment:

  1. เป็นบทความที่มีประโยชน์มากครับ คนไม่ค่อยชอบคณิตศาสตร์(เข้าใจ)คณิตศาสตร์แบบผมยังเข้าใจได้

    ReplyDelete