Sunday, April 9, 2017

The misuse of p-value ความเข้าใจผิด ผลซิกแบบฟลุ๊คๆ กับเรื่องที่อาจารย์ไม่เคยบอก

เรื่องที่ดูเหมือนง่าย แต่ว่าเข้าใจยากเหลือเกิน


ทำไม American Statistical Association (ASA) ถึงต้องประกาศให้นักวิจัยกลับไปศึกษาการใช้ p-value ใหม่ และต้องมีการตรวจสอบอย่างเข้มงวดก่อนที่จะได้ตีพิมพ์? บาง journal ถึงกับบอกเลิกไม่ต้องใช้ p-value เลยก็มี

เพราะ p-value เป็น concept ที่ดูเหมือนง่าย แต่เอาจริงไม่ง่ายอย่างที่คิด ค่าๆนี้ที่ถูกใช้แบบผิดๆมาเกือบร้อยปี วันนี้เราจะมาอธิบายให้เพื่อนๆที่อ่านได้เข้าใจเอง

งั้นเราขอเริ่มจากที่มาของ p-value ก่อน ย้อนกลับไปปี 1925 Ronald A. Fisher เป็นคนแรกที่คิดค้นการใช้ p-value ขึ้นมา โดยชื่อทางการของมันคือ "observed level of significance" 

ถ้าเขียน definition ของมันตามหลักสถิติ จะเขียนได้แบบนี้
p-value = p ( observed data or more extreme | ho is true )
แปลไทยว่า ความน่าจะเป็นที่เราจะเห็นผลที่อยู่ตรงหน้าเรา (observed) หรือว่ายิ่งกว่านั้น (more extreme) ถ้าเกิดสมมติฐานหลัก (ho) เป็นเรื่องจริง แต่แค่ p-value อย่างเดียวไม่สามารถใช้ในการพิสูจน์ได้ว่าเราจะ retain หรือว่าจะ reject ho ตัว Fisher เลยคิดค่า 0.05 ขึ้นมาจากไหนก็ไม่รู้ เอาเป็นว่า 0.05 เป็นค่าที่ Fisher สบายใจอยากจะใช้ #แบบนี้ก็ได้เหรอ และนั่นคือที่มาของ 0.05 ที่เราใช้กันในปัจจุบัน 555+ ถ้าใครถามว่ามันมาจากไหน ก็บอกเค้าไปว่า Fisher เริ่มใช้มาตั้งแต่ปี 1925 แล้ว

ถ้าเกิด p-value <= 0.05 เราก็จะสรุปว่าเจอผล significance และ reject ho แต่ถ้าเกิด p-value > .05 ก็สรุปว่า not significance และ retain ho <ปล. retain แปลว่าไม่ปฏิเสธนะ> 

อ่อ ตะกี้ลืมบอกว่าสมัย Fisher นั้น มีแค่ ho อย่างเดียว ยังไม่มี ha เลยครับ สมัยนั้นเค้าเรียกกันว่าระบบ single null hypothesis testing

p-value คือพื้นที่แรเงาสีเหลือง นับจากที่ observed (test statistics) ของเราไปตก แล้วลากไปให้สุดทาง ถ้าตกซ้ายลากไปให้สุดซ้าย ถ้าสุดขวาลากไปให้สุดขวา (more extreme)








ต่อมาปี 1933 Jerzy Neyman & Egon Pearson ไม่ค่อยเห็นด้วยกับหลักการของ Fisher เท่าไรนัก เลยเสนอให้มีการใช้ ha ขึ้นมาใช้คู่กับ ho และใช้ critical region ในการทดสอบสมมติฐานว่าจะ reject หรือ retain ho อ่ะเนอะ

Neyman & Pearson ยังเสนอว่าทุกครั้งที่เราบอกว่า reject ho เราต้องมีการคุมการสรุปผลผิดไว้ด้วย เวลาเราทำ inference เรามีโอกาสสรุปผลผิดอยู่ 2 แบบ คือแบบ type I (alpha) และแบบ type II (beta)

type I หรือเรียกกันติดปากว่า false positive คือการที่เราไป reject ho when ho is true
type II หรือที่เรียกกันว่า false negative คือการที่เรา retain ho when ho is false

ทั้งสองคนเลยบอกว่าเวลาที่เราบอกว่า reject ho เจอผลซิก เราต้องคุมความน่าจะเป็นที่เราจะสรุปผลผิดแบบ type I ไว้ด้วยค่า alpha กลายเป็นว่าไอค่า 0.05 ที่ Fisher คิดไว้ตอนปี 1925 เป็นสิ่งเดียวกับที่ Neyman & Pearson นำเสนอในปี 1933
ที่เรามีโอกาสสรุปผลผิด เพราะว่าวันนี้เราสุ่มแค่ sample อันน้อยนิด ไม่ได้ศึกษา population ทั้งหมด เราเลยไม่รู้ว่าความจริงคืออะไร?
อ่านมาถึงตรงนี้ alpha = type I error rate เนอะ Fisher ใช้ alpha ที่ 0.05 แต่จริงๆแล้วเราจะตั้งค่า alpha ที่เท่าไรก็ได้ จะ 0.10 0.05 0.01 หรือแม้แต่ 0.08 ก็แล้วแต่เราเลย เอาเราที่สบายใจ 555+ หลักการมันง่ายๆคือถ้า alpha สูงขึ้น เรามีโอกาสสรุปผลผิดแบบ type I สูงขึ้นนั้นเอง หรือจะบอกว่าเวลาเราเจอผล significance มันมีโอกาสเป็น type I ซิกแบบผิดๆสูงขึ้นตามค่าที่เรากำหนดตอนแรก

alpha ต้องถูกตั้งไว้ก่อนเริ่มงานวิจัยนะครับ ไม่ใช่ว่ารันผลได้ p-value แล้วค่อยมาตั้งค่า alpha แบบนี้เป็นวิธีการที่ผิดครับ

ถ้าเกิด p-value <= alpha ที่เราตั้งไว้ก่อนเริ่มงานวิจัย เราก็จะสรุปผลว่า significance และ reject ho ง่ายๆแค่นี้ จริงๆวิธีที่ Neyman & Pearson เสนอก็เหมือนกับวิธีการที่ Fisher คิดไว้ตอนแรกอ่าแหละ แต่ว่าเพิ่มการวาดกราฟ critical region เข้ามาด้วย

พอมาถึงปี 1937 ตัว Jerzy Neyman ได้ทำการคิดค้น confidence interval ขึ้นมาเพื่อใช้ทดสอบ ho โดยมีหลักการง่ายๆคือ 1 = alpha + confidence level ถ้าเกิดวันนี้เราใช้ alpha = 0.05 ในการทดสอบ ho เราก็สามารถใช้ confidence interval 0.95 หรือ 95% ในการทดสอบ ho ได้เหมือนกัน

เพราะ 1= alpha + confidence = 0.05 + 0.95 อ่ะเนอะ แล้วไอ confidence interval เนี่ย คนก็เข้าใจผิดเยอะมาก ถ้าเกิดได้ยินคนพูดว่า "มั่นใจได้เลย 95% ว่า unknown parameter ของประชากรที่เราสนใจจะตกอยู่ในช่วงความเชื่อมั่นที่เราสร้างขึ้นมา" แบบนี้คือการสรุปผล CI ที่ผิดครับ ตบปากเด๋วนี้ !!

confidence interval (CI) ความหมายจริงๆของมันคือถ้าวันนี้เราทำการสุ่มตัวอย่าง (re-sampling) อีก 100 ครั้ง (จริงๆจะสุ่มกี่ร้อยกี่พันครั้งก็ได้) ช่วงความเชื่อมั่นที่เราสร้างขึ้นมาทั้งหมด 100 ครั้ง จะสามารถเก็บค่า unknown parameter ของประชากรที่เราสนใจได้กี่ครั้ง ถ้าเก็บได้ 95 / 100 ครั้ง เราก็บอกว่ามั่นใจได้ 95%

ทำการทดลอง 20 ครั้ง 19/20 ครั้ง confidence interval ที่สร้างขึ้นมาเก็บค่า unknown parameter ได้ แปลว่ามั่นใจได้ 95% แปลว่าจะมี 1/95 ครั้ง หรือคิดเป็น 5% ที่ confidence interval เราพลาด และเก็บค่า unknown ไม่ได้



แต่ 95% นั้นไม่ได้เกิดจากการสุ่มตัวอย่างแค่ครั้งเดียว ไม่มีทางเลยที่เราจะบอกได้ว่า unknown parameter มันจะมาตกอยู่ในช่วงความเชื่อมั่นที่เราสร้างขึ้นมาจากการสุ่มแค่ครั้งเดียว เข้าใจตรงกันนะ
แล้วในชีวิตจริงมีใครเก็บตัวอย่างซ้ำป่าวนะ เห็นส่วนใหญ่ก็เก็บแค่ทีเดียว ทดลองทีเดียวก็จบ
แนวคิดที่เป็นหัวใจสำคัญของ confidence interval กำเนิดเกิดมาจากทฤษฏีมหากาฬ central limit theorem อันลือลั่นของนักสถิติ แต่มีเงื่อนไขสำคัญสองข้อคือกลุ่มตัวอย่างต้องสุ่มอย่าง random และ n ต้องใหญ่พอ อย่างน้อยต้องเท่ากับ 30 คน หืมมมมมม 30 คนก็ใหญ่แล้วเหรอ 555+ แต่เค้าว่ามางั้นอ่ะนะ ก็ว่าตามเค้าไปฮะ และ CLT นี่แหละที่ทำให้เรา "นักสถิติ" พูดได้ว่าถ้าวันนี้เราสุ่มตัวอย่างซ้ำอีก 100 ครั้ง 1000 ครั้ง ความน่าจะเป็นของค่าสถิติ เช่น ค่าเฉลี่ย หรือค่าร้อยละ หรือค่า coefficient ใน regression ที่เราศึกษาอยู่จะเป็นอย่างไร

แปลว่าถ้าอยากใช้ confidence interval (CLT) กลุ่มตัวอย่างต้องสุ่มอย่าง random ความหมายของ random คือประชากรที่เราสนใจทั้งหมดต้องมีโอกาสถูกสุ่มออกมาเท่ากัน (equal chance of being sample) ซึ่งในชีวิตจริง การสุ่ม pure random ในระบบเปิดที่เราไม่รู้จำนวนประชากรที่แท้จริงเป็นเรื่องที่ "แทบจะเป็นไปไม่ได้เลย" 

ถึงเราจะรู้จำนวนประชากรที่แท้จริง แต่ก็ไม่สามารถเข้าถึงทุกคนได้อยู่ดี แสดงว่า CLT ในชีวิตจริงมีข้อจำกัดเยอะมาก ข้อจำกัดของการนำ random sampling มาใช้ในงานของเรา

เราอธิบายกันมายาวแล้วเนอะ ตอนนี้ทุกคนน่าจะพอเห็นภาพว่า p-value, confidence interval, critical region คืออะไร

มาถึงไฮไลท์สำคัญของ post วันนี้ เหตุผลสามข้อที่อธิบายถึง Pitfalls ของการใช้ค่า p-value สรุปผล significance ทำไมเราถึงควรศึกษาค่า p-value ใหม่ หรือเปลี่ยนไปใช้ alternative statistical tests แบบอื่นแทนเลย

#เหตุผลข้อที่หนึ่ง
หลายคนเชื่อว่า p-value ต่ำมากๆ อย่างเวลาเห็น p = 0.0001 สรุปว่า reject ho เจอผล significance ผลเราเชื่อถือได้แน่ๆ ความแตกต่างมีนัยยะ (mean difference != zero) ความสัมพันธ์มีนัยยะ (correlation != zero) แต่ความจริงคือ ตอนที่เราเห็น p ต่ำมากๆ มีความน่าจะเป็นอยู่สองแบบ

1. p ต่ำ แปลว่าผลที่อยู่ตรงหน้าเรา (หรือ more extreme) มันเกิดขึ้นได้ยากมากถ้าเกิด ho เป็นเรื่องจริง หรือพูดง่ายๆคือ we have evidence against ho และสามารถ reject ho ได้

2. p ต่ำ แปลว่าผลที่อยู่ตรงหน้าเราเกิดได้ยากมาก แต่ไม่ได้หมายความว่ามันจะเกิดขึ้นไม่ได้ มันอาจจะฟลุ๊คเกิดขึ้นมารอบนั้นพอดีก็ได้ แบบนี้ถ้าเรา reject ho เราจะเจอ type I error (false positive)

แต่ความน่าเจ็บปวดของเรา นักสถิติ คือเราบอกไม่ได้ว่าครั้งที่เราเห็น p = 0.0001 นั้นเรา reject ho ได้ถูกต้องจริงๆ หรือเรา reject ho แบบ false positive? เราบอกไม่ได้เลยจากการสุ่มตัวอย่างแค่ครั้งเดียว

สมมติเราอยากรู้ว่าผู้หญิงคนนี้ เล่นฟุตบอลเก่งมั้ย? เราทำการทดสอบโดยให้เค้ามาลองยิงจุดโทษดู โดยที่ ho = null hypothesis หรือ status quo ว่าผู้หญิงคนนี้เล่นบอลไม่เก่ง (ยิงไม่น่าเข้าสามเหลี่ยม)

ผลปรากฎว่าผู้หญิงคนนั้นยิงตู๊ม ลูกบอลวิ่งเข้าสามเหลี่ยมขวาบนของประตู ด้วยความเร็ว 80 km ต่อชั่วโมง GOAL !!! แบบนี้ p-value ต่ำมากเลย reject ho เจอผลซิก แปลว่าผู้หญิงคนนี้เล่นบอลเก่งใช่ไหม? หรือว่าตะกี้ฟลุ๊ค? 

เราบอกไม่ได้เลยจากการยืนดูผู้หญิงคนนี้เตะแค่ครั้งเดียว นอกจากจะให้เค้าเตะซ้ำ ไปอีกซัก 20-30 รอบ 

ผู้หญิงกับการเล่นบอลเป็นแค่ตัวอย่างที่พยายามจะ surrogate สถานการณ์จริงที่นักวิจัยทำอยู่ตอนนี้ สุ่มตัวอย่างครั้งเดียว รันผลสถิติ เจอผลซิก <ดีใจมากๆ> สรุปผล แล้วตีพิมพ์ อะไรจะง่ายขนาดนั้น

#เหตุผลข้อที่สอง
การทำ falsification ในทางสถิติมันไม่เหมือนกับการทำ falsification ในทางวิทยาศาสตร์เลย

เวลานักวิทยาศาสตร์พยายามจะพิสูจน์ scientific theory เค้าไม่ได้พยายามหาหลักฐานมา confirm ว่า theory นั้นมีจริงหรือเปล่า แต่เค้าพยายามหาหลักฐานมาเพื่อล้ม theory นั้นต่างหาก และนี่คือ essence ของทฤษฏี falsification นำเสนอโดยนักปราชญ์ผู้ทรงอิทธิพลในช่วงปี 1900s อย่าง Karl Popper

เราต้องพยายามจะปฏิเสธ Scientific Theory ไม่ใช่หาหลักฐานมายืนยัน แต่ในทางสถิติเรากลับพยายามหาหลักฐานไปปฎิเสธ Ho ทั้งๆที่จริงๆแล้วสิ่งที่เราเสนอให้ถูกทดสอบจคือ Ha ต่างหากที่ควรถูก testify 


หลักการ falsification หลักๆมีสองข้อคือ scientific theory ต้อง testable + falsifiable แปลว่าต้องทดสอบได้ และถูกปฏิเสธได้ถ้าเกิดมีทฤษฏีใหม่ที่ดีกว่า น่าเชื่อถือกว่า และถูกต้องมากกว่า

ถ้ามีคนๆนึงเสนอเรื่อง gravity ทฤษฏีแรงโน้มถ่วง นักวิทยาศาสตร์คนอื่นๆจะพยายามหาหลักฐานมาล้มเรื่องนี้ คือพยายามพิสูจน์และทดสอบว่าแรงโน้มถ่วงไม่มีอยู่จริง แต่ถ้าทำไม่ได้ ทฤษฏีแรงโน้มถ่วงจะคงอยู่ต่อไป จนกว่าจะมีทฤษฏีใหม่มาสั่นคลอนความเชื่อนี้ อย่างการมาถึงของ quantum theory และ general relativity

วิทยาศาสตร์ก้าวหน้าด้วยหลักการ falsification แต่ในทางสถิติการทำ falsification (p-value approach) มัน work the other way round และส่งผลเสียอย่างมากในช่วงร้อยปีที่ผ่านมา

สถิติยืมหลักการของ falsification มาใช้ แต่ดัดแปลงจนมันเสียคุณประโยชน์ที่แท้จริงไปเลย ถ้าเกิดวันนี้นักวิจัยอยากทดสอบว่า "เมือกหอยทากส่วนแมนเทิลส่งผลดีต่อผิวหน้า" ho และ ha จะสามารถเขียนได้แบบนี้

ho: เมือกหอยทากส่วนแมนเทิลไม่มีผลต่อผิวหน้า (effect = 0)
ha: เมือกหอยทากส่วนแมนเทิลมีผลต่อผิวหน้า (effect != 0)

นักวิจัยที่ทำการทดลองนี้ โดย propose ha เป็นความเชื่อหรือสิ่งที่นักวิจัยอยากเห็น คือเสียเวลาทำการทดลองมาตั้งนาน ก็อยากเห็นเมือกหอยทากส่วนแมนเทิลมันมี positive effect ต่อผิวหน้าผู้เข้าทดลองอ่ะเนอะ แบบนี้แสดงว่าระบบ null hypothesis significance test (NHST) มี bias สูงมากเลย เพราะผู้วิจัยมีความโน้มเอียงที่อยากจะเห็นผล significance (reject ho) อยากสรุปผลว่าเมือกหอยที่ชั้นคิดค้นขึ้นมาดีต่อผิวหน้าจริงๆ

และข้อบกพร่องที่ใหญ่ที่สุดของระบบ NHST คือเราพยายามจะ reject ho ทั้งที่ๆทฤษฏีที่เรากำลังนำเสนอ หรือ propose ให้ทดสอบจริงๆแล้ว คือ ha
ถ้ายึดตามหลักการของ Karl Popper สิ่งที่เราควรจะ test + falsify ควรจะเป็น ha ไม่ใช่ ho
แต่ตอนนี้ระบบมันถูกออกแบบมาให้เราทดสอบ ho โดยการคำนวณค่า p-value: p ( observed data or more extreme given ho is true ) ซึ่งขัดกับหลักการ falsification และไม่ใช่การพิสูจน์ที่ดีเลย

ในทางสถิติเราเลยมองว่าการหาหลักฐานเพื่อ reject ho เป็น weak approach ทำอ้อมๆด้วยการพยายามจะปฏิเสธ ho (ทั้งๆที่สิ่งที่เรา propose ให้ทดสอบคือ ha) ไม่เหมือนกับ scientific theory ที่ใช้การพิสูจน์ proposed hypothesis ด้วย pure science อย่างคณิตศาสตร์หรือหลักฟิสิกส์ แบบ strong approach

#เหตุผลข้อที่สาม
"ho can only be proven false but not true" สมมติฐานหลัก ho มันผิดตั้งแต่แรกแล้วครับ แสดงว่ามันสามารถถูก reject ได้ เมื่ออะไรๆเป็นใจ

ถ้า ho มันผิดตั้งแต่แรก เราก็ห้ามใช้คำว่า accept ho ครับ คำที่ถูกที่ควรจริงๆคือ fail to reject ho (today) because of there is not enough evidence วันนี้ reject ho ไม่ได้เพราะหลักฐานไม่พอนั่นเอง

อ่านแล้วงงใช่ไหม ทำไมถึงบอกว่า ho ผิดแต่แรก? งั้นต้องเข้าใจก่อนว่าเราทำ inference ไปเพื่ออะไร ทำไมต้องสุ่มตัวอย่าง แล้วอธิบายผลกลับไปหาประชากรที่เราสนใจ? สมมติ population ที่เราอยากศึกษาจริงๆคือคนไทยทั้งประเทศ เราอยากรู้ว่าผู้ชาย ผู้หญิงชอบกินข้าวมันไก่ต่างกันไหม โดยตั้ง ho: difference male vs. female = 0
ถ้าวันนี้เราเก็บคนไทยทั้งประเทศ จะพบว่าความแตกต่างของผู้ชายผู้หญิงเท่ากับศูนย์จริงๆเหรอ?
มันแทบจะเป็นไปไม่ได้เลย ที่ถ้าวันนี้เราสามารถเดินไปถามผู้ชาย 30+ ล้านคน และถามผู้หญิง 30+ ล้านคน แล้วจะพบว่าทั้งสองเพศชอบกินข้าวมันไก่เท่ากันจริงๆ ยังไงความชอบข้าวมันไก่ของทั้งสองเพศต้องต่างกันแน่ๆ อย่างน้อยในระดับทศนิยม John W. Tukey พูดแนวคิดนี้ไว้เมื่อประมาณ 50 ปีที่แล้ว

ถ้าเรารู้อยู่แล้วว่า population male vs. female มีความแตกต่างกันแน่ๆ แล้วเราจะไปสุ่มตัวอย่าง n=500 ไปเพื่ออะไร? เราจะทดสอบ p-value ไปเพื่ออะไร ในเมื่อความจริงของ population มันชัดเจนอยู่ตรงหน้าเราก่อนที่เราจะเริ่มสุ่มตัวอย่างอีก ดูตัวอย่างด้านล่างครับ

ho: โลกกลม (status quo ใครๆก็บอกว่าโลกกลม)
ha: โลกไม่กลม

Jacob Cohen เขียนไว้ในเปเปอร์ปี 1994 "the earth is round (p < .05)" เพื่อจะบอกว่า ho: โลกกลม จริงๆแล้วมันผิดฮะ reject ho because p-value < .05 และก็เป็นจริงอย่างที่ Cohen บอก ถ้าเราเสิช Google ตอนนี้จะพบว่าโลกเรามีรัศมีไม่เท่ากันตลอดทั้งวง เลยทำให้โลกเราเป็นรูปไข่นิดๆ

เหตุผลข้อที่หนึ่งถึงสามรวมกันปุ๊ป จะเห็นว่า p-value ไม่ได้ให้ข้อมูลใหม่อะไรกับเราเลย เพราะ ho ถูกตั้งมาเพื่อล้มตั้งแต่แรก ผิดตั้งแต่เริ่ม และนักวิจัยมี bias ที่พยายามจะ reject ho โดยใช้หลักการ falsification ที่ตรงข้ามกับการพิสูจน์ scientific theory แบบหน้ามือเป็นหลังมือเลย

#เหตุผลข้อที่สี่ แถม
ถ้าเกิดเราดูนิยามของ p-value จริงๆจะเห็นว่ามันคิดมาบนความเชื่อที่ว่า ho เป็นจริง ถ้าวันนี้เราได้ค่า p ต่ำมาก แปลว่า ho might be false ถ้าเกิดเรา reject ho แปลว่า ha ถูก?

ถ้าเราพบว่า ho มันผิดจริงๆ ก็ไม่ได้แปลว่า ha ที่เราตั้งมามันถูกฮะ นี่คือข้อจำกัดที่ไม่มีทางก้าวข้ามผ่านไปได้เลย ถ้าวันนี้เรายังใช้สถิติแบบ frequentists ในการพิสูจน์สมมติฐาน

เพราะ p-value (assuming ho is true) ไม่ได้มีอะไรเกี่ยวกับ ha เลย แล้วก็ไม่เคยมีใครบอกด้วยว่า alternative hypothesis ต้องมีแค่ ha อันเดียวอ่ะเนอะ วันนี้เราต้องเข้าใจตรงนี้เลยครับว่า alternative มันมีได้มากกว่าหนึ่งอันตั้งแต่ h1 h2 h3 h4 ไปจนถึง h infinity

เวลาเราพิมพ์ keywords ใส่ลงไปใน Google Search ตัว algorithms ของกูเกิ้ลพยายามจะดึงเว็บไซต์ที่ตรงกับความต้องการของเราตามคีย์เวิดที่ใส่ลงไปให้มากที่สุดเท่าที่จะเป็นไปได้ ความน่าจะเป็นของ search results ที่ Google ดึงขึ้นมาเขียนได้แบบนี้

p ( websites that you want | your input keywords ) แปลว่าความน่าจะเป็นของเว็บไซต์ที่เราอยากได้ given ข้อมูล keywords ที่เราพิมพ์ลงไปในกล่อง search แล้วกดปุ่ม enter!

ไม่ว่าจะ Google Search หรือแม้แต่ self driving car ก็ใช้โมเดลความน่าจะเป็นบนรากฐานของ Bayes ทั้งนั้นเลย conditional probability ที่ขึ้นอยู่กับความรู้ทั้งหมดของเราที่มีเกี่ยวกับ phenomenon นั้นๆ


ผลที่ได้คือ Google ส่งรายชื่อ website ทั้งหมดที่น่าจะตรงกับความต้องการของเรา เรียงลำดับจากอันดับแรก relevancy สูงสุด อันดับสอง สาม สี่ก็ไล่คะแนน relevancy ลงมา เขียนเป็นสมการในทางสถิติแบบความน่าจะเป็นได้แบบนี้ search results ทั้งหมดได้มาจาก keywords ที่เรา input ลงไป

p ( 1st website in search results | your input keywords) > p ( 2nd website ) > p ( 3rd website ) > ...

สิ่งที่เราอยากได้ไม่ใช่ค่า p-value ที่บอกค่า p ( data given hypothesis ) แต่เป็นสิ่งที่มันตรงกันข้าม แค่กลับ condition ของสมการในวงเล็บเราจะได้สิ่งที่นักสถิติสาย Bayesian เรียกว่า "the inverse probability" = p ( hypothesis given data ) 
ความน่าจะเป็นของ websites ต่างๆ given คำทั้งหมดที่เราพิมพ์ลงไปใน Google Search 
นี่คือสิ่งที่ bayesian approach จะให้เราได้ครับ ความน่าจะเป็นของ hypotheses ทั้งหมด ไม่จำกัดแค่ ho h1 h2 h3 แต่จะมีกี่ hypotheses ก็ได้ โดยวิเคราะห์จาก input/ data ที่เราเก็บมาว่าสนับสนุนความเชื่อไหนมากที่สุด เราก็เลือกที่จะไปกับความเชื่อนั้นครับ

เหมือนอย่าง Google search ที่เราเชื่อผลที่มันให้มา หลายๆครั้งเราเลือกที่จะคลิ๊กจบที่ websites แรกๆที่ Google ส่งกลับมา และแทบจะไม่ต้องข้ามไปหน้าสองของ results เลยด้วยซ้ำ

สาย frequentist อย่าพยายามไปเข้าใจ p-value เลยครับ ในเมื่อวันนี้เรามีสิ่งที่ดีกว่าให้เราใช้แล้ววันนี้ "Think Bayes" รากฐานของ bayes คือเรื่องของความเชื่อ "belief" ขอแค่วันนี้คุณมีความเชื่อ คุณก็สามารถเริ่มใช้ bayes ได้เลยฮะ

mind blown มากๆ ถ้าคุณอ่านมาจนจบบทความนี้ เราหวังว่าคุณจะได้มุมมองใหม่ และวิธีการทำ inference ของคุณจะไม่เหมือนเดิมอีกต่อไป ขอบคุณครับ 😊

อ้างอิง

1 comment:

  1. แล้วเราจะเชื่อได้แบบไหนบ้างครับว่า belief นั่นเชื่อถือได้ และ มี evidence พอ ที่จะบอกได้ว่า belief เราถูกแล้ว

    ขอบคุณครับ

    ReplyDelete