การโกหกด้วยสถิติคืออะไร รู้ไว้ไม่โดน (กราฟ) หลอก

การโกหกด้วยสถิติ-simpsons-paradox

“ยาสีฟันที่มีส่วนผสมของฟลูออไรด์ ป้องกันฟันผุได้ถึง 95%”

“ครีมลดเลือนจุดด่างดำ ช่วยให้ผิวขาวกระจ่างใส ผู้ทดลองใช้ 98% ล้วนพึงพอใจ”

เพื่อน ๆ เห็นอะไรจากตัวอย่างประโยคที่เรายกมานี้หรือเปล่า ?

เพราะเรื่องราวของสถิติไม่ได้มีแค่ตาราง ค่าเฉลี่ย หรือกราฟที่เราได้เจอบ่อย ๆ ในบทเรียน แต่หากสังเกตให้ดี คำโฆษณาและการสื่อสารต่าง ๆ ในชีวิตประจำวันของเรามักมีการยก ‘ตัวเลขทางสถิติ’ ขึ้นมาเพื่อสร้างความน่าเชื่อให้ข้อมูลด้วยเสมอ แต่การนำเสนอสถิติเหล่านี้ ถูกต้องตรงกับความเป็นจริงมากแค่ไหน วันนี้ StartDee อยากชวนเพื่อน ๆ ไปสำรวจเรื่องราวอีกแง่มุมหนึ่งของ “การนำเสนอตัวเลข” อย่างปรากฎการณ์ซิมพ์สัน พาราด็อกซ์ (Simpson’s Paradox) ที่อาจมีผลต่อการนำเสนอข้อมูลทางสถิติในแบบที่เราคาดไม่ถึง

Banner-Orange-Standard

ปัจจัยอะไรบ้างนะที่มีผลต่อความน่าเชื่อถือของข้อมูล

เมื่อต้องทำงานเกี่ยวกับตัวเลขและสถิติ แค่เพียงขั้นตอนการตั้งคำถาม การเลือกกลุ่มตัวอย่างที่ต้องการสำรวจข้อมูลก็มีผลต่อความน่าเชื่อถือของข้อมูลแล้ว นอกจากนี้ยังมีขั้นตอนอื่น ๆ อีกที่มีผลต่อความน่าเชื่อถือของข้อมูล ยกตัวอย่างเช่น การจัดการกับข้อมูล การกระทำทางสถิติ ในเมื่อมีปัจจัยที่เกี่ยวข้องกับความน่าเชื่อถือของข้อมูลมากมาย แล้วข้อมูลแบบไหนจึงจะถือว่า “น่าเชื่อถือและยอมรับได้” กันล่ะ ? เราเลยลิสต์ลักษณะของข้อมูลที่ดีออกมาให้ตามนี้

  1. เลือกกลุ่มตัวอย่างให้ดี สามารถเป็นตัวแทนของประชากรกลุ่มนั้น ๆ ได้ และกลุ่มตัวอย่างที่ดีควรมี “จำนวนมาก”
  2. การตั้งคำถามในการสำรวจ “ไม่ควรมีลักษณะของความชี้นำ” เพราะอาจทำให้ผู้ให้ข้อมูลรู้สึกคล้อยตาม และตอบข้อมูลที่ไม่ตรงกับความเป็นจริง ซึ่งก็จะทำให้ได้ข้อสรุปที่ไม่ตรงกับความเป็นจริงในท้ายที่สุด
  3. การจัดกระทำข้อมูลอย่างเหมาะสม เมื่อได้ข้อมูลมาแล้ว สิ่งที่ต้องทำในขั้นต่อมาก็คือการจัดทำข้อมูลและคำนวณค่าทางสถิติต่าง ๆ ไม่ว่าจะเป็นการกรอกข้อมูลที่ถูกต้องเพื่อป้องกันความคาดเคลื่อน การเลือกใช้ค่าทางสถิติที่เหมาะสมกับลักษณะของข้อมูล เป็นต้น

นอกจากปัจจัยต่าง ๆ ที่เรายกมา การหาความสัมพันธ์ข้อมูล และการนำเสนอข้อมูล ไม่ว่าจะเป็นในรูปแบบกราฟิกหรือกราฟก็มีผลต่อความเข้าใจของผู้รับข้อมูลและนำไปสู่ความเข้าใจผิดได้เช่นกัน ไม่เชื่อลองไปดูตัวอย่างของปรากฎการณ์ซิมพ์สัน พาราด็อกซ์และเทคนิคการเลือกเก็บเชอร์รี่ได้เลย


การโกหกด้วยสถิติ-simpsons-paradoxขอบคุณรูปภาพจาก cryptonews.com

 

ปรากฎการณ์ซิมพ์สัน พาราด็อกซ์ (Simpson’s Paradox) คืออะไร

ก่อนตอบคำถามนี้เราขอพาเพื่อน ๆ ไปสำรวจป้ายโฆษณาโรงเรียนสองแห่งที่อยู่ติดกันอย่างโรงเรียน A และโรงเรียน B สองโรงเรียนนี้กำลังแข่งขันกันอย่างหนักหน่วง ด้วยการประชาสัมพันธ์อัตราความสำเร็จของนักเรียนโดยใช้สถิติการสอบติดมหาวิทยาลัยเป็นตัวชี้วัด

การโกหกด้วยสถิติ-simpsons-paradox

จากรูปจะเห็นว่า… 

โรงเรียน A มีนักเรียนสอบติดมหาวิทยาลัย 97 คน จากนักเรียน 100 คน คิดเป็น 97%

โรงเรียน B มีนักเรียนสอบติดมหาวิทยาลัย 15 คน จากนักเรียน 100 คน คิดเป็น 59%

ดูเผิน ๆ เพื่อน ๆ อาจคิดว่าโรงเรียน A น่าจะดีกว่าโรงเรียน B เพราะเด็ก ๆ ของโรงเรียน A มีอัตราการสอบติดมหาวิทยาลัยที่สูงกว่า และด้วยตัวเลขที่ต่างกันค่อนข้างมาก โรงเรียน A อาจโฆษณาเพิ่มเติมได้ว่าเด็ก ๆ ที่ได้ศึกษาในโรงเรียน A มีอัตราการสอบติดสูงกว่าโรงเรียน B เกือบสองเท่า แต่ในความเป็นจริงแล้วการพิจารณาข้อมูลเหล่านี้ควรคำนึงถึงปัจจัยซ่อนเร้น (Hidden factor) อื่น ๆ ด้วย ยกตัวอย่างเช่น ตัวเลขที่นำมาเปรียบเทียบมาจากปีเดียวกันจริงหรือไม่ คุณภาพของมหาวิทยาลัยที่เด็ก ๆ ในแต่ละโรงเรียนสอบติดแตกต่างกันไหม และที่น่าสนใจที่สุดก็คือ “อัตราการสอบติดมหาวิทยาลัยของเด็ก ๆ สามารถสะท้อนถึงคุณภาพการศึกษาของโรงเรียนนั้น ๆ ได้จริงหรือไม่” หรือจริง ๆ แล้วสถิติการสอบติดมหาวิทยาลัยไม่ได้เกี่ยวข้องอะไรกับคุณภาพการเรียนการสอนในโรงเรียนมาตั้งแต่แรก ? และถ้าหากอัตราการสอบติดมหาวิทยาลัยไม่เกี่ยวกับคุณภาพการเรียนการสอนของโรงเรียน A และโรงเรียน B จริง ๆ เราจะเรียกเหตุการณ์แบบนี้ว่าปรากฎการณ์ซิมพ์สัน พาราด็อกซ์ ซึ่งเป็นค่าเฉลี่ยทางสถิติที่ได้จากข้อมูลที่มีปัจจัยซ่อนเร้นที่แตกต่างกัน แต่ถูกหยิบนำมาเสนอ เปรียบเทียบ หรือเชื่อมโยงกันทั้ง ๆ ที่ไม่ได้เกี่ยวข้องกันมาตั้งแต่แรก ซึ่งการนำเสนอข้อมูลในรูปแบบนี้สามารถนำไปสู่การเข้าใจผิดได้

 

อ่านมาถึงตรงนี้เพื่อน ๆ คงพอนึกภาพออกแล้วว่าความถูกต้องและความน่าเชื่อถือของข้อมูลทางสถิตินั้นยังมีปัจจัยอื่น ๆ เกี่ยวข้องอีกมาก ดังนั้นในครั้งต่อไปที่เห็นกราฟและคำโฆษณาที่โปรยความน่าเชื่อถือมาด้วยข้อมูลทางสถิติ อย่าลืมฉุกคิดสักนิดก่อนตัดสินใจเชื่อ และหากเพื่อน ๆ ต้องการศึกษาบทเรียนเกี่ยวกับสถิติเพิ่มเติมก็สามารถดาวน์โหลดแอปพลิเคชัน StartDee แล้วไปลุยกันต่อได้เลย !

 

บทความที่เกี่ยวข้อง:

ค่ากลางของข้อมูล ชั้นมัธยมศึกษาปีที่ 6 วิชาคณิตศาสตร์

สถิติและข้อมูล ชั้นมัธยมศึกษาปีที่ 6 วิชาคณิตศาสตร์

โจทย์คณิตศาสตร์ เรื่องสถิติและข้อมูล ชั้นมัธยมศึกษาปีที่ 6



Reference:

https://www.ted.com/talks/lea_gaslowitz_how_to_spot_a_misleading_graph?language=en

https://www.facebook.com/106640191035606/posts/362098722156417/

https://www.youtube.com/watch?v=sxYrzzy3cq8

https://youtu.be/1Totz8aa2Gg

แสดงความคิดเห็น