ศาสตร์โกหกอย่างเนียนด้วยสถิติและข้อมูล

การแสดงข้อเท็จจริงหรือเล่าเรื่องราวด้วยข้อมูลและสถิตินอกจากการทำเพื่อให้เกิดความเข้าใจในสถานการณ์นั้นๆ ได้อย่างถูกต้องแม่นยำแล้ว

อีกด้านหนึ่งก็ได้ถูกนำไปใช้ในการบิดเบือนเรื่องราว ซึ่งสามารถเกิดขึ้นได้ทุกที่ทุกเวลา ไม่ว่าท่านกำลังอ่านรายงานผลการดำเนินงานจากลูกน้องที่ดูดีเกินจริง ตัวเลขข้อเสนอจากคู่ค้าที่เย้ายวน หรือผลโพลความนิยมของนักการเมืองที่ออกมาค้านสายตาคนดู ล้วนอาจเกิดจากผู้จัดเตรียมสถิติดังกล่าวเพื่อนำเสนอให้ท่านอาจมีเหตุผลซ่อนเร้น ต้องการให้ท่านเข้าใจในใจความสำคัญผิดไป หรือพยายามปกปิดใจความบางอย่างให้มองข้ามไป และเกิดการติดสินใจในทิศทางตรงกันข้ามกับที่ควรจะเป็น

“การโกหกที่ยิ่งกว่าการโกหก ก็คือสถิติ”

ศาสตร์แห่งการโกหกด้วยสถิติเป็นวิธีการที่คลาสสิค มิเช่นนั้นหนังสือเรื่อง How to Lie with Statistics ของ Darrell Huff คงไม่ติดอันดับขายดีมาตั้งแต่ 1954 และยิ่งวันนี้เมื่อเราก้าวเข้าสู่ยุค Data Economy หรือเศรษฐกิจข้อมูล การโกหกด้วย Big Data หรือข้อมูลขนาดใหญ่ ยิ่งทำให้กลายเป็น Big Lie หรือการโกหกครั้งใหญ่ได้ไม่ยาก เรามาดูกันครับว่าเทคนิคการโกหกแบบ Big Big นี้ ทำได้อย่างไรบ้าง

1. เลือกกลุ่มตัวอย่างแบบบิดเบือน

ถ้าต้องการจะวัดความพึงพอใจของลูกค้าที่มีต่อการแก้ไขปัญหาที่เราทำให้ลูกค้า ผมเคยเห็นบางองค์กรทำการสุ่มวัดเฉพาะปัญหาที่ได้รับการแก้ไขง่ายๆ หรือไปตั้งคำจำกัดความว่าการส่งต่อปัญหาไปให้หน่วยงานอื่นแก้ไข ถือว่าหน่วยงานตนเองได้แก้ไขปัญหาแล้ว ทั้งที่จริงๆ แล้วปัญหาดังกล่าวไม่ได้รับการแก้ไข และมีลูกค้าส่วนหนึ่งไม่พึงพอใจและปล่อยผ่านไป ในขณะที่บางส่วนติดต่อซ้ำมาอีกครั้งในเรื่องเดิม ซึ่งทำให้คะแนนความพึงพอใจโดยรวมออกมาดูดี การบิดเบือนกลุ่มเป้าหมายยังสามารถทำได้กับช่วงเวลา เช่นเลือกช่วงเวลาในการวัดผลที่เกิดปัญหาน้อย

2. เลือกคำถามเซอร์เวย์แบบชี้นำ

การวางคำถามที่ดูเหมือนจะคล้ายกันแต่ใช้คำต่างกัน เช่น “โปรดระบุระดับความพึงพอใจของท่านที่มีต่อบริการของเรา” หรือ “โปรดระบุความพึงพอใจของท่านในการแก้ไขปัญหาของเรา” ผลที่ออกมาจะไม่เหมือนกัน แม้จะทำเซอร์เวย์กับคนกลุ่มเดียวกันเป๊ะๆ ก็ตาม ดังนั้นเวลาเราเห็นผลของการเซอร์เวย์ที่ดูดีจนเกินไป หรือผลออกมาแย่ค้านสายตา สิ่งที่ควรทำคือการตรวจสอบคำที่ใช้ในการทำเซอร์เวย์ หรืออาจทำสองเซอร์เวย์เพื่อเปรียบเทียบกันเลยก็ได้ ว่าคำถามได้ถูกออกแบบมาเพื่อชี้นำกลุ่มตัวอย่างหรือไม่

3. แบ่งคำตอบเซอร์เวย์แบบไม่สมดุล

หัวหน้าให้โจทย์รองหัวหน้าไปเซอร์เวย์ว่าปีนี้แผนกจะไปเที่ยวภูเขาหรือทะเล รองหัวหน้าที่ได้รับมอบหมายมาทำเซอร์เวย์พบว่าคนในทีมส่วนใหญ่อยากไปเที่ยวภูเขา แต่ตนเองอยากไปเที่ยวทะเลใจจะขาด จึงแบ่งคำตอบในการทำเซอร์เวย์ออกเป็นตัวเลือก 6 ตัวเลือก โดยเป็นตัวเลือกภูเขายอดฮิต 4 ที่ และเป็นตัวเลือกทะเลยอดฮิต 2 ที่ สิ่งที่เกิดขึ้นก็คือเสียงที่เลือกไปภูเขาแตกออกเป็น 4 กลุ่ม ในขณะที่เสียงที่เลือกไปทะเลไปรวมกันอยู่ภายใน 2 กลุ่มนี้ ตัวเลือกที่ได้เสียงเยอะที่สุดจึงเป็นทะเล ทั้งๆ ที่หากหัวหน้าลองรวมเสียงกันระหว่างคนอยากไปภูเขาหรือไปทะเล ก็จะพบว่า จริงๆ แล้วคนส่วนใหญ่อยากไปภูเขา เทคนิคการวางคำตอบแบบไม่สมดุล หรือการถ่วงน้ำหนักแบบไม่สมดุลนี้เราจะเห็นบ่อยกับเซอร์เวย์ที่ต้องการชี้นำให้คนเลือกข้าง

4. แสดงผลให้เกิดการตีความด้านเดียว

พนักงานแสดงตัวเลขของยอดขายว่าสูงขึ้น 20% แต่ไม่ได้แสดงตัวเลขของยอดขายโดยรวมของตลาด ว่าจริงๆ แล้วตัวเลขมันสูงทั้งตลาดเกือบ 30% หรือแสดงแต่ยอดขายที่สูงขึ้น แต่ซ่อนต้นทุนที่เกิดขึ้นตามมาไม่ให้แสดงบนบัญชี หรือแสดงแต่รายได้รวมทั้งกลุ่มบริษัท โดยไม่แยกเป็นรายได้จากแต่ละธุรกิจย่อยให้ชัดเจน ทั้งที่ธุรกิจย่อยบางตัวมีแนวโน้มการขาดทุนกำลังพุ่งขึ้นสูง หรือการเปรียบเทียบ GDP ของประเทศกับดัชนีการกระจายรายได้เพื่อสรุปว่าเศรษฐกิจในขณะนั้นดีจริงหรือไม่ เป็นสิ่งที่ต้องพิจารณาตีความให้ครบรอบด้าน

5. เลือกประเภทกราฟ และเลือกสเกลที่บิดเบือน

การเลือกประเภทกราฟว่าจะแสดงผลเป็นกราฟเส้นให้เห็นความต่อเนื่อง กราฟแท่งให้เกิดการเปรียบเทียบ กราฟวงกลมให้เห็นสัดส่วน หรือกราฟหลายมิติให้เห็นความเชื่อมโยงกัน ล้วนสร้างความเข้าใจที่แตกต่างกันแม้จะทำขึ้นบนข้อมูลชุดเดียวกัน การเลือกช่วงเวลาในการพล็อตกราฟ และการใช้สเกลของกราฟที่กว้างจนดูเหมือนทุกอย่างราบรื่น ในขณะที่อีกกราฟใช้สเกลที่แคบจนดูเหมือนสถานการณ์ผันผวนอย่างหนัก

6. เชื่อมโยงความสัมพันธ์ที่แท้จริงแล้วอาจไม่ได้มีความสัมพันธ์กัน

ในวันวาเลนไทน์ ส่วนใหญ่วัยรุ่นไทยตอบปฏิเสธ เมื่อแฟนขอมีความสัมพันธ์ลึกซึ้ง ซึ่งคิดเป็น 54% ในขณะที่ส่วนใหญ่จะให้ดอกไม้เป็นของขวัญแทนความรัก ซึ่งคิดเป็น 41% ของวัยรุ่นไทย ตัวเลขนี้ในแต่ละปีไม่ห่างกันมากนัก ถ้าจะตีความว่า การปฏิเสธความสัมพันธ์ที่ลึกซึ้ง มีความสัมพันธ์กับการให้ดอกไม้เป็นของขวัญ เพียงเพราะดูผลแค่นี้ก็ไม่ถูกต้อง แต่ก็มีหลายคน ที่อ่านค่าสถิติไม่รอบคอบ จนถูกชี้นำได้ กรณีนี้มักถูกนำไปใช้เวลาจะชี้นำให้เกิดตัดสินใจแบบหนึ่ง แต่ไม่สามารถโน้มน้าวได้ตรงๆ จึงต้องใช้ความสัมพันธ์ระหว่างเหตุการณ์ที่ต้องการให้ทำ กับผลลัพธ์ที่เกิดขึ้น

7. เลือกระดับความเชื่อมั่น (Confidence Level) หรือค่ามาตรฐานที่ไม่เหมาะสม

การใช้ระดับความเชื่อมั่นไม่ว่าจะเป็นที่ 85%, 90%, และ 95% ล้วนมีผลต่อการตัดสินใจที่ได้ ในบางโจทย์การใช้ระดับความเชื่อมั่นที่มากไป หรือน้อยไปเพียงนิดเดียว การเลือกว่าจะแสดงจุดทศนิยมไปถึงตำแหน่งที่เท่าไร หรือการเลือกค่ามาตรฐานที่ไม่เหมาะสม เช่นค่ามาตรฐาน PM2.5 ของไทย ที่อาจมีความแตกต่างจากค่ามาตรฐานของประเทศอื่น ก็ทำให้การแปรผลข้อมูลคลาดเคลื่อนได้ ในบางรายงานมีการแตกกลุ่มตัวอย่างออกเป็นกลุ่มย่อยในคำถามย่อย ซึ่งทำให้กลุ่มตัวอย่างมีจำนวนน้อยลง และระดับความเชื่อมั่นน้อยลง ถ้าผู้อ่านข้อมูลไม่ระมัดระวัง การถูกชี้นำจากรายละเอียดที่ซ่อนอยู่ก็อาจเกิดขึ้น

ดังนั้นการแสดงผลของข้อมูลหัวใจจึงอยู่ที่การออกแบบมาตรฐานทั้งกระบวนการ ตั้งแต่การเลือกกลุ่มตัวอย่าง เลือกช่วงเวลา สถิติสำคัญที่ต้องดู และรูปแบบการนำเสนอ เพื่อให้บรรลุวัตถุประสงค์ คุณธรรมของผู้เตรียมข้อมูล (ซึ่งอาจจะวัดได้ยากยิ่งกว่าผลของข้อมูลเสียอีก) อย่างไรก็ตามการวางระบบ Big Data เพื่อให้ข้อมูลจากหลายมิติและหลายแหล่งมีการตรวจทานกัน มีกระบวนการสุ่มตัวอย่างด้วยความถี่สูง จนไปถึงการนำเสนอแบบ Real Time เพื่อความโปร่งใสจึงเป็นหนึ่งในวิธีแก้ปัญหาการโกหกด้วยสถิติในปัจจุบัน