Big Data

Big Data

ในปัจจุบันนี้ คำจำกัดความของ Big Data ยังไม่มีที่ยอมรับกันโดยทั่วไป Big Data ของใครคนหนึ่งอาจเป็นข้อมูลทั่วๆ ไปของอีกคนหนึ่งก็ได้

แต่นั่นก็ไม่ได้หมายความว่าไม่มีเลย บางคนอาจให้คำจำกัดความว่า Big Data คือ ข้อมูลที่กระจายอยู่บนระบบต่าง ๆ ในเวลาเดียวกัน ข้อมูลที่กระจายอยู่ในระบบต่าง ๆ กันย่อมเกี่ยวข้องกับคอมพิวเตอร์หลาย ๆ เครื่อง บริการต่าง ๆ กัน และ การประยุกต์ใช้งานที่ต่าง ๆ กัน เมื่อเป็นเช่นนั้น โอกาสที่ข้อมูลจากหลาย ๆ แหล่งจะมี format ไม่เหมือนกันมีสูงมาก แต่ในบางครั้ง ข้อมูลที่อยู่กระจายในระบบต่าง ๆ กันอาจไม่ได้หมายถึง Big Data เสมอไปเนื่องจากหน่วยความจำแต่ละเครื่องมีขนาดเล็ก บางครั้ง Big Data อาจหมายถึงข้อมูลที่ใช้เครื่องมือวิเคราะห์ที่ซับซ้อนกว่า แต่นั่นก็ไม่ได้เป็นเสมอไป

กล่าวกันว่า ทุกๆ คนบนโลกนี้จะมีข้อมูลที่เกี่ยวกับตัวเอง 5,200 GB ในปี 2020 ผู้คนบนโลกนี้จะทวีตโดยประมาณ 500 ล้านครั้งต่อวัน ในประเทศไทยเอง ลูกค้าของผู้ให้บริการมือถือที่รับส่งข้อมูลในปริมาณ 20GB ต่อเดือนไม่ใช่เรื่องผิดปกติแต่อย่างใด Walmart ประมวลผลธุรกรรมของลูกค้า 1 ล้านรายการต่อชั่วโมง Amazon ขายสินค้า 600 รายการต่อวินาที โดยเฉลี่ยแล้ว ผู้คนจะรับอีเมล 88 ครั้งและส่ง 34 ครั้ง รวมเป็นปริมาณอีเมล 200,000 ล้านครั้งต่อวัน MasterCard ประมวลผลธุรกรรม 74,000 ล้านรายการต่อวัน สายการบินพาณิชย์ทำการบิน 5,800 เที่ยวต่อวันพร้อม ๆ กับปริมาณรายชื่อผู้โดยสารและข้อมูลที่เกี่ยวข้องมหาศาล

เดี๋ยวนี้ ผู้คนเห่อพูดถึง Big Data เพื่อแสดงว่าตัวเองโก้เก๋ทันสมัยรู้ดีโดยที่ไม่รู้เลยว่ามันคืออะไร สื่อมวลชนนี่ตัวดี ความรู้น้อยนิดแต่อวดรู้ เสร็จแล้วผู้คนในธุรกิจที่รู้มากกว่ากลับพูดตามเพื่อให้ทันสมัยอวดดี คำจำกัดความข้างต้นคงอธิบายคำจำกัดความอันเป็นที่เข้าใจผิด ๆ ได้เป็นอย่างดี แต่คำจำกัดความ Big Data จะอธิบายในอีกมุมมองหนึ่งก็ได้

ทุกวันนี้ ข้อมูลที่ใช้แบ่งได้เป็น

  1. ข้อมูลปฐมภูมิเช่น ข้อมูลทางการเงินที่อธิบายพฤติกรรมโดยตรงและใช้อธิบายหรือใช้งานเพื่อวัตถุประสงค์ต่าง ๆ ได้โดยตรง
  2. ข้อมูลทุติยภูมิข้อมูลที่มีปริมาณมากที่ไม่อาจรวบรวมมาใช้งานได้หมดหรือถึงรวบรวมได้หมดต้องใช้เวลา/เงินมหาศาลจนไม่คุ้มค่า เช่น ข้อมูลลูกค้า ข้อมูลทางเศรษฐกิจ เป็นต้น ข้อมูลลูกค้าโดยเฉพาะกลุ่มที่มีศักยภาพแต่ไม่ได้ซื้อกับเรานี่เป็นปัญหา ส่วนใหญ่จะใช้วิธีเก็บตัวอย่างซึ่งก็พอเป็นตัวชี้วัดได้ แม้จะไม่สมบูรณ์ก็ตาม ข้อมูลเศรษฐกิจมหภาคเก็บทุกรายละเอียดไม่ได้ ต้องเก็บเป็นยอดรวม การแยกข้อมูลเป็นรายละเอียดย่อย ๆ อาจจะมีอยู่ แต่ได้ล่าช้ากว่าเวลาจริงมาก ปัญหาอยู่ที่การรวบรวมจากหลาย ๆ แหล่ง ซึ่งแก้ไขได้โดยการวางระบบเชื่อมโยงกัน แต่ต้องการงบประมาณและเวลามาก จนกระทั่งงานอื่น ๆ ที่มีลำดับความสำคัญสูงกว่าแซงหน้าไป
  3. ข้อมูล Big Data เช่น ซุปเปอร์มาร์เก็ตขนาดใหญ่ เช่น Walmart หรือ Amazon นั้นมีข้อมูลของสินค้าที่ขายแน่นอน สำหรับกรณีที่อยากรู้รายละเอียดของลูกค้าทุกแง่มุมว่า สินค้าแต่ละประเภทซื้อครั้งละเท่าไรด้วยความถี่เท่าไร ลักษณะสินค้าเป็นอย่างไร อย่างชัดเจนโดยข้อมูลตรง โดยไม่ใช้ข้อมูลรวมหรือทุติยภูมิ เพื่อวางแผนการตลาดสร้างยอดขายสูงสุด เพียงเท่านี้ ภาระการประมวลข้อมูลก็มีสูงมากแล้ว นั่นคือกรณีที่ลูกค้าซื้อจริง แต่ถ้าลูกค้าดูสินค้าหลาย ๆ อย่างผ่านเว็บไซต์ไปเรื่อย ๆ เพื่อเปรียบเทียบโดยที่ไม่ซื้อ เจ้าของธุรกิจนั้น ๆ จะเก็บข้อมูลด้วยหรือไม่ยังเป็นปัญหา ในทางธุรกิจแล้ว มันอาจไม่คุ้มค่าเท่าไร เพราะว่า ความเคลื่อนไหวของการขายสินค้าแต่ละชนิดเป็นสิ่งชี้บอกได้อยู่แล้ว ดังนั้น ความตื่นเต้นที่ให้กับ Big Data อาจมากเกินกว่าศักยภาพของ Big Data จริง ๆ ก็ได้สิ่งที่ใหญ่กว่านั้นคือการวิเคราะห์พฤติกรรมประชาชนทั้งประเทศโดยผ่านข้อมูลตรงจากระบบมือถือหรือระบบชำระเงิน จะเพื่อวัตถุประสงค์ทางการเมือง นโยบายเศรษฐกิจ หรืออะไรก็แล้วแต่

ปัญหาสุดท้ายอยู่ที่ค่าใช้จ่ายในการเก็บและประมวลข้อมูลนั้นคุ้มค่าหรือไม่ เมื่อสมัยก่อนอาจทำไม่ได้ แต่ทุกวันนี้ระบบมือถือ อินเตอร์เน็ต และ ระบบชำระเงินแบบอิเลคโทรนิค ตลอดจน ข้อมูลจาก Internet of Things (IoT) เอื้ออำนวยให้ทำได้ทุกกอย่าง แต่จะต้องเขียนซอฟแวร์และลงทุนระบบคอมพิวเตอร์ขนาดใหญ่เพื่อประมวลตลอดจนการปรับข้อมูลจากแหล่งต่าง ๆ เพื่อให้ compatible กับข้อมูลจากแพลตฟอร์มอื่น ตลอดจนโปรแกรมที่จะใช้ประมวลผล นอกจากนี้ ข้อมูลที่ได้จากแหล่งต่าง ๆ ยังจะต้อง compatible กันในทางพฤติกรรมเชิงสถิติด้วย ทั้งหมดนี้เป็นปัญหาใหญ่ แต่ใครที่วางระบบนี้ได้จะมีอิทธิพลต่อสังคมอย่างมาก เช่น บริษัทมือถือ ธนาคาร หรือ เฟสบุ๊ค/Line เป็นต้น แต่ก็อีกนั่นแหละ เจ้าของแพลตฟอร์มเหล่านี้จะได้ผลประโยชน์จากการวางระบบเพียงใด กล่าวโดยง่ายคือ ใครจะมาซื้อและด้วยราคาเท่าไร เนื่องจากเป้าหมายหลักของเขาคือการชี้ชวนให้ธุรกิจมาใช้พื้นที่เพื่อโฆษณามากกว่า

อยากจะย้ำว่า ระดับบริษัทอย่างบริษัทอสังหาริมทรัพย์ยักษ์ใหญ่ หรือ แม้แต่ธุรกิจอสังหาริมทรัพย์ทั้งระบบ ยังไม่มีอะไรที่เป็น Big Data แม้ว่าจะเป็นลูกค้าที่แวะชมที่โครงการหรือเว็บไซต์ก็ตาม สิ่งที่พอจะเป็น Big Data ได้และเกี่ยวข้องกับ บริษัท คือ ผู้บริโภคที่มีศักยภาพที่จะเป็นลูกค้าได้ทั้งระบบ แต่ปัญหาคือ ถ้าเราต้องการข้อมูลนี้โดยที่ไม่มีแพลตฟอร์มของเราเอง เราต้องเสียค่าซื้อข้อมูลมหาศาล ซึ่งไม่จำเป็นและอาจได้ข้อมูลที่ไม่ด้อยกว่ากันมากนักโดยการซื้อเพียงตัวอย่างบางส่วน ในเรื่องนี้ ผู้ที่เคยทำงานกับข้อมูลเป็นประจำเท่านั้นจึงจะมีความซาบซึ้งเรื่องนี้ดี แม้แต่กรณีที่เราใช้แพลตฟอร์มได้โดยไม่เสียเงิน ปัญหาคือ คุณจะเก็บข้อมูลในปริมาณเท่าไร กี่วัน กี่เดือน ค่า storage คุ้มไหม บางความเห็นบอกว่า เดี๋ยวนี้ storage ราคาถูก แต่ก็ยังไม่มีงานวิจัยสนับสนุนอย่างจริงจังในประเด็นความคุ้มค่า  อีกประการหนึ่ง โอกาสการประมวลผลเพื่อประยุกต์ใช้งานมีมากมายเหลือเกิน ใครจะประเมินได้ถูก การประมวลผลทำได้ไหม ใครมือถึงพอที่จะประมวล ถ้าคุณไม่ประมวล Big Data ล้มทับคุณท่วมจมหายแน่นอน เพราะฉะนั้น อย่าสักแต่ว่าพูด วันก่อนเห็นหนังสือพิมพ์ลงเกี่ยวกับเรื่องความต้องการบุคลากรเพื่อการประมวลผลนี้มหาศาล แต่จะมีกี่คนที่มือถึง ผมมองว่าถ้าจะใช้ Big Data กันจริง ๆ จะต้องมีผู้ประมวลผลที่มือถึงพอและทำเป็นประจำเพื่อ update แนวโน้มผู้บริโภคแต่อาจไม่ต้องตลอดเวลา เพราะว่าพฤติกรรมผู้บริโภคไม่เปลี่ยนเร็วขนาดนั้น เสร็จแล้วลบข้อมูล Big Dataที่ประมวลผลทิ้งไปเก็บแต่ข้อสรุปก็พอ มิฉะนั้น Big Data ท่วม storage แน่นอน

ขอย้ำว่า ยังไม่มีงานวิจัยถึงความคุ้มค่าในการประมวลข้อมูลของ Big Data