สถาปัตยกรรมด้าน “ข้อมูล” สำคัญ เมื่อนำมาใช้ให้เกิดประโยชน์

สถาปัตยกรรมด้าน “ข้อมูล” สำคัญ เมื่อนำมาใช้ให้เกิดประโยชน์

โลกวันนี้มีเทคโนโลยีใหม่ทำให้สามารถเก็บข้อมูลดิจิทัลได้จำนวนมหาศาล จึงทำให้ข้อมูลเป็นสินทรัพย์รูปแบบใหม่ และถ้าใครมีข้อมูลมากๆ ก็เสมือนว่ามีน้ำมันอยู่มากมาย

ข้อมูลคือน้ำมันในรูปแบบใหม่ (Data is the new oil) เรามักได้ยินคำพูดนี้เสมอที่พยายามเปรียบเทียบข้อมูลกับน้ำมัน เพราะเรามักจะคิดว่า น้ำมันเป็นสินทรัพย์ที่มีค่า และใครมีน้ำมันจำนวนมาก คือ เศรษฐี แต่โลกวันนี้มีเทคโนโลยีใหม่ทำให้สามารถเก็บข้อมูลดิจิทัลได้จำนวนมหาศาล จึงทำให้ข้อมูลเป็นสินทรัพย์รูปแบบใหม่ และถ้าใครมีข้อมูลมากๆ ก็เสมือนว่ามีน้ำมันอยู่มากมาย

แต่หลายคนอาจแปลกใจว่า องค์กรเรามีข้อมูลจำนวนมาก แต่ไม่สามารถใช้ประโยชน์ใดๆ จากข้อมูลได้ ทำไมองค์กรไม่สามารถสร้างรายได้ใดๆ จากข้อมูลได้ ในที่นี้ขออธิบายว่า ข้อมูลเปรียบเสมือนน้ำมันดิบ เมื่อยังไม่ได้กลั่นไม่สามารถใช้ประโยชน์ใดๆ ได้ ข้อมูลที่ยังไม่ได้ถูกคัดกรอง ยังไม่ได้ถูกนำมาเชื่อมโยงกัน เปรียบเสมือนน้ำมันที่ไม่ได้กลั่น จึงยากนำมาใช้ประโยชน์ เพื่อทำการวิเคราะห์ต่อไปได้
 

ดังนั้น การทำให้ข้อมูลมีคุณค่าได้ เราจำเป็นจะต้องทำให้ข้อมูลมีคุณภาพและเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน ต้องรู้ว่าจะเอาข้อมูลมาวิเคราะห์ในเรื่องใด ที่จะเป็นประโยชน์กับองค์กร หรือสร้างการเปลี่ยนแปลงในอนาคตได้ องค์ประกอบที่สำคัญที่จะใช้ประโยชน์จากข้อมูลคงต้องประกอบไปด้วย 3 องค์ประกอบหลัก คือ คน กระบวนการ และเทคโนโลยี หรือ People Process Technology

คนในองค์กรจำเป็นต้องเห็นความสำคัญของข้อมูล มีทักษะนำข้อมูลมาวิเคราะห์และเข้าใจในการใช้ข้อมูล กระบวนการ คือ การสร้างขั้นตอนและวัฒนธรรมใช้ข้อมูลในองค์กรเพื่อให้เกิดประโยชน์ และเทคโนโลยีจะเป็นส่วนสำคัญยิ่ง โดยองค์กรจะต้องมีสถาปัตยกรรมด้านข้อมูลเพื่อเชื่อมโยงข้อมูลจากหลายๆ แหล่งเข้าด้วยกัน และหาเครื่องมือที่เหมาะสมมาทำการวิเคราะห์ข้อมูล
 

องค์กรที่ประสบความสำเร็จ นำข้อมูลมาใช้งานให้เป็นประโยชน์ต้องมีสถาปัตยกรรมด้านข้อมูลที่ดี ถ้าถามว่าเราควรใช้สถาปัตยกรรมใดในองค์กรเรา คงต้องเริ่มจากคำถามที่ว่า ข้อมูลเรามีขนาดใหญ่แค่ไหน กระจัดกระจายไปอยู่ในหน่วยงานต่างๆ มากแค่ไหน และต้องการนำข้อมูลไปวิเคราะห์อย่างไร จึงค่อยมาคิดว่าเทคโนโลยีใดจะมาตอบโจทย์ในการรวบรวมข้อมูลของเราให้เป็นหนึ่งเดียว

ปรากฏการณ์ที่เกิดขึ้นแต่ละช่วงทศวรรษ มีวิวัฒนาการที่พอสรุปได้ ดังนี้ ช่วงปี ค.ศ. 1980-2010  ฐานข้อมูลประเภทดาต้าเบส หรือสเปรดชีดอย่าง Excel เหมาะสำหรับกรณีที่เรามีข้อมูลขนาดเล็กอยู่ในงานด้านใดด้านเดียว และต้องการวิเคราะห์เฉพาะงานนั้นๆ แต่ในโลกความเป็นจริง หากเรามีข้อมูลขนาดใหญ่ ข้อมูลจะกระจายอยู่หลายหน่วยงาน เราจำเป็นต้องหาเทคโนโลยีมารวบรวมข้อมูล เพื่อให้เชื่อมโยงข้อมูลเหล่านั้น เพื่อการวิเคราะห์ได้ คนจึงมักนึกถึงคำว่า Data Warehouse สถาปัตยกรรมข้อมูลที่องค์กรต่างๆ นิยมใช้มากในยุคนั้น

ช่วงปี ค.ศ. 2010-2020 เมื่อข้อมูลดิจิทัลเริ่มมีปริมาณมากขึ้น เริ่มมีข้อมูลหลากหลายชนิดขึ้น และความจำเป็นในการวิเคราะห์เริ่มมีเรื่องการพยากรณ์ด้วยการทำวิทยาศาสตร์ข้อมูล (Data Science) มากขึ้น ทำให้ Data Warehouse ไม่สามารถรองรับงานได้ องค์กรจึงต้องหันมาใช้เทคโนโลยี Data Lake รวบรวมข้อมูลได้มากกว่า และหลากหลายชนิดกว่า จนทำให้หลายองค์กรที่จะทำโครงการด้าน Big Data ต่างก็ลงทุนพัฒนาสถาปัตยกรรมด้านข้อมูลที่มี Data Lake ซึ่งจะ มีราคาที่ถูกกว่าการใช้ Data Warehouse เป็นสถาปัตยกรรมที่องค์กรนิยมออกแบบกัน

แต่การบริหารจัดการข้อมูลบนสถาปัตยกรรม Data Lake ก็มีความท้าทายอยู่ในหลายเรื่อง เช่น เรื่องธรรมาภิบาล ข้อมูล (Data Governance) ต้องมีการจัดการวงจรชีวิตของข้อมูล (Data Life Cycle) ที่ดี ต้องจัดการเรื่องของความปลอดภัยและความเป็นส่วนตัวของข้อมูลที่ดี ประกอบกับการประมวลผลข้อมูลบน Data Lake ทำได้ยากกว่า

ในช่วงปี ค.ศ. 2020-ปัจจุบัน เริ่มนำสถาปัตยกรรมด้านข้อมูล ที่เป็น Data Lakehouse เข้ามาใช้โดยเป็นการนำจุดเด่นทั้ง Data Warehouse และ Data Lake มารวมอยู่ในที่เดียวกัน คือ สามารถใช้เก็บข้อมูลที่มีโครงสร้างและมีการบริหารจัดการข้อมูลได้เหมือนกับ Data Warehouse แต่จะคล่องตัว ยืดหยุ่นและราคาถูกเหมือนกับ Data Lake

แนวโน้มล่าสุดพบว่า หลายองค์กรไม่สามารถรวบรวมข้อมูลจากหลายแหล่งให้มีอยู่ที่เดียวได้ ไม่สามารถมี Data Warehouse หรือ Data Lake ระบบเดียว ข้อมูลในองค์กรที่มีอยู่ มักอยู่ในระบบใดๆ ที่หลากหลาย ทำอย่างไรที่จะสร้างสถาปัตยกรรมที่มีข้อมูลกระจายอยู่หลากหลายแหล่ง หลายชนิด แต่สามารถบริหารให้มีข้อมูลสำหรับผู้ใช้ทุกคนและทุกกรณีได้ จึงทำให้เกิดแนวโน้มของสถาปัตยกรรมด้านข้อมูลใหม่ที่เรียกว่า Data Fabric

หลักการของ Data Fabric เป็นการทำสถาปัตยกรรมด้านข้อมูลแบบกระจาย ที่จะทำให้เราสามารถเข้าถึงข้อมูลที่แชร์ไว้และสามารถบริหารจัดการข้อมูลเหล่านั้นได้ การสร้างสถาปัตยกรรม Data Fabric ไม่ได้หมายถึงการจัดหาผลิตภัณฑ์ตัวใดตัวหนึ่ง แต่เป็นการบริหารจัดการสถาปัตยกรรมด้านข้อมูลที่มีอยู่ให้ตอบโจทย์ที่เป็นหลักการของ Data Fabric ให้ได้ และคงไม่สามารถจะเกิดขึ้นได้ทันทีทันใด แต่ Data Fabric จะใช้ระยะเวลาในการเดินทาง (Journey) ขึ้นไปตามลำดับ