LannaOCR แหล่งค้นคว้าข้อมูลคัมภีร์โบราณล้านนา

LannaOCR แหล่งค้นคว้าข้อมูลคัมภีร์โบราณล้านนา

โครงการล้านนาคดีศึกษา ม.เชียงใหม่ สำรวจและเก็บบันทึกข้อมูลคัมภีร์โบราณล้านนาที่ถูกเก็บรักษาตามวัดต่างๆ ทั่วประเทศ แล้วจัดทำเป็นไฟล์ดิจิทัลเผยแพร่ผ่านแอพพลิเคชั่น LannaOCR รุ่นทดลองใช้ เพื่อเป็นแหล่งค้นคว้าของนักวิจัยรวมไปถึงบุคคลทั่วไป

ชื่อผลงานวิจัย: การรู้จำภาพอักษรธรรมล้านนาที่จารในคัมภีร์ใบลาน
คณะผู้วิจัย: นายปภังกร อิ่นแก้ว นักศึกษา คปก.-สกว. รศ.ดร.จีรยุทธ ไชยจารุวณิช และคณะ


ความสำคัญและที่มา
คัมภีร์ใบลาน เป็นเอกสารโบราณประเภทหนึ่ง ทำมาจากใบต้นลาน มีการจาร (บันทึก) องค์ความรู้และเรื่องราวต่างๆ ที่ล้วนแต่มีความสำคัญต่อการศึกษาพระพุทธศาสนา ประวัติศาสตร์ วรรณกรรม ตำรายา และภูมิปัญญาของคนในอดีต หน่วยงานต่างๆ ได้ทำการออกสำรวจและอนุรักษ์คัมภีร์ใบลานซึ่งส่วนมากถูกเก็บรักษาตามวัดต่างๆ ทั่วประเทศ

มหาวิทยาลัยเชียงใหม่เป็นหน่วยงานหนึ่งที่ได้ริเริ่มการสำรวจคัมภีร์ใบลานและเอกสารโบราณอื่นๆ ในพื้นที่ภาคเหนือของประเทศไทย ตั้งแต่ปี พ.ศ.2532 ในการสำรวจแต่ละครั้งคณะสำรวจได้จัดทำทะเบียนเอกสารโบราณ และถ่ายสำเนาเอกสารคัมภีร์โบราณที่มีความสำคัญไว้ ระยะแรกการจัดทำสำเนาเอกสารอยู่ในรูปแบบไมโครฟิมล์ ต่อมาได้เปลี่ยนรูปแบบการถ่ายสำเนาเป็นไฟล์ภาพดิจิตอล

ภายหลังในปี พ.ศ.2557 มหาวิทยาลัยเชียงใหม่ได้จัดตั้งศูนย์ล้านนาคดี มหาวิทยาลัยเชียงใหม่ขึ้น พร้อมทั้งได้จัดทำระบบฐานข้อมูลคัมภีร์โบราณล้านนาขึ้น (เข้าถึงได้ที่ http://library.cmu.ac.th/lanna_ebook/) เพื่อรวบรวมรายการและสำเนาภาพถ่ายคัมภีร์โบราณทั้งหมดที่สำรวจโดยมหาวิทยาลัยเชียงใหม่ เป็นแหล่งค้นคว้าของนักวิจัยรวมไปถึงบุคคลทั่วไปที่สนใจ ปัจจุบันมีรายการคัมภีร์โบราณที่ทรงคุณค่ามากกว่า 5,000 รายการและมากกว่า 100,000 ภาพถ่ายสำเนาเอกสารในฐานข้อมูลดังกล่าว

แม้ว่าสำเนาภาพถ่ายคัมภีร์โบราณที่สำรวจพบจะถูกจัดเก็บในระบบสารสนเทศที่สามารถเข้าถึงได้แล้วก็ตาม การนำมาใช้ประโยชน์ยังคงจำกัดในวงแคบ เนื่องจากเนื้อหาในคัมภีร์ถูกจารจารึกด้วยอักษรโบราณที่มีผู้รู้จำนวนน้อย ประกอบกับจำนวนเอกสารที่มีมากและการค้นหาเอกสารยังคงทำได้เฉพาะการค้นหาตามชื่อเอกสาร ทำให้ยากต่อการสืบค้น อีกทั้งการสำเนาภาพเอกสารในรูปแบบไฟล์ภาพดิจิตอลสามารถนำไปใช้ประโยชน์ได้อย่างจำกัด

เพื่อทำให้สำเนาภาพเอกสารคัมภีร์โบราณที่มีคุณค่าสามารถนำมาใช้ประโยชน์ได้อย่างกว้างขวางขึ้น คณะผู้วิจัยจึงได้ริเริ่มดำเนินงานวิจัยเพื่อแปลงไฟล์ภาพดิจิตอลของภาพถ่ายเอกสารคัมภีร์โบราณให้อยู่ในรูปแบบไฟล์ข้อความ (Text file) ซึ่งจะทำให้สามารถค้นหาเอกสารในระดับเนื้อหาที่บันทึกอยู่ภายในได้ อีกทั้งยังทำให้สามารถนำเอาวิทยาการทางด้านการประมวลผลภาษาธรรมชาติ (Natural Language Processing) เข้ามาช่วยในการปริวรรตและถอดความ ซึ่งจะทำให้บุคคลทั่วไปสามารถเข้าใจเนื้อหาที่มีการบันทึกไว้มากขึ้น

นอกจากนี้การสำเนาเอกสารในรูปแบบไฟล์ข้อความยังสามารถนำไปผลิตหรือพิมพ์ซ้ำได้อย่างสะดวก ในงานวิจัยนี้ผู้วิจัยได้นำเทคนิคการรู้จำภาพอักษร (Optical Character Recognition) ซึ่งประกอบไปด้วยขั้นตอนต่างๆ ที่ผสานเทคนิคการประมวลผลภาพดิจิตอล (Digital Image Processing) และการรู้จำแบบ (Pattern Recognition) เข้ามาช่วยในการแปลงไฟล์ภาพดิจิตอลให้เป็นไฟล์ข้อความอย่างอัตโนมัติ ผลลัพธ์จากการวิจัยถูกนำมาพัฒนาเป็นเว็บแอพพลิเคชั่น LannaOCR เพื่อเป็นเครื่องมือออนไลน์ในการแปลงภาพสำเนาคัมภีร์ใบลานเป็นไฟล์เอกสาร (Text file) ที่ผู้ใช้สามารถติดตามผลลัพธ์ในแต่ละขั้นตอนของกระบวนได้ นอกจากนี้ยังมีเครื่องมืออำนวยความสะดวกในการจัดการสำเนาภาพถ่ายคัมภีร์โบราณ อันเป็นประโยชน์ต่อการดำเนินการสำรวจ อนุรักษ์ และเผยแพร่คัมภีร์โบราณด้วย

การนำไปใช้ประโยชน์


ในประเทศไทยยังมีอีกมีหลายหน่วยงานที่ดำเนินการสำรวจและอนุรักษ์คัมภีร์โบราณ อาทิ มหาวิทยาลัยราชภัฏเชียงใหม่ มหาวิทยาลัยมหาสารคาม มหาวิทยาลัยขอนแก่น มหาวิทยาลัยมหาจุฬาลงกรณราชวิทยาลัย ศูนย์มานุษยวิทยาสิริธร (องค์การมหาชน) และหอจดหมายเหตุแห่งชาติ กรมศิลปากร

งานวิจัยนี้จะมีส่วนช่วยสนับสนุนการกระบวนการสำรวจและอนุรักษ์คัมภีร์โบราณ โดยเป็นเครื่องการในการจัดการสำเนาภาพถ่ายคัมภีร์โบราณ และแปลงภาพถ่ายสำเนาในรูปแบบไฟล์ภาพดิจิตอลเป็นไฟล์ข้อความ ซึ่งจะมีประโยชน์อย่างมากในการนำผลลัพธ์ที่ได้ไปต่อยอดทั้งในการการเผยแพร่ และงานวิจัย

แม้ว่างานวิจัยนี้มีขอบเขตเริ่มแรกเฉพาะคัมภีร์ประเภทใบลานที่ถูกจารด้วยอักษรธรรมล้านนา แต่องค์ความรู้ที่ได้จากงานวิจัยยังสามารถนำไปประยุกต์ใช้ได้กับคัมภีร์โบราณประเภทอื่นๆ เช่น พับสาหรือสมุดไทย และอาจถูกจารจารึกด้วยอักษรโบราณอื่นๆ เช่น อักษรยวน อักษรธรรมอีสาน อักษรขอม หรืออักษรไทยนิเทศได้อีกด้วย

คณะผู้วิจัย ดำเนินโครงการภายใต้โครงการล้านนาคดีศึกษา มหาวิทยาลัยเชียงใหม่ ได้เผยแพร่แอพพลิเคชั่น LannaOCR รุ่นทดลองใช้ที่ http://202.28.248.55:5001/ งานวิจัยและพัฒนานี้ได้ดำเนินการอย่างต่อเนื่องเพื่อเพิ่มประสิทธิภาพของแอพพลิเคชั่นดังกล่าวให้สูงขึ้น และเพื่อตอบสนองความต้องการของผู้ใช้ให้ได้มากที่สุด

แอพพลิเคชั่นนี้ถูกนำไปใช้งานจริงในโครงการสำรวจ รวบรวม และจัดทำระบบสารสนเทศ สำเนาภายถ่ายพระธรรมคัมภีร์ใบลาน พระนครน่าน สมัยเจ้าอนันตวรฤทธิเดชฯ นอกจากนี้ส่วนหนึ่งของงานวิจัยนี้เคยได้รับรางวัล The Best Student Paper Award จากงานประชุมวิชาการนานาชาติ 18th International Conference on Asia-Pacific Digital Libraries (ICADL 2016) ที่ประเทศญี่ปุ่นด้วย