SCB 10X เปิดตัว Typhoon Isan เอไอถอดเสียงภาษาอีสาน แบบโอเพนซอร์สครั้งแรกในไทย

‘ไต้ฝุ่นอีสาน’ โมเดลปัญญาประดิษฐ์สำหรับถอดเสียงภาษาอีสานเป็นข้อความ จาก SCB 10X ซึ่งเป็นโอเพนซอร์สครั้งแรกในไทย มีเป้าหมายแก้ปัญหาที่ระบบเอไอปัจจุบันไม่เข้าใจภาษาถิ่น

เอสซีบี เท็นเอกซ์ (SCB 10X) เปิดตัวโครงการ “ไต้ฝุ่นอีสาน” (Typhoon Isan) โมเดลปัญญาประดิษฐ์สำหรับถอดเสียงภาษาอีสาน (Automatic Speech Recognition – ASR) พร้อมเผยแพร่ชุดข้อมูลภาษาอีสานแบบโอเพนซอร์ส

โดยระบุว่า โครงการไต้ฝุ่นอีสานเป็นส่วนหนึ่งของความพยายามผลักดันให้เอไอในประเทศไทยเข้าใจเสียงและภาษาในทุกรูปแบบ ไม่จำกัดเฉพาะภาษากลาง และเป็นจุดเริ่มต้นของการสร้างความหลากหลายทางภาษาในยุคดิจิทัล ทั้งเพื่อประโยชน์ด้านการพัฒนาเทคโนโลยี การศึกษา และการอนุรักษ์อัตลักษณ์ทางวัฒนธรรมของชุมชนท้องถิ่น

ปัญหาของระบบ ASR กับภาษาถิ่น

ระบบถอดเสียงอัตโนมัติที่ใช้งานในปัจจุบันถูกออกแบบจากข้อมูลภาษากลางเป็นหลัก ทำให้ไม่สามารถรองรับการพูดภาษาถิ่นได้อย่างแม่นยำ โดยเฉพาะภาษาที่มีข้อมูลดิจิทัลน้อย เช่น ภาษาอีสาน แม้จะเป็นภาษาที่มีผู้ใช้งานจำนวนมากราว 20 ล้านคน หรือราวหนึ่งในสามของประชากรไทย แต่ยังขาดมาตรฐานการเขียนที่แน่ชัด และขาดคลังข้อมูลเสียงที่มีโครงสร้างชัดเจน จึงทำให้โมเดลเอไอถอดเสียงได้ไม่ถูกต้องเมื่อเจอสำเนียงท้องถิ่น

เอสซีบี เท็นเอกซ์ จึงจัดทำข้อมูลภาษาอีสานอย่างเป็นระบบ มีความสำคัญต่อทั้งการรักษามรดกทางภาษาและต่อการพัฒนาเทคโนโลยี ซึ่งอาจเชื่อมโยงไปสู่ประโยชน์ทางเศรษฐกิจในระยะยาว เนื่องจากภาคอีสานมีสัดส่วนทางเศรษฐกิจราว 10% ของ GDP ประเทศ และมีแรงงานจำนวนมากที่ใช้ภาษาอีสานในชีวิตประจำวันและการทำงาน

โอเพนซอร์สสร้างมาตรฐานภาษาอีสานในโลกดิจิทัล

โครงการไต้ฝุ่นอีสานดำเนินงานในลักษณะ Open-Source AI Initiative โดยเป็นความร่วมมือระหว่างทีมวิจัยของ เอสซีบี เท็นเอกซ์ นักภาษาศาสตร์ ผู้เชี่ยวชาญด้านภาษา ครู นักเรียน และชุมชนในหลายพื้นที่ของภาคอีสาน

จุดมุ่งหมายคือ สร้างมาตรฐานข้อมูลและเครื่องมือที่ใช้ได้จริงสำหรับงานวิจัยและการพัฒนาเอไอด้านภาษาไทยถิ่น

ภายในงาน “TYPHOON เฮ็ดให้ AI ใจอีสาน” มีการเปิดตัวผลลัพธ์หลักของโครงการ ได้แก่

Typhoon Isan ASR โมเดลถอดเสียงภาษาอีสานเป็นข้อความแบบโอเพนซอร์ส
Typhoon Isan TTS ระบบสังเคราะห์เสียงจากข้อความ ที่สามารถสร้างเสียงภาษาอีสานในลักษณะธรรมชาติ
คลังข้อมูลภาษาอีสานแบบเปิด (Open Data)
Isan Speech Transcription Convention แนวทางถอดเสียงเพื่อใช้สร้างชุดข้อมูลที่เป็นมาตรฐาน
Isan Spelling Standard ระบบสะกดคำภาษาอีสานด้วยอักษรไทย
Isan Speech Corpus ชุดข้อมูลเสียงพูดจากหลายจังหวัดในภาคอีสาน
Isan Phonetic Dictionary พจนานุกรมคำอ่านเชื่อมโยงคำและเสียงในภาษาอีสาน

ชุดข้อมูลและโมเดลเหล่านี้เปิดให้ผู้สนใจนำไปใช้เพื่อการวิจัย การพัฒนาแอปพลิเคชัน หรือการศึกษาด้านภาษาได้โดยไม่คิดค่าใช้จ่าย เพื่อส่งเสริมระบบนิเวศเอไอไทยให้เติบโตแบบเปิดและเข้าถึงได้