SCB 10X เปิดตัว Typhoon Isan เอไอถอดเสียงภาษาอีสาน แบบโอเพนซอร์สครั้งแรกในไทย

‘ไต้ฝุ่นอีสาน’ โมเดลปัญญาประดิษฐ์สำหรับถอดเสียงภาษาอีสานเป็นข้อความ จาก SCB 10X ซึ่งเป็นโอเพนซอร์สครั้งแรกในไทย มีเป้าหมายแก้ปัญหาที่ระบบเอไอปัจจุบันไม่เข้าใจภาษาถิ่น
เอสซีบี เท็นเอกซ์ (SCB 10X) เปิดตัวโครงการ “ไต้ฝุ่นอีสาน” (Typhoon Isan) โมเดลปัญญาประดิษฐ์สำหรับถอดเสียงภาษาอีสาน (Automatic Speech Recognition – ASR) พร้อมเผยแพร่ชุดข้อมูลภาษาอีสานแบบโอเพนซอร์ส
โดยระบุว่า โครงการไต้ฝุ่นอีสานเป็นส่วนหนึ่งของความพยายามผลักดันให้เอไอในประเทศไทยเข้าใจเสียงและภาษาในทุกรูปแบบ ไม่จำกัดเฉพาะภาษากลาง และเป็นจุดเริ่มต้นของการสร้างความหลากหลายทางภาษาในยุคดิจิทัล ทั้งเพื่อประโยชน์ด้านการพัฒนาเทคโนโลยี การศึกษา และการอนุรักษ์อัตลักษณ์ทางวัฒนธรรมของชุมชนท้องถิ่น
ปัญหาของระบบ ASR กับภาษาถิ่น
ระบบถอดเสียงอัตโนมัติที่ใช้งานในปัจจุบันถูกออกแบบจากข้อมูลภาษากลางเป็นหลัก ทำให้ไม่สามารถรองรับการพูดภาษาถิ่นได้อย่างแม่นยำ โดยเฉพาะภาษาที่มีข้อมูลดิจิทัลน้อย เช่น ภาษาอีสาน แม้จะเป็นภาษาที่มีผู้ใช้งานจำนวนมากราว 20 ล้านคน หรือราวหนึ่งในสามของประชากรไทย แต่ยังขาดมาตรฐานการเขียนที่แน่ชัด และขาดคลังข้อมูลเสียงที่มีโครงสร้างชัดเจน จึงทำให้โมเดลเอไอถอดเสียงได้ไม่ถูกต้องเมื่อเจอสำเนียงท้องถิ่น
เอสซีบี เท็นเอกซ์ จึงจัดทำข้อมูลภาษาอีสานอย่างเป็นระบบ มีความสำคัญต่อทั้งการรักษามรดกทางภาษาและต่อการพัฒนาเทคโนโลยี ซึ่งอาจเชื่อมโยงไปสู่ประโยชน์ทางเศรษฐกิจในระยะยาว เนื่องจากภาคอีสานมีสัดส่วนทางเศรษฐกิจราว 10% ของ GDP ประเทศ และมีแรงงานจำนวนมากที่ใช้ภาษาอีสานในชีวิตประจำวันและการทำงาน
โอเพนซอร์สสร้างมาตรฐานภาษาอีสานในโลกดิจิทัล
โครงการไต้ฝุ่นอีสานดำเนินงานในลักษณะ Open-Source AI Initiative โดยเป็นความร่วมมือระหว่างทีมวิจัยของ เอสซีบี เท็นเอกซ์ นักภาษาศาสตร์ ผู้เชี่ยวชาญด้านภาษา ครู นักเรียน และชุมชนในหลายพื้นที่ของภาคอีสาน
จุดมุ่งหมายคือ สร้างมาตรฐานข้อมูลและเครื่องมือที่ใช้ได้จริงสำหรับงานวิจัยและการพัฒนาเอไอด้านภาษาไทยถิ่น
ภายในงาน “TYPHOON เฮ็ดให้ AI ใจอีสาน” มีการเปิดตัวผลลัพธ์หลักของโครงการ ได้แก่
- Typhoon Isan ASR โมเดลถอดเสียงภาษาอีสานเป็นข้อความแบบโอเพนซอร์ส
- Typhoon Isan TTS ระบบสังเคราะห์เสียงจากข้อความ ที่สามารถสร้างเสียงภาษาอีสานในลักษณะธรรมชาติ
- คลังข้อมูลภาษาอีสานแบบเปิด (Open Data)
- Isan Speech Transcription Convention แนวทางถอดเสียงเพื่อใช้สร้างชุดข้อมูลที่เป็นมาตรฐาน
- Isan Spelling Standard ระบบสะกดคำภาษาอีสานด้วยอักษรไทย
- Isan Speech Corpus ชุดข้อมูลเสียงพูดจากหลายจังหวัดในภาคอีสาน
- Isan Phonetic Dictionary พจนานุกรมคำอ่านเชื่อมโยงคำและเสียงในภาษาอีสาน
ชุดข้อมูลและโมเดลเหล่านี้เปิดให้ผู้สนใจนำไปใช้เพื่อการวิจัย การพัฒนาแอปพลิเคชัน หรือการศึกษาด้านภาษาได้โดยไม่คิดค่าใช้จ่าย เพื่อส่งเสริมระบบนิเวศเอไอไทยให้เติบโตแบบเปิดและเข้าถึงได้







