SCB 10X เปิดตัว Typhoon Isan เอไอถอดเสียงภาษาอีสาน แบบโอเพนซอร์สครั้งแรกในไทย

SCB 10X เปิดตัว Typhoon Isan เอไอถอดเสียงภาษาอีสาน แบบโอเพนซอร์สครั้งแรกในไทย

‘ไต้ฝุ่นอีสาน’ โมเดลปัญญาประดิษฐ์สำหรับถอดเสียงภาษาอีสานเป็นข้อความ จาก SCB 10X ซึ่งเป็นโอเพนซอร์สครั้งแรกในไทย มีเป้าหมายแก้ปัญหาที่ระบบเอไอปัจจุบันไม่เข้าใจภาษาถิ่น

เอสซีบี เท็นเอกซ์ (SCB 10X) เปิดตัวโครงการ “ไต้ฝุ่นอีสาน” (Typhoon Isan) โมเดลปัญญาประดิษฐ์สำหรับถอดเสียงภาษาอีสาน (Automatic Speech Recognition – ASR) พร้อมเผยแพร่ชุดข้อมูลภาษาอีสานแบบโอเพนซอร์ส 

โดยระบุว่า โครงการไต้ฝุ่นอีสานเป็นส่วนหนึ่งของความพยายามผลักดันให้เอไอในประเทศไทยเข้าใจเสียงและภาษาในทุกรูปแบบ ไม่จำกัดเฉพาะภาษากลาง และเป็นจุดเริ่มต้นของการสร้างความหลากหลายทางภาษาในยุคดิจิทัล ทั้งเพื่อประโยชน์ด้านการพัฒนาเทคโนโลยี การศึกษา และการอนุรักษ์อัตลักษณ์ทางวัฒนธรรมของชุมชนท้องถิ่น

ปัญหาของระบบ ASR กับภาษาถิ่น

ระบบถอดเสียงอัตโนมัติที่ใช้งานในปัจจุบันถูกออกแบบจากข้อมูลภาษากลางเป็นหลัก ทำให้ไม่สามารถรองรับการพูดภาษาถิ่นได้อย่างแม่นยำ โดยเฉพาะภาษาที่มีข้อมูลดิจิทัลน้อย เช่น ภาษาอีสาน แม้จะเป็นภาษาที่มีผู้ใช้งานจำนวนมากราว 20 ล้านคน หรือราวหนึ่งในสามของประชากรไทย แต่ยังขาดมาตรฐานการเขียนที่แน่ชัด และขาดคลังข้อมูลเสียงที่มีโครงสร้างชัดเจน จึงทำให้โมเดลเอไอถอดเสียงได้ไม่ถูกต้องเมื่อเจอสำเนียงท้องถิ่น

เอสซีบี เท็นเอกซ์ จึงจัดทำข้อมูลภาษาอีสานอย่างเป็นระบบ มีความสำคัญต่อทั้งการรักษามรดกทางภาษาและต่อการพัฒนาเทคโนโลยี ซึ่งอาจเชื่อมโยงไปสู่ประโยชน์ทางเศรษฐกิจในระยะยาว เนื่องจากภาคอีสานมีสัดส่วนทางเศรษฐกิจราว 10% ของ GDP ประเทศ และมีแรงงานจำนวนมากที่ใช้ภาษาอีสานในชีวิตประจำวันและการทำงาน

โอเพนซอร์สสร้างมาตรฐานภาษาอีสานในโลกดิจิทัล

โครงการไต้ฝุ่นอีสานดำเนินงานในลักษณะ Open-Source AI Initiative โดยเป็นความร่วมมือระหว่างทีมวิจัยของ เอสซีบี เท็นเอกซ์ นักภาษาศาสตร์ ผู้เชี่ยวชาญด้านภาษา ครู นักเรียน และชุมชนในหลายพื้นที่ของภาคอีสาน

จุดมุ่งหมายคือ สร้างมาตรฐานข้อมูลและเครื่องมือที่ใช้ได้จริงสำหรับงานวิจัยและการพัฒนาเอไอด้านภาษาไทยถิ่น

ภายในงาน “TYPHOON เฮ็ดให้ AI ใจอีสาน” มีการเปิดตัวผลลัพธ์หลักของโครงการ ได้แก่ 

  • Typhoon Isan ASR โมเดลถอดเสียงภาษาอีสานเป็นข้อความแบบโอเพนซอร์ส 
  • Typhoon Isan TTS ระบบสังเคราะห์เสียงจากข้อความ ที่สามารถสร้างเสียงภาษาอีสานในลักษณะธรรมชาติ
  • คลังข้อมูลภาษาอีสานแบบเปิด (Open Data) 
  • Isan Speech Transcription Convention แนวทางถอดเสียงเพื่อใช้สร้างชุดข้อมูลที่เป็นมาตรฐาน
  • Isan Spelling Standard ระบบสะกดคำภาษาอีสานด้วยอักษรไทย
  • Isan Speech Corpus ชุดข้อมูลเสียงพูดจากหลายจังหวัดในภาคอีสาน
  • Isan Phonetic Dictionary พจนานุกรมคำอ่านเชื่อมโยงคำและเสียงในภาษาอีสาน

ชุดข้อมูลและโมเดลเหล่านี้เปิดให้ผู้สนใจนำไปใช้เพื่อการวิจัย การพัฒนาแอปพลิเคชัน หรือการศึกษาด้านภาษาได้โดยไม่คิดค่าใช้จ่าย เพื่อส่งเสริมระบบนิเวศเอไอไทยให้เติบโตแบบเปิดและเข้าถึงได้