“โกวาจี” AI ฟัง-แปลงเสียงข้อความใช้คัดกรองผู้ป่วยซึมเศร้า

“โกวาจี” AI ฟัง-แปลงเสียงข้อความใช้คัดกรองผู้ป่วยซึมเศร้า

จุฬาฯ ออกแบบ “โกวาจี (Gowajee)” AI แปลงเสียงเป็นข้อความ-แปลงข้อความเป็นเสียง มีความแม่นยำเป็นธรรมชาติ เริ่มใช้งานแล้วกับระบบคอลเซ็นเตอร์และการคัดกรองผู้ป่วยซึมเศร้า จ่อประยุกต์ใช้กับงานอีกหลายรูปแบบ

‘OK, Google’

ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่งหรือบอกให้โปรแกรม AI อย่าง Google หรือ Siri ค้นหาหรือทำงานตามที่เราต้องการแทนการสัมผัสแป้นพิมพ์อักษร แต่เคยรู้สึกไหมว่า AI voice เหล่านั้นดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยที่เราพูดนัก 

หลายครั้งก็แปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้เราต้องปรับการออกเสียงภาษาไทยเพื่อให้เข้ากับ AI ที่พัฒนามาจากบริษัทต่างชาติ ซึ่งเน้นการใช้งานกับหลายภาษาโดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษ

จากปัญหาดังกล่าว ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัยและทีม ได้พัฒนา AI สัญชาติไทยแท้ “Gowajee” (อ่านว่า โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะ

เพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำและเป็นธรรมชาติมากขึ้น พิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9% เท่านั้นเมื่อเทียบกับ AI ถอดความอื่นๆ ที่มีความผิดพลาดราว 15% 

“โกวาจี” AI ฟัง-แปลงเสียงข้อความใช้คัดกรองผู้ป่วยซึมเศร้า

AI ภาษาไทยด้วยฐานข้อมูลเสียงของคนไทย  

จากความตั้งใจสร้าง AI แปลงเสียงและข้อความสัญชาติไทย อาจารย์เอกพลและทีมงานได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน

“เราเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบและวิธีการ มีทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่าเรามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ” อ.เอกพล กล่าว

ฐานข้อมูลเสียงภาษาไทยจำนวนมากดังกล่าวช่วยให้ทีม Gowajee พัฒนานวัตกรรม AI ภาษาไทยที่มีความแม่นยำในภาษา และสามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่

1. Automated Speech Recognition (ASR) เป็นการทำงานในลักษณะของการถอดความ คือ เมื่อเราพูดอะไรลงไป โปรแกรมก็จะแปลงสิ่งที่เราพูดให้ออกมาเป็นข้อความ 

“ยกตัวอย่างการใช้งานในการเรียนรู้ เวลาเราฟังเลคเชอร์ หากเราบันทึกเสียงอาจารย์เอาไว้ โปรแกรมก็จะช่วยถอดความออกมาเป็นตัวหนังสือให้เราอ่านได้เลยโดยไม่ต้องไปถอดความเอง” อ.เอกพล แนะ 

2. Text-to-Speech (TTS) เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด อย่างที่เราคุ้นเคยกับการใช้ Google หรือ Siri ในการช่วยอ่านข้อความ แต่เสียงอ่านที่พัฒนาขึ้นโดยโมเดลของ Gowajee จะมีความเป็นธรรมชาติมากกว่า เนื่องจากมีฐานข้อมูลภาษาไทยจำนวนมากกว่านั่นเอง

3. Automatic Speaker Verification (ASV) เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือนำมาใช้เพื่อบ่งบอกว่าใครพูดเมื่อใด

“โกวาจี” AI ฟัง-แปลงเสียงข้อความใช้คัดกรองผู้ป่วยซึมเศร้า

ตอบโจทย์ระบบคอลเซ็นเตอร์ 

นับตั้งแต่ที่เริ่มพัฒนา Gowajee ก็มีหน่วยงานต่างๆ ทั้งมหาวิทยาลัย ภาครัฐ และเอกชน นำเทคโนโลยีนี้ไปใช้แล้ว โดยเฉพาะในงานการให้บริการคอลเซ็นเตอร์ ทั้งถอดเสียงเป็นข้อความ และถอดข้อความเป็นเสียง

“ที่ผ่านมา ลูกค้าส่วนมากมีความพึงพอใจในความถูกต้องของ Gowajee ที่ดีกว่าของเดิมที่เคยใช้ และในแง่ราคา ก็จับต้องได้มากกว่า ในส่วนของข้อผิดพลาด เรามั่นใจว่าต่อไป เมื่อระบบมีข้อมูลเพิ่มมากขึ้นเรื่อยๆ ความผิดพลาดที่มีอยู่ในปัจจุบันจะลดลงเรื่อยๆ” 

ค้นความหมายในเสียง Gowajee ช่วยคัดกรองผู้ป่วยซึมเศร้า

จากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่างๆ ทีม Gowajee ได้เข้าไปมีสวนช่วยพัฒนาระบบของแอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า ซึ่งเป็นอีกหนึ่งนวัตกรรมช่วยเหลือสังคมของจุฬาฯ

“DMIND เป็นโจทย์ที่ท้าทายเพราะนอกจากจะต้องถอดความแล้ว ยังต้องใช้โมเดลจำแนกอารมณ์จากเสียงพูดเพื่อนำไปวิเคราะห์หาความหมายของกลุ่มเสี่ยงอีกด้วย บางครั้ง ผู้ป่วยจะพูดไปร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee ก็ทำงานได้ค่อนข้างดี เราอาจไม่จำเป็นต้องถอดความให้ถูกต้องทุกคำ แต่จับคำสำคัญให้ได้เพื่อถอดความสำคัญออกมา”

Gowajee ประยุกต์ช่วยงานอะไรได้อีกบ้าง 

Gowajee และเทคโนโลยี AI ถอดความภาษายังสามารถประยุกต์ใช้ในพื้นที่ชีวิตและการทำงานได้หลากหลาย อาทิ  

  • เป็นผู้ช่วยทันตแพทย์ในการจดบันทึกข้อมูลคนไข้ ระหว่างที่ทันตแพทย์กำลังใช้เครื่องมือทำฟันให้คนไข้ ก็พูดบอกสิ่งที่ต้องการบันทึกให้ Gowajee แปลเป็นข้อความ
  • ช่วยตรวจหาความเสี่ยงของผู้ป่วยที่อาจมีภาวะ stroke เมื่อเริ่มพูดไม่ชัด 
  • ช่วยเป็น Coach ตั้งคำถามให้ผู้ใช้งานตอบและวิเคราะห์เป้าหมายในการใช้ชีวิตจากการบันทึกการสัมภาษณ์ทางวีดิโอ เป็นส่วนที่ใช้ในการแนะแนวนักศึกษาหรือสำหรับองค์กรที่กำลังรับคนเข้าทำงาน
  • ช่วยแปลงเสียงและขยายเสียงพูดให้ผู้สูงอายุสามารถได้ยินเสียงได้ชัดเจนยิ่งขึ้น 
  • นอกจากนี้ หลายคนอาจคิดถึงการประยุกต์ใช้ Gowajee กับการเรียนและการประชุม ในการแปลงข้อมูลเสียงเป็นข้อความ เป็นต้น

ข้อมูลปลอดภัย มั่นใจ Gowajee 

ความปลอดภัยของข้อมูล” คือจุดเด่นของ Gowajee ที่เหนือกว่า AI ถอดความอื่นๆ อ.เอกพล กล่าวให้ความมั่นใจว่า “โดยปกติแล้ว เวลาเราใช้โปรแกรมถอดความของเจ้าอื่นๆ ข้อมูลจะถูกเก็บไว้บนคลาวด์ (cloud) หรือทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการ

แต่สำหรับ Gowajee ข้อมูลเหล่านี้จะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง ซึ่งข้อมูลของผู้ใช้ โดยเฉพาะธนาคารที่ต้องการความปลอดภัยของข้อมูล ก็จะไม่หลุดออกไปภายนอกแน่นอน” 

“AI ไม่ได้ disrupt เราขนาดนั้น ตัวเราเองต่างหากที่ disrupt ตัวเองมากกว่า สังคมสูงวัย ปัญหาประชากรวัยแรงงานขาดแคลน เหล่านี้ต่างหากกำลังบีบเราให้ต้องสร้างเทคโนโลยีเพื่อทุ่นแรงและทดแทนงานบางอย่างที่อนาคตเราอาจจะหาคนมาทำไม่ได้ ผมไม่ได้คาดหวังว่างานของผมจะช่วยเหลือผู้สูงอายุในปัจจุบัน แต่ผมมองว่าในอนาคต ตัวผมเองจะกลายเป็นผู้สูงอายุ ผมคงจะได้ใช้งานเทคโนโลยีเหล่านี้” 

สำหรับผู้สนใจเทคโนโลยี AI ถอดความภาษาไทย Gowajee สามารถดูรายละเอียดเพิ่มเติม หรือทดลองใช้ได้ที่ gowajee