ไมโครซอฟท์ เปิดตัว ‘VALL-E’ เอไอเลียนแบบเสียงมนุษย์ได้สมจริง

ไมโครซอฟท์ เปิดตัว ‘VALL-E’ เอไอเลียนแบบเสียงมนุษย์ได้สมจริง

บริษัท ไมโครซอฟท์ เปิดตัว ‘VALL-E’ ปัญญาประดิษฐ์เลียนแบบเสียงมนุษย์ได้สมจริง เพียงแค่ฟังเสียงพูด 3 วินาที AI ก็จะสังเคราะห์เสียงออกมาคล้ายกับต้นฉบับมากที่สุด ด้านนักกฎหมายชี้ ยังคงกังวลหากนำเทคโนโลยีนี้ไปใช้ในทางที่ผิด

ก่อนหน้านี้เคยมีนวัตกรรมที่ใช้ปัญญาประดิษฐ์ เพื่อเลียนแบบเสียงคนพูด แต่ก็ยังไม่มีนวัตกรรมไหนที่ทำได้อย่างเป็นธรรมชาติ เราคงเคยได้ยิน AI พูดแบบ Siri หรือ กูเกิลแปลภาษา ซึ่งเป็นเสียงโมโนโทนในรูปแบบเดียว หลาย ๆ คนคงมีภาพจำขณะที่ AI สื่อสารในรูปแบบนั้น

ขณะเดียวกันบริษัท ไมโครซอฟท์ ได้ก้าวผ่านข้อจำกัด เพราะได้พัฒนา “VALL-Eเทคโนโลยีสร้างเสียงสังเคราะห์ สามารถเลียนแบบเสียงพูดของมนุษย์ได้สมจริงมากที่สุด สำเร็จแล้ว

ไมโครซอฟท์ เปิดตัว ‘VALL-E’ เอไอเลียนแบบเสียงมนุษย์ได้สมจริง

รู้จัก VALL-E เอไอเลียนแบบเสียง

การทำงานของ AI ดังกล่าวถูกต่อยอดจาก เทคโนโลยีการบีบอัด และเข้ารหัสเสียง อย่างที่ Meta บริษัทแม่ของ Facebook เคยพัฒนาขึ้นเมื่อช่วงปลายปี 2565 เพื่อใช้ในการเพิ่มคุณภาพเสียงสนทนาทางโทรศัพท์ในพื้นที่ที่มีคุณภาพสัญญาณไม่ดี

ซึ่งไมโครซอฟท์ได้นำมาสร้างเป็น VALL-E ที่สามารถสังเคราะห์เสียง และเลียนแบบเสียงพูดของมนุษย์ได้อย่างเป็นธรรมชาติ โดยใช้เสียงต้นแบบที่มีความยาวเพียง 3 วินาที VALL-E จะจดจำและสามารถเลียนแบบเสียงตามต้นฉบับ 

ทางบริษัทได้ทดลองระบบด้วยการ ใช้ต้นฉบับเสียงพูดเป็นภาษาอังกฤษจากเสียงพูดของมนุษย์ 7,000 คน ความยาว 60,000 ชั่วโมง ผลลัพท์ที่ได้คือ เสียงสังเคราะห์ที่ได้จาก VALL-E นั้น มีความเป็นธรรมชาติ ทั้งในด้านน้ำเสียง และอารมณ์ สามารถเลียนแบบน้ำเสียง อารมณ์ของผู้พูดได้เป็นอย่างดี และมีใจความที่ครบถ้วน 

นอกจากนี้ ยังมีจุดเด่นตรงที่สามารถคงสภาพเสียงตามต้นฉบับไว้ได้ เช่น หากเสียงต้นฉบับเป็นเสียงที่คุยผ่านโทรศัพท์ ซึ่งมีความอู้อี้ ไม่ได้ชัดเจนเหมือนเสียงพูดปกติ AI ก็จะพยายามจำลองให้เสียงที่ได้รับการสังเคราะห์ขึ้นมา ให้มีสภาพแวดล้อมเหล่านั้นอยู่ด้วย

ไมโครซอฟท์ เปิดตัว ‘VALL-E’ เอไอเลียนแบบเสียงมนุษย์ได้สมจริง

ข้อกังวลด้านกฎหมาย

“เทคโนโลยีที่ใช้ AI จำลองเสียงอาจทําให้เกิดปัญหาทางกฎหมายได้ อาจจะเกิดการปลอมตัวทางโทรศัพท์ เพื่อหลอกผู้ฟังให้ตกเป็นเหยื่อของกลโกง หรือแม้แต่ใช้เพื่อเลียนแบบเสียงของผู้สมัครรับเลือกตั้งและให้ข้อมูลที่ไม่ถูกต้อง

ซึ่งในปัจจุบันยังไม่มีกฎหมายที่จะจัดการกับการใช้เทคโนโลยีโกงเสียงโดยเฉพาะ” Michael L. Teich หัวหน้าใน Harness IP ซึ่งเป็นสำนักงานกฎหมายทรัพย์สินทางปัญญาแห่งชาติ กล่าว 

และ Teich ยังแสดงทัศนะเพิ่มเติมอีกว่า “หากเทคโนโลยีเหล่านี้เติบโตเต็มที่ รัฐบาลอาจจะต้องมีกฎหมายที่ออกมาเพื่อกำกับการใช้งาน เพื่อป้องกันการใช้ในทางที่ผิด เพราะหากเทคโนโลยีก้าวหน้าและเข้าถึงได้ง่ายขึ้น ผู้เคราะห์ร้ายอาจจะตกเป็นเหยื่อของคนโกงได้” 

ทางด้าน Bob O'Donnell ผู้ก่อตั้ง Techanalysis Research บริษัทที่ปรึกษาด้านการวิจัยตลาดเทคโนโลยี ในรัฐแคลิฟอร์เนีย กล่าวว่า ในช่วงไม่กี่สัปดาห์ที่ผ่านมา ไมโครซอฟท์ได้พาดหัวข่าวเกี่ยวกับ AI เช่นเดียวกัน

โดยคาดว่าบริษัทจะนำเทคโนโลยี ChatGPT เข้าสู่ Bing Search Engine ภายในปีนี้และอาจรวมอยู่ในแอปพลิเคชัน Office ของตน และมีแผนจะลงทุน 10 ล้านดอลลาร์ร่วมกับบริษัท OpenAI ซึ่งปัจจุบันได้พัฒนา VALL-E ขึ้นมาเสริม นับว่าพวกเขาชาญฉลาดในการลงทุน และมองว่าไมโครซอฟท์กำลังดำเนินมาตรการเชิงรุกเพื่อก้าวไปสู่ระดับแนวหน้า 

อย่างไรก็ตาม ไมโครซอฟท์ยังอยู่ในขั้นของการพัฒนา AI ดังกล่าวเพิ่มเติม และยังไม่ได้เปิดให้ใช้บริการ ซึ่งไมโครซอฟท์ได้ปล่อยเสียงตัวอย่างที่สร้างขึ้นโดย VALL-E สามารถเข้าไปฟังได้ที่ valle-demo 

text: gizmodo technewsworld