Microsoft เปิดตัว VASA เอไอสร้างวิดีโอสมจริงจากไฟล์รูปภาพและเสียง

VASA โมเดลเอไอ ‘สร้างวิดีโอเสมือนจริง’ ใช้เพียงแค่ไฟล์รูปภาพและเสียง จุดเด่นคือ สามารถทำงานได้แบบเรียลไทม์ ปรับแต่งใบหน้าได้ เทคโนโลยีที่กำลังพัฒนาของไมโครซอฟท์

ไมโครซอฟท์ รีเสิร์ช ได้เผยแพร่โมเดล VASA-1 เอไอสร้างวิดีโอสมจริง ใช้เพียงแค่รูปภาพและเสียงประกอบเพียงอย่างละ 1 ไฟล์ ซึ่งริมฝีปากของตัวละครที่เอไอสร้างสามารถขยับพูดได้แบบเรียลไทม์ สามารถปรับใบหน้าด้วยความหน่วง latency ที่ต่ำมาก

VASA ย่อมาจาก Visual Affective Skills Animator โมเดลปัญญาประดิษฐ์ตัวนี้ สามารถเรียนรู้ด้วยตนเอง (Machine Learning) กล่าวคือ เมื่อป้อน input เข้าไป เอไอจะวิเคราะห์รูปภาพใบหน้า จากนั้นจะนำไปสร้างเป็นภาพเคลื่อนไหวที่สอดคล้องกับเสียงประกอบ โดยซิงโครไนซ์การขยับปากให้ตรงกับเสียงพูด

Microsoft เปิดตัว VASA เอไอสร้างวิดีโอสมจริงจากรูปภาพและเสียง

นอกจากนี้ VASA-1 ยังสามารถจำลองการแสดงออกทางสีหน้า การเคลื่อนไหวศีรษะ และแม้กระทั่งการเคลื่อนไหวร่างกายที่มองไม่เห็นในภาพถ่ายได้อีกด้วย โดยสามารถสร้างวิดีโอด้วยความละเอียด 512x512 45fps ได้หากรันออฟไลน์แบบ batch ส่วนแบบออนไลน์สตรีมมิ่งได้สูงสุดที่ 40fps

ในงานวิจัยได้ทอดสอบใช้ VASA กับรูปวาด เช่น รูปวาดของ Mona Lisa ให้พูดภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ซึ่งทั้งหมดไม่มีในชุดข้อมูลเทรน ปรากฎว่าผลลัพธ์ออกมาดีเกินความคาดหมาย

อย่างไรก็ตาม โมเดลตัวนี้ยังอยู่ในขั้นตอนของการพัฒนา มีจุดที่ต้องปรับกันต่อ เช่น รายละเอียดยิบย่อยของนิ้วมือ ฟัน ที่ยังไม่มีความสมจริง

ไมโครซอฟท์ไม่มีแผนจะเผยแพร่เดโม่หรือเผยแพร่ API ตลอดจนข้อมูลอื่นๆ ของเทคโนโลยีนี้ เพราะกังวลเรื่องของการนำไปใช้ในทางที่ผิด จนกว่าจะมีกฎหมายกำกับดูแลด้านจริยธรรมเอไออย่างเหมาะสม

อ้างอิง: microsoft techspot