Microsoft เปิดตัว VALL-E ปัญญาประดิษฐ์ที่สามารถจำลองเสียงได้ภายใน 3 วินาที

11 ม.ค. 2566 | 16:55 น.

ไมโครซอฟท์ เรียกเสียงฮือฮาด้วยการเปิดตัวปัญญาประดิษฐ์ที่มีชื่อว่า VALL-E ซึ่งถูกฝึกฝนให้จดจำเสียงได้ จากการเรียนรู้เพียง 3 วินาทีเท่านั้น

ทีมนักวิจัยของไมโครซอฟท์ เปิดตัว VALL-E โมเดลปัญญาประดิษฐ์ที่สามารถแปลงคำพูด และจำลองเสียงได้อย่างแม่นยำ จากการฟังเสียงภายในระยะเวลา 3 วินาที โดยเมื่อปัญญาประดิษฐ์ได้เรียนรู้เสียงแล้ว VALL-E สามารถสังเคราะห์เสียงของบุคคลดังกล่าวได้ พร้อมกับการเลียนน้ำเสียงและอารมณ์ของผู้พูดได้ด้วย

ไมโครซอฟท์ เรียกว่า VALL-E ว่าเป็นแบบจำลองทางภาษาที่แปลงจากสัญญาณประสาท ซึ่งถูกขับเคลื่อนด้วยปัญญาประดิษฐ์ และผ่านการฝึกฝนฟังก์ชันการสังเคราะห์เสียงของ VALL-E โดยใช้ไลบรารีเสียงจาก LibriLight ของเมตา

ในเอกสารไมโครซอฟท์ ระบุว่า การเรียนรู้ของ VALL-E มาจากสปีชต่างๆ ที่เป็นภาษาอังกฤษ จำนวนกว่า 6 หมื่นชั่วโมง ผู้พูดมากกว่า 7,000 คน และการเรียนรู้ผ่านหนังสือเสียงที่เป็นพับลิกโดเมน

พร้อมกันนี้ ไมโครซอฟท์ ได้แสดงให้เห็นว่าการทำงานของ VALL-E ทำงานได้ดีมากน้อยแค่ไหนบนหน้าเว็บไซต์ของ Github โดยผลลัพธ์ที่ได้มีความสมจริงอย่างน่าประหลาดใจ แต่ก็มีบางครั้งที่เสียงยังไม่เหมือนมนุษย์ ซึ่งเป็นสิ่งที่จะต้องเรียนรู้และปรับปรุงต่อไป

แน่นอนว่าไมโครซอฟท์คงยังไม่พึงพอใจต่อการเรียนรู้ของ VALL-E แต่เพียงเท่านี้ โดยไมโครซอฟท์วางแผนขยายการฝึก การเรียนรู้ให้กว้างไกลขึ้นไปอีก โดยมีเป้าหมายที่จะปรับปรุงประสิทธิภาพของโมเดลให้คล้ายกับคนจริง และลดการใช้คำที่ไม่ชัดเจนลง

ที่น่าสนใจ ไมโครซอฟท์ ประกาศเลือกที่จะไม่พัฒนา VALL-E ให้อยู่ในรูปแบบของโอเพนซอร์ส เพราะอาจมีความเสี่ยงจากการนำโมเดลนี้ไปใช้ในทางที่ผิด เช่น การปลอมแปลง การแอบอ้าง และกลายเป็นผลกระทบที่ส่งผลไปในวงกว้าง

เป็นไปได้ว่าเมื่อการพัฒนา VALL-E ประสบความสำเร็จในขั้นสูงสุดแล้ว อาจถูกพัฒนาให้กลายเป็นแอปพลิเคชันแปลงข้อความเป็นคำพูดที่มีคุณภาพสูง

ที่มา: Arstechnica

คุณกำลังดู: Microsoft เปิดตัว VALL-E ปัญญาประดิษฐ์ที่สามารถจำลองเสียงได้ภายใน 3 วินาที

หมวดหมู่: เทคโนโลยีใหม่

บทความที่เกี่ยวข้อง:

แชร์ข่าว

Microsoft เปิดตัว VALL-E ปัญญาประดิษฐ์ที่สามารถจำลองเสียงได้ภายใน 3 วินาที

แท็กที่เกี่ยวข้อง:

บทความที่เกี่ยวข้อง:

โพสต์ล่าสุด

อ่านมากที่สุด