Microsoft เปิดตัว VALL-E ปัญญาประดิษฐ์ที่สามารถจำลองเสียงได้ภายใน 3 วินาที
ไมโครซอฟท์ เรียกเสียงฮือฮาด้วยการเปิดตัวปัญญาประดิษฐ์ที่มีชื่อว่า VALL-E ซึ่งถูกฝึกฝนให้จดจำเสียงได้ จากการเรียนรู้เพียง 3 วินาทีเท่านั้น
ทีมนักวิจัยของไมโครซอฟท์ เปิดตัว VALL-E โมเดลปัญญาประดิษฐ์ที่สามารถแปลงคำพูด และจำลองเสียงได้อย่างแม่นยำ จากการฟังเสียงภายในระยะเวลา 3 วินาที โดยเมื่อปัญญาประดิษฐ์ได้เรียนรู้เสียงแล้ว VALL-E สามารถสังเคราะห์เสียงของบุคคลดังกล่าวได้ พร้อมกับการเลียนน้ำเสียงและอารมณ์ของผู้พูดได้ด้วย
ไมโครซอฟท์ เรียกว่า VALL-E ว่าเป็นแบบจำลองทางภาษาที่แปลงจากสัญญาณประสาท ซึ่งถูกขับเคลื่อนด้วยปัญญาประดิษฐ์ และผ่านการฝึกฝนฟังก์ชันการสังเคราะห์เสียงของ VALL-E โดยใช้ไลบรารีเสียงจาก LibriLight ของเมตา
ในเอกสารไมโครซอฟท์ ระบุว่า การเรียนรู้ของ VALL-E มาจากสปีชต่างๆ ที่เป็นภาษาอังกฤษ จำนวนกว่า 6 หมื่นชั่วโมง ผู้พูดมากกว่า 7,000 คน และการเรียนรู้ผ่านหนังสือเสียงที่เป็นพับลิกโดเมน
พร้อมกันนี้ ไมโครซอฟท์ ได้แสดงให้เห็นว่าการทำงานของ VALL-E ทำงานได้ดีมากน้อยแค่ไหนบนหน้าเว็บไซต์ของ Github โดยผลลัพธ์ที่ได้มีความสมจริงอย่างน่าประหลาดใจ แต่ก็มีบางครั้งที่เสียงยังไม่เหมือนมนุษย์ ซึ่งเป็นสิ่งที่จะต้องเรียนรู้และปรับปรุงต่อไป
แน่นอนว่าไมโครซอฟท์คงยังไม่พึงพอใจต่อการเรียนรู้ของ VALL-E แต่เพียงเท่านี้ โดยไมโครซอฟท์วางแผนขยายการฝึก การเรียนรู้ให้กว้างไกลขึ้นไปอีก โดยมีเป้าหมายที่จะปรับปรุงประสิทธิภาพของโมเดลให้คล้ายกับคนจริง และลดการใช้คำที่ไม่ชัดเจนลง
ที่น่าสนใจ ไมโครซอฟท์ ประกาศเลือกที่จะไม่พัฒนา VALL-E ให้อยู่ในรูปแบบของโอเพนซอร์ส เพราะอาจมีความเสี่ยงจากการนำโมเดลนี้ไปใช้ในทางที่ผิด เช่น การปลอมแปลง การแอบอ้าง และกลายเป็นผลกระทบที่ส่งผลไปในวงกว้าง
เป็นไปได้ว่าเมื่อการพัฒนา VALL-E ประสบความสำเร็จในขั้นสูงสุดแล้ว อาจถูกพัฒนาให้กลายเป็นแอปพลิเคชันแปลงข้อความเป็นคำพูดที่มีคุณภาพสูง
ที่มา: Arstechnica
คุณกำลังดู: Microsoft เปิดตัว VALL-E ปัญญาประดิษฐ์ที่สามารถจำลองเสียงได้ภายใน 3 วินาที
หมวดหมู่: เทคโนโลยีใหม่