DeepMind A.I. Menjembatani Kesenjangan Antara Robot dan Suara Manusia

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary
Anonim

Kecerdasan buatan hanya membuat suara robot terdengar jauh lebih realistis.

DeepMind, yang sebelumnya menunjukkan kekuatan A.I. dengan mengalahkan pemain manusia di Go pada bulan Maret dan memotong tagihan listriknya menjadi dua di bulan Juli, sekarang difokuskan pada sintesis ucapan.

Grup riset A.I, yang merupakan bagian dari perusahaan induk Google Alphabet, mengungkapkan pagi ini bahwa mereka telah menciptakan teknologi baru yang disebut WaveNet yang dapat digunakan untuk menghasilkan suara, musik, dan suara lain yang lebih akurat dari sebelumnya.

DeepMind menjelaskan bahwa banyak metode sintesis wicara yang ada bergantung pada "database yang sangat besar dari fragmen pidato pendek direkam dari satu speaker dan kemudian digabungkan kembali untuk membentuk ucapan lengkap." WaveNet, di sisi lain, menggunakan "bentuk gelombang mentah dari sinyal audio ā€¯Untuk menciptakan suara dan suara yang lebih realistis.

Ini berarti bahwa WaveNet bekerja dengan suara individu yang dibuat ketika manusia berbicara alih-alih menggunakan suku kata lengkap atau seluruh kata. Suara-suara itu kemudian dijalankan melalui proses "mahal secara komputasi" yang menurut DeepMind "penting untuk menghasilkan audio yang rumit dan terdengar realistis" dengan mesin.

Hasil dari semua pekerjaan ekstra itu adalah peningkatan 50 persen untuk pidato sintesis di AS dan Mandarin. Berikut adalah contoh pidato yang dihasilkan menggunakan teks-ke-ucapan parametrik, yang umum saat ini, digunakan oleh DeepMind untuk menunjukkan bagaimana metode sintesis wicara ini kurang:

Dan inilah contoh kalimat yang sama yang dihasilkan oleh WaveNet:

Ketika perusahaan melanjutkan pekerjaan mereka pada antarmuka bahasa alami, menawarkan respons yang terdengar lebih realistis akan menjadi semakin penting. WaveNet dapat membantu menyelesaikan masalah itu.