Bagaimana AI Boleh Menjadikan Pertuturan Komputer Lebih Asli

Isi kandungan:

Bagaimana AI Boleh Menjadikan Pertuturan Komputer Lebih Asli
Bagaimana AI Boleh Menjadikan Pertuturan Komputer Lebih Asli
Anonim

Key Takeaway

  • Syarikat berlumba-lumba mencari cara untuk menjadikan pertuturan yang dijana komputer lebih realistik.
  • NVIDIA baru-baru ini melancarkan alatan yang boleh menangkap bunyi pertuturan semula jadi dengan membenarkan anda melatih AI dengan suara anda sendiri.
  • Intonasi, emosi dan muzik ialah ciri yang masih kekurangan suara komputer, kata seorang pakar.
Image
Image

Pertuturan yang dijana komputer tidak lama lagi mungkin terdengar lebih manusiawi.

Pembuat alat ganti komputer NVIDIA baru-baru ini telah melancarkan alat yang boleh menangkap bunyi pertuturan semula jadi dengan membenarkan anda melatih AI dengan suara anda. Perisian ini juga boleh menyampaikan perkataan seorang penceramah menggunakan suara orang lain. Ia adalah sebahagian daripada dorongan yang sedang berkembang untuk menjadikan pertuturan komputer lebih realistik.

"Teknologi AI suara termaju membolehkan pengguna bercakap secara semula jadi, menggabungkan banyak pertanyaan ke dalam satu ayat dan menghapuskan keperluan untuk mengulang butiran daripada pertanyaan asal secara berterusan, " Michael Zagorsek, ketua pegawai operasi syarikat pengecaman pertuturan SoundHound, memberitahu Lifewire dalam temu bual e-mel.

"Penambahan berbilang bahasa, kini tersedia pada kebanyakan platform AI suara, menjadikan pembantu suara digital boleh diakses di lebih banyak geografi dan untuk lebih ramai populasi," tambahnya.

Robospeech Meningkat

Amazon's Alexa dan Apple's Siri berbunyi jauh lebih baik daripada pertuturan komputer sejak sedekad yang lalu, tetapi mereka tidak akan disalah anggap sebagai suara manusia yang tulen dalam masa terdekat.

Untuk menjadikan pertuturan tiruan berbunyi lebih semula jadi, pasukan penyelidik teks-ke-ucapan NVIDIA membangunkan model RAD-TTS. Sistem ini membenarkan individu untuk mengajar model teks ke pertuturan (TTS) dengan suara mereka, termasuk rentak, nada, nada dan faktor lain.

Syarikat itu menggunakan model baharunya untuk membina lebih banyak penceritaan suara yang membunyikan perbualan untuk siri video I Am AInya.

"Dengan antara muka ini, penerbit video kami boleh merakam dirinya membaca skrip video dan kemudian menggunakan model AI untuk menukar pertuturannya kepada suara narator wanita. Menggunakan narasi garis dasar ini, penerbit kemudiannya boleh mengarahkan AI seperti pelakon suara mengubah ucapan yang disintesis untuk menekankan perkataan tertentu dan mengubah suai rentak penceritaan untuk menyatakan nada video dengan lebih baik, " tulis NVIDIA di tapak webnya.

Lebih Keras Daripada Kedengarannya

Menjadikan pertuturan yang dijana komputer berbunyi semula jadi ialah masalah rumit, kata pakar.

"Anda perlu merakam ratusan jam suara seseorang untuk mencipta versi komputernya," Nazim Ragimov, Ketua Pegawai Eksekutif syarikat perisian teks ke pertuturan Kukarella, memberitahu Lifewire dalam temu bual e-mel. “Dan rakaman itu mestilah berkualiti tinggi, dirakam di studio profesional. Lebih banyak jam pertuturan berkualiti dimuatkan dan diproses, lebih baik hasilnya."

Teks-ke-ucapan boleh digunakan dalam permainan, untuk membantu individu yang kurang upaya vokal atau untuk membantu pengguna menterjemah antara bahasa dengan suara mereka sendiri.

Intonasi, emosi dan muzikal ialah ciri yang masih kekurangan suara komputer, kata Ragimov.

Jika AI boleh menambah pautan yang hilang ini, pertuturan yang dijana komputer akan "tidak dapat dibezakan daripada suara pelakon sebenar," tambahnya. "Itu kerja sedang berjalan. Suara lain akan dapat bersaing dengan hos radio. Tidak lama lagi anda akan melihat suara yang boleh menyanyi dan membaca buku audio."

Teknologi pertuturan menjadi lebih popular dalam pelbagai perniagaan.

"Industri auto telah menjadi pengguna AI suara baru-baru ini sebagai cara untuk mencipta pengalaman pemanduan yang lebih selamat dan lebih berkaitan," kata Zagorsek.

"Sejak itu, pembantu suara telah menjadi semakin popular di mana-mana kerana jenama sedang mencari cara untuk meningkatkan pengalaman pelanggan dan memenuhi permintaan untuk kaedah yang lebih mudah, selamat, mudah, cekap dan bersih untuk berinteraksi dengan produk dan perkhidmatan mereka."

Biasanya, AI suara menukarkan pertanyaan kepada respons dalam proses dua langkah yang bermula dengan menyalin pertuturan ke dalam teks menggunakan pengecaman pertuturan automatik (ASR) dan kemudian memasukkan teks tersebut ke dalam model pemahaman bahasa semula jadi (NLU).

Image
Image

PendekatanSoundHound menggabungkan dua langkah ini ke dalam satu proses untuk menjejak pertuturan dalam masa nyata. Syarikat itu mendakwa teknik ini membolehkan pembantu suara memahami maksud pertanyaan pengguna, walaupun sebelum orang itu selesai bercakap.

Kemajuan masa hadapan dalam pertuturan komputer, termasuk ketersediaan pelbagai pilihan sambungan daripada terbenam sahaja (tiada sambungan awan diperlukan) kepada hibrid (terbenam ditambah awan) dan awan sahaja "akan memberikan lebih banyak pilihan kepada syarikat merentas industri dari segi kos, privasi dan ketersediaan kuasa pemprosesan," kata Zagoresk.

NVIDIA berkata model AI beritanya melangkaui kerja alih suara.

"Teks-ke-ucapan boleh digunakan dalam permainan, untuk membantu individu yang kurang upaya vokal, atau untuk membantu pengguna menterjemah antara bahasa dengan suara mereka sendiri," tulis syarikat itu. "Malah ia boleh mencipta semula persembahan penyanyi ikonik, menyamai bukan sahaja melodi lagu tetapi juga ekspresi emosi di sebalik vokal."

Disyorkan: