Perbualan Dengan Komputer Anda Mungkin Menjadi Lebih Realistik

Isi kandungan:

Perbualan Dengan Komputer Anda Mungkin Menjadi Lebih Realistik
Perbualan Dengan Komputer Anda Mungkin Menjadi Lebih Realistik
Anonim

Key Takeaway

  • Meta menggunakan AI untuk membuat program yang boleh meluahkan emosi dalam pertuturan.
  • Pasukan AI syarikat berkata ia telah membuat kemajuan dalam memodelkan penyuaraan ekspresif, seperti ketawa, menguap, menangis dan "sembang-sembang spontan" dalam masa nyata.
  • AI juga digunakan untuk memperkasakan peningkatan dalam pengecaman pertuturan.
Image
Image

Anda mungkin akan dapat bersembang lebih semula jadi dengan komputer anda tidak lama lagi, berkat kuasa kecerdasan buatan (AI).

Meta berkata ia telah mencapai kemajuan yang ketara dalam usahanya untuk mencipta sistem pertuturan yang dijana AI yang lebih realistik. Pasukan AI syarikat berkata ia telah membuat kemajuan dalam keupayaan untuk memodelkan penyuaraan ekspresif, seperti ketawa, menguap dan menangis, selain daripada "sembang-sembang spontan" dalam masa nyata.

"Dalam sebarang perbualan tertentu, orang bertukar-tukar isyarat bukan lisan yang penuh sesak, seperti intonasi, ekspresi emosi, jeda, aksen, irama-semuanya penting untuk interaksi manusia," tulis pasukan itu dalam catatan blog baru-baru ini. "Tetapi sistem AI hari ini gagal menangkap isyarat yang kaya dan ekspresif ini kerana ia hanya belajar daripada teks bertulis, yang menangkap apa yang kita katakan tetapi bukan cara kita mengatakannya."

Ucapan Lebih Pintar

Dalam catatan blog, pasukan Meta AI berkata mereka sedang berusaha untuk mengatasi batasan sistem AI tradisional yang tidak dapat memahami isyarat bukan lisan dalam pertuturan, seperti intonasi, ekspresi emosi, jeda, aksen dan irama. Sistem ditahan kerana mereka hanya boleh belajar daripada teks bertulis.

Tetapi kerja Meta berbeza daripada usaha sebelumnya kerana model AInya boleh menggunakan model pemprosesan bahasa semula jadi untuk menangkap sifat sepenuhnya bahasa pertuturan. Penyelidik meta mengatakan bahawa model baharu boleh membenarkan sistem AI menyampaikan sentimen yang ingin mereka sampaikan-seperti kebosanan atau ironi.

"Dalam masa terdekat, kami akan menumpukan pada menerapkan teknik tanpa teks untuk membina aplikasi hiliran yang berguna tanpa memerlukan sama ada label teks intensif sumber atau sistem pengecaman pertuturan automatik (ASR), seperti menjawab soalan (cth., "Bagaimana keadaan cuaca?"), " tulis pasukan itu dalam catatan blog. "Kami percaya prosodi dalam pertuturan boleh membantu menghuraikan ayat dengan lebih baik, yang seterusnya memudahkan pemahaman maksud dan meningkatkan prestasi menjawab soalan."

AI Powers Comprehension

Bukan sahaja komputer menjadi lebih baik dalam menyampaikan makna, tetapi AI juga digunakan untuk memperkasakan peningkatan dalam pengecaman pertuturan.

Para saintis komputer telah mengusahakan pengecaman pertuturan komputer sejak sekurang-kurangnya 1952, apabila tiga penyelidik Bell Labs mencipta sistem yang boleh mengecam satu digit angka, ketua pegawai teknologi AI Dynamics, Ryan Monsurate, berkata dalam e-mel kepada Lifewire. Menjelang 1990-an, sistem pengecaman pertuturan tersedia secara komersial tetapi masih mempunyai kadar ralat yang cukup tinggi untuk menghalang penggunaan di luar domain aplikasi yang sangat khusus seperti penjagaan kesihatan.

"Sekarang model pembelajaran mendalam telah membolehkan model ensemble (seperti model dari Microsoft) mencapai prestasi luar biasa pada pengecaman pertuturan, kami mempunyai teknologi untuk membolehkan komunikasi lisan bebas pembesar suara dengan komputer pada skala besar," kata Monsurate. "Peringkat seterusnya termasuk mengurangkan kos supaya semua orang yang menggunakan Siri atau pembantu AI Google akan mendapat akses kepada tahap pengecaman pertuturan ini."

Image
Image

AI berguna untuk pengecaman pertuturan kerana ia boleh bertambah baik dari semasa ke semasa melalui pembelajaran, Ariel Utnik, ketua pegawai hasil dan pengurus besar di syarikat suara AI Verbit.ai, memberitahu Lifewire dalam temu bual e-mel. Sebagai contoh, Verbit mendakwa teknologi AI dalamannya mengesan dan menapis bunyi latar belakang serta gema serta mentranskripsikan pembesar suara tanpa mengira aksen untuk menjana transkrip dan kapsyen profesional yang terperinci daripada video dan audio secara langsung dan dirakam.

Tetapi Utnik berkata bahawa kebanyakan platform pengecaman pertuturan semasa hanya 75-80% tepat.

"AI tidak akan sekali-kali menggantikan manusia sepenuhnya kerana semakan peribadi oleh transkrip, pembaca pruf dan editor diperlukan untuk memastikan transkrip akhir yang berkualiti tinggi dan ketepatan tinggi," tambahnya.

Pengecaman suara yang lebih baik juga boleh digunakan untuk menghalang penggodam, kata Sanjay Gupta, naib presiden ketua global produk dan pembangunan korporat di syarikat pengecaman suara Mitek Systems, dalam e-mel. Penyelidikan menunjukkan bahawa dalam tempoh dua tahun, 20 peratus daripada semua serangan pengambilalihan akaun yang berjaya akan menggunakan pembesaran suara sintetik, tambahnya.

"Ini bermakna apabila teknologi palsu mendalam menjadi lebih canggih, kita perlu mencipta keselamatan termaju secara serentak yang boleh memerangi taktik ini bersama-sama pemalsuan dalam imej dan video," kata Gupta. "Membanteras spoofing suara memerlukan teknologi pengesanan liveness, yang mampu membezakan antara suara langsung dan versi suara yang dirakam, sintetik atau dijana komputer."

Pembetulan 2022-05-04: Membetulkan ejaan nama Ryan Monsurate dalam perenggan 9.

Disyorkan: