Key Takeaway
- DeepZen menggunakan AI (kecerdasan buatan) untuk mencipta buku audio yang realistik daripada teks.
- Teknik ini menggunakan pelakon suara manusia sebenar untuk menyediakan bahan binaan.
- Amazon dan Audible tidak menerima buku audio yang dijana komputer pada masa ini.
DeepZen ialah syarikat yang mencipta suara komputer yang digunakan dalam buku audio, berdasarkan suara sebenar pelakon manusia. Kualitinya menakutkan-cukup bagus untuk didengari selama berjam-jam pada satu masa. Gimik di sini ialah komponen AI (kecerdasan buatan), yang boleh membaca teks dan membuat kesimpulan tindak balas emosi yang betul berdasarkan konteks. Ia kemudian memasukkan emosi itu ke dalam suara.
Ia mengagumkan dan sangat mudah. Tetapi adakah kita benar-benar mahukan pengalaman buku audio yang dihomogenkan? Dan bagaimana pula dengan pelakon suara itu?
"Dari perspektif penerbit indie, apa sahaja yang mengurangkan kos pengeluaran buku audio adalah sangat menarik," kata Rick Carlile, pemilik penerbit bebas Carlile Media, kepada Lifewire melalui e-mel.
"Tetapi daya tarikan itu mengandaikan bahawa produk itu akan mempunyai kualiti yang sama dengan penceritaan tradisional. Saya rasa kita belum seratus peratus berada di sana. Jangan salah faham, DeepZen sangat bagus. Ia adalah kejayaan yang luar biasa, dan penciptanya layak mendapat pujian dan kejayaan yang luar biasa. Tetapi ia masih belum sempurna."
Audio Itu 'Cukup Baik'
Cara terbaik untuk memahami kualiti DeepZen ialah mendengar sampel. Jika anda tidak tahu ia dijana komputer, anda mungkin tidak menyedarinya. Bukan untuk sementara waktu pula. Mari kita anggap bahawa AI DeepZen adalah sempurna dan ia tidak pernah menyalahtafsirkan nota emosi yang sepatutnya dipukulnya.
Walaupun begitu, manusia boleh menawarkan tafsiran yang lebih bernuansa dan selalunya lebih mengejutkan. Seorang pelakon mungkin memberikan sentuhan yang tidak dijangka pada perkataan yang tidak akan dipertimbangkan oleh komputer. Dan pada hakikatnya, tafsiran AI pastinya belum sehebat pelakon suara profesional.
"Sebagai seorang yang bekerja pada filem dan terbaharu dalam dunia penceritaan audio, sementara saya kagum dengan AI-saya tahu sebenarnya terdapat kedalaman makna yang tidak dapat ditafsirkan oleh mesin, " suara profesional pelakon Paul Cram memberitahu Lifewire melalui e-mel.
"Adakah terdapat lonjakan pengarang yang tidak dikenali menggunakannya? Saya jamin akan ada kerana ia 'cukup bagus.'"
Menjadi cukup baik, digabungkan dengan kemudahan dan penjimatan kos, mungkin memadai untuk mendorong penerbit indie ke perkhidmatan tersebut.
"Buku audio boleh berharga sehingga $500 setiap jam selesai audio (lebih banyak lagi untuk suara selebriti), dan itu tidak termasuk kos masa pengurusan dan pentadbir," kata Carlile. "Dapat mengurangkan separuh kos itu dengan hanya memuat naik manuskrip ke penyedia seperti DeepZen adalah sangat menarik."
Masalah Bercakap
Ia masih belum semudah memecat pelakon suara anda dan memuat naik manuskrip ke DeepZen. Pada masa ini terdapat satu halangan untuk pidato AI buku audio yang mudah, dan ia daripada Amazon.
"Pada masa ini, ACX, laluan penerbit sendiri ke pengedaran buku audio Audible dan Amazon, tidak akan menerima buku audio yang tidak dirakam oleh manusia," kata Carlile.
Kenapa? Kualiti. Berikut ialah entri Soalan Lazim daripada tapak web:
"Text-to-speech atau rakaman automatik lain tidak dibenarkan. Pendengar yang boleh didengar memilih buku audio untuk prestasi bahan dan juga cerita. Untuk memenuhi jangkaan itu, buku audio anda mesti dirakam oleh manusia."
Ini bermakna buku audio yang dijana DeepZen sudah tiada, sekurang-kurangnya buat masa ini. Ini adalah spekulasi tulen, tetapi DeepZen kelihatan seperti pemerolehan yang cukup baik untuk Amazon, membiarkannya menjual perkhidmatan dan menyimpannya semata-mata untuk buku Audible. Dan walaupun itu tidak berlaku, jika kualiti buku audio yang dijana komputer adalah sebaik ini, maka nampaknya tiada alasan untuk tidak membuat pengecualian kepada peraturan ini.
Adakah anda akan gembira mendengar buku audio yang dibuat dengan cara ini? Apabila ia berlaku, kebanyakan orang tidak akan mengesyaki. Sesetengah mungkin lebih suka kesempurnaan suara yang dijana oleh komputer kerana mereka akan bebas daripada tics vokal dan tabiat yang kadangkala boleh mengalih perhatian. Teknologi ini juga sesuai untuk permainan video, iklan TV dan radio, dan sebarang senario lain di mana anda akan mengupah pelakon suara.
Teknik DeepZen juga akan menjadi cara terbaik untuk mencipta podcast berita secara automatik daripada artikel bertulis, yang boleh berguna untuk perjalanan ulang-alik.
Dan bagaimana pula dengan pelakon suara tersebut? Nah, akan ada sekurang-kurangnya satu peluang: Mereka boleh pergi dan bekerja untuk DeepZen.