September 27, 2022

Batas antara suara sintetis dan suara asli telah kabur selama bertahun-tahun. Kami secara teratur mendengar perwakilan yang dihasilkan komputer di saluran layanan pelanggan atau membacakan artikel dengan keras kepada kami secara online. Perusahaan Inggris Sonantic terkenal mengkloning suara Val Kilmer setelah operasi untuk kanker tenggorokan membuatnya tidak dapat berbicara, yang pertama kali didengar publik dalam film dokumenter Val tapi itu mencapai puluhan juta di musim panas ini Senjata Terbaik: Maverick.

Rabu lalu, Amazon mengumumkan langkah yang memperluas jangkauan teknologi tersebut ke pengguna asisten pintar Alexa-nya. Pembaruan teknologi yang akan datang akan memungkinkan mereka untuk mengganti suara standar dengan suara siapa pun, termasuk orang yang dicintai yang telah meninggal. Perusahaan mengklaim bahwa teknologi yang belum memiliki tanggal rilis, dapat menghasilkan tiruan suara seseorang hanya dengan satu menit audio. Apakah seseorang mungkin menemukan gagasan tentang nenek yang dihasilkan AI membaca cerita pengantar tidur dari The Great Beyond menyeramkan atau menawan, langkah tersebut merupakan langkah maju dalam membuat suara sintetis lebih mudah diakses.

Baru-baru ini empat tahun lalu, menangkap cukup pola vokal dan intonasi individu adalah proses yang jauh lebih lama. Misalnya, VocalID, sebuah perusahaan yang menyediakan suara sintetis untuk klien dengan kondisi yang membuat mereka tidak dapat berbicara, memerlukan beberapa ratus kalimat data untuk membuat ulang suara individu secara akurat. Sekitar waktu yang sama, produk serupa yang disebut Speech Morphing membutuhkan input skrip sekitar satu jam.

Sintesis, bagaimanapun, telah menjadi semakin mudah dan lebih umum. Pada tahun 2018, perusahaan China Baidu menjadi berita utama untuk demonstrasi teknologi Deep Voice-nya yang hanya membutuhkan 60 detik audio untuk mensintesis suara. Saat ini, platform Veritone memungkinkan selebriti untuk menjual versi sintetis dari suara mereka untuk digunakan dalam kesepakatan endorsement. Dan fitur Overdub dari perusahaan Descript memungkinkan para insinyur podcast memperbaiki kesalahan vokal atau mengganti kata-kata habis-habisan dalam rekaman tanpa harus menarik pembawa acara kembali ke studio.

See also  Bagaimana militer mempersiapkan transisi 5G

Menciptakan suara adalah alat yang ampuh bagi mereka yang kehilangan kemampuan berbicara karena cedera atau sakit. Sekitar 2 juta orang di AS membutuhkan bantuan apa yang disebut komunikasi alternatif adaptif (AAC) untuk berbicara. Penyebab disabilitas bicara sangat luas—mulai dari penyakit yang memengaruhi kontrol motorik seperti palsi serebral hingga kejadian seperti cedera otak atau stroke—jadi lebih banyak lagi yang dapat memperoleh manfaat dari membuat teknologi lebih mudah diakses. Satu perkiraan menyatakan bahwa sekitar 5 juta orang Amerika dan 97 juta orang di seluruh dunia dapat memperoleh manfaat dari AAC. Kemampuan untuk menggunakan suara yang disesuaikan dan dipersonalisasi alih-alih “suara robo” generik yang out-of-the-box, bisa menjadi transformatif.

Penting untuk diketahui, bagaimanapun, bahwa sintesis suara tidak hanya dapat digunakan dengan cara yang murni altruistik. Potensi untuk menggunakan versi sintetis dari figur publik atau suara selebritas dalam deep-fake jelas—suara yang disediakan oleh Sonantic Kilmer, bagaimanapun, dibuat menggunakan footage dan audio yang sudah ada. Dan, pada saat yang sama, kami masih menemukan batasan tentang kapan dan bagaimana sebuah pertunjukan, merek, atau sutradara harus mengungkapkan saat mereka menggunakan suara yang dihasilkan AI. Ketika sutradara Morgan Neville mengetuk suara sintetis untuk menghasilkan tiga baris dialog dari Anthony Bourdain dalam film dokumenter pelari jalanada reaksi atas kegagalan film untuk mengungkapkan bagaimana garis diproduksi.

Bagi mereka yang berinteraksi dengan teknologi sehari-hari melalui platform seperti Alexa, risiko yang lebih umum adalah ooky-spooky-ness jatuh ke lembah yang luar biasa. Jika rekreasi meleset dari sasaran, bahkan sedikit, suara buatan mungkin memberi keseimbangan yang tepat. “Pasti ada beberapa risiko, seperti jika suara dan interaksi AI yang dihasilkan tidak cocok dengan ingatan orang yang dicintai tentang individu itu,” Michael Inouye, seorang analis ABI Research yang berfokus pada teknologi internet baru seperti Metaverse, mengatakan kepada CNN .

See also  Bagaimana TITAN akan membantu memahami data sensor militer