Pengeditan teks suara interaktif menggunakan teknologi ucapan baru dari Yandex. Pengucapan dan intonasi

Hari ini aplikasi Dikte kami untuk penulisan interaktif dan pengeditan teks dengan suara muncul di AppStore dan Google Play. Miliknya tugas utama- mendemonstrasikan beberapa fitur baru kompleks teknologi bicara Yandex. Ini tentang apa yang menarik dan unik tentang pengenalan suara dan teknologi sintesis kami yang ingin saya bicarakan dalam posting ini.

Beberapa kata sehingga Anda mengerti apa yang akan dibahas. Yandex telah lama menyediakan API seluler gratis yang dapat digunakan, misalnya, untuk pengenalan alamat dan kueri penelusuran suara. Selama tahun ini, kami mampu membawa kualitasnya ke tingkat yang hampir sama di mana permintaan dan komentar semacam itu dipahami oleh orang-orang itu sendiri. Dan sekarang kita melakukannya langkah berikutnya- model untuk pengakuan pidato bebas pada topik apapun.

Selain itu, sintesis ucapan kami mendukung emosi dalam suara. Dan, sejauh yang kami tahu, ini adalah sintesis ucapan pertama yang tersedia secara komersial dengan kemampuan ini.

Baca tentang semua ini, serta beberapa fitur lain dari SpeechKit: aktivasi suara, tanda baca otomatis, dan pengenalan objek semantik dalam teks - baca di bawah.

ASR omnivora dan kualitas pengenalan

Sistem pengenalan ucapan di SpeechKit bekerja dengan jenis yang berbeda teks, dan Tahun lalu kami telah bekerja untuk memperluas cakupannya. Untuk melakukan ini, kami telah membuat model bahasa baru, sejauh ini yang terbesar, untuk mengenali teks pendek pada topik apapun.

Di belakang tahun lalu proporsi relatif dari kata-kata yang salah dikenali (Word Error Rate) menurun 30%. Misalnya, hari ini SpeechKit mengenali 95% alamat dengan benar dan objek geografis, mendekati seseorang yang memahami 96-98% dari kata-kata yang mereka dengar. Kelengkapan pengakuan model baru untuk dikte berbagai teks sekarang berdiri di 82%. Dengan level ini, Anda dapat membuat solusi lengkap untuk pengguna akhir, yang ingin kami tunjukkan pada contoh Dikte.

Awalnya, SpeechKit hanya berfungsi untuk permintaan pencarian: topik umum dan geonavigasi. Meskipun pada saat itu kami berencana untuk tidak hanya membuat alat input tambahan, keyboard "suara", tetapi antarmuka universal yang akan sepenuhnya menggantikan interaksi apa pun dengan sistem dengan percakapan langsung.

Untuk melakukan ini, perlu belajar mengenali pidato apa pun, teks tentang topik yang sewenang-wenang. Dan kami mulai mengerjakan model bahasa terpisah untuk ini, yang beberapa kali lebih besar dari model geo-navigasi dan penelusuran umum yang ada.

Ukuran model ini menetapkan kondisi baru dalam hal sumber daya komputasi. Untuk setiap bingkai, beberapa ribu opsi pengenalan dipertimbangkan - dan semakin kami berhasil, semakin tinggi kualitasnya. Dan sistem harus bekerja dalam aliran, secara real time, sehingga semua perhitungan perlu dioptimalkan secara dinamis. Kami bereksperimen, mencoba, mencari pendekatan: kami mencapai akselerasi, misalnya, dengan mengubah pustaka aljabar linier.

Tetapi hal yang paling penting dan paling sulit adalah mengumpulkan cukup data yang benar yang cocok untuk mengajar pidato streaming. Saat ini, sekitar 500 jam pidato transkripsi tangan digunakan untuk melatih model akustik. Tidak seperti itu dasar besar- sebagai perbandingan, Switchboard badan ilmiah populer, yang sering digunakan di tujuan penelitian, berisi sekitar 300 jam percakapan langsung dan spontan. Tentu saja, peningkatan basis berkontribusi pada peningkatan kualitas model yang dilatih, tetapi kami fokus pada pelatihan yang tepat data dan transkripsi model yang akurat, yang memungkinkan kami untuk berlatih dengan kualitas yang dapat diterima pada basis yang relatif kecil.

Beberapa kata tentang cara kerja modul pengenalan (kami membicarakannya secara rinci beberapa waktu lalu). Aliran ucapan yang direkam dipotong menjadi bingkai 20 ms, spektrum sinyal diskalakan, dan setelah serangkaian transformasi, MFCC diperoleh untuk setiap bingkai.

Koefisien dimasukkan ke dalam model akustik, yang menghitung distribusi probabilitas untuk sekitar 4000 senon di setiap frame. Senon adalah awal, tengah, atau akhir fonem.

Model akustik SpeechKit dibangun di atas kombinasi model Markov tersembunyi dan jaringan neural feedforward yang dalam (feedforward DNN). Ini sudah merupakan solusi yang terbukti, dan dalam artikel terakhir kami berbicara tentang bagaimana pengabaian campuran Gaussian demi DNN memberikan peningkatan kualitas yang hampir dua kali lipat.

Kemudian datang yang pertama model bahasa: beberapa WFST - transduser akhir berbobot - mengubah senon menjadi fonem yang bergantung pada konteks, dan seluruh kata dibangun darinya dengan bantuan kamus pengucapan, dan ratusan hipotesis diperoleh untuk setiap kata.

Pemrosesan akhir terjadi dalam model bahasa kedua. Terhubung dengannya adalah RNN , jaringan saraf berulang, dan model ini memberi peringkat hipotesis yang diterima, membantu memilih opsi yang paling masuk akal. Jaringan tipe berulang sangat efektif untuk model bahasa. Menentukan konteks setiap kata, dapat memperhitungkan pengaruh tidak hanya dari kata-kata terdekat, seperti dalam jaringan saraf umpan-maju (misalnya, untuk model trigram, ini adalah dua kata sebelumnya), tetapi juga dari yang jauh lebih jauh , seolah-olah "mengingat" mereka.

Pengenalan teks yang terhubung lama tersedia di SpeechKit Cloud dan SpeechKit Mobile SDK - untuk menggunakan model bahasa baru, Anda harus memilih topik "catatan" dalam parameter kueri.

Aktivasi suara

Komponen kunci kedua dari antarmuka suara adalah sistem aktivasi suara, yang memicu tindakan yang diinginkan dalam menanggapi frase kunci. Tanpa itu, tidak mungkin untuk sepenuhnya "melepaskan tangan" pengguna. Kami telah mengembangkan modul aktivasi suara kami sendiri untuk SpeechKit. Teknologi ini sangat fleksibel - pengembang yang menggunakan perpustakaan SpeechKit dapat memilih frasa kunci apa pun untuk aplikasinya.

Tidak seperti, misalnya, solusi Google - pengembang mereka menggunakannya untuk mengenali slogannya"OK Google" dalam jaringan syaraf. DNN memberi kualitas tinggi, tetapi sistem aktivasi terbatas pada satu perintah, dan untuk mempelajarinya diperlukan jumlah yang banyak data. Misalnya, model untuk mengenali frasa yang sudah dikenal dilatih pada contoh lebih dari 40.000 suara pengguna yang mengakses ponsel cerdas mereka dengan Google Now.

Dengan pendekatan kami, modul aktivasi suara sebenarnya adalah sistem pengenalan mini. Ini hanya bekerja dalam kondisi yang lebih keras. Pertama, pengenalan perintah harus terjadi pada perangkat itu sendiri, tanpa menghubungi server. Dan daya komputasi smartphone sangat terbatas. Konsumsi daya juga penting - jika modul pengenalan reguler dihidupkan hanya untuk waktu tertentu untuk memproses permintaan tertentu, maka modul aktivasi bekerja terus-menerus, dalam mode siaga. Dan pada saat yang sama tidak harus menanam baterai.

Namun, ada kesenangan - sistem aktivasi membutuhkan kamus yang sangat kecil, karena cukup untuk memahami beberapa frasa kunci, dan sisa pidato dapat diabaikan begitu saja. Oleh karena itu, model bahasa aktivasi jauh lebih kompak. Sebagian besar status WFST sesuai dengan bagian tertentu dari perintah kami - misalnya, "awal fonem keempat". Ada juga negara "sampah" yang menggambarkan keheningan, kebisingan asing dan semua ucapan lain selain kata kunci. Jika model pengenalan penuh di SpeechKit memiliki puluhan juta status dan membutuhkan hingga 10 gigabyte, maka untuk aktivasi suara itu terbatas pada ratusan status dan muat dalam beberapa puluh kilobyte.

Oleh karena itu, model untuk mengenali frasa kunci baru dibuat tanpa kesulitan, memungkinkan Anda untuk menskalakan sistem dengan cepat. Ada satu syarat - perintah harus cukup panjang (sebaiknya - lebih dari satu kata) dan jarang muncul di pidato sehari-hari untuk menghindari positif palsu. "Tolong" tidak baik untuk aktivasi suara, tetapi "dengarkan perintah saya" baik-baik saja.

Bersama dengan model bahasa yang terbatas dan akustik "ringan", pengenalan perintah berada dalam kekuatan smartphone mana pun. Masih berurusan dengan konsumsi energi. Sistem ini memiliki pendeteksi aktivitas suara bawaan, yang memantau penampilan suara manusia dalam aliran audio yang masuk. Suara lain diabaikan, sehingga di latar belakang konsumsi daya modul aktivasi terbatas pada mikrofon saja.

sintesis ucapan

Komponen utama ketiga dari teknologi wicara adalah sintesis ucapan (text-to-speech). Solusi TTS SpeechKit memungkinkan Anda menyuarakan teks apa pun dengan suara pria atau wanita, dan bahkan bertanya emosi yang tepat. Tak satu pun dari mesin suara yang dikenal di pasar memiliki kemampuan ini.

Ada beberapa dasar teknologi yang berbeda sintesis ucapan, dan di sebagian besar sistem modern sintesis gabungan digunakan dengan metode "pemilihan unit". Sampel suara pra-rekaman dipotong menjadi spesifik elemen penyusun(misalnya, fonem-fonem yang bergantung pada konteks) dari mana dasar ujaran disusun. Lalu apa saja kata-kata yang tepat dirakit dari unit individu. Ternyata tiruan suara manusia yang dapat dipercaya, tetapi sulit untuk melihatnya - lompatan timbre, intonasi yang tidak wajar, dan transisi tajam muncul di persimpangan unit individu. Ini terutama terlihat saat menyuarakan teks yang terhubung panjang. Kualitas sistem seperti itu dapat ditingkatkan dengan meningkatkan volume basis suara, tetapi ini adalah waktu yang lama dan pekerjaan yang melelahkan, membutuhkan keterlibatan seorang penyiar yang profesional dan sangat sabar. Dan kelengkapan pangkalan selalu menjadi penghambat sistem.

Di SpeechKit, kami memutuskan untuk menggunakan sintesis ucapan statistik (parametrik) berdasarkan model Markov tersembunyi. Prosesnya pada dasarnya mirip dengan pengenalan, hanya saja terjadi di arah sebaliknya. Teks asli diteruskan ke modul G2P (grapheme-to-phoneme), di mana ia diubah menjadi urutan fonem.

Kemudian mereka masuk ke model akustik, yang menghasilkan vektor yang menggambarkan karakteristik spektral setiap fonem. Angka-angka ini diteruskan ke vocoder, yang mensintesis suara.

Timbre suara seperti itu agak "komputer", tetapi memiliki intonasi yang alami dan halus. Pada saat yang sama, kelancaran bicara tidak tergantung pada volume dan panjangnya. teks yang dapat dibaca dan suaranya mudah diatur. Cukup dengan menentukan satu kunci dalam parameter permintaan, dan modul sintesis akan mengeluarkan suara dengan yang sesuai pewarnaan emosional. Tentu saja, tidak ada sistem pemilihan unit yang dapat melakukan ini.

Agar model suara dapat membangun algoritme yang sesuai dengan berbagai emosi, dibutuhkan jalan yang benar melatihnya. Oleh karena itu, selama perekaman, rekan kami Evgenia, yang suaranya dapat didengar di SpeechKit, mengucapkan dialognya secara bergantian dengan suara netral, gembira dan, sebaliknya, kesal. Selama pelatihan, sistem mengidentifikasi dan menggambarkan parameter dan karakteristik suara yang sesuai dengan masing-masing status ini.

Tidak semua modifikasi suara dibangun berdasarkan pembelajaran. Misalnya, SpeechKit juga memungkinkan Anda untuk mewarnai suara yang disintesis dengan parameter "mabuk" dan "sakit". Pengembang kami merasa kasihan pada Zhenya, dan dia tidak harus mabuk sebelum merekam atau berlari dalam cuaca dingin untuk mendapatkan flu yang baik.

Untuk suara mabuk, ucapan diperlambat dengan cara khusus - setiap fonem terdengar sekitar dua kali lebih lambat, yang memberikan efek karakteristik. Dan untuk pasien, ambang kemerduan meningkat - pada kenyataannya, apa yang terjadi pada pita suara seseorang dengan radang tenggorokan dimodelkan. Sonoritas fonem yang berbeda tergantung pada apakah udara melewati saluran vokal manusia dengan bebas atau apakah suara bergetar menghalanginya. pita suara. Dalam mode "penyakit", setiap fonem cenderung tidak disuarakan, yang membuat suara serak, ditanam.

Metode statistik juga memungkinkan untuk ekspansi cepat dari sistem. Dalam model pemilihan unit, untuk menambahkan suara baru, Anda perlu membuat basis ucapan terpisah. Penyiar harus merekam banyak jam bicara, sambil mempertahankan intonasi yang sama dengan sempurna. Di SpeechKit, untuk membuat suara baru, cukup untuk merekam setidaknya dua jam pidato - sekitar 1800 kalimat khusus yang seimbang secara fonetis.

Isolasi objek semantik

Penting tidak hanya untuk menerjemahkan kata-kata yang diucapkan seseorang menjadi huruf, tetapi juga untuk mengisinya dengan makna. Teknologi keempat bentuk terbatas tersedia di SpeechKit Cloud, tidak secara langsung memengaruhi pekerjaan dengan suara - itu mulai bekerja setelah kata-kata yang diucapkan dikenali. Tetapi tanpa itu, setumpuk lengkap teknologi ucapan tidak dapat dibuat - ini adalah pemilihan objek semantik dalam ucapan alami, yang pada outputnya tidak hanya memberikan teks yang dikenali, tetapi sudah ditandai.

Sekarang SpeechKit mengimplementasikan pemilihan tanggal dan waktu, nama lengkap, alamat. Sistem hybrid menggabungkan tata bahasa bebas konteks, kamus kata kunci dan data statistik pencarian dan berbagai layanan Yandex, serta algoritme pembelajaran mesin. Misalnya, dalam frasa "ayo pergi ke Jalan Leo Tolstoy", kata "jalan" membantu sistem menentukan konteksnya, setelah itu objek yang sesuai berada di basis data Yandex.Maps.

Dalam Dikte, kami telah membangun di atas teknologi ini fungsi pengeditan teks dengan suara. Pendekatan untuk mengekstrak entitas pada dasarnya baru, dan penekanannya adalah pada kesederhanaan konfigurasi - Anda tidak perlu mengetahui pemrograman untuk menyiapkan sistem.

Masukan sistem adalah daftar jenis yang berbeda objek dan contoh frasa dari pidato langsung yang menggambarkannya. Selanjutnya, pola dibentuk dari contoh-contoh ini menggunakan metode Penambangan Pola. Mereka memperhitungkan bentuk awal, akar, variasi morfologis kata. langkah berikutnya contoh penggunaan objek yang dipilih dalam kombinasi yang berbeda untuk membantu sistem memahami konteksnya. Berdasarkan contoh-contoh ini, model Markov tersembunyi dibangun, di mana objek yang dipilih dalam replika pengguna menjadi status yang dapat diamati, dan objek yang sesuai dengannya dari bidang subjek dengan nilai yang sudah diketahui menjadi status tersembunyi.

Misalnya, ada dua frasa: "masukkan 'halo teman' di awal" dan "tempel dari papan klip". Sistem menentukan bahwa dalam kasus pertama setelah "menempel" (tindakan pengeditan) ada teks arbitrer, dan yang kedua - objek yang dikenalnya ("papan klip"), dan bereaksi berbeda terhadap perintah ini. PADA sistem tradisional ini akan membutuhkan aturan penulisan atau tata bahasa dengan tangan, dan dalam teknologi baru Analisis konteks Yandex terjadi secara otomatis.

tanda baca otomatis

Saat mendiktekan sesuatu, Anda berharap melihat tanda baca di teks yang dihasilkan. Dan mereka akan muncul secara otomatis sehingga Anda tidak perlu berbicara dengan antarmuka dalam gaya telegraf: "Teman yang terhormat - koma - apa kabar - tanda tanya". Oleh karena itu, SpeechKit dilengkapi dengan sistem tanda baca otomatis.

Peran tanda baca dalam pidato dimainkan oleh jeda intonasi. Oleh karena itu, awalnya kami mencoba membangun model akustik dan bahasa yang lengkap untuk pengenalan mereka. Setiap tanda baca diberi fonem, dan dari sudut pandang sistem, "kata-kata" baru muncul dalam pidato yang dikenali, yang seluruhnya terdiri dari fonem "tanda baca" - di mana ada jeda atau intonasi diubah dengan cara tertentu.

Kesulitan besar muncul dengan data untuk pelatihan - di sebagian besar korpora sudah ada teks yang dinormalisasi di mana tanda baca dihilangkan. Juga, hampir tidak ada tanda baca dalam teks permintaan pencarian. Kami beralih ke Ekho Moskvy, yang secara manual menyalin semua siaran mereka, dan mereka mengizinkan kami untuk menggunakan arsip mereka. Dengan cepat menjadi jelas bahwa transkripsi ini tidak cocok untuk tujuan kami - mereka dibuat dekat dengan teks, tetapi tidak kata demi kata, dan karena itu tidak cocok untuk pembelajaran mesin. Upaya berikutnya dilakukan dengan buku audio, tetapi dalam kasus mereka, sebaliknya, kualitasnya terlalu tinggi. Suara yang ditempatkan dengan baik, secara ekspresif melafalkan teks, terlalu jauh dari kehidupan nyata, dan hasil pelatihan pada data tersebut tidak dapat diterapkan dalam dikte spontan.

Masalah kedua adalah bahwa pendekatan yang dipilih memiliki dampak negatif pada kualitas umum pengakuan. Untuk setiap kata, model bahasa mempertimbangkan beberapa kata tetangga untuk menentukan konteks dengan benar, dan kata-kata "tanda baca" tambahan pasti mempersempitnya. Beberapa bulan percobaan tidak menghasilkan apa-apa.

Saya harus mulai dengan batu tulis bersih- kami memutuskan untuk meletakkan tanda baca pada tahap pasca-pemrosesan. Kami mulai dengan salah satu metode paling sederhana, yang, anehnya, menunjukkan hasil yang cukup dapat diterima pada akhirnya. Jeda di antara kata-kata menerima salah satu tanda: spasi, titik, koma, tanda tanya, Tanda seru, usus besar. Untuk memprediksi label mana yang sesuai dengan jeda tertentu, metode bidang acak bersyarat (CRF) digunakan. Untuk menentukan konteksnya, tiga kata sebelumnya dan dua kata berikutnya diperhitungkan, dan aturan sederhana ini memungkinkan Anda untuk menempatkan tanda dengan akurasi yang cukup tinggi. Tetapi kami terus bereksperimen dengan model lengkap yang akan dapat menafsirkan intonasi manusia dengan benar dalam hal tanda baca bahkan pada tahap pengenalan suara.

Rencana masa depan

Saat ini, SpeechKit secara aktif digunakan untuk menyelesaikan tugas "pertempuran" dalam layanan massal untuk pengguna akhir. Tonggak berikutnya adalah belajar mengenali ucapan spontan dalam streaming langsung sehingga Anda dapat menyalin wawancara secara real time atau secara otomatis membuat catatan tentang kuliah, menerima teks yang sudah ditandai sebagai output, dengan abstrak yang disorot dan fakta-fakta kunci. Ini adalah tugas besar dan sangat intensif sains yang belum pernah diselesaikan oleh siapa pun di dunia - dan kami tidak menyukai yang lain!

Untuk pengembangan SpeechKit sangat penting Masukan. Taruh

adalah layanan pengenalan suara dan sintesis dari platform Yandex.Cloud yang memberi pengembang akses ke teknologi ucapan Yandex. Pada artikel ini kita akan berbicara tentang sintesis ucapan.

Teknologi sintesis ucapan memungkinkan Anda menerjemahkan teks menjadi ucapan (file suara). Tugas tersebut relevan untuk menyuarakan informasi yang diperbarui secara dinamis atau data yang berubah dengan cepat, seperti saldo barang di gudang, repertoar bioskop, dan sebagainya. Teknologi sintesis ucapan Yandex didasarkan pada Hidden Markov Models (HMMs). Melalui penggunaan pendekatan statistik dalam pemodelan akustik, dimungkinkan untuk mencapai intonasi halus yang alami. Teknologi ini memungkinkan Anda dengan cepat membuat suara baru dan mensintesis emosi yang berbeda.

Sintesis ucapan Yandex memungkinkan Anda memilih:

  • laki-laki atau suara wanita untuk akting suara;
  • emosi: baik hati, marah, suara netral.

Dokumentasi untuk pengenalan ucapan dan API sintesis Yandex SpeechKit tersedia di https://cloud.yandex.ru/docs/speechkit/

Menggunakan Komponen

Dimulai dengan Oktell 2.12, komponen Speech Synthesis muncul di layanan dan skrip IVR. Komponen menyuarakan frasa yang ditentukan (mensintesis ucapan) menggunakan layanan Yandex SpeechKit. Memungkinkan Anda untuk segera memutar file dalam antrean, atau membuat file untuk digunakan nanti. Anda dapat mengaktifkan cache dalam komponen, sehingga menyimpan semua file yang dihasilkan ke folder \Oktell\Server\LocalStorage\SynthesisCache. Karena setiap permintaan ke layanan Yandex dibayar, cache yang disertakan memungkinkan Anda menghemat uang.

Dokumentasi teknis untuk komponen:

Untuk menggunakan sistem sintesis ucapan Yandex SpeechKit, lakukan hal berikut:

  • Ikuti langkah 1-5 dari instruksi untuk mengotorisasi di API untuk mendapatkan ID direktori
  • Masuk ke akun Yandex atau Yandex.Connect Anda
  • Dapatkan token OAuth di layanan Yandex.OAuth. Untuk melakukan ini, ikuti tautannya, klik mengizinkan dan salin token OAuth yang dihasilkan.

Langkah 2 Pergi ke Administrasi / Pengaturan Umum / Pengenalan ucapan Yandex SpeechKit Cloud. Masukkan nilai yang diterima Token OAuth dan ID Direktori ke bidang yang sesuai

Langkah 3. Pertimbangkan contoh penggunaan sintesis ucapan dalam skenario IVR.

komponen " sintesis ucapan". Mengucapkan salam kepada penelepon dan menyimpan pilihan penelepon ke variabel.

  • Modus - Mainkan. Dalam mode ini, komponen segera memutar file yang dihasilkan ke baris saat ini.
  • Teks - string " Halo! Selamat datang di Perusahaan Sistem Telepon! Untuk terhubung dengan manajer, tekan 1. Untuk terhubung dengan karyawan dukungan teknis tekan 2.". Teks yang dimasukkan akan ditransfer ke server Yandex untuk disuarakan.
  • Suara - Zahar. Pengaturan bertanggung jawab atas suara yang disintesis: Zahar - suara pria, Jane - wanita. Dimungkinkan untuk menentukan nilai yang berbeda jika didukung oleh layanan Yandex SpeechKit.
  • Emote - Bawaan. Pengaturan bertanggung jawab atas pewarnaan suara yang digunakan. Opsi yang memungkinkan: baik, netral, jahat, campuran.
  • Tembolok - Gunakan. Jika Anda menggunakan cache, sistem akan mencoba menemukan file dengan teks bersuara di antara yang dihasilkan sebelumnya (terletak di folder \Oktell\Server\LocalStorage\SynthesisCache). Disarankan untuk selalu menyalakannya untuk menghemat uang.
  • Batas waktu respons, s - 5. Waktu maksimum untuk menunggu respons dari server Yandex.
  • Hancurkan karakter - string " 1, 2 ". Jika pelanggan menekan karakter interupsi yang ditentukan, komponen akan menyimpannya ke buffer dan melanjutkan ke blok berikutnya.
  • Buffer untuk DTMF - variabel memasukkan(rangkaian). Variabel di mana karakter istirahat yang dimasukkan disimpan.
  • Hapus Buffer - Ya. Menunjukkan bahwa buffer akan dibersihkan terlebih dahulu.

komponen " Tidak bisa". Merutekan pelanggan ke grup operator yang dipilih.

  • Argumen - variabel Memasukkan
  • Nilai -
1 - ke komponen "Switching 1" 2, lainnya - ke komponen "Switching 2"

Menyiapkan perutean lebih lanjut tidak dipertimbangkan.

Untuk menggunakan sintesis ucapan untuk prasetel, Anda harus terlebih dahulu membuat file menggunakan komponen "Sintesis Ucapan" dan menyimpan jalur ke file ini dalam variabel (di properti yang sesuai). Selanjutnya, tentukan file ini di komponen "Preset Playback".

Ini menambahkan beberapa bumbu dan jika saya mulai bereksperimen dengan mesin lain, saya mendapatkan tagar #ReturnDashka di komentar. Itu keren untuk menonton semua ini, tetapi prosesnya tidak berhenti dan banyak perusahaan mengembangkan teknologi mereka sendiri. Misalnya, saya menyukai suaranya, yang terkadang juga saya masukkan ke dalam video.

Baru-baru ini saya menemukan kompleks teknologi ucapan Yandex, termasuk pengenalan dan sintesis ucapan, aktivasi suara, dan pemilihan objek semantik dalam teks lisan. Teknologi ucapan telah belajar mengenali aktivasi suara, dengan bantuannya Anda dapat merekam pesan SMS dan meninggalkan catatan dengan suara, tanpa menggunakan keyboard, langsung mengakses backend yang berhasil digunakan di aplikasi seluler Yandex. Misalnya, SpeechKit Mobile SDK memungkinkan Anda untuk menyematkan pengenalan suara dan sintesis, serta aktivasi suara Yandex di aplikasi seluler untuk iOS, Android (pada saat ini Rusia, Inggris, Turki dan Bahasa Ukraina) atau Windows Phone(Bahasa Rusia). Kontrol suara akan membuat aplikasi Anda lebih user-friendly, terutama jika tangan pengguna penuh. Tanpa menyentuh layar, ia akan dapat memanggil fungsi yang diinginkan dengan satu frase.

Saya selalu tertarik dengan teknologi sintesis ucapan, yang memungkinkan Anda menerjemahkan teks ke dalam ucapan. Saya dengan cepat membuat sketsa teks, menyuarakannya (Milena TTS [Rusia]) dan memasukkannya ke dalam video, tentang topik apa pun. Ini akan sangat menarik bagi pengguna yang memiliki masalah dengan bicara atau mereka yang karena alasan tertentu merasa malu dengan suaranya.

Suara dari Yandex tampak aneh, bagus dan mudah dirasakan telinga manusia, khususnya suara laki-laki zahar dan ermil. Suara wanita jane, oksana, alyss, dan omazh membuatku sangat takut dan, menurut pendapat saya, tidak mencapai ketinggian SuperDazhki. Jadi bagaimana Anda mendengar suara-suara baru di komputer rumah biasa? Untuk melakukan ini, saya harus menyekop Internet dan solusinya ditemukan dalam bentuk skrip.

1. Pertama, kita harus berada di halaman dan klik tombol "Developer's Room".


Anda segera masuk ke Area Pribadi dan klik tombol "Dapatkan Kunci". Selanjutnya, klik tombol "SpeechKit Cloud".


Isi semua bidang yang ditandai dengan tanda bintang merah dan klik tombol "Kirim".


Kunci akan langsung diterima, setelah itu harus disalin.


Sekarang mari kita beralih ke yang ini, di mana kita akan melihat berbagai parameter kueri, pembicara (suara ucapan yang disintesis), format respons, dan contoh URL. Huruf Cina ini akan tampak terlalu rumit untuk pengguna biasa, jadi mari kita sederhanakan tindakan kita (atau sebaliknya memperumit) dengan mengatur skrip sederhana.

2. Download program Notepad++ ke komputer (). Kami menginstal.

3. Buat file index.html. Siapa yang tidak punya keinginan untuk membuat dengan tangan, unduh ini.


Ubah nama file: index.html. Jenis file: Semua file. Pengkodean: UTF-8. Tekan tombol "Simpan". Penting untuk menyimpan file index.html di root drive sistem atau di folder mana pun di drive sistem.


Sekarang file yang disimpan perlu diedit. Buka file dengan Notepad++.


Sebenarnya, inilah skrip kami yang sudah lama ditunggu-tunggu (). Edit file Anda dengan benar: tempel di Tempat yang benar kunci Anda, ubah suara Anda, simpan dan gunakan.

Di masa depan, klik dua kali pada file index.html dan di browser kita mendapatkan yang berikut ini.


Tetap menulis puisi di jendela besar dan zahar (atau karakter lain yang dipilih) akan membacanya untuk Anda. Saya tidak berpendapat bahwa mungkin saya meletakkannya di rak di sini dan tidak ada yang membutuhkannya besok, saya hanya tertarik dengan proses sintesis ucapan dari Yandex di komputer saya, yang saya bagikan dengan Anda.

Bantu proyek dalam pengembangannya:
Kartu Sberbank: 676280139020834994
Yandex.Uang: 410012054992141
Webmoney: dompet WMR R429054927097
Dompet WMZ Z401294377967

teknologi pengenalan ucapan

Autopoet Speechkit Yandex.

Persiapan teks

Pengucapan dan intonasi

halaman atau di situs web sumber daya khusus

Banyak dari Anda mungkin telah berhasil mengontrol komputer atau smartphone dengan suara Anda. Saat Anda mengatakan kepada Navigator "Ayo pergi ke Gogol, 25" atau ucapkan permintaan pencarian di aplikasi Yandex, teknologi pengenalan suara mengubah suara Anda menjadi perintah teks. Tapi ada juga masalah terbalik: Mengubah teks yang tersedia di komputer menjadi suara.

Yandex menggunakan teknologi sintesis ucapan dari kompleks Yandex Speechkit hingga teks suara. Misalnya, ini memungkinkan Anda belajar cara mengucapkan kata-kata asing dan frasa di Penerjemah. Berkat sintesis ucapan, Autopoet juga menerima suaranya sendiri.

Persiapan teks

Pengucapan dan intonasi

Dengan kata lain, banyak data digunakan untuk mensintesis setiap 25 milidetik ucapan. Informasi tentang lingkungan terdekat memastikan transisi yang mulus dari bingkai ke bingkai dan dari suku kata ke suku kata, dan data tentang frasa dan kalimat secara keseluruhan diperlukan untuk membuat intonasi yang benar pidato yang disintesis.

Untuk membaca teks yang disiapkan, digunakan model akustik. Ini berbeda dari model akustik yang digunakan dalam pengenalan suara. Dalam hal pengenalan pola, perlu untuk membangun korespondensi antara suara dengan karakteristik dan fonem tertentu. Dalam kasus sintesis, model akustik, sebaliknya, harus menyusun deskripsi suara sesuai dengan deskripsi bingkai.

Bagaimana model akustik tahu cara mengucapkan fonem dengan benar atau memberikan intonasi yang benar? kalimat tanya? Dia belajar dari teks dan file suara. Misalnya, Anda dapat mengunggah buku audio dan teks yang sesuai dengannya. Semakin banyak data yang dipelajari model, semakin baik pengucapan dan intonasinya.

Anda dapat mempelajari lebih lanjut tentang teknologi dari kompleks Yandex SpeechKit di halaman ini atau di sumber khusus. Jika Anda seorang pengembang dan ingin menguji cloud atau versi seluler SpeechKit, situs yang didedikasikan untuk teknologi Yandex akan membantu Anda.

","contentType":"text/html","amp":"

Banyak dari Anda mungkin telah berhasil mengontrol komputer atau smartphone dengan suara Anda. Saat Anda mengatakan kepada Navigator "Ayo pergi ke Gogol, 25" atau ucapkan permintaan pencarian di aplikasi Yandex, teknologi pengenalan suara mengubah suara Anda menjadi perintah teks. Tetapi ada juga tugas terbalik: untuk mengubah teks yang dimiliki komputer menjadi suara.

Jika kumpulan teks yang akan disuarakan relatif kecil dan ekspresi yang sama muncul di dalamnya - seperti, misalnya, dalam pengumuman tentang keberangkatan dan kedatangan kereta api di stasiun - cukup dengan mengundang penyiar, merekam kata-kata yang diperlukan dan frase di studio, dan kemudian mengumpulkan pesan yang mana. Namun, dengan teks yang sewenang-wenang, pendekatan ini tidak berhasil. Di sinilah sintesis ucapan berguna.

Yandex menggunakan teknologi sintesis ucapan dari kompleks Yandex Speechkit hingga teks suara. Misalnya, ini memungkinkan Anda untuk mengetahui bagaimana kata dan frasa asing diucapkan di Penerjemah. Berkat sintesis ucapan, Autopoet juga menerima suaranya sendiri.

Persiapan teks

Tugas sintesis ucapan diselesaikan dalam beberapa tahap. Pertama, algoritme khusus menyiapkan teks sehingga nyaman bagi robot untuk membacanya: ia menulis semua angka dalam kata-kata, memperluas singkatan. Kemudian teks dibagi menjadi frasa, yaitu, menjadi frasa dengan intonasi berkelanjutan - untuk ini, komputer berfokus pada tanda baca dan konstruksi yang stabil. Untuk semua kata, itu dikompilasi transkripsi fonetik.

Untuk mengetahui cara membaca sebuah kata dan di mana harus meletakkan tekanan di dalamnya, robot pertama-tama beralih ke kamus klasik tulisan tangan yang dibangun ke dalam sistem. Jika kata yang diinginkan tidak ada dalam kamus, komputer membuat transkripsinya sendiri - berdasarkan aturan yang dipinjam dari buku referensi akademik. Akhirnya, jika aturan adat tidak cukup - dan ini terjadi, karena setiap bahasa yang hidup terus berubah - ia menggunakan aturan statistik. Jika kata itu muncul di corpus teks pelatihan, sistem akan mengingat suku kata mana yang biasanya ditekankan oleh pembicara.

Pengucapan dan intonasi

Ketika transkripsi siap, komputer menghitung berapa lama setiap fonem akan berbunyi, yaitu, berapa banyak bingkai yang dikandungnya - ini adalah bagaimana fragmen yang panjangnya 25 milidetik disebut. Kemudian setiap bingkai dideskripsikan menurut seperangkat parameter: fonem apa yang menjadi bagiannya dan tempat apa yang ditempati di dalamnya; suku kata apa yang dimiliki fonem ini; jika itu adalah vokal, apakah itu ditekankan; tempat apa yang ditempati dalam suku kata; suku kata - dalam satu kata; kata - dalam frasa; tanda baca apa yang ada sebelum dan sesudah frasa ini; tempat apa yang ditempati frasa dalam kalimat; akhirnya, tanda apa yang ada di akhir kalimat dan apa itu intonasi utama.

Dengan kata lain, banyak data digunakan untuk mensintesis setiap 25 milidetik ucapan. Informasi tentang lingkungan terdekat memastikan transisi yang mulus dari bingkai ke bingkai dan dari suku kata ke suku kata, dan data tentang frasa dan kalimat secara keseluruhan diperlukan untuk menciptakan intonasi yang benar dari pidato yang disintesis.

Untuk membaca teks yang disiapkan, digunakan model akustik. Ini berbeda dari model akustik yang digunakan dalam pengenalan suara. Dalam hal pengenalan pola, perlu untuk membangun korespondensi antara suara dengan karakteristik dan fonem tertentu. Dalam kasus sintesis, model akustik, sebaliknya, harus menyusun deskripsi suara sesuai dengan deskripsi bingkai.

Bagaimana model akustik mengetahui cara mengucapkan fonem dengan benar atau memberikan intonasi yang benar pada kalimat tanya? Dia belajar dari teks dan file suara. Misalnya, Anda dapat mengunggah buku audio dan teks yang sesuai dengannya. Semakin banyak data yang dipelajari model, semakin baik pengucapan dan intonasinya.

Terakhir, tentang suara itu sendiri. Suara kita dapat dikenali, pertama-tama, oleh timbre, yang bergantung pada fitur struktural organ. alat bicara Setiap orang. Timbre suara Anda dapat dimodelkan, yaitu, karakteristiknya dapat dijelaskan - untuk ini, cukup membaca teks kecil di studio. Setelah itu, data nada Anda dapat digunakan dalam sintesis ucapan dalam bahasa apa pun, bahkan bahasa yang tidak Anda ketahui. Ketika robot perlu memberi tahu Anda sesuatu, ia menggunakan generator gelombang suara- vokoder. Itu dimuat dengan informasi tentang karakteristik frekuensi frasa yang diperoleh dari model akustik, serta data tentang timbre yang memberi suara warna yang dapat dikenali.

Anda dapat mempelajari lebih lanjut tentang teknologi dari kompleks Yandex SpeechKit di halaman ini atau di sumber khusus. Jika Anda seorang pengembang dan ingin menguji SpeechKit versi cloud atau seluler, situs yang didedikasikan untuk teknologi Yandex akan membantu Anda.

","Artikel instan":"

Banyak dari Anda mungkin telah berhasil mengontrol komputer atau smartphone dengan suara Anda. Saat Anda mengatakan kepada Navigator "Ayo pergi ke Gogol, 25" atau ucapkan permintaan pencarian di aplikasi Yandex, teknologi pengenalan suara mengubah suara Anda menjadi perintah teks. Tetapi ada juga tugas terbalik: untuk mengubah teks yang dimiliki komputer menjadi suara.

Jika kumpulan teks yang akan disuarakan relatif kecil dan ekspresi yang sama muncul di dalamnya - seperti, misalnya, dalam pengumuman tentang keberangkatan dan kedatangan kereta api di stasiun - cukup dengan mengundang penyiar, merekam kata-kata yang diperlukan dan frase di studio, dan kemudian mengumpulkan pesan yang mana. Namun, dengan teks yang sewenang-wenang, pendekatan ini tidak berhasil. Di sinilah sintesis ucapan berguna.

Yandex menggunakan teknologi sintesis ucapan dari kompleks Yandex Speechkit hingga teks suara. Misalnya, ini memungkinkan Anda untuk mengetahui bagaimana kata dan frasa asing diucapkan di Penerjemah. Berkat sintesis ucapan, Autopoet juga menerima suaranya sendiri.

Persiapan teks

Tugas sintesis ucapan diselesaikan dalam beberapa tahap. Pertama, algoritme khusus menyiapkan teks sehingga nyaman bagi robot untuk membacanya: ia menulis semua angka dalam kata-kata, memperluas singkatan. Kemudian teks dibagi menjadi frasa, yaitu, menjadi frasa dengan intonasi berkelanjutan - untuk ini, komputer berfokus pada tanda baca dan konstruksi yang stabil. Untuk semua kata, transkripsi fonetik dikompilasi.

Untuk mengetahui cara membaca sebuah kata dan di mana harus meletakkan tekanan di dalamnya, robot pertama-tama beralih ke kamus klasik tulisan tangan yang dibangun ke dalam sistem. Jika kata yang diinginkan tidak ada dalam kamus, komputer membuat transkripsinya sendiri - berdasarkan aturan yang dipinjam dari buku referensi akademik. Akhirnya, jika aturan biasa tidak cukup - dan ini terjadi, karena setiap bahasa yang hidup terus berubah - ia menggunakan aturan statistik. Jika sebuah kata ditemukan dalam kumpulan teks pelatihan, sistem akan mengingat suku kata mana yang biasanya ditekankan oleh pembicara di dalamnya.

Pengucapan dan intonasi

Ketika transkripsi siap, komputer menghitung berapa lama setiap fonem akan berbunyi, yaitu, berapa banyak bingkai yang dikandungnya - ini adalah bagaimana fragmen yang panjangnya 25 milidetik disebut. Kemudian setiap bingkai dideskripsikan menurut seperangkat parameter: fonem apa yang menjadi bagiannya dan tempat apa yang ditempati di dalamnya; suku kata apa yang dimiliki fonem ini; jika itu adalah vokal, apakah itu ditekankan; tempat apa yang ditempati dalam suku kata; suku kata - dalam satu kata; kata - dalam frasa; tanda baca apa yang ada sebelum dan sesudah frasa ini; tempat apa yang ditempati frasa dalam kalimat; akhirnya, apa tanda di akhir kalimat dan apa intonasi utamanya.

Dengan kata lain, banyak data digunakan untuk mensintesis setiap 25 milidetik ucapan. Informasi tentang lingkungan terdekat memastikan transisi yang mulus dari bingkai ke bingkai dan dari suku kata ke suku kata, dan data tentang frasa dan kalimat secara keseluruhan diperlukan untuk menciptakan intonasi yang benar dari pidato yang disintesis.

Untuk membaca teks yang disiapkan, digunakan model akustik. Ini berbeda dari model akustik yang digunakan dalam pengenalan suara. Dalam hal pengenalan pola, perlu untuk membangun korespondensi antara suara dengan karakteristik dan fonem tertentu. Dalam kasus sintesis, model akustik, sebaliknya, harus menyusun deskripsi suara sesuai dengan deskripsi bingkai.

Bagaimana model akustik mengetahui cara mengucapkan fonem dengan benar atau memberikan intonasi yang benar pada kalimat tanya? Dia belajar dari teks dan file suara. Misalnya, Anda dapat mengunggah buku audio dan teks yang sesuai dengannya. Semakin banyak data yang dipelajari model, semakin baik pengucapan dan intonasinya.

Terakhir, tentang suara itu sendiri. Suara kita dapat dikenali, pertama-tama, oleh timbre, yang bergantung pada fitur struktural organ-organ alat bicara pada setiap orang. Timbre suara Anda dapat dimodelkan, yaitu, karakteristiknya dapat dijelaskan - untuk ini, cukup membaca teks kecil di studio. Setelah itu, data nada Anda dapat digunakan dalam sintesis ucapan dalam bahasa apa pun, bahkan bahasa yang tidak Anda ketahui. Ketika robot perlu mengatakan sesuatu kepada Anda, ia menggunakan generator gelombang suara - vocoder. Itu dimuat dengan informasi tentang karakteristik frekuensi frasa yang diperoleh dari model akustik, serta data tentang timbre yang memberi suara warna yang dapat dikenali.

Anda dapat mempelajari lebih lanjut tentang teknologi dari kompleks Yandex SpeechKit di halaman ini atau di sumber khusus. Jika Anda seorang pengembang dan ingin menguji SpeechKit versi cloud atau seluler, situs yang didedikasikan untuk teknologi Yandex akan membantu Anda.

"),"proposedBody":("sumber":"

Banyak dari Anda mungkin telah berhasil mengontrol komputer atau smartphone dengan suara Anda. Saat Anda mengatakan kepada Navigator "Ayo pergi ke Gogol, 25" atau ucapkan permintaan pencarian di aplikasi Yandex, teknologi pengenalan suara mengubah suara Anda menjadi perintah teks. Tetapi ada juga tugas terbalik: untuk mengubah teks yang dimiliki komputer menjadi suara.

Jika kumpulan teks yang akan disuarakan relatif kecil dan ekspresi yang sama muncul di dalamnya - seperti, misalnya, dalam pengumuman tentang keberangkatan dan kedatangan kereta api di stasiun - cukup dengan mengundang penyiar, merekam kata-kata yang diperlukan dan frase di studio, dan kemudian mengumpulkan pesan yang mana. Namun, dengan teks yang sewenang-wenang, pendekatan ini tidak berhasil. Di sinilah sintesis ucapan berguna.

Yandex menggunakan teknologi sintesis ucapan dari kompleks Yandex Speechkit hingga teks suara. Misalnya, ini memungkinkan Anda untuk mengetahui bagaimana kata dan frasa asing diucapkan di Penerjemah. Berkat sintesis ucapan, Autopoet juga menerima suaranya sendiri.

Persiapan teks

Tugas sintesis ucapan diselesaikan dalam beberapa tahap. Pertama, algoritme khusus menyiapkan teks sehingga nyaman bagi robot untuk membacanya: ia menulis semua angka dalam kata-kata, memperluas singkatan. Kemudian teks dibagi menjadi frasa, yaitu, menjadi frasa dengan intonasi berkelanjutan - untuk ini, komputer berfokus pada tanda baca dan konstruksi yang stabil. Untuk semua kata, transkripsi fonetik dikompilasi.

Untuk mengetahui cara membaca sebuah kata dan di mana harus meletakkan tekanan di dalamnya, robot pertama-tama beralih ke kamus klasik tulisan tangan yang dibangun ke dalam sistem. Jika kata yang diinginkan tidak ada dalam kamus, komputer membuat transkripsinya sendiri - berdasarkan aturan yang dipinjam dari buku referensi akademik. Akhirnya, jika aturan biasa tidak cukup - dan ini terjadi, karena setiap bahasa yang hidup terus berubah - ia menggunakan aturan statistik. Jika sebuah kata ditemukan dalam kumpulan teks pelatihan, sistem akan mengingat suku kata mana yang biasanya ditekankan oleh pembicara di dalamnya.

Pengucapan dan intonasi

Ketika transkripsi siap, komputer menghitung berapa lama setiap fonem akan berbunyi, yaitu, berapa banyak bingkai yang dikandungnya - ini adalah bagaimana fragmen yang panjangnya 25 milidetik disebut. Kemudian setiap bingkai dideskripsikan menurut seperangkat parameter: fonem apa yang menjadi bagiannya dan tempat apa yang ditempati di dalamnya; suku kata apa yang dimiliki fonem ini; jika itu adalah vokal, apakah itu ditekankan; tempat apa yang ditempati dalam suku kata; suku kata - dalam satu kata; kata itu dalam frasa; tanda baca apa yang ada sebelum dan sesudah frasa ini; tempat apa yang ditempati frasa dalam kalimat; akhirnya, apa tanda di akhir kalimat dan apa intonasi utamanya.

Dengan kata lain, banyak data digunakan untuk mensintesis setiap 25 milidetik ucapan. Informasi tentang lingkungan terdekat memastikan transisi yang mulus dari bingkai ke bingkai dan dari suku kata ke suku kata, dan data tentang frasa dan kalimat secara keseluruhan diperlukan untuk menciptakan intonasi yang benar dari pidato yang disintesis.

Untuk membaca teks yang disiapkan, digunakan model akustik. Ini berbeda dari model akustik yang digunakan dalam pengenalan suara. Dalam hal pengenalan pola, perlu untuk membangun korespondensi antara suara dengan karakteristik dan fonem tertentu. Dalam kasus sintesis, model akustik, sebaliknya, harus menyusun deskripsi suara sesuai dengan deskripsi bingkai.

Bagaimana model akustik mengetahui cara mengucapkan fonem dengan benar atau memberikan intonasi yang benar pada kalimat tanya? Dia belajar dari teks dan file suara. Misalnya, Anda dapat mengunggah buku audio dan teks yang sesuai dengannya. Semakin banyak data yang dipelajari model, semakin baik pengucapan dan intonasinya.

Terakhir, tentang suara itu sendiri. Suara kita dapat dikenali, pertama-tama, oleh timbre, yang bergantung pada fitur struktural organ-organ alat bicara pada setiap orang. Timbre suara Anda dapat dimodelkan, yaitu, karakteristiknya dapat dijelaskan - untuk ini, cukup membaca teks kecil di studio. Setelah itu, data nada Anda dapat digunakan dalam sintesis ucapan dalam bahasa apa pun, bahkan bahasa yang tidak Anda ketahui. Ketika robot perlu mengatakan sesuatu kepada Anda, ia menggunakan generator gelombang suara yang disebut vocoder. Itu dimuat dengan informasi tentang karakteristik frekuensi frasa yang diperoleh dari model akustik, serta data tentang timbre yang memberi suara warna yang dapat dikenali.

Anda dapat mempelajari lebih lanjut tentang teknologi dari kompleks Yandex SpeechKit di halaman ini atau di sumber khusus. Jika Anda seorang pengembang dan ingin menguji SpeechKit versi cloud atau seluler, situs yang didedikasikan untuk teknologi Yandex akan membantu Anda.

Banyak dari Anda mungkin telah berhasil mengontrol komputer atau smartphone dengan suara Anda. Saat Anda mengatakan kepada Navigator "Ayo pergi ke Gogol, 25" atau ucapkan permintaan pencarian di aplikasi Yandex, teknologi pengenalan suara mengubah suara Anda menjadi perintah teks. Tetapi ada juga tugas terbalik: untuk mengubah teks yang dimiliki komputer menjadi suara.

Jika kumpulan teks yang akan disuarakan relatif kecil dan ekspresi yang sama muncul di dalamnya - seperti, misalnya, dalam pengumuman tentang keberangkatan dan kedatangan kereta api di stasiun - cukup dengan mengundang penyiar, merekam kata-kata yang diperlukan dan frase di studio, dan kemudian mengumpulkan pesan yang mana. Namun, dengan teks yang sewenang-wenang, pendekatan ini tidak berhasil. Di sinilah sintesis ucapan berguna.

Yandex menggunakan teknologi sintesis ucapan dari kompleks Yandex Speechkit hingga teks suara. Misalnya, ini memungkinkan Anda untuk mengetahui bagaimana kata dan frasa asing diucapkan di Penerjemah. Berkat sintesis ucapan, Autopoet juga menerima suaranya sendiri.

Persiapan teks

Tugas sintesis ucapan diselesaikan dalam beberapa tahap. Pertama, algoritme khusus menyiapkan teks sehingga nyaman bagi robot untuk membacanya: ia menulis semua angka dalam kata-kata, memperluas singkatan. Kemudian teks dibagi menjadi frasa, yaitu, menjadi frasa dengan intonasi berkelanjutan - untuk ini, komputer berfokus pada tanda baca dan konstruksi yang stabil. Untuk semua kata, transkripsi fonetik dikompilasi.

Untuk mengetahui cara membaca sebuah kata dan di mana harus meletakkan tekanan di dalamnya, robot pertama-tama beralih ke kamus klasik tulisan tangan yang dibangun ke dalam sistem. Jika kata yang diinginkan tidak ada dalam kamus, komputer membuat transkripsinya sendiri - berdasarkan aturan yang dipinjam dari buku referensi akademik. Akhirnya, jika aturan biasa tidak cukup - dan ini terjadi, karena setiap bahasa yang hidup terus berubah - ia menggunakan aturan statistik. Jika sebuah kata ditemukan dalam kumpulan teks pelatihan, sistem akan mengingat suku kata mana yang biasanya ditekankan oleh pembicara di dalamnya.

Pengucapan dan intonasi

Ketika transkripsi siap, komputer menghitung berapa lama setiap fonem akan berbunyi, yaitu, berapa banyak bingkai yang dikandungnya - ini adalah bagaimana fragmen yang panjangnya 25 milidetik disebut. Kemudian setiap bingkai dideskripsikan menurut seperangkat parameter: fonem apa yang menjadi bagiannya dan tempat apa yang ditempati di dalamnya; suku kata apa yang dimiliki fonem ini; jika itu adalah vokal, apakah itu ditekankan; tempat apa yang ditempati dalam suku kata; suku kata - dalam satu kata; kata - dalam frasa; tanda baca apa yang ada sebelum dan sesudah frasa ini; tempat apa yang ditempati frasa dalam kalimat; akhirnya, apa tanda di akhir kalimat dan apa intonasi utamanya.

Dengan kata lain, banyak data digunakan untuk mensintesis setiap 25 milidetik ucapan. Informasi tentang lingkungan terdekat memastikan transisi yang mulus dari bingkai ke bingkai dan dari suku kata ke suku kata, dan data tentang frasa dan kalimat secara keseluruhan diperlukan untuk menciptakan intonasi yang benar dari pidato yang disintesis.

Untuk membaca teks yang disiapkan, digunakan model akustik. Ini berbeda dari model akustik yang digunakan dalam pengenalan suara. Dalam hal pengenalan pola, perlu untuk membangun korespondensi antara suara dengan karakteristik dan fonem tertentu. Dalam kasus sintesis, model akustik, sebaliknya, harus menyusun deskripsi suara sesuai dengan deskripsi bingkai.

Bagaimana model akustik mengetahui cara mengucapkan fonem dengan benar atau memberikan intonasi yang benar pada kalimat tanya? Dia belajar dari teks dan file suara. Misalnya, Anda dapat mengunggah buku audio dan teks yang sesuai dengannya. Semakin banyak data yang dipelajari model, semakin baik pengucapan dan intonasinya.

Terakhir, tentang suara itu sendiri. Suara kita dapat dikenali, pertama-tama, oleh timbre, yang bergantung pada fitur struktural organ-organ alat bicara pada setiap orang. Timbre suara Anda dapat dimodelkan, yaitu, karakteristiknya dapat dijelaskan - untuk ini, cukup membaca teks kecil di studio. Setelah itu, data nada Anda dapat digunakan dalam sintesis ucapan dalam bahasa apa pun, bahkan bahasa yang tidak Anda ketahui. Ketika robot perlu mengatakan sesuatu kepada Anda, ia menggunakan generator gelombang suara - vocoder. Itu dimuat dengan informasi tentang karakteristik frekuensi frasa yang diperoleh dari model akustik, serta data tentang timbre yang memberi suara warna yang dapat dikenali.

Anda dapat mempelajari lebih lanjut tentang teknologi dari kompleks Yandex SpeechKit di halaman ini atau di sumber khusus. Jika Anda seorang pengembang dan ingin menguji SpeechKit versi cloud atau seluler, situs yang didedikasikan untuk teknologi Yandex akan membantu Anda.

","contentType":"text/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"minor","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,"commentsCount":55," modifikasiDate":"Sel 03 Apr 2018 18:56:00 GMT+0000 (UTC)",,"isAutoPreview":false,"showPreview":true,"approvedPreview":("source":"

Saat Anda mengatakan kepada Navigator "Ayo pergi ke Gogol, 25" atau ucapkan kueri penelusuran dengan lantang, teknologi pengenalan suara mengubah suara Anda menjadi perintah teks. Ada juga tugas terbalik: mengubah teks menjadi suara. Terkadang cukup mengundang penyiar dan hanya menuliskan kata dan frasa yang diperlukan, tetapi ini tidak akan berhasil dengan teks yang sewenang-wenang. Di sinilah sintesis ucapan berguna.

","contentType":"text/html"),"proposedPreview":("source":"

Saat Anda mengatakan kepada Navigator "Ayo pergi ke Gogol, 25" atau ucapkan kueri penelusuran dengan lantang, teknologi pengenalan suara mengubah suara Anda menjadi perintah teks. Ada juga tugas terbalik: mengubah teks menjadi suara. Terkadang cukup mengundang penyiar dan hanya menuliskan kata dan frasa yang diperlukan, tetapi ini tidak akan berhasil dengan teks yang sewenang-wenang. Di sinilah sintesis ucapan berguna.

Saat Anda mengatakan kepada Navigator "Ayo pergi ke Gogol, 25" atau ucapkan kueri penelusuran dengan lantang, teknologi pengenalan suara mengubah suara Anda menjadi perintah teks. Ada juga tugas terbalik: mengubah teks menjadi suara. Terkadang cukup mengundang penyiar dan hanya menuliskan kata dan frasa yang diperlukan, tetapi ini tidak akan berhasil dengan teks yang sewenang-wenang. Di sinilah sintesis ucapan berguna.

","contentType":"text/html"),"titleImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/h32","width": 58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major1000","major288":(" tinggi":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421/file_1475751201967/major300","width":300,"height":150),,"major444":("path":"/get-yablogs/47421/file_1475751201967/major444","fullPath":"https:/ /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421/ file_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444,"height":246),,"minor288": ("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/minor288","width": 288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/47421/file_1475751201967/touch288","fullPath":"https ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("path":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","width":444,"height":246),,"touch900 ":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get -yab logs/47421/file_1475751201967/touch900")","w1000":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":" https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260 " ,"width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("height":246,"path " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"), " w288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net / get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":"/get-yablogs/47421/file_1475751201967/w288h160","width":288,"fullPath" : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162,"path":"/get-yablogs/47421/file_1475751 201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("height":246 ,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w444 "),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("path":"/get-yablogs/47421/file_1475751201967/major620","fullPath":"https://avatars. mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)),"tags":[("displayName":"Yandex technology","slug": " technologii-yandeksa","url":"/blog/perusahaan? ?tag=tekhnologii-yandeksa"),("displayName":"bagaimana cara kerjanya?","slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,"metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ blog /perusahaan","addCommentUrl":"/blog/createComment/company/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new",,"putImageUrl":"/blog/image/put " ,"urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb9760017cf4ccf/publish " ,"urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":"/blog/api/ berlangganan/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company/57f4dd21ccb9760017cf4ccf/edit","urlForRelate":"/late"suel"/trans "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabotaet -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","penulis":("id":"24151397","uid ": ("nilai":"24151397","lite":false,"hosted":false),"aliases":("13":"chistyakova"),"login":"amarantta","display_name": (" nama":"Sveta Chi styakova","avatar":("default":"24700/24151397-15660497","kosong":false)),"address":" [dilindungi email] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-middle","isYandexStaff": true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246," path":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major1000") ,"major288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.yandex .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),,"major900": ("path":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width": 444,"height":246),,"minor288":("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig", "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),,"touch444 ":("path":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","width":444,"height":246),"touch900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width": 444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000")","w260h260":( " height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https:/ / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"),"w288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/w288"," lebar ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":" / get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162 ,"path":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300 "),"w444":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444"),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","width":444, "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("path":"/get-yablogs/47421/file_1475751201967/major620" ,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)))))">

Terkadang kita perlu membaca teks tercetak dengan suara. Paling sering, program seperti itu digunakan oleh mereka yang mengajar bahasa asing untuk menentukan intonasi dan tekanan yang tepat, juga untuk membaca buku, dan hanya untuk bersenang-senang dan menggambar teman. Untuk menggunakan akting suara teks, tidak perlu mengunduh program ke komputer Anda, karena ada cukup banyak program di dalamnya. versi online(Tidak seperti ). Artikel ini akan membahas synth terbaik ucapan manusia, yang dapat Anda gunakan secara online.

Translate.google.com adalah layanan terjemahan dan sintesis teks gratis.

Google translate adalah salah satu yang paling populer dan layanan terbaik yang menyediakan berbagai layanan. Misalnya, semua orang penerjemah terkenal memiliki fungsi menyuarakan teks yang dimasukkan, dan dalam semua bahasa yang didukung. Kualitas suaranya agak rendah di beberapa tempat, tetapi secara umum dapat diterima. Jika Anda menerjemahkan teks tercetak menjadi ucapan untuk pembelajaran bahasa, maka synthesizer Penerjemah Google akan cocok untuk Anda dengan sempurna. Hal terpenting tentang layanan ini adalah sederhana dan dapat diakses oleh setiap pengguna di Internet.


Cara menyintesis teks di Translate.google.com

Untuk menggunakan layanan dari Google:

  1. Buka https://translate.google.com ;
  2. Pilih bahasa yang diperlukan dengan mengklik tombol "Deteksi bahasa";
  3. Kemudian masukkan teks di jendela tempat Anda memilih bahasa;
  4. Sekarang klik ikon gramofon di bagian bawah jendela, dan Anda dapat mendengar pemutaran teks dengan suara wanita.

Kerugiannya adalah ketidakmampuan untuk mengunduh sintesis ucapan yang direproduksi dalam file ke komputer Anda. Juga tidak ada pengaturan suara atau pemilihan artis.

Acapela - perangkat lunak text-to-speech gratis

Acapela adalah yang paling populer dan salah satu synthesizer pidato online terbaik. Layanan ini mendukung lebih dari 30 bahasa, serta sejumlah besar pemain untuk dipilih, baik pria maupun wanita. Untuk bahasa Inggris, ada 20 timbre yang bisa dipilih - female, male, remaja, child, rough male, soft female, dll. Program ini sangat dapat disesuaikan dan mudah digunakan. Situs ini memiliki program untuk penggunaan offline. Anda memiliki kesempatan untuk mencoba versi demo penyintesis ucapan dengan mengklik item yang sesuai di bilah menu.


Cara menggunakan Acapela

Untuk mengatur sintesis pidato lisan online, gunakan blok di sisi kiri halaman http://www.acapela-group.com/voices/demo/ .

Jadi bagaimana cara kerjanya:

  1. Di baris pertama, pilih bahasa teks lisan.
  2. Baris kedua tidak diperlukan jika Anda memilih bahasa Rusia, karena hanya ada satu opsi - Alyona.
  3. Di baris ketiga, masukkan teks yang ingin Anda suarakan. Anda dapat memasukkan hingga 300 karakter.
  4. Selanjutnya, setujui persyaratan layanan dengan mencentang kotak "saya setuju dengan syarat & ketentuan".
  5. Dan klik tombol "Terima syarat & ketentuan" di bawah.

Akting suara melalui layanan ini memiliki kualitas rata-rata. Intonasinya benar di hampir semua kata. Produk ini tersedia untuk semua platform.

Next.2yxa.mobi - layanan online untuk membaca teks

Layanan online Next.2yxa.mobi adalah synthesizer sederhana dan terjangkau untuk mereproduksi teks yang diketik. Situs ini dikembangkan untuk perangkat seluler, jadi dengan memasukkannya melalui web browser, kita akan memiliki alat sintesis teks yang ringan dan cepat. Dalam hal ini, situs memiliki beberapa keterbatasan dalam pekerjaannya. Misalnya, jika Anda perlu "membaca" teks yang diunduh, maka ukuran file tidak boleh melebihi 100 kb. Anda dapat mengetik teks dan langsung menyuarakannya.

Untuk ini, Anda perlu:


Vocalizer - penyintesis suara untuk pemutaran teks online

Satu lagi di antara synthesizer ucapan terbaik untuk tes akting suara online, yang dibuat oleh pengembang asing adalah Vocalizer. Ini tersedia di http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html . Ini adalah layanan yang sederhana dan dapat dimengerti. Menu dan antarmuka sepenuhnya dalam bahasa Inggris, tetapi akan sangat mudah untuk mengetahuinya. layanan online kita dapat menggunakan sebagai versi Demo. Sistem memberi Anda 100 pilihan suara yang berbeda dan 47 bahasa.


Cara menggunakan Vokalizer

Mensintesis pidato online dengan program ini sangat sederhana. Untuk ini:

  1. Di item "Bahasa / Dialek", pilih bahasa;
  2. Di "Gender" pilih akting suara pria atau wanita (pria - pria, wanita - wanita);
  3. Di bawah di blok besar, masukkan teks untuk menyuarakan dan tekan tombol biru di samping untuk bermain.