Interactive na pag-edit ng boses ng teksto gamit ang mga bagong teknolohiya sa pagsasalita mula sa Yandex. Pagbigkas at intonasyon

Ngayon ang aming Dictation application para sa interactive na pagsulat at pag-edit ng teksto sa pamamagitan ng boses ay lumabas sa AppStore at Google Play. Ang kanyang ang pangunahing gawain- ipakita ang ilan sa mga bagong tampok ng complex mga teknolohiya sa pagsasalita Yandex. Ito ay tungkol sa kung ano ang kawili-wili at kakaiba sa aming speech recognition at synthesis na teknolohiya na gusto kong pag-usapan sa post na ito.

Isang pares ng mga salita upang maunawaan mo kung ano ang tatalakayin. Matagal nang nagbigay ang Yandex ng libreng mobile API na maaaring magamit, halimbawa, para sa pagkilala sa address at mga query sa paghahanap gamit ang boses. Sa taong ito, nagawa naming dalhin ang kalidad nito sa halos kaparehong antas kung saan ang mga naturang kahilingan at komento ay naiintindihan ng mga tao mismo. At ngayon ginagawa namin susunod na hakbang- modelo para sa pagkilala malayang pananalita sa anumang paksa.

Bilang karagdagan, sinusuportahan ng aming speech synthesis ang mga emosyon sa boses. At, sa pagkakaalam namin, ito ang unang available na komersyal na speech synthesis na may ganitong kakayahan.

Tungkol sa lahat ng ito, pati na rin ang tungkol sa ilang iba pang mga tampok ng SpeechKit: tungkol sa pag-activate ng boses, awtomatikong bantas at pagkilala sa mga semantic na bagay sa teksto - basahin sa ibaba.

Omnivorous ASR at kalidad ng pagkilala

Gumagana ang speech recognition system sa SpeechKit iba't ibang uri text, at Noong nakaraang taon kami ay nagsusumikap sa pagpapalawak ng saklaw nito. Para magawa ito, gumawa kami ng bagong modelo ng wika, sa ngayon ang pinakamalaki, para sa pagkilala maikling teksto sa anumang paksa.

sa likod noong nakaraang taon ang kamag-anak na proporsyon ng mga maling kinikilalang salita (Word Error Rate) ay bumaba ng 30%. Halimbawa, ngayon ay tama na kinikilala ng SpeechKit ang 95% ng mga address at mga bagay na heograpikal, lumalapit sa isang taong nakakaintindi ng 96-98% ng mga salitang naririnig nila. Pagkumpleto ng pagkilala sa bagong modelo para sa pagdidikta iba't ibang teksto ngayon ay nakatayo sa 82%. Sa antas na ito, maaari kang lumikha ng kumpletong solusyon para sa mga end user, na kung ano ang gusto naming ipakita sa halimbawa ng Dictation.

Sa una, gumagana lang ang SpeechKit para sa mga query sa paghahanap: pangkalahatang paksa at geonavigation. Bagama't noon pa man ay binalak naming gumawa hindi lamang ng karagdagang input tool, isang "boses" na keyboard, ngunit isang unibersal na interface na ganap na papalitan ang anumang pakikipag-ugnayan sa system ng isang live na pag-uusap.

Upang gawin ito, kinakailangan upang matutunang makilala ang anumang pagsasalita, mga teksto sa isang di-makatwirang paksa. At nagsimula kaming gumawa ng hiwalay na modelo ng wika para dito, na ilang beses na mas malaki kaysa sa kasalukuyang geo-navigation at pangkalahatang mga modelo ng paghahanap.

Ang laki ng modelong ito ay nagtatakda ng mga bagong kundisyon sa mga tuntunin ng mga mapagkukunan sa pag-compute. Para sa bawat frame, ilang libong opsyon sa pagkilala ang isinasaalang-alang - at kapag mas nagtagumpay tayo, mas mataas ang kalidad. At ang system ay dapat gumana sa isang stream, sa real time, kaya ang lahat ng mga kalkulasyon ay kailangang dynamic na i-optimize. Nag-eksperimento kami, sinubukan, naghanap ng diskarte: nakamit namin ang acceleration, halimbawa, sa pamamagitan ng pagbabago ng linear algebra library.

Ngunit ang pinakamahalaga at pinakamahirap na bagay ay ang mangolekta ng sapat na tamang data na angkop para sa pagtuturo ng streaming na pagsasalita. Sa kasalukuyan, humigit-kumulang 500 oras ng hand-transcribed speech ang ginagamit upang sanayin ang acoustic model. Hindi naman ganun malaking base- para sa paghahambing, ang sikat na pang-agham na katawan Switchboard, na kadalasang ginagamit sa pangangailangan sa pagsasaliksik, ay naglalaman ng humigit-kumulang 300 oras ng live, kusang pag-uusap. Siyempre, ang pagtaas sa base ay nag-aambag sa pagtaas ng kalidad ng sinanay na modelo, ngunit nakatuon kami sa tamang pagsasanay data at tumpak na modelo ng mga transkripsyon, na nagbibigay-daan sa amin na magsanay nang may katanggap-tanggap na kalidad sa medyo maliit na base.

Ilang salita tungkol sa kung paano gumagana ang recognition module (napag-usapan namin ito nang detalyado noong nakaraan). Ang naitala na stream ng pagsasalita ay pinutol sa mga frame na 20 ms, ang signal spectrum ay pinaliit, at pagkatapos ng isang serye ng mga pagbabago, ang mga MFCC ay nakuha para sa bawat frame.

Ang mga coefficient ay ipinapasok sa acoustic model, na kinakalkula ang probability distribution para sa humigit-kumulang 4000 senon sa bawat frame. Ang senon ay ang simula, gitna o wakas ng isang ponema.

Ang SpeechKit acoustic model ay binuo sa kumbinasyon ng mga nakatagong modelo ng Markov at isang malalim na feedforward neural network (feedforward DNN). Ito ay isa nang napatunayang solusyon, at sa huling artikulo ay napag-usapan natin kung paano ang pag-abandona sa mga halo ng Gaussian na pabor sa DNN ay nagbigay ng halos dalawang beses na pagtalon sa kalidad.

Pagkatapos ay dumating ang una modelo ng wika: ilang mga WFST - may timbang na panghuling transduser - ginagawang mga ponemang umaasa sa konteksto ang mga senon, at ang mga buong salita ay binuo mula sa mga ito sa tulong ng isang diksyunaryo ng pagbigkas, at daan-daang hypotheses ang nakuha para sa bawat salita.

Ang panghuling pagproseso ay nagaganap sa modelo ng pangalawang wika. Nakakonekta dito ang RNN , isang paulit-ulit na neural network, at niraranggo ng modelong ito ang mga natanggap na hypotheses, na tumutulong sa pagpili ng pinaka-maaaring opsyon. Ang paulit-ulit na uri ng network ay lalong epektibo para sa modelo ng wika. Ang pagtukoy sa konteksto ng bawat salita, maaari itong isaalang-alang ang impluwensya ng hindi lamang ng mga pinakamalapit na salita, tulad ng sa isang feed-forward neural network (sabihin, para sa isang trigram model, ito ay dalawang nakaraang salita), kundi pati na rin ang mga mas malayo, parang "naaalala" sila.

Ang mahabang konektadong pagkilala sa teksto ay available sa SpeechKit Cloud at SpeechKit Mobile SDK - upang magamit ang bagong modelo ng wika, kailangan mong piliin ang paksang "mga tala" sa mga parameter ng query.

Pag-activate ng boses

Ang pangalawang pangunahing bahagi ng voice interface ay ang voice activation system, na nagpapalitaw ng gustong aksyon bilang tugon sa isang pangunahing parirala. Kung wala ito, hindi magiging posible na ganap na "kalagan ang mga kamay" ng gumagamit. Bumuo kami ng sarili naming voice activation module para sa SpeechKit. Ang teknolohiya ay napaka-flexible - ang isang developer na gumagamit ng SpeechKit library ay maaaring pumili ng anumang pangunahing parirala para sa kanyang aplikasyon.

Hindi tulad ng, halimbawa, ang mga solusyon ng Google - ginagamit ng kanilang mga developer ang mga ito upang makilala catchphrase"OK Google" malalim neural network. Nagbibigay ang DNN mataas na kalidad, ngunit ang sistema ng pag-activate ay limitado sa isang utos, at para sa pag-aaral ito ay kinakailangan malaking halaga datos. Halimbawa, ang isang modelo para sa pagkilala ng pamilyar na parirala ay sinanay sa halimbawa ng higit sa 40,000 boses ng user na nag-access sa kanilang mga smartphone gamit ang Google Now.

Sa aming diskarte, ang voice activation module ay, sa katunayan, isang miniature recognition system. Gumagana lamang ito sa mas mahirap na mga kondisyon. Una, dapat mangyari ang command recognition sa device mismo, nang hindi nakikipag-ugnayan sa server. At ang kapangyarihan ng pag-compute ng smartphone ay napakalimitado. Ang pagkonsumo ng kuryente ay kritikal din - kung ang isang regular na module ng pagkilala ay naka-on lamang para sa isang tiyak na oras upang iproseso ang isang partikular na kahilingan, kung gayon ang module ng pag-activate ay patuloy na gumagana, sa standby mode. At sa parehong oras ay hindi dapat itanim ang baterya.

Gayunpaman, mayroong isang indulhensiya - ang sistema ng pag-activate ay nangangailangan ng isang napakaliit na diksyunaryo, dahil sapat na ito upang maunawaan ang ilang mga pangunahing parirala, at ang natitirang bahagi ng pagsasalita ay maaaring balewalain lamang. Samakatuwid, ang modelo ng activation language ay mas compact. Karamihan sa mga estado ng WFST ay tumutugma sa isang tiyak na bahagi ng aming utos - halimbawa, "ang simula ng ikaapat na ponema". Mayroon ding mga "basura" na estado na naglalarawan ng katahimikan, kakaibang ingay at lahat ng iba pang pananalita maliban sa pangunahing parirala. Kung ang isang ganap na modelo ng pagkilala sa SpeechKit ay may sampu-sampung milyong estado at tumatagal ng hanggang 10 gigabytes, kung gayon para sa pag-activate ng boses ay limitado ito sa daan-daang mga estado at umaangkop sa ilang sampu-sampung kilobytes.

Samakatuwid, ang isang modelo para sa pagkilala ng isang bagong key na parirala ay binuo nang walang kahirapan, na nagbibigay-daan sa iyong mabilis na sukatin ang system. Mayroong isang kundisyon - ang utos ay dapat sapat na mahaba (mas mabuti - higit sa isang salita) at bihirang mangyari araw-araw na pananalita upang maiwasan ang mga maling positibo. Ang "Pakiusap" ay hindi maganda para sa pag-activate ng boses, ngunit ang "makinig sa aking utos" ay ayos lang.

Kasama ng limitadong modelo ng wika at "light" acoustic, ang command recognition ay nasa kapangyarihan ng anumang smartphone. Ito ay nananatiling humarap sa pagkonsumo ng enerhiya. Ang system ay may built-in na voice activity detector, na sinusubaybayan ang hitsura ng boses ng tao sa papasok na audio stream. Ang iba pang mga tunog ay hindi pinapansin, kaya sa background ang paggamit ng kuryente ng activation module ay limitado sa mikropono lamang.

synthesis ng pagsasalita

Ang ikatlong pangunahing bahagi ng teknolohiya ng pagsasalita ay ang speech synthesis (text-to-speech). Binibigyang-daan ka ng TTS-solution SpeechKit na boses ang anumang text sa boses ng lalaki o babae, at magtanong pa ang tamang emosyon. Wala sa mga kilalang voice engine sa merkado ang may ganitong kakayahan.

Mayroong ilang mga pangunahing iba't ibang teknolohiya speech synthesis, at sa karamihan makabagong sistema Ang concatenative synthesis ay ginagamit ng "unit selection" na paraan. Ang pre-record na sample ng boses ay pinutol sa partikular mga sangkap na bumubuo(halimbawa, mga ponemang umaasa sa konteksto) kung saan binubuo ang base ng pagsasalita. Tapos kahit ano ang mga tamang salita binuo mula sa mga indibidwal na yunit. Ito ay lumalabas na isang mapagkakatiwalaang imitasyon ng isang boses ng tao, ngunit mahirap itong maramdaman - ang timbre ay tumalon, hindi natural na mga intonasyon at matalim na mga paglipat ay lumilitaw sa mga junction ng mga indibidwal na yunit. Ito ay lalo na kapansin-pansin kapag binibigkas ang isang mahabang konektadong teksto. Ang kalidad ng naturang sistema ay maaaring mapabuti sa pamamagitan ng pagtaas ng volume ng speech base, ngunit ito ay isang mahaba at maingat na trabaho, na nangangailangan ng pakikilahok ng isang propesyonal at napakapasyenteng tagapagbalita. At ang pagkakumpleto ng base ay palaging nananatiling bottleneck ng system.

Sa SpeechKit, nagpasya kaming gumamit ng statistical (parametric) speech synthesis batay sa mga nakatagong modelo ng Markov. Ang proseso ay halos kapareho ng pagkilala, nangyayari lamang ito sa magkasalungat na daan. Orihinal na teksto ay ipinapasa sa G2P (grapheme-to-phoneme) module, kung saan ito ay na-convert sa isang sequence ng phonemes.

Pagkatapos ay pumasok sila sa acoustic model, na bumubuo ng mga vectors na naglalarawan sa mga spectral na katangian ng bawat ponema. Ang mga numerong ito ay ipinapasa sa vocoder, na nag-synthesize ng tunog.

Ang timbre ng naturang boses ay medyo "computer", ngunit mayroon itong natural at makinis na mga intonasyon. Kasabay nito, ang kinis ng pagsasalita ay hindi nakasalalay sa lakas ng tunog at haba. nababasang teksto at ang boses ay madaling ibagay. Ito ay sapat na upang tukuyin ang isang susi sa mga parameter ng kahilingan, at ang synthesis module ay maglalabas ng isang boto na may kaukulang emosyonal na pangkulay. Siyempre, walang sistema ng pagpili ng unit ang makakagawa nito.

Upang ang modelo ng boses ay makabuo ng mga algorithm na naaayon sa iba't ibang mga emosyon, kinuha ito Ang tamang daan sanayin siya. Samakatuwid, sa panahon ng pag-record, ang aming kasamahan na si Evgenia, na ang boses ay maririnig sa SpeechKit, ay binibigkas ang kanyang mga linya sa isang neutral na boses, masaya at, sa kabilang banda, inis. Sa kurso ng pagsasanay, tinukoy at inilarawan ng system ang mga parameter at katangian ng boses na naaayon sa bawat isa sa mga estadong ito.

Hindi lahat ng pagbabago sa boses ay binuo sa pag-aaral. Halimbawa, pinapayagan ka rin ng SpeechKit na kulayan ang synthesized na boses gamit ang mga parameter na "lasing" at "may sakit". Naawa ang aming mga developer kay Zhenya, at hindi niya kinailangang malasing bago mag-record o tumakbo sa lamig para magkaroon ng matinding sipon.

Para sa isang lasing na boses, ang pagsasalita ay pinabagal sa isang espesyal na paraan - ang bawat ponema ay tumunog nang halos dalawang beses na mas mabagal, na nagbibigay ng isang katangian na epekto. At para sa pasyente, ang threshold ng sonority ay tumataas - sa katunayan, kung ano ang mangyayari sa vocal cords ng isang taong may laryngitis ay na-modelo. Ang sonority ng iba't ibang ponema ay nakasalalay sa kung ang hangin ay malayang dumadaan sa vocal tract ng tao o kung ang mga nanginginig na tunog ay nasa daan nito. vocal cords. Sa mode na "sakit", ang bawat ponema ay mas malamang na maiboses, na ginagawang paos ang boses, nakatanim.

Paraan ng istatistika nagbibigay-daan din para sa mabilis na pagpapalawak ng system. Sa modelo ng pagpili ng unit, para magdagdag ng bagong boses, kailangan mong gumawa ng hiwalay na speech base. Ang tagapagbalita ay dapat magrekord ng maraming oras ng pagsasalita, habang pinapanatili ang parehong intonasyon nang walang kamali-mali. Sa SpeechKit, upang lumikha ng isang bagong boses, sapat na upang mag-record ng hindi bababa sa dalawang oras ng pagsasalita - humigit-kumulang 1800 espesyal, phonetically balanseng mga pangungusap.

Paghihiwalay ng mga bagay na semantiko

Mahalaga hindi lamang na isalin ang mga salita na binibigkas ng isang tao sa mga titik, kundi pati na rin punan ang mga ito ng kahulugan. Ang ikaapat na teknolohiya limitadong anyo available sa SpeechKit Cloud, ay hindi direktang nakakaapekto sa trabaho gamit ang boses - magsisimula itong gumana pagkatapos makilala ang mga binibigkas na salita. Ngunit kung wala ito, hindi magagawa ang isang kumpletong stack ng mga teknolohiya sa pagsasalita - ito ang pagpili ng mga semantiko na bagay sa natural na pagsasalita, na sa output ay nagbibigay hindi lamang kinikilala, ngunit namarkahan na ng teksto.

Ngayon, ipinapatupad ng SpeechKit ang pagpili ng mga petsa at oras, buong pangalan, address. Pinagsasama ng hybrid system ang mga grammar na walang konteksto, mga diksyunaryo mga keyword at istatistikal na data ng paghahanap at iba't ibang serbisyo ng Yandex, pati na rin ang mga algorithm machine learning. Halimbawa, sa pariralang "pumunta tayo sa Leo Tolstoy Street", ang salitang "kalye" ay tumutulong sa system na matukoy ang konteksto, pagkatapos kung saan ang kaukulang bagay ay matatagpuan sa database ng Yandex.Maps.

Sa Dictation, binuo namin sa teknolohiyang ito ang function ng pag-edit ng teksto sa pamamagitan ng boses. Ang diskarte sa pagkuha ng mga entity ay panimula bago, at ang diin ay sa pagiging simple ng pagsasaayos - hindi mo kailangang malaman ang programming upang mai-set up ang system.

Ang system input ay isang listahan iba't ibang uri mga bagay at halimbawa ng mga parirala mula sa live na pananalita na naglalarawan sa kanila. Dagdag pa, ang mga pattern ay nabuo mula sa mga halimbawang ito gamit ang pamamaraan ng Pattern Mining. Isinasaalang-alang nila paunang anyo, ugat, morphological variation ng mga salita. susunod na hakbang mga halimbawa ng paggamit ng mga piling bagay sa iba't ibang kumbinasyon upang matulungan ang system na maunawaan ang konteksto. Batay sa mga halimbawang ito, ang isang nakatagong modelo ng Markov ay binuo, kung saan ang mga bagay na napili sa replika ng user ay nagiging napapansin na mga estado, at ang mga bagay na nauugnay sa kanila mula sa field ng paksa na may alam nang halaga ay nagiging mga nakatagong estado.

Halimbawa, mayroong dalawang parirala: "ipasok ang 'hello friend' sa simula" at "i-paste mula sa clipboard". Tinutukoy ng system na sa unang kaso, pagkatapos ng "i-paste" (pag-edit ng aksyon), mayroong isang arbitrary na teksto, at sa pangalawa, isang bagay na kilala nito ("clipboard"), at naiiba ang reaksyon sa mga utos na ito. AT tradisyonal na sistema mangangailangan ito ng mga panuntunan sa pagsulat o grammar sa pamamagitan ng kamay, at sa bagong teknolohiya Ang pagsusuri sa konteksto ng Yandex ay awtomatikong nangyayari.

Autopunctuation

Kapag nagdidikta ng isang bagay, inaasahan mong makakita ng mga bantas sa resultang teksto. At dapat silang awtomatikong lumitaw upang hindi mo na kailangang makipag-usap sa interface sa isang istilong telegrapo: "Mahal na kaibigan - kuwit - kumusta ka - tandang pananong". Samakatuwid, ang SpeechKit ay kinukumpleto ng isang awtomatikong sistema ng bantas.

Ang papel na ginagampanan ng mga punctuation mark sa pagsasalita ay ginagampanan ng mga intonational na paghinto. Samakatuwid, sa simula sinubukan naming bumuo ng isang kumpletong modelo ng acoustic at wika para sa kanilang pagkilala. Ang bawat punctuation mark ay itinalaga ng isang ponema, at mula sa punto ng view ng system, ang mga bagong "salita" ay lumitaw sa kinikilalang pananalita, na ganap na binubuo ng mga naturang "punctuation" na mga ponema - kung saan may mga paghinto o intonasyon na binago sa isang tiyak na paraan.

Ang isang malaking kahirapan ay lumitaw sa data para sa pagsasanay - sa karamihan ng corpora mayroon nang mga normalized na teksto kung saan ang mga bantas ay tinanggal. Gayundin, halos walang bantas sa mga teksto ng mga query sa paghahanap. Bumaling kami kay Ekho Moskvy, na manu-manong nag-transcribe ng lahat ng kanilang mga broadcast, at pinayagan nila kaming gamitin ang kanilang archive. Mabilis na naging malinaw na ang mga transkripsyon na ito ay hindi angkop para sa aming mga layunin - ginawa silang malapit sa teksto, ngunit hindi verbatim, at samakatuwid ay hindi angkop para sa machine learning. Ang susunod na pagtatangka ay ginawa gamit ang mga audiobook, ngunit sa kanilang kaso, sa kabaligtaran, ang kalidad ay masyadong mataas. Napakalayo ng mga tinig na maayos na nakalagay, na nagpapahayag ng teksto, ay napakalayo mula sa totoong buhay, at ang mga resulta ng pagsasanay sa naturang data ay hindi mailapat sa kusang pagdidikta.

Ang pangalawang problema ay ang napiling diskarte ay may negatibong epekto sa pangkalahatang kalidad pagkilala. Para sa bawat salita, isinasaalang-alang ng modelo ng wika ang ilang kalapit na salita upang matukoy nang tama ang konteksto, at ang mga karagdagang "punctuation" na mga salita ay tiyak na pinaliit ito. Ang ilang buwan ng pag-eeksperimento ay hindi humantong sa anuman.

Kailangan kong magsimula sa malinis na slate- nagpasya kaming maglagay ng mga bantas na nasa yugto na ng post-processing. Nagsimula kami sa isa sa mga pinakasimpleng pamamaraan, na, kakaiba, ay nagpakita ng katanggap-tanggap na mga resulta sa huli. Ang mga paghinto sa pagitan ng mga salita ay tumatanggap ng isa sa mga marka: espasyo, tuldok, kuwit, tandang pananong, Tandang padamdam, colon. Upang mahulaan kung aling label ang tumutugma sa isang partikular na pag-pause, ginagamit ang paraan ng conditional random fields (CRF). Upang matukoy ang konteksto, ang tatlong nauuna at dalawang kasunod na mga salita ay isinasaalang-alang, at ang mga simpleng panuntunang ito ay nagpapahintulot sa iyo na maglagay ng mga palatandaan na may medyo mataas na katumpakan. Ngunit patuloy kaming nag-eeksperimento sa mga ganap na modelo na makakapagbigay-kahulugan nang tama sa mga intonasyon ng tao sa mga tuntunin ng bantas kahit na sa yugto ng pagkilala ng boses.

Mga plano sa hinaharap

Ngayon, ang SpeechKit ay aktibong ginagamit upang malutas ang mga gawaing "labanan" sa mga serbisyo ng masa para sa mga end user. Ang susunod na milestone ay ang matutunang kilalanin ang kusang pananalita sa isang live stream para makapag-transcribe ka ng isang panayam sa real time o awtomatikong magtala sa isang lecture, na makatanggap ng namarkahang teksto na may mga naka-highlight na abstract at mahahalagang katotohanan. Ito ay isang napakalaking at napaka-siyentipikong gawain na wala pang nagagawang lutasin ng sinuman sa mundo - at hindi namin gusto ang iba!

Para sa pagbuo ng SpeechKit ay napakahalaga Feedback. Ilagay

ay isang speech recognition at synthesis service ng Yandex.Cloud platform na nagbibigay sa mga developer ng access sa Yandex speech technologies. Sa artikulong ito ay pag-uusapan natin ang tungkol sa speech synthesis.

Binibigyang-daan ka ng teknolohiya ng speech synthesis na isalin ang teksto sa pagsasalita (sound file). Ang gawain ay may kaugnayan para sa pagpapahayag ng dynamic na na-update na impormasyon o mabilis na pagbabago ng data, tulad ng balanse ng mga kalakal sa warehouse, ang repertoire ng mga sinehan, at iba pa. Ang teknolohiya ng speech synthesis ng Yandex ay batay sa Hidden Markov Models (HMMs). Sa pamamagitan ng paggamit ng istatistikal na diskarte sa acoustic modeling, posibleng makamit ang natural na makinis na intonasyon. Binibigyang-daan ka ng teknolohiya na mabilis na lumikha ng mga bagong boses at mag-synthesize ng iba't ibang emosyon.

Binibigyang-daan ka ng Yandex speech synthesis na pumili:

  • lalaki o boses babae para sa voice acting;
  • emosyon: mabait, galit, neutral na boses.

Ang dokumentasyon para sa Yandex SpeechKit speech recognition at synthesis API ay available sa https://cloud.yandex.ru/docs/speechkit/

Paggamit ng isang Component

Simula sa Oktell 2.12, lumitaw ang bahagi ng Speech Synthesis sa serbisyo at mga script ng IVR. Binibigkas ng bahagi ang tinukoy na parirala (nag-synthesize ng pagsasalita) gamit ang serbisyo ng Yandex SpeechKit. Nagbibigay-daan sa iyo na agad na i-play ang file sa linya, o bumuo ng isang file para magamit sa ibang pagkakataon. Maaari mong paganahin ang cache sa bahagi, sa gayon ay nai-save ang lahat ng nabuong mga file sa folder na \Oktell\Server\LocalStorage\SynthesisCache. Dahil binabayaran ang bawat kahilingan sa serbisyo ng Yandex, pinapayagan ka ng kasamang cache na i-save ang iyong pera.

Teknikal na dokumentasyon para sa bahagi:

Upang gamitin ang Yandex SpeechKit speech synthesis system, gawin ang sumusunod:

  • Sundin ang mga hakbang 1-5 ng mga tagubilin para pahintulutan sa API para makuha ang directory ID
  • Mag-sign in sa iyong Yandex o Yandex.Connect account
  • Kumuha ng OAuth token sa serbisyo ng Yandex.OAuth. Upang gawin ito, sundin ang link, i-click Payagan at kopyahin ang resultang OAuth token.

Hakbang 2 Pumunta sa Pangangasiwa / Pangkalahatang mga Setting / Pagkilala sa pananalita Yandex SpeechKit Cloud. Ipasok ang mga natanggap na halaga Token ng OAuth at Directory ID sa naaangkop na mga patlang

Hakbang 3. Isaalang-alang ang isang halimbawa ng paggamit ng speech synthesis sa isang senaryo ng IVR.

Bahagi" synthesis ng pagsasalita". Nagsasabi ng pagbati sa tumatawag at sine-save ang pinili ng tumatawag sa isang variable.

  • Mode - Maglaro. Sa mode na ito, agad na pinapatugtog ng component ang nabuong file sa kasalukuyang linya.
  • Text - string " Kamusta! Maligayang pagdating sa Telephone Systems Company! Upang kumonekta sa mga tagapamahala, pindutin ang 1. Upang kumonekta sa mga empleyado teknikal na suporta pindutin ang 2.". Ang ipinasok na teksto ay ililipat sa server ng Yandex para sa boses.
  • Boses - Zahar. Ang setting ay responsable para sa synthesized na boses: Zahar - boses lalaki, Jane - babae. Posibleng tumukoy ng ibang halaga kung sinusuportahan ito ng serbisyo ng Yandex SpeechKit.
  • Emote - Default. Ang setting ay responsable para sa kulay ng boses na ginamit. Mga posibleng opsyon: mabuti, neutral, masama, halo-halong.
  • Cache - Gamitin. Kung gagamit ka ng cache, susubukan ng system na maghanap ng file na may boses na teksto sa mga nabuong mas maaga (matatagpuan sa folder na \Oktell\Server\LocalStorage\SynthesisCache). Inirerekomenda na palaging i-on ito upang makatipid ng pera.
  • Timeout ng tugon, s - 5. Ang maximum na oras upang maghintay para sa tugon mula sa mga server ng Yandex.
  • Break character - string " 1, 2 ". Kung pinindot ng subscriber ang tinukoy na mga character ng break, ise-save sila ng component sa buffer at magpapatuloy sa susunod na block.
  • Buffer para sa DTMF - variable input(kuwerdas). Ang variable kung saan iniimbak ang ipinasok na character na break.
  • Clear Buffer - Oo. Isinasaad na ang buffer ay unang iki-clear.

Bahagi" Menu". Niruruta ang subscriber sa napiling grupo ng mga operator.

  • Argumento - variable Input
  • Mga halaga -
1 - sa sangkap na "Paglipat 1" 2, iba pa - sa sangkap na "Paglipat 2"

Ang pag-set up ng karagdagang pagruruta ay hindi isinasaalang-alang.

Upang gumamit ng speech synthesis para sa presetting, kailangan mo munang bumuo ng isang file gamit ang bahagi ng "Speech Synthesis" at i-save ang path sa file na ito sa isang variable (sa kaukulang property). Susunod, tukuyin ang file na ito sa bahaging "Preset Playback".

Nagdaragdag ito ng ilang pampalasa at kung magsisimula akong mag-eksperimento sa iba pang mga makina, makukuha ko ang hashtag na #ReturnDashka sa mga komento. Ang cool na panoorin ang lahat ng ito, ngunit ang proseso ay hindi tumigil at maraming mga kumpanya ang bumuo ng kanilang sariling mga teknolohiya. Halimbawa, nagustuhan ko ang boses, na kung minsan ay sinisiksik ko rin sa video.

Kamakailan ay nakatagpo ako ng isang kumplikadong mga teknolohiya ng pagsasalita ng Yandex, kabilang ang pagkilala sa pagsasalita at synthesis, pag-activate ng boses at pagpili ng mga semantic na bagay sa pasalitang teksto. Natutunan ng teknolohiya ng pagsasalita na kilalanin ang pag-activate ng boses, sa tulong nito maaari kang mag-record ng mga mensaheng SMS at mag-iwan ng mga tala sa pamamagitan ng boses, nang hindi gumagamit ng keyboard, direktang ma-access ang backend na matagumpay na ginagamit sa mga mobile application ng Yandex. Halimbawa, binibigyang-daan ka ng SpeechKit Mobile SDK na i-embed ang speech recognition at synthesis, pati na rin ang Yandex voice activation sa mobile app para sa iOS, Android (sa sa sandaling ito Russian, English, Turkish at Mga wikang Ukrainiano) o Windows phone(Wikang Ruso). Gagawin ng kontrol ng boses ang iyong application na mas madaling gamitin, lalo na kung puno ang mga kamay ng user. Nang walang pagpindot sa screen, magagawa niyang tawagan ang nais na function na may isang parirala.

Palagi akong naaakit sa teknolohiya ng speech synthesis, na nagbibigay-daan sa iyong isalin ang teksto sa pagsasalita. Mabilis kong i-sketch ang teksto, binibigkas ito (Milena TTS [Russian]) at itinulak ito sa video, sa anumang paksa. Magiging kawili-wili ito lalo na para sa mga user na may mga problema sa pagsasalita o sa mga taong sa ilang kadahilanan ay nahihiya sa kanilang boses.

Ang mga boses mula sa Yandex ay tila kakaiba, maganda at madaling mapansin tainga ng tao, lalo na boses lalaki sina zahar at ermil. Ang mga boses ng babae nina jane, oksana, alyss at omazh ay natakot ako nang husto at, sa aking palagay, ay hindi umabot sa taas ng SuperDazhki. Kaya paano ka nakakarinig ng mga bagong boses sa isang karaniwang computer sa bahay? Upang gawin ito, kailangan kong pala ang Internet at ang solusyon ay natagpuan sa anyo ng isang script.

1. Una, kailangan nating nasa page at mag-click sa button na "Developer's Room".


Pumasok ka agad Personal na Lugar at i-click ang button na "Kunin ang Key". Susunod, mag-click sa "SpeechKit Cloud" na buton.


Punan ang lahat ng mga patlang na minarkahan ng pulang asterisk at i-click ang "Isumite" na buton.


Ang susi ay agad na matatanggap, pagkatapos nito ay dapat itong kopyahin.


Ngayon, pumunta tayo sa isang ito, kung saan makikita natin ang iba't ibang mga parameter ng query, speaker (boses ng synthesized speech), format ng tugon at mga halimbawa ng URL. Magiging masyadong kumplikado ang Chinese letter na ito para sa isang ordinaryong user, kaya pasimplehin natin ang ating mga aksyon (o vice versa complicate) sa pamamagitan ng pag-aayos ng isang simpleng script.

2. I-download ang Notepad ++ program sa iyong computer (). Nag-i-install kami.

3. Gumawa ng index.html file. Sino ang walang pagnanais na lumikha sa pamamagitan ng kamay, i-download ito.


Baguhin ang pangalan ng file: index.html. Uri ng file: Lahat ng file. Encoding: UTF-8. Pindutin ang pindutang "I-save". Mahalagang i-save ang index.html file sa root ng system drive o sa anumang folder sa system drive.


Ngayon ang naka-save na file ay kailangang i-edit. Buksan ang file gamit ang Notepad++.


Sa totoo lang, narito ang aming pinakahihintay na script (). I-edit nang tama ang iyong file: i-paste in Tamang lugar ang iyong susi, baguhin ang iyong boses, i-save at gamitin.

Sa hinaharap, i-double click ang index.html file at sa browser ay makukuha natin ang sumusunod.


Ito ay nananatiling magsulat ng isang tula sa isang malaking window at zahar (o anumang iba pang napiling karakter) ay babasahin ito sa iyo. Hindi ako nakikipagtalo, posible na ilagay ko ito sa mga istante dito at walang nangangailangan nito bukas, interesado lang ako sa proseso ng speech synthesis mula sa Yandex sa aking computer, na ibinahagi ko sa iyo.

Tulungan ang proyekto sa pagbuo nito:
Sberbank card: 676280139020834994
Yandex.Pera: 410012054992141
Webmoney: WMR wallet R429054927097
WMZ wallet Z401294377967

teknolohiya sa pagkilala sa pagsasalita

Yandex Speechkit Autopoet.

Paghahanda ng teksto

Pagbigkas at intonasyon

pahina o sa isang espesyal na mapagkukunang website

Marami sa inyo ang malamang na nakontrol ang isang computer o smartphone gamit ang iyong boses. Kapag sinabi mo sa Navigator na "Pumunta tayo sa Gogol, 25" o magsabi ng query sa paghahanap sa Yandex application, ginagawang text command ng teknolohiya sa pagkilala ng pagsasalita ang iyong boses. Pero meron din baligtad na problema: Gawing boses ang text na available sa computer.

Gumagamit ang Yandex ng teknolohiya ng speech synthesis mula sa Yandex Speechkit complex hanggang sa mga voice text. Halimbawa, pinapayagan ka nitong matutunan kung paano bigkasin mga salitang banyaga at mga parirala sa Tagasalin. Salamat sa speech synthesis, nakatanggap din si Autopoet ng sarili niyang boses.

Paghahanda ng teksto

Pagbigkas at intonasyon

Sa madaling salita, maraming data ang ginagamit upang i-synthesize ang bawat 25 millisecond ng pagsasalita. Ang impormasyon tungkol sa agarang kapaligiran ay nagsisiguro ng maayos na paglipat mula sa kuwadro patungo sa kuwadro at mula sa pantig patungo sa pantig, at ang data tungkol sa parirala at ang pangungusap sa kabuuan ay kailangan upang makalikha tamang intonasyon synthesized speech.

Upang basahin ang inihandang teksto, ginagamit ang isang acoustic model. Naiiba ito sa acoustic model na ginagamit sa speech recognition. Sa kaso ng pagkilala ng pattern, kinakailangan na magtatag ng isang sulat sa pagitan ng mga tunog na may ilang mga katangian at ponema. Sa kaso ng synthesis, ang acoustic model, sa kabaligtaran, ay dapat mag-compile ng mga paglalarawan ng mga tunog ayon sa mga paglalarawan ng mga frame.

Paano nalalaman ng modelong acoustic kung paano bigkasin nang tama ang isang ponema o ibigay ang tamang intonasyon pangungusap na patanong? Natututo siya mula sa mga text at sound file. Halimbawa, maaari kang mag-upload ng audiobook at ang kaukulang text nito dito. Kung mas maraming data ang natututuhan ng isang modelo, mas mahusay ang pagbigkas at intonasyon nito.

Maaari kang matuto nang higit pa tungkol sa mga teknolohiya mula sa Yandex SpeechKit complex sa pahinang ito o sa isang espesyal na mapagkukunan. Kung ikaw ay isang developer at gusto mong subukan ang isang cloud o mobile na bersyon Tutulungan ka ng SpeechKit, isang site na nakatuon sa mga teknolohiya ng Yandex.

","contentType":"text/html","amp":"

Marami sa inyo ang malamang na nakontrol ang isang computer o smartphone gamit ang iyong boses. Kapag sinabi mo sa Navigator na "Pumunta tayo sa Gogol, 25" o magsabi ng query sa paghahanap sa Yandex application, ginagawang text command ng teknolohiya sa pagkilala ng pagsasalita ang iyong boses. Ngunit mayroon ding isang kabaligtaran na gawain: upang gawing boses ang teksto na mayroon ang computer sa pagtatapon nito.

Kung ang hanay ng mga tekstong ibibigkas ay medyo maliit at ang parehong mga expression ay nangyayari sa kanila - tulad ng, halimbawa, sa mga anunsyo tungkol sa pag-alis at pagdating ng mga tren sa istasyon - sapat na upang mag-imbita ng isang tagapagbalita, itala ang mga kinakailangang salita at mga parirala sa studio, at pagkatapos ay kolektahin kung aling mensahe. Sa mga arbitrary na teksto, gayunpaman, ang pamamaraang ito ay hindi gumagana. Dito nagagamit ang speech synthesis.

Gumagamit ang Yandex ng teknolohiya ng speech synthesis mula sa Yandex Speechkit complex hanggang sa mga voice text. Halimbawa, pinapayagan ka nitong malaman kung paano binibigkas ang mga banyagang salita at parirala sa Tagasalin. Salamat sa speech synthesis, nakatanggap din si Autopoet ng sarili niyang boses.

Paghahanda ng teksto

Ang gawain ng speech synthesis ay nalutas sa maraming yugto. Una, inihahanda ng isang espesyal na algorithm ang teksto upang maginhawa para sa robot na basahin ito: isinulat nito ang lahat ng mga numero sa mga salita, pinalawak ang mga pagdadaglat. Pagkatapos ang teksto ay nahahati sa mga parirala, iyon ay, sa mga parirala na may tuluy-tuloy na intonasyon - para dito, ang computer ay nakatuon sa mga marka ng bantas at matatag na mga konstruksyon. Para sa lahat ng mga salita, ito ay pinagsama-sama Phonetic transcription.

Upang malaman kung paano magbasa ng isang salita at kung saan ilalagay ang stress dito, bumaling muna ang robot sa mga klasikong, sulat-kamay na mga diksyunaryo na binuo sa system. Kung ang nais na salita ay wala sa diksyunaryo, ang computer ay bubuo ng transkripsyon sa sarili nitong - batay sa mga panuntunang hiniram mula sa mga akademikong sangguniang libro. Sa wakas, kung kaugalian na mga tuntunin ay hindi sapat - at ito ay nangyayari, dahil ang anumang buhay na wika ay patuloy na nagbabago - ito ay gumagamit ng mga panuntunan sa istatistika. Kung ang salita ay nangyayari sa corpus mga teksto ng pagsasanay, maaalala ng system kung aling pantig ang kadalasang binibigyang diin ng mga nagsasalita.

Pagbigkas at intonasyon

Kapag handa na ang transkripsyon, kinakalkula ng computer kung gaano katagal tutunog ang bawat ponema, ibig sabihin, kung gaano karaming mga frame ang nilalaman nito - ganito ang tawag sa mga fragment na 25 millisecond ang haba. Pagkatapos ang bawat frame ay inilarawan ayon sa isang hanay ng mga parameter: kung anong ponema ito ay bahagi at kung anong lugar ito ay sumasakop dito; anong pantig kabilang ang ponema na ito; kung ito ay isang patinig, ito ba ay binibigyang diin; anong lugar ang sinasakop nito sa pantig; pantig - sa isang salita; salita - sa isang parirala; anong mga bantas ang mayroon bago at pagkatapos ng pariralang ito; anong lugar ang sinasakop ng parirala sa pangungusap; panghuli, anong tanda ang nasa dulo ng pangungusap at kung ano ito pangunahing intonasyon.

Sa madaling salita, maraming data ang ginagamit upang i-synthesize ang bawat 25 millisecond ng pagsasalita. Tinitiyak ng impormasyon tungkol sa agarang kapaligiran ang isang maayos na paglipat mula sa kuwadro patungo sa kuwadro at mula sa pantig patungo sa pantig, at ang data tungkol sa parirala at sa kabuuan ng pangungusap ay kailangan upang lumikha ng tamang intonasyon ng synthesized na pananalita.

Upang basahin ang inihandang teksto, ginagamit ang isang acoustic model. Naiiba ito sa acoustic model na ginagamit sa speech recognition. Sa kaso ng pagkilala ng pattern, kinakailangan na magtatag ng isang sulat sa pagitan ng mga tunog na may ilang mga katangian at ponema. Sa kaso ng synthesis, ang acoustic model, sa kabaligtaran, ay dapat mag-compile ng mga paglalarawan ng mga tunog ayon sa mga paglalarawan ng mga frame.

Paano nalalaman ng modelong acoustic kung paano bigkasin nang tama ang isang ponema o ibigay ang tamang intonasyon sa isang pangungusap na patanong? Natututo siya mula sa mga text at sound file. Halimbawa, maaari kang mag-upload ng audiobook at ang kaukulang text nito dito. Kung mas maraming data ang natututuhan ng isang modelo, mas mahusay ang pagbigkas at intonasyon nito.

Sa wakas, tungkol sa boses mismo. Ang aming mga tinig ay nakikilala, una sa lahat, sa pamamagitan ng timbre, na nakasalalay sa mga tampok na istruktura ng mga organo. kasangkapan sa pagsasalita Bawat tao. Ang timbre ng iyong boses ay maaaring i-modelo, iyon ay, ang mga katangian nito ay maaaring ilarawan - para dito, sapat na upang basahin ang isang maliit na katawan ng mga teksto sa studio. Pagkatapos nito, magagamit ang data ng iyong tono sa speech synthesis sa anumang wika, kahit na hindi mo alam. Kapag may kailangang sabihin sa iyo ang robot, gumagamit ito ng generator mga sound wave- vocoder. Ito ay puno ng impormasyon tungkol sa mga katangian ng dalas ng parirala na nakuha mula sa acoustic model, pati na rin ang data sa timbre na nagbibigay sa boses ng isang makikilalang kulay.

Maaari kang matuto nang higit pa tungkol sa mga teknolohiya mula sa Yandex SpeechKit complex sa pahinang ito o sa isang espesyal na mapagkukunan. Kung isa kang developer at gustong subukan ang cloud o mobile na bersyon ng SpeechKit, tutulungan ka ng site na nakatuon sa mga teknolohiya ng Yandex.

","instantArticle":"

Marami sa inyo ang malamang na nakontrol ang isang computer o smartphone gamit ang iyong boses. Kapag sinabi mo sa Navigator na "Pumunta tayo sa Gogol, 25" o magsabi ng query sa paghahanap sa Yandex application, ginagawang text command ng teknolohiya sa pagkilala ng pagsasalita ang iyong boses. Ngunit mayroon ding isang kabaligtaran na gawain: upang gawing boses ang teksto na mayroon ang computer sa pagtatapon nito.

Kung ang hanay ng mga tekstong ibibigkas ay medyo maliit at ang parehong mga expression ay nangyayari sa kanila - tulad ng, halimbawa, sa mga anunsyo tungkol sa pag-alis at pagdating ng mga tren sa istasyon - sapat na upang mag-imbita ng isang tagapagbalita, itala ang mga kinakailangang salita at mga parirala sa studio, at pagkatapos ay kolektahin kung aling mensahe. Sa mga arbitrary na teksto, gayunpaman, ang pamamaraang ito ay hindi gumagana. Dito nagagamit ang speech synthesis.

Gumagamit ang Yandex ng teknolohiya ng speech synthesis mula sa Yandex Speechkit complex hanggang sa mga voice text. Halimbawa, pinapayagan ka nitong malaman kung paano binibigkas ang mga banyagang salita at parirala sa Tagasalin. Salamat sa speech synthesis, nakatanggap din si Autopoet ng sarili niyang boses.

Paghahanda ng teksto

Ang gawain ng speech synthesis ay nalutas sa maraming yugto. Una, inihahanda ng isang espesyal na algorithm ang teksto upang maginhawa para sa robot na basahin ito: isinulat nito ang lahat ng mga numero sa mga salita, pinalawak ang mga pagdadaglat. Pagkatapos ang teksto ay nahahati sa mga parirala, iyon ay, sa mga parirala na may tuluy-tuloy na intonasyon - para dito, ang computer ay nakatutok sa mga marka ng bantas at matatag na mga konstruksyon. Para sa lahat ng mga salita, isang phonetic transcription ay pinagsama-sama.

Upang malaman kung paano magbasa ng isang salita at kung saan ilalagay ang stress dito, bumaling muna ang robot sa mga klasiko, sulat-kamay na mga diksyunaryo na binuo sa system. Kung ang nais na salita ay wala sa diksyunaryo, ang computer ay bubuo ng transkripsyon sa sarili nitong - batay sa mga panuntunang hiniram mula sa mga akademikong sangguniang libro. Sa wakas, kung ang mga karaniwang tuntunin ay hindi sapat - at ito ay nangyayari, dahil ang anumang buhay na wika ay patuloy na nagbabago - ito ay gumagamit ng mga istatistikal na panuntunan. Kung ang isang salita ay nakatagpo sa corpus ng mga teksto ng pagsasanay, maaalala ng system kung aling pantig ang karaniwang binibigyang diin ng mga nagsasalita dito.

Pagbigkas at intonasyon

Kapag handa na ang transkripsyon, kinakalkula ng computer kung gaano katagal tutunog ang bawat ponema, ibig sabihin, kung gaano karaming mga frame ang nilalaman nito - ganito ang tawag sa mga fragment na 25 millisecond ang haba. Pagkatapos ang bawat frame ay inilarawan ayon sa isang hanay ng mga parameter: kung anong ponema ito ay bahagi at kung anong lugar ito ay sumasakop dito; anong pantig kabilang ang ponema na ito; kung ito ay isang patinig, ito ba ay binibigyang diin; anong lugar ang sinasakop nito sa pantig; pantig - sa isang salita; salita - sa isang parirala; anong mga bantas ang mayroon bago at pagkatapos ng pariralang ito; anong lugar ang sinasakop ng parirala sa pangungusap; panghuli, anong tanda ang nasa dulo ng pangungusap at kung ano ang pangunahing intonasyon nito.

Sa madaling salita, maraming data ang ginagamit upang i-synthesize ang bawat 25 millisecond ng pagsasalita. Tinitiyak ng impormasyon tungkol sa agarang kapaligiran ang isang maayos na paglipat mula sa kuwadro patungo sa kuwadro at mula sa pantig patungo sa pantig, at ang data tungkol sa parirala at sa kabuuan ng pangungusap ay kailangan upang lumikha ng tamang intonasyon ng synthesized na pananalita.

Upang basahin ang inihandang teksto, ginagamit ang isang acoustic model. Naiiba ito sa acoustic model na ginagamit sa speech recognition. Sa kaso ng pagkilala ng pattern, kinakailangan na magtatag ng isang sulat sa pagitan ng mga tunog na may ilang mga katangian at ponema. Sa kaso ng synthesis, ang acoustic model, sa kabaligtaran, ay dapat mag-compile ng mga paglalarawan ng mga tunog ayon sa mga paglalarawan ng mga frame.

Paano nalalaman ng modelong acoustic kung paano bigkasin nang tama ang isang ponema o ibigay ang tamang intonasyon sa isang pangungusap na patanong? Natututo siya mula sa mga text at sound file. Halimbawa, maaari kang mag-upload ng audiobook at ang kaukulang text nito dito. Kung mas maraming data ang natututuhan ng isang modelo, mas mahusay ang pagbigkas at intonasyon nito.

Sa wakas, tungkol sa boses mismo. Ang aming mga boses ay nakikilala, una sa lahat, sa pamamagitan ng timbre, na nakasalalay sa mga tampok na istruktura ng mga organo ng speech apparatus sa bawat tao. Ang timbre ng iyong boses ay maaaring i-modelo, iyon ay, ang mga katangian nito ay maaaring ilarawan - para dito, sapat na upang basahin ang isang maliit na katawan ng mga teksto sa studio. Pagkatapos nito, ang iyong data ng tono ay maaaring gamitin sa speech synthesis sa anumang wika, kahit na hindi mo alam. Kapag may kailangan ang robot na sabihin sa iyo, gumagamit ito ng sound wave generator - isang vocoder. Ito ay puno ng impormasyon tungkol sa mga katangian ng dalas ng pariralang nakuha mula sa acoustic model, pati na rin ang data sa timbre na nagbibigay sa boses ng isang makikilalang kulay.

Maaari kang matuto nang higit pa tungkol sa mga teknolohiya mula sa Yandex SpeechKit complex sa pahinang ito o sa isang espesyal na mapagkukunan. Kung isa kang developer at gustong subukan ang cloud o mobile na bersyon ng SpeechKit, tutulungan ka ng site na nakatuon sa mga teknolohiya ng Yandex.

"),"proposedBody":("source":"

Marami sa inyo ang malamang na nakontrol ang isang computer o smartphone gamit ang iyong boses. Kapag sinabi mo sa Navigator na "Pumunta tayo sa Gogol, 25" o magsabi ng query sa paghahanap sa Yandex application, ginagawang text command ng teknolohiya sa pagkilala ng pagsasalita ang iyong boses. Ngunit mayroon ding isang kabaligtaran na gawain: upang gawing boses ang teksto na mayroon ang computer sa pagtatapon nito.

Kung ang hanay ng mga tekstong ibibigkas ay medyo maliit at ang parehong mga expression ay nangyayari sa kanila - tulad ng, halimbawa, sa mga anunsyo tungkol sa pag-alis at pagdating ng mga tren sa istasyon - sapat na upang mag-imbita ng isang tagapagbalita, itala ang mga kinakailangang salita at mga parirala sa studio, at pagkatapos ay kolektahin kung aling mensahe. Sa mga arbitrary na teksto, gayunpaman, ang pamamaraang ito ay hindi gumagana. Dito nagagamit ang speech synthesis.

Gumagamit ang Yandex ng teknolohiya ng speech synthesis mula sa Yandex Speechkit complex hanggang sa mga voice text. Halimbawa, pinapayagan ka nitong malaman kung paano binibigkas ang mga banyagang salita at parirala sa Tagasalin. Salamat sa speech synthesis, nakatanggap din si Autopoet ng sarili niyang boses.

Paghahanda ng teksto

Ang gawain ng speech synthesis ay nalutas sa maraming yugto. Una, inihahanda ng isang espesyal na algorithm ang teksto upang maginhawa para sa robot na basahin ito: isinulat nito ang lahat ng mga numero sa mga salita, pinalawak ang mga pagdadaglat. Pagkatapos ang teksto ay nahahati sa mga parirala, iyon ay, sa mga parirala na may tuluy-tuloy na intonasyon - para dito, ang computer ay nakatuon sa mga marka ng bantas at matatag na mga konstruksyon. Para sa lahat ng mga salita, isang phonetic transcription ay pinagsama-sama.

Upang malaman kung paano magbasa ng isang salita at kung saan ilalagay ang stress dito, bumaling muna ang robot sa mga klasikong, sulat-kamay na mga diksyunaryo na binuo sa system. Kung ang nais na salita ay wala sa diksyunaryo, ang computer ay bubuo ng transkripsyon sa sarili nitong - batay sa mga panuntunang hiniram mula sa mga akademikong sangguniang libro. Sa wakas, kung ang mga karaniwang tuntunin ay hindi sapat - at ito ay nangyayari, dahil ang anumang buhay na wika ay patuloy na nagbabago - ito ay gumagamit ng mga istatistikal na panuntunan. Kung ang isang salita ay nakatagpo sa corpus ng mga teksto ng pagsasanay, maaalala ng system kung aling pantig ang karaniwang binibigyang diin ng mga nagsasalita dito.

Pagbigkas at intonasyon

Kapag handa na ang transkripsyon, kinakalkula ng computer kung gaano katagal tutunog ang bawat ponema, ibig sabihin, kung gaano karaming mga frame ang nilalaman nito - ganito ang tawag sa mga fragment na 25 millisecond ang haba. Pagkatapos ang bawat frame ay inilarawan ayon sa isang hanay ng mga parameter: kung anong ponema ito ay bahagi at kung anong lugar ito ay sumasakop dito; anong pantig kabilang ang ponema na ito; kung ito ay isang patinig, ito ba ay binibigyang diin; anong lugar ang sinasakop nito sa pantig; pantig - sa isang salita; ang salita ay nasa parirala; anong mga bantas ang mayroon bago at pagkatapos ng pariralang ito; anong lugar ang sinasakop ng parirala sa pangungusap; panghuli, anong tanda ang nasa dulo ng pangungusap at kung ano ang pangunahing intonasyon nito.

Sa madaling salita, maraming data ang ginagamit upang i-synthesize ang bawat 25 millisecond ng pagsasalita. Tinitiyak ng impormasyon tungkol sa agarang kapaligiran ang isang maayos na paglipat mula sa kuwadro patungo sa kuwadro at mula sa pantig patungo sa pantig, at ang data tungkol sa parirala at sa kabuuan ng pangungusap ay kailangan upang lumikha ng tamang intonasyon ng synthesized na pananalita.

Upang basahin ang inihandang teksto, ginagamit ang isang acoustic model. Naiiba ito sa acoustic model na ginagamit sa speech recognition. Sa kaso ng pagkilala ng pattern, kinakailangan na magtatag ng isang sulat sa pagitan ng mga tunog na may ilang mga katangian at ponema. Sa kaso ng synthesis, ang acoustic model, sa kabaligtaran, ay dapat mag-compile ng mga paglalarawan ng mga tunog ayon sa mga paglalarawan ng mga frame.

Paano nalalaman ng modelong acoustic kung paano bigkasin nang tama ang isang ponema o ibigay ang tamang intonasyon sa isang pangungusap na patanong? Natututo siya mula sa mga text at sound file. Halimbawa, maaari kang mag-upload ng audiobook at ang kaukulang text nito dito. Kung mas maraming data ang natututuhan ng isang modelo, mas mahusay ang pagbigkas at intonasyon nito.

Sa wakas, tungkol sa boses mismo. Ang aming mga boses ay nakikilala, una sa lahat, sa pamamagitan ng timbre, na nakasalalay sa mga tampok na istruktura ng mga organo ng speech apparatus sa bawat tao. Ang timbre ng iyong boses ay maaaring i-modelo, iyon ay, ang mga katangian nito ay maaaring ilarawan - para dito, sapat na upang basahin ang isang maliit na katawan ng mga teksto sa studio. Pagkatapos nito, ang iyong data ng tono ay maaaring gamitin sa speech synthesis sa anumang wika, kahit na hindi mo alam. Kapag may kailangan ang robot na sabihin sa iyo, gumagamit ito ng sound wave generator na tinatawag na vocoder. Ito ay puno ng impormasyon tungkol sa mga katangian ng dalas ng pariralang nakuha mula sa acoustic model, pati na rin ang data sa timbre na nagbibigay sa boses ng isang makikilalang kulay.

Maaari kang matuto nang higit pa tungkol sa mga teknolohiya mula sa Yandex SpeechKit complex sa pahinang ito o sa isang espesyal na mapagkukunan. Kung isa kang developer at gustong subukan ang cloud o mobile na bersyon ng SpeechKit, tutulungan ka ng site na nakatuon sa mga teknolohiya ng Yandex.

Marami sa inyo ang malamang na nakontrol ang isang computer o smartphone gamit ang iyong boses. Kapag sinabi mo sa Navigator na "Pumunta tayo sa Gogol, 25" o magsabi ng query sa paghahanap sa Yandex application, ginagawang text command ng teknolohiya sa pagkilala ng pagsasalita ang iyong boses. Ngunit mayroon ding isang kabaligtaran na gawain: upang gawing boses ang teksto na mayroon ang computer sa pagtatapon nito.

Kung ang hanay ng mga tekstong ibibigkas ay medyo maliit at ang parehong mga expression ay nangyayari sa kanila - tulad ng, halimbawa, sa mga anunsyo tungkol sa pag-alis at pagdating ng mga tren sa istasyon - sapat na upang mag-imbita ng isang tagapagbalita, itala ang mga kinakailangang salita at mga parirala sa studio, at pagkatapos ay kolektahin kung aling mensahe. Sa mga arbitrary na teksto, gayunpaman, ang pamamaraang ito ay hindi gumagana. Dito nagagamit ang speech synthesis.

Gumagamit ang Yandex ng teknolohiya ng speech synthesis mula sa Yandex Speechkit complex hanggang sa mga voice text. Halimbawa, pinapayagan ka nitong malaman kung paano binibigkas ang mga banyagang salita at parirala sa Tagasalin. Salamat sa speech synthesis, nakatanggap din si Autopoet ng sarili niyang boses.

Paghahanda ng teksto

Ang gawain ng speech synthesis ay nalutas sa maraming yugto. Una, inihahanda ng isang espesyal na algorithm ang teksto upang maginhawa para sa robot na basahin ito: isinulat nito ang lahat ng mga numero sa mga salita, pinalawak ang mga pagdadaglat. Pagkatapos ang teksto ay nahahati sa mga parirala, iyon ay, sa mga parirala na may tuluy-tuloy na intonasyon - para dito, ang computer ay nakatutok sa mga marka ng bantas at matatag na mga konstruksyon. Para sa lahat ng mga salita, isang phonetic transcription ay pinagsama-sama.

Upang malaman kung paano magbasa ng isang salita at kung saan ilalagay ang stress dito, bumaling muna ang robot sa mga klasiko, sulat-kamay na mga diksyunaryo na binuo sa system. Kung ang nais na salita ay wala sa diksyunaryo, ang computer ay bubuo ng transkripsyon sa sarili nitong - batay sa mga panuntunang hiniram mula sa mga akademikong sangguniang libro. Sa wakas, kung ang mga karaniwang tuntunin ay hindi sapat - at ito ay nangyayari, dahil ang anumang buhay na wika ay patuloy na nagbabago - ito ay gumagamit ng mga istatistikal na panuntunan. Kung ang isang salita ay nakatagpo sa corpus ng mga teksto ng pagsasanay, maaalala ng system kung aling pantig ang karaniwang binibigyang diin ng mga nagsasalita dito.

Pagbigkas at intonasyon

Kapag handa na ang transkripsyon, kinakalkula ng computer kung gaano katagal tutunog ang bawat ponema, ibig sabihin, kung gaano karaming mga frame ang nilalaman nito - ganito ang tawag sa mga fragment na 25 millisecond ang haba. Pagkatapos ang bawat frame ay inilarawan ayon sa isang hanay ng mga parameter: kung anong ponema ito ay bahagi at kung anong lugar ito ay sumasakop dito; anong pantig kabilang ang ponema na ito; kung ito ay isang patinig, ito ba ay binibigyang diin; anong lugar ang sinasakop nito sa pantig; pantig - sa isang salita; salita - sa isang parirala; anong mga bantas ang mayroon bago at pagkatapos ng pariralang ito; anong lugar ang sinasakop ng parirala sa pangungusap; panghuli, anong tanda ang nasa dulo ng pangungusap at kung ano ang pangunahing intonasyon nito.

Sa madaling salita, maraming data ang ginagamit upang i-synthesize ang bawat 25 millisecond ng pagsasalita. Tinitiyak ng impormasyon tungkol sa agarang kapaligiran ang isang maayos na paglipat mula sa kuwadro patungo sa kuwadro at mula sa pantig patungo sa pantig, at ang data tungkol sa parirala at sa kabuuan ng pangungusap ay kailangan upang lumikha ng tamang intonasyon ng synthesized na pananalita.

Upang basahin ang inihandang teksto, ginagamit ang isang acoustic model. Naiiba ito sa acoustic model na ginagamit sa speech recognition. Sa kaso ng pagkilala ng pattern, kinakailangan na magtatag ng isang sulat sa pagitan ng mga tunog na may ilang mga katangian at ponema. Sa kaso ng synthesis, ang acoustic model, sa kabaligtaran, ay dapat mag-compile ng mga paglalarawan ng mga tunog ayon sa mga paglalarawan ng mga frame.

Paano nalalaman ng modelong acoustic kung paano bigkasin nang tama ang isang ponema o ibigay ang tamang intonasyon sa isang pangungusap na patanong? Natututo siya mula sa mga text at sound file. Halimbawa, maaari kang mag-upload ng audiobook at ang kaukulang text nito dito. Kung mas maraming data ang natututuhan ng isang modelo, mas mahusay ang pagbigkas at intonasyon nito.

Sa wakas, tungkol sa boses mismo. Ang aming mga boses ay nakikilala, una sa lahat, sa pamamagitan ng timbre, na nakasalalay sa mga tampok na istruktura ng mga organo ng speech apparatus sa bawat tao. Ang timbre ng iyong boses ay maaaring i-modelo, iyon ay, ang mga katangian nito ay maaaring ilarawan - para dito, sapat na upang basahin ang isang maliit na katawan ng mga teksto sa studio. Pagkatapos nito, ang iyong data ng tono ay maaaring gamitin sa speech synthesis sa anumang wika, kahit na hindi mo alam. Kapag may kailangan ang robot na sabihin sa iyo, gumagamit ito ng sound wave generator - isang vocoder. Ito ay puno ng impormasyon tungkol sa mga katangian ng dalas ng pariralang nakuha mula sa acoustic model, pati na rin ang data sa timbre na nagbibigay sa boses ng isang makikilalang kulay.

Maaari kang matuto nang higit pa tungkol sa mga teknolohiya mula sa Yandex SpeechKit complex sa pahinang ito o sa isang espesyal na mapagkukunan. Kung isa kang developer at gustong subukan ang cloud o mobile na bersyon ng SpeechKit, tutulungan ka ng site na nakatuon sa mga teknolohiya ng Yandex.

","contentType":"text/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"minor","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,"commentsCount":55," modificationDate":"Martes Abr 03 2018 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("source":"

Kapag sinabi mo sa Navigator na "Pumunta tayo sa Gogol, 25" o sabihin nang malakas ang isang query sa paghahanap, ginagawang text command ng teknolohiya sa pagkilala ng salita ang iyong boses. Mayroon ding kabaligtaran na gawain: gawing boses ang teksto. Minsan sapat na upang mag-imbita ng isang tagapagbalita at isulat lamang ang mga kinakailangang salita at parirala, ngunit hindi ito gagana sa mga di-makatwirang teksto. Dito nagagamit ang speech synthesis.

","contentType":"text/html"),"proposedPreview":("source":"

Kapag sinabi mo sa Navigator na "Pumunta tayo sa Gogol, 25" o sabihin nang malakas ang isang query sa paghahanap, ginagawang text command ng teknolohiya sa pagkilala ng salita ang iyong boses. Mayroon ding kabaligtaran na gawain: gawing boses ang teksto. Minsan sapat na upang mag-imbita ng isang tagapagbalita at isulat lamang ang mga kinakailangang salita at parirala, ngunit hindi ito gagana sa mga di-makatwirang teksto. Dito nagagamit ang speech synthesis.

Kapag sinabi mo sa Navigator na "Pumunta tayo sa Gogol, 25" o sabihin nang malakas ang isang query sa paghahanap, ginagawang text command ng teknolohiya sa pagkilala ng salita ang iyong boses. Mayroon ding kabaligtaran na gawain: gawing boses ang teksto. Minsan sapat na upang mag-imbita ng isang tagapagbalita at isulat lamang ang mga kinakailangang salita at parirala, ngunit hindi ito gagana sa mga di-makatwirang teksto. Dito nagagamit ang speech synthesis.

","contentType":"text/html"),"titleImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/h32","width": 58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major101968" taas":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.yablogs.net/get 47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_1475751201967/majorl444":" /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421/ file_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444,"height":246),"minor288": ("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967","width28": 288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/47421/file_1475751201967/touch288":"full ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("path":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","lapad":444,"60":444,"60" ":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get -yab logs/47421/file_1475751201967/touch900")","w1000":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w1000","widthl":44 https ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("height":246,"path":"/get-yablogs/47421/file_2016975h " ,"width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("height":246,"path " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512021"),066 " w288" :("height":156,"path":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net / get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":"/get-yablogs/47421/file_1475751201967,"wid88h160"Path : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162,"path":"/get-yablogs/47421/file_1475751 201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("height":246 ,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512044967 "),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("path":"/get-yablogs/47421/file_1475751201967/major620","https://fullPath":" mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)),"tags":[("displayName":"Yandex technologies","slug": " technologii-yandeksa","url":"/blog/company? ?tag=tekhnologii-yandeksa"),("displayName":"paano ito gumagana?","slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,"metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ blog /company","addCommentUrl":"/blog/createComment/company/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put " , "urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb97f4001/publish " ,"urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":"/blog/api/ mag-subscribe/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company/57f4dd21ccb9740017c":Repostpage"/transblog" "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabotaet -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","may-akda":("id":"24151397","uid ": ("value":"24151397","lite":false,"hosted":false),"aliases":("13":"chistyakova"),"login":"amarantta","display_name": (" pangalan":"Sveta Chi styakova","avatar":("default":"24700/24151397-15660497","walang laman":false)),"address":" [email protected] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-middle","isYandexStaff": true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246," path":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_147575120190607") ,"major288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://www.dexsavataryans" .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900": ("path":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967","width90": 444,"height":246),"minor288":("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_14757512011",967 "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","lapad":444,"444) ":("path":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","width":444,"height":246),"touch900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width": 444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1006"0"2" " height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("taas":246,"path":"/get-yablogs/47421/file_1475751201967/w260h360","":"widthfull:2": / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"),"w288":("height":156,"path":"/get-yablogs/47421/file_1475757120 lapad ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":" / get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),""w300":1 ,"path":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967 "),"w444":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444"),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","4,"width "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("path":"/get-yablogs/47421/file_14757512019207/major620" ,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)))))">

Minsan kailangan nating magbasa ng naka-print na teksto na may boses. Kadalasan, ang mga ganitong programa ay ginagamit ng mga nagtuturo wikang banyaga upang matukoy ang tamang intonasyon at stress, para din sa pagbabasa ng mga libro, at para lamang sa kasiyahan at pagguhit ng mga kaibigan. Upang magamit ang voice acting ng teksto, hindi na kailangang mag-download ng mga program sa iyong computer, dahil mayroong sapat na bilang ng mga ito sa online na bersyon(Hindi tulad ng ). Sasaklawin ng artikulong ito pinakamahusay na mga synth pagsasalita ng tao, na maaari mong gamitin online.

Ang Translate.google.com ay isang libreng text translation at synthesis service.

Ang Google translate ay isa sa pinakasikat at ang pinakamahusay na mga serbisyo na nagbibigay ng malawak na hanay ng mga serbisyo. Halimbawa, lahat sikat na tagasalin ay may function na ipahayag ang ipinasok na teksto, at sa lahat ng sinusuportahang wika. Ang kalidad ng tunog ay medyo mababa sa mga lugar, ngunit sa pangkalahatan ay katanggap-tanggap. Kung isinasalin mo ang naka-print na teksto sa pagsasalita para sa pag-aaral ng wika, pagkatapos ay ang synthesizer Google translate babagay sa iyo nang perpekto. Ang pinakamahalagang bagay tungkol sa serbisyong ito ay ito ay simple at naa-access sa bawat gumagamit sa Internet.


Paano mag-synthesize ng text sa Translate.google.com

Upang magamit ang serbisyo mula sa Google:

  1. Pumunta sa https://translate.google.com ;
  2. Pumili kinakailangang wika sa pamamagitan ng pag-click sa pindutang "Detect language";
  3. Pagkatapos ay ipasok ang teksto sa window kung saan mo pinili ang wika;
  4. Ngayon mag-click sa icon ng gramophone sa ibaba ng window, at maririnig mo ang pag-playback ng teksto sa boses ng babae.

Ang kawalan nito ay ang kawalan ng kakayahang i-download ang muling ginawang speech synthesis sa isang file sa iyong computer. Wala ring mga setting ng boses o pagpili ng artist.

Acapela - libreng text-to-speech software

Ang Acapela ay ang pinakasikat at isa sa pinakamahusay na online speech synthesizer. Sinusuportahan ng serbisyo ang higit sa 30 wika, gayundin malaking bilang ng mga performer na mapagpipilian, kapwa lalaki at babae. Para sa English, mayroong hanggang 20 timbre ang mapagpipilian - babae, lalaki, teenager, bata, magaspang na lalaki, malambot na babae, atbp. Ang programa ay lubos na napapasadya at madaling gamitin. Ang site ay may programa para sa offline na paggamit. May pagkakataon kang sumubok ng demo na bersyon ng speech synthesizer sa pamamagitan ng pag-click sa kaukulang item sa menu bar.


Paano gamitin ang Acapela

Upang i-set up ang synthesis pasalitang pananalita online, gamitin ang block sa kaliwang bahagi ng page http://www.acapela-group.com/voices/demo/ .

Kaya paano ito gumagana:

  1. Sa unang linya, piliin ang wika ng sinasalitang teksto.
  2. Ang pangalawang linya ay hindi kinakailangan kung pipiliin mo ang Russian, dahil mayroon lamang isang pagpipilian - Alyona.
  3. Sa ikatlong linya, ilagay ang iyong text na gusto mong boses. Maaari kang magpasok ng hanggang 300 character.
  4. Susunod, sumang-ayon sa mga tuntunin ng serbisyo sa pamamagitan ng paglalagay ng check sa kahon na "Sumasang-ayon ako sa mga tuntunin at kundisyon".
  5. At i-click ang button na "Mangyaring tanggapin ang mga tuntunin at kundisyon" sa ibaba.

Ang boses na kumikilos sa pamamagitan ng serbisyong ito ay may katamtamang kalidad. Tama ang intonasyon sa halos lahat ng salita. Ang produkto ay magagamit para sa lahat ng mga platform.

Next.2yxa.mobi - online na serbisyo para sa pagbabasa ng teksto

Ang Next.2yxa.mobi online na serbisyo ay isang simple at abot-kayang synthesizer para sa muling paggawa ng nai-type na teksto. Ang site ay binuo para sa mga mobile device, kaya sa pamamagitan ng pagpasok nito sa pamamagitan ng isang web browser, magkakaroon tayo ng magaan at mabilis na text synthesis tool. Sa pagsasaalang-alang na ito, ang site ay may ilang mga limitasyon sa trabaho nito. Halimbawa, kung kailangan mong "basahin" ang na-download na teksto, kung gayon ang laki ng file ay hindi dapat lumampas sa 100 kb. Maaari mong i-type ang teksto at agad na boses ito.

Para dito kailangan mo:


Vocalizer - voice synthesizer para sa online na pag-playback ng text

Isa pa sa mga pinakamahusay na speech synthesizer para sa voice acting test online, na nilikha ng mga dayuhang developer ay ang Vocalizer. Ito ay makukuha sa http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html . Ito ay isang simple at nauunawaan na serbisyo. Ang menu at interface ay ganap sa Ingles, ngunit napakadaling malaman ito. Online na serbisyo maaari naming gamitin bilang Demo-bersyon. Ang system ay nagbibigay sa iyo ng 100 iba't ibang mga pagpipilian sa boses at 47 mga wika.


Paano gamitin ang Vocalizer

Ang pag-synthesize ng pagsasalita online gamit ang program na ito ay napaka-simple. Para dito:

  1. Sa item na "Wika / Diyalekto," piliin ang wika;
  2. Sa "Kasarian" pumili ng lalaki o babaeng boses na kumikilos (lalaki - lalaki, babae - babae);
  3. Sa ibaba ng malaking bloke, ilagay ang text para sa pagboses at pindutin ang asul na button sa gilid upang maglaro.