Parhaat puhesyntetisaattorit verkossa. SpeakIt! Chrome-laajennus: selaimen puhesyntetisaattori niille, jotka ovat liian laiskoja lukemaan

Tämä lisää maustetta ja jos aloitan kokeilemaan muita moottoreita, saan kommentteihin hashtagin #ReturnDashka. Tätä kaikkea on siistiä seurata, mutta prosessi ei pysähdy ja monet yritykset kehittävät omia teknologioitaan. Pidin esimerkiksi äänestä, jota myös ahmin joskus videoon.

Äskettäin törmäsin moniin Yandex-puhetekniikoihin, mukaan lukien puheentunnistus ja synteesi, puheaktivointi ja semanttisten objektien valinta puhutussa tekstissä. Puhetekniikka on oppinut tunnistamaan puheaktivoinnin, ja sen avulla voit tallentaa tekstiviestejä ja jättää muistiinpanoja äänellä ilman näppäimistöä ja päästä suoraan Yandexin mobiilisovelluksissa käytettyyn taustajärjestelmään. Esimerkiksi SpeechKit Mobile SDK:n avulla voit upottaa puheentunnistuksen ja -synteesin sekä Yandex-ääniaktivoinnin iOS-, Android- (tällä hetkellä venäjäksi, englanniksi, turkiksi ja ukrainaksi) tai Windows Phone (venäjäksi) -mobiilisovellukseen. Ääniohjaus tekee sovelluksestasi käyttäjäystävällisemmän, varsinkin jos käyttäjän kädet ovat täynnä. Koskematta näyttöä, hän voi kutsua halutun toiminnon yhdellä lauseella.

Minua on aina kiinnostanut puhesynteesitekniikka, jonka avulla voit kääntää tekstiä puheeksi. Luonnostelin nopeasti tekstin, äänestin sen (Milena TTS [venäläinen]) ja työnsin sen videoon mistä tahansa aiheesta. Tämä on erityisen kiinnostavaa käyttäjille, joilla on puheongelmia tai niille, jotka jostain syystä hämillään äänestään.

Yandexin äänet vaikuttivat omituisilta, mukavilta ja ihmiskorvan helposti havaittavilta, varsinkin zaharin ja ermilin miesäänet. Janen, Oksanan, alyssin ja omazhin naisäänet pelottivat minua villisti, eivätkä mielestäni saavuta SuperDazhkin korkeuksia. Joten miten kuulet uusia ääniä tavallisella kotitietokoneella? Tätä varten minun piti lapioida Internetiä ja ratkaisu löytyi käsikirjoituksen muodossa.

1. Ensin meidän on oltava sivulla ja napsautettava Kehittäjän huone -painiketta.


Pääset välittömästi henkilökohtaiselle tilillesi ja painat "Hae avain" -painiketta. Napsauta seuraavaksi "SpeechKit Cloud" -painiketta.


Täytä kaikki punaisella tähdellä merkityt kentät ja napsauta "Lähetä"-painiketta.


Avain vastaanotetaan välittömästi, minkä jälkeen se on kopioitava.


Siirrytään nyt tähän, jossa näemme erilaisia ​​kyselyparametreja, puhuja (syntetisoidun puheen ääni), vastausmuoto ja URL-esimerkkejä. Tämä kiinalainen kirje vaikuttaa liian monimutkaiselta tavalliselle käyttäjälle, joten yksinkertaistetaan toimintaamme (tai päinvastoin monimutkaistaan) järjestämällä yksinkertainen kirjoitus.

2. Lataa Notepad ++ -ohjelma tietokoneellesi (). Asennamme.

3. Luo index.html-tiedosto. Joka ei halua luoda käsin, lataa tämä.


Muuta tiedoston nimi: index.html. Tiedostotyyppi: Kaikki tiedostot. Koodaus: UTF-8. Paina "Tallenna"-painiketta. On tärkeää tallentaa index.html-tiedosto järjestelmäaseman juureen tai mihin tahansa järjestelmäaseman kansioon.


Nyt tallennettua tiedostoa on muokattava. Avaa tiedosto Notepad++:lla.


Itse asiassa tässä on kauan odotettu käsikirjoituksemme (). Muokkaa tiedostoa oikein: liitä avain oikeaan paikkaan, vaihda ääntä, tallenna ja käytä.

Jatkossa kaksoisnapsauta index.html-tiedostoa ja selaimeen tulee seuraava.


On vain kirjoitettava runo suureen ikkunaan ja zahar (tai mikä tahansa muu valittu hahmo) lukee sen sinulle. En väitä, että on mahdollista, että laitoin sen hyllyille täällä ja kukaan ei tarvitse sitä huomenna, olin vain kiinnostunut puhesynteesiprosessista Yandexista tietokoneellani, jonka jaoin kanssasi.

Auta projektia sen kehittämisessä:
Sberbank-kortti: 676280139020834994
Yandex.Money: 410012054992141
Webmoney: WMR-lompakko R429054927097
WMZ lompakko Z401294377967

puheentunnistustekniikka

Yandex Speechkit Autopoet.

Tekstin valmistelu

Ääntäminen ja intonaatio

sivulla tai erityisellä resurssisivustolla

Monet teistä ovat luultavasti onnistuneet ohjaamaan tietokonetta tai älypuhelinta äänellään. Kun sanot Navigaattorille "Mennään Gogoliin, 25" tai sanot hakukyselyn Yandex-sovelluksessa, puheentunnistustekniikka muuntaa äänesi tekstikomentoksi. Mutta on myös käänteinen tehtävä: muuttaa tietokoneen käytettävissä oleva teksti ääneksi.

Yandex käyttää puhesynteesitekniikkaa Yandex Speechkit -kompleksista puheteksteihin. Sen avulla voit esimerkiksi selvittää, kuinka vieraat sanat ja ilmaukset lausutaan Kääntäjässä. Puhesynteesin ansiosta Autopoet sai myös oman äänensä.

Tekstin valmistelu

Ääntäminen ja intonaatio

Toisin sanoen joka 25 millisekunnin puhetta syntetisoimiseen käytetään paljon dataa. Tieto välittömästä ympäristöstä varmistaa sujuvan siirtymisen kehyksestä kehykseen ja tavusta tavuun, ja tietoja lauseesta ja lauseesta kokonaisuutena tarvitaan syntetisoidun puheen oikean intonaation luomiseen.

Valmistetun tekstin lukemiseen käytetään akustista mallia. Se eroaa puheentunnistuksessa käytetystä akustisesta mallista. Kuviontunnistuksen tapauksessa on tarpeen luoda vastaavuus tiettyjä ominaisuuksia omaavien äänten ja foneemien välillä. Synteesin tapauksessa akustisen mallin pitäisi päinvastoin koota äänikuvaukset kehyskuvausten mukaisesti.

Kuinka akustinen malli osaa lausua foneemin oikein tai antaa oikean intonoinnin kyselylauseelle? Hän oppii teksteistä ja äänitiedostoista. Voit esimerkiksi ladata äänikirjan ja sitä vastaavan tekstin siihen. Mitä enemmän dataa malli oppii, sitä parempi on sen ääntäminen ja intonaatio.

Voit oppia lisää Yandex SpeechKit -kompleksin teknologioista tällä sivulla tai erityisestä resurssista. Jos olet kehittäjä ja haluat testata SpeechKitin pilvi- tai mobiiliversiota, Yandex-tekniikoille omistettu sivusto auttaa sinua.

","contentType":"text/html","amp":"

Monet teistä ovat luultavasti onnistuneet ohjaamaan tietokonetta tai älypuhelinta äänellään. Kun sanot Navigaattorille "Mennään Gogoliin, 25" tai sanot hakukyselyn Yandex-sovelluksessa, puheentunnistustekniikka muuntaa äänesi tekstikomentoksi. Mutta on myös käänteinen tehtävä: muuttaa tietokoneen käytettävissä oleva teksti ääneksi.

Jos äänestettävä tekstijoukko on suhteellisen pieni ja niissä esiintyy samoja ilmaisuja - kuten esimerkiksi junien lähtö- ja saapumisilmoituksissa asemalle - riittää, että kutsut kuuluttajan, nauhoitat tarvittavat sanat ja lauseita studiossa ja sitten kerätä mistä viestistä. Mielivaltaisilla teksteillä tämä lähestymistapa ei kuitenkaan toimi. Tässä puhesynteesi on hyödyllinen.

Yandex käyttää puhesynteesitekniikkaa Yandex Speechkit -kompleksista puheteksteihin. Sen avulla voit esimerkiksi selvittää, kuinka vieraat sanat ja ilmaukset lausutaan Kääntäjässä. Puhesynteesin ansiosta Autopoet sai myös oman äänensä.

Tekstin valmistelu

Puhesynteesin tehtävä ratkaistaan ​​useassa vaiheessa. Ensinnäkin erityinen algoritmi valmistelee tekstin niin, että robotin on kätevä lukea se: se kirjoittaa kaikki numerot sanoilla, laajentaa lyhenteitä. Sitten teksti jaetaan lauseisiin, eli lauseisiin, joissa on jatkuva intonaatio - tätä varten tietokone keskittyy välimerkkeihin ja vakaisiin rakenteisiin. Kaikista sanoista laaditaan foneettinen transkriptio.

Selvittääkseen, kuinka sana luetaan ja mihin siinä painotetaan, robotti käyttää ensin klassisia, käsinkirjoitettuja sanakirjoja, jotka on rakennettu järjestelmään. Jos haluttua sanaa ei ole sanakirjassa, tietokone rakentaa transkription itse - akateemisista hakuteoksista lainattujen sääntöjen perusteella. Lopuksi, jos tavalliset säännöt eivät riitä - ja tämä tapahtuu, koska mikä tahansa elävä kieli muuttuu jatkuvasti - se käyttää tilastollisia sääntöjä. Jos sana kohdataan opetustekstien rungossa, järjestelmä muistaa, mitä tavua puhujat siinä yleensä painottivat.

Ääntäminen ja intonaatio

Kun transkriptio on valmis, tietokone laskee, kuinka kauan kukin foneemi soi, eli kuinka monta kehystä se sisältää - näin kutsutaan 25 millisekuntia pitkiä fragmentteja. Sitten jokainen kehys kuvataan parametrijoukon mukaan: mihin foneemiin se kuuluu ja minkä paikan se siinä on; mihin tavuun tämä foneemi kuuluu; jos se on vokaali, onko se painotettu; mikä paikka se on tavussa; tavu - sanassa; sana - lauseessa; mitä välimerkkejä on ennen ja jälkeen tämän lauseen; mikä paikka lauseella on lauseessa; lopuksi mikä merkki on lauseen lopussa ja mikä on sen pääintonaatio.

Toisin sanoen joka 25 millisekunnin puhetta syntetisoimiseen käytetään paljon dataa. Tieto välittömästä ympäristöstä varmistaa sujuvan siirtymisen kehyksestä kehykseen ja tavusta tavuun, ja tietoja lauseesta ja lauseesta kokonaisuutena tarvitaan syntetisoidun puheen oikean intonaation luomiseen.

Valmistetun tekstin lukemiseen käytetään akustista mallia. Se eroaa puheentunnistuksessa käytetystä akustisesta mallista. Kuviontunnistuksen tapauksessa on tarpeen luoda vastaavuus tiettyjä ominaisuuksia omaavien äänten ja foneemien välillä. Synteesin tapauksessa akustisen mallin pitäisi päinvastoin koota äänikuvaukset kehyskuvausten mukaisesti.

Kuinka akustinen malli osaa lausua foneemin oikein tai antaa oikean intonoinnin kyselylauseelle? Hän oppii teksteistä ja äänitiedostoista. Voit esimerkiksi ladata äänikirjan ja sitä vastaavan tekstin siihen. Mitä enemmän dataa malli oppii, sitä parempi on sen ääntäminen ja intonaatio.

Lopuksi itse äänestä. Äänemme on tunnistettavissa ennen kaikkea sointiäänestä, joka riippuu kunkin henkilön puhelaitteen elinten rakenteellisista ominaisuuksista. Äänesi sointi voidaan mallintaa, eli sen ominaisuuksia voidaan kuvata - tätä varten riittää, että luet pienen tekstijoukon studiossa. Sen jälkeen äänitietojasi voidaan käyttää puhesynteesissä millä tahansa kielellä, myös sellaisella, jota et osaa. Kun robotin on sanottava sinulle jotain, se käyttää ääniaaltogeneraattoria - vokooderia. Siihen on ladattu tietoa akustisesta mallista saaduista fraasin taajuusominaisuuksista sekä tietoja sointisävelestä, joka antaa äänelle tunnistettavan värin.

Voit oppia lisää Yandex SpeechKit -kompleksin teknologioista tällä sivulla tai erityisestä resurssista. Jos olet kehittäjä ja haluat testata SpeechKitin pilvi- tai mobiiliversiota, Yandex-tekniikoille omistettu sivusto auttaa sinua.

""instantArticle":"

Monet teistä ovat luultavasti onnistuneet ohjaamaan tietokonetta tai älypuhelinta äänellään. Kun sanot Navigaattorille "Mennään Gogoliin, 25" tai sanot hakukyselyn Yandex-sovelluksessa, puheentunnistustekniikka muuntaa äänesi tekstikomentoksi. Mutta on myös käänteinen tehtävä: muuttaa tietokoneen käytettävissä oleva teksti ääneksi.

Jos äänestettävä tekstijoukko on suhteellisen pieni ja niissä esiintyy samoja ilmaisuja - kuten esimerkiksi junien lähtö- ja saapumisilmoituksissa asemalle - riittää, että kutsut kuuluttajan, nauhoitat tarvittavat sanat ja lauseita studiossa ja sitten kerätä mistä viestistä. Mielivaltaisilla teksteillä tämä lähestymistapa ei kuitenkaan toimi. Tässä puhesynteesi on hyödyllinen.

Yandex käyttää puhesynteesitekniikkaa Yandex Speechkit -kompleksista puheteksteihin. Sen avulla voit esimerkiksi selvittää, kuinka vieraat sanat ja ilmaukset lausutaan Kääntäjässä. Puhesynteesin ansiosta Autopoet sai myös oman äänensä.

Tekstin valmistelu

Puhesynteesin tehtävä ratkaistaan ​​useassa vaiheessa. Ensinnäkin erityinen algoritmi valmistelee tekstin niin, että robotin on kätevä lukea se: se kirjoittaa kaikki numerot sanoilla, laajentaa lyhenteitä. Sitten teksti jaetaan lauseisiin, eli lauseisiin, joissa on jatkuva intonaatio - tätä varten tietokone keskittyy välimerkkeihin ja vakaisiin rakenteisiin. Kaikista sanoista laaditaan foneettinen transkriptio.

Selvittääkseen, kuinka sana luetaan ja mihin siinä painotetaan, robotti käyttää ensin klassisia, käsinkirjoitettuja sanakirjoja, jotka on rakennettu järjestelmään. Jos haluttua sanaa ei ole sanakirjassa, tietokone rakentaa transkription itse - akateemisista hakuteoksista lainattujen sääntöjen perusteella. Lopuksi, jos tavalliset säännöt eivät riitä - ja tämä tapahtuu, koska mikä tahansa elävä kieli muuttuu jatkuvasti - se käyttää tilastollisia sääntöjä. Jos sana kohdataan opetustekstien rungossa, järjestelmä muistaa, mitä tavua puhujat siinä yleensä painottivat.

Ääntäminen ja intonaatio

Kun transkriptio on valmis, tietokone laskee, kuinka kauan kukin foneemi soi, eli kuinka monta kehystä se sisältää - näin kutsutaan 25 millisekuntia pitkiä fragmentteja. Sitten jokainen kehys kuvataan parametrijoukon mukaan: mihin foneemiin se kuuluu ja minkä paikan se siinä on; mihin tavuun tämä foneemi kuuluu; jos se on vokaali, onko se painotettu; mikä paikka se on tavussa; tavu - sanassa; sana - lauseessa; mitä välimerkkejä on ennen ja jälkeen tämän lauseen; mikä paikka lauseella on lauseessa; lopuksi mikä merkki on lauseen lopussa ja mikä on sen pääintonaatio.

Toisin sanoen joka 25 millisekunnin puhetta syntetisoimiseen käytetään paljon dataa. Tieto välittömästä ympäristöstä varmistaa sujuvan siirtymisen kehyksestä kehykseen ja tavusta tavuun, ja tietoja lauseesta ja lauseesta kokonaisuutena tarvitaan syntetisoidun puheen oikean intonaation luomiseen.

Valmistetun tekstin lukemiseen käytetään akustista mallia. Se eroaa puheentunnistuksessa käytetystä akustisesta mallista. Kuviontunnistuksen tapauksessa on tarpeen luoda vastaavuus tiettyjä ominaisuuksia omaavien äänten ja foneemien välillä. Synteesin tapauksessa akustisen mallin pitäisi päinvastoin koota äänikuvaukset kehyskuvausten mukaisesti.

Kuinka akustinen malli osaa lausua foneemin oikein tai antaa oikean intonoinnin kyselylauseelle? Hän oppii teksteistä ja äänitiedostoista. Voit esimerkiksi ladata äänikirjan ja sitä vastaavan tekstin siihen. Mitä enemmän dataa malli oppii, sitä parempi on sen ääntäminen ja intonaatio.

Lopuksi itse äänestä. Äänemme on tunnistettavissa ennen kaikkea sointiäänestä, joka riippuu kunkin henkilön puhelaitteen elinten rakenteellisista ominaisuuksista. Äänesi sointi voidaan mallintaa, eli sen ominaisuuksia voidaan kuvata - tätä varten riittää, että luet pienen tekstijoukon studiossa. Sen jälkeen äänitietojasi voidaan käyttää puhesynteesissä millä tahansa kielellä, myös sellaisella, jota et osaa. Kun robotin on sanottava sinulle jotain, se käyttää ääniaaltogeneraattoria - vokooderia. Siihen on ladattu tietoa akustisesta mallista saaduista fraasin taajuusominaisuuksista sekä tietoja sointisävelestä, joka antaa äänelle tunnistettavan värin.

Voit oppia lisää Yandex SpeechKit -kompleksin teknologioista tällä sivulla tai erityisestä resurssista. Jos olet kehittäjä ja haluat testata SpeechKitin pilvi- tai mobiiliversiota, Yandex-tekniikoille omistettu sivusto auttaa sinua.

"),"proposedBody":("lähde":"

Monet teistä ovat luultavasti onnistuneet ohjaamaan tietokonetta tai älypuhelinta äänellään. Kun sanot Navigaattorille "Mennään Gogoliin, 25" tai sanot hakukyselyn Yandex-sovelluksessa, puheentunnistustekniikka muuntaa äänesi tekstikomentoksi. Mutta on myös käänteinen tehtävä: muuttaa tietokoneen käytettävissä oleva teksti ääneksi.

Jos äänestettävä tekstijoukko on suhteellisen pieni ja niissä esiintyy samoja ilmaisuja - kuten esimerkiksi junien lähtö- ja saapumisilmoituksissa asemalle - riittää, että kutsut kuuluttajan, nauhoitat tarvittavat sanat ja lauseita studiossa ja sitten kerätä mistä viestistä. Mielivaltaisilla teksteillä tämä lähestymistapa ei kuitenkaan toimi. Tässä puhesynteesi on hyödyllinen.

Yandex käyttää puhesynteesitekniikkaa Yandex Speechkit -kompleksista puheteksteihin. Sen avulla voit esimerkiksi selvittää, kuinka vieraat sanat ja ilmaukset lausutaan Kääntäjässä. Puhesynteesin ansiosta Autopoet sai myös oman äänensä.

Tekstin valmistelu

Puhesynteesin tehtävä ratkaistaan ​​useassa vaiheessa. Ensinnäkin erityinen algoritmi valmistelee tekstin niin, että robotin on kätevä lukea se: se kirjoittaa kaikki numerot sanoilla, laajentaa lyhenteitä. Sitten teksti jaetaan lauseisiin, eli lauseisiin, joissa on jatkuva intonaatio - tätä varten tietokone keskittyy välimerkkeihin ja vakaisiin rakenteisiin. Kaikista sanoista laaditaan foneettinen transkriptio.

Selvittääkseen, kuinka sana luetaan ja mihin siinä painotetaan, robotti käyttää ensin klassisia, käsinkirjoitettuja sanakirjoja, jotka on rakennettu järjestelmään. Jos haluttua sanaa ei ole sanakirjassa, tietokone rakentaa transkription itse - akateemisista hakuteoksista lainattujen sääntöjen perusteella. Lopuksi, jos tavalliset säännöt eivät riitä - ja tämä tapahtuu, koska mikä tahansa elävä kieli muuttuu jatkuvasti - se käyttää tilastollisia sääntöjä. Jos sana kohdataan opetustekstien rungossa, järjestelmä muistaa, mitä tavua puhujat siinä yleensä painottivat.

Ääntäminen ja intonaatio

Kun transkriptio on valmis, tietokone laskee, kuinka kauan kukin foneemi soi, eli kuinka monta kehystä se sisältää - näin kutsutaan 25 millisekuntia pitkiä fragmentteja. Sitten jokainen kehys kuvataan parametrijoukon mukaan: mihin foneemiin se kuuluu ja minkä paikan se siinä on; mihin tavuun tämä foneemi kuuluu; jos se on vokaali, onko se painotettu; mikä paikka se on tavussa; tavu - sanassa; sana on lauseessa; mitä välimerkkejä on ennen ja jälkeen tämän lauseen; mikä paikka lauseella on lauseessa; lopuksi mikä merkki on lauseen lopussa ja mikä on sen pääintonaatio.

Toisin sanoen joka 25 millisekunnin puhetta syntetisoimiseen käytetään paljon dataa. Tieto välittömästä ympäristöstä varmistaa sujuvan siirtymisen kehyksestä kehykseen ja tavusta tavuun, ja tietoja lauseesta ja lauseesta kokonaisuutena tarvitaan syntetisoidun puheen oikean intonaation luomiseen.

Valmistetun tekstin lukemiseen käytetään akustista mallia. Se eroaa puheentunnistuksessa käytetystä akustisesta mallista. Kuviontunnistuksen tapauksessa on tarpeen luoda vastaavuus tiettyjä ominaisuuksia omaavien äänten ja foneemien välillä. Synteesin tapauksessa akustisen mallin pitäisi päinvastoin koota äänikuvaukset kehyskuvausten mukaisesti.

Kuinka akustinen malli osaa lausua foneemin oikein tai antaa oikean intonoinnin kyselylauseelle? Hän oppii teksteistä ja äänitiedostoista. Voit esimerkiksi ladata äänikirjan ja sitä vastaavan tekstin siihen. Mitä enemmän dataa malli oppii, sitä parempi on sen ääntäminen ja intonaatio.

Lopuksi itse äänestä. Äänemme on tunnistettavissa ennen kaikkea sointiäänestä, joka riippuu kunkin henkilön puhelaitteen elinten rakenteellisista ominaisuuksista. Äänesi sointi voidaan mallintaa, eli sen ominaisuuksia voidaan kuvata - tätä varten riittää, että luet pienen tekstijoukon studiossa. Sen jälkeen äänitietojasi voidaan käyttää puhesynteesissä millä tahansa kielellä, myös sellaisella, jota et osaa. Kun robotin on sanottava sinulle jotain, se käyttää ääniaaltogeneraattoria, jota kutsutaan vokooderiksi. Siihen on ladattu tietoa akustisesta mallista saaduista fraasin taajuusominaisuuksista sekä tietoja sointisävelestä, joka antaa äänelle tunnistettavan värin.

Voit oppia lisää Yandex SpeechKit -kompleksin teknologioista tällä sivulla tai erityisestä resurssista. Jos olet kehittäjä ja haluat testata SpeechKitin pilvi- tai mobiiliversiota, Yandex-tekniikoille omistettu sivusto auttaa sinua.

Monet teistä ovat luultavasti onnistuneet ohjaamaan tietokonetta tai älypuhelinta äänellään. Kun sanot Navigaattorille "Mennään Gogoliin, 25" tai sanot hakukyselyn Yandex-sovelluksessa, puheentunnistustekniikka muuntaa äänesi tekstikomentoksi. Mutta on myös käänteinen tehtävä: muuttaa tietokoneen käytettävissä oleva teksti ääneksi.

Jos äänestettävä tekstijoukko on suhteellisen pieni ja niissä esiintyy samoja ilmaisuja - kuten esimerkiksi junien lähtö- ja saapumisilmoituksissa asemalle - riittää, että kutsut kuuluttajan, nauhoitat tarvittavat sanat ja lauseita studiossa ja sitten kerätä mistä viestistä. Mielivaltaisilla teksteillä tämä lähestymistapa ei kuitenkaan toimi. Tässä puhesynteesi on hyödyllinen.

Yandex käyttää puhesynteesitekniikkaa Yandex Speechkit -kompleksista puheteksteihin. Sen avulla voit esimerkiksi selvittää, kuinka vieraat sanat ja ilmaukset lausutaan Kääntäjässä. Puhesynteesin ansiosta Autopoet sai myös oman äänensä.

Tekstin valmistelu

Puhesynteesin tehtävä ratkaistaan ​​useassa vaiheessa. Ensinnäkin erityinen algoritmi valmistelee tekstin niin, että robotin on kätevä lukea se: se kirjoittaa kaikki numerot sanoilla, laajentaa lyhenteitä. Sitten teksti jaetaan lauseisiin, eli lauseisiin, joissa on jatkuva intonaatio - tätä varten tietokone keskittyy välimerkkeihin ja vakaisiin rakenteisiin. Kaikista sanoista laaditaan foneettinen transkriptio.

Selvittääkseen, kuinka sana luetaan ja mihin siinä painotetaan, robotti käyttää ensin klassisia, käsinkirjoitettuja sanakirjoja, jotka on rakennettu järjestelmään. Jos haluttua sanaa ei ole sanakirjassa, tietokone rakentaa transkription itse - akateemisista hakuteoksista lainattujen sääntöjen perusteella. Lopuksi, jos tavalliset säännöt eivät riitä - ja tämä tapahtuu, koska mikä tahansa elävä kieli muuttuu jatkuvasti - se käyttää tilastollisia sääntöjä. Jos sana kohdataan opetustekstien rungossa, järjestelmä muistaa, mitä tavua puhujat siinä yleensä painottivat.

Ääntäminen ja intonaatio

Kun transkriptio on valmis, tietokone laskee, kuinka kauan kukin foneemi soi, eli kuinka monta kehystä se sisältää - näin kutsutaan 25 millisekuntia pitkiä fragmentteja. Sitten jokainen kehys kuvataan parametrijoukon mukaan: mihin foneemiin se kuuluu ja minkä paikan se siinä on; mihin tavuun tämä foneemi kuuluu; jos se on vokaali, onko se painotettu; mikä paikka se on tavussa; tavu - sanassa; sana - lauseessa; mitä välimerkkejä on ennen ja jälkeen tämän lauseen; mikä paikka lauseella on lauseessa; lopuksi mikä merkki on lauseen lopussa ja mikä on sen pääintonaatio.

Toisin sanoen joka 25 millisekunnin puhetta syntetisoimiseen käytetään paljon dataa. Tieto välittömästä ympäristöstä varmistaa sujuvan siirtymisen kehyksestä kehykseen ja tavusta tavuun, ja tietoja lauseesta ja lauseesta kokonaisuutena tarvitaan syntetisoidun puheen oikean intonaation luomiseen.

Valmistetun tekstin lukemiseen käytetään akustista mallia. Se eroaa puheentunnistuksessa käytetystä akustisesta mallista. Kuviontunnistuksen tapauksessa on tarpeen luoda vastaavuus tiettyjä ominaisuuksia omaavien äänten ja foneemien välillä. Synteesin tapauksessa akustisen mallin pitäisi päinvastoin koota äänikuvaukset kehyskuvausten mukaisesti.

Kuinka akustinen malli osaa lausua foneemin oikein tai antaa oikean intonoinnin kyselylauseelle? Hän oppii teksteistä ja äänitiedostoista. Voit esimerkiksi ladata äänikirjan ja sitä vastaavan tekstin siihen. Mitä enemmän dataa malli oppii, sitä parempi on sen ääntäminen ja intonaatio.

Lopuksi itse äänestä. Äänemme on tunnistettavissa ennen kaikkea sointiäänestä, joka riippuu kunkin henkilön puhelaitteen elinten rakenteellisista ominaisuuksista. Äänesi sointi voidaan mallintaa, eli sen ominaisuuksia voidaan kuvata - tätä varten riittää, että luet pienen tekstijoukon studiossa. Sen jälkeen äänitietojasi voidaan käyttää puhesynteesissä millä tahansa kielellä, myös sellaisella, jota et osaa. Kun robotin on sanottava sinulle jotain, se käyttää ääniaaltogeneraattoria - vokooderia. Siihen on ladattu tietoa akustisesta mallista saaduista fraasin taajuusominaisuuksista sekä tietoja sointisävelestä, joka antaa äänelle tunnistettavan värin.

Voit oppia lisää Yandex SpeechKit -kompleksin teknologioista tällä sivulla tai erityisestä resurssista. Jos olet kehittäjä ja haluat testata SpeechKitin pilvi- tai mobiiliversiota, Yandex-tekniikoille omistettu sivusto auttaa sinua.

","contentType":"text/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"minor","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,"commentsCount":55," modifikationDate":"Ti 03.04.2018 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("lähde":"

Kun sanot Navigaattorille "Mennään Gogoliin, 25" tai sanot hakukyselyn ääneen, puheentunnistustekniikka muuntaa äänesi tekstikomentoksi. On myös käänteinen tehtävä: muuttaa teksti ääneksi. Joskus riittää kutsua kuuluttaja ja kirjoittaa vain tarvittavat sanat ja lauseet, mutta tämä ei toimi mielivaltaisten tekstien kanssa. Tässä puhesynteesi on hyödyllinen.

","contentType":"teksti/html"),"ehdotettuPreview":("lähde":"

Kun sanot Navigaattorille "Mennään Gogoliin, 25" tai sanot hakukyselyn ääneen, puheentunnistustekniikka muuntaa äänesi tekstikomentoksi. On myös käänteinen tehtävä: muuttaa teksti ääneksi. Joskus riittää kutsua kuuluttaja ja kirjoittaa vain tarvittavat sanat ja lauseet, mutta tämä ei toimi mielivaltaisten tekstien kanssa. Tässä puhesynteesi on hyödyllinen.

Kun sanot Navigaattorille "Mennään Gogoliin, 25" tai sanot hakukyselyn ääneen, puheentunnistustekniikka muuntaa äänesi tekstikomentoksi. On myös käänteinen tehtävä: muuttaa teksti ääneksi. Joskus riittää kutsua kuuluttaja ja kirjoittaa vain tarvittavat sanat ja lauseet, mutta tämä ei toimi mielivaltaisten tekstien kanssa. Tässä puhesynteesi on hyödyllinen.

","contentType":"text/html"),"titleImage":("h32":("korkeus":32,"polku":"/get-yablogs/47421/file_1475751201967/h32","leveys": 58"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246,"polku":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/201967/0maj"1967/ korkeus":156"polku":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"),"major300":("polku":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.blog/-anyadex/gets. 47421/file_1475751201967/major300","width":300"height":150),"major444":("polku":"/get-yablogs/47421/file_1475751201967/major:"full:444", /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("polku":"/get-yablogs/47421/ tiedosto_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","leveys":444"korkeus":246),":pieni ("polku":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/mind"th8", 288"height":160),"orig":("height":246"polku":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("polku":"/get-yablogs/47421/file_1475751201967",/touch28":"full28" ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("polku":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","leveys":"0:44"korkeus"0:44" ":("korkeus":246,"polku":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get -jab logs/47421/file_1475751201967/touch900")","w1000":("korkeus":246,"polku":"/get-yablogs/47421/file_1475751201967/w1000","Path4"4:"l:4" https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("korkeus":246,"polku":"/get-yablogs/47421/file_2027195_14067975019675751201967/w1000 " ,width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("height":246,"path " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_142167571/207576h63 " w288":("height":156,"polku":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net / get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":"/get-yablogs/47421/file_1475751201967/w288"8"thful"6:0",288"8" : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162,"polku":"/get-yablogs/47421/file_1475 201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("korkeus":246 "polku":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475767/w4419767/w444" "),"w900":("korkeus":246,"polku":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("polku":"/get-yablogs/47421/file_1475751201967/major620":"full://Paavatar" mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)),"tags":[("displayName":"Yandex-tekniikat","slug": "technologii-yandeksa","url":"/blogi/yritys? ?tag=tekhnologii-yandeksa"),("displayName":"miten se toimii?","slug":"kak-eto-rabotaet","url":"/blogi/yritys??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,"metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ blogi /yritys","addCommentUrl":"/blog/createComment/company/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put " ,"urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/publish/57f4cf6cc01ccf7d6 " ,"urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":"/blog/api/ subscribe/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company/57f4dd21ccb7c7c60017cf4ccf" "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabotaet -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","author":("id":"24151397","uid ": ("value":"24151397","lite":false,"hosted":false),"aliakset":("13":"chistyakova"),"login":"amarantta","näyttönimi": (" nimi":"Sveta Chi styakova","avatar":("oletus":"24700/24151397-15660497","tyhjä":false)),"osoite":" [sähköposti suojattu] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-midexSta"ffis"Yanddle true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("korkeus":32,"polku":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("korkeus":246," polku":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475767/2075767/maj)or1000 "major288":("korkeus":156,"polku":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"),"major300":("polku":"/get-yablogs/47421/file_1475751201967/major300","fullPath"yan.dexm. .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("polku":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"ma:or ("polku":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/",jord967"ma 444"height":246),"minor288":("polku":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288"height":160),"orig":("height":246,"polku":"/get-yablogs/47421/file_14757651201", "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("polku":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","leveys":"4:44",korkeus"4:44" ":("polku":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","leveys":444"korkeus":246),"touch900":("korkeus":246,"polku":"/get-yablogs/47421/file_1475751201967/touch900","leveys": 444"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("height":246,"polku":"/get- yablogs/47421/file_1475751201967/w1000","width":444"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201927/w1000"10067/w " height":246,"polku":"/get-yablogs/47421/file_1475751201967/w260h260","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w260hth367/w260hth36:https",260hth36":https" / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"),"w288":("height":156,"polku":"/get-yablogs/47421/file_147576",7w leveys ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"polku":" / get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160":"w3000":"w3000" "polku":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475767/w3019067 "),"w444":("korkeus":246,"polku":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444","w900":("korkeus":246,"polku":"/get-yablogs/47421/file_1475751201967/w90",4"wi4d":4 "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("polku":"/get-yablogs/47421/file_1475767/2075767/major "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150))))))">

SpeechKit Cloud on ohjelma, joka antaa kehittäjille pääsyn Yandexin puheentunnistus- ja synteesitekniikoihin. Integrointi toteutetaan Yandex TTS -moduulilla, joka on saatavilla MajorDoMo-järjestelmän Add-ons Marketin kautta.

Asennus- ja konfigurointimenettely on hyvin yksinkertainen, ja se suoritetaan muutamassa vaiheessa.

1. Siirry Ohjauspaneeliin

2. Siirry Add-on Marketiin

3. Siirry Vuorovaikutus-osioon

4. Lisää moduuli MajorDomo-järjestelmään - Ohjauspaneeli - Lisäosien markkina - Vuorovaikutus - Yandex TTS - Lisää:

5. Järjestelmä ilmoittaa meille onnistuneesta asennuksesta ja ohjaa "Add-ons Market" -sivulle:

6. Moduulin lisämäärityksiä varten tarvitset Yandex Api Key -avaimen, jonka voi hankkia ilmaiseksi kehittäjän toimistosta olemassa olevalla Yandex-tilillä:

7. Anna luodulle avaimelle nimi ja napsauta SpeechKit Cloud:

8. Täytä vaaditut kentät tiedoilla ja napsauta "Lähetä"-painiketta:

9. Jos kaikki tehtiin oikein, oikealla olevaan luetteloon ilmestyy luotu API-avain, joka on kopioitava leikepöydälle:

10. Avaa Yantex TTS -moduulin asetukset (MajorDoMo - Ohjauspaneeli - Sovellukset - Yandex TTS), liitä edellisessä vaiheessa kopioitu avain API-avainkenttään, valitse ääni, mieliala ja varmista myös, että moduuli on aktivoitu:

11. Asennus tehty!

Huomio! Yandex Api -testiavain luodaan 1 kuukauden ajan, jonka jälkeen järjestelmä lopettaa uusien (ei välimuistissa olevien) lauseiden lausumisen. Pysyvän avaimen saamiseksi sinun on lähetettävä Yandexille kirje, jossa pyydetään muuttamaan avain pysyväksi.

Vielä toisessa konferenssissa 2013 esittelimme uuden Yandex SpeechKit -kirjastomme kehittäjille. Tämä on julkinen puheentunnistussovellusliittymä, jota Android- ja iOS-kehittäjät voivat käyttää. Voit ladata SpeechKitin sekä lukea dokumentaatiota.

Yandex SpeechKitin avulla voit käyttää suoraan taustajärjestelmää, jota käytetään onnistuneesti Yandexin mobiilisovelluksissa. Olemme kehittäneet tätä järjestelmää pitkään ja nyt tunnistamme oikein 94 % sanoista Navigatorissa ja Mobile Mapsissa sekä 84 % sanoista Mobile Browserissa. Tässä tapauksessa tunnistus kestää hieman yli sekunnin. Tämä on jo nyt erittäin arvokas laatu, ja pyrimme aktiivisesti parantamaan sitä.

Voidaan väittää, että lähitulevaisuudessa äänirajapinnat eivät käytännössä eroa luotettavuudessa klassisista syöttömenetelmistä. Yksityiskohtainen tarina siitä, kuinka onnistuimme saavuttamaan tällaisia ​​tuloksia ja kuinka järjestelmämme toimii, on kesken.

Puheentunnistus on yksi tekoälyn mielenkiintoisimmista ja monimutkaisimmista tehtävistä. Tässä ovat mukana hyvin eri alojen saavutukset: laskennallisesta lingvistiikasta digitaaliseen signaalinkäsittelyyn. Ymmärtääksemme, kuinka puhetta ymmärtävä kone pitäisi järjestää, on ensin ymmärrettävä, mitä olemme tekemisissä.

I. Perusteet
Kuuluva puhe on meille ennen kaikkea digitaalinen signaali. Ja jos katsomme tämän signaalin tallennusta, emme näe siellä sanoja tai selvästi ilmaistuja foneemeja - erilaiset "puhetapahtumat" virtaavat sujuvasti toisiinsa muodostamatta selkeitä rajoja. Sama lause, jota puhuvat eri ihmiset tai eri ympäristöissä, näyttää erilaiselta signaalitasolla. Samalla ihmiset tunnistavat jotenkin toistensa puheen: siksi on olemassa invariantteja, joiden mukaan signaalista voidaan palauttaa se, mitä itse asiassa sanottiin. Tällaisten invarianttien etsiminen on akustisen mallinnuksen tehtävä.

Oletetaan, että ihmisen puhe koostuu foneemista (tämä on karkea yksinkertaistus, mutta ensimmäisessä likiarvossa se on oikein). Määritellään foneemi kielen minimaaliseksi semanttiseksi yksiköksi eli ääneksi, jonka korvaaminen voi johtaa sanan tai lauseen merkityksen muutokseen. Otetaan pieni osa signaalista, sanotaan 25 millisekuntia. Kutsutaan tätä osaa "kehykseksi". Mikä foneemi lausuttiin tässä kehyksessä? Tähän kysymykseen on vaikea vastata yksiselitteisesti - monet foneemit ovat erittäin samankaltaisia ​​​​toistensa kanssa. Mutta jos on mahdotonta antaa yksiselitteistä vastausta, voidaan väittää "todennäköisyyksien" suhteen: tietylle signaalille jotkut foneemit ovat todennäköisempiä, toiset vähemmän ja toiset voidaan jättää kokonaan huomioimatta. Itse asiassa akustinen malli on toiminto, joka ottaa pienen osan akustisesta signaalista (kehyksestä) syötteenä ja tuottaa tässä kehyksessä olevien eri foneemien todennäköisyysjakauman. Siten akustinen malli antaa meille mahdollisuuden rekonstruoida äänellä sanotun - vaihtelevalla varmuudella.

Toinen tärkeä akustiikan näkökohta on siirtymän todennäköisyys eri foneemien välillä. Tiedämme kokemuksesta, että jotkut foneemien yhdistelmät ovat helppoja lausua ja niitä esiintyy usein, kun taas toisia on vaikeampi lausua ja niitä käytetään harvemmin käytännössä. Voimme yleistää tämän tiedon ja ottaa sen huomioon arvioidessaan tietyn foneemien sarjan "uskotettavuutta".

Nyt meillä on kaikki työkalut yhden automaattisen puheentunnistuksen tärkeimmistä "työhevosista" - piilotetun Markovin mallin (HMM, Hidden Markov Model) rakentamiseen. Kuvittelemme tätä varten jonkin aikaa, että emme ratkaise puheentunnistuksen ongelmaa, vaan täsmälleen päinvastaista - tekstistä puheeksi muuntamista. Oletetaan, että haluamme saada sanan "Yandex" ääntämisen. Olkoon sana "Yandex" joukosta foneemia, esimerkiksi [d][a][n][d][e][k][s]. Rakennetaan tilakone sanalle "Yandex", jossa jokaista foneemia edustaa erillinen tila. Jokaisella ajanhetkellä olemme jossakin näistä tiloista ja "äännämme" tälle foneemille ominaisen äänen (tiedämme kuinka kukin foneemista lausutaan akustisen mallin ansiosta). Mutta jotkut foneemit kestävät pitkään (kuten [a] sanassa "Yandex"), toiset käytännössä niellään. Tässä on hyödyllistä tietoa foneemien välisen siirtymän todennäköisyydestä. Kun olemme kehittäneet nykyistä tilaa vastaavan äänen, teemme todennäköisyyspäätöksen: pysyä samassa tilassa tai siirtyä seuraavaan (ja vastaavasti seuraavaan foneemiin).

Muodollisemmin HMM voidaan esittää seuraavasti. Ensin esittelemme päästön käsitteen. Kuten muistamme edellisestä esimerkistä, jokainen HMM-tila "generoi" tälle tietylle tilalle ominaisen äänen (eli foneemien). Jokaisessa kehyksessä ääni "soittuu" annettua foneemia vastaavasta todennäköisyysjakaumasta. Toiseksi, siirtymät ovat mahdollisia tilojen välillä, jotka myös noudattavat ennalta määrättyjä todennäköisyysmalleja. Esimerkiksi todennäköisyys, että foneemi [a] "venyttyy", on suuri, mitä ei voida sanoa foneemista [e]. Emissiomatriisi ja siirtymämatriisi määrittelevät yksiselitteisesti piilotetun Markovin mallin.

Okei, olemme nähneet kuinka piilotettua Markov-mallia voidaan käyttää puheen tuottamiseen, mutta kuinka voit soveltaa sitä puheentunnistuksen käänteiseen ongelmaan? Viterbi-algoritmi tulee apuun. Meillä on joukko havaittavia (itse asiassa ääni) ja todennäköisyysmalli, joka korreloi piilotiloja (foneemeja) ja havaittavia. Viterbi-algoritmin avulla voit palauttaa piilotilojen todennäköisimmän sarjan.

Olkoon tunnistussanakirjassamme vain kaksi sanaa: "Kyllä" ([d] [a]) ja "Ei" ([n "] [e] [t]). Meillä on siis kaksi piilotettua Markov-mallia. Seuraavaksi, Oletetaan, että meillä on tallenne käyttäjän äänestä, joka sanoo "kyllä" tai "ei". Viterbi-algoritmin avulla voimme saada vastauksen kysymykseen, kumpi tunnistushypoteesi on todennäköisempi.

Nyt tehtävämme on palauttaa piilotetun Markovin mallin todennäköisin tilasarja, joka "kutesi" (tarkemmin sanoen saattoi synnyttää) meille esitetyn äänitallenteen. Jos käyttäjä sanoo "kyllä", vastaava tilasarja 10 kehyksessä voi olla esimerkiksi [d][d][d][d][a][a][a][a][a] [a] tai [e][a][a][a][a][a][a][a][a][a]. Samoin eri ääntämiset sanalle "ei" ovat mahdollisia - esimerkiksi [n "] [n"] [n"] [e] [e] [e] [e] [t] [t] [t] ja [n " ] [n "] [e] [e] [e] [e] [e] [e] [t] [t]. Nyt löydämme "parhaan", eli todennäköisimmän tavan lausua jokainen Jokaisessa kehyksessä kysymme akustiselta malliltamme kuinka todennäköistä on, että tietty foneemi kuuluu tässä (esim. [d] ja [a]), lisäksi otamme huomioon siirtymistodennäköisyydet ([d] ->[d], [d]->[ a], [a]->[a]). Joten saamme todennäköisimmän tavan lausua jokainen hypoteesi; lisäksi jokaiselle niistä saamme mittaa, kuinka todennäköistä on, että tämä tietty sana lausuttiin (voimme pitää tätä mittaa vastaavan kaavion läpi kulkevan lyhimmän polun pituutena).

Viterbi-algoritmi on melko yksinkertainen toteuttaa (dynaamista ohjelmointia käytetään) ja ajaa HMM-tilojen määrän ja kehysten määrän tuloon verrannollisesti. Aina ei kuitenkaan riitä, että tiedämme todennäköisimmän polun; esimerkiksi akustista mallia opetettaessa on arvioitava kunkin tilan todennäköisyys jokaisessa kehyksessä. Tätä varten käytetään Forward-Backward-algoritmia.

Akustinen malli on kuitenkin vain osa järjestelmää. Entä jos tunnistussanakirja ei koostu kahdesta sanasta, kuten edellä käsitellyssä esimerkissä, vaan sadoista tuhansista tai jopa miljoonista? Monet heistä ovat ääntämisessä hyvin samankaltaisia ​​tai jopa osuvat yhteen. Samalla kontekstin läsnäollessa akustiikan rooli putoaa: epäselvät, meluisat tai moniselitteiset sanat voidaan palauttaa "merkityksellä". Jälleen todennäköisyysmalleja käytetään kontekstin huomioon ottamiseksi. Esimerkiksi venäjän kielen äidinkielenään puhuva ymmärtää, että lauseen "äiti pesi kehyksen" luonnollisuus (meidän tapauksessamme todennäköisyys) on suurempi kuin "äiti pesi syklotronin" tai "äiti pesi kehyksen". Toisin sanoen kiinteän kontekstin "saippuaäiti ..." läsnäolo määrittää seuraavan sanan todennäköisyysjakauman, joka heijastaa sekä semantiikkaa että morfologiaa. Tämän tyyppisiä kielimalleja kutsutaan n-gram-kielimalleiksi (edellä olevassa esimerkissä trigrammit); Tietenkin on olemassa paljon monimutkaisempia ja tehokkaampia tapoja mallintaa kieltä.

II. Mitä Yandex ASR:n konepellin alla on?
Nyt kun kuvittelemme puheentunnistusjärjestelmien yleisen rakenteen, kuvailemme yksityiskohtaisemmin Yandex-tekniikan yksityiskohdat - tietojemme mukaan paras venäläinen puheentunnistusjärjestelmä.
Yllä olevissa leluesimerkeissä teimme tarkoituksella muutamia yksinkertaistuksia ja jätimme pois useita tärkeitä yksityiskohtia. Erityisesti väitimme, että puheen perus "rakennuspalikka" on foneemi. Itse asiassa foneemi on liian suuri yksikkö; Yhden foneemin ääntämisen mallintamiseksi riittävästi, käytetään kolmea eri tilaa - foneemin alkua, keskikohtaa ja loppua. Yhdessä ne muodostavat saman HMM:n, kuten yllä on esitetty. Lisäksi foneemit ovat sijainnista ja kontekstista riippuvaisia: muodollisesti "sama" foneemi kuulostaa merkittävästi erilaiselta riippuen siitä, missä sanan osassa se on ja minkä foneemien vieressä se on. Kuitenkin yksinkertainen luettelo kaikista mahdollisista kontekstiriippuvaisten foneemien muunnelmista palauttaa erittäin suuren määrän yhdistelmiä, joista monet eivät koskaan esiinny tosielämässä; Jotta akustisten tapahtumien lukumäärää pidettäisiin kohtuullisena, läheiset kontekstista riippuvat foneemit yhdistetään varhaisessa koulutuksessa ja niitä tarkastellaan yhdessä.
Niinpä teimme ensinnäkin foneemit kontekstiriippuvaisena ja toiseksi jaoimme niistä jokaisen kolmeen osaan. Nämä esineet - "foneemien osat" - muodostavat nyt foneettisen aakkosemme. Niitä kutsutaan myös senoneiksi. Jokainen HMM-tila on senone. Mallissamme käytetään 48 foneemia ja noin 4000 senonia.

Joten akustinen mallimme ottaa edelleen äänen tulona ja lähdössä antaa todennäköisyysjakauman senoneille. Katsotaan nyt, mitä tarkalleen syötetään. Kuten sanoimme, ääni leikataan 25 ms:n osiin ("kehykset"). Pääsääntöisesti viipalointivaihe on 10 ms, joten viereiset kehykset menevät osittain päällekkäin. On selvää, että "raaka" ääni - värähtelyjen amplitudi ajan myötä - ei ole informatiivisin muoto akustisen signaalin esitysmuodossa. Tämän signaalin spektri on jo paljon parempi. Käytännössä käytetään yleensä logaritmista ja skaalattua spektriä, joka vastaa ihmisen kuuloaistin (Mel-transformation) lakeja. Saaduille arvoille suoritetaan diskreetti kosinimuunnos (DCT), ja tuloksena on MFCC - Mel Frequency Cepstral Coefficients. (Sana Cepstral saadaan järjestämällä kirjaimet uudelleen Spectralissa, mikä kuvastaa ylimääräisen DCT:n läsnäoloa). MFCC on 13 (yleensä) reaaliluvun vektori. Niitä voidaan käyttää raaka-akustisen mallin syötteenä, mutta niihin tehdään useammin monia lisämuunnoksia.

Akustisen mallin koulutus on monimutkainen ja monivaiheinen prosessi. Koulutukseen käytetään Expectation-Maximization -perheen algoritmeja, kuten Baum-Welsh-algoritmia. Tällaisten algoritmien ydin on kahden vaiheen vuorottelu: Odotus-vaiheessa olemassa olevaa mallia käytetään todennäköisyysfunktion odotuksen laskemiseen, Maksimointivaiheessa mallin parametreja muutetaan siten, että ne maksimoivat. tämä arvio. Harjoittelun alkuvaiheessa käytetään yksinkertaisia ​​akustisia malleja: syötteenä annetaan yksinkertaisia ​​MFCC-ominaisuuksia, foneemeja tarkastellaan ilman kontekstiriippuvuutta, emission mallintamiseen käytetään Gaussin sekoitusta diagonaalisten kovarianssimatriisien kanssa (Diagonal GMMs - Gaussian Mixture Models). todennäköisyys HMM:ssä. Jokaisen edellisen akustisen mallin tulokset ovat lähtökohta monimutkaisemman mallin koulutukselle, jossa on monimutkaisempi tulo-, lähtö- tai päästötodennäköisyysjakaumafunktio. Akustista mallia voidaan parantaa monella tapaa, mutta merkittävin vaikutus on siirtyminen GMM-mallista DNN-verkkoon (Deep Neural Network), mikä lähes kaksinkertaistaa tunnistuslaadun. Neuroverkot ovat vapaita monista Gaussin seosten rajoituksista ja niillä on parempi yleistyskyky. Lisäksi hermoverkkoihin perustuvat akustiset mallit kestävät paremmin melua ja niiden suorituskyky on parempi.

Akustisen mallinnuksen hermoverkkoa koulutetaan useassa vaiheessa. Neuroverkon alustamiseen käytetään pinoa Restricted Boltzmann Machines (RBM). RBM on stokastinen hermoverkko, joka harjoittelee ilman opettajaa. Vaikka hänen oppimiaan painoja ei voida suoraan käyttää akustisten tapahtumien luokkien erottamiseen, ne kuvaavat puheen rakennetta yksityiskohtaisesti. Voit ajatella RBM:ää ominaisuuksien poimijana – tuloksena oleva generatiivinen malli on erinomainen lähtökohta erottavan mallin rakentamiselle. Diskriminatiivista mallia opetetaan käyttämällä klassista backpropagation algoritmia, samalla kun käytetään useita tekniikoita, jotka parantavat konvergenssia ja estävät ylisovituksen. Seurauksena on, että neuroverkon sisääntulossa on useita MFCC-ominaisuuksien kehyksiä (keskuskehys on luokituksen alainen, loput muodostavat kontekstin), lähdössä on noin 4000 eri senoneja vastaavaa neuronia. Tätä hermoverkkoa käytetään akustisena mallina tuotantojärjestelmässä.

Katsotaanpa lähemmin dekoodausprosessia. Ensimmäisessä osassa kuvattu lähestymistapa ei sovellu spontaanin puheentunnistuksen ongelmaan suurella sanavarastolla. Tarvitaan tietorakenne, joka yhdistää kaikki mahdolliset järjestelmän tunnistamat lauseet. Sopiva rakenne on painotettu finite-state-muunnin (WFST) - itse asiassa vain äärellistilakone, jonka reunoilla on lähtönauha ja painot. Tämän automaatin sisääntulossa on senoneja, ulostulossa sanoja. Dekoodausprosessi tiivistyy siihen, että valitaan paras polku tässä automaatissa ja tarjotaan tätä polkua vastaava sanasarja. Tässä tapauksessa kutakin kaaria pitkin kulkemisen hinta koostuu kahdesta osasta. Ensimmäinen komponentti tunnetaan etukäteen ja se lasketaan automaatin kokoonpanovaiheessa. Se sisältää ääntämisen kustannukset, siirtymisen tiettyyn tilaan, todennäköisyysarvioinnin kielimallilla. Toinen komponentti lasketaan erikseen tietylle kehykselle: se on senonin akustinen paino, joka vastaa tarkasteltavan kaaren syöttösymbolia. Dekoodaus tapahtuu reaaliajassa, joten kaikkia mahdollisia polkuja ei tutkita: erikoisheuristiikka rajoittaa hypoteesijoukon todennäköisimpiin.

Tietysti mielenkiintoisin osa teknisestä näkökulmasta on tällaisen automaatin rakentaminen. Tämä tehtävä ratkaistaan ​​offline-tilassa. Jotta voimme siirtyä kunkin kontekstiherkän foneemin yksinkertaisista HMM:istä kunkin sanan lineaarisiin automaatteihin, meidän on käytettävä ääntämissanakirjaa. Tällaisen sanakirjan luominen ei ole mahdollista manuaalisesti, ja tässä käytetään koneoppimismenetelmiä (ja itse tehtävää kutsutaan tiedeyhteisössä nimellä Grapheme-To-Phoneme tai G2P). Sanat "liittyvät" puolestaan ​​toistensa kanssa kielimalliksi, joka esitetään myös äärellisenä tilakoneena. Keskeinen toiminta tässä on WFST-kokoonpano, mutta myös erilaiset tekniikat WFST:n optimoimiseksi koon ja muistin pinoamisen tehokkuuden kannalta ovat tärkeitä.

Dekoodausprosessin tulos on luettelo hypoteeseista, joita voidaan käsitellä edelleen. Esimerkiksi tehokkaampaa kielimallia voidaan käyttää todennäköisimpien hypoteesien uudelleenjärjestykseen. Tuloksena oleva luettelo palautetaan käyttäjälle luotettavuuden arvon mukaan lajiteltuna - sen mukaan, kuinka paljon olemme varmoja siitä, että tunnistus oli oikein. Usein jäljelle jää vain yksi hypoteesi, jolloin asiakassovellus jatkaa välittömästi äänikomennon suorittamista.

Lopuksi tarkastellaan kysymystä puheentunnistusjärjestelmien laatumittareista. Suosituin mittari on Word Error Rate (ja sen käänteinen sanatarkkuus). Pohjimmiltaan se heijastaa väärin tunnistettujen sanojen osuutta. Sanavirhesuhteen laskemiseen puheentunnistusjärjestelmälle käytetään manuaalisesti merkittyjä puhekyselyiden korporaatioita, jotka vastaavat puheentunnistusta käyttävän sovelluksen aihetta.

Joskus meidän on luettava painettua tekstiä äänellä. Useimmiten tällaisia ​​ohjelmia käyttävät ne, jotka oppivat vieraita kieliä oikean intonaation ja stressin määrittämiseen, myös kirjojen lukemiseen ja yksinkertaisesti hauskanpitoon ja pilaamiseen. Tekstin ääninäytöksen käyttämiseksi ei tarvitse ladata ohjelmia tietokoneellesi, koska niitä on verkkoversiossa (toisin kuin) riittävä määrä. Tässä artikkelissa tarkastellaan parhaita ihmisen puhesyntetisaattoreita, joita voit käyttää verkossa.

Translate.google.com on ilmainen tekstin käännös- ja synteesipalvelu.

Google-kääntäjä on yksi suosituimmista ja parhaista palveluista, joka tarjoaa erilaisia ​​palveluita. Esimerkiksi tunnetun kääntäjän tehtävänä on puhua syötetty teksti ja kaikilla tuetuilla kielillä. Äänenlaatu on paikoin hieman heikko, mutta yleisesti ottaen hyväksyttävä. Jos käännät painettua tekstiä puheeksi kieltenoppimista varten, Google Translate -syntetisaattori on täydellinen sinulle. Tärkeintä tässä palvelussa on, että se on yksinkertainen ja kaikkien Internetin käyttäjän saatavilla.


Tekstin syntetisoiminen osoitteessa Translate.google.com

Googlen palvelun käyttäminen:

  1. Siirry osoitteeseen https://translate.google.com ;
  2. Valitse haluamasi kieli napsauttamalla "Määritä kieli" -painiketta;
  3. Kirjoita sitten teksti ikkunaan, jossa valitsit kielen;
  4. Napsauta nyt ikkunan alareunassa olevaa gramofonikuvaketta ja kuulet tekstin toiston naisäänellä.

Sen haittapuoli on kyvyttömyys ladata toistettua puhesynteesiä tiedostona tietokoneellesi. Myöskään ääniasetuksia tai esittäjän valintaa ei ole.

Acapela - ilmainen tekstistä puheeksi ohjelmisto

Acapela on suosituin ja yksi parhaista online-puhesyntetisaattoreista. Palvelu tukee yli 30 kieltä sekä suurta määrää esiintyjiä, joista valita, sekä miehiä että naisia. Englannin kielessä on valittavana jopa 20 sointia - nainen, mies, teini, lapsi, karkea mies, pehmeä nainen jne. Ohjelma on erittäin muokattavissa ja helppokäyttöinen. Sivustolla on ohjelma offline-käyttöön. Sinulla on mahdollisuus kokeilla puhesyntetisaattorin demoversiota napsauttamalla vastaavaa kohtaa valikkorivillä.


Kuinka käyttää Acapelaa

Voit määrittää online-puhesynteesin käyttämällä sivun vasemmassa reunassa olevaa lohkoa http://www.acapela-group.com/voices/demo/ .

Joten miten se toimii:

  1. Valitse ensimmäisellä rivillä puhutun tekstin kieli.
  2. Toista riviä ei tarvita, jos valitset venäjän, koska vaihtoehtoja on vain yksi - Alyona.
  3. Kirjoita kolmannelle riville teksti, jonka haluat äänittää. Voit syöttää enintään 300 merkkiä.
  4. Hyväksy seuraavaksi palvelun ehdot valitsemalla ruutu "Hyväksyn ehdot".
  5. Napsauta alla olevaa "Hyväksy käyttöehdot" -painiketta.

Äänitoiminta tämän palvelun kautta on keskimääräistä laatua. Intonaatio on oikea melkein kaikissa sanoissa. Tuote on saatavilla kaikille alustoille.

Next.2yxa.mobi - online-palvelu tekstin lukemiseen

Next.2yxa.mobi -verkkopalvelu on yksinkertainen ja edullinen syntetisaattori kirjoitetun tekstin toistamiseen. Sivusto on kehitetty mobiililaitteille, joten verkkoselaimen kautta syöttämällä saamme käyttöön kevyen ja nopean tekstin synteesityökalun. Tältä osin sivustolla on joitain rajoituksia sen toiminnassa. Jos esimerkiksi sinun on "luettava" ladattu teksti, tiedoston koko ei saa ylittää 100 kt. Voit kirjoittaa tekstin ja sanoa sen välittömästi.

Tätä varten tarvitset:


Vocalizer - äänisyntetisaattori online-tekstin toistoon

Toinen ulkomaisten kehittäjien luomista parhaista puhesyntetisaattoreista ääninäyttelijöiden testaukseen verkossa, on Vocalizer. Se on saatavilla osoitteessa http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html. Tämä on yksinkertainen ja ymmärrettävä palvelu. Valikko ja käyttöliittymä ovat täysin englanninkielisiä, mutta se on erittäin helppo selvittää. Voimme käyttää verkkopalvelua demoversiona. Järjestelmä tarjoaa sinulle 100 erilaista äänivaihtoehtoa ja 47 kieltä.


Kuinka käyttää Vocalizeria

Puheen syntetisointi verkossa tällä ohjelmalla on hyvin yksinkertaista. Tätä varten:

  1. Valitse "Kieli / murre" -kohdassa kieli;
  2. Valitse "Sukupuoli" -kohdassa miehen tai naisen ääninäyttelijä (mies - mies, nainen - nainen);
  3. Syötä alla olevaan suureen lohkoon teksti äänitystä varten ja paina sivulla olevaa sinistä painiketta pelataksesi.