Editarea vocală interactivă a textului folosind noile tehnologii de vorbire de la Yandex. Pronunție și intonație

Astăzi, aplicația noastră Dictation pentru scrierea interactivă și editarea textului prin voce a apărut în AppStore și Google Play. A lui sarcina principală- să demonstreze unele dintre noile caracteristici ale complexului tehnologii de vorbire Yandex. Este vorba despre ceea ce este interesant și unic despre tehnologiile noastre de recunoaștere și sinteză a vorbirii despre care vreau să vorbesc în această postare.

Câteva cuvinte pentru a înțelege ce se va discuta. Yandex a furnizat de mult timp un API mobil gratuit care poate fi utilizat, de exemplu, pentru recunoașterea adreselor și interogările de căutare vocală. Pe parcursul acestui an, am reușit să-i aducem calitatea aproape la același nivel la care astfel de solicitări și observații sunt înțelese de oamenii înșiși. Și acum facem urmatorul pas- model de recunoaștere discurs liber pe orice subiect.

În plus, sinteza noastră de vorbire susține emoțiile din voce. Și, din câte știm, aceasta este prima sinteză de vorbire disponibilă comercial cu această capacitate.

Citiți despre toate acestea, precum și despre câteva alte caracteristici ale SpeechKit: activarea vocală, punctuația automată și recunoașterea obiectelor semantice din text - citiți mai jos.

ASR omnivor și calitatea recunoașterii

Sistemul de recunoaștere a vorbirii din SpeechKit funcționează cu tipuri diferite text și Anul trecut am lucrat la extinderea domeniului său de aplicare. Pentru a face acest lucru, am creat un nou model de limbaj, cel mai mare de până acum, pentru recunoaștere texte scurte pe orice subiect.

Pe anul trecut proporția relativă a cuvintelor recunoscute eronat (Word Error Rate) a scăzut cu 30%. De exemplu, astăzi SpeechKit recunoaște corect 95% din adrese și obiecte geografice, apropiindu-se de o persoană care înțelege 96-98% din cuvintele pe care le aude. Completitudinea recunoașterii noului model de dictare diverse texte acum este de 82%. Cu acest nivel, puteți crea o soluție completă pentru utilizatorii finali, ceea ce am vrut să arătăm în exemplul Dictării.

Inițial, SpeechKit a funcționat numai pentru interogări de căutare: subiecte generaleși geonavigația. Deși chiar și atunci am plănuit să facem nu doar un instrument suplimentar de introducere, o tastatură „voce”, ci și o interfață universală care să înlocuiască complet orice interacțiune cu sistemul cu o conversație live.

Pentru a face acest lucru, a fost necesar să înveți să recunoști orice discurs, texte pe o temă arbitrară. Și am început să lucrăm la un model de limbă separat pentru aceasta, care a fost de câteva ori mai mare decât modelele existente de geo-navigație și căutare generală.

Această dimensiune a modelului a stabilit noi condiții în ceea ce privește resursele de calcul. Pentru fiecare cadru sunt luate în considerare câteva mii de opțiuni de recunoaștere - și cu cât reușim mai mult, cu atât calitatea este mai mare. Și sistemul ar trebui să funcționeze într-un flux, în timp real, astfel încât toate calculele trebuie optimizate dinamic. Am experimentat, încercat, căutat o abordare: am obținut accelerație, de exemplu, prin schimbarea bibliotecii de algebră liniară.

Dar cel mai important și mai dificil lucru a fost să colectezi suficiente date corecte potrivite pentru predarea vorbirii în flux. În prezent, aproximativ 500 de ore de vorbire transcrisă manual sunt folosite pentru a antrena modelul acustic. Nu e ca asta baza mare- pentru comparație, popularul organism științific Switchboard, care este adesea folosit în scopuri de cercetare, conține aproximativ 300 de ore de conversații live, spontane. Desigur, o creștere a bazei contribuie la creșterea calității modelului antrenat, dar ne concentrăm pe pregătire adecvată date și modelați cu acuratețe transcripțiile, ceea ce ne permite să ne antrenăm cu o calitate acceptabilă pe o bază relativ mică.

Câteva cuvinte despre cum funcționează modulul de recunoaștere (am vorbit despre asta în detaliu în urmă cu ceva timp). Fluxul de vorbire înregistrat este tăiat în cadre de 20 ms, spectrul semnalului este scalat, iar după o serie de transformări se obțin MFCC-uri pentru fiecare cadru.

Coeficienții sunt introduși în modelul acustic, care calculează distribuția probabilității pentru aproximativ 4000 de senoni în fiecare cadru. Senon este începutul, mijlocul sau sfârșitul unui fonem.

Modelul acustic SpeechKit este construit pe o combinație de modele Markov ascunse și o rețea neuronală profundă (feedforward DNN). Aceasta este deja o soluție dovedită, iar în ultimul articol am vorbit despre modul în care abandonarea amestecurilor gaussiene în favoarea DNN a dat un salt aproape de două ori în calitate.

Apoi vine primul model de limbaj: mai multe WFST - traductoare finale ponderate - transformă senone în foneme dependente de context, iar din ele se construiesc cuvinte întregi cu ajutorul unui dicționar de pronunție și se obțin sute de ipoteze pentru fiecare cuvânt.

Prelucrarea finală are loc în modelul a doua limbă. La acesta este conectat RNN , o rețea neuronală recurentă, iar acest model ierarhizează ipotezele primite, ajutând la alegerea celei mai plauzibile opțiuni. Rețeaua de tip recurent este deosebit de eficientă pentru modelul de limbaj. Determinând contextul fiecărui cuvânt, se poate lua în considerare influența nu numai a celor mai apropiate cuvinte, ca într-o rețea neuronală feed-forward (să zicem, pentru un model de trigramă, acestea sunt două cuvinte anterioare), ci și a celor mai îndepărtate, parcă le-ar „aminti”.

Recunoașterea textului conectat lung este disponibilă în SpeechKit Cloud și SpeechKit Mobile SDK - pentru a utiliza noul model de limbă, trebuie să selectați subiectul „note” în parametrii de interogare.

Activare vocală

A doua componentă cheie a interfeței vocale este sistemul de activare vocală, care declanșează acțiunea dorită ca răspuns la o frază cheie. Fără acesta, nu va fi posibil să „dezlegați pe deplin mâinile” utilizatorului. Am dezvoltat propriul nostru modul de activare vocală pentru SpeechKit. Tehnologia este foarte flexibilă - un dezvoltator care folosește biblioteca SpeechKit poate alege orice expresie cheie pentru aplicația sa.

Spre deosebire, de exemplu, de soluțiile Google - dezvoltatorii lor le folosesc pentru a recunoaște slogan„OK Google” adânc Retea neurala. DNN dă calitate superioară, dar sistemul de activare este limitat la o singură comandă, iar pentru învățare este necesar o cantitate mare date. De exemplu, un model pentru recunoașterea unei fraze familiare a fost instruit pe exemplul a peste 40.000 de voci de utilizatori care și-au accesat smartphone-urile cu Google Now.

Prin abordarea noastră, modulul de activare vocală este, de fapt, un sistem de recunoaștere în miniatură. Funcționează doar în condiții mai dure. În primul rând, recunoașterea comenzii ar trebui să aibă loc pe dispozitivul însuși, fără a contacta serverul. Și puterea de calcul a smartphone-ului este foarte limitată. Consumul de energie este, de asemenea, critic - dacă un modul de recunoaștere obișnuit este pornit doar pentru un anumit timp pentru a procesa o anumită solicitare, atunci modulul de activare funcționează constant, în modul de așteptare. Și, în același timp, nu ar trebui să planteze bateria.

Cu toate acestea, există o îngăduință - sistemul de activare are nevoie de un dicționar foarte mic, pentru că este suficient ca acesta să înțeleagă câteva fraze cheie, iar restul discursului poate fi pur și simplu ignorat. Prin urmare, modelul limbajului de activare este mult mai compact. Majoritatea stărilor WFST corespund unei anumite părți a comenzii noastre - de exemplu, „începutul celui de-al patrulea fonem”. Există, de asemenea, stări „gunoi” care descriu tăcerea, zgomot străinși toate celelalte discursuri, altele decât fraza cheie. Dacă un model de recunoaștere cu drepturi depline în SpeechKit are zeci de milioane de stări și durează până la 10 gigaocteți, atunci pentru activarea vocală este limitat la sute de stări și se încadrează în câteva zeci de kiloocteți.

Prin urmare, un model pentru recunoașterea unei noi fraze cheie este construit fără dificultate, permițându-vă să scalați rapid sistemul. Există o condiție - comanda trebuie să fie suficient de lungă (de preferință - mai mult de un cuvânt) și să apară rar în vorbire de zi cu zi pentru a evita fals pozitive. „Te rog” nu este bun pentru activarea vocală, dar „ascultă comanda mea” este bine.

Împreună cu un model de limbaj limitat și cu acustica „ușoară”, recunoașterea comenzilor este în puterea oricărui smartphone. Rămâne să ne ocupăm de consumul de energie. Sistemul are un detector de activitate vocală încorporat, care monitorizează aspectul unei voci umane în fluxul audio de intrare. Alte sunete sunt ignorate, astfel încât în ​​fundal consumul de energie al modulului de activare este limitat doar la microfon.

sinteza vorbirii

A treia componentă principală a tehnologiei vorbirii este sinteza vorbirii (text-to-speech). Soluția TTS SpeechKit vă permite să exprimați orice text cu o voce masculină sau feminină și chiar să întrebați emoția potrivită. Niciunul dintre motoarele de voce cunoscute de pe piață nu are această capacitate.

Există mai multe fundamentale tehnologii diferite sinteza vorbirii, iar în majoritatea sisteme moderne sinteza concatenativă este utilizată prin metoda „selecției unității”. Eșantionul de voce preînregistrat este tăiat în specific elementele constitutive(de exemplu, foneme dependente de context) din care este compusă baza de vorbire. Apoi oricare cuvintele potrivite asamblate din unități individuale. Se dovedește o imitație credibilă a unei voci umane, dar este greu de perceput - salturile de timbru, intonațiile nenaturale și tranzițiile ascuțite apar la joncțiunile unităților individuale. Acest lucru este vizibil mai ales atunci când exprimați un text lung conectat. Calitatea unui astfel de sistem poate fi îmbunătățită prin creșterea volumului bazei de vorbire, dar acesta este un lung și muncă minuțioasă, necesitând implicarea unui crainic profesionist și foarte răbdător. Iar caracterul complet al bazei rămâne întotdeauna blocajul sistemului.

În SpeechKit, am decis să folosim sinteza statistică (parametrică) a vorbirii bazată pe modele Markov ascunse. Procesul este în esență similar cu recunoașterea, doar că are loc în direcție inversă. Text sursă este transmis la modulul G2P (grafem-to-phoneme), unde este convertit într-o secvență de foneme.

Apoi intră în modelul acustic, care generează vectori care descriu caracteristicile spectrale ale fiecărui fonem. Aceste numere sunt transmise vocoderului, care sintetizează sunetul.

Timbrul unei astfel de voci este oarecum „de calculator”, dar are intonații naturale și netede. În același timp, netezimea vorbirii nu depinde de volum și lungime. text lizibil iar vocea este ușor de reglat. Este suficient să specificați o cheie în parametrii de solicitare, iar modulul de sinteză va emite un vot cu colorare emoțională. Desigur, niciun sistem de selecție a unităților nu poate face acest lucru.

Pentru ca modelul de voce să poată construi algoritmi corespunzători diverselor emoții, a fost nevoie calea cea buna antrenează-o. Așadar, în timpul înregistrării, colega noastră Evgenia, a cărei voce se aude în SpeechKit, și-a rostit pe rând replicile cu o voce neutră, veselă și, dimpotrivă, enervată. Pe parcursul antrenamentului, sistemul a identificat și descris parametrii și caracteristicile vocii corespunzătoare fiecăreia dintre aceste stări.

Nu toate modificările vocii sunt bazate pe învățare. De exemplu, SpeechKit vă permite și să colorați vocea sintetizată cu parametrii „beat” și „bolnav”. Dezvoltatorii noștri le-a părut rău pentru Zhenya și nu a trebuit să se îmbată înainte de a înregistra sau să alerge în frig pentru a se răci bine.

Pentru o voce beată, vorbirea este încetinită într-un mod special - fiecare fonem sună de aproximativ două ori mai lent, ceea ce dă un efect caracteristic. Și pentru pacient, pragul sonorității crește - de fapt, se modelează ceea ce se întâmplă cu corzile vocale ale unei persoane cu laringită. Sonoritatea diferitelor foneme depinde dacă aerul trece liber prin tractul vocal uman sau dacă sunetele vibratoare îi stau în cale. corzi vocale. În modul „boală”, fiecare fonem este mai puțin probabil să fie exprimat, ceea ce face ca vocea să fie răgușită, plantată.

Metoda Statistică permite, de asemenea, extinderea rapidă a sistemului. În modelul de selecție a unității, pentru a adăuga o nouă voce, trebuie să creați o bază de vorbire separată. Crainicul trebuie să înregistreze multe ore de vorbire, păstrând în același timp aceeași intonație fără cusur. În SpeechKit, pentru a crea o nouă voce, este suficient să înregistrați cel puțin două ore de vorbire - aproximativ 1800 de propoziții speciale, echilibrate fonetic.

Izolarea obiectelor semantice

Este important nu numai să traduceți cuvintele pe care o persoană le rostește în litere, ci și să le umpleți cu sens. A patra tehnologie formă limitată disponibil în SpeechKit Cloud, nu afectează direct lucrul cu vocea - începe să funcționeze după ce cuvintele rostite sunt recunoscute. Dar fără el, nu se poate realiza un teanc complet de tehnologii de vorbire - aceasta este selecția obiectelor semantice în vorbirea naturală, care la ieșire oferă nu doar text recunoscut, ci deja marcat.

Acum SpeechKit implementează selecția de date și ore, nume complete, adrese. Sistemul hibrid combină gramatici fără context, dicționare Cuvinte cheieși date statistice de căutare și diverse servicii Yandex, precum și algoritmi învățare automată. De exemplu, în expresia „să mergem pe strada Leo Tolstoi”, cuvântul „stradă” ajută sistemul să determine contextul, după care obiectul corespunzător este localizat în baza de date Yandex.Maps.

În Dictation, am construit pe această tehnologie funcția de editare a textului prin voce. Abordarea extragerii entităților este fundamental nouă, iar accentul este pus pe simplitatea configurării - nu trebuie să cunoașteți programarea pentru a configura sistemul.

Intrarea sistemului este o listă tipuri diferite obiecte și exemple de fraze din vorbirea în direct care le descriu. În plus, modelele sunt formate din aceste exemple folosind metoda Pattern Mining. Ei iau in calcul forma initiala, rădăcini, variații morfologice ale cuvintelor. urmatorul pas exemple de utilizare a obiectelor selectate în diferite combinații pentru a ajuta sistemul să înțeleagă contextul. Pe baza acestor exemple se construiește un model Markov ascuns, în care obiectele selectate în replica utilizatorului devin stări observabile, iar obiectele care le corespund din câmpul subiect cu o valoare deja cunoscută devin stări ascunse.

De exemplu, există două expresii: „inserați „bună prietene” la început” și „lipire din clipboard”. Sistemul stabilește că în primul caz după „lipire” (acțiune de editare) există un text arbitrar, iar în al doilea - un obiect cunoscut de acesta („clipboard”) și reacționează diferit la aceste comenzi. LA sistem tradițional acest lucru ar necesita scrierea regulilor sau a gramaticilor de mână și în tehnologie nouă Analiza contextului Yandex are loc automat.

Autopunctuație

Când dictați ceva, vă așteptați să vedeți semne de punctuație în textul rezultat. Și ar trebui să apară automat, astfel încât să nu trebuiască să vorbiți cu interfața într-un stil telegraf: „Dragă prieten - virgulă - ce mai faci - semnul întrebării". Prin urmare, SpeechKit este completat de un sistem automat de punctuație.

Rolul semnelor de punctuație în vorbire este jucat de pauzele intonaționale. Prin urmare, inițial am încercat să construim un model acustic și lingvistic complet pentru recunoașterea lor. Fiecărui semn de punctuație i-a fost atribuit un fonem, iar din punctul de vedere al sistemului, în vorbirea recunoscută au apărut noi „cuvinte”, constând în întregime din astfel de foneme de „punctuație” - unde au existat pauze sau intonație schimbată într-un anumit fel.

O mare dificultate a apărut cu datele pentru antrenament - în majoritatea corpurilor există deja texte normalizate în care semnele de punctuație sunt omise. De asemenea, aproape nu există semne de punctuație în textele interogărilor de căutare. Am apelat la Ekho Moskvy, care transcrie manual toate emisiunile lor și ne-au permis să le folosim arhiva. A devenit rapid clar că aceste transcrieri nu erau potrivite pentru scopurile noastre - au fost făcute aproape de text, dar nu literal și, prin urmare, nu erau potrivite pentru învățarea automată. Următoarea încercare a fost făcută cu audiobooks, dar în cazul lor, dimpotrivă, calitatea a fost prea mare. Vocile bine plasate, care recitează expresiv textul, sunt prea departe viata reala, iar rezultatele instruirii pe astfel de date nu au putut fi aplicate în dictare spontană.

A doua problemă a fost că abordarea aleasă a avut un impact negativ asupra calitate generală recunoaştere. Pentru fiecare cuvânt, modelul lingvistic ia în considerare mai multe cuvinte învecinate pentru a determina corect contextul, iar cuvintele suplimentare de „punctuație” l-au restrâns inevitabil. Câteva luni de experimentare nu au dus la nimic.

A trebuit să încep cu tabula rasa- am decis să punem semne de punctuație deja în stadiul de post-procesare. Am început cu una dintre cele mai simple metode, care, în mod ciudat, a dat rezultate destul de acceptabile în final. Pauzele dintre cuvinte primesc unul dintre semnele: spațiu, punct, virgulă, semn de întrebare, Semn de exclamare, colon. Pentru a prezice ce etichetă corespunde unei anumite pauze, se utilizează metoda câmpurilor aleatoare condiționale (CRF). Pentru a determina contextul, se iau în considerare trei cuvinte precedente și două cuvinte ulterioare, iar aceste reguli simple vă permit să plasați semne cu o precizie destul de mare. Dar continuăm să experimentăm modele cu drepturi depline care vor putea interpreta corect intonațiile umane în termeni de punctuație chiar și în stadiul recunoașterii vocii.

Planuri de viitor

Astăzi, SpeechKit este utilizat în mod activ pentru a rezolva sarcini de „combate” în serviciile de masă pentru utilizatorii finali. Următoarea etapă este să înveți să recunoști vorbirea spontană într-un flux live, astfel încât să poți transcrie un interviu în timp real sau să iei automat notițe la o prelegere, primind text deja marcat la ieșire, cu teze evidențiate și fapte cheie. Aceasta este o sarcină uriașă și foarte intensă în știință pe care nimeni din lume nu a reușit să o rezolve încă - și nu ne plac alții!

Pentru dezvoltarea SpeechKit este foarte importantă Părere. A pune

este un serviciu de recunoaștere și sinteză a vorbirii al platformei Yandex.Cloud care oferă dezvoltatorilor acces la tehnologiile de vorbire Yandex. În acest articol vom vorbi despre sinteza vorbirii.

Tehnologia de sinteză a vorbirii vă permite să traduceți textul în vorbire (fișier de sunet). Sarcina este relevantă pentru exprimarea informațiilor actualizate dinamic sau a datelor în schimbare rapidă, cum ar fi soldul mărfurilor din depozit, repertoriul cinematografelor și așa mai departe. Tehnologia de sinteză a vorbirii Yandex se bazează pe modelele Markov ascunse (HMM). Prin utilizarea unei abordări statistice în modelarea acustică, este posibil să se obțină intonații naturale netede. Tehnologia vă permite să creați rapid voci noi și să sintetizați diferite emoții.

Sinteza vocală Yandex vă permite să alegeți:

  • bărbat sau voce feminină pentru actorie vocală;
  • emoții: voce bună, furiosă, neutră.

Documentația pentru API-ul de recunoaștere și sinteză a vorbirii Yandex SpeechKit este disponibilă la https://cloud.yandex.ru/docs/speechkit/

Utilizarea unei componente

Începând cu Oktell 2.12, componenta de sinteză a vorbirii a apărut în serviciul și scripturile IVR. Componenta exprimă fraza specificată (sintetizează vorbirea) folosind serviciul Yandex SpeechKit. Vă permite să redați imediat fișierul în linie sau să generați un fișier pentru utilizare ulterioară. Puteți activa memoria cache în componentă, salvând astfel toate fișierele generate în folderul \Oktell\Server\LocalStorage\SynthesisCache. Deoarece fiecare solicitare către serviciul Yandex este plătită, memoria cache inclusă vă permite să economisiți banii.

Documentatia tehnica pentru componenta:

Pentru a utiliza sistemul de sinteză a vorbirii Yandex SpeechKit, procedați în felul următor:

  • Urmați pașii 1-5 din instrucțiunile pentru a autoriza în API pentru a obține ID-ul directorului
  • Conectați-vă la contul Yandex sau Yandex.Connect
  • Obțineți un token OAuth în serviciul Yandex.OAuth. Pentru a face acest lucru, urmați linkul, faceți clic permiteși copiați jetonul OAuth rezultat.

Pasul 2 Mergi la Administrare / Setari generale / Recunoașterea vorbirii Yandex SpeechKit Cloud. Introduceți valorile primite Jeton OAuthși ID director la câmpurile corespunzătoare

Pasul 3. Luați în considerare un exemplu de utilizare a sintezei vorbirii într-un scenariu IVR.

componenta " sinteza vorbirii„. Spune un salut apelantului și salvează selecția apelantului într-o variabilă.

  • Mod - Joacă. În acest mod, componenta redă imediat fișierul generat în linia curentă.
  • Text - șir " Salut! Bine ați venit la Compania de sisteme de telefonie! Pentru a intra în legătură cu managerii, apăsați 1. Pentru a intra în legătură cu angajații suport tehnic apăsați 2.". Textul introdus va fi transferat pe serverul Yandex pentru exprimare.
  • Voce - Zahar. Decorul este responsabil pentru vocea sintetizată: Zahar - voce masculină, Jane - feminină. Este posibil să specificați o valoare diferită dacă este acceptată de serviciul Yandex SpeechKit.
  • Emote - Implicit. Setarea este responsabilă pentru colorarea vocii utilizate. Opțiuni posibile: bine, neutru, rău, amestecat.
  • Cache - Utilizare. Dacă utilizați un cache, sistemul va încerca să găsească un fișier cu text vocal printre cele generate anterior (situat în folderul \Oktell\Server\LocalStorage\SynthesisCache). Este recomandat să-l porniți întotdeauna pentru a economisi bani.
  • Timp de expirare a răspunsului, s - 5. Timpul maxim de așteptare pentru un răspuns de la serverele Yandex.
  • Despărțiți caractere - șir " 1, 2 ". Dacă abonatul apasă pe caracterele de pauză specificate, componenta le va salva în buffer și va trece la următorul bloc.
  • Buffer pentru DTMF - variabilă intrare(şir). Variabila în care este stocat caracterul de pauză introdus.
  • Clear Buffer - Da. Indică faptul că tamponul va fi șters mai întâi.

componenta " Meniul". Direcționează abonatul către grupul de operatori selectat.

  • Argument - variabil Intrare
  • Valori -
1 - la componenta "Switching 1" 2, altele - la componenta "Switching 2"

Configurarea rutei suplimentare nu este luată în considerare.

Pentru a utiliza sinteza vorbirii pentru presetare, trebuie mai întâi să generați un fișier utilizând componenta „Sinteza vorbirii” și să salvați calea către acest fișier într-o variabilă (în proprietatea corespunzătoare). Apoi, specificați acest fișier în componenta „Redare prestabilită”.

Acest lucru adaugă ceva condiment și dacă încep să experimentez cu alte motoare, primesc hashtag-ul #ReturnDashka în comentarii. E mișto să urmărești toate acestea, dar procesul nu stă pe loc și multe companii își dezvoltă propriile tehnologii. De exemplu, mi-a plăcut vocea, pe care uneori o înghesuiesc în videoclip.

Recent, am întâlnit un complex de tehnologii de vorbire Yandex, inclusiv recunoașterea și sinteza vorbirii, activarea vocii și selectarea obiectelor semantice în textul vorbit. Tehnologia vorbirii a învățat să recunoască activarea vocală, cu ajutorul ei puteți înregistra mesaje SMS și lăsa note prin voce, fără a utiliza tastatura, accesând direct backend-ul care este utilizat cu succes în aplicațiile mobile Yandex. De exemplu, SpeechKit Mobile SDK vă permite să încorporați recunoașterea și sinteza vorbirii, precum și activarea vocală Yandex în aplicatie mobila pentru iOS, Android (pornit acest moment rusă, engleză, turcă și limbi ucrainene) sau Windows Phone(Limba rusă). Controlul vocal va face aplicația dvs. mai ușor de utilizat, mai ales dacă mâinile utilizatorului sunt pline. Fără să atingă ecranul, el va putea apela funcția dorită cu o singură frază.

Am fost întotdeauna atras de tehnologia de sinteză a vorbirii, care vă permite să traduceți text în vorbire. Am schițat rapid textul, l-am exprimat (Milena TTS [rusă]) și l-am împins în videoclip, pe orice subiect. Acest lucru va fi deosebit de interesant pentru utilizatorii care au probleme cu vorbirea sau pentru cei care, dintr-un motiv oarecare, sunt jenați de vocea lor.

Vocile de la Yandex păreau ciudate, drăguțe și ușor de perceput urechea umană, mai ales voci masculine zahar si ermil. Vocile feminine ale lui jane, oksana, alyss și omazh m-au speriat sălbatic și, în opinia mea, nu ating culmile SuperDazhki. Deci, cum auzi voci noi pe un computer obișnuit de acasă? Pentru a face acest lucru, a trebuit să dau cu lopata internetul și soluția a fost găsită sub forma unui script.

1. Mai întâi, trebuie să fim pe pagină și să facem clic pe butonul „Camera dezvoltatorului”.


Intri imediat în Zona personalăși faceți clic pe butonul „Obțineți cheia”. Apoi, faceți clic pe butonul „SpeechKit Cloud”.


Completați toate câmpurile marcate cu un asterisc roșu și faceți clic pe butonul „Trimite”.


Cheia va fi primită instantaneu, după care trebuie copiată.


Acum să trecem la acesta, unde vom vedea diverși parametri de interogare, vorbitor (vocea vorbirii sintetizate), formatul de răspuns și exemple de URL. Această scrisoare chineză va părea prea complicată pentru un utilizator obișnuit, așa că haideți să ne simplificăm acțiunile (sau dimpotrivă să ne complicăm) organizând un script simplu.

2. Descărcați programul Notepad ++ pe computer (). Instalăm.

3. Creați un fișier index.html. Cine nu are chef să creeze manual, descărcați asta.


Schimbați numele fișierului: index.html. Tip de fișier: Toate fișierele. Codificare: UTF-8. Apăsați butonul „Salvare”. Este important să salvați fișierul index.html în rădăcina unității de sistem sau în orice folder de pe unitatea de sistem.


Acum, fișierul salvat trebuie editat. Deschideți fișierul cu Notepad++.


De fapt, aici este mult așteptatul nostru scenariu (). Editați corect fișierul: inserați Locul potrivit cheia dvs., schimbați-vă vocea, salvați și utilizați.

Pe viitor, faceți dublu clic pe fișierul index.html și în browser obținem următoarele.


Rămâne să scrii o poezie într-o fereastră mare și zahar (sau orice alt personaj selectat) ți-o va citi. Nu susțin că este posibil să-l pun pe rafturi aici și nimeni nu are nevoie de el mâine, eram doar interesat de procesul de sinteză a vorbirii de la Yandex pe computerul meu, pe care l-am împărtășit cu voi.

Ajută proiectul în dezvoltarea lui:
Card Sberbank: 676280139020834994
Yandex.Bani: 410012054992141
Webmoney: portofel WMR R429054927097
Portofel WMZ Z401294377967

tehnologie de recunoaștere a vorbirii

Yandex Speechkit Autopoet.

Pregătirea textului

Pronunție și intonație

sau pe un site de resurse speciale

Mulți dintre voi probabil ați reușit să controlați un computer sau un smartphone cu vocea. Când spuneți navigatorului „Hai să mergem la Gogol, 25” sau rostiți o interogare de căutare în aplicația Yandex, tehnologia de recunoaștere a vorbirii vă va converti vocea într-o comandă text. Dar există și problema inversa: Transformă textul disponibil pe computer într-o voce.

Yandex folosește tehnologia de sinteză a vorbirii de la complexul Yandex Speechkit la textele vocale. De exemplu, vă permite să învățați cum să pronunți cuvinte străineși fraze în Translator. Datorită sintezei vorbirii, Autopoet și-a primit și propria voce.

Pregătirea textului

Pronunție și intonație

Cu alte cuvinte, o mulțime de date sunt folosite pentru a sintetiza fiecare 25 de milisecunde de vorbire. Informațiile despre mediul imediat asigură o tranziție lină de la cadru la cadru și de la silabă la silabă, iar pentru a crea sunt necesare date despre frază și propoziție în ansamblu. intonația corectă vorbire sintetizată.

Pentru citirea textului pregătit se folosește un model acustic. Diferă de modelul acustic care este utilizat în recunoașterea vorbirii. În cazul recunoașterii modelelor, este necesar să se stabilească o corespondență între sunete cu anumite caracteristici și foneme. În cazul sintezei, modelul acustic, dimpotrivă, ar trebui să alcătuiască descrieri ale sunetelor conform descrierilor cadrelor.

Cum știe modelul acustic să pronunțe corect un fonem sau să dea intonația corectă propozitie interogativa? Ea învață din texte și fișiere de sunet. De exemplu, puteți încărca o carte audio și textul corespunzător. Cu cât un model învață mai multe date, cu atât pronunția și intonația lui sunt mai bune.

Puteți afla mai multe despre tehnologiile din complexul Yandex SpeechKit pe această pagină sau pe o resursă specială. Dacă sunteți dezvoltator și doriți să testați un cloud sau versiune mobila Te va ajuta SpeechKit, un site dedicat tehnologiilor Yandex.

","contentType":"text/html","amp":"

Mulți dintre voi probabil ați reușit să controlați un computer sau un smartphone cu vocea. Când spuneți navigatorului „Hai să mergem la Gogol, 25” sau rostiți o interogare de căutare în aplicația Yandex, tehnologia de recunoaștere a vorbirii vă va converti vocea într-o comandă text. Dar există și o sarcină inversă: să transforme textul pe care computerul îl are la dispoziție în voce.

Dacă setul de texte de exprimat este relativ mic și în ele apar aceleași expresii - ca, de exemplu, în anunțurile despre plecarea și sosirea trenurilor în gară - este suficient să invitați un crainic, să înregistrați cuvintele necesare și fraze în studio și apoi colectați din ce mesaj. Cu textele arbitrare, însă, această abordare nu funcționează. Aici este utilă sinteza vorbirii.

Yandex folosește tehnologia de sinteză a vorbirii de la complexul Yandex Speechkit la textele vocale. De exemplu, vă permite să aflați cum sunt pronunțate cuvintele și expresiile străine în Translator. Datorită sintezei vorbirii, Autopoet și-a primit și propria voce.

Pregătirea textului

Sarcina sintezei vorbirii este rezolvată în mai multe etape. Mai întâi, un algoritm special pregătește textul astfel încât să fie convenabil pentru robot să-l citească: scrie toate numerele în cuvinte, extinde abrevierile. Apoi textul este împărțit în fraze, adică în fraze cu intonație continuă - pentru aceasta, computerul se concentrează pe semnele de punctuație și pe construcții stabile. Pentru toate cuvintele, este compilat transcriere fonetică.

Pentru a înțelege cum să citești un cuvânt și unde să pună accent în el, robotul apelează mai întâi la dicționarele clasice, scrise de mână, care sunt încorporate în sistem. Dacă cuvântul dorit nu se află în dicționar, computerul construiește singur transcrierea - pe baza regulilor împrumutate din cărțile de referință academice. În fine, dacă reguli obișnuite nu este suficient - și asta se întâmplă, pentru că orice limbă vie este în continuă schimbare - folosește reguli statistice. Dacă cuvântul apare în corpus texte de instruire, sistemul își va aminti ce silabă a fost accentuată de obicei de către vorbitori.

Pronunție și intonație

Când transcrierea este gata, computerul calculează cât de mult va suna fiecare fonem, adică câte cadre conține - așa se numesc fragmentele de 25 de milisecunde. Apoi, fiecare cadru este descris în funcție de un set de parametri: din ce fonem face parte și ce loc ocupă în el; cărei silabă îi aparține acest fonem; dacă este o vocală, este accentuată; ce loc ocupă în silabă; silabă - într-un cuvânt; cuvânt - într-o frază; ce semne de punctuație există înainte și după această frază; ce loc ocupă fraza în propoziție; în sfârșit, ce semn este la sfârșitul propoziției și care este acesta intonația principală.

Cu alte cuvinte, o mulțime de date sunt folosite pentru a sintetiza fiecare 25 de milisecunde de vorbire. Informațiile despre mediul imediat asigură o tranziție lină de la cadru la cadru și de la silabă la silabă, iar datele despre frază și propoziție în ansamblu sunt necesare pentru a crea intonația corectă a vorbirii sintetizate.

Pentru citirea textului pregătit se folosește un model acustic. Diferă de modelul acustic care este utilizat în recunoașterea vorbirii. În cazul recunoașterii modelelor, este necesar să se stabilească o corespondență între sunete cu anumite caracteristici și foneme. În cazul sintezei, modelul acustic, dimpotrivă, ar trebui să alcătuiască descrieri ale sunetelor conform descrierilor cadrelor.

Cum știe modelul acustic să pronunțe corect un fonem sau să dea intonația corectă unei propoziții interogative? Ea învață din texte și fișiere de sunet. De exemplu, puteți încărca o carte audio și textul corespunzător. Cu cât un model învață mai multe date, cu atât pronunția și intonația lui sunt mai bune.

În sfârșit, despre vocea în sine. Vocile noastre sunt recunoscute, în primul rând, după timbru, care depinde de trăsăturile structurale ale organelor. aparat de vorbire Fiecare persoana. Timbrul vocii tale poate fi modelat, adică caracteristicile sale pot fi descrise - pentru aceasta, este suficient să citești un mic corp de texte în studio. După aceea, datele dvs. de ton pot fi utilizate în sinteza vorbirii în orice limbă, chiar și una pe care nu o cunoașteți. Când robotul trebuie să vă spună ceva, folosește un generator unde sonore- vocoder. Este încărcat cu informații despre caracteristicile de frecvență ale frazei obținute din modelul acustic, precum și cu date despre timbrul care conferă vocii o culoare recognoscibilă.

Puteți afla mai multe despre tehnologiile din complexul Yandex SpeechKit pe această pagină sau pe o resursă specială. Dacă sunteți dezvoltator și doriți să testați versiunea cloud sau mobilă a SpeechKit, site-ul dedicat tehnologiilor Yandex vă va ajuta.

","instantArticle":"

Mulți dintre voi probabil ați reușit să controlați un computer sau un smartphone cu vocea. Când spuneți navigatorului „Hai să mergem la Gogol, 25” sau rostiți o interogare de căutare în aplicația Yandex, tehnologia de recunoaștere a vorbirii vă va converti vocea într-o comandă text. Dar există și o sarcină inversă: să transforme textul pe care computerul îl are la dispoziție în voce.

Dacă setul de texte de exprimat este relativ mic și în ele apar aceleași expresii - ca, de exemplu, în anunțurile despre plecarea și sosirea trenurilor în gară - este suficient să invitați un crainic, să înregistrați cuvintele necesare și fraze în studio și apoi colectați din ce mesaj. Cu textele arbitrare, însă, această abordare nu funcționează. Aici este utilă sinteza vorbirii.

Yandex folosește tehnologia de sinteză a vorbirii de la complexul Yandex Speechkit la textele vocale. De exemplu, vă permite să aflați cum sunt pronunțate cuvintele și expresiile străine în Translator. Datorită sintezei vorbirii, Autopoet și-a primit și propria voce.

Pregătirea textului

Sarcina sintezei vorbirii este rezolvată în mai multe etape. Mai întâi, un algoritm special pregătește textul astfel încât să fie convenabil pentru robot să-l citească: scrie toate numerele în cuvinte, extinde abrevierile. Apoi textul este împărțit în fraze, adică în fraze cu intonație continuă - pentru aceasta, computerul se concentrează pe semnele de punctuație și pe construcții stabile. Pentru toate cuvintele, este compilată o transcriere fonetică.

Pentru a înțelege cum să citești un cuvânt și unde să pună accent în el, robotul apelează mai întâi la dicționarele clasice, scrise de mână, care sunt încorporate în sistem. Dacă cuvântul dorit nu se află în dicționar, computerul construiește singur transcrierea - pe baza regulilor împrumutate din cărțile de referință academice. În cele din urmă, dacă regulile obișnuite nu sunt suficiente - și asta se întâmplă, pentru că orice limbă vie este în continuă schimbare - folosește reguli statistice. Dacă un cuvânt a fost întâlnit în corpus de texte de instruire, sistemul își va aminti ce silabă au accentuat de obicei vorbitorii în el.

Pronunție și intonație

Când transcrierea este gata, computerul calculează cât de mult va suna fiecare fonem, adică câte cadre conține - așa se numesc fragmentele de 25 de milisecunde. Apoi, fiecare cadru este descris în funcție de un set de parametri: din ce fonem face parte și ce loc ocupă în el; cărei silabă îi aparține acest fonem; dacă este o vocală, este accentuată; ce loc ocupă în silabă; silabă - într-un cuvânt; cuvânt - într-o frază; ce semne de punctuație există înainte și după această frază; ce loc ocupă fraza în propoziție; în sfârșit, ce semn se află la sfârșitul propoziției și care este intonația sa principală.

Cu alte cuvinte, o mulțime de date sunt folosite pentru a sintetiza fiecare 25 de milisecunde de vorbire. Informațiile despre mediul imediat asigură o tranziție lină de la cadru la cadru și de la silabă la silabă, iar datele despre frază și propoziție în ansamblu sunt necesare pentru a crea intonația corectă a vorbirii sintetizate.

Pentru citirea textului pregătit se folosește un model acustic. Diferă de modelul acustic care este utilizat în recunoașterea vorbirii. În cazul recunoașterii modelelor, este necesar să se stabilească o corespondență între sunete cu anumite caracteristici și foneme. În cazul sintezei, modelul acustic, dimpotrivă, ar trebui să alcătuiască descrieri ale sunetelor conform descrierilor cadrelor.

Cum știe modelul acustic să pronunțe corect un fonem sau să dea intonația corectă unei propoziții interogative? Ea învață din texte și fișiere de sunet. De exemplu, puteți încărca o carte audio și textul corespunzător. Cu cât un model învață mai multe date, cu atât pronunția și intonația lui sunt mai bune.

În sfârșit, despre vocea în sine. Vocile noastre sunt recunoscute, în primul rând, după timbru, care depinde de trăsăturile structurale ale organelor aparatului de vorbire din fiecare persoană. Timbrul vocii tale poate fi modelat, adică caracteristicile sale pot fi descrise - pentru aceasta, este suficient să citești un mic corp de texte în studio. După aceea, datele dvs. de ton pot fi utilizate în sinteza vorbirii în orice limbă, chiar și una pe care nu o cunoașteți. Când robotul trebuie să-ți spună ceva, folosește un generator de unde sonore - un vocoder. Este încărcat cu informații despre caracteristicile de frecvență ale frazei obținute din modelul acustic, precum și cu date despre timbrul care conferă vocii o culoare recognoscibilă.

Puteți afla mai multe despre tehnologiile din complexul Yandex SpeechKit pe această pagină sau pe o resursă specială. Dacă sunteți dezvoltator și doriți să testați versiunea cloud sau mobilă a SpeechKit, site-ul dedicat tehnologiilor Yandex vă va ajuta.

"),"propposedBody":("sursa":"

Mulți dintre voi probabil ați reușit să controlați un computer sau un smartphone cu vocea. Când spuneți navigatorului „Hai să mergem la Gogol, 25” sau rostiți o interogare de căutare în aplicația Yandex, tehnologia de recunoaștere a vorbirii vă va converti vocea într-o comandă text. Dar există și o sarcină inversă: să transforme textul pe care computerul îl are la dispoziție în voce.

Dacă setul de texte de exprimat este relativ mic și în ele apar aceleași expresii - ca, de exemplu, în anunțurile despre plecarea și sosirea trenurilor în gară - este suficient să invitați un crainic, să înregistrați cuvintele necesare și fraze în studio și apoi colectați din ce mesaj. Cu textele arbitrare, însă, această abordare nu funcționează. Aici este utilă sinteza vorbirii.

Yandex folosește tehnologia de sinteză a vorbirii de la complexul Yandex Speechkit la textele vocale. De exemplu, vă permite să aflați cum sunt pronunțate cuvintele și expresiile străine în Translator. Datorită sintezei vorbirii, Autopoet și-a primit și propria voce.

Pregătirea textului

Sarcina sintezei vorbirii este rezolvată în mai multe etape. Mai întâi, un algoritm special pregătește textul astfel încât să fie convenabil pentru robot să-l citească: scrie toate numerele în cuvinte, extinde abrevierile. Apoi textul este împărțit în fraze, adică în fraze cu intonație continuă - pentru aceasta, computerul se concentrează pe semnele de punctuație și pe construcții stabile. Pentru toate cuvintele, este compilată o transcriere fonetică.

Pentru a înțelege cum să citești un cuvânt și unde să pună accent în el, robotul apelează mai întâi la dicționarele clasice, scrise de mână, care sunt încorporate în sistem. Dacă cuvântul dorit nu se află în dicționar, computerul construiește singur transcrierea - pe baza regulilor împrumutate din cărțile de referință academice. În cele din urmă, dacă regulile obișnuite nu sunt suficiente - și asta se întâmplă, pentru că orice limbă vie este în continuă schimbare - folosește reguli statistice. Dacă un cuvânt a fost întâlnit în corpus de texte de instruire, sistemul își va aminti ce silabă au accentuat de obicei vorbitorii în el.

Pronunție și intonație

Când transcrierea este gata, computerul calculează cât de mult va suna fiecare fonem, adică câte cadre conține - așa se numesc fragmentele de 25 de milisecunde. Apoi, fiecare cadru este descris în funcție de un set de parametri: din ce fonem face parte și ce loc ocupă în el; cărei silabă îi aparține acest fonem; dacă este o vocală, este accentuată; ce loc ocupă în silabă; silabă - într-un cuvânt; cuvântul este în frază; ce semne de punctuație există înainte și după această frază; ce loc ocupă fraza în propoziție; în sfârșit, ce semn se află la sfârșitul propoziției și care este intonația sa principală.

Cu alte cuvinte, o mulțime de date sunt folosite pentru a sintetiza fiecare 25 de milisecunde de vorbire. Informațiile despre mediul imediat asigură o tranziție lină de la cadru la cadru și de la silabă la silabă, iar datele despre frază și propoziție în ansamblu sunt necesare pentru a crea intonația corectă a vorbirii sintetizate.

Pentru citirea textului pregătit se folosește un model acustic. Diferă de modelul acustic care este utilizat în recunoașterea vorbirii. În cazul recunoașterii modelelor, este necesar să se stabilească o corespondență între sunete cu anumite caracteristici și foneme. În cazul sintezei, modelul acustic, dimpotrivă, ar trebui să alcătuiască descrieri ale sunetelor conform descrierilor cadrelor.

Cum știe modelul acustic să pronunțe corect un fonem sau să dea intonația corectă unei propoziții interogative? Ea învață din texte și fișiere de sunet. De exemplu, puteți încărca o carte audio și textul corespunzător. Cu cât un model învață mai multe date, cu atât pronunția și intonația lui sunt mai bune.

În sfârșit, despre vocea în sine. Vocile noastre sunt recunoscute, în primul rând, după timbru, care depinde de trăsăturile structurale ale organelor aparatului de vorbire din fiecare persoană. Timbrul vocii tale poate fi modelat, adică caracteristicile sale pot fi descrise - pentru aceasta, este suficient să citești un mic corp de texte în studio. După aceea, datele dvs. de ton pot fi utilizate în sinteza vorbirii în orice limbă, chiar și una pe care nu o cunoașteți. Când robotul trebuie să-ți spună ceva, folosește un generator de unde sonore numit vocoder. Este încărcat cu informații despre caracteristicile de frecvență ale frazei obținute din modelul acustic, precum și cu date despre timbrul care conferă vocii o culoare recognoscibilă.

Puteți afla mai multe despre tehnologiile din complexul Yandex SpeechKit pe această pagină sau pe o resursă specială. Dacă sunteți dezvoltator și doriți să testați versiunea cloud sau mobilă a SpeechKit, site-ul dedicat tehnologiilor Yandex vă va ajuta.

Mulți dintre voi probabil ați reușit să controlați un computer sau un smartphone cu vocea. Când spuneți navigatorului „Hai să mergem la Gogol, 25” sau rostiți o interogare de căutare în aplicația Yandex, tehnologia de recunoaștere a vorbirii vă va converti vocea într-o comandă text. Dar există și o sarcină inversă: să transforme textul pe care computerul îl are la dispoziție în voce.

Dacă setul de texte de exprimat este relativ mic și în ele apar aceleași expresii - ca, de exemplu, în anunțurile despre plecarea și sosirea trenurilor în gară - este suficient să invitați un crainic, să înregistrați cuvintele necesare și fraze în studio și apoi colectați din ce mesaj. Cu textele arbitrare, însă, această abordare nu funcționează. Aici este utilă sinteza vorbirii.

Yandex folosește tehnologia de sinteză a vorbirii de la complexul Yandex Speechkit la textele vocale. De exemplu, vă permite să aflați cum sunt pronunțate cuvintele și expresiile străine în Translator. Datorită sintezei vorbirii, Autopoet și-a primit și propria voce.

Pregătirea textului

Sarcina sintezei vorbirii este rezolvată în mai multe etape. Mai întâi, un algoritm special pregătește textul astfel încât să fie convenabil pentru robot să-l citească: scrie toate numerele în cuvinte, extinde abrevierile. Apoi textul este împărțit în fraze, adică în fraze cu intonație continuă - pentru aceasta, computerul se concentrează pe semnele de punctuație și pe construcții stabile. Pentru toate cuvintele, este compilată o transcriere fonetică.

Pentru a înțelege cum să citești un cuvânt și unde să pună accent în el, robotul apelează mai întâi la dicționarele clasice, scrise de mână, care sunt încorporate în sistem. Dacă cuvântul dorit nu se află în dicționar, computerul construiește singur transcrierea - pe baza regulilor împrumutate din cărțile de referință academice. În cele din urmă, dacă regulile obișnuite nu sunt suficiente - și asta se întâmplă, pentru că orice limbă vie este în continuă schimbare - folosește reguli statistice. Dacă un cuvânt a fost întâlnit în corpus de texte de instruire, sistemul își va aminti ce silabă au accentuat de obicei vorbitorii în el.

Pronunție și intonație

Când transcrierea este gata, computerul calculează cât de mult va suna fiecare fonem, adică câte cadre conține - așa se numesc fragmentele de 25 de milisecunde. Apoi, fiecare cadru este descris în funcție de un set de parametri: din ce fonem face parte și ce loc ocupă în el; cărei silabă îi aparține acest fonem; dacă este o vocală, este accentuată; ce loc ocupă în silabă; silabă - într-un cuvânt; cuvânt - într-o frază; ce semne de punctuație există înainte și după această frază; ce loc ocupă fraza în propoziție; în sfârșit, ce semn se află la sfârșitul propoziției și care este intonația sa principală.

Cu alte cuvinte, o mulțime de date sunt folosite pentru a sintetiza fiecare 25 de milisecunde de vorbire. Informațiile despre mediul imediat asigură o tranziție lină de la cadru la cadru și de la silabă la silabă, iar datele despre frază și propoziție în ansamblu sunt necesare pentru a crea intonația corectă a vorbirii sintetizate.

Pentru citirea textului pregătit se folosește un model acustic. Diferă de modelul acustic care este utilizat în recunoașterea vorbirii. În cazul recunoașterii modelelor, este necesar să se stabilească o corespondență între sunete cu anumite caracteristici și foneme. În cazul sintezei, modelul acustic, dimpotrivă, ar trebui să alcătuiască descrieri ale sunetelor conform descrierilor cadrelor.

Cum știe modelul acustic să pronunțe corect un fonem sau să dea intonația corectă unei propoziții interogative? Ea învață din texte și fișiere de sunet. De exemplu, puteți încărca o carte audio și textul corespunzător. Cu cât un model învață mai multe date, cu atât pronunția și intonația lui sunt mai bune.

În sfârșit, despre vocea în sine. Vocile noastre sunt recunoscute, în primul rând, după timbru, care depinde de trăsăturile structurale ale organelor aparatului de vorbire din fiecare persoană. Timbrul vocii tale poate fi modelat, adică caracteristicile sale pot fi descrise - pentru aceasta, este suficient să citești un mic corp de texte în studio. După aceea, datele dvs. de ton pot fi utilizate în sinteza vorbirii în orice limbă, chiar și una pe care nu o cunoașteți. Când robotul trebuie să-ți spună ceva, folosește un generator de unde sonore - un vocoder. Este încărcat cu informații despre caracteristicile de frecvență ale frazei obținute din modelul acustic, precum și cu date despre timbrul care conferă vocii o culoare recognoscibilă.

Puteți afla mai multe despre tehnologiile din complexul Yandex SpeechKit pe această pagină sau pe o resursă specială. Dacă sunteți dezvoltator și doriți să testați versiunea cloud sau mobilă a SpeechKit, site-ul dedicat tehnologiilor Yandex vă va ajuta.

","contentType":"text/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"minor","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,"commentsCount":55," modificationDate":"Marți, 03 aprilie 2018 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("sursa":"

Când spuneți navigatorului „Hai să mergem la Gogol, 25” sau rostiți o interogare de căutare cu voce tare, tehnologia de recunoaștere a vorbirii vă transformă vocea într-o comandă text. Există și o sarcină inversă: să transformi textul în voce. Uneori este suficient să invitați un crainic și să scrieți doar cuvintele și frazele necesare, dar acest lucru nu va funcționa cu texte arbitrare. Aici este utilă sinteza vorbirii.

","contentType":"text/html"),"proposedPreview":("sursa":"

Când spuneți navigatorului „Hai să mergem la Gogol, 25” sau rostiți o interogare de căutare cu voce tare, tehnologia de recunoaștere a vorbirii vă transformă vocea într-o comandă text. Există și o sarcină inversă: să transformi textul în voce. Uneori este suficient să invitați un crainic și să scrieți doar cuvintele și frazele necesare, dar acest lucru nu va funcționa cu texte arbitrare. Aici este utilă sinteza vorbirii.

Când spuneți navigatorului „Hai să mergem la Gogol, 25” sau rostiți o interogare de căutare cu voce tare, tehnologia de recunoaștere a vorbirii vă transformă vocea într-o comandă text. Există și o sarcină inversă: să transformi textul în voce. Uneori este suficient să invitați un crainic și să scrieți doar cuvintele și frazele necesare, dar acest lucru nu va funcționa cu texte arbitrare. Aici este utilă sinteza vorbirii.

","contentType":"text/html"),"titleImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/h32","width": 58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major:(major"208"),"major:(major"208") height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"),"major300":("cale":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.yandex.net/get-yablogs.net/ 47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_1475751201967/major444":","full:/ /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421/ dosar_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444,"height":246),"minor288": ("cale":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/minor288","width": 288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("cale":"/get-yablogs/47421/file_1475751201967/touch288":",""l ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("path":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","width":444,"height":2940),":290)," ":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get -yab logs/47421/file_1475751201967/touch900")","w1000":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w1000","width":444,":"ful https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("înălțime":246,"cale":"/get-yablogs/47421/file_14029672/w202967 " ,"width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("înălțime":246,"cale " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512019636/w0260h76/w0260h " w288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net / get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":"/get-yablogs/47421/file_1475751201967/w288h160":("width":160,"path":"/get-yablogs/47421/file_1475751201967/w288h160"","width"ful:l28th"width" : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162,"path":"/get-yablogs/47421/file_1475751 201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("height":246 ,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_147575120147/w41947 "),"w900":("înălțime":246,"cale":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("path":"/get-yablogs/47421/file_1475751201967/major620","fullPath":":" mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)),"tags":[("displayName":"Yandex technologies","slug": " technologii-yandeksa","url":"/blog/company? ?tag=tekhnologii-yandeksa"),("displayName":"cum funcționează?","slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,"metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ blog /company","addCommentUrl":"/blog/createComment/company/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put " ,"urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb/57f4dd21/publish1cf74dd21 " ,"urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":"/blog/api/ subscribe/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company/57f4dd21ccb/57f4dd21ccb/57f4dd21ccb/57f4dd21ccb9760017cf4ccf/,","translate"/Forblog/PostPage":"/blog/compania/57f4dd21ccb/"translate"/: "translate" "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabotaet -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","author":("id":"24151397","uid ": ("value":"24151397","lite":false,"hosted":false),"aliases":("13":"chistyakova"),"login":"amarantta","display_name": (" name":"Sveta Chi styakova","avatar":("default":"24700/24151397-15660497","empty":false)),"address":" [email protected] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-middletaff","isYandexS true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246," path":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512019607/major1960/") ,"major288":("height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://savataryandex.md .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900": ("cale":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width": 444,"height":246),"minor288":("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig", "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("cale":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":444,"height":244),":244)," ":("path":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","width":444,"height":246),"touch900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width": 444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("înălțime":246,"cale":"/get- yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w10600","6":(h") " height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https:/ / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"),"w288":("height":156,"path":"/get-yablogs/47421/file_147578","81/w20219","851/w20219","8 lățime ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("înălțime":160,"cale":" / get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":(16"height": ,"path":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201907/w31096 "),"w444":("înălțime":246,"cale":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444"),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","4","width":47421/file_1475751201967/w444", "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("cale":"/get-yablogs/47421/file_1475751201967"/major620" ,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)))))">

Uneori trebuie să citim text tipărit cu o voce. Cel mai adesea, astfel de programe sunt folosite de cei care predau limbi straine pentru a determina intonația și stresul corect, de asemenea, pentru citirea cărților și doar pentru distracție și desenarea prietenilor. Pentru a utiliza interpretarea vocală a textului, nu este nevoie să descărcați programe pe computer, deoarece există un număr suficient de ele în versiuni online(Spre deosebire de ). Acest articol va acoperi cele mai bune sintetizatoare vorbire umană, pe care o puteți folosi online.

Translate.google.com este un serviciu gratuit de traducere și sinteză a textului.

Google translate este una dintre cele mai populare și cele mai bune servicii care oferă o gamă largă de servicii. De exemplu, toată lumea celebru traducător are funcția de a exprima textul introdus și în toate limbile acceptate. Calitatea sunetului este puțin scăzută pe alocuri, dar în general acceptabilă. Dacă traduceți text tipărit în vorbire pentru învățarea limbilor, atunci sintetizatorul Traducere Google vi se va potrivi perfect. Cel mai important lucru despre acest serviciu este că este simplu și accesibil fiecărui utilizator de pe Internet.


Cum să sintetizezi text în Translate.google.com

Pentru a utiliza serviciul de la Google:

  1. Accesați https://translate.google.com ;
  2. Selectați limba necesară făcând clic pe butonul „Detectează limba”;
  3. Apoi introduceți textul în fereastra în care ați ales limba;
  4. Acum faceți clic pe pictograma gramofon din partea de jos a ferestrei și puteți auzi redarea textului cu o voce feminină.

Dezavantajul său este incapacitatea de a descărca pe computer sinteza vorbirii reproduse într-un fișier. De asemenea, nu există setări de voce sau selecție de artist.

Acapela - software gratuit de transformare a textului în vorbire

Acapela este cel mai popular și unul dintre cele mai bune sintetizatoare de vorbire online. Serviciul acceptă mai mult de 30 de limbi, precum și un numar mare de interpreți din care să aleagă, atât bărbați, cât și femei. Pentru limba engleză, există până la 20 de timbre din care să alegeți - feminin, masculin, adolescent, copil, bărbat dur, femeie moale etc. Programul este foarte personalizabil și ușor de utilizat. Site-ul are un program pentru utilizare offline. Aveți posibilitatea de a încerca o versiune demonstrativă a sintetizatorului de vorbire făcând clic pe elementul corespunzător din bara de meniu.


Cum se utilizează Acapela

Pentru a configura sinteza vorbire orală online, folosește blocul din partea stângă a paginii http://www.acapela-group.com/voices/demo/ .

Deci, cum funcționează:

  1. În prima linie, selectați limba textului vorbit.
  2. A doua linie nu este necesară dacă selectați rusă, deoarece există o singură opțiune - Alyona.
  3. În al treilea rând, introduceți textul pe care doriți să-l exprimați. Puteți introduce până la 300 de caractere.
  4. Apoi, acceptați termenii serviciului bifând caseta „Sunt de acord cu termenii și condițiile”.
  5. Și faceți clic pe butonul „Vă rugăm să acceptați termenii și condițiile” de mai jos.

Acțiunea vocală prin acest serviciu este de calitate medie. Intonația este corectă în aproape toate cuvintele. Produsul este disponibil pentru toate platformele.

Next.2yxa.mobi - serviciu online de citire a textului

Serviciul online Next.2yxa.mobi este un sintetizator simplu și accesibil pentru reproducerea textului tastat. Site-ul a fost dezvoltat pentru dispozitive mobile, așa că introducându-l printr-un browser web, vom avea un instrument ușor și rapid de sinteză a textului. În acest sens, site-ul are unele limitări în activitatea sa. De exemplu, dacă trebuie să „citiți” textul descărcat, atunci dimensiunea fișierului nu trebuie să depășească 100 kb. Puteți introduce textul și îl puteți exprima imediat.

Pentru asta ai nevoie de:


Vocalizer - sintetizator de voce pentru redarea textului online

Un alt dintre cele mai bune sintetizatoare de vorbire pentru testul de actorie vocală online, creat de dezvoltatori străini este Vocalizer. Este disponibil la http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html. Acesta este un serviciu simplu și ușor de înțeles. Meniul și interfața sunt complet în limba engleză, dar vă va fi foarte ușor să vă dați seama. Serviciu online putem folosi ca versiune Demo. Sistemul vă oferă 100 de opțiuni de voce diferite și 47 de limbi.


Cum se folosește Vocalizer

Sintetiza vorbirii online cu acest program este foarte simplă. Pentru asta:

  1. În elementul „Limbă / Dialect”, selectați limba;
  2. În „Gen”, selectați o voce masculină sau feminină (bărbat - bărbat, femeie - femeie);
  3. Mai jos, în blocul mare, introduceți textul pentru exprimare și apăsați butonul albastru din lateral pentru a juca.