Motor rozpoznávania reči. Systémy automatického rozpoznávania reči

Ako dobre to bývalo! Zavolaním na help desk bolo možné porozprávať sa s operátorkou a dokonca si s ňou dohodnúť stretnutie. Teraz sa na druhom konci drôtu ozve príjemný, ale neživý ženský hlas, ktorý ponúka vytočiť číslo 1 na prijímanie takých a takých informácií, 2 - komunikovať s tým, 3 - opustiť menu atď. Prístup k informáciám je stále viac kontrolovaný systémom, nie jednotlivcom. Má to svoju logiku: monotónnu, nezaujímavú prácu nerobí človek, ale stroj. A pre používateľa je postup získavania informácií zjednodušený: zavolal na určitú skupinu čísel - dostal potrebné informácie.

Ako takýto systém funguje? Skúsme na to prísť.

Dva hlavné typy programov na rozpoznávanie reči sú:

Softvér na diktovanie – zadajte text a čísla.

Okamžite si urobme výhradu, že nebudeme brať do úvahy systémy Text-to-speech a speech-to-text, teda preklad textu do ústnej reči a naopak. Obmedzíme sa na systémy automatického rozpoznávania príkazov, prípadne hlasové navigátory.

SARR - čo to je?

Automatické rozpoznávanie reči (CAPP) je prvkom procesu spracovania reči, ktorého účelom je poskytnúť pohodlný dialóg medzi používateľom a strojom. V širšom zmysle hovoríme o systémoch, ktoré vykonávajú fonematické dekódovanie akustického signálu reči pri vyslovovaní rečových správ voľným štýlom, ľubovoľným rečníkom, bez zohľadnenia problémovej orientácie a obmedzení hlasitosti slovníka. V úzkom zmysle CAPP uľahčujú riešenie konkrétnych problémov tým, že ukladajú určité obmedzenia na požiadavky na rozpoznávanie prirodzene znejúcej reči v jej klasickom zmysle. Škála odrôd CAPP teda siaha od jednoduchých samostatných zariadení a detských hračiek, ktoré sú schopné rozpoznať alebo syntetizovať samostatne hovorené slová, čísla, mestá, mená atď., až po superkomplexné prirodzene znejúce systémy rozpoznávania reči a jej syntézu. na použitie napríklad ako asistent asistenta (IBM VoiceType Simply Speaking Gold).

CAPP, ktorý je hlavnou súčasťou akéhokoľvek priateľského rozhrania medzi strojom a osobou, môže byť zabudovaný do rôznych aplikácií, napríklad v systémoch hlasového ovládania, hlasový prístup k informačným zdrojom, jazykové vzdelávanie pomocou počítača, pomoc pre osoby so zdravotným postihnutím, prístup k niečo prostredníctvom hlasových overovacích systémov / identifikácie.

CAPP je veľmi užitočný nástroj na vyhľadávanie a triedenie zaznamenaných zvukových a obrazových údajov. Rozpoznávanie reči sa používa aj pri zadávaní informácií, čo sa hodí najmä vtedy, keď sú oči alebo ruky človeka zaneprázdnené. CARR umožňuje ľuďom pracujúcim v stresovom prostredí (lekári v nemocniciach, robotníci v továrňach, vodiči) používať počítač na získavanie alebo zadávanie potrebných informácií.

Typicky sa CAPP používa v systémoch, ako sú telefónne aplikácie, vstavané systémy (vytáčacie systémy, obsluha PDA, riadenie atď.), multimediálne aplikácie (systémy výučby jazykov).

Hlasové klávesy

Hlasové signály sa niekedy označujú ako systémy automatického rozpoznávania reči. Zvyčajne ide o biometrické systémy buď autorizovaného prístupu k informáciám alebo fyzického prístupu k objektom. Mali by sa rozlišovať dva typy takýchto systémov: overovacie systémy a identifikačné systémy. Počas overovania používateľ najprv predloží svoj kód, to znamená, že sa vyhlási tak či onak, a potom nahlas povie heslo alebo ľubovoľnú frázu. Systém skontroluje, či daný hlas zodpovedá štandardom, ktoré boli vyvolané z pamäte počítača podľa predloženého kódu.

Pri identifikácii sa neuvádza žiadne predchádzajúce vyhlásenie o používateľovi. V tomto prípade sa vykoná porovnanie tohto hlasu so všetkými normami a následne sa konkrétne určí, kto je osoba identifikovaná hlasom. Dnes existuje veľa prístupov a metód na implementáciu takýchto systémov a všetky sa spravidla navzájom líšia - koľko vývojárov, toľko ich odrôd. To isté možno povedať o systémoch rozpoznávania reči. Charakteristiky špecifických systémov rozpoznávania reči a rozpoznávania osobnosti je preto možné posúdiť len pomocou špeciálnych testovacích databáz.

Trochu histórie

Spojené štáty americké, koniec 60. rokov: „Tri,“ povedal Walter Cronkite, hostiteľ populárno-vedeckého programu 21. storočie, počas demonštrácie najnovšieho vývoja v rozpoznávaní reči. Počítač rozpoznal toto slovo ako „štyri“. "Idiot," zamrmlal Walter. "To slovo nie je v slovníku," odpovedal počítač.

Hoci prvý vývoj v oblasti rozpoznávania reči sa datuje do 20. rokov 20. storočia, prvý systém bol vytvorený až v roku 1952 v Bell Laboratories (dnes súčasť Lucent Technologies). A prvý komerčný systém vznikol ešte neskôr: v roku 1960 IBM oznámilo vývoj takéhoto systému, no program sa nikdy nedostal na trh.

Potom, v sedemdesiatych rokoch minulého storočia, spoločnosť Eastern Airlines v Spojených štátoch nainštalovala systém odosielania batožiny závislý od hovorcu: operátor pomenoval destináciu - a batožina bola odoslaná. Kvôli množstvu chýb však systém nikdy neprešiel skúšobnou dobou.

Potom sa vývoj v tejto oblasti, ak vôbec nejaký, vyvíjal dosť pomaly. Dokonca aj v osemdesiatych rokoch minulého storočia existovalo pomerne veľa skutočných komerčných aplikácií využívajúcich systémy rozpoznávania reči.

Dnes týmto smerom pracujú nie desiatky, ale stovky výskumných tímov vo vedeckých a vzdelávacích inštitúciách, ale aj vo veľkých korporáciách. To môžu posúdiť také medzinárodné fóra vedcov a špecialistov v oblasti rečových technológií ako ICASSP, EuroSpeech, ICPHS atď. preceňovať sa.

Hlasové navigátory alebo systémy na rozpoznávanie príkazov sa už niekoľko rokov úspešne využívajú v rôznych oblastiach činnosti. Napríklad call centrum OmniTouch, ktoré do Vatikánu dodala spoločnosť Alcatel, slúžilo na servis akcií, ktoré sa konali v rámci osláv 2000. výročia Krista. Pútnik, ktorý zavolal do call centra, vyslovil svoju otázku a systém automatického rozpoznávania reči ho „počúval“. Ak systém zistil, že bola položená otázka o často sa vyskytujúcej téme, ako sú rozvrhy udalostí alebo adresy hotelov, potom bol zahrnutý vopred zaznamenaný záznam. Ak bolo potrebné upresniť otázku, ponúklo sa rečové menu, v ktorom bolo treba jednu z položiek naznačiť hlasom. Ak rozpoznávací systém zistil, že na položenú otázku neexistuje vopred zaznamenaná odpoveď, potom bol pútnik spojený s ľudským operátorom.

Vo Švédsku bola nedávno otvorená služba automatického telefonického dopytovania pomocou softvéru na rozpoznávanie reči Philips. Za prvý mesiac fungovania služby Autosvar, ktorá začala fungovať bez oficiálneho oznámenia, využilo jej služby 200-tisíc zákazníkov. Osoba musí vytočiť určité číslo a po odpovedi automatickej sekretárky pomenovať sekciu informačného adresára, ktorá ho zaujíma.

Nová služba je určená najmä pre privátnych klientov, ktorí ju budú preferovať z dôvodu výrazne nižšej ceny služieb. Služba Autosvar je prvou svojho druhu v Európe (v USA sa začala podobná služba v AT&T v decembri minulého roka).

Tu je niekoľko príkladov použitia tejto technológie v USA.

Realitné kancelárie sa často obracajú na služby spoločnosti Newport Wireless. Keď ide realitný maklér autom po ulici a vidí pri dome nápis For Sale, zavolá do Newport Wireless a pýta si informácie o dome s takým a takým číslom, ktorý sa nachádza na tej a takej ulici. Záznamník mu príjemným ženským hlasom prezradí zábery domu, dátum výstavby a majiteľov. Všetky tieto informácie sú v databáze Newport Wireless. Realitné kancelárie môžu klientovi iba poslať správu. Poplatok za predplatné je približne 30 dolárov mesačne.

Julie, virtuálna agentka Amtraku, slúži cestujúcim na železnici od októbra 2001. Telefonicky informuje o cestovných poriadkoch vlakov, ich príchodoch a odchodoch a robí aj rezervácie lístkov. Julie je produktom SpeechWorks Software and Intervoice Hardware. Už zvýšil spokojnosť cestujúcich o 45 %; 13 z 50 klientov dostane od Julie všetky potrebné informácie. Amtrak používal systém odporúčaní založený na tóne, ale miera spokojnosti bola vtedy nižšia, iba 9 z 50 zákazníkov.

Amtrak priznáva, že Julie splatila svoju cenu (4 milióny dolárov) za 12-18 mesiacov. Dovolila neprijať celý tím zamestnancov. A British Airways šetrí 1,5 milióna dolárov ročne pomocou technológie od Nuance Communications, ktorá tiež automatizuje help desk.

Nedávno spoločnosť Sony Computer Entertainment America predstavila Socom, prvú videohru, v ktorej môžu hráči verbálne rozkazovať bojovníkom s granátmi. Hra za 60 dolárov využíva technológiu ScanSoft. Minulý rok sa predalo 450 000 týchto hier, čím sa Socom stal nesporným lídrom v predaji spoločnosti.

V drahých autách ako Infinity a Jaguar sa už niekoľko rokov používa verbálne ovládanie ovládacieho panela: rádio, teplotný režim a navigačný systém rozumejú hlasu majiteľa auta a bez výhrad poslúchajú majiteľa. Teraz sa však technológia rozpoznávania hlasu začína aplikovať aj na autá strednej triedy. Od roku 2003 má Honda Accord zabudovaný hlasový identifikátor od IBM. Volá sa ViaVoice a je súčasťou navigačného systému za 2 000 USD.Podľa dodávateľa sa pätina kupujúcich Hondy Accord rozhodne pre model s hlasovou navigáciou.

Aj v medicíne si technológia rozpoznávania hlasu našla svoje miesto. Zariadenia na vyšetrenie žalúdka, poslušné hlasu lekára, už boli vyvinuté. Je pravda, že tieto zariadenia sú podľa odborníkov stále nedokonalé: na príkazy lekára reagujú pomaly. Ale stále vpredu. V Memphise VA Medical Center investovalo 277 000 dolárov do softvéru Dragon, ktorý umožňuje lekárom a sestrám diktovať informácie do počítačovej databázy. Pravdepodobne čoskoro nebude potrebné trpieť, aby sa v lekárskom zázname objavil rukopis lekára.

Už stovky veľkých spoločností používajú technológiu rozpoznávania hlasu vo svojich produktoch alebo službách; medzi ne patria AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines a Verizo. Podľa odborníkov dosiahol trh s hlasovou technológiou v roku 2002 približne 695 miliónov dolárov, čo je o 10 % viac ako v roku 2001.

United Airways zaviedli automatizovanú informačnú službu už v roku 1999. Automatizované systémy spracovania telefónnych hovorov prevádzkujú spoločnosti ako investičná banka Charles Schwab & Co, maloobchodný reťazec Sears, reťazec supermarketov Roebuck. Americkí bezdrôtoví operátori (AT&T Wireless a Sprint PCS) používajú podobné programy a poskytujú služby hlasového vytáčania už viac ako rok. A hoci Amerika je teraz lídrom v počte call centier tohto typu, v poslednej dobe sa výhody systémov rozpoznávania reči začínajú realizovať aj v Európe. Napríklad švajčiarska železničná služba už poskytuje svojim nemecky hovoriacim cestujúcim služby podobné tým, ktoré ponúka United Airways.

Prognózy analytikov

Dnes sú technológie rozpoznávania reči považované za najsľubnejšie na svete. Podľa prognóz americkej výskumnej spoločnosti Cahners In-Stat sa teda svetový trh so softvérom na rozpoznávanie reči do roku 2005 zvýši z 200 miliónov na 2,7 miliardy dolárov. priemerne 43 % ročne: zo 650 miliónov dolárov v roku 2000 na 5,6 miliardy dolárov v roku 2006 (obr. 1). Odborníci spolupracujúci s mediálnou korporáciou CNN zaradili rozpoznávanie reči medzi osem najsľubnejších technológií tohto roka. A analytici z IDC tvrdia, že do roku 2005 rozpoznávanie reči úplne vytlačí všetky ostatné rečové technológie z trhu (obr. 2).

Hlavné ťažkosti

Hlavným problémom, ktorý vzniká pri vývoji CAPP, je variantná výslovnosť toho istého slova rôznymi ľuďmi a tou istou osobou v rôznych situáciách. To človeka trápiť nebude, ale počítač áno. Okrem toho je prichádzajúci signál ovplyvnený mnohými faktormi, ako je okolitý hluk, odraz, ozvena a šum kanála. Komplikuje to skutočnosť, že hluk a skreslenie nie sú vopred známe, to znamená, že systém sa im nedá prispôsobiť pred začatím práce.

Viac ako polstoročie práce na rôznych CAPP však prinieslo svoje ovocie. Takmer každý moderný systém môže fungovať v niekoľkých režimoch. Po prvé, môže byť závislý alebo nezávislý od vyhlasovateľa. Systém závislý od rečníka vyžaduje špeciálne školenie pre konkrétneho používateľa, aby presne rozpoznal, čo hovorí. Na trénovanie systému musí používateľ povedať niekoľko konkrétnych slov alebo fráz, ktoré systém analyzuje a zapamätá si výsledky. Tento režim sa zvyčajne používa v diktovacích systémoch, keď so systémom pracuje jeden používateľ.

Systém nezávislý od reproduktorov môže používať každý používateľ bez zaškolenia. Tento režim sa zvyčajne používa tam, kde postup učenia nie je možný, ako napríklad v telefónnych aplikáciách. Je zrejmé, že presnosť rozpoznávania systému závislého od hovoriaceho je vyššia ako presnosť rozpoznávania systému nezávislého od hovoriaceho. Systém nezávislý od reproduktorov je však výhodnejší na používanie, napríklad dokáže pracovať s neobmedzeným okruhom používateľov a nevyžaduje zaškolenie.

Po druhé, systémy sa delia na tie, ktoré pracujú len s izolovanými príkazmi a tie, ktoré dokážu rozpoznať súvislú reč. Rozpoznávanie reči je oveľa zložitejšia úloha ako rozpoznávanie samostatne hovorených slov. Napríklad pri prechode z izolovaného rozpoznávania slov na rozpoznávanie reči so slovníkom s 1 000 slovami sa chybovosť zvýši z 3,1 na 8,7 a spracovanie reči trvá trikrát dlhšie.

Režim izolovanej výslovnosti príkazov je najjednoduchší a najmenej náročný na zdroje. Pri práci v tomto režime používateľ po každom slove urobí pauzu, teda zreteľne vyznačí hranice slov. Systém nepotrebuje sám nájsť začiatok a koniec slova vo fráze. Systém potom porovná rozpoznané slovo so vzormi v slovníku a systém akceptuje najpravdepodobnejší model. Tento typ rozpoznávania je široko používaný v telefonovaní namiesto obvyklých metód DTMF.

Ďalšie variácie reči vznikajú aj v dôsledku svojvoľných intonácií, stresu, neprísnej štruktúry fráz, prestávok, opakovaní atď.

Na križovatke súvislej a oddelenej výslovnosti slov vznikol režim vyhľadávania kľúčových slov. V tomto režime CAPP nájde vopred určené slovo alebo skupinu slov vo všeobecnom prúde reči. Kde sa dá použiť? Napríklad v odpočúvacích zariadeniach, ktoré sa zapnú a začnú nahrávať, keď sa určité slová objavia v reči alebo v elektronickej referencii. Po prijatí žiadosti v ľubovoľnej forme systém vyberie sémantické slová a po ich rozpoznaní poskytne potrebné informácie.

Veľkosť použitého slovníka je dôležitou súčasťou CAPP. Je zrejmé, že čím väčší je slovník, tým vyššia je pravdepodobnosť, že systém urobí chybu. V mnohých moderných systémoch je možné podľa potreby buď dopĺňať slovníky o nové slová, alebo načítať nové slovníky. Typická chybovosť pre systém nezávislý od rečníka s izolovanou výslovnosťou príkazov je asi 1 % pre 100-slovný slovník, 3 % pre 600-slovný slovník a 10 % pre 8000-slovný slovník.

Ponuky moderného trhu CAPP

a trh dnes predstavuje CAPP rôznych spoločností. Uvažujme o niektorých z nich.

Aculab

Presnosť rozpoznávania 97%.

Systém nezávislý od reproduktorov. Vývojári systému analyzovali rôzne databázy pre mnoho jazykov, aby zohľadnili všetky variácie reči, ktoré sa vyskytujú v závislosti od veku, hlasu, pohlavia a prízvuku. Proprietárne algoritmy poskytujú rozpoznávanie reči bez ohľadu na vlastnosti zariadenia (slúchadlá, mikrofón) a charakteristiky kanálov.

Systém podporuje možnosť vytvárať ďalšie slovníky, ktoré zohľadňujú zvláštnosti výslovnosti a prízvukov. To je užitočné najmä vtedy, keď systém používajú ľudia, ktorých výslovnosť je veľmi odlišná od bežnej.

Systém podporuje najbežnejšie jazyky, ako je britská a americká angličtina, francúzština, nemčina, taliančina, severoamerická španielčina. Slovník je možné nakonfigurovať pre ktorýkoľvek z týchto jazykov, ale nie je možné používať viacero jazykov súčasne ako súčasť jedného slovníka.

Produkt je dostupný na Windows NT/2000, Linux a Sun SPARC Solaris.

Babear SDK verzia 3.0

Systém nezávislý od reproduktorov, ktorý nevyžaduje školenie pre konkrétneho používateľa. Prispôsobenie používateľovi prebieha počas prevádzky a poskytuje najlepší výsledok rozpoznávania. Automatické prispôsobenie sa hlasovej aktivite vám umožňuje rozpoznať reč vo veľmi hlučnom prostredí, napríklad v aute. Systém neurčuje slová, ktoré nie sú uvedené v slovníku. Je možné vyhľadávať kľúčové slová. Systém je možné nakonfigurovať tak, aby fungoval ako s malým slovníkom (izolovaná výslovnosť príkazov), tak aj s veľkým slovníkom (reč).

Systém podporuje nasledujúce jazyky: britská a americká angličtina, španielčina, nemčina, francúzština, dánčina, švédčina, turečtina, gréčtina, islandčina a arabčina.

Systém beží na Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X a Linux.

Loquendo ASR

Systém nezávislý od reproduktorov optimalizovaný pre použitie pri telefonovaní. Je možné rozpoznávať jednotlivé slová a reč, vyhľadávať kľúčové slová (slovník do 500 slov). Umožňuje vytvárať užívateľsky príjemné aplikácie vďaka veľkému objemu slovníka a flexibilite systému.

Podporuje 12 jazykov vrátane najbežnejších európskych jazykov (taliančina, španielčina, britská a americká angličtina, francúzština, nemčina, gréčtina, švédčina atď.).

Zahrnuté v Loquendo Speech Suite spolu so systémom prevodu textu na reč a Loquendo VoiceXML Interpreter, ktorý podporuje viacero hlasov a jazykov.

Systém pracuje na báze MS Windows NT/2000, UNIX a Linux.

LumenVox

Systém nezávislý od rečníka, ktorý si nevyžaduje školenie, no po prispôsobení konkrétnemu používateľovi sa výsledky rozpoznávania stanú oveľa lepšími: presnosť rozpoznávania presahuje 90 %.

Podporuje rôzne formáty zvukových súborov: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). Nemá prísne požiadavky na hardvérové zdroje. Funguje na báze Windows NT/2000/XP a Linux.

Systémové požiadavky (založené na systéme Windows):

Windows NT 4.0 s balíkom Service Pack 6a, Windows 2000 alebo Windows XP Pro;

Minimálna veľkosť pamäte je 512 MB.

Systémové požiadavky (založené na systéme Red Hat Linux):

Red Hat Linux 7.2;

Intel Pentium III 800 MHz alebo vyšší;

Veľkosť pamäte 256 MB;

Veľkosť disku 17 MB (po dekompresii).

Nuance

Podľa výrobcov je systém optimalizovaný pre čo najmenšiu spotrebu pamäte a iných systémových prostriedkov. Presnosť rozpoznávania je až 96% a zostáva vysoká aj v hlučnom prostredí.

Je tu možnosť samoučenia systému a jeho prispôsobenia pre každého užívateľa.

Beží na Windows 2000 a Linux.

DUCH

Jazyk môže byť ľubovoľný (slovník je zostavený pre špecifické požiadavky klienta a obsahuje tie slová a v jazyku, ktorý klient špecifikoval v požiadavkách na nastavenie systému. Slovník môže obsahovať slová z rôznych jazykov, teda bez zmenou nastavení systém dokáže rozpoznať slová, napríklad v čínštine aj vo fínčine, ak boli predtým zadané do slovníka). Tento systém teda môže pracovať s akýmkoľvek jazykom, zatiaľ čo iné systémy - iba s určitým súborom z nich.

Ide o systém automatického rozpoznávania reči, ktorý poskytuje vysokokvalitné rozpoznávanie aj vo veľmi hlučnom prostredí. Systém je možné jednoducho nakonfigurovať tak, aby pracoval v jednom z dvoch režimov: rozpoznávanie fráz s pevným počtom príkazov (vyslovovanie jednotlivých príkazov, režim PIN kódu) a rozpoznávanie fráz s ľubovoľným počtom príkazov (nepretržité vyslovovanie príkazov, „režim koherentnej reči“). Je možné vyhľadávať kľúčové slová. Toto riešenie funguje v podmienkach aditívneho nestacionárneho hluku. Požadovaný odstup signálu od šumu je do 0 dB v „režime PIN kódu“ a do +15 dB v režime pripojenej reči.

Oneskorenie rozpoznávania - 0,2 s. Parametre akustického kanála: šírka pásma v rozsahu 300-3500 Hz. Prispôsobenie sa akustickému prostrediu sa vykonáva úlomkami hluku s celkovou dĺžkou minimálne 3 s.

Pre "režim PIN kódu":

Slovník - 50 príkazov;

Pravdepodobnosť správneho rozpoznania - 95-99% pri SNR = 0…6 dB;

Požadované akustické podmienky: aditívny širokopásmový statický šum s SNR (pomer signálu k šumu) >= 15 dB.

Pre pripojený režim rozpoznávania reči:

Slovník - 12 slov / čísel;

Pravdepodobnosť správneho rozpoznania reťazca slov je 98-99%.

Špecifickosť: prispôsobenie sa ľubovoľným zvukom.

Systém automatického rozpoznávania reči od SPIRIT je dostupný vo forme PC aplikácie pod MS Windows alebo montážnym kódom. Na žiadosť zákazníkov je možné riešenie preniesť na akúkoľvek platformu DSP alebo RISC.

VoiceWare

Systém môže fungovať v režime závislom aj od reproduktora, takže špeciálne školenie systému na prácu s konkrétnym používateľom nie je potrebné.

Poskytuje vysokú presnosť rozpoznávania a prevádzku v reálnom čase, dokonca aj v hlučnom prostredí.

Systém rozpozná spojenú reč a sekvenčný zoznam čísel.

Slová, ktoré nie sú uvedené v slovníku a cudzí hluk, nevníma a slová, ktoré nič neznamenajú, ako napríklad „a“, „dobre“ atď., sú vyradené.

Do slovníka je možné pridávať nové slová.

Systém sa automaticky prispôsobuje tónu, výslovnosti a iným rečovým vlastnostiam používateľa.

VoiceWare podporuje americkú angličtinu a kórejčinu; Čínština a japončina sú vo vývoji.

Systém beží na Windows 95/98/NT 4.0, UNIX a Linux.

Za účelom rozpoznať reč a preložiť to od zvuku alebo videa po text, existujú programy a rozšírenia (pluginy) pre prehliadače. Prečo však toto všetko, ak existujú online služby? Programy musia byť nainštalované na počítači, navyše väčšina programov na rozpoznávanie reči nie je ani zďaleka zadarmo.

Veľké množstvo zásuvných modulov nainštalovaných v prehliadači výrazne spomaľuje jeho prácu a rýchlosť surfovania po internete. A služby, o ktorých sa dnes bude diskutovať, sú úplne bezplatné a nevyžadujú inštaláciu - vošli ste, použili a odišli!

V tomto článku sa pozrieme na dve online služby na preklad reči do textu. Oba fungujú na podobnom princípe: spustíte nahrávanie (počas používania služby umožníte prehliadaču prístup k mikrofónu), hovoríte do mikrofónu (diktujete) a na výstupe dostanete text, ktorý je možné skopírovať do ľubovoľného dokumentu na vašom počítač.

Speechpad.ru

Služba rozpoznávania reči online v ruskom jazyku. Má podrobné pokyny na prácu v ruštine.

podpora 7 jazykov (ruština, ukrajinčina, angličtina, nemčina, francúzština, španielčina, taliančina)
stiahnuť na prepis zvukového alebo video súboru (podporované sú videá YouTube)
simultánny preklad do iného jazyka
podpora hlasového zadávania interpunkcie a posunu riadkov
panel tlačidiel (zmena malých a veľkých písmen, nový riadok, úvodzovky, zátvorky atď.)
dostupnosť osobného účtu s históriou záznamov (možnosť dostupná po registrácii)
prítomnosť doplnku pre prehliadač Google Chrome na zadávanie textu hlasom do textového poľa stránok (nazývaného „Hlasový textový vstup – Speechpad.ru“)

Diktát.io

Druhá online služba na preklad reči do textu. Zahraničná služba, ktorá medzitým skvele pracuje s ruským jazykom, čo je mimoriadne prekvapujúce. Kvalita rozpoznávania reči nie je nižšia ako Speechpad, ale o tom neskôr.

Hlavné funkcie služby:

podpora 30 jazykov, medzi ktorými je dokonca aj maďarčina, turečtina, arabčina, čínština, malajčina atď.
automatické rozpoznávanie výslovnosti interpunkčných znamienok, zalamovaní riadkov a pod.
schopnosť integrovať sa so stránkami akejkoľvek lokality
Prítomnosť doplnku pre Google Chrome (nazývaného „VoiceRecognition“)

Pri rozpoznávaní reči je najdôležitejšia vec presne kvalitu prekladu reč na text. Príjemné "buchty" a príležitosti - nič viac ako dobré plus. Čím sa teda môžu obe služby v tomto smere pochváliť?

Porovnávací test služieb

Na test vyberieme dva ťažko rozpoznateľné fragmenty, ktoré obsahujú slová a slovné spojenia, ktoré sa v dnešnej reči používajú len zriedka. Na začiatok si prečítame fragment básne „Roľnícke deti“ od N. Nekrasova.

Nižšie je výsledok prekladu reči do textu každá služba (chyby sú označené červenou):

Ako vidíte, obe služby si poradili s rozpoznávaním reči s takmer identickými chybami. Výsledok je celkom dobrý!

Teraz si na skúšku zoberme úryvok z listu vojaka Červenej armády Sukhova (film „Biele slnko púšte“):

Vynikajúci výsledok!

Ako vidíte, obe služby zvládajú rozpoznávanie reči celkom primerane - vyberte si ľubovoľnú! Zdá sa, že dokonca používajú rovnaký motor - podľa výsledkov testu mali príliš podobné chyby). Ale ak potrebujete ďalšie funkcie, ako je nahranie audio / video súboru a jeho preklad do textu (prepis) alebo simultánny preklad zneného textu do iného jazyka, potom bude Speechpad tou najlepšou voľbou!

Mimochodom, tu je návod, ako vykonal simultánny preklad fragmentu Nekrasovovej básne do angličtiny:

No a toto je krátky video návod na prácu so Speechpadom, ktorý nahral sám autor projektu:

Priatelia, páči sa vám táto služba? Poznáte lepšie analógy? Podeľte sa o svoje dojmy v komentároch.

tutoriál

V tomto článku chcem preskúmať základy takej zaujímavej oblasti vývoja softvéru, ako je rozpoznávanie reči. Prirodzene, nie som odborník na túto tému, takže môj príbeh bude plný nepresností, chýb a sklamaní. Napriek tomu hlavným cieľom mojej „práce“, ako už z názvu vyplýva, nie je odborný rozbor problému, ale popis základných pojmov, problémov a ich riešení. Vo všeobecnosti žiadam každého, kto má záujem, aby privítal pod rezom!

Prológ

Začnime tým, že naša reč je sled zvukov. Zvuk je zase superpozícia (superpozícia) zvukových vibrácií (vĺn) rôznych frekvencií. Vlna, ako ju poznáme z fyziky, sa vyznačuje dvoma atribútmi – amplitúdou a frekvenciou.

Týmto spôsobom sa mechanické vibrácie premieňajú na množinu čísel vhodných na spracovanie na moderných počítačoch.

Z toho vyplýva, že úloha rozpoznávania reči sa obmedzuje na „spájanie“ množiny číselných hodnôt (digitálny signál) a slov z nejakého slovníka (napríklad ruský jazyk).

Pozrime sa, ako sa v skutočnosti dá implementovať práve toto „mapovanie“.

Vstupné Data

Povedzme, že máme nejaký súbor/stream so zvukovými údajmi. V prvom rade musíme pochopiť, ako to funguje a ako to čítať. Pozrime sa na najjednoduchšiu možnosť - súbor WAV.

Formát predpokladá prítomnosť dvoch blokov v súbore. Prvý blok je hlavička s informáciami o audio streame: bitová rýchlosť, frekvencia, počet kanálov, dĺžka súboru atď. Druhý blok tvoria "surové" dáta - rovnaký digitálny signál, súbor hodnôt amplitúdy.

Logika čítania údajov je v tomto prípade celkom jednoduchá. Prečítame hlavičku, skontrolujeme niektoré obmedzenia (napríklad nedostatok kompresie), uložíme dáta do špeciálne prideleného poľa.

Uznanie

Čisto teoreticky teraz môžeme porovnať (prvok po prvku) vzorku, ktorú máme, s nejakou inou, ktorej text už poznáme. To znamená, snažte sa "rozpoznať" reč ... Ale toto je lepšie nerobiť :)

Náš prístup by mal byť stabilný (dobre, aspoň trochu) k zmenám v zafarbení hlasu (osoba, ktorá slovo vyslovuje), hlasitosti a rýchlosti výslovnosti. To sa prirodzene nedá dosiahnuť porovnávaním dvoch zvukových signálov prvok po prvku.

Preto pôjdeme trochu iným spôsobom.

Rámy

V prvom rade si rozdeľme naše dáta na malé časové intervaly – snímky. Okrem toho by rámce nemali ísť striktne jeden po druhom, ale „prekrývať“. Tie. koniec jedného rámca sa musí pretínať so začiatkom druhého.

Snímky sú vhodnejšou jednotkou analýzy údajov ako špecifické hodnoty signálu, pretože je oveľa pohodlnejšie analyzovať vlny v určitom intervale ako v konkrétnych bodoch. Usporiadanie „prekrývajúcich sa“ snímok umožňuje vyhladenie výsledkov analýzy snímok, čím sa myšlienka snímok mení na akési „okno“ pohybujúce sa pozdĺž pôvodnej funkcie (hodnoty signálu).

Empiricky sa zistilo, že optimálna dĺžka rámca by mala zodpovedať medzere 10 ms, "prekrytie" - 50%. Ak vezmeme do úvahy, že priemerná dĺžka slova (aspoň v mojich experimentoch) je 500 ms, takýto krok nám dá približne 500 / (10 * 0,5) = 100 snímok na slovo.

lámanie slov

Prvou úlohou, ktorú treba vyriešiť pri rozpoznávaní reči, je rozdelenie práve tejto reči na samostatné slová. Pre zjednodušenie predpokladajme, že v našom prípade reč obsahuje nejaké pauzy (intervaly ticha), ktoré možno považovať za „oddeľovače“ slov.

V tomto prípade musíme nájsť nejakú hodnotu, prah - hodnoty, nad ktorými je slovo, pod ktorým je ticho. Tu môže byť niekoľko možností:

nastaviť na konštantu (funguje, ak je pôvodný signál vždy generovaný za rovnakých podmienok, rovnakým spôsobom);
hodnoty klastrového signálu explicitným zvýraznením množiny hodnôt zodpovedajúcich tichu (bude fungovať iba vtedy, ak ticho zaberá významnú časť pôvodného signálu);
analyzovať entropiu;

Ako ste možno uhádli, teraz sa budeme baviť o poslednom bode :) Začnime tým, že entropia je mierou neusporiadanosti, „mierou neistoty akejkoľvek skúsenosti“ (c). V našom prípade entropia znamená, koľko náš signál „kolísa“ v rámci daného rámca.

predpokladajme, že náš signál je normalizovaný a všetky jeho hodnoty ležia v rozsahu [-1;1];
vytvorte histogram (hustotu distribúcie) hodnôt rámcového signálu:

vypočítajte entropiu ako

;

A tak sme dostali hodnotu entropie. Ale to je len ďalšia charakteristika rámu a na to, aby sme oddelili zvuk od ticha, ho ešte musíme s niečím porovnať. V niektorých článkoch sa odporúča, aby sa prah entropie rovnal priemeru medzi jeho maximálnymi a minimálnymi hodnotami (medzi všetkými snímkami). V mojom prípade však tento prístup nepriniesol žiadne dobré výsledky.
Našťastie je entropia (na rozdiel od stredného štvorca hodnôt) relatívne nezávislá veličina. To mi umožnilo získať hodnotu jeho prahu vo forme konštanty (0,1).

Problémy však nekončia: (Entropia môže klesnúť uprostred slova (na samohláskach), alebo môže náhle vyskočiť kvôli malému hluku. Aby sme sa vysporiadali s prvým problémom, musíme zaviesť koncept „minimálnej vzdialenosti medzi slovami“ a „lepidlom“ v blízkosti ležiacich rámových sád oddelených v dôsledku poklesu. Druhý problém je vyriešený použitím „minimálnej dĺžky slova“ a odrezaním všetkých kandidátov, ktorí neprešli výberom (a neboli použité). v prvom odseku).

Ak reč v zásade nie je „artikulovaná“, možno sa pokúsiť rozložiť pôvodný súbor rámcov na podsekvencie pripravené určitým spôsobom, z ktorých každá bude podrobená procesu rozpoznávania. Ale to je úplne iný príbeh :)

A tak máme množinu rámcov zodpovedajúcich určitému slovu. Môžeme ísť cestou najmenšieho odporu a použiť strednú druhú mocninu všetkých jej hodnôt (Root Mean Square) ako číselnú charakteristiku rámu. Takáto metrika však nesie veľmi málo informácií vhodných na ďalšiu analýzu.

Tu vstupujú do hry Mel-frekvenčné kepstrálne koeficienty. Podľa Wikipédie (ktorá, ako viete, neklame) je MFCC akýmsi vyjadrením energie spektra signálu. Výhody jeho použitia sú nasledovné:

Využíva sa spektrum signálu (t. j. rozšírenie z hľadiska základu ortogonálnych [ko]sínusových funkcií), čo umožňuje pri ďalšej analýze zohľadniť vlnovú „charakter“ signálu;
Spektrum sa premieta na špeciálnu mel-škálu, ktorá vám umožňuje zvýrazniť najvýznamnejšie frekvencie pre ľudské vnímanie;
Počet vypočítaných koeficientov môže byť obmedzený na ľubovoľnú hodnotu (napríklad 12), čo vám umožňuje „komprimovať“ rámec a v dôsledku toho množstvo spracovávaných informácií;

Pozrime sa na proces výpočtu koeficientov MFCC pre určitý rámec.

Predstavme si náš rámec ako vektor , kde N je veľkosť rámca.

Fourierova expanzia

Najprv vypočítame spektrum signálu pomocou diskrétnej Fourierovej transformácie (najlepšie jej „rýchlej“ FFT implementácie).

To znamená, že výsledkom bude vektor nasledujúceho tvaru:

Je dôležité pochopiť, že po tejto transformácii na osi x máme frekvenciu (hz) signálu a na osi y máme veľkosť (ako spôsob, ako sa dostať preč od komplexných hodnôt):

Výpočet tavných filtrov

Začnime tým, čo je mel. Opäť podľa Wikipédie je mel „psychofyzikálna jednotka výšky tónu“ založená na subjektívnom vnímaní priemernými ľuďmi. Závisí to predovšetkým od frekvencie zvuku (ako aj od hlasitosti a zafarbenia). Inými slovami, táto hodnota, ktorá ukazuje, nakoľko je pre nás zvuk určitej frekvencie „významný“.

Frekvenciu môžete previesť na kriedu pomocou nasledujúceho vzorca (zapamätajte si ho ako „vzorec-1“):

Reverzná transformácia vyzerá takto (zapamätajte si to ako "vzorec-2"):

Graf mel/frekvencia:

Ale späť k našej úlohe. Povedzme, že máme rám s veľkosťou 256 prvkov. Vieme (z údajov o formáte zvuku), že frekvencia zvuku v danom rámci je 16 000 Hz. Predpokladajme, že ľudská reč leží v rozsahu od hz. Stanovme počet hľadaných mel-koeficientov M = 10 (odporúčaná hodnota).

Aby sme vyššie získané spektrum rozložili na mel-škále, musíme vytvoriť „hrebeň“ filtrov. V podstate je každý mel filter funkciou trojuholníkového okna, ktorá vám umožňuje sčítať množstvo energie v určitom frekvenčnom rozsahu a tým získať mel koeficient. Keď poznáme počet mel koeficientov a analyzovaný frekvenčný rozsah, môžeme zostaviť sadu takýchto filtrov:

Všimnite si, že čím vyššie je číslo mel koeficientu, tým širšia je základňa filtra. Je to spôsobené tým, že rozdelenie frekvenčného rozsahu, ktorý nás zaujíma, na rozsahy spracované filtrami sa vyskytuje na stupnici kriedy.

Ale to sme opäť odbočili. V našom prípade je teda rozsah frekvencií, ktoré nás zaujímajú, . Podľa vzorca-1 na stupnici kriedy sa tento rozsah zmení na.

m[i] =

Upozorňujeme, že bodky sú na kriedovej stupnici rozmiestnené rovnomerne. Preveďte mierku späť na hertz pomocou vzorca-2:

h[i] =

Ako vidíte, teraz sa stupnica začala postupne naťahovať, čím sa vyrovnáva dynamika rastu „významnosti“ pri nízkych a vysokých frekvenciách.

Teraz potrebujeme prekryť výslednú mierku na spektre nášho rámu. Ako si pamätáme, na osi X máme frekvenciu. Dĺžka spektra je 256 - prvkov, pričom sa zmestí 16000hz. Vyriešením jednoduchého pomeru môžete získať nasledujúci vzorec:

f(i) = podlaha ((veľkosť rámu+1) * h(i) / vzorkovacia frekvencia)

Čo je v našom prípade ekvivalentné

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

To je všetko! Keď poznáme referenčné body na osi X nášho spektra, je ľahké zostaviť potrebné filtre pomocou nasledujúceho vzorca:

Aplikácia filtrov, logaritmus energie spektra

Aplikácia filtra spočíva v párovom vynásobení jeho hodnôt hodnotami spektra. Výsledkom tejto operácie je mel koeficient. Keďže máme M filtrov, bude rovnaký počet koeficientov.

Melové filtre však musíme aplikovať nie na hodnoty spektra, ale na jeho energiu. Potom urobte logaritmus výsledkov. Predpokladá sa, že to znižuje citlivosť koeficientov na šum.

kosínusová transformácia

Na získanie týchto "kepstrálnych" koeficientov sa používa diskrétna kosínová transformácia (DCT). Jeho zmyslom je „komprimovať“ výsledky získané zvýšením významnosti prvých koeficientov a znížením významnosti druhých.

V tomto prípade sa DCTII používa bez akéhokoľvek násobenia (faktorom mierky).

Teraz pre každý rámec máme sadu M mfcc koeficientov, ktoré možno použiť na ďalšiu analýzu.

Príklady kódu pre nadradené metódy možno nájsť.

Algoritmus rozpoznávania

Tu vás, milý čitateľ, čaká hlavné sklamanie. Na internete som náhodou videl veľa vysoko inteligentných (a nie takých) sporov o tom, ktorá metóda rozpoznávania je lepšia. Niekto sa zastáva skrytých Markovových modelov, niekto neurónových sietí, niekoho myšlienky v podstate nemožno pochopiť :)

V každom prípade sa veľa preferuje HMM a práve ich implementáciu sa chystám pridať do svojho kódu ... v budúcnosti :)

Momentálne navrhujem zastaviť sa pri oveľa menej účinnej, no mnohokrát jednoduchšej metóde.

A tak si pamätajte, že našou úlohou je rozpoznať slovo z nejakého slovníka. Pre jednoduchosť rozpoznáme názvy prvých desiatich číslic: „jeden“, „dva“, „tri“, „štyri“, „päť“, „šesť“, „sedem“, „osem“, „deväť“, „desať“.

Teraz zoberme iPhone / Android a prejdime cez L kolegov so žiadosťou o nadiktovanie týchto slov do záznamu. Ďalej priraďme (v nejakej lokálnej databáze alebo jednoduchom súbore) ku každému slovu L sady mfcc-koeficientov zodpovedajúcich záznamov.

Túto korešpondenciu budeme nazývať „Model“ a samotný proces – strojové učenie! V skutočnosti má jednoduché pridávanie nových vzoriek do databázy extrémne slabé spojenie so strojovým učením... Ale tento výraz je príliš trendy :)

Teraz je naša úloha zredukovaná na výber „najbližšieho“ modelu pre nejaký súbor mfcc-koeficientov (rozpoznateľné slovo). Na prvý pohľad sa problém dá vyriešiť celkom jednoducho:

pre každý model nájdeme priemernú (euklidovskú) vzdialenosť medzi identifikovaným mfcc-vektorom a modelovými vektormi;
ako správny zvolíme model, ktorého priemerná vzdialenosť bude najmenšia;

To isté slovo však môže vysloviť Andrej Malakhov aj niektorí jeho estónski kolegovia. Inými slovami, veľkosť vektora mfcc pre rovnaké slovo môže byť odlišná.

Našťastie, problém porovnávania sekvencií rôznych dĺžok je už vyriešený v podobe algoritmu Dynamic Time Warping. Tento dynamický programovací algoritmus je krásne opísaný v buržoáznej Wiki aj v ortodoxnom Habré.

Jediná zmena, ktorú treba urobiť, je spôsob zisťovania vzdialenosti. Musíme si uvedomiť, že vektor mfcc modelu je v skutočnosti sekvencia mfcc "subvektorov" dimenzie M získaných zo snímok. Algoritmus DTW by teda mal nájsť vzdialenosť medzi sekvenciami tých istých „subvektorov“ dimenzie M. To znamená, že vzdialenosti (euklidovské) medzi „subvektormi“ rámcov mfcc by sa mali použiť ako hodnoty matice vzdialeností.

Experimenty

Fungovanie tohto prístupu som nemal možnosť otestovať na veľkej „tréningovej“ vzorke. Výsledky testov na vzorke 3 prípadov pre každé slovo v nesyntetických podmienkach ukázali, mierne povedané, nie najlepší výsledok - 65% správnych rozpoznaní.

Mojím cieľom však bolo vytvoriť čo najjednoduchšiu aplikáciu na rozpoznávanie reči. Takže povedať „proof of concept“ :) Pridajte štítky

9. Fonologické polohy. Silné a slabé fonémy.

10. Polohové alternácie samohláskových foném. Kvantitatívna a kvalitatívna redukcia samohláskových foném.

11. Polohové alternácie spoluhláskových foném. Asimilácia a disimilácia hluchotou/hlasom a tvrdosťou/mäkkosťou.

12. Historické alternácie foném.

13. Pád redukovaných samohláskových foném a dôsledky tohto javu.

14. Alternácie spojené s históriou nosových zvukov v starom ruskom jazyku.

15. Palatalizácia zadných jazykov.

17. Fonetický prepis. Fonematický prepis

18. Slabika. Sylabus. Druhy slabík.

19. Fonetické slovo. stres

20. Tlkot reči. Intonácia

21. Dôraz. Intonačné konštrukcie

21. Fráza. Intonácia

22. Pojem ortoepia

23. Základné pravidlá ruskej spisovnej výslovnosti.

24. Výslovnosť samohlások pod prízvukom. Výslovnosť neprízvučných samohlások.

25. Výslovnosť jednotlivých spoluhlások.

26. Výslovnosť skupín spoluhlások.

27. Výslovnosť niektorých gramatických tvarov.

28. Výslovnosť niektorých skratiek. Vlastnosti výslovnosti cudzích slov.

29. Ťažké prípady zvládania stresu v ruštine.

30. Vývin ruskej spisovnej výslovnosti.

31. Gramatické kódovanie

32. Sémantické kódovanie. Dvojargument (časové znaky): kauzalita.

33. Sémantické kódovanie. Dvojargument (dočasné znaky): následok, výsledok, účel.

34. Sémantické kódovanie. Dvojargument (časové znaky): transformácia, zmena

35. Sémantické kódovanie. Dvojargument (dočasné znaky): interakcia, zoskupenie, zhoda, asociácia

36. Sémantické kódovanie. Dvojargument (dočasné znaky): oddelenie, vplyv, podmienka, vstup.

37. Sémantické kódovanie. Dvojargument (dočasné znaky): súlad, kontrola, podriadenosť, závislosť.

38. Sémantické kódovanie. Jednoargument (trvalé znaky): vlastnosť, nevyhnutnosť, možnosť, pravdepodobnosť, áno, nie.

39. Sémantické kódovanie. Jednoargument (konštantné znaky): pravda, nepravda.

sémantický kód. Jeho ciele. Účel. Konštrukčný princíp. Príležitosti.

Účel sémantického kódu. Termín "význam".

Účel sémantického kódu. Text. Informácie. Hypertext vo vývoji informácií.

43. Gramatická a sémantická analýza v sémantickom kódovaní.

44. Ruský sémantický slovník kompatibility a asociačný slovník pre sémantické kódovanie.

Účel sémantického kódu. Izomorfizmus systému.

Účel sémantického kódu. Princíp potrebného a dostatočného.

Účel sémantického kódu. Konektivita tried a podtried

48. Účel sémantického kódu. Princíp hierarchie / nehierarchie.

49. Účel sémantického kódu. systémová metafora.

50. Situačný (situačný) sémantický kód.

51. Sémantické kódovanie. Zarovnanie-interpretačný kód. Maticový kód.

52. Hlavné úlohy a kľúčové pojmy rečového rozhrania.

53. Historický prehľad problému rozpoznávania a syntézy reči.

54. Systémy automatickej syntézy reči. Praktické aplikácie rečového rozhrania.

55. Systémy automatického rozpoznávania reči. Praktické aplikácie rečového rozhrania.

56. Lingvistické základy rečového rozhrania. Využitie lingvistiky pri implementácii rečových systémov.

57. Štruktúra rečového signálu. Analýza a syntéza. Spektrálno-časové charakteristiky rečového signálu.

58. Informačná a modulačná štruktúra rečového signálu.

59. Metódy syntézy rečového signálu. Zovšeobecnené matematické modely na popis rečových signálov.

60. Metódy syntézy rečového signálu. Geometrický model vokálneho traktu.

61. Metódy syntézy rečového signálu. formantový model.

62. Kompilačné metódy na syntézu rečového signálu.

63. Metódy analýzy rečových signálov.

64. Metóda číslicovej filtrácie rečového signálu. Spektrálna analýza pomocou FFT algoritmov. Metóda digitálneho filtrovania

Spektrálna analýza pomocou FFT algoritmov

65. Spektrálna analýza založená na lineárnej predikcii. Formantovo-parametrický popis rečového signálu. Spektrálna analýza založená na lineárnej predikcii

Formantovo-parametrický popis rečového signálu

66. Metóda kepstrálnych koeficientov. Vlastnosti vnímania reči. Vlastnosti receptívneho vnímania reči osobou. Metóda kepstrálneho koeficientu

67. Vlastnosti receptívneho vnímania rečových signálov. Povaha sluchových (fonetických) znakov rečového signálu. Vlastnosti receptívneho vnímania rečových signálov

Povaha sluchových (fonetických) znakov rečového signálu

68. Vlastnosti vnímania minimálnych významových prvkov reči

69. Syntéza reči v texte. Štruktúra syntetizátora reči podľa textu.

Štruktúra prevodu textu na reč Kľúčové pojmy:

70. Jazykový procesor. Predspracovanie textu. Frázové spracovanie textu.

Predspracovanie textu

Spracovanie textu po jednotlivých frázach

71. Textové spracovanie testu. Ukážka práce lingvistického procesora. Spracovanie textu

Ukážka práce lingvistického procesora

72. Prozodický procesor

73. Fonetický procesor. Artikulačno-fonetický procesor. Fonetický procesor Formant.

74. Alofónny fonetický procesor. akustický procesor.

75. Aproximácia geometrie rečového taktu. Akustický procesor založený na kompilačných metódach syntézy reči.

76. Klasifikácia systémov automatického rozpoznávania reči. Metódy automatického rozpoznávania reči.

77. Klasifikácia metód rozpoznávania reči.

78. Metóda dynamického programovania.

79. Metóda skrytých Markovových modelov.

Systémy automatického rozpoznávania reči (SAPP) sú chápané ako systémy, ktoré premieňajú vstupnú reč (rečový signál) na rozpoznanú správu. V tomto prípade môže byť rozpoznaná správa prezentovaná ako vo forme textu tejto správy, tak aj

okamžite previesť do formy vhodnej na jeho ďalšie spracovanie, aby sa vytvorila odozva systému. Úlohou systému automatického rozpoznávania reči je spočiatku konvertovať text na reč. Preto sa v anglickej literatúre tieto systémy nazývajú Speech To Text System. Systémy automatického rozpoznávania reči sa často označujú jednoducho ako systémy rozpoznávania reči (SPR).

Zjednodušená bloková schéma systému automatického rozpoznávania reči je znázornená na obr.

Podľa modelu analýzy rečového signálu porozumieť bloku, ktorého úlohou je analyzovať vstupný signál, po prvé, aby sa klasifikoval ako rečový signál, a po druhé, zvýrazniť zložky v prijímanom signáli, ktoré sú hlavné pre

rozpoznanie prijatej správy. Tieto komponenty zahŕňajú parametre, ktoré opisujú reč, podobne ako tie, ktoré sa tvoria v procese syntézy reči. Súbor špecifikovaných parametrov závisí od zvolenej metódy rozpoznávania.

Model rozpoznávania reči a rozhodovania je blok, v rámci ktorého sa vytvára rozpoznaná správa na základe analýzy postupnosti parametrov získaných z prvého bloku. Napríklad, ak sa použije formantový model opisu reči, potom sa na základe frekvencií získaných v prvom bloku použijú formanty na zostavenie postupnosti rozpoznaných foném, ktoré tvoria vstupnú správu. V tomto prípade sa rozhodne, či je vstupná správa správne rozpoznaná. Pri rozhodovaní sú možné najmä tieto rozhodnutia: správa je správne rozpoznaná (potvrdzuje to text, ktorý zodpovedá normám prirodzeného jazyka) resp.

správa nie je rozpoznaná alebo rozpoznaná nesprávne (k takémuto rozhodnutiu dochádza vtedy, ak rozpoznaná správa obsahuje zjavné chyby, ktoré sa ťažko automaticky opravujú alebo dokonca úplné nezmysly).

Nasledujúce parametre, ktoré ich charakterizujú, môžu byť citované ako obmedzenia uložené na APPS:

Typ rozpoznateľnej reči (výslovnosť po slove s prestávkami v štýle rečových príkazov; jasná výslovnosť bez prestávok v štýle „diktát“; spontánna reč);

Objem slovníka (obmedzený na 100, 200 atď. slov; neobmedzený);

Stupeň závislosti na hovorcovi (závislý na hovorcovi; nezávislý na hovorcovi);

Syntaktické obmedzenia (jednotlivé slová; typické slovné spojenia; umelý jazyk; prirodzený jazyk);

Podmienky pre príjem rečových signálov (kontaktné mikrofóny; mikrofóny vzdialené na vzdialenosť viac ako 1 m);

Podmienky používania CRR (slabé alebo silné rušenie);

spoľahlivosť rozpoznávania.

Praktické aplikácie rečového rozhrania

Skôr ako pristúpime k zvažovaniu príkladov praktického využitia rečového rozhrania, porovnajme ho s v súčasnosti najbežnejšími prostriedkami interakcie používateľa s počítačom: klávesnicou a displejom. Je potrebné poznamenať aspoň tri základné rozdiely v rečovom rozhraní:

1) jasnou nevýhodou klávesnice a displeja je, že človek potrebuje absolvovať špeciálne školenie na komunikáciu s počítačom. Reč je zároveň prirodzeným rozhraním pre každého, aj pre nepripraveného človeka. Reč dramaticky znižuje psychologickú vzdialenosť medzi človekom a počítačom. Ak sa objaví rečové rozhranie, okruh používateľov počítača sa môže stať neobmedzeným;

2) samotná reč nie je žiadnym spôsobom mechanicky viazaná na počítač a dá sa s ním spojiť prostredníctvom komunikačných systémov, napríklad telefónu. Rozhranie reči skracuje fyzickú vzdialenosť medzi človekom a počítačom. To ďalej rozširuje okruh potenciálnych používateľov počítačov a robí z rečového rozhrania ideálny nástroj na budovanie systémov hromadných informačných služieb;

3) s počítačom môžete manipulovať v úplnej tme, so zavretými očami, keď máte ruky zaneprázdnené ovládacími páčkami, so zviazanými rukami a v iných extrémnych situáciách. Táto vlastnosť poskytuje efektívnosť a mobilitu komunikácie, uvoľnenie rúk a uvoľnenie vizuálneho kanála vnímania pri prijímaní informácií. To je mimoriadne dôležité napríklad pre ovládač veľkého energetického systému alebo pilota lietadla a vodiča auta. Počítačové systémy sú navyše čoraz dostupnejšie pre ľudí so zrakovým postihnutím.

V súčasnosti sú už technológie rečových počítačov značne rozšírené a vyvíjajú sa viacerými smermi, z ktorých hlavné sú znázornené na obr.

Titulky telefónu pre nepočujúcich a nedoslýchavých

Premeňte svoju obrazovku na úžasnú hlavičku telefónu. Je to plne automatické, vaše konverzácie nepíšu žiadni pisári. Nájsť starých rodičov, že je ťažké počuť rodinu a priateľov v telefóne? Zapnite im Speechlogger a prestaňte kričať do telefónu. Jednoducho pripojte zvukový výstup telefónu k zvukovému vstupu počítača a spustite Speechlogger. Je tiež užitočný pri interakciách tvárou v tvár.

Automatický prepis

Nahrali ste rozhovor? Ušetrite čas tým, že ho prepíšete pomocou automatickej reči Google do textu, ktorý vám do prehliadača prinesie Speechlogger. Prehrajte si nahraný rozhovor do mikrofónu (alebo linky) vášho počítača a nechajte rečový záznamník urobiť prepis. Speechlogger uloží prepis textu spolu s dátumom, časom a vašimi komentármi. Umožňuje tiež upravovať text. Telefonické rozhovory možno prepisovať rovnakým spôsobom. Môžete tiež nahrávať zvukové súbory priamo z počítača, ako je popísané nižšie.

Automatický tlmočník a prekladateľ

Stretnutie so zahraničnými hosťami? Prineste si notebook (alebo dva) so záznamníkom reči a mikrofónom. Každá strana uvidí hovorené slová druhej strany preložené do ich vlastného jazyka v reálnom čase. Užitočné je aj telefonát v cudzom jazyku, aby ste sa uistili, že druhej strane úplne rozumiete. Pripojte zvukový výstup telefónu k linkovému vstupu počítača a spustite Speechlogger.

Naučte sa cudzie jazyky a zlepšite si výslovnosť

Speechlogger je skvelý nástroj na učenie sa jazykov a dá sa použiť mnohými spôsobmi. Môžete ho použiť na učenie sa slovnej zásoby tak, že budete hovoriť svojím rodným jazykom a necháte softvér preložiť. Môžete sa naučiť a precvičiť si správnu výslovnosť rozprávaním cudzím jazykom a sledovaním, či Speechlogger rozumie alebo nie. Ak je text prepísaný čiernym písmom, znamená to, že ste ho vyslovili dobre.

Generovanie filmových titulkov

Speechlogger dokáže automaticky nahrávať filmy alebo iné zvukové súbory. Potom vezmite súbor a automaticky ho preložte do akéhokoľvek jazyka, aby ste vytvorili medzinárodné titulky.

Namiesto písania diktujte

Písanie listu? Dokumentácia? zoznamy? Súhrn? Čokoľvek potrebujete napísať, skúste to namiesto toho nadiktovať Speechloggeru. Speechlogger ho automaticky uloží za vás a umožní vám ho exportovať do dokumentu.

Zábavná hra :)

Dokážete napodobniť čínsky hovorca? francúzsky? A čo ruština? Skúste napodobniť cudzí jazyk a pomocou Speechloggera uvidíte, čo ste práve povedali. Použite simultánny preklad Speechloggera, aby ste pochopili, čo ste práve povedali. Dosiahnite úžasné výsledky – je to veľká zábava!

Portál pre študenta. Sebatréning