Puheentunnistustyökalut. Automaattiset puheentunnistusjärjestelmät

Jotta tunnistaa puhetta ja käännä se äänestä tai videosta tekstiin, on olemassa ohjelmia ja laajennuksia (laajennuksia) selaimille. Mutta miksi tämä kaikki, jos on online-palveluita? Ohjelmat on asennettava tietokoneelle, ja useimmat puheentunnistusohjelmat eivät myöskään ole ilmaisia.


Suuri määrä selaimeen asennettuja laajennuksia hidastaa huomattavasti sen työtä ja Internetin selaamisen nopeutta. Ja palvelut, joista tänään keskustellaan, ovat täysin ilmaisia ​​eivätkä vaadi asennusta - menit sisään, käytit sitä ja lähdit!

Tässä artikkelissa tarkastelemme kaksi online-puhe-tekstikäännöspalvelua. Molemmat toimivat samalla periaatteella: aloitat nauhoituksen (sallit selaimen käyttää mikrofonia palvelua käytettäessä), puhut mikrofoniin (sanellat) ja ulostulossa saat tekstin, joka voidaan kopioida mihin tahansa asiakirjaan. tietokone.

Speechpad.ru

Venäjänkielinen online-puheentunnistuspalvelu. Siinä on tarkat työohjeet venäjäksi.

  • tuki 7 kielelle (venäjä, ukraina, englanti, saksa, ranska, espanja, italia)
  • lataa ääni- tai videotiedoston litteroimiseksi (YouTube-videoita tuetaan)
  • simultaanikäännös toiselle kielelle
  • tuki välimerkkien ja rivinvaihdon puheäänelle
  • painikerivi (kirjainkoon vaihto, rivinvaihto, lainausmerkit, hakasulkeet jne.)
  • henkilökohtaisen tilin saatavuus tietuehistorialla (vaihtoehto saatavilla rekisteröinnin jälkeen)
  • Google Chromen laajennuksen läsnäolo tekstin syöttämiseksi äänellä sivustojen tekstikenttään (nimeltään "Äänitekstinsyöttö - Speechpad.ru")

Sanelu.io

Toinen online-puhe-tekstikäännöspalvelu. Ulkomaan palvelu, joka puolestaan ​​toimii hyvin venäjän kielen kanssa, mikä on äärimmäisen yllättävää. Puheentunnistuksen laatu ei ole huonompi kuin Speechpad, mutta siitä lisää myöhemmin.

Palvelun päätoiminnot:

  • tuki 30 kielelle, joiden joukossa on jopa unkari, turkki, arabia, kiina, malaiji jne.
  • välimerkkien, rivinvaihtojen jne. ääntämisen automaattinen tunnistus.
  • kyky integroida minkä tahansa sivuston sivuille
  • Google Chromen laajennuksen olemassaolo (nimeltään "VoiceRecognition")

Puheentunnistuksessa tärkeintä on juuri käännösten laatu puhe tekstiksi. Miellyttävät "pullat" ja mahdollisuudet - vain hyvä plussa. Mitä molemmat palvelut voivat ylpeillä tässä suhteessa?

Palveluiden vertaileva testi

Testiin valitaan kaksi vaikeasti tunnistettavaa fragmenttia, jotka sisältävät sanoja ja lauseita, joita käytetään harvoin nykypuheessa. Aluksi luimme katkelman N. Nekrasovin runosta "Talonpoikalapset".

Alla on puheen tekstiksi käännöstulos jokainen palvelu (virheet on merkitty punaisella):

Kuten näet, molemmat palvelut selvisivät puheentunnistuksesta lähes identtisillä virheillä. Tulos on aika hyvä!

Otetaan nyt testiä varten ote puna-armeijan sotilaan Suhovin kirjeestä (elokuva "Aavikon valkoinen aurinko"):

Loistava tulos!

Kuten näette, molemmat palvelut selviävät puheentunnistuksesta melko riittävästi - valitse mikä tahansa! Näyttää siltä, ​​​​että he jopa käyttävät samaa moottoria - heillä oli liian samanlaisia ​​​​virheitä testitulosten mukaan). Mutta jos tarvitset lisäominaisuuksia, kuten ääni-/videotiedoston lataamisen ja sen kääntämisen tekstiksi (transkriptio) tai soinnillisen tekstin samanaikaisen kääntämisen toiselle kielelle, Speechpad on paras valinta!


Muuten, näin hän suoritti simultaanikäännöksen Nekrasovin runon katkelmasta englanniksi:

No, tämä on lyhyt video-ohje Speechpad-työskentelyyn, jonka projektin kirjoittaja on itse tallentanut:

Ystävät, piditteko tästä palvelusta? Tiedätkö parempia analogeja? Jaa vaikutelmasi kommenteissa.

Kuinka hyvä se olikaan! Help deskille soittamalla oli mahdollista jutella tyttöoperaattorin kanssa ja jopa varata tapaaminen hänen kanssaan. Nyt langan toisesta päästä kuuluu miellyttävä, mutta eloton naisääni, joka tarjoutuu soittamaan numeroon 1 saadaksesi sellaista ja sellaista tietoa, 2 - kommunikoimaan sen kanssa, 3 - poistumaan valikosta jne. Tietojen saatavuutta hallitsee yhä useammin järjestelmä, ei yksilö. Tällä on oma logiikkansa: yksitoikkoista, epämiellyttävää työtä ei tee ihminen, vaan kone. Ja käyttäjälle tietojen hankintamenettely on yksinkertaistettu: hän soitti tietylle numerosarjalle - hän sai tarvittavat tiedot.

Miten tällainen järjestelmä toimii? Yritetään selvittää se.

Puheentunnistusohjelmien kaksi päätyyppiä ovat:

Saneluohjelmisto - Kirjoita tekstiä ja numeroita.

Tehdään heti varaus, että emme ota huomioon Tekstistä puheeksi ja puheesta tekstiksi -järjestelmiä eli tekstin kääntämistä suulliseksi puheeksi ja päinvastoin. Rajoitamme komentojen automaattisen tunnistamisen järjestelmiin tai ääninavigaattoreihin.

SARR - mikä se on?

Automaattinen puheentunnistus (CAPP) on osa puheenkäsittelyprosessia, jonka tarkoituksena on tarjota kätevä dialogi käyttäjän ja koneen välillä. Laajassa merkityksessä puhumme järjestelmistä, jotka suorittavat puheakustisen signaalin foneemisen dekoodauksen lausuttaessa puheviestejä vapaalla tyylillä, mielivaltaisella puhujalla ottamatta huomioon ongelman suuntaa ja sanakirjan äänenvoimakkuuden rajoituksia. Suppeassa merkityksessä CAPP:t helpottavat tiettyjen ongelmien ratkaisemista asettamalla joitain rajoituksia luonnollisen kuulostavan puheen tunnistamisen vaatimuksille sen klassisessa merkityksessä. Siten CAPP-lajikkeiden valikoima vaihtelee yksinkertaisista itsenäisistä laitteista ja lasten leluista, jotka pystyvät tunnistamaan tai syntetisoimaan erikseen puhuttuja sanoja, numeroita, kaupunkeja, nimiä jne., supermonimutkaisiin luonnollisen kuuloisiin puheentunnistusjärjestelmiin ja niiden synteeseihin. käytettäväksi esimerkiksi assistenttina (IBM VoiceType Simply Speaking Gold).

Koska CAPP on koneen ja ihmisen välisen ystävällisen rajapinnan pääkomponentti, se voidaan rakentaa erilaisiin sovelluksiin, esimerkiksi puheohjausjärjestelmiin, puheohjaukseen tietoresursseihin, kielten oppimiseen tietokoneella, toimintakyvyttömän avustamiseen, pääsyyn jotain äänivarmennusjärjestelmien/tunnistuksen kautta.

CAPP on erittäin hyödyllinen tallennetun ääni- ja videodatan haku- ja lajittelutyökaluna. Puheentunnistusta käytetään myös tietojen syöttämisessä, mikä on erityisen hyödyllistä, kun henkilön silmät tai kädet ovat kiireisiä. CARR sallii stressaavissa ympäristöissä työskentelevien (sairaaloiden lääkärit, tehtaan työntekijät, kuljettajat) käyttää tietokonetta tarvittavien tietojen hankkimiseen tai syöttämiseen.

Tyypillisesti CAPP:tä käytetään järjestelmissä, kuten puhelinsovelluksissa, sulautetuissa järjestelmissä (soittojärjestelmät, PDA-käyttö, ajaminen jne.), multimediasovelluksissa (kielenopetusjärjestelmät).

Äänipainikkeet

Äänimerkkejä kutsutaan joskus automaattisiksi puheentunnistusjärjestelmiksi. Yleensä nämä ovat biometrisiä järjestelmiä, jotka mahdollistavat joko luvan pääsyn tietoihin tai fyysisen pääsyn esineisiin. Tällaisista järjestelmistä on erotettava kaksi tyyppiä: todentamisjärjestelmät ja tunnistusjärjestelmät. Tarkistuksen aikana käyttäjä esittää ensin koodinsa, eli ilmoittaa itsensä tavalla tai toisella ja sanoo sitten ääneen salasanan tai jonkin mielivaltaisen lauseen. Järjestelmä tarkistaa, vastaako annettu ääni standardeja, jotka on kutsuttu tietokoneen muistista esitetyn koodin mukaan.

Tunnistamisessa ei anneta käyttäjästä ennakkoilmoitusta. Tässä tapauksessa tätä ääntä verrataan kaikkiin standardeihin ja sitten määritetään erikseen kuka äänen tunnistama henkilö on. Nykyään tällaisten järjestelmien toteuttamiseen on monia lähestymistapoja ja menetelmiä, ja ne kaikki eroavat yleensä toisistaan ​​- kuinka monta kehittäjää, niin monta lajiketta. Samaa voidaan sanoa puheentunnistusjärjestelmistä. Siksi on mahdollista arvioida tiettyjen puhe- ja persoonallisuudentunnistusjärjestelmien ominaisuuksia vain erityisten testitietokantojen avulla.

Hieman historiaa

Yhdysvallat, 1960-luvun loppu: "Kolme", ​​sanoi Walter Cronkite, populaaritiedeohjelman 21st Century isäntä esitellessään puheentunnistuksen viimeisintä kehitystä. Tietokone tunnisti tämän sanan "neljäksi". "Idiootti", Walter mutisi. "Se sana ei ole sanakirjassa", tietokone vastasi.

Vaikka puheentunnistuksen ensimmäiset kehityssuunnat ovat peräisin 1920-luvulta, ensimmäisen järjestelmän loi vasta vuonna 1952 Bell Laboratories (nykyään osa Lucent Technologiesia). Ja ensimmäinen kaupallinen järjestelmä luotiin vielä myöhemmin: vuonna 1960 IBM ilmoitti tällaisen järjestelmän kehittämisestä, mutta ohjelma ei koskaan tullut markkinoille.

Sitten 1970-luvulla yhdysvaltalainen Eastern Airlines asensi kaiuttimista riippuvan matkatavaran lähetysjärjestelmän: operaattori nimesi määränpään - ja matkatavarat lähetettiin matkaan. Tehtyjen virheiden määrän vuoksi järjestelmä ei kuitenkaan koskaan läpäissyt koeaikaa.

Sen jälkeen kehitys tällä alueella, jos sellaista oli, eteni melko hitaasti. Vielä 1980-luvulla oli olemassa useita todellisia kaupallisia puheentunnistusjärjestelmiä käyttäviä sovelluksia.

Nykyään ei kymmeniä, vaan satoja tutkimusryhmiä tiede- ja oppilaitoksissa sekä suurissa yrityksissä työskentelevät tähän suuntaan. Tämän voivat arvioida sellaiset puheteknologian alan tutkijoiden ja asiantuntijoiden kansainväliset foorumit, kuten ICASSP, EuroSpeech, ICPHS jne. Työn tulokset, jotka, kuten kuvaannollisesti sanomme, "pudottivat koko maailmaan", voivat tuskin saada aikaan tuloksia. olla yliarvioitu.

Ääninavigaattoreita eli komentojen tunnistusjärjestelmiä on käytetty useiden vuosien ajan menestyksekkäästi eri toiminta-aloilla. Esimerkiksi Alcatelin Vatikaanille toimittamaa OmniTouch-puhelinkeskusta käytettiin palvelemaan tapahtumia, jotka järjestettiin osana Kristuksen 2000-vuotisjuhlaa. Puhelinkeskukseen soittanut pyhiinvaeltaja esitti kysymyksensä, ja automaattinen puheentunnistusjärjestelmä "kuunteli" häntä. Jos järjestelmä havaitsi, että kysymys kysyttiin usein esiintyvästä aiheesta, kuten tapahtumien aikatauluista tai hotellien osoitteista, esitallennettu merkintä sisällytettiin. Jos kysymystä oli tarpeen selventää, tarjottiin puhevalikko, jossa yksi kohdista piti ilmaista äänellä. Jos tunnistusjärjestelmä totesi, että esitettyyn kysymykseen ei ollut ennalta tallennettua vastausta, pyhiinvaeltaja yhdistettiin ihmisoperaattoriin.

Ruotsissa avattiin hiljattain automaattinen puhelintiedustelupalvelu Philipsin puheentunnistusohjelmistolla. Ilman virallista ilmoitusta toimintansa aloittaneen Autosvar-palvelun ensimmäisen toimintakuukauden aikana sen palveluita käytti 200 000 asiakasta. Henkilön tulee valita tietty numero ja automaattisen sihteerin vastauksen jälkeen nimetä häntä kiinnostava tietoluettelon osa.

Uusi palvelu on tarkoitettu pääosin yksityisasiakkaille, jotka suosivat sitä palveluiden huomattavasti halvempien kustannusten vuoksi. Autosvar-palvelu on ensimmäinen laatuaan Euroopassa (Yhdysvalloissa vastaavan palvelun kokeilut AT&T:llä alkoivat viime vuoden joulukuussa).

Tässä on esimerkkejä tämän tekniikan käytöstä Yhdysvalloissa.

Kiinteistönvälittäjät kääntyvät usein Newport Wirelessin palveluihin. Kun kiinteistönvälittäjä ajaa kadulla ja näkee Myynnissä-kyltin talon lähellä, hän soittaa Newport Wirelessille ja kysyy tietoja talosta, jolla on tällainen ja sellainen numero, joka sijaitsee tuolla ja sillä kadulla. Puhelinvastaaja kertoo hänelle miellyttävällä naisäänellä talon kuvamateriaalista, rakennusajankohdasta ja omistajista. Kaikki nämä tiedot ovat Newport Wireless -tietokannassa. Kiinteistönvälittäjät voivat lähettää vain viestin asiakkaalle. Tilausmaksu on noin 30 dollaria kuukaudessa.

Julie, Amtrakin virtuaalinen agentti, on palvellut junamatkustajia lokakuusta 2001 lähtien. Hän tiedottaa puhelimitse junien aikatauluista, saapumisesta ja lähdöstä sekä tekee lippuvarauksia. Julie on SpeechWorks Softwaren ja Intervoice Hardwaren tuote. Se on jo lisännyt matkustajien tyytyväisyyttä 45 prosenttia; 13 asiakasta 50:stä saa kaiken tarvitsemansa tiedon Julielta. Amtrak käytti aiemmin äänipohjaista viittausjärjestelmää, mutta tyytyväisyysaste oli silloin alhaisempi, sillä vain 9 asiakasta 50:stä.

Amtrak myöntää, että Julie maksoi hintansa (4 miljoonaa dollaria) takaisin 12-18 kuukaudessa. Hän salli olla palkkaamatta koko tiimiä työntekijöitä. Ja British Airways säästää 1,5 miljoonaa dollaria vuodessa käyttämällä Nuance Communicationsin teknologiaa, joka myös automatisoi help deskin.

Sony Computer Entertainment America esitteli äskettäin Socomin, ensimmäisen videopelin, jossa pelaajat voivat antaa suullisia käskyjä Deploy kranaatit -hävittäjille. 60 dollarin peli käyttää ScanSoft-tekniikkaa. Viime vuonna näitä pelejä myytiin 450 000 kappaletta, mikä teki Socomista kiistattoman johtavan yrityksen myynnin.

Kallissa autoissa, kuten Infinity ja Jaguar, ohjauspaneelin sanallista ohjausta on käytetty useiden vuosien ajan: radio, lämpötilajärjestelmä ja navigointijärjestelmä ymmärtävät auton omistajan äänen ja tottelevat epäilemättä omistajaa. Mutta nyt äänentunnistustekniikkaa aletaan soveltaa keskiluokan autoihin. Joten vuodesta 2003 lähtien Honda Accordilla on sisäänrakennettu IBM:n äänitunniste. Sitä kutsutaan ViaVoiceksi ja se on osa 2 000 dollarin navigointijärjestelmää. Toimittajan mukaan viidesosa Honda Accordin ostajista valitsee mallin, jossa on ääninavigointi.

Jopa lääketieteessä äänentunnistustekniikka on löytänyt paikkansa. Lääkärin ääntä kuuliaisia ​​vatsan tutkimiseen tarkoitettuja laitteita on jo kehitetty. Totta, nämä laitteet ovat asiantuntijoiden mukaan edelleen epätäydellisiä: ne reagoivat hitaasti lääkärin määräyksiin. Mutta vielä edessä. Memphisissä VA Medical Center sijoitti 277 000 dollaria Dragon-ohjelmistoon, jonka avulla lääkärit ja sairaanhoitajat voivat sanella tietoja tietokoneen tietokantaan. Todennäköisesti pian ei tarvitse kärsiä lääkärin käsialan selvittämiseksi sairauskertomuksessa.

Jo sadat suuret yritykset käyttävät puheentunnistustekniikkaa tuotteissaan tai palveluissaan; Näitä ovat AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines ja Verizo. Asiantuntijoiden mukaan puhetekniikan markkinat vuonna 2002 olivat noin 695 miljoonaa dollaria, mikä on 10 % korkeampi kuin vuonna 2001.

United Airways esitteli automaattisen tiedustelupalvelun jo vuonna 1999. Automaattisia puhelujen käsittelyjärjestelmiä ylläpitävät sellaiset yritykset kuin investointipankki Charles Schwab & Co, vähittäiskauppaketju Sears ja supermarketketju Roebuck. Yhdysvaltain langattomat operaattorit (AT&T Wireless ja Sprint PCS) ovat käyttäneet vastaavia ohjelmia ja tarjonneet äänivalintapalveluita jo yli vuoden ajan. Ja vaikka Amerikka on nyt johtava tämäntyyppisten puhelinkeskusten lukumäärä, puheentunnistusjärjestelmien edut ovat viime aikoina alkaneet toteutua Euroopassa. Esimerkiksi Sveitsin rautatiepalvelu tarjoaa jo saksankielisille matkustajilleen samanlaisia ​​palveluja kuin United Airways.

Analyytikkoennusteet

Nykyään puheentunnistustekniikoita pidetään yhtenä maailman lupaavimpana. Näin ollen amerikkalaisen tutkimusyhtiö Cahners In-Statin ennusteiden mukaan puheentunnistusohjelmistojen maailmanmarkkinat kasvavat 200 miljoonasta 2,7 miljardiin dollariin vuoteen 2005. Datamonitorin mukaan puheteknologiamarkkinoiden volyymi kasvaa keskimäärin 43 % vuodessa: 650 miljoonasta dollarista vuonna 2000 5,6 miljardiin dollariin vuonna 2006 (kuva 1). CNN-mediayhtiön kanssa yhteistyötä tekevät asiantuntijat sijoittivat puheentunnistuksen yhdeksi kahdeksasta lupaavimmasta tekniikasta tänä vuonna. Ja IDC:n analyytikot sanovat, että vuoteen 2005 mennessä puheentunnistus syrjäyttää kokonaan kaikki muut puhetekniikat markkinoilta (kuva 2).

Tärkeimmät vaikeudet

Suurin ongelma, joka syntyy CAPP:n kehityksessä, on saman sanan erilainen ääntäminen sekä eri ihmisten että saman henkilön toimesta eri tilanteissa. Tämä ei häiritse ihmistä, mutta tietokone voi. Lisäksi saapuvaan signaaliin vaikuttavat monet tekijät, kuten ympäristön kohina, heijastus, kaiku ja kanavakohina. Tätä monimutkaistaa se, että melua ja säröä ei tunneta etukäteen, eli järjestelmää ei voida säätää niihin ennen työn alkamista.

Yli puoli vuosisataa kestänyt työ erilaisten CAPP-laitteiden parissa on kuitenkin kantanut hedelmää. Melkein mikä tahansa nykyaikainen järjestelmä voi toimia useissa tiloissa. Ensinnäkin se voi olla kuuluttajasta riippuvainen tai riippumaton. Kaiuttimesta riippuvainen järjestelmä vaatii erityiskoulutusta tietyltä käyttäjältä, jotta se tunnistaa tarkasti, mitä hän sanoo. Järjestelmän kouluttamiseksi käyttäjän on sanottava muutama tietty sana tai lause, jotka järjestelmä analysoi ja muistaa tulokset. Tätä tilaa käytetään yleensä sanelujärjestelmissä, kun yksi käyttäjä työskentelee järjestelmän kanssa.

Kaiuttimesta riippumatonta järjestelmää voivat käyttää kuka tahansa käyttäjä ilman koulutusta. Tätä tilaa käytetään yleensä silloin, kun oppimismenettely ei ole mahdollista, kuten puhelinsovelluksissa. On selvää, että kaiuttimesta riippuvaisen järjestelmän tunnistustarkkuus on korkeampi kuin puhujasta riippumattoman järjestelmän. Kaiuttimesta riippumaton järjestelmä on kuitenkin kätevämpi käyttää, esimerkiksi se voi toimia rajattoman määrän käyttäjiä, eikä vaadi koulutusta.

Toiseksi järjestelmät jaetaan sellaisiin, jotka toimivat vain yksittäisillä komennoilla ja sellaisiin, jotka tunnistavat koherentin puheen. Puheentunnistus on paljon monimutkaisempi tehtävä kuin erikseen puhuttujen sanojen tunnistaminen. Esimerkiksi siirryttäessä eristetystä sanantunnistuksesta puheentunnistukseen 1000 sanan sanakirjalla virheprosentti kasvaa 3,1:stä 8,7:ään ja puheenkäsittely kestää kolme kertaa niin kauan.

Eristetty komennon ääntämistila on yksinkertaisin ja vähiten resursseja vaativa. Kun työskentelet tässä tilassa, käyttäjä pysähtyy jokaisen sanan jälkeen, eli merkitsee selvästi sanojen rajat. Järjestelmän ei tarvitse löytää sanan alkua ja loppua itse lauseesta. Sitten järjestelmä vertaa tunnistettua sanaa sanakirjan malleihin, ja järjestelmä hyväksyy todennäköisimmän mallin. Tämän tyyppistä tunnistusta käytetään laajalti puhelimessa tavallisten DTMF-menetelmien sijaan.

Muita puheen vaihteluita syntyy myös mielivaltaisista intonaatioista, painostuksesta, lauseiden ei-tiukkasta rakenteesta, tauoista, toistoista jne.

Sanojen jatkuvan ja erillisen ääntämisen risteyksessä syntyi avainsanahakutila. Tässä tilassa CAPP löytää ennalta määrätyn sanan tai sanaryhmän yleisestä puhevirrasta. Missä sitä voidaan käyttää? Esimerkiksi kuuntelulaitteissa, jotka käynnistyvät ja aloittavat nauhoituksen, kun tietyt sanat esiintyvät puheessa tai sähköisessä viitteessä. Saatuaan pyynnön mielivaltaisessa muodossa järjestelmä valitsee semanttiset sanat ja tunnistaa ne, antaa tarvittavat tiedot.

Käytettävän sanakirjan koko on tärkeä osa CAPP:tä. On selvää, että mitä suurempi sanakirja on, sitä suurempi on todennäköisyys, että järjestelmä tekee virheen. Monissa nykyaikaisissa järjestelmissä on mahdollista joko täydentää sanakirjoja uusilla sanoilla tai ladata uusia sanakirjoja. Tyypillinen virheprosentti puhujasta riippumattomassa järjestelmässä, jossa on erillinen komennon ääntäminen, on noin 1 % 100-sanaisessa sanakirjassa, 3 % 600-sanaisessa sanakirjassa ja 10 % 8000-sanaisessa sanakirjassa.

Nykyaikaisten CAPP-markkinoiden tarjoukset

ja markkinoita edustaa nykyään useiden yritysten CAPP. Tarkastellaanpa joitain niistä.

Aculab

Tunnistustarkkuus 97 %.

Kaiuttimista riippumaton järjestelmä. Järjestelmän kehittäjät analysoivat erilaisia ​​tietokantoja monille kielille ottaakseen huomioon kaikki puheen vaihtelut iän, äänen, sukupuolen ja aksentin mukaan. Omat algoritmit mahdollistavat puheentunnistuksen laitteen ominaisuuksista (kuulokkeet, mikrofoni) ja kanavan ominaisuuksista riippumatta.

Järjestelmä tukee mahdollisuutta luoda lisäsanakirjoja, jotka huomioivat ääntämisen ja aksenttien erityispiirteet. Tämä on erityisen hyödyllistä, kun järjestelmää käyttävät ihmiset, joiden ääntäminen poikkeaa suuresti tavallisesta.

Järjestelmä tukee yleisimpiä kieliä, kuten britti- ja amerikanenglantia, ranskaa, saksaa, italiaa ja Pohjois-Amerikan espanjaa. Sanakirja voidaan määrittää mille tahansa näistä kielistä, mutta useiden kielten käyttäminen samanaikaisesti yhden sanakirjan osana ei ole mahdollista.

Tuote on saatavilla Windows NT/2000-, Linux- ja Sun SPARC Solaris -käyttöjärjestelmille.

Babear SDK -versio 3.0

Kaiuttimista riippumaton järjestelmä, joka ei vaadi tietyn käyttäjän koulutusta. Sopeutuminen käyttäjään tapahtuu käytön aikana ja tarjoaa parhaan tunnistustuloksen. Automaattinen äänitoiminnan säätö mahdollistaa puheen tunnistamisen erittäin meluisassa ympäristössä, kuten autossa. Järjestelmä ei määritä sanoja, joita ei ole lueteltu sanakirjassa. On mahdollista etsiä avainsanoja. Järjestelmä voidaan konfiguroida toimimaan sekä pienen sanakirjan (komentojen erillinen ääntäminen) että suuren sanakirjan (puhe) kanssa.

Järjestelmä tukee seuraavia kieliä: britti- ja amerikkalainen englanti, espanja saksa, ranska, tanska, ruotsi, turkki, kreikka, islanti ja arabia.

Järjestelmä toimii käyttöjärjestelmissä Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X ja Linux.

Loquendo ASR

Kaiuttimista riippumaton järjestelmä, joka on optimoitu puhelinkäyttöön. On mahdollista tunnistaa yksittäisiä sanoja ja puhetta, etsiä avainsanoja (sanakirja enintään 500 sanaa). Voit luoda käyttäjäystävällisiä sovelluksia sanakirjan suuren määrän ja järjestelmän joustavuuden ansiosta.

Tukee 12 kieltä, mukaan lukien yleisimmät eurooppalaiset kielet (italia, espanja, britti- ja amerikkalainen englanti, ranska, saksa, kreikka, ruotsi jne.).

Sisältyy Loquendo Speech Suiteen yhdessä tekstistä puheeksi -järjestelmän ja Loquendo VoiceXML Interpreterin kanssa, joka tukee useita ääniä ja kieliä.

Järjestelmä toimii MS Windows NT/2000-, UNIX- ja Linux-käyttöjärjestelmien pohjalta.

LumenVox

Kaiuttimista riippumaton järjestelmä, joka ei vaadi koulutusta, mutta tietylle käyttäjälle mukautuksen jälkeen tunnistustulokset paranevat huomattavasti: tunnistustarkkuus ylittää 90%.

Tukee erilaisia ​​äänitiedostomuotoja: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). Sillä ei ole tiukkoja vaatimuksia laitteistoresursseille. Toimii Windows NT/2000/XP:n ja Linuxin pohjalta.

Järjestelmävaatimukset (Windows-pohjainen):

Windows NT 4.0 Service Pack 6a:lla, Windows 2000 tai Windows XP Pro;

Muistin vähimmäiskoko on 512 MB.

Järjestelmävaatimukset (perustuu Red Hat Linuxiin):

Red Hat Linux 7.2;

Intel Pentium III 800 MHz tai suurempi;

Muistin koko 256 MB;

Levyn koko 17 MB (pakkauksen purkamisen jälkeen).

Vivahde

Valmistajien mukaan järjestelmä on optimoitu käyttämään mahdollisimman vähän muistia ja muita järjestelmäresursseja. Tunnistustarkkuus on jopa 96 %, ja se pysyy korkeana jopa meluisassa ympäristössä.

Jokaisella käyttäjällä on mahdollisuus itse oppia järjestelmä ja sen säätö.

Toimii Windows 2000:ssa ja Linuxissa.

HENKI

Kieli voi olla mikä tahansa (sanakirja on koottu asiakkaan erityisvaatimuksia varten ja sisältää ne sanat ja sillä kielellä, jonka asiakas on määrittänyt järjestelmäasetusten vaatimuksissa. Sanakirja voi sisältää sanoja eri kielistä, eli ilman asetuksia muuttamalla järjestelmä pystyy tunnistamaan esimerkiksi sekä kiinan- että suomenkieliset sanat, jos ne on aiemmin kirjoitettu sanakirjaan). Siten tämä järjestelmä voi toimia minkä tahansa kielen kanssa, kun taas muut järjestelmät - vain tietyn kielen kanssa.

Tämä on automaattinen puheentunnistusjärjestelmä, joka tarjoaa korkealaatuisen tunnistuksen myös erittäin meluisassa ympäristössä. Järjestelmä voidaan helposti konfiguroida toimimaan yhdessä kahdesta tilasta: lauseiden tunnistus kiinteällä määrällä komentoja (yksittäisten komentojen ääntäminen, PIN-kooditila) ja lauseiden tunnistus mielivaltaisella määrällä komentoja (komentojen jatkuva ääntäminen, "koherentti puhetila"). On mahdollista etsiä avainsanoja. Tämä ratkaisu toimii additiivisen ei-stationaarisen melun olosuhteissa. Vaadittu signaali-kohinasuhde on enintään 0 dB "PIN-kooditilassa" ja enintään +15 dB kytketyssä puhetilassa.

Tunnistusviive - 0,2 s. Akustisen kanavan parametrit: kaistanleveys 300-3500 Hz. Sopeutuminen akustiseen ympäristöön suoritetaan kohinafragmenteilla, joiden kokonaispituus on vähintään 3 s.

"PIN-kooditila":

Sanakirja - 50 komentoa;

Oikean tunnistuksen todennäköisyys - 95-99 % SNR = 0…6 dB;

Vaaditut akustiset olosuhteet: additiivinen laajakaistainen staattinen kohina, jonka SNR (signaali-kohinasuhde) >= 15 dB.

Kytketty puheentunnistustila:

Sanakirja - 12 sanaa / numeroa;

Sanaketjun oikean tunnistamisen todennäköisyys on 98-99%.

Spesifisyys: mukautuminen mielivaltaisiin ääniin.

SPIRITin automaattinen puheentunnistusjärjestelmä on saatavilla PC-sovelluksen muodossa MS Windows -käyttöjärjestelmässä tai kokoonpanokoodina. Asiakkaiden pyynnöstä ratkaisu voidaan siirtää mille tahansa DSP- tai RISC-alustalle.

VoiceWare

Järjestelmä voi toimia sekä kaiuttimesta riippuvaisessa että kaiuttimesta riippumattomassa tilassa, joten järjestelmän erityiskoulutusta ei vaadita toimimaan tietyn käyttäjän kanssa.

Tarjoaa korkean tunnistustarkkuuden ja reaaliaikaisen toiminnan jopa meluisissa ympäristöissä.

Järjestelmä tunnistaa yhdistetyn puheen ja peräkkäisen numeroluettelon.

Hän ei havaitse sanakirjassa luettelemattomia sanoja ja ylimääräistä melua, ja sanat, jotka eivät tarkoita mitään, kuten "a", "hyvin" jne., hylätään.

Sanakirjaan voidaan lisätä uusia sanoja.

Järjestelmä mukautuu automaattisesti käyttäjän äänen, ääntämisen ja muiden puheominaisuuksien mukaan.

VoiceWare tukee Yhdysvaltain englantia ja koreaa; Kiinalaiset ja japanilaiset ovat kehitteillä.

Järjestelmä toimii Windows 95/98/NT 4.0-, UNIX- ja Linux-käyttöjärjestelmissä.

  • 9. Fonologiset asemat. Vahvat ja heikot foneemit.
  • 10. Vokaalifoneemien sijaintivaihtelut. Vokaalifoneemien kvantitatiivinen ja laadullinen pelkistys.
  • 11. Konsonanttifoneemien paikkavaihtelut. Assimilaatio ja dissimilaatio kuurouden/äänityksen ja kovuuden/pehmeyden perusteella.
  • 12. Foneemien historialliset vaihtelut.
  • 13. Supistettujen vokaalifoneemien putoaminen ja tämän ilmiön seuraukset.
  • 14. Vanhanvenäjän kielen nenääänien historiaan liittyvät vuorottelut.
  • 15. Takakielien palatalisaatio.
  • 17. Foneettinen transkriptio. Foneeminen transkriptio
  • 18. Tavu. Opetussuunnitelma. Tavutyypit.
  • 19. Foneettinen sana. stressi
  • 20. Puheen syke. Intonaatio
  • 21. Painopiste. Intonaatiorakenteet
  • 21. Lause. Intonaatio
  • 22. Ortoepian käsite
  • 23. Venäjän kirjallisen ääntämisen perussäännöt.
  • 24. Vokaalien ääntäminen stressissä. Korostamattomien vokaalien ääntäminen.
  • 25. Yksittäisten konsonanttien ääntäminen.
  • 26. Konsonanttiryhmien ääntäminen.
  • 27. Joidenkin kieliopillisten muotojen ääntäminen.
  • 28. Joidenkin lyhenteiden ääntäminen. Vieraiden sanojen ääntämisen ominaisuudet.
  • 29. Vaikeita stressinhallintatapauksia venäjäksi.
  • 30. Venäjän kirjallisen ääntämisen kehittäminen.
  • 31. Kielioppikoodaus
  • 32. Semanttinen koodaus. Kaksi argumenttia (ajalliset merkit): kausaalisuus.
  • 33. Semanttinen koodaus. Kaksi argumenttia (väliaikaiset merkit): seuraus, tulos, tarkoitus.
  • 34. Semanttinen koodaus. Kaksi argumenttia (ajalliset merkit): transformaatio, muutos
  • 35. Semanttinen koodaus. Kaksi argumenttia (väliaikaiset merkit): vuorovaikutus, ryhmittely, yhteisyys, assosiaatio
  • 36. Semanttinen koodaus. Kaksi argumenttia (väliaikaiset merkit): erottaminen, vaikutus, tila, sisääntulo.
  • 37. Semanttinen koodaus. Kaksi argumenttia (väliaikaiset merkit): noudattaminen, valvonta, alisteisuus, riippuvuus.
  • 38. Semanttinen koodaus. Yksi argumentti (pysyvät merkit): ominaisuus, välttämättömyys, mahdollisuus, todennäköisyys, kyllä, ei.
  • 39. Semanttinen koodaus. Yksi argumentti (jatkuvat merkit): totuus, valhe.
  • semanttinen koodi. Hänen tavoitteensa. Tarkoitus. Rakennusperiaate. Mahdollisuudet.
  • Semanttisen koodin tarkoitus. Termi "merkitys".
  • Semanttisen koodin tarkoitus. Teksti. Tiedot. Hyperteksti tiedon kehittämisessä.
  • 43. Kielioppi ja semanttinen analyysi semanttisessa koodauksessa.
  • 44. Venäjän semanttinen yhteensopivuussanakirja ja assosiatiivinen sanakirja semanttiseen koodaukseen.
  • Semanttisen koodin tarkoitus. Järjestelmän isomorfismi.
  • Semanttisen koodin tarkoitus. Tarpeen ja riittävän periaate.
  • Semanttisen koodin tarkoitus. Luokkien ja alaluokkien liitettävyys
  • 48. Semanttisen koodin tarkoitus. Hierarkian / ei-hierarkian periaate.
  • 49. Semanttisen koodin tarkoitus. systeeminen metafora.
  • 50. Tilanne (tilanne) semanttinen koodi.
  • 51. Semanttinen koodaus. Tasaus-tulkintakoodi. Matriisi koodi.
  • 52. Puheliittymän päätehtävät ja keskeiset käsitteet.
  • 53. Historiallinen katsaus puheentunnistuksen ja -synteesin ongelmaan.
  • 54. Automaattisen puhesynteesin järjestelmät. Puheliittymän käytännön sovellukset.
  • 55. Automaattiset puheentunnistusjärjestelmät. Puheliittymän käytännön sovellukset.
  • 56. Puheliittymän kielelliset perusteet. Kielitieteen käyttö puhejärjestelmien toteutuksessa.
  • 57. Puhesignaalin rakenne. Analyysi ja synteesi. Puhesignaalin spektri-ajalliset ominaisuudet.
  • 58. Puhesignaalin informaatio ja modulaatiorakenne.
  • 59. Menetelmät puhesignaalin syntetisoimiseksi. Yleistetyt matemaattiset mallit puhesignaalien kuvaamiseen.
  • 60. Menetelmät puhesignaalin syntetisoimiseksi. Ääniradan geometrinen malli.
  • 61. Menetelmät puhesignaalin syntetisoimiseksi. formantti malli.
  • 62. Kokoonpanomenetelmät puhesignaalin synteesiä varten.
  • 63. Puhesignaalin analyysimenetelmät.
  • 64. Menetelmä puhesignaalin digitaaliseen suodatukseen. Spektrianalyysi FFT-algoritmeilla. Digitaalinen suodatusmenetelmä
  • Spektrianalyysi FFT-algoritmeilla
  • 65. Lineaariseen ennustukseen perustuva spektrianalyysi. Puhesignaalin muotoparametrinen kuvaus. Lineaariseen ennustukseen perustuva spektrianalyysi
  • Puhesignaalin muotoparametrinen kuvaus
  • 66. Kestraalikertoimien menetelmä. Puheen havaitsemisen ominaisuudet. Henkilön vastaanottavan puhehavainnon ominaisuudet. Kepstraalikerroinmenetelmä
  • 67. Puhesignaalien vastaanottavan havainnoinnin ominaisuudet. Puhesignaalin kuulo- (foneettisten) ominaisuuksien luonne. Puhesignaalien vastaanottavan havainnoinnin ominaisuudet
  • Puhesignaalin kuulo- (foneettisten) ominaisuuksien luonne
  • 68. Puheen minimaalisten merkityksellisten elementtien havaitsemisen ominaisuudet
  • 69. Puheen synteesi tekstissä. Puhesyntetisaattorin rakenne tekstin mukaan.
  • Tekstistä puheeksi -rakenne Keskeiset käsitteet:
  • 70. Kielellinen prosessori. Tekstin esikäsittely. Tekstin fraasikäsittely.
  • Tekstin esikäsittely
  • Tekstinkäsittely lauseittain
  • 71. Testin tekstinkäsittely. Esimerkki lingvistisen prosessorin työstä. Tekstinkäsittely
  • Esimerkki lingvistisen prosessorin työstä
  • 72. Prosodinen prosessori
  • 73. Foneettinen prosessori. Artikulaatio-foneettinen prosessori. Formant foneettinen prosessori.
  • 74. Allofonin foneettinen prosessori. akustinen prosessori.
  • 75. Puhetaktin geometrian likiarvo. Puhesynteesin käännösmenetelmiin perustuva akustinen prosessori.
  • 76. Automaattisten puheentunnistusjärjestelmien luokittelu. Automaattisen puheentunnistuksen menetelmät.
  • 77. Puheentunnistusmenetelmien luokittelu.
  • 78. Dynaamisen ohjelmoinnin menetelmä.
  • 79. Markovin piilomallien menetelmä.
  • Automaattiset puheentunnistusjärjestelmät (SAPP) ymmärretään järjestelmiksi, jotka muuntavat syötetyn puheen (puhesignaalin) tunnistetuksi viestiksi. Tässä tapauksessa tunnistettu viesti voidaan esittää sekä tämän viestin tekstin muodossa että

    muunnetaan välittömästi muotoon, joka on kätevä sen jatkokäsittelyä varten järjestelmän vastauksen muodostamiseksi. Aluksi automaattisen puheentunnistusjärjestelmän tehtävänä on muuntaa teksti puheeksi. Siksi englanninkielisessä kirjallisuudessa näitä järjestelmiä kutsutaan Speech To Text -järjestelmäksi. Usein automaattisia puheentunnistusjärjestelmiä kutsutaan myös yksinkertaisesti puheentunnistusjärjestelmiksi (SPR).

    Kuvassa 1 on esitetty yksinkertaistettu lohkokaavio automaattisesta puheentunnistusjärjestelmästä.

    Puhesignaalin analyysimallin alla ymmärtää lohkon, jonka tehtävänä on analysoida tulosignaalia ensinnäkin sen luokittelemiseksi puhesignaaliksi ja toiseksi korostaa vastaanotetun signaalin komponentteja, jotka ovat peruselementtejä

    vastaanotetun viestin tunnistaminen. Nämä komponentit sisältävät puhetta kuvaavia parametreja, jotka ovat samanlaisia ​​kuin ne, jotka muodostuvat puhesynteesiprosessissa. Määritettyjen parametrien joukko riippuu valitusta tunnistusmenetelmästä.

    Puheentunnistuksen ja päätöksenteon malli on lohko, jossa muodostetaan tunnistettu viesti ensimmäisestä lohkosta saadun parametrisarjan analyysin perusteella. Jos esimerkiksi käytetään puheen kuvauksen formanttimallia, niin ensimmäisessä lohkossa saatujen taajuuksien perusteella formantteja käytetään muodostamaan tunnistettujen foneemien sarja, jotka muodostavat syöttöviestin. Tässä tapauksessa päätetään, tunnistetaanko syöttöviesti oikein. Päätöstä tehtäessä ovat mahdollisia erityisesti seuraavat päätökset: viesti tunnistetaan oikein (tämän vahvistaa luonnollisen kielen normeja vastaava teksti) tai

    viestiä ei tunnisteta tai se tunnistetaan väärin (sellainen päätös tehdään, jos tunnistetussa viestissä on ilmeisiä, vaikeasti korjattavia automaattisesti virheitä tai jopa täydellistä hölynpölyä).

    Seuraavat niitä kuvaavat parametrit voidaan mainita APPS:ille asetettuina rajoituksina:

    Tunnistettavan puheen tyyppi (sana kerrallaan ääntäminen tauoilla puhekomentojen tyyliin; selkeä ääntäminen ilman taukoja "sanelun" tyyliin; spontaani puhe);

    Sanakirjan määrä (rajoitettu 100, 200 jne. sanaan; rajoittamaton);

    Riippuvuuden aste puhujasta (kaiuttimesta riippuvainen; puhujasta riippumaton);

    Syntaktiset rajoitukset (yksittäiset sanat; tyypilliset lauseet; keinotekoinen kieli; luonnollinen kieli);

    Puhesignaalien vastaanottoolosuhteet (kosketusmikrofonit; mikrofonit kaukosäätimellä yli 1 metrin etäisyydellä);

    CRR:n käytön edellytykset (heikko tai voimakas häiriö);

    tunnistamisen luotettavuus.

    Puheliittymän käytännön sovellukset

    Ennen kuin ryhdymme tarkastelemaan esimerkkejä puheliittymän käytännön käytöstä, verrataan sitä tällä hetkellä yleisimpiin käyttäjän vuorovaikutuskeinoihin tietokoneen kanssa: näppäimistöön ja näyttöön. Ainakin kolme peruseroa puherajapinnassa tulee huomioida:

    1) Näppäimistön ja näytön selvä haittapuoli on, että henkilö tarvitsee erityisen koulutuksen kommunikoidakseen tietokoneen kanssa. Samalla puhe on luonnollinen käyttöliittymä kenelle tahansa, myös valmistautumattomalle. Puhe vähentää dramaattisesti ihmisen ja tietokoneen välistä psykologista etäisyyttä. Jos puherajapinta ilmestyy, tietokoneen käyttäjien piiri voi tulla rajattomaksi;

    2) itse puhe ei ole millään tavalla mekaanisesti sidottu tietokoneeseen ja se voidaan liittää siihen viestintäjärjestelmien, esimerkiksi puhelimen, kautta. Puheliittymä lyhentää fyysistä etäisyyttä ihmisen ja tietokoneen välillä. Tämä laajentaa entisestään potentiaalisten tietokoneen käyttäjien piiriä ja tekee puherajapinnasta ihanteellisen työkalun massatietopalvelujärjestelmien rakentamiseen;

    3) osaat käsitellä tietokonetta täydellisessä pimeydessä, silmät kiinni, kädet kiireessä ohjausvipujen kanssa, kädet sidottuna ja muissa äärimmäisissä tilanteissa. Tämä ominaisuus mahdollistaa viestinnän tehokkuuden ja liikkuvuuden, käsien vapauttamisen ja visuaalisen havaintokanavan purkamisen tiedon vastaanottamisen yhteydessä. Tämä on erittäin tärkeää esimerkiksi suuren sähköjärjestelmän lennonjohtajalle tai lentokoneen lentäjälle ja autonkuljettajalle. Lisäksi tietojärjestelmät ovat entistä helpommin saavutettavissa näkövammaisille.

    Tällä hetkellä puhetietokonetekniikat ovat jo melko yleisiä ja kehittyvät useisiin suuntiin, joista tärkeimmät on esitetty kuvassa.

  • Kuinka hyvä se olikaan! Help deskille soittamalla oli mahdollista jutella tyttöoperaattorin kanssa ja jopa varata tapaaminen hänen kanssaan. Nyt langan toisesta päästä kuuluu miellyttävä, mutta eloton naisääni, joka tarjoutuu soittamaan numeroon 1 saadaksesi sellaista ja sellaista tietoa, 2 - kommunikoimaan sen kanssa, 3 - poistumaan valikosta jne. Tietojen saatavuutta hallitsee yhä useammin järjestelmä, ei yksilö. Tällä on oma logiikkansa: yksitoikkoista, epämiellyttävää työtä ei tee ihminen, vaan kone. Ja käyttäjälle tietojen hankintamenettely on yksinkertaistettu: hän soitti tietylle numerosarjalle - hän sai tarvittavat tiedot.

    Miten tällainen järjestelmä toimii? Yritetään selvittää se.

    Puheentunnistusohjelmien kaksi päätyyppiä ovat:

    Saneluohjelmisto - Kirjoita tekstiä ja numeroita.

    Tehdään heti varaus, että emme ota huomioon Tekstistä puheeksi ja puheesta tekstiksi -järjestelmiä eli tekstin kääntämistä suulliseksi puheeksi ja päinvastoin. Rajoitamme komentojen automaattisen tunnistamisen järjestelmiin tai ääninavigaattoreihin.

    SARR - mikä se on?

    Automaattinen puheentunnistus (CAPP) on osa puheenkäsittelyprosessia, jonka tarkoituksena on tarjota kätevä dialogi käyttäjän ja koneen välillä. Laajassa merkityksessä puhumme järjestelmistä, jotka suorittavat puheakustisen signaalin foneemisen dekoodauksen lausuttaessa puheviestejä vapaalla tyylillä, mielivaltaisella puhujalla ottamatta huomioon ongelman suuntaa ja sanakirjan äänenvoimakkuuden rajoituksia. Suppeassa merkityksessä CAPP:t helpottavat tiettyjen ongelmien ratkaisemista asettamalla joitain rajoituksia luonnollisen kuulostavan puheen tunnistamisen vaatimuksille sen klassisessa merkityksessä. Siten CAPP-lajikkeiden valikoima vaihtelee yksinkertaisista itsenäisistä laitteista ja lasten leluista, jotka pystyvät tunnistamaan tai syntetisoimaan erikseen puhuttuja sanoja, numeroita, kaupunkeja, nimiä jne., supermonimutkaisiin luonnollisen kuuloisiin puheentunnistusjärjestelmiin ja niiden synteeseihin. käytettäväksi esimerkiksi assistenttina (IBM VoiceType Simply Speaking Gold).

    Koska CAPP on koneen ja ihmisen välisen ystävällisen rajapinnan pääkomponentti, se voidaan rakentaa erilaisiin sovelluksiin, esimerkiksi puheohjausjärjestelmiin, puheohjaukseen tietoresursseihin, kielten oppimiseen tietokoneella, toimintakyvyttömän avustamiseen, pääsyyn jotain äänivarmennusjärjestelmien/tunnistuksen kautta.

    CAPP on erittäin hyödyllinen tallennetun ääni- ja videodatan haku- ja lajittelutyökaluna. Puheentunnistusta käytetään myös tietojen syöttämisessä, mikä on erityisen hyödyllistä, kun henkilön silmät tai kädet ovat kiireisiä. CARR sallii stressaavissa ympäristöissä työskentelevien (sairaaloiden lääkärit, tehtaan työntekijät, kuljettajat) käyttää tietokonetta tarvittavien tietojen hankkimiseen tai syöttämiseen.

    Tyypillisesti CAPP:tä käytetään järjestelmissä, kuten puhelinsovelluksissa, sulautetuissa järjestelmissä (soittojärjestelmät, PDA-käyttö, ajaminen jne.), multimediasovelluksissa (kielenopetusjärjestelmät).

    Äänipainikkeet

    Äänimerkkejä kutsutaan joskus automaattisiksi puheentunnistusjärjestelmiksi. Yleensä nämä ovat biometrisiä järjestelmiä, jotka mahdollistavat joko luvan pääsyn tietoihin tai fyysisen pääsyn esineisiin. Tällaisista järjestelmistä on erotettava kaksi tyyppiä: todentamisjärjestelmät ja tunnistusjärjestelmät. Tarkistuksen aikana käyttäjä esittää ensin koodinsa, eli ilmoittaa itsensä tavalla tai toisella ja sanoo sitten ääneen salasanan tai jonkin mielivaltaisen lauseen. Järjestelmä tarkistaa, vastaako annettu ääni standardeja, jotka on kutsuttu tietokoneen muistista esitetyn koodin mukaan.

    Tunnistamisessa ei anneta käyttäjästä ennakkoilmoitusta. Tässä tapauksessa tätä ääntä verrataan kaikkiin standardeihin ja sitten määritetään erikseen kuka äänen tunnistama henkilö on. Nykyään tällaisten järjestelmien toteuttamiseen on monia lähestymistapoja ja menetelmiä, ja ne kaikki eroavat yleensä toisistaan ​​- kuinka monta kehittäjää, niin monta lajiketta. Samaa voidaan sanoa puheentunnistusjärjestelmistä. Siksi on mahdollista arvioida tiettyjen puhe- ja persoonallisuudentunnistusjärjestelmien ominaisuuksia vain erityisten testitietokantojen avulla.

    Hieman historiaa

    Yhdysvallat, 1960-luvun loppu: "Kolme", ​​sanoi Walter Cronkite, populaaritiedeohjelman 21st Century isäntä esitellessään puheentunnistuksen viimeisintä kehitystä. Tietokone tunnisti tämän sanan "neljäksi". "Idiootti", Walter mutisi. "Se sana ei ole sanakirjassa", tietokone vastasi.

    Vaikka puheentunnistuksen ensimmäiset kehityssuunnat ovat peräisin 1920-luvulta, ensimmäisen järjestelmän loi vasta vuonna 1952 Bell Laboratories (nykyään osa Lucent Technologiesia). Ja ensimmäinen kaupallinen järjestelmä luotiin vielä myöhemmin: vuonna 1960 IBM ilmoitti tällaisen järjestelmän kehittämisestä, mutta ohjelma ei koskaan tullut markkinoille.

    Sitten 1970-luvulla yhdysvaltalainen Eastern Airlines asensi kaiuttimista riippuvan matkatavaran lähetysjärjestelmän: operaattori nimesi määränpään - ja matkatavarat lähetettiin matkaan. Tehtyjen virheiden määrän vuoksi järjestelmä ei kuitenkaan koskaan läpäissyt koeaikaa.

    Sen jälkeen kehitys tällä alueella, jos sellaista oli, eteni melko hitaasti. Vielä 1980-luvulla oli olemassa useita todellisia kaupallisia puheentunnistusjärjestelmiä käyttäviä sovelluksia.

    Nykyään ei kymmeniä, vaan satoja tutkimusryhmiä tiede- ja oppilaitoksissa sekä suurissa yrityksissä työskentelevät tähän suuntaan. Tämän voivat arvioida sellaiset puheteknologian alan tutkijoiden ja asiantuntijoiden kansainväliset foorumit, kuten ICASSP, EuroSpeech, ICPHS jne. Työn tulokset, jotka, kuten kuvaannollisesti sanomme, "pudottivat koko maailmaan", voivat tuskin saada aikaan tuloksia. olla yliarvioitu.

    Ääninavigaattoreita eli komentojen tunnistusjärjestelmiä on käytetty useiden vuosien ajan menestyksekkäästi eri toiminta-aloilla. Esimerkiksi Alcatelin Vatikaanille toimittamaa OmniTouch-puhelinkeskusta käytettiin palvelemaan tapahtumia, jotka järjestettiin osana Kristuksen 2000-vuotisjuhlaa. Puhelinkeskukseen soittanut pyhiinvaeltaja esitti kysymyksensä, ja automaattinen puheentunnistusjärjestelmä "kuunteli" häntä. Jos järjestelmä havaitsi, että kysymys kysyttiin usein esiintyvästä aiheesta, kuten tapahtumien aikatauluista tai hotellien osoitteista, esitallennettu merkintä sisällytettiin. Jos kysymystä oli tarpeen selventää, tarjottiin puhevalikko, jossa yksi kohdista piti ilmaista äänellä. Jos tunnistusjärjestelmä totesi, että esitettyyn kysymykseen ei ollut ennalta tallennettua vastausta, pyhiinvaeltaja yhdistettiin ihmisoperaattoriin.

    Ruotsissa avattiin hiljattain automaattinen puhelintiedustelupalvelu Philipsin puheentunnistusohjelmistolla. Ilman virallista ilmoitusta toimintansa aloittaneen Autosvar-palvelun ensimmäisen toimintakuukauden aikana sen palveluita käytti 200 000 asiakasta. Henkilön tulee valita tietty numero ja automaattisen sihteerin vastauksen jälkeen nimetä häntä kiinnostava tietoluettelon osa.

    Uusi palvelu on tarkoitettu pääosin yksityisasiakkaille, jotka suosivat sitä palveluiden huomattavasti halvempien kustannusten vuoksi. Autosvar-palvelu on ensimmäinen laatuaan Euroopassa (Yhdysvalloissa vastaavan palvelun kokeilut AT&T:llä alkoivat viime vuoden joulukuussa).

    Tässä on esimerkkejä tämän tekniikan käytöstä Yhdysvalloissa.

    Kiinteistönvälittäjät kääntyvät usein Newport Wirelessin palveluihin. Kun kiinteistönvälittäjä ajaa kadulla ja näkee Myynnissä-kyltin talon lähellä, hän soittaa Newport Wirelessille ja kysyy tietoja talosta, jolla on tällainen ja sellainen numero, joka sijaitsee tuolla ja sillä kadulla. Puhelinvastaaja kertoo hänelle miellyttävällä naisäänellä talon kuvamateriaalista, rakennusajankohdasta ja omistajista. Kaikki nämä tiedot ovat Newport Wireless -tietokannassa. Kiinteistönvälittäjät voivat lähettää vain viestin asiakkaalle. Tilausmaksu on noin 30 dollaria kuukaudessa.

    Julie, Amtrakin virtuaalinen agentti, on palvellut junamatkustajia lokakuusta 2001 lähtien. Hän tiedottaa puhelimitse junien aikatauluista, saapumisesta ja lähdöstä sekä tekee lippuvarauksia. Julie on SpeechWorks Softwaren ja Intervoice Hardwaren tuote. Se on jo lisännyt matkustajien tyytyväisyyttä 45 prosenttia; 13 asiakasta 50:stä saa kaiken tarvitsemansa tiedon Julielta. Amtrak käytti aiemmin äänipohjaista viittausjärjestelmää, mutta tyytyväisyysaste oli silloin alhaisempi, sillä vain 9 asiakasta 50:stä.

    Amtrak myöntää, että Julie maksoi hintansa (4 miljoonaa dollaria) takaisin 12-18 kuukaudessa. Hän salli olla palkkaamatta koko tiimiä työntekijöitä. Ja British Airways säästää 1,5 miljoonaa dollaria vuodessa käyttämällä Nuance Communicationsin teknologiaa, joka myös automatisoi help deskin.

    Sony Computer Entertainment America esitteli äskettäin Socomin, ensimmäisen videopelin, jossa pelaajat voivat antaa suullisia käskyjä Deploy kranaatit -hävittäjille. 60 dollarin peli käyttää ScanSoft-tekniikkaa. Viime vuonna näitä pelejä myytiin 450 000 kappaletta, mikä teki Socomista kiistattoman johtavan yrityksen myynnin.

    Kallissa autoissa, kuten Infinity ja Jaguar, ohjauspaneelin sanallista ohjausta on käytetty useiden vuosien ajan: radio, lämpötilajärjestelmä ja navigointijärjestelmä ymmärtävät auton omistajan äänen ja tottelevat epäilemättä omistajaa. Mutta nyt äänentunnistustekniikkaa aletaan soveltaa keskiluokan autoihin. Joten vuodesta 2003 lähtien Honda Accordilla on sisäänrakennettu IBM:n äänitunniste. Sitä kutsutaan ViaVoiceksi ja se on osa 2 000 dollarin navigointijärjestelmää. Toimittajan mukaan viidesosa Honda Accordin ostajista valitsee mallin, jossa on ääninavigointi.

    Jopa lääketieteessä äänentunnistustekniikka on löytänyt paikkansa. Lääkärin ääntä kuuliaisia ​​vatsan tutkimiseen tarkoitettuja laitteita on jo kehitetty. Totta, nämä laitteet ovat asiantuntijoiden mukaan edelleen epätäydellisiä: ne reagoivat hitaasti lääkärin määräyksiin. Mutta vielä edessä. Memphisissä VA Medical Center sijoitti 277 000 dollaria Dragon-ohjelmistoon, jonka avulla lääkärit ja sairaanhoitajat voivat sanella tietoja tietokoneen tietokantaan. Todennäköisesti pian ei tarvitse kärsiä lääkärin käsialan selvittämiseksi sairauskertomuksessa.

    Jo sadat suuret yritykset käyttävät puheentunnistustekniikkaa tuotteissaan tai palveluissaan; Näitä ovat AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines ja Verizo. Asiantuntijoiden mukaan puhetekniikan markkinat vuonna 2002 olivat noin 695 miljoonaa dollaria, mikä on 10 % korkeampi kuin vuonna 2001.

    United Airways esitteli automaattisen tiedustelupalvelun jo vuonna 1999. Automaattisia puhelujen käsittelyjärjestelmiä ylläpitävät sellaiset yritykset kuin investointipankki Charles Schwab & Co, vähittäiskauppaketju Sears ja supermarketketju Roebuck. Yhdysvaltain langattomat operaattorit (AT&T Wireless ja Sprint PCS) ovat käyttäneet vastaavia ohjelmia ja tarjonneet äänivalintapalveluita jo yli vuoden ajan. Ja vaikka Amerikka on nyt johtava tämäntyyppisten puhelinkeskusten lukumäärä, puheentunnistusjärjestelmien edut ovat viime aikoina alkaneet toteutua Euroopassa. Esimerkiksi Sveitsin rautatiepalvelu tarjoaa jo saksankielisille matkustajilleen samanlaisia ​​palveluja kuin United Airways.

    Analyytikkoennusteet

    Nykyään puheentunnistustekniikoita pidetään yhtenä maailman lupaavimpana. Näin ollen amerikkalaisen tutkimusyhtiö Cahners In-Statin ennusteiden mukaan puheentunnistusohjelmistojen maailmanmarkkinat kasvavat 200 miljoonasta 2,7 miljardiin dollariin vuoteen 2005. Datamonitorin mukaan puheteknologiamarkkinoiden volyymi kasvaa keskimäärin 43 % vuodessa: 650 miljoonasta dollarista vuonna 2000 5,6 miljardiin dollariin vuonna 2006 (kuva 1). CNN-mediayhtiön kanssa yhteistyötä tekevät asiantuntijat sijoittivat puheentunnistuksen yhdeksi kahdeksasta lupaavimmasta tekniikasta tänä vuonna. Ja IDC:n analyytikot sanovat, että vuoteen 2005 mennessä puheentunnistus syrjäyttää kokonaan kaikki muut puhetekniikat markkinoilta (kuva 2).

    Tärkeimmät vaikeudet

    Suurin ongelma, joka syntyy CAPP:n kehityksessä, on saman sanan erilainen ääntäminen sekä eri ihmisten että saman henkilön toimesta eri tilanteissa. Tämä ei häiritse ihmistä, mutta tietokone voi. Lisäksi saapuvaan signaaliin vaikuttavat monet tekijät, kuten ympäristön kohina, heijastus, kaiku ja kanavakohina. Tätä monimutkaistaa se, että melua ja säröä ei tunneta etukäteen, eli järjestelmää ei voida säätää niihin ennen työn alkamista.

    Yli puoli vuosisataa kestänyt työ erilaisten CAPP-laitteiden parissa on kuitenkin kantanut hedelmää. Melkein mikä tahansa nykyaikainen järjestelmä voi toimia useissa tiloissa. Ensinnäkin se voi olla kuuluttajasta riippuvainen tai riippumaton. Kaiuttimesta riippuvainen järjestelmä vaatii erityiskoulutusta tietyltä käyttäjältä, jotta se tunnistaa tarkasti, mitä hän sanoo. Järjestelmän kouluttamiseksi käyttäjän on sanottava muutama tietty sana tai lause, jotka järjestelmä analysoi ja muistaa tulokset. Tätä tilaa käytetään yleensä sanelujärjestelmissä, kun yksi käyttäjä työskentelee järjestelmän kanssa.

    Kaiuttimesta riippumatonta järjestelmää voivat käyttää kuka tahansa käyttäjä ilman koulutusta. Tätä tilaa käytetään yleensä silloin, kun oppimismenettely ei ole mahdollista, kuten puhelinsovelluksissa. On selvää, että kaiuttimesta riippuvaisen järjestelmän tunnistustarkkuus on korkeampi kuin puhujasta riippumattoman järjestelmän. Kaiuttimesta riippumaton järjestelmä on kuitenkin kätevämpi käyttää, esimerkiksi se voi toimia rajattoman määrän käyttäjiä, eikä vaadi koulutusta.

    Toiseksi järjestelmät jaetaan sellaisiin, jotka toimivat vain yksittäisillä komennoilla ja sellaisiin, jotka tunnistavat koherentin puheen. Puheentunnistus on paljon monimutkaisempi tehtävä kuin erikseen puhuttujen sanojen tunnistaminen. Esimerkiksi siirryttäessä eristetystä sanantunnistuksesta puheentunnistukseen 1000 sanan sanakirjalla virheprosentti kasvaa 3,1:stä 8,7:ään ja puheenkäsittely kestää kolme kertaa niin kauan.

    Eristetty komennon ääntämistila on yksinkertaisin ja vähiten resursseja vaativa. Kun työskentelet tässä tilassa, käyttäjä pysähtyy jokaisen sanan jälkeen, eli merkitsee selvästi sanojen rajat. Järjestelmän ei tarvitse löytää sanan alkua ja loppua itse lauseesta. Sitten järjestelmä vertaa tunnistettua sanaa sanakirjan malleihin, ja järjestelmä hyväksyy todennäköisimmän mallin. Tämän tyyppistä tunnistusta käytetään laajalti puhelimessa tavallisten DTMF-menetelmien sijaan.

    Muita puheen vaihteluita syntyy myös mielivaltaisista intonaatioista, painostuksesta, lauseiden ei-tiukkasta rakenteesta, tauoista, toistoista jne.

    Sanojen jatkuvan ja erillisen ääntämisen risteyksessä syntyi avainsanahakutila. Tässä tilassa CAPP löytää ennalta määrätyn sanan tai sanaryhmän yleisestä puhevirrasta. Missä sitä voidaan käyttää? Esimerkiksi kuuntelulaitteissa, jotka käynnistyvät ja aloittavat nauhoituksen, kun tietyt sanat esiintyvät puheessa tai sähköisessä viitteessä. Saatuaan pyynnön mielivaltaisessa muodossa järjestelmä valitsee semanttiset sanat ja tunnistaa ne, antaa tarvittavat tiedot.

    Käytettävän sanakirjan koko on tärkeä osa CAPP:tä. On selvää, että mitä suurempi sanakirja on, sitä suurempi on todennäköisyys, että järjestelmä tekee virheen. Monissa nykyaikaisissa järjestelmissä on mahdollista joko täydentää sanakirjoja uusilla sanoilla tai ladata uusia sanakirjoja. Tyypillinen virheprosentti puhujasta riippumattomassa järjestelmässä, jossa on erillinen komennon ääntäminen, on noin 1 % 100-sanaisessa sanakirjassa, 3 % 600-sanaisessa sanakirjassa ja 10 % 8000-sanaisessa sanakirjassa.

    Nykyaikaisten CAPP-markkinoiden tarjoukset

    ja markkinoita edustaa nykyään useiden yritysten CAPP. Tarkastellaanpa joitain niistä.

    Aculab

    Tunnistustarkkuus 97 %.

    Kaiuttimista riippumaton järjestelmä. Järjestelmän kehittäjät analysoivat erilaisia ​​tietokantoja monille kielille ottaakseen huomioon kaikki puheen vaihtelut iän, äänen, sukupuolen ja aksentin mukaan. Omat algoritmit mahdollistavat puheentunnistuksen laitteen ominaisuuksista (kuulokkeet, mikrofoni) ja kanavan ominaisuuksista riippumatta.

    Järjestelmä tukee mahdollisuutta luoda lisäsanakirjoja, jotka huomioivat ääntämisen ja aksenttien erityispiirteet. Tämä on erityisen hyödyllistä, kun järjestelmää käyttävät ihmiset, joiden ääntäminen poikkeaa suuresti tavallisesta.

    Järjestelmä tukee yleisimpiä kieliä, kuten britti- ja amerikanenglantia, ranskaa, saksaa, italiaa ja Pohjois-Amerikan espanjaa. Sanakirja voidaan määrittää mille tahansa näistä kielistä, mutta useiden kielten käyttäminen samanaikaisesti yhden sanakirjan osana ei ole mahdollista.

    Tuote on saatavilla Windows NT/2000-, Linux- ja Sun SPARC Solaris -käyttöjärjestelmille.

    Babear SDK -versio 3.0

    Kaiuttimista riippumaton järjestelmä, joka ei vaadi tietyn käyttäjän koulutusta. Sopeutuminen käyttäjään tapahtuu käytön aikana ja tarjoaa parhaan tunnistustuloksen. Automaattinen äänitoiminnan säätö mahdollistaa puheen tunnistamisen erittäin meluisassa ympäristössä, kuten autossa. Järjestelmä ei määritä sanoja, joita ei ole lueteltu sanakirjassa. On mahdollista etsiä avainsanoja. Järjestelmä voidaan konfiguroida toimimaan sekä pienen sanakirjan (komentojen erillinen ääntäminen) että suuren sanakirjan (puhe) kanssa.

    Järjestelmä tukee seuraavia kieliä: britti- ja amerikkalainen englanti, espanja saksa, ranska, tanska, ruotsi, turkki, kreikka, islanti ja arabia.

    Järjestelmä toimii käyttöjärjestelmissä Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X ja Linux.

    Loquendo ASR

    Kaiuttimista riippumaton järjestelmä, joka on optimoitu puhelinkäyttöön. On mahdollista tunnistaa yksittäisiä sanoja ja puhetta, etsiä avainsanoja (sanakirja enintään 500 sanaa). Voit luoda käyttäjäystävällisiä sovelluksia sanakirjan suuren määrän ja järjestelmän joustavuuden ansiosta.

    Tukee 12 kieltä, mukaan lukien yleisimmät eurooppalaiset kielet (italia, espanja, britti- ja amerikkalainen englanti, ranska, saksa, kreikka, ruotsi jne.).

    Sisältyy Loquendo Speech Suiteen yhdessä tekstistä puheeksi -järjestelmän ja Loquendo VoiceXML Interpreterin kanssa, joka tukee useita ääniä ja kieliä.

    Järjestelmä toimii MS Windows NT/2000-, UNIX- ja Linux-käyttöjärjestelmien pohjalta.

    LumenVox

    Kaiuttimista riippumaton järjestelmä, joka ei vaadi koulutusta, mutta tietylle käyttäjälle mukautuksen jälkeen tunnistustulokset paranevat huomattavasti: tunnistustarkkuus ylittää 90%.

    Tukee erilaisia ​​äänitiedostomuotoja: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). Sillä ei ole tiukkoja vaatimuksia laitteistoresursseille. Toimii Windows NT/2000/XP:n ja Linuxin pohjalta.

    Järjestelmävaatimukset (Windows-pohjainen):

    Windows NT 4.0 Service Pack 6a:lla, Windows 2000 tai Windows XP Pro;

    Muistin vähimmäiskoko on 512 MB.

    Järjestelmävaatimukset (perustuu Red Hat Linuxiin):

    Red Hat Linux 7.2;

    Intel Pentium III 800 MHz tai suurempi;

    Muistin koko 256 MB;

    Levyn koko 17 MB (pakkauksen purkamisen jälkeen).

    Vivahde

    Valmistajien mukaan järjestelmä on optimoitu käyttämään mahdollisimman vähän muistia ja muita järjestelmäresursseja. Tunnistustarkkuus on jopa 96 %, ja se pysyy korkeana jopa meluisassa ympäristössä.

    Jokaisella käyttäjällä on mahdollisuus itse oppia järjestelmä ja sen säätö.

    Toimii Windows 2000:ssa ja Linuxissa.

    HENKI

    Kieli voi olla mikä tahansa (sanakirja on koottu asiakkaan erityisvaatimuksia varten ja sisältää ne sanat ja sillä kielellä, jonka asiakas on määrittänyt järjestelmäasetusten vaatimuksissa. Sanakirja voi sisältää sanoja eri kielistä, eli ilman asetuksia muuttamalla järjestelmä pystyy tunnistamaan esimerkiksi sekä kiinan- että suomenkieliset sanat, jos ne on aiemmin kirjoitettu sanakirjaan). Siten tämä järjestelmä voi toimia minkä tahansa kielen kanssa, kun taas muut järjestelmät - vain tietyn kielen kanssa.

    Tämä on automaattinen puheentunnistusjärjestelmä, joka tarjoaa korkealaatuisen tunnistuksen myös erittäin meluisassa ympäristössä. Järjestelmä voidaan helposti konfiguroida toimimaan yhdessä kahdesta tilasta: lauseiden tunnistus kiinteällä määrällä komentoja (yksittäisten komentojen ääntäminen, PIN-kooditila) ja lauseiden tunnistus mielivaltaisella määrällä komentoja (komentojen jatkuva ääntäminen, "koherentti puhetila"). On mahdollista etsiä avainsanoja. Tämä ratkaisu toimii additiivisen ei-stationaarisen melun olosuhteissa. Vaadittu signaali-kohinasuhde on enintään 0 dB "PIN-kooditilassa" ja enintään +15 dB kytketyssä puhetilassa.

    Tunnistusviive - 0,2 s. Akustisen kanavan parametrit: kaistanleveys 300-3500 Hz. Sopeutuminen akustiseen ympäristöön suoritetaan kohinafragmenteilla, joiden kokonaispituus on vähintään 3 s.

    "PIN-kooditila":

    Sanakirja - 50 komentoa;

    Oikean tunnistuksen todennäköisyys - 95-99 % SNR = 0…6 dB;

    Vaaditut akustiset olosuhteet: additiivinen laajakaistainen staattinen kohina, jonka SNR (signaali-kohinasuhde) >= 15 dB.

    Kytketty puheentunnistustila:

    Sanakirja - 12 sanaa / numeroa;

    Sanaketjun oikean tunnistamisen todennäköisyys on 98-99%.

    Spesifisyys: mukautuminen mielivaltaisiin ääniin.

    SPIRITin automaattinen puheentunnistusjärjestelmä on saatavilla PC-sovelluksen muodossa MS Windows -käyttöjärjestelmässä tai kokoonpanokoodina. Asiakkaiden pyynnöstä ratkaisu voidaan siirtää mille tahansa DSP- tai RISC-alustalle.

    VoiceWare

    Järjestelmä voi toimia sekä kaiuttimesta riippuvaisessa että kaiuttimesta riippumattomassa tilassa, joten järjestelmän erityiskoulutusta ei vaadita toimimaan tietyn käyttäjän kanssa.

    Tarjoaa korkean tunnistustarkkuuden ja reaaliaikaisen toiminnan jopa meluisissa ympäristöissä.

    Järjestelmä tunnistaa yhdistetyn puheen ja peräkkäisen numeroluettelon.

    Hän ei havaitse sanakirjassa luettelemattomia sanoja ja ylimääräistä melua, ja sanat, jotka eivät tarkoita mitään, kuten "a", "hyvin" jne., hylätään.

    Sanakirjaan voidaan lisätä uusia sanoja.

    Järjestelmä mukautuu automaattisesti käyttäjän äänen, ääntämisen ja muiden puheominaisuuksien mukaan.

    VoiceWare tukee Yhdysvaltain englantia ja koreaa; Kiinalaiset ja japanilaiset ovat kehitteillä.

    Järjestelmä toimii Windows 95/98/NT 4.0-, UNIX- ja Linux-käyttöjärjestelmissä.

    Tiedemiehet ovat käsitelleet tätä ongelmaa noin 70 vuotta, ensimmäinen teollinen järjestelmä luotiin Japanissa 80-luvun jälkipuoliskolla, sitä kutsuttiin PC-tekstin sanelujärjestelmäksi (santelyjärjestelmäksi), tällä järjestelmällä oli kapea erikoistuminen.

    PC-puheentunnistus ymmärretään sellaiseksi tunnistukseksi, joka on yksityiskohtainen sen mukaan, miten henkilö havaitsee puheen kaikissa olosuhteissa ja kommunikoidessaan kenen tahansa henkilön kanssa.

    Ratkaisu ongelmaan on:

    1) Selkeiden teoreettisten ideoiden puute, joka kuvaisi koko hermoston puhesignaalien käsittelyn aikana suorittamien muutosten kompleksia;

    2) sujuvasti pidetyn puheen hallussapito:

    3) Epäselvät sanarajat:

    4) Naapuriäänien vaikutus toisiinsa;

    5) Sumea ääntäminen ja jopa toiminnallisten sanojen katoaminen;

    7) Suuri merkitys paralingvististen viestintävälineiden sanallisen viestinnän prosessissa:

    a) Kinesiikka (kasvojen ilmeet, eleet);

    c) Proksemiikka (ihmisten välinen etäisyys).

    Siksi tänään RDA voidaan suorittaa vain tietyin rajoituksin:

    1) yksittäisten puhuttujen sanojen tunnistaminen;

    3) Tunnistus, joka perustuu pieneen, ennalta määrättyyn sanavarastoon.

    IBM on johtava tämän tyyppisten tuotteiden ViaVoice (140 wpm) avulla. Suosittu sanelujärjestelmä on DragonSystem.

    Tunnistusalgoritmi:

    1. Suullisen puheen syöttö, tietojenkäsittely (kohinanpoisto);

    2. Äänivirran jakaminen segmentteihin;

    3. Allokaatio kussakin segmentissä minimiakustisen yksikön - sanat;

    4. Valittujen yksiköiden vertailu standardeihin.

    Teolliset puheentunnistusjärjestelmät jaetaan ehdollisesti 4 ryhmään:

    1. Ääniohjaustyökalut (PC, puhelin);

    2. Tekstin sanelutyökalut;

    3. Tieto- ja viitejärjestelmät interaktiivisessa tilassa puhelinvastaajana;



    4. Keinot tunnistaa henkilö puhemallin perusteella.


    Kysymys 27.

    Automaattiset puhesynteesijärjestelmät

    Menetelmät:

    1) Koodaus (puhesignaalien tallentaminen binäärijärjestelmään niiden myöhemmän palauttamisen kanssa)

    a) Pohjimmiltaan tietokone toimii tässä puheen tallennuslaitteena, sanat ja lauseet tallennetaan tietokoneeseen etukäteen ja ne toistetaan oikeaan aikaan komentojen avulla);

    b) Haitta:

    On mahdotonta sanoa lausetta, jota ei ole tallennettu muistiin;

    Puhesignaalien tallentaminen suorassa muodossa vaatii paljon muistia;

    c) Edut:

    Luonnollisen kuuloinen puhe;

    Puheen laatu on lähellä inhimillistä;

    2) Foneettinen puhesynteesi (ihmisen äänikanavan akustinen mallinnus)

    a) Tämän menetelmän mukainen syntetisaattori eroaa olennaisesti ensimmäisen menetelmän mukaisesta syntetisaattorista - sillä on epäluonnollinen ääni, se puhuu robotin äänellä;

    b) Yleensä suoritetaan henkilön kirjoittaman oikeinkirjoitustekstin mukaan, ja siinä oleva PC pystyy muuttamaan kirjaimia foneemeiksi, foneemit allofoneiksi ja syntetisoimaan jatkuvan puhesignaalin käyttämällä kaiuttimen, valitun ja tietokannan allofoneja;

    c) Lupaavin, koska puhe on itse asiassa PC:n tuottama.

    a) Tämän tyyppisen syntetisaattorin sanakirja, kuten ensimmäisessä menetelmässä, luodaan henkilön osallistumalla, mutta tässä ei tallenneta sanoja ja lauseita muistiin, vaan puheäänien numeeristen ominaisuuksien poimiminen ja lauseiden intonaatio suoritetaan, mikä vähentää tarvittavan muistin määrää.

    b) Puhe on luonnollista, sen synnyttämiseksi numeeriset ominaisuudet muunnetaan äänisignaaleiksi erityiskäskyillä.

    Nyt kehitetään sen varmistamiseksi, että syntetisoitu puhe kuulostaa elävältä, tunnepitoiselta, luonnolliselta. Tämän ongelman ratkaisu mahdollistaa simultaanikäännösjärjestelmien luomisen, aktiivisemman tietokoneen käytön kielen opetuksessa sekä näkövammaisten.


    Kysymys 28.

    Tietokannat (DB) ja kielitietoresurssit (LIR)

    DB- joukko tietoja tietyistä kohteista, jotka on järjestetty tietyllä tavalla.

    Objektit- tämä on tietoa, faktoja, tapahtumia, prosesseja. Esine voi olla aineellinen (opiskelija, tavara, auto) ja aineeton (tapahtuma - sirkukseen meno, prosessi - tekstin käännös, tosiasia - yliopistoon pääsy). Elämässä jokaisella esineellä on tietyt ominaisuudet tai attribuutit (paino, nopeus, väri), joille on annettu tietyt merkitykset: leipä painaa 400 grammaa, auton nopeus on 90 km/h.

    Tietokannassa attribuutit esitetään tietoelementteinä tai yksinkertaisesti datana, ja niiden arvot ovat tietoarvoja.

    Täten, annettu- tämä on indikaattori, joka luonnehtii tiettyä objektia ja ottaa jonkin arvon kohteen tietylle elementille. Tietoryhmää, joka muodostaa yhden rivin, kutsutaan tietueeksi. Jos useilla tietueilla on sama tietojoukko samantyyppisillä tiedoilla, näillä tietueilla sanotaan olevan sama muoto. Joukkoa tietueita, joilla on sama muoto, kutsutaan tiedostoksi. Ja monet tiedostot muodostavat tietokannan.

    Tietokannan päätoiminnot

    1) Tietojen etsiminen tietokannasta

    a) lisäys;

    b) poistaminen

    c) editointi

    Tietokannan hallintajärjestelmät (DBMS)

    DBMS- joukko ohjelmistotyökaluja, joiden avulla voit luoda ja ylläpitää tietokantaa.

    DBMS-tyypit:

    1. Desktop DBMS on jaettu monimutkaisuusasteen mukaan:

    a) DBMS pienten tietomäärien käsittelyyn (MS OUTLOOK)

    b) DBMS keskittyy käyttäjään, joka ei osaa ohjelmoida (EXCEL, LOTUS)

    c) Monimutkainen DBMS, joka keskittyy sovelluskehitykseen (Fox Base, MS Access)

    2. Palvelin DBMS - käytä "client-server" -arkkitehtuuria, ts. suorittaa keskitettyä tietojen tallennusta ja käsittelyä (Informix, MS SQL Server).

    DBMS:n päätoiminnot

    1) Varmista tietokantarakenteen luominen (määritä, mitä tietoja tallennetaan, mitkä attribuutit, tietotyypit)

    2) Tietokannan tietojen muuttaminen:

    a) lisäys;

    b) poistaminen

    c) editointi

    3) Etsi tietoa


    Kysymys 29.

    LIR -

    Aktiivinen lomakkeita

    Yleisimmällä tavalla LIR

    Passiivisia kielellisiä tietoresursseja ovat mm.

    1) Kirjallista sanastoa edustavat yksi- ja monikieliset sanastot. Sen yleisessä merkityksessä sanastoa - tämä on hakuteos, joka sisältää sanoja (morfeemeja, lauseita, idioomeja jne.) järjestettynä tiettyyn järjestykseen (erilaisia ​​erityyppisissä sanakirjoissa). Se voi sisältää tulkinnan kuvattujen yksiköiden merkityksestä sekä erilaisia ​​tietoja noin niitä. Mikä tahansa sanakirja voidaan esittää relaatiotietokantana

    a) sanamuotojen taajuus-aakkosellinen sanakirja mikä tahansa teksti - yksinkertaisin kielellinen tietokanta;

    b) sana indeksi monimutkaisempi tietokanta. Siinä ilmoitetaan sanamuodon absoluuttisen käyttötiheyden lisäksi sivulla niiden sivujen ja rivien lukumäärät, joilla annettu sanamuoto on havaittu.

    sisään) konkordanssit vielä monimutkaisempi tietokantatyyppi . Niissä jokaiselle tekstin sanamuodolle ei ole ominaista vain numeeriset indikaattorit (taajuus, sivunumero, rivinumero jne.), vaan myös jokin konteksti , jossa sitä käytetään. Tämä konteksti koostuu pääsääntöisesti kolmesta lauseesta: lauseesta, jossa sanamuoto esiintyy, lauseesta ennen päälausetta ja lauseesta sen jälkeen.

    G) tietosanakirjat sanakirjat, jotka eivät sisällä sanan ominaisuuksia sinänsä, vaan sen osoittaman kohteen, tosiasian tai ilmiön ominaisuuksia. Konemediassa on melko suuri määrä erilaisia ​​tietosanakirjoja. Tunnetuin niistä on Encyclopedia Britannica. Se sisältää 82 000 artikkelia ja 700 lisämateriaalia, jotka on julkaistu vuodesta 1768 lähtien. Vähintään kuuluisia ovat ranskalaiset tietosanakirjat "Tons les savoire du Monde", "Le monde sur CD-ROM", "Versailles" ja muut. Suuri Kyrilloksen ja Metodiuksen tietosanakirja julkaistiin venäjäksi

    e) tesaurus- pohjimmiltaan erityyppiset sanakirjat. Se osoittaa selvästi semanttiset linkit sen leksikaalisten yksiköiden tietyn osan välillä. Yleensä tällaiset sanakirjat rakennetaan melko kapealle ongelma-alueelle: tietotekniikka, musiikki, laivanrakennus, maatalous jne.

    e) terminologinen sanakirja(TS) - sanakirja, jonka perusyksikkö on termi .
    Termi - tämä on sana tai alisteinen lause, jolla on erityinen merkitys, joka ilmaisee ja muodostaa ammatillisen käsitteen ja jota käytetään tieteellisten ja ammatillisten objektien ja niiden välisen suhteen kognitiivisessa ja kehittämisessä.


    Kysymys 30.

    LIR - kokoelma PC:lle tallennettuja tietoja.

    Kielelliset tietoresurssit- yksi tietoresurssien komponenteista Tietoresurssilla tarkoitetaan jotakin henkistä resurssia, kollektiivisen luovuuden tulosta

    Passiivisia tietoresurssien muotoja ovat kirjat, aikakauslehdet, sanomalehdet, sanakirjat, tietosanakirjat, patentit, tietokannat ja tietopankit jne.

    Aktiivinen lomakkeita sisältää algoritmeja, malleja, ohjelmia ja tietokantoja

    Yleisimmällä tavalla LIR- tämä on eräänlainen kielitietokanta, jota voidaan päivittää ja josta voit etsiä sitä tai tätä tietoa. Kielellisiä resursseja tarvitaan sekä PC-käyttäjille että erilaisille puhetekstinkäsittelyyn liittyville tietokonejärjestelmille: tekstien yhteenveto, huomauttaminen ja kääntäminen, automaattinen tekstianalyysi, puhe ja tekstisynteesi.

    2) kirjoitettu tekstitaulukko ( corpus texto sisään, ts. joukko tekstejä, jotka riittävät luotettavien tieteellisten johtopäätösten tekemiseen tietystä kielestä, murteesta tai muusta kielen osajoukosta).

    a) Voidaan käyttää:

    Leksikografiassa ja leksikologiassa (erilaisten sanakirjojen laatimiseen, polysemanttisten sanojen merkityksen määrittämiseen, sanojen assosiatiivisten linkkien tunnistamiseen tekstissä, termien ja terminologisten lauseiden korostamiseen jne.).

    Kieliopissa (määrittää kielioppimorfeemien käyttötiheyttä erityyppisissä teksteissä, tunnistaa yleisimmin käytetyt lause- ja lausetyypit, määrittää synonyymien morfologisten yksiköiden merkitykset, sanaluokkien käyttötiheys jne.) .

    Tekstilingvistiikassa (tekstityyppien erottamiseen, konkordanssien luomiseen, kappaleiden lauseiden välisten yhteyksien ja kappaleiden välisten "jne" välisten yhteyksien tunnistamiseen)

    Kun käännetään automaattisesti tekstejä (hakeaksesi sellaisten sanojen konteksteja, joilla on useita käännösvastineita, etsiä terminologisten ja fraseologisten lauseiden käännösvastineita rinnakkaisteksteistä jne.).

    Koulutustarkoituksiin (valita lainauksia, yksittäisiä teosten fragmentteja, oppikirjojen ja opetusvälineiden luontiprosessissa käytettyjä esimerkkejä.

    b) merkityt tekstikorjaukset(englannista, tag-"indeksi, pentue"). Kaikki tällaisen korpuksen sanat saavat aakkos- tai numeerisia indeksejä, jotka osoittavat niiden kieliopilliset, leksikaaliset, semanttiset tai rakenteelliset piirteet. Tällaisia ​​indeksejä voi olla useita.

    3) Foneettiset kielelliset resurssit
    Tällä hetkellä on yleisesti hyväksyttyä, että koneellisesti luettavien foneettisten korpusten luomiseksi käytetään äänipuheen ortografiseen esittämiseen perustuvaa transkriptiota lisämerkeillä, jotka välittävät (tarvittaessa) prosodisia, paralingvistisiä ja muita ääntämisen piirteitä.

    a) Tekstien foneettisia korpuja käytetään laajalti seuraavien ongelmien ratkaisemiseen:

    Kielen suullisten ja kirjallisten muotojen vertaileva tutkimus;

    Suullisen puheen kieliopillisten ja leksikaalisten piirteiden tutkiminen;

    Murteiden foneettisten ominaisuuksien tutkimukset;

    Foneemien ja niiden yhdistelmien taajuusluetteloiden laatiminen;

    Puheen yksiköiden akustisten ominaisuuksien ja niiden käytön tutkiminen psykolingvistisissa ja kielellisissä kokeissa;

    Tietokonejärjestelmien luominen, suullisen puheen tunnistus ja synteesi.