Puheentunnistusjärjestelmien soveltaminen. Puheentunnistustyökalut

Belousova O.S., Panova L.

Omskin valtion teknillinen yliopisto

PUHEENTUNNISTUS

Tällä hetkellä puheentunnistus löytää yhä enemmän uusia sovellusalueita aina puheinformaatiota tekstiksi muuntavista sovelluksista ajoneuvojen ohjauslaitteisiin asti.

Puheentunnistustapoja on useita:

1. Yksittäisten komentojen tunnistus - sanan tai lauseen erillinen ääntäminen ja myöhempi tunnistaminen pienestä ennalta määrätystä sanakirjasta. Tunnistustarkkuutta rajoittaa annetun sanakirjan määrä

2. Kieliopin tunnistaminen - tiettyjä sääntöjä vastaavien lauseiden tunnistaminen. Kielioppien määrittämiseen käytetään tavallisia XML-kieliä, tiedonvaihto tunnistusjärjestelmän ja sovelluksen välillä tapahtuu MRCP-protokollan avulla.

3. Etsi avainsanoja jatkuvan puheen virrasta - yksittäisten puheosien tunnistaminen. Puhe voi olla sekä spontaania että tiettyjen sääntöjen mukaista. Puhuttua puhetta ei muunneta kokonaan tekstiksi - se sisältää automaattisesti ne osat, jotka sisältävät annetut sanat tai lauseet.

4. Jatkuvan puheen tunnistus suuressa sanakirjassa - kaikki sanottu käännetään sanatarkasti tekstiksi. Tunnistusvarmuus on melko korkea.

5. Puheentunnistus käyttäen hermojärjestelmiä. Neuroverkkoihin perustuen on mahdollista luoda koulutettavia ja itseoppivia järjestelmiä, mikä on tärkeä edellytys niiden käytölle puheentunnistus- (ja synteesi)järjestelmissä.

a) Puheen esitys numeeristen parametrien joukkona. Puhesignaalin informatiivisten piirteiden poimimisen jälkeen nämä piirteet voidaan esittää tiettynä numeeristen parametrien joukkona (eli vektorina tietyssä numeerisessa avaruudessa). Lisäksi puheprimitiivien tunnistamisen tehtävä rajoittuu niiden luokitteluun koulutetun hermoverkon avulla.

b) Neuraaliset ryhmät. Puheentunnistukseen sopivan ja ilman opettajaa koulutetun hermoverkon malliksi voit valita itseorganisoituvan Kohosen ominaisuuskartan. Siinä joukolle tulosignaaleja muodostetaan näitä signaaleja edustavia hermokokonaisuuksia. Tällä algoritmilla on kyky tilastolliseen keskiarvoitukseen, mikä mahdollistaa puheen vaihteluongelman ratkaisemisen.

c) Geneettiset algoritmit. Geneettisiä algoritmeja käytettäessä luodaan valintasääntöjä sen määrittämiseksi, onko uusi hermoverkko parempi vai huonompi ongelman ratkaisemisessa. Lisäksi määritellään säännöt hermoverkon muokkaamiselle. Vaihtelemalla hermoverkon arkkitehtuuria riittävän pitkäksi aikaa ja valitsemalla ne arkkitehtuurit, jotka mahdollistavat ongelman ratkaisemisen parhaalla mahdollisella tavalla, saadaan ennemmin tai myöhemmin oikea ratkaisu ongelmaan.

Yleinen algoritmi koherentille puheentunnistukselle

alkuperäinen signaali

Alkusuodatus ja hyödyllinen signaalin vahvistus

Korosta yksittäisiä sanoja

Sanantunnistus

Puheentunnistus

Reaktio tunnistettuun signaaliin

Puheentunnistusjärjestelmien koko valikoima voidaan jakaa ehdollisesti useisiin ryhmiin.

1. Ohjelmistoytimet laitteistototeutuksiin. TTS-moottori tekstistä puheeksi -synteesiin ja ASR-moottori puheentunnistusta varten.

2. Kirjastosarjat sovellusten kehittämiseen. Puhetekniikoiden integroimiseen on olemassa kaksi standardia: VoiceXML vuorovaikutteisten puhepohjaisten mediaresurssien hallintasovellusten kehittämiseen ja SALT multimodaalisten sovellusten tukemiseen, jotka yhdistävät puheentunnistuksen muihin tiedonsyötön muotoihin.

3. Riippumattomat käyttäjäsovellukset. Dragon NaturallySpeaking Preferred - tunnistaa jatkuvan puheen; virheetön tunnistus - 95%. "Dictograph" - tekstin syöttämisellä mihin tahansa editoriin, tunnistustarkkuus - 30-50%.

4. Erikoissovellukset. Yritys "Center of Speech Technologies" kehittää ja tuottaa ohjelmia sisäasiainministeriölle, liittovaltion turvallisuuspalvelulle, hätätilanneministeriölle: "IKAR Lab", "Tral", "Territory". Saksalainen instituutti DFKI on kehittänyt Verbmobilin, ohjelman, joka pystyy kääntämään keskustelupuheen saksasta englanniksi tai japaniksi ja päinvastoin suoraan mikrofoniin puhuttuna. Tarkkuus - 90%.

5. Laitteet, jotka suorittavat tunnistusta laitteistotasolla. Sensory Inc on kehittänyt integroidun Voice Direct™ 364 -piirin, joka suorittaa puhujariippuvaisen tunnistamisen pienelle määrälle komentoja (noin 60) alustavan koulutuksen jälkeen. Primestar Technology Corporation on kehittänyt VP-2025-sirun - se suorittaa tunnistuksen hermoverkkomenetelmällä.

Puheentunnistusmenetelmät.

1. Markovin piilomallien menetelmä. Se perustuu seuraaviin oletuksiin: puhe voidaan jakaa segmentteihin, joiden sisällä puhesignaalia voidaan pitää paikallaan, siirtyminen näiden tilojen välillä on välitöntä; mallin tuottaman havaintosymbolin todennäköisyys riippuu vain mallin nykyisestä tilasta, ei riipu aiemmista.

2. Liukuikkunamenetelmä. Essence: avainsanan esiintymisen määrittäminen Viterbi-algoritmilla. Koska avainsana voi alkaa ja päättyä missä tahansa signaalissa, tämä menetelmä toistaa avainsanan esiintymisen kaikki mahdolliset alku- ja loppuparit ja löytää avainsanalle ja tälle segmentille todennäköisimmän polun, aivan kuin avainsana olisi siinä. Jokaiselle löydetylle avainsanaehdokaspolulle käytetään vastaukseen perustuvaa todennäköisyysfunktiota, jos käytetyn polun arviointimenetelmän mukaan laskettu polun arvo on suurempi kuin ennalta määritetty arvo. Haitat: suuri laskennallinen monimutkaisuus; komennot voivat sisältää sanoja, jotka avainsanantunnistusalgoritmi tunnistaa huonosti.

3. Täytemallien menetelmä. Avainsanojen tunnistusalgoritmeissa tunnistettava sana näyttää olevan upotettuna vieraaseen puheeseen. Tällä perusteella paikkamerkkimallimenetelmät käsittelevät tätä vierasta puhetta mallintamalla eksplisiittisesti vierasta puhetta toissijaisten mallien kustannuksella. Tätä varten "yleistetty" sana lisätään tunnistusjärjestelmän sanakirjaan. Näiden sanojen tehtävänä on, että järjestelmä tunnistaa minkä tahansa tuntemattoman sanan tai ei-puhe-akustisen tapahtuman signaalisegmentin yhdeksi sanaksi tai yleistettyjen sanojen ketjuksi. Jokaiselle yleistetylle sanalle luodaan akustinen malli, joka opetetaan datakorpukseen vastaavien merkittyjen signaalisegmenttien kanssa. Dekooderin ulostulossa annetaan ketju, joka koostuu sanakirjan sanoista (avainsanoista) ja yleistetyistä sanoista. Yleistetyt sanat hylätään ja ketjun loppuosa katsotaan tunnistustuloksena. Haitat: avainsanat voidaan tunnistaa yleisiksi; yleistettyjen sanojen aakkosten optimaalisen valinnan monimutkaisuus.

Bibliografinen luettelo

1. Automaattisen puheentunnistuksen menetelmät: 2 kirjassa. Per. englannista / toim. W. Lee. - M.: Mir, 1983. - Kirja. 1. 328 s., ill.

2. Vintsyuk T.K. Puhesignaalien analyysi, tunnistus ja tulkinta. Kiova: Naukova Dumka, 1987.

3. Vintsyuk T.K. ICDP- ja NMM - puheentunnistusmenetelmien vertailu // Informointimenetelmät ja keinot. puhetta. Kiova, 1991.

4. http://www.mstechnology.ru

5. http://www.comptek.ru

Vuonna 1964 IBM Shoebox esiteltiin New Yorkin tietotekniikkamessuilla.

Kaupalliset puheentunnistusohjelmat ilmestyivät 1990-luvun alussa. Yleensä niitä käyttävät ihmiset, jotka eivät käsivamman vuoksi pysty kirjoittamaan suurta määrää tekstiä. Nämä ohjelmat (esim. Dragon NaturallySpeaking, VoiceNavigator) kääntävät käyttäjän äänen tekstiksi ja vapauttavat näin hänen kätensä. Tällaisten ohjelmien käännösvarmuus ei ole kovin korkea, mutta se paranee vähitellen vuosien mittaan.

Mobiililaitteiden laskentatehon kasvu mahdollisti puheentunnistustoiminnolla varustettujen ohjelmien luomisen niille. Tällaisten ohjelmien joukossa on syytä huomata Microsoft Voice Command -sovellus, jonka avulla voit työskennellä monien sovellusten kanssa äänelläsi. Voit esimerkiksi ottaa musiikin toiston käyttöön soittimessa tai luoda uuden asiakirjan.

Älykkäät puheratkaisut, jotka syntetisoivat ja tunnistavat ihmisen puheen automaattisesti, ovat seuraava askel interaktiivisten äänijärjestelmien (IVR) kehityksessä. Interaktiivisen puhelinsovelluksen käyttö ei ole tällä hetkellä muotitrendi, vaan elintärkeä välttämättömyys. Call center-agenttien ja sihteerien taakan keventäminen, työvoimakustannusten alentaminen ja palvelujärjestelmien tuottavuuden lisääminen ovat vain joitain etuja, jotka todistavat tällaisten ratkaisujen toteutettavuuden.

Edistys ei kuitenkaan pysähdy, ja viime aikoina automaattisia puheentunnistus- ja synteesijärjestelmiä on käytetty yhä enemmän vuorovaikutteisissa puhelinsovelluksissa. Tässä tapauksessa kommunikaatio puheportaalin kanssa tulee luonnollisemmaksi, koska valinta siinä voidaan tehdä paitsi äänivalinnan myös äänikomentojen avulla. Samaan aikaan tunnistusjärjestelmät ovat kaiuttimista riippumattomia, eli ne tunnistavat kenen tahansa äänen.

Seuraavana askeleena puheentunnistusteknologioissa voidaan pitää ns. Silent Speech Interfaces (SSI) -rajapintoja (Silent Access Interfaces). Nämä puheenkäsittelyjärjestelmät perustuvat puhesignaalien vastaanottamiseen ja käsittelyyn artikuloinnin varhaisessa vaiheessa. Tämä puheentunnistuksen kehitysvaihe johtuu nykyaikaisten tunnistusjärjestelmien kahdesta merkittävästä puutteesta: liiallisesta meluherkkyydestä sekä selkeän ja selkeän puheen tarpeesta tunnistusjärjestelmää käytettäessä. SSI-pohjainen lähestymistapa on käyttää uusia, kohinattomia antureita täydentämään prosessoituja akustisia signaaleja.

Järjestelmätyypit

Nykyään on olemassa kahdenlaisia ​​puheentunnistusjärjestelmiä - jotka toimivat "asiakkaalla" (asiakaspohjainen) ja "client-server" (asiakas-palvelin) -periaatteella. Asiakas-palvelintekniikkaa käytettäessä puhekomento syötetään käyttäjän laitteelle ja välitetään Internetin kautta etäpalvelimelle, jossa se käsitellään ja palautetaan laitteeseen komennon muodossa (Google Voice, Vlingo jne.) ; Palvelinkäyttäjien suuren määrän vuoksi tunnistusjärjestelmä saa laajan koulutuspohjan. Ensimmäinen vaihtoehto toimii muilla matemaattisilla algoritmeilla ja on harvinainen (Speereo Software) - tässä tapauksessa komento syötetään käyttäjän laitteeseen ja käsitellään siinä. Plus käsittely "asiakkaalla" liikkuvuudessa, riippumattomuus viestinnän saatavuudesta ja etälaitteiden käytöstä. Joten "asiakkaalla" toimiva järjestelmä näyttää luotettavammalta, mutta sitä joskus rajoittaa käyttäjän puolella olevan laitteen teho.

Myös tekniikkaa käytetään SIND(ilman viittausta tietyn henkilön ääneen).

Sovellus

Äänijärjestelmien tärkein etu on käyttäjäystävällisyys - se eliminoi tarpeen kahlata monimutkaisten ja monimutkaisten äänivalikoiden labyrintien läpi. Nyt riittää lausua puhelun tarkoitus, jonka jälkeen äänijärjestelmä siirtää soittajan automaattisesti haluttuun valikkokohtaan.

  • Äänivalinta eri tekniikoilla (matkapuhelimet, tietokoneet jne.)
  • Tekstiviestien äänisyöttö älypuhelimiin ja muihin kannettaviin tietokoneisiin

Katso myös

  • Digitaalinen signaalinkäsittely

Huomautuksia

Linkit

Luokat:

  • Puheentunnistus
  • Puheviestintä
  • Tekoälyn soveltaminen
  • Kuntoutusvälineet henkilöille, joilla on tuki- ja liikuntaelimistön häiriöitä
  • Kuntoutustilat näkövammaisille

Wikimedia Foundation. 2010 .

Katso, mitä "puheentunnistus" on muissa sanakirjoissa:

    Prosessi puheen muuntamiseksi tekstiksi. Puheentunnistusjärjestelmille on tunnusomaista: ymmärrettyjen sanojen sanakirjan määrä; hyväksyttävä sujuvuus; riippuvuuden aste tietyn henkilön puheen tinktuurasta. Englanniksi: Puheentunnistus Katso myös: ... ... Talousalan sanasto

    puheentunnistus- - Tietoliikenneaiheet, EN-puheentunnistuksen peruskäsitteet...

    puheentunnistus- kalbos atpažinimas statusas T ala automatika atitikmenys: engl. puheen havaitseminen; puheentunnistus; äänentunnistus vok. Spracherkennung, f rus. puheentunnistus, pranc. reconnaissance de parole, f; tiedustelulaulu, f … Automatikos terminų žodynas

    äänentunnistus- Tunnistusmenettely, joka perustuu puhujan äänen ominaisuuksiin. Tunnistettava puhesignaali jaetaan yleensä lyhyiksi fragmenteiksi, joista jokaista verrataan muistiin tallennettuihin puhenäytteisiin. Se jonka kanssa...... Teknisen kääntäjän käsikirja

    ääniriippumaton puheentunnistus- Menetelmä puheen muuntamiseksi merkitykselliseksi tekstitiedoksi virittämättä tietyn tilaajan äänen sointia. [L.M. Nevdjajev. Tietoliikennetekniikat. Englanti venäjän selittävä sanakirja hakuteos. Toimittaja Yu.M. Gornostajev. Moskova,…… Teknisen kääntäjän käsikirja

    automaattinen puheentunnistus- Prosessi tai tekniikka, joka ottaa normaalin puhesignaalin tulona ja tuottaa ulostulona koodatun version sanotusta (sana, komento, lauseke, lause jne.) (ITU T Y.2271, ITU T P.10 / G.100).… … Teknisen kääntäjän käsikirja

    Kuvat Optinen merkintunnistus Käsinkirjoituksen tunnistus Puheentunnistus ... Wikipedia

    Automaattinen kasvojentunnistus erikoisohjelmalla. Kuvantunnistusteoria on kybernetiikan osa, joka kehittää teoreettisia perusteita ja menetelmiä esineiden, ilmiöiden, prosessien, signaalien, tilanteiden jne. kohteiden, ... ... Wikipedia

    Automaattinen kasvojentunnistus erikoisohjelmalla. Kuvantunnistusteoria on kybernetiikan osa, joka kehittää teoreettisia perusteita ja menetelmiä esineiden, ilmiöiden, prosessien, signaalien, tilanteiden jne. kohteiden, ... ... Wikipedia

Kirjat

  • Puheen merkityksen tunnistaminen ja ymmärtäminen kohinassa stokastisten perusteella, VV Nasypny. Stokastiikka on Venäjällä kehitetty stokastinen tietotekniikka. Sen avulla voit luoda tehokkaita älykkäitä järjestelmiä, jotka toimivat reaaliajassa ja sulkevat pois…

Kaupalliset puheentunnistusohjelmat ilmestyivät 1990-luvun alussa. Yleensä niitä käyttävät ihmiset, jotka eivät käsivamman vuoksi pysty kirjoittamaan suurta määrää tekstiä. Nämä ohjelmat (esim. Dragon NaturallySpeaking, VoiceNavigator) kääntävät käyttäjän äänen tekstiksi ja vapauttavat näin hänen kätensä. Tällaisten ohjelmien käännösvarmuus ei ole kovin korkea, mutta se paranee vähitellen vuosien mittaan.

Mobiililaitteiden laskentatehon kasvu mahdollisti puheentunnistustoiminnolla varustettujen ohjelmien luomisen niille. Tällaisten ohjelmien joukossa on syytä huomata Microsoft Voice Command -sovellus, jonka avulla voit työskennellä monien sovellusten kanssa äänelläsi. Voit esimerkiksi ottaa musiikin toiston käyttöön soittimessa tai luoda uuden asiakirjan.

Älykkäät puheratkaisut, jotka syntetisoivat ja tunnistavat ihmisen puheen automaattisesti, ovat seuraava askel interaktiivisten äänijärjestelmien (IVR) kehityksessä. Interaktiivisen puhelinsovelluksen käyttö ei ole tällä hetkellä muotitrendi, vaan elintärkeä välttämättömyys. Call center-agenttien ja sihteerien taakan keventäminen, työvoimakustannusten alentaminen ja palvelujärjestelmien tuottavuuden parantaminen ovat vain muutamia etuja, jotka tekevät näistä ratkaisuista kannattavia.

Edistys ei kuitenkaan pysähdy, ja viime aikoina automaattisia puheentunnistus- ja synteesijärjestelmiä on käytetty yhä enemmän vuorovaikutteisissa puhelinsovelluksissa. Tässä tapauksessa kommunikaatio puheportaalin kanssa tulee luonnollisemmaksi, koska valinta siinä voidaan tehdä paitsi äänivalinnan myös äänikomentojen avulla. Samaan aikaan tunnistusjärjestelmät ovat kaiuttimista riippumattomia, eli ne tunnistavat kenen tahansa äänen.

Seuraavana askeleena puheentunnistusteknologioissa voidaan pitää ns. Silent Speech Interfaces (SSI) -rajapintoja (Silent Access Interfaces). Nämä puheenkäsittelyjärjestelmät perustuvat puhesignaalien vastaanottamiseen ja käsittelyyn artikuloinnin varhaisessa vaiheessa. Tämä puheentunnistuksen kehitysvaihe johtuu nykyaikaisten tunnistusjärjestelmien kahdesta merkittävästä puutteesta: liiallisesta meluherkkyydestä sekä selkeän ja selkeän puheen tarpeesta tunnistusjärjestelmää käytettäessä. SSI-pohjainen lähestymistapa on käyttää uusia, kohinattomia antureita täydentämään prosessoituja akustisia signaaleja.

Tähän mennessä puheentunnistusjärjestelmien käyttöalueita on viisi:

Ääniohjaus - tapa olla vuorovaikutuksessa ja ohjata laitteen toimintaa äänikomentojen avulla. Ääniohjausjärjestelmät eivät ole tehokkaita tekstin syöttämiseen, mutta ne ovat käteviä komentojen, kuten:

Järjestelmätyypit

Tähän mennessä on olemassa kahdenlaisia ​​puheentunnistusjärjestelmiä - jotka toimivat "asiakkaalla" (asiakaspohjainen) ja "asiakas-palvelin" (asiakas-palvelin) -periaatteella. Asiakas-palvelintekniikkaa käytettäessä puhekomento syötetään käyttäjän laitteelle ja välitetään Internetin kautta etäpalvelimelle, jossa se käsitellään ja palautetaan laitteeseen komennon muodossa (Google Voice, Vlingo jne.) ; Palvelinkäyttäjien suuren määrän vuoksi tunnistusjärjestelmä saa laajan koulutuspohjan. Ensimmäinen vaihtoehto toimii muilla matemaattisilla algoritmeilla ja on harvinainen (Speereo Software) - tässä tapauksessa komento syötetään käyttäjän laitteeseen ja käsitellään siinä. Plus käsittely "asiakkaalla" liikkuvuudessa, riippumattomuus viestinnän saatavuudesta ja etälaitteiden käytöstä. Joten "asiakkaalla" toimiva järjestelmä näyttää luotettavammalta, mutta sitä joskus rajoittaa käyttäjän puolella olevan laitteen teho.

Esitetyssä työssä Pohjois-Amerikan ja Euroopan yrityksiä purettiin pääosin pala palalta. Aasian markkinat ovat heikosti edustettuina tutkimuksessa. Mutta jätetään kaikki nämä yksityiskohdat toistaiseksi. Alan trendejä ja tämänhetkisiä piirteitä kuvataan kuitenkin erittäin mielenkiintoisella tavalla, mikä sinänsä on erittäin mielenkiintoista - sitäkin enemmän se voidaan esittää erilaisissa muunnelmissa yleistä olemusta menettämättä. Emme lannistu - ehkä alamme kuvailla mielenkiintoisimpia hetkiä, joissa puheentunnistusteollisuus liikkuu ja mikä meitä odottaa lähitulevaisuudessa (2012 - 2016) - kuten tutkijat vakuuttavat.

Johdanto

Äänentunnistusjärjestelmät ovat tietokonejärjestelmiä, jotka voivat määrittää puhujan puheen yhteisestä virrasta. Tämä tekniikka liittyy puheentunnistustekniikkaan, joka muuntaa puhutut sanat digitaalisiksi tekstisignaaleiksi suorittamalla puheentunnistusprosessin koneissa. Molempia näitä tekniikoita käytetään rinnakkain: toisaalta tietyn käyttäjän äänen tunnistamiseen, toisaalta äänikomentojen tunnistamiseen puheentunnistuksen avulla. Äänentunnistusta käytetään biometrisiin tietoturvatarkoituksiin tietyn henkilön äänen tunnistamiseen. Tämä tekniikka on tullut erittäin suosituksi mobiilipankkitoiminnassa, joka vaatii käyttäjän todennusta sekä muita äänikomentoja, jotka auttavat heitä suorittamaan tapahtumia.

Globaalit puheentunnistusmarkkinat ovat yksi nopeimmin kasvavista puhealan markkinoista. Suurin osa markkinoiden kasvusta tulee Amerikasta, jonka jälkeen tulevat Eurooppa, Lähi-itä ja Afrikka (EMEA) sekä Aasian ja Tyynenmeren alue (APR). Suuri osa markkinoiden kasvusta tulee terveydenhuollosta, rahoituspalveluista ja julkiselta sektorilta. Muilla segmenteillä, kuten telekommunikaatio- ja kuljetusalalla, odotetaan kuitenkin kasvavan merkittävästi lähivuosina. Markkinaennuste, lisäkasvu edelleen 22,07 prosentin CAGR:llä ajanjaksolla 2012–2016. (nykyisten yritysten kasvudynamiikan indikaattorit).

Markkinoiden kasvun tekijät

Maailmanlaajuisten äänentunnistusmarkkinoiden kasvu riippuu monista tekijöistä. Yksi tärkeimmistä tekijöistä on puhebiometristen palveluiden kysynnän kasvu. Tietoturvaloukkausten monimutkaisuuden ja tihentymisen myötä turvallisuus on edelleen tärkeä vaatimus yrityksille ja valtion organisaatioille. Äänibiometristen tietojen suuri kysyntä, joka on yksilöllinen jokaiselle yksilölle, on ratkaisevan tärkeää henkilön identiteetin määrittämisessä. Toinen markkinoiden keskeinen tekijä on kaiuttimen tunnistuksen lisääntynyt käyttö oikeuslääketieteellisiin tarkoituksiin.

Jotkut globaalien puheentunnistusmarkkinoiden tärkeimmistä tekijöistä ovat:
Puheen biometristen palvelujen kysyntä kasvaa
Kaiuttimen tunnistamisen laajempi käyttö oikeuslääketieteellisiin tarkoituksiin
Puheentunnistuksen kysyntä sotilaallisiin tarkoituksiin
Terveydenhuollossa puheentunnistuksen kysyntä suuri

Alun perin sana "biometriikka" löydettiin vain lääketieteen teoriasta. Turvallisuuden tarve on kuitenkin kasvanut biometristen tekniikoiden käytön myötä yritysten ja valtion virastojen keskuudessa. Biometristen teknologioiden käyttö on yksi avaintekijöistä globaaleilla puheentunnistusmarkkinoilla. Äänentunnistusta käytetään henkilön todentamiseen, koska jokaisen ääni on erilainen. Tämä takaa korkean tarkkuuden ja turvallisuuden. Äänentunnistuksella on suuri merkitys rahoituslaitoksissa, kuten pankeissa, sekä terveydenhuoltoyrityksissä. Tällä hetkellä puheentunnistussegmentin osuus biometristen teknologioiden osuudesta globaaleilla markkinoilla on 3,5 %, mutta osuus kasvaa jatkuvasti. Myös biometristen laitteiden alhaiset kustannukset lisäävät pienten ja keskisuurten yritysten kysyntää.

Kaiuttimen tunnistamisen laajempi käyttö oikeuslääketieteellisiin tarkoituksiin

Kaiuttimen tunnistusteknologian käyttö rikosteknisiin tarkoituksiin on yksi tärkeimmistä liikkeellepanevista voimista globaaleilla äänentunnistusmarkkinoilla. On monimutkainen prosessi sen määrittämiseksi, vastaako rikoksesta epäillyn ääni oikeuslääketieteellisten näytteiden ääntä. Tämän tekniikan avulla lainvalvontaviranomaiset voivat tunnistaa rikolliset henkilön yhden ainutlaatuisimman ominaisuuden eli äänen perusteella, mikä tarjoaa suhteellisen korkean tarkkuuden. Oikeuslääketieteen asiantuntijat analysoivat epäillyn äänen yhteensopivuutta näytteiden kanssa, kunnes tekijä löydetään. Viime aikoina tätä tekniikkaa on käytetty joidenkin rikostapausten ratkaisemiseen.

Puheentunnistuksen kysyntä sotilaallisiin tarkoituksiin

Useimpien maiden sotilasosastot käyttävät erittäin rajoitettuja alueita estääkseen tunkeilijoiden pääsyn sisään. Yksityisyyden ja turvallisuuden takaamiseksi tällä alueella armeija käyttää äänentunnistusjärjestelmiä. Nämä järjestelmät auttavat sotilaslaitoksia havaitsemaan luvattoman tunkeutumisen suojatulle alueelle. Järjestelmä sisältää tietokannan sotilaiden ja valtion virkamiesten äänistä, joilla on pääsy suojelualueelle. Äänentunnistusjärjestelmä tunnistaa nämä henkilöt ja estää siten sellaisten ihmisten pääsyn sisään, joiden ääntä ei ole järjestelmän tietokannassa. Lisäksi voidaan sanoa, että Yhdysvaltain ilmavoimat käyttävät äänikomentoja lentokoneen ohjaamiseen. Lisäksi sotilasosastot käyttävät puheentunnistusta ja Voice-to-text -järjestelmää viestiäkseen muiden maiden kansalaisten kanssa. Esimerkiksi Yhdysvaltain armeija käyttää aktiivisesti puheentunnistusjärjestelmiä operaatioissaan Irakissa ja Afganistanissa. Siten sotilaallisiin tarkoituksiin käytettäville puheen- ja äänentunnistuksille on suuri kysyntä.

Biometrisiä teknologioita, kuten verisuonten tunnistus, äänentunnistus ja verkkokalvon skannaus, otetaan laajalti käyttöön terveydenhuoltoalalla. Äänentunnistuksen odotetaan tulevan yhdeksi tärkeimmistä tunnistustavoista lääketieteellisissä ympäristöissä. Monet yhdysvaltalaiset terveydenhuoltoyritykset noudattavat HIPAA (Health Insurance Portability and Accountability Act) -standardeja, mutta käyttävät myös biometrisiä tekniikoita, kuten äänentunnistusta, sormenjälkien tunnistusta turvallisemman ja tehokkaamman potilaan rekisteröinnin, potilastietojen keräämisen ja suojan parantamiseksi. potilaiden lääketieteellisistä tiedoista. Kliiniset tutkimuslaitokset ottavat käyttöön myös äänentunnistusta kliinisiin tutkimuksiin värvättyjen henkilöiden tunnistamiseksi. Näin ollen puhebiometriset tiedot ovat yksi tärkeimmistä asiakkaiden tunnistamisen tavoista Aasian ja Tyynenmeren alueen terveydenhuoltoalalla.

Markkinoiden vaatimukset



Neljän tärkeimmän trendin ja ongelman vaikutus globaaleihin tunnustusmarkkinoihin on esitetty kuvassa.

Avain
Emissioiden ja trendien vaikutusta arvioidaan niiden vaikutusten voimakkuuden ja keston perusteella nykymarkkinoilla. Vaikutuksen suuruusluokitus:
Matala – vähän tai ei ollenkaan vaikutusta markkinoihin
Keskitasoinen – keskitasoinen markkinavaikutus
Kohtalaisen korkea – merkittävä vaikutus markkinoihin
Suuri - erittäin voimakas vaikutus, jolla on raju vaikutus markkinoiden kasvuun

Nousevista trendeistä huolimatta maailmanlaajuisilla puheentunnistusmarkkinoilla on edelleen vakavia kasvujarruja. Yksi tärkeimmistä ongelmista on vaikeus vaimentaa ympäristön melua. Vaikka puheentunnistusmarkkinoilla on tapahtunut useita teknologisia edistysaskeleita, kyvyttömyys vaimentaa ympäristön melua on edelleen este äänentunnistussovellusten hyväksymiselle. Toinen haaste näille markkinoille on äänentunnistussovellusten korkeat kustannukset.

Jotkut globaalien äänentunnistusmarkkinoiden suurimmista haasteista ovat:
Kyvyttömyys vaimentaa ulkoista melua
Äänentunnistussovelluksen korkea hinta
Ongelmia tunnistuksen tarkkuudessa
Matala suojaus kaiuttimen vahvistuksessa

Kyvyttömyys vaimentaa ulkoista melua

Huolimatta puheentunnistuksen tekniikan kehityksestä, kohina on edelleen yksi suurimmista ongelmista maailmanlaajuisilla äänentunnistusmarkkinoilla. Lisäksi puhebiometriset tiedot ovat erityisen herkkiä muihin biometrisiin tietotyyppeihin verrattuna. Äänentunnistus-, äänibiometriikka- ja puheentunnistussovellukset ovat osoittautuneet erittäin herkiksi ympäristön melulle. Tämän seurauksena kaikki meluhäiriöt häiritsevät tunnistustarkkuutta. Myös automaattinen vastaus äänikomentoon häiriintyy. Kyvyttömyys vaimentaa ympäristön melua on ainoa tekijä, joka estää puheentunnistusjärjestelmiä saavuttamasta korkeita tuloksia ja ottamasta suurta prosenttiosuutta globaaleilla biometristen tekniikoiden markkinoilla.

Äänentunnistussovellusten korkea hinta

Yksi suurimmista puheentunnistusteknologioiden kehitystä jarruttavista ongelmista on kehittämisen ja toteutuksen edellyttämien suurten investointien tarve. Äänentunnistusteknologian laajamittainen käyttöönotto yrityksissä on aikaa vievä prosessi ja vaatii valtavia investointeja. Budjettisäästöt johtavat rajoitettuun teknologian testaukseen, joten kaikki epäonnistumiset voivat johtaa suuriin tappioihin yrityksessä. Siksi puheentunnistuksen vaihtoehtoja, kuten pyyhkäisykorttia ja näppäimistöä, käytetään edelleen aktiivisesti monissa yrityksissä, erityisesti pienten ja keskisuurten yritysten keskuudessa, kustannustehokkuuden vuoksi. Puheentunnistussovellukset vaativat siis suuria materiaaliinvestointeja, mukaan lukien integrointijärjestelmän kustannukset, lisälaitteet ja muut kustannukset.

Ongelmia tunnistuksen tarkkuudessa

Maailmanlaajuisilla äänentunnistusmarkkinoilla yleinen ongelma on tunnistamisen alhainen tarkkuus huolimatta siitä, että tällä hetkellä puheentunnistusjärjestelmät pystyvät tunnistamaan eri kieliä ja määrittämään äänen aitouden. Koska järjestelmä sisältää monimutkaisen prosessin tietokantojen sovittamiseksi puhekomennoilla ja integroidulla puheentunnistus- ja puheenvarmistustekniikalla, jopa pieni virhe missä tahansa prosessin osassa voi johtaa väärään tulokseen. Puheentunnistusvirhe on yksi suurimmista rajoituksista puheentunnistussovelluksissa. Jotkut valmistajat ovat kuitenkin alkaneet kehittää järjestelmiä, joissa äänentunnistuksen virhetaso on erittäin alhainen. He ovat kehittäneet järjestelmiä, joiden tulokset ovat alle 4 % epätarkkoja (esimerkiksi äänibiometriset mittaukset tunnistavat väärin ja hylkäävät pääsyn saavan henkilön äänen).

Matala suojaus kaiuttimen vahvistuksessa

Suuri epätarkkuuden taso kaiuttimen todentamisessa johtaa alhaiseen turvallisuustasoon. Tällä hetkellä äänentunnistusjärjestelmissä on suuri prosenttiosuus epätarkkoja tuloksia. Mitä enemmän tehdään vääriä päätöksiä, sitä suurempi on todennäköisyys, että esimerkiksi maahantulolupa saa ulkopuolisen. Koska äänentunnistusjärjestelmät ovat erittäin herkkiä, ne kiinnittävät kaiken, mukaan lukien kurkkuongelmat, yskän, vilustumisen, sairaudesta johtuvat äänenmuutokset, joten on suuri todennäköisyys, että luvaton henkilö pääsee suljetulle alueelle, syynä tähän on alhainen turvallisuustaso henkilön äänentunnistuksessa.

Markkinatrendit

Markkinoiden haasteiden vaikutuksen odotetaan kumoavan markkinoilla esiin nousevat erilaiset trendit. Yksi tällainen trendi on puheentunnistuksen kasvava kysyntä mobiililaitteissa. Ymmärtääkseen mobiililaitteiden valtavan potentiaalin valmistajat globaaleilla äänentunnistusmarkkinoilla kehittävät innovatiivisia mobiililaitteita koskevia sovelluksia. Tämä on yksi tulevaisuuden ohjaavista tekijöistä. Mobiilipankkien puheentunnistuksen kasvava kysyntä on toinen myönteinen trendi puheentunnistusmarkkinoilla.

Jotkut tärkeimmistä suuntauksista globaaleilla äänentunnistusmarkkinoilla ovat:
Mobiililaitteiden puheentunnistuksen kysyntä kasvaa
Mobiilipankkitoiminnan puhetunnistuspalveluiden kysyntä kasvaa
Äänenvahvistuksen ja puheentunnistuksen integrointi
Fuusioiden ja yritysostojen lisääntyminen

Mobiililaitteiden puheentunnistuksen kysyntä kasvaa

Mobiililaitteiden käytön ajon aikana kieltävien liikennesääntöjen lisääntyminen on lisännyt puheentunnistussovellusten kysyntää. Maat, joissa on tiukat rajoitukset: Australia, Filippiinit, USA, Iso-Britannia, Intia ja Chile. Yhdysvalloissa yli 13 osavaltiossa on mobiililaitteiden käyttöä koskevan asetuksen käyttöön ottamisesta huolimatta sallittua käyttää kaiutinpuhelinta ajon aikana. Tästä syystä kuluttajat valitsevat yhä enemmän mobiililaitteita, jotka on varustettu puheentunnistussovelluksilla, jotka voivat auttaa heitä pääsemään laitteeseen ilman, että laite itse häiritsee heitä. Vastatakseen mobiililaitteiden puheentunnistussovellusten kasvavaan kysyntään valmistajat ovat lisänneet tutkimus- ja kehitystyötä mobiililaitteen puhekomentovaihtoehtojen kehittämiseksi. Tämän seurauksena mobiililaitteeseen on sisällytetty suuri määrä puheentunnistussovelluksia, kuten musiikin soittolistan hallinta, osoitteen lukeminen, soittajan nimen lukeminen, SMS-ääniviestit ja niin edelleen.

Tarve vahvemmalle todennukselle johtaa puhetodennuksen yleiseen integrointiin mobiilipankkitoiminnassa. Esimerkiksi Pohjois-Amerikassa ja Länsi-Euroopassa monet pankkiasiakkaat käyttävät puhelinpankkipalveluita. Suuri määrä tällaisia ​​rahoituslaitoksia hyväksyy käyttäjän puheentunnistuspäätökset mobiilitapahtumien hyväksymisestä tai hylkäämisestä. Lisäksi puhetodennuksen mahdollistaminen mobiililaitteissa on kustannustehokasta ja samalla korkeampaa turvatasoa. Näin ollen suuntaus integroida puhetunnistusta mobiilipankkitoiminnassa kasvaa entisestään vuosien mittaan. Puhelimessa toimivat pankkilaitokset tekevätkin yhteistyötä puheiden todennusratkaisujen tarjoajien ja puhebiometristen tietojärjestelmien kanssa, mikä on keskeinen kilpailuetu.

Jotkut toimittajat pyrkivät integroimaan puheenvarmistus- ja puheentunnistusteknologian. Sen sijaan, että puheenvarmennusta tarjottaisiin erillisenä tuotteena, valmistajat tarjoavat integroitua puheenvahvistuksen ja puheentunnistuksen toiminnot. Äänivahvistus auttaa määrittämään, kuka puhuu ja samalla kuka puhuu. Useimmat valmistajat ovat käynnistäneet tai ovat käynnistämässä puheentunnistussovelluksia, jotka sisältävät edellä kuvattujen kahden teknologian yhdistämisen.

Fuusioiden ja yritysostojen lisääntyminen

Maailmanlaajuisilla äänentunnistusmarkkinoilla on suuria yritysjärjestelytrendejä. Hallitseva markkinajohtaja Nuance Communications Inc., jolla on yli 50 % markkinaosuus, on ostanut suuren joukon pieniä yrityksiä puheentunnistusmarkkinoilta. Tästä seuraa, että yrityskauppa on yritykselle uusi lähestymistapa kasvuun, minkä seurauksena Nuance teki kuusi yritysostoa vuonna 2007. Tämän suuntauksen odotetaan jatkuvan muutaman seuraavan vuoden aikana, koska siellä on lukuisia pieniä toimijoita, jotka suuret yritykset, kuten Nuance, voisivat ostaa. Koska markkinat ovat teknologiavetoisia, pienet yritykset kehittävät innovatiivisia ratkaisuja. Mutta resurssien puutteen vuoksi nämä yritykset eivät pysty laajentamaan liiketoimintaansa. Siten suuryritykset, kuten Nuance, käyttävät yritysostoprosessia päästrategiana päästäkseen uusille markkinoille ja toimialoille. Esimerkiksi Nuance osti Loquendo Inc:n. Päästäksesi EMEA-alueelle.

Johtopäätös

Puheentunnistusjärjestelmien kehittämisessä on kaksi haaraa (markkinoiden koko 1,09–2,42 miljardia dollaria vuosina 2012–2016, kasvuvauhti + 22,07 %)
Puhe tekstiksi (markkinakoko 860 miljoonaa dollaria (2012) 1727 miljoonaa dollaria (2016) – kokonaisosuus 79–71 % vuosina 2012–2016)
Ihmisen äänen todentaminen ja tunnistaminen (markkinoiden koko 229 miljoonasta dollarista (2012) 697 miljoonaan dollariin – kokonaisosuus 21–28,8 % vuosina 2012–2016)

Kilpailutaistelussa näiden kahden suunnan partaalla olevat yritykset kehittyvät aktiivisemmin - toisaalta parantamalla puheentunnistusohjelmien tarkkuutta ja kääntämällä sen tekstiksi, toisaalta ratkaisemalla tämän ongelman tunnistamalla puhuja ja hänen puheensa vahvistaminen käyttämällä lisäkanavaa (esimerkiksi videota) tietolähteenä.

Technavion tutkimuksen mukaan suurin ongelma olemassa olevissa puheentunnistusohjelmissa on niiden herkkyys ympäristön kohinan vaimennukselle;
- Päätrendi on puheteknologian leviäminen lisäämällä mobiililaitteiden määrää ja laatua sekä mobiilipankkiratkaisujen kehitystä;
- Valtion organisaatiot, armeija, lääketiede ja rahoitussektori ovat tällä hetkellä suuressa roolissa puheentunnistusteknologioiden kehittämisessä. Tällaisille teknologioille on kuitenkin ollut suurta kysyntää mobiilisovellusten ja puhenavigointitehtävien sekä biometristen tietojen muodossa.
- Puheentunnistusjärjestelmien päämarkkina on Yhdysvalloissa, mutta nopein ja maksukykyisin yleisö asuu Kaakkois-Aasiassa, erityisesti Japanissa (puhelukeskusten täyden puheautomaation ansiosta). Oletetaan, että juuri tälle alueelle pitäisi ilmaantua vahva toimija, josta tulee vakava apu Nuance Communicationsin globaalille voimalle (nykyinen globaali markkinaosuus on 70%);
- Yleisin politiikka puheentunnistusmarkkinoilla on fuusiot ja yritysostot (M&A) – markkinajohtajat ostavat usein pieniä teknologialaboratorioita tai yrityksiä ympäri maailmaa säilyttääkseen hegemonian.
- Sovelluskustannukset laskevat nopeasti, tarkkuus kasvaa, taustamelun suodatus paranee, turvallisuus lisääntyy - ultratarkan puheentunnistustekniikan arvioitu käyttöönottopäivä on 2014.

Näin ollen Technavio ennusteiden mukaan kaudella 2012-2016. puheentunnistusjärjestelmien markkinoiden odotetaan kasvavan yli 2,5-kertaiseksi. Suuren osuuden yhdeltä dynaamisimmista ja nopeimmista IT-teknologiamarkkinoista saavat pelaajat, jotka voivat ratkaista tuotteessaan kaksi tehtävää samanaikaisesti: oppia tunnistamaan puheen laadullisesti ja kääntämään sen tekstiksi sekä tunnistamaan kaiutin hyvin, tarkista se yleisestä streamista. Polkumyyntiä (keinotekoinen tällaisten tekniikoiden kustannusten alentaminen), ystävällisellä käyttöliittymällä varustettujen ohjelmien luomista ja nopeaa mukautumisprosessia korkealla työnlaadulla voidaan kutsua suureksi kilpailueduksi. Oletetaan, että seuraavan 5 vuoden aikana - markkinoille tulee uusia toimijoita, jotka voivat haastaa vähemmän ketterät suuryritykset, kuten Add tags

  • opetusohjelma

Tässä artikkelissa haluan tarkastella sellaisen mielenkiintoisen ohjelmistokehitysalueen perusteita kuin puheentunnistus. En tietenkään ole tämän aiheen asiantuntija, joten tarinani tulee olemaan täynnä epätarkkuuksia, virheitä ja pettymyksiä. Siitä huolimatta "työni" päätavoitteena, kuten nimestä voi päätellä, ei ole ongelman ammattimainen analyysi, vaan peruskäsitteiden, ongelmien ja niiden ratkaisujen kuvaus. Yleisesti ottaen pyydän kaikkia kiinnostuneita tervetulleeksi leikkauksen alle!

Prologi

Aloitetaan siitä tosiasiasta, että puheemme on äänisarja. Ääni puolestaan ​​on eritaajuisten äänivärähtelyjen (aaltojen) superpositio (superpositio). Kuten fysiikasta tiedämme, aallolle on ominaista kaksi ominaisuutta - amplitudi ja taajuus.

Tällä tavalla mekaaniset värähtelyt muunnetaan numerosarjaksi, joka soveltuu käsiteltäviksi nykyaikaisissa tietokoneissa.

Tästä seuraa, että puheentunnistuksen tehtävä rajoittuu numeroarvojen (digitaalisen signaalin) ja jonkin sanakirjan (esimerkiksi venäjän kielen) sanojen "sovittamiseen".

Katsotaanpa, kuinka itse asiassa tämä "kartoitus" voidaan toteuttaa.

Syötä tiedot

Oletetaan, että meillä on äänidataa sisältävä tiedosto/stream. Ensinnäkin meidän on ymmärrettävä, miten se toimii ja miten sitä luetaan. Katsotaanpa yksinkertaisinta vaihtoehtoa - WAV-tiedostoa.

Muoto tarkoittaa, että tiedostossa on kaksi lohkoa. Ensimmäinen lohko on otsikko, jossa on tietoja äänivirrasta: bittinopeus, taajuus, kanavien määrä, tiedoston pituus jne. Toinen lohko koostuu "raaka" datasta - samasta digitaalisesta signaalista, joukosta amplitudiarvoja.

Tietojen lukemisen logiikka tässä tapauksessa on melko yksinkertainen. Luemme otsikon, tarkistamme joitain rajoituksia (esimerkiksi pakkauksen puute), tallennamme tiedot erityisesti varattuun taulukkoon.

Tunnustus

Puhtaasti teoreettisesti voimme nyt verrata (elementti elementiltä) meillä olevaa näytettä johonkin toiseen, jonka tekstin tiedämme jo. Eli yritä "tunnistaa" puhe ... Mutta on parempi olla tekemättä tätä :)

Lähestymistapamme tulee olla vakaa (no, ainakin vähän) äänen sointin (sanan ääntävän henkilön), äänenvoimakkuuden ja ääntämisnopeuden muutoksiin. Luonnollisesti tätä ei voida saavuttaa vertaamalla kahta äänisignaalia elementtikohtaisesti.

Siksi edetään hieman eri tavalla.

Kehykset

Ensinnäkin jaetaan tietomme pieniin aikaväleihin - kehyksiin. Lisäksi kehysten ei pitäisi mennä tiukasti peräkkäin, vaan "päällekkäin". Nuo. yhden kehyksen lopun on leikattava toisen kehyksen alun kanssa.

Kehykset ovat tarkoituksenmukaisempi data-analyysin yksikkö kuin tietyt signaaliarvot, koska on paljon kätevämpää analysoida aaltoja tietyllä aikavälillä kuin tietyissä kohdissa. "Päällekkäisten" kehysten järjestely mahdollistaa kehysanalyysin tulosten tasoittamisen muuttaen kehysideasta eräänlaisen "ikkunan", joka liikkuu alkuperäistä toimintoa pitkin (signaaliarvot).

Empiirisesti on todettu, että optimaalisen kehyksen pituuden tulisi vastata 10 ms:n väliä, "päällekkäisyys" - 50%. Ottaen huomioon, että keskimääräinen sanan pituus (ainakin minun kokeissani) on 500 ms, tällainen askel antaa meille noin 500 / (10 * 0,5) = 100 kehystä per sana.

sanan rikkominen

Ensimmäinen tehtävä, joka puheentunnistuksessa on ratkaistava, on juuri tämän puheen jakaminen erillisiin sanoiin. Yksinkertaisuuden vuoksi oletetaan, että meidän tapauksessamme puhe sisältää taukoja (hiljaisuusjaksoja), joita voidaan pitää sanojen "erottelijoina".

Tässä tapauksessa meidän on löydettävä jokin arvo, kynnys - arvot, joiden yläpuolella ovat sana, jonka alapuolella ovat hiljaisuus. Tässä voi olla useita vaihtoehtoja:

  • asetettu vakioksi (toimii, jos alkuperäinen signaali generoidaan aina samoissa olosuhteissa, samalla tavalla);
  • klusterisignaaliarvot korostamalla selkeästi hiljaisuutta vastaavat arvot (se toimii vain, jos hiljaisuus vie merkittävän osan alkuperäisestä signaalista);
  • analysoida entropiaa;

Kuten ehkä arvasitkin, puhumme nyt viimeisestä kohdasta :) Aloitetaan siitä tosiasiasta, että entropia on epäjärjestyksen mitta, "kaiken kokemuksen epävarmuuden mitta" (c). Meidän tapauksessamme entropia tarkoittaa, kuinka paljon signaalimme "vaihtelee" tietyssä kehyksessä.

  • oletetaan, että signaalimme on normalisoitu ja kaikki sen arvot ovat alueella [-1;1];
  • rakentaa histogrammi (jakauman tiheys) kehyssignaaliarvoista:
laske entropia muodossa ;

Ja niin, saimme entropian arvon. Mutta tämä on vain toinen kehyksen ominaisuus, ja erottaaksemme äänen hiljaisuudesta, meidän on silti verrattava sitä johonkin. Joissakin artikkeleissa on suositeltavaa ottaa entropiakynnys, joka on yhtä suuri kuin sen maksimi- ja minimiarvojen keskiarvo (kaikkien kehysten joukossa). Omassa tapauksessani tämä lähestymistapa ei kuitenkaan tuottanut hyviä tuloksia.
Onneksi entropia (toisin kuin arvojen keskineliö) on suhteellisen itsenäinen suure. Tämä antoi minulle mahdollisuuden poimia sen kynnyksen arvon vakion (0,1) muodossa.

Ongelmat eivät kuitenkaan lopu tähän: (Entropia voi roikkua sanan keskellä (vokaalien kohdalla) tai se voi yhtäkkiä hypätä ylös pienen kohinan takia. Ensimmäisen ongelman ratkaisemiseksi meidän on esitettävä "sanojen välisen vähimmäisetäisyyden" käsite ja "liima" lähellä makaavia kehysjoukkoja, jotka erottuivat vajoamisen vuoksi. Toinen ongelma ratkaistaan ​​käyttämällä "sanan vähimmäispituutta" ja leikamalla pois kaikki ehdokkaat, jotka eivät läpäisseet valintaa (ja joita ei käytetty). ensimmäisessä kappaleessa).

Jos puhe ei periaatteessa ole "artikuloitua", voidaan yrittää jakaa alkuperäinen kehysjoukko tietyllä tavalla valmisteltuihin osasarjoihin, joista jokaiselle suoritetaan tunnistusmenettely. Mutta se onkin sitten ihan eri tarina :)

Ja niin, meillä on joukko kehyksiä, jotka vastaavat tiettyä sanaa. Voimme kulkea pienimmän vastuksen polkua ja käyttää sen kaikkien arvojen keskineliötä (Root Mean Square) kehyksen numeerisena ominaisuutena. Tällainen metriikka sisältää kuitenkin vain vähän lisäanalyysiin sopivaa tietoa.

Tässä kohtaa Mel-taajuuden cepstraalikertoimet tulevat peliin. Wikipedian mukaan (joka, kuten tiedätte, ei valehtele), MFCC on eräänlainen esitys signaalispektrin energiasta. Sen käytön edut ovat seuraavat:

  • Käytetään signaalin spektriä (eli laajennusta ortogonaalisten [ko]sinifunktioiden perusteella), mikä mahdollistaa signaalin aallon "luonnon" huomioimisen jatkoanalyysissä;
  • Spektri projisoidaan erityiselle mel-asteikolle, jonka avulla voit korostaa ihmisen havainnon kannalta merkittävimmät taajuudet;
  • Laskettujen kertoimien määrä voidaan rajoittaa mihin tahansa arvoon (esimerkiksi 12), jonka avulla voit "pakkata" kehyksen ja sen seurauksena käsiteltävän tiedon määrän;

Katsotaanpa tietyn kehyksen MFCC-kertoimien laskentaprosessia.

Esitetään kehys vektorina, jossa N on kehyksen koko.

Fourier-laajennus

Ensinnäkin laskemme signaalin spektrin käyttämällä diskreettiä Fourier-muunnosta (mieluiten sen "nopea" FFT-toteutus).

Eli tulos on seuraavan muotoinen vektori:

On tärkeää ymmärtää, että tämän muunnoksen jälkeen x-akselilla meillä on signaalin taajuus (hz) ja y-akselilla suuruus (tapa päästä eroon monimutkaisista arvoista):

Mel-suodattimien laskenta

Aloitetaan siitä, mikä mel on. Jälleen Wikipedian mukaan mel on "psykofyysinen äänenkorkeuden yksikkö", joka perustuu keskivertoihmisten subjektiiviseen havaintoon. Se riippuu ensisijaisesti äänen taajuudesta (sekä äänenvoimakkuudesta ja sointiäänestä). Toisin sanoen tämä arvo, joka osoittaa kuinka paljon tietyn taajuuden ääni on meille "merkittävä".

Voit muuntaa taajuuden liiduksi käyttämällä seuraavaa kaavaa (muista se nimellä "kaava-1"):

Käänteinen muunnos näyttää tältä (muista se "kaavana 2"):

Piirrä mel / taajuus:

Mutta takaisin tehtäväämme. Oletetaan, että meillä on kehys, jonka koko on 256 elementtiä. Tiedämme (äänimuototiedoista), että äänitaajuus tietyssä kehyksessä on 16000hz. Oletetaan, että ihmisen puhe on alueella Hz. Asetetaan haluttujen mel-kertoimien määrä M = 10 (suositeltu arvo).

Edellä saadun spektrin hajottamiseksi mel-mittakaavassa meidän on luotava suodattimien "kampa". Itse asiassa jokainen mel-suodatin on kolmion muotoinen ikkunatoiminto, jonka avulla voit summata energiamäärän tietyllä taajuusalueella ja saada siten mel-kertoimen. Kun tiedämme mel-kertoimien lukumäärän ja analysoidun taajuusalueen, voimme rakentaa joukon tällaisia ​​suodattimia:

Huomaa, että mitä suurempi mel-kerroinluku, sitä leveämpi suodattimen pohja. Tämä johtuu siitä, että meitä kiinnostavan taajuusalueen jakaminen suodattimien käsittelemiin alueisiin tapahtuu liituasteikolla.

Mutta poikkeamme taas. Ja niin meidän tapauksessamme meitä kiinnostava taajuusalue on . Liituasteikon kaavan 1 mukaan tämä alue muuttuu.

m[i] =

Huomaa, että pisteet ovat tasaisin välein liituasteikolla. Muunnetaan asteikko takaisin hertseiksi kaavan 2 avulla:

h[i] =

Kuten näette, nyt asteikko alkoi vähitellen venyä, mikä tasoitti "merkittävyyden" kasvun dynamiikkaa matalilla ja korkeilla taajuuksilla.

Nyt meidän on asetettava tuloksena oleva asteikko kehyksemme spektrille. Kuten muistamme, X-akselilla meillä on taajuus. Spektrin pituus on 256 elementtiä, kun taas se sopii 16000hz. Ratkaisemalla yksinkertaisen osuuden saat seuraavan kaavan:

f(i) = kerros((kehyksen koko+1) * h(i) / näytenopeus)

Mikä meidän tapauksessamme vastaa

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

Siinä kaikki! Kun tiedämme spektrimme X-akselin vertailupisteet, on helppo rakentaa tarvitsemamme suodattimet seuraavalla kaavalla:

Suodattimien käyttö, spektrienergian logaritmi

Suodattimen käyttö koostuu sen arvojen pareittain kertomisesta spektrin arvoilla. Tämän operaation tulos on mel-kerroin. Koska meillä on M suodatinta, kertoimia on sama määrä.

Meidän ei kuitenkaan tarvitse soveltaa mel-suodattimia spektrin arvoihin, vaan sen energiaan. Ota sitten tulosten logaritmi. Tämän uskotaan vähentävän kertoimien herkkyyttä kohinalle.

kosinimuunnos

Diskreettiä kosinimuunnosta (DCT) käytetään näiden "cepstraalisten" kertoimien saamiseksi. Sen tarkoitus on "tiivistää" saadut tulokset lisäämällä ensimmäisten kertoimien merkitsevyyttä ja vähentämällä jälkimmäisten merkitystä.

Tässä tapauksessa DCTII:ta käytetään ilman kertolaskua (skaalaustekijällä).

Nyt jokaiselle kehykselle meillä on joukko M mfcc-kertoimia, joita voidaan käyttää lisäanalyysiin.

Esimerkkejä päällä olevien menetelmien koodeista löytyy.

Tunnistusalgoritmi

Tässä, rakas lukija, suurin pettymys odottaa sinua. Internetissä satuin näkemään paljon erittäin älykkäitä (ja ei niinkään) kiistoja siitä, mikä tunnistusmenetelmä on parempi. Joku puolustaa Hidden Markov -malleja, joku neuroverkkoja, jonkun ajatuksia on periaatteessa mahdotonta ymmärtää :)

Joka tapauksessa HMM:lle annetaan paljon etusijaa, ja juuri niiden toteutuksen aion lisätä koodiani ... tulevaisuudessa :)

Tällä hetkellä ehdotan, että lopetan paljon vähemmän tehokkaan, mutta monta kertaa yksinkertaisemman menetelmän.

Muista siis, että tehtävämme on tunnistaa sana jostain sanakirjasta. Yksinkertaisuuden vuoksi tunnistamme kymmenen ensimmäisen numeron nimet: "yksi", "kaksi", "kolme", ​​"neljä", "viisi", "kuusi", "seitsemän", "kahdeksan", "yhdeksän", "kymmenen".

Otetaan nyt iPhone/Android ja käydään L kollegoiden läpi pyynnöllä sanella nämä sanat muistiin. Määritetään seuraavaksi (jossakin paikallisessa tietokannassa tai yksinkertaisessa tiedostossa) jokaiselle sanalle L vastaavien tietueiden mfcc-kertoimia.

Kutsumme tätä kirjeenvaihtoa "malliksi" ja itse prosessia - koneoppimista! Itse asiassa pelkällä uusien näytteiden lisäämisellä tietokantaan on erittäin heikko yhteys koneoppimiseen... Mutta termi on liian trendikäs :)

Nyt tehtävämme rajoittuu "lähimmän" mallin valitsemiseen jollekin mfcc-kertoimien joukolle (tunnistettava sana). Ensi silmäyksellä ongelma voidaan ratkaista yksinkertaisesti:

  • jokaiselle mallille löydämme keskimääräisen (euklidisen) etäisyyden tunnistetun mfcc-vektorin ja mallivektoreiden välillä;
  • valitsemme oikeaksi mallin, jonka keskimääräinen etäisyys on pienin;

Saman sanan voivat kuitenkin lausua sekä Andrei Malakhov että jotkut hänen virolaisista kollegoistaan. Toisin sanoen saman sanan mfcc-vektorin koko voi olla erilainen.

Onneksi eripituisten sekvenssien vertailun ongelma on jo ratkaistu Dynamic Time Warping -algoritmin muodossa. Tämä dynaaminen ohjelmointialgoritmi on kuvattu kauniisti sekä porvarillisessa Wikissä että ortodoksisessa Wikissä.

Ainoa muutos, joka siihen pitäisi tehdä, on tapa löytää etäisyys. Meidän on muistettava, että mallin mfcc-vektori on itse asiassa kehyksistä saatu Mfcc- "alivektoreiden" sekvenssi, jonka dimensio on M. Joten DTW-algoritmin pitäisi löytää näiden samojen M-mitan "alivektorien" sekvenssien välinen etäisyys. Eli etäisyysmatriisin arvoina tulisi käyttää etäisyyksiä (euklidisia) kehysten mfcc "alivektorien" välillä.

Kokeilut

Minulla ei ollut mahdollisuutta testata tämän lähestymistavan toimintaa suurella "koulutus"-näytteellä. Testien tulokset 3 esiintymän otoksella jokaiselle sanalle ei-synteettisissä olosuhteissa osoittivat lievästi sanottuna ei parasta tulosta - 65% oikeista tunnistuksista.

Tavoitteenani oli kuitenkin luoda yksinkertaisin sovellus puheentunnistukseen. Niin sanotusti "proof of concept" :) Lisää tunnisteita