Konelingvistiikka. Laskennallisen lingvistiikan historia, kehitys ja muodostuminen tieteellisenä suunnana

Filologia lukio Taloustiede, uusi laskennalliseen lingvistiikkaan omistettu maisteriohjelma käynnistetään: siihen ovat tervetulleita humanitaarisen ja matemaattisen peruskoulutuksen omaavat hakijat sekä kaikki, jotka ovat kiinnostuneita ongelmien ratkaisemisesta jollakin lupaavimmista tieteenaloista. Sen johtaja Anastasia Bonch-Osmolovskaja kertoi teorialle ja käytännölle, mitä laskennallinen lingvistiikka on, miksi robotit eivät korvaa ihmisiä ja mitä ne opettavat HSE:n maisterin tutkinto laskennallisessa lingvistiikassa.

Tämä ohjelma on lähes ainoa laatuaan Venäjällä. Missä itse opiskelet?

Opiskelin Moskovan valtionyliopistossa teoreettisen ja soveltavan kielitieteen laitoksella Filologian tiedekunta. En päässyt sinne heti, ensin menin sisään Venäjän haara, mutta sitten innostuin vakavasti kielitieteestä, ja minua veti puoleensa laitoksella tähän päivään asti vallitseva ilmapiiri. Tärkeintä on hyvä kontakti opettajien ja opiskelijoiden välillä ja molemminpuolinen kiinnostus.

Kun minulla oli lapsia ja minun piti ansaita elantoni, menin kaupallisen kielitieteen alalle. Vuonna 2005 ei ollut kovin selvää, mitä tämä toiminta-ala sinänsä oli. Työskentelin eri kielialan yrityksissä: aloitin pienen yrityksen kanssa Public.ru-verkkosivustolla - tämä on sellainen mediakirjasto, jossa aloin työskennellä kielitekniikoiden parissa. Sitten työskentelin vuoden Rosnanotechilla, jossa minulla oli idea tehdä analyyttinen portaali, jotta sen tiedot rakentuisivat automaattisesti. Sitten johdin Avicomp-yhtiön kieliosastoa - tämä on jo vakavaa tuotantoa alalla laskennallinen lingvistiikka ja semanttiset teknologiat. Samaan aikaan opetin laskennallisen lingvistiikan kurssia Moskovan valtionyliopistossa ja yritin tehdä siitä nykyaikaisempaa.

Kaksi resurssia kielitieteilijälle: - lingvistien luoma sivusto venäjän kieleen liittyvää tieteellistä ja soveltavaa tutkimusta varten. Tämä on venäjän kielen malli, joka esitetään valtavan valikoiman tekstejä eri genreistä ja aikakausista. Tekstit on varustettu kielellisillä merkinnöillä, joiden avulla voidaan saada tietoa tiettyjen kielellisten ilmiöiden esiintymistiheydestä. Wordnet - valtava leksikaalinen tietokanta englannin kielestä, pääidea Wordnet - yhdistää ei sanoja, vaan niiden merkityksiä yhdeksi suureksi verkostoksi. Wordnetin voi ladata ja käyttää omiin projekteihin.

Mitä laskennallinen lingvistiikka tekee?

Tämä on monitieteisin ala. Tärkeintä tässä on ymmärtää, mitä sähköisessä maailmassa tapahtuu ja kuka auttaa sinua tekemään tiettyjä asioita.

Meitä ympäröi suuri määrä digitaalista tietoa, on monia yritysprojekteja, joiden menestys riippuu tiedon käsittelystä, nämä projektit voivat liittyä markkinointiin, politiikkaan, talouteen ja mihin tahansa. Ja on erittäin tärkeää pystyä käsittelemään näitä tietoja tehokkaasti - tärkeintä ei ole vain tietojen käsittelyn nopeus, vaan myös helppous, jolla voit kohinan suodattamisen jälkeen saada tarvitsemasi tiedot ja luoda koko kuva heiltä.

Aiemmin joitakin globaaleja ideoita liitettiin laskennalliseen lingvistiikkaan, esimerkiksi: ihmiset luulivat, että konekäännös korvaisi ihmisen käännöksen, robotit toimisivat ihmisten sijaan. Mutta nyt se näyttää utopialta, ja hakukoneissa käytetään konekäännöstä nopeaan hakuun vieraalla kielellä. Eli nykyään kielitiede käsittelee harvoin abstrakteja tehtäviä - enimmäkseen pieniä asioita, jotka voidaan lisätä suureen tuotteeseen ja ansaita sillä rahaa.

Yksi suuria tehtäviä moderni kielitiede - semanttinen verkko, jossa haku ei tapahdu vain sanojen sattuman, vaan merkityksen perusteella, ja kaikki sivustot on jotenkin merkitty semantiikan avulla. Tästä voi olla hyötyä esimerkiksi poliisin tai lääkärinlausuntojen yhteydessä, joita kirjoitetaan päivittäin. Sisäisten yhteyksien analyysi antaa paljon tarpeellista tietoa, ja sen manuaalinen lukeminen ja laskeminen on uskomattoman pitkä.

Lyhyesti sanottuna meillä on tuhat tekstiä, meidän on lajiteltava ne pinoihin, esitettävä jokainen teksti rakenteena ja saatava taulukko, jonka kanssa voimme jo työskennellä. Tätä kutsutaan jäsentämättömäksi tiedonkäsittelyksi. Toisaalta laskennallinen lingvistiikka käsittelee esimerkiksi keinotekoisten tekstien luomista. Eräs yritys keksi mekanismin tekstien tuottamiseksi aiheista, joista kirjoittaminen on tylsää: kiinteistöjen hintojen muutokset, sääennusteet, raportti jalkapallo-ottelut. Näiden tekstien tilaaminen ihmiselle on paljon kalliimpaa, lisäksi tietokonetekstit tällaisista aiheista kirjoitetaan johdonmukaisella ihmiskielellä.

Kehitys jäsentelemättömän tiedon haun alalla Venäjällä on aktiivisesti mukana "Yandexin", "Kaspersky Labin" palkkaamisessa tutkimusryhmiä jotka opiskelevat koneoppiminen. Yrittääkö joku markkinoilla keksiä jotain uutta laskennallisen lingvistiikan alalla?

**Kirjoja laskennallisesta lingvistiikasta:**

Daniel Jurafsky, puheen ja kielenkäsittely

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Johdatus tiedonhakuun

Jacob Testelec, "Johdatus yleiseen syntaksiin"

Suurin osa kielellisistä kehityshankkeista on suurten yritysten omaisuutta, josta ei löydy juuri mitään avoin pääsy. Tämä haittaa alan kehitystä, meillä ei ole vapaita kielimarkkinoita, laatikoituja ratkaisuja.

Lisäksi täydellisyydestä puuttuu tietoresurssit. On olemassa sellainen hanke kuin Venäjän kielen kansallinen korpus. Tämä on yksi maailman parhaista kansalliskokouksista, joka kehittyy nopeasti ja avaa uskomattomia mahdollisuuksia tieteelliselle ja soveltava tutkimus. Ero on suunnilleen sama kuin biologiassa - ennen ja jälkeen DNA-tutkimuksen.

Mutta monia resursseja ei ole olemassa venäjäksi. Joten ei ole analogia niin upealle englanninkieliselle resurssille kuin Framenet - tämä on sellainen käsitteellinen verkosto, jossa tietyn sanan kaikki mahdolliset yhteydet muihin sanoihin esitetään muodollisesti. Esimerkiksi on sana "lentää" - kuka voi lentää, missä, millä tekosyyllä tätä sanaa käytetään, mihin sanoihin se yhdistetään ja niin edelleen. Tämä resurssi auttaa yhdistämään kielen oikea elämä, eli jäljittää, kuinka tietty sana käyttäytyy morfologian ja syntaksin tasolla. Se on erittäin hyödyllistä.

Avicomp kehittää parhaillaan laajennusta aiheeseen liittyvien artikkeleiden etsimiseen. Eli jos olet kiinnostunut jostakin artikkelista, näet nopeasti juonen historian: milloin aihe syntyi, mitä kirjoitettiin ja milloin oli tämän ongelman kiinnostuksen huippu. Esimerkiksi käyttämällä tätä laajennusta Syyrian tapahtumia käsittelevästä artikkelista alkaen on mahdollista nähdä hyvin nopeasti, kuinka viime vuonna siellä tapahtui tapahtumia.

Miten maisteriohjelman oppimisprosessi rakennetaan?

HSE:n koulutus on organisoitu erillisiksi moduuleiksi - kuten länsimaiset yliopistot. Opiskelijat jaetaan pieniin ryhmiin, mini-startuppeihin - eli lopussa pitäisi saada useita valmiit projektit. Haluamme saada aitoja tuotteita, jotka sitten avataan ihmisille ja jätetään julkisuuteen.

Opiskelijaprojektien suorien ohjaajien lisäksi haluamme löytää heille kuraattorit heidän keskuudestaan mahdollisia työnantajia- esimerkiksi samasta "Yandexistä", joka myös pelaa tätä peliä ja antaa opiskelijoille neuvoja.

Toivon, että ihmiset eniten eri alueita: ohjelmoijat, lingvistit, sosiologit, markkinoijat. Järjestämme useita kielitieteen, matematiikan ja ohjelmoinnin sopeutumiskursseja. Sitten meillä on kaksi vakavaa kielitieteen kurssia, ja ne yhdistetään tärkeimpiin kielelliset teoriat, haluamme valmistuneiden pystyvän lukemaan ja ymmärtämään nykyaikaisia ​​kielitieteellisiä artikkeleita. Sama on matematiikan kanssa. Meillä on kurssi nimeltä "Laskennallisen kielitieteen matemaattiset perusteet", joka esittelee ne matematiikan osat, joihin nykyaikainen laskennallinen lingvistiikka perustuu.

Jotta voit ilmoittautua maisteriohjelmaan, sinun on läpäistävä pääsykoe kielessä ja läpäise portfoliokilpailu.

Pääkurssien lisäksi tulee olemaan valinnaisia ​​aineita, joista olemme suunnitelleet useita syklejä, joista kaksi keskittyy yksittäisten aiheiden syvempään opiskeluun, joihin kuuluvat mm. konekäännös ja korpuslingvistiikka sekä mm. päinvastoin, yksi liittyy aihealueisiin: kuten , sosiaaliset verkostot, koneoppiminen tai Digital Humanities - kurssi, jonka toivomme englannin kielellä.

Tietokonelingvistit harjoittavat tekstin ja puheentunnistusalgoritmien kehittämistä, keinopuheen synteesiä, semanttisten käännösjärjestelmien luomista ja tekoälyn kehittämistä (sanan klassisessa merkityksessä ihmisälyn korvikkeena, se tuskin koskaan ilmestyy, mutta erilaisia ​​tietoanalyysiin perustuvia asiantuntijajärjestelmiä).

Puheentunnistusalgoritmeja käytetään yhä enemmän jokapäiväisessä elämässä - älykodeissa ja elektronisissa laitteissa ei ole kaukosäätimiä ja painikkeita, vaan niiden tilalle tulee puherajapinta. Tätä tekniikkaa kehitetään parhaillaan, mutta haasteita on vielä monia: tietokoneen on vaikea tunnistaa ihmisen puhetta, koska eri ihmiset puhuvat hyvin eri tavalla. Siksi tunnistusjärjestelmät toimivat yleensä hyvin joko silloin, kun ne on koulutettu yhdelle puhujalle ja jo sovitettu hänen ääntämisominaisuuksiinsa tai kun järjestelmän tunnistamien lauseiden määrä on rajoitettu (kuten esimerkiksi television äänikomennoissa ).

Semanttisten käännösohjelmien luomisen asiantuntijoilla on vielä paljon työtä edessään: Tämä hetki hyviä algoritmeja kehitetään vain kääntämiseen englanniksi ja englannista. Tässä on monia ongelmia - eri kielet on järjestetty eri tavalla semanttisessa suunnitelmassa, tämä eroaa jopa lauserakenteen tasolla, eikä kaikkia yhden kielen merkityksiä voida välittää toisen semanttisella laitteistolla. Lisäksi ohjelman on erotettava homonyymit, tunnistettava oikein puheen osat, valittava oikea arvo kontekstiin sopiva polysemanttinen sana.

Keinotekoisen puheen syntetisointi (esimerkiksi kotiroboteille) on myös vaivalloista työtä. Keinotekoisesti luotua puhetta on vaikea saada kuulostamaan luonnolliselta ihmisen korva, koska on miljoonia vivahteita, joihin emme kiinnitä huomiota, mutta joita ilman kaikki ei ole enää "se" - väärät käynnistykset, tauot, kiinnitykset jne. Puhevirta on jatkuvaa ja samalla diskreettiä: puhumme ilman taukoa sanojen välillä, mutta meidän ei ole vaikea ymmärtää, missä yksi sana päättyy ja toinen alkaa, ja koneelle tämä on suuri ongelma.

Laskennallisen lingvistiikan suurin suunta liittyy Big Dataan. Onhan olemassa valtavia tekstikokonaisuuksia, kuten uutissyötteitä, joista täytyy eristää tiettyjä tietoja - esimerkiksi korostaa uutisarvoisia tapahtumia tai terävöittää RSS:ää tietyn käyttäjän makuun. Tällaisia ​​teknologioita on jo olemassa ja kehitetään edelleen, koska laskentateho kasvaa nopeasti. Tekstien kielellistä analyysiä käytetään myös turvallisuuden varmistamiseen Internetissä, haussa tarvittavat tiedot erikoispalveluja varten.

Missä opiskella laskennallisena lingvistinä? Meillä on valitettavasti melko vahva jako klassiseen kielitieteeseen ja ohjelmointiin, tilastoihin ja data-analyysiin liittyviin erikoisaloihin. Ja voidaksesi tulla digitaaliseksi lingvisiksi, sinun on ymmärrettävä molemmat. AT ulkomaiset yliopistot laskennallisen lingvistiikan korkeakouluohjelmia on, mutta meillä on edelleen paras vaihtoehto- hanki kielellinen peruskoulutus ja sen jälkeen tietotekniikan perusteet. On hyvä, että nyt on paljon erilaisia ​​verkkokursseja, valitettavasti opiskeluaikanani näin ei ollut. Opiskelin Moskovan valtion kielitieteellisen yliopiston soveltavan kielitieteen tiedekunnassa, jossa meillä oli tekoälyn ja puheentunnistuksen kursseja - mutta ei silti tarpeeksi. Nyt IT-yritykset yrittävät aktiivisesti olla vuorovaikutuksessa instituutioiden kanssa. Pyrimme myös kollegani Kaspersky Labista osallistumaan koulutusprosessi: pidämme luentoja, pidämme opiskelijakonferensseja, jaamme apurahoja jatko-opiskelijoille. Mutta toistaiseksi aloite tulee enemmän työnantajilta kuin yliopistoilta.

KURSSITYÖT

tieteenalalla "informatiikka"

aiheesta: "Tietokonekielitiede"


JOHDANTO

2. Laskennallisen lingvistiikan nykyaikaiset rajapinnat

PÄÄTELMÄ

KIRJALLISUUS


Johdanto

Automatisoidulla tietotekniikalla on tärkeä rooli nyky-yhteiskunnan elämässä. Ajan myötä niiden arvo kasvaa jatkuvasti. Mutta tietotekniikan kehitys on hyvin epätasaista: jos moderni taso tietotekniikka ja viestintävälineet iskevät mielikuvitukseen, niin semanttisen tiedonkäsittelyn alalla onnistumiset ovat paljon vaatimattomampia. Nämä onnistumiset riippuvat ennen kaikkea saavutuksista ihmisen ajatteluprosessien, ihmisten välisen puheviestinnän prosessien tutkimuksessa ja kyvystä simuloida näitä prosesseja tietokoneella.

Mitä tulee lupaavien tietotekniikoiden luomiseen, automaattisen käsittelyn ongelmat tekstitietoa luonnollisilla kielillä esitettävät asiat tulevat esiin. Tämän määrää se tosiasia, että ihmisen ajattelu liittyy läheisesti hänen kieleensä. Lisäksi luonnollinen kieli on ajattelun väline. Hän on myös universaali lääke ihmisten välinen kommunikaatio - keino havainnoida, kerätä, tallentaa, käsitellä ja siirtää tietoa. Luonnollisen kielen käytön ongelmia automaattisissa tiedonkäsittelyjärjestelmissä käsittelee laskennallisen lingvistiikan tiede. Tämä tiede syntyi suhteellisen äskettäin - viime vuosisadan 50- ja 60-luvun vaihteessa. Viimeisen puolen vuosisadan aikana laskennallisen lingvistiikan alalla on saatu merkittäviä tieteellisiä ja käytännön tuloksia: järjestelmät konekäännös tekstit luonnollisesta kielestä toiseen, järjestelmät automaattiseen tiedonhakuun teksteistä, järjestelmät suullisen puheen automaattiseen analysointiin ja synteesiin ja monet muut. Tämä työ on omistettu optimaalisen tietokonerajapinnan rakentamiseen käyttämällä laskennallista lingvistiikkaa suorittaessaan kielellinen tutkimus.


1. Laskennallisen lingvistiikan paikka ja rooli kielitutkimuksessa

AT moderni maailma Laskennallista lingvistiikkaa käytetään yhä enemmän erilaisissa kielitieteellisissä tutkimuksissa.

Laskennallinen lingvistiikka on osaamisala, joka liittyy luonnollisella kielellä esitettävän tiedon automaattisen käsittelyn ongelmien ratkaisemiseen. Keski tieteellisiä ongelmia Laskennallinen lingvistiikka ovat tekstien merkityksen ymmärtämisprosessin mallinnusongelma (siirtymä tekstistä sen merkityksen formalisoituun esitykseen) ja puhesynteesin ongelma (siirtyminen merkityksen formalisoidusta esityksestä luonnollisella kielellä oleviin teksteihin). Nämä ongelmat syntyvät ratkaistaessa useita sovellettavia ongelmia ja erityisesti ongelmia, jotka liittyvät virheiden automaattiseen havaitsemiseen ja korjaamiseen syötettäessä tekstejä tietokoneeseen, suullisen puheen automaattiseen analysointiin ja synteesiin, tekstien automaattiseen kääntämiseen kielestä toiseen, viestintään tietokone luonnollisella kielellä, tekstidokumenttien automaattinen luokittelu ja indeksointi, niiden automaattinen viittaus, asiakirjojen haku kokotekstitietokannoista.

Laskennallisessa lingvistiikassa luodut ja käytetyt kielelliset työkalut voidaan jakaa ehdollisesti kahteen osaan: deklaratiiviseen ja proseduaaliseen. Deklaratiiviseen osaan kuuluvat kielen ja puheyksiköiden sanakirjat, tekstit ja erilaiset kielioppitaulukot, kun taas proseduuriosa sisältää keinoja käsitellä kielen ja puheyksiköitä, tekstejä ja kielioppitaulukoita. Tietokonerajapinnalla tarkoitetaan laskennallisen lingvistiikan proseduuriosaa.

Onnistuminen laskennallisen lingvistiikan sovellettavien ongelmien ratkaisemisessa riippuu ennen kaikkea deklaratiivisten välineiden esitystavan täydellisyydestä ja tarkkuudesta tietokoneen muistissa sekä proseduurien laadusta. Toistaiseksi vaadittua tasoa näiden ongelmien ratkaisemiseksi ei ole vielä saavutettu, vaikkakin laskennallisen lingvistiikan alalla tehdään työtä kehitysmaat maailmassa (Venäjä, USA, Englanti, Ranska, Saksa, Japani jne.).

Siitä huolimatta laskennallisen lingvistiikan alalla voidaan havaita vakavia tieteellisiä ja käytännön saavutuksia. Niinpä useissa maissa (Venäjällä, Yhdysvalloissa, Japanissa jne.) on rakennettu kokeellisia ja teollisia järjestelmiä tekstien konekääntämiseen kielestä toiseen, ja useita kokeellisia järjestelmiä viestintään tietokoneiden kanssa luonnollisella kielellä. , työskennellään terminologisten tietopankkien, tesaurusten, kaksi- ja monikielisten konesanakirjojen (Venäjä, USA, Saksa, Ranska, jne.), suullisen puheen automaattisen analysoinnin ja synteesin järjestelmien luomiseksi (Venäjä, USA, Japani jne.) .), tutkimusta luonnollisten kielten mallien rakentamisen alalla on meneillään.

Tärkeä soveltavan laskennallisen lingvistiikan metodologinen ongelma on automaattisten tekstinkäsittelyjärjestelmien deklaratiivisten ja proseduurikomponenttien välisen tarpeellisen korrelaation oikea arviointi. Mitä pitäisi suosia: tehokkaita laskentaproseduureja, jotka perustuvat suhteellisen pieniin sanastojärjestelmiin, joissa on runsaasti kieliopillista ja semanttista tietoa, vai tehokas deklaratiivinen komponentti suhteellisen yksinkertaisilla tietokoneliitännöillä? Useimmat tutkijat uskovat, että toinen tapa on parempi. Se johtaa käytännön tavoitteiden saavuttamiseen nopeammin, koska tässä tapauksessa on vähemmän umpikujia ja vaikeasti ylitettäviä esteitä, ja täällä on mahdollista käyttää tietokoneita laajemmassa mittakaavassa tutkimuksen ja kehityksen automatisoimiseen.

Puolen vuosisadan kokemus laskennallisen lingvistiikan kehittämisestä vahvistaa ponnistelujen mobilisointitarpeen ensisijaisesti automaattisten tekstinkäsittelyjärjestelmien deklaratiivisen komponentin kehittämiseksi. Loppujen lopuksi täällä, tämän tieteen kiistattomista menestyksestä huolimatta, innostus algoritmisiin toimenpiteisiin ei tuonut odotettua menestystä. Jopa pettymys oli menettelyllisten keinojen mahdollisuuksissa.

Edellä esitetyn valossa tällainen laskennallisen lingvistiikan kehityspolku vaikuttaa lupaavalta, kun pääasialliset ponnistelut suuntautuvat voimakkaiden kielen ja puheen yksiköiden sanakirjojen luomiseen, niiden semanttis-syntaktisen rakenteen tutkimiseen ja kielitaidon luomiseen. perusmenettelyt tekstien morfologiseen, semanttis-syntaktiseen ja käsitteelliseen analyysiin ja synteesiin. Tämä mahdollistaa monenlaisten sovellettavien ongelmien ratkaisemisen tulevaisuudessa.

Laskennallinen lingvistiikka vastaa ennen kaikkea tiedon keruu-, keruu-, käsittely- ja hakuprosessien kielellisen tuen tehtävistä. Tärkeimmät niistä ovat:

1. Konesanakirjojen kokoamisen ja kielellisen käsittelyn automatisointi;

2. Virheiden havaitsemis- ja korjausprosessien automatisointi syötettäessä tekstejä tietokoneelle;

3. Asiakirjojen ja tietopyyntöjen automaattinen indeksointi;

4. Asiakirjojen automaattinen luokittelu ja viittaus;

5. Yksikielisten ja monikielisten tietokantojen tiedonhakuprosessien kielellinen tuki;

6. Tekstien konekääntäminen luonnollisesta kielestä toiseen;

7. Sellaisten kielellisten prosessorien rakentaminen, jotka tarjoavat käyttäjille kommunikoinnin automatisoitujen älykkäiden tietojärjestelmien (erityisesti asiantuntijajärjestelmien) kanssa luonnollisella kielellä tai luonnollisella kielellä;

8. Asiatietojen poimiminen ei-formalisoiduista teksteistä.

Pysähdytään yksityiskohtaisesti tutkimusaiheen kannalta tärkeimpiin ongelmiin.

AT käytännön toimintaa Tietokeskuksissa on tarve ratkaista tekstien automaattisen havaitsemisen ja virheiden korjaamisen ongelma, kun ne syötetään tietokoneeseen. Tämä monimutkainen tehtävä voidaan jakaa ehdollisesti kolmeen tehtävään - tekstien oikeinkirjoituksen, syntaktisen ja semanttisen hallinnan tehtäviin. Ensimmäinen niistä voidaan ratkaista morfologisella analyysimenettelyllä, jossa käytetään melko tehokasta sanarunkojen viitekonesanakirjaa. Oikeinkirjoituksen valvonnassa tekstin sanat alistetaan morfologiselle analyysille, ja jos niiden perusteet tunnistetaan viitesanakirjan perusteisiin, niitä pidetään oikeina; jos niitä ei tunnisteta, ne annetaan mikrokontekstin kera henkilön katseltavaksi. Henkilö havaitsee ja korjaa vääristyneet sanat ja vastaava ohjelmistojärjestelmä tekee nämä korjaukset korjattuun tekstiin.

Tekstien syntaktisen hallinnan tehtävä niissä olevien virheiden havaitsemiseksi on paljon vaikeampi kuin niiden oikeinkirjoituksen valvonta. Ensinnäkin siksi, että sen koostumukseen sisältyy oikeinkirjoituksen valvontatehtävä sen pakollisena osana, ja toiseksi, koska ei-formalisoitujen tekstien syntaktisen analyysin ongelmaa ei ole vielä täysin ratkaistu. Tekstien osittainen syntaktinen hallinta on kuitenkin täysin mahdollista. Tässä on kaksi tapaa: joko koota riittävän edustavia konesanakirjoja viitesyntaktisista rakenteista ja verrata niihin analysoitavan tekstin syntaktisia rakenteita; tai kehittää monimutkainen sääntöjärjestelmä tekstielementtien kieliopillisen johdonmukaisuuden tarkistamiseksi. Ensimmäinen tapa näyttää meistä lupaavammalta, vaikka se ei tietenkään sulje pois mahdollisuutta käyttää toisen tavan elementtejä. Tekstien syntaktinen rakenne tulisi kuvata sanojen kielioppiluokkien avulla (tarkemmin sanoen sanojen kieliopillisten tietojen sarjojen muodossa).

Tekstien semanttisen hallinnan tehtävä niiden semanttisten virheiden havaitsemiseksi tulisi lukea tekoälytehtävien luokkaan. Kokonaisuudessaan se voidaan ratkaista vain ihmisen ajattelun prosessien mallintamisen perusteella. Samaan aikaan ilmeisesti on tarpeen luoda tehokkaita tietosanakirjatietokantoja ja ohjelmistotyökaluja tiedon manipuloimiseksi. Kuitenkin rajoitetuilla aihealueilla ja muodolliselle tiedolle tämä ongelma on varsin ratkaistavissa. Se tulee esittää ja ratkaista tekstien semanttis-syntaktisen ohjauksen tehtävänä.

Asiakirjojen ja kyselyiden indeksoinnin automatisointiongelma on perinteinen automaattisissa tekstihakujärjestelmissä. Aluksi indeksointi ymmärrettiin prosessiksi, jossa asiakirjoille ja kyselyille asetetaan luokitteluindeksit, jotka heijastelevat niiden temaattista sisältöä. Tulevaisuudessa tämä käsite muuttui ja termi "indeksointi" alkoi viitata prosessiin, jossa asiakirja- ja kyselykuvaukset käännetään luonnollisesta kielestä formalisoituun, erityisesti "hakukuvien" kieleen. Asiakirjojen hakukuvia alettiin yleensä laatia avainsana- ja lauseluetteloina, jotka kuvastavat niiden temaattista sisältöä, ja hakukuvia kyselyistä - loogisten rakenteiden muodossa, joissa avainsanat ja lauseet yhdistettiin toisiinsa loogisten ja syntaktisten operaattoreiden avulla.

Asiakirjojen automaattinen indeksointi on kätevää suorittaa niiden tiivistelmien tekstien mukaan (jos sellaisia ​​on), koska asiakirjojen pääsisältö heijastuu tiivistelmiin tiivistetyssä muodossa. Indeksointi voidaan tehdä synonyymisanasto-ohjauksella tai ilman sitä. Ensimmäisessä tapauksessa viitekonesanakirjan avainsanoja ja lauseita etsitään asiakirjan ja sen tiivistelmän otsikkotekstistä ja vain sanakirjasta löytyneet sisällytetään DOD:iin. Toisessa tapauksessa avainsanat ja lauseet poimitaan tekstistä ja sisällytetään POD:iin riippumatta siitä, kuuluvatko ne mihinkään viitesanastoon. Toteutettiin myös kolmas vaihtoehto, jossa AML sisälsi konesanakirjan termien ohella myös asiakirjan otsikosta ja tiivistelmän ensimmäisestä virkkeestä poimitut termit. Kokeet ovat osoittaneet, että POD:t, jotka on käännetty automaattisesti asiakirjojen otsikoiden ja tiivistelmien perusteella, tarjoavat paremman haun kuin manuaalisesti käännetyt POD:t. Tämä selittyy sillä, että automaattinen indeksointijärjestelmä heijastaa täydellisemmin asiakirjojen sisällön eri näkökohtia kuin manuaalinen indeksointijärjestelmä.

Kyselyjen automaattisessa indeksoinnissa syntyy suunnilleen samat ongelmat kuin asiakirjojen automaattisessa indeksoinnissa. Täällä sinun on myös poimittava tekstistä avainsanoja ja lauseita ja normalisoitava kyselytekstiin sisältyvät sanat. Loogiset linkit avainsanojen ja lauseiden välillä sekä kontekstuaaliset operaattorit voidaan syöttää manuaalisesti tai käyttämällä automaattista menettelyä. Tärkeä elementti Kyselyn automaattinen indeksointi on sen avainsanojen ja lauseiden lisääminen synonyymeineen ja hyponyymeineen (joskus myös hypernymejä ja muita kyselyn alkuperäisiin termeihin liittyviä termejä). Tämä voidaan tehdä automaattisesti tai interaktiivisesti käyttämällä konesanakirjaa.

Olemme jo osittain pohtineet dokumenttitiedon haun automatisoinnin ongelmaa automaattisen indeksoinnin tehtävän yhteydessä. Lupaavin tässä on asiakirjojen haku niiden kokotekstien perusteella, koska kaikenlaisten korvikkeiden käyttö tähän tarkoitukseen (bibliografiset kuvaukset, hakukuvat asiakirjoista ja niiden tiivistelmien tekstit) johtaa tiedon menettämiseen haun aikana. Suurimmat menetykset syntyvät, kun niiden bibliografisia kuvauksia käytetään korvaamaan perusasiakirjoja, pienimmät - kun käytetään tiivistelmiä.

Tärkeitä ominaisuuksia Tiedonhaun ominaisuuksia ovat sen täydellisyys ja tarkkuus. Haun täydellisyys voidaan varmistaa ottamalla mahdollisimman paljon huomioon paradigmaattiset yhteydet kielen ja puheen yksiköiden (sanojen ja lauseiden) välillä ja tarkkuus - ottamalla huomioon niiden syntagmaattiset linkit. On olemassa mielipide, että haun täydellisyys ja tarkkuus liittyvät käänteisesti: toimenpiteet yhden näistä ominaisuuksista parantamiseksi johtavat toisen huononemiseen. Mutta tämä pätee vain kiinteään hakulogiikkaan. Jos tätä logiikkaa parannetaan, voidaan molempia ominaisuuksia parantaa samanaikaisesti.

Tietojen hakuprosessi kokotekstitietokannoista tulisi rakentaa käyttäjän ja tiedonhakujärjestelmän (IPS) väliseksi vuorovaikutteiseksi kommunikaatioprosessiksi, jossa hän etsii peräkkäin tekstinpätkät (kappaleet, kappaleet), jotka tyydyttävät. loogisia ehtoja pyynnöstä ja valitsee häntä kiinnostavat. Lopulliset hakutulokset voidaan antaa muodossa kokonaisia ​​tekstejä asiakirjoja sekä niiden fragmentteja.

Kuten edellisistä pohdinnoista voidaan nähdä, automaattisessa tiedonhaussa on ylitettävä se kielimuuri, joka syntyy käyttäjän ja IPS:n välille johtuen teksteissä esiintyvistä saman merkityksen esitysmuodoista. Tämä este tulee vieläkin merkittävämmäksi, jos joudut hakemaan monikielisistä tietokannoista. Ongelman kardinaalinen ratkaisu tässä voi olla asiakirjojen tekstien konekäännös kielestä toiselle. Tämä voidaan tehdä joko etukäteen, ennen asiakirjojen lataamista hakukoneeseen tai tiedonhaun aikana. AT viimeinen tapaus käyttäjän kysely on käännettävä sen asiakirjajoukon kielelle, jolla haku suoritetaan, ja hakutulokset kyselyn kielelle. Sellaisia hakukoneet toimii jo Internetissä. VINITI RAS:iin rakennettiin myös kyrillinen selainjärjestelmä, jonka avulla englanninkielisiin kyselyihin voidaan hakea tietoa venäjänkielisistä teksteistä ja hakutulokset näkyvät myös käyttäjän kielellä.

Laskennallisen lingvistiikan tärkeä ja lupaava tehtävä on sellaisten kielellisten prosessorien rakentaminen, joiden avulla käyttäjät voivat kommunikoida älykkäiden automatisoitujen tietojärjestelmien (erityisesti asiantuntijajärjestelmien) kanssa luonnollisella tai luonnollista kielellä. Koska nykyaikaisissa älyjärjestelmissä tietoa säilytetään formalisoidussa muodossa, ihmisen ja tietokoneen välillä välittäjinä toimivien kielellisten prosessorien on ratkaistava seuraavat päätehtävät: 1) tehtävä siirtyä syöttötietopyyntöjen ja -sanomien tekstistä luonnollisella kielellä. niiden merkityksen esittämiseen formalisoidulla kielellä (syötettäessä tietoja tietokoneeseen); 2) tehtävä siirtyä ulostuloviestien merkityksen formalisoidusta esityksestä sen esittämiseen luonnollisella kielellä (kun tietoa annetaan henkilölle). Ensimmäinen tehtävä tulee ratkaista tulopyyntöjen ja viestien morfologisella, syntaktisella ja käsitteellisellä analyysillä, toinen - lähtöviestien käsitteellisellä, syntaktisella ja morfologisella synteesillä.

Tietopyyntöjen ja viestien käsitteellinen analyysi koostuu niiden käsitteellisen rakenteen (käsitteiden nimien rajat ja käsitteiden väliset suhteet tekstissä) tunnistamisesta ja tämän rakenteen kääntämisestä formalisoidulle kielelle. Se suoritetaan pyyntöjen ja viestien morfologisen ja syntaktisen analyysin jälkeen. Viestien käsitteellinen synteesi koostuu siirtymisestä niiden rakenteen elementtien esittämisestä formalisoidulla kielellä verbaaliseen (verbaaliseen) esitykseen. Tämän jälkeen viestit saavat tarvittavan syntaktisen ja morfologisen suunnittelun.

Tekstien konekääntämiseen luonnollisesta kielestä toiseen tarvitaan sanakirjat käsitteiden nimien välisistä käännösvastaavuuksista. Useat sukupolvet keräsivät tietoa tällaisista käännösvastaavuuksista, ja ne julkaistiin erikoispainosten - kaksikielisten tai monikielisten sanakirjojen - muodossa. Vieraita kieliä jossain määrin osaaville asiantuntijoille nämä sanakirjat toimivat arvokkaana apuvälineenä tekstien kääntämisessä.

Perinteisissä kaksi- ja monikielisissä sanakirjoissa yleinen tarkoitus siirtoekvivalentit osoitettiin pääasiassa yksittäisiä sanoja, lauseille - paljon harvemmin. Ilmaisujen käännösvastineiden ilmoittaminen oli tyypillisempää erityisille terminologisille sanakirjoille. Siksi oppilailla oli usein vaikeuksia kääntäessään polysemanttisia sanoja sisältäviä tekstiosia.

Alla on käännösvastaavuuksia useiden englannin ja venäjän lauseparien välillä "koulu"-aiheista.

1) Lepakko näyttää hiireltä, jolla on siivet - Lepakko näyttää hiireltä, jolla on siivet.

2) Lapset haluavat leikkiä hiekkarannalla - Lapset rakastavat leikkiä hiekkarannalla.

3) Sadepisara putosi käteeni - Sadepisara putosi käteeni.

4) Kuiva puu palaa helposti - kuiva puu palaa hyvin.

5) Hän teeskenteli, ettei hän kuule minua - Hän teeskenteli, ettei hän kuule minua.

Tässä englanninkieliset lauseet eivät ole idiomaattisia ilmaisuja. Niiden venäjänkielistä käännöstä voidaan kuitenkin pitää vain jossain määrin yksinkertaisena sanasta sanaan -käännöksenä, koska lähes kaikki niihin sisältyvät sanat ovat monisanaisia. Siksi vain laskennallisen lingvistiikan saavutukset voivat auttaa opiskelijoita täällä.

Artikkelin sisältö

ATK-KIELIT, soveltavan kielitieteen suuntaa, joka keskittyy tietokonetyökalujen käyttöön - ohjelmiin, tietoteknologioihin tiedon organisointiin ja käsittelyyn - kielen toiminnan mallintamiseen tietyissä olosuhteissa, tilanteissa, ongelma-alueilla jne. sekä koko tietokoneen laajuuteen. kielimallit kielitieteessä ja liittyviä tieteenaloja. Itse asiassa vain jälkimmäisessä tapauksessa puhutaan soveltavasta lingvistiikasta suppeassa merkityksessä, koska kielen tietokonemallinnusta voidaan pitää myös tietojenkäsittelytieteen ja ohjelmointiteorian sovellusalueena kielitieteen ongelmien ratkaisemisessa. Käytännössä kuitenkin lähes kaikkea, mikä liittyy tietokoneiden käyttöön kielitieteessä, kutsutaan laskennalliseksi lingvistiikaksi.

Tieteellisenä erityissuuntauksena laskennallinen lingvistiikka muotoutui 1960-luvulla. Venäjänkielinen termi "laskennallinen lingvistiikka" on englanninkielisen laskennallisen lingvistiikan jäljityspaperi. Koska venäjän kielen adjektiivi laskennallinen voidaan kääntää myös "laskennalliseksi", löytyy myös käsite "laskennallinen lingvistiikka" kirjallisuudesta, mutta venäläisessä tieteessä se saa suppeamman merkityksen ja lähestyy käsitettä "kvantitatiivinen kielitiede". Julkaisuvirta tällä alalla on erittäin suuri. Paitsi temaattisia kokoelmia, Yhdysvalloissa Computational Linguistics -lehti julkaistaan ​​neljännesvuosittain. Loistava organisaatio ja tieteellistä työtä sen suorittaa Computational Linguistics Association, jolla on alueelliset rakenteet (erityisesti Euroopan haara). Joka toinen vuosi järjestetään kansainvälisiä laskennallisen lingvistiikan konferensseja - COLING. Olennaisia ​​aiheita esitellään yleensä laajasti myös erilaisissa tekoälyn konferensseissa.

Laskennallisen lingvistiikan työkalupakki.

Laskennallinen lingvistiikka erityisenä soveltavana tieteenalana erottuu ensisijaisesti työkalustaan ​​- ts. tietokonetyökalujen käytöstä kielitietojen käsittelyssä. Koska tietokoneohjelmat, joka mallintaa tiettyjä kielen toiminnan näkökohtia, voi käyttää eniten erilaisia ​​keinoja ohjelmointia, silloin ei näytä olevan tarvetta puhua laskennallisen lingvistiikan yleisestä käsitelaitteistosta. Se ei kuitenkaan ole. Yleisiä periaatteita on olemassa tietokonesimulaatio ajattelua, jotka on jollain tavalla toteutettu missä tahansa tietokonemallissa. Ne perustuvat tietoteoriaan, joka kehitettiin alun perin tekoälyn alalla ja josta tuli myöhemmin yksi kognitiivisen tieteen osa-alueista. Tärkein käsitteelliset luokat laskennallinen lingvistiikka ovat sellaisia ​​tietorakenteita kuin "kehykset" (käsitteelliset tai, kuten sanotaan, käsitteelliset rakenteet tiedon deklaratiiviselle esittämiselle tyypillisestä temaattisesti yhtenäisestä tilanteesta), "skenaariot" (käsitteelliset rakenteet stereotyyppisen tiedon proseduaaliseen esittämiseen tilanne tai stereotyyppinen käyttäytyminen), "suunnitelmat" (tietorakenteet, jotka vahvistavat ajatuksia aiheesta mahdollisia toimia joka johtaa saavutukseen tietty tarkoitus). Käsite "kohtaus" liittyy läheisesti kehyksen luokkaan. Kohtauskategoriaa käytetään pääasiassa laskennallisen lingvistiikan kirjallisuudessa käsitteellisen rakenteen nimityksenä puheaktiossa aktualisoituneiden ja kielellisin keinoin (lekseemit, syntaktiset rakenteet, kielioppikategoriat jne. .).

Tietyllä tavalla järjestetty tietorakenteiden joukko muodostaa kognitiivisen järjestelmän ja sen tietokonemallin "maailman mallin". Tekoälyjärjestelmissä maailmanmalli muodostaa erityisen lohkon, joka voi valitusta arkkitehtuurista riippuen sisältää yleistieto maailmasta (yksinkertaisten ehdotusten muodossa, kuten "talvella on kylmä" tai tuotantosääntöjen muodossa "jos ulkona sataa, sinun on puettava sadetakki päälle tai otettava sateenvarjo"), joitain erityisiä faktoja ("The maailman korkein huippu on Everest"), ja myös arvot ja niiden hierarkiat, jotka on joskus erotettu erityisestä "aksiologisesta lohkosta".

Suurin osa laskennallisen lingvistiikan työkalujen käsitteiden elementeistä on homonyymejä: ne osoittavat samanaikaisesti joitain ihmisen kognitiivisen järjestelmän todellisia kokonaisuuksia ja niiden teoreettisessa kuvauksessa ja mallintamisessa käytettyjä tapoja esittää näitä kokonaisuuksia. Toisin sanoen elementit käsitteellinen laitteisto laskennallisessa lingvistiikassa on ontologisia ja instrumentaalisia puolia. Esimerkiksi ontologisessa mielessä deklaratiivisen ja proseduaalisen tiedon erottelu vastaa eri tyyppejä tieto, joka henkilöllä on - niin sanottu tieto MITÄ (deklaratiivinen; esimerkiksi tieto postiosoite joistakin NN:stä) ja toisaalta tieto MITEN (menettelyllinen; esimerkiksi tieto, jonka avulla voit löytää tämän NN:n asunnon, vaikka tietäisit sen muodollista osoitetta) - toisaalta. Instrumentaalisesti tieto voi ilmetä kuvausten (kuvausten) joukossa, toisaalta tietojoukossa ja algoritmissa, ohjeessa, jonka tietokone tai jokin muu kognitiivisen järjestelmän malli suorittaa. muu.

Laskennallisen lingvistiikan suunnat.

CL:n ala on hyvin monipuolinen ja sisältää sellaiset osa-alueet kuin viestinnän tietokonemallinnus, juonirakenteen mallintaminen, tekstin esittämisen hypertekstitekniikat, konekäännös, tietokoneleksikografia. AT suppea merkitys CL-kysymykset liitetään usein poikkitieteelliseen soveltamisalueeseen, jonka nimi on hieman valitettava "luonnollisen kielen käsittely" (käännös englanninkielisestä termistä Natural Language Processing). Se syntyi 1960-luvun lopulla ja kehittyi tieteen ja teknologian tieteenalan "tekoäly" puitteissa. Omalla tavallaan sisäinen muoto Ilmaus "luonnollinen kielenkäsittely" kattaa kaikki alueet, joilla tietokoneita käytetään kielitietojen käsittelyyn. Samaan aikaan tämän termin kapeampi ymmärrys on vakiintunut käytännössä - menetelmien, teknologioiden ja erityisten järjestelmien kehittäminen, jotka varmistavat viestintä henkilön ja tietokoneen välillä luonnollisella tai rajoitetulla luonnollisella kielellä.

"Luonnollisen kielenkäsittelyn" suunnan nopea kehitys osuu 1970-luvulle, mikä liittyi tietokoneiden loppukäyttäjien määrän odottamattomaan eksponentilliseen kasvuun. Koska on mahdotonta opettaa kieliä ja ohjelmointitekniikoita kaikille käyttäjille, on syntynyt ongelma vuorovaikutuksen järjestämisessä tietokoneohjelmien kanssa. Tämän viestintäongelman ratkaisu seurasi kahta pääpolkua. Ensimmäisessä tapauksessa ohjelmointikieliä ja käyttöjärjestelmiä yritettiin mukauttaa loppukäyttäjälle. Tämän seurauksena ilmestyi korkean tason kielet, kuten Visual Basic, sekä käteviä käyttöjärjestelmiä, jotka on rakennettu ihmisille tuttujen metaforien käsitteelliseen tilaan - DESK, LIBRARY. Toinen tapa on kehittää järjestelmiä, jotka mahdollistaisivat vuorovaikutuksen tietyllä ongelma-alueella olevan tietokoneen kanssa luonnollisella kielellä tai jollain sen rajoitetulla versiolla.

Luonnollisen kielen käsittelyjärjestelmien arkkitehtuuri sisältää yleensä analyysiyksikön ääniviesti käyttäjä, viestin tulkintalohko, lohko vastauksen merkityksen generoimiseksi ja lohko lausuman pintarakenteen syntetisoimiseksi. Erityinen osa järjestelmää on dialogikomponentti, joka sisältää dialogistrategiat, näiden strategioiden soveltamisen ehdot, keinot ylittää mahdolliset viestintähäiriöt (viestintäprosessin epäonnistumiset).

Luonnollisen kielen prosessointijärjestelmistä erotetaan yleensä kysymys-vastausjärjestelmät, dialogijärjestelmät ongelmanratkaisu ja yhdistetyt tekstinkäsittelyjärjestelmät. Aluksi kysymys-vastaus-järjestelmiä alettiin kehittää vastauksena huonolaatuinen kyselyiden koodaukset haettaessa tietoa tiedonhakujärjestelmistä. Koska tällaisten järjestelmien ongelma-alue oli hyvin rajallinen, tämä yksinkertaisti jonkin verran algoritmeja kyselyjen kääntämiseksi muodolliseksi kielen esitykseksi ja käänteistä menettelyä muodollisen esityksen muuntamiseksi luonnollisen kielen lauseiksi. Kotimaisesta kehityksestä POET-järjestelmä, jonka on luonut E. V. Popovin johtama tutkijaryhmä, kuuluu tämäntyyppisiin ohjelmiin. Järjestelmä käsittelee venäjänkieliset pyynnöt (pienin rajoituksin) ja syntetisoi vastauksen. Ohjelman lohkokaavio olettaa kaikkien analyysin vaiheiden (morfologinen, syntaktinen ja semanttinen) läpikulku ja niitä vastaavat synteesin vaiheet.

Dialogijärjestelmät ongelmien ratkaisemiseksi, toisin kuin edellisen tyyppiset järjestelmät, pelaavat viestinnässä aktiivinen rooli, koska heidän tehtävänsä on löytää ratkaisu ongelmaan sen tiedon perusteella, joka siinä esitetään, ja sen tiedon perusteella, joka voidaan saada käyttäjältä. Järjestelmä sisältää tietorakenteita, jotka tallentavat tyypillisiä toimintasarjoja ongelmien ratkaisemiseksi tietyllä ongelma-alueella, sekä tietoa tarvittavat resurssit. Kun käyttäjä esittää kysymyksen tai asettaa tietyn tehtävän, vastaava skripti aktivoituu. Jos joitain komentosarjakomponentteja tai resursseja puuttuu, järjestelmä aloittaa tiedonsiirron. Näin toimii esimerkiksi SNUKA-järjestelmä, joka ratkaisee sotilasoperaatioiden suunnittelun ongelmat.

Yhdistetyt tekstinkäsittelyjärjestelmät ovat rakenteeltaan melko erilaisia. Niitä yleinen ominaisuus voidaan pitää tiedon esitysteknologioiden laajana käytönä. Tällaisten järjestelmien tehtävänä on ymmärtää tekstiä ja vastata sen sisältöä koskeviin kysymyksiin. Ymmärtämistä ei pidetä yleismaailmallisena kategoriana, vaan prosessina, jossa tekstistä poimitaan tietoa tietyn kommunikatiivisen tarkoituksen perusteella. Toisin sanoen tekstiä "luetaan" vain sillä oletuksella, että potentiaalinen käyttäjä haluaa tietää siitä. Siten yhdistetyt tekstinkäsittelyjärjestelmät eivät ole suinkaan yleismaailmallisia, vaan ongelmakeskeisiä. Tyypillisiä esimerkkejä esillä olevan tyyppisistä järjestelmistä ovat RESEARCHER- ja TAILOR-järjestelmät, jotka muodostavat yhden ohjelmistopaketti, jonka avulla käyttäjä voi saada tietoa monimutkaisia ​​fyysisiä objekteja kuvaavista patenttien tiivistelmistä.

Laskennallisen lingvistiikan tärkein osa-alue on tiedonhakujärjestelmien (IPS) kehittäminen. Jälkimmäinen syntyi 1950-luvun lopulla ja 1960-luvun alussa vastauksena tieteellisen ja teknisen tiedon määrän voimakkaaseen kasvuun. Tallennetun ja käsitellyn tiedon tyypin sekä haun ominaisuuksien mukaan IPS on jaettu kahteen suureen ryhmään - dokumentaarisiin ja faktoihin. Asiakirjatietojärjestelmät tallentavat asiakirjojen tekstit tai niiden kuvaukset (tiivistelmät, bibliografiset kortit jne.). Faktografinen IPS käsittelee tiettyjen tosiasioiden kuvausta, ei välttämättä tekstimuodossa. Se voi olla taulukoita, kaavoja ja muun tyyppisiä tietojen esitysmuotoja. On myös sekalaisia ​​IPS:itä, jotka sisältävät sekä asiakirjoja että faktatietoja. Tällä hetkellä faktografiset tietojärjestelmät rakennetaan tietokantatekniikoiden (DB) pohjalta. Tiedonhaun mahdollistamiseksi IPS:ssä luodaan erityisiä tiedonhakukieliä, jotka perustuvat tiedonhaun tesaureihin. Tiedonhakukieli on muodollinen kieli, joka on suunniteltu kuvaamaan tiettyjä näkökohtia IPS:ään tallennettujen asiakirjojen sisältösuunnitelmasta ja pyynnöstä. Toimenpidettä asiakirjan kuvaamiseksi tiedonhakukielellä kutsutaan indeksoinniksi. Indeksoinnin tuloksena jokaiselle dokumentille annetaan sen muodollinen kuvaus tiedonhakukielellä - asiakirjan hakukuva. Vastaavasti kysely indeksoidaan, johon kyselyn hakukuva ja hakumääräys kohdistetaan. Tiedonhakualgoritmit perustuvat hakureseptin vertailuun kyselyn hakukuvaan. Asiakirjan myöntämisperuste pyyntöä varten voi olla asiakirjan hakukuvan ja hakumääräyksen täydellinen tai osittainen vastaavuus. Joissakin tapauksissa käyttäjällä on mahdollisuus itse muotoilla myöntämiskriteerit. Tämä määräytyy hänen tiedontarpeensa mukaan. Kuvaavia tiedonhakukieliä käytetään useammin automatisoiduissa IS:issä. Asiakirjan aihetta kuvataan joukolla kuvauksia. Kuvaajina toimivat sanat ja termit, jotka kuvaavat ongelma-alueen yksinkertaisia, melko alkeellisia luokkia ja käsitteitä. Asiakirjan hakukuvaan syötetään yhtä monta kuvaajaa kuin erilaisia ​​aiheita asiakirja vaikuttaa. Kuvaajien määrää ei ole rajoitettu, mikä mahdollistaa dokumentin kuvaamisen moniulotteisena ominaisuusmatriisina. Usein deskriptoritiedon hakukielessä kuvailevien yhdistelmille asetetaan rajoituksia. Tässä tapauksessa voidaan sanoa, että tiedonhakukielellä on syntaksi.

Yksi ensimmäisistä kuvaajakielen kanssa toimivista järjestelmistä oli Amerikkalainen järjestelmä UNITERM luonut M. Taube. Tässä järjestelmässä dokumentin avainsanat, uniterms, toimivat kuvailijoina. Tämän IPS:n erikoisuus on, että alun perin tietokielen sanakirjaa ei asetettu, vaan se syntyi asiakirjan ja kyselyn indeksoinnin yhteydessä. Nykyaikaisten tiedonhakujärjestelmien kehitys liittyy ei-thesaurustyyppisten IPS:ien kehitykseen. Tällainen IPS toimii käyttäjän kanssa rajoitetulla luonnollisella kielellä, ja haku suoritetaan asiakirjojen tiivistelmien teksteistä, niiden bibliografisista kuvauksista ja usein itse asiakirjoista. Indeksointiin ei-thesaurustyyppisessä IPS:ssä käytetään luonnollisen kielen sanoja ja lauseita.

Laskennallisen lingvistiikan alaan voi jossain määrin kuulua hypertekstijärjestelmien luomisen alan töitä, joita pidetään erityisenä tekstin organisointitavana ja jopa yhtä perustavanlaatuisena. uutta lajia teksti, joka vastustaa monilta ominaisuuksiltaan Gutenbergin typografian perinteen mukaista tavanomaista tekstiä. Hypertekstin idea liittyy presidentti F. Rooseveltin tiedeneuvonantajan Vannevar Bushin nimeen. W. Bush perusteli teoreettisesti teknisen järjestelmän "Memex" projektia, jonka avulla käyttäjä voi linkittää tekstejä ja niiden fragmentteja erityyppisillä linkeillä, pääasiassa assosiatiivisten suhteiden avulla. Poissaolo tietokone teknologia vaikeutti hankkeen toteuttamista, koska mekaaninen järjestelmä osoittautui liian monimutkaiseksi käytännön toteutukseen.

Bushin idea 1960-luvulla sai toisen syntymän T. Nelsonin "Xanadu"-järjestelmässä, joka jo omaksui tietotekniikan käytön. "Xanadu" antoi käyttäjälle mahdollisuuden lukea kaikki järjestelmään syötetyt tekstit eri tavoilla Ohjelmisto mahdollisti useissa sarjoissa katseltujen tekstien sekvenssin muistamisen ja melkein minkä tahansa niistä valinnan mielivaltaisena ajankohtana. T. Nelson kutsui hypertekstiksi joukkoa tekstejä ja niitä yhdistäviä suhteita (siirtymien järjestelmä). Monet tutkijat pitävät hypertekstin luomista uuden tiedon aikakauden alkuna, joka on vastakohta painamisen aikakaudelle. Kirjoituksen lineaarisuus, joka ulkoisesti heijastaa puheen lineaarisuutta, osoittautuu peruskategoriaksi, joka rajoittaa ihmisen ajattelua ja tekstin ymmärtämistä. Merkitysmaailma on epälineaarinen, joten semanttisen tiedon pakkaaminen lineaarisessa puhesegmentissä vaatii erityisten "kommunikatiivisten pakettien" käyttöä - jako aiheeseen ja remeen, lausunnon sisältösuunnitelman jakaminen eksplisiittiseksi (lausunto, ehdotus, fokus) ja implisiittiset (oletus, seuraus, diskurssin implikatuuri) kerrokset . Tekstin lineaarisuuden hylkääminen sekä sen esittelyprosessissa lukijalle (eli lukemisessa ja ymmärtämisessä) että synteesiprosessissa edistäisi teoreetikkojen mukaan ajattelun "vapautumista" ja jopa sen syntymistä. sen uusia muotoja.

Tietokonejärjestelmässä hyperteksti esitetään graafina, jonka solmut sisältävät perinteisiä tekstejä tai niiden katkelmia, kuvia, taulukoita, videoita jne. Solmuja yhdistävät erilaiset suhteet, joiden tyypit määrittelevät hypertekstiohjelmiston kehittäjät tai lukija itse. Suhteet määrittelevät potentiaaliset mahdollisuudet liikkumiseen eli hypertekstin läpi navigointiin. Suhteet voivat olla yksi- tai kaksisuuntaisia. Vastaavasti kaksisuuntaiset nuolet sallivat käyttäjän liikkua molempiin suuntiin, kun taas yksisuuntaiset nuolet sallivat käyttäjän liikkua vain yhteen suuntaan. Solmuketju, jonka läpi lukija kulkee katsellessaan tekstin osia, muodostaa polun tai reitin.

Hypertekstin tietokonetoteutukset ovat hierarkkisia tai verkkoja. Hypertekstin hierarkkinen – puumainen – rakenne rajoittaa merkittävästi mahdollisuuksia siirtyä sen komponenttien välillä. Tällaisessa hypertekstissä komponenttien väliset suhteet muistuttavat suvun ja lajin välisiin suhteisiin perustuvan tesaurusen rakennetta. Verkkohypertekstin avulla voit käyttää erityyppisiä suhteita komponenttien välillä, ei rajoitu suku-lajisuhteisiin. Hypertekstin olemassaolotavan mukaan erotetaan staattiset ja dynaamiset hypertekstit. Staattinen hyperteksti ei muutu käytön aikana; siihen käyttäjä voi tallentaa kommenttejaan, mutta ne eivät muuta asian ydintä. Dynaamiselle hypertekstille muutos on normaali olemassaolon muoto. Tyypillisesti dynaamiset hypertekstit toimivat siellä, missä tiedonkulkua on jatkuvasti analysoitava, ts. erilaisissa tietopalveluissa. Hyperteksti on esimerkiksi Arizona Information System (AAIS), jota päivitetään kuukausittain 300–500 tiivistelmällä kuukaudessa.

Luojat voivat aluksi korjata hypertekstielementtien väliset suhteet tai ne voidaan luoda aina, kun käyttäjä käyttää hypertekstiä. Ensimmäisessä tapauksessa puhumme jäykän rakenteen hyperteksteistä ja toisessa tapauksessa pehmeän rakenteen hyperteksteistä. Jäykkä rakenne on teknisesti melko selkeä. Pehmeän rakenteen järjestämisteknologian tulee perustua semanttiseen analyysiin asiakirjojen (tai muiden tietolähteiden) läheisyydestä toisiinsa. Tämä on ei-triviaali laskennallisen lingvistiikan tehtävä. Tällä hetkellä pehmeän rakenteen tekniikoiden käyttö avainsanoissa on yleistä. Siirtyminen solmusta toiseen hypertekstiverkossa tapahtuu avainsanojen etsimisen tuloksena. Koska avainsanajoukko voi vaihdella joka kerta, myös hypertekstin rakenne muuttuu joka kerta.

Hypertekstijärjestelmien rakentamistekniikka ei tee eroa tekstin ja ei-tekstuaalisen tiedon välillä. Samaan aikaan visuaalisen ja äänillisen tiedon (videot, maalaukset, valokuvat, äänitallenteet jne.) sisällyttäminen merkittävä muutos käyttöliittymä ja tehokkaampi ohjelmisto- ja tietokonetuki. Tällaisia ​​järjestelmiä kutsutaan hypermediaksi tai multimediaksi. Multimediajärjestelmien näkyvyys määräsi ennalta niiden laajan käytön koulutuksessa, tietosanakirjojen tietokoneversioiden luomisessa. On esimerkiksi Dorlin Kindersleyn kustantamia kauniisti toteutettuja CD-romeja multimediajärjestelmillä lasten tietosanakirjoihin.

Tietokoneleksikografian puitteissa kehitetään tietoteknisiä tekniikoita sanakirjojen laatimista ja käyttöä varten. Erikoisohjelmilla - tietokannat, tietokoneen arkistokaapit, tekstinkäsittelyohjelmat - voit luoda automaattisesti sanakirjamerkintöjä, tallentaa sanakirjatietoja ja käsitellä niitä. Monet erilaiset tietokoneleksikografiset ohjelmat on jaettu kahteen suureen ryhmään: leksikografisten teosten tukiohjelmat ja erityyppiset automaattiset sanakirjat, mukaan lukien leksikografiset tietokannat. Automaattinen sanakirja on erityisessä konemuodossa oleva sanakirja, joka on suunniteltu käyttäjän tai tietokoneen tekstinkäsittelyohjelman käytettäväksi tietokoneella. Toisin sanoen automaattisten loppukäyttäjien sanakirjojen ja tekstinkäsittelyohjelmien automaattisten sanakirjojen välillä on ero. Loppukäyttäjälle tarkoitetut automaattiset sanakirjat eroavat käyttöliittymän ja sanakirjamerkinnän rakenteen suhteen merkittävästi konekäännösjärjestelmiin, automaattisiin viittausjärjestelmiin, tiedonhakujärjestelmiin jne. kuuluvista automaattisista sanakirjoista. Useimmiten ne ovat tietokoneversioita tunnetuista perinteisistä sanakirjoista. Ohjelmistomarkkinoilla on englannin kielen selittävien sanakirjojen tietokoneanalogeja (automaattinen Webster, Collins-kustantajan automaattinen selittävä englannin sanakirja, automaattinen versio New Largesta englanti-venäjä sanakirja toim. Yu.D. Apresyan ja E.M. Mednikova), on myös tietokoneversio Ožegovin sanakirja. Tekstinkäsittelyohjelmien automaattisia sanakirjoja voidaan kutsua automaattisiksi sanakirjoiksi täsmälleen. Niitä ei yleensä ole tarkoitettu keskivertokäyttäjälle. Niiden rakenteen ominaisuudet, sanastomateriaalin laajuus määritetään niiden kanssa vuorovaikutuksessa olevien ohjelmien avulla.

Juonirakenteen tietokonemallinnus on toinen lupaava suunta laskennallinen lingvistiikka. Juonen rakenteen tutkiminen viittaa rakenteellisen kirjallisuuskritiikin (laajassa merkityksessä), semiotiikan ja kulttuurintutkimuksen ongelmiin. Käytettävissä olevat tietokoneohjelmat juonimallinnukseen perustuvat kolmeen juonen esittämisen perusformalismiin - juonen esityksen morfologisiin ja syntaktisiin suuntiin sekä kognitiiviseen lähestymistapaan. Ajatukset juonirakenteen morfologisesta rakenteesta juontavat juurensa V.Ya. Proppin kuuluisiin teoksiin ( cm.) venäläisestä sadusta. Propp huomasi, että sadun hahmojen ja tapahtumien runsauden vuoksi hahmotoimintojen määrä on rajallinen, ja hän ehdotti laitetta näiden toimintojen kuvaamiseen. Proppin ideat muodostivat perustan TALE-tietokoneohjelmalle, joka simuloi sadun juonen luomista. TALE-ohjelman algoritmi perustuu sadun hahmojen toimintosarjaan. Itse asiassa Propp-funktiot asettavat joukon tyypillisiä tilanteita, jotka on järjestetty empiirisen materiaalin analyysin perusteella. Kytkentäominaisuudet erilaisia ​​tilanteita sukupolven säännöissä määritteli tyypillinen toimintosarja - siinä muodossa, jossa se voidaan määrittää satujen teksteistä. Ohjelmassa tyypilliset toimintosarjat kuvattiin tyypillisiksi tapaamishahmojen skenaarioiksi.

Tekstin juonen syntaktisen lähestymistavan teoreettinen perusta oli "juonen kieliopit" tai "kerronnalliset kieliopit" (tarin kieliopit). Ne ilmestyivät 1970-luvun puolivälissä, kun N. Chomskyn generatiivisen kieliopin ajatukset siirrettiin tekstin makrorakenteen kuvaukseen. Jos generatiivisen kieliopin syntaktisen rakenteen tärkeimmät komponentit olivat verbaaliset ja nominaaliset ryhmät, niin useimmissa juonikielikirjoissa peruselementeiksi nostettiin esittely (asetus), tapahtuma ja episodi. Juonikielioppien teoriassa keskusteltiin laajasti minimaalisuusehdoista eli rajoituksista, jotka määrittelivät juonielementtien sekvenssin tilan normaaliksi juoniksi. Kävi kuitenkin ilmi, että puhtaasti kielelliset menetelmät se on mahdotonta tehdä niin. Monet rajoitukset ovat luonteeltaan sosiokulttuurisia. Piirustuksen kieliopit, jotka eroavat merkittävästi sukupolvipuun kategorioissa, mahdollistivat hyvin rajallisen joukon sääntöjä kerronnan (narratiivisen) rakenteen muuttamiseen.

1980-luvun alussa yksi R. Schenkin opiskelijoista, V. Lenert, osana tietokonejuontigeneraattorin luomista ehdotti alkuperäistä emotionaalisen juoniyksiköiden formalismia (Affective Plot Units), joka osoittautui tehokkaaksi työkaluksi. juonen rakenteen esittämiseen. Vaikka se kehitettiin alun perin tekoälyjärjestelmää varten, tätä formalismia on käytetty puhtaasti teoreettisissa tutkimuksissa. Lehnertin lähestymistavan ydin oli, että juoni kuvattiin peräkkäiseksi muutokseksi hahmojen kognitiivis-emotionaalisissa tiloissa. Lehnertin formalismin painopiste ei siis ole juonen ulkoisissa komponenteissa - näyttelyssä, tapahtumassa, episodissa, moraalissa - vaan sen substantiivisissa ominaisuuksissa. Tässä suhteessa Lehnertin formalismi on osittain paluuta Proppin ajatuksiin.

Laskennalliseen lingvistiikkaan kuuluu myös konekäännös, joka on parhaillaan uudestisyntymässä.

Kirjallisuus:

Popov E.V. Viestintä tietokoneiden kanssa luonnollisella kielellä. M., 1982
Sadur V.G. Ääniviestintä elektronisten tietokoneiden ja niiden kehitysongelmien kanssa. - Kirjassa: Puheviestintä: ongelmat ja näkymät. M., 1983
Baranov A.N. Tekoälyn luokat lingvistisessä semantiikassa. Kehykset ja skriptit. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Viestinnän mallinnus ihmis-kone-järjestelmissä. – Kielellinen tuki tietojärjestelmä. M., 1987
Olker H.R. Satuja, tragedioita ja tapoja esittää maailmanhistoriaa. - Kirjassa: Language and Modeling sosiaalinen vuorovaikutus. M., 1987
Gorodetsky B.Yu. Laskennallinen lingvistiikka: Kieliviestinnän mallinnus
McQueen K. Diskursiiviset strategiat luonnollisen kielen tekstin synteesiin. – Uutta ulkomaisessa kielitieteessä. Ongelma. XXIV, Laskennallinen lingvistiikka. M., 1989
Popov E.V., Preobrazhensky A.B. . NL-järjestelmien toteutuksen piirteitä
Preobrazhensky A.B. Nykyaikaisten NL-järjestelmien kehitysaste. - Tekoäly. Kirja. 1, Viestintäjärjestelmät ja asiantuntijajärjestelmät. M., 1990
Subbotin M.M. Hyperteksti. Uusi muoto kirjallinen viestintä. — VINITI, Ser. Informatiikka, 1994, v. 18
Baranov A.N. Johdatus soveltavaan kielitieteeseen. M., 2000



Termi "laskennallinen lingvistiikka" viittaa yleensä laajaan tietokonetyökalujen - ohjelmien, tietojen organisointiin ja käsittelyyn tarkoitettujen tietokonetekniikoiden - käytön mallintamiseen kielen toiminnan tietyissä olosuhteissa, tilanteissa, ongelma-alueilla sekä laajuudessa. tietokonekielimalleista vain kielitieteessä, mutta myös siihen liittyvillä tieteenaloilla. Itse asiassa vain jälkimmäisessä tapauksessa puhutaan soveltavasta lingvistiikasta suppeassa merkityksessä, koska tietokonekielimallinnusta voidaan pitää myös ohjelmointiteorian (tietotekniikan) sovellusalueena kielitieteen alalla. Siitä huolimatta yleinen käytäntö on sellainen, että laskennallisen lingvistiikan ala kattaa lähes kaiken, mikä liittyy tietokoneiden käyttöön kielitieteessä: "termi" laskennallinen lingvistiikka "asettaa yleisen suuntauksen tietokoneiden käyttöön erilaisten tieteellisten ja käytännön ongelmien ratkaisemiseksi. liittyvät kieleen rajoittamatta millään tavalla tapoja ratkaista näitä ongelmia.

Laskennallisen lingvistiikan institutionaalinen puoli. Tieteellisenä erityissuuntauksena laskennallinen lingvistiikka muotoutui 60-luvulla. Julkaisuvirta tällä alalla on erittäin suuri. Temaattisten kokoelmien lisäksi Computational Linguistics -lehti ilmestyy neljännesvuosittain Yhdysvalloissa. Laajaa organisatorista ja tieteellistä työtä tekee Computational Linguistics Association for Computational Linguistics, jolla on alueellisia rakenteita ympäri maailmaa (erityisesti Euroopan haara). Joka toinen vuosi järjestetään kansainvälisiä laskennallisen lingvistiikan konferensseja - KOLING. Olennaiset kysymykset ovat myös laajasti edustettuina kansainvälisissä tekoälykonferensseissa eri tasoilla.

Laskennallisen lingvistiikan kognitiivinen työkalupakki

Laskennallinen lingvistiikka erityisenä soveltavana tieteenalana erottuu ensisijaisesti työkalustaan ​​- eli tietokonetyökalujen käytöstä kielidatan käsittelyyn. Koska kielen toiminnan tiettyjä puolia mallintavissa tietokoneohjelmissa voidaan käyttää erilaisia ​​ohjelmointityökaluja, ei näytä olevan tarvetta puhua yleisestä metakielestä. Se ei kuitenkaan ole. On olemassa yleisiä ajattelun tietokonemallinnuksen periaatteita, jotka jollain tavalla toteutetaan missä tahansa tietokonemallissa. Tämä kieli perustuu tekoälyssä kehitettyyn tietoteoriaan ja muodostaa tärkeän kognitiivisen tieteen haaran.

Tietoteorian pääteesissä ajattelu on tiedon prosessointi- ja tuottoprosessi. "Tieto" tai "tieto" katsotaan määrittelemättömäksi kategoriaksi. Ihmisen kognitiivinen järjestelmä toimii "prosessorina", joka käsittelee tietoa. Epistemologiassa ja kognitiivisessa tieteessä erotetaan kaksi tiedon päätyyppiä - deklaratiivinen ("tietää mitä") ja proseduaalinen ("tietää miten"2)). Deklaratiivinen tieto esitetään yleensä joukona väitteitä, lausuntoja jostakin. Tyypillinen esimerkki deklaratiivisesta tiedosta on sanojen tulkinta tavallisissa selittävissä sanakirjoissa. Esimerkiksi kuppi] - "pieni pyöreä juomaastia, yleensä kahvalla, valmistettu posliinista, fajanssista jne.". Deklaratiivinen tieto soveltuu todentamismenettelyyn "tosi-epätosi". Proseduuritieto esitetään sarjana (luettelona) toiminnoista, suoritettavista toimista. Tämä on yleisohje toiminnasta tietyssä tilanteessa. Tyypillinen esimerkki menettelytaidosta on kodinkoneiden käyttöohjeet.

Toisin kuin deklaratiivinen tieto, proseduaalista tietoa ei voida varmistaa oikeaksi tai vääräksi. Niitä voidaan arvioida vain algoritmin onnistumisen tai epäonnistumisen perusteella.

Suurin osa laskennallisen lingvistiikan kognitiivisten työkalujen käsitteistä on homonyymejä: ne kuvaavat samanaikaisesti joitain ihmisen kognitiivisen järjestelmän todellisia kokonaisuuksia ja tapoja esittää näitä kokonaisuuksia joissakin metakielissä. Toisin sanoen metakielen elementeillä on ontologinen ja instrumentaalinen puoli. Ontologisesti deklaratiivisen ja proseduaalisen tiedon jako vastaa erityyppisiä tietoja ihmisen kognitiivisesta järjestelmästä. Joten tieto tietyistä objekteista, todellisuuden kohteista on pääosin deklaratiivista, ja ihmisen toiminnalliset kyvyt kävellä, juosta, ajaa autoa realisoituvat kognitiivisessa järjestelmässä proseduuritiedona. Instrumentaalisesti tieto (sekä ontologisesti proseduaalinen että deklaratiivinen) voidaan esittää kuvausten, kuvausten joukkona ja algoritmina, ohjeena. Toisin sanoen ontologisesti deklaratiivinen tieto todellisuusobjektista "taulukko" voidaan esittää proseduaalisesti ohjeiden joukona, algoritmeina sen luomiseksi, kokoamiseksi (= proseduaalitiedon luova puoli) tai algoritmina sen tyypilliseen käyttöön (= toiminnallinen puoli menettelytapojen tuntemus). Ensimmäisessä tapauksessa tämä voi olla opas aloittelevalle kirvesmiehelle ja toisessa kuvaus toimistopöydän mahdollisuuksista. Päinvastoin on myös totta: ontologisesti proseduaalista tietoa voidaan esittää deklaratiivisesti.

Erillistä keskustelua vaatii, voidaanko ontologisesti deklaratiivista tietoa esittää proseduaalina ja mikä tahansa ontologisesti proseduaalinen - deklaratiivisena. Tutkijat ovat yhtä mieltä siitä, että mikä tahansa deklaratiivinen tieto voidaan periaatteessa esittää proseduaalisesti, vaikka tämä voi osoittautua erittäin epätaloudelliseksi kognitiiviselle järjestelmälle. Käänteinen tuskin on totta. Tosiasia on, että deklaratiivinen tieto on paljon selkeämpää, ihmisen on helpompi ymmärtää kuin menettelyllinen tieto. Toisin kuin deklaratiivinen tieto, proseduaalinen tieto on pääasiassa implisiittistä. Joten kielitaito, joka on proseduuritietämys, on piilotettu ihmiseltä, hän ei ymmärrä sitä. Yritys selittää kielen toiminnan mekanismeja johtaa toimintahäiriöön. Leksikaalisen semantiikan asiantuntijat tietävät esimerkiksi, että sanan sisältösuunnitelman tutkimiseen tarvittava pitkäaikainen semanttinen itsetutkiskelu johtaa siihen, että tutkija menettää osittain kyvyn erottaa oikeat ja väärinkäytöksiä analysoitu sana. Muita esimerkkejä voidaan mainita. Tiedetään, että mekaniikan näkökulmasta ihmiskeho on monimutkainen järjestelmä kaksi vuorovaikutuksessa olevaa heiluria.

Tietoteoriassa tietoa tutkitaan ja esitetään käyttäen erilaisia ​​rakenteita tieto - kehykset, skenaariot, suunnitelmat. M. Minskyn mukaan "kehys on tietorakenne, joka on suunniteltu edustamaan stereotyyppistä tilannetta" [Minsky 1978, s. 254]. Yksityiskohtaisemmin voidaan sanoa, että kehys on käsitteellinen rakenne tiedon deklaratiiviselle esitykselle tyypitystä temaattisesti yhtenäisestä tilanteesta, joka sisältää tiettyjen semanttisten suhteiden yhdistämiä aikavälejä. Havainnollistamistarkoituksessa kehys esitetään usein taulukkona, jonka rivit muodostavat rakoja. Jokaisella paikkalla on oma nimi ja sisältö (katso taulukko 1).

pöytä 1

Fragmentti "taulukko" kehyksestä taulukkonäkymässä

Riippuen tietty tehtävä runkorakenne voi olla huomattavasti monimutkaisempaa; kehys voi sisältää sisäkkäisiä alikehyksiä ja viittauksia muihin kehyksiin.

Taulukon sijasta käytetään usein predikaattiesitysmuotoa. Tässä tapauksessa kehys on predikaatin tai argumenteilla varustetun funktion muodossa. On olemassa muita tapoja esittää kehystä. Se voidaan esittää esimerkiksi monikkona seuraavanlaista: ( (kehyksen nimi) (paikan nimi)) (paikan arvo,),..., (paikan nimi n) (paikan arvo n) ).

Tyypillisesti tiedonesityskielten kehyksillä on tämä muoto.

Kuten muutkin laskennallisen lingvistiikan kognitiiviset kategoriat, kehyksen käsite on homonyymi. Ontologisesti se on osa ihmisen kognitiivista järjestelmää, ja tässä mielessä kehystä voidaan verrata sellaisiin käsitteisiin kuin gestalt, prototyyppi, stereotyyppi, kaava. Kognitiivisessa psykologiassa näitä luokkia tarkastellaan juuri ontologisesta näkökulmasta. Joten D. Norman erottaa kaksi päätapaa tiedon olemassaolosta ja organisoinnista ihmisen kognitiivisessa järjestelmässä - semanttiset verkostot ja skeemat. "Kaaviot", hän kirjoittaa, "ovat järjestettyjä tietopaketteja, jotka on koottu edustamaan erillisiä, itsenäisiä tiedon yksiköitä. Kaavioni Samille voi sisältää tietoja, jotka kuvaavat hänen fyysisiä ominaisuuksiaan, toimintaansa ja persoonallisuuspiirteitään. Tämä skeema korreloi muiden skeemojen kanssa. jotka kuvaavat sen muita näkökohtia" [Norman 1998, s. 359]. Jos otamme kehyskategorian instrumentaalisen puolen, tämä on rakenne tiedon deklaratiiviselle esittämiselle. Olemassa olevissa tekoälyjärjestelmissä kehyksiä voi muodostua monimutkaiset rakenteet tieto; kehysjärjestelmät mahdollistavat hierarkian - yksi kehys voi olla osa toista kehystä.

Sisällöllisesti kehyksen käsite on hyvin lähellä tulkinnan kategoriaa. Itse asiassa rako on valenssin analogi, raon täyttö on aktantin analogi. Suurin ero niiden välillä on, että tulkinta sisältää vain kielellisesti relevanttia tietoa sanan sisällön suunnitelmasta, ja kehys ei ensinnäkään välttämättä ole sidottu sanaan, ja toiseksi se sisältää kaikki tiettyyn ongelmaan liittyvät tiedot. tilanne, mukaan lukien ekstralingvistinen (maailmantuntemus) 3).

Skenaario on käsitteellinen kehys stereotyyppisestä tilanteesta tai käyttäytymisestä saadun tiedon proseduaaliseen esittämiseen. Komentosarjaelementit ovat algoritmin tai käskyn vaiheita. Ihmiset puhuvat yleensä "ravintolaskenaariosta", "ostoskenaariosta" ja niin edelleen.

Alun perin kehystä käytettiin myös proseduurin esittämiseen (vrt. termi "menettelykehys"), mutta termiä "skenaario" käytetään nykyään yleisemmin tässä merkityksessä. Skenaario voidaan esittää paitsi algoritmina, myös verkkona, jonka kärjet vastaavat tiettyjä tilanteita ja kaaret vastaavat yhteyksiä tilanteiden välillä. Käsikirjoituksen käsitteen ohella jotkut tutkijat käyttävät käsikirjoituksen luokkaa älykkyyden tietokonemallintamiseen. R. Schenkin mukaan käsikirjoitus on jokin yleisesti hyväksytty, hyvin tunnettu sekvenssi syy-yhteys. Esimerkiksi dialogin ymmärtäminen

Kadulla sataa kuin ämpäri.

Sinun on silti mentävä kauppaan: talossa ei ole mitään - eilen vieraat lakaisivat kaiken.

perustuu ei-eksplisiittisiin semanttisiin yhteyksiin, kuten "jos sataa, ei ole toivottavaa mennä ulos, koska voit sairastua". Nämä yhteydet muodostavat käsikirjoituksen, jota äidinkielenään puhujat käyttävät ymmärtääkseen toistensa verbaalista ja ei-verbaalista käyttäytymistä.

Skenaarion soveltamisen seurauksena tiettyyn ongelmatilanteeseen a suunnitelma). Suunnitelmaa käytetään proseduurillisesti esittämään tietoa mahdollisista toimista, jotka johtavat tiettyyn tavoitteeseen. Suunnitelma yhdistää tavoitteen toimintosarjaan.

Yleisesti ottaen suunnitelma sisältää sarjan toimenpiteitä, jotka siirtävät järjestelmän alkutilan lopulliseen ja johtavat tietyn osatavoitteen ja päämäärän saavuttamiseen. Tekoälyjärjestelmissä suunnitelma syntyy vastaavan moduulin - suunnittelumoduulin - suunnittelun tai suunnittelutoiminnan tuloksena. Suunnitteluprosessi voi perustua yhdestä tai useammasta skenaariosta saatujen tietojen mukauttamiseen testaustoimenpiteiden avulla ongelmatilanteen ratkaisemiseksi. Suunnitelman toteuttamisen suorittaa executive moduuli, joka ohjaa kognitiivisia toimenpiteitä ja fyysisiä toimia järjestelmät. Alkeistapauksessa suunnitelma älykkäässä järjestelmässä on yksinkertainen toimintosarja; monimutkaisemmissa versioissa suunnitelma liittyy tiettyyn aiheeseen, sen resursseihin, kykyihin, tavoitteisiin, yksityiskohtainen tieto ongelmallisesta tilanteesta jne. Suunnitelman syntyminen tapahtuu kommunikaatioprosessissa maailmanmallin, josta osan muodostavat skenaariot, suunnittelumoduulin ja toimeenpanomoduulin välillä.

Toisin kuin skenaario, suunnitelma liittyy tiettyyn tilanteeseen, tiettyyn esiintyjään ja pyrkii tiettyyn päämäärään. Suunnitelman valintaa ohjaavat urakoitsijan resurssit. Suunnitelman toteutettavuus on pakollinen edellytys sen syntymiselle kognitiivisessa järjestelmässä, ja toteutettavuusominaisuus ei sovellu skenaarioon.

Toinen tärkeä käsite- maailman malli. Maailmanmallilla tarkoitetaan yleensä kognitiiviseen järjestelmään tai sen tietokonemalliin ominaista tietyllä tavalla organisoitunutta tietoa maailmasta. Hieman yleisemmässä mielessä maailman mallista puhutaan osana kognitiivista järjestelmää, joka tallentaa tietoa maailman rakenteesta, sen malleista jne. Toisessa mielessä maailman malli liittyy tuloksiin. tekstin tai laajemmin diskurssin ymmärtämisestä. Diskurssin ymmärtämisprosessissa rakennetaan sen mentaalinen malli, joka on tulosta tekstin sisältösuunnitelman ja tähän aiheeseen kuuluvan tiedon vuorovaikutuksesta maailmasta [Johnson-Laird 1988, s. 237 et seq.] . Ensimmäinen ja toinen käsitys yhdistetään usein. Tämä on tyypillistä kognitiivisen kielitieteen ja kognitiivisen tieteen parissa työskenteleville kielitieteilijöille.

Kehyksen luokkaan liittyy läheisesti kohtauksen käsite. Kohtauskategoriaa käytetään kirjallisuudessa pääosin käsitteellisen rakenteen nimityksenä puheaktiossa aktualisoituneiden ja kielellisin keinoin (lekseemit, syntaktiset rakenteet, kielioppikategoriat jne.) korostetun tilanteiden ja niiden osien deklaratiiviseen esittämiseen. Koska kohtaus liittyy kielellisiin muotoihin, se päivittyy usein tietty sana tai ilmaisua. Juonikieliopissa (katso alla) kohtaus näkyy osana jaksoa tai kerrontaa. Tyypillisiä esimerkkejä kohtaukset - sarja kuutioita, joiden kanssa tekoälyjärjestelmä toimii, tarinan kohtaus ja toiminnan osallistujat jne. Tekoälyssä kohtauksia käytetään kuvantunnistusjärjestelmissä sekä tutkimussuuntautuneissa ohjelmissa (analyysi, kuvaus) ongelmatilanteita. Näytelmän käsite on yleistynyt teoreettisessa lingvistiikassa, samoin kuin logiikassa, erityisesti tilannesemantiikassa, jossa leksikaalisen yksikön merkitys liittyy suoraan kohtaukseen.