Tietokonefilologia. Laskennallinen lingvistiikka soveltavana kielen tieteenalana

Kielitiede (lat. lingua -
kieli), kielitiede, kielitiede - tiede,
kielien opiskelua.
Tämä on luonnontiedettä ihmisen kieli yleisesti
ja kaikista maailman kielistä kuin hänen
henkilökohtaiset edustajat.
AT laajassa mielessä sanat, kielitiede
jaettu tieteellisiin ja käytännöllisiin. Useammin
vain kielitiedolla tarkoitetaan tarkasti
tieteellinen kielitiede. Se on osa semiotiikkaa
merkkitiede.
Kielitiedettä harjoittavat ammattimaisesti kielitieteilijät.

Kielitiede ja informatiikka.
Elämässä moderni yhteiskunta tärkeä rooli pelata automaattisesti
tietotekniikka. Mutta kehitystä tietotekniikka th meneillään
erittäin epätasainen: jos moderni taso tietokone Tiede ja
viestintävälineet ovat hämmästyttäviä, niin semanttisen käsittelyn alalla
tiedon menestys on paljon vaatimattomampaa. Nämä onnistumiset riippuvat ensisijaisesti
edistystä prosessien tutkimisessa ihmisen ajattelua, puheprosessit
ihmisten välistä viestintää ja kykyä simuloida näitä prosesseja tietokoneella. Ja tämä on erittäin monimutkainen tehtävä me puhumme lupaavien luomisesta
tietotekniikka, sitten tekstin automaattisen käsittelyn ongelmat
luonnollisilla kielillä esitettävä tieto tulee esiin.
Tämän määrää se tosiasia, että ihmisen ajattelu liittyy läheisesti hänen kieleensä. Lisää
Lisäksi luonnollinen kieli on ajattelun väline. Hän on myös
yleismaailmallinen kommunikaatioväline ihmisten välillä - havainnointiväline,
tietojen kerääminen, tallennus, käsittely ja siirto.
Käyttöongelmat luonnollinen kieli automaattisessa tilassa
Tiedonkäsittely on laskennallisen lingvistiikan tiedettä. Tämä tiede
syntyi suhteellisen äskettäin - 50- ja 60-luvun vaihteessa
viime vuosisadalla. Aluksi muodostumisensa aikana sillä oli erilaisia
otsikot: matemaattinen lingvistiikka, laskennallinen lingvistiikka, tekniikka
kielitiede. Mutta 1980-luvun alussa nimi jäi siihen
tietokonekielitiede.

Laskennallinen lingvistiikka on ongelmanratkaisuun liittyvä tietokenttä
luonnollisella kielellä esitettävän tiedon automaattinen käsittely.
Keski tieteellisiä ongelmia laskennallinen lingvistiikka on ongelma
mallintaa tekstin merkityksen ymmärtämisprosessia (siirtyminen tekstistä toiseen
sen merkityksen formalisoitu esitys) ja puhesynteesin ongelma (siirtymä
formalisoitu merkityksen esittäminen luonnollisen kielen teksteissä). Nämä ongelmat
syntyy, kun ratkaistaan ​​useita sovellettavia ongelmia:
1) automaattinen virheiden havaitseminen ja korjaaminen syötettäessä tekstejä tietokoneelle,
2) automaattinen analyysi ja synteesi suullinen puhe,
3) automaattinen käännös tekstit kielestä toiseen,
4) kommunikointi tietokoneen kanssa luonnollisella kielellä,
5) tekstiasiakirjojen automaattinen luokittelu ja indeksointi, niiden
automaattinen yhteenveto, asiakirjojen etsiminen kokotekstitietokannoista.
Laskennallisen lingvistiikan alalla viimeisen puolen vuosisadan aikana
merkittäviä tieteellisiä ja käytännön tuloksia: konejärjestelmät
tekstien kääntäminen luonnolliselta kieleltä toiselle, automaattinen
tiedon etsiminen teksteistä, järjestelmät suullisen puheen automaattiseen analysointiin ja synteesiin sekä
paljon muita. Mutta oli myös pettymyksiä. Esimerkiksi konekäännösongelma
tekstit kielestä toiseen osoittautuivat paljon vaikeammiksi kuin kuviteltiin
konekäännösten pioneereja ja heidän seuraajiaan. Samaa voidaan sanoa aiheesta
automaattinen tiedonhaku teksteistä ja suullisen analysointi- ja syntetisointitehtävästä
puhetta. Tiedemiesten ja insinöörien on ilmeisesti vielä tehtävä lujasti töitä
saavuttaa halutut tulokset.

Luonnollisen kielen käsittely (eng. luonnollisen kielen käsittely; syntaktinen,
morfologinen, semanttiset analyysit teksti). Tämä sisältää myös:
Korpuslingvistiikka, sähköisten tekstikorpujen luominen ja käyttö
Luominen sähköisiä sanakirjoja, tesaurus, ontologiat. Esimerkiksi Lingvo. Sanakirjat
käytetään esimerkiksi automaattiseen kääntämiseen, oikeinkirjoituksen tarkistamiseen.
Tekstien automaattinen käännös. Suosittu venäjän kääntäjien keskuudessa
on Promt. Tunnettu vapaiden keskuudessa Google kääntäjä Kääntää
Automaattinen tosiasioiden poimiminen tekstistä (informaation purkaminen) (englanniksi fact
poiminta, tekstinlouhinta)
Auto-abstracting (englannin automaattinen tekstin yhteenveto). Tämä ominaisuus on käytössä
esimerkiksi Microsoft Wordissa.
Tiedonhallintajärjestelmien rakentaminen. Katso Asiantuntijajärjestelmät
Kysymys-vastausjärjestelmien luominen (englanniksi question answering systems).
Optinen merkintunnistus (OCR). Esimerkiksi FineReader
Automaattinen puheentunnistus (ASR). On maksullisia ja ilmaisia ​​ohjelmistoja
Automaattinen puhesynteesi

Timofejeva Maria Kirillovna
Lääkäri filologiset tieteet, vanhempi Tutkija Matematiikan instituutin loogisten järjestelmien laboratorio. S.L. Soboleva SB RAS, Novosibirskin valtionyliopiston humanististen tieteiden instituutin perus- ja soveltavan kielitieteen osaston johtaja. Valmistunut matemaattisen kielitieteen laitokselta Humanistinen tiedekunta Novosibirsk valtion yliopisto.
Tutkimusintressit: kielitieteen filosofiset ja metodologiset perusteet, loogisia ongelmia luonnollisen kielen semantiikka ja pragmatiikka, toiminnallinen matemaattiset mallit luonnollinen kieli, luonnolliset ja muodolliset kielet.

Stukachev Aleksei Iljitš
Fysikaalisten ja matemaattisten tieteiden kandidaatti, apulaisprofessori, vanhempi tutkija Matematiikan instituutissa. S.L. Soboleva SB RAS, apulaisprofessori, Diskreetin matematiikan ja informatiikan laitos, Mekaniikan ja matematiikan tiedekunta, NSU, apulaisprofessori, Fundamentaalisen ja soveltavan kielitieteen laitos, Humanististen tieteiden instituutti, NSU
Tieteelliset intressit: matemaattinen logiikka, laskettavuusteoria (yleistetty laskettavuus, laskettavuus sallituissa joukoissa, HF-laskettavuus), malliteoria ( rakentavia malleja, järjestelmien tehokkaat esitykset, edustavuuden asteet), laskennallinen analyysi. Matemaattinen kielitiede Avainsanat: muodollinen semantiikka, Montagu-semantiikka, distributiivinen semantiikka.

Barakhnin Vladimir Borisovich
Laboratorion johtava tutkija tietoresurssit instituutti laskentateknologioita SB RAS, laitoksen professori matemaattinen mallinnus Mekaniikan ja matematiikan tiedekunta, NSU, Informatiikan laitosten professori ja yleistä informatiikkaa Tietotekniikan tiedekunta, Novosibirskin osavaltion yliopisto.
Tutkimusintressit: hajautettujen mallien rakentaminen tietojärjestelmä, algoritmien luominen puolistrukturoitujen tekstiasiakirjojen käsittelyyn, automaatio monimutkainen analyysi runotekstit, informatiikan metodologiset kysymykset.

Bruches Elena Pavlovna
Nimetyn tietotekniikan instituutin jatko-opiskelija. A.P. Ershova SB RAS, Novosibirskin valtionyliopiston humanistisen instituutin perus- ja sovelletun kielitieteen osaston assistentti, laskennallinen lingvisti "OnPositive" -yrityksessä.
Tutkimusintressit: luonnollisen kielen käsittely, koneoppiminen, tekoäly.

Pavlovsky Jevgeni Nikolajevitš
Fysikaalisten ja matemaattisten tieteiden kandidaatti, Novosibirskin alueen hallituksen alaisen nuorten tutkijoiden ja asiantuntijoiden neuvoston jäsen, Novosibirskin Akademgorodokin teknoparkin asiantuntijaneuvoston jäsen, Siperian tietotieteen symposiumin järjestelykomitean puheenjohtaja ja Insinöörikonferenssi.
Ammatillinen tavoite: lähestymistapojen systematisointi liiketoiminnan vaatimusten formalisointiin big data -projekteissa.

Palchunov Dmitri Jevgenievitš
Matematiikan instituutin johtava tutkija. S. L. Soboleva SB RAS, yleisen informatiikan osaston päällikkö, NSU, "Diskreetin matematiikan ja informatiikan instituutti", NSU:n mekaniikka-matematiikan tiedekunta.
Tutkimuskohteet: Boolen algebroiden (I-algebroiden) tutkimuksesta saadaan perustuloksia.

Sviridenko Dmitri Ivanovitš
Venäjän tiedeakatemian Siperian sivuliikkeen matematiikan instituutin ja Novosibirskin valtionyliopiston työntekijä, liikemies, tieto-, viestintä- ja digitaalitekniikan alalla toimivien korkean teknologian yritysten järjestäjä ja osaomistaja. Osallistuu semanttisen mallintamisen tutkimukseen, joka on rahoitettu Venäjän tiedesäätiön apurahalla.
Tutkimusintressit: filosofia, metodologia, sovellettu matemaattinen logiikka. Konseptin kirjoittaja ja matemaattinen teoria semanttinen mallinnus, joka esitettiin yhdessä Venäjän tiedeakatemian akateemikkojen S.S. Goncharovin ja Yu.L. Ershovin kanssa viime vuosisadan 80-luvulla. Tällä hetkellä hän jatkaa aktiivisesti tämän konseptin metodologian ja matemaattisen teorian kehittämistä ja on myös mukana tämän konseptin sovelluksissa eri alueita. Työskentelee semanttisten älysopimusten metodologian, matemaattisen teorian ja kielen luomisessa soveltaen semanttisen mallinnuksen ideoita suhteessa TRIZ:iin ja muihin alueisiin.

Savostyanov Aleksanteri Nikolajevitš
Johtava tutkija Fysiologian tutkimuslaitoksen differentiaalipsykofysiologian laboratoriossa ja peruslääketiede, Venäjän tiedeakatemian Siperian sivuliikkeen sytologian ja genetiikan instituutin psykologisen genetiikan laboratorion johtaja, Novosibirskin valtionyliopiston tietotekniikan tiedekunnan yleisen informatiikan osaston professori, perustieteiden osaston professori ja soveltava kielitiede humanitaarinen instituutti NSU.
Tieteelliset intressit Avainsanat: neurofysiologia, psykogenetiikka, neurolingvistiikka, menetelmät biologisten signaalien tietokonekäsittelyyn. Tutkimuksella pyritään tunnistamaan riskitekijöitä affektiivisten patologioiden syntymiselle ja kehittymiselle ihmisillä riippuen sosiaalisista ja ilmasto-olosuhteet elintärkeää toimintaa. Osana tutkimusta tehdään tutkimusmatkoja Venäjän eri alueille ( Novosibirskin alue, Tyva, Jakutia, Altain tasavalta) ja naapurivaltiot(Mongolia, Kiina) kerätä biologista materiaalia ja erilaisten EEG-tietueiden kokoelmat koeolosuhteet. Tutkimuksen tavoitteena on luoda diagnostisia järjestelmiä, joiden avulla voidaan arvioida ihmisen käyttäytymisen emotionaalisen säätelyn rikkomisen riskiä lisääntyneen stressin olosuhteissa.

TIETOKIELIT (Tice paper Englannin laskennallisesta lingvistiikasta), yksi soveltavan kielitieteen alueista, jossa tutkitaan kieltä ja mallinnetaan kielen toimintaa tietyissä olosuhteissa, tilanteissa ja tilanteissa. ongelma-alueita kehitetty ja käytetty tietokoneohjelmat, tietokonetekniikat tietojen järjestämiseen ja käsittelyyn. Toisaalta tämä on tietokonekielimallien sovellusalue kielitieteessä ja siihen liittyvissä tieteenaloissa. Kuin erikoista tieteellinen suunta laskennallinen lingvistiikka muotoutui Eurooppa-tutkimukset 1960-luvulla. Sikäli kuin Englannin adjektiivi laskennallinen voidaan kääntää myös "laskennalliseksi", käsite "laskennallinen lingvistiikka" löytyy myös kirjallisuudesta, mutta kotimainen tiede hän saa enemmän kapea merkitys lähestyy "kvantitatiivisen kielitieteen" käsitettä.

Laskennallinen lingvistiikka viittaa usein termiin "kvantitatiivinen kielitiede", joka luonnehtii tieteidenvälistä suuntaa. soveltava tutkimus, jossa kvantitatiivisia tai tilastollisia analyysimenetelmiä käytetään kielen ja puheen tutkimuksen päävälineenä. Joskus kvantitatiivinen (tai kvantitatiivinen) kielitiede vastustetaan kombinatorista kielitiedettä. Jälkimmäisessä hallitseva rooli on "ei-kvantitatiivinen" matemaattinen laite - joukkoteoria, matemaattinen logiikka, algoritmiteoria jne. teoreettinen kohta katsella käyttöä tilastolliset menetelmät kielitieteessä voit täydentää rakennemalli kieli todennäköisyyskomponentilla, eli luoda teoreettinen rakenteellis-todennäköisyysmalli, jolla on merkittävä selityspotentiaali. AT sovellusalue Kvantitatiivista kielitiedettä edustaa ennen kaikkea tämän mallin fragmenttien käyttö, jota käytetään kielen toiminnan lingvistiseen seurantaan, koodatun tekstin dekoodaukseen, tekstin valtuutukseen/attribuutioon jne.

Termi "laskennallinen lingvistiikka" ja tämän alueen ongelmat liittyvät usein viestinnän mallintamiseen ja ennen kaikkea - ihmisen vuorovaikutuksen tarjoamiseen tietokoneen kanssa luonnollisella tai rajoitetulla luonnollisella kielellä (tätä varten, erityisiä järjestelmiä luonnollisen kielen käsittelyyn) sekä tiedonhakujärjestelmien (IPS) teorian ja käytännön kanssa. Viestinnän varmistaminen henkilön ja tietokoneen välillä luonnollisella kielellä on joskus merkitty termillä "luonnollinen kielen käsittely" (käännös englanniksi termi Natural Language Processing). Tämä laskennallisen lingvistiikan suunta syntyi 1960-luvun lopulla ulkomailla ja kehittyi tieteen ja teknologian alalla, jota kutsutaan tekoälyksi (R. Schenkin, M. Lebovitsin, T. Winogradin jne. teokset). Sen merkityksessä ilmaisun "luonnollinen kielenkäsittely" tulisi kattaa kaikki alueet, joilla tietokoneita käytetään kielitietojen käsittelyyn. Käytännössä termin suppeampi ymmärrys on kuitenkin vakiintunut - sellaisten menetelmien, teknologioiden ja erityisten järjestelmien kehittäminen, jotka varmistavat kommunikoinnin ihmisen ja tietokoneen välillä luonnollisella tai rajoitetulla luonnollisella kielellä.

Laskennallinen lingvistiikka voi jossain määrin sisältää teoksia hypertekstijärjestelmien luomisen alalla, joita pidetään esim. erityinen tapa tekstin organisointi ja jopa kuinka pohjimmiltaan uutta lajia teksti, joka vastustaa monilta ominaisuuksiltaan Gutenbergin painotraditiossa muodostunutta tavallista tekstiä (ks. Gutenberg).

Laskennalliseen lingvistiikkaan kuuluu myös automaattinen kääntäminen.

Laskennallisen lingvistiikan puitteissa on syntynyt suhteellisen uusi suunta, joka on kehittynyt aktiivisesti 1980-90-luvuilta lähtien - korpuslingvistiikka, jossa yleiset periaatteet rakentaa kielellisiä tietokortteja (erityisesti tekstikorpusia) modernilla tietokone teknologia. Tekstikorjaukset ovat kokoelmat erityisesti valittuja kirjojen, aikakauslehtien, sanomalehtien jne. tekstejä, jotka on siirretty konemedialle ja tarkoitettu automaattiseen käsittelyyn. Yksi ensimmäisistä amerikanenglannin tekstikokonaisuuksista luotiin Brownin yliopistossa (ns. Brown Corpus) vuosina 1962-63 W. Francisin johdolla. Venäjällä on 2000-luvun alusta lähtien kehittynyt Venäjän tiedeakatemian V. V. Vinogradovin mukaan nimetty venäjän kielen instituutti. National Corps venäjän kielen, joka koostuu edustavasta otoksesta venäjänkielisiä tekstejä, joiden määrä on noin 100 miljoonaa sanaa. Varsinaisen tietoaineistojen rakentamisen lisäksi korpuslingvistiikka harjoittaa tietokonetyökalujen (tietokoneohjelmien) luomista, jotka on suunniteltu erilaisten tietojen poimimiseen tekstikorjauksista. Käyttäjän näkökulmasta tekstikorjauksille asetetaan vaatimuksia edustavuudesta (representatiivisuudesta), täydellisyydestä ja taloudellisuudesta.

Laskennallinen lingvistiikka kehittyy aktiivisesti sekä Venäjällä että ulkomailla. Julkaisuvirta tällä alalla on erittäin suuri. Paitsi temaattisia kokoelmia, Yhdysvalloissa vuodesta 1984 lähtien Computational Linguistics -lehti on julkaistu neljännesvuosittain. Loistava organisaatio ja tieteellistä työtä sen suorittaa The Association for Computational Linguistics, jolla on alueellisia rakenteita ympäri maailmaa (erityisesti Euroopan haara). Joka toinen vuosi järjestetään kansainvälisiä konferensseja COLINT (vuonna 2008 konferenssi pidettiin Manchesterissa). Laskennallisen lingvistiikan pääsuuntauksista keskustellaan myös Venäjän tekoälyn tutkimuslaitoksen järjestämässä vuotuisessa kansainvälisessä konferenssissa "Dialogue". Filologian tiedekunta Moskovan valtionyliopisto, Yandex ja monet muut organisaatiot. Asiaankuuluvia asioita esitellään myös laajasti kansainvälisiä konferensseja eri tasojen tekoälystä.

Lit .: Zvegintsev V. A. Teoreettinen ja soveltava kielitiede. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Matemaattinen kielitiede. M., 1977; Gorodetsky B. Yu. Todellisia ongelmia soveltava kielitiede // Uutta vieraassa kielitieteessä. M., 1983. Issue. 12; Kibrik A.E. Soveltava kielitiede // Kibrik A.E. Esseitä kielitieteen yleisistä ja soveltavista kysymyksistä. M., 1992; Kennedy G. Johdatus korpuslingvistiikkaan. L., 1998; Bolshakov I.A., Gelbukh A. Laskennallinen lingvistiikka: mallit, resurssit, sovellukset. Mekh., 2004; Venäjän kielen kansallinen korpus: 2003-2005. M., 2005; Baranov A. N. Johdatus soveltavaan kielitieteeseen. 3. painos M., 2007; Laskennallinen lingvistiikka ja älykkäät tekniikat. M., 2008. Numero. 7.

Johdanto

Mitä on laskennallinen lingvistiikka?

ATK-KIELIT , soveltavan kielitieteen suuntaa, joka keskittyy tietokonetyökalujen - ohjelmien, tietoteknologioiden käyttöön tiedon järjestämiseen ja käsittelyyn - kielen toiminnan mallintamiseen tietyissä olosuhteissa, tilanteissa, ongelma-alueilla jne. sekä koko laajuuteen. kielitieteen ja siihen liittyvien alojen tietokonekielimalleista. Itse asiassa vain sisällä viimeinen tapaus ja puhutaan soveltava kielitiede suppeassa merkityksessä, sillä kielen tietokonemallinnusta voidaan pitää myös tietojenkäsittelytieteen ja ohjelmointiteorian sovellusalueena kielitieteen ongelmien ratkaisemisessa. Käytännössä kuitenkin lähes kaikkea, mikä liittyy tietokoneiden käyttöön kielitieteessä, kutsutaan laskennalliseksi lingvistiikaksi.

Tieteellisenä erityissuuntauksena laskennallinen lingvistiikka muotoutui 1960-luvulla. Venäjänkielinen termi "laskennallinen lingvistiikka" on englanninkielisen laskennallisen lingvistiikan jäljityspaperi. Koska venäjän kielen adjektiivi laskennallinen voidaan kääntää myös "laskennalliseksi", löytyy myös käsite "laskennallinen lingvistiikka" kirjallisuudesta, mutta venäläisessä tieteessä se saa suppeamman merkityksen ja lähestyy käsitettä "kvantitatiivinen kielitiede". Julkaisuvirta tällä alalla on erittäin suuri. Temaattisten kokoelmien lisäksi Computational Linguistics -lehti ilmestyy Yhdysvalloissa neljännesvuosittain. Laajaa organisatorista ja tieteellistä työtä tekee Computational Linguistics Association for Computational Linguistics, jolla on alueelliset rakenteet (erityisesti Euroopan haara). Joka toinen vuosi järjestetään kansainvälisiä laskennallisen lingvistiikan konferensseja - COLING. Olennaisia ​​aiheita esitellään yleensä laajasti myös erilaisissa tekoälyn konferensseissa.

Tehtävät

Laskennallinen lingvistiikka käsittelee kielitoiminnan tietokonemallinnuksen varsinaisia ​​kielellisiä ongelmia. Sen tehtävänä on rakentaa tarkempia ja täydellisempiä kielellisiä malleja ja kehittyneempiä algoritmeja analyysiin ja synteesiin.

Pääsuunnat ovat:

1) Ihmisen ja tietokoneen vuorovaikutus: ohjaus - ohjelmointikielet, tiedonsiirto - käyttöliittymä.

2) Työskentely tekstien kanssa: indeksointi, analysointi ja luokittelu, automaattinen muokkaus (virheenkorjaus), tiedonhaku, konekäännös.

Tarina

Yksi varhaisista amerikkalaisista järjestelmistä LIFER (Language Interface Facility wich Elipsis and Recursion) luotiin 70-luvulla. Sen jälkeen tietokonemarkkinoille ilmestyi muita, joustavampia järjestelmiä, jotka tarjosivat rajoitetun luonnollisen kielen rajapinnan tietokoneen kanssa.

1980-luvulla Yhdysvaltoihin perustettiin useita yrityksiä, jotka kehittävät ja myyvät luonnollisen kielen rajapintoja tietokantoihin ja asiantuntijajärjestelmiin. Vuonna 1985 Semantec Corporation esitteli tällaisen Q&A-ohjelmistopaketin, Carnegie Group tarjosi vastaavan paketin, LanguageCraft.

Automaattisten käännösjärjestelmien luomiseksi on käynnissä aktiivinen työ. Yhdysvaltain ilmavoimien tilaama D. Tomin johdolla kehitetty automaattinen käännösjärjestelmä SYSTRAN on yleistynyt. Vuosina 1974-1975. NASA Aerospace Association käytti järjestelmää Apollo-Sojuz-projektin asiakirjojen kääntämiseen. Nykyään hän kääntää useista kielistä noin 100 000 sivua vuosittain.

Euroopassa tietokonekäännösjärjestelmien luomista vauhditti Euroopan tietoverkon (EURONET DIANA) perustaminen. Vuonna 1982 Euroopan talousyhteisö ilmoitti perustavansa eurooppalaisen EUROTRA-ohjelman, jonka tarkoituksena on kehittää järjestelmä tietokonekäännös kaikille eurooppalaiset kielet. Alun perin hankkeen arvoksi arvioitiin 12 miljoonaa dollaria; vuonna 1987 asiantuntijat arvioivat tämän projektin kokonaiskustannuksiksi yli 160 miljoonaa dollaria.

Japanissa laskennallinen lingvistinen tutkimus keskittyy valtakunnalliseen viidennen sukupolven tietokoneohjelmaan, joka lanseerattiin vuonna 1981.

On olemassa useita sotilaallisia hankkeita ihmisen ja koneen rajapintojen luomiseksi luonnollisella kielellä. Yhdysvalloissa niitä toteutetaan pääasiassa osana Strategic Computer Initiative -ohjelmaa, joka on puolustusministeriön vuonna 1983 hyväksymä kymmenen vuoden ohjelma. Sen tavoitteena on luoda uuden sukupolven "älykkäitä" aseita ja sotilaallisia järjestelmiä. varmistaakseen Yhdysvaltojen pitkän aikavälin teknologisen paremmuuden.

Luonnollisesti tietokoneisiin ja ohjelmointikieliin perehtyneet tekoälyn asiantuntijat ryhtyvät tarmokkaasti ratkaisemaan kielen ymmärtämisen ongelmaa omin menetelmin. Siellä etsittiin luonnollisen kielen algoritmeja. Hyvin kapeille erikoisalueille luotiin monimutkaisia ​​kielen ymmärtämisohjelmia, toteutettiin osittaisia ​​konekäännösohjelmia ja monia muita. Mutta ratkaisevaa edistystä kielen ymmärtämisen ongelman ratkaisemisessa ei tapahtunut. Kieli ja ihminen ovat niin yhteydessä toisiinsa, että tiedemiehet joutuivat käsittelemään ongelmaa ihmisen ymmärtämään maailmaa. Ja tämä on filosofian aluetta.

Kielitieteen peruskäsitteet

Termi "laskennallinen lingvistiikka" viittaa yleensä laajaan tietokonetyökalujen - ohjelmien, tietojen organisointiin ja käsittelyyn tarkoitettujen tietokonetekniikoiden - käytön mallintamiseen kielen toiminnan tietyissä olosuhteissa, tilanteissa, ongelma-alueilla sekä laajuudessa. tietokonekielimalleista vain kielitieteessä, mutta myös siihen liittyvillä tieteenaloilla. Itse asiassa vain jälkimmäisessä tapauksessa puhutaan soveltavasta lingvistiikasta suppeassa merkityksessä, koska tietokonekielimallinnusta voidaan pitää myös ohjelmointiteorian (tietotekniikan) sovellusalueena kielitieteen alalla. Yleinen käytäntö on kuitenkin sellainen, että laskennallisen lingvistiikan ala kattaa lähes kaiken, mikä liittyy tietokoneiden käyttöön kielitieteessä: "Termi" laskennallinen lingvistiikka "asettaa yleisen suuntautumisen tietokoneiden käyttöön ratkaisemaan erilaisia ​​tieteellisiä ja käytännön tehtäviä liittyvät kieleen rajoittamatta tapoja ratkaista näitä ongelmia.

Laskennallisen lingvistiikan institutionaalinen puoli. Tieteellisenä erityissuuntauksena laskennallinen lingvistiikka muotoutui 60-luvulla. Julkaisuvirta tällä alalla on erittäin suuri. Temaattisten kokoelmien lisäksi Computational Linguistics -lehti ilmestyy neljännesvuosittain Yhdysvalloissa. Laajaa organisatorista ja tieteellistä työtä tekee Computational Linguistics Association for Computational Linguistics, jolla on alueellisia rakenteita ympäri maailmaa (erityisesti Euroopan haara). Joka toinen vuosi järjestetään kansainvälisiä laskennallisen lingvistiikan konferensseja - KOLING. Olennaiset kysymykset ovat myös laajasti edustettuina kansainvälisissä tekoälykonferensseissa eri tasoilla.

Laskennallisen lingvistiikan kognitiivinen työkalupakki

Laskennallinen lingvistiikka erikoisuutena sovellettua kurinalaisuutta erottuu ensisijaisesti soittimen - eli käytön - perusteella tietokonetilat kielitietojen käsittely. Koska kielen toiminnan tiettyjä puolia mallintavissa tietokoneohjelmissa voidaan käyttää erilaisia ​​ohjelmointityökaluja, ei näytä olevan tarvetta puhua yleisestä metakielestä. Se ei kuitenkaan ole. Yleisiä periaatteita on olemassa tietokonesimulaatio ajattelua, jotka tavalla tai toisella toteutuvat missä tahansa tietokoneen malli. Tämä kieli perustuu vuonna kehitettyyn tietoteoriaan tekoäly ja muodostaa tärkeän kognitiivisen tieteen haaran.

Tietoteorian pääteesissä ajattelu on tiedon prosessointi- ja tuottoprosessi. "Tieto" tai "tieto" katsotaan määrittelemättömäksi kategoriaksi. Tietoa käsittelevä "prosessori" on kognitiivinen järjestelmä henkilö. Epistemologiassa ja kognitiivisessa tieteessä erotetaan kaksi tiedon päätyyppiä - deklaratiivinen ("tietää mitä") ja proseduaalinen ("tietää miten"2)). Deklaratiivinen tieto esitetään yleensä joukona väitteitä, lausuntoja jostakin. Tyypillinen esimerkki deklaratiivista tietoa voidaan pitää sanojen tulkinnoina tavallisessa selittäviä sanakirjoja. Esimerkiksi kuppi] - "pieni pyöreä juomaastia, yleensä kahvalla, valmistettu posliinista, fajanssista jne.". Deklaratiivinen tieto soveltuu todentamismenettelyyn "tosi-epätosi". Proseduuritieto esitetään sarjana (luettelona) toiminnoista, suoritettavista toimista. Tämä on joitakin yleinen ohje toimista tietyssä tilanteessa. Tyypillinen esimerkki menettelytaidosta on kodinkoneiden käyttöohjeet.

Toisin kuin deklaratiivinen tieto, proseduaalista tietoa ei voida varmistaa oikeaksi tai vääräksi. Niitä voidaan arvioida vain algoritmin onnistumisen tai epäonnistumisen perusteella.

Suurin osa laskennallisen lingvistiikan kognitiivisen työkalupakin käsitteistä on homonyymejä: ne osoittavat samanaikaisesti joitain ihmisen kognitiivisen järjestelmän todellisia kokonaisuuksia ja tapoja esittää näitä kokonaisuuksia joissakin metakielissä. Toisin sanoen metakielen elementeillä on ontologinen ja instrumentaalinen puoli. Ontologisesti deklaratiivisen ja proseduaalisen tiedon erottelu vastaa eri tyyppejä tietoa ihmisen kognitiivisesta järjestelmästä. Eli tietoa aiheesta erityisiä aiheita, todellisuusobjektit ovat pääosin deklaratiivisia, ja ihmisen toiminnalliset kyvyt kävellä, juosta, ajaa autoa realisoituvat kognitiivisessa järjestelmässä proseduuritiedona. Instrumentaalisesti tieto (sekä ontologisesti proseduaalinen että deklaratiivinen) voidaan esittää kuvausten, kuvausten joukkona ja algoritmina, ohjeena. Toisin sanoen ontologisesti deklaratiivinen tieto todellisuusobjektista "taulukko" voidaan esittää proseduaalisesti ohjeiden joukona, algoritmeina sen luomiseksi, kokoamiseksi (= proseduaalitiedon luova puoli) tai algoritmina sen tyypilliseen käyttöön (= toiminnallinen puoli menettelytapojen tuntemus). Ensimmäisessä tapauksessa tämä voi olla opas aloittelevalle kirvesmiehelle ja toisessa kuvaus toimistopöydän mahdollisuuksista. Päinvastoin on myös totta: ontologisesti proseduaalista tietoa voidaan esittää deklaratiivisesti.

Erillistä keskustelua vaatii, voidaanko ontologisesti deklaratiivista tietoa esittää proseduaalina ja mikä tahansa ontologisesti proseduaalinen - deklaratiivisena. Tutkijat ovat yhtä mieltä siitä, että mikä tahansa deklaratiivinen tieto voidaan periaatteessa esittää proseduaalisesti, vaikka tämä voi osoittautua erittäin epätaloudelliseksi kognitiiviselle järjestelmälle. Käänteinen tuskin on totta. Tosiasia on, että deklaratiivinen tieto on paljon selkeämpää, ihmisen on helpompi ymmärtää kuin menettelyllinen tieto. Toisin kuin deklaratiivinen tieto, proseduaalinen tieto on pääasiassa implisiittistä. Niin, kielikyky Proseduuritietona on ihmiseltä piilossa, hän ei itse tajua sitä. Yritys selittää kielen toiminnan mekanismeja johtaa toimintahäiriöön. Leksikaalisen semantiikan asiantuntijat tietävät esimerkiksi, että sanan sisältösuunnitelman tutkimiseen tarvittava pitkäaikainen semanttinen itsetutkiskelu johtaa siihen, että tutkija menettää osittain kyvyn erottaa oikeat ja väärinkäytöksiä analysoitu sana. Muita esimerkkejä voidaan mainita. Tiedetään, että mekaniikan näkökulmasta ihmiskeho on monimutkainen järjestelmä kaksi vuorovaikutuksessa olevaa heiluria.

Tietoteoriassa tietoa tutkitaan ja esitetään käyttäen erilaisia ​​rakenteita tieto - kehykset, skenaariot, suunnitelmat. M. Minskyn mukaan "kehys on tietorakenne, joka on suunniteltu edustamaan stereotyyppistä tilannetta" [Minsky 1978, s. 254]. Yksityiskohtaisemmin voidaan sanoa, että kehys on käsitteellinen rakenne tiedon deklaratiiviselle esittämiselle tyypillisestä temaattisesti yhtenäisestä tilanteesta, joka sisältää tiettyjen semanttisten suhteiden yhdistämiä aikavälejä. Havainnollistamistarkoituksessa kehys esitetään usein taulukkona, jonka rivit muodostavat rakoja. Jokaisella paikkalla on oma nimi ja sisältö (katso taulukko 1).

pöytä 1

Fragmentti "taulukko" kehyksestä taulukkonäkymässä

Riippuen tietty tehtävä runkorakenne voi olla huomattavasti monimutkaisempaa; kehys voi sisältää sisäkkäisiä alikehyksiä ja viittauksia muihin kehyksiin.

Taulukon sijasta käytetään usein predikaattiesitysmuotoa. Tässä tapauksessa kehys on predikaatin tai argumenteilla varustetun funktion muodossa. On olemassa muita tapoja esittää kehystä. Se voidaan esittää esimerkiksi monikkona seuraavanlaista: ( (kehyksen nimi) (paikan nimi)) (paikan arvo,),..., (paikan nimi n) (paikan arvo n) ).

Tyypillisesti tiedonesityskielten kehyksillä on tämä muoto.

Kuten muutkin laskennallisen lingvistiikan kognitiiviset kategoriat, kehyksen käsite on homonyymi. Ontologisesti se on osa ihmisen kognitiivista järjestelmää, ja tässä mielessä kehystä voidaan verrata sellaisiin käsitteisiin kuin gestalt, prototyyppi, stereotyyppi, kaava. Kognitiivisessa psykologiassa näitä luokkia tarkastellaan juuri ontologisesta näkökulmasta. Siten D. Norman erottaa kaksi päätapaa tiedon olemassaolosta ja organisoinnista ihmisen kognitiivisessa järjestelmässä - semanttiset verkostot ja skeemat. "Kaaviot", hän kirjoittaa, "ovat järjestettyjä tietopaketteja, jotka on koottu edustamaan yksittäisiä, itsenäisiä tiedon yksiköitä. Kaavioni Samille voi sisältää tietoja, jotka kuvaavat hänen fyysiset ominaisuudet, sen toimintaa ja persoonallisuuden piirteet. Tämä skeema korreloi muiden skeemojen kanssa, jotka kuvaavat sen muita puolia" [Norman 1998, s. 359]. Jos otamme kehyskategorian instrumentaalisen puolen, tämä on rakenne tiedon deklaratiiviselle esittämiselle. Olemassa olevissa tekoälyjärjestelmissä kehyksiä voi muodostua monimutkaiset rakenteet tieto; kehysjärjestelmät mahdollistavat hierarkian - yksi kehys voi olla osa toista kehystä.

Sisällöllisesti kehyksen käsite on hyvin lähellä tulkinnan kategoriaa. Itse asiassa rako on valenssin analogi, raon täyttö on aktantin analogi. Suurin ero niiden välillä on se, että tulkinta sisältää vain kielellisesti oleellista tietoa sanan sisällön suunnitelmasta, ja kehys ei ensinnäkään välttämättä ole sidottu sanaan, ja toiseksi se sisältää kaikki tiettyyn ongelmaan liittyvät tiedot. tilanne, mukaan lukien ekstralingvistinen (maailmantuntemus) 3).

Skenaario on käsitteellinen kehys stereotyyppisestä tilanteesta tai käyttäytymisestä saadun tiedon proseduaaliseen esittämiseen. Komentosarjaelementit ovat algoritmin tai käskyn vaiheita. Ihmiset puhuvat yleensä "ravintolaskenaariosta", "ostoskenaariosta" ja niin edelleen.

Kehystä käytettiin alun perin myös prosessin esittämiseen (vrt. termi "menettelykehys"), mutta termiä "skenaario" käytetään nykyään yleisemmin tässä merkityksessä. Skenaario voidaan esittää paitsi algoritmina, myös verkkona, jonka kärjet vastaavat tiettyjä tilanteita ja kaaret vastaavat yhteyksiä tilanteiden välillä. Käsikirjoituksen käsitteen ohella jotkut tutkijat käyttävät käsikirjoituksen luokkaa älykkyyden tietokonemallintamiseen. R. Schenkin mukaan käsikirjoitus on jokin yleisesti hyväksytty, hyvin tunnettu sekvenssi syy-yhteys. Esimerkiksi dialogin ymmärtäminen

Kadulla sataa kuin ämpäri.

Sinun on silti mentävä kauppaan: talossa ei ole mitään - eilen vieraat lakaisivat kaiken.

perustuu ei-eksplisiittisiin semanttisiin linkkeihin, kuten "if sataa, ei ole toivottavaa mennä ulos, koska voit sairastua." Nämä yhteydet muodostavat käsikirjoituksen, jota äidinkielenään puhujat käyttävät ymmärtääkseen toistensa verbaalista ja ei-verbaalista käyttäytymistä.

Skenaarion soveltamisen seurauksena tiettyyn ongelmatilanteeseen a suunnitelma). Suunnitelmaa käytetään proseduaalisesti edustamaan tietoa aiheesta mahdollisia toimia joka johtaa saavutukseen tietty tarkoitus. Suunnitelma yhdistää tavoitteen toimintosarjaan.

AT yleinen tapaus suunnitelma sisältää sarjan toimenpiteitä, jotka siirtävät järjestelmän alkutilan lopputilaan ja johtavat tietyn osatavoitteen ja tavoitteen saavuttamiseen. Tekoälyjärjestelmissä suunnitelma syntyy vastaavan moduulin - suunnittelumoduulin - suunnittelun tai suunnittelutoiminnan tuloksena. Suunnitteluprosessi voi perustua yhdestä tai useammasta skenaariosta saatujen tietojen mukauttamiseen testaustoimenpiteiden avulla ongelmatilanteen ratkaisemiseksi. Suunnitelman toteuttamisen suorittaa executive moduuli, joka ohjaa kognitiivisia toimenpiteitä ja fyysisiä toimia järjestelmät. Perustapauksessa suunnitelma sisään älyllinen järjestelmä on yksinkertainen toimintosarja; monimutkaisemmissa versioissa suunnitelma liittyy tiettyyn aiheeseen, sen resursseihin, kykyihin, tavoitteisiin, yksityiskohtainen tieto ongelmallisesta tilanteesta jne. Suunnitelman syntyminen tapahtuu kommunikaatioprosessissa maailmanmallin, josta osan muodostavat skenaariot, suunnittelumoduulin ja toimeenpanomoduulin välillä.

Toisin kuin käsikirjoituksessa, suunnitelmassa on kyse erityinen tilanne, tietty esiintyjä ja pyrkii saavuttamaan tietyn tavoitteen. Suunnitelman valintaa ohjaavat urakoitsijan resurssit. Suunnitelman toteutettavuus - vaadittu kunto sen synnyttäminen kognitiivisessa järjestelmässä, ja tyydyttävyysominaisuus ei sovellu skenaarioon.

Yksi vielä tärkeä käsite- maailman malli. Maailmanmallilla tarkoitetaan yleensä kognitiiviseen järjestelmään tai sen tietokonemalliin kuuluvaa, tietyllä tavalla organisoitua tietoa maailmasta. Muutamassa lisää yleisnäkymä Maailman mallista puhutaan osana kognitiivista järjestelmää, joka tallentaa tietoa maailman rakenteesta, sen malleista jne. Toisessa mielessä maailmanmalli liittyy tekstin ymmärtämisen tuloksiin tai laajemmin, keskustelu. Diskurssin ymmärtämisen yhteydessä rakennetaan sen mentaalinen malli, joka on tulosta tekstin sisältösuunnitelman ja tähän aiheeseen kuuluvan maailmatiedon vuorovaikutuksesta [Johnson-Laird 1988, s. 237 et sekv.]. Ensimmäinen ja toinen käsitys yhdistetään usein. Tämä on tyypillistä kognitiivisen kielitieteen ja kognitiivisen tieteen parissa työskenteleville kielitieteilijöille.

Kehyksen luokkaan liittyy läheisesti kohtauksen käsite. Kohtausluokkaa käytetään kirjallisuudessa pääasiassa käsitteellisen rakenteen nimityksenä todetun kuvauksen deklaratiiviselle esittämiselle. puheaktio ja omistautunut kieli tarkoittaa(rahakkeita, syntaktiset rakenteet, kieliopilliset luokat jne) tilanteet ja niiden osat5). Koska kohtaus liittyy kielellisiin muotoihin, se päivittyy usein tietty sana tai ilmaisua. Juonikieliopissa (katso alla) kohtaus näkyy osana jaksoa tai kerrontaa. Tyypillisiä esimerkkejä kohtaukset - sarja kuutioita, joiden kanssa tekoälyjärjestelmä toimii, tarinan kohtaus ja toiminnan osallistujat jne. Tekoälyssä kohtauksia käytetään kuvantunnistusjärjestelmissä sekä tutkimussuuntautuneissa ohjelmissa (analyysi, kuvaus) ongelmatilanteita. Näytelmän käsite on yleistynyt teoreettisessa lingvistiikassa sekä logiikassa, erityisesti tilannesemantiikassa, jossa merkitys leksikaalinen kohde kytkeytyy suoraan tapahtumapaikkaan.