Linggwistika ng makina. Kasaysayan, pag-unlad at pagbuo ng computational linguistics bilang isang siyentipikong direksyon

Pilolohiya mataas na paaralan Ang Economics, isang bagong master's program ay inilunsad na nakatuon sa computational linguistics: tinatanggap nito ang mga aplikante na may humanitarian at mathematical basic education at sinumang interesado sa paglutas ng mga problema sa isa sa mga pinaka-promising na sangay ng agham. Ang pinuno nito, si Anastasia Bonch-Osmolovskaya, ay nagsabi sa Theory and Practice kung ano ang computational linguistics, bakit hindi papalitan ng mga robot ang mga tao, at kung ano ang kanilang ituturo sa HSE master's degree sa Computational Linguistics.

Ang programang ito ay halos ang isa lamang sa uri nito sa Russia. Saan mo pinag-aralan ang iyong sarili?

Nag-aral ako sa Moscow State University sa Department of Theoretical and Applied Linguistics Faculty of Philology. Hindi ako nakarating agad, pumasok muna ako sangay ng Russia, ngunit pagkatapos ay naging seryoso akong interesado sa linggwistika, at naakit ako sa kapaligiran na nananatili sa departamento hanggang ngayon. Ang pinakamahalagang bagay ay ang mabuting pakikipag-ugnayan sa pagitan ng mga guro at mag-aaral at ang kanilang interes sa isa't isa.

Nang magkaroon ako ng mga anak at kailangang maghanapbuhay, pumasok ako sa larangan ng komersyal na lingguwistika. Noong 2005, hindi masyadong malinaw kung ano ang lugar ng aktibidad na ito. Nagtrabaho ako sa iba't ibang mga kumpanya ng lingguwistika: Nagsimula ako sa isang maliit na kumpanya sa website ng Public.ru - ito ay tulad ng isang media library, kung saan nagsimula akong magtrabaho sa mga teknolohiyang linguistic. Pagkatapos ay nagtrabaho ako ng isang taon sa Rosnanotech, kung saan nagkaroon ako ng ideya na gumawa ng isang analytical portal upang ang data dito ay awtomatikong mabalangkas. Pagkatapos ay pinamunuan ko ang departamento ng lingguwistika sa kumpanya ng Avicomp - isa na itong seryosong produksyon sa larangan computational linguistics at mga teknolohiyang semantiko. Kasabay nito, nagturo ako ng kurso sa computational linguistics sa Moscow State University at sinubukan kong gawin itong mas moderno.

Dalawang mapagkukunan para sa isang linguist: - isang site na ginawa ng mga linguist para sa siyentipiko at inilapat na pananaliksik na may kaugnayan sa wikang Ruso. Ito ay isang modelo ng wikang Ruso, na ipinakita sa tulong ng isang malaking hanay ng mga teksto mula sa iba't ibang genre at panahon. Ang mga teksto ay binibigyan ng linguistic markup, na maaaring magamit upang makakuha ng impormasyon tungkol sa dalas ng ilang linguistic phenomena. Wordnet - isang malaking lexical database sa Ingles, pangunahing ideya Wordnet - upang ikonekta hindi ang mga salita, ngunit ang kanilang mga kahulugan sa isang malaking network. Maaaring ma-download at magamit ang Wordnet para sa iyong sariling mga proyekto.

Ano ang ginagawa ng computational linguistics?

Ito ang pinaka-interdisciplinary field. Ang pinakamahalagang bagay dito ay upang maunawaan kung ano ang nangyayari sa elektronikong mundo at kung sino ang tutulong sa iyo na gumawa ng mga partikular na bagay.

Napapaligiran kami ng malaking bilang ng digital information, maraming business projects na ang tagumpay ay nakasalalay sa pagpoproseso ng impormasyon, ang mga proyektong ito ay maaaring nauugnay sa marketing, pulitika, ekonomiya, at kung ano pa man. At napakahalaga na mahawakan ang impormasyong ito nang epektibo - ang pangunahing bagay ay hindi lamang ang bilis ng pagproseso ng impormasyon, kundi pati na rin ang kadalian kung saan maaari mong, pagkatapos i-filter ang ingay, makuha ang data na kailangan mo at lumikha ng isang buong larawan mula sa kanila.

Noong nakaraan, ang ilang pandaigdigang ideya ay nauugnay sa computational linguistics, halimbawa: inisip ng mga tao na ang pagsasalin ng makina ay papalitan ang pagsasalin ng tao, ang mga robot ang gagana sa halip na mga tao. Ngunit ngayon ay tila isang utopia, at ang pagsasalin ng makina ay ginagamit sa mga search engine upang mabilis na maghanap sa isang hindi pamilyar na wika. Ibig sabihin, ngayon ang linguistics ay bihirang tumatalakay sa mga abstract na gawain - karamihan ay may ilang maliliit na bagay na maaaring ipasok sa isang malaking produkto at kumita ng pera dito.

Isa sa malalaking gawain modernong linguistics - ang semantic web, kapag ang paghahanap ay nangyayari hindi lamang sa pamamagitan ng pagkakataon ng mga salita, ngunit sa pamamagitan ng kahulugan, at ang lahat ng mga site ay sa paanuman ay minarkahan ng semantics. Maaari itong maging kapaki-pakinabang, halimbawa, para sa mga ulat ng pulisya o medikal na isinulat araw-araw. Ang pagsusuri ng mga panloob na koneksyon ay nagbibigay ng maraming kinakailangang impormasyon, at ito ay hindi kapani-paniwalang mahaba upang basahin at kalkulahin ito nang manu-mano.

Sa madaling sabi, mayroon tayong isang libong mga teksto, kailangan nating pag-uri-uriin ang mga ito sa mga tambak, ipakita ang bawat teksto bilang isang istraktura at kumuha ng isang talahanayan na maaari na nating gamitin. Ito ay tinatawag na unstructured information processing. Sa kabilang banda, ang computational linguistics ay tumatalakay, halimbawa, sa paglikha ng mga artipisyal na teksto. Mayroong isang kumpanya na nakabuo ng isang mekanismo para sa pagbuo ng mga teksto sa mga paksa na nakakainip para sa isang tao na isulat tungkol sa: mga pagbabago sa mga presyo ng real estate, taya ng panahon, ulat sa mga laban ng football. Mas mahal ang pag-order ng mga tekstong ito para sa isang tao, bukod pa rito, ang mga teksto sa computer sa naturang mga paksa ay nakasulat sa isang magkakaugnay na wika ng tao.

Ang mga pag-unlad sa larangan ng paghahanap para sa hindi nakaayos na impormasyon sa Russia ay aktibong nakikibahagi sa "Yandex", "Kaspersky Lab" hire pangkat ng pananaliksik na nag-aaral machine learning. Sinusubukan ba ng isang tao sa merkado na makabuo ng bago sa larangan ng computational linguistics?

**Mga Aklat sa Computational Linguistics:**

Daniel Jurafsky, Pagproseso ng Pagsasalita at Wika

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Panimula sa Pagkuha ng Impormasyon

Jacob Testelec, "Introduction to General Syntax"

Karamihan sa mga pag-unlad ng wika ay pag-aari ng malalaking kumpanya, halos walang makikita sa bukas na access. Ito ay humahadlang sa pag-unlad ng industriya, wala tayong libreng linguistic market, mga boxed solution.

Bukod dito, may kakulangan ng kumpleto mapagkukunan ng impormasyon. Mayroong isang proyekto tulad ng National Corpus of the Russian Language. Ito ay isa sa mga pinakamahusay na pambansang corpus sa mundo, na mabilis na umuunlad at nagbubukas ng mga hindi kapani-paniwalang pagkakataon para sa siyentipiko at aplikadong pananaliksik. Ang pagkakaiba ay halos kapareho ng sa biology - bago at pagkatapos ng DNA research.

Ngunit maraming mga mapagkukunan ay hindi umiiral sa Russian. Kaya, walang analogue sa tulad ng isang kahanga-hangang mapagkukunan ng wikang Ingles bilang Framenet - ito ay tulad ng isang konseptwal na network, kung saan ang lahat ng posibleng koneksyon ng isang partikular na salita sa iba pang mga salita ay pormal na ipinakita. Halimbawa, mayroong salitang "lumipad" - sino ang maaaring lumipad, kung saan, sa anong dahilan ang salitang ito ay ginamit, kung anong mga salita ang pinagsama nito, at iba pa. Nakakatulong ang mapagkukunang ito na ikonekta ang wika sa totoong buhay, iyon ay, upang masubaybayan kung paano kumikilos ang isang partikular na salita sa antas ng morpolohiya at syntax. Ito ay lubhang kapaki-pakinabang.

Ang Avicomp ay kasalukuyang gumagawa ng isang plug-in upang maghanap ng mga kaugnay na artikulo. Iyon ay, kung interesado ka sa ilang artikulo, maaari mong mabilis na makita ang kasaysayan ng balangkas: kapag lumitaw ang paksa, kung ano ang isinulat, at kailan ang rurok ng interes sa problemang ito. Halimbawa, gamit ang plugin na ito, magiging posible, simula sa isang artikulo sa mga kaganapan sa Syria, upang mabilis na makita kung paano noong nakaraang taon naganap doon ang mga pangyayari.

Paano mabubuo ang proseso ng pagkatuto sa programa ng master?

Ang edukasyon sa HSE ay isinaayos sa magkakahiwalay na mga module - tulad ng sa mga unibersidad sa Kanluran. Ang mga mag-aaral ay hahatiin sa maliliit na koponan, mga mini-startup - iyon ay, sa dulo dapat tayong makakuha ng ilan natapos na mga proyekto. Gusto naming makakuha ng mga tunay na produkto, na aming bubuksan sa mga tao at iiwan sa pampublikong domain.

Bilang karagdagan sa mga direktang superbisor ng mga proyekto ng mag-aaral, gusto naming makahanap ng mga tagapangasiwa para sa kanila mula sa kanilang mga mga potensyal na employer- mula sa parehong "Yandex", halimbawa, na maglalaro din ng larong ito at magbibigay ng payo sa mga mag-aaral.

Umaasa ako na ang mga tao mula sa karamihan iba't ibang lugar: programmer, linguist, sociologist, marketer. Magkakaroon tayo ng ilang kurso sa adaptasyon sa linguistics, mathematics at programming. Pagkatapos ay magkakaroon tayo ng dalawang seryosong kurso sa linggwistika, at sila ay magkakaugnay sa pinaka-kaugnay mga teoryang pangwika, nais naming mabasa at maunawaan ng aming mga nagtapos ang mga kontemporaryong artikulo sa linggwistika. Ganun din sa mathematics. Magkakaroon tayo ng kursong tinatawag na "Mathematical Foundations of Computational Linguistics", na magpapakita ng mga seksyon ng matematika kung saan nakabatay ang modernong computational linguistics.

Upang makapag-enroll sa isang master's program, kailangan mong pumasa pagsusulit sa pasukan sa wika at makapasa sa isang portfolio competition.

Bilang karagdagan sa mga pangunahing kurso, magkakaroon ng isang linya ng mga elective na paksa. Nagplano kami ng ilang mga cycle - dalawa sa mga ito ay nakatuon sa isang mas malalim na pag-aaral ng mga indibidwal na paksa, na kinabibilangan, halimbawa, machine translation at corpus linguistics, at, sa sa kabaligtaran, ang isa ay nauugnay sa mga kaugnay na lugar: tulad ng , mga social network, machine learning o Digital Humanities - isang kurso na inaasahan naming ihahatid sa English.

Ang mga computer linguist ay nakikibahagi sa pagbuo ng mga algorithm ng pagkilala sa teksto at pagsasalita, ang synthesis ng artipisyal na pananalita, ang paglikha ng mga sistema ng pagsasalin ng semantiko at ang mismong pag-unlad ng artipisyal na katalinuhan (sa klasikal na kahulugan ng salita, bilang kapalit ng katalinuhan ng tao, ito ay malamang na hindi lilitaw, ngunit iba't ibang mga ekspertong sistema batay sa pagsusuri ng data).

Ang mga algorithm sa pagkilala sa pagsasalita ay lalong gagamitin sa pang-araw-araw na buhay - ang mga smart home at electronic device ay walang mga remote at button, ngunit isang voice interface ang gagamitin sa halip. Ang teknolohiyang ito ay ginagawang perpekto, ngunit mayroon pa ring maraming mga hamon: mahirap para sa isang computer na makilala ang pagsasalita ng tao, dahil iba't ibang tao ang nagsasalita. Samakatuwid, bilang panuntunan, gumagana nang maayos ang mga sistema ng pagkilala kapag sila ay sinanay para sa isang tagapagsalita at na-adjust na sa kanyang mga tampok sa pagbigkas, o kapag ang bilang ng mga parirala na makikilala ng system ay limitado (tulad ng, halimbawa, sa mga voice command para sa TV ).

Ang mga espesyalista sa paglikha ng mga programa sa pagsasalin ng semantiko ay mayroon pa ring maraming trabaho sa unahan nila: sa sandaling ito Ang mga mahusay na algorithm ay binuo lamang para sa pagsasalin sa at mula sa Ingles. Mayroong maraming mga problema dito - iba't ibang mga wika ay nakaayos nang iba sa isang semantic na plano, ito ay naiiba kahit na sa antas ng pagbuo ng parirala, at hindi lahat ng mga kahulugan ng isang wika ay maaaring maihatid gamit ang semantic apparatus ng isa pa. Bilang karagdagan, ang programa ay dapat makilala sa pagitan ng mga homonyms, tama na makilala ang mga bahagi ng pananalita, piliin tamang halaga polysemantic na salita na angkop sa konteksto.

Ang pag-synthesize ng artipisyal na pananalita (halimbawa, para sa mga robot sa bahay) ay maingat ding gawain. Mahirap gawing natural na tunog ang artipisyal na nilikhang pagsasalita tainga ng tao, dahil mayroong milyun-milyong mga nuances na hindi namin binibigyang pansin, ngunit kung wala ang lahat ay hindi na "iyon" - maling pagsisimula, pag-pause, pag-hitch, atbp. Ang stream ng pagsasalita ay tuloy-tuloy at sa parehong oras ay discrete: nagsasalita kami nang hindi humihinto sa pagitan ng mga salita, ngunit hindi mahirap para sa amin na maunawaan kung saan nagtatapos ang isang salita at nagsisimula ang isa pa, at para sa isang makina ito ay magiging isang malaking problema.

Ang pinakamalaking direksyon sa computational linguistics ay konektado sa Big Data. Pagkatapos ng lahat, mayroong malaking corpora ng mga teksto tulad ng mga feed ng balita, kung saan kailangan mong ihiwalay ang ilang partikular na impormasyon - halimbawa, i-highlight ang mga kaganapan sa balita o patalasin ang RSS sa panlasa ng isang partikular na user. Ang ganitong mga teknolohiya ay umiiral na at patuloy na bubuo, dahil ang kapangyarihan ng pag-compute ay mabilis na lumalaki. Ginagamit din ang linguistic analysis ng mga teksto upang matiyak ang seguridad sa Internet, paghahanap kinakailangang impormasyon para sa mga espesyal na serbisyo.

Saan mag-aaral bilang isang computational linguist? Kami, sa kasamaang-palad, ay may medyo malakas na dibisyon sa pagitan ng mga specialty na nauugnay sa classical linguistics at programming, statistics, at data analysis. At upang maging isang digital linguist, kailangan mong maunawaan ang pareho. AT mga dayuhang unibersidad may mga programa sa mas mataas na edukasyon sa computational linguistics, ngunit mayroon pa rin tayo pinakamahusay na pagpipilian- kumuha ng basic linguistic education, at pagkatapos ay master ang basics ng IT. Buti na lang marami nang iba't ibang online courses, unfortunately, nung student days ko, hindi ganito. Nag-aral ako sa Faculty of Applied Linguistics sa Moscow State Linguistic University, kung saan nagkaroon kami ng mga kurso sa artificial intelligence at speech recognition - ngunit hindi pa rin sapat. Ngayon ang mga kumpanya ng IT ay aktibong sinusubukang makipag-ugnayan sa mga institusyon. Sinusubukan din naming lumahok ang aking mga kasamahan mula sa Kaspersky Lab prosesong pang-edukasyon: nagbibigay kami ng mga lektura, nagdaraos ng mga kumperensya ng mag-aaral, nagbibigay ng mga gawad sa mga mag-aaral na nagtapos. Ngunit sa ngayon, ang inisyatiba ay higit na nagmumula sa mga employer kaysa sa mga unibersidad.

TRABAHO NG KURSO

sa disiplina na "Informatics"

sa paksang: "Computer Linguistics"

PANIMULA

2. Mga modernong interface ng computational linguistics

KONGKLUSYON

PANITIKAN

Panimula

Ang mga awtomatikong teknolohiya ng impormasyon ay may mahalagang papel sa buhay ng modernong lipunan. Sa paglipas ng panahon, ang kanilang halaga ay patuloy na tumataas. Ngunit ang pag-unlad ng teknolohiya ng impormasyon ay lubhang hindi pantay: kung modernong antas Ang teknolohiya ng kompyuter at paraan ng komunikasyon ay tumatama sa imahinasyon, pagkatapos ay sa larangan ng semantikong pagproseso ng impormasyon, ang mga tagumpay ay mas katamtaman. Ang mga tagumpay na ito ay nakasalalay, una sa lahat, sa mga tagumpay sa pag-aaral ng mga proseso ng pag-iisip ng tao, ang mga proseso ng komunikasyon sa pagsasalita sa pagitan ng mga tao, at sa kakayahang gayahin ang mga prosesong ito sa isang computer.

Pagdating sa paglikha ng mga promising na teknolohiya ng impormasyon, ang mga problema ng awtomatikong pagproseso impormasyon sa teksto ipinakita sa natural na mga wika ang nauuna. Ito ay tinutukoy ng katotohanan na ang pag-iisip ng isang tao ay malapit na konektado sa kanyang wika. Bukod dito, ang natural na wika ay isang kasangkapan ng pag-iisip. Siya rin unibersal na lunas komunikasyon sa pagitan ng mga tao - isang paraan ng pang-unawa, akumulasyon, imbakan, pagproseso at paghahatid ng impormasyon. Ang mga problema sa paggamit ng natural na wika sa mga awtomatikong sistema ng pagpoproseso ng impormasyon ay tinatalakay ng agham ng computational linguistics. Ang agham na ito ay lumitaw kamakailan - sa pagliko ng ikalimampu at ikaanimnapung taon ng huling siglo. Sa nakalipas na kalahating siglo, makabuluhang siyentipiko at praktikal na mga resulta ang nakuha sa larangan ng computational linguistics: system pagsasalin ng makina mga teksto mula sa isang natural na wika patungo sa isa pa, mga sistema para sa awtomatikong paghahanap ng impormasyon sa mga teksto, mga sistema para sa awtomatikong pagsusuri at synthesis ng oral speech, at marami pang iba. gawaing ito ay nakatuon sa pagbuo ng isang pinakamainam na interface ng computer gamit ang computational linguistics kapag nagsasagawa pananaliksik sa lingguwistika.

1. Lugar at papel ng computational linguistics sa linguistic research

AT modernong mundo Ang computational linguistic ay lalong ginagamit sa iba't ibang linguistic na pag-aaral.

Ang computational linguistics ay isang larangan ng kaalaman na may kaugnayan sa paglutas ng mga problema ng awtomatikong pagproseso ng impormasyon na ipinakita sa natural na wika. Sentral mga suliraning pang-agham Ang computational linguistics ay ang problema ng pagmomodelo ng proseso ng pag-unawa sa kahulugan ng mga teksto (transisyon mula sa teksto tungo sa isang pormal na representasyon ng kahulugan nito) at ang problema ng speech synthesis (transisyon mula sa isang pormal na representasyon ng kahulugan sa mga teksto sa natural na wika). Ang mga problemang ito ay lumitaw kapag nilulutas ang isang bilang ng mga inilapat na problema at, lalo na, ang mga problema ng awtomatikong pagtuklas at pagwawasto ng mga error kapag nagpapasok ng mga teksto sa isang computer, awtomatikong pagsusuri at synthesis ng oral speech, awtomatikong pagsasalin ng mga teksto mula sa isang wika patungo sa isa pa, komunikasyon sa isang computer sa natural na wika, awtomatikong pag-uuri at pag-index ng mga dokumento ng teksto, ang kanilang awtomatikong pagtukoy, paghahanap ng mga dokumento sa mga database ng buong teksto.

Ang mga tool sa linggwistika na nilikha at ginagamit sa computational linguistics ay maaaring nahahati sa dalawang bahagi: deklaratibo at pamamaraan. Kasama sa bahaging deklaratibo ang mga diksyonaryo ng mga yunit ng wika at pananalita, mga teksto at iba't ibang uri ng mga talahanayan ng gramatika, habang ang bahaging pamamaraan ay kinabibilangan ng mga paraan ng pagmamanipula ng mga yunit ng wika at pananalita, mga teksto at mga talahanayan ng gramatika. Ang interface ng computer ay tumutukoy sa procedural na bahagi ng computational linguistics.

Ang tagumpay sa paglutas ng mga inilapat na problema ng computational linguistics ay nakasalalay, una sa lahat, sa pagkakumpleto at katumpakan ng representasyon ng mga deklaratibong paraan sa memorya ng computer at sa kalidad ng mga pamamaraang pamamaraan. Sa ngayon, ang kinakailangang antas ng paglutas ng mga problemang ito ay hindi pa nakakamit, kahit na ang gawain sa larangan ng computational linguistics ay isinasagawa sa lahat. maunlad na bansa mundo (Russia, USA, England, France, Germany, Japan, atbp.).

Gayunpaman, mapapansin ang mga seryosong pang-agham at praktikal na tagumpay sa larangan ng computational linguistics. Kaya sa ilang mga bansa (Russia, USA, Japan, atbp.) ang mga eksperimental at pang-industriya na sistema para sa pagsasalin ng makina ng mga teksto mula sa isang wika patungo sa isa pa ay itinayo, ang isang bilang ng mga eksperimentong sistema para sa pakikipag-usap sa mga computer sa natural na wika ay binuo. , isinasagawa ang trabaho upang lumikha ng mga terminological data bank, thesauri, bilingual at multilingual na mga diksyonaryo ng makina (Russia, USA, Germany, France, atbp.), Ang mga sistema para sa awtomatikong pagsusuri at synthesis ng oral speech ay ginagawa (Russia, USA, Japan, atbp. .), isinasagawa ang pananaliksik sa larangan ng pagbuo ng mga modelo ng mga natural na wika.

Ang isang mahalagang metodolohikal na problema ng inilapat na computational linguistics ay ang tamang pagtatasa ng kinakailangang ugnayan sa pagitan ng mga bahagi ng deklaratibo at pamamaraan ng mga awtomatikong sistema ng pagproseso ng impormasyon ng teksto. Ano ang dapat na mas gusto: makapangyarihang mga pamamaraan sa pagkalkula batay sa medyo maliit na mga sistema ng bokabularyo na may maraming impormasyon sa gramatika at semantiko, o isang makapangyarihang bahagi ng deklarasyon na may medyo simpleng mga interface ng computer? Karamihan sa mga siyentipiko ay naniniwala na ang pangalawang paraan ay mas kanais-nais. Ito ay hahantong sa pagkamit ng mga praktikal na layunin nang mas mabilis, dahil sa kasong ito ay magkakaroon ng mas kaunting mga patay na dulo at mga hadlang na mahirap pagtagumpayan, at dito posible na gumamit ng mga computer sa mas malaking sukat upang i-automate ang pananaliksik at pag-unlad.

Ang pangangailangan na pakilusin ang mga pagsisikap, pangunahin sa pagbuo ng deklaratibong bahagi ng mga awtomatikong sistema ng pagpoproseso ng teksto, ay kinumpirma ng kalahating siglo ng karanasan sa pagbuo ng computational linguistics. Pagkatapos ng lahat, dito, sa kabila ng hindi mapag-aalinlanganang mga tagumpay ng agham na ito, ang sigasig para sa mga algorithmic na pamamaraan ay hindi nagdala ng inaasahang tagumpay. Mayroong kahit ilang pagkabigo sa mga posibilidad ng pamamaraang paraan.

Sa liwanag ng nabanggit, ang gayong landas ng pag-unlad ng computational linguistics ay tila nangangako, kapag ang mga pangunahing pagsisikap ay itutungo sa paglikha ng makapangyarihang mga diksyunaryo ng mga yunit ng wika at pananalita, ang pag-aaral ng kanilang semantic-syntactic na istraktura at ang paglikha ng mga pangunahing pamamaraan para sa morphological, semantic-syntactic at conceptual analysis at synthesis ng mga teksto. Gagawin nitong posible na malutas ang isang malawak na hanay ng mga inilapat na problema sa hinaharap.

Ang computational linguistics ay nahaharap, una sa lahat, ang mga gawain ng suporta sa wika para sa mga proseso ng pagkolekta, pag-iipon, pagproseso at paghahanap ng impormasyon. Ang pinakamahalaga sa kanila ay:

1. Automation ng compilation at linguistic processing ng machine dictionaries;

2. Automation ng mga proseso ng pag-detect at pagwawasto ng mga error kapag naglalagay ng mga text sa isang computer;

3. Awtomatikong pag-index ng mga dokumento at kahilingan sa impormasyon;

4. Awtomatikong pag-uuri at pagtukoy ng mga dokumento;

5. Linguistic na suporta ng mga proseso ng paghahanap ng impormasyon sa monolingual at multilingguwal na mga database;

6. Makinang pagsasalin ng mga teksto mula sa isang natural na wika patungo sa isa pa;

7. Pagbuo ng mga linguistic processor na nagbibigay sa mga user ng komunikasyon sa mga automated na intelligent information system (lalo na, sa mga expert system) sa natural na wika, o sa isang wikang malapit sa natural;

8. Pagkuha ng makatotohanang impormasyon mula sa mga di-pormal na teksto.

Isaalang-alang natin nang detalyado ang mga problemang pinakanauugnay sa paksa ng pananaliksik.

AT praktikal na gawain mga sentro ng impormasyon, mayroong pangangailangan upang malutas ang problema ng awtomatikong pagtuklas at pagwawasto ng mga error sa mga teksto kapag sila ay ipinasok sa isang computer. Ang kumplikadong gawaing ito ay maaaring nahahati sa tatlong gawain - ang mga gawain ng pagbabaybay, syntactic at semantic na kontrol ng mga teksto. Ang una sa mga ito ay maaaring malutas gamit ang isang morphological analysis procedure gamit ang isang medyo makapangyarihang reference machine dictionary ng word stems. Sa proseso ng kontrol sa pagbabaybay, ang mga salita ng teksto ay sumasailalim sa morphological analysis, at kung ang kanilang mga batayan ay natukoy sa mga batayan ng sangguniang diksyunaryo, kung gayon ang mga ito ay itinuturing na tama; kung hindi sila nakilala, kung gayon, sila, na sinamahan ng isang micro-context, ay ibinibigay para sa pagtingin ng isang tao. Nakikita at itinatama ng isang tao ang mga baluktot na salita, at ginagawa ng kaukulang software system ang mga pagwawasto na ito sa naitama na teksto.

Ang gawain ng syntactic control ng mga teksto upang makita ang mga error sa mga ito ay mas mahirap kaysa sa gawain ng kanilang kontrol sa pagbabaybay. Una, dahil kasama nito sa komposisyon nito ang gawain ng kontrol sa pagbabaybay bilang mandatoryong bahagi nito, at, pangalawa, dahil hindi pa ganap na naresolba ang problema ng syntactic analysis ng mga di-pormal na teksto. Gayunpaman, ang bahagyang syntactic na kontrol ng mga teksto ay lubos na posible. Mayroong dalawang paraan upang pumunta dito: alinman ay bumuo ng sapat na kinatawan ng mga diksyonaryo ng makina ng mga sangguniang istrukturang sintaktik at ihambing ang mga istrukturang sintaktik ng sinuri na teksto sa kanila; o bumuo ng isang kumplikadong sistema ng mga panuntunan para sa pagsuri sa pagkakapare-pareho ng gramatika ng mga elemento ng teksto. Ang unang paraan ay tila mas maaasahan sa amin, bagaman, siyempre, hindi nito ibinubukod ang posibilidad ng paggamit ng mga elemento ng pangalawang paraan. Ang syntactic na istraktura ng mga teksto ay dapat na inilarawan sa mga tuntunin ng mga klase ng gramatika ng mga salita (mas tiyak, sa anyo ng mga pagkakasunud-sunod ng mga hanay ng gramatikal na impormasyon para sa mga salita).

Ang gawain ng kontrol ng semantiko ng mga teksto upang makita ang mga error sa semantiko sa mga ito ay dapat na maiugnay sa klase ng mga gawaing artificial intelligence. Sa kabuuan, ito ay malulutas lamang sa batayan ng pagmomodelo ng mga proseso ng pag-iisip ng tao. Sa kasong ito, tila, kakailanganing lumikha ng makapangyarihang mga base ng kaalaman sa ensiklopediko at mga tool sa software para sa pagmamanipula ng kaalaman. Gayunpaman, para sa limitadong mga lugar ng paksa at para sa pormal na impormasyon, ang problemang ito ay lubos na malulutas. Dapat itong i-pose at lutasin bilang isang gawain ng semantic-syntactic na kontrol ng mga teksto.

Ang problema sa pag-automate ng pag-index ng mga dokumento at query ay tradisyonal para sa mga awtomatikong sistema ng paghahanap ng teksto. Sa una, ang pag-index ay naunawaan bilang ang proseso ng pagtatalaga ng mga indeks ng pag-uuri sa mga dokumento at query, na nagpapakita ng kanilang pampakay na nilalaman. Sa hinaharap, ang konseptong ito ay binago at ang terminong "pag-index" ay nagsimulang tumukoy sa proseso ng pagsasalin ng mga paglalarawan ng mga dokumento at mga query mula sa isang natural na wika tungo sa isang pormal na wika, sa partikular, sa wika ng "mga larawan sa paghahanap". Ang mga larawan ng paghahanap ng mga dokumento ay nagsimula, bilang panuntunan, na ginawa sa anyo ng mga listahan ng mga keyword at parirala na sumasalamin sa kanilang pampakay na nilalaman, at mga larawan ng paghahanap ng mga query - sa anyo ng mga lohikal na istruktura kung saan ang mga keyword at parirala ay konektado sa isa't isa sa pamamagitan ng lohikal at syntactic na mga operator.

Ang awtomatikong pag-index ng mga dokumento ay maginhawa upang isagawa ayon sa mga teksto ng kanilang mga abstract (kung mayroon man), dahil ang pangunahing nilalaman ng mga dokumento ay makikita sa mga abstract sa isang puro form. Maaaring gawin ang pag-index nang mayroon o walang kontrol sa thesaurus. Sa unang kaso, ang mga keyword at parirala ng reference machine dictionary ay hahanapin sa pamagat ng teksto ng dokumento at abstract nito, at ang mga matatagpuan lamang sa diksyunaryo ang kasama sa DOD. Sa pangalawang kaso, ang mga keyword at parirala ay kinukuha mula sa teksto at kasama sa POD, hindi alintana kung nabibilang ang mga ito sa anumang reference na diksyunaryo. Ipinatupad din ang ikatlong opsyon, kung saan, kasama ang mga termino mula sa thesaurus ng makina, kasama rin sa AML ang mga terminong kinuha mula sa pamagat at ang unang pangungusap ng abstract ng dokumento. Ipinakita ng mga eksperimento na ang mga POD na awtomatikong pinagsama-sama batay sa mga pamagat at abstract ng mga dokumento ay nagbibigay ng higit na pagkakumpleto ng paghahanap kaysa sa mga mano-manong pinagsama-samang POD. Ito ay ipinaliwanag sa pamamagitan ng katotohanan na ang awtomatikong sistema ng pag-index ay mas ganap na sumasalamin sa iba't ibang aspeto ng nilalaman ng mga dokumento kaysa sa manu-manong sistema ng pag-index.

Sa awtomatikong pag-index ng mga query, humigit-kumulang sa parehong mga problema ang lumitaw tulad ng sa awtomatikong pag-index ng mga dokumento. Dito kailangan mo ring kunin ang mga keyword at parirala mula sa teksto at gawing normal ang mga salitang kasama sa teksto ng query. Ang mga lohikal na link sa pagitan ng mga keyword at parirala at mga operator ng konteksto ay maaaring maipasok nang manu-mano o gamit ang isang awtomatikong pamamaraan. Isang mahalagang elemento Ang proseso ng awtomatikong pag-index ng isang query ay ang pagdaragdag ng mga keyword at parirala nito kasama ng mga kasingkahulugan at hyponym nito (minsan ay hypernym din at iba pang terminong nauugnay sa orihinal na termino ng query). Maaari itong gawin nang awtomatiko o interactive gamit ang isang machine thesaurus.

Bahagyang napag-isipan na namin ang problema ng pag-automate ng paghahanap para sa impormasyon ng dokumentaryo na may kaugnayan sa gawain ng awtomatikong pag-index. Ang pinaka-promising dito ay ang paghahanap ng mga dokumento sa pamamagitan ng kanilang buong mga teksto, dahil ang paggamit ng lahat ng uri ng mga pamalit para sa layuning ito (mga paglalarawan ng bibliograpiko, mga larawan ng paghahanap ng mga dokumento at mga teksto ng kanilang mga abstract) ay humahantong sa pagkawala ng impormasyon sa panahon ng paghahanap. Ang pinakamalaking pagkalugi ay nangyayari kapag ang kanilang mga paglalarawan sa bibliograpiko ay ginamit bilang mga pamalit para sa mga pangunahing dokumento, ang pinakamaliit - kapag ginamit ang mga abstract.

Mahalagang Tampok Ang mga katangian ng pagkuha ng impormasyon ay ang pagkakumpleto at katumpakan nito. Ang pagkakumpleto ng paghahanap ay maaaring matiyak sa pamamagitan ng pagsasaalang-alang hangga't maaari sa paradigmatic na koneksyon sa pagitan ng mga yunit ng wika at pagsasalita (mga salita at parirala), at ang katumpakan - sa pamamagitan ng pagsasaalang-alang sa kanilang mga syntagmatic na koneksyon. May isang opinyon na ang pagkakumpleto at katumpakan ng paghahanap ay kabaligtaran na nauugnay: ang mga hakbang upang mapabuti ang isa sa mga katangiang ito ay humahantong sa isang pagkasira sa isa pa. Ngunit ito ay totoo lamang para sa nakapirming lohika sa paghahanap. Kung ang lohika na ito ay napabuti, ang parehong mga katangian ay maaaring mapabuti nang sabay-sabay.

Ang proseso ng paghahanap ng impormasyon sa mga full-text database ay dapat na binuo bilang isang proseso ng interactive na komunikasyon sa pagitan ng isang user at isang information retrieval system (IPS), kung saan sunud-sunod niyang tinitingnan ang mga fragment ng text (mga talata, mga talata) na nagbibigay-kasiyahan. lohikal na kondisyon humiling, at pinipili ang mga interesado sa kanya. Bilang ang huling resulta ng paghahanap ay maaaring ibigay bilang buong mga teksto mga dokumento, gayundin ang alinman sa kanilang mga fragment.

Tulad ng makikita sa mga naunang pagsasaalang-alang, sa awtomatikong paghahanap ng impormasyon, kailangang malampasan ang hadlang sa wika na lumitaw sa pagitan ng gumagamit at ng IPS dahil sa iba't ibang anyo ng representasyon ng parehong kahulugan na nagaganap sa mga teksto. Ang hadlang na ito ay nagiging mas makabuluhan kung kailangan mong maghanap sa mga database ng multilingual. Ang pangunahing solusyon ng problema dito ay maaaring makina na pagsasalin ng mga teksto ng mga dokumento mula sa isang wika patungo sa isa pa. Maaari itong gawin nang maaga, bago mag-upload ng mga dokumento sa isang search engine, o sa proseso ng paghahanap ng impormasyon. AT huling kaso ang kahilingan ng user ay dapat isalin sa wika ng hanay ng mga dokumento kung saan isinasagawa ang paghahanap, at ang mga resulta ng paghahanap - sa wika ng query. Ng ganyang klase mga search engine nagtatrabaho na sa Internet. Ang Cyrillic Browser system ay binuo din sa VINITI RAS, na ginagawang posible na maghanap ng impormasyon sa mga tekstong Russian-language sa mga query sa English na ang mga resulta ng paghahanap ay ipinapakita din sa wika ng user.

Ang isang mahalaga at promising na gawain ng computational linguistics ay ang pagbuo ng mga linguistic processor na nagbibigay sa mga user ng komunikasyon sa mga matalinong automated information system (lalo na, sa mga expert system) sa natural na wika o sa isang wikang malapit sa natural. Dahil ang impormasyon ay naka-imbak sa isang pormal na anyo sa mga modernong intelligent system, ang mga linguistic processor, na kumikilos bilang mga tagapamagitan sa pagitan ng isang tao at isang computer, ay dapat lutasin ang mga sumusunod na pangunahing gawain: 1) ang gawain ng paglipat mula sa mga teksto ng mga kahilingan sa impormasyon ng input at mga mensahe sa natural na wika sa kumakatawan sa kanilang kahulugan sa isang pormal na wika (kapag nagpasok ng impormasyon sa isang computer); 2) ang gawain ng paglipat mula sa isang pormal na representasyon ng kahulugan ng mga mensahe ng output sa representasyon nito sa natural na wika (kapag ang impormasyon ay ibinigay sa isang tao). Ang unang gawain ay dapat lutasin sa pamamagitan ng morphological, syntactic at conceptual analysis ng input requests at messages, ang pangalawa - sa pamamagitan ng conceptual, syntactic at morphological synthesis ng mga output message.

Ang pagsusuri sa konsepto ng mga kahilingan at mensahe ng impormasyon ay binubuo sa pagtukoy sa kanilang istrukturang konsepto (ang mga hangganan ng mga pangalan ng mga konsepto at mga relasyon sa pagitan ng mga konsepto sa teksto) at pagsasalin ng istrukturang ito sa isang pormal na wika. Isinasagawa ito pagkatapos ng morphological at syntactic analysis ng mga kahilingan at mensahe. Ang konseptwal na synthesis ng mga mensahe ay binubuo sa paglipat mula sa representasyon ng mga elemento ng kanilang istruktura sa isang pormal na wika tungo sa isang verbal (berbal) na representasyon. Pagkatapos nito, ang mga mensahe ay binibigyan ng kinakailangang syntactic at morphological na disenyo.

Para sa makina na pagsasalin ng mga teksto mula sa isang natural na wika patungo sa isa pa, kinakailangan na magkaroon ng mga diksyunaryo ng mga pagkakatugma ng pagsasalin sa pagitan ng mga pangalan ng mga konsepto. Ang kaalaman tungkol sa naturang mga pagsusulatan sa pagsasalin ay naipon ng maraming henerasyon ng mga tao at inilabas sa anyo ng mga espesyal na edisyon - mga diksyunaryong bilingual o multilingual. Para sa mga dalubhasa na sa ilang lawak ay nakakaalam ng mga wikang banyaga, ang mga diksyunaryong ito ay nagsilbing mahalagang tulong sa pagsasalin ng mga teksto.

Sa tradisyonal na bilingual at multilingguwal na mga diksyunaryo Pangkalahatang layunin ang mga katumbas ng paglipat ay ipinahiwatig pangunahin para sa mga indibidwal na salita, para sa mga parirala - mas madalas. Ang indikasyon ng mga katumbas ng pagsasalin para sa mga parirala ay mas karaniwan para sa mga espesyal na terminolohikal na diksyunaryo. Samakatuwid, kapag nagsasalin ng mga segment ng mga teksto na naglalaman ng mga polysemantic na salita, kadalasang nahihirapan ang mga mag-aaral.

Nasa ibaba ang mga pagsusulatan sa pagsasalin sa pagitan ng ilang pares ng mga pariralang Ingles at Ruso sa mga paksang "paaralan".

1) Ang paniki ay parang daga na may pakpak - Ang paniki ay parang daga na may pakpak.

2) Mahilig maglaro ang mga bata sa buhangin sa dalampasigan - Mahilig maglaro ang mga bata sa buhangin sa dalampasigan.

3) Isang patak ng ulan ang bumagsak sa aking kamay - Isang patak ng ulan ang bumagsak sa aking kamay.

4) Madaling nasusunog ang tuyong kahoy - mahusay na nasusunog ang tuyong kahoy.

5) Nagkunwari siyang hindi niya ako narinig - Nagkunwari siyang hindi niya ako naririnig.

Dito ang mga pariralang Ingles ay hindi idiomatic expression. Gayunpaman, ang kanilang pagsasalin sa Russian ay maaari lamang isaalang-alang, na may ilang kahabaan, bilang isang simpleng pagsasalin ng salita-sa-salita, dahil halos lahat ng mga salitang kasama sa mga ito ay polysemous. Samakatuwid, ang mga nagawa lamang ng computational linguistics ang makakatulong sa mga mag-aaral dito.

Ang nilalaman ng artikulo

COMPUTER LINGUISTICS, direksyon sa inilapat na lingguwistika, na nakatuon sa paggamit ng mga tool sa computer - mga programa, teknolohiya ng computer para sa pag-aayos at pagproseso ng data - para sa pagmomodelo ng paggana ng isang wika sa ilang mga kundisyon, sitwasyon, lugar ng problema, atbp., pati na rin ang buong saklaw ng computer modelo ng wika sa linggwistika at mga kaugnay na disiplina. Sa totoo lang, sa huling kaso lamang ay pinag-uusapan natin ang tungkol sa inilapat na linggwistika sa mahigpit na kahulugan, dahil ang pagmomodelo ng computer ng isang wika ay maaari ding ituring bilang isang saklaw ng aplikasyon ng computer science at teorya ng programming sa paglutas ng mga problema ng agham ng wika. Sa pagsasagawa, gayunpaman, halos lahat ng bagay na may kaugnayan sa paggamit ng mga kompyuter sa linggwistika ay tinutukoy bilang computational linguistics.

Bilang isang espesyal na direksyong pang-agham, nabuo ang computational linguistics noong 1960s. Ang terminong Ruso na "computational linguistics" ay isang tracing-paper mula sa English computational linguistics. Dahil ang adjective computational sa Russian ay maaari ding isalin bilang "computational", ang terminong "computational linguistics" ay matatagpuan din sa panitikan, ngunit sa Russian science nakakakuha ito ng mas makitid na kahulugan, na lumalapit sa konsepto ng "quantitative linguistics". Napakataas ng daloy ng mga publikasyon sa lugar na ito. Maliban sa pampakay na mga koleksyon, sa Estados Unidos, ang journal na Computational Linguistics ay inilalathala kada quarter. Mahusay na organisasyon at gawaing siyentipiko ay isinasagawa ng Association for Computational Linguistics, na mayroong mga istrukturang panrehiyon (sa partikular, ang sangay sa Europa). Bawat dalawang taon mayroong mga internasyonal na kumperensya sa computational linguistics - COLING. Ang mga nauugnay na isyu ay karaniwang malawak na kinakatawan din sa iba't ibang mga kumperensya sa artificial intelligence.

Toolkit ng Computational Linguistics.

Ang computational linguistics, bilang isang espesyal na inilapat na disiplina, ay pangunahing nakikilala sa pamamagitan ng tool nito - i.e. sa paggamit ng mga tool sa computer para sa pagproseso ng data ng wika. Sa abot ng programa ng Computer, ang pagmomodelo ng ilang mga aspeto ng paggana ng wika, ay maaaring gumamit ng higit iba't ibang paraan programming, pagkatapos ay tila hindi na kailangang pag-usapan ang tungkol sa pangkalahatang konseptwal na kagamitan ng computational linguistics. Gayunpaman, hindi ito. May mga pangkalahatang prinsipyo computer simulation pag-iisip, na kahit papaano ay ipinatupad sa anumang modelo ng computer. Ang mga ito ay batay sa teorya ng kaalaman, na orihinal na binuo sa larangan ng artificial intelligence, at kalaunan ay naging isa sa mga seksyon ng cognitive science. Ang pinakamahalagang mga konseptong kategorya Ang computational linguistics ay mga istruktura ng kaalaman tulad ng "mga frame" (konseptwal, o, gaya ng sinasabi nila, mga istrukturang konseptwal para sa deklaratibong representasyon ng kaalaman tungkol sa isang typified thematically unified na sitwasyon), "scenario" (conceptual structures para sa procedural na representasyon ng kaalaman tungkol sa isang stereotypical sitwasyon o stereotypical na pag-uugali), "mga plano" (mga istruktura ng kaalaman na nag-aayos ng mga ideya tungkol sa mga posibleng aksyon humahantong sa tagumpay tiyak na layunin). Ang konsepto ng "eksena" ay malapit na nauugnay sa kategorya ng frame. Pangunahing ginagamit ang kategorya ng eksena sa literatura sa computational linguistics bilang pagtatalaga ng isang konseptwal na istraktura para sa deklaratibong representasyon ng mga sitwasyon at ang kanilang mga bahagi na aktuwal sa isang speech act at na-highlight sa pamamagitan ng linguistic na paraan (lexemes, syntactic constructions, grammatical na kategorya, atbp. .).

Ang isang tiyak na organisadong hanay ng mga istruktura ng kaalaman ay bumubuo ng "modelo ng mundo" ng sistema ng pag-iisip at ang modelo ng computer nito. Sa mga sistema ng artificial intelligence, ang modelo ng mundo ay bumubuo ng isang espesyal na bloke, na, depende sa napiling arkitektura, ay maaaring kasama pangkalahatang kaalaman tungkol sa mundo (sa anyo ng mga simpleng proposisyon tulad ng "malamig sa taglamig" o sa anyo ng mga panuntunan sa produksyon "kung umuulan sa labas, kailangan mong magsuot ng kapote o kumuha ng payong"), ilang partikular na katotohanan ("Ang pinakamataas na rurok sa mundo ay ang Everest"), at gayundin ang mga halaga at ang kanilang mga hierarchy, kung minsan ay ibinubukod sa isang espesyal na "axiological block".

Karamihan sa mga elemento ng mga konsepto ng mga tool sa computational linguistics ay magkatulad: sabay-sabay nilang itinalaga ang ilang mga tunay na entidad ng sistema ng pag-iisip ng tao at mga paraan ng pagkatawan sa mga entidad na ito na ginamit sa kanilang teoretikal na paglalarawan at pagmomodelo. Sa madaling salita, ang mga elemento konseptwal na kagamitan Ang computational linguistics ay may ontological at instrumental na aspeto. Halimbawa, sa ontological na aspeto, ang paghihiwalay ng deklaratibo at procedural na kaalaman ay tumutugma sa iba't ibang uri kaalaman na mayroon ang isang tao - ang tinatawag na kaalaman sa ANO (declarative; tulad, halimbawa, kaalaman postal address ng ilang NN), sa isang banda, at kaalaman sa HOW (procedural; tulad, halimbawa, kaalaman na nagpapahintulot sa iyo na mahanap ang apartment ng NN na ito, kahit na hindi alam ang pormal na address nito) - sa kabilang banda. Sa instrumental na aspeto, ang kaalaman ay maaaring katawanin sa isang set ng mga paglalarawan (mga paglalarawan), sa isang set ng data, sa isang banda, at sa isang algorithm, isang pagtuturo na ang isang computer o ilang iba pang modelo ng isang cognitive system ay isinasagawa, sa iba pa.

Direksyon ng Computational Linguistics.

Ang globo ng CL ay napaka-magkakaibang at kabilang ang mga lugar tulad ng computer modeling ng komunikasyon, pagmomodelo ng plot structure, hypertext technologies para sa text presentation, machine translation, computer lexicography. AT maliit na pagiisip Ang mga isyu sa CL ay madalas na nauugnay sa isang interdisciplinary na inilapat na lugar na may medyo kapus-palad na pangalan na "natural na pagpoproseso ng wika" (pagsasalin ng terminong Ingles na Natural Language Processing). Bumangon ito noong huling bahagi ng 1960s at binuo sa loob ng balangkas ng disiplinang pang-agham at teknolohikal na "artificial intelligence". Sa sarili nitong paraan panloob na anyo ang pariralang "natural na pagpoproseso ng wika" ay sumasaklaw sa lahat ng lugar kung saan ginagamit ang mga computer upang iproseso ang data ng wika. Samantala, ang isang mas makitid na pag-unawa sa terminong ito ay naayos na sa pagsasanay - ang pagbuo ng mga pamamaraan, teknolohiya at mga tiyak na sistema na nagsisiguro ng komunikasyon sa pagitan ng isang tao at isang computer sa natural o limitadong natural na wika.

Ang mabilis na pag-unlad ng direksyon ng "natural na pagpoproseso ng wika" ay bumagsak noong 1970s, na nauugnay sa isang hindi inaasahang exponential na paglaki sa bilang ng mga end user ng mga computer. Dahil imposibleng magturo ng mga wika at teknolohiya ng programming sa lahat ng mga gumagamit, ang problema sa pag-aayos ng pakikipag-ugnayan sa mga programa sa computer ay lumitaw. Ang solusyon sa problemang ito ng komunikasyon ay sumunod sa dalawang pangunahing landas. Sa unang kaso, ang mga pagtatangka ay ginawa upang iakma ang mga programming language at operating system sa end user. Bilang resulta, lumitaw ang mataas na antas ng mga wika tulad ng Visual Basic, pati na rin ang mga maginhawang operating system na binuo sa konseptong espasyo ng mga metapora na pamilyar sa mga tao - DESK, LIBRARY. Ang pangalawang paraan ay ang pagbuo ng mga system na magpapahintulot sa pakikipag-ugnayan sa isang computer sa isang partikular na lugar ng problema sa isang natural na wika o ilang limitadong bersyon nito.

Ang arkitektura ng mga natural na sistema ng pagpoproseso ng wika ay karaniwang may kasamang yunit ng pagsusuri mensahe ng boses user, isang bloke ng interpretasyon ng mensahe, isang bloke para sa pagbuo ng kahulugan ng isang sagot, at isang bloke para sa pag-synthesize ng istrukturang pang-ibabaw ng isang pahayag. Ang isang espesyal na bahagi ng system ay ang bahagi ng diyalogo, na naglalaman ng mga diskarte sa pag-uusap, ang mga kondisyon para sa paglalapat ng mga estratehiyang ito, at mga paraan upang madaig ang mga posibleng pagkabigo sa komunikasyon (mga pagkabigo sa proseso ng komunikasyon).

Sa mga sistema ng computer sa pagpoproseso ng natural na wika, ang mga sistema ng tanong-sagot ay karaniwang nakikilala, mga sistema ng diyalogo paglutas ng problema at konektadong mga sistema ng pagpoproseso ng teksto. Sa una, ang mga sistema ng tanong-sagot ay nagsimulang mabuo bilang tugon sa mahinang kalidad pag-encode ng mga query kapag naghahanap ng impormasyon sa mga sistema ng pagkuha ng impormasyon. Dahil ang lugar ng problema ng naturang mga sistema ay napakalimitado, ito ay medyo pinasimple ang mga algorithm para sa pagsasalin ng mga query sa isang pormal na representasyon ng wika at ang kabaligtaran na pamamaraan para sa pagbabago ng isang pormal na representasyon sa mga natural na pahayag ng wika. Mula sa mga domestic development, ang POET system, na nilikha ng isang pangkat ng mga mananaliksik na pinamumunuan ni E.V. Popov, ay kabilang sa mga programa ng ganitong uri. Pinoproseso ng system ang mga kahilingan sa Russian (na may maliliit na paghihigpit) at nag-synthesize ng tugon. Ipinapalagay ng block diagram ng programa ang pagpasa ng lahat ng mga yugto ng pagsusuri (morphological, syntactic at semantic) at ang kaukulang mga yugto ng synthesis.

Ang mga sistema ng diyalogo para sa paglutas ng mga problema, hindi tulad ng mga sistema ng nakaraang uri, ay naglalaro sa komunikasyon aktibong papel, dahil ang kanilang gawain ay upang makakuha ng isang solusyon sa problema batay sa kaalaman na ipinakita dito mismo, at sa impormasyon na maaaring makuha mula sa gumagamit. Ang system ay naglalaman ng mga istruktura ng kaalaman na nagtatala ng mga tipikal na pagkakasunud-sunod ng mga aksyon para sa paglutas ng mga problema sa isang partikular na lugar ng problema, pati na rin ang impormasyon tungkol sa kinakailangang mapagkukunan. Kapag ang user ay nagtanong o nagtakda ng isang tiyak na gawain, ang kaukulang script ay isinaaktibo. Kung nawawala ang ilang bahagi ng script o nawawala ang ilang mapagkukunan, sisimulan ng system ang komunikasyon. Ganito, halimbawa, gumagana ang sistema ng SNUKA, na lumulutas sa mga problema ng pagpaplano ng mga operasyong militar.

Ang mga konektadong sistema ng pagpoproseso ng teksto ay medyo magkakaiba sa istraktura. Sila karaniwang tampok maaaring ituring na malawakang paggamit ng mga teknolohiya sa representasyon ng kaalaman. Ang mga tungkulin ng ganitong uri ng mga sistema ay upang maunawaan ang teksto at sagutin ang mga tanong tungkol sa nilalaman nito. Ang pag-unawa ay itinuturing na hindi bilang isang unibersal na kategorya, ngunit bilang isang proseso ng pagkuha ng impormasyon mula sa isang teksto, na tinutukoy ng isang tiyak na layunin ng komunikasyon. Sa madaling salita, ang teksto ay "basahin" lamang sa pag-aakalang ito ang potensyal na gumagamit na gustong malaman ang tungkol dito. Kaya, ang mga konektadong sistema ng pagpoproseso ng teksto ay hindi nangangahulugang pangkalahatan, ngunit nakatuon sa problema. Ang mga karaniwang halimbawa ng mga sistema ng uri na tinatalakay ay ang mga sistema ng RESEARCHER at TAILOR, na bumubuo ng iisang software package, na nagpapahintulot sa gumagamit na makakuha ng impormasyon mula sa mga abstract ng mga patent na naglalarawan ng mga kumplikadong pisikal na bagay.

Ang pinakamahalagang lugar ng computational linguistics ay ang pagbuo ng mga information retrieval system (IPS). Ang huli ay lumitaw sa huling bahagi ng 1950s at unang bahagi ng 1960s bilang tugon sa isang matalim na pagtaas sa dami ng siyentipiko at teknikal na impormasyon. Sa pamamagitan ng uri ng nakaimbak at naprosesong impormasyon, pati na rin sa mga tampok ng paghahanap, ang IPS ay nahahati sa dalawang malalaking grupo - dokumentaryo at makatotohanan. Ang mga sistema ng impormasyon sa dokumentaryo ay nag-iimbak ng mga teksto ng mga dokumento o ang kanilang mga paglalarawan (mga abstract, bibliographic card, atbp.). Ang Factographic IPS ay nakikitungo sa paglalarawan ng mga tiyak na katotohanan, at hindi kinakailangan sa textual form. Maaari itong maging mga talahanayan, formula at iba pang uri ng presentasyon ng data. Mayroon ding mga halo-halong IPS na kinabibilangan ng parehong mga dokumento at impormasyon sa katotohanan. Sa kasalukuyan, ang mga factographic information system ay binuo batay sa mga teknolohiya ng database (DB). Upang magbigay ng pagkuha ng impormasyon sa IPS, ang mga espesyal na wika sa pagkuha ng impormasyon ay nilikha, na batay sa thesauri sa pagkuha ng impormasyon. Ang wika sa pagkuha ng impormasyon ay isang pormal na wika na idinisenyo upang ilarawan ang ilang mga aspeto ng plano ng nilalaman ng mga dokumentong nakaimbak sa IPS at ang kahilingan. Ang pamamaraan para sa paglalarawan ng isang dokumento sa isang wika ng pagkuha ng impormasyon ay tinatawag na pag-index. Bilang resulta ng pag-index, ang bawat dokumento ay itinalaga ang pormal na paglalarawan nito sa wika ng pagkuha ng impormasyon - ang imahe ng paghahanap ng dokumento. Katulad nito, na-index ang query, kung saan itinalaga ang larawan ng paghahanap ng query at ang reseta sa paghahanap. Ang mga algorithm sa pagkuha ng impormasyon ay batay sa paghahambing ng reseta sa paghahanap sa larawan ng paghahanap ng query. Ang pamantayan para sa pag-isyu ng dokumento para sa isang kahilingan ay maaaring binubuo ng isang buo o bahagyang tugma sa pagitan ng imahe ng paghahanap ng dokumento at ng reseta sa paghahanap. Sa ilang mga kaso, ang gumagamit ay may pagkakataon na bumalangkas mismo ng pamantayan sa pagpapalabas. Ito ay tinutukoy ng kanyang pangangailangan sa impormasyon. Ang mga naglalarawang wika sa pagkuha ng impormasyon ay mas madalas na ginagamit sa mga automated na IS. Ang paksa ng dokumento ay inilalarawan ng isang hanay ng mga descriptor. Ang mga salita at termino na nagsasaad ng simple, medyo elementarya na mga kategorya at mga konsepto ng lugar ng problema ay nagsisilbing mga deskriptor. Tulad ng maraming mga deskriptor ay ipinasok sa imahe ng paghahanap ng dokumento bilang iba't ibang paksa apektado ng dokumento. Ang bilang ng mga descriptor ay hindi limitado, na ginagawang posible na ilarawan ang dokumento sa isang multidimensional na feature matrix. Kadalasan, sa isang descriptor information retrieval language, ang mga paghihigpit ay ipinapataw sa combinability ng mga descriptor. Sa kasong ito, maaari nating sabihin na ang wika ng pagkuha ng impormasyon ay may syntax.

Isa sa mga unang sistemang gumana sa isang descriptor na wika ay sistemang Amerikano UNITERM nilikha ni M. Taube. Sa sistemang ito, ang mga keyword ng dokumento, ang uniterms, ay gumana bilang mga deskriptor. Ang kakaiba ng IPS na ito ay sa una ang diksyunaryo ng wika ng impormasyon ay hindi naitakda, ngunit lumitaw sa proseso ng pag-index ng dokumento at query. Ang pagbuo ng mga modernong sistema ng pagkuha ng impormasyon ay nauugnay sa pagbuo ng hindi-thesaurus-type na IPS. Ang ganitong IPS ay gumagana sa gumagamit sa isang limitadong natural na wika, at ang paghahanap ay isinasagawa sa mga teksto ng abstracts ng mga dokumento, sa kanilang mga bibliographic na paglalarawan, at madalas sa mga dokumento mismo. Para sa pag-index sa hindi-thesaurus na uri ng IPS, ginagamit ang mga salita at parirala ng natural na wika.

Sa isang tiyak na lawak, ang larangan ng computational linguistics ay maaaring magsama ng mga gawa sa larangan ng paglikha ng mga hypertext system, na isinasaalang-alang bilang isang espesyal na paraan ng pag-aayos ng teksto at kahit na sa panimula. ang bagong uri teksto, na sumasalungat sa marami sa mga katangian nito sa karaniwang tekstong nabuo sa tradisyon ng palalimbagan ng Gutenberg. Ang ideya ng hypertext ay nauugnay sa pangalan ni Vannevar Bush, ang tagapayo sa agham ni Pangulong F. Roosevelt. Teoretikal na pinatunayan ni W. Bush ang proyekto ng teknikal na sistemang "Memex", na nagpapahintulot sa gumagamit na i-link ang mga teksto at ang kanilang mga fragment sa pamamagitan ng iba't ibang uri ng mga link, pangunahin sa pamamagitan ng mga nauugnay na relasyon. kawalan teknolohiya ng kompyuter ginawang mahirap ipatupad ang proyekto, dahil napatunayang masyadong kumplikado ang mekanikal na sistema para sa praktikal na pagpapatupad.

Ang ideya ni Bush noong dekada 1960 ay nakatanggap ng pangalawang kapanganakan sa sistemang "Xanadu" ng T. Nelson, na ipinapalagay na ang paggamit ng teknolohiya sa kompyuter. Pinahintulutan ng "Xanadu" ang user na basahin ang kabuuan ng mga text na ipinasok sa system iba't ibang paraan, sa iba't ibang mga pagkakasunud-sunod, ginawang posible ng software na parehong kabisaduhin ang pagkakasunud-sunod ng mga tekstong tiningnan, at piliin ang halos alinman sa mga ito sa isang arbitrary na punto ng oras. Ang isang set ng mga teksto na may mga relasyon na nag-uugnay sa kanila (isang sistema ng mga transisyon) ay tinawag na hypertext ni T. Nelson. Itinuturing ng maraming mananaliksik ang paglikha ng hypertext bilang simula ng isang bagong edad ng impormasyon, laban sa panahon ng pag-print. Ang linearity ng pagsulat, panlabas na sumasalamin sa linearity ng pananalita, lumalabas na isang pangunahing kategorya na naglilimita sa pag-iisip at pag-unawa ng tao sa teksto. Ang mundo ng kahulugan ay hindi linear, samakatuwid, ang compression ng semantic na impormasyon sa isang linear na segment ng pagsasalita ay nangangailangan ng paggamit ng mga espesyal na "komunikatibo na pakete" - paghahati sa paksa at rheme, paghahati ng plano ng nilalaman ng pagsasalita sa tahasang (pahayag, panukala, focus) at implicit (pagpapalagay, kinahinatnan, implicature ng diskurso) mga layer . Ang pagtanggi sa linearity ng teksto kapwa sa proseso ng presentasyon nito sa mambabasa (i.e., sa pagbabasa at pag-unawa) at sa proseso ng synthesis, ayon sa mga teorista, ay makatutulong sa "pagpalaya" ng pag-iisip at maging ang paglitaw ng mga bagong anyo nito.

Sa isang computer system, ang hypertext ay kinakatawan bilang isang graph, ang mga node na naglalaman ng mga tradisyonal na teksto o ang kanilang mga fragment, larawan, talahanayan, video, atbp. Ang mga node ay konektado sa pamamagitan ng iba't ibang mga relasyon, ang mga uri nito ay tinukoy ng mga developer ng hypertext software o ng mismong mambabasa. Tinutukoy ng mga relasyon ang mga potensyal na posibilidad ng paggalaw, o pag-navigate sa pamamagitan ng hypertext. Ang mga relasyon ay maaaring unidirectional o bidirectional. Alinsunod dito, binibigyang-daan ng mga bidirectional arrow ang user na lumipat sa parehong direksyon, habang ang unidirectional na arrow ay nagpapahintulot sa user na lumipat lamang sa isang direksyon. Ang kadena ng mga node na dinaraanan ng mambabasa habang tinitingnan ang mga bahagi ng teksto ay bumubuo ng isang landas, o ruta.

Hierarchical o network ang mga pagpapatupad ng computer ng hypertext. Ang hierarchical - tulad ng puno - istraktura ng hypertext ay makabuluhang nililimitahan ang mga posibilidad ng paglipat sa pagitan ng mga bahagi nito. Sa naturang hypertext, ang mga ugnayan sa pagitan ng mga bahagi ay kahawig ng istruktura ng isang thesaurus batay sa mga relasyon ng genus-species. Binibigyang-daan ka ng network hypertext na gumamit ng iba't ibang uri ng mga relasyon sa pagitan ng mga bahagi, hindi limitado sa mga relasyon ng genus-species. Ayon sa paraan ng pagkakaroon ng hypertext, ang mga static at dynamic na hypertext ay nakikilala. Ang static na hypertext ay hindi nagbabago sa panahon ng operasyon; sa loob nito, maaaring i-record ng user ang kanyang mga komento, ngunit hindi nila binabago ang kakanyahan ng bagay. Para sa dinamikong hypertext, ang pagbabago ay isang normal na anyo ng pagkakaroon. Karaniwan, ang mga dynamic na hypertext ay gumagana kung saan kinakailangan upang patuloy na pag-aralan ang daloy ng impormasyon, i.e. sa mga serbisyo ng impormasyon ng iba't ibang uri. Ang hypertext ay, halimbawa, ang Arizona Information System (AAIS), na ina-update buwan-buwan na may 300–500 abstract bawat buwan.

Ang mga ugnayan sa pagitan ng mga elemento ng hypertext ay maaaring paunang ayusin ng mga tagalikha, o maaari silang mabuo sa tuwing ina-access ng user ang hypertext. Sa unang kaso, pinag-uusapan natin ang tungkol sa mga hypertext ng isang matibay na istraktura, at sa pangalawang kaso, tungkol sa mga hypertext ng isang malambot na istraktura. Ang matibay na istraktura ay medyo malinaw sa teknolohiya. Ang teknolohiya para sa pag-aayos ng isang malambot na istraktura ay dapat na batay sa isang semantikong pagsusuri ng kalapitan ng mga dokumento (o iba pang mga mapagkukunan ng impormasyon) sa bawat isa. Ito ay isang di-trivial na gawain ng computational linguistics. Sa kasalukuyan, laganap ang paggamit ng mga soft structure na teknolohiya sa mga keyword. Ang paglipat mula sa isang node patungo sa isa pa sa hypertext network ay isinasagawa bilang resulta ng paghahanap ng mga keyword. Dahil ang hanay ng mga keyword ay maaaring mag-iba sa bawat oras, ang istraktura ng hypertext ay nagbabago din sa bawat oras.

Ang teknolohiya ng pagbuo ng mga hypertext system ay hindi nakikilala sa pagitan ng textual at non-textual na impormasyon. Samantala, ang pagsasama ng visual at audio na impormasyon (mga video, painting, litrato, sound recording, atbp.) ay nangangailangan makabuluhang pagbabago user interface at mas malakas na software at suporta sa computer. Ang ganitong mga sistema ay tinatawag na hypermedia, o multimedia. Ang kakayahang makita ng mga multimedia system ay paunang natukoy ang kanilang malawakang paggamit sa edukasyon, sa paglikha ng mga bersyon ng computer ng mga encyclopedia. Mayroong, halimbawa, mga magagandang CD-rom na may mga multimedia system para sa mga encyclopedia ng mga bata mula sa Dorlin Kindersley publishing house.

Sa loob ng balangkas ng computer lexicography, ang mga teknolohiya ng computer para sa pagsasama-sama at pagpapatakbo ng mga diksyunaryo ay binuo. Ang mga espesyal na programa - mga database, computer filing cabinet, mga text processing program - nagbibigay-daan sa iyong awtomatikong bumuo ng mga entry sa diksyunaryo, mag-imbak ng impormasyon ng diksyunaryo at iproseso ito. Maraming iba't ibang mga computer lexicographic program ang nahahati sa dalawang malalaking grupo: mga programa para sa pagsuporta sa mga lexicographic na gawa at mga awtomatikong diksyunaryo ng iba't ibang uri, kabilang ang mga database ng lexicographic. Ang awtomatikong diksyunaryo ay isang diksyunaryo sa isang espesyal na format ng makina na idinisenyo para gamitin sa isang computer ng isang user o isang computer word processing program. Sa madaling salita, may pagkakaiba sa pagitan ng mga awtomatikong end-user na diksyunaryo ng tao at mga awtomatikong diksyunaryo para sa mga programa sa pagpoproseso ng salita. Ang mga awtomatikong diksyunaryo na inilaan para sa end user, sa mga tuntunin ng interface at istraktura ng isang entry sa diksyunaryo, ay malaki ang pagkakaiba sa mga awtomatikong diksyunaryo na kasama sa mga machine translation system, awtomatikong referencing system, information retrieval system, atbp. Kadalasan ang mga ito ay mga bersyon ng computer ng mga kilalang tradisyonal na diksyunaryo. Mayroong mga computer analogues ng mga paliwanag na diksyunaryo ng wikang Ingles sa merkado ng software (awtomatikong Webster, awtomatikong paliwanag na diksyunaryo ng Ingles ng Collins publishing house, awtomatikong bersyon ng New Large English-Russian na diksyunaryo ed. Yu.D. Apresyan at E.M. Mednikova), mayroon din bersyon ng computer diksyunaryo ni Ozhegov. Ang mga awtomatikong diksyunaryo para sa mga programa sa pagpoproseso ng salita ay maaaring tawaging mga awtomatikong diksyunaryo sa eksaktong kahulugan. Karaniwang hindi nilayon ang mga ito para sa karaniwang gumagamit. Ang mga tampok ng kanilang istraktura, ang saklaw ng materyal ng bokabularyo ay itinakda ng mga programa na nakikipag-ugnayan sa kanila.

Ang pagmomodelo ng computer ng istraktura ng balangkas ay isa pa promising direksyon computational linguistics. Ang pag-aaral ng istruktura ng balangkas ay tumutukoy sa mga problema ng structural literary criticism (sa malawak na kahulugan), semiotics at cultural studies. Ang magagamit na mga programa sa computer para sa pagmomodelo ng plot ay batay sa tatlong pangunahing pormalismo ng pagtatanghal ng plot - mga morphological at syntactic na direksyon para sa pagtatanghal ng plot, gayundin sa isang cognitive approach. Ang mga ideya tungkol sa morphological structure ng plot structure ay bumalik sa sikat na mga gawa ng V.Ya. Propp ( cm.) tungkol sa isang Russian fairy tale. Napansin ni Propp na sa kasaganaan ng mga tauhan at kaganapan sa isang fairy tale, ang bilang ng mga function ng karakter ay limitado, at nagmungkahi siya ng apparatus para sa paglalarawan ng mga function na ito. Ang mga ideya ni Propp ang naging batayan ng TALE computer program, na ginagaya ang pagbuo ng plot ng isang fairy tale. Ang algorithm ng programa ng TALE ay batay sa pagkakasunud-sunod ng mga pag-andar ng mga character sa fairy tale. Sa katunayan, ang mga function ng Propp ay nagtatakda ng isang hanay ng mga na-type na sitwasyon, na iniutos batay sa pagsusuri ng empirical na materyal. Mga kakayahan sa pagsasama iba't ibang sitwasyon sa mga tuntunin ng henerasyon ay tinutukoy ng isang tipikal na pagkakasunud-sunod ng mga pag-andar - sa anyo kung saan maaari itong maitatag mula sa mga teksto ng mga fairy tale. Sa programa, ang mga tipikal na pagkakasunud-sunod ng mga function ay inilarawan bilang mga tipikal na sitwasyon para sa pagkikita ng mga character.

Ang teoretikal na batayan ng syntactic approach sa plot ng teksto ay "plot grammars", o "narrative grammars" (story grammars). Lumitaw ang mga ito noong kalagitnaan ng 1970s bilang resulta ng paglilipat ng mga ideya ng generative grammar ni N. Chomsky sa paglalarawan ng macrostructure ng teksto. Kung ang pinakamahalagang bahagi ng istrukturang sintaktik sa generative grammar ay mga verbal at nominal na grupo, kung gayon sa karamihan ng mga plot grammar, ang paglalahad (setting), kaganapan at yugto ay pinili bilang mga pangunahing. Sa teorya ng mga grammar ng balangkas, ang mga kundisyon ng minimality, iyon ay, ang mga paghihigpit na tumutukoy sa katayuan ng isang pagkakasunud-sunod ng mga elemento ng balangkas bilang isang normal na balangkas, ay malawak na tinalakay. Ito ay naka-out, gayunpaman, na pulos pamamaraang pangwika imposibleng gawin ito. Maraming mga paghihigpit ang likas na sosyokultural. Ang mga balarila ng plot, na malaki ang pagkakaiba sa hanay ng mga kategorya sa generation tree, ay nagbigay-daan sa napakalimitadong hanay ng mga panuntunan para sa pagbabago sa istruktura ng pagsasalaysay (narrative).

Noong unang bahagi ng 1980s, isa sa mga mag-aaral ni R. Schenk, si V. Lenert, bilang bahagi ng gawain sa paglikha ng isang computer plot generator, ay nagmungkahi ng orihinal na pormalismo ng emosyonal na mga unit ng plot (Affective Plot Units), na naging isang makapangyarihang tool. para sa kumakatawan sa istraktura ng balangkas. Bagama't ito ay orihinal na binuo para sa isang artificial intelligence system, ang pormalismong ito ay ginamit sa puro teoretikal na pag-aaral. Ang kakanyahan ng diskarte ni Lehnert ay ang balangkas ay inilarawan bilang isang sunud-sunod na pagbabago sa mga estado ng cognitive-emosyonal ng mga karakter. Kaya, ang pokus ng pormalismo ni Lehnert ay hindi sa mga panlabas na bahagi ng balangkas - paglalahad, kaganapan, yugto, moralidad - ngunit sa mga mahalagang katangian nito. Sa bagay na ito, ang pormalismo ni Lehnert ay bahagyang pagbabalik sa mga ideya ni Propp.

Kasama rin sa computational linguistics ang machine translation, na kasalukuyang nakararanas ng muling pagsilang.

Panitikan:

Popov E.V. Komunikasyon sa mga computer sa natural na wika. M., 1982
Sadur V.G. Komunikasyon ng boses sa mga elektronikong kompyuter at mga problema sa kanilang pag-unlad. - Sa aklat: Komunikasyon sa pagsasalita: mga problema at mga prospect. M., 1983
Baranov A.N. Mga kategorya ng artificial intelligence sa linguistic semantics. Mga frame at script. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Pagmomodelo ng komunikasyon sa mga sistema ng human-machine. - Suporta sa wika mga sistema ng impormasyon. M., 1987
Olker H.R. Mga fairy tale, mga trahedya at paraan ng paglalahad ng kasaysayan ng daigdig. - Sa aklat: Wika at Pagmomodelo pakikipag-ugnayan sa lipunan. M., 1987
Gorodetsky B.Yu. Computational Linguistics: Modeling Language Communication
McQueen K. Discursive Strategies para sa Natural Language Text Synthesis. – Bago sa dayuhang linggwistika. Isyu. XXIV, Computational Linguistics. M., 1989
Popov E.V., Preobrazhensky A.B. . Mga tampok ng pagpapatupad ng mga NL-system
Preobrazhensky A.B. Ang estado ng pag-unlad ng mga modernong NL-system. - Artipisyal na katalinuhan. Aklat. 1, Mga sistema ng komunikasyon at mga ekspertong sistema. M., 1990
Subbotin M.M. Hypertext. Bagong anyo nakasulat na komunikasyon. — VINITI, Ser. Informatics, 1994, v. 18
Baranov A.N. Panimula sa Applied Linguistics. M., 2000

Ang terminong "computational linguistics" ay karaniwang tumutukoy sa isang malawak na lugar ng paggamit ng mga tool sa computer - mga programa, teknolohiya ng computer para sa pag-aayos at pagproseso ng data - upang i-modelo ang paggana ng isang wika sa ilang mga kundisyon, sitwasyon, lugar ng problema, pati na rin ang saklaw. ng mga modelo ng wika sa computer. sa linggwistika lamang, ngunit gayundin sa mga kaugnay na disiplina. Sa totoo lang, sa huling kaso lamang ay pinag-uusapan natin ang tungkol sa inilapat na linggwistika sa mahigpit na kahulugan, dahil ang pagmomodelo ng wika sa computer ay maaari ding ituring bilang isang larangan ng aplikasyon ng teorya ng programming (computer science) sa larangan ng linggwistika. Gayunpaman, ang pangkalahatang kasanayan ay tulad na ang larangan ng computational linguistics ay sumasaklaw sa halos lahat ng bagay na may kaugnayan sa paggamit ng mga computer sa linguistics: "Ang terminong" computational linguistics "ay nagtatakda ng isang pangkalahatang oryentasyon patungo sa paggamit ng mga computer upang malutas ang iba't ibang mga pang-agham at praktikal na mga problema. nauugnay sa wika, nang hindi nililimitahan sa anumang paraan ang mga paraan ng paglutas ng mga problemang ito.

Institusyonal na aspeto ng computational linguistics. Bilang isang espesyal na direksyong pang-agham, nabuo ang computational linguistics noong dekada 60. Napakataas ng daloy ng mga publikasyon sa lugar na ito. Bilang karagdagan sa mga pampakay na koleksyon, ang journal na Computational Linguistics ay inilathala kada quarter sa USA. Ang isang malaking gawaing pang-organisasyon at pang-agham ay isinasagawa ng Association for Computational Linguistics, na mayroong mga istrukturang panrehiyon sa buong mundo (sa partikular, ang sangay ng Europa). Bawat dalawang taon mayroong mga internasyonal na kumperensya sa computational linguistics - KOLING. Ang mga nauugnay na isyu ay malawak ding kinakatawan sa mga internasyonal na kumperensya sa artificial intelligence sa iba't ibang antas.

Cognitive toolkit ng computational linguistics

Ang computational linguistics bilang isang espesyal na inilapat na disiplina ay pangunahing nakikilala sa pamamagitan ng tool nito - iyon ay, sa pamamagitan ng paggamit ng mga tool sa computer para sa pagproseso ng data ng wika. Dahil ang mga computer program na nagmomodelo ng ilang aspeto ng paggana ng isang wika ay maaaring gumamit ng iba't ibang mga tool sa programming, tila hindi na kailangang pag-usapan ang isang karaniwang metalanguage. Gayunpaman, hindi ito. May mga pangkalahatang prinsipyo ng pagmomodelo ng computer ng pag-iisip, na kahit papaano ay ipinatupad sa anumang modelo ng computer. Ang wikang ito ay batay sa teorya ng kaalaman na binuo sa artificial intelligence at bumubuo ng isang mahalagang sangay ng cognitive science.

Ang pangunahing tesis ng teorya ng kaalaman ay nagsasaad na ang pag-iisip ay isang proseso ng pagproseso at pagbuo ng kaalaman. Ang "Kaalaman" o "kaalaman" ay itinuturing na isang hindi natukoy na kategorya. Ang sistema ng pag-iisip ng tao ay kumikilos bilang isang "processor" na nagpoproseso ng kaalaman. Sa epistemology at cognitive science, dalawang pangunahing uri ng kaalaman ang nakikilala - declarative ("alam kung ano") at procedural ("alam kung paano"2)). Ang deklaratibong kaalaman ay karaniwang ipinakita bilang isang hanay ng mga proposisyon, mga pahayag tungkol sa isang bagay. Ang isang tipikal na halimbawa ng deklaratibong kaalaman ay ang interpretasyon ng mga salita sa mga ordinaryong paliwanag na diksyunaryo. Halimbawa, isang tasa] - "isang maliit na bilugan na sisidlan ng inumin, kadalasang may hawakan, gawa sa porselana, faience, atbp.". Ang deklaratibong kaalaman ay angkop sa pamamaraan ng pag-verify sa mga tuntunin ng "true-false". Ang kaalaman sa pamamaraan ay ipinakita bilang isang pagkakasunud-sunod (listahan) ng mga operasyon, mga aksyon na isasagawa. Ito ay ilang pangkalahatang tagubilin tungkol sa mga aksyon sa isang partikular na sitwasyon. Ang isang tipikal na halimbawa ng kaalaman sa pamamaraan ay mga tagubilin para sa paggamit ng mga gamit sa bahay.

Hindi tulad ng deklaratibong kaalaman, ang kaalaman sa pamamaraan ay hindi mapapatunayan bilang totoo o mali. Masusuri lamang ang mga ito sa pamamagitan ng tagumpay o kabiguan ng algorithm.

Karamihan sa mga konsepto ng cognitive toolkit ng computational linguistics ay homonymous: sabay-sabay nilang itinalaga ang ilang tunay na entidad ng sistema ng cognitive ng tao at mga paraan ng pagkatawan sa mga entity na ito sa ilang mga metalanguage. Sa madaling salita, ang mga elemento ng metalanguage ay may ontological at instrumental na aspeto. Sa ontologically, ang dibisyon ng deklaratibo at procedural na kaalaman ay tumutugma sa iba't ibang uri ng kaalaman ng sistema ng cognitive ng tao. Kaya, ang kaalaman tungkol sa mga tiyak na bagay, ang mga bagay ng katotohanan ay higit sa lahat ay deklaratibo, at ang mga kakayahan sa pagganap ng isang tao na maglakad, tumakbo, magmaneho ng kotse ay natanto sa sistemang nagbibigay-malay bilang kaalaman sa pamamaraan. Sa instrumental, ang kaalaman (parehong ontologically procedural at declarative) ay maaaring katawanin bilang isang set ng mga paglalarawan, mga paglalarawan at bilang isang algorithm, isang pagtuturo. Sa madaling salita, ang ontologically declarative na kaalaman tungkol sa object ng realidad na "talahanayan" ay maaaring katawanin sa pamamaraan bilang isang set ng mga tagubilin, mga algorithm para sa paglikha nito, pagpupulong (= malikhaing aspeto ng kaalaman sa pamamaraan) o bilang isang algorithm para sa karaniwang paggamit nito (= functional na aspeto kaalaman sa pamamaraan). Sa unang kaso, maaaring ito ay isang gabay para sa isang baguhan na karpintero, at sa pangalawa, isang paglalarawan ng mga posibilidad ng isang desk ng opisina. Ang kabaligtaran ay totoo rin: ang ontologically procedural na kaalaman ay maaaring ilarawan nang deklaratibo.

Nangangailangan ito ng hiwalay na talakayan kung ang anumang ontologically declarative na kaalaman ay maaaring katawanin bilang procedural, at anumang ontologically procedural - bilang declarative. Sumasang-ayon ang mga mananaliksik na ang anumang deklaratibong kaalaman ay maaaring sa prinsipyo ay kinakatawan sa pamamaraan, bagaman ito ay maaaring maging napaka-uneconomical para sa isang cognitive system. Ang kabaligtaran ay halos hindi totoo. Ang katotohanan ay ang deklaratibong kaalaman ay higit na malinaw, mas madali para sa isang tao na maunawaan kaysa sa kaalamang pamamaraan. Sa kaibahan sa deklaratibong kaalaman, ang kaalaman sa pamamaraan ay higit na nakasaad. Kaya, ang kakayahan sa wika, bilang kaalaman sa pamamaraan, ay nakatago sa isang tao, ay hindi niya napagtanto. Ang pagtatangkang ipaliwanag ang mga mekanismo ng paggana ng wika ay humahantong sa dysfunction. Alam ng mga espesyalista sa larangan ng lexical semantics, halimbawa, na ang pangmatagalang semantic introspection na kinakailangan upang pag-aralan ang word content plan ay humahantong sa katotohanan na ang mananaliksik ay bahagyang nawalan ng kakayahang makilala ang tama at mga maling paggamit sinuri na salita. Maaaring banggitin ang iba pang mga halimbawa. Ito ay kilala na mula sa punto ng view ng mechanics, ang katawan ng tao ay kumplikadong sistema dalawang nag-uugnay na pendulum.

Sa teorya ng kaalaman, ang kaalaman ay pinag-aaralan at kinakatawan gamit iba't ibang istruktura kaalaman - mga frame, mga sitwasyon, mga plano. Ayon kay M. Minsky, "ang frame ay isang istraktura ng data na idinisenyo upang kumatawan sa isang stereotypical na sitwasyon" [Minskiy 1978, p.254]. Sa mas detalyado, maaari nating sabihin na ang frame ay isang konseptong istruktura para sa deklaratibong representasyon ng kaalaman tungkol sa isang typified thematically unified na sitwasyon na naglalaman ng mga slot na magkakaugnay ng ilang semantic na relasyon. Para sa mga layunin ng paglalarawan, ang isang frame ay madalas na kinakatawan bilang isang talahanayan, ang mga hilera kung saan bumubuo ng mga puwang. Ang bawat slot ay may sariling pangalan at nilalaman (tingnan ang Talahanayan 1).

Talahanayan 1

Fragment ng "table" frame sa isang table view

Depende sa tiyak na gawain frame structuring ay maaaring maging makabuluhang mas kumplikado; ang isang frame ay maaaring magsama ng mga nested subframe at mga reference sa iba pang mga frame.

Sa halip na isang talahanayan, isang predicate form ng presentasyon ang kadalasang ginagamit. Sa kasong ito, ang frame ay nasa anyo ng isang panaguri o isang function na may mga argumento. Mayroong iba pang mga paraan upang kumatawan sa isang frame. Halimbawa, maaari itong ilarawan bilang isang tuple ang sumusunod na uri: ( (frame name) (slot name)) (slot value,),..., (slot name n) (slot value n) ).

Karaniwan, ang mga frame sa mga wika ng representasyon ng kaalaman ay may ganitong form.

Tulad ng iba pang mga kategorya ng cognitive ng computational linguistics, ang konsepto ng isang frame ay homonymous. Sa ontologically, ito ay bahagi ng sistema ng cognitive ng tao, at sa ganitong kahulugan, ang frame ay maihahambing sa mga konsepto tulad ng gestalt, prototype, stereotype, scheme. Sa cognitive psychology, ang mga kategoryang ito ay tiyak na isinasaalang-alang mula sa isang ontological point of view. Kaya, nakikilala ni D. Norman ang dalawang pangunahing paraan ng pagkakaroon at organisasyon ng kaalaman sa sistema ng pag-iisip ng tao - mga semantic network at scheme. "Ang mga scheme," isinulat niya, "ay mga organisadong packet ng kaalaman na pinagsama-sama upang kumatawan sa mga natatanging, self-contained na mga yunit ng kaalaman. Ang aking schema para kay Sam ay maaaring naglalaman ng impormasyon na naglalarawan sa kanyang mga pisikal na katangian, kanyang mga aktibidad, at mga katangian ng personalidad. Ang schema na ito ay nauugnay sa iba pang mga schema na naglalarawan sa iba pang mga aspeto nito" [Norman 1998, p. 359]. Kung kukunin natin ang instrumental na bahagi ng kategorya ng frame, ito ay isang istraktura para sa deklaratibong representasyon ng kaalaman. Sa mga umiiral nang AI system, maaaring mabuo ang mga frame mga kumplikadong istruktura kaalaman; pinapayagan ng mga frame system ang hierarchy - ang isang frame ay maaaring maging bahagi ng isa pang frame.

Sa mga tuntunin ng nilalaman, ang konsepto ng isang frame ay napakalapit sa kategorya ng interpretasyon. Sa katunayan, ang isang puwang ay isang analogue ng valence, ang pagpuno ng isang puwang ay isang analogue ng isang actant. Ang pangunahing pagkakaiba sa pagitan nila ay ang interpretasyon ay naglalaman lamang ng impormasyon na may kaugnayan sa wika tungkol sa plano ng nilalaman ng salita, at ang frame, una, ay hindi kinakailangang nakatali sa salita, at, pangalawa, kasama ang lahat ng impormasyon na nauugnay sa ibinigay na problema. sitwasyon, kabilang ang kabilang ang extralinguistic (kaalaman sa mundo) 3).

Ang senaryo ay isang konseptwal na balangkas para sa pamamaraang representasyon ng kaalaman tungkol sa isang stereotype na sitwasyon o pag-uugali. Ang mga elemento ng script ay ang mga hakbang ng isang algorithm o pagtuturo. Karaniwang pinag-uusapan ng mga tao ang tungkol sa "scenario ng restaurant", "scenario sa pagbili" at iba pa.

Ang frame ay orihinal ding ginamit para sa procedural presentation (cf. ang terminong "procedural frame"), ngunit ang terminong "scenario" ay mas karaniwang ginagamit ngayon sa ganitong kahulugan. Ang isang senaryo ay maaaring kinakatawan hindi lamang bilang isang algorithm, kundi pati na rin bilang isang network, ang mga vertices na tumutugma sa ilang mga sitwasyon, at ang mga arko ay tumutugma sa mga koneksyon sa pagitan ng mga sitwasyon. Kasama ang konsepto ng isang script, ginagamit ng ilang mananaliksik ang kategorya ng isang script para sa pagmomodelo ng computer ng katalinuhan. Ayon kay R. Schenk, ang isang script ay ilang karaniwang tinatanggap, kilalang pagkakasunod-sunod sanhi. Halimbawa, ang pag-unawa sa diyalogo

Sa kalye ay bumubuhos na parang balde.

Kailangan mo pa ring pumunta sa tindahan: walang anuman sa bahay - kahapon ay winalis ng mga bisita ang lahat.

ay batay sa mga hindi tahasang semantikong koneksyon gaya ng "kung umuulan, hindi kanais-nais na lumabas, dahil maaari kang magkasakit." Ang mga koneksyon na ito ay bumubuo ng isang script, na ginagamit ng mga katutubong nagsasalita upang maunawaan ang pandiwang at di-berbal na pag-uugali ng bawat isa.

Bilang resulta ng paglalapat ng senaryo sa isang partikular na sitwasyon ng problema, a plano). Ang isang plano ay ginagamit upang procedural na kumakatawan sa kaalaman tungkol sa mga posibleng aksyon na humahantong sa isang partikular na layunin. Iniuugnay ng isang plano ang isang layunin sa isang pagkakasunud-sunod ng mga aksyon.

Sa pangkalahatang kaso, ang plano ay nagsasama ng isang pagkakasunud-sunod ng mga pamamaraan na naglilipat sa paunang estado ng system sa huling estado at humahantong sa pagkamit ng isang partikular na sublayunin at layunin. Sa mga sistema ng AI, ang plano ay lumitaw bilang isang resulta ng pagpaplano o pagpaplano ng aktibidad ng kaukulang module - ang pagpaplano ng module. Ang proseso ng pagpaplano ay maaaring batay sa pag-angkop ng data mula sa isa o higit pang mga senaryo, na isinaaktibo ng mga pamamaraan ng pagsubok, upang malutas ang isang sitwasyon ng problema. Ang pagpapatupad ng plano ay isinasagawa ng isang executive module na kumokontrol sa mga pamamaraang nagbibigay-malay at mga pisikal na aksyon mga sistema. Sa elementarya, ang isang plano sa isang matalinong sistema ay isang simpleng pagkakasunud-sunod ng mga operasyon; sa mas kumplikadong mga bersyon, ang plano ay nauugnay sa isang partikular na paksa, mga mapagkukunan, kakayahan, layunin, Detalyadong impormasyon tungkol sa isang problemang sitwasyon, atbp. Ang paglitaw ng plano ay nangyayari sa proseso ng komunikasyon sa pagitan ng modelo ng mundo, na bahagi nito ay nabuo sa pamamagitan ng mga sitwasyon, ang module ng pagpaplano at ang executive module.

Hindi tulad ng isang senaryo, ang isang plano ay nauugnay sa isang partikular na sitwasyon, isang partikular na tagapalabas, at hinahabol ang isang partikular na layunin. Ang pagpili ng plano ay pinamamahalaan ng mga mapagkukunan ng kontratista. Ang pagiging posible ng isang plano ay isang obligadong kondisyon para sa pagbuo nito sa isang sistemang nagbibigay-malay, at ang katangian ng pagiging posible ay hindi naaangkop sa isang senaryo.

Isa pa mahalagang konsepto- modelo ng mundo. Ang isang modelo ng mundo ay karaniwang nauunawaan bilang isang hanay ng kaalaman tungkol sa mundo na inorganisa sa isang tiyak na paraan, na likas sa isang sistema ng pag-iisip o sa modelo ng computer nito. Sa medyo mas pangkalahatang kahulugan, ang modelo ng mundo ay binabanggit bilang bahagi ng isang sistemang nagbibigay-malay na nag-iimbak ng kaalaman tungkol sa istruktura ng mundo, mga pattern nito, atbp. Sa ibang kahulugan, ang modelo ng mundo ay nauugnay sa mga resulta ng pag-unawa sa teksto o, mas malawak, diskurso. Sa proseso ng pag-unawa sa diskurso, nabuo ang mental model nito, na resulta ng interaksyon sa pagitan ng plano ng nilalaman ng teksto at ng kaalaman tungkol sa mundong likas sa paksang ito [Johnson-Laird 1988, p. 237 et. sumunod.]. Ang una at pangalawang pag-unawa ay madalas na pinagsama. Ito ay tipikal ng mga linguistic na mananaliksik na nagtatrabaho sa loob ng cognitive linguistics at cognitive science.

Malapit na nauugnay sa kategorya ng frame ang konsepto ng isang eksena. Ang kategorya ng eksena ay pangunahing ginagamit sa panitikan bilang isang pagtatalaga ng isang konseptwal na istraktura para sa deklaratibong representasyon ng mga sitwasyon at ang kanilang mga bahagi na aktuwal sa isang speech act at na-highlight sa pamamagitan ng linguistic na paraan (lexemes, syntactic constructions, grammatical na kategorya, atbp.). Palibhasa'y nauugnay sa mga anyong pangwika, madalas na ina-update ang eksena tiyak na salita o pagpapahayag. Sa plot grammars (tingnan sa ibaba), lumalabas ang isang eksena bilang bahagi ng isang episode o salaysay. Mga karaniwang halimbawa mga eksena - isang set ng mga cube kung saan gumagana ang AI system, ang eksena sa kwento at ang mga kalahok sa aksyon, atbp. Sa artificial intelligence, ang mga eksena ay ginagamit sa mga sistema ng pagkilala ng imahe, gayundin sa mga programang nakatuon sa pananaliksik (pagsusuri, paglalarawan) mga sitwasyon ng problema. Ang konsepto ng isang eksena ay naging laganap sa teoretikal na lingguwistika, gayundin sa lohika, lalo na sa mga sitwasyong semantika, kung saan ang kahulugan ng isang lexical na yunit ay direktang nauugnay sa eksena.

Toolkit ng Computational Linguistics.

Direksyon ng Computational Linguistics.

Cognitive toolkit ng computational linguistics

MGA KAUGNAY NA ARTIKULO