Strojová lingvistika. História, vývoj a formovanie počítačovej lingvistiky ako vedeckého smeru

Filológia stredná škola Ekonómia sa rozbieha nový magisterský program venovaný počítačovej lingvistike: víta uchádzačov s humanitným a matematickým základným vzdelaním a všetkých, ktorí majú záujem riešiť problémy v jednom z najperspektívnejších vedných odborov. Jej vedúca Anastasia Bonch-Osmolovskaya pre teóriu a prax povedala, čo je to počítačová lingvistika, prečo roboty nenahradia ľudí a čo budú učiť. magisterský stupeň HSE vo výpočtovej lingvistike.

Tento program je takmer jediný svojho druhu v Rusku. Kde si sám študoval?

Študoval som na Moskovskej štátnej univerzite na Katedre teoretickej a aplikovanej lingvistiky filologickej fakulte. Nedostal som sa tam hneď, najprv som vošiel ruská pobočka, no potom som sa začal vážne zaujímať o lingvistiku a upútala ma atmosféra, ktorá na katedre pretrváva dodnes. Najdôležitejší je dobrý kontakt medzi učiteľmi a študentmi a ich obojstranný záujem.

Keď som mal deti a musel som si zarábať na živobytie, išiel som do oblasti komerčnej lingvistiky. V roku 2005 nebolo veľmi jasné, čo je táto oblasť činnosti ako taká. Pracoval som v rôznych lingvistických spoločnostiach: začal som s malou spoločnosťou na webovej stránke Public.ru - to je taká mediálna knižnica, kde som začal pracovať s lingvistickými technológiami. Potom som rok pracoval v Rosnanotechu, kde som dostal nápad urobiť analytický portál tak, aby boli údaje na ňom automaticky štruktúrované. Potom som viedol lingvistické oddelenie vo firme Avicomp – to je už vážna produkcia v odbore počítačová lingvistika a sémantické technológie. Zároveň som viedol kurz počítačovej lingvistiky na Moskovskej štátnej univerzite a snažil som sa ho urobiť modernejším.

Dva zdroje pre lingvistu: - stránka vytvorená lingvistami na vedecký a aplikovaný výskum týkajúci sa ruského jazyka. Toto je model ruského jazyka prezentovaný pomocou obrovského množstva textov z rôznych žánrov a období. Texty sú opatrené jazykovými značkami, pomocou ktorých možno získať informácie o frekvencii určitých jazykových javov. Wordnet – obrovská lexikálna databáza anglického jazyka, Hlavná myšlienka Wordnet – spájať nie slová, ale ich významy do jednej veľkej siete. Wordnet si môžete stiahnuť a použiť pre svoje vlastné projekty.

Čo robí počítačová lingvistika?

Ide o najinterdisciplinárnejšiu oblasť. Tu je najdôležitejšie pochopiť, čo sa deje v elektronickom svete a kto vám pomôže robiť konkrétne veci.

Sme obklopení veľké množstvo digitálnych informácií, existuje veľa obchodných projektov, ktorých úspech závisí od spracovania informácií, tieto projekty môžu súvisieť s marketingom, politikou, ekonomikou a čímkoľvek iným. A je veľmi dôležité vedieť s týmito informáciami efektívne narábať – hlavná je nielen rýchlosť spracovania informácií, ale aj jednoduchosť, s akou po odfiltrovaní šumu získate potrebné údaje a vytvoríte kompletný obraz od nich.

Predtým sa niektoré globálne myšlienky spájali s počítačovou lingvistikou, napríklad: ľudia si mysleli, že strojový preklad nahradí ľudský preklad, namiesto ľudí budú pracovať roboty. Teraz to však vyzerá ako utópia a strojový preklad sa používa vo vyhľadávačoch na rýchle vyhľadávanie v neznámom jazyku. To znamená, že teraz sa lingvistika málokedy zaoberá abstraktnými úlohami – väčšinou nejakými drobnosťami, ktoré sa dajú vložiť do veľkého produktu a zarobiť na ňom.

Jeden z veľké úlohy moderná lingvistika - sémantický web, keď vyhľadávanie prebieha nielen zhodou slov, ale aj významom a všetky stránky sú nejakým spôsobom označené sémantikou. To sa môže hodiť napríklad pri policajných alebo lekárskych správach, ktoré sa píšu každý deň. Analýza vnútorných prepojení dáva množstvo potrebných informácií a ich manuálne čítanie a výpočet trvá neskutočne dlho.

V skratke máme tisíc textov, treba ich zoradiť na kôpky, každý text prezentovať ako štruktúru a získať tabuľku, s ktorou už vieme pracovať. Toto sa nazýva neštruktúrované spracovanie informácií. Na druhej strane, počítačová lingvistika sa zaoberá napríklad tvorbou umelých textov. Existuje spoločnosť, ktorá prišla s mechanizmom na generovanie textov na témy, o ktorých je pre človeka nuda písať: zmeny cien nehnuteľností, predpoveď počasia, správa o futbalové zápasy. Objednávať tieto texty pre človeka je oveľa drahšie, navyše počítačové texty na takéto témy sú písané súvislým ľudským jazykom.

Vývoj v oblasti vyhľadávania neštruktúrovaných informácií v Rusku sa aktívne podieľa na najímaní "Yandex", "Kaspersky Lab" výskumných skupín ktorí študujú strojové učenie. Snaží sa niekto na trhu prísť s niečím novým v oblasti počítačovej lingvistiky?

**Knihy o počítačovej lingvistike:**

Daniel Jurafsky, Spracovanie reči a jazyka

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Úvod do získavania informácií

Jacob Testelec, „Úvod do všeobecnej syntaxe“

Väčšina lingvistických vývojov je majetkom veľkých spoločností, takmer nič v nich nenájdete otvorený prístup. Bráni to rozvoju odvetvia, nemáme voľný jazykový trh, krabicové riešenia.

Okrem toho chýba úplné informačné zdroje. Existuje taký projekt ako Národný korpus ruského jazyka. Ide o jeden z najlepších národných korpusov na svete, ktorý sa rýchlo rozvíja a otvára neuveriteľné možnosti pre vedecké a aplikovaný výskum. Rozdiel je približne rovnaký ako v biológii – pred a po výskume DNA.

Ale veľa zdrojov v ruštine neexistuje. Neexistuje teda žiadny analóg k takému úžasnému zdroju v anglickom jazyku, ako je Framenet - je to taká koncepčná sieť, kde sú formálne prezentované všetky možné spojenia konkrétneho slova s ​​inými slovami. Existuje napríklad slovo „lietať“ – kto môže lietať, kde, s akou zámienkou sa toto slovo používa, s akými slovami sa spája a podobne. Tento zdroj pomáha prepojiť jazyk s skutočný život, teda sledovať, ako sa konkrétne slovo správa na úrovni morfológie a syntaxe. Je to veľmi užitočné.

Avicomp v súčasnosti vyvíja doplnok na vyhľadávanie súvisiacich článkov. To znamená, že ak máte záujem o nejaký článok, môžete rýchlo vidieť históriu zápletky: kedy vznikla téma, čo bolo napísané a kedy bol vrchol záujmu o tento problém. Napríklad pomocou tohto pluginu bude možné, počnúc článkom o udalostiach v Sýrii, veľmi rýchlo zistiť, ako na to minulý rok udalosti sa tam odohrali.

Ako bude štruktúrovaný vzdelávací proces v magisterskom programe?

Vzdelávanie na HSE je organizované do samostatných modulov – ako v západné univerzity. Študenti budú rozdelení do malých tímov, mini-startupov – čiže na konci by sme ich mali dostať niekoľko hotové projekty. Chceme získať skutočné produkty, ktoré potom otvoríme ľuďom a necháme ich vo verejnej sfére.

Okrem priamych supervízorov študentských projektov im chceme nájsť kurátorov z ich radov potenciálnych zamestnávateľov- napríklad od toho istého "Yandex", ktorý bude tiež hrať túto hru a dá študentom nejaké rady.

Dúfam, že ľudia z naj rôznych oblastiach: programátori, lingvisti, sociológovia, marketéri. Budeme mať niekoľko adaptačných kurzov z lingvistiky, matematiky a programovania. Potom budeme mať dva seriózne kurzy lingvistiky a budú spojené s tými najrelevantnejšími lingvistické teórie, chceme, aby naši absolventi vedeli čítať a porozumieť súčasným lingvistickým článkom. Rovnako je to aj s matematikou. Budeme mať kurz s názvom „Matematické základy počítačovej lingvistiky“, ktorý predstaví tie časti matematiky, na ktorých je založená moderná počítačová lingvistika.

Aby ste sa mohli zapísať do magisterského programu, musíte úspešne prejsť vstupný test v jazyku a prejsť portfóliovou súťažou.

Okrem hlavných kurzov to bude aj línia výberových predmetov, naplánovali sme niekoľko cyklov - dva z nich sú zamerané na hlbšie štúdium jednotlivých tém, medzi ktoré patrí napríklad strojový preklad a korpusová lingvistika, resp. naopak, jedna sa týka súvisiacich oblastí: ako sú sociálne siete, strojové učenie alebo digitálne humanitné vedy – kurz, ktorý, dúfame, bude prebiehať v angličtine.

Počítačoví lingvisti sa zaoberajú vývojom algoritmov rozpoznávania textu a reči, syntézou umelej reči, vytváraním sémantických prekladových systémov a samotným vývojom umelej inteligencie (v klasickom zmysle slova ako náhrada ľudskej inteligencie je nepravdepodobné, že sa niekedy objavia, ale rôzne expertné systémy založené na analýze údajov).

Algoritmy rozpoznávania reči sa budú čoraz viac využívať v každodennom živote – inteligentné domácnosti a elektronické zariadenia nebudú mať diaľkové ovládače a tlačidlá, ale namiesto nich sa bude používať hlasové rozhranie. Táto technológia sa zdokonaľuje, ale stále je tu veľa výziev: pre počítač je ťažké rozpoznať ľudskú reč, pretože rôzni ľudia hovoria veľmi odlišne. Preto spravidla rozpoznávacie systémy fungujú dobre buď vtedy, keď sú natrénované pre jedného rečníka a sú už prispôsobené jeho výslovnostným vlastnostiam, alebo keď je počet fráz, ktoré systém dokáže rozpoznať, obmedzený (ako napríklad pri hlasových príkazoch pre TV ).

Špecialisti na tvorbu programov sémantického prekladu majú pred sebou ešte veľa práce: tento moment dobré algoritmy sú vyvinuté len na preklad do az angličtiny. Je tu veľa problémov - rôzne jazyky sú v sémantickom pláne usporiadané odlišne, to sa líši aj na úrovni konštrukcie fráz a nie všetky významy jedného jazyka možno preniesť pomocou sémantického aparátu druhého. Okrem toho musí program rozlišovať medzi homonymami, správne rozpoznávať slovné druhy, vyberať správnu hodnotu polysémantické slovo primerané kontextu.

Syntetizácia umelej reči (napríklad pre domácich robotov) je tiež náročná práca. Je ťažké, aby umelo vytvorená reč znela prirodzene ľudské ucho, pretože existujú milióny nuancií, ktorým nevenujeme pozornosť, ale bez ktorých už všetko nie je „to“ - falošné štarty, pauzy, problémy atď. Prúd reči je kontinuálny a zároveň diskrétny: hovoríme bez prestávok medzi slovami, ale nie je pre nás ťažké pochopiť, kde jedno slovo končí a druhé začína, a pre stroj to bude veľký problém.

Najväčší smer vo výpočtovej lingvistike je spojený s veľkými dátami. Koniec koncov, existujú obrovské korpusy textov, ako sú news feedy, z ktorých je potrebné izolovať určité informácie – napríklad zvýrazniť novinky alebo vybrúsiť RSS podľa vkusu konkrétneho používateľa. Takéto technológie už existujú a budú sa ďalej rozvíjať, pretože výpočtový výkon rýchlo rastie. Lingvistický rozbor textov sa využíva aj na zaistenie bezpečnosti na internete, vyhľadávanie potrebné informácie za špeciálne služby.

Kde študovať ako počítačový lingvista? Nanešťastie máme dosť silné rozdiely medzi špecializáciami týkajúcimi sa klasickej lingvistiky a programovania, štatistiky a analýzy údajov. A aby ste sa stali digitálnym lingvistom, musíte rozumieť obom. AT zahraničné univerzity existujú vysokoškolské programy v počítačovej lingvistike, ale stále máme najlepšia možnosť- získať základné jazykové vzdelanie a následne zvládnuť základy IT. Je dobré, že teraz existuje veľa rôznych online kurzov, žiaľ, za mojich študentských čias to tak nebolo. Študoval som na Fakulte aplikovanej lingvistiky na Moskovskej štátnej lingvistickej univerzite, kde sme mali kurzy umelej inteligencie a rozpoznávania reči – no stále to nestačilo. IT spoločnosti sa teraz aktívne pokúšajú o interakciu s inštitúciami. Moji kolegovia z Kaspersky Lab a ja sa tiež snažíme zúčastniť vzdelávací proces: prednášame, organizujeme študentské konferencie, poskytujeme granty postgraduálnym študentom. Iniciatíva však zatiaľ prichádza skôr od zamestnávateľov ako od univerzít.

KURZOVÁ PRÁCA

v odbore "informatika"

na tému: "Počítačová lingvistika"


ÚVOD

2. Moderné rozhrania výpočtovej lingvistiky

ZÁVER

LITERATÚRA


Úvod

Automatizované informačné technológie zohrávajú dôležitú úlohu v živote modernej spoločnosti. S postupom času ich hodnota neustále rastie. Ale vývoj informačných technológií je veľmi nerovnomerný: ak moderná úroveň výpočtová technika a komunikačné prostriedky narážajú na predstavivosť, potom v oblasti sémantického spracovania informácií sú úspechy oveľa skromnejšie. Tieto úspechy závisia predovšetkým od úspechov v štúdiu procesov ľudského myslenia, procesov rečovej komunikácie medzi ľuďmi a od schopnosti simulovať tieto procesy na počítači.

Pokiaľ ide o vytváranie perspektívnych informačných technológií, problémy automatického spracovania textové informácie do popredia vystupujú v prirodzených jazykoch. Je to dané tým, že myslenie človeka je úzko späté s jeho jazykom. Okrem toho je prirodzený jazyk nástrojom myslenia. On je tiež univerzálny liek komunikácia medzi ľuďmi – prostriedok vnímania, akumulácie, uchovávania, spracovania a prenosu informácií. Problémom používania prirodzeného jazyka v systémoch automatického spracovania informácií sa zaoberá veda počítačová lingvistika. Táto veda vznikla pomerne nedávno – na prelome päťdesiatych a šesťdesiatych rokov minulého storočia. Za posledné polstoročie sa v oblasti počítačovej lingvistiky dosiahli významné vedecké a praktické výsledky: systémy strojový preklad texty z jedného prirodzeného jazyka do druhého, systémy na automatické vyhľadávanie informácií v textoch, systémy na automatickú analýzu a syntézu ústnej reči a mnohé ďalšie. táto práca sa venuje konštrukcii optimálneho počítačového rozhrania s využitím výpočtovej lingvistiky pri dirigovaní lingvistický výskum.


1. Miesto a úloha počítačovej lingvistiky v lingvistickom výskume

AT modernom svete Počítačová lingvistika sa čoraz viac využíva v rôznych lingvistických štúdiách.

Počítačová lingvistika je oblasť vedomostí súvisiaca s riešením problémov automatického spracovania informácií prezentovaných v prirodzenom jazyku. Centrálne vedeckých problémov počítačovej lingvistiky sú problémom modelovania procesu porozumenia významu textov (prechod od textu k formalizovanej reprezentácii jeho významu) a problémom syntézy reči (prechod od formalizovanej reprezentácie významu k textom v prirodzenom jazyku). Tieto problémy vznikajú pri riešení množstva aplikovaných problémov a najmä problémov s automatickou detekciou a opravou chýb pri zadávaní textov do počítača, automatickou analýzou a syntézou ústnej reči, automatickým prekladom textov z jedného jazyka do druhého, komunikáciou s počítač v prirodzenom jazyku, automatická klasifikácia a indexácia textových dokumentov, ich automatické odkazovanie, vyhľadávanie dokumentov vo fulltextových databázach.

Lingvistické nástroje vytvorené a používané v počítačovej lingvistike možno podmienečne rozdeliť na dve časti: deklaratívnu a procedurálnu. Deklatívna časť obsahuje slovníky jazykových a rečových jednotiek, texty a rôzne druhy gramatických tabuliek, zatiaľ čo procedurálna časť obsahuje prostriedky na manipuláciu s jazykovými a rečovými jednotkami, textami a gramatickými tabuľkami. Počítačové rozhranie sa vzťahuje na procedurálnu časť výpočtovej lingvistiky.

Úspech pri riešení aplikovaných problémov výpočtovej lingvistiky závisí predovšetkým od úplnosti a presnosti reprezentácie deklaratívnych prostriedkov v pamäti počítača a od kvality procedurálnych prostriedkov. K dnešnému dňu sa ešte nedosiahla požadovaná úroveň riešenia týchto problémov, hoci práce v oblasti počítačovej lingvistiky sa vykonávajú vo všetkých rozvinuté krajiny sveta (Rusko, USA, Anglicko, Francúzsko, Nemecko, Japonsko atď.).

Napriek tomu možno zaznamenať vážne vedecké a praktické úspechy v oblasti počítačovej lingvistiky. Takže v mnohých krajinách (Rusko, USA, Japonsko atď.) boli vybudované experimentálne a priemyselné systémy na strojový preklad textov z jedného jazyka do druhého, bolo vybudovaných množstvo experimentálnych systémov na komunikáciu s počítačmi v prirodzenom jazyku. , prebiehajú práce na tvorbe terminologických databáz, tezaurov, dvojjazyčných a viacjazyčných strojových slovníkov (Rusko, USA, Nemecko, Francúzsko atď.), budujú sa systémy na automatickú analýzu a syntézu ústnej reči (Rusko, USA, Japonsko atď. .), prebieha výskum v oblasti budovania modelov prirodzených jazykov.

Dôležitým metodologickým problémom aplikovanej výpočtovej lingvistiky je správne posúdenie potrebnej korelácie medzi deklaratívnou a procedurálnou zložkou systémov automatického spracovania textových informácií. Čo by sa malo uprednostniť: výkonné výpočtové postupy založené na relatívne malých systémoch slovnej zásoby s bohatými gramatickými a sémantickými informáciami alebo výkonný deklaratívny komponent s relatívne jednoduchými počítačovými rozhraniami? Väčšina vedcov verí, že druhá cesta je vhodnejšia. Rýchlejšie to povedie k dosiahnutiu praktických cieľov, keďže v tomto prípade bude menej slepých uličiek a ťažko prekonateľných prekážok a tu bude možné vo väčšom rozsahu využívať počítače na automatizáciu výskumu a vývoja.

Potrebu zmobilizovať úsilie predovšetkým o rozvoj deklaratívnej zložky systémov automatického spracovania textu potvrdzujú polstoročné skúsenosti vo vývoji počítačovej lingvistiky. Koniec koncov, tu, napriek nesporným úspechom tejto vedy, nadšenie pre algoritmické postupy neprinieslo očakávaný úspech. Dokonca nastalo isté sklamanie v možnostiach procesných prostriedkov.

Vo svetle vyššie uvedeného sa javí sľubný taký spôsob rozvoja počítačovej lingvistiky, keď hlavné úsilie bude smerovať k vytvoreniu výkonných slovníkov jednotiek jazyka a reči, štúdiu ich sémanticko-syntaktickej štruktúry a tvorbe základných postupov pre morfologickú, sémanticko-syntaktickú a konceptuálnu analýzu a syntézu textov. To umožní v budúcnosti riešiť široké spektrum aplikovaných problémov.

Počítačová lingvistika stojí v prvom rade pred úlohami lingvistickej podpory procesov zhromažďovania, akumulácie, spracovania a vyhľadávania informácií. Najdôležitejšie z nich sú:

1. Automatizácia zostavovania a jazykového spracovania strojových slovníkov;

2. Automatizácia procesov zisťovania a opravy chýb pri zadávaní textov do počítača;

3. Automatické indexovanie dokumentov a žiadostí o informácie;

4. Automatická klasifikácia a odkazovanie na dokumenty;

5. Jazyková podpora procesov vyhľadávania informácií v jednojazyčných a viacjazyčných databázach;

6. Strojový preklad textov z jedného prirodzeného jazyka do druhého;

7. Konštrukcia lingvistických procesorov, ktoré používateľom poskytujú komunikáciu s automatizovanými inteligentnými informačnými systémami (najmä s expertnými systémami) v prirodzenom jazyku alebo v jazyku blízkom prirodzenému;

8. Extrakcia faktografických informácií z neformalizovaných textov.

Pozrime sa podrobne na problémy, ktoré sú pre danú tému výskumu najrelevantnejšie.

AT praktické činnosti informačných centier je potrebné riešiť problém automatizovaného zisťovania a opravy chýb v textoch pri ich zadávaní do počítača. Túto komplexnú úlohu možno podmienečne rozdeliť do troch úloh – úlohy pravopisu, syntaktickej a sémantickej kontroly textov. Prvý z nich je možné vyriešiť pomocou postupu morfologickej analýzy, ktorý využíva pomerne výkonný referenčný strojový slovník kmeňov slov. V procese kontroly pravopisu sa slová textu podrobia morfologickej analýze a ak sú ich základy identifikované so základmi referenčného slovníka, potom sa považujú za správne; ak nie sú identifikované, potom sú spolu s mikrokontextom poskytnuté na nahliadnutie osobe. Osoba zistí a opraví skreslené slová a príslušný softvérový systém vykoná tieto opravy opraveného textu.

Úloha syntaktickej kontroly textov s cieľom odhaliť v nich chyby je oveľa ťažšia ako úloha kontroly ich pravopisu. Po prvé preto, že vo svojom zložení zahŕňa úlohu kontroly pravopisu ako jeho povinnú súčasť, a po druhé preto, že problém syntaktickej analýzy neformalizovaných textov ešte nie je úplne vyriešený. Čiastočná syntaktická kontrola textov je však celkom možná. Tu sú dve možnosti: buď zostaviť dostatočne reprezentatívne strojové slovníky referenčných syntaktických štruktúr a porovnať s nimi syntaktické štruktúry analyzovaného textu; alebo vypracovať komplexný systém pravidiel na kontrolu gramatickej konzistentnosti textových prvkov. Prvý spôsob sa nám zdá perspektívnejší, aj keď, samozrejme, nevylučuje možnosť použitia prvkov druhého spôsobu. Syntaktická štruktúra textov by mala byť opísaná z hľadiska gramatických tried slov (presnejšie vo forme sekvencií množín gramatických informácií pre slová).

Úloha sémantickej kontroly textov s cieľom odhaliť sémantické chyby v nich by mala byť priradená triede úloh umelej inteligencie. V plnom rozsahu sa dá vyriešiť len na základe modelovania procesov ľudského myslenia. Zároveň bude zrejme potrebné vytvoriť silné encyklopedické znalostné bázy a softvérové ​​nástroje na manipuláciu s poznatkami. Pre obmedzené tematické oblasti a pre formalizované informácie je však tento problém celkom riešiteľný. Mala by byť postavená a riešená ako úloha sémanticko-syntaktickej kontroly textov.

Problém automatizácie indexovania dokumentov a dopytov je tradičný pre automatizované systémy vyhľadávania textu. Indexovanie sa spočiatku chápalo ako proces priraďovania klasifikačných indexov k dokumentom a dopytom, ktoré odzrkadľujú ich tematický obsah. V budúcnosti sa tento koncept transformoval a výraz „indexovanie“ sa začal vzťahovať na proces prekladu popisov dokumentov a dopytov z prirodzeného jazyka do formalizovaného jazyka, najmä do jazyka „hľadania obrázkov“. Vyhľadávacie obrázky dokumentov sa spravidla začali vytvárať vo forme zoznamov kľúčových slov a fráz odrážajúcich ich tematický obsah a vyhľadávacích obrázkov dopytov - vo forme logických štruktúr, v ktorých boli kľúčové slová a frázy navzájom prepojené. pomocou logických a syntaktických operátorov.

Automatické indexovanie dokumentov je vhodné vykonávať podľa textov ich abstraktov (ak existujú), pretože hlavný obsah dokumentov sa v abstraktoch odráža v koncentrovanej forme. Indexovanie je možné vykonať s kontrolou tezauru alebo bez neho. V prvom prípade sa kľúčové slová a frázy slovníka referenčného stroja hľadajú v názve dokumentu a jeho abstrakte a do DOD sa zahrnú len tie, ktoré sa nachádzajú v slovníku. V druhom prípade sú kľúčové slová a frázy extrahované z textu a zahrnuté do POD, bez ohľadu na to, či patria do nejakého referenčného slovníka. Bola implementovaná aj tretia možnosť, kde okrem výrazov zo strojového tezauru AML obsahoval aj výrazy extrahované z názvu a prvej vety abstraktu dokumentu. Experimenty ukázali, že PODy zostavené automaticky na základe názvov a abstraktov dokumentov poskytujú väčšiu úplnosť vyhľadávania ako manuálne zostavené PODy. Vysvetľuje to skutočnosť, že systém automatického indexovania plnšie odráža rôzne aspekty obsahu dokumentov ako systém manuálneho indexovania.

Pri automatickom indexovaní dopytov vznikajú približne rovnaké problémy ako pri automatickom indexovaní dokumentov. Tu tiež musíte extrahovať kľúčové slová a frázy z textu a normalizovať slová zahrnuté v texte dopytu. Logické väzby medzi kľúčovými slovami a frázami a kontextové operátory je možné zadávať manuálne alebo pomocou automatizovaného postupu. Dôležitý prvok Proces automatického indexovania dopytu je pridávanie jeho kľúčových slov a fráz s ich synonymami a hyponymami (niekedy aj hypernymami a inými výrazmi spojenými s pôvodnými výrazmi dopytu). Dá sa to urobiť automaticky alebo interaktívne pomocou strojového tezauru.

Problémom automatizácie vyhľadávania dokumentárnych informácií sme sa už čiastočne zaoberali v súvislosti s úlohou automatického indexovania. Najsľubnejšie je tu vyhľadávanie dokumentov podľa ich úplných textov, keďže použitie akýchkoľvek náhrad na tento účel (bibliografické popisy, vyhľadávacie obrázky dokumentov a texty ich abstraktov) vedie k strate informácií pri vyhľadávaní. K najväčším stratám dochádza pri použití ich bibliografických popisov ako náhrad za primárne dokumenty, k najmenším pri použití abstraktov.

Dôležité vlastnosti Vlastnosti získavania informácií sú ich úplnosť a presnosť. Úplnosť vyhľadávania možno zabezpečiť čo najväčším zohľadnením paradigmatických väzieb medzi jednotkami jazyka a reči (slovami a frázami) a presnosťou - zohľadnením ich syntagmatických väzieb. Existuje názor, že úplnosť a presnosť vyhľadávania sú nepriamo úmerné: opatrenia na zlepšenie jednej z týchto vlastností vedú k zhoršeniu druhej. To však platí len pre pevnú logiku vyhľadávania. Ak sa táto logika zlepší, obe charakteristiky sa môžu zlepšiť súčasne.

Proces vyhľadávania informácií vo fulltextových databázach by mal byť vybudovaný ako proces interaktívnej komunikácie medzi používateľom a systémom na vyhľadávanie informácií (IPS), v ktorom si postupne prezerá textové fragmenty (odseky, odseky), ktoré vyhovujú logické podmienky a vyberie tie, ktoré ho zaujímajú. Ako konečné výsledky vyhľadávania možno uviesť ako plné texty dokumenty, ako aj akékoľvek ich fragmenty.

Ako vyplýva z predchádzajúcich úvah, pri automatickom vyhľadávaní informácií je potrebné prekonať jazykovú bariéru, ktorá vzniká medzi používateľom a IPS v dôsledku rôznorodosti foriem reprezentácie rovnakého významu, ktorá sa odohráva v textoch. Táto bariéra sa stáva ešte výraznejšou, ak musíte vyhľadávať vo viacjazyčných databázach. Kardinálnym riešením problému tu môže byť strojový preklad textov dokumentov z jedného jazyka do druhého. Dá sa to urobiť buď vopred, pred nahraním dokumentov do vyhľadávača, alebo v procese vyhľadávania informácií. AT posledný prípad dotaz používateľa musí byť preložený do jazyka poľa dokumentov, v ktorých sa vyhľadávanie vykonáva, a výsledky vyhľadávania do jazyka dotazu. Takého druhu vyhľadávače už funguje na internete. Vo VINITI RAS bol vybudovaný aj systém Cyrillic Browser, ktorý umožňuje vyhľadávať informácie v ruskojazyčných textoch na dopyty v angličtine, pričom výsledky vyhľadávania sa zobrazujú aj v jazyku používateľa.

Dôležitou a sľubnou úlohou výpočtovej lingvistiky je konštrukcia lingvistických procesorov, ktoré umožňujú používateľom komunikovať s inteligentnými automatizovanými informačnými systémami (najmä s expertnými systémami) v prirodzenom jazyku alebo v jazyku blízkom prirodzenému. Keďže informácie sú v moderných inteligentných systémoch uložené vo formalizovanej forme, lingvistické procesory, pôsobiace ako sprostredkovatelia medzi osobou a počítačom, musia riešiť tieto hlavné úlohy: 1) úloha prechodu od textov vstupných informačných požiadaviek a správ v prirodzenom jazyku reprezentovať ich význam vo formalizovanom jazyku (pri zadávaní informácií do počítača); 2) úloha prechodu od formalizovanej reprezentácie významu výstupných správ k jej reprezentácii v prirodzenom jazyku (keď sa informácie poskytujú osobe). Prvá úloha by mala byť riešená morfologickou, syntaktickou a konceptuálnou analýzou vstupných požiadaviek a správ, druhá - konceptuálnou, syntaktickou a morfologickou syntézou výstupných správ.

Konceptuálna analýza informačných požiadaviek a správ spočíva v identifikácii ich pojmovej štruktúry (hranice názvov pojmov a vzťahov medzi pojmami v texte) a preklade tejto štruktúry do formalizovaného jazyka. Vykonáva sa po morfologickej a syntaktickej analýze požiadaviek a správ. Konceptuálna syntéza správ spočíva v prechode od reprezentácie prvkov ich štruktúry vo formalizovanom jazyku k verbálnej (verbálnej) reprezentácii. Potom správy dostanú potrebný syntaktický a morfologický dizajn.

Pre strojový preklad textov z jedného prirodzeného jazyka do druhého je potrebné mať slovníky prekladových korešpondencií medzi názvami pojmov. Poznatky o takýchto prekladových korešpondenciách zhromaždilo mnoho generácií ľudí a vydali ich vo forme špeciálnych vydaní – dvojjazyčných alebo viacjazyčných slovníkov. Odborníkom, ktorí do istej miery ovládajú cudzie jazyky, poslúžili tieto slovníky ako cenná pomôcka pri preklade textov.

V tradičných dvojjazyčných a viacjazyčných slovníkoch všeobecný účel transferové ekvivalenty boli indikované hlavne pre jednotlivé slová, pre frázy - oveľa menej často. Uvádzanie prekladových ekvivalentov pri slovných spojeniach bolo typické skôr pre špeciálne terminologické slovníky. Preto pri preklade úsekov textov obsahujúcich polysémantické slová mali študenti často ťažkosti.

Nižšie sú uvedené prekladové korešpondencie medzi niekoľkými pármi anglických a ruských fráz na „školské“ témy.

1) Netopier vyzerá ako myš s krídlami - Netopier vyzerá ako myš s krídlami.

2) Deti sa radi hrajú v piesku na pláži - Deti milujú hrať sa v piesku na pláži.

3) Kvapka dažďa mi padla na ruku - Kvapka dažďa mi padla na ruku.

4) Suché drevo ľahko horí – suché drevo dobre horí.

5) Tváril sa, že ma nepočuje - Tváril sa, že ma nepočuje.

Anglické frázy tu nie sú idiomatické výrazy. Napriek tomu ich preklad do ruštiny možno s určitou mierou považovať iba za jednoduchý preklad od slova do slova, pretože takmer všetky slová v nich obsiahnuté sú polysémické. Preto tu môžu študentom pomôcť iba výdobytky počítačovej lingvistiky.

Obsah článku

POČÍTAČOVÁ LINGVISTIKA, smer v aplikovanej lingvistike, zameraný na využitie počítačových nástrojov - programov, počítačových technológií na organizáciu a spracovanie dát - na modelovanie fungovania jazyka v určitých podmienkach, situáciách, problémových oblastiach a pod., ako aj celý rozsah počítačovej techniky. jazykové modely v lingvistike a súvisiace disciplíny. V skutočnosti iba v druhom prípade hovoríme o aplikovanej lingvistike v užšom slova zmysle, pretože počítačové modelovanie jazyka možno považovať aj za oblasť aplikácie informatiky a teórie programovania na riešenie problémov vedy o jazyku. V praxi sa však takmer všetko, čo súvisí s používaním počítačov v lingvistike, označuje ako počítačová lingvistika.

Ako osobitný vedecký smer sa v 60. rokoch formovala počítačová lingvistika. Ruský výraz „computational linguistics“ je pauzovací papier z anglickej počítačovej lingvistiky. Keďže prídavné meno computational v ruštine možno preložiť aj ako „počítačový“, výraz „počítačová lingvistika“ sa nachádza aj v literatúre, no v domácej vede nadobúda užší význam, ktorý sa približuje pojmu „kvantitatívna lingvistika“. Tok publikácií v tejto oblasti je veľmi vysoký. Okrem tematické kolekcie, v Spojených štátoch amerických sa štvrťročne vydáva časopis Computational Linguistics. Skvelá organizačná a vedecká práca vykonáva Asociácia pre počítačovú lingvistiku, ktorá má regionálne štruktúry (najmä európska pobočka). Každé dva roky sa konajú medzinárodné konferencie o počítačovej lingvistike – COLING. Relevantné problémy sú zvyčajne široko prezentované aj na rôznych konferenciách o umelej inteligencii.

Toolkit of Computational Linguistics.

Počítačová lingvistika ako osobitná aplikovaná disciplína sa odlišuje predovšetkým svojím nástrojom – t.j. o používaní počítačových nástrojov na spracovanie jazykových údajov. Pretože počítačové programy, modelovanie určitých aspektov fungovania jazyka, dokáže využiť najviac rôznymi prostriedkami programovanie, potom sa zdá, že nie je potrebné hovoriť o všeobecnom pojmovom aparáte výpočtovej lingvistiky. Avšak nie je. Existujú všeobecné zásady počítačová simulácia myslenia, ktoré sú nejakým spôsobom implementované v akomkoľvek počítačovom modeli. Vychádzajú z teórie poznania, ktorá bola pôvodne vyvinutá v oblasti umelej inteligencie a neskôr sa stala jednou zo sekcií kognitívnej vedy. Najdôležitejšie pojmové kategórie počítačová lingvistika sú také znalostné štruktúry ako „rámce“ (konceptuálne, alebo, ako sa hovorí, konceptuálne štruktúry na deklaratívnu reprezentáciu vedomostí o typizovanej tematicky zjednotenej situácii), „scenarios“ (konceptuálne štruktúry na procedurálnu reprezentáciu vedomostí o stereotypnom situácia alebo stereotypné správanie), „plány“ (znalostné štruktúry, ktoré fixujú predstavy o možné akciečo vedie k dosiahnutiu špecifický dôvod). Pojem „scéna“ úzko súvisí s kategóriou rámu. Kategória scén sa v literatúre o počítačovej lingvistike používa najmä ako označenie pojmovej štruktúry na deklaratívne zobrazenie situácií a ich častí, ktoré sa aktualizujú v rečovom akte a zvýrazňujú jazykovými prostriedkami (lexémy, syntaktické konštrukcie, gramatické kategórie atď.). .).

Určitý organizovaný súbor znalostných štruktúr tvorí „model sveta“ kognitívneho systému a jeho počítačového modelu. V systémoch umelej inteligencie tvorí model sveta špeciálny blok, ktorý v závislosti od zvolenej architektúry môže zahŕňať všeobecné vedomosti o svete (vo forme jednoduchých propozícií ako „v zime je zima“ alebo vo forme výrobných pravidiel „ak vonku prší, treba si obliecť pršiplášť alebo si zobrať dáždnik“), niektoré konkrétne fakty („The najvyšší vrchol na svete je Everest") a tiež hodnoty a ich hierarchie, niekedy oddelené v špeciálnom "axiologickom bloku".

Väčšina prvkov konceptov nástrojov počítačovej lingvistiky je homonymná: súčasne označujú niektoré skutočné entity ľudského kognitívneho systému a spôsoby reprezentácie týchto entít používané v ich teoretickom popise a modelovaní. Inými slovami, prvky pojmový aparát počítačová lingvistika má ontologické a inštrumentálne aspekty. Napríklad v ontologickom aspekte oddelenie deklaratívnych a procedurálnych znalostí zodpovedá odlišné typy vedomosť, ktorú človek má – takzvané poznanie ČOHO (deklaratívne; ako napr. znalosť Poštová adresa niektorej NN), na jednej strane a znalosť AKO (procesná; taká napr. znalosť, ktorá vám umožní nájsť byt tejto NN aj bez znalosti jeho formálnej adresy) - na strane druhej. V inštrumentálnom aspekte môžu byť znalosti stelesnené v súbore popisov (opisov), v súbore údajov na jednej strane a v algoritme, inštrukcii, ktorú počítač alebo iný model kognitívneho systému vykonáva na iné.

Smery počítačovej lingvistiky.

Oblasť CL je veľmi rôznorodá a zahŕňa také oblasti ako počítačové modelovanie komunikácie, modelovanie štruktúry deja, hypertextové technológie na prezentáciu textu, strojový preklad, počítačová lexikografia. AT úzky zmysel Problematika CL sa často spája s interdisciplinárnou aplikovanou oblasťou s trochu nešťastným názvom „natural language processing“ (preklad anglického výrazu Natural Language Processing). Vznikla koncom 60. rokov 20. storočia a rozvíjala sa v rámci vedecko-technickej disciplíny „umelá inteligencia“. Svojím spôsobom vnútorná forma výraz „spracovanie prirodzeného jazyka“ zahŕňa všetky oblasti, v ktorých sa počítače používajú na spracovanie jazykových údajov. Medzitým sa v praxi ustálilo užšie chápanie tohto pojmu – vývoj metód, technológií a špecifických systémov, ktoré zabezpečujú komunikáciu medzi človekom a počítačom v prirodzenom alebo obmedzenom prirodzenom jazyku.

Prudký rozvoj smeru „spracovania prirodzeného jazyka“ spadá do 70. rokov 20. storočia, čo súviselo s nečakaným exponenciálnym rastom počtu koncových používateľov počítačov. Keďže nie je možné učiť jazyky a programovacie technológie všetkých používateľov, vznikol problém organizácie interakcie s počítačovými programami. Riešenie tohto problému komunikácie sledovalo dve hlavné cesty. V prvom prípade sa uskutočnili pokusy prispôsobiť programovacie jazyky a operačné systémy koncovému používateľovi. V dôsledku toho sa objavili jazyky na vysokej úrovni, ako je Visual Basic, ako aj pohodlné operačné systémy postavené v koncepčnom priestore metafor známych ľuďom - DESK, LIBRARY. Druhým spôsobom je vývoj systémov, ktoré by umožnili interakciu s počítačom v špecifickej problémovej oblasti v prirodzenom jazyku alebo nejakej jeho obmedzenej verzii.

Architektúra systémov na spracovanie prirodzeného jazyka vo všeobecnosti zahŕňa analytickú jednotku hlasová správa užívateľ, blok interpretácie správ, blok na generovanie významu odpovede a blok na syntetizovanie povrchovej štruktúry výpovede. Špeciálnou súčasťou systému je dialógová zložka, ktorá obsahuje dialógové stratégie, podmienky uplatňovania týchto stratégií a spôsoby, ako prekonať prípadné komunikačné zlyhania (zlyhania v komunikačnom procese).

Medzi počítačovými systémami na spracovanie prirodzeného jazyka sa zvyčajne rozlišujú systémy otázka-odpoveď, dialógové systémy riešenie problémov a prepojené systémy spracovania textu. Spočiatku sa systémy otázka-odpoveď začali vyvíjať ako reakcia na zlá kvalita kódovanie dopytov pri vyhľadávaní informácií v informačných systémoch. Keďže problémová oblasť takýchto systémov bola veľmi obmedzená, trochu sa tým zjednodušili algoritmy na preklad dotazov do reprezentácie formálneho jazyka a opačný postup na transformáciu formálnej reprezentácie na príkazy v prirodzenom jazyku. Z domáceho vývoja k programom tohto typu patrí systém POET, ktorý vytvoril tím výskumníkov pod vedením E.V.Popova. Systém spracováva požiadavky v ruštine (s menšími obmedzeniami) a syntetizuje odpoveď. Bloková schéma programu predpokladá prechod všetkých štádií analýzy (morfologické, syntaktické a sémantické) a zodpovedajúce štádiá syntézy.

Dialógové systémy na riešenie problémov na rozdiel od systémov predchádzajúceho typu hrajú v komunikácii aktívna rola, keďže ich úlohou je získať riešenie problému na základe poznatkov, ktoré sú v ňom prezentované, a na základe informácií, ktoré je možné získať od používateľa. Systém obsahuje znalostné štruktúry, ktoré zaznamenávajú typické postupnosti akcií na riešenie problémov v danej problémovej oblasti, ako aj informácie o potrebné zdroje. Keď používateľ položí otázku alebo nastaví určitú úlohu, aktivuje sa príslušný skript. Ak chýbajú niektoré komponenty skriptu alebo chýbajú niektoré zdroje, systém zaháji komunikáciu. Takto funguje napríklad systém SNUKA, ktorý rieši problémy plánovania vojenských operácií.

Prepojené systémy na spracovanie textu majú veľmi rôznorodú štruktúru. ich spoločný znak možno považovať za rozšírené používanie technológií reprezentácie znalostí. Funkciou systémov tohto druhu je porozumieť textu a odpovedať na otázky o jeho obsahu. Porozumenie sa nepovažuje za univerzálnu kategóriu, ale za proces získavania informácií z textu, určený špecifickým komunikačným zámerom. Inými slovami, text sa „číta“ len s predpokladom, že sa o ňom chce dozvedieť práve potenciálny používateľ. Ukázalo sa teda, že prepojené systémy spracovania textu nie sú v žiadnom prípade univerzálne, ale orientované na problém. Typickými príkladmi systémov diskutovaného typu sú systémy RESEARCHER a TAILOR, ktoré tvoria jeden softvérový balík, ktorý umožňuje užívateľovi získať informácie z abstraktov patentov popisujúcich zložité fyzické objekty.

Najdôležitejšou oblasťou počítačovej lingvistiky je vývoj systémov na vyhľadávanie informácií (IPS). Ten vznikol koncom 50. a začiatkom 60. rokov 20. storočia ako reakcia na prudký nárast objemu vedeckých a technických informácií. Podľa typu uložených a spracovaných informácií, ako aj podľa vlastností vyhľadávania sa IPS delia na dve veľké skupiny – dokumentárne a faktografické. Dokumentačné informačné systémy uchovávajú texty dokumentov alebo ich popisy (abstrakty, bibliografické karty a pod.). Faktografické IPS sa zaoberajú popisom konkrétnych faktov, a to nie nevyhnutne v textovej forme. Môžu to byť tabuľky, vzorce a iné typy prezentácie údajov. Existujú aj zmiešané IPS, ktoré zahŕňajú dokumenty aj faktické informácie. Faktografické informačné systémy sú v súčasnosti budované na báze databázových (DB) technológií. Na zabezpečenie vyhľadávania informácií v IPS sú vytvorené špeciálne jazyky na vyhľadávanie informácií, ktoré sú založené na tezauroch vyhľadávania informácií. Jazyk na vyhľadávanie informácií je formálny jazyk určený na opis určitých aspektov plánu obsahu dokumentov uložených v IPS a žiadosti. Postup opisu dokumentu v jazyku na vyhľadávanie informácií sa nazýva indexovanie. V dôsledku indexovania je každému dokumentu priradený jeho formálny popis v jazyku vyhľadávania informácií – vyhľadávací obrázok dokumentu. Podobne je indexovaný dopyt, ku ktorému je priradený vyhľadávací obrázok dopytu a predpis vyhľadávania. Algoritmy získavania informácií sú založené na porovnaní vyhľadávacieho predpisu s vyhľadávacím obrázkom dopytu. Kritérium na vydanie dokumentu na žiadosť môže pozostávať z úplnej alebo čiastočnej zhody medzi rešeršným obrázkom dokumentu a rešeršným predpisom. V niektorých prípadoch má používateľ možnosť formulovať kritériá vydania sám. To je určené jeho informačnou potrebou. Jazyky na vyhľadávanie popisných informácií sa častejšie používajú v automatizovaných IS. Predmet dokumentu je opísaný súborom deskriptorov. Slová a termíny označujúce jednoduché, pomerne elementárne kategórie a koncepty problémovej oblasti fungujú ako deskriptory. Do vyhľadávacieho obrázku dokumentu sa zadá toľko deskriptorov, koľko rôzne témy ovplyvnený dokumentom. Počet deskriptorov nie je obmedzený, čo umožňuje opísať dokument vo viacrozmernej matici znakov. V jazyku na vyhľadávanie informácií deskriptorov sú často kladené obmedzenia na kombinovateľnosť deskriptorov. V tomto prípade môžeme povedať, že jazyk na vyhľadávanie informácií má syntax.

Jedným z prvých systémov, ktorý pracoval s jazykom deskriptorov, bol americký systém UNITERM vytvoril M. Taube. V tomto systéme kľúčové slová dokumentu, uniterms, fungovali ako deskriptory. Zvláštnosťou tohto IPS je, že pôvodne slovník informačného jazyka nebol nastavený, ale vznikol v procese indexovania dokumentu a dotazu. Rozvoj moderných systémov na vyhľadávanie informácií je spojený s vývojom IPS iného ako tezaurového typu. Takéto IPS pracujú s používateľom v obmedzenom prirodzenom jazyku a vyhľadávanie prebieha v textoch abstraktov dokumentov, v ich bibliografických popisoch a často aj v samotných dokumentoch. Na indexovanie v netezaurovom type IPS sa používajú slová a frázy prirodzeného jazyka.

Do oblasti počítačovej lingvistiky možno do určitej miery zaradiť práce z oblasti vytvárania hypertextových systémov, ktoré sa považujú za osobitný spôsob organizácie textu a dokonca za zásadné nový druh text, ktorý je v mnohých svojich vlastnostiach protikladný k obvyklému textu formovanému v Gutenbergovej tradícii typografie. Myšlienka hypertextu je spojená s menom Vannevara Busha, vedeckého poradcu prezidenta F. Roosevelta. W. Bush teoreticky zdôvodnil projekt technického systému „Memex“, ktorý umožňoval používateľovi prepájať texty a ich fragmenty rôznymi typmi odkazov, najmä asociatívnymi vzťahmi. Neprítomnosť počítačová technológia sťažilo realizáciu projektu, pretože mechanický systém sa ukázal byť príliš zložitý na praktickú realizáciu.

Bushova myšlienka v 60. rokoch dostala druhý zrod v systéme „Xanadu“ T. Nelsona, ktorý už predpokladal využitie výpočtovej techniky. "Xanadu" umožnil užívateľovi prečítať si všetky texty zadané do systému rôzne cesty Softvér v rôznych sekvenciách umožnil zapamätať si poradie prezeraných textov a vybrať takmer ktorýkoľvek z nich v ľubovoľnom čase. Súbor textov so vzťahmi, ktoré ich spájajú (systém prechodov), nazval T. Nelson hypertext. Mnoho výskumníkov považuje vytvorenie hypertextu za začiatok nového informačného veku, ktorý je v protiklade s érou tlače. Lineárnosť písma, navonok odrážajúca lineárnosť reči, sa ukazuje ako základná kategória, ktorá obmedzuje ľudské myslenie a chápanie textu. Významový svet je nelineárny, preto si kompresia sémantickej informácie v lineárnom rečovom segmente vyžaduje použitie špeciálnych „komunikačných balíkov“ – rozdelenie na tému a rému, rozdelenie plánu obsahu výpovede na explicitné (výrok, propozícia, ohnisko) a implicitné (predpoklad, dôsledok, implikatúra diskurzu) vrstvy . Odmietnutie lineárnosti textu tak v procese jeho prezentácie čitateľovi (t. j. pri čítaní a porozumení), ako aj v procese syntézy by podľa teoretikov prispelo k „oslobodeniu“ myslenia a dokonca k vzniku tzv. jeho nové podoby.

V počítačovom systéme je hypertext reprezentovaný ako graf, ktorého uzly obsahujú tradičné texty alebo ich fragmenty, obrázky, tabuľky, videá atď. Uzly sú spojené rôznymi vzťahmi, ktorých typy špecifikujú vývojári hypertextového softvéru alebo samotný čitateľ. Vzťahy definujú potenciálne možnosti pohybu, prípadne navigácie cez hypertext. Vzťahy môžu byť jednosmerné alebo obojsmerné. V súlade s tým obojsmerné šípky umožňujú používateľovi pohybovať sa oboma smermi, zatiaľ čo jednosmerné šípky umožňujú používateľovi pohybovať sa iba jedným smerom. Reťazec uzlov, cez ktorý čitateľ prechádza pri prezeraní zložiek textu, tvorí cestu alebo trasu.

Počítačové implementácie hypertextu sú hierarchické alebo sieťové. Hierarchická – stromová – štruktúra hypertextu výrazne obmedzuje možnosti prechodu medzi jeho zložkami. V takomto hypertexte sa vzťahy medzi komponentmi podobajú štruktúre tezauru založeného na rodovo-druhových vzťahoch. Sieťový hypertext umožňuje využívať rôzne typy vzťahov medzi komponentmi, neobmedzujúce sa len na rodovo-druhové vzťahy. Podľa spôsobu existencie hypertextu sa rozlišujú statické a dynamické hypertexty. Statický hypertext sa počas prevádzky nemení; v ňom môže používateľ zaznamenávať svoje pripomienky, ktoré však nemenia podstatu veci. Pre dynamický hypertext je zmena normálnou formou existencie. Dynamické hypertexty zvyčajne fungujú tam, kde je potrebné neustále analyzovať tok informácií, t.j. v informačných službách rôzneho druhu. Hypertextom je napríklad Arizonský informačný systém (AAIS), ktorý sa mesačne aktualizuje 300 – 500 abstraktmi za mesiac.

Vzťahy medzi hypertextovými prvkami môžu byť na začiatku fixované tvorcami alebo môžu byť generované vždy, keď používateľ pristupuje k hypertextu. V prvom prípade hovoríme o hypertextoch tuhej štruktúry a v druhom prípade o hypertextoch mäkkej štruktúry. Pevná konštrukcia je technologicky celkom prehľadná. Technológia na organizovanie mäkkej štruktúry by mala byť založená na sémantickej analýze vzájomnej blízkosti dokumentov (alebo iných zdrojov informácií). Toto je netriviálna úloha počítačovej lingvistiky. V súčasnosti je rozšírené používanie technológií mäkkých štruktúr na kľúčové slová. Prechod z jedného uzla do druhého v hypertextovej sieti sa uskutočňuje ako výsledok vyhľadávania kľúčových slov. Keďže sada kľúčových slov sa môže zakaždým líšiť, štruktúra hypertextu sa tiež zakaždým mení.

Technológia budovania hypertextových systémov nerozlišuje medzi textovými a netextovými informáciami. Medzitým zahrnutie vizuálnych a zvukových informácií (videá, maľby, fotografie, zvukové nahrávky atď.) vyžaduje výrazná zmena používateľské rozhranie a výkonnejší softvér a počítačová podpora. Takéto systémy sa nazývajú hypermédiá alebo multimédiá. Viditeľnosť multimediálnych systémov predurčila ich široké využitie vo vzdelávaní, pri tvorbe počítačových verzií encyklopédií. K dispozícii sú napríklad krásne spracované CD-ROM s multimediálnymi systémami pre detské encyklopédie vydavateľstva Dorlin Kindersley.

V rámci počítačovej lexikografie sa rozvíjajú počítačové technológie na zostavovanie a prevádzku slovníkov. Špeciálne programy - databázy, počítačové kartotéky, programy na spracovanie textu - vám umožňujú automaticky generovať položky slovníka, ukladať informácie zo slovníka a spracovávať ich. Mnoho rôznych počítačových lexikografických programov sa delí do dvoch veľkých skupín: programy na podporu lexikografických diel a automatické slovníky rôznych typov vrátane lexikografických databáz. Automatický slovník je slovník v špeciálnom strojovom formáte určený na používanie v počítači používateľom alebo počítačovým programom na spracovanie textu. Inými slovami, existuje rozdiel medzi automatickými ľudskými slovníkmi pre koncových používateľov a automatickými slovníkmi pre programy na spracovanie textu. Automatické slovníky určené pre koncového používateľa sa z hľadiska rozhrania a štruktúry slovníkového hesla výrazne líšia od automatických slovníkov zahrnutých v systémoch strojového prekladu, automatických referenčných systémoch, systémoch na vyhľadávanie informácií atď. Najčastejšie ide o počítačové verzie známych konvenčných slovníkov. Na softvérovom trhu existujú počítačové analógy výkladových slovníkov anglického jazyka (automatický Webster, automatický výkladový anglický slovník vydavateľstva Collins, automatická verzia New Large Anglicko-ruský slovník vyd. Yu.D. Apresyan a E.M. Mednikova), je tu tiež počítačová verzia Ozhegovov slovník. Automatické slovníky pre programy na spracovanie textu možno nazvať automatickými slovníkmi v presnom zmysle slova. Vo všeobecnosti nie sú určené pre bežného používateľa. Vlastnosti ich štruktúry, rozsah slovnej zásoby sú stanovené programami, ktoré s nimi interagujú.

Počítačové modelovanie štruktúry pozemku je ďalším sľubný smer počítačová lingvistika. Štúdium štruktúry zápletky odkazuje na problémy štrukturálnej literárnej kritiky (v širšom zmysle), semiotiky a kultúrnych štúdií. Dostupné počítačové programy na modelovanie zápletky vychádzajú z troch základných formalizmov reprezentácie zápletky - morfologického a syntaktického smeru znázornenia zápletky, ako aj z kognitívneho prístupu. Myšlienky o morfologickej štruktúre dejovej štruktúry siahajú do slávnych diel V.Ya. Proppa ( cm.) o ruskej rozprávke. Propp si všimol, že pri množstve postáv a udalostí v rozprávke je počet funkcií postáv obmedzený a navrhol aparát na opis týchto funkcií. Proppove nápady tvorili základ počítačového programu TALE, ktorý simuluje generovanie deja rozprávky. Algoritmus programu TALE je založený na postupnosti funkcií postáv v rozprávke. V skutočnosti Proppove funkcie nastavujú súbor typizovaných situácií, usporiadaných na základe analýzy empirického materiálu. Spojovacie schopnosti rôzne situácie v pravidlách generácie boli určené typickým sledom funkcií - v podobe, v akej sa dá ustanoviť z textov rozprávok. V programe boli popísané typické sekvencie funkcií ako typické scenáre stretnutia postáv.

Teoretickým základom syntaktického prístupu k zápletke textu boli „zápletkové gramatiky“ alebo „naratívne gramatiky“ (príbehové gramatiky). Objavili sa v polovici 70. rokov 20. storočia v dôsledku prenosu myšlienok generatívnej gramatiky N. Chomského do opisu makroštruktúry textu. Ak boli najdôležitejšími zložkami syntaktickej štruktúry v generatívnej gramatike verbálne a nominálne skupiny, tak vo väčšine dejových gramatík sa ako základné vyčlenila expozícia (miesto), udalosť a epizóda. V teórii dejových gramatík sa široko diskutovalo o podmienkach minimalizácie, teda o obmedzeniach, ktoré určovali status sekvencie dejových prvkov ako normálneho dejového plánu. Ukázalo sa však, že čisto lingvistické metódy nie je možné tak urobiť. Mnohé obmedzenia majú sociokultúrny charakter. Plotové gramatiky, výrazne sa líšiace množinou kategórií v generačnom strome, umožňovali veľmi obmedzený súbor pravidiel na úpravu naratívnej (naratívnej) štruktúry.

Začiatkom 80. rokov jeden zo študentov R. Schenka, V. Lenert, v rámci práce na vytvorení počítačového generátora zápletiek navrhol originálny formalizmus emocionálnych zápletkových jednotiek (Affective Plot Units), ktorý sa ukázal ako silný nástroj na znázornenie štruktúry pozemku. Hoci bol pôvodne vyvinutý pre systém umelej inteligencie, tento formalizmus sa používal v čisto teoretických štúdiách. Podstatou Lehnertovho prístupu bolo, že dej bol opísaný ako postupná zmena kognitívno-emocionálnych stavov postáv. Ťažiskom Lehnertovho formalizmu teda nie sú vonkajšie zložky zápletky – expozícia, udalosť, epizóda, morálka – ale jej vecné charakteristiky. V tomto smere je Lehnertov formalizmus čiastočne návratom k Proppovým myšlienkam.

Súčasťou počítačovej lingvistiky je aj strojový preklad, ktorý v súčasnosti zažíva znovuzrodenie.

Literatúra:

Popov E.V. Komunikácia s počítačmi v prirodzenom jazyku. M., 1982
Sadur V.G. Hlasová komunikácia s elektronickými počítačmi a problémami ich vývoja. - V knihe: Rečová komunikácia: problémy a perspektívy. M., 1983
Baranov A.N. Kategórie umelej inteligencie v lingvistickej sémantike. Rámy a skripty. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modelovanie komunikácie v systémoch človek-stroj. – Jazyková podpora informačné systémy. M., 1987
Olker H.R. Rozprávky, tragédie a spôsoby prezentácie svetových dejín. - V knihe: Jazyk a modelovanie sociálna interakcia. M., 1987
Gorodetsky B.Yu. Počítačová lingvistika: Modelovanie jazykovej komunikácie
McQueen K. Diskurzívne stratégie pre syntézu textu v prirodzenom jazyku. – Novinka v cudzej lingvistike. Problém. XXIV, Počítačová lingvistika. M., 1989
Popov E.V., Preobraženskij A.B. . Vlastnosti implementácie NL-systémov
Preobraženskij A.B. Stav vývoja moderných NL-systémov. - Umela inteligencia. Kniha. 1, Komunikačné systémy a expertné systémy. M., 1990
Subbotin M.M. Hypertext. Nová forma písomná komunikácia. — VINITI, Ser. Informatika, 1994, v. 18
Baranov A.N. Úvod do aplikovanej lingvistiky. M., 2000



Pojem „výpočtová lingvistika“ sa zvyčajne vzťahuje na širokú oblasť použitia počítačových nástrojov - programov, počítačových technológií na organizáciu a spracovanie údajov - na modelovanie fungovania jazyka v určitých podmienkach, situáciách, problémových oblastiach, ako aj rozsahu. počítačových jazykových modelov.len v lingvistike, ale aj v príbuzných disciplínach. V skutočnosti iba v druhom prípade hovoríme o aplikovanej lingvistike v užšom zmysle, keďže modelovanie počítačového jazyka možno považovať aj za oblasť aplikácie teórie programovania (informatika) v oblasti lingvistiky. Napriek tomu je všeobecná prax taká, že rozsah počítačovej lingvistiky pokrýva takmer všetko, čo súvisí s používaním počítačov v lingvistike: „Pojem“ počítačová lingvistika „stanovuje všeobecnú orientáciu na používanie počítačov na riešenie rôznych vedeckých a praktických problémov. súvisiaci s jazykom, bez toho, aby akýmkoľvek spôsobom obmedzoval spôsoby riešenia týchto problémov.

Inštitucionálny aspekt počítačovej lingvistiky. Ako osobitný vedecký smer sa v 60. rokoch formovala počítačová lingvistika. Tok publikácií v tejto oblasti je veľmi vysoký. Okrem tematických zborníkov vychádza v USA štvrťročne aj časopis Computational Linguistics. Veľkú organizačnú a vedeckú prácu vykonáva Asociácia pre počítačovú lingvistiku, ktorá má regionálne štruktúry po celom svete (najmä európska pobočka). Každé dva roky sa konajú medzinárodné konferencie o počítačovej lingvistike - KOLING. Relevantné problémy sú široko zastúpené aj na medzinárodných konferenciách o umelej inteligencii na rôznych úrovniach.

Kognitívna sada nástrojov výpočtovej lingvistiky

Počítačová lingvistika ako špeciálna aplikovaná disciplína sa vyznačuje predovšetkým svojím nástrojom – teda využitím počítačových nástrojov na spracovanie jazykových údajov. Keďže počítačové programy, ktoré modelujú určité aspekty fungovania jazyka, môžu využívať rôzne programovacie nástroje, zdá sa, že nie je potrebné hovoriť o spoločnom metajazyku. Avšak nie je. Existujú všeobecné princípy počítačového modelovania myslenia, ktoré sú nejakým spôsobom implementované v akomkoľvek počítačovom modeli. Tento jazyk je založený na teórii poznania vyvinutej v umelej inteligencii a tvoriacej dôležité odvetvie kognitívnej vedy.

Hlavná téza teórie poznania tvrdí, že myslenie je proces spracovania a generovania vedomostí. „Vedomosti“ alebo „vedomosti“ sa považujú za nedefinovanú kategóriu. Ľudský kognitívny systém funguje ako „procesor“, ktorý spracováva poznatky. V epistemológii a kognitívnej vede sa rozlišujú dva hlavné typy vedomostí – deklaratívne („vedieť čo“) a procedurálne („vedieť ako“2)). Deklaratívne poznatky sú zvyčajne prezentované ako súbor výrokov, tvrdení o niečom. Typickým príkladom deklaratívnych znalostí je výklad slov v bežných výkladových slovníkoch. Napríklad pohár] - "malá zaoblená nádoba na pitie, zvyčajne s uškom, vyrobená z porcelánu, fajansy atď.". Deklaratívne znalosti sa hodia na overovací postup v zmysle „pravda – nepravda“. Procedurálne znalosti sú prezentované ako postupnosť (zoznam) operácií, úkonov, ktoré sa majú vykonať. Toto je nejaký všeobecný návod na konanie v určitej situácii. Typickým príkladom procesných znalostí je návod na používanie domácich spotrebičov.

Na rozdiel od deklaratívnych znalostí nemožno procesné znalosti overiť ako pravdivé alebo nepravdivé. Môžu byť hodnotené iba podľa úspechu alebo zlyhania algoritmu.

Väčšina pojmov kognitívnych nástrojov počítačovej lingvistiky je homonymná: súčasne označujú niektoré skutočné entity ľudského kognitívneho systému a spôsoby reprezentácie týchto entít v niektorých metajazykoch. Inými slovami, prvky metajazyka majú ontologický a inštrumentálny aspekt. Ontologicky delenie deklaratívnych a procedurálnych poznatkov zodpovedá rôznym typom poznania ľudského kognitívneho systému. Takže znalosti o konkrétnych objektoch, objektoch reality sú hlavne deklaratívne a funkčné schopnosti človeka chodiť, behať, riadiť auto sa realizujú v kognitívnom systéme ako procedurálne znalosti. Inštrumentálne možno poznatky (ontologicky procedurálne aj deklaratívne) reprezentovať ako súbor opisov, opisov a ako algoritmus, inštrukcie. Inými slovami, ontologicky deklaratívny poznatok o objekte reality „tabuľka“ môže byť reprezentovaný procedurálne ako súbor inštrukcií, algoritmov na jeho vytvorenie, zostavenie (= tvorivý aspekt procedurálnych znalostí) alebo ako algoritmus na jeho typické použitie (= funkčný aspekt procedurálne znalosti). V prvom prípade to môže byť návod pre začínajúceho stolára a v druhom popis možností kancelárskeho stola. Platí to aj naopak: ontologicky procedurálne poznatky môžu byť reprezentované deklaratívne.

Vyžaduje si to samostatnú diskusiu o tom, či možno ktorýkoľvek ontologicky deklaratívny poznatok reprezentovať ako procesný a akýkoľvek ontologicky procesný ako deklaratívny. Výskumníci sa zhodujú v tom, že akékoľvek deklaratívne poznatky možno v princípe reprezentovať procedurálne, hoci sa to môže ukázať ako veľmi neekonomické pre kognitívny systém. Opak je sotva pravdou. Faktom je, že deklaratívne znalosti sú oveľa explicitnejšie, pre človeka sú ľahšie pochopiteľné ako procedurálne znalosti. Na rozdiel od deklaratívnych znalostí sú procedurálne znalosti prevažne implicitné. Takže jazykové schopnosti, ktoré sú procedurálnymi znalosťami, sú pred človekom skryté, nie sú ním realizované. Pokus o vysvetlenie mechanizmov fungovania jazyka vedie k dysfunkcii. Špecialisti v oblasti lexikálnej sémantiky napríklad vedia, že dlhodobá sémantická introspekcia potrebná na štúdium plánu obsahu slova vedie k tomu, že výskumník čiastočne stráca schopnosť rozlišovať medzi správnym a zneužívania analyzované slovo. Možno uviesť ďalšie príklady. Je známe, že z hľadiska mechaniky je ľudské telo komplexný systém dve interagujúce kyvadla.

V teórii vedomostí sa vedomosti študujú a reprezentujú pomocou rôzne štruktúry znalosti - rámce, scenáre, plány. Podľa M. Minského je „rámec dátová štruktúra navrhnutá tak, aby reprezentovala stereotypnú situáciu“ [Minsky 1978, s. 254]. Podrobnejšie možno povedať, že rámec je konceptuálna štruktúra pre deklaratívnu reprezentáciu poznatkov o typizovanej tematicky zjednotenej situácii obsahujúcej sloty prepojené určitými sémantickými vzťahmi. Pre účely ilustrácie je rámec často reprezentovaný ako tabuľka, ktorej riadky tvoria sloty. Každý slot má svoj vlastný názov a obsah (pozri tabuľku 1).

stôl 1

Fragment rámu "stola" v zobrazení tabuľky

Záležiac ​​na konkrétnu úlohu rámcová štruktúra môže byť podstatne zložitejšia; rámec môže obsahovať vnorené podrámce a odkazy na iné rámce.

Namiesto tabuľky sa často používa predikátová forma prezentácie. V tomto prípade je rámec vo forme predikátu alebo funkcie s argumentmi. Existujú aj iné spôsoby znázornenia rámca. Napríklad môže byť reprezentovaný ako n-tica nasledujúceho druhu: ( (názov rámca) (názov slotu)) (hodnota slotu,),..., (názov slotu n) (hodnota slotu n) ).

Rámce v jazykoch reprezentujúcich znalosti majú zvyčajne túto formu.

Rovnako ako iné kognitívne kategórie výpočtovej lingvistiky, pojem rámec je homonymný. Ontologicky je súčasťou ľudského kognitívneho systému a v tomto zmysle možno rámec porovnávať s pojmami ako gestalt, prototyp, stereotyp, schéma. V kognitívnej psychológii sú tieto kategórie posudzované práve z ontologického hľadiska. D. Norman teda rozlišuje dva hlavné spôsoby existencie a organizácie poznania v ľudskom kognitívnom systéme – sémantické siete a schémy. "Schémy," píše, "sú organizované balíčky vedomostí zostavené tak, aby reprezentovali odlišné samostatné jednotky vedomostí. Moja schéma pre Sama môže obsahovať informácie popisujúce jeho fyzické črty, jeho aktivity a osobnostné črty. Táto schéma koreluje s inými schémami ktoré opisujú jeho ďalšie aspekty“ [Norman 1998, s. 359]. Ak vezmeme inštrumentálnu stránku kategórie rámca, potom ide o štruktúru pre deklaratívnu reprezentáciu vedomostí. V existujúcich systémoch AI sa môžu vytvárať rámce zložité štruktúry vedomosti; rámcové systémy umožňujú hierarchiu - jeden rámec môže byť súčasťou iného rámca.

Obsahovo je pojem rám veľmi blízky kategórii výkladu. V skutočnosti je štrbina analógom valencie, vyplnenie štrbiny je analógom aktantu. Hlavný rozdiel medzi nimi je v tom, že výklad obsahuje iba lingvisticky relevantné informácie o pláne obsahu slova a rámec, po prvé, nie je nevyhnutne viazaný na slovo, a po druhé, zahŕňa všetky informácie relevantné pre daný problémová situácia vrátane mimojazykovej (poznanie sveta) 3).

Scenár je koncepčný rámec pre procedurálnu reprezentáciu vedomostí o stereotypnej situácii alebo správaní. Prvky skriptu sú kroky algoritmu alebo inštrukcie. Ľudia zvyčajne hovoria o „scenároch reštaurácie“, „scenároch nákupu“ a podobne.

Rámec sa pôvodne používal aj na procedurálnu prezentáciu (porovnaj termín „procedurálny rámec“), ale výraz „scenár“ sa dnes v tomto zmysle používa častejšie. Scenár môže byť reprezentovaný nielen ako algoritmus, ale aj ako sieť, ktorej vrcholy zodpovedajú určitým situáciám a oblúky zodpovedajú prepojeniam medzi situáciami. Spolu s konceptom písma niektorí výskumníci používajú kategóriu písma na počítačové modelovanie inteligencie. Podľa R. Schenka je scenár nejaká všeobecne akceptovaná, dobre známa sekvencia príčinná súvislosť. Napríklad pochopenie dialógu

Na ulici leje ako z vedra.

Stále musíte ísť do obchodu: v dome nie je nič - včera hostia všetko pozametali.

je založený na nevýslovných významových spojeniach typu „ak prší, je nežiaduce chodiť von, pretože môžete ochorieť“. Tieto spojenia tvoria scenár, ktorý používajú rodení hovoriaci na vzájomné porozumenie verbálneho a neverbálneho správania.

V dôsledku aplikácie scenára na konkrétnu problémovú situáciu a plánovať). Plán sa používa na procedurálnu reprezentáciu vedomostí o možných akciách vedúcich ku konkrétnemu cieľu. Plán spája cieľ so sledom akcií.

Vo všeobecnom prípade plán obsahuje postupnosť postupov, ktoré prenášajú počiatočný stav systému do konečného a vedú k dosiahnutiu určitého čiastkového cieľa a cieľa. V systémoch AI vzniká plán ako výsledok plánovacej alebo plánovacej činnosti príslušného modulu – modulu plánovania. Proces plánovania môže byť založený na prispôsobení údajov z jedného alebo viacerých scenárov, aktivovaných testovacími postupmi, na vyriešenie problémovej situácie. Vykonávanie plánu vykonáva výkonný modul, ktorý riadi kognitívne postupy a fyzické akcie systémov. V elementárnom prípade je plán v inteligentnom systéme jednoduchý sled operácií; v zložitejších verziách je plán spojený s konkrétnym predmetom, jeho zdrojmi, schopnosťami, cieľmi, detailné informácie o problematickej situácii a pod. Vznik plánu nastáva v procese komunikácie medzi modelom sveta, ktorého časť tvoria scenáre, modul plánovania a výkonný modul.

Na rozdiel od scenára je plán spojený s konkrétnou situáciou, konkrétnym interpretom a sleduje konkrétny cieľ. Výber plánu sa riadi zdrojmi zhotoviteľa. Uskutočniteľnosť plánu je povinnou podmienkou jeho generovania v kognitívnom systéme a charakteristika realizovateľnosti je neaplikovateľná na scenár.

Ďalší dôležitý koncept- model sveta. Model sveta sa zvyčajne chápe ako súbor poznatkov o svete organizovaný určitým spôsobom, ktorý je vlastný kognitívnemu systému alebo jeho počítačovému modelu. V trochu všeobecnejšom zmysle sa o modeli sveta hovorí ako o súčasti kognitívneho systému, ktorý uchováva poznatky o štruktúre sveta, jeho vzorcoch atď. V inom zmysle sa model sveta spája s výsledkami porozumenia textu. alebo v širšom zmysle diskurz. V procese porozumenia diskurzu sa buduje jeho mentálny model, ktorý je výsledkom interakcie obsahového plánu textu a poznatkov o svete, ktoré sú tomuto predmetu vlastné [Johnson-Laird 1988, s. 237 a nasl.] . Prvé a druhé chápanie sa často kombinuje. To je typické pre lingvistických výskumníkov pracujúcich v rámci kognitívnej lingvistiky a kognitívnej vedy.

S kategóriou rámu úzko súvisí aj pojem scéna. Kategória scén sa v literatúre používa najmä ako označenie pojmovej štruktúry na deklaratívne zobrazenie situácií a ich častí aktualizovaných v rečovom akte a zvýraznených jazykovými prostriedkami (lexémy, syntaktické konštrukcie, gramatické kategórie a pod.). Keďže je scéna spojená s jazykovými formami, často sa aktualizuje určité slovo alebo výraz. V dejových gramatikách (pozri nižšie) sa scéna objavuje ako súčasť epizódy alebo rozprávania. Typické príklady scény - sada kociek, s ktorými pracuje systém AI, scéna v príbehu a účastníci akcie atď. V umelej inteligencii sa scény používajú v systémoch rozpoznávania obrazu, ako aj vo výskumne orientovaných programoch (analýza, popis) problémové situácie. Pojem scéna sa rozšíril v teoretickej lingvistike, ako aj v logike, najmä v situačnej sémantike, v ktorej je význam lexikálnej jednotky priamo spojený so scénou.