História počítačovej lingvistiky. Čo je to počítačová lingvistika? Kognitívna sada nástrojov výpočtovej lingvistiky

Novoselová Irina

Prečo nie sú všetky strojové preklady dokonalé? Čo určuje kvalitu prekladu? Má autor dostatok vedomostí na to, aby využil a doplnil existujúce počítačové slovníky? Na tieto otázky sa autorka snažila dať odpovede vo svojej práci. Správa k téme - v priloženom súbore, produkt aktivít projektu - na portáli školy

Stiahnuť ▼:

Náhľad:

OTVORENÉ

International

výskumu

konferencie

stredoškolákov a študentov

„Vzdelanie. Veda. povolanie"

Sekcia "Zahraničná lingvistika"

"Počítačová lingvistika"

Vyrobila Irina Novosyolova

MOU telocvičňa č. 39 "Classic"

10 "B" trieda

Vedeckí školitelia:

Chigrineva Tatyana Dmitrievna,

Lektor angličtiny najvyššej kategórie

Osipova Svetlana Leonidovna,

učiteľ informatiky najvyššej kategórie

mesto Otradny

2011

  1. Anglické slová v IKT

Pozrite sa na stránku

  1. Môj experiment

Jednou z úloh je vykonať experiment, ktorý spočíva v porovnaní schopností rôznych počítačových lingvistických slovníkov pre presnejší a približnejší preklad z angličtiny do ruštiny.

Nasledujúce stránky boli testované:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Pre čistotu experimentu som zvolil vety s rôznou mierou zložitosti štylistického prekladu. Vstupné frázy sú nasledovné:

1. Nová správa hovorí, že dnešní tínedžeri sú sebeckejší ako pred 20 rokmi

(Nová správa hovorí, že dnešní tínedžeri sú sebeckejší ako pred 20 rokmi)

2. Verí, že videohry a internet sú najväčšími dôvodmi tohto zvýšeného sebectva.

(Verí, že videohry a internet sú najväčšími dôvodmi tohto rastúceho sebectva)

3. Chcú byť lepší ako ostatní

(Chcú byť lepší ako ostatní)

4. Zistila, že veľký nárast začal od roku 2000, kedy sa násilné videohry stali skutočne populárnymi.

(Veľký rast zaznamenala od roku 2000, keď sa násilné videohry stali skutočne populárnymi)

Po preklade týchto viet na stránkach online prekladateľov som dostal nasledujúce výsledky:

  1. http://translate.eu/

Počítačová lingvistika: metódy, zdroje, aplikácie

Úvod

Termín počítačová lingvistika(CL) sa v posledných rokoch čoraz častejšie vyskytuje v súvislosti s vývojom rôznych aplikovaných softvérových systémov, vrátane komerčných softvérových produktov. Je to spôsobené rýchlym rastom textových informácií v spoločnosti vrátane internetu a potrebou automatického spracovania textov v prirodzenom jazyku (NL). Táto okolnosť podnecuje rozvoj počítačovej lingvistiky ako vedného odboru a rozvoj nových informačných a lingvistických technológií.

V rámci počítačovej lingvistiky, ktorá existuje už viac ako 50 rokov (a je známa aj pod názvami strojová lingvistika, automatické spracovanie textu v NL) bolo navrhnutých mnoho sľubných metód a nápadov, no nie všetky ešte našli svoje uplatnenie v softvérových produktoch používaných v praxi. Naším cieľom je charakterizovať špecifiká tejto oblasti výskumu, formulovať jej hlavné úlohy, naznačiť jej prepojenie s inými vedami, poskytnúť stručný prehľad hlavných používaných prístupov a zdrojov a stručne charakterizovať existujúce aplikácie CL. Pre podrobnejšie oboznámenie sa s touto problematikou možno odporučiť knihy.

1. Úlohy počítačovej lingvistiky

Počítačová lingvistika vznikla na priesečníku vied ako lingvistika, matematika, informatika (Computer Science) a umelá inteligencia. Počiatky CL siahajú k výskumu slávneho amerického vedca N. Chomského v oblasti formalizácie štruktúry prirodzeného jazyka; jej rozvoj je založený na výsledkoch v oblasti všeobecnej jazykovedy (lingvistiky). Lingvistika študuje všeobecné zákonitosti prirodzeného jazyka - jeho štruktúru a fungovanie a zahŕňa tieto oblasti:

Ø Fonológia- študuje zvuky reči a pravidlá ich kombinácie pri formovaní reči;

Ø Morfológia- zaoberá sa vnútornou štruktúrou a vonkajšou formou slovných spojení vrátane slovných druhov a ich kategórií;

Ø Syntax- študuje štruktúru viet, pravidlá zlučiteľnosti a poradie slov vo vete, ako aj jej všeobecné vlastnosti ako jednotky jazyka.

Ø Sémantikaa pragmatika- úzko súvisiace oblasti: sémantika sa zaoberá významom slov, viet a iných jednotiek reči a pragmatika sa zaoberá znakmi vyjadrenia tohto významu v súvislosti s konkrétnymi cieľmi komunikácie;

Ø Lexikografia popisuje lexiku konkrétneho SL – jeho jednotlivé slová a ich gramatické vlastnosti, ako aj spôsoby tvorby slovníkov.

Výsledky N. Chomského, získané na priesečníku lingvistiky a matematiky, položili základ pre teóriu formálnych jazykov a gramatiky (často tzv. generatívny, alebo generatívny gramatici). Táto teória je teraz matematická lingvistika a používa sa na spracovanie nie tak NL, ale umelých jazykov, predovšetkým programovacích jazykov. Svojím charakterom je to dosť matematická disciplína.

Matematická lingvistika tiež zahŕňa kvantitatívna lingvistika, štúdium frekvenčných charakteristík jazyka – slov, ich kombinácií, syntaktických konštrukcií a pod., pričom sa využívajú matematické metódy štatistiky, tak možno tento vedný odbor nazvať štatistická lingvistika.

CL úzko súvisí aj s takou interdisciplinárnou vednou oblasťou, akou je umelá inteligencia (AI), v rámci ktorej sa vyvíjajú počítačové modely jednotlivých intelektuálnych funkcií. Jedným z prvých pracovných programov v oblasti AI a CL je známy program T. Winograda, ktorý pochopil najjednoduchšie príkazy človeka zmeniť svet kociek, formulované na obmedzenej podmnožine NL. Je potrebné poznamenať, že napriek zrejmému prieniku výskumu v oblasti CL a AI (keďže jazykové znalosti súvisia s intelektuálnymi funkciami), AI neabsorbuje všetky CL, pretože má svoj vlastný teoretický základ a metodológiu. Spoločné pre tieto vedy je počítačové modelovanie ako hlavná metóda a konečný cieľ výskumu.

Úlohu CL teda možno formulovať ako vývoj počítačových programov na automatické spracovanie textov v NL. A hoci spracovanie je chápané pomerne široko, zďaleka nie všetky typy spracovania možno nazvať lingvistickými a zodpovedajúce procesory možno nazvať lingvistickými. Lingvistický procesor musí používať ten či onen formálny model jazyka (aj keď je veľmi jednoduchý), čo znamená, že musí byť tak či onak jazykovo závislý (to znamená závisieť od konkrétneho NL). Takže napríklad textový editor Mycrosoft Word možno nazvať lingvistickým (iba preto, že používa slovníky), ale editor NotePad nie.

Zložitosť úloh CL je spôsobená skutočnosťou, že NL je komplexný viacúrovňový systém znakov, ktoré vznikli na výmenu informácií medzi ľuďmi, vyvinuté v procese ľudskej praktickej činnosti a neustále sa meniace v súvislosti s touto činnosťou. . Ďalšia ťažkosť vo vývoji metód CL (a ťažkosti so štúdiom SL v rámci lingvistiky) je spojená s rozmanitosťou prirodzených jazykov, výrazné rozdiely v ich slovnej zásobe, morfológii, syntaxi, rôzne jazyky poskytujú rôzne spôsoby vyjadrenia rovnaký význam.

2. Vlastnosti systému NL: úrovne a pripojenia

Predmetom jazykových spracovateľov sú texty NL. Texty sú chápané ako akékoľvek ukážky reči – ústnej aj písomnej, akéhokoľvek žánru, ale v zásade CL považuje písané texty. Text má jednorozmernú, lineárnu štruktúru a nesie aj určitý význam, pričom jazyk pôsobí ako prostriedok na premenu prenášaného významu na texty (syntéza reči) a naopak (analýza reči). Text je zložený z menších celkov a existuje viacero spôsobov, ako ho rozdeliť (rozčleniť) na celky patriace do rôznych úrovní.

Všeobecne sa uznáva existencia nasledujúcich úrovní:

Úroveň viet (výrokov) - syntaktickej úrovni;

· Lexikálno-morfologické homonymia (najčastejší typ) nastáva vtedy, keď sa tvary slov dvoch rôznych lexém zhodujú, napr. verš- sloveso v mužskom rode v jednotnom čísle a podstatné meno v jednotnom čísle, nominatív),

· Syntaktická homonymia znamená nejednoznačnosť v syntaktickej štruktúre, čo vedie k niekoľkým interpretáciám: Študenti z Ľvova išli do Kyjeva,lietanie lietadlá môcť byť nebezpečné(známy príklad Chomského) atď.

3. Modelovanie vo výpočtovej lingvistike

Vývoj lingvistického procesora (LP) zahŕňa popis jazykových vlastností spracovaného textu NL, pričom tento popis je usporiadaný ako Model Jazyk. Podobne ako v modelovaní v matematike a programovaní sa modelom rozumie nejaký systém, ktorý odráža množstvo základných vlastností modelovaného javu (t. j. NL), a preto má štrukturálnu alebo funkčnú podobnosť.

Modely jazyka používané v CL sú zvyčajne budované na základe teórií vytvorených lingvistami štúdiom rôznych textov a na základe ich lingvistickej intuície (introspekcie). Aké sú špecifiká modelov KL? Je možné rozlíšiť nasledujúce vlastnosti:

Formálnosť a v konečnom dôsledku aj algoritmizovateľnosť;

Funkčnosť (účelom modelovania je reprodukovať funkcie jazyka ako „čiernej skrinky“ bez vytvorenia presného modelu na syntézu a analýzu ľudskej reči);

Všeobecnosť modelu, t. j. berie do úvahy pomerne veľký súbor textov;

· Experimentálna platnosť, ktorá zahŕňa testovanie modelu na rôznych textoch;

· Spoliehanie sa na slovníky ako povinnú súčasť modelu.

Zložitosť SL, jeho popis a spracovanie vedie k rozdeleniu tohto procesu do samostatných etáp zodpovedajúcich úrovniam jazyka Väčšina moderných LP je modulárneho typu, v ktorom každej úrovni lingvistickej analýzy alebo syntézy zodpovedá samostatná modul procesora. Najmä v prípade analýzy textu jednotlivé moduly LP vykonávajú:

Ø Grafematický rozbor, t.j. zvýrazňovanie tvarov slov v texte (prechod od symbolov k slovám);

Ø Morfologický rozbor – prechod od slovných tvarov k ich lemmy(slovníkové formy lexém) príp základy(jadrové časti slova, mínus flektívne morfémy);

Ø syntaktická analýza, t. j. identifikácia gramatickej štruktúry textových viet;

Ø Sémantická a pragmatická analýza, ktorá určuje význam fráz a zodpovedajúcu reakciu systému, v rámci ktorého LP funguje.

Možné sú rôzne schémy interakcie týchto modulov (sekvenčná práca alebo paralelná prekladaná analýza), avšak jednotlivé úrovne – morfológia, syntax a sémantika sú stále spracovávané rôznymi mechanizmami.

LP teda možno považovať za viacstupňový konvertor, ktorý v prípade analýzy textu prevedie každú svoju vetu do vnútornej reprezentácie jej významu a naopak v prípade syntézy. Zodpovedajúci jazykový model môže byť tzv štrukturálne.

Kompletné modely CL síce vyžadujú zohľadnenie všetkých hlavných úrovní jazyka a dostupnosť vhodných modulov, pri riešení niektorých aplikovaných problémov sa však možno zaobísť bez zastúpenia jednotlivých úrovní v LP. Napríklad v prvých experimentálnych programoch CL patrili spracované texty do veľmi úzkych problémových oblastí (s obmedzeným súborom slov a prísnym slovosledom), takže rozpoznávanie slov mohlo používať ich začiatočné písmená, pričom sa vynechali fázy morfologickej a syntaktickej analýzy.

Ďalším v súčasnosti pomerne často využívaným redukovaným modelom je jazykový model frekvencie symbolov a ich kombinácií (bigramy, trigramy a pod.) v textoch konkrétnej NL. Takéto štatistický model zobrazuje jazykové informácie na úrovni znakov (písmen) textu a stačí napríklad na odhalenie preklepov v texte alebo rozpoznanie jeho jazykovej príslušnosti. Podobný model založený na štatistike jednotlivých slov a ich spoločnom výskyte v textoch (bigramy, trigramy slov) sa používa napríklad na riešenie lexikálnej nejednoznačnosti alebo určenie slovného druhu slova (v jazykoch ako angličtina) .

Všimnite si, že je to možné štrukturálno-štatistické modely, v ktorej sa zohľadňujú určité štatistiky pri uvádzaní jednotlivých úrovní NL - slová, syntaktické konštrukcie a pod.

V modulárnom type LP sa v každom štádiu textovej analýzy alebo syntézy používa vhodný model (morfológia, syntax atď.).

Morfologické modely analýzy slovných tvarov existujúcich v CL sa líšia najmä v týchto parametroch:

Výsledkom práce je lemma alebo kmeň so súborom morfologických charakteristík (rod, číslo, pád, druh, osoba a pod.) daného slovného druhu;

metóda rozboru - vychádzajúca zo slovníka slovných foriem jazyka alebo zo slovníka základov, prípadne neslovníková metóda;

· možnosť spracovania slovnej podoby lexémy nezaradenej do slovníka.

Pri morfologickej syntéze sú východiskovými údajmi lexéma a špecifické morfologické charakteristiky požadovaného slovného tvaru danej lexémy, je možné požiadať aj o syntézu všetkých tvarov danej lexémy. Výsledok morfologickej analýzy aj syntézy je vo všeobecnosti nejednoznačný.

Na modelovanie syntaxe v rámci CL bolo navrhnutých veľké množstvo rôznych nápadov a metód, ktoré sa líšia v spôsobe opisu syntaxe jazyka, v spôsobe, akým sa tieto informácie používajú pri analýze alebo syntéze vety SL a spôsob podania syntaktickej stavby vety. Je celkom podmienečne možné vyčleniť tri hlavné prístupy k tvorbe modelov: generatívny prístup, ktorý sa vracia k myšlienkam Chomského, prístup, ktorý sa vracia k myšlienkam I. Melchuka a je reprezentovaný modelom Meaning Text. ako prístup, v ktorom sa uskutočňujú určité pokusy prekonať obmedzenia prvých dvoch prístupov, najmä teórie syntaktických grup.

V rámci generatívneho prístupu sa syntaktická analýza zvyčajne vykonáva na základe formálnej bezkontextovej gramatiky, ktorá popisuje frázovú štruktúru vety, alebo na základe nejakého rozšírenia bezkontextovej gramatiky. Tieto gramatiky vychádzajú zo sekvenčného lineárneho delenia vety na frázy (syntaktické konštrukcie, napr. menné frázy), a preto odrážajú súčasne jej syntaktické aj lineárne štruktúry. Je opísaná hierarchická syntaktická štruktúra NL vety získaná ako výsledok analýzy strom komponentov, ktorého listy obsahujú slová vety, podstromy zodpovedajú syntaktickým konštrukciám (frázam) obsiahnutým vo vete a oblúky vyjadrujú vnorené vzťahy konštrukcií.

Uvažovaný prístup môže zahŕňať sieťové gramatiky, ktoré sú jednak zariadením na opis jazykového systému a jednak na nastavenie postupu analýzy viet na základe konceptu konečného automatu, napríklad rozšírenej prechodovej siete ATN.

Ako súčasť druhého prístupu sa používa vizuálnejší a bežnejší spôsob znázornenia syntaktickej štruktúry vety - stromy závislostí. Uzly stromu obsahujú slová vety (zvyčajne predikát slovesa v koreni) a každý oblúk stromu, ktorý spája pár uzlov, sa interpretuje ako syntaktický. podriadenie spojenie medzi nimi a smer spojenia zodpovedá smeru tohto oblúka. Keďže v tomto prípade sú syntaktické väzby slov a poradie slov vo vete oddelené, potom sa na základe stromov podriadenosti zlomia a neprojektívne konštrukcie, ktoré sa vyskytujú pomerne často v jazykoch s voľným slovosledom.

Komponentné stromy sú vhodnejšie na popis jazykov v rigidnom slovoslede, ich reprezentácia členitých a neprojektívnych konštrukcií si vyžaduje rozšírenie použitého gramatického formalizmu. Ale v rámci tohto prístupu sa prirodzenejšie opisujú konštrukcie s nepodriadenými vzťahmi. Spoločným problémom oboch prístupov je zároveň prezentácia homogénnych členov vety.

Syntaktické modely sa vo všetkých prístupoch snažia zohľadňovať obmedzenia kladené na spojenie jazykových jednotiek v reči, pričom sa tak či onak používa pojem valencie. Valence- ide o schopnosť slova alebo inej jednotky jazyka pripájať iné jednotky určitým syntaktickým spôsobom; aktant je slovo alebo syntaktická konštrukcia, ktorá napĺňa túto valenciu. Napríklad ruské sloveso odovzdať má tri hlavné valencie, ktoré možno vyjadriť nasledujúcimi opytovacími slovami: SZO? komu? čo? V rámci generatívneho prístupu sa valencie slov (predovšetkým slovies) opisujú najmä vo forme špeciálnych rámcov ( podkategorizácia rámy), a v rámci prístupu stromu závislostí, as modely riadenia.

Najmenej rozvinuté sú v rámci CL modely sémantiky jazyka. Na sémantickú analýzu viet sa používajú takzvané pádové gramatiky a sémantické prípady(valencia), na základe ktorej sa opisuje sémantika vety ako cez spojenie hlavného slova (slovesa) s jeho sémantickými aktantmi, teda cez sémantické pády. Napríklad sloveso odovzdať popísané sémantickými pádmi dávať(agent), adresát a preniesť objekt.

Na vyjadrenie sémantiky celého textu sa zvyčajne používajú dva logicky ekvivalentné formalizmy (oba sú podrobne opísané v rámci AI):

· Vzorce predikátového počtu vyjadrujúce vlastnosti, stavy, procesy, akcie a vzťahy;

· Sémantické siete sú označené grafy, v ktorých vrcholy zodpovedajú pojmom a vrcholy zodpovedajú vzťahom medzi nimi.

Čo sa týka modelov pragmatiky a diskurzu, ktoré umožňujú spracovať nielen jednotlivé vety, ale aj text ako celok, na ich budovanie sa využívajú najmä myšlienky Van Dycka. Jedným z mála a úspešných modelov je model diskurzívnej syntézy prepojených textov. Takéto modely by mali brať do úvahy anaforické odkazy a iné fenomény na úrovni diskurzu.

Na záver charakterizácie jazykových modelov v rámci CL sa zastavme trochu viac pri teórii lingvistických modelov „Význam textu“, v rámci ktorej sa objavilo mnoho plodných myšlienok, ktoré predbehli dobu a sú stále aktuálne.

V súlade s touto teóriou sa NL považuje za špeciálny druh prevodníka, ktorý vykonáva spracovanie daných významov na zodpovedajúce texty a dané texty na ich zodpovedajúce významy. Význam sa chápe ako invariant všetkých synonymických transformácií textu. Obsah spojeného fragmentu reči bez rozdelenia na frázy a slovné formy sa zobrazuje ako špeciálna sémantická reprezentácia pozostávajúca z dvoch zložiek: sémantický graf a informácie o komunikačná organizácia významu.

Ako charakteristické črty teórie treba uviesť:

o orientácia na syntézu textov (schopnosť generovať správne texty je považovaná za hlavné kritérium jazykovej kompetencie);

o viacúrovňový, modulárny charakter modelu a hlavné úrovne jazyka sa delia na povrchovú a hĺbkovú úroveň: líšia sa napr. hlboký(sémantizované) a povrch("čistá") syntax, ako aj povrchovo-morfologické a hĺbkovo-morfologické úrovne;

o integrálny charakter jazykového modelu; uloženie informácií prezentovaných na každej úrovni zodpovedajúcim modulom vykonávajúcim prechod z tejto úrovne na ďalšiu;

o špeciálne prostriedky opisu syntaktiky (pravidlá spájania jednotiek) na každej úrovni; na opis lexikálnej kompatibility bola navrhnutá množina lexikálne funkcie, pomocou ktorej sa formulujú pravidlá syntaktického parafrázovania;

o dôraz na slovnú zásobu skôr ako na gramatiku; slovník uchováva informácie týkajúce sa rôznych úrovní jazyka; najmä na syntaktickú analýzu sa používajú modely správy slov, ktoré opisujú ich syntaktickú a sémantickú valenciu.

Táto teória a jazykový model našli svoje stelesnenie v systéme strojového prekladu ETAP.

4. Jazykové zdroje

Rozvoj jazykových procesorov si vyžaduje vhodnú prezentáciu jazykových informácií o spracovávaných NL. Tieto informácie sa zobrazujú v rôznych počítačových slovníkoch a gramatikách.

Slovníky sú najtradičnejšou formou reprezentácie lexikálnych informácií; líšia sa jednotkami (zvyčajne slovami alebo slovnými spojeniami), štruktúrou, rozsahom slovnej zásoby (slovníky pojmov konkrétnej problémovej oblasti, slovníky všeobecnej slovnej zásoby a pod.). Jednotka slovníka je tzv slovníkový záznam, poskytuje informácie o tokene. Lexikálne homonymá sa zvyčajne uvádzajú v rôznych heslách slovníka.

Morfologické slovníky používané na morfologickú analýzu sú v CL najrozšírenejšie, ich slovníkové heslo obsahuje morfologické informácie o príslušnom slove - slovný druh, flektívnu triedu (pre flektívne jazyky), zoznam významov slov atď. V závislosti od organizácie slov lingvistický procesor do slovníka možno pridať aj gramatické informácie, ako napríklad vzory ovládania slov.

Existujú slovníky, ktoré poskytujú viac informácií o slovách. Napríklad lingvistický model „Význam-Text“ sa v podstate spolieha na výkladovo-kombinatorický slovník, v slovníkovom hesle sa okrem morfologickej, syntaktickej a sémantickej informácie (syntaktické a sémantické valencie) uvádzajú aj informácie o lexikálnej kompatibilite tohto slova.

Používa množstvo lingvistických procesorov synonymické slovníky. Relatívne nový typ slovníkov - slovníky paronym, teda navonok podobné slová, ktoré sa líšia významom, napr. cudzinec a Votrelec, editovanie a odkaz .

Iný typ lexikálnych prostriedkov - frázové základy, v ktorej sa vyberajú najtypickejšie frázy konkrétneho jazyka. Takáto základňa fráz v ruskom jazyku (asi milión jednotiek) je jadrom systému CrossLexic.

Zložitejšie typy lexikálnych prostriedkov sú tezaury a ontológie. Thesaurus je sémantický slovník, teda slovník, v ktorom sú prezentované sémantické spojenia slov - synonymické, rodovo-druhové vzťahy (niekedy nazývané aj vzťah hore-dole), časť-celok, asociácie. Šírenie tezaurov je spojené s riešením problémov pri získavaní informácií.

Pojem ontológia úzko súvisí s pojmom tezaurus. Ontológia je súbor pojmov, entít určitej oblasti poznania, zameraný na viacnásobné využitie pre rôzne úlohy. Ontológie môžu byť vytvorené na základe slovnej zásoby existujúcej v jazyku – v tomto prípade sa nazývajú lingvistické a

Za takúto lingvistickú ontológiu sa považuje systém WordNet - veľký lexikálny zdroj, v ktorom sa zhromažďujú slová anglického jazyka: podstatné mená, prídavné mená, slovesá a príslovky a sú prezentované ich sémantické spojenia niekoľkých typov. Pre každú z uvedených častí reči sú slová zoskupené do skupín synoným ( synsety), medzi ktorými sa ustanovujú vzťahy antonymia, hyponymia (rodovo-druhový vzťah), meronymia (vzťah časť-celok). Zdroj obsahuje asi 25 tisíc slov, počet úrovní hierarchie pre rodovo-druhový vzťah je v priemere 6-7, niekedy dosahuje 15. Horná úroveň hierarchie tvorí spoločnú ontológiu - systém základných pojmov o svete.

Podľa anglickej schémy WordNet boli vytvorené podobné lexikálne zdroje pre iné európske jazyky, zjednotené pod spoločným názvom EuroWordNet.

Úplne iný druh lingvistických zdrojov je Gramatika, ktorého typ závisí od modelu syntaxe použitého v procesore. V prvom priblížení je gramatika súbor pravidiel, ktoré vyjadrujú všeobecné syntaktické vlastnosti slov a skupín slov. Celkový počet gramatických pravidiel závisí aj od modelu syntaxe, pohybuje sa od niekoľkých desiatok až po niekoľko stoviek. V podstate sa tu prejavuje takýto problém ako vzťah medzi gramatikou a slovnou zásobou v jazykovom modeli: čím viac informácií je v slovníku prezentovaných, tým môže byť gramatika kratšia a naopak.

Treba si uvedomiť, že konštrukcia počítačových slovníkov, tezaurov a gramatík je objemná a časovo náročná práca, niekedy dokonca časovo náročnejšia ako vývoj lingvistického modelu a zodpovedajúceho procesora. Jednou z podriadených úloh CL je preto automatizácia konštrukcie jazykových prostriedkov.

Počítačové slovníky sa často tvoria konverziou bežných textových slovníkov, ale ich zostavenie si často vyžaduje oveľa zložitejšiu a starostlivejšiu prácu. To sa zvyčajne stáva pri budovaní slovníkov a tezaurov pre rýchlo sa rozvíjajúce vedné odbory - molekulárnu biológiu, informatiku atď. Zdrojovým materiálom na extrahovanie potrebných jazykových informácií môže zbierky a korpusy textov.

Korpus textov je súbor textov zozbieraných podľa určitého princípu reprezentatívnosti (podľa žánru, autorstva atď.), v ktorom sú všetky texty označené, to znamená, že sú opatrené nejakým jazykovým označením (anotáciami) - morfologickými. , prízvuk, syntaktika atď. V súčasnosti existuje najmenej sto rôznych korpusov - pre rôzne NL a s rôznym označením, v Rusku je najznámejší Národný korpus ruského jazyka.

Označené korpusy sú vytvorené lingvistami a používajú sa ako na lingvistický výskum, tak aj na ladenie (tréning) modelov a procesorov používaných v CL pomocou známych matematických metód strojového učenia. Strojové učenie sa teda používa na nastavenie metód na riešenie lexikálnej nejednoznačnosti, rozpoznávanie častí reči a riešenie anaforických odkazov.

Keďže korpusy a zbierky textov sú vždy obmedzené, pokiaľ ide o jazykové javy v nich zastúpené (a korpusy navyše vznikajú pomerne dlho), v poslednom čase sa internetové texty čoraz viac považujú za úplnejší jazykový zdroj. Internet je nepochybne najreprezentatívnejším zdrojom moderných rečových vzoriek, no jeho využitie ako korpusu si vyžaduje vývoj špeciálnych technológií.

5. Aplikácie počítačovej lingvistiky

Oblasť aplikácií výpočtovej lingvistiky sa neustále rozširuje, preto tu budeme charakterizovať najznámejšie aplikované problémy riešené jej nástrojmi.

Strojový preklad- najskoršia aplikácia CL, s ktorou táto oblasť sama o sebe vznikla a rozvíjala sa. Prvé prekladateľské programy boli postavené pred viac ako 50 rokmi a boli založené na najjednoduchšej stratégii prekladu slovo po slove. Rýchlo sa však zistilo, že strojový preklad si vyžaduje úplný lingvistický model, ktorý zohľadňuje všetky úrovne jazyka, až po sémantiku a pragmatiku, čo opakovane brzdilo rozvoj tohto smeru. Pomerne úplný model sa používa v domácom systéme ETAP, ktorý prekladá vedecké texty z francúzštiny do ruštiny.

Upozorňujeme však, že v prípade prekladu do príbuzného jazyka, napríklad pri preklade zo španielčiny do portugalčiny alebo z ruštiny do ukrajinčiny (ktoré majú veľa spoločného v syntaxi a morfológii), môže byť procesor implementovaný na základe zjednodušeného model, napríklad založený na rovnakej stratégii prekladu slovo za slovom.

V súčasnosti existuje celý rad počítačových prekladateľských systémov (rôznej kvality), od veľkých medzinárodných výskumných projektov až po komerčné automatické prekladače. Mimoriadne zaujímavé sú projekty viacjazyčného prekladu s využitím medzijazyka, v ktorom je zakódovaný význam prekladaných fráz. Ďalším moderným smerom je štatistický preklad, založený na štatistike prekladu slov a fráz (tieto nápady sú implementované napríklad v prekladači vyhľadávačov Google).

Ale napriek mnohým desaťročiam vývoja celej tejto oblasti je vo všeobecnosti úloha strojového prekladu stále veľmi ďaleko od úplného vyriešenia.

Ďalšou pomerne starou aplikáciou počítačovej lingvistiky je získavanie informácií a súvisiace úlohy indexovania, sumarizácie, klasifikácie a kategorizácie dokumentov.

Fulltextové vyhľadávanie dokumentov vo veľkých databázach dokumentov (predovšetkým vedeckých, technických, obchodných), sa zvyčajne vykonáva na základe ich vyhľadávanie obrázkov, ktorý sa chápe ako súbor Kľúčové slová- slová, ktoré odrážajú hlavnú tému dokumentu. Najprv sa za kľúčové slová považovali iba jednotlivé slová SL a vyhľadávanie sa uskutočnilo bez zohľadnenia ich skloňovania, čo je nekritické pre slabo skloňované jazyky, ako je angličtina. Pre flektívne jazyky, napríklad pre ruštinu, bolo potrebné použiť morfologický model, ktorý počíta so skloňovaním.

Rešeršná požiadavka bola prezentovaná aj ako súbor slov, vhodné (relevantné) dokumenty boli určené na základe podobnosti požiadavky a rešeršného obrazu dokumentu. Vytvorenie vyhľadávacieho obrázka dokumentu zahŕňa indexovanie jeho text, teda zvýraznenie kľúčových slov v ňom. Keďže veľmi často sa téma a obsah dokumentu oveľa presnejšie zobrazujú nie jednotlivými slovami, ale frázami, frázy sa začali považovať za kľúčové slová. To výrazne skomplikovalo postup indexovania dokumentov, keďže na výber zmysluplných fráz v texte bolo potrebné použiť rôzne kombinácie štatistických a lingvistických kritérií.

V skutočnosti využíva hlavne vyhľadávanie informácií vektorový vzor textu(niekedy tzv taška z slová- vrece slov), v ktorom je dokument reprezentovaný vektorom (množinou) jeho kľúčových slov. Tento model využívajú aj moderné internetové vyhľadávače, ktoré indexujú texty podľa slov, ktoré sú v nich použité (zároveň využívajú veľmi sofistikované hodnotiace postupy na vrátenie relevantných dokumentov).

Uvedený textový model (s určitými komplikáciami) sa používa aj v súvisiacich problémoch získavania informácií, o ktorých sa uvažuje nižšie.

Abstraktný text- zmenšenie jeho objemu a získanie jeho súhrnu - abstraktu (zazmluvneného obsahu), čo umožňuje rýchlejšie vyhľadávanie v zbierkach dokumentov. K viacerým dokumentom súvisiacim s témou je možné vypracovať aj všeobecný abstrakt.

Hlavnou metódou automatickej sumarizácie je stále výber najvýznamnejších viet abstrahovaného textu, pre ktoré sa spravidla najskôr vypočítajú kľúčové slová textu a vypočíta sa koeficient významnosti viet textu. Výber zmysluplných viet komplikujú anaforické väzby viet, ktorých zlom je nežiaduci – na vyriešenie tohto problému sa vyvíjajú určité stratégie výberu viet.

Úloha blízka odkazovaniu - anotácia text dokumentu, t. j. zostavenie jeho anotácie. Vo svojej najjednoduchšej forme je abstrakt zoznamom hlavných tém textu, na zvýraznenie ktorých možno použiť postupy indexovania.

Pri vytváraní veľkých zbierok dokumentov sú úlohy relevantné klasifikácia a zhlukovanie texty s cieľom vytvoriť triedy dokumentov súvisiacich s témou. Klasifikácia znamená priradenie každého dokumentu do určitej triedy so známymi parametrami vopred a zhlukovanie znamená rozdelenie súboru dokumentov do zhlukov, teda podmnožín tematicky súvisiacich dokumentov. Na riešenie týchto problémov sa využívajú metódy strojového učenia, a preto sa tieto aplikované úlohy nazývajú Text Mining a patria do vedeckého smeru známeho ako Data Mining, alebo data mining.

Veľmi blízko k problému klasifikácie rubrikácia text - jeho priradenie k niektorému zo skôr známych tematických nadpisov (spravidla nadpisy tvoria hierarchický strom tém).

Problém klasifikácie je čoraz rozšírenejší, rieši sa napríklad pri rozpoznávaní spamu a pomerne novou aplikáciou je klasifikácia SMS správ v mobilných zariadeniach. Novým a relevantným smerom výskumu pre všeobecnú úlohu získavania informácií je viacjazyčné vyhľadávanie dokumentov.

Ďalšou relatívne novou úlohou súvisiacou s vyhľadávaním informácií je formovanie odpovedí na otázky(Odpoveď na otázku) . Táto úloha sa rieši určením typu otázky, hľadaním textov, ktoré potenciálne obsahujú odpoveď na túto otázku, a extrahovaním odpovede z týchto textov.

Úplne iný aplikovaný smer, ktorý sa síce pomaly, ale vytrvalo rozvíja, je automatizácia prípravy a úprav texty na EY. Jednou z prvých aplikácií v tomto smere boli programy na automatické zisťovanie delenia slov a programy na kontrolu pravopisu textu (pravopisy, resp. automatické opravy). Napriek zjavnej jednoduchosti problému delenia slov si jeho správne riešenie pre mnohé NL (napríklad angličtina) vyžaduje znalosť morfemickej štruktúry slov zodpovedajúceho jazyka, a teda aj zodpovedajúceho slovníka.

Kontrola pravopisu sa už dlho implementuje v komerčných systémoch a spolieha sa na vhodný model slovnej zásoby a morfológie. Používa sa aj neúplný syntaktický model, na základe ktorého sa odhalia pomerne časté všetky syntaktické chyby (napríklad chyby v zhode slov). Zároveň detekcia zložitejších chýb, napríklad nesprávneho používania predložiek, zatiaľ v autokorektoroch nie je implementovaná. Nezistili sa ani mnohé lexikálne chyby, najmä chyby vyplývajúce z preklepov alebo nesprávneho použitia podobných slov (napr. hmotnosť namiesto závažného). V moderných štúdiách CL sa navrhujú metódy na automatizovanú detekciu a opravu takýchto chýb, ako aj niektorých iných typov štylistických chýb. Tieto metódy využívajú štatistiky o výskyte slov a slovných spojení.

Aplikovaná úloha blízka podpore prípravy textov je vyučovanie prirodzeného jazyka V rámci tohto smeru sa často vyvíjajú počítačové systémy na výučbu jazykov - angličtina, ruština atď. (podobné systémy možno nájsť na internete). Tieto systémy zvyčajne podporujú štúdium určitých aspektov jazyka (morfológia, slovná zásoba, syntax) a sú založené na vhodných modeloch, napríklad na morfologickom modeli.

Pokiaľ ide o štúdium slovnej zásoby, používajú sa na to aj elektronické analógy textových slovníkov (v ktorých v skutočnosti neexistujú žiadne jazykové modely). Vyvíjajú sa však aj multifunkčné počítačové slovníky, ktoré nemajú textové analógie a sú zamerané na široké spektrum používateľov – napríklad slovník ruských fráz Crosslexic. Tento systém pokrýva širokú škálu slovnej zásoby - slov a ich prijateľných slovných spojení a poskytuje aj informácie o modeloch správy slov, synonymách, antonymách a iných sémantických korelátoch slov, čo je jednoznačne užitočné nielen pre tých, ktorí študujú ruštinu, ale aj pre hovoriaci rodnou rečou.

Ďalšia oblasť použitia, ktorá stojí za zmienku, je automatické generovanie texty na EY. V zásade možno túto úlohu považovať za podúlohu úlohy strojového prekladu, o ktorej sme už uvažovali vyššie, avšak v rámci smerovania existuje množstvo špecifických úloh. Takouto úlohou je viacjazyčné generovanie, t.j. automatická konštrukcia špeciálnych dokumentov vo viacerých jazykoch - patentových vzorcov, návodov na obsluhu technických produktov alebo softvérových systémov na základe ich špecifikácie vo formálnom jazyku. Na vyriešenie tohto problému sa používajú pomerne podrobné jazykové modely.

Čoraz relevantnejšou aplikovanou úlohou, často označovanou ako Text Mining, je extrahovanie informácií z textov, alebo extrakcia informácií, ktorá je potrebná pri riešení problémov ekonomickej a priemyselnej analytiky. K tomu sa v teste NL identifikujú určité objekty – pomenované entity (mená, osobnosti, geografické názvy), ich vzťahy a udalosti s nimi spojené. Spravidla sa to realizuje na základe čiastočnej analýzy textu, čo umožňuje spracovanie spravodajských kanálov z tlačových agentúr. Keďže úloha je pomerne zložitá nielen teoreticky, ale aj technologicky, vytvorenie zmysluplných systémov na extrakciu informácií z textov je realizovateľné v rámci komerčných spoločností.

Smerovanie Text Mining zahŕňa aj ďalšie dve súvisiace úlohy - výber názorov (Opinion Mining) a posudzovanie tonality textov (Sentiment Analysis), ktoré priťahujú pozornosť čoraz väčšieho počtu výskumníkov. Prvá úloha vyhľadáva (na blogoch, fórach, internetových obchodoch atď.) názory používateľov na produkty a iné predmety a analyzuje tieto názory. Druhá úloha má blízko ku klasickej úlohe obsahovej analýzy textov masovej komunikácie, hodnotí všeobecný tón výpovedí.

Ďalšia aplikácia, ktorá stojí za zmienku, je − podpora dialógu s používateľom na NK v rámci akéhokoľvek informačného softvérového systému. Najčastejšie sa tento problém riešil pri špecializovaných databázach - v tomto prípade je dopytovací jazyk značne obmedzený (lexikálne aj gramaticky), čo umožňuje použitie zjednodušených jazykových modelov. Požiadavky na základňu, formulované v NL, sú preložené do formálneho jazyka, po ktorom sa vykoná vyhľadávanie potrebných informácií a zostaví sa zodpovedajúca fráza odpovede.

Ako posledné v našom zozname aplikácií CL (nie však dôležitosti) uvádzame rozpoznávanie a syntéza reči. Chyby v rozpoznávaní, ktoré pri týchto úlohách nevyhnutne vznikajú, sa opravujú automatickými metódami založenými na slovníkoch a lingvistických poznatkoch o morfológii. V tejto oblasti sa bude uplatňovať aj strojové učenie.

Záver

Počítačová lingvistika ukazuje celkom hmatateľné výsledky v rôznych aplikáciách na automatické spracovanie textov v NL. Jeho ďalší vývoj závisí jednak od vzniku nových aplikácií a jednak od samostatného vývoja rôznych jazykových modelov, v ktorých mnohé problémy ešte nie sú vyriešené. Najrozvinutejšie sú modely morfologickej analýzy a syntézy. Syntaktické modely sa zatiaľ nepodarilo dostať na úroveň stabilných a efektívnych modulov, napriek veľkému množstvu navrhovaných formalizmov a metód. Ešte menej prebádané a formalizované sú modely úrovne sémantiky a pragmatiky, hoci automatické spracovanie diskurzu sa už v mnohých aplikáciách vyžaduje. Všimnite si, že už existujúce nástroje samotnej výpočtovej lingvistiky, využitie strojového učenia a textových korpusov, môžu výrazne posunúť riešenie týchto problémov.

Literatúra

1. Baeza-Yates, R. a Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

2. Bateman, J., Zock M. Generácia prirodzeného jazyka. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, s.304.

3. Biber, D., Conrad S. a Reppen D. Corpus Linguistics. Skúmanie štruktúry a používania jazyka. Cambridge University Press, Cambridge, 1998.

4. Bolshakov, I. A., Gelbukh putational linguistics. Modely, zdroje, aplikácie. Mexiko, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical Machine Translation. // Computational Linguistics, Vol. 19(2): 263-3

6. Carroll J R. Parsing. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, s. 233-248.

7. Chomsky, N. Syntaktické štruktúry. Haag: Mouton, 1957.

8. Grishman R. Extrakcia informácií. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, s. 545-559.

9. Harabagiu, S., Moldavsko D. Odpovedanie na otázky. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, s. 560-582.

10. Hearst, M. A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.) WordNet: Elektronická lexikálna databáza. MIT Press, Cambridge, 1998, s. 131-151.

11. Hirst, G. Ontológia a lexikón. In.: Príručka ontológií v niformačných systémoch. Berlín, Springer, 2003.

12. Jacquemin C., Bourigault D. Extrakcia pojmov a automatická indexácia // Mitkov R. (ed.): Handbook of Computational Linguistics. Oxford University Press, 2003. s. 599-615.

13. Kilgarriff, A., G. Grefenstette. Úvod do špeciálneho vydania na webe ako putačnej lingvistiky, V. 29, č. 3, 2003, s. 333-347.

14. Manning, Ch. D., H. Schütze. Základy štatistického spracovania prirodzeného jazyka. MIT Press, 1999.

15. Matsumoto Y. Lexical Knowledge Acquisition. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, s. 395-413.

16. Oxfordská príručka počítačovej lingvistiky. R. Mitkov (Ed.). Oxford University Press, 2005.

17. Oakes, M., Paice C. D. Extrakcia termínov pre automatickú abstrakciu. Nedávne pokroky vo výpočtovej terminológii. D. Bourigault, C. Jacquemin a M. L "Homme (editori), John Benjamins Publishing Company, Amsterdam, 2001, str. 353-370.

18. Pedersen, T. Rozhodovací strom bigramov je presným prediktorom významov slov. Proc. 2. výročné zasadnutie NAC ACL, Pittsburgh, PA, 2001, s. 79-86.

19. Samuelsson C. Štatistické metódy. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, s. 358-375.

20. Salton, G. Automatické spracovanie textu: Transformácia, analýza a získavanie informácií počítačom. Reading, MA: Addison-Wesley, 1988.

21. Somers, H. Strojový preklad: Najnovší vývoj. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, s. 512-528.

22. Strzalkowski, T. (ed.) Natural Language Information Retrieval. Kluwer, 19p.

23. Woods W. A. ​​​​Grammers Transition Network Grammers for Natural language Analysis/ Communications of the ACM, V. 13, 1970, No. 10, s. 591-606.

24. Word Net: elektronická lexikálna databáza. /Christian Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatický návrh kolokácie v akademickom písaní // Zborník krátkych príspevkov z konferencie ACL 2010, 2010.

26. a iné.Lingvistická podpora systému ETAP-2. Moskva: Nauka, 1989.

27. atď. Technológie analýzy dát: Data Mining, Visual Mining, Text Mining, OLAP - 2nd ed. - Petrohrad: BHV-Petersburg, 2008.

28. Boľšakov, Slovná zásoba - veľký elektronický slovník kombinácií a sémantických spojení ruských slov. // Comp. lingvistika a inteligencia. technológií: Zborník int. Conf. "Dialóg 2009". Číslo: RGGU, 2009, s. 45-50.

29. Bolshakova E. I., Bolshakov detekcia a automatická korekcia ruských malapropizmov // NTI. Ser. 2, č. 5, 2007, s. 27-40.

30. Van, Kinch V. Stratégia na pochopenie súvislého textu.// Novinka v cudzej lingvistike. Problém. XXIII– M., Progress, 1988, s. 153-211.

31. Vasiliev V. G., Krivenko M. P. Metódy automatizovaného spracovania textu. – M.: IPI RAN, 2008.

32. Vinograd T. Program, ktorý rozumie prirodzenému jazyku - M., svet, 1976.

33. Hladká štruktúra prirodzeného jazyka v automatizovaných komunikačných systémoch. - M., Nauka, 1985.

34. Gusev, V.D., Salomatina slovník paroným: verzia 2. // NTI, Ser. 2, č. 7, 2001, s. 26-33.

35. Zacharov - priestor ako jazykový korpus // Computational Linguistics and Intelligent Technologies: Proceedings of Int. Conference Dialogue ‘2005 / Ed. , - M .: Nauka, 2005, s. 166-171.

36. Kasevič zo všeobecnej jazykovedy. - M., Nauka, 1977.

37. Leontiefovo chápanie textov: Systémy, modely, zdroje: Učebnica - M.: Akadémia, 2006.

38. Lingvistický encyklopedický slovník / Ed. V. N. Jarceva, Moskva: Sovietska encyklopédia, 1990, 685 s.

39., Saliy pre automatické indexovanie a kategorizáciu: vývoj, štruktúra, údržba. // NTI, Ser. 2, č. 1, 1996.

40. Luger J. Umelá inteligencia: stratégie a metódy riešenia zložitých problémov. M., 2005.

41. McQueen K. Diskurzívne stratégie syntézy textu v prirodzenom jazyku // Novinka v cudzej lingvistike. Problém. XXIV. M.: Progress, 1989, s. 311-356.

42. Melčukova teória lingvistických modelov „VÝZNAM „TEXT“. - M., Nauka, 1974.

43. Národný korpus ruského jazyka. http://*****

44. Khoroshevsky VF OntosMiner: rodina systémov na extrakciu informácií z viacjazyčných zbierok dokumentov // Deviata národná konferencia o umelej inteligencii s medzinárodnou účasťou KII-2004. T. 2. - M.: Fizmatlit, 2004, s. 573-581.

lingvistika štatistický lingvistický softvér

História vývoja počítačovej lingvistiky

Proces formovania a formovania modernej lingvistiky ako vedy o prirodzenom jazyku je dlhým historickým vývojom lingvistického poznania. Jazykové znalosti sú založené na prvkoch, ktorých formovanie prebiehalo v procese činnosti, neoddeliteľne spojené s rozvojom štruktúry ústnej reči, vznikom, ďalším rozvojom a zdokonaľovaním písania, učením sa písať, ako aj interpretáciou. a dekódovanie textov.

Prirodzený jazyk ako predmet lingvistiky zaujíma ústredné miesto v tejto vede. V procese vývinu jazyka sa menili aj predstavy o ňom. Ak sa predtým vnútornej organizácii jazyka nepripisovala osobitná dôležitosť a posudzovalo sa predovšetkým v kontexte jeho vzťahu s vonkajším svetom, potom od konca 19. do začiatku 20. , osobitná úloha sa pripisuje vnútornej formálnej štruktúre jazyka. V tomto období slávny švajčiarsky lingvista Ferdinand de Saussure vytvoril základy takých vied, ako je semiológia a štruktúrna lingvistika, a podrobne ich opísal vo svojej knihe Kurz všeobecnej lingvistiky (1916).

Vedec vlastní myšlienku považovať jazyk za jediný mechanizmus, integrálny systém znakov, ktorý zase umožňuje matematicky opísať jazyk. Saussure bol prvý, kto navrhol štrukturálny prístup k jazyku, konkrétne opis jazyka štúdiom vzťahov medzi jeho jednotkami. Jednotkami alebo „znakmi“ rozumel slovo, ktoré v sebe spája význam aj zvuk. Koncept navrhnutý švajčiarskym vedcom je založený na teórii jazyka ako systému znakov, ktorý sa skladá z troch častí: jazyk (z francúzskeho langue), reč (z francúzskeho parole) a rečová aktivita (z francúzskeho jazyka).

Sám vedec definoval vedu, ktorú vytvoril, semiológiu, ako „vedu, ktorá študuje život znakov v rámci života spoločnosti“. Keďže jazyk je znakový systém, pri hľadaní odpovede na otázku, aké miesto zaujíma lingvistika medzi ostatnými vedami, Saussure tvrdil, že lingvistika je súčasťou semiológie. Všeobecne sa uznáva, že to bol švajčiarsky filológ, ktorý položil teoretický základ nového smeru v lingvistike a stal sa zakladateľom, „otcom“ modernej lingvistiky.

Koncept, ktorý predložil F. de Saussure, sa ďalej rozvíjal v prácach mnohých vynikajúcich vedcov: v Dánsku - L. Elmslev, v Českej republike - N. Trubetskoy, v USA - L. Bloomfield, Z. Harris, N. Chomského. Pokiaľ ide o našu krajinu, štrukturálna lingvistika sa tu začala rozvíjať približne v rovnakom období ako na Západe – na prelome 19. – 20. storočia. - v dielach F. Fortunatova a I. Baudouina de Courtenay. Treba poznamenať, že I. Baudouin de Courtenay úzko spolupracoval s F. de Saussure. Ak Saussure položil teoretické základy štrukturálnej lingvistiky, potom Baudouin de Courtenay možno považovať za osobu, ktorá položila základy pre praktickú aplikáciu metód navrhnutých švajčiarskym vedcom. Bol to on, kto definoval lingvistiku ako vedu, ktorá využíva štatistické metódy a funkčné závislosti, a oddelil ju od filológie. Prvou skúsenosťou s aplikáciou matematických metód v lingvistike bola fonológia - veda o štruktúre zvukov jazyka.

Treba poznamenať, že postuláty, ktoré predložil F. de Saussure, sa mohli premietnuť do problémov lingvistiky, ktoré boli aktuálne v polovici 20. storočia. Práve v tomto období sa črtá jasný trend smerom k matematizácii vedy o jazyku. Prakticky vo všetkých veľkých krajinách začína prudký rozvoj vedy a výpočtovej techniky, čo si zase vyžadovalo stále nové a nové lingvistické základy. Výsledkom toho všetkého bola rýchla konvergencia exaktných a humanitných vied, ako aj aktívna interakcia matematiky a lingvistiky, ktoré našli praktické uplatnenie pri riešení naliehavých vedeckých problémov.

V 50. rokoch 20. storočia, na priesečníku takých vied ako matematika, lingvistika, informatika a umelá inteligencia, vznikol nový smer vedy – počítačová lingvistika (známa aj ako strojová lingvistika alebo automatické spracovanie textov v prirodzenom jazyku). Hlavné etapy vývoja tohto smeru sa odohrali na pozadí vývoja metód umelej inteligencie. Silným impulzom pre rozvoj počítačovej lingvistiky bolo vytvorenie prvých počítačov. S príchodom novej generácie počítačov a programovacích jazykov v 60. rokoch sa však začína zásadne nová etapa vo vývoji tejto vedy. Treba tiež poznamenať, že počiatky počítačovej lingvistiky siahajú k prácam slávneho amerického lingvistu N. Chomského v oblasti formalizácie štruktúry jazyka. Výsledky jeho výskumu, získané na priesečníku lingvistiky a matematiky, vytvorili základ pre rozvoj teórie formálnych jazykov a gramatiky (generatívnej alebo generatívnej gramatiky), ktorá sa široko používa na opis prirodzených aj umelých jazykov. najmä programovacie jazyky. Presnejšie povedané, táto teória je dosť matematická disciplína. Možno ju považovať za jednu z prvých v takom smere aplikovanej lingvistiky, ako je matematická lingvistika.

Prvé experimenty a prvý vývoj v oblasti počítačovej lingvistiky sa týkajú vytvárania systémov strojového prekladu, ako aj systémov, ktoré simulujú schopnosti ľudského jazyka. Koncom 80-tych rokov, s nástupom a aktívnym rozvojom internetu, došlo k prudkému nárastu objemu textových informácií dostupných v elektronickej forme. To viedlo k tomu, že technológie na vyhľadávanie informácií sa posunuli na kvalitatívne novú etapu svojho vývoja. Vznikla potreba automatického spracovania textov v prirodzenom jazyku, objavili sa úplne nové úlohy a technológie. Vedci čelia takému problému, akým je rýchle spracovanie obrovského prúdu neštruktúrovaných údajov. S cieľom nájsť riešenie tohto problému sa veľký význam kládol rozvoju a aplikácii štatistických metód v oblasti automatického spracovania textu. S ich pomocou bolo možné vyriešiť také problémy, ako je rozdelenie textov do zhlukov spojených spoločnou témou, zvýraznenie určitých fragmentov v texte atď. Okrem toho použitie metód matematickej štatistiky a strojového učenia umožnilo vyriešiť problémy rozpoznávania reči a vytváranie vyhľadávacích nástrojov.

Vedci sa nezastavili pri dosiahnutých výsledkoch: naďalej si stanovovali nové ciele a ciele, vyvíjali nové techniky a metódy výskumu. To všetko viedlo k tomu, že lingvistika začala pôsobiť ako aplikovaná veda spájajúca množstvo iných vied, pričom vedúcu úlohu medzi nimi mala matematika s jej rozmanitosťou kvantitatívnych metód a schopnosťou ich využiť na hlbšie pochopenie javov. sa študuje. Tak sa začalo jej formovanie a rozvoj matematickej lingvistiky. V súčasnosti je to skôr „mladá“ veda (existuje asi päťdesiat rokov), no napriek svojmu veľmi „nízkému veku“ je to už etablovaná oblasť vedeckého poznania s mnohými úspešnými úspechmi.

Pojem „výpočtová lingvistika“ zvyčajne označuje širokú oblasť použitia počítačových nástrojov - programov, počítačových technológií na organizáciu a spracovanie údajov - na modelovanie fungovania jazyka v určitých podmienkach, situáciách, problémových oblastiach, ako aj rozsah. počítačových jazykových modelov.iba v lingvistike, ale aj v príbuzných disciplínach. V skutočnosti iba v druhom prípade hovoríme o aplikovanej lingvistike v užšom zmysle, keďže modelovanie počítačového jazyka možno považovať aj za oblasť aplikácie teórie programovania (informatika) v oblasti lingvistiky. Všeobecná prax je však taká, že oblasť počítačovej lingvistiky pokrýva takmer všetko, čo súvisí s používaním počítačov v lingvistike: „Pojem“ počítačová lingvistika „nastavuje všeobecnú orientáciu na používanie počítačov na riešenie rôznych vedeckých a praktických problémov. súvisiace s jazykom, bez toho, aby akýmkoľvek spôsobom obmedzovali spôsoby riešenia týchto problémov.

Inštitucionálny aspekt počítačovej lingvistiky. Ako osobitný vedecký smer sa v 60. rokoch formovala počítačová lingvistika. Tok publikácií v tejto oblasti je veľmi vysoký. Okrem tematických zborníkov je v USA štvrťročne vydávaný časopis Computational Linguistics. Veľkú organizačnú a vedeckú prácu vykonáva Asociácia pre počítačovú lingvistiku, ktorá má regionálne štruktúry po celom svete (najmä európska pobočka). Každé dva roky sa konajú medzinárodné konferencie o počítačovej lingvistike - KOLING. Relevantné problémy sú široko zastúpené aj na medzinárodných konferenciách o umelej inteligencii na rôznych úrovniach.

Kognitívna sada nástrojov výpočtovej lingvistiky

Výpočtová lingvistika ako špeciálna aplikovaná disciplína sa vyznačuje predovšetkým svojím nástrojom - teda využitím počítačových nástrojov na spracovanie jazykových údajov. Keďže počítačové programy, ktoré modelujú určité aspekty fungovania jazyka, môžu využívať rôzne programovacie nástroje, zdá sa, že nie je potrebné hovoriť o spoločnom metajazyku. Avšak nie je. Existujú všeobecné princípy počítačového modelovania myslenia, ktoré sú nejakým spôsobom implementované v akomkoľvek počítačovom modeli. Tento jazyk je založený na teórii poznania vyvinutej v umelej inteligencii a tvoriacej dôležité odvetvie kognitívnej vedy.

Hlavná téza teórie poznania tvrdí, že myslenie je proces spracovania a generovania vedomostí. „Vedomosti“ alebo „vedomosti“ sa považujú za nedefinovanú kategóriu. Ľudský kognitívny systém funguje ako „procesor“, ktorý spracováva poznatky. V epistemológii a kognitívnej vede sa rozlišujú dva hlavné typy vedomostí – deklaratívne („vedieť čo“) a procedurálne („vedieť ako“2)). Deklaratívne poznatky sú zvyčajne prezentované ako súbor výrokov, tvrdení o niečom. Typickým príkladom deklaratívnych znalostí je výklad slov v bežných výkladových slovníkoch. Napríklad šálka] - „malá zaoblená nádoba na pitie, zvyčajne s uškom, vyrobená z porcelánu, fajansy atď.“. Deklaratívne znalosti sa hodia na overovací postup v zmysle „pravda – nepravda“. Procedurálne znalosti sú prezentované ako postupnosť (zoznam) operácií, úkonov, ktoré sa majú vykonať. Toto je nejaký všeobecný návod na konanie v určitej situácii. Typickým príkladom procesných znalostí je návod na používanie domácich spotrebičov.

Na rozdiel od deklaratívnych znalostí nemožno procesné znalosti overiť ako pravdivé alebo nepravdivé. Môžu byť hodnotené iba podľa úspechu alebo zlyhania algoritmu.

Väčšina konceptov kognitívnych nástrojov počítačovej lingvistiky je homonymná: súčasne označujú niektoré skutočné entity ľudského kognitívneho systému a spôsoby reprezentácie týchto entít v niektorých metajazykoch. Inými slovami, prvky metajazyka majú ontologický a inštrumentálny aspekt. Ontologicky delenie deklaratívnych a procedurálnych poznatkov zodpovedá rôznym typom poznania ľudského kognitívneho systému. Takže znalosti o konkrétnych objektoch, objektoch reality sú hlavne deklaratívne a funkčné schopnosti človeka chodiť, behať, riadiť auto sa realizujú v kognitívnom systéme ako procedurálne znalosti. Inštrumentálne možno poznatky (ontologicky procedurálne aj deklaratívne) reprezentovať ako súbor opisov, opisov a ako algoritmus, inštrukcie. Inými slovami, ontologicky deklaratívne poznatky o objekte reality „tabuľka“ môžu byť reprezentované procedurálne ako súbor inštrukcií, algoritmov na jeho vytvorenie, zostavenie (= tvorivý aspekt procedurálnych znalostí) alebo ako algoritmus na jeho typické použitie (= funkčný aspekt procedurálnych znalostí). V prvom prípade môže ísť o návod pre začínajúceho stolára a v druhom o popis možností kancelárskeho stola. Platí to aj naopak: ontologicky procedurálne poznatky môžu byť reprezentované deklaratívne.

Vyžaduje si to samostatnú diskusiu o tom, či je možné akýkoľvek ontologicky deklaratívny poznatok reprezentovať ako procesný a akýkoľvek ontologicky procesný ako deklaratívny. Výskumníci sa zhodujú v tom, že akékoľvek deklaratívne poznatky možno v princípe reprezentovať procedurálne, hoci sa to môže ukázať ako veľmi neekonomické pre kognitívny systém. Opak je sotva pravdou. Faktom je, že deklaratívne znalosti sú oveľa explicitnejšie, pre človeka sú ľahšie pochopiteľné ako procedurálne znalosti. Na rozdiel od deklaratívnych znalostí sú procedurálne znalosti prevažne implicitné. Takže jazykové schopnosti, ktoré sú procedurálnymi znalosťami, sú pred človekom skryté, nie sú ním realizované. Pokus o vysvetlenie mechanizmov fungovania jazyka vedie k dysfunkcii. Odborníci v oblasti lexikálnej sémantiky napríklad vedia, že dlhodobá sémantická introspekcia potrebná na štúdium plánu obsahu slova vedie k tomu, že výskumník čiastočne stráca schopnosť rozlišovať medzi správnym a nesprávnym použitím analyzovaného slova. Je možné uviesť ďalšie príklady. Je známe, že z hľadiska mechaniky je ľudské telo zložitým systémom dvoch interagujúcich kyvadiel.

V teórii znalostí sa na štúdium a reprezentáciu znalostí používajú rôzne štruktúry znalostí – rámce, scenáre, plány. Podľa M. Minského je „rámec dátová štruktúra navrhnutá tak, aby reprezentovala stereotypnú situáciu“ [Minsky 1978, s. 254]. Podrobnejšie možno povedať, že rámec je konceptuálna štruktúra na deklaratívnu reprezentáciu poznatkov o typizovanej tematicky jednotnej situácii, ktorá obsahuje sloty prepojené určitými sémantickými vzťahmi. Pre účely ilustrácie je rámec často reprezentovaný ako tabuľka, ktorej riadky tvoria sloty. Každý slot má svoj vlastný názov a obsah (pozri tabuľku 1).

stôl 1

Fragment rámu "stola" v zobrazení tabuľky

V závislosti od konkrétnej úlohy môže byť štruktúrovanie rámca oveľa zložitejšie; rámec môže obsahovať vnorené podrámce a odkazy na iné rámce.

Namiesto tabuľky sa často používa predikátová forma zobrazenia. V tomto prípade je rámec vo forme predikátu alebo funkcie s argumentmi. Existujú aj iné spôsoby znázornenia rámca. Napríklad môže byť reprezentovaný ako n-tica v nasledujúcom tvare: ( (názov rámca) (názov slotu)) (hodnota slotu,), ..., (názov slotu n) (hodnota slotu n) ).

Rámce v jazykoch reprezentujúcich znalosti majú zvyčajne túto formu.

Rovnako ako iné kognitívne kategórie výpočtovej lingvistiky, koncept rámca je homonymný. Ontologicky je súčasťou ľudského kognitívneho systému av tomto zmysle možno rámec porovnávať s pojmami ako gestalt, prototyp, stereotyp, schéma. V kognitívnej psychológii sú tieto kategórie posudzované práve z ontologického hľadiska. D. Norman teda rozlišuje dva hlavné spôsoby existencie a organizácie poznania v ľudskom kognitívnom systéme – sémantické siete a schémy. "Schémy," píše, "sú organizované balíky vedomostí zostavené tak, aby reprezentovali odlišné samostatné jednotky vedomostí. Moja schéma pre Sama môže obsahovať informácie popisujúce jeho fyzické črty, jeho aktivity a osobnostné črty. Táto schéma koreluje s inými schémami ktoré popisujú jeho ďalšie aspekty“ [Norman 1998, s. 359]. Ak vezmeme inštrumentálnu stránku kategórie rámca, potom ide o štruktúru deklaratívnej reprezentácie vedomostí. V súčasných systémoch AI môžu rámce vytvárať komplexné znalostné štruktúry; rámcové systémy umožňujú hierarchiu - jeden rámec môže byť súčasťou iného rámca.

Obsahovo je pojem rám veľmi blízky kategórii výkladu. V skutočnosti je štrbina analógom valencie, vyplnenie štrbiny je analógom aktantu. Hlavný rozdiel medzi nimi je v tom, že výklad obsahuje iba lingvisticky relevantné informácie o pláne obsahu slova a rámec, po prvé, nie je nevyhnutne viazaný na slovo, a po druhé, zahŕňa všetky informácie relevantné pre daný problém. situáciu vrátane mimojazykovej (poznanie sveta) 3).

Scenár je koncepčný rámec pre procedurálnu reprezentáciu vedomostí o stereotypnej situácii alebo správaní. Prvky skriptu sú kroky algoritmu alebo inštrukcie. Ľudia zvyčajne hovoria o „scenároch reštaurácie“, „scenároch nákupu“ a podobne.

Pôvodne sa rámec používal aj na procedurálnu prezentáciu (porovnaj termín „procedurálny rámec“), ale výraz „scenár“ sa teraz v tomto zmysle používa častejšie. Scenár môže byť reprezentovaný nielen ako algoritmus, ale aj ako sieť, ktorej vrcholy zodpovedajú určitým situáciám a oblúky zodpovedajú spojeniam medzi situáciami. Spolu s konceptom písma niektorí výskumníci používajú kategóriu písma na počítačové modelovanie inteligencie. Podľa R. Schenka je scenár nejaký všeobecne uznávaný, dobre známy sled kauzálnych vzťahov. Napríklad pochopenie dialógu

Na ulici leje ako z vedra.

Stále musíte ísť do obchodu: v dome nie je nič - včera hostia všetko pozametali.

vychádza z nevýslovných sémantických spojení typu „ak prší, je nežiaduce chodiť von, pretože môžete ochorieť“. Tieto spojenia tvoria scenár, ktorý používajú rodení hovoriaci na vzájomné porozumenie verbálneho a neverbálneho správania.

V dôsledku aplikácie scenára na konkrétnu problémovú situáciu a plánovať). Plán sa používa na procesnú reprezentáciu vedomostí o možných akciách vedúcich ku konkrétnemu cieľu. Plán spája cieľ so sledom akcií.

Vo všeobecnom prípade plán obsahuje postupnosť postupov, ktoré prenášajú počiatočný stav systému do konečného a vedú k dosiahnutiu určitého čiastkového cieľa a cieľa. V systémoch AI vzniká plán ako výsledok plánovacej alebo plánovacej činnosti príslušného modulu - modulu plánovania. Proces plánovania môže byť založený na prispôsobení údajov z jedného alebo viacerých scenárov, aktivovaných testovacími postupmi, na vyriešenie problémovej situácie. Vykonávanie plánu vykonáva výkonný modul, ktorý riadi kognitívne postupy a fyzické činnosti systému. V elementárnom prípade je plán v inteligentnom systéme jednoduchý sled operácií; v zložitejších verziách je plán spojený s konkrétnym predmetom, jeho zdrojmi, možnosťami, cieľmi, podrobnými informáciami o problémovej situácii a pod. Vznik plánu nastáva v procese komunikácie medzi modelom sveta, ktorého časť tvoria scenáre, modul plánovania a výkonný modul.

Na rozdiel od scenára je plán spojený s konkrétnou situáciou, konkrétnym interpretom a sleduje konkrétny cieľ. Výber plánu sa riadi zdrojmi zhotoviteľa. Uskutočniteľnosť plánu je povinnou podmienkou pre jeho generovanie v kognitívnom systéme a charakteristika realizovateľnosti je neaplikovateľná na scenár.

Ďalším dôležitým pojmom je model sveta. Model sveta sa zvyčajne chápe ako súbor poznatkov o svete organizovaný určitým spôsobom, ktorý je vlastný kognitívnemu systému alebo jeho počítačovému modelu. V trochu všeobecnejšom zmysle sa o modeli sveta hovorí ako o časti kognitívneho systému, ktorý uchováva poznatky o štruktúre sveta, jeho vzorcoch atď. V inom zmysle je model sveta spojený s výsledkami porozumenia textu alebo v širšom zmysle diskurzu. V procese porozumenia diskurzu sa buduje jeho mentálny model, ktorý je výsledkom interakcie medzi plánom obsahu textu a poznatkami o svete, ktoré sú tomuto predmetu vlastné [Johnson-Laird 1988, s. 237 et nasl.]. Prvé a druhé chápanie sa často kombinuje. To je typické pre lingvistických výskumníkov pracujúcich v rámci kognitívnej lingvistiky a kognitívnej vedy.

S kategóriou rámu úzko súvisí aj pojem scéna. Kategória scén sa v literatúre používa najmä ako označenie pojmovej štruktúry na deklaratívne zobrazenie situácií a ich častí aktualizovaných v rečovom akte a zvýraznených jazykovými prostriedkami (lexémy, syntaktické konštrukcie, gramatické kategórie a pod.). Keďže je scéna spojená s jazykovými formami, je často aktualizovaná určitým slovom alebo výrazom. V dejových gramatikách (pozri nižšie) sa scéna objavuje ako súčasť epizódy alebo rozprávania. Charakteristickými príkladmi scén je súbor kociek, s ktorými pracuje systém AI, akčná scéna v príbehu a účastníci akcie atď. V umelej inteligencii sa scény využívajú v systémoch rozpoznávania obrazu, ako aj v programoch zameraných na štúdium (analýzu, popis) problémových situácií. Pojem scéna sa rozšíril v teoretickej lingvistike, ako aj v logike, najmä v situačnej sémantike, v ktorej je význam lexikálnej jednotky priamo spojený so scénou.

Počítačová lingvistika sa dnes prakticky vyčerpala. Priamo tomu nasvedčujú neúspešné skúsenosti výskumníkov a vývojárov „intelektuálnych“ informačných produktov, ktorí už viac ako polstoročie pracujú na tvorbe takých ambicióznych programov, akými sú napríklad adekvátny strojový preklad či sémantické vyhľadávanie informácií v polia dokumentov v prirodzenom jazyku.

Budúcnosť strojového spracovania textov v prirodzenom jazyku sa samozrejme vidí vo vytváraní a rozvoji supralingvistických technológií schopných analyzovať obsah informácie na úrovni sémantického chápania kontextu tak, ako to dokáže človek. Vzniku „mysliacich strojov“ (Thinking Machine) však na dlhý čas bránili dva hlavné faktory – chýbajúca potrebná metodika a správne nástroje na riešenie dvoch zásadných problémov – tým je hľadanie „vzorca zmyslu“ a budovanie „model vedomostí o vesmíre“ v nejakej formalizovanej počítačom dostupnej forme, bez ktorej v skutočnosti nie je možné zopakovať povahu ľudského myslenia na programovej úrovni.

Lingvisti spolu s kybernetikou nedokázali tieto problémy prekonať, keďže kybernetika už leží mimo hraníc ich predmetovej špecializácie, čo v podstate výrazne spomalilo rozvoj tak dlho žiadaných aplikovaných oblastí spracovania textu, ako je napr. ako vytváranie „inteligentných“ dialógových systémov alebo „sémantických internetových vyhľadávačov“. A ten istý strojový preklad ešte stále nie je potrebný.

Skúsenosti s rozvojom vedecko-technického pokroku naznačujú, že prelomový želaný výsledok sa v konečnom dôsledku dosiahne spravidla na križovatke rôznych technologických oblastí a predmetových disciplín. Problém „strojového myslenia“ bude zrejme vyriešený presne vtedy, keď v procedurálnom pláne presne pochopíme, ako naše prirodzené vedomie funguje, a keď spoľahlivo zistíme, či nám tieto postupy myslenia, ktoré sa nám ukážu v potrebnom a dostatočnom množstve, budú finálna počítačová algoritmizácia.

Treba si uvedomiť, že v posledných rokoch sa začala rozvíjať nová ("smartbutter") vedná disciplína, ktorá sa zaoberá práve tým, že študuje procedurálnu podstatu duševnej činnosti človeka. Dá sa povedať, že momentálne máme v tomto smere výrazný prelom a už celkom jasne si predstavujeme, ako funguje algoritmus ľudského myslenia. Ak o tom hovoríme všeobecne, tak v prvom rade treba poznamenať, že človek nemyslí v obrazoch, ako sa zvyčajne myslí, ale v „vzorcoch obrazového správania“ (IGO). Po druhé, myslíme „ontologicky“, teda neustále si kladieme otázky, aj keď si to sami nevšimneme, a permanentne na ne hľadáme (aj automaticky) odpovede. Napokon, zmysluplné pochopenie všetkého, čo sa deje okolo jednotlivca alebo v jeho mysli počas akejkoľvek kontemplácie, sa uskutočňuje práve pomocou určitej „modelovej reprezentácie“ okolitého vesmíru. To sa deje porovnaním tých MPO, ktoré dostane na operačnom základe, s predstavami o vesmíre uloženými v ľudskej dlhodobej pamäti. Presne tieto tri hlavné veľryby tvoria celú technológiu prirodzeného myslenia, ktorú teraz zostáva už len jednoducho preniesť do jazyka zrozumiteľného pre programátorov a získať tak dlho očakávaný výsledok.

Keď ľudia porozumejú akémukoľvek posolstvu v prirodzenom jazyku, prakticky nikdy nedosiahnu okamžitú zhodu vysloveného úsudku s konceptmi a vzormi správania obrázkov uložených v ich pamäti. Zakaždým dávajú prijatým (vnímaným) MPO prvú asociatívno-heuristickú korešpondenciu, ktorá sa im vynorí v mysli, na základe špecifík ich skúseností a znalostí, a až potom v priebehu ďalšieho prehodnocovania textu začnú objasniť a konkretizovať prijaté informácie. Na druhej strane, počítačová lingvistika sa snaží stanoviť presné zhody medzi význammi slov, ako aj ich vzájomnými vzťahmi, pričom sa snaží prekonať problém nejednoznačnosti verbálnych nástrojov, ktoré sú vlastné každému jazyku, ktorý je v skutočnosti veľmi odlišný. z toho, ako funguje naše myslenie. Človek predsa nedosiahne porozumenie reči alebo textu vôbec nie vďaka znalosti morfologickej záťaže slov alebo vytváraniu syntaktických väzieb medzi slovami, a dokonca ani nie preto, že by rozpoznal špecifické významy (sémantis) slov, ale práve kvôli počiatočným asociačným predpokladom a následnému „iteratívnemu rolovaniu“. celého kontextu“ s cieľom nakresliť konečný obraz o zhode vnímanej informácie s jej vnútorným obsahom.