Istoria lingvisticii computaționale. Ce este lingvistica computațională? Setul de instrumente cognitive de lingvistică computațională

Novoselova Irina

De ce nu toate traducerile automate sunt perfecte? Ce determină calitatea unei traduceri? Are autorul cunoștințe suficiente pentru a folosi și completa dicționarele existente pe calculator? Autoarea a încercat să ofere răspunsuri la aceste întrebări în lucrarea ei. Raport pe tema - in fisierul atasat, produs al activitatilor proiectului - pe portalul scolii

Descarca:

Previzualizare:

deschis

Internaţional

cercetare

conferinţă

elevi și elevi de liceu

"Educaţie. Știința. Profesie"

Secțiunea „Lingvistică străină”

„lingvistica computerizată”

Realizat de Irina Novosyolova

MOU gimnaziul nr. 39 „Clasic”

10 clasa "B".

Supraveghetori științifici:

Chigrineva Tatyana Dmitrievna,

Profesor de engleză de cea mai înaltă categorie

Osipova Svetlana Leonidovna,

profesor de informatică de cea mai înaltă categorie

orașul Otradnîi

2011

  1. Cuvinte engleze în TIC

Uită-te la site

  1. Experimentul meu

Una dintre sarcini este de a efectua un experiment, care constă în compararea capacităților diferitelor dicționare lingvistice computerizate, pentru o traducere mai exactă și mai aproximativă din engleză în rusă.

Au fost testate următoarele site-uri:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Pentru puritatea experimentului, am ales propoziții cu diferite grade de complexitate a traducerii stilistice. Frazele de intrare sunt după cum urmează:

1. Un nou raport spune că adolescenții de astăzi sunt mai egoiști decât erau acum 20 de ani

(Noul raport spune că adolescenții de astăzi sunt mai egoiști decât erau acum 20 de ani)

2. Ea crede că jocurile video și internetul sunt cele mai mari motive pentru acest egoism crescut.

(Ea crede că jocurile video și internetul sunt cele mai mari motive pentru acest egoism în creștere)

3. Vor să fie mai buni decât alții

(Ei vor să fie mai buni decât restul)

4. Ea a constatat că marea creștere a început din anul 2000, când jocurile video violente au devenit cu adevărat populare.

(Ea a găsit multă creștere începând cu 2000, când jocurile video violente au devenit cu adevărat populare)

După ce am tradus aceste propoziții pe site-uri de traducători online, am obținut următoarele rezultate:

  1. http://translate.eu/

Lingvistică computațională: metode, resurse, aplicații

Introducere

Termen lingvistică computațională(CL) în ultimii ani este din ce în ce mai comună în legătură cu dezvoltarea diferitelor sisteme software aplicate, inclusiv produse software comerciale. Acest lucru se datorează creșterii rapide în societate a informațiilor de tip text, inclusiv pe internet, și nevoii de procesare automată a textelor în limbaj natural (NL). Această împrejurare stimulează dezvoltarea lingvisticii computaționale ca domeniu al științei și dezvoltarea de noi tehnologii informaționale și lingvistice.

În cadrul lingvisticii computaționale, care există de mai bine de 50 de ani (și este cunoscută și sub numele lingvistica masinii, procesare automată a textului în NL) au fost propuse multe metode și idei promițătoare, dar nu toate și-au găsit încă expresia în produsele software utilizate în practică. Scopul nostru este de a caracteriza specificul acestui domeniu de cercetare, de a formula sarcinile sale principale, de a indica conexiunile sale cu alte științe, de a oferi o scurtă privire de ansamblu asupra principalelor abordări și resurse utilizate și de a caracteriza pe scurt aplicațiile existente ale CL. Pentru o cunoaștere mai detaliată a acestor probleme, se pot recomanda cărți.

1. Sarcini de lingvistică computațională

Lingvistica computațională a apărut la intersecția unor științe precum lingvistica, matematica, informatica (Computer Science) și inteligența artificială. Originile CL se întorc la cercetările celebrului om de știință american N. Chomsky în domeniul formalizării structurii limbajului natural; dezvoltarea sa se bazează pe rezultate din domeniul lingvisticii generale (lingvisticii). Lingvistica studiază legile generale ale limbajului natural - structura și funcționarea sa și include următoarele domenii:

Ø Fonologie- studiază sunetele vorbirii și regulile de combinare a acestora în formarea vorbirii;

Ø Morfologie- se ocupă de structura internă și forma externă a cuvintelor vorbirii, inclusiv părțile de vorbire și categoriile acestora;

Ø Sintaxă- studiază structura propozițiilor, regulile de compatibilitate și ordinea cuvintelor dintr-o propoziție, precum și proprietățile generale ale acesteia ca unitate a limbajului.

Ø Semanticăși pragmatică- domenii strâns legate: semantica se ocupă de semnificația cuvintelor, propozițiilor și a altor unități ale vorbirii, iar pragmatica se ocupă de trăsăturile exprimării acestui sens în legătură cu scopurile specifice comunicării;

Ø Lexicografie descrie lexicul unui anumit SL - cuvintele sale individuale și proprietățile lor gramaticale, precum și metode de creare a dicționarelor.

Rezultatele lui N. Chomsky, obținute la intersecția dintre lingvistică și matematică, au pus bazele teoriei limbajelor și gramaticilor formale (deseori numite generativ, sau generativ gramaticieni). Această teorie este acum lingvistică matematicăși este folosit pentru a procesa nu atât NL, ci limbaje artificiale, în primul rând limbaje de programare. Prin natura sa, este o disciplină destul de matematică.

Lingvistica matematică include și lingvistică cantitativă, studiind caracteristicile de frecvență ale limbajului - cuvintele, combinațiile acestora, construcțiile sintactice etc., folosind metode matematice de statistică, așa că puteți numi această ramură a științei lingvistică statistică.

CL este, de asemenea, strâns legată de un astfel de domeniu științific interdisciplinar precum inteligența artificială (AI), în cadrul căruia sunt dezvoltate modele computerizate ale funcțiilor intelectuale individuale. Unul dintre primele programe de lucru în domeniul AI și CL este binecunoscutul program al lui T. Winograd, care a înțeles cele mai simple ordine ale unei persoane de a schimba lumea cuburilor, formulate pe un subset limitat de NL. Trebuie remarcat faptul că, în ciuda intersecției evidente a cercetării în domeniul CL și AI (deoarece competența lingvistică este legată de funcțiile intelectuale), AI nu absoarbe toată CL, deoarece are propria bază teoretică și metodologie. Comun acestor științe este modelarea computerizată ca metodă principală și obiectiv final al cercetării.

Astfel, sarcina CL poate fi formulată ca dezvoltarea de programe de calculator pentru prelucrarea automată a textelor în NL. Și deși procesarea este înțeleasă destul de larg, departe de toate tipurile de procesare poate fi numită lingvistică, iar procesoarele corespunzătoare pot fi numiți lingvistice. Procesor lingvistic trebuie să folosească unul sau altul model formal al limbii (chiar dacă este foarte simplu), ceea ce înseamnă că trebuie să fie dependent de limbă într-un fel sau altul (adică să depindă de o anumită NL). Deci, de exemplu, editorul de text Mycrosoft Word poate fi numit lingvistic (fie doar pentru că folosește dicționare), dar editorul NotePad nu este.

Complexitatea sarcinilor CL se datorează faptului că NL este un sistem complex de semne pe mai multe niveluri care a apărut pentru schimbul de informații între oameni, dezvoltat în procesul activității practice umane și în continuă schimbare în legătură cu această activitate. . O altă dificultate în dezvoltarea metodelor CL (și dificultatea de a studia SL în cadrul lingvisticii) este asociată cu diversitatea limbilor naturale, diferențele semnificative de vocabular, morfologie, sintaxă, diferitele limbi oferă modalități diferite de exprimare a acelasi inteles.

2. Caracteristici ale sistemului NL: niveluri și conexiuni

Obiectele procesatorilor lingvistici sunt textele NL. Textele sunt înțelese ca orice eșantion de vorbire - orală și scrisă, de orice gen, dar practic CL are în vedere textele scrise. Textul are o structură unidimensională, liniară și poartă, de asemenea, un anumit sens, în timp ce limbajul acționează ca un mijloc de transformare a sensului transmis în texte (sinteza vorbirii) și invers (analiza vorbirii). Textul este compus din unități mai mici și există mai multe modalități de împărțire (împărțire) a textului în unități aparținând diferitelor niveluri.

Existența următoarelor niveluri este în general recunoscută:

Nivelul propozițiilor (enunțurilor) - nivel sintactic;

· Lexico-morfologic omonimia (cel mai comun tip) apare atunci când formele de cuvânt a două lexeme diferite coincid, de exemplu, verset- un verb la singular masculin și un substantiv la singular, caz nominativ),

· Omonimie sintactică semnifică o ambiguitate în structura sintactică, conducând la mai multe interpretări: Studenții din Lvov au mers la Kiev,zbor avioane poate sa fi periculos(exemplu faimos al lui Chomsky), etc.

3. Modelare în lingvistică computaţională

Dezvoltarea unui procesor lingvistic (LP) presupune o descriere a proprietăților lingvistice ale textului procesat al NL, iar această descriere este organizată ca model limba. Ca și în modelare în matematică și programare, un model este înțeles ca un sistem care reflectă o serie de proprietăți esențiale ale fenomenului care este modelat (adică, NL) și, prin urmare, are o similitudine structurală sau funcțională.

Modelele de limbaj utilizate în CL sunt de obicei construite pe baza teoriilor create de lingviști prin studierea diverselor texte și pe baza intuiției lor lingvistice (introspecție). Care este specificul modelelor KL? Se pot distinge următoarele caracteristici:

Formalitate și, în cele din urmă, algoritmizare;

Funcționalitatea (scopul modelării este de a reproduce funcțiile limbajului ca „cutie neagră”, fără a construi un model precis pentru sinteza și analiza vorbirii umane);

Generalitatea modelului, adică ia în considerare un set destul de mare de texte;

· Valabilitate experimentală, care presupune testarea modelului pe diferite texte;

· Încrederea pe dicționare ca componentă obligatorie a modelului.

Complexitatea SL, descrierea și prelucrarea acestuia duce la împărțirea acestui proces în etape separate corespunzătoare nivelurilor limbii.Majoritatea LP-urilor moderne sunt de tip modular, în care fiecărui nivel de analiză sau sinteză lingvistică îi corespunde un separat. modulul procesorului. În special, în cazul analizei de text, modulele LP individuale efectuează:

Ø Analiza grafica, adica evidentierea formelor de cuvinte in text (trecerea de la simboluri la cuvinte);

Ø Analiza morfologica - trecerea de la formele cuvintelor la acestea leme(forme de dicționar ale lexemelor) sau elementele de bază(părți nucleare ale cuvântului, minus morfeme flexive);

Ø Analiza sintactică, adică identificarea structurii gramaticale a propozițiilor textului;

Ø Analiza semantica si pragmatica, care determina sensul sintagmelor si reactia corespunzatoare a sistemului in cadrul caruia functioneaza LP.

Sunt posibile diferite scheme de interacțiune ale acestor module (lucrare secvențială sau analiză intercalată paralelă), totuși, nivelurile individuale - morfologie, sintaxă și semantică sunt încă procesate prin mecanisme diferite.

Astfel, LP poate fi considerat ca un convertor în mai multe etape care, în cazul analizei de text, traduce fiecare dintre propozițiile sale într-o reprezentare internă a sensului său, și invers în cazul sintezei. Modelul de limbaj corespunzător poate fi numit structural.

Deși modelele CL complete necesită luarea în considerare a tuturor nivelurilor principale ale limbajului și disponibilitatea modulelor adecvate, la rezolvarea unor probleme aplicate, este posibil să se facă fără reprezentarea nivelurilor individuale în LP. De exemplu, în primele programe experimentale de CL, textele procesate aparțineau unor zone problematice foarte înguste (cu un set limitat de cuvinte și o ordine strictă a cuvintelor), astfel încât recunoașterea cuvintelor putea folosi literele lor inițiale, omițând etapele analizei morfologice și sintactice.

Un alt exemplu de model redus, care este acum destul de des folosit, este modelul lingvistic al frecvenței simbolurilor și al combinațiilor acestora (bigrame, trigrame etc.) în textele unui NL specific. Astfel de model statistic afișează informații lingvistice la nivelul caracterelor (literelor) textului și este suficient, de exemplu, să detectăm greșelile de scriere în text sau să recunoaștem apartenența lingvistică a acestuia. Un model similar bazat pe statisticile cuvintelor individuale și apariția lor comună în texte (bigrame, trigrame de cuvinte) este utilizat, de exemplu, pentru a rezolva ambiguitatea lexicală sau pentru a determina partea de vorbire a unui cuvânt (în limbi precum engleza) .

Rețineți că este posibil modele structural-statistice, în care, la prezentarea nivelurilor individuale de NL, se ia în considerare una sau alta statistică - cuvinte, construcții sintactice etc.

Într-un LP de tip modular, la fiecare etapă de analiză sau sinteză a textului, se utilizează un model adecvat (morfologie, sintaxă etc.).

Modelele morfologice de analiză a formelor de cuvinte existente în CL diferă în principal prin următorii parametri:

Rezultatul lucrării este o lemă sau tulpină cu un set de caracteristici morfologice (gen, număr, caz, tip, persoană etc.) ale unei forme de cuvânt date;

metoda de analiză - bazată pe dicționarul formelor de cuvinte ale limbii sau pe dicționarul de bază, sau metoda nedicționarului;

· posibilitatea procesării formei de cuvânt a unui lexem neinclus în dicționar.

În sinteza morfologică, datele inițiale sunt lexemul și caracteristicile morfologice specifice formei de cuvânt solicitate ale lexemului dat; de asemenea, este posibil să se solicite sinteza tuturor formelor lexemului dat. Rezultatul atât al analizei morfologice, cât și al sintezei este în general ambiguu.

Pentru a modela sintaxa în cadrul CL, au fost propuse un număr mare de idei și metode diferite care diferă în modul în care este descrisă sintaxa limbajului, modul în care aceste informații sunt utilizate în analiza sau sinteza propoziției SL și modul în care este prezentată structura sintactică a propoziției. Este destul de condiționat posibil să se evidențieze trei abordări principale pentru crearea de modele: o abordare generativă care se întoarce la ideile lui Chomsky, o abordare care se întoarce la ideile lui I. Melchuk și este reprezentată de modelul Textului semnificației, precum și ca demers în care se fac anumite încercări de depășire a limitărilor primelor două abordări, în special, teoria grupurilor sintactice.

În cadrul abordării generative, analiza sintactică este de obicei efectuată pe baza unei gramatici formale fără context, care descrie structura sintagmei a unei propoziții, sau pe baza unei extensii a gramaticii fără context. Aceste gramatici pornesc de la o împărțire liniară secvențială a unei propoziții în fraze (construcții sintactice, de exemplu, sintagme nominale) și, prin urmare, reflectă simultan atât structurile sintactice, cât și liniare. Este descrisă structura ierarhică sintactică a propoziţiei NL obţinută în urma analizei arborele componente, ale căror frunze conţin cuvintele propoziţiei, subarborele corespund construcţiilor sintactice (fraze) cuprinse în propoziţie, iar arcele exprimă relaţiile de cuibărit ale construcţiilor.

Abordarea luată în considerare poate include gramaticile de rețea, care sunt atât un dispozitiv pentru descrierea unui sistem de limbă, cât și pentru stabilirea unei proceduri de analiză a propozițiilor bazate pe conceptul unui automat finit, de exemplu, o rețea de tranziție extinsă ATN.

Ca parte a celei de-a doua abordări, se utilizează un mod mai vizual și mai comun pentru a reprezenta structura sintactică a unei propoziții - arbori de dependență. Nodurile arborelui conțin cuvintele propoziției (de obicei un verb-predicat la rădăcină), iar fiecare arc al arborelui care conectează o pereche de noduri este interpretat ca o sintactică subordonarea conexiuneîntre ele, iar direcția de legătură corespunde cu direcția acestui arc. Deoarece, în acest caz, legăturile sintactice ale cuvintelor și ordinea cuvintelor în propoziție sunt separate, atunci pe baza arborilor de subordonare, rupte și neproiectiv construcții care apar destul de des în limbi cu ordine liberă a cuvintelor.

Arborii componente sunt mai potriviti pentru descrierea limbilor într-o ordine rigidă a cuvintelor; reprezentarea lor a construcțiilor rupte și neproiective necesită o extindere a formalismului gramatical utilizat. Dar în cadrul acestei abordări, construcțiile cu relații nesubordonate sunt descrise mai firesc. În același timp, o dificultate comună pentru ambele abordări este prezentarea membrilor omogene ai propoziției.

Modelele sintactice în toate abordările încearcă să țină cont de restricțiile impuse conexiunii unităților de limbaj în vorbire, în timp ce într-un fel sau altul este folosit conceptul de valență. Valenţă- aceasta este capacitatea unui cuvânt sau a unei alte unități a unei limbi de a atașa alte unități într-un anumit mod sintactic; actant este un cuvânt sau o construcție sintactică care umple această valență. De exemplu, verbul rusesc predea are trei valențe principale, care pot fi exprimate prin următoarele cuvinte interogative: OMS? la care? ce?În cadrul abordării generative, valențele cuvintelor (în primul rând, verbele) sunt descrise în principal sub formă de cadre speciale ( subcategorizare rame) , iar în cadrul abordării arborelui de dependență, ca modele de management.

Modelele semanticii limbii sunt cele mai puțin dezvoltate în cadrul CL. Pentru analiza semantică a propozițiilor, așa-numitele gramatici de caz și cazuri semantice(valența), pe baza căreia semantica propoziției este descrisă ca prin legătura cuvântului principal (verbului) cu actanții săi semantici, adică prin cazuri semantice. De exemplu, verbul predea descrise de cazuri semantice dând(agent), destinatarși obiect de transfer.

Pentru a reprezenta semantica întregului text, se folosesc de obicei două formalisme echivalente din punct de vedere logic (ambele sunt descrise în detaliu în cadrul AI):

· Formule de calcul predicate care exprimă proprietăți, stări, procese, acțiuni și relații;

· Rețelele semantice sunt grafice etichetate în care vârfurile corespund conceptelor, iar vârfurile corespund relațiilor dintre ele.

În ceea ce privește modelele de pragmatică și discurs, care permit prelucrarea nu numai a propozițiilor individuale, ci și a textului în ansamblu, ideile lui Van Dyck sunt folosite în principal pentru a le construi. Unul dintre modelele rare și de succes este modelul de sinteză discursivă a textelor conectate. Astfel de modele ar trebui să ia în considerare referințele anaforice și alte fenomene la nivel de discurs.

Încheind caracterizarea modelelor lingvistice în cadrul CL, să ne oprim puțin mai mult pe teoria modelelor lingvistice „Textul semnificației” și în cadrul căreia au apărut multe idei fructuoase care au fost înaintea timpului lor și sunt încă relevante.

În conformitate cu această teorie, NL este considerată un tip special de convertor care realizează procesarea semnificațiilor date în texte corespunzătoare și textelor date în sensurile lor corespunzătoare. Sensul este înțeles ca invariant al tuturor transformărilor sinonime ale textului. Conținutul unui fragment de vorbire conectat fără împărțire în fraze și forme de cuvânt este afișat ca o reprezentare semantică specială constând din două componente: grafic semantic si informatii despre organizarea comunicativă a sensului.

Ca trăsături distinctive ale teoriei ar trebui indicate:

o orientarea spre sinteza de texte (capacitatea de a genera texte corecte este considerată ca principal criteriu de competență lingvistică);

o natura modulară, pe mai multe niveluri a modelului, iar nivelurile principale ale limbajului sunt împărțite în niveluri de suprafață și nivele profunde: diferă, de exemplu, adânc(semantizat) și suprafaţă sintaxa („pură”), precum și nivelurile morfologice de suprafață și morfologice profunde;

o natura integrală a modelului lingvistic; salvarea informațiilor prezentate la fiecare nivel de către modulul corespunzător efectuând trecerea de la acest nivel la următorul;

o mijloace speciale de descriere a sintacticilor (reguli de conectare a unităților) la fiecare nivel; pentru a descrie compatibilitatea lexicală a fost propus un set funcții lexicale, cu ajutorul cărora se formulează regulile parafrazării sintactice;

o accent pe vocabular mai degrabă decât pe gramatică; dicționarul stochează informații legate de diferite niveluri ale limbii; în special, pentru analiza sintactică, sunt folosite modele de management al cuvintelor care descriu valențele lor sintactice și semantice.

Această teorie și model de limbaj și-a găsit întruchiparea în sistemul de traducere automată ETAP.

4. Resurse lingvistice

Dezvoltarea procesoarelor lingvistice necesită o prezentare adecvată a informațiilor lingvistice despre NL prelucrată. Aceste informații sunt afișate într-o varietate de dicționare și gramatici de computer.

Dicționare sunt cea mai tradițională formă de reprezentare a informațiilor lexicale; ele diferă în unitățile lor (de obicei cuvinte sau expresii), structură, domeniul de aplicare a vocabularului (dicționare de termeni dintr-o anumită zonă problematică, dicționare de vocabular general etc.). Se numește unitatea de dicționar intrare în dicționar, oferă informații despre token. Omonimele lexicale sunt de obicei prezentate în diferite intrări din dicționar.

Dicționarele morfologice utilizate pentru analiza morfologică sunt cele mai frecvente în CL, intrarea lor din dicționar conține informații morfologice despre cuvântul corespunzător - parte de vorbire, clasă flexivă (pentru limbile flexionale), o listă de semnificații ale cuvintelor etc. În funcție de organizarea cuvântului. procesor lingvistic în dicționar pot fi adăugate și informații gramaticale, cum ar fi modele de control al cuvintelor.

Există dicționare care oferă mai multe informații despre cuvinte. De exemplu, modelul lingvistic „Sens-Text” se bazează în esență dicţionar explicativ-combinatorial, în intrarea din dicționar al căreia, pe lângă informațiile morfologice, sintactice și semantice (valențe sintactice și semantice), sunt prezentate informații despre compatibilitatea lexicală a acestui cuvânt.

Un număr de procesoare lingvistice folosesc dicționare de sinonime. Un tip relativ nou de dicționare - dicționare paronimale, adică cuvinte similare în exterior, care diferă ca înțeles, de exemplu, străinși străin, editareși referinţă .

Un alt tip de resurse lexicale - baze de fraze, în care sunt selectate cele mai tipice expresii dintr-o anumită limbă. O astfel de bază de fraze în limba rusă (aproximativ un milion de unități) este nucleul sistemului CrossLexic.

Tipuri mai complexe de resurse lexicale sunt tezaure și ontologii. Tezaurul este un dicționar semantic, adică un dicționar în care sunt prezentate relațiile semantice ale cuvintelor - sinonime, relații gen-specie (numite uneori relația de mai sus-dedesubt), parte-tot, asociații. Răspândirea tezaurilor este asociată cu soluționarea problemelor de regăsire a informațiilor.

Conceptul de ontologie este strâns legat de conceptul de tezaur. Ontologia este un ansamblu de concepte, entități dintr-un anumit domeniu de cunoaștere, axate pe utilizare multiplă pentru diverse sarcini. Ontologiile pot fi create pe baza vocabularului existent în limbă – în acest caz se numesc lingvisticși.

O astfel de ontologie lingvistică este considerată a fi sistemul WordNet - o resursă lexicală mare în care sunt adunate cuvintele limbii engleze: sunt prezentate substantive, adjective, verbe și adverbe, precum și conexiunile lor semantice de mai multe tipuri. Pentru fiecare dintre părțile de vorbire indicate, cuvintele sunt grupate în grupuri de sinonime ( synsets), între care se stabilesc relaţiile de antonimie, hiponimie (relaţia gen-specie), merimie (relaţie parte-întreg). Resursa conține aproximativ 25 de mii de cuvinte, numărul de niveluri ierarhice pentru relația gen-specie este în medie de 6-7, uneori ajungând la 15. Nivelul superior al ierarhiei formează o ontologie comună - un sistem de concepte de bază despre lume.

Conform schemei engleze WordNet, au fost construite resurse lexicale similare pentru alte limbi europene, unite sub numele comun EuroWordNet.

Un tip complet diferit de resurse lingvistice este Gramatică, al cărui tip depinde de modelul de sintaxă utilizat în procesor. În prima aproximare, gramatica este un set de reguli care exprimă proprietățile sintactice generale ale cuvintelor și ale grupurilor de cuvinte. Numărul total de reguli gramaticale depinde și de modelul de sintaxă, variind de la câteva zeci la câteva sute. În esență, o astfel de problemă se manifestă aici ca relația dintre gramatică și vocabular în modelul de limbă: cu cât sunt prezentate mai multe informații în dicționar, cu atât gramatica poate fi mai scurtă și invers.

De remarcat că construirea dicționarelor, tezaurilor și gramaticilor pe calculator este o lucrare voluminoasă și consumatoare de timp, uneori chiar mai consumatoare de timp decât dezvoltarea unui model lingvistic și a procesorului corespunzător. Prin urmare, una dintre sarcinile subordonate CL este automatizarea construcției resurselor lingvistice.

Dicționarele de calculator sunt adesea formate prin conversia dicționarelor de text obișnuite, dar de multe ori este nevoie de o muncă mult mai complexă și minuțioasă pentru a le construi. Acest lucru se întâmplă de obicei atunci când se construiesc dicționare și tezaure pentru domenii științifice în dezvoltare rapidă - biologie moleculară, informatică etc. Materialul sursă pentru extragerea informațiilor lingvistice necesare poate fi colecţii şi corpuri de texte.

Un corpus de texte este o colecție de texte culese după un anumit principiu de reprezentativitate (pe gen, paternitate etc.), în care toate textele sunt marcate, adică sunt prevăzute cu unele marcaje lingvistice (adnotări) - morfologice. , accent, sintactic etc. În prezent, există cel puțin o sută de corpuri diferite - pentru diferite NL și cu diferite marcaje, în Rusia cel mai faimos este Corpusul Național al Limbii Ruse.

Corpurile etichetate sunt create de lingviști și utilizate atât pentru cercetarea lingvistică, cât și pentru reglarea (antrenamentului) modelelor și procesoarelor utilizate în CL folosind metode matematice binecunoscute de învățare automată. Astfel, învățarea automată este utilizată pentru a stabili metode de rezolvare a ambiguității lexicale, recunoașterea părților de vorbire și rezolvarea referințelor anaforice.

Întrucât corpurile și colecțiile de texte sunt întotdeauna limitate în ceea ce privește fenomenele lingvistice reprezentate în ele (și corpurile, în plus, sunt create pentru o perioadă destul de lungă), în ultima perioadă textele de pe Internet sunt din ce în ce mai considerate ca o resursă lingvistică mai completă. Fără îndoială, Internetul este cea mai reprezentativă sursă de mostre de vorbire moderne, dar utilizarea sa ca corpus necesită dezvoltarea unor tehnologii speciale.

5. Aplicații de lingvistică computațională

Domeniul de aplicații al lingvisticii computaționale este în continuă expansiune, așa că vom caracteriza aici cele mai cunoscute probleme aplicate rezolvate de instrumentele sale.

Traducere automată- cea mai timpurie aplicare a CL, cu care a apărut și s-a dezvoltat această zonă în sine. Primele programe de traducere au fost construite în urmă cu peste 50 de ani și s-au bazat pe cea mai simplă strategie de traducere cuvânt cu cuvânt. Cu toate acestea, s-a realizat rapid că traducerea automată necesită un model lingvistic complet care să ia în considerare toate nivelurile limbii, până la semantică și pragmatică, ceea ce a împiedicat în mod repetat dezvoltarea acestei direcții. Un model destul de complet este utilizat în sistemul intern ETAP, care traduce texte științifice din franceză în rusă.

Rețineți, totuși, că, în cazul traducerii într-o limbă înrudită, de exemplu, atunci când traduceți din spaniolă în portugheză sau din rusă în ucraineană (care au multe în comun în sintaxă și morfologie), procesorul poate fi implementat pe baza unui proces simplificat. model, de exemplu, bazat pe aceeași strategie de traducere cuvânt cu cuvânt.

În prezent, există o întreagă gamă de sisteme de traducere computerizată (de o calitate variată), de la mari proiecte internaționale de cercetare până la traducători automati comerciali. De interes semnificativ sunt proiectele de traducere multilingvă, folosind o limbă intermediară în care este codificat sensul frazelor traduse. O altă direcție modernă este traducerea statistică, bazată pe statisticile traducerii cuvintelor și frazelor (aceste idei, de exemplu, sunt implementate în traducătorul motorului de căutare Google).

Dar, în ciuda multor decenii de dezvoltare a întregului domeniu, în general, sarcina traducerii automate este încă foarte departe de a fi rezolvată complet.

O altă aplicație destul de veche a lingvisticii computaționale este regăsirea informațiilorși sarcinile conexe de indexare, rezumare, clasificare și clasificare a documentelor.

Căutarea integrală a documentelor în baze de date mari de documente (în primul rând științifice, tehnice, de afaceri) se efectuează de obicei pe baza lor. caută imagini, care este înțeles ca un set Cuvinte cheie- cuvinte care reflectă subiectul principal al documentului. La început, numai cuvintele individuale ale SL au fost considerate cuvinte cheie, iar căutarea a fost efectuată fără a ține cont de flexiunea lor, ceea ce este necritic pentru limbile slab flexive, cum ar fi engleza. Pentru limbile flexionale, de exemplu, pentru rusă, a fost necesar să se utilizeze un model morfologic care să țină cont de flexiunea.

Cererea de căutare a fost prezentată și ca un set de cuvinte, s-au determinat documente adecvate (relevante) pe baza asemănării cererii și a imaginii de căutare a documentului. Crearea unei imagini de căutare a unui document implică indexarea textul său, adică evidențierea cuvintelor cheie din acesta. Deoarece de foarte multe ori subiectul și conținutul documentului sunt afișate mult mai precis nu prin cuvinte individuale, ci prin fraze, frazele au început să fie considerate cuvinte cheie. Acest lucru a complicat semnificativ procedura de indexare a documentelor, deoarece a fost necesar să se utilizeze diferite combinații de criterii statistice și lingvistice pentru a selecta fraze semnificative în text.

De fapt, regăsirea informațiilor folosește în principal model vectorial text(uneori numit sac de cuvinte- o pungă de cuvinte), în care documentul este reprezentat printr-un vector (set) al cuvintelor sale cheie. Motoarele de căutare moderne de pe Internet folosesc și ele acest model, indexând textele după cuvintele folosite în ele (în același timp, folosesc proceduri de clasare foarte sofisticate pentru a returna documentele relevante).

Modelul text specificat (cu unele complicații) este utilizat și în problemele conexe de regăsire a informațiilor considerate mai jos.

Rezumat text- reducerea volumului acestuia și obținerea rezumatului acestuia - abstract (conținut contractat), ceea ce face mai rapidă căutarea în colecții de documente. Un rezumat general poate fi întocmit și pentru mai multe documente legate de subiect.

Principala metodă de rezumare automată este încă selectarea celor mai semnificative propoziții ale textului rezumat, pentru care de obicei se calculează mai întâi cuvintele cheie ale textului și se calculează coeficientul de semnificație al propozițiilor textului. Alegerea propozițiilor cu sens este complicată de legăturile anaforice ale propozițiilor, a căror întrerupere este nedorită - pentru a rezolva această problemă, sunt dezvoltate anumite strategii de selectare a propozițiilor.

O sarcină aproape de referință - adnotare textul documentului, adică compilarea adnotării acestuia. În forma sa cea mai simplă, un rezumat este o listă a principalelor subiecte ale textului, pentru care se pot folosi proceduri de indexare pentru a evidenția.

Când se creează colecții mari de documente, sarcinile sunt relevante clasificareși gruparea texte pentru a crea clase de documente legate de subiect . Clasificarea înseamnă atribuirea fiecărui document la o anumită clasă cu parametri cunoscuți în prealabil, iar gruparea înseamnă împărțirea unui set de documente în grupuri, adică subseturi de documente legate tematic. Pentru a rezolva aceste probleme se folosesc metode de învățare automată și, prin urmare, aceste sarcini aplicate se numesc Text Mining și aparțin direcției științifice cunoscute sub numele de Data Mining, sau data mining.

Foarte aproape de problema de clasificare rubricant text - atribuirea acestuia la una dintre rubricile tematice cunoscute anterior (de obicei, titlurile formează un arbore ierarhic de subiecte).

Problema clasificării devine din ce în ce mai răspândită, se rezolvă, de exemplu, la recunoașterea spamului, iar o aplicație relativ nouă este clasificarea mesajelor SMS în dispozitivele mobile. O zonă nouă și relevantă de cercetare pentru sarcina generală de regăsire a informațiilor este căutarea documentelor multilingve.

O altă sarcină relativ nouă legată de regăsirea informațiilor este formarea răspunsurilor la întrebări(Răspuns la întrebare). Această sarcină este rezolvată prin determinarea tipului de întrebare, căutarea textelor care pot conține răspunsul la această întrebare și extragerea răspunsului din aceste texte.

O direcție aplicată complet diferită, care se dezvoltă, deși încet, dar constant, este automatizarea pregătirii și editării texte pe EY. Una dintre primele aplicații în această direcție au fost programele pentru detectarea automată a silabei cuvintelor și programele pentru verificarea ortografiei (ortografii sau corectoare automate). În ciuda aparentei simplități a problemei de silabe, soluția corectă a acesteia pentru multe NL-uri (de exemplu, engleză) necesită cunoașterea structurii morfemice a cuvintelor din limba corespunzătoare și, prin urmare, a dicționarului corespunzător.

Verificarea ortografică a fost de multă vreme implementată în sistemele comerciale și se bazează pe un model adecvat de vocabular și morfologie. Se folosește și un model de sintaxă incomplet, pe baza căruia sunt dezvăluite destul de frecvente toate erorile sintactice (de exemplu, erorile de acord de cuvinte). În același timp, detectarea erorilor mai complexe, de exemplu, utilizarea greșită a prepozițiilor, nu a fost încă implementată în autocorectore. De asemenea, multe erori lexicale nu sunt detectate, în special erori rezultate din greșeli de scriere sau folosire greșită a unor cuvinte similare (de exemplu, greutateîn loc de greu). În studiile moderne ale CL, sunt propuse metode pentru detectarea și corectarea automată a unor astfel de erori, precum și alte tipuri de erori stilistice. Aceste metode folosesc statistici privind apariția cuvintelor și expresiilor.

O sarcină aplicată apropiată de sprijinirea pregătirii textelor este predarea limbajului natural, în cadrul acestei direcții, sunt adesea dezvoltate sisteme informatice pentru predarea limbilor - engleză, rusă etc. (sisteme similare pot fi găsite pe Internet). De obicei, aceste sisteme sprijină studiul anumitor aspecte ale limbii (morfologie, vocabular, sintaxă) și se bazează pe modele adecvate, de exemplu, un model morfologic.

În ceea ce privește studiul vocabularului, analogii electronici ai dicționarelor de text sunt utilizați și pentru aceasta (în care, de fapt, nu există modele de limbaj). Cu toate acestea, sunt dezvoltate și dicționare de computer multifuncționale care nu au analogi de text și sunt destinate unei game largi de utilizatori - de exemplu, un dicționar de fraze rusești Crosslexic. Acest sistem acoperă o gamă largă de vocabular - cuvinte și combinațiile lor acceptabile de cuvinte și oferă, de asemenea, informații despre modele de gestionare a cuvintelor, sinonime, antonime și alte corelate semantice ale cuvintelor, ceea ce este în mod clar util nu numai pentru cei care studiază limba rusă, ci și pentru vorbitori nativi.

Următorul domeniu de aplicare care merită menționat este generare automată texte pe EY. În principiu, această sarcină poate fi considerată o subsarcină a sarcinii de traducere automată deja considerată mai sus, cu toate acestea, în cadrul direcției, există o serie de sarcini specifice. O astfel de sarcină este generarea multilingvă, adică construirea automată în mai multe limbi a documentelor speciale - formule de brevet, instrucțiuni de operare pentru produse tehnice sau sisteme software, pe baza specificațiilor lor într-un limbaj formal. Pentru a rezolva această problemă sunt folosite modele de limbaj destul de detaliate.

O sarcină aplicată din ce în ce mai relevantă, denumită adesea Text Mining, este extragerea informatiilor din texte, sau Extragerea informațiilor, care este necesară la rezolvarea problemelor de analiză economică și industrială. Pentru a face acest lucru, în testul NL sunt identificate anumite obiecte - entități denumite (nume, personalități, nume geografice), relațiile lor și evenimentele asociate acestora. De regulă, acest lucru este implementat pe baza unei analize parțiale a textului, permițând procesarea fluxurilor de știri de la agențiile de presă. Deoarece sarcina este destul de complexă nu numai teoretic, ci și tehnologic, crearea unor sisteme semnificative pentru extragerea informațiilor din texte este fezabilă în cadrul companiilor comerciale.

Direcția Text Mining include și alte două sarcini conexe - selecția opiniilor (Opinion Mining) și evaluarea tonalității textelor (Sentiment Analysis), atrăgând atenția unui număr tot mai mare de cercetători. Prima sarcină caută (în bloguri, forumuri, magazine online etc.) opiniile utilizatorilor despre produse și alte obiecte și analizează aceste opinii. A doua sarcină este apropiată de sarcina clasică de analiză a conținutului textelor de comunicare în masă, evaluând tonul general al afirmațiilor.

O altă aplicație demnă de menționat este − suport de dialog cu utilizatorul pe NL în cadrul oricărui sistem informatic software. Cel mai adesea, această problemă a fost rezolvată pentru bazele de date specializate - în acest caz, limbajul de interogare este destul de limitat (lexical și gramatical), ceea ce permite utilizarea modelelor de limbaj simplificate. Solicitările către bază, formulate în NL, sunt traduse într-un limbaj formal, după care se efectuează căutarea informațiilor necesare și se construiește fraza de răspuns corespunzătoare.

Ca ultimul din lista noastră de aplicații CL (dar nu ca importanță), indicăm recunoașterea și sinteza vorbirii. Erorile de recunoaștere care apar inevitabil în aceste sarcini sunt corectate prin metode automate bazate pe dicționare și cunoștințe lingvistice despre morfologie. În acest domeniu se va aplica și învățarea automată.

Concluzie

Lingvistica computațională demonstrează rezultate destul de tangibile în diverse aplicații pentru procesarea automată a textelor în NL. Dezvoltarea sa ulterioară depinde atât de apariția de noi aplicații, cât și de dezvoltarea independentă a diferitelor modele de limbaj, în care multe probleme nu au fost încă rezolvate. Cele mai dezvoltate sunt modelele de analiză și sinteză morfologică. Modelele de sintaxă nu au fost încă aduse la nivelul modulelor stabile și eficiente, în ciuda numărului mare de formalisme și metode propuse. Și mai puțin studiate și formalizate sunt modelele de nivel de semantică și pragmatică, deși prelucrarea automată a discursului este deja necesară într-o serie de aplicații. Rețineți că instrumentele deja existente ale lingvisticii computaționale în sine, utilizarea învățării automate și a corpurilor de text, pot avansa în mod semnificativ soluția acestor probleme.

Literatură

1. Baeza-Yates, R. și Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

2. Bateman, J., Zock M. Natural Language Generation. În: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p.304.

3. Biber, D., Conrad S. și Reppen D. Corpus Linguistics. Investigarea structurii și utilizării limbajului. Cambridge University Press, Cambridge, 1998.

4. Bolshakov, I. A., Gelbukh putational Linguistics. Modele, Resurse, Aplicații. Mexic, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical Machine Translation. // Lingvistică computațională, voi. 19(2): 263-3

6. Carroll J R. Parsing. În: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 233-248.

7. Chomsky, N. Structuri sintactice. Haga: Mouton, 1957.

8. Grishman R. Extragerea informațiilor. În: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 545-559.

9. Harabagiu, S., Moldovan D. Întrebare Răspuns. În: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 560-582.

10. Hearst, M. A. Descoperirea automată a relațiilor WordNet. În: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, p.131-151.

11. Hirst, G. Ontology and the Lexicon. În.: Manual de ontologii în sistemele de niformare. Berlin, Springer, 2003.

12. Jacquemin C., Bourigault D. Termen extraction and automatic indexing // Mitkov R. (ed.): Handbook of Computational Linguistics. Oxford University Press, 2003. p. 599-615.

13. Kilgarriff, A., G. Grefenstette. Introduction to the Special Issue on the Web as putational linguistics, V. 29, Nr. 3, 2003, p. 333-347.

14. Manning, cap. D., H. Schütze. Bazele procesării statistice a limbajului natural. MIT Press, 1999.

15. Matsumoto Y. Achiziția de cunoștințe lexicale. În: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 395-413.

16. The Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.

17. Oakes, M., Paice C. D. Term extraction for automatic abstracting. Progrese recente în terminologia computațională. D. Bourigault, C. Jacquemin și M. L „Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.

18. Pedersen, T. Un arbore de decizie al bigramelor este un predictor precis al sensurilor cuvintelor. Proc. A doua întâlnire anuală a NAC ACL, Pittsburgh, PA, 2001, p. 79-86.

19. Samuelsson C. Metode statistice. În: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 358-375.

20. Salton, G. Procesarea automată a textului: transformarea, analiza și recuperarea informațiilor prin computer. Reading, MA: Addison-Wesley, 1988.

21. Somers, H. Traducere automată: Ultimele evoluții. În: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 512-528.

22. Strzalkowski, T. (ed.) Natural Language Information Retrieval. Kluwer, 19p.

23. Woods W. A. ​​​​Gramatici de rețea de tranziție pentru analiza limbajului natural/Comunicații ale ACM, V. 13, 1970, nr. 10, p. 591-606.

24. Word Net: o bază de date lexicală electronică. /Christian Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic Colocation Suggestion in Academic Writing // Proceedings of the ACL 2010 Conference Short Papers, 2010.

26. şi altele.Suportul lingvistic al sistemului ETAP-2. Moscova: Nauka, 1989.

27. etc. Tehnologii de analiză a datelor: Data Mining, Visual Mining, Text Mining, OLAP - ed. a II-a. - Sankt Petersburg: BHV-Petersburg, 2008.

28. Bolshakov, Vocabular - un mare dicționar electronic de combinații și conexiuni semantice ale cuvintelor rusești. // Comp. lingvistică și inteligență. tehnologii: Proceedings of int. Conf. „Dialog 2009”. Ediție: RGGU, 2009, p. 45-50.

29. Bolshakova E. I., Bolshakov detection and automated corection of Russian malapropisms // NTI. Ser. 2, nr. 5, 2007, p. 27-40.

30. Wang, Kinch V. O strategie pentru înțelegerea unui text coerent.// Nou în lingvistica străină. Problema. XXIII– M., Progresul, 1988, p. 153-211.

31. Vasiliev V. G., Krivenko M. P. Metode de prelucrare automată a textului. – M.: IPI RAN, 2008.

32. Vinograd T. Un program care înțelege limbajul natural - M., lume, 1976.

33. Structura netedă a limbajului natural în sistemele automate de comunicare. - M., Nauka, 1985.

34. Gusev, V.D., Dicționarul de paronime Salomatina: versiunea 2. // NTI, Ser. 2, nr. 7, 2001, p. 26-33.

35. Zaharov - spațiul ca corpus lingvistic // Computational Linguistics and Intelligent Technologies: Proceedings of Int. Dialogul Conferinței ‘2005 / Ed. , - M .: Nauka, 2005, p. 166-171.

36. Kasevici al lingvisticii generale. - M., Nauka, 1977.

37. Leontief înțelegerea textelor: Sisteme, modele, resurse: Manual - M.: Academia, 2006.

38. Dicţionar Enciclopedic Lingvistic / Ed. V. N. Yartseva, Moscova: Enciclopedia Sovietică, 1990, 685 p.

39., Saliy pentru indexare și clasificare automată: dezvoltare, structură, întreținere. // NTI, Ser. 2, nr. 1, 1996.

40. Luger J. Inteligența artificială: strategii și metode de rezolvare a problemelor complexe. M., 2005.

41. McQueen K. Strategii discursive pentru sinteza textului în limbaj natural // Noutăţi în lingvistica străină. Problema. XXIV. M.: Progres, 1989, p. 311-356.

42. Teoria Melchuk a modelelor lingvistice „SEMENS „TEXT”. - M., Nauka, 1974.

43. Corpus Național al Limbii Ruse. http://*****

44. Khoroshevsky VF OntosMiner: o familie de sisteme pentru extragerea de informații din colecții multilingve de documente // A noua Conferință Națională privind Inteligența Artificială cu Participare Internațională KII-2004. T. 2. - M .: Fizmatlit, 2004, p. 573-581.

software de lingvistică statistică lingvistică

Istoria dezvoltării lingvisticii computaționale

Procesul de formare și formare a lingvisticii moderne ca știință a limbajului natural este o dezvoltare istorică îndelungată a cunoștințelor lingvistice. Cunoștințele lingvistice se bazează pe elemente, a căror formare a avut loc în procesul de activitate, indisolubil legate de dezvoltarea structurii vorbirii orale, apariția, dezvoltarea și îmbunătățirea ulterioară a scrisului, învățarea scrisului, precum și interpretarea. și decodificarea textelor.

Limbajul natural ca obiect al lingvisticii ocupă un loc central în această știință. În procesul dezvoltării limbajului, ideile despre acesta s-au schimbat și ele. Dacă mai devreme nu s-a acordat o importanță deosebită organizării interne a limbii și a fost considerată, în primul rând, în contextul relației sale cu lumea exterioară, atunci, începând cu sfârșitul secolului al XIX-lea - începutul secolului al XX-lea , un rol deosebit este atribuit structurii formale interne a limbii. În această perioadă, faimosul lingvist elvețian Ferdinand de Saussure a dezvoltat bazele unor științe precum semiologia și lingvistica structurală și au fost detaliate în cartea sa A Course in General Linguistics (1916).

Omul de știință deține ideea de a considera limba ca un mecanism unic, un sistem integral de semne, care, la rândul său, face posibilă descrierea limbajului matematic. Saussure a fost primul care a propus o abordare structurală a limbajului, și anume, descrierea unei limbi prin studierea relațiilor dintre unitățile sale. Prin unități, sau „semne”, el a înțeles un cuvânt care combină atât sensul, cât și sunetul. Conceptul propus de omul de știință elvețian se bazează pe teoria limbajului ca sistem de semne, alcătuit din trei părți: limba (din limba franceză), vorbirea (din limba franceză parole) și activitatea de vorbire (din limba franceză).

Omul de știință însuși a definit știința pe care a creat-o, semiologia, ca „o știință care studiază viața semnelor în cadrul vieții societății”. Întrucât limbajul este un sistem de semne, în căutarea unui răspuns la întrebarea ce loc ocupă lingvistica printre alte științe, Saussure a susținut că lingvistica face parte din semiologie. Este general acceptat că filologul elvețian a fost cel care a pus bazele teoretice ale unei noi direcții în lingvistică, devenind fondatorul, „părintele” lingvisticii moderne.

Conceptul prezentat de F. de Saussure a fost dezvoltat în continuare în lucrările multor oameni de știință remarcabili: în Danemarca - L. Elmslev, în Republica Cehă - N. Trubetskoy, în SUA - L. Bloomfield, Z. Harris, N. Chomsky. În ceea ce privește țara noastră, aici lingvistica structurală și-a început dezvoltarea cam în aceeași perioadă de timp ca și în Occident - la începutul secolelor XIX-XX. - în lucrările lui F. Fortunatov şi I. Baudouin de Courtenay. De remarcat că I. Baudouin de Courtenay a lucrat îndeaproape cu F. de Saussure. Dacă Saussure a pus bazele teoretice ale lingvisticii structurale, atunci Baudouin de Courtenay poate fi considerat persoana care a pus bazele aplicării practice a metodelor propuse de omul de știință elvețian. El a definit lingvistica ca o știință care folosește metode statistice și dependențe funcționale și a separat-o de filologie. Prima experiență de aplicare a metodelor matematice în lingvistică a fost fonologia - știința structurii sunetelor unei limbi.

De remarcat că postulatele propuse de F. de Saussure s-ar putea reflecta în problemele lingvisticii care erau relevante la mijlocul secolului al XX-lea. În această perioadă se conturează o tendință clară de matematizare a științei limbajului. Practic, în toate țările mari, începe dezvoltarea rapidă a științei și tehnologiei informatice care, la rândul lor, au necesitat din ce în ce mai multe baze lingvistice noi. Rezultatul tuturor acestor lucruri a fost convergența rapidă a exact și umaniste, precum și interacțiunea activă a matematicii și lingvisticii, care și-au găsit aplicație practică în rezolvarea problemelor științifice urgente.

În anii 1950, la intersecția unor științe precum matematica, lingvistica, informatica și inteligența artificială, a apărut o nouă direcție a științei - lingvistica computațională (cunoscută și sub numele de lingvistică mașină sau procesarea automată a textelor în limbaj natural). Principalele etape în dezvoltarea acestei direcții s-au desfășurat pe fundalul evoluției metodelor inteligenței artificiale. Un impuls puternic pentru dezvoltarea lingvisticii computaționale a fost crearea primelor computere. Cu toate acestea, odată cu apariția unei noi generații de calculatoare și limbaje de programare în anii 60, începe o etapă fundamental nouă în dezvoltarea acestei științe. De remarcat, de asemenea, că originile lingvisticii computaționale se întorc la lucrările celebrului lingvist american N. Chomsky în domeniul formalizării structurii limbajului. Rezultatele cercetării sale, obținute la intersecția dintre lingvistică și matematică, au stat la baza dezvoltării teoriei limbajelor formale și a gramaticilor (gramatici generative sau generative), care este utilizată pe scară largă pentru a descrie atât limbajele naturale, cât și cele artificiale, în special limbaje de programare. Pentru a fi mai precis, această teorie este destul de o disciplină matematică. Poate fi considerat unul dintre primii într-o astfel de direcție a lingvisticii aplicate precum lingvistica matematică.

Primele experimente și primele dezvoltări în lingvistica computațională se referă la crearea sistemelor de traducere automată, precum și a sistemelor care simulează abilitățile limbajului uman. La sfârșitul anilor 80, odată cu apariția și dezvoltarea activă a Internetului, a avut loc o creștere rapidă a volumului de informații text disponibile în formă electronică. Acest lucru a condus la faptul că tehnologiile de regăsire a informațiilor au trecut la o etapă calitativ nouă a dezvoltării lor. Era nevoie de procesarea automată a textelor în limbaj natural, au apărut sarcini și tehnologii complet noi. Oamenii de știință se confruntă cu o astfel de problemă precum procesarea rapidă a unui flux imens de date nestructurate. Pentru a găsi o soluție la această problemă, s-a acordat o mare importanță dezvoltării și aplicării metodelor statistice în domeniul procesării automate a textului. Cu ajutorul lor a devenit posibilă rezolvarea unor astfel de probleme precum împărțirea textelor în grupuri unite printr-o temă comună, evidențierea anumitor fragmente din text etc. În plus, utilizarea metodelor de statistică matematică și învățarea automată a făcut posibilă rezolvarea problemelor de recunoaștere a vorbirii și crearea de motoare de căutare.

Oamenii de știință nu s-au oprit la rezultatele obținute: au continuat să își stabilească noi scopuri și obiective, să dezvolte noi tehnici și metode de cercetare. Toate acestea au dus la faptul că lingvistica a început să acționeze ca o știință aplicată, combinând o serie de alte științe, rolul principal dintre care a aparținut matematicii cu varietatea ei de metode cantitative și capacitatea de a le folosi pentru o înțelegere mai profundă a fenomenelor. fiind studiată. Astfel a început formarea și dezvoltarea lingvisticii matematice. În acest moment, aceasta este o știință destul de „tânără” (există de aproximativ cincizeci de ani), cu toate acestea, în ciuda „vârstei sale foarte tinere”, este un domeniu deja consacrat al cunoștințelor științifice cu multe realizări de succes.

Termenul „lingvistică computațională” se referă de obicei la o arie largă de utilizare a instrumentelor informatice - programe, tehnologii informatice de organizare și prelucrare a datelor - pentru a modela funcționarea unei limbi în anumite condiții, situații, zone problematice, precum și domeniul de aplicare. a modelelor de limbaj informatic.numai la lingvistică, dar şi la disciplinele conexe. De fapt, doar în acest din urmă caz ​​vorbim de lingvistică aplicată în sens strict, întrucât modelarea limbajului informatic poate fi considerată și ca un domeniu de aplicare a teoriei programării (informatică) în domeniul lingvisticii. Cu toate acestea, practica generală este de așa natură încât domeniul lingvisticii computaționale acoperă aproape tot ce ține de utilizarea computerelor în lingvistică: „termenul de lingvistică computațională” stabilește o orientare generală către utilizarea computerelor pentru a rezolva o varietate de probleme științifice și practice. legate de limbaj, fără a limita în vreun fel modalitățile de rezolvare a acestor probleme.

Aspectul instituțional al lingvisticii computaționale. Ca direcție științifică specială, lingvistica computațională a luat contur în anii '60. Fluxul de publicații în acest domeniu este foarte mare. Pe lângă colecțiile tematice, revista Computational Linguistics este publicată trimestrial în SUA. O mare activitate organizatorică și științifică este realizată de Asociația pentru Lingvistică Computațională, care are structuri regionale în întreaga lume (în special, filiala europeană). La fiecare doi ani au loc conferințe internaționale de lingvistică computațională - KOLING. Problemele relevante sunt, de asemenea, reprezentate pe scară largă la conferințele internaționale despre inteligența artificială la diferite niveluri.

Setul de instrumente cognitive de lingvistică computațională

Lingvistica computațională ca disciplină aplicată specială se distinge în primul rând prin instrumentul său - adică prin utilizarea instrumentelor informatice pentru prelucrarea datelor lingvistice. Deoarece programele de calculator care modelează anumite aspecte ale funcționării unui limbaj pot folosi o varietate de instrumente de programare, se pare că nu este nevoie să vorbim despre un metalimbaj comun. Cu toate acestea, nu este. Există principii generale de modelare computerizată a gândirii, care sunt cumva implementate în orice model de computer. Acest limbaj se bazează pe teoria cunoașterii dezvoltată în inteligența artificială și formând o ramură importantă a științei cognitive.

Teza principală a teoriei cunoașterii afirmă că gândirea este un proces de procesare și generare de cunoștințe. „Cunoașterea” sau „cunoașterea” este considerată o categorie nedefinită. Sistemul cognitiv uman acționează ca un „procesor” care procesează cunoștințele. În epistemologie și știința cognitivă, se disting două tipuri principale de cunoștințe - declarative („a ști ce”) și procedurale („a ști cum”2)). Cunoașterea declarativă este de obicei prezentată ca un set de propoziții, afirmații despre ceva. Un exemplu tipic de cunoaștere declarativă este interpretarea cuvintelor din dicționare explicative obișnuite. De exemplu, o cană] - „un vas mic de băut rotunjit, de obicei cu mâner, din porțelan, faianță etc.”. Cunoașterea declarativă se pretează procedurii de verificare în termeni de „adevărat-fals”. Cunoștințele procedurale sunt prezentate ca o secvență (listă) de operații, acțiuni de efectuat. Acestea sunt niște instrucțiuni generale despre acțiunile într-o anumită situație. Un exemplu tipic de cunoștințe procedurale sunt instrucțiunile de utilizare a aparatelor de uz casnic.

Spre deosebire de cunoștințele declarative, cunoștințele procedurale nu pot fi verificate ca adevărate sau false. Ele pot fi evaluate doar prin succesul sau eșecul algoritmului.

Cele mai multe dintre conceptele setului de instrumente cognitive ale lingvisticii computaționale sunt omonime: ele desemnează simultan unele entități reale ale sistemului cognitiv uman și modalități de reprezentare a acestor entități în unele metalingaje. Cu alte cuvinte, elementele de metalimbaj au un aspect ontologic și instrumental. Ontologic, împărțirea cunoștințelor declarative și procedurale corespunde diferitelor tipuri de cunoștințe ale sistemului cognitiv uman. Deci, cunoștințele despre obiecte specifice, obiecte ale realității sunt în principal declarative, iar abilitățile funcționale ale unei persoane de a merge, alerga, conduce o mașină sunt realizate în sistemul cognitiv ca cunoștințe procedurale. Instrumental, cunoștințele (atât ontologic procedurale, cât și declarative) pot fi reprezentate ca un set de descrieri, descrieri și ca algoritm, o instrucțiune. Cu alte cuvinte, cunoștințele declarative ontologic despre obiectul „tabelului” realității pot fi reprezentate procedural ca un set de instrucțiuni, algoritmi de creare, asamblare (= aspectul creativ al cunoștințelor procedurale) sau ca algoritm de utilizare tipică (= funcțional). aspect al cunoștințelor procedurale). În primul caz, acesta poate fi un ghid pentru un tâmplar începător, iar în al doilea, o descriere a posibilităților unui birou de birou. Este adevărat și invers: cunoștințele ontologice procedurale pot fi reprezentate declarativ.

Este nevoie de o discuție separată dacă orice cunoaștere ontologic declarativă poate fi reprezentată ca procedurală și orice ontologic procedurală - ca declarativă. Cercetătorii sunt de acord că orice cunoaștere declarativă poate fi, în principiu, reprezentată procedural, deși acest lucru se poate dovedi a fi foarte neeconomic pentru un sistem cognitiv. Reversul este cu greu adevărat. Faptul este că cunoștințele declarative sunt mult mai explicite, este mai ușor de înțeles pentru o persoană decât cunoștințele procedurale. Spre deosebire de cunoștințele declarative, cunoștințele procedurale sunt predominant implicite. Deci, capacitatea de limbaj, fiind cunoștințe procedurale, este ascunsă unei persoane, nu este realizată de acesta. O încercare de a explica mecanismele de funcționare a limbajului duce la disfuncție. Specialiștii în domeniul semanticii lexicale știu, de exemplu, că introspecția semantică pe termen lung necesară studierii planului de conținut al cuvântului duce la faptul că cercetătorul își pierde parțial capacitatea de a distinge între utilizările corecte și incorecte ale cuvântului analizat. Alte exemple pot fi citate. Se știe că din punctul de vedere al mecanicii, corpul uman este un sistem complex de două pendule care interacționează.

În teoria cunoașterii, diferite structuri de cunoaștere sunt folosite pentru a studia și reprezenta cunoștințe - cadre, scenarii, planuri. Potrivit lui M. Minsky, „un cadru este o structură de date concepută pentru a reprezenta o situație stereotipată” [Minsky 1978, p.254]. Mai detaliat, putem spune că cadrul este o structură conceptuală pentru reprezentarea declarativă a cunoștințelor despre o situație tipificată unificată tematic, care conține sloturi interconectate prin anumite relații semantice. În scopuri ilustrative, un cadru este adesea reprezentat ca un tabel, ale cărui rânduri formează fante. Fiecare slot are propriul său nume și conținut (vezi Tabelul 1).

tabelul 1

Fragment din cadrul „tabelului” într-o vedere de tabel

În funcție de sarcina specifică, structurarea cadrului poate fi mult mai complexă; un cadru poate include subcadre imbricate și referințe la alte cadre.

În locul unui tabel, este adesea folosită o formă predicată de prezentare. În acest caz, cadrul este sub forma unui predicat sau a unei funcție cu argumente. Există și alte moduri de a reprezenta un cadru. De exemplu, poate fi reprezentat ca un tuplu de următoarea formă: ( (numele cadrului) (numele slotului)) (valoarea slotului,), ..., (numele slotului n) (valoarea slotului n) ).

De obicei, cadrele din limbajele de reprezentare a cunoștințelor au această formă.

Ca și alte categorii cognitive ale lingvisticii computaționale, conceptul de cadru este omonim. Ontologic, este o parte a sistemului cognitiv uman și, în acest sens, cadrul poate fi comparat cu concepte precum gestalt, prototip, stereotip, schemă. În psihologia cognitivă, aceste categorii sunt considerate tocmai din punct de vedere ontologic. Astfel, D. Norman distinge două moduri principale de existență și organizare a cunoașterii în sistemul cognitiv uman – rețelele și schemele semantice. „Schemele”, scrie el, „sunt pachete organizate de cunoștințe asamblate pentru a reprezenta unități de cunoaștere distincte, autonome. Schema mea pentru Sam poate conține informații care descriu trăsăturile sale fizice, activitățile și trăsăturile de personalitate. Această schemă se corelează cu alte scheme. care descriu celelalte aspecte ale sale” [Norman 1998, p. 359]. Dacă luăm latura instrumentală a categoriei cadru, atunci aceasta este o structură pentru reprezentarea declarativă a cunoștințelor. În sistemele actuale de IA, cadrele pot forma structuri complexe de cunoștințe; sistemele de cadru permit ierarhie - un cadru poate face parte dintr-un alt cadru.

Din punct de vedere al conținutului, conceptul de cadru este foarte apropiat de categoria interpretării. Într-adevăr, un slot este un analog al valenței, umplerea unui slot este un analog al unui actant. Principala diferență dintre ele este că interpretarea conține doar informații relevante din punct de vedere lingvistic despre planul conținutului cuvântului, iar cadrul, în primul rând, nu este neapărat legat de cuvânt și, în al doilea rând, include toate informațiile relevante pentru problema dată. situație, inclusiv extralingvistică (cunoașterea lumii) 3).

Un scenariu este un cadru conceptual pentru reprezentarea procedurală a cunoștințelor despre o situație sau un comportament stereotip. Elementele de script sunt pașii unui algoritm sau instrucțiuni. Oamenii vorbesc de obicei despre „scenariu de restaurant”, „scenariu de cumpărare” și așa mai departe.

Cadrul a fost folosit inițial și pentru prezentarea procedurală (cf. termenul „cadru procedural”), dar termenul „scenariu” este acum mai des folosit în acest sens. Un scenariu poate fi reprezentat nu numai ca un algoritm, ci și ca o rețea, ale cărei vârfuri corespund unor situații, iar arcurile corespund conexiunilor dintre situații. Alături de conceptul de script, unii cercetători folosesc categoria unui script pentru modelarea computerizată a inteligenței. Potrivit lui R. Schenk, un scenariu este o secvență general acceptată, bine-cunoscută de relații cauzale. De exemplu, înțelegerea dialogului

Pe stradă se toarnă ca o găleată.

Mai trebuie să mergi la magazin: nu e nimic în casă - ieri oaspeții au măturat totul.

se bazează pe conexiuni semantice non-explicite precum „dacă plouă, nu este de dorit să ieși afară, pentru că te poți îmbolnăvi”. Aceste conexiuni formează un script, care este folosit de vorbitorii nativi pentru a înțelege reciproc comportamentul verbal și non-verbal al celuilalt.

Ca rezultat al aplicării scenariului la o situație problemă specifică, a plan). Un plan este utilizat pentru a reprezenta procedural cunoștințele despre posibilele acțiuni care conduc la un obiectiv specific. Un plan leagă un scop cu o secvență de acțiuni.

În cazul general, planul include o succesiune de proceduri care transferă starea inițială a sistemului în cea finală și conduc la atingerea unui anumit subscop ​​și scop. În sistemele AI, planul apare ca urmare a activității de planificare sau planificare a modulului corespunzător - modulul de planificare. Procesul de planificare se poate baza pe adaptarea datelor dintr-unul sau mai multe scenarii, activate prin proceduri de testare, pentru a rezolva o situație problematică. Execuția planului este realizată de un modul executiv care controlează procedurile cognitive și acțiunile fizice ale sistemului. În cazul elementar, un plan într-un sistem inteligent este o simplă succesiune de operații; în versiunile mai complexe, planul este asociat cu un subiect specific, resursele, capacitățile, obiectivele acestuia, cu informații detaliate despre situația problemă etc. Apariția planului are loc în procesul de comunicare între modelul lumii, o parte din care este format din scenarii, modulul de planificare și modulul executiv.

Spre deosebire de un scenariu, un plan este asociat cu o situație specifică, un anumit interpret și urmărește un obiectiv specific. Alegerea planului este guvernată de resursele contractantului. Fezabilitatea unui plan este o condiție obligatorie pentru generarea acestuia într-un sistem cognitiv, iar caracteristica de fezabilitate este inaplicabilă unui scenariu.

Un alt concept important este modelul lumii. Modelul lumii este de obicei înțeles ca un set de cunoștințe despre lume organizat într-un anumit mod, inerent unui sistem cognitiv sau modelului său computerizat. Într-un sens ceva mai general, despre modelul lumii se vorbește ca parte a unui sistem cognitiv care stochează cunoștințe despre structura lumii, tiparele acesteia etc. În alt sens, modelul lumii este asociat cu rezultatele. de înțelegere a textului sau, mai larg, a discursului. În procesul de înțelegere a discursului se construiește modelul mental al acestuia, care este rezultatul interacțiunii dintre planul conținutului textului și cunoștințele despre lume inerente acestui subiect [Johnson-Laird 1988, p. 237 și secv.]. Prima și a doua înțelegere sunt adesea combinate. Acest lucru este tipic pentru cercetătorii lingvistici care lucrează în lingvistica cognitivă și știința cognitivă.

Strâns legat de categoria cadru este conceptul de scenă. Categoria scenei este folosită în principal în literatură ca desemnare a unei structuri conceptuale pentru reprezentarea declarativă a situațiilor și părților acestora actualizate într-un act de vorbire și evidențiate prin mijloace lingvistice (lexeme, construcții sintactice, categorii gramaticale etc.). Fiind asociată cu forme lingvistice, scena este adesea actualizată de un anumit cuvânt sau expresie. În gramaticile intrigilor (vezi mai jos), o scenă apare ca parte a unui episod sau a unei narațiuni. Exemple caracteristice de scene sunt un set de cuburi cu care funcționează sistemul AI, scena de acțiune din poveste și participanții la acțiune etc. În inteligența artificială, scenele sunt folosite în sistemele de recunoaștere a imaginilor, precum și în programele axate pe studiul (analiza, descrierea) situațiilor problematice. Conceptul de scenă a devenit larg răspândit în lingvistica teoretică, precum și în logică, în special în semantica situațională, în care sensul unei unități lexicale este direct asociat cu scena.

Lingvistica computațională s-a epuizat practic astăzi. Acest lucru este indicat direct de experiența nereușită a cercetătorilor și dezvoltatorilor de produse informaționale „intelectuale”, care lucrează de mai bine de jumătate de secol la crearea unor programe atât de ambițioase, cum ar fi, de exemplu, traducerea automată adecvată sau căutarea semantică a informațiilor în rețele de documente în limbaj natural.

Viitorul prelucrării automate a textelor în limbaj natural se vede, desigur, în crearea și dezvoltarea tehnologiilor supralingvistice capabile să analizeze conținutul informației la nivelul înțelegerii semantice a contextului, așa cum poate face o persoană. Cu toate acestea, crearea de „mașini de gândire” (Thinking Machine) pentru o lungă perioadă de timp a fost împiedicată de doi factori principali - lipsa metodologiei necesare și a instrumentelor adecvate pentru rezolvarea a două probleme fundamentale - aceasta este găsirea unei „formule a sensului” și construirea. un „model de cunoaștere despre univers” într-o formă formalizată accesibilă computerului, fără de care, de fapt, este imposibil să se repete natura gândirii umane la nivel de program.

Lingviștii, împreună cu cibernetica, nu au reușit să depășească aceste probleme, deoarece aceasta din urmă se află deja în afara granițelor specializării lor în materie, ceea ce, de fapt, a încetinit semnificativ dezvoltarea unor domenii aplicate atât de mult solicitate de prelucrare a textului, cum ar fi precum crearea unor sisteme de dialog „inteligente”.sau „motoare de căutare semantice pe Internet”. Și aceeași traducere automată mai lasă mult de dorit.

Experiența dezvoltării progresului științific și tehnologic sugerează că rezultatul inovator dorit se obține în cele din urmă, de regulă, la intersecția diferitelor domenii tehnologice și discipline. Aparent, problema „gândirii la mașină” va fi rezolvată exact atunci când înțelegem exact cum funcționează conștiința noastră naturală în planul procedural și când putem afla în mod fiabil dacă aceste proceduri de gândire, arătate nouă în cantitate necesară și suficientă, vor algoritmizarea finală pe computer.

De remarcat că în ultimii ani a început să se dezvolte o nouă disciplină științifică („smartbuter”), care se ocupă exact de faptul că studiază natura procedurală a activității mentale umane. Putem spune că în acest moment avem o descoperire semnificativă în această direcție și înțelegem deja destul de clar cum funcționează algoritmul gândirii umane. Dacă vorbim despre acest lucru în general, atunci, în primul rând, trebuie remarcat faptul că o persoană nu gândește în imagini, așa cum se crede de obicei, ci în „modele de comportament de imagine” (IGO). În al doilea rând, gândim „ontologic”, adică ne punem în permanență întrebări, chiar și fără să le observăm noi înșine, și căutăm permanent răspunsuri la ele (tot automat). În cele din urmă, o înțelegere semnificativă a tot ceea ce se întâmplă în jurul individului sau în mintea lui în timpul oricărei contemplații este realizată tocmai cu ajutorul unei anumite „reprezentări model” a universului înconjurător. Acest lucru se întâmplă prin compararea acelor MPO pe care le primește pe o bază operațională cu ideile despre Univers stocate în memoria umană pe termen lung. Exact, aceste trei balene principale alcătuiesc întreaga tehnologie a gândirii naturale, care acum rămâne doar să fie pur și simplu transferată într-un limbaj ușor de înțeles pentru programatori și să obțină rezultatul mult așteptat.

Când oamenii înțeleg orice mesaj în limbaj natural, practic nu stabilesc niciodată o corespondență instantanee a judecății declarate cu conceptele și modelele de comportament ale imaginilor stocate în memoria lor. De fiecare dată, ei dau MPO-urilor primite (percepute) prima corespondență asociativ-euristică care le apare în mintea lor, pe baza specificului experienței și cunoștințelor lor și abia apoi, în cursul regândirii ulterioare a textului, încep sa clarifice si sa concretizeze informatiile primite. Lingvistica computațională, pe de altă parte, urmărește să stabilească corespondențe exacte între semnificațiile cuvintelor, precum și relațiile lor reciproce, încercând să depășească problema ambiguității instrumentelor verbale inerente oricărei limbi, care, de fapt, este foarte diferită. din modul în care funcționează gândirea noastră. La urma urmei, o persoană atinge înțelegerea vorbirii sau a textului deloc datorită cunoașterii încărcăturilor morfologice ale cuvintelor sau stabilirii unor legături sintactice între cuvinte și nici măcar pentru că a recunoscut semnificațiile specifice (semanta) cuvintelor, ci exact. datorită ipotezelor asociative inițiale și a „defilării iterative” ulterioare”.a întregului context” pentru a realiza tabloul final al corespondenței informațiilor percepute cu conținutul ei intern.