Lingvistică mașină. Istoria, dezvoltarea și formarea lingvisticii computaționale ca direcție științifică

Filologie liceu Economie, se lansează un nou program de master dedicat lingvisticii computaționale: primește solicitanții cu o educație de bază umanitară și matematică și pe oricine este interesat de rezolvarea problemelor într-una dintre cele mai promițătoare ramuri ale științei. Liderul său, Anastasia Bonch-Osmolovskaya, a spus Teorie și practică ce este lingvistica computațională, de ce roboții nu vor înlocui oamenii și ce vor preda ei în master HSEîn Lingvistică Computațională.

Acest program este aproape singurul de acest gen din Rusia. Unde te-ai studiat singur?

Am studiat la Universitatea de Stat din Moscova la Departamentul de Lingvistică Teoretică și Aplicată Facultatea de Filologie. Nu am ajuns imediat, la început am intrat ramura ruseasca, dar apoi m-a interesat serios de lingvistică și m-a atras atmosfera care rămâne la catedră până astăzi. Cel mai important lucru este contactul bun între profesori și elevi și interesul lor reciproc.

Când aveam copii și trebuia să-mi câștig existența, am intrat în domeniul lingvisticii comerciale. În 2005, nu era foarte clar care este acest domeniu de activitate ca atare. Am lucrat în diverse companii lingvistice: am început cu o companie mică pe site-ul Public.ru - aceasta este o astfel de bibliotecă de media, unde am început să mă ocup de tehnologiile lingvistice. Apoi am lucrat un an la Rosnanotech, unde mi-a venit ideea să fac un portal analitic pentru ca datele de pe el să fie structurate automat. Apoi am condus departamentul lingvistic la firma Avicomp - aceasta este deja o producție serioasă în domeniu lingvistică computaționalăși tehnologiile semantice. În același timp, am predat un curs de lingvistică computațională la Universitatea de Stat din Moscova și am încercat să-l modernizez.

Două resurse pentru un lingvist: - un site creat de lingviști pentru cercetări științifice și aplicate legate de limba rusă. Acesta este un model al limbii ruse, prezentat cu ajutorul unei game uriașe de texte din diferite genuri și perioade. Textele sunt prevăzute cu marcaj lingvistic, care poate fi folosit pentru a obține informații despre frecvența anumitor fenomene lingvistice. Wordnet - o bază de date lexicală uriașă în limba engleză, Ideea principală Wordnet - pentru a conecta nu cuvintele, ci semnificațiile lor într-o singură rețea mare. Wordnet poate fi descărcat și utilizat pentru propriile proiecte.

Ce face lingvistica computațională?

Acesta este cel mai interdisciplinar domeniu. Cel mai important lucru aici este să înțelegeți ce se întâmplă în lumea electronică și cine vă va ajuta să faceți lucruri specifice.

Suntem inconjurati de un numar mare de informații digitale, există multe proiecte de afaceri al căror succes depinde de prelucrarea informațiilor, aceste proiecte pot fi legate de marketing, politică, economie și orice altceva. Și este foarte important să poți gestiona eficient aceste informații - principalul lucru nu este doar viteza de procesare a informațiilor, ci și ușurința cu care poți, după ce ai filtrat zgomotul, să obții datele de care ai nevoie și să creezi un poza intreaga de la ei.

Anterior, unele idei globale erau asociate cu lingvistica computațională, de exemplu: oamenii credeau că traducerea automată va înlocui traducerea umană, roboții ar funcționa în loc de oameni. Dar acum pare o utopie, iar traducerea automată este folosită de motoarele de căutare pentru a căuta rapid într-o limbă necunoscută. Adică, acum lingvistica se ocupă rar de sarcini abstracte - mai ales niște lucruri mici care pot fi inserate într-un produs mare și pot face bani din el.

Unul dintre sarcini mari lingvistică modernă - rețeaua semantică, când căutarea are loc nu doar prin coincidența cuvintelor, ci prin sens, iar toate site-urile sunt cumva marcate de semantică. Acest lucru poate fi util, de exemplu, pentru rapoartele de poliție sau medicale care sunt scrise în fiecare zi. Analiza conexiunilor interne oferă o mulțime de informații necesare și este incredibil de lung să le citești și să le calculezi manual.

Pe scurt, avem o mie de texte, trebuie să le sortăm în grămezi, să prezentăm fiecare text ca o structură și să obținem un tabel cu care să putem lucra deja. Aceasta se numește procesare nestructurată a informațiilor. Pe de altă parte, lingvistica computațională se ocupă, de exemplu, de crearea de texte artificiale. Există o companie care a venit cu un mecanism pentru generarea de texte pe subiecte despre care o persoană să scrie plictisitoare: modificări ale prețurilor imobiliare, prognoza meteo, raport despre meciuri de fotbal. Este mult mai costisitor să comanzi aceste texte pentru o persoană, în plus, textele computerizate pe astfel de subiecte sunt scrise într-un limbaj uman coerent.

Evoluții în domeniul căutării de informații nestructurate în Rusia sunt implicate activ în angajări „Yandex”, „Kaspersky Lab” grupuri de cercetare care studiază învățare automată. Încearcă cineva din piață să vină cu ceva nou în domeniul lingvisticii computaționale?

** Cărți despre lingvistică computațională:**

Daniel Jurafsky, Procesarea vorbirii și a limbajului

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Introducere în regăsirea informațiilor

Jacob Testelec, „Introducere în sintaxa generală”

Majoritatea dezvoltărilor lingvistice sunt proprietatea marilor companii, aproape nimic nu se găsește acces deschis. Acest lucru împiedică dezvoltarea industriei, nu avem o piață lingvistică liberă, soluții în cutie.

În plus, există o lipsă de complet resurse informaționale. Există un proiect precum Corpusul Național al Limbii Ruse. Acesta este unul dintre cele mai bune corpusuri naționale din lume, care se dezvoltă rapid și deschide oportunități incredibile pentru științifice și cercetare aplicată. Diferența este aproximativ aceeași ca și în biologie - înainte și după cercetarea ADN-ului.

Dar multe resurse nu există în rusă. Deci, nu există un analog cu o astfel de resursă minunată în limba engleză precum Framenet - aceasta este o astfel de rețea conceptuală, în care sunt prezentate în mod formal toate conexiunile posibile ale unui anumit cuvânt cu alte cuvinte. De exemplu, există cuvântul „zboară” - cine poate zbura, unde, cu ce pretext este folosit acest cuvânt, cu ce cuvinte este combinat și așa mai departe. Această resursă ajută la conectarea limbii cu viata reala, adică să urmărească modul în care un anumit cuvânt se comportă la nivel de morfologie și sintaxă. E foarte folositor.

Avicomp dezvoltă în prezent un plug-in pentru a căuta articole similare. Adică, dacă sunteți interesat de un articol, puteți vedea rapid istoria intrigii: când a apărut subiectul, ce a fost scris și când a fost vârful interesului pentru această problemă. De exemplu, folosind acest plugin, va fi posibil, pornind de la un articol despre evenimentele din Siria, să vedem foarte repede cum anul trecut evenimentele s-au derulat acolo.

Cum va fi structurat procesul de învățare din programul de master?

Educația la HSE este organizată în module separate - ca în universități occidentale. Elevii vor fi împărțiți în echipe mici, mini-startup-uri - adică la final ar trebui să obținem mai multe proiecte finalizate. Vrem să obținem produse reale, pe care apoi să le deschidem oamenilor și să le lăsăm în domeniul public.

Pe lângă supraveghetorii direcți ai proiectelor studenților, dorim să găsim curatori pentru aceștia dintre ei potențiali angajatori- de la același „Yandex”, de exemplu, care va juca și el acest joc și va oferi elevilor câteva sfaturi.

Sper că oamenii din cele mai multe zone diferite: programatori, lingvisti, sociologi, marketeri. Vom avea mai multe cursuri de adaptare la lingvistică, matematică și programare. Apoi vom avea două cursuri serioase de lingvistică și vor fi conectate cu cele mai relevante teorii lingvistice, ne dorim ca absolvenții noștri să poată citi și înțelege articolele lingvistice contemporane. La fel este și cu matematica. Vom avea un curs numit „Fundamentele matematice ale lingvisticii computaționale”, care va prezenta acele secțiuni de matematică pe care se bazează lingvistica computațională modernă.

Pentru a vă înscrie într-un program de master, trebuie să promovați examen de admitereîn limbă și promovează un concurs de portofoliu.

Pe lângă cursurile principale, va exista o linie de discipline opționale.Am planificat mai multe cicluri - două dintre ele sunt axate pe un studiu mai profund al subiectelor individuale, care includ, de exemplu, traducerea automată și lingvistica corpus, și, pe dimpotrivă, una este legată de domenii conexe: precum , rețelele sociale, învățarea automată sau Digital Humanities - un curs care sperăm să fie susținut în limba engleză.

Lingvistii informatici sunt angajați în dezvoltarea algoritmilor de recunoaștere a textului și a vorbirii, în sinteza vorbirii artificiale, în crearea sistemelor de traducere semantică și în însăși dezvoltarea inteligenței artificiale (în sensul clasic al cuvântului, ca înlocuitor al inteligenței umane, este este puțin probabil să apară vreodată, dar diverse sisteme expert bazate pe analiza datelor).

Algoritmii de recunoaștere a vorbirii vor fi folosiți din ce în ce mai mult în viața de zi cu zi - casele inteligente și dispozitivele electronice nu vor avea telecomenzi și butoane, dar în schimb va fi folosită o interfață vocală. Această tehnologie este în curs de perfecționare, dar există încă multe provocări: este dificil pentru un computer să recunoască vorbirea umană, deoarece diferiți oameni vorbesc foarte diferit. Prin urmare, de regulă, sistemele de recunoaștere funcționează bine fie atunci când sunt antrenate pentru un vorbitor și sunt deja adaptate la caracteristicile sale de pronunție, fie când numărul de fraze pe care sistemul le poate recunoaște este limitat (ca, de exemplu, în comenzile vocale pentru TV ).

Specialiștii în crearea de programe de traducere semantică mai au mult de lucru în față: acest moment algoritmii buni sunt dezvoltați numai pentru traducere în și din engleză. Există multe probleme aici - diferitele limbi sunt aranjate diferit într-un plan semantic, acest lucru diferă chiar și la nivelul construcției frazei și nu toate semnificațiile unei limbi pot fi transmise folosind aparatul semantic al alteia. În plus, programul trebuie să facă distincția între omonime, să recunoască corect părțile de vorbire, să selecteze valoarea corecta cuvânt polisemantic adecvat contextului.

Sintetiza vorbirii artificiale (de exemplu, pentru roboții de acasă) este, de asemenea, o muncă minuțioasă. Este dificil să faci ca vorbirea creată artificial să sune natural urechea umană, pentru că sunt milioane de nuanțe cărora nu le dăm atenție, dar fără de care totul nu mai este „aia” - starturi false, pauze, șocuri etc. Fluxul de vorbire este continuu și în același timp discret: vorbim fără pauză între cuvinte, dar nu ne este greu să înțelegem unde se termină un cuvânt și unde începe altul, iar pentru o mașină aceasta va fi o mare problemă.

Cea mai mare direcție în lingvistica computațională este legată de Big Data. La urma urmei, există corpuri uriașe de texte, cum ar fi fluxurile de știri, de care trebuie să izolați anumite informații - de exemplu, să evidențiați evenimente demne de știri sau să clarificați RSS la gusturile unui anumit utilizator. Astfel de tehnologii există deja și vor continua să se dezvolte, deoarece puterea de calcul crește rapid. Analiza lingvistică a textelor este folosită și pentru a asigura securitatea pe Internet, căutarea informatie necesara pentru servicii speciale.

Unde să studiezi ca lingvist computațional? Noi, din păcate, avem o divizare destul de puternică între specialitățile legate de lingvistica clasică și programare, statistică și analiza datelor. Și pentru a deveni un lingvist digital, trebuie să le înțelegeți pe amândouă. LA universități străine există programe de învățământ superior în lingvistică computațională, dar mai avem cea mai buna varianta- obțineți o educație lingvistică de bază, apoi stăpâniți elementele de bază ale IT. E bine că acum există multe cursuri online diferite, din păcate, pe vremea studenției mele, nu era așa. Am studiat la Facultatea de Lingvistică Aplicată de la Universitatea Lingvistică de Stat din Moscova, unde am avut cursuri de inteligență artificială și recunoaștere a vorbirii – dar încă nu sunt suficiente. Acum companiile IT încearcă în mod activ să interacționeze cu instituțiile. Eu și colegii mei de la Kaspersky Lab încercăm să participăm proces educațional: ținem prelegeri, ținem conferințe studențești, acordăm burse studenților absolvenți. Dar deocamdată inițiativa vine mai mult de la angajatori decât de la universități.

LUCRARE DE CURS

la disciplina "Informatica"

pe tema: „Linguistică computerizată”

INTRODUCERE

2. Interfeţe moderne ale lingvisticii computaţionale

CONCLUZIE

LITERATURĂ

Introducere

Tehnologiile informaționale automatizate joacă un rol important în viața societății moderne. Odată cu trecerea timpului, valoarea lor crește continuu. Dar dezvoltarea tehnologiei informaţiei este foarte neuniformă: dacă nivel modern tehnologia informatică și mijloacele de comunicare lovesc imaginația, apoi în domeniul prelucrării informației semantice, succesele sunt mult mai modeste. Aceste succese depind, în primul rând, de realizările în studiul proceselor gândirii umane, a proceselor de comunicare a vorbirii între oameni și de capacitatea de a simula aceste procese pe un computer.

Când vine vorba de crearea tehnologiilor informaționale promițătoare, problemele procesării automate informații text prezentate în limbi naturale ies în prim-plan. Acest lucru este determinat de faptul că gândirea unei persoane este strâns legată de limbajul său. Mai mult, limbajul natural este un instrument de gândire. El este de asemenea remediu universal comunicarea între oameni - un mijloc de percepție, acumulare, stocare, procesare și transmitere a informațiilor. Problemele utilizării limbajului natural în sistemele automate de procesare a informațiilor sunt tratate de știința lingvisticii computaționale. Această știință a apărut relativ recent - la începutul anilor cincizeci și șaizeci ai secolului trecut. În ultima jumătate de secol s-au obținut rezultate științifice și practice semnificative în domeniul lingvisticii computaționale: sisteme traducere automată texte dintr-o limbă naturală în alta, sisteme de căutare automată a informațiilor în texte, sisteme de analiză și sinteză automată a vorbirii orale și multe altele. acest lucru este dedicat construcției unei interfețe optime de calculator folosind lingvistica computațională atunci când conduce cercetare lingvistică.

1. Locul și rolul lingvisticii computaționale în cercetarea lingvistică

LA lumea modernă Lingvistica computațională este din ce în ce mai utilizată în diverse studii lingvistice.

Lingvistica computațională este un domeniu de cunoaștere legat de rezolvarea problemelor de prelucrare automată a informațiilor prezentate în limbajul natural. Central probleme științifice lingvistica computațională reprezintă problema modelării procesului de înțelegere a sensului textelor (tranziția de la text la o reprezentare formalizată a sensului acestuia) și problema sintezei vorbirii (tranziția de la o reprezentare formalizată a sensului la textele în limbaj natural). Aceste probleme apar la rezolvarea unui număr de probleme aplicate și, în special, a problemelor de detectare automată și corectare a erorilor la introducerea textelor într-un computer, analiza și sinteza automată a vorbirii orale, traducerea automată a textelor dintr-o limbă în alta, comunicarea cu un computer într-un limbaj natural, clasificarea și indexarea automată a documentelor text, referirea automată a acestora, căutarea documentelor în baze de date full-text.

Instrumentele lingvistice create și utilizate în lingvistica computațională pot fi împărțite condiționat în două părți: declarative și procedurale. Partea declarativă include dicționare de limbă și unități de vorbire, texte și diverse tipuri de tabele gramaticale, în timp ce partea procedurală include mijloace de manipulare a limbajului și unităților de vorbire, texte și tabele gramaticale. Interfața computerului se referă la partea procedurală a lingvisticii computaționale.

Succesul în rezolvarea problemelor aplicate de lingvistică computațională depinde, în primul rând, de completitudinea și acuratețea reprezentării mijloacelor declarative în memoria computerului și de calitatea mijloacelor procedurale. Până în prezent, nivelul necesar de rezolvare a acestor probleme nu a fost încă atins, deși lucrări în domeniul lingvisticii computaționale se desfășoară în toate țările dezvoltate lumii (Rusia, SUA, Anglia, Franța, Germania, Japonia etc.).

Cu toate acestea, pot fi remarcate realizări științifice și practice serioase în domeniul lingvisticii computaționale. Astfel, într-un număr de țări (Rusia, SUA, Japonia etc.) au fost construite sisteme experimentale și industriale pentru traducerea automată a textelor dintr-o limbă în alta, au fost construite o serie de sisteme experimentale de comunicare cu computerele în limbaj natural. , se lucrează la crearea unor bănci de date terminologice, tezaure, dicționare automate bilingve și multilingve (Rusia, SUA, Germania, Franța etc.), se construiesc sisteme de analiză și sinteză automată a vorbirii orale (Rusia, SUA, Japonia etc.). .), cercetările sunt în desfășurare în domeniul construirii modelelor de limbaje naturale.

O problemă metodologică importantă a lingvisticii computaționale aplicate este evaluarea corectă a corelației necesare între componentele declarative și procedurale ale sistemelor automate de procesare a informațiilor de text. Ce ar trebui să fie preferat: proceduri de calcul puternice bazate pe sisteme de vocabular relativ mici, cu informații gramaticale și semantice bogate, sau o componentă declarativă puternică cu interfețe de calculator relativ simple? Majoritatea oamenilor de știință cred că a doua cale este de preferat. Va duce la atingerea mai rapidă a obiectivelor practice, deoarece în acest caz vor fi mai puține fundături și obstacole greu de depășit, iar aici va fi posibilă utilizarea computerelor la scară mai mare pentru a automatiza cercetarea și dezvoltarea.

Necesitatea mobilizării eforturilor, în primul rând pe dezvoltarea componentei declarative a sistemelor automate de procesare a textului, este confirmată de o jumătate de secol de experiență în dezvoltarea lingvisticii computaționale. Până la urmă, aici, în ciuda succeselor incontestabile ale acestei științe, entuziasmul pentru procedurile algoritmice nu a adus succesul așteptat. A existat chiar și o oarecare dezamăgire în ceea ce privește posibilitățile mijloacelor procedurale.

În lumina celor de mai sus, o astfel de cale de dezvoltare a lingvisticii computaționale pare promițătoare, când eforturile principale vor fi îndreptate către crearea de dicționare puternice de unități de limbaj și vorbire, studiul structurii lor semantico-sintactice și crearea de procedee de bază pentru analiza și sinteza morfologică, semantico-sintactică și conceptuală a textelor. Acest lucru va face posibilă rezolvarea unei game largi de probleme aplicate în viitor.

Lingvistica computațională se confruntă, în primul rând, cu sarcinile de suport lingvistic pentru procesele de colectare, acumulare, prelucrare și căutare a informațiilor. Cele mai importante dintre ele sunt:

1. Automatizarea compilarii si procesarii lingvistice a dictionarelor masini;

2. Automatizarea proceselor de detectare și corectare a erorilor la introducerea textelor într-un computer;

3. Indexarea automată a documentelor și solicitărilor de informații;

4. Clasificarea și referirea automată a documentelor;

5. Suport lingvistic al proceselor de căutare a informațiilor în baze de date monolingve și multilingve;

6. Traducerea automată a textelor dintr-o limbă naturală în alta;

7. Construirea de procesoare lingvistice care asigură utilizatorilor comunicarea cu sisteme informatice inteligente automatizate (în special, cu sisteme expert) în limbaj natural, sau într-un limbaj apropiat de natural;

8. Extragerea de informații faptice din texte neformalizate.

Să ne oprim în detaliu asupra problemelor cele mai relevante pentru tema studiului.

LA activitati practice centrele de informare, este nevoie să se rezolve problema detectării și corectării automate a erorilor din texte atunci când acestea sunt introduse într-un computer. Această sarcină complexă poate fi împărțită condiționat în trei sarcini - sarcinile de ortografie, controlul sintactic și semantic al textelor. Prima dintre ele poate fi rezolvată folosind procedura de analiză morfologică, care utilizează un dicționar de mașini de referință destul de puternic de tulpini de cuvinte. În procesul de control ortografic, cuvintele textului sunt supuse analizei morfologice, iar dacă bazele lor sunt identificate cu bazele dicționarului de referință, atunci sunt considerate corecte; dacă nu sunt identificate, atunci ele, însoțite de un micro-context, sunt date spre vizionare de către o persoană. O persoană detectează și corectează cuvintele distorsionate, iar sistemul software corespunzător face aceste corecții textului corectat.

Sarcina controlului sintactic al textelor pentru a detecta erorile din ele este mult mai dificilă decât sarcina controlului ortografiei lor. În primul rând, pentru că include în componența sa sarcina controlului ortografic ca componentă obligatorie și, în al doilea rând, pentru că problema analizei sintactice a textelor neformalizate nu a fost încă pe deplin rezolvată. Cu toate acestea, controlul sintactic parțial al textelor este destul de posibil. Există două căi de mers aici: fie să alcătuiești dicționare de mașină suficient de reprezentative ale structurilor sintactice de referință și să compari structurile sintactice ale textului analizat cu acestea; sau să dezvolte un sistem complex de reguli pentru verificarea consistenței gramaticale a elementelor textului. Prima modalitate ni se pare mai promițătoare, deși, desigur, nu exclude posibilitatea de a folosi elemente ale celei de-a doua modalități. Structura sintactică a textelor ar trebui descrisă în termeni de clase gramaticale de cuvinte (mai precis, sub formă de secvențe de seturi de informații gramaticale pentru cuvinte).

Sarcina de control semantic al textelor pentru a detecta erorile semantice din acestea ar trebui atribuită clasei sarcinilor de inteligență artificială. În totalitate, poate fi rezolvată doar pe baza modelării proceselor gândirii umane. În același timp, aparent, va fi necesar să se creeze baze de cunoștințe enciclopedice puternice și instrumente software pentru manipularea cunoștințelor. Cu toate acestea, pentru domenii limitate și pentru informații formale, această problemă este destul de rezolvabilă. Ar trebui pusă și rezolvată ca o sarcină de control semantico-sintactic al textelor.

Problema automatizării indexării documentelor și interogărilor este tradițională pentru sistemele automate de căutare a textului. La început, indexarea a fost înțeleasă ca procesul de atribuire a indicilor de clasificare documentelor și interogărilor, reflectând conținutul lor tematic. În viitor, acest concept a fost transformat și termenul „indexare” a început să se refere la procesul de traducere a descrierilor documentelor și a interogărilor dintr-un limbaj natural într-unul formalizat, în special, în limbajul „căutării imaginilor”. Imaginile de căutare ale documentelor au început, de regulă, să fie realizate sub formă de liste de cuvinte cheie și expresii care reflectă conținutul lor tematic, iar imaginile de căutare ale interogărilor - sub forma unor structuri logice în care cuvintele cheie și frazele erau conectate între ele. de către operatori logici şi sintactici.

Indexarea automată a documentelor este convenabilă de efectuat în funcție de textele rezumatelor lor (dacă există), deoarece conținutul principal al documentelor este reflectat în rezumate într-o formă concentrată. Indexarea se poate face cu sau fără control tezaur. În primul caz, cuvintele cheie și frazele din dicționarul mașinii de referință sunt căutate în textul titlului documentului și rezumatul acestuia, iar în DOD sunt incluse numai cele găsite în dicționar. În al doilea caz, cuvintele cheie și frazele sunt extrase din text și incluse în POD, indiferent dacă aparțin oricărui dicționar de referință. A fost implementată și o a treia opțiune, unde, alături de termenii din tezaurul mașinii, AML includea și termeni extrași din titlu și prima propoziție a rezumatului documentului. Experimentele au arătat că POD-urile compilate automat pe baza titlurilor și rezumatele documentelor oferă o mai mare exhaustivitate a căutării decât POD-urile compilate manual. Acest lucru se explică prin faptul că sistemul de indexare automată reflectă mai pe deplin diverse aspecte ale conținutului documentelor decât sistemul de indexare manuală.

La indexarea automată a interogărilor, apar aproximativ aceleași probleme ca și la indexarea automată a documentelor. De asemenea, aici trebuie să extrageți cuvinte cheie și expresii din text și să normalizați cuvintele incluse în textul de interogare. Legăturile logice dintre cuvintele cheie și expresiile și operatorii contextuali pot fi introduse manual sau folosind o procedură automată. Un element important Procesul de indexare automată a unei interogări este adăugarea cuvintelor cheie și a frazelor sale cu sinonimele și hiponimele lor (uneori și hipernime și alți termeni asociați cu termenii originali ai interogării). Acest lucru se poate face automat sau interactiv folosind un tezaur de mașină.

Am luat în considerare deja parțial problema automatizării căutării informațiilor documentare în legătură cu sarcina de indexare automată. Cea mai promițătoare aici este căutarea documentelor după textele lor integrale, deoarece utilizarea oricărui fel de înlocuitori în acest scop (descrieri bibliografice, imagini de căutare ale documentelor și texte ale rezumatelor acestora) duce la pierderea de informații în timpul căutării. Cele mai mari pierderi apar atunci când descrierile lor bibliografice sunt folosite ca înlocuitori pentru documentele primare, cele mai mici - când sunt folosite rezumate.

Caracteristici importante Calitățile regăsării informațiilor sunt completitudinea și acuratețea acesteia. Completitudinea căutării poate fi asigurată prin luarea în considerare pe cât posibil a legăturilor paradigmatice dintre unitățile limbajului și vorbirii (cuvinte și fraze), și acuratețea - prin luarea în considerare a legăturilor lor sintagmatice. Există o opinie că completitudinea și acuratețea căutării sunt invers legate: măsurile de îmbunătățire a uneia dintre aceste caracteristici duc la o deteriorare a celeilalte. Dar acest lucru este valabil numai pentru logica de căutare fixă. Dacă această logică este îmbunătățită, atunci ambele caracteristici pot fi îmbunătățite simultan.

Procesul de căutare a informațiilor în bazele de date full-text ar trebui să fie construit ca un proces de comunicare interactivă între un utilizator și un sistem de regăsire a informațiilor (IPS), în care acesta caută secvențial prin fragmente de text (paragrafe, paragrafe) care satisfac conditii logice cerere și le selectează pe cele care sunt de interes pentru el. Deoarece rezultatele finale ale căutării pot fi date ca texte complete documente, precum și oricare dintre fragmentele acestora.

După cum se poate observa din considerentele anterioare, în căutarea automată a informațiilor, trebuie să depășim bariera lingvistică care apare între utilizator și IPS din cauza varietății formelor de reprezentare de același sens care au loc în texte. Această barieră devine și mai semnificativă dacă trebuie să căutați în baze de date multilingve. Soluția cardinală a problemei de aici poate fi traducerea automată a textelor documentelor dintr-o limbă în alta. Acest lucru se poate face fie în prealabil, înainte de încărcarea documentelor într-un motor de căutare, fie în procesul de căutare a informațiilor. LA ultimul caz interogarea utilizatorului trebuie tradusă în limba șirului de documente în care se efectuează căutarea, iar rezultatele căutării în limba interogării. De asemenea fel motoare de căutare lucrează deja pe internet. Sistemul Cyrillic Browser a fost construit și la VINITI RAS, ceea ce face posibilă căutarea de informații în texte în limba rusă cu privire la interogări în limba engleză, rezultatele căutării fiind afișate și în limba utilizatorului.

O sarcină importantă și promițătoare a lingvisticii computaționale este construirea de procesoare lingvistice care să ofere utilizatorilor comunicarea cu sisteme informatice automate inteligente (în special, cu sisteme experte) în limbaj natural sau într-un limbaj apropiat de natural. Întrucât informația este stocată într-o formă formalizată în sistemele inteligente moderne, procesoarele lingvistice, acționând ca intermediari între o persoană și un computer, trebuie să rezolve următoarele sarcini principale: 1) sarcina de a trece de la textele cererilor de informații de intrare și a mesajelor în limbaj natural. de a reprezenta semnificația lor într-un limbaj formalizat (la introducerea informațiilor într-un computer); 2) sarcina de trecere de la o reprezentare formalizată a sensului mesajelor de ieșire la reprezentarea acesteia în limbaj natural (când informația este dată unei persoane). Prima sarcină ar trebui rezolvată prin analiza morfologică, sintactică și conceptuală a cererilor de intrare și a mesajelor, a doua - prin sinteza conceptuală, sintactică și morfologică a mesajelor de ieșire.

Analiza conceptuală a solicitărilor de informații și a mesajelor constă în identificarea structurii lor conceptuale (limitele denumirilor de concepte și relațiile dintre conceptele din text) și traducerea acestei structuri într-un limbaj formalizat. Se realizează după analiza morfologică și sintactică a cererilor și mesajelor. Sinteza conceptuală a mesajelor constă în trecerea de la reprezentarea elementelor structurii lor într-un limbaj formalizat la o reprezentare verbală (verbală). După aceea, mesajelor li se oferă designul sintactic și morfologic necesar.

Pentru traducerea automată a textelor dintr-o limbă naturală în alta, este necesar să existe dicționare de corespondențe de traducere între denumirile de concepte. Cunoștințele despre astfel de corespondențe de traducere au fost acumulate de multe generații de oameni și publicate sub formă de ediții speciale - dicționare bilingve sau multilingve. Pentru specialiștii care cunosc într-o oarecare măsură limbi străine, aceste dicționare au servit drept ajutoare valoroase în traducerea textelor.

În dicționarele tradiționale bilingve și multilingve scop general echivalentele de transfer au fost indicate în principal pentru cuvinte individuale, pentru fraze - mult mai rar. Indicarea echivalentelor de traducere pentru fraze a fost mai tipică pentru dicționarele terminologice speciale. Prin urmare, atunci când traduceau segmente de texte care conțin cuvinte polisemantice, elevii au avut adesea dificultăți.

Mai jos sunt corespondențe de traducere între mai multe perechi de expresii în engleză și rusă pe subiecte „școală”.

1) Liliacul arată ca un șoarece cu aripi - Liliacul arată ca un șoarece cu aripi.

2) Copiilor le place să se joace în nisip de pe plajă - Copiilor le place să se joace în nisip de pe plajă.

3) A drop of rain falll on my hand - A drop of rain falll on my hand.

4) Lemnul uscat arde ușor - lemnul uscat arde bine.

5) El s-a prefăcut că nu mă aude - El s-a făcut că nu mă aude.

Aici expresiile în engleză nu sunt expresii idiomatice. Cu toate acestea, traducerea lor în rusă poate fi considerată, cu o oarecare întindere, doar o simplă traducere cuvânt cu cuvânt, deoarece aproape toate cuvintele incluse în ele sunt poliseme. Prin urmare, doar realizările lingvisticii computaționale pot ajuta studenții aici.

Conținutul articolului

lingvistică informatică, direcție în lingvistică aplicată, axată pe utilizarea instrumentelor informatice - programe, tehnologii informatice de organizare și prelucrare a datelor - pentru modelarea funcționării unei limbi în anumite condiții, situații, arii problematice etc., precum și a întregului domeniu de activitate informatic. modele de limbaj în lingvistică şi discipline aferente. De fapt, doar în acest din urmă caz vorbim de lingvistică aplicată în sens strict, întrucât modelarea computerizată a unui limbaj poate fi considerată și ca o sferă de aplicare a informaticii și a teoriei programării la rezolvarea problemelor științei limbajului. În practică, totuși, aproape tot ce are legătură cu utilizarea computerelor în lingvistică este denumit lingvistică computațională.

Ca direcție științifică specială, lingvistica computațională a luat contur în anii 1960. Termenul rusesc „lingvistică computațională” este o hârtie de urmărire din lingvistica computațională engleză. Întrucât adjectivul computațional în limba rusă poate fi tradus și ca „computațional”, termenul „lingvistică computațională” se găsește și în literatură, dar în știința rusă capătă un sens mai restrâns, abordând conceptul de „lingvistică cantitativă”. Fluxul de publicații în acest domeniu este foarte mare. Cu exceptia culegeri tematice, în Statele Unite, revista Computational Linguistics este publicată trimestrial. Excelent organizatoric si munca stiintifica este realizat de Asociația pentru Lingvistică Computațională, care are structuri regionale (în special, filiala europeană). La fiecare doi ani au loc conferințe internaționale de lingvistică computațională - COLING. Problemele relevante sunt de obicei prezentate pe scară largă și la diferite conferințe despre inteligența artificială.

Trusa de instrumente de lingvistică computațională.

Lingvistica computațională, ca disciplină aplicată specială, se distinge în primul rând prin instrumentul său - i.e. privind utilizarea instrumentelor informatice pentru prelucrarea datelor lingvistice. În măsura în care programe de calculator, modelând anumite aspecte ale funcționării limbajului, poate folosi cel mai mult diverse mijloace programare, atunci nu pare să fie nevoie să vorbim despre aparatul conceptual general al lingvisticii computaționale. Cu toate acestea, nu este. Există principii generale simulare pe calculator gândire, care sunt cumva implementate în orice model de computer. Ele se bazează pe teoria cunoașterii, care a fost dezvoltată inițial în domeniul inteligenței artificiale, iar ulterior a devenit una dintre secțiunile științei cognitive. Cel mai important categorii conceptuale lingvistica computațională este astfel de structuri de cunoaștere precum „cadre” (structuri conceptuale sau, după cum se spune, conceptuale pentru reprezentarea declarativă a cunoștințelor despre o situație unificată tematic tipificat), „scenarii” (structuri conceptuale pentru reprezentarea procedurală a cunoștințelor despre o situație stereotipă). situație sau comportament stereotip), „planuri” (structuri de cunoaștere care fixează idei despre acțiuni posibile conducând la realizare scop specific). Conceptul de „scenă” este strâns legat de categoria de cadru. Categoria scenei este folosită în principal în literatura de lingvistică computațională ca desemnare a unei structuri conceptuale pentru reprezentarea declarativă a situațiilor și părților acestora care sunt actualizate într-un act de vorbire și evidențiate prin mijloace lingvistice (lexeme, construcții sintactice, categorii gramaticale etc. .).

Un anumit set organizat de structuri de cunoaștere formează „modelul lumii” al sistemului cognitiv și al modelului său computerizat. În sistemele de inteligență artificială, modelul lumii formează un bloc special, care, în funcție de arhitectura aleasă, poate include cultura generala despre lume (sub formă de propuneri simple precum „iarna este frig” sau sub formă de reguli de producție „dacă afară plouă, trebuie să-ți îmbraci o pelerină de ploaie sau să iei o umbrelă”), câteva fapte specifice („The cel mai înalt vârf din lume este Everest"), precum și valorile și ierarhiile acestora, uneori evidențiate într-un „bloc axiologic” special.

Cele mai multe elemente ale conceptelor instrumentelor de lingvistică computațională sunt omonime: ele desemnează simultan unele entități reale ale sistemului cognitiv uman și modalități de reprezentare a acestor entități utilizate în descrierea și modelarea lor teoretică. Cu alte cuvinte, elementele aparat conceptual lingvistica computaţională are aspecte ontologice şi instrumentale. De exemplu, în aspectul ontologic îi corespunde separarea cunoștințelor declarative și procedurale tipuri diferite cunoașterea pe care o are o persoană - așa-numita cunoaștere a CE (declarativă; cum ar fi, de exemplu, cunoașterea adresa postala a unor NN), pe de o parte, și cunoștințele CUM (procedurale; cum ar fi, de exemplu, cunoștințe care vă permit să găsiți apartamentul acestui NN, chiar și fără a-i cunoaște adresa oficială) - pe de altă parte. Sub aspect instrumental, cunoștințele pot fi întruchipate într-un set de descrieri (descrieri), într-un set de date, pe de o parte, și într-un algoritm, o instrucțiune pe care o execută un computer sau un alt model de sistem cognitiv, pe de o parte. alte.

Direcții de lingvistică computațională.

Sfera CL este foarte diversă și include domenii precum modelarea computerizată a comunicării, modelarea structurii parcelei, tehnologiile hipertext pentru prezentarea textului, traducerea automată, lexicografia computerizată. LA sens restrâns Problemele CL sunt adesea asociate cu o zonă aplicată interdisciplinară cu o denumire oarecum nefericită „prelucrare a limbajului natural” (traducere a termenului în limba engleză Natural Language Processing). A apărut la sfârșitul anilor 1960 și s-a dezvoltat în cadrul disciplinei științifice și tehnologice „inteligenta artificială”. În felul său formă interioară sintagma „prelucrarea limbajului natural” acoperă toate domeniile în care computerele sunt folosite pentru prelucrarea datelor de limbaj. Între timp, în practică s-a fixat o înțelegere mai restrânsă a acestui termen - dezvoltarea de metode, tehnologii și sisteme specifice care asigură comunicarea între o persoană și un computer într-un limbaj natural sau natural limitat.

Dezvoltarea rapidă a direcției „prelucrarii limbajului natural” cade în anii 1970, care a fost asociată cu o creștere exponențială neașteptată a numărului de utilizatori finali ai computerelor. Deoarece este imposibil să predați limbaje și tehnologii de programare tuturor utilizatorilor, a apărut problema organizării interacțiunii cu programele de calculator. Soluția la această problemă a comunicării a urmat două căi principale. În primul caz, s-au încercat adaptarea limbajelor de programare și a sistemelor de operare la utilizatorul final. Drept urmare, au apărut limbaje de nivel înalt precum Visual Basic, precum și sisteme de operare convenabile construite în spațiul conceptual al metaforelor familiare oamenilor - DESK, LIBRARY. A doua cale este dezvoltarea unor sisteme care să permită interacțiunea cu un computer într-o anumită zonă problematică într-un limbaj natural sau o versiune limitată a acestuia.

Arhitectura sistemelor de procesare a limbajului natural include în general o unitate de analiză mesaj vocal utilizator, un bloc de interpretare a mesajului, un bloc pentru generarea semnificației unui răspuns și un bloc pentru sintetizarea structurii de suprafață a unui enunț. O parte deosebită a sistemului este componenta de dialog, care conține strategii de dialog, condițiile de aplicare a acestor strategii, modalități de depășire a eventualelor eșecuri de comunicare (eșecuri în procesul de comunicare).

Printre sistemele informatice de procesare a limbajului natural, sistemele de întrebări-răspuns se disting de obicei, sisteme de dialog rezolvarea problemelor și sistemele de procesare a textului conectate. Inițial, sistemele de întrebări-răspuns au început să fie dezvoltate ca răspuns la calitate proastă codificări ale interogărilor la căutarea informațiilor în sistemele de regăsire a informațiilor. Deoarece problematica unor astfel de sisteme era foarte limitată, acest lucru a simplificat oarecum algoritmii de traducere a interogărilor într-o reprezentare formală în limbaj și procedura inversă pentru transformarea unei reprezentări formale în declarații de limbaj natural. Din evoluțiile interne, sistemul POET, creat de o echipă de cercetători condusă de E.V.Popov, aparține unor programe de acest tip. Sistemul procesează cererile în limba rusă (cu restricții minore) și sintetizează un răspuns. Schema bloc a programului presupune parcurgerea tuturor etapelor de analiză (morfologică, sintactică și semantică) și a etapelor de sinteză corespunzătoare.

Sistemele de dialog pentru rezolvarea problemelor, spre deosebire de sistemele de tip anterior, joacă în comunicare rol activ, întrucât sarcina lor este să obțină o soluție a problemei bazată pe cunoștințele care sunt prezentate în ea însăși și pe informațiile care pot fi obținute de la utilizator. Sistemul conține structuri de cunoștințe care înregistrează secvențe tipice de acțiuni pentru rezolvarea problemelor într-o anumită zonă de probleme, precum și informații despre resursele necesare. Când utilizatorul pune o întrebare sau stabilește o anumită sarcină, scriptul corespunzător este activat. Dacă lipsesc unele componente de script sau unele resurse lipsesc, sistemul inițiază comunicarea. Așa funcționează, de exemplu, sistemul SNUKA, care rezolvă problemele de planificare a operațiunilor militare.

Sistemele de procesare a textului conectate sunt destul de diverse ca structură. Lor trasatura comuna poate fi considerată utilizarea pe scară largă a tehnologiilor de reprezentare a cunoștințelor. Funcțiile sistemelor de acest fel sunt de a înțelege textul și de a răspunde la întrebări despre conținutul acestuia. Înțelegerea este considerată nu ca o categorie universală, ci ca un proces de extragere a informațiilor dintr-un text, determinat de o intenție comunicativă specifică. Cu alte cuvinte, textul este „citit” doar cu presupunerea că potenţialul utilizator este cel care doreşte să afle despre el. Astfel, sistemele de procesare a textului conectate se dovedesc a fi deloc universale, ci orientate către probleme. Exemple tipice de sisteme de tipul în discuție sunt sistemele CERCETĂTOR și croitor, care formează un singur pachete software, care permite utilizatorului să obțină informații din rezumate ale brevetelor care descriu obiecte fizice complexe.

Cel mai important domeniu al lingvisticii computaționale este dezvoltarea sistemelor de recuperare a informațiilor (IPS). Acesta din urmă a apărut la sfârșitul anilor 1950 și începutul anilor 1960 ca răspuns la o creștere bruscă a volumului de informații științifice și tehnice. În funcție de tipul de informații stocate și prelucrate, precum și de caracteristicile căutării, IPS sunt împărțite în două grupuri mari - documentare și faptice. Sistemele de informare documentară stochează textele documentelor sau descrierile acestora (rezumate, fișe bibliografice etc.). IPS factografice se ocupă de descrierea unor fapte specifice și nu neapărat sub formă textuală. Pot fi tabele, formule și alte tipuri de prezentare a datelor. Există, de asemenea, IPS mixte care includ atât documente, cât și informații faptice. În prezent, sistemele informatice factografice sunt construite pe baza tehnologiilor de baze de date (DB). Pentru a oferi regăsirea informațiilor în IPS, sunt create limbaje speciale de regăsire a informațiilor, care se bazează pe tezauri de regăsire a informațiilor. Limbajul de regăsire a informațiilor este un limbaj formal conceput pentru a descrie anumite aspecte ale planului de conținut al documentelor stocate în IPS și cererea. Procedura de descriere a unui document într-un limbaj de regăsire a informațiilor se numește indexare. Ca urmare a indexării, fiecărui document i se atribuie descrierea sa formală în limbajul de regăsire a informațiilor - imaginea de căutare a documentului. În mod similar, interogarea este indexată, căreia îi sunt atribuite imaginea de căutare a interogării și prescripția de căutare. Algoritmii de regăsire a informațiilor se bazează pe compararea prescripției de căutare cu imaginea de căutare a interogării. Criteriul de eliberare a unui document la o cerere poate consta într-o potrivire totală sau parțială între imaginea de căutare a documentului și prescripția de căutare. În unele cazuri, utilizatorul are posibilitatea de a formula el însuși criteriile de emitere. Acest lucru este determinat de nevoia lui de informare. Limbile de regăsire a informațiilor descriptive sunt mai des folosite în IS-urile automate. Subiectul documentului este descris printr-un set de descriptori. Cuvintele și termenii care desemnează categorii și concepte simple, destul de elementare ale zonei problemei acționează ca descriptori. În imaginea de căutare a documentului sunt introduși cât mai mulți descriptori diverse subiecte afectate de document. Numărul de descriptori nu este limitat, ceea ce face posibilă descrierea documentului într-o matrice de caracteristici multidimensionale. Adesea, într-un limbaj de regăsire a informațiilor despre descriptor, sunt impuse restricții asupra combinabilității descriptorilor. În acest caz, putem spune că limbajul de regăsire a informațiilor are o sintaxă.

Unul dintre primele sisteme care a lucrat cu un limbaj descriptor a fost sistemul american UNITERM creat de M. Taube. În acest sistem, cuvintele cheie ale documentului, uniterms, au funcționat ca descriptori. Particularitatea acestui IPS este că inițial dicționarul limbajului informațional nu a fost setat, ci a apărut în procesul de indexare a documentului și a interogării. Dezvoltarea sistemelor moderne de regăsire a informațiilor este asociată cu dezvoltarea IPS de tip non-tezaur. Astfel de IPS lucrează cu utilizatorul într-un limbaj natural limitat, iar căutarea este efectuată în textele rezumatelor documentelor, în descrierile bibliografice ale acestora și, adesea, în documentele în sine. Pentru indexarea în tipul non-tezaur IPS se folosesc cuvinte și expresii din limbajul natural.

Într-o anumită măsură, domeniul lingvisticii computaționale poate include lucrări din domeniul creării de sisteme hipertext, considerată ca un mod special de organizare a textului și chiar la fel de fundamental noul fel text, opus în multe dintre proprietățile sale textului obișnuit format în tradiția tipografiei Gutenberg. Ideea de hipertext este asociată cu numele lui Vannevar Bush, consilierul științific al președintelui F. Roosevelt. W. Bush a fundamentat teoretic proiectul sistemului tehnic „Memex”, care permitea utilizatorului să lege textele și fragmentele acestora prin diverse tipuri de legături, în principal prin relații asociative. Absența tehnologia calculatoarelor a făcut proiectul dificil de implementat, deoarece sistemul mecanic s-a dovedit a fi prea complex pentru implementarea practică.

Ideea lui Bush în anii 1960 a primit o a doua naștere în sistemul „Xanadu” al lui T. Nelson, care presupunea deja utilizarea tehnologiei computerului. „Xanadu” permitea utilizatorului să citească totalitatea textelor introduse în sistem căi diferite, în diverse secvențe, software-ul a făcut posibilă atât memorarea secvenței de texte vizualizate, cât și alegerea aproape oricare dintre ele la un moment arbitrar. Un set de texte cu relații care le leagă (un sistem de tranziții) a fost numit hipertext de T. Nelson. Mulți cercetători consideră crearea hipertextului drept începutul unei noi ere a informației, opusă erei tiparului. Liniaritatea scrisului, reflectând în exterior liniaritatea vorbirii, se dovedește a fi o categorie fundamentală care limitează gândirea umană și înțelegerea textului. Lumea sensului este neliniară, prin urmare, comprimarea informațiilor semantice într-un segment de vorbire liniar necesită utilizarea unor „pachete comunicative” speciale - împărțirea în subiect și remă, împărțirea planului de conținut al enunțului în explicit (enunț, propoziție, focus) și implicit (presupoziție, consecință, implicatura discursului) . Respingerea liniarității textului atât în procesul de prezentare a acestuia către cititor (adică în citire și înțelegere), cât și în procesul de sinteză, potrivit teoreticienilor, ar contribui la „eliberarea” gândirii și chiar la apariția noile sale forme.

Într-un sistem informatic, hipertextul este reprezentat ca un grafic, ale cărui noduri conțin texte tradiționale sau fragmente ale acestora, imagini, tabele, videoclipuri etc. Nodurile sunt conectate prin diverse relații, ale căror tipuri sunt specificate de dezvoltatorii software-ului hipertext sau de către cititorul însuși. Relațiile definesc posibilitățile potențiale de mișcare, sau de navigare prin hipertext. Relațiile pot fi unidirecționale sau bidirecționale. În consecință, săgețile bidirecționale permit utilizatorului să se miște în ambele direcții, în timp ce săgețile unidirecționale permit utilizatorului să se miște doar într-o direcție. Lanțul de noduri prin care trece cititorul în timp ce vizualizează componentele textului formează o cale sau o rută.

Implementările computerizate ale hipertextului sunt ierarhice sau de rețea. Structura ierarhică – arborescentă – a hipertextului limitează semnificativ posibilitățile de tranziție între componentele sale. Într-un astfel de hipertext, relațiile dintre componente seamănă cu structura unui tezaur bazat pe relații gen-specie. Hipertextul de rețea permite utilizarea diferitelor tipuri de relații între componente, fără a se limita la relațiile gen-specie. După modul de existență al hipertextului se disting hipertextele statice și dinamice. Hipertextul static nu se modifică în timpul funcționării; în ea, utilizatorul își poate înregistra comentariile, dar acestea nu schimbă esența problemei. Pentru hipertextul dinamic, schimbarea este o formă normală de existență. De obicei, hipertextele dinamice funcționează acolo unde este necesar să se analizeze în mod constant fluxul de informații, de exemplu. în servicii de informare de diverse feluri. Hipertextul este, de exemplu, Arizona Information System (AAIS), care este actualizat lunar cu 300-500 de rezumate pe lună.

Relațiile dintre elementele hipertextului pot fi inițial fixate de creatori sau pot fi generate ori de câte ori utilizatorul accesează hipertextul. În primul caz, vorbim de hipertexte de structură rigidă, iar în al doilea caz, de hipertexte de structură moale. Structura rigidă este destul de clară din punct de vedere tehnologic. Tehnologia de organizare a unei structuri soft ar trebui să se bazeze pe o analiză semantică a proximității documentelor (sau a altor surse de informații) între ele. Aceasta este o sarcină non-trivială a lingvisticii computaționale. În prezent, utilizarea tehnologiilor de structură soft pentru cuvintele cheie este larg răspândită. Tranziția de la un nod la altul în rețeaua hipertext se realizează ca urmare a căutării cuvintelor cheie. Deoarece setul de cuvinte cheie poate diferi de fiecare dată, structura hipertextului se modifică de fiecare dată.

Tehnologia de construire a sistemelor hipertext nu face distincție între informațiile textuale și cele non-textuale. Între timp, includerea informațiilor vizuale și audio (videoclipuri, picturi, fotografii, înregistrări sonore etc.) necesită schimbare semnificativă interfață cu utilizatorul și software mai puternic și suport pentru computer. Astfel de sisteme se numesc hipermedia sau multimedia. Vizibilitatea sistemelor multimedia a predeterminat utilizarea lor pe scară largă în educație, în crearea versiunilor computerizate ale enciclopediilor. Există, de exemplu, CD-rom-uri frumos executate cu sisteme multimedia pentru enciclopedii pentru copii de la editura Dorlin Kindersley.

În cadrul lexicografiei computerizate sunt dezvoltate tehnologii informatice pentru compilarea și operarea dicționarelor. Programele speciale - baze de date, dulapuri pentru computere, programe de procesare a textului - vă permit să generați automat intrări din dicționar, să stocați informații din dicționar și să le procesați. Multe programe lexicografice de calculator diferite sunt împărțite în două grupuri mari: programe pentru sprijinirea lucrărilor lexicografice și dicționare automate de diferite tipuri, inclusiv baze de date lexicografice. Un dicționar automat este un dicționar într-un format special de mașină proiectat pentru a fi utilizat pe un computer de către un utilizator sau un program de procesare a textului computerizat. Cu alte cuvinte, există o diferență între dicționarele automate ale utilizatorilor finali umani și dicționarele automate pentru programele de procesare a textului. Dicționarele automate destinate utilizatorului final, în ceea ce privește interfața și structura unei intrări de dicționar, diferă semnificativ de dicționarele automate incluse în sistemele de traducere automată, sistemele de referință automată, sistemele de regăsire a informațiilor etc. Cel mai adesea sunt versiuni computerizate ale dicționarelor convenționale binecunoscute. Pe piața de software există analogi de computer ai dicționarelor explicative ale limbii engleze (Webster automat, dicționar englez explicativ automat al editurii Collins, versiunea automată a New Large Dicționar englez-rus ed. Yu.D. Apresyan și E.M. Mednikova), există, de asemenea versiunea de calculator Dicționarul lui Ozhegov. Dicționarele automate pentru programele de procesare a textului pot fi numite dicționare automate în sensul exact. În general, acestea nu sunt destinate utilizatorului obișnuit. Caracteristicile structurii lor, domeniul de aplicare a materialului de vocabular sunt stabilite de programele care interacționează cu acestea.

Modelarea computerizată a structurii parcelei este alta direcție promițătoare lingvistică computațională. Studiul structurii intrigii se referă la problemele criticii literare structurale (în sens larg), semioticii și studiilor culturale. Programele de calculator disponibile pentru modelarea plotului se bazează pe trei formalisme de bază de prezentare a plotului - direcții morfologice și sintactice pentru prezentarea plotului, precum și pe o abordare cognitivă. Ideile despre structura morfologică a structurii parcelei se întorc la celebrele lucrări ale lui V.Ya. Propp ( cm.) despre un basm rusesc. Propp a observat că, cu o abundență de personaje și evenimente dintr-un basm, numărul de funcții ale personajelor este limitat și a propus un aparat pentru descrierea acestor funcții. Ideile lui Propp au stat la baza programului de calculator TALE, care simulează generarea intrigii unui basm. Algoritmul programului TALE se bazează pe succesiunea de funcții ale personajelor din basm. De fapt, funcțiile Propp stabilesc un set de situații tipizate, ordonate pe baza analizei materialului empiric. Capabilitati de cuplare diverse situatiiîn regulile de generare au fost determinate de o succesiune tipică de funcții – în forma în care se poate stabili din textele basmelor. În program, secvențele tipice de funcții au fost descrise ca scenarii tipice pentru întâlnirea personajelor.

Baza teoretică a abordării sintactice a intrigii textului a fost „gramaticile intrigii” sau „gramaticile narative” (gramaticile povestirii). Ele au apărut la mijlocul anilor 1970 ca urmare a transferului ideilor gramaticii generative a lui N. Chomsky la descrierea macrostructurii textului. Dacă cele mai importante componente ale structurii sintactice din gramatica generativă au fost grupurile verbale și nominale, atunci în majoritatea gramaticilor argumentale, expunerea (cadrarea), evenimentul și episodul au fost evidențiate ca fiind de bază. În teoria gramaticilor plotului, condițiile de minimalitate, adică restricțiile care determinau statutul unei secvențe de elemente plot ca plot normal, au fost discutate pe larg. S-a dovedit, însă, că pur metode lingvistice este imposibil să faci asta. Multe restricții sunt de natură socioculturală. Gramaticile plotului, diferind semnificativ în setul de categorii din arborele generației, au permis un set foarte limitat de reguli pentru modificarea structurii narative (narative).

La începutul anilor 1980, unul dintre studenții lui R. Schenk, V. Lenert, ca parte a lucrării de creare a unui generator de plot computerizat, a propus un formalism original al unităților de plot emoțional (Affective Plot Units), care s-a dovedit a fi un instrument puternic pentru reprezentarea structurii parcelei. Deși a fost dezvoltat inițial pentru un sistem de inteligență artificială, acest formalism a fost folosit în studii pur teoretice. Esența abordării lui Lehnert a fost că intriga a fost descrisă ca o schimbare succesivă a stărilor cognitiv-emoționale ale personajelor. Astfel, accentul formalismului lui Lehnert nu se pune pe componentele externe ale intrigii - expunere, eveniment, episod, moralitate - ci pe caracteristicile sale de fond. În acest sens, formalismul lui Lehnert este parțial o întoarcere la ideile lui Propp.

Lingvistica computațională include și traducerea automată, care în prezent se confruntă cu o renaștere.

Literatură:

Popov E.V. Comunicarea cu computerele în limbaj natural. M., 1982
Sadur V.G. Comunicatie vocala cu calculatoarele electronice şi problemele dezvoltării lor. - În cartea: Comunicarea vorbirii: probleme și perspective. M., 1983
Baranov A.N. Categorii de inteligență artificială în semantica lingvistică. Cadre și scenarii. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modelarea comunicării în sistemele om-mașină. – Suport lingvistic sisteme de informare. M., 1987
Olker H.R. Povesti cu zane, tragedii și modalități de prezentare a istoriei lumii. - În cartea: Language and Modeling interacțiune socială. M., 1987
Gorodetsky B.Yu. Lingvistică computațională: modelarea comunicării limbajului
McQueen K. Strategii discursive pentru sinteza textului în limbaj natural. – Nou în lingvistica străină. Problema. XXIV, Lingvistică computațională. M., 1989
Popov E.V., Preobrazhensky A.B. . Caracteristici ale implementării sistemelor NL
Preobrazhensky A.B. Starea de dezvoltare a sistemelor NL moderne. - Inteligență artificială. Carte. 1, Sisteme de comunicații și sisteme expert. M., 1990
Subbotin M.M. Hipertext. Formă nouă comunicare scrisă. — VINITI, Ser. Informatică, 1994, v. 18
Baranov A.N. Introducere în lingvistica aplicată. M., 2000

Termenul „lingvistică computațională” se referă de obicei la o arie largă de utilizare a instrumentelor informatice - programe, tehnologii informatice de organizare și prelucrare a datelor - pentru a modela funcționarea unei limbi în anumite condiții, situații, zone problematice, precum și domeniul de aplicare. a modelelor de limbaj informatic.numai la lingvistică, dar şi la disciplinele conexe. De fapt, doar în acest din urmă caz vorbim de lingvistică aplicată în sens strict, întrucât modelarea limbajului informatic poate fi considerată și ca un domeniu de aplicare a teoriei programării (informatică) în domeniul lingvisticii. Cu toate acestea, practica generală este de așa natură încât domeniul lingvisticii computaționale acoperă aproape tot ce ține de utilizarea computerelor în lingvistică: „termenul de lingvistică computațională” stabilește o orientare generală către utilizarea computerelor pentru a rezolva o varietate de probleme științifice și practice. legate de limbaj, fără a limita în vreun fel modalitățile de rezolvare a acestor probleme.

Aspectul instituțional al lingvisticii computaționale. Ca direcție științifică specială, lingvistica computațională a luat contur în anii '60. Fluxul de publicații în acest domeniu este foarte mare. Pe lângă colecțiile tematice, revista Computational Linguistics este publicată trimestrial în SUA. O mare activitate organizatorică și științifică este realizată de Asociația pentru Lingvistică Computațională, care are structuri regionale în întreaga lume (în special, filiala europeană). La fiecare doi ani au loc conferințe internaționale de lingvistică computațională - KOLING. Problemele relevante sunt, de asemenea, reprezentate pe scară largă la conferințele internaționale despre inteligența artificială la diferite niveluri.

Setul de instrumente cognitive de lingvistică computațională

Lingvistica computațională ca disciplină aplicată specială se distinge în primul rând prin instrumentul său - adică prin utilizarea instrumentelor informatice pentru prelucrarea datelor lingvistice. Deoarece programele de calculator care modelează anumite aspecte ale funcționării unui limbaj pot folosi o varietate de instrumente de programare, se pare că nu este nevoie să vorbim despre un metalimbaj comun. Cu toate acestea, nu este. Există principii generale de modelare computerizată a gândirii, care sunt cumva implementate în orice model de computer. Acest limbaj se bazează pe teoria cunoașterii dezvoltată în inteligența artificială și formând o ramură importantă a științei cognitive.

Teza principală a teoriei cunoașterii afirmă că gândirea este un proces de procesare și generare de cunoștințe. „Cunoașterea” sau „cunoașterea” este considerată o categorie nedefinită. Sistemul cognitiv uman acționează ca un „procesor” care procesează cunoștințele. În epistemologie și știința cognitivă, se disting două tipuri principale de cunoștințe - declarative („a ști ce”) și procedurale („a ști cum”2)). Cunoașterea declarativă este de obicei prezentată ca un set de propoziții, afirmații despre ceva. Un exemplu tipic de cunoaștere declarativă este interpretarea cuvintelor din dicționare explicative obișnuite. De exemplu, o cană] - „un vas mic de băut rotunjit, de obicei cu mâner, din porțelan, faianță etc.” . Cunoașterea declarativă se pretează procedurii de verificare în termeni de „adevărat-fals”. Cunoștințele procedurale sunt prezentate ca o secvență (listă) de operații, acțiuni de efectuat. Acestea sunt niște instrucțiuni generale despre acțiunile într-o anumită situație. Un exemplu tipic de cunoștințe procedurale sunt instrucțiunile de utilizare a aparatelor de uz casnic.

Spre deosebire de cunoștințele declarative, cunoștințele procedurale nu pot fi verificate ca adevărate sau false. Ele pot fi evaluate doar prin succesul sau eșecul algoritmului.

Cele mai multe dintre conceptele setului de instrumente cognitive ale lingvisticii computaționale sunt omonime: ele desemnează simultan unele entități reale ale sistemului cognitiv uman și modalități de reprezentare a acestor entități în unele metalimbaje. Cu alte cuvinte, elementele de metalimbaj au un aspect ontologic și instrumental. Ontologic, împărțirea cunoștințelor declarative și procedurale corespunde diferitelor tipuri de cunoștințe ale sistemului cognitiv uman. Deci, cunoștințele despre obiecte specifice, obiecte ale realității sunt în principal declarative, iar abilitățile funcționale ale unei persoane de a merge, alerga, conduce o mașină sunt realizate în sistemul cognitiv ca cunoștințe procedurale. Instrumental, cunoștințele (atât ontologic procedurale, cât și declarative) pot fi reprezentate ca un set de descrieri, descrieri și ca algoritm, o instrucțiune. Cu alte cuvinte, cunoștințele declarative ontologic despre obiectul „tabelului” realității pot fi reprezentate procedural ca un set de instrucțiuni, algoritmi de creare, asamblare (= aspectul creativ al cunoștințelor procedurale) sau ca algoritm de utilizare tipică a acestuia (= aspect functional cunoștințe procedurale). În primul caz, acesta poate fi un ghid pentru un tâmplar începător, iar în al doilea, o descriere a posibilităților unui birou de birou. Este adevărat și invers: cunoștințele ontologice procedurale pot fi reprezentate declarativ.

Este nevoie de o discuție separată dacă orice cunoaștere ontologic declarativă poate fi reprezentată ca procedurală și orice ontologic procedurală - ca declarativă. Cercetătorii sunt de acord că orice cunoaștere declarativă poate fi, în principiu, reprezentată procedural, deși acest lucru se poate dovedi a fi foarte neeconomic pentru un sistem cognitiv. Reversul este cu greu adevărat. Faptul este că cunoștințele declarative sunt mult mai explicite, este mai ușor de înțeles pentru o persoană decât cunoștințele procedurale. Spre deosebire de cunoștințele declarative, cunoștințele procedurale sunt predominant implicite. Deci, capacitatea de limbaj, fiind cunoștințe procedurale, este ascunsă unei persoane, nu este realizată de acesta. O încercare de a explica mecanismele de funcționare a limbajului duce la disfuncție. Specialiștii în domeniul semanticii lexicale știu, de exemplu, că introspecția semantică pe termen lung necesară studierii planului de conținut al cuvântului duce la faptul că cercetătorul își pierde parțial capacitatea de a distinge între corect și abuzuri cuvânt analizat. Alte exemple pot fi citate. Se știe că din punct de vedere al mecanicii, corpul uman este sistem complex două pendule care interacționează.

În teoria cunoașterii, cunoștințele sunt studiate și reprezentate folosind diverse structuri cunoștințe - cadre, scenarii, planuri. Potrivit lui M. Minsky, „un cadru este o structură de date concepută pentru a reprezenta o situație stereotipată” [Minsky 1978, p.254]. Mai detaliat, putem spune că cadrul este o structură conceptuală pentru reprezentarea declarativă a cunoștințelor despre o situație tipificată unificată tematic, care conține sloturi interconectate prin anumite relații semantice. În scopuri ilustrative, un cadru este adesea reprezentat ca un tabel, ale cărui rânduri formează fante. Fiecare slot are propriul său nume și conținut (vezi Tabelul 1).

tabelul 1

Fragment din cadrul „tabelului” într-o vedere de tabel

Depinzând de sarcina specifica structurarea cadrului poate fi semnificativ mai complexă; un cadru poate include subcadre imbricate și referințe la alte cadre.

În locul unui tabel, este adesea folosită o formă de reprezentare predicată. În acest caz, cadrul este sub forma unui predicat sau a unei funcție cu argumente. Există și alte moduri de a reprezenta un cadru. De exemplu, poate fi reprezentat ca un tuplu următorul fel: ( (numele cadrului) (numele slotului)) (valoarea slotului,),..., (numele slotului n) (valoarea slotului n) ).

De obicei, cadrele din limbajele de reprezentare a cunoștințelor au această formă.

Ca și alte categorii cognitive ale lingvisticii computaționale, conceptul de cadru este omonim. Ontologic, este o parte a sistemului cognitiv uman și, în acest sens, cadrul poate fi comparat cu concepte precum gestalt, prototip, stereotip, schemă. În psihologia cognitivă, aceste categorii sunt considerate tocmai din punct de vedere ontologic. Deci, D. Norman distinge două moduri principale de existență și organizare a cunoașterii în sistemul cognitiv uman – rețele și scheme semantice. „Schemele”, scrie el, „sunt pachete organizate de cunoștințe asamblate pentru a reprezenta unități de cunoaștere distincte, autonome. Schema mea pentru Sam poate conține informații care descriu trăsăturile sale fizice, activitățile și trăsăturile de personalitate. Această schemă se corelează cu alte scheme. care descriu celelalte aspecte ale sale” [Norman 1998, p. 359]. Dacă luăm latura instrumentală a categoriei cadru, atunci aceasta este o structură pentru reprezentarea declarativă a cunoștințelor. În sistemele AI existente, se pot forma cadre structuri complexe cunoştinţe; sistemele de cadru permit ierarhie - un cadru poate face parte dintr-un alt cadru.

Din punct de vedere al conținutului, conceptul de cadru este foarte apropiat de categoria interpretării. Într-adevăr, un slot este un analog al valenței, umplerea unui slot este un analog al unui actant. Principala diferență dintre ele este că interpretarea conține doar informații relevante din punct de vedere lingvistic despre planul conținutului cuvântului, iar cadrul, în primul rând, nu este neapărat legat de cuvânt și, în al doilea rând, include toate informațiile relevante pentru o anumită problemă. situație, inclusiv extralingvistică (cunoașterea lumii) 3).

Un scenariu este un cadru conceptual pentru reprezentarea procedurală a cunoștințelor despre o situație sau un comportament stereotip. Elementele de script sunt pașii unui algoritm sau instrucțiuni. Oamenii vorbesc de obicei despre „scenariu de restaurant”, „scenariu de cumpărare” și așa mai departe.

Cadrul a fost folosit inițial și pentru prezentarea procedurală (cf. termenul „cadru procedural”), dar termenul „scenariu” este acum mai des folosit în acest sens. Un scenariu poate fi reprezentat nu numai ca un algoritm, ci și ca o rețea, ale cărei vârfuri corespund unor situații, iar arcurile corespund conexiunilor dintre situații. Alături de conceptul de script, unii cercetători folosesc categoria unui script pentru modelarea computerizată a inteligenței. Potrivit lui R. Schenk, un scenariu este o secvență general acceptată, binecunoscută cauzalitate. De exemplu, înțelegerea dialogului

Pe stradă se toarnă ca o găleată.

Mai trebuie să mergi la magazin: nu e nimic în casă - ieri oaspeții au măturat totul.

se bazează pe conexiuni semantice non-explicite precum „dacă plouă, nu este de dorit să ieși afară, pentru că te poți îmbolnăvi”. Aceste conexiuni formează un script, care este folosit de vorbitorii nativi pentru a înțelege reciproc comportamentul verbal și non-verbal.

Ca rezultat al aplicării scenariului la o situație problemă specifică, a plan). Un plan este utilizat pentru a reprezenta procedural cunoștințele despre posibilele acțiuni care conduc la un obiectiv specific. Un plan leagă un scop cu o secvență de acțiuni.

În cazul general, planul include o succesiune de proceduri care transferă starea inițială a sistemului în cea finală și conduc la atingerea unui anumit subscop și scop. În sistemele AI, planul apare ca urmare a activității de planificare sau planificare a modulului corespunzător - modulul de planificare. Procesul de planificare se poate baza pe adaptarea datelor dintr-unul sau mai multe scenarii, activate prin proceduri de testare, pentru a rezolva o situație problematică. Executarea planului este realizată de un modul executiv care controlează procedurile cognitive și actiuni fizice sisteme. În cazul elementar, un plan într-un sistem inteligent este o simplă succesiune de operații; în versiunile mai complexe, planul este asociat cu un subiect specific, resursele, capacitățile, obiectivele sale, informatii detaliate despre o situație problematică etc. Apariția planului are loc în procesul de comunicare între modelul lumii, o parte din care este format din scenarii, modulul de planificare și modulul executiv.

Spre deosebire de un scenariu, un plan este asociat cu o situație specifică, un anumit interpret și urmărește un obiectiv specific. Alegerea planului este guvernată de resursele contractantului. Fezabilitatea unui plan este o condiție obligatorie pentru generarea acestuia într-un sistem cognitiv, iar caracteristica de fezabilitate este inaplicabilă unui scenariu.

Încă una concept important- modelul lumii. Un model al lumii este de obicei înțeles ca un set de cunoștințe despre lume organizat într-un anumit mod, care este inerent unui sistem cognitiv sau modelului său computerizat. Într-un sens ceva mai general, despre modelul lumii se vorbește ca parte a unui sistem cognitiv care stochează cunoștințe despre structura lumii, tiparele acesteia etc. În alt sens, modelul lumii este asociat cu rezultatele. de înțelegere a textului sau, mai larg, a discursului. În procesul de înțelegere a discursului se construiește modelul mental al acestuia, care este rezultatul interacțiunii dintre planul conținutului textului și cunoștințele despre lume inerente acestui subiect [Johnson-Laird 1988, p. 237 și secv.]. Prima și a doua înțelegere sunt adesea combinate. Acest lucru este tipic pentru cercetătorii lingvistici care lucrează în lingvistica cognitivă și știința cognitivă.

Strâns legat de categoria cadru este conceptul de scenă. Categoria scenei este folosită în principal în literatură ca desemnare a unei structuri conceptuale pentru reprezentarea declarativă a situațiilor și părților acestora actualizate într-un act de vorbire și evidențiate prin mijloace lingvistice (lexeme, construcții sintactice, categorii gramaticale etc.). Fiind asociată cu forme lingvistice, scena este adesea actualizată anumit cuvânt sau expresie. În gramaticile intrigilor (vezi mai jos), o scenă apare ca parte a unui episod sau a unei narațiuni. Exemple tipice scene - un set de cuburi cu care funcționează sistemul AI, scena din poveste și participanții la acțiune etc. În inteligența artificială, scenele sunt utilizate în sistemele de recunoaștere a imaginilor, precum și în programele orientate spre cercetare (analiza, descriere) situații problematice. Conceptul de scenă a devenit larg răspândit în lingvistica teoretică, precum și în logică, în special în semantica situațională, în care sensul unei unități lexicale este direct asociat cu scena.

Portal pentru student. Autoinstruire

Trusa de instrumente de lingvistică computațională.

Direcții de lingvistică computațională.

Setul de instrumente cognitive de lingvistică computațională

ARTICOLE SIMILARE