Dicționar enciclopedic lingvistic. Metode matematice în lingvistica comparată

Formarea lingvisticii structurale la începutul secolelor XIX-XX. Metode statistice în învățarea limbilor străine. Aplicarea metodelor matematice în lingvistică în a doua jumătate a secolului XX. Învățarea limbii prin metode de logică formală. Caracteristici ale traducerii automate.

INTRODUCERE

Capitolul 1. Istoria aplicării metodelor matematice în lingvistică

1.1. Formarea lingvisticii structurale la începutul secolelor XIX-XX

1.2. Aplicarea metodelor matematice în lingvistică în a doua jumătate a secolului XX

Capitolul 2. Exemple selectate de utilizare a matematicii în lingvistică

2.1. Traducere automată

2.2.Metode statistice în învăţarea limbilor străine

2.3. Învățarea unei limbi prin metode de logică formală

2.4. Perspective de aplicare a metodelor matematice în lingvistică

Concluzie

Literatură

Anexa 1. Ronald Schleifer. Ferdinand de Saussure

Anexa 2. Ferdinand de Saussure (traducere)

INTRODUCERE

În secolul al XX-lea, a existat o tendință continuă spre interacțiunea și întrepătrunderea diferitelor domenii ale cunoașterii. Granițele dintre științele individuale se estompează treptat; există din ce în ce mai multe ramuri ale activității mentale care se află „la joncțiunea” cunoștințelor umanitare, tehnice și de științe naturale.

O altă trăsătură evidentă a modernității este dorința de a studia structurile și elementele lor constitutive. Prin urmare, un loc tot mai mare, atât în teoria științifică, cât și în practică, este acordat matematicii. Intrând în contact, pe de o parte, cu logica și filozofia, pe de altă parte, cu statistica (și, în consecință, cu științele sociale), matematica pătrunde din ce în ce mai adânc în acele domenii care multă vreme au fost considerate a fi pur „umanitar”, extinzându-și potențialul euristic (răspunsul la întrebarea „cât” va ajuta adesea să răspundă la întrebările „ce” și „cum”). Lingvistica nu a făcut excepție.

Scopul lucrării mele de curs este de a evidenția pe scurt legătura dintre matematică și o astfel de ramură a lingvisticii precum lingvistica. Începând cu anii 1950, matematica a fost folosită în lingvistică pentru a crea un aparat teoretic de descriere a structurii limbilor (atât naturale, cât și artificiale). În același timp, trebuie spus că nu și-a găsit imediat o astfel de aplicație practică. Inițial, metodele matematice din lingvistică au început să fie utilizate pentru a clarifica conceptele de bază ale lingvisticii, cu toate acestea, odată cu dezvoltarea tehnologiei computerelor, o astfel de premisă teoretică a început să-și găsească aplicare în practică. Rezolvarea unor sarcini precum traducerea automată, recuperarea automată a informațiilor, procesarea automată a textului a necesitat o abordare fundamental nouă a limbii. Lingvistii s-au confruntat cu întrebarea: cum să învețe să reprezinte tiparele lingvistice în forma în care acestea pot fi aplicate direct tehnologiei. Termenul „lingvistică matematică”, care este popular în timpul nostru, se referă la orice cercetare lingvistică care utilizează metode exacte (iar conceptul de metode exacte în știință este întotdeauna strâns legat de matematică). Unii oameni de știință din trecut cred că expresia în sine nu poate fi ridicată la rangul de termen, deoarece nu înseamnă nicio „lingvistică” specială, ci doar o nouă direcție axată pe îmbunătățirea, creșterea acurateței și fiabilității metodelor de cercetare lingvistică. Lingvistica folosește atât metode cantitative (algebrice), cât și necantitative, ceea ce o apropie de logica matematică și, în consecință, de filosofie și chiar de psihologie. Chiar și Schlegel a remarcat interacțiunea dintre limbaj și conștiință, iar Ferdinand de Saussure, un lingvist proeminent de la începutul secolului al XX-lea (voi povesti mai târziu despre influența sa asupra dezvoltării metodelor matematice în lingvistică), a conectat structura limbii cu apartenența ei. oamenilor. Cercetătorul modern L. Perlovsky merge mai departe, identificând caracteristicile cantitative ale limbii (de exemplu, numărul de genuri, cazuri) cu particularitățile mentalității naționale (mai multe despre aceasta în Secțiunea 2.2, „Metode statistice în lingvistică”).

Interacțiunea dintre matematică și lingvistică este un subiect cu mai multe fațete, iar în lucrarea mea nu mă voi opri asupra tuturor, ci, în primul rând, asupra aspectelor aplicate ale acesteia.

Capitolul IIstoria aplicării metodelor matematice în lingvistică

1.1 Formarea lingvisticii structuralela începutul secolelor XIX - XX

Descrierea matematică a limbii se bazează pe ideea de limbă ca mecanism, care se întoarce la faimosul lingvist elvețian de la începutul secolului al XX-lea, Ferdinand de Saussure.

Veragă inițială a conceptului său este teoria limbajului ca sistem format din trei părți (limbajul în sine este limba, discurs - parola, și activitatea de vorbire - limba), în care fiecare cuvânt (membru al sistemului) este considerat nu în sine, ci în legătură cu alți membri. După cum a remarcat mai târziu un alt lingvist proeminent, danezul Louis Hjelmslev, Saussure „a fost primul care a cerut o abordare structurală a limbajului, adică o descriere științifică a limbii prin înregistrarea relațiilor dintre unități”.

Înțelegând limba ca structură ierarhică, Saussure a fost primul care a pus problema valorii și semnificației unităților lingvistice. Fenomenele și evenimentele separate (să zicem, istoria originii cuvintelor individuale indo-europene) ar trebui studiate nu de la sine, ci într-un sistem în care sunt corelate cu componente similare.

Unitatea structurală a limbajului lui Saussure a considerat cuvântul „semn”, în care sunetul și sensul erau combinate. Niciunul dintre aceste elemente nu există unul fără celălalt: de aceea, vorbitorul nativ înțelege diferitele nuanțe ale sensului unui cuvânt polisemantic ca un element separat în ansamblul structural, în limbaj.

Astfel, în teoria lui F. de Saussure se poate observa interacțiunea lingvisticii, pe de o parte, cu sociologia și psihologia socială (de remarcat că, în același timp, fenomenologia lui Husserl, psihanaliza lui Freud, teoria relativității a lui Einstein au fost în curs de dezvoltare, au avut loc experimente asupra formei și conținutului în literatură, muzică și arte plastice), pe de altă parte, cu matematica (conceptul de sistemicitate corespunde conceptului algebric de limbaj). Un astfel de concept a schimbat conceptul de interpretare lingvistică ca atare: Fenomenele au început să fie interpretate nu în raport cu cauzele apariției lor, ci în raport cu prezentul și viitorul. Interpretarea a încetat să mai fie independentă de intențiile unei persoane (în ciuda faptului că intențiile pot fi impersonale, „inconștiente” în sensul freudian al cuvântului).

Funcționarea mecanismului lingvistic se manifestă prin activitatea de vorbire a vorbitorilor nativi. Rezultatul vorbirii sunt așa-numitele „texte corecte” - secvențe de unități de vorbire care se supun anumitor tipare, dintre care multe permit o descriere matematică. Teoria modalităţilor de descriere a structurii sintactice se ocupă cu studiul metodelor de descriere matematică a textelor corecte (în primul rând propoziţii). Într-o astfel de structură, analogiile lingvistice sunt definite nu cu ajutorul calităților lor inerente, ci cu ajutorul relațiilor de sistem („structurale”).

În Occident, ideile lui Saussure sunt dezvoltate de contemporanii mai tineri ai marelui lingvist elvețian: în Danemarca - L. Hjelmslev, deja menționat de mine, care a dat naștere teoriei algebrice a limbajului în lucrarea sa „Fundamentals of Linguistic Theory”, în SUA - E. Sapir, L. Bloomfield, C. Harris, în Cehia - savantul emigrat rus N. Trubetskoy.

Regularitățile statistice în studiul limbajului au început să fie tratate de nimeni altul decât fondatorul geneticii, Georg Mendel. Abia în 1968 filologii au descoperit că, în ultimii ani ai vieții sale, el a fost fascinat de studiul fenomenelor lingvistice folosind metodele matematicii. Mendel a adus această metodă în lingvistică din biologie; în anii 1990, doar cei mai îndrăzneți lingviști și biologi au susținut fezabilitatea unei astfel de analize. În arhivele mănăstirii Sf. Tomasz în Brno, al cărui stareț era Mendel, s-au găsit foi cu coloane de nume de familie terminate în „mann”, „bauer”, „mayer”, și cu unele fracții și calcule. În efortul de a descoperi legile formale ale originii numelor de familie, Mendel face calcule complexe, în care ia în calcul numărul de vocale și consoane din limba germană, numărul total de cuvinte pe care le consideră, numărul de nume de familie, etc.

În țara noastră, lingvistica structurală a început să se dezvolte cam în același timp ca și în Occident - la începutul secolelor XIX-XX. Concomitent cu F. de Saussure, conceptul de limbaj ca sistem a fost dezvoltat în lucrările lor de către profesorii Universității din Kazan F.F. Fortunatov și I.A. Baudouin de Courtenay. Acesta din urmă a corespuns multă vreme cu de Saussure, respectiv școlile de lingvistică de la Geneva și Kazan au colaborat între ele. Dacă Saussure poate fi numit ideologul metodelor „exacte” în lingvistică, atunci Baudouin de Courtenay a pus bazele practice pentru aplicarea lor. El a fost primul care a separat lingvistica (cum exacte o știință care utilizează metode statistice și dependență funcțională) din filologie (o comunitate de discipline umanitare care studiază cultura spirituală prin limbaj și vorbire). Omul de știință însuși credea că „lingvistica poate fi utilă în viitorul apropiat, doar eliberată de uniunea obligatorie cu filologia și istoria literară”. Fonologia a devenit „terenul de testare” pentru introducerea metodelor matematice în lingvistică – sunetele ca „atomi” ai sistemului limbajului, având un număr limitat de proprietăți ușor măsurabile, erau materialul cel mai convenabil pentru metodele formale, riguroase de descriere. Fonologia neagă existența semnificației în sunet, astfel încât factorul „uman” a fost eliminat în studii. În acest sens, fonemele sunt ca obiectele fizice sau biologice.

Fonemele, ca cele mai mici elemente lingvistice acceptabile pentru percepție, reprezintă o sferă separată, o „realitate fenomenologică” separată. De exemplu, în engleză, sunetul „t” poate fi pronunțat diferit, dar în toate cazurile, o persoană care vorbește engleza îl va percepe ca „t”. Principalul lucru este că fonemul își va îndeplini funcția principală - semnificativă. În plus, diferențele dintre limbi sunt de așa natură încât varietățile unui sunet într-o limbă pot corespunde fonemelor diferite într-o altă limbă; de exemplu, „l” și „r” în engleză sunt diferite, în timp ce în alte limbi sunt varietăți ale aceluiași fonem (cum ar fi engleza „t”, pronunțată cu sau fără aspirație). Vocabularul vast al oricărei limbi naturale este un set de combinații ale unui număr mult mai mic de foneme. În engleză, de exemplu, doar 40 de foneme sunt folosite pentru a pronunța și a scrie aproximativ un milion de cuvinte.

Sunetele unei limbi sunt un set de caracteristici organizate sistematic. În anii 1920 -1930, după Saussure, Jacobson și N.S. Trubetskoy au evidențiat „trăsăturile distinctive” ale fonemelor. Aceste caracteristici se bazează pe structura organelor vorbirii - limbă, dinți, corzi vocale. De exemplu, în limba engleză diferența dintre „t” și „d” este prezența sau absența unei „voci” (tensiunea corzilor vocale) și nivelul vocii care distinge un fonem de altul. Astfel, fonologia poate fi considerată un exemplu de regula generală a limbajului descrisă de Saussure: „Există doar diferențe în limbaj”. Și mai important nu este aceasta: diferența implică de obicei condițiile exacte între care se află; dar în limbaj există doar diferenţe fără condiţii precise. Fie că avem în vedere „desemnare” sau „semnificat” - în limbă nu există nici concepte, nici sunete care ar fi existat înainte de dezvoltarea sistemului lingvistic.

Astfel, în lingvistica saussureană, fenomenul studiat este înțeles ca un ansamblu de comparații și opoziții de limbaj. Limbajul este atât o expresie a sensului cuvintelor, cât și un mijloc de comunicare, iar aceste două funcții nu coincid niciodată. Putem observa alternanța formei și a conținutului: contrastele lingvistice definesc unitățile sale structurale, iar aceste unități interacționează pentru a crea un anumit conținut semnificativ. Deoarece elementele limbajului sunt aleatorii, nici contrastul, nici combinația nu pot sta la baza. Aceasta înseamnă că într-o limbă, trăsăturile distinctive formează un contrast fonetic la un nivel diferit de înțelegere, fonemele sunt combinate în morfeme, morfeme - în cuvinte, cuvinte - în propoziții etc. În orice caz, un întreg fonem, cuvânt, propoziție etc. este mai mult decât suma părților sale.

Saussure a propus ideea unei noi științe a secolului XX, separată de lingvistică, studiind rolul semnelor în societate. Saussure a numit această știință semiologie (din greacă „semeion” - un semn). „Știința” semioticii, care s-a dezvoltat în Europa de Est în anii 1920 și 1930 și la Paris în anii 1950 și 1960, a extins studiul limbajului și al structurilor lingvistice în descoperiri literare compuse (sau formulate) cu ajutorul acestor structuri. În plus, în amurgul carierei sale, în paralel cu cursul său de lingvistică generală, Saussure s-a angajat într-o analiză „semiotică” a poeziei romane târzii, încercând să descopere anagrame compuse în mod deliberat ale numelor proprii. Această metodă a fost în multe privințe opusul raționalismului în analiza sa lingvistică: a fost o încercare de a studia într-un sistem problema „probabilității” în limbaj. O astfel de cercetare ajută la concentrarea pe „partea reală” a probabilității; „cuvântul cheie” pentru care Saussure caută o anagramă este, după Jean Starobinsky, „un instrument pentru poet, nu sursa vieții poemului”. Poezia servește la schimbarea sunetelor cuvântului cheie. Potrivit lui Starobinsky, în această analiză, „Saussure nu se adâncește în căutarea semnificațiilor ascunse”. Dimpotrivă, în lucrările sale se remarcă dorința de a evita întrebările legate de conștiință: „de vreme ce poezia se exprimă nu numai în cuvinte, ci și în ceea ce dau naștere acestor cuvinte, ea depășește controlul conștiinței și depinde doar de legile limbajului” (vezi . Anexa 1).

Încercarea lui Saussure de a studia numele proprii în poezia romană târzie subliniază una dintre componentele analizei sale lingvistice - natura arbitrară a semnelor, precum și esența formală a lingvisticii lui Saussure, care exclude posibilitatea analizei sensului. Todorov concluzionează că astăzi lucrările lui Saussure par a fi extrem de consistente în reticența lor de a studia simbolurile unui fenomen care au un sens clar definit [Anexa 1]. Explorând anagrame, Saussure acordă atenție doar repetiției, dar nu și opțiunilor anterioare. . . . Studiind Nibelungenlied, el definește simbolurile doar pentru a le atribui citirilor eronate: dacă sunt neintenționate, simbolurile nu există. Până la urmă, în scrierile sale despre lingvistica generală, el face presupunerea existenței unei semiologii care descrie nu numai semnele lingvistice; dar această presupunere este limitată de faptul că semiologia nu poate descrie decât semne aleatorii, arbitrare.

Dacă este cu adevărat așa, este doar pentru că nu și-ar putea imagina „intenția” fără un obiect; el nu a putut acoperi complet decalajul dintre formă și conținut – în scrierile sale aceasta s-a transformat într-o întrebare. În schimb, a apelat la „legitimitatea lingvistică”. Între, pe de o parte, conceptele secolului al XIX-lea bazate pe istorie și presupuneri subiective și metode de interpretare aleatorie bazate pe aceste concepte și, pe de altă parte, concepte structuraliste care șterg opoziția dintre formă și conținut (subiect și obiect) , sens și origini în structuralism, psihanaliza și chiar mecanica cuantică - scrierile lui Ferdinand de Saussure despre lingvistică și semiotică marchează un punct de cotitură în studiul semnificațiilor în limbă și cultură.

Oamenii de știință ruși au fost reprezentați și la Primul Congres Internațional al Lingvistilor de la Haga în 1928. S. Kartsevsky, R. Yakobson și N. Trubetskoy au făcut un raport care a examinat structura ierarhică a limbii - în spiritul celor mai moderne idei pentru începutul secolului trecut. Jakobson în scrierile sale a dezvoltat ideile lui Saussure conform cărora elementele de bază ale unei limbi ar trebui studiate, în primul rând, în legătură cu funcțiile lor, și nu cu motivele apariției lor.

Din păcate, după ce Stalin a venit la putere în 1924, lingvistica rusă, ca multe alte științe, este aruncată înapoi. Mulți oameni de știință talentați au fost forțați să emigreze, au fost expulzați din țară sau au murit în lagăre. Abia de la mijlocul anilor 1950 a devenit posibil un anumit pluralism de teorii - mai multe despre acest lucru în Secțiunea 1.2.

1.2 Aplicarea metodelor matematice în lingvistică în a doua jumătate a secolului XX

Până la mijlocul secolului al XX-lea s-au format patru școli lingvistice mondiale, fiecare dintre ele s-a dovedit a fi strămoșul unei anumite metode „exacte”. Şcoala Fonologică din Leningrad(strămoșul său a fost un elev al lui Baudouin de Courtenay L.V. Shcherba) a folosit un experiment psiholingvistic bazat pe analiza vorbirii vorbitorilor nativi ca principal criteriu de generalizare a sunetului sub forma unui fonem.

Oamenii de știință Cercul lingvistic din Praga, în special - fondatorul său N.S. Trubetskoy, care a emigrat din Rusia, a dezvoltat teoria opozițiilor - structura semantică a limbii a fost descrisă de ei ca un set de unități semantice construite în mod opozițional - Sem. Această teorie a fost aplicată în studiul nu numai al limbii, ci și al culturii artistice.

Ideologi descriptivismul american au fost lingviştii L. Bloomfield şi E. Sapir. Limbajul a fost prezentat descriptiviștilor ca un set de enunțuri de vorbire, care au constituit obiectul principal al studiului lor. Accentul lor s-a pus pe regulile de descriere științifică (de unde și denumirea) textelor: studiul organizării, așezării și clasificării elementelor lor. Formalizarea procedeelor analitice în domeniul fonologiei și morfologiei (elaborarea de principii pentru studiul limbajului la diferite niveluri, analiza distributivă, metoda constituenților direcți etc.) a condus la formularea unor întrebări generale de modelare lingvistică. Neatenția față de planul conținutului limbii, precum și latura paradigmatică a limbii, nu a permis descriptiviștilor să interpreteze limbajul ca un sistem suficient de deplin.

În anii 1960 s-a dezvoltat teoria gramaticilor formale, care a apărut în principal datorită lucrării filozofului și lingvistului american N. Chomsky. Este considerat pe drept unul dintre cei mai faimoși oameni de știință moderni și personalități publice, îi sunt dedicate multe articole, monografii și chiar un documentar de lungă durată. Sub numele unui mod fundamental nou de a descrie structura sintactică inventată de Chomsky - gramatica generativă (generativă) - tendința corespunzătoare în lingvistică a fost numită generativism.

Chomsky, descendent al imigranților din Rusia, a studiat lingvistica, matematica și filozofia la Universitatea din Pennsylvania din 1945, fiind puternic influențat de profesorul său Zelig Harris - ca și Harris, Chomsky a considerat și consideră în continuare părerile sale politice apropiate de anarhism (încă este cunoscut ca critic al sistemului politic existent al SUA și ca unul dintre liderii spirituali ai antiglobalismului).

Prima lucrare științifică majoră a lui Chomsky, teza de master „Morfologia ebraică modernă » (1951) a rămas nepublicată. Chomsky și-a luat doctoratul de la Universitatea din Pennsylvania în 1955, dar o mare parte din cercetările care stau la baza disertației sale (publicată integral abia în 1975 sub titlul The Logical Structure of Linguistic Theory) și prima sa monografie, Syntactic Structures (1957, Rus. trad. . 1962), a fost interpretat la Universitatea Harvard în 1951-1955. În același 1955, omul de știință s-a mutat la Institutul de Tehnologie din Massachusetts, unde a devenit profesor în 1962.

Teoria lui Chomsky a trecut prin mai multe etape în dezvoltarea sa.

În prima monografie „Syntactic Structures”, omul de știință a prezentat limbajul ca un mecanism de generare a unui set infinit de propoziții folosind un set finit de mijloace gramaticale. Pentru a descrie proprietățile lingvistice, el a propus conceptele de structuri gramaticale profunde (ascunse de percepția directă și generate de un sistem de reguli recursive, adică pot fi aplicate în mod repetat) și de suprafață (percepute direct), precum și transformări care descriu tranziția. de la structurile adânci la cele de suprafață. Mai multe structuri de suprafață pot corespunde unei structuri adânci (de exemplu, o structură pasivă Decretul este semnat de Președinte derivat din aceeași structură profundă ca și constructul activ Președintele semnează decretul) și invers (astfel, ambiguitatea mama iubește fiica descrisă ca rezultatul unei coincidențe a structurilor de suprafață care se întorc la două profunde diferite, în una dintre care mama este cea care iubește fiica, iar în cealaltă, cea care este iubită de fiică).

Teoria standard a lui Chomsky este considerată a fi modelul „Aspecte” prezentat în cartea lui Chomsky „Aspecte ale teoriei sintaxei”. În acest model, pentru prima dată, regulile de interpretare semantică au fost introduse în teoria formală, atribuind sens structurilor profunde. În Aspecte, competența lingvistică se opune utilizării limbajului (performanței), se adoptă așa-numita ipoteză Katz-Postal despre păstrarea sensului în timpul transformării, în legătură cu care se exclude conceptul de transformare opțională, și un aparat de sunt introduse caracteristici sintactice care descriu compatibilitatea lexicală.

În anii 1970, Chomsky a lucrat la teoria controlului și a legării (teoria GB - din cuvintele guvernși legare) este mai generală decât precedentul. În ea, omul de știință a abandonat regulile specifice care descriu structurile sintactice ale limbilor specifice. Toate transformările au fost înlocuite cu o mutare universală. În cadrul teoriei GB, există și module private, fiecare dintre acestea fiind responsabil pentru propria sa parte a gramaticii.

Deja recent, în 1995, Chomsky a prezentat un program minimalist, în care limbajul uman este descris ca limbajul mașinilor. Acesta este doar un program - nu un model sau o teorie. În ea, Chomsky identifică două subsisteme principale ale aparatului limbajului uman: lexicul și sistemul de calcul, precum și două interfețe - fonetică și logică.

Gramaticile formale ale lui Chomsky au devenit clasice pentru a descrie nu numai limbaje naturale, ci și artificiale - în special, limbaje de programare. Dezvoltarea lingvisticii structurale în a doua jumătate a secolului XX poate fi considerată pe bună dreptate o „revoluție chomskiană”.

Scoala Fonologica din Moscova, ai căror reprezentanți au fost A.A. Reformatsky, V.N. Sidorov, P.S. Kuznetsov, A.M. Sukhotin, R.I. Avanesov, a folosit o teorie similară pentru a studia fonetica. Treptat, metodele „exacte” încep să fie aplicate nu numai în ceea ce privește fonetică, ci și sintaxă. Atât lingviştii, cât şi matematicienii, atât aici, cât şi în străinătate, încep să studieze structura limbii. În anii 1950 și 60, în URSS a început o nouă etapă în interacțiunea dintre matematică și lingvistică, asociată cu dezvoltarea sistemelor de traducere automată.

Impulsul pentru începerea acestor lucrări în țara noastră l-au constituit primele dezvoltări în domeniul traducerii automate în Statele Unite (deși primul dispozitiv de traducere mecanizată de P.P. Smirnov-Troyansky a fost inventat în URSS încă din 1933, acesta, fiind primitiv , nu s-a răspândit). În 1947, A. Butt și D. Britten au venit cu un cod pentru traducerea cuvânt cu cuvânt folosind un computer, un an mai târziu, R. Richens a propus o regulă pentru împărțirea cuvintelor în tulpini și terminații în traducerea automată. Acei ani au fost cu totul diferiți de cei de azi. Acestea erau mașini foarte mari și scumpe care ocupau încăperi întregi și necesitau un personal mare de ingineri, operatori și programatori pentru a le întreține. Practic, aceste calculatoare erau folosite pentru a efectua calcule matematice pentru nevoile instituțiilor militare - noul în matematică, fizică și tehnologie a servit, în primul rând, afacerilor militare. În primele etape, dezvoltarea MP a fost susținută activ de armată, cu toate acestea (în condițiile Războiului Rece), direcția ruso-engleză dezvoltată în SUA, iar direcția anglo-rusă în URSS.

În ianuarie 1954, „Experimentul Georgetown” a avut loc la Universitatea Tehnică din Massachusetts - prima demonstrație publică de traducere din rusă în engleză pe mașina IBM-701. Rezumat al mesajului despre trecerea cu succes a experimentului, realizat de D.Yu. Panov, a apărut în RJ „Matematică”, 1954, nr. 10: „Traducerea dintr-o limbă în alta folosind o mașină: un raport asupra primului test de succes”.

D. Yu. Panov (la acea vreme director al Institutului de Informații Științifice - INI, mai târziu VINITI) l-a atras pe I. K. Belskaya, care a condus ulterior grupul de traducere automată de la Institutul de Matematică Preciză și Inginerie Calculatoare al Academiei de Științe a URSS, să lucrează la traducerea automată. Până la sfârșitul anului 1955, prima experiență de traducere din engleză în rusă cu ajutorul aparatului BESM datează. Programele pentru BESM au fost compilate de N.P. Trifonov și L.N. Korolev, a cărui teză de doctorat a fost dedicată metodelor de construire a dicționarelor pentru traducerea automată.

În paralel, s-au desfășurat lucrări de traducere automată la Departamentul de Matematică Aplicată al Institutului de Matematică al Academiei de Științe a URSS (acum Institutul de Matematică Aplicată M.V. Keldysh al Academiei Ruse de Științe). La inițiativa matematicianului A.A. Lyapunov. El a implicat O.S. Kulagin și studenții ei T.D. Wentzel și N.N. Ricco. Ideile lui Lyapunov și Kulagina despre posibilitatea utilizării tehnologiei pentru a traduce dintr-o limbă în alta au fost publicate în revista Nature, 1955, nr. 8. De la sfârşitul anului 1955, T.N. Moloshnaya, care a început apoi să lucreze independent la algoritmul de traducere engleză-rusă.

R. Frumkina, care la acea vreme era implicat în algoritmul de traducere din spaniolă, amintește că în această etapă a lucrării era dificil să se facă pași consecvenți. Mult mai des a trebuit să urmăresc experiența euristică - a mea sau a colegilor.

În același timp, prima generație de sisteme de traducere automată a fost foarte imperfectă. Toate s-au bazat pe algoritmi de traducere secvențială „cuvânt cu cuvânt”, „expresie cu frază” – conexiunile semantice dintre cuvinte și propoziții nu au fost luate în considerare în niciun fel. De exemplu, propozițiile sunt: John își căuta cutia de jucării.În sfârșit l-a găsit. Cutia era în stilou.John era foarte fericit. (John își căuta cutia de jucării. În cele din urmă a găsit-o. Cutia era în tarc. John era foarte fericit.)” „Pen” în acest context nu este un „pix” (instrument de scris), ci un „pix” ( pixă de joacă). Cunoașterea sinonimelor, antonimelor și semnificațiilor figurate este dificil de introdus într-un computer. O direcție promițătoare a fost dezvoltarea sistemelor informatice axate pe utilizarea unui traducător uman.

De-a lungul timpului, sistemele de traducere directă au fost înlocuite cu sistemele T (de la cuvântul englez „transfer” - transformare), în care traducerea s-a realizat la nivelul structurilor sintactice. Algoritmii sistemelor T au folosit un mecanism care a făcut posibilă construirea unei structuri sintactice conform regulilor gramaticale ale limbii propoziției de intrare (asemănător modului în care este predată o limbă străină în liceu), apoi sintetizarea propoziției de ieșire. prin transformarea structurii sintactice și substituirea cuvintelor necesare din dicționar.

Lyapunov a vorbit despre traducere extragând sensul textului tradus și prezentându-l într-o altă limbă. Abordarea construirii sistemelor de traducere automată bazată pe obținerea reprezentării semantice a propoziției de intrare prin analiza semantică și sinteza propoziției de intrare în funcție de reprezentarea semantică obținută este încă considerată cea mai perfectă. Astfel de sisteme se numesc sisteme I (de la cuvântul „interlingua”). În același timp, sarcina de a le crea, retrasă la sfârșitul anilor 50 și începutul anilor 60, nu a fost pe deplin rezolvată până acum, în ciuda eforturilor Federației Internaționale a IFIP - comunitatea mondială a oamenilor de știință în domeniul prelucrării informațiilor. .

Oamenii de știință s-au gândit cum să oficializeze și să construiască algoritmi pentru lucrul cu textele, ce dicționare ar trebui să fie introduse în mașină, ce modele lingvistice ar trebui folosite în traducerea automată. Lingvistica tradițională nu avea astfel de idei - nu numai din punct de vedere semantic, ci și din punct de vedere al sintaxei. La acea vreme, nu existau liste de construcții sintactice pentru nicio limbă, nu erau studiate condițiile de compatibilitate și interschimbabilitate a acestora, nu erau elaborate regulile de construire a unităților mari de structură sintactică din elemente constitutive mai mici.

Nevoia de a crea bazele teoretice ale traducerii automate a condus la formarea și dezvoltarea lingvisticii matematice. Rolul principal în această problemă în URSS l-au jucat matematicienii A.A. Lyapunov, O.S. Kulagina, V.A. Uspensky, lingviştii V.Yu. Rosenzweig, P.S. Kuznetsov, R.M. Frumkina, A.A. Reformatsky, I.A. Melchuk, V.V. Ivanov. Teza lui Kulagina a fost dedicată studiului teoriei formale a gramaticilor (concomitent cu N. Khomsky în SUA), Kuznetsov a propus sarcina de axiomatizare a lingvisticii, care se întoarce la lucrările lui F.F. Fortunatov.

La 6 mai 1960, a fost adoptat Decretul Prezidiului Academiei de Științe a URSS „Cu privire la dezvoltarea metodelor structurale și matematice pentru studiul limbii”, iar diviziile corespunzătoare au fost create la Institutul de Lingvistică și Institutul de limba rusă. Din 1960, principalele universități umanitare ale țării - Facultatea de Filologie a Universității de Stat din Moscova, Leninrad, Universitățile Novosibirsk, Institutul de Stat al Limbilor Străine din Moscova - au început pregătirea personalului în domeniul procesării automate a textului.

În același timp, lucrările de traducere automată din această perioadă, numite „clasice”, prezintă un interes mai mult teoretic decât practic. Sistemele de traducere automată rentabile au început să fie create abia în anii optzeci ai secolului trecut. Voi vorbi despre asta mai târziu în Secțiunea 2.1, Traducere automată.

Anii 1960 - 70 includ dezvoltări teoretice profunde folosind metodele teoriei mulțimilor și logicii matematice, cum ar fi teoria câmpului și teoria mulțimilor fuzzy.

Autorul teoriei câmpului în lingvistică a fost poetul, traducătorul și lingvistul sovietic V.G. Admoni. Și-a dezvoltat inițial teoria pe baza limbii germane. Pentru Admoni, conceptul de „câmp” denotă un set arbitrar nevid de elemente lingvistice (de exemplu, „câmp lexical”, „câmp semantic”).

Structura câmpului este eterogenă: constă dintr-un nucleu, ale cărui elemente au un set complet de caracteristici care definesc o mulțime și o periferie, ale cărei elemente pot avea atât caracteristicile unei mulțimi date (nu toate) si cele vecine. Voi da un exemplu care ilustrează această afirmație: de exemplu, în limba engleză, câmpul cuvintelor compuse („vis cu zi” - „vis” este greu de separat de câmpul expresiilor („gaz lacrimogen” - „gaz lacrimogen”) .

Teoria mulțimilor fuzzy deja menționată mai sus este strâns legată de teoria câmpului. În URSS, lingviştii V.G. Admoni, I.P. Ivanova, G.G. Pochentsov, însă, strămoșul său a fost matematicianul american L. Zadeh, care în 1965 a publicat articolul „Fuzzy Logic”. Dând o justificare matematică pentru teoria mulțimilor fuzzy, Zade le-a considerat pe baza materialului lingvistic.

În această teorie, vorbim nu atât de apartenența elementelor la o mulțime dată (Aa), cât de gradul de apartenență (Aa), întrucât elementele periferice pot aparține mai multor domenii într-un grad sau altul. Zade (Lofti-zade) era originar din Azerbaidjan, până la vârsta de 12 ani a avut practica de a comunica în patru limbi - azeră, rusă, engleză și persană - și a folosit trei alfabete diferite: chirilic, latin, arab. Când un om de știință este întrebat ce este comun între teoria mulțimilor fuzzy și lingvistică, el nu neagă această legătură, dar clarifică: „Nu sunt sigur că studiul acestor limbi a avut o mare influență asupra gândirii mele. Dacă acesta a fost cazul, atunci numai subconștient. În tinerețe, Zadeh a studiat la o școală prezbiteriană din Teheran, iar după al Doilea Război Mondial a emigrat în Statele Unite. „Întrebarea nu este dacă sunt american, rus, azer sau altcineva”, a spus el într-una dintre conversații, „sunt modelat de toate aceste culturi și popoare și mă simt destul de confortabil printre fiecare dintre ele”. În aceste cuvinte există ceva asemănător cu ceea ce caracterizează teoria mulțimilor fuzzy - o abatere de la definițiile neechivoce și categoriile clare.

La noi, în anii '70, au fost traduse și studiate lucrările lingviștilor occidentali din secolul al XX-lea. IN ABSENTA. Melciuk a tradus în rusă lucrările lui N. Chomsky. PE. Slyusareva în cartea ei „Teoria lui F. de Saussure în lumina lingvisticii moderne” conectează postulatele învățăturii lui Saussure cu problemele actuale ale lingvisticii anilor '70. Există o tendință către o continuare a matematizării lingvisticii. Principalele universități naționale formează personal în specialitatea „Lingvistică matematică (teoretică, aplicată). În același timp, în Occident are loc un salt brusc în dezvoltarea tehnologiei informatice, care necesită din ce în ce mai multe baze lingvistice noi.

În anii 1980, profesor la Institutul de Studii Orientale al Academiei de Științe Yu.K. Lekomtsev, în timp ce analizează limbajul lingvisticii prin analiza schemelor, tabelelor și a altor tipuri de notații utilizate în descrierile lingvistice, consideră sistemele matematice adecvate pentru aceste scopuri (în principal sisteme de algebră matriceală).

Astfel, de-a lungul secolului al XX-lea, a existat o convergență a exactului și a umaniștilor. Interacțiunea matematicii cu lingvistica a găsit din ce în ce mai mult aplicații practice. Mai multe despre asta în capitolul următor.

Capitolul 2. Exemple selectate de utilizare a matematicii în lingvistică

2.1 Traducere automată

Ideea traducerii dintr-o limbă în alta cu ajutorul unui mecanism universal a apărut cu câteva secole înainte ca primele dezvoltări în acest domeniu să înceapă - încă din 1649, Rene Descartes a propus ideea unei limbi în care ideile echivalente ale diferite limbi ar fi exprimate printr-un singur simbol. Primele încercări de implementare a acestei idei în anii 1930-40, începutul dezvoltărilor teoretice la mijlocul secolului, îmbunătățirea sistemelor de traducere cu ajutorul tehnologiei în anii 1970-80, dezvoltarea rapidă a tehnologiei de traducere în ultimul deceniu - acestea sunt etapele dezvoltării traducerii automate ca industrie. Din lucrările de traducere automată s-a dezvoltat lingvistica computerizată ca știință.

Odată cu dezvoltarea tehnologiei informatice la sfârșitul anilor 70 și începutul anilor 80, cercetătorii și-au propus obiective mai realiste și mai rentabile - mașina nu a devenit un concurent (cum se presupunea anterior), ci un asistent al unui traducător uman. Traducerea automată încetează să servească exclusiv sarcinilor militare (toate invențiile și cercetările sovietice și americane, concentrate în primul rând pe rusă și engleză, au contribuit într-un fel sau altul la Războiul Rece). În 1978, cuvintele în limbaj natural au fost transmise prin rețeaua interconectată Arpa, iar șase ani mai târziu, au apărut primele programe de traducere pe microcomputer în Statele Unite.

În anii '70, Comisia Comunităților Europene cumpără versiunea engleză-franceză a traductorului computerizat Systran, comandând și versiunile franceză-engleză și italiană-engleză, precum și sistemul de traducere din rusă-engleză folosit de forțele armate americane. Așa s-au pus bazele proiectului EUROTRA.

Despre renașterea traducerii automate în anii 70-80. mărturisesc următoarele fapte: Comisia Comunităților Europene (CEC) cumpără versiunea engleză-franceză a Systran, precum și sistemul de traducere din rusă în engleză (cel din urmă dezvoltat după raportul ALPAC și a continuat să fie utilizat de US Air Force și NASA); în plus, CEC dispune dezvoltarea versiunilor francez-engleză și italiană-engleză. Simultan, există o extindere rapidă a activităților de traducere automată în Japonia; în SUA, Organizaţia Panamericana de Sănătate (PAHO) dispune dezvoltarea unei direcţii spaniolă-engleză (sistemul SPANAM); Forțele aeriene americane finanțează dezvoltarea unui sistem de traducere automată la Centrul de Cercetare Lingvistică de la Universitatea din Texas din Austin; Grupul TAUM din Canada face progrese notabile în dezvoltarea sistemului METEO (traducere meteorologică). O serie de proiecte au început în anii 70 și 80. dezvoltat ulterior în sisteme comerciale cu drepturi depline.

În perioada 1978-93, 20 de milioane de dolari au fost cheltuiți pentru cercetare în domeniul traducerii automate în SUA, 70 de milioane în Europa și 200 de milioane în Japonia.

Una dintre noile dezvoltări este tehnologia TM (memorie de traducere), care funcționează pe principiul acumulării: în timpul procesului de traducere se salvează segmentul original (propoziție) și traducerea acestuia, rezultând formarea unei baze de date lingvistice; dacă se găsește un segment identic sau similar în textul nou tradus, acesta este afișat împreună cu traducerea și o indicație a potrivirii procentuale. Apoi, traducătorul ia o decizie (să editeze, să respingă sau să accepte traducerea), al cărei rezultat este stocat de sistem, astfel încât nu este nevoie să traducă aceeași propoziție de două ori. Un cunoscut sistem comercial bazat pe tehnologia TM este dezvoltat în prezent de sistemul TRADOS (fondat în 1984).

În prezent, câteva zeci de companii dezvoltă sisteme comerciale de traducere automată, printre care: Systran, IBM, L&H (Lernout & Hauspie), Transparent Language, Cross Language, Trident Software, Atril, Trados, Caterpillar Co., LingoWare; Ata Software; Linguistica b.v. si altele.Acum puteti folosi serviciile de traducatori automati direct pe Web: alphaWorks; Traducătorul online PROMT, LogoMedia.net, Serviciul de traducere Babel Fish de la AltaVista; InfiniT.com; Traducerea pe internet.

Sistemele de traducere eficiente din punct de vedere comercial au apărut în a doua jumătate a anilor 80 și la noi. Însuși conceptul de traducere automată s-a extins (a început să includă „crearea unui număr de sisteme și dispozitive automate și automate care realizează automat sau semi-automat întregul ciclu de traducere sau sarcini individuale într-un dialog cu o persoană”) și creditele guvernamentale pentru dezvoltarea acestei industrii au crescut.

Rusă, engleză, germană, franceză și japoneză au devenit principalele limbi ale sistemelor interne de traducere. Centrul de traduceri All-Union (VTsP) a dezvoltat un sistem de traducere din engleză și germană în rusă pe un computer ES-1035-ANRAP. Acesta a constat din trei dicționare - introduse engleză și germană și scoatere rusă - sub un singur software. Existau mai multe dicționare de specialitate interschimbabile - pentru tehnologia calculatoarelor, programare, electronică radio, inginerie mecanică, agricultură, metalurgie. Sistemul putea funcționa în două moduri - automat și interactiv, când ecranul afișează textul sursă și traducerea per frază, pe care o persoană le putea edita. Viteza de traducere a textului în ANRAP (de la începutul tastării până la sfârșitul tipăririi) a fost de aproximativ 100 de pagini pe oră.

În 1989, a fost creată o familie de traducători comerciali de tip SPRINT, care lucrează cu rusă, engleză, germană și japoneză. Principalul lor avantaj a fost compatibilitatea cu computerul IBM - astfel, sistemele autohtone de traducere automată au atins nivelul internațional de calitate. În același timp, este în curs de dezvoltare un sistem de traducere automată din franceză în rusă FRAP, care include 4 etape de analiză a textului: grafematic, morfologic, sintactic și semantic. În LGPI ei. Herzen, se lucrează la un sistem SILOD-MP în patru limbi (engleză, franceză, spaniolă, rusă) (dicționarele engleză-rusă și franco-rusă au fost folosite în mod industrial.

Pentru traducerea de specialitate a textelor de electrotehnică a existat sistemul ETAP-2. Analiza textului introdus în acesta a fost efectuată la două niveluri - morfologic și sintactic. Dicționarul ETAP-2 conținea aproximativ 4 mii de intrări; stadiul transformării textului - aproximativ 1000 de reguli (96 generale, 342 private, restul sunt dicționar). Toate acestea au asigurat o calitate satisfăcătoare a traducerii (să zicem, titlul brevetului „Optical phase grid arrangement and coupling device having a such a arrangement” a fost tradus ca „An optical phase grid device and a connecting device with a such device” – în ciuda faptului că tautologie, sensul este păstrat).

La Institutul Pedagogic de Limbi Străine din Minsk, pe baza dicționarului englez-rus de forme de cuvinte și expresii, a fost inventat un sistem de traducere automată a titlurilor, la Institutul de Studii Orientale al Academiei de Științe - un sistem de traducere din japoneză în rusă. Primul serviciu automat de vocabular și terminologie (SLOTHERM) pentru calcul și programare, creat la Institutul de Cercetare a Sistemelor de Automatizare din Moscova, conținea aproximativ 20.000 de termeni într-un dicționar explicativ și dicționare speciale pentru cercetarea lingvistică.

Sistemele de traducere automată au început treptat să fie utilizate nu numai pentru scopul propus, ci și ca o componentă importantă a sistemelor de învățare automată (pentru predarea traducerii, verificarea ortografiei și cunoștințelor gramaticale).

Anii 90 au adus cu ei dezvoltarea rapidă a pieței PC-urilor (de la desktop la buzunar) și a tehnologiei informației, utilizarea pe scară largă a Internetului (care devine din ce în ce mai internațional și mai multilingv). Toate acestea au făcut ca dezvoltarea în continuare a sistemelor de traducere automată să fie solicitată. De la începutul anilor 1990 Dezvoltatorii autohtoni intră și ei pe piața sistemelor PC.

În iulie 1990, la Forumul PC de la Moscova a fost prezentat primul sistem comercial de traducere automată din Rusia, numit PROMT (Programmer's Machine Translation). a fost înlocuită de o societate pe acțiuni nepublică] „Proiect MT”, iar deja în 1992, compania PROMT a câștigat concursul NASA pentru furnizarea de sisteme MP (PROMT a fost singura companie non-americană din această competiție). întreaga familie de sisteme sub noul nume STYLUS pentru traducerea din engleză, germană, franceză, italiană și spaniolă în rusă și din rusă în engleză, iar în 1993, pe baza STYLUS, a fost creat primul sistem de traducere automată din lume pentru Windows. STYLUS 2.0 pentru Windows 3.X/95/NT a fost lansat, iar în 1995-1996 a treia generație de sisteme de traducere automată, STYLUS 3.0 complet pe 32 de biți pentru Windows 95/NT, a fost introdusă, în același timp, dezvoltarea unui noi, primele sisteme de traducere automată rusă-germană și rusă-franceză din lume.

În 1997, a fost semnat un acord cu compania franceză Softissimo privind crearea de sisteme de traducere din franceză în germană și engleză și invers, iar în decembrie a acestui an a fost lansat primul sistem de traducere germano-franceză din lume. În același an, compania PROMT a lansat un sistem implementat folosind tehnologia Giant, care acceptă mai multe direcții lingvistice într-un singur shell, precum și un traducător special pentru lucrul pe Internet WebTranSite.

În 1998, o întreagă constelație de programe a fost lansată sub noul nume PROMT 98. Un an mai târziu, PROMT a lansat două produse noi: un pachet software unic pentru lucrul pe Internet - PROMT Internet și un traducător pentru sistemele de corespondență corporative - PROMT Mail Traducător. În noiembrie 1999, PROMT a fost recunoscut drept cel mai bun sistem de traducere automată testat de revista franceză PC Expert, depășindu-și concurenții cu 30 la sută. Soluții speciale de server au fost dezvoltate și pentru clienții corporativi - serverul de traduceri corporative PROMT Translation Server (PTS) și soluția Internet PROMT Internet Translation Server (PITS). În 2000, PROMT și-a actualizat întreaga linie de produse software prin lansarea unei noi generații de sisteme MT: PROMT Translation Office 2000, PROMT Internet 2000 și Magic Gooddy 2000.

Traducerea online cu suportul sistemului PROMT este utilizată pe o serie de site-uri interne și străine: Traducător online PROMT, InfiniT.com, Translate.Ru, Lycos etc., precum și în instituții de diferite profiluri pentru traducerea documentelor de afaceri, articole și scrisori (există sisteme de traducere integrate direct în Outlook Express și alți clienți de e-mail).

În zilele noastre, apar noi tehnologii de traducere automată bazate pe utilizarea sistemelor de inteligență artificială și a metodelor statistice. Despre acesta din urmă - în secțiunea următoare.

2.2 Suplimentarmetode ice în învățarea limbilor străine

O atenție considerabilă în lingvistica modernă este acordată studiului fenomenelor lingvistice folosind metodele matematicii cantitative. Datele cantitative ajută adesea la o înțelegere mai profundă a fenomenelor studiate, a locului și a rolului acestora în sistemul fenomenelor conexe. Răspunsul la întrebarea „cât” ajută la răspunsul la întrebările „ce”, „cum”, „de ce” - acesta este potențialul euristic al unei caracteristici cantitative.

Metodele statistice joacă un rol semnificativ în dezvoltarea sistemelor de traducere automată (a se vedea secțiunea 2.1). În abordarea statistică, problema traducerii este considerată în termenii unui canal zgomotos. Imaginați-vă că trebuie să traducem o propoziție din engleză în rusă. Principiul canalului zgomotos ne oferă următoarea explicație a relației dintre o propoziție în engleză și o propoziție rusă: o propoziție în engleză nu este altceva decât o propoziție rusă distorsionată de un fel de zgomot. Pentru a recupera propoziția originală în limba rusă, trebuie să știm ce spun oamenii de obicei în rusă și cum sunt distorsionate frazele rusești în engleză. Traducerea se realizează prin căutarea unei astfel de propoziții rusești care maximizează produsele probabilității necondiționate a propoziției rusești și probabilitatea propoziției în limba engleză (originală) dată fiind propoziția rusă dată. Conform teoremei lui Bayes, această propoziție rusă este cea mai probabilă traducere a englezei:

unde e este propoziția de traducere și f este propoziția originală

Deci avem nevoie de un model sursă și un model de canal, sau un model de limbă și un model de traducere. Modelul lingvistic trebuie să atribuie un scor de probabilitate oricărei propoziții în limba țintă (în cazul nostru, rusă), iar modelul de traducere propoziției originale. (vezi tabelul 1)

În general, un sistem de traducere automată funcționează în două moduri:

1. Antrenament de sistem: se ia un corpus de instruire de texte paralele și, folosind programarea liniară, se caută astfel de valori ale tabelelor de corespondență de traducere care maximizează probabilitatea (de exemplu) a părții ruse a corpusului cu limba engleză disponibilă conform la modelul de traducere selectat. Un model al limbii ruse este construit pe partea rusă a aceluiași corpus.

2. Exploatarea: pe baza datelor obținute pentru o propoziție engleză necunoscută, se caută un rus care maximizează produsul probabilităților atribuite de modelul lingvistic și modelul de traducere. Programul folosit pentru o astfel de căutare se numește decodor.

Cel mai simplu model de traducere statistică este modelul de traducere literală. În acest model, se presupune că pentru a traduce o propoziție dintr-o limbă în alta, este suficient să traduceți toate cuvintele (creați o „pungă de cuvinte”), iar modelul va oferi plasarea lor în ordinea corectă. P(a, f | e) la P(a | e, f), adică. probabilitățile unei aliniamente date având în vedere o pereche de propoziții, fiecare probabilitate P(a, f | e) este normalizată prin suma probabilităților tuturor aliniamentelor unei perechi date de propoziții:

Implementarea algoritmului Viterbi folosit pentru a antrena Modelul #1 este după cum urmează:

1. Întregul tabel de probabilități de corespondență de translație este umplut cu aceleași valori.

2. Pentru toate variantele posibile de conexiuni perechi ale cuvintelor, se calculează probabilitatea P(a, f | e):

3. Valorile lui P(a, f | e) sunt normalizate pentru a obține valorile lui P(a | e, f).

4. Se calculează frecvența fiecărei perechi de translație, ponderată cu probabilitatea fiecărei opțiuni de aliniere.

5. Frecvențele ponderate rezultate sunt normalizate și formează un nou tabel de probabilități de corespondență de translație

6. Algoritmul se repetă de la pasul 2.

Luați în considerare, ca exemplu, antrenamentul unui model similar pe un corpus de două perechi de propoziții (Fig. 2):

casa Alba

După un număr mare de iterații, vom obține un tabel (Tabelul 2), care arată că traducerea se realizează cu o mare precizie.

De asemenea, metodele statistice sunt utilizate pe scară largă în studiul vocabularului, morfologiei, sintaxei și stilului. Oamenii de știință de la Universitatea de Stat din Perm au efectuat un studiu bazat pe afirmația că frazele stereotipe sunt un „material de construcție” important al textului. Aceste fraze constau din cuvinte repetate „nucleare” și specificatori de cuvinte dependenți și au o colorare stilistică pronunțată.

În stilul științific, cuvintele „nucleare” pot fi numite: cercetare, studiu, sarcină, problemă, întrebare, fenomen, fapt, observație, analiză etc. În jurnalism, alte cuvinte vor fi „nucleare”, care au o valoare sporită specific pentru textul ziarului: timp, persoană, putere, afaceri, acțiune, lege, viață, istorie, loc etc. (total 29)

Un interes deosebit pentru lingviști este și diferențierea profesională a limbii naționale, particularitatea utilizării vocabularului și gramaticii, în funcție de tipul de ocupație. Se știe că șoferii în vorbirea profesională folosesc forma sh despre fer, medicii spun k despre club în loc de cocktail Yu sh - pot fi date astfel de exemple. Sarcina statisticilor este de a urmări variabilitatea pronunției și schimbarea normei de limbă.

Diferențele profesionale duc la diferențe nu numai gramaticale, ci și lexicale. Universitatea de Stat Yakut poartă numele M.K. Ammosov, au fost analizate 50 de chestionare cu cele mai frecvente reacții la anumite cuvinte în rândul medicilor și constructorilor (Tabelul 3).

		Constructorii
uman	pacient (10), personalitate (5)	barbat (5)
bun	ajutor (8), ajutor (7)	rău (16)
viaţă	moarte (10)	minunat (5)
moarte	cadavru (8)	viata (6)
focul	căldură (8), arde (6)	foc (7)
deget	mână (14), panaritium (5)	mare (7), index (6)
ochi	vedere (6), elev, oftalmolog (5 fiecare)	maro (10), mare (6)
cap	minte (14), creier (5)	mare (9), inteligent (8), inteligent (6)
pierde	conștiință, viață (4 fiecare)	bani (5), găsi (4)

Se poate observa că medicii mai des decât constructorii oferă asociații legate de activitățile lor profesionale, întrucât cuvintele de stimulare date în chestionar au mai mult de-a face cu profesia lor decât cu profesia de constructor.

Regularitățile statistice într-o limbă sunt folosite pentru a crea dicționare de frecvență - dicționare care oferă caracteristici numerice ale frecvenței cuvintelor (forme de cuvinte, fraze) din orice limbă - limba scriitorului, orice lucrare etc. De obicei, frecvența de apariție a un cuvânt este folosit ca o caracteristică a frecvenței de apariție a unui cuvânt în textul unui anumit volum

Modelul de percepție a vorbirii este imposibil fără un dicționar ca componentă esențială. În percepția vorbirii, unitatea operațională de bază este cuvântul. Din aceasta rezultă, în special, că fiecare cuvânt al textului perceput trebuie identificat cu unitatea corespunzătoare a vocabularului intern al ascultătorului (sau al cititorului). Este firesc să presupunem că de la bun început căutarea este limitată la unele subdomenii ale dicționarului. Potrivit majorității teoriilor moderne ale percepției vorbirii, analiza fonetică reală a textului care sună într-un caz tipic oferă doar câteva informații parțiale despre posibila apariție fonologică a cuvântului, iar acest tip de informații corespunde nu unuia, ci unui anumit MULTE cuvinte. a dicționarului; Prin urmare, apar două probleme:

(a) selectați setul corespunzător în funcție de anumiți parametri;

(b) în limitele setului subliniat (dacă este alocat în mod adecvat) să „elimine” toate cuvintele, cu excepția singurului care corespunde cel mai bine cuvântului dat din textul recunoscut. Una dintre strategiile de „renunțare” este excluderea cuvintelor cu frecvență joasă. Rezultă că vocabularul pentru percepția vorbirii este un dicționar de frecvență. Crearea unei versiuni pe computer a dicționarului de frecvență al limbii ruse este sarcina inițială a proiectului prezentat.

Pe baza materialului limbii ruse, există 5 dicționare de frecvență (fără a număra dicționarele de ramuri). Să remarcăm doar câteva deficiențe generale ale dicționarelor existente.

Toate dicționarele de frecvență cunoscute ale limbii ruse se bazează pe procesarea matricelor de texte scrise (tipărite). Parțial din acest motiv, atunci când identitatea unui cuvânt se bazează în mare măsură pe coincidențe formale, grafice, semantica nu este suficient luată în considerare. Ca urmare, caracteristicile frecvenței sunt de asemenea deplasate, distorsionate; de exemplu, dacă compilatorul dicționarului de frecvență include cuvinte din combinația „unul pe altul” în statisticile generale ale utilizării cuvântului „prieten”, atunci acest lucru este greu justificat: având în vedere semantica, trebuie să admitem că acestea sunt deja cuvinte diferite, sau mai degrabă, că o unitate independentă de dicționar este doar combinația în ansamblu.

De asemenea, în toate dicționarele existente, cuvintele sunt plasate numai în formele lor de bază: substantive la forma singular, caz nominativ, verbe la forma infinitivă etc. Unele dintre dicționare oferă informații despre frecvența formelor de cuvinte, dar de obicei nu o fac suficient de consecvent, nu într-un mod exhaustiv. Frecvențele diferitelor forme de cuvânt ale aceluiași cuvânt evident nu se potrivesc. Dezvoltatorul unui model de percepție a vorbirii trebuie să țină cont de faptul că într-un proces perceptiv real, tocmai o formă specifică a cuvântului care este „cufundată” în text este supusă recunoașterii: pe baza analizei secțiunii inițiale a exponentului. din forma cuvântului, se formează un set de cuvinte cu început identic, iar secțiunea inițială a formei cuvântului nu este neapărat identică cu secțiunea inițială a formei de dicționar. Este forma cuvântului care are o structură ritmică specifică, care este și un parametru extrem de important pentru selecția perceptivă a cuvintelor. În sfârșit, în reprezentarea finală a enunțului recunoscut, din nou, cuvintele sunt reprezentate prin formele de cuvânt corespunzătoare.

Există multe lucrări care demonstrează importanța frecvenței în procesul de percepție a vorbirii. Dar nu cunoaștem lucrări în care s-ar folosi frecvența formelor de cuvinte - dimpotrivă, toți autorii ignoră practic frecvența formelor de cuvinte individuale, referindu-se exclusiv la lexeme. Dacă rezultatele obținute de aceștia nu sunt considerate artefacte, trebuie să presupunem că vorbitorul nativ are cumva acces la informații despre raportul dintre frecvențele formelor de cuvânt și formele de dicționar, adică, de fapt, lexeme. Mai mult, o astfel de trecere de la o formă de cuvânt la un lexem, desigur, nu poate fi explicată prin cunoașterea firească a paradigmei corespunzătoare, deoarece informațiile de frecvență trebuie folosite înainte de identificarea finală a cuvântului, altfel pur și simplu își pierde sensul.

În funcție de caracteristicile statistice primare, este posibil să se determine cu o eroare relativă dată acea parte a dicționarului, care include cuvinte cu o frecvență mare de apariție, indiferent de tipul textului. De asemenea, este posibilă, prin introducerea în dicționar a ordinii treptate, să se obțină o serie de dicționare care acoperă primele 100, 1000, 5000 etc. de cuvinte frecvente. Caracteristicile statistice ale dicționarului sunt de interes în legătură cu analiza semantică a vocabularului. Studiul grupurilor subiect-ideologice și al câmpurilor semantice arată că asocierile lexicale sunt susținute de legături semantice care sunt concentrate în jurul lexemelor cu cel mai comun sens. Descrierea semnificațiilor din câmpul lexico-semantic poate fi realizată prin identificarea cuvintelor cu cele mai abstracte lexeme în sens. Aparent, unitățile de dicționar „goale” (din punct de vedere al potențelor nominative) constituie un strat omogen statistic.

Vocabularele pentru genuri individuale nu sunt mai puțin valoroase. Studierea măsurării asemănării lor și a naturii distribuțiilor statistice va oferi informații interesante despre stratificarea calitativă a vocabularului în funcție de sfera de utilizare a vorbirii.

Compilarea dicționarelor cu frecvență mare necesită utilizarea tehnologiei computerizate. INTRODUCEREA mecanizării și automatizării parțiale în procesul de lucru la un dicționar este de interes ca experiment în prelucrarea automată a dicționarelor pentru diferite texte. Un astfel de dicționar necesită un sistem mai riguros de prelucrare și acumulare a materialului de vocabular. În miniatură, acesta este un sistem de regăsire a informațiilor care este capabil să ofere informații despre diverse aspecte ale textului și vocabularului. Câteva solicitări de bază către acest sistem sunt planificate încă de la început: numărul total de cuvinte de inventar, caracteristicile statistice ale unui singur cuvânt și ale dicționarelor întregi, ordonarea zonelor frecvente și rare ale dicționarului etc. Fișierul cardului aparatului vă permite pentru a construi automat dicționare inverse pentru genuri și surse individuale. Multe alte informații statistice utile despre limbă vor fi extrase din șirul de informații acumulat. Dicționarul de frecvență computerizat creează o bază experimentală pentru tranziția la o automatizare mai extinsă a muncii vocabularului.

Datele statistice ale dicționarelor de frecvență pot fi, de asemenea, utilizate pe scară largă în rezolvarea altor probleme lingvistice - de exemplu, în analizarea și determinarea mijloacelor active de formare a cuvintelor din limba rusă modernă, rezolvarea problemelor de îmbunătățire a graficii și ortografiei, care sunt legate de luarea în considerare. ține cont de informații statistice despre vocabular (cu toate acestea, este important să se țină cont de caracteristicile probabilistice ale combinațiilor de grafeme, tipuri de combinații de litere realizate în cuvinte), transcripție practică și transliterare. Parametrii statistici ai dicționarului vor fi de asemenea utili în rezolvarea problemelor de automatizare a tastării, recunoașterii și citirii automate a textului literal.

Dicționarele explicative și gramaticile moderne ale limbii ruse sunt construite în principal pe baza textelor literare și artistice. Există dicționare de frecvență ale lui A.S. Pușkin, A.S. Griboedova, F.M. Dostoievski, V.V. Vysotsky și mulți alți autori. La Departamentul de Istorie și Teoria Literaturii din Statul Smolensk. Universitatea Pedagogică lucrează de câțiva ani la alcătuirea dicționarelor de frecvență ale textelor poetice și în proză. Pentru acest studiu, au fost selectate dicționare de frecvență ale tuturor versurilor lui Pușkin și încă doi poeți ai epocii de aur - „Vai de înțelepciune” de Griboedov și toată poezia lui Lermontov; Pasternak și alți cinci poeți ai epocii de argint - Balmont 1894-1903, „Poezii despre frumoasa doamnă” de Blok, „Piatra” de Mandelstam, „Stâlpul de foc” de Gumilyov, „Anno Domini MCMXXI” de Akhmatova și „Sorurile lui”. Viața mea” de Pasternak și încă patru poeți ai epocii fierului – „Poezii de Yuri Jivago”, „Când se limpezește”, întreg corpul de versuri de M. Petrovs, „Drumul e departe”, „Parbriz”, „Adio zăpezii” și „Pocoave” de Mezhirov, „Antimirov” de Voznesensky și „Snezhnitsy » Rylenkova.

Trebuie remarcat faptul că aceste dicționare sunt de natură diferită: unele reprezintă vocabularul unei opere dramatice, altele - cărți de versuri, sau mai multe cărți, sau întregul corpus de poezii ale poetului. Rezultatele analizei prezentate în această lucrare trebuie luate cu prudență, ele nu pot fi luate ca un absolut. În același timp, cu ajutorul unor măsuri speciale, diferența de natura ontologică a textelor poate fi redusă într-o anumită măsură.

În ultimii ani, opoziția dintre vorbirea colocvială și cea de carte a devenit din ce în ce mai clar realizată. Această problemă este discutată în mod deosebit în rândul metodologilor care cer o întorsătură a predării către limba vorbită. În același timp, specificul vorbirii colocviale rămâne încă neexplicat.

Dicționarele au fost procesate prin crearea unei aplicații utilizator în mediul programului de birou EXCEL97. Aplicația include patru foi de lucru ale cărții EXCEL - „Fișa de titlu”, fișa „Dicționare” cu date inițiale, „Apropiere” și „Distanțe” cu rezultate, precum și un set de macrocomenzi.

Informațiile inițiale sunt introduse pe foaia „Dicționare”. În celulele EXCEL se scriu dicționare ale textelor studiate, ultima coloană S este formată din rezultatele obținute și este egală cu numărul de cuvinte găsite în alte dicționare. Tabelele „Proximitate” și „Distanțe” conțin măsuri calculate ale proximității M, corelației R și distanței D.

Macro-urile aplicației sunt proceduri de programare bazate pe evenimente scrise în Visual Basic for Application (VBA). Procedurile se bazează pe obiectele bibliotecii VBA și pe metodele lor de procesare. Deci, pentru operațiunile cu foi de lucru ale aplicației, se utilizează obiectul cheie Foaie de lucru (foaia de lucru) și metoda corespunzătoare de activare a foii Activare (activare). Setarea intervalului de date sursă analizate pe foaia de dicționar se realizează prin metoda Select a obiectului Range (gamă), iar transferul cuvintelor ca valori la variabile se realizează ca proprietate Value (valoare) a aceluiași interval. obiect.

În ciuda faptului că analiza corelației de rang ne face să fim precauți cu privire la dependența subiectelor între diferite texte, majoritatea cuvintelor cele mai frecvente din fiecare text au potriviri în unul sau mai multe alte texte. Coloana S arată numărul de astfel de cuvinte dintre cele 15 cuvinte cele mai frecvente pentru fiecare autor. Cuvintele cu caractere aldine apar doar în cuvintele unui poet din tabelul nostru. Blok, Akhmatova și Petrovs nu au deloc cuvinte evidențiate, au S = 15. Acești trei poeți au aceleași 15 cuvinte cele mai frecvente, diferă doar în locul din listă. Dar chiar și Pușkin, al cărui vocabular este cel mai original, are S = 8 și sunt 7 cuvinte evidențiate.

Rezultatele arată că există un anumit strat de vocabular care concentrează principalele teme ale poeziei. De regulă, aceste cuvinte sunt scurte: din numărul total (225) de utilizări de cuvinte cu o singură silabă 88, două silabe 127, trei silabe 10. Adesea, aceste cuvinte reprezintă principalele mitologie și se pot împărți în perechi: noapte - zi, pământ - cer (soare), Dumnezeu - om (oameni), viață - moarte, trup - suflet, Roma - lume(la Mandelstam); pot fi combinate în mitologie de un nivel superior: cer, stea, soare, pământ; la o persoană, de regulă, corpul, inima, sângele, brațul, piciorul, obrazul, ochii ies în evidență. Dintre stările umane, se preferă somnul și iubirea. Casa și orașele aparțin lumii umane - Moscova, Roma, Paris. Creativitatea este reprezentată de lexeme cuvântși cântec.

Griboedov și Lermontov nu au aproape niciun cuvânt care să desemneze natura printre cele mai frecvente cuvinte. Au de trei ori mai multe cuvinte care desemnează o persoană, părți ale corpului său, elemente ale lumii sale spirituale. Pușkin și poeții secolului al XX-lea. desemnările omului și ale naturii sunt aproximativ egale. În acest aspect important al subiectului, putem spune că secolul al XX-lea. a urmat Pușkin.

Tema minimă o afacere printre cele mai frecvente cuvinte, se găsește numai la Griboedov și Pușkin. Lermontov și poeții secolului al XX-lea. face loc unei teme minimale cuvânt. Cuvântul nu exclude faptele (interpretarea biblică a subiectului: în Noul Testament, toate învățăturile lui Isus Hristos sunt privite drept cuvântul lui Dumnezeu sau cuvântul lui Isus, iar apostolii se numesc uneori slujitori ai Cuvântului). Sensul sacru al cuvântului lexem se manifestă în mod convingător, de exemplu, în versetul lui Pasternak „Și imaginea lumii, revelată în Cuvânt”. Sensul sacru al lexemului cuvântîn legătură cu și în contrast cu treburile umane, se manifestă în mod convingător în poemul cu același nume de Gumiliov.

Jetoanele care se găsesc doar într-un text caracterizează originalitatea unei anumite cărți sau a unei colecții de cărți. De exemplu, cuvântul „minte” este cel mai frecvent în comedia lui Griboedov „Vai de înțelepciune” – dar nu apare printre cuvintele de frecvență ale altor texte. Tema minții este de departe cea mai semnificativă din comedie. Acest lexem însoțește imaginea lui Chatsky, iar numele lui Chatsky este cel mai frecvent în comedie. Astfel, lucrarea îmbină organic cel mai frecvent substantiv comun cu cel mai frecvent nume propriu.

Cel mai mare coeficient de corelație leagă temele cărților tragice ale lui Gumilyov „Stâlpul de foc” și „Anno Domini MCMXXI” a lui Ahmatova. Printre cele mai frecvente 15 substantive, se numără 10 cele comune, printre care sânge, inimă, suflet, iubire, cuvânt, cer. Amintiți-vă că cartea lui Akhmatova a inclus o miniatură „Nu veți fi în viață...”, scrisă între arestarea lui Gumilyov și execuția sa.

Temele lumânării și ale mulțimii din materialul studiat se regăsesc doar în „Poeziile lui Yuri Jivago”. Tema lumânării din versurile din roman are multe semnificații contextuale: este asociată cu imaginea lui Iisus Hristos, cu temele credinței, nemuririi, creativității, data iubirii. Lumânarea este cea mai importantă sursă de lumină din scenele centrale ale romanului. Tema mulțimii se dezvoltă în legătură cu ideea principală a romanului, în care viața privată a unei persoane cu valorile sale de nezdruncinat se opune imorității noului stat, construită pe principiile mulțumirii mulțimii. .

Lucrarea implică și a treia etapă, reflectată și în program - acesta este calculul diferenței numerelor ordinale ale cuvintelor comune două dicționare și distanța medie dintre aceleași cuvinte ale două dicționare. Această etapă permite trecerea de la tendințele generale în interacțiunea dicționarelor identificate cu ajutorul statisticilor la un nivel apropiat de text. De exemplu, cărțile lui Gumilyov și Akhmatova se corelează semnificativ statistic. Ne uităm la ce cuvinte s-au dovedit a fi comune pentru dicționarele lor și, în primul rând, le alegem pe acelea ale căror numere de serie diferă minim sau egal cu zero. Aceste cuvinte au același număr de rang și, în consecință, aceste teme minime din mintea celor doi poeți sunt la fel de importante. În continuare, ar trebui să treceți la nivelul textelor și contextelor.

Metodele cantitative ajută și la studiul caracteristicilor popoarelor - vorbitori nativi. Să spunem, există 6 cazuri în rusă, nu există cazuri în engleză, iar în unele limbi ale popoarelor din Daghestan, numărul de cazuri ajunge la 40. L. Perlovsky în articolul său „Conștiință, limbă și cultură” le corelează. caracteristici cu tendinta popoarelor spre individualism sau colectivism, cu perceperea lucrurilor si fenomenelor separat sau in legatura cu altele. La urma urmei, în lumea vorbitoare de limbă engleză (nu există cazuri - lucrul este perceput „de la sine”) au apărut concepte precum libertatea individuală, liberalismul și democrația (observ că folosesc aceste concepte numai în legătură cu limbaj, fără caracteristici evaluative). În ciuda faptului că astfel de presupuneri rămân încă doar la nivelul ipotezelor științifice îndrăznețe, ele ajută la privirea fenomenelor deja familiare într-un mod nou.

După cum putem vedea, caracteristicile cantitative pot fi aplicate în domenii complet diferite ale lingvisticii, ceea ce estompează din ce în ce mai mult granițele dintre metodele „exacte” și „umanitare”. Lingvistica recurge din ce în ce mai mult la ajutorul nu numai al matematicii, ci și al tehnologiei informatice pentru a-și rezolva problemele.

2.3 Învățare Ilimbajul prin metode ale logicii formale

Cu metodele necantitative ale matematicii, în special cu logica, lingvistica teoretică modernă interacționează nu mai puțin fructuos decât cu cele cantitative. Dezvoltarea rapidă a tehnologiilor informatice și creșterea rolului lor în lumea modernă a impus o revizuire a modului de abordare a interacțiunii limbajului și a logicii în general.

Metodele logicii sunt utilizate pe scară largă în dezvoltarea limbajelor formalizate, în special a limbajelor de programare, ale căror elemente sunt unele simboluri (asemănătoare cu cele matematice), alese (sau construite din simboluri selectate anterior) și interpretate într-un anumit mod, legate la orice utilizare „tradițională”, înțelegere și înțelegere.funcții ale acelorași simboluri în alte contexte. Un programator se ocupă constant de logica în munca sa. Sensul programării este doar de a învăța computerul să raționeze (în sensul cel mai larg al cuvântului). În același timp, metodele de „raționament” se dovedesc a fi foarte diferite. Fiecare programator petrece o anumită perioadă de timp căutând erori în programele proprii și ale altora. Adică să caute erori în raționament, în logică. Și asta își lasă amprenta. Este mult mai ușor să detectezi erori logice în vorbirea obișnuită. Simplitatea relativă a limbilor studiate de logicieni le permite să elucideze structurile acestor limbi mai clar decât este realizabil de lingviștii care analizează exclusiv limbi naturale complexe. Având în vedere faptul că limbile studiate de logicieni folosesc relații copiate din limbile naturale, logicienii sunt capabili să aducă contribuții semnificative la teoria generală a limbajului. Situația de aici este similară cu cea care are loc în fizică: fizicianul formulează și teoreme pentru cazurile ideal simplificate care nu apar deloc în natură - formulează legi pentru gazele ideale, lichidele ideale, vorbește despre mișcare în absența frecării, etc. Pentru aceste cazuri idealizate se pot stabili legi simple care ar contribui foarte mult la înțelegerea a ceea ce se întâmplă cu adevărat și a ceea ce probabil ar rămâne necunoscut fizicii dacă ar încerca să ia în considerare realitatea în mod direct, în toată complexitatea ei.

În studiul limbilor naturale, se folosesc metode logice, astfel încât cursanții de limbi străine să nu poată „memora” în mod prostesc cât mai multe cuvinte posibil, ci să înțeleagă mai bine structura acesteia. L. Shcherba a folosit și în prelegerile sale un exemplu de propoziție construită în conformitate cu legile limbii ruse: „Strălucitorul kuzdra shteko a bokra bokra și curlează bokra”, apoi i-a întrebat pe studenți ce înseamnă asta. În ciuda faptului că sensul cuvintelor din propoziție a rămas neclar (pur și simplu nu există în rusă), a fost posibil să se răspundă clar: „kuzdra” este subiectul, un substantiv feminin, la singular, caz nominativ, „ bokr” este animat, etc. Traducerea frazei se dovedește a fi ceva de genul: „Ceva feminin dintr-o singură mișcare a făcut ceva peste un fel de creatură masculină și apoi a început să facă ceva de genul acesta pentru o perioadă lungă, treptată, cu puiul său”. Un exemplu asemănător de text (artistic) din cuvinte inexistente, construit în întregime după legile limbii, este Jabberwock a lui Lewis Carroll (în Alice în Țara Minunilor, Carroll, prin gura personajului său Humpty Dumpty, explică sensul cuvintele pe care le-a inventat: „cooked” - ora opt seara, când este timpul să gătească cina, „chlivky” - slab și abil, „shorek” - o încrucișare între un dihor, un bursuc și un tirbușon, „dive " - sare, scufundare, învârtire, "nava" - iarbă sub cadranul solar (se extinde puțin spre dreapta, puțin spre stânga și puțin înapoi), „mormăie” - mormăi și râs, „zelyuk” - a curcan verde, „myumzik” - o pasăre; penele ei sunt dezordonate și ies în toate direcțiile, ca o mătură, „mova” - departe de casă) .

Unul dintre principalele concepte ale logicii moderne și ale lingvisticii teoretice, utilizate în studiul limbilor de calcul logico-matematic, limbi naturale, pentru a descrie relația dintre limbile de diferite „niveluri” și pentru a caracteriza relația dintre limbile luate în considerare și disciplinele descrise cu ajutorul lor, este conceptul de metalimbaj. Un metalimbaj este un limbaj folosit pentru a exprima judecăți despre o altă limbă, limbajul-obiect. Cu ajutorul unui metalimbaj, ei studiază structura combinațiilor de caractere (expresii) ale limbajului-obiect, demonstrează teoreme despre proprietățile sale expresive, despre relația sa cu alte limbi etc. Limba studiată este numită și limba subiectului în raport cu acest metalimbaj. Atât limbajul subiectului, cât și metalanajul pot fi limbi obișnuite (naturale). Metalimbajul poate diferi de limba obiectului (de exemplu, într-un manual de engleză pentru ruși, rusă este metalimba, iar engleza este limba obiectului), dar poate să coincidă și cu aceasta sau să difere doar parțial, de exemplu, în terminologia specială (Terminologia lingvistică rusă este un element al metalimbajului pentru a descrie limba rusă, așa-numiții factori semantici fac parte din metalimbaj pentru a descrie semantica limbilor naturale).

Conceptul de „metalimbaj” a devenit foarte fructuos în legătură cu studiul limbilor formalizate care sunt construite în cadrul logicii matematice. Spre deosebire de limbajele de subiect formalizate, în acest caz metalimbajul, prin intermediul căruia se formulează metateoria (studiind proprietățile teoriei subiectului formulate în limbajul subiectului), este, de regulă, un limbaj natural obișnuit, într-un mod special un fragment limitat al unui limbaj natural care nu conține niciun fel de ambiguitate, metafore, concepte „metafizice” etc. elemente ale limbajului obișnuit care împiedică utilizarea acestuia ca instrument de cercetare științifică precisă. În același timp, metalimbajul însuși poate fi formalizat și (indiferent de acest lucru) devine subiect de cercetare efectuată prin intermediul metametalimbajului, iar o astfel de serie poate fi „gândită” ca în creștere la nesfârșit.

Logica ne învață o distincție fructuoasă între limbaj-obiect și metalimbaj. Limbajul-obiect este chiar subiectul cercetării logice, iar metalimbajul este acel limbaj inevitabil artificial în care se desfășoară o astfel de cercetare. Gândirea logică constă doar în formularea relațiilor și structurii unui limbaj real (limbaj obiect) în limbajul simbolurilor (metalimbaj).

Metalimbajul trebuie să fie în orice caz „nu mai sărac” decât limbajul său obiectiv (adică pentru fiecare expresie a acestuia din urmă în metalimbaj trebuie să existe numele său, „traducere”) - în caz contrar, dacă aceste cerințe nu sunt îndeplinite (ceea ce cu siguranță are loc în limbaje naturale, dacă acordurile speciale nu prevăd altfel) apar paradoxuri semantice (antinomii).

Pe măsură ce s-au creat tot mai multe limbaje de programare noi, în legătură cu problema traducătorilor de programare, a apărut o nevoie urgentă de a crea metalimbaje. În prezent, metalimbajul formei Backus-Naur (abreviat ca BNF) este cel mai frecvent utilizat pentru descrierea sintaxei limbajelor de programare. Este o formă compactă sub forma unor formule asemănătoare cu cele matematice. Pentru fiecare concept al limbajului există o metaformula unică (formula normală). Este format din părți din stânga și din dreapta. Partea stângă specifică conceptul care este definit, iar partea dreaptă specifică setul de constructe de limbaj admisibile care sunt combinate în acest concept. Formula folosește metacaractere speciale sub formă de paranteze unghiulare, care conțin conceptul definit (în partea stângă a formulei) sau un concept definit anterior (în partea dreaptă a acesteia), iar separarea părților din stânga și din dreapta este indicată prin metacaracterul „::=", al cărui sens este echivalent cu cuvintele „prin definiție există”. Formulele metalingvistice sunt încorporate în traducători într-o anumită formă; cu ajutorul lor, constructele utilizate de programator sunt verificate pentru conformitatea formală cu oricare dintre constructele care sunt valide sintactic în acest limbaj. Există, de asemenea, metalimbi separate ale diferitelor științe - astfel, cunoașterea există sub forma diferitelor metalimbi.

Metodele logice au servit și ca bază pentru crearea sistemelor de inteligență artificială bazate pe conceptul de conexionism. Conexionismul este o tendință specială în știința filozofică, al cărei subiect este chestiunile de cunoaștere. În cadrul acestei tendințe, se încearcă explicarea abilităților intelectuale ale unei persoane care utilizează rețele neuronale artificiale. Alcătuite dintr-un număr mare de unități structurale asemănătoare neuronilor, cu o pondere atribuită fiecărui element care determină puterea conexiunii cu alte elemente, rețelele neuronale sunt modele simplificate ale creierului uman. Experimentele cu rețele neuronale de acest fel au demonstrat capacitatea lor de a învăța să îndeplinească sarcini precum recunoașterea modelelor, citirea și identificarea structurilor gramaticale simple.

Filosofii au început să se intereseze de conexionism, deoarece abordarea conecționistă promitea să ofere o alternativă la teoria clasică a minții și ideea larg răspândită în cadrul acestei teorii că funcționarea minții este similară cu procesarea limbajului simbolic de către un digital. calculator. Acest concept este foarte controversat, dar în ultimii ani și-a găsit tot mai mulți susținători.

Studiul logic al limbajului continuă conceptul lui Saussure despre limbaj ca sistem. Faptul că se continuă constant confirmă încă o dată îndrăzneala presupunerilor științifice de la începutul secolului trecut. Voi dedica ultima secțiune a lucrării mele perspectivelor dezvoltării metodelor matematice în lingvistică astăzi.

2.4 Perspective de aplicare a metodelor matematice în lingvistică

În era tehnologiei informatice, metodele lingvisticii matematice au primit o nouă perspectivă de dezvoltare. Căutarea soluțiilor la problemele analizei lingvistice este în prezent implementată din ce în ce mai mult la nivelul sistemelor informaționale. În același timp, automatizarea procesului de prelucrare a materialului lingvistic, oferind cercetătorului oportunități și avantaje semnificative, îi propune inevitabil noi cerințe și sarcini.

Combinația dintre cunoștințele „exacte” și „umanitare” a devenit un teren fertil pentru noi descoperiri în domeniul lingvisticii, informaticii și filosofiei.

Traducerea automată dintr-o limbă în alta rămâne o ramură în creștere rapidă a tehnologiei informației. În ciuda faptului că traducerea asistată de calculator nu poate fi niciodată comparată în calitate cu traducerea umană (în special pentru texte literare), mașina a devenit un asistent indispensabil pentru o persoană în traducerea unor volume mari de text. Se crede că în viitorul apropiat vor fi create sisteme de traducere mai avansate, bazate în primul rând pe analiza semantică a textului.

Un domeniu la fel de promițător este interacțiunea dintre lingvistică și logică, care servește drept fundație filosofică pentru înțelegerea tehnologiei informației și așa-numita „realitate virtuală”. În viitorul apropiat, se vor continua lucrările la crearea sistemelor de inteligență artificială - deși, din nou, nu va fi niciodată egală cu umanul în capabilitățile sale. O astfel de competiție este lipsită de sens: în timpul nostru, mașina ar trebui să devină (și să devină) nu un rival, ci un asistent al omului, nu ceva din domeniul fanteziei, ci o parte a lumii reale.

Continuă studiul limbii prin metode statistice, ceea ce face posibilă determinarea mai precisă a proprietăților sale calitative. Este important ca cele mai îndrăznețe ipoteze despre limbaj să-și găsească dovezile matematice și, prin urmare, logice.

Cel mai semnificativ este că diverse ramuri ale aplicării matematicii în lingvistică, anterior destul de izolate, în ultimii ani au fost corelate între ele, conectându-se într-un sistem coerent, prin analogie cu sistemul lingvistic descoperit cu un secol în urmă de Ferdinand de Saussure. și Yvan Baudouin de Courtenay. Aceasta este continuitatea cunoștințelor științifice.

Lingvistica în lumea modernă a devenit fundamentul dezvoltării tehnologiei informației. Atâta timp cât informatica rămâne o ramură în dezvoltare rapidă a activității umane, uniunea dintre matematică și lingvistică va continua să-și joace rolul în dezvoltarea științei.

Concluzie

De-a lungul secolului al XX-lea, tehnologiile informatice au parcurs un drum lung - de la utilizarea militară la utilizarea pașnică, de la o gamă restrânsă de obiective până la pătrunderea în toate ramurile vieții umane. Matematica ca știință a găsit o semnificație practică din ce în ce mai nouă odată cu dezvoltarea tehnologiei computerelor. Acest proces continuă și astăzi.

„Tandemul” anterior de neconceput de „fizicieni” și „textiști” a devenit realitate. Pentru interacțiunea deplină a matematicii și informaticii cu științele umaniste, au fost necesari specialiști calificați din ambele părți. În timp ce informaticienii au nevoie din ce în ce mai mult de cunoștințe umanitare sistematice (lingvistice, culturale, filozofice) pentru a înțelege schimbările din realitatea din jurul lor, în interacțiunea dintre om și tehnologie, pentru a dezvolta din ce în ce mai multe concepte lingvistice și mentale noi, pentru a scrie programe, atunci orice „Umanism” din vremea noastră pentru creșterea lor profesională trebuie să stăpânească cel puțin elementele de bază ale lucrului cu un computer.

Matematica, fiind strâns interconectată cu informatica, continuă să se dezvolte și să interacționeze cu științele naturii și științele umaniste. În noul secol, tendința spre matematizarea științei nu slăbește, ci, dimpotrivă, este în creștere. Pe baza datelor cantitative, sunt cuprinse legile dezvoltării limbii, caracteristicile sale istorice și filozofice.

Formalismul matematic este cel mai potrivit pentru descrierea tiparelor în lingvistică (ca, într-adevăr, în alte științe - atât științele umaniste, cât și cele naturale). Situația se dezvoltă uneori în știință în așa fel încât, fără utilizarea unui limbaj matematic adecvat, este imposibil să înțelegem natura fizică, chimică etc. procesul nu este posibil. Crearea unui model planetar al atomului, celebrul fizician englez al secolului XX. E. Rutherford a întâmpinat dificultăți matematice. La început, teoria sa nu a fost acceptată: nu suna convingător, iar motivul pentru aceasta a fost ignoranța de către Rutherford a teoriei probabilității, pe baza mecanismului căruia nu era posibil decât să se înțeleagă reprezentarea model a interacțiunilor atomice. Dându-și seama de acest lucru, deja la acel moment un om de știință remarcabil, proprietarul Premiului Nobel, s-a înscris la seminarul matematicianului profesor Lamb și timp de doi ani, împreună cu studenții, a urmat un curs și a pregătit un atelier de teoria probabilității. . Pe baza acestuia, Rutherford a reușit să descrie comportamentul electronului, oferind modelului său structural o acuratețe convingătoare și câștigând recunoaștere. La fel este și cu lingvistica.

Aceasta ridică întrebarea, ce este atât de matematic în fenomenele obiective, datorită căruia ele pot fi descrise în limbajul matematicii, în limbajul caracteristicilor cantitative? Acestea sunt unități omogene de materie distribuite în spațiu și timp. Acele științe care au mers mai departe decât altele spre izolarea omogenității și se dovedesc a fi mai potrivite pentru utilizarea matematicii în ele.

Internetul, care s-a dezvoltat rapid în anii 1990, a reunit reprezentanți ai diferitelor țări, popoare și culturi. În ciuda faptului că engleza continuă să fie principala limbă de comunicare internațională, internetul a devenit multilingv în timpul nostru. Acest lucru a condus la dezvoltarea unor sisteme de traducere automată de succes comercial, care sunt utilizate pe scară largă în diverse domenii ale activității umane.

Rețelele de calculatoare au devenit obiect de reflecție filozofică – s-au creat tot mai multe concepte lingvistice, logice, de viziune asupra lumii, care ajută la înțelegerea „realității virtuale”. În multe opere de artă s-au creat scenarii - de cele mai multe ori pesimiste - despre dominația mașinilor asupra unei persoane și a realității virtuale - asupra lumii exterioare. Departe de a fi întotdeauna astfel de prognoze s-au dovedit a fi lipsite de sens. Tehnologia informației nu este doar o industrie promițătoare pentru investirea cunoștințelor umane, este și o modalitate de a controla informațiile și, în consecință, asupra gândirii umane.

Acest fenomen are atât o latură negativă, cât și una pozitivă. Negativ - pentru că controlul asupra informației este contrar dreptului inalienabil al omului de a accesa liberă aceasta. Pozitiv - deoarece lipsa acestui control poate duce la consecințe catastrofale pentru umanitate. Este suficient să ne amintim unul dintre cele mai înțelepte filme ale ultimului deceniu – „When the World Ends” de Wim Wenders, ale cărui personaje sunt complet cufundate în „realitatea virtuală” a propriilor vise înregistrate pe computer. În același timp, nici un singur om de știință și nici un singur artist nu poate da un răspuns fără ambiguitate la întrebarea: ce așteaptă știința și tehnologia în viitor.

Concentrarea pe „viitor”, uneori părând fantastică, era o trăsătură distinctivă a științei la mijlocul secolului XX, când inventatorii căutau să creeze modele perfecte de tehnologie care să poată funcționa fără intervenția umană. Timpul a arătat caracterul utopic al unor astfel de cercetări. În același timp, ar fi de prisos să condamnăm oamenii de știință pentru asta - fără entuziasmul lor din anii 1950 - 60, tehnologia informației nu ar fi făcut un salt atât de puternic în anii 90 și nu am avea ceea ce avem acum.

Ultimele decenii ale secolului XX au schimbat prioritățile științei - cercetarea, patosul inventiv au făcut loc interesului comercial. Din nou, acest lucru nu este nici bun, nici rău. Aceasta este o realitate în care știința este din ce în ce mai integrată în viața de zi cu zi.

Secolul 21 a continuat această tendință, iar în vremea noastră în spatele invențiilor nu se află doar faima și recunoașterea, ci, în primul rând, banii. De aceea, este important să ne asigurăm că cele mai recente realizări ale științei și tehnologiei nu cad în mâinile grupărilor teroriste sau regimurilor dictatoriale. Sarcina este dificilă până la imposibilitate; a realiza cât mai mult posibil este sarcina întregii comunități mondiale.

Informația este o armă, iar armele nu sunt mai puțin periculoase decât armele nucleare sau chimice - doar că nu acționează fizic, ci mai degrabă psihologic. Omenirea trebuie să se gândească la ceea ce este mai important pentru ea în acest caz - libertatea sau controlul.

Cele mai recente concepte filozofice legate de dezvoltarea tehnologiilor informaționale și încercarea de a le înțelege au arătat limitările atât ale materialismului din științe naturale, care a dominat în secolul al XIX-lea și începutul secolului al XX-lea, cât și ale idealismului extrem, care neagă semnificația lumii materiale. . Este important ca gândirea modernă, în special gândirea Occidentului, să depășească acest dualism în gândire, când lumea înconjurătoare este clar împărțită în material și ideal. Calea către aceasta este un dialog al culturilor, o comparație a diferitelor puncte de vedere asupra fenomenelor din jur.

În mod paradoxal, tehnologia informației poate juca un rol important în acest proces. Rețelele de calculatoare, și în special internetul, nu sunt doar o resursă pentru divertisment și activitate comercială viguroasă, ele sunt și un mijloc de comunicare semnificativă, controversată între reprezentanții diferitelor civilizații din lumea modernă, precum și pentru un dialog între trecut și prezentul. Putem spune că Internetul împinge granițele spațiale și temporale.

Și în dialogul culturilor prin tehnologia informației, rolul limbii ca cel mai vechi mijloc universal de comunicare este încă important. De aceea, lingvistica, în interacțiune cu matematica, filosofia și informatica, a cunoscut a doua naștere și continuă să se dezvolte și astăzi. Tendința prezentului va continua și în viitor - „până la sfârșitul lumii”, așa cum în urmă cu 15 ani, a prezis același V. Wenders. Adevărat, nu se știe când va avea loc acest sfârșit - dar este important acum, pentru că viitorul va deveni oricum prezent, mai devreme sau mai târziu.

Atasamentul 1

Ferdinand de Saussure

Lingvistul elvețian Ferdinand de Saussure (1857-1913) este considerat fondatorul lingvisticii moderne în încercările sale de a descrie mai degrabă structura limbajului decât istoria anumitor limbi și forme de limbă. De fapt, metoda Structuralismului în lingvistică și studii literare și o ramură semnificativă a semioticii își găsesc punctul de plecare major în opera sa de la începutul secolului al XX-lea. S-a susținut chiar că complexul de strategii și concepții care a ajuns să fie numit „poststructuralism” - opera lui Jacques Derrida, Michel Foucault, Jacques Lacan, Julia Kristeva, Roland Barthes și alții - este sugerat de lucrările lui Saussure. în lingvistică și lecturi anagramatice ale poeziei latine târzii.modernismul literar până la psihanaliza și filozofie la începutul secolului al XX-lea. După cum susțin Algirdas Julien Greimas și Joseph Courtes în Semiotics and Language: An Analytic Dictionary, sub titlul „Interpretare”, un nou mod de interpretare a apărut la începutul secolului al XX-lea pe care ei îl identifică cu lingvistica saussureană, fenomenologia husserliană și psihanaliza freudiană. În acest mod, „interpretarea nu mai este o chestiune de atribuire a unui conținut dat unei forme care altfel ar lipsi; mai degrabă, este o parafrază care formulează într-un alt mod conținutul echivalent al unui element semnificant într-un sistem semiotic dat”. 159). în această înțelegere a „interpretarii”, forma și conținutul nu sunt distincte; mai degrabă, fiecare „formă” este, alternativ, un „conținut” semantic, de asemenea, o „formă semnificantă”, astfel încât interpretarea oferă o parafrază analogică a ceva care semnifică deja în cadrul unui alt sistem de semnificație.

O astfel de reinterpretare a formei și înțelegerii - pe care Claude Levi-Strauss o descrie într-una dintre cele mai programatice articulații ale conceptului de structuralism, în „Structură și formă: reflecții asupra unei lucrări de Vladimir Propp” - este implicită în Cursul postum al lui Saussure. în General Linguistics (1916, trad., 1959, 1983). În timpul vieții sale, Saussure a publicat relativ puțin, iar lucrarea sa principală, Cursul, a fost transcrierea de către studenții săi a mai multor cursuri de lingvistică generală pe care le-a oferit în 1907-11. În cursul, Saussure a cerut studiul „științific” al limbajului, spre deosebire de munca de lingvistică istorică care a fost făcută în secolul al XIX-lea. Această lucrare este una dintre marile realizări ale intelectului occidental: luarea anumitor cuvinte ca elemente de bază ale lingvistica lingvistică, istorică (sau „diacronică”) a urmărit originea și dezvoltarea limbilor occidentale dintr-o sursă presupusă a limbii comune, mai întâi o limbă „indo-europeană” și apoi o „p” anterioară. limba roto-indo-europeană”.

Tocmai acest studiu al aparițiilor unice ale cuvintelor, cu presupunerea concomitentă că „unitatea” de bază a limbajului este, de fapt, existența pozitivă a acestor „elemente-cuvânt”, pe care Saussure a pus la îndoială. Lucrarea sa a fost o încercare de a reduce masa de fapte despre limbă, studiată atât de minutios de lingvistica istorică, la un număr gestionabil de propoziții. „Școala comparativă” a filologiei secolului al XIX-lea, spune Saussure în Curs, „nu a reușit să înființeze adevărata știință a lingvisticii” pentru că „nu a reușit să caute natura obiectului său de studiu” ( 3). Acea „natura”, susține el, se găsește nu doar în cuvintele „elementale” pe care le cuprinde o limbă – faptele (sau „substanțe”) aparent „pozitive” ale limbajului – ci în relațiile formale care dau naștere acelor „substanțe”.

Reexaminarea sistematică a limbajului de către Saussure se bazează pe trei presupuneri. Prima este că studiul științific al limbajului trebuie să dezvolte și să studieze sistemul, mai degrabă decât istoria fenomenelor lingvistice. Din acest motiv, el face distincția între aparițiile specifice ale limbajului - „evenimentele sale de vorbire” particulare, pe care el le desemnează drept parole – și obiectul propriu al lingvisticii, sistemul (sau „codul”) care guvernează acele evenimente, pe care le desemnează ca limba. Un astfel de studiu sistematic, în plus, necesită un „ concepția sincronică” a relației dintre elementele limbajului într-un anumit moment, mai degrabă decât studiul „diacronic” al dezvoltării limbajului de-a lungul istoriei.

Această presupunere a dat naștere a ceea ce Roman Jakobson în 1929 a ajuns să desemneze drept „structuralism”, în care „orice set de fenomene examinate de știința contemporană este tratat nu ca o aglomerare mecanică, ci ca un întreg structural, concepția mecanică a proceselor cedează la întrebarea. a funcţiei lor” („Romantic” 711). În acest pasaj, Jakobson exprimă intenția lui Saussure de a defini lingvistica ca un sistem științific, spre deosebire de o simplă contabilizare „mecanică” a accidentelor istorice. În plus, Jakobson descrie și a doua ipoteză fundamentală în Saussurean - putem numim acum „structural” - lingvistică: că elementele de bază ale limbajului pot fi studiate doar în raport cu funcțiile lor, mai degrabă decât în raport cu cauzele lor. „cuvinte” europene, acele evenimente și entități trebuie să fie situate într-un cadru sistemic. în care sunt legate de alte așa-zise evenimente și entități.Aceasta este o reorientare radicală în conceperea experienței și a fenomenelor, una a cărei importanță filosoful Ernst Cassirer a comparat-o cu „noua știință a lui Galileo care în secolul al XVII-lea ne-a schimbat întregul. conceptul lumii fizice” (citat în Culler, Pursuit 2 patru). Această schimbare, după cum notează Greimas și Courtes, reconcepe „interpretarea” și astfel reconcepe explicația și înțelegerea în sine. În loc ca explicația „să fie în termeni de cauze ale unui fenomen, astfel încât, ca „efect”, ea să fie în anumite privințe subordonată cauzelor sale, explicația constă aici în subordonarea unui fenomen „funcției” sale orientate spre viitor sau "scop." Explicația nu mai este independentă de intențiile sau scopurile umane (chiar dacă acele intenții pot fi impersonale, comunitare sau, în termeni freudieni, „inconștienți”).

În lingvistica sa, Saussure realizează această transformare în mod specific în redefinirea „cuvântului” lingvistic, pe care el îl descrie drept „semn” lingvistic și îl definește în termeni funcționaliști. Semnul, susține el, este uniunea dintre „un concept și o imagine sonoră”, pe care el a numit-o „semnificat și semnificant” (66-67; traducerea lui Roy Harris din 1983 oferă termenii „semnificație” și „semnal”). Natura „combinației” lor este „funcțională” în sensul că nici semnificatul, nici semnificantul nu sunt „cauza” celuilalt, ci „fiecare valorile sale de la celălalt” (8). element al limbajului, semnul , relațional și face ipoteza de bază a lingvisticii istorice, și anume, identitatea unităților elementare ale limbajului și semnificației (adică „cuvinte”), supusă unei analize riguroase.cuvântul „copac” ca și „același” cuvânt nu este pentru că cuvântul este definit prin calități inerente – nu este o „aglomerare mecanică” a unor astfel de calități – ci pentru că este definit ca un element dintr-un sistem, „întregul structural” al limbajului.

O astfel de definiție relațională (sau „diacritică”) a unei entități guvernează concepția tuturor elementelor limbajului în lingvistica structurală. Acesta este cel mai clar în cea mai impresionantă realizare a lingvisticii saussureene, dezvoltarea conceptelor „fonemelor” și „trăsăturilor distinctive” ale limbajului. Fonemele sunt cele mai mici unități articulate și semnificative ale unei limbi. Ele nu sunt sunetele care apar în limbaj, ci „imaginile sonore” pe care le menționează Saussure, care sunt reținute de vorbitori – înțelese fenomenal – ca transmițătoare de sens. (Astfel, Elmar Holenstein descrie lingvistica lui Jakobson, care îl urmează pe Saussure în moduri importante, drept „structuralism fenomenologic.”) Tocmai din acest motiv, purtătorul de cuvânt principal al structuralismului școlar de la Praga, Jan Mukarovsky, a remarcat în 1937 că „structura . . . este o realitate fenomenologică și nu empirică; nu este opera în sine, ci un set de relații funcționale care se află în conștiința unui colectiv (generație, mediu etc.)” (citat în Galan 35). În mod similar, Levi-Strauss, purtătorul de cuvânt principal al structuralismului francez , a remarcat în 1960 că „structura nu are un conținut distinct; se mulţumeşte în sine, iar organizarea logică în care este arestată este concepută ca o proprietate a realului” (167; vezi şi Jakobson, Fundamentals 27-28).

Fonemele, deci, cele mai mici elemente perceptibile ale limbajului, nu sunt obiecte pozitive, ci o „realitate fenomenologică”. În engleză, de exemplu, fonemul /t/ poate fi pronunțat în multe moduri diferite, dar în toate cazurile un vorbitor de engleză îl va recunoaște ca funcționând ca /t/. Un t aspirat (adică un t pronunțat cu o respirație asemănătoare cu h după el), un sunet t înalt sau scăzut, un sunet t extins și așa mai departe, toate vor funcționa în același mod pentru a distinge semnificația lui „to” și „do” în engleză. Mai mult, diferențele dintre limbi sunt de așa natură încât variațiile fonologice dintr-o limbă pot constitui foneme distincte în alta; astfel, engleza distinge între /l/ și /r/, în timp ce alte limbi sunt atât de structurate încât aceste articulații sunt considerate variații ale aceluiași fonem (cum ar fi t-ul aspirat și neaspirat în engleză). În fiecare limbă naturală, numărul mare de cuvinte posibile este o combinație a unui număr mic de foneme. Engleza, de exemplu, posedă mai puțin de 40 de foneme care se combină pentru a forma peste un milion de cuvinte diferite.

Fonemele limbajului sunt ele însele structuri organizate sistematic de trăsături. În anii 1920 și 1930, după conducerea lui Saussure, Jakobson și N. S. Trubetzkoy au izolat „trăsăturile distinctive” ale fonemelor. Aceste trăsături se bazează pe structura fiziologică a organelor vorbirii - limbă, dinți, corzi vocale și așa mai departe - care Saussure menționează în Curs și că Harris o descrie drept „fonetică fiziologică” ( 39; traducerea anterioară a lui Baskin folosește termenul „fonologie” [(1959) 38]) – și se combină în „mănunchiuri” de opoziții binare pentru a forma foneme. De exemplu, în limba engleză diferența dintre /t/ și /d/ este prezența sau absența „vocii” (angajarea corzilor vocale), iar la nivelul vocii aceste foneme se definesc reciproc. În acest fel, fonologia este un exemplu specific al unei reguli generale de limbaj descrisă de Saussure: În limbaj există doar diferențe. cu atât mai important: o diferență implică în general termeni pozitivi între care se stabilește diferența; dar în limbaj există doar diferenţe fără termeni pozitivi. Fie că luăm semnificatul sau semnificantul, limba nu are nici idei, nici sunete care au existat înainte de sistemul lingvistic. (120)

În acest cadru, identitățile lingvistice sunt determinate nu de calități inerente, ci de relații sistemice („structurale”).

Am spus că fonologia „a urmat exemplul” lui Saussure, pentru că, deși analiza sa asupra fiziologiei producției de limbaj „ar în zilele noastre”, așa cum spune Harris, „ar fi numită „fizică”, spre deosebire de „psihologică” sau „funcțională”. „” (Lectura 49), în consecință în Curs a articulat direcția și contururile unei analize funcționale a limbajului. În mod similar, singura sa lucrare extinsă publicată, Memoire sur le systeme primitif des voyelles dans les langues indo-europeennes (Memorie despre sistemul primitiv de vocale în limbile indo-europene), care a apărut în 1878, a fost pe deplin situată în cadrul proiectului al XIX-lea. lingvistică istorică a secolului. Cu toate acestea, în cadrul acestei lucrări, așa cum a susținut Jonathan Culler, Saussure a demonstrat „fecunditatea gândirii limbajului ca un sistem de elemente pur relaționale, chiar și atunci când lucrează la sarcina reconstrucției istorice” (Saussure 66). Analizând relațiile structurale sistematice dintre foneme pentru a ține seama de modelele de alternanță a vocalelor în limbile indo-europene existente, Saussure a sugerat că, în plus față de câteva foneme diferite /a/, trebuie să fi existat un alt fonem care ar putea fi descris formal. „Ceea ce face ca opera lui Saussure să fie atât de impresionantă”, conchide Culler, „este faptul că aproape cincizeci de ani mai târziu, când a fost descoperit și descifrat hititul cuneiform, s-a descoperit că conține un fonem, scris h, care se comporta așa cum a prezis Saussure. . El descoperise, printr-o analiză pur formală, ceea ce acum sunt cunoscute sub numele de laringele indo-europenei” (66).

Această concepție a determinării relaționale sau diacritice a elementelor de semnificație, care este atât implicită, cât și explicită în Curs, sugerează o a treia presupunere care guvernează lingvistica structurală, ceea ce Saussure numește „natura arbitrară a semnului”. Prin aceasta el vrea să spună că relația dintre semnificant și semnificat în limbaj nu este niciodată necesară (sau „motivată”): s-ar putea găsi la fel de ușor semnificantul sunet arbre ca și arborele semnificant să se unească cu conceptul „arborele”. Dar mai mult decât atât, înseamnă că semnificatul este și arbitrar: s-ar putea defini la fel de ușor conceptul „arborele” prin calitatea sa lemnoasă (care ar exclude palmierii) cât și prin dimensiunea sa (care exclude „plantele lemnoase scăzute” numit tufișuri). Acest lucru ar trebui să clarifice faptul că numerotarea ipotezelor pe care le-am prezentat nu reprezintă o ordine de prioritate: fiecare ipoteză - natura sistemică a semnificației (cel mai bine se înțelege prin studierea limbajului „sincron”), natura relațională sau „diacritică” a elementelor. de semnificație, caracterul arbitrar al semnelor – își trage valoarea din celelalte.

Adică, lingvistica saussureană înțelege fenomenele pe care le studiază în relații globale de combinație și contrast în limbaj. În această concepție, limbajul este atât procesul de articulare a sensului (semnificația), cât și produsul său (comunicarea), iar aceste două funcții ale limbajului nu sunt nici identice, nici pe deplin congruente (vezi Schleifer, „Deconstrucția”). Aici, putem observa alternanța dintre formă și conținut pe care Greimas și Courtes o descriu în interpretarea modernistă: limbajul prezintă contraste care îi definesc în mod formal unitățile, iar aceste unități se combină la niveluri succesive pentru a crea conținutul semnificativ. Deoarece elementele limbajului sunt arbitrare, în plus, nici contrastul și nici combinația nu pot fi considerate de bază. Astfel, în limbaj trăsăturile distinctive se combină pentru a forma foneme contrastante la un alt nivel de aprehensiune, fonemele se combină pentru a forma morfeme contrastante, morfemele se combină pentru a forma cuvinte, cuvintele se combină pentru a forma propoziții și așa mai departe. În fiecare caz, întregul fonem, sau cuvânt, sau propoziție și așa mai departe, este mai mare decât suma părților sale (la fel cum apa, H2O, în exemplul lui Saussure [(1959) 103] este mai mult decât aglomerarea mecanică. de hidrogen şi oxigen).

Cele trei ipoteze ale Cursului de Lingvistică Generală l-au determinat pe Saussure să solicite o nouă știință a secolului XX, care să depășească știința lingvistică pentru a studia „viața semnelor în societate”. Saussure a numit această știință „semiologie (din greacă semeion „semn”)” (16). „Știința” semioticii, așa cum a ajuns să fie practicată în Europa de Est în anii 1920 și 1930 și la Paris în anii 1950 și 1960, a extins studiul limbajului și al structurilor lingvistice la artefacte literare constituite (sau articulate) de acele structuri. Pe parcursul ultimei etape a carierei sale, în plus, chiar și în timp ce oferea cursurile de lingvistică generală, Saussure și-a urmărit propria analiză „semiotică” a poeziei latine târzii, în încercarea de a descoperi anagrame ascunse în mod deliberat ale numelor proprii. Metoda de studiu a fost în multe privințe opusul raționalismului funcțional al analizelor sale lingvistice: a încercat, așa cum menționează Saussure într-unul din cele 99 de caiete în care a urmat acest studiu, să examineze sistematic problema „întâmplării”, care „ devine fundamentul inevitabil al tuturor” (citat în Starobinski 101). Un astfel de studiu, după cum spune însuși Saussure, se concentrează pe „faptul material” al întâmplării și al sensului (citat 101), astfel încât „cuvântul-temă” a cărui anagramă o caută Saussure, așa cum susține Jean Starobinski, „este, pentru poet. , un instrument, şi nu un germen vital al poeziei. Poeziei i se cere să reangajeze materialele fonice ale cuvântului-temă" (45). În această analiză, Starobinski spune: „Saussure nu s-a pierdut în căutarea unor sensuri ascunse”. În schimb, opera sa pare să demonstreze dorința de a se sustrage tuturor problemelor care apar din conștiință: „Deoarece poezia nu se realizează numai în cuvinte, ci este ceva născut din cuvinte, ea scapă de controlul arbitrar al conștiinței pentru a depinde numai de un fel de legalitate lingvistică. „(121).

Adică, încercarea lui Saussure de a descoperi nume proprii în poezia latină târzie - ceea ce Tzvetan Todorov numește reducerea unui „cuvânt. . . semnificantului său” (266) – subliniază unul dintre elementele care i-au guvernat analiza lingvistică, caracterul arbitrar al semnului. (Subliniază, de asemenea, natura formală a lingvisticii saussureene – „Limba”, afirmă el, „este o formă și nu o substanță” – care elimină efectiv semantica ca obiect major de analiză.) După cum concluzionează Todorov, munca lui Saussure pare astăzi remarcabil de omogenă în refuzul său de a accepta fenomenele simbolice. . . . În cercetările sale asupra anagramelor, acordă atenție doar fenomenelor de repetiție, nu și celor de evocare. . . . În studiile sale despre Nibelungen, el recunoaște simbolurile doar pentru a le atribui unor lecturi greșite: deoarece nu sunt intenționate, simbolurile nu există. În cele din urmă, în cursurile sale de lingvistică generală, el contemplă existența semiologiei și, prin urmare, a altor semne decât cele lingvistice; dar această afirmaţie este deodată limitată de faptul că semiologia este dedicată unui singur tip de semn: cele care sunt arbitrare. (269-70)

Dacă acest lucru este adevărat, este pentru că Saussure nu ar putea concepe „intenția” fără subiect; nu putea scăpa cu totul de opoziţia dintre formă şi conţinut opera sa a făcut atât de mult să pună sub semnul întrebării. În schimb, a recurs la „legalitatea lingvistică”. Situat între, pe de o parte, concepțiile secolului al XIX-lea despre istorie, subiectivitate și modul de interpretare cauzală guvernată de aceste concepții și, pe de altă parte, concepțiile „structuraliste” din secolul al XX-lea despre ceea ce Levi-Strauss numea „Kantianism fără un subiect transcendental" (citat în Connerton 23) - concepte care șterg opoziția dintre formă și conținut (sau subiect și obiect) și ierarhia primului plan și fundalului în structuralismului în plin, psihanaliza și chiar mecanica cuantică - opera lui Ferdinand de Saussure în lingvistică și semiotică circumscrie un moment semnal în studiul sensului și culturii.

Ronald Schleifer

Anexa 2

Ferdinand de Saussure (traducere)

Lingvistul elvețian Ferdinand de Saussure (1857-1913) este considerat fondatorul lingvisticii moderne - datorită încercărilor sale de a descrie structura limbii și nu istoria limbilor individuale și a formelor de cuvinte. În general, bazele metodelor structurale în lingvistică și critica literară și, în mare măsură, semiotica au fost puse în lucrările sale chiar la începutul secolului al XX-lea. Este dovedit că metodele și conceptele așa-numitului „poststructuralism”, dezvoltate în lucrările lui Jacques Derrida, Michel Foucault, Jacques Lacan, Julia Kristeva, Roland Barthes și alții, se întorc la lucrările lingvistice ale lui Saussure și lecturi anagramatice ale poeziei romane târzii. Trebuie remarcat faptul că lucrările lui Saussure despre lingvistică și interpretare lingvistică ajută la conectarea unei game largi de discipline intelectuale - de la fizică la inovații literare, psihanaliza și filosofia de la începutul secolului XX. A. J. Greimas și J. Kurte scriu în Semiotică și limbă: „Un dicționar analitic cu titlul „Interpretare” ca un nou tip de interpretare a apărut la începutul secolului al XX-lea alături de lingvistica lui Saussure, fenomenologia lui Husserl și psihanaliza. lui Freud. Într-un astfel de caz, „interpretarea nu este atribuirea unui conținut dat unei forme care altfel ar lipsi; mai degrabă, este o parafrază care formulează în alt mod același conținut al unui element semnificativ în cadrul unui sistem semiotic dat” (159). ). În această înțelegere a „interpretarii”, forma și conținutul sunt inseparabile; dimpotrivă, fiecare formă este umplută cu sens semantic („formă semnificativă”), astfel încât interpretarea oferă o repovestire nouă, similară, a ceva semnificativ într-un alt sistem de semne.

O înțelegere similară a formei și conținutului, prezentată de Claude Lévi-Strauss într-una dintre lucrările cheie ale structuralismului, („Structură și formă: reflecții asupra lucrărilor lui Vladimir Propp”), poate fi văzută în cartea lui Saussure, publicată postum, „Curs în Lingvistică generală” (1916, trad., 1959, 1983). În timpul vieții sale, Saussure a publicat puțin, „Cursul” - lucrarea sa principală - a fost cules din notițele studenților care au participat la cursurile sale de lingvistică generală în 1907-1911. În curs, Saussure a cerut un studiu „științific” al limbajului, punându-l în contrast cu lingvistica comparată-istorică a secolului al XIX-lea. Această lucrare poate fi considerată una dintre cele mai mari realizări ale gândirii occidentale: luând ca bază cuvintele individuale ca elemente structurale ale limbajului, lingvistica istorică (sau „diacronică”) a dovedit originea și dezvoltarea limbilor vest-europene dintr-un limba comună, indo-europeană - și o limbă proto-indo-europeană anterioară.

Tocmai acest studiu al aparițiilor unice ale cuvintelor, cu presupunerea concomitentă că „unitatea” de bază a limbajului este, de fapt, existența pozitivă a acestor „elemente de cuvânt” pe care Saussure a pus la îndoială. Lucrarea sa a fost o încercare de a reduce numeroasele fapte despre limbaj studiate întâmplător de lingvistica comparată la un număr mic de teoreme. Școala filologică comparată a secolului al XIX-lea, scrie Saussure, „nu a reușit să creeze o adevărată școală de lingvistică” pentru că „nu înțelegea esența obiectului de studiu” (3). Această „esență”, susține el, constă nu numai în cuvintele individuale – „substanțele pozitive” ale limbajului – ci și în conexiunile formale care ajută aceste substanțe să existe.

„Testul” de limbaj al lui Saussure se bazează pe trei presupuneri. În primul rând, înțelegerea științifică a limbajului se bazează nu pe un fenomen istoric, ci pe un fenomen structural. Prin urmare, el a făcut distincția între fenomenele individuale ale limbii - „evenimente de vorbire”, pe care le definește drept „parole” - și propriul, în opinia sa, obiectul de studiu al lingvisticii, sistemul (codul, structura) care controlează aceste evenimente. („limba”). Un asemenea studiu sistematic, de altfel, necesită o concepție „sincronă” a relației dintre elementele limbajului la un moment dat, mai degrabă decât un studiu „diacronic” al dezvoltării unei limbi de-a lungul istoriei sale.

Această ipoteză a fost precursorul a ceea ce Roman Jakobson în 1929 ar numi „structuralism” – o teorie în care „orice set de fenomene investigate de știința modernă este considerat nu ca o acumulare mecanică, ci ca un tot structural în care componenta constructivă este corelată cu funcția” („Romantic „711). În acest pasaj, Jakobson a formulat ideea lui Saussure de a defini limbajul ca structură, spre deosebire de enumerarea „mecanică” a evenimentelor istorice. În plus, Jakobson dezvoltă o altă presupunere saussureană, care a devenit precursorul lingvisticii structurale: elementele de bază ale limbajului ar trebui studiate nu atât în legătură cu cauzele lor, cât cu funcțiile lor. Fenomenele și evenimentele separate (să zicem, istoria originii cuvintelor individuale indo-europene) ar trebui studiate nu de la sine, ci într-un sistem în care sunt corelate cu componente similare. Aceasta a fost o întorsătură radicală în compararea fenomenelor cu realitatea înconjurătoare, a cărei semnificație a fost comparată de către filozoful Ernst Cassirer cu „știința lui Galileo, care a transformat ideile despre lumea materială în secolul al XVII-lea”. , după cum notează Greimas și Kurthe, schimbă ideea de „interpretare”, în consecință, explicațiile în sine. Fenomenele au început să fie interpretate nu în raport cu cauzele apariției lor, ci în raport cu efectul pe care îl pot avea în prezent și viitor.Interpretarea a încetat să mai fie independentă de intențiile unei persoane (în ciuda faptului că intențiile pot fi impersonale, „inconștiente” în sensul freudian al cuvântului).

În lingvistica sa, Saussure arată mai ales această întorsătură a schimbării conceptului de cuvânt în lingvistică, pe care îl definește ca semn și îl descrie în termeni de funcții. Un semn pentru el este o combinație de sunet și sens, „semnificat și desemnare” (66-67; în traducerea în engleză din 1983 de Roy Harris - „semnificare” și „semnal”). Natura acestui compus este „funcțională” (nici unul, nici celălalt element nu pot exista unul fără celălalt); mai mult, „unul împrumută calități de la celălalt” (8). Astfel, Saussure definește principalul element structural al limbajului - semnul - și pune la baza lingvisticii istorice identitatea semnelor cu cuvintele, ceea ce necesită o analiză deosebit de riguroasă. Prin urmare, putem înțelege diferite semnificații ale, să zicem, același cuvânt „copac” - nu pentru că cuvântul este doar un set de anumite calități, ci pentru că este definit ca un element în sistemul de semne, în „ansamblul structural”, în limbaj.

Un astfel de concept relativ („diacritic”) de unitate stă la baza conceptului tuturor elementelor limbajului din lingvistica structurală. Acest lucru este deosebit de clar în cea mai originală descoperire a lingvisticii saussureene, în dezvoltarea conceptului de „foneme” și „trăsături distinctive” ale limbajului. Fonemele sunt cele mai mici dintre unitățile limbajului vorbit și semnificativ. Nu sunt doar sunete care apar în limbă, ci „imagini sonore”, notează Saussure, care sunt percepute de vorbitorii nativi ca având sens. (De remarcat că Elmar Holenstein numește lingvistica lui Jakobson, care continuă ideile și conceptele lui Saussure în principalele sale prevederi, „structuralism fenomenologic”). De aceea, vorbitorul principal al Școlii de structuralism din Praga, Jan Mukarowski, a observat în 1937 că „structură. . . nu un concept empiric, ci un concept fenomenologic; nu este rezultatul în sine, ci un ansamblu de relații semnificative ale conștiinței colective (generație, altele etc.)”. Un gând similar a fost exprimat în 1960 de Lévi-Strauss, liderul structuralismului francez: „Structura nu are un conținut definit; are în sine sens, iar construcția logică în care este închisă este amprenta realității.

La rândul lor, fonemele, ca cele mai mici elemente lingvistice acceptabile pentru percepție, reprezintă o „realitate fenomenologică” integrală separată. De exemplu, în engleză, sunetul „t” poate fi pronunțat diferit, dar în toate cazurile, o persoană care vorbește engleza îl va percepe ca „t”. Aspirat, ridicat sau coborât, un sunet lung „t” etc. va distinge în mod egal sensul cuvintelor „to” și „do”. În plus, diferențele dintre limbi sunt de așa natură încât varietățile unui sunet într-o limbă pot corespunde fonemelor diferite într-o altă limbă; de exemplu, „l” și „r” în engleză sunt diferite, în timp ce în alte limbi sunt varietăți ale aceluiași fonem (cum ar fi engleza „t”, pronunțată cu și fără aspirație). Vocabularul vast al oricărei limbi naturale este un set de combinații ale unui număr mult mai mic de foneme. În engleză, de exemplu, doar 40 de foneme sunt folosite pentru a pronunța și a scrie aproximativ un milion de cuvinte.

Sunetele unei limbi sunt un set de caracteristici organizate sistematic. În anii 1920 -1930, după Saussure, Jacobson și N.S. Trubetskoy au evidențiat „trăsăturile distinctive” ale fonemelor. Aceste caracteristici se bazează pe structura organelor vorbirii - limbă, dinți, corzi vocale - Saussure observă acest lucru în „Cursul de lingvistică generală”, iar Harris îl numește „fonetică fiziologică” (în traducerea anterioară a lui Baskin, termenul „fonologie " este folosit) - sunt conectați în „noduri” durg împotriva unui prieten pentru a scoate sunete. De exemplu, în engleză, diferența dintre „t” și „d” este prezența sau absența „voice” (tensiunea corzilor vocale) și nivelul vocii care distinge un fonem de altul. Astfel, fonologia poate fi considerată un exemplu de regula generală a limbajului descrisă de Saussure: „Există doar diferențe în limbaj”. Și mai important nu este aceasta: diferența implică de obicei condițiile exacte între care se află; dar în limbaj există doar diferenţe fără condiţii precise. Fie că avem în vedere „desemnare” sau „semnificat” - în limbă nu există nici concepte, nici sunete care ar fi existat înainte de dezvoltarea sistemului lingvistic.

Într-o astfel de structură, analogiile lingvistice sunt definite nu cu ajutorul calităților lor inerente, ci cu ajutorul relațiilor de sistem („structurale”).

Am menționat deja că fonologia în dezvoltarea sa s-a bazat pe ideile lui Saussure. Deși analiza sa asupra fiziologiei lingvistice în timpurile moderne, spune Harris, „ar fi numită „fizică”, spre deosebire de „psihologică” sau „funcțională”, în The Course el a articulat în mod clar direcția și principiile de bază ale analizei funcționale a limbajului. Singura sa lucrare publicată în timpul vieții, Memoire sur le systeme primitif des voyelles dans les langues indo-europeennes (Note despre sistemul vocal original în limbile indo-europene), publicată în 1878, a fost complet în concordanță cu lingvistica istorică comparativă a secolul al 19-lea. Cu toate acestea, în această lucrare, spune Jonathan Culler, Saussure a arătat „fertilitatea ideii de limbă ca sistem de fenomene interconectate, chiar și cu reconstrucția sa istorică”. Analizând relația dintre foneme, explicând alternanța vocalelor în limbile moderne ale grupului indo-european, Saussure a sugerat că, pe lângă mai multe sunete diferite „a”, trebuie să existe și alte foneme care sunt descrise formal. „Ceea ce face o impresie specială în opera lui Saussure”, conchide Kaller, „este că aproape 50 de ani mai târziu, când a fost descoperit și descifrat cuneiformul hitit, a fost găsit un fonem, în scris notat cu „h”, care s-a comportat așa cum a prezis Saussure. Prin analize formale, el a descoperit ceea ce acum este cunoscut sub numele de sunet gutural în limbile indo-europene.

În conceptul unei definiții relative (diacritice) a semnelor, atât explicită cât și implicită în Curs, există o a treia presupunere cheie a lingvisticii structurale, numită de Saussure „natura arbitrară a semnului”. Prin aceasta se înțelege că relația dintre sunet și sens în limbaj nu este motivată de nimic: se poate conecta la fel de ușor cuvântul „arbor” și cuvântul „copac” cu conceptul de „copac”. Mai mult, asta înseamnă că sunetul este și arbitrar: se poate defini conceptul de „copac” prin prezența scoarței (cu excepția palmierilor) și după dimensiune (cu excepția „plantelor lemnoase joase” - arbuști). Din aceasta ar trebui să fie clar că toate ipotezele pe care le prezint nu sunt împărțite în unele mai mult și mai puțin importante: fiecare dintre ele - natura sistemică a semnelor (cel mai de înțeles în studiul „sincron” al limbajului), relativă (diacritică) a acestora. esența, caracterul arbitrar al semnelor - provine din rest.

Astfel, în lingvistica saussureană, fenomenul studiat este înțeles ca un ansamblu de comparații și opoziții de limbaj. Limbajul este atât o expresie a sensului cuvintelor (desemnarea), cât și rezultatul lor (comunicarea) – iar aceste două funcții nu coincid niciodată (vezi „Deconstrucția limbajului” a lui Shleifer). Putem observa alternanța formei și a conținutului pe care Greimas și Kurte o descriu în cea mai recentă versiune de interpretare: contrastele lingvistice definesc unitățile sale structurale, iar aceste unități interacționează pe niveluri succesive pentru a crea un anumit conținut semnificativ. Deoarece elementele limbajului sunt aleatorii, nici contrastul, nici combinația nu pot sta la baza. Aceasta înseamnă că într-o limbă, trăsăturile distinctive formează un contrast fonetic la un nivel diferit de înțelegere, fonemele sunt combinate în morfeme contrastante, morfeme - în cuvinte, cuvinte - în propoziții etc. În orice caz, un întreg fonem, cuvânt, propoziție etc. este mai mult decât suma părților sale (la fel cum apa, în exemplul lui Saussure, este mai mult decât combinația de hidrogen și oxigen).

Trei ipoteze ale „Cursului de lingvistică generală” l-au condus pe Saussure la ideea unei noi științe a secolului XX, separată de lingvistică, care studiază „viața semnelor în societate”. Saussure a numit această știință semiologie (din greacă „semeion” - un semn). „Știința” semioticii, care s-a dezvoltat în Europa de Est în anii 1920 și 1930 și la Paris în anii 1950 și 1960, a extins studiul limbajului și al structurilor lingvistice în descoperiri literare compuse (sau formulate) în termenii acestor structuri. În plus, în amurgul carierei sale, în paralel cu cursul său de lingvistică generală, Saussure s-a angajat într-o analiză „semiotică” a poeziei romane târzii, încercând să descopere anagrame compuse în mod deliberat ale numelor proprii. Această metodă a fost în multe privințe opusul raționalismului în analiza sa lingvistică: a fost o încercare, așa cum scrie Saussure într-unul din cele 99 de caiete, de a studia în sistem problema „probabilității”, care „devine baza a tot. " O astfel de investigație, susține însuși Saussure, ajută la concentrarea pe „partea reală” a probabilității; „Cuvântul cheie” pentru care Saussure caută o anagramă este, potrivit lui Jean Starobinsky, „un instrument pentru poet, și nu sursa vieții pentru poem. Poezia servește la inversarea sunetelor cuvântului cheie. Potrivit lui Starobinsky, în această analiză, „Saussure nu se adâncește în căutarea semnificațiilor ascunse”. Dimpotrivă, în lucrările sale se remarcă dorința de a evita întrebările legate de conștiință: „de vreme ce poezia se exprimă nu numai în cuvinte, ci și în ceea ce dau naștere acestor cuvinte, ea depășește controlul conștiinței și depinde doar de legile limbajului.”

Încercarea lui Saussure de a studia numele proprii în poezia romană târzie (Tsvetan Todorov a numit aceasta o abreviere a „un cuvânt... numai înainte de a fi scris”) subliniază una dintre componentele analizei sale lingvistice - natura arbitrară a semnelor, precum și esența formală a lingvisticii saussureene („Limba”, susține el, „esența este o formă, nu un fenomen”), ceea ce exclude posibilitatea de a analiza sensul. Todorov concluzionează că astăzi scrierile lui Saussure par remarcabil de consistente în reticența lor de a studia simbolurile [fenomenele care au un sens bine definit]. . . . Explorând anagrame, Saussure acordă atenție doar repetiției, dar nu și opțiunilor anterioare. . . . Studiind Nibelungenlied, el definește simbolurile doar pentru a le atribui citirilor eronate: dacă sunt neintenționate, simbolurile nu există. Până la urmă, în scrierile sale despre lingvistica generală, el face presupunerea existenței unei semiologii care descrie nu numai semnele lingvistice; dar această presupunere este limitată de faptul că semilogia poate descrie doar semne aleatorii, arbitrare.

Dacă este cu adevărat așa, este doar pentru că nu și-ar putea imagina „intenția” fără un obiect; el nu a putut acoperi complet decalajul dintre formă și conținut – în scrierile sale aceasta s-a transformat într-o întrebare. În schimb, a apelat la „legitimitatea lingvistică”. Situat între, pe de o parte, conceptele secolului al XIX-lea bazate pe istorie și presupuneri subiective și metode de interpretare accidentală bazate pe aceste concepte și, pe de altă parte, concepte structuraliste, pe care Lévi-Strauss le-a numit „Kantianism fără un actor transcendent”. „- ștergând opoziția dintre formă și conținut (subiect și obiect), sens și origine în structuralism, psihanaliza și chiar mecanica cuantică, lucrările lui Ferlinand de Saussure despre lingvistică și semiotică marchează un punct de cotitură în studiul semnificațiilor în limbă și cultură. .

Ronald Shleifer

Literatură

1. Admoni V.G. Fundamentele teoriei gramaticii / V.G. Admoni; Academia de Științe a URSS.-M.: Nauka, 1964.-104p.

3. Arapov, M.V., Herts, M.M. Metode matematice în lingvistică. M., 1974.

4. Arnold I.V. Structura semantică a cuvântului în limba engleză modernă și metodologia de studiu a acestuia. /I.V. Arnold-L .: Educație, 1966. - 187 p.

6.Bashlykov A.M. Sistem de traducere automată. / A.M. Bashlykov, A.A. Sokolov. - M.: SRL „FIMA”, 1997. - 20 p.

7. Baudouin de Courtenay: Moștenire teoretică și modernitate: Rezumate ale rapoartelor conferinței științifice internaționale / Ed.I.G. Kondratiev. - Kazan: KGU, 1995. - 224 p.

8. A. V. Gladkiy, Elemente de lingvistică matematică. / . Gladkiy A.V., Melchuk I.A. -M., 1969. - 198 p.

9. Golovin, B.N. Limbă și statistică. /B.N. Golovin - M., 1971. - 210 p.

10. Zvegintsev, V.A. Lingvistică teoretică și aplicată. / V.A. Zvegintsev - M., 1969. - 143 p.

11. Kasevici, V.B. Semantică. Sintaxă. Morfologie. // V.B. Kasevici - M., 1988. - 292 p.

12. Lekomtsev Yu.K. INTRODUCERE în limbajul formal al lingvisticii / Yu.K. Lekomtsev. - M.: Nauka, 1983, 204 p., ill.

13. Moștenirea lingvistică a lui Baudouin de Courtenay la sfârșitul secolului al XX-lea: rezumate ale conferinței internaționale științifice și practice 15-18 martie 2000. - Krasnoyarsk, 2000. - 125 p.

Matveeva G.G. Semnificații gramaticale ascunse și identificarea persoanei sociale („portretul”) vorbitorului / G.G. Matveev. - Rostov, 1999. - 174 p.

14. Melchuk, I.A. Experiență în construirea modelelor lingvistice „Sens<-->Text". / I.A. Melchuk. - M., 1974. - 145 p.

15. Nelyubin L.L. Traducere și lingvistică aplicată / L.L. Neliubin. - M.: Şcoala superioară, 1983. - 207 p.

16. Despre metodele exacte de cercetare a limbajului: despre așa-numita „lingvistică matematică” / O.S. Akhmanova, I.A. Melchuk, E.V. Paducheva și alții - M., 1961. - 162 p.

17. Piotrovsky L.G. Lingvistică matematică: manual / L.G. Piotrovsky, K.B. Bektaev, A.A. Piotrovskaia. - M.: Şcoala superioară, 1977. - 160 p.

18. El este. Text, mașină, persoană. - L., 1975. - 213 p.

19. El este. Lingvistică aplicată / Ed. A.S. Gerda. - L., 1986. - 176 p.

20. Revzin, I.I. modele de limbaj. M., 1963. Revzin, I.I. Lingvistică structurală modernă. Probleme și metode. M., 1977. - 239 p.

21. Revzin, I.I., Rozentsveig, V.Yu. Fundamentele traducerii generale și automate / Revzin I.I., Rozentsveig, V.Yu. - M., 1964. - 401 p.

22. Slyusareva N.A. Teoria lui F. de Saussure în lumina lingvisticii moderne / N.A. Slyusareva. - M.: Nauka, 1975. - 156 p.

23. Bufniță, L.Z. Lingvistică analitică / L.Z. Bufniță - M., 1970. - 192 p.

24. Saussure F. de. Note de lingvistică generală / F. de Saussure; Pe. din fr. - M.: Progres, 2000. - 187 p.

25. El este. Curs de Lingvistică Generală / Per. din fr. - Ekaterinburg, 1999. -426 p.

26. Statistica vorbirii și analiza automată a textului / Ed. ed. R.G. Piotrovski. L., 1980. - 223 p.

27. Stoll, P. Seturi. Logică. Teorii axiomatice / R. Stoll; Pe. din engleza. - M., 1968. - 180 p.

28. Tenier, L. Fundamentele sintaxei structurale. M., 1988.

29. Ubin I.I. Automatizarea activităților de traducere în URSS / I.I. Ubin, L.Yu. Korostelev, B.D. Tihomirov. - M., 1989. - 28 p.

30. Faure, R., Kofman, A., Denis-Papin, M. Modern Mathematics. M., 1966.

31. Shenk, R. Procesarea informațiilor conceptuale. M., 1980.

32. Shikhanovici, Yu.A. INTRODUCERE în matematica modernă (concepte inițiale). M., 1965

33. Shcherba L.V. Vocalele rusești în termeni calitativi și cantitativi / L.V. Shcherba - L.: Nauka, 1983. - 159 p.

34. Abdullah-zade F. Cetăţean al lumii // Spark - 1996. - Nr. 5. - p.13

35. V.A. Uspenski. Preliminare pentru cititorii „Noua Revista literară” la mesajele semiotice ale lui Andrei Nikolaevici Kolmogorov. - Noua recenzie literară. -1997. - Nr. 24. - S. 18-23

36. Perlovsky L. Conștiință, limbă și cultură. - Cunoașterea este putere. -2000. №4 - S. 20-33

Introducere? Curs Teoria traducerii

Pe parcursul secolului trecut, lingvistica a fost întotdeauna citată ca exemplu de știință care s-a dezvoltat rapid și a ajuns foarte repede la maturitatea metodologică. Deja la mijlocul secolului trecut, știința tânără și-a luat cu încredere locul în cercul științelor care avea o tradiție de o mie de ani, iar unul dintre cei mai de seamă reprezentanți ai săi - A. Schleicher - a avut curajul să creadă că prin lucrările sale el rezuma deja linia finală.<113>Istoria lingvisticii a arătat însă că o asemenea opinie era prea grăbită și nejustificată. La sfârșitul secolului, lingvistica a suferit primul mare șoc asociat cu critica principiilor neogramaticale, urmată de altele. De remarcat că toate crizele pe care le putem dezvălui în istoria științei limbajului, de regulă, nu i-au zdruncinat fundamentele, ci, dimpotrivă, au contribuit la întărire și în cele din urmă au adus cu ele o rafinare și o perfecționare. a metodelor de cercetare lingvistică, extinzându-se alături de teme și probleme științifice.

Dar pe lângă lingvistică, au trăit și s-au dezvoltat și alte științe, inclusiv un număr mare de noi. Științele fizice, chimice și tehnice (așa-numitele „exacte”) au primit o dezvoltare deosebit de rapidă în timpul nostru, iar baza lor teoretică, matematica, a domnit peste toate. Științele exacte nu numai că au presat foarte mult pe toate științele umaniste, dar în prezent se străduiesc să le „aducă în credință”, să le subordoneze obiceiurilor, să le impună metodele de cercetare. În situația actuală, folosind o expresie japoneză, se poate spune că acum lingviștii-filologii pângăresc chiar marginea covorașului, unde științele exacte, în frunte cu matematica, sunt localizate triumfător și liber.

Nu ar fi mai oportun din punct de vedere al intereselor științifice generale să capitulăm în fața matematicii, să ne predăm în întregime puterii metodelor ei, la care unele voci le cheamă deschis 59 , și prin aceasta, poate, să dobândească o nouă putere? Pentru a răspunde la aceste întrebări, trebuie mai întâi să ne uităm la ce pretinde matematica în acest caz, în ce domeniu al lingvisticii metodele matematice își găsesc aplicarea, în ce măsură sunt în concordanță cu specificul materialului lingvistic și dacă sunt capabile să ofere sau chiar sugerează răspunsuri la acele întrebări.stabilite de ştiinţa limbajului.

De la bun început, trebuie remarcat faptul că printre entuziaștii noului curent matematic în lingvistică<114>Nu există unanimitate de opinii cu privire la scopurile și obiectivele sale în cercetarea statică. Acad. A. A. Markov, care a fost primul care a aplicat metodele matematice în limbaj, Boldrini, Yul, Mariotti consideră elementele limbajului drept material ilustrativ potrivit pentru construirea de metode cantitative, sau pentru teoreme statistice, fără să se întrebe deloc dacă rezultatele unui astfel de studiu prezintă interes. la lingvişti 6 0 . Ross consideră că teoria probabilității și statistica matematică oferă un instrument sau, așa cum preferă să spună acum, un model matematic pentru testarea și confirmarea acelor concluzii lingvistice care permit o interpretare numerică. Astfel, metodele matematice sunt concepute doar ca mijloace auxiliare ale cercetării lingvistice 6 1 . Mult mai mult este susținut de Herdan, care în cartea sa nu numai că a rezumat și sistematizat toate încercările de a studia matematic problemele de limbaj, dar a încercat și să le ofere o orientare clară în raport cu lucrările ulterioare. El concentrează prezentarea întregului material al cărții sale pe „înțelegerea statisticii literare (cum numește el studiul textelor prin metode de statistică matematică. - LA 3.) ca parte integrantă a lingvisticii” 6 2 , și formulează esența și sarcinile acestei noi secțiuni în lingvistică în următoarele cuvinte: „Statistica literară ca filozofie cantitativă a limbajului este aplicabilă tuturor ramurilor lingvisticii. În opinia noastră, statistica literară este lingvistică structurală ridicată la nivelul unei științe cantitative sau al unei filozofii cantitative. Astfel, este la fel de greșit să definiți rezultatele sale ca fiind în afara domeniului de aplicare<115>lingvistică sau să o trateze ca pe un instrument auxiliar al cercetării” 6 3 .

Nu este deloc indicat să teoretizezi dacă este legitim în acest caz să se vorbească despre apariția unei noi ramuri a lingvisticii și să se rezolve problema pretențiilor sale, fără a ne referi mai întâi la luarea în considerare a ceea ce s-a făcut efectiv în acest domeniu, și la clarificarea în ce direcție aplicarea noilor metode 6 4 . Acest lucru ne va ajuta să înțelegem diferențele de opinii.

Utilizarea criteriilor matematice (sau, mai precis, statistice) pentru rezolvarea problemelor lingvistice nu este deloc nouă pentru știința limbajului și, într-o măsură sau alta, a fost folosită de multă vreme de lingviști. La urma urmei, de fapt, conceptele tradiționale ale lingvisticii precum legea fonetică (și înrudite<116>nee with it - o excepție de la lege), productivitatea elementelor gramaticale (de exemplu, sufixe derivative) sau chiar criteriile pentru relațiile înrudite între limbi, într-o anumită măsură, se bazează pe caracteristici statistice relative. La urma urmei, cu cât opoziţia statistică a cazurilor observate este mai accentuată şi mai distinctă, cu atât avem mai mult motiv să vorbim despre sufixe productive şi neproductive, despre legea fonetică şi excepţiile de la aceasta, despre prezenţa sau absenţa rudeniei între limbi. Dar dacă în astfel de cazuri principiul statistic a fost folosit mai mult sau mai puțin spontan, atunci în viitor a început să fie aplicat în mod conștient și deja cu un anumit obiectiv. Așadar, în timpul nostru, așa-numitele dicționare de frecvență ale vocabularului și expresiilor limbilor individuale 6 5 sau chiar semnificațiile cuvintelor multilingve cu „accent general pe realitate” 6 6 au devenit larg răspândite. Datele acestor dicționare sunt folosite pentru a compila manuale de limbi străine (ale căror texte sunt construite pe vocabularul cel mai des folosit) și dicționare minime. Calculul statistic a găsit o utilizare lingvistică specială în metoda lexicostatisticii sau glotocronologiei de M. Swadesh, unde, pe baza unor formule statistice care iau în considerare cazurile de dispariție din limbile cuvintelor fondului principal, este posibilă stabilirea cronologiei absolute a dezmembrării familiilor de limbi 6 7 .

În ultimii ani, cazurile de aplicare a metodelor matematice la materialul lingvistic au crescut semnificativ, iar în masa unor astfel de încercări s-au conturat direcții mai mult sau mai puțin definite. Să ne întoarcem<117>la considerarea lor secvențială, fără a intra în detalii.

Să începem cu direcția căreia i s-a dat numele de stilostatistică. În acest caz, vorbim despre definirea și caracterizarea trăsăturilor stilistice ale operelor sau autorilor individuali prin relațiile cantitative ale elementelor lingvistice utilizate. Abordarea statistică a studiului fenomenelor stilistice se bazează pe înțelegerea stilului literar ca mod individual de stăpânire a mijloacelor limbajului. În același timp, cercetătorul este complet distrat de la întrebarea semnificației calitative a elementelor lingvistice numărabile, concentrându-și toată atenția doar pe latura cantitativă; latura semantică a unităților de limbaj studiate, încărcătura lor emoțională și expresivă, precum și ponderea lor în țesătura unei opere de artă - toate acestea rămân nesocotite, se referă la așa-numitele fenomene redundante. Astfel, o operă de artă apare sub forma unui agregat mecanic, al cărui specific al construcției își găsește expresia doar prin relațiile numerice ale elementelor sale. Reprezentanții stilisticii nu închid ochii la toate circumstanțele observate, opunându-se metodelor stilisticii tradiționale, care includ, fără îndoială, elemente de subiectivitate, cu o singură calitate a metodei matematice, care, în opinia lor, compensează toate deficiențele acesteia - obiectivitatea rezultatelor obţinute. „Ne străduim”, scrie, de exemplu, V. Fuchs, „... să caracterizăm stilul de exprimare lingvistică prin mijloace matematice. În acest scop ar trebui create metode ale căror rezultate să fie la fel de obiective ca rezultatele științelor exacte... Aceasta sugerează că, cel puțin inițial, ne vom ocupa doar de calități structurale formale, și nu de conținutul semantic. a expresiilor lingvistice... În acest fel vom obţine un sistem de relaţii ordinale, care în totalitatea lui va constitui baza şi punctul de plecare al teoriei matematice a stilului” 6 8 .<118>

Cel mai simplu tip de abordare statistică a studiului limbii scriitorilor sau a lucrărilor individuale este de a număra cuvintele folosite, deoarece bogăția dicționarului, aparent, ar trebui să caracterizeze autorul însuși într-un anumit fel. Cu toate acestea, rezultatele unor astfel de calcule dau rezultate oarecum neașteptate în acest sens și nu contribuie în niciun fel la cunoașterea și evaluarea estetică a unei opere literare, care nu este în ultimul rând una dintre sarcinile stilisticii. Iată câteva date despre numărul total de cuvinte folosite într-un număr de lucrări:

Biblia (latină). . . . . . . . . . 5649 de cuvinte

Biblia (ebraică). . . . 5642 cuvinte

Demostene (vorbire). . . . . . . . . . . . 4972 de cuvinte

Salust. . . . . . . . . . . . . . . . . 3394 cuvinte

Horaţiu. . . . . . . . . . . . . . . . . . . .6084 cuvinte

Dante (Divina Comedie) 5860 de cuvinte

(aceasta include 1615 nume proprii și nume geografice)

Tasso (Orland furios). . . . 8474 cuvinte

Milton. . . . . . . . . . . . . . . . . . . . .8000 de cuvinte (aproximativ date)

Shakespeare. . . . . . . . . . . . . . . . . . .15000 de cuvinte

(aproximativ, conform altor surse 20.000 de cuvinte)

O. Jespersen subliniază că dicționarul lui Zola, Kipling și Jack London depășește semnificativ dicționarul lui Milton, adică numărul este 8000 6 9 . Calculul dicționarului de discursuri al președintelui american W. Wilson a constatat că acesta este mai bogat decât cel al lui Shakespeare. La aceasta ar trebui adăugate datele psihologilor. Astfel, Terman, pe baza observațiilor unui număr mare de cazuri, a constatat că vocabularul unui copil mediu este de aproximativ 3600 de cuvinte, iar la vârsta de 14 ani - deja 9000. Adultul mediu folosește 11700 de cuvinte, iar o persoană de „a crescut inteligenţă" până la 13500 7 0 . Astfel, astfel de date numerice în sine nu oferă niciun motiv pentru identificarea calităților stilistice ale operelor și doar „obiectiv”<119>ele precizează folosirea unui număr diferit de cuvinte de către diferiți autori, care, după cum arată calculele de mai sus, nu are legătură cu valoarea artistică relativă a operelor lor.

Calculele frecvenței relative de utilizare a cuvintelor de către autori individuali sunt construite oarecum diferit. În acest caz, se ia în considerare nu numai cantitatea totală de cuvinte, ci și frecvența de utilizare a cuvintelor individuale. Prelucrarea statistică a materialului astfel obţinut constă în faptul că cuvintele cu frecvenţă egală de utilizare sunt grupate în clase (sau ranguri), ceea ce duce la stabilirea distribuţiei de frecvenţă a tuturor cuvintelor folosite de un autor dat. Un caz special al acestui tip de calcul este determinarea frecvenței relative a cuvintelor speciale (de exemplu, vocabularul romanesc din lucrările lui Chaucer, așa cum a făcut Mersand 7 1). Frecvența relativă a cuvintelor folosite de autori conține aceleași informații obiective despre stilul autorilor individuali ca și calculele totale de mai sus, cu singura diferență că rezultatul este date numerice mai precise. Dar este, de asemenea, folosit pentru a data lucrări individuale ale aceluiași autor pe baza unui calcul preliminar al frecvenței relative a utilizării cuvintelor în diferite perioade ale vieții sale (conform lucrărilor datate de autorul însuși). Un alt tip de utilizare a datelor din astfel de calcule este stabilirea autenticității paternității lucrărilor pentru care această întrebare pare îndoielnică 7 2 . În acest ultim caz, totul se bazează pe o comparație a formulelor statistice pentru frecvența de utilizare în lucrări autentice și controversate. Nu este nevoie să vorbim despre relativitatea și gradul de aproximare foarte mare a rezultatelor obținute prin astfel de metode. La urma urmei, frecvența relativă de utilizare se schimbă nu numai odată cu vârsta autorului, ci și în funcție de gen, intriga și, de asemenea, mediul istoric al acțiunii operei (comparați, de exemplu, „Pâine” și „Petru”. I" de A. Tolstoi).<120>

Aprofundând metoda descrisă mai sus, stilostatistica ca caracteristică a stilului a început să recurgă la criteriul stabilității frecvenței relative a cuvintelor cele mai des folosite. Metoda folosită în acest caz poate fi ilustrată prin prelucrarea statistică a poveștii lui Pușkin „Fiica căpitanului” de către Esselson și Epstein la Institutul de Limbi Slave de la Universitatea din Detroit (SUA) 7 3 . Întregul text al poveștii (aproximativ 30.000 de apariții de cuvinte) a fost supus sondajului, iar apoi pasaje care conțineau aproximativ 10.000 și 5.000 de apariții. În plus, pentru a determina stabilitatea frecvenței relative de utilizare a cuvintelor, cele 102 cuvinte cele mai comune (cu o frecvență de 1160 ori până la 35) au fost comparate cu frecvența relativă calculată (realizată pe baza pasajelor selective) cu cel real. De exemplu, uniunea „și” a fost folosită de 1.160 de ori pe parcursul poveștii. Într-un pasaj care conține 5.000 de apariții ale tuturor cuvintelor, este de așteptat ca această conjuncție să fie utilizată 5.000 x 1.160:30.000 sau rotunjită de 193 de ori, iar într-un pasaj care conține 10.000 de apariții ale tuturor cuvintelor, se așteaptă să fie utilizată 10.160 x 1 1 : 30.000 sau de 386 de ori. Compararea datelor obținute folosind acest tip de calcule cu datele reale arată o abatere foarte ușoară (în limita de 5%). Pe baza unor asemenea calcule, s-a constatat că în această poveste a lui Pușkin, prepoziția „k” este folosită de două ori mai des decât „y”, iar pronumele „tu” este folosit de trei ori mai des decât „ei”, etc. Astfel , în ciuda tuturor vicisitudinilor intrigii, atât pe parcursul poveștii, cât și în părțile sale individuale, există o stabilitate în frecvența relativă a utilizării cuvintelor. Ceea ce se observă în legătură cu unele cuvinte (cele mai comune) este probabil aplicabil tuturor cuvintelor folosite în lucrare. Rezultă că stilul autorului poate fi caracterizat printr-un anumit raport dintre variabilitatea frecvenței medii de utilizare a unui cuvânt și frecvența generală pentru o anumită limbă.<121>frecvența utilizării acestuia. Acest raport este considerat ca o caracteristică cantitativă obiectivă a stilului autorului.

Alte elemente formale ale structurii limbajului sunt studiate în mod similar. Deci, de exemplu, V. Fuchs a supus trăsăturilor metrice ale operelor lui Goethe, Rilke, Caesar, Sallust etc., unei considerații comparativ-statistice.7 4

Criteriul stabilității frecvenței relative a utilizării cuvintelor, deși clarifică tehnica de caracterizare cantitativă a stilului, nu introduce nimic fundamental nou în comparație cu metodele mai primitive analizate mai sus. Toate metodele de stilostatistică produc în cele din urmă rezultate „obiective” la fel de nepasionale, alunecând pe suprafața limbii și agățându-se doar de semne pur externe. Metodele cantitative, aparent, nu sunt capabile să se concentreze pe diferențele calitative ale materialului studiat și, de fapt, să niveleze toate obiectele studiate.

Acolo unde este nevoie de specificații maxime, sunt oferite criteriile cele mai generalizate; caracteristicile calitative sunt exprimate în limbajul cantității. Aceasta nu este doar o contradicție logică, ci și un dezacord cu natura lucrurilor. Într-adevăr, ce se întâmplă dacă încercăm să obținem o caracteristică stilistică comparativă (adică, prin urmare, calitativă) a lucrărilor lui Alexander Gerasimov și Rembrandt pe baza raportului cantitativ dintre vopsea roșie și neagră pe pânzele lor? Pare a fi o prostie absolută. În ce măsură informații cantitative complet „obiective” despre datele fizice ale unei persoane ne pot oferi o idee despre tot ceea ce caracterizează o persoană și constituie adevărata sa esență? Evident nici unul. Ele pot servi doar ca semn individual care distinge o persoană de alta, ca o amprentă de circumvoluții pe degetul mare. Situația este similară cu caracteristicile cantitative ale stilului literar. Dacă te uiți cu atenție, ele oferă date la fel de puține pentru a judeca stilisticul real<122>calitățile limbajului autorului, precum și o descriere a circumvoluțiilor de pe deget pentru studiul psihologiei umane.

La tot ce s-a spus, trebuie adăugat că în trecut, în așa-numita școală formală a criticii literare, s-a încercat deja efectuarea unui studiu cantitativ al stilului scriitorilor, când epitetele, metaforele și ritmul -s-au numărat elementele melodice ale versului. Cu toate acestea, această încercare nu a fost dezvoltată în continuare.

Un alt domeniu de aplicare a metodelor matematice pentru studiul fenomenelor lingvistice poate fi grupat sub denumirea de statistică lingvistică. Ea urmărește să pătrundă în întrebările fundamentale ale teoriei limbajului și astfel să obțină o vocație în sfera lingvistică propriu-zisă. Pentru a face cunoștință cu această direcție, cel mai bine este să apelăm la lucrarea deja amintită a lui Herdan, în cuvintele unuia dintre numeroșii săi recenzori, „o carte monstruos de pretențioasă” 7 5 , a primit însă un răspuns larg în rândul lingviştilor 7 6 . Având în vedere faptul că Herdan (așa cum am menționat deja mai sus) a căutat să adune în cartea sa tot ceea ce este mai semnificativ în domeniul aplicării metodelor matematice la probleme lingvistice, în cartea sa avem de-a face de fapt nu atât cu Kherdan, cât cu un întreg. tendinţă. După cum arată însuși titlul cărții, Limbajul ca alegere și probabilitate, accentul său principal este de a clarifica ceea ce în limbaj este lăsat la libera alegere a vorbitorului și ceea ce se datorează structurii imanente a limbii, așa cum este aceasta. la determinarea raportului cantitativ al elementelor de ordinul I şi II. Cartea lui Kherdan oferă informații aproape exhaustive despre toată munca în acest domeniu desfășurată de reprezentanți ai diferitelor specialități.<123>(filozofi, lingviști, matematicieni, tehnicieni), dar nu se limitează la aceasta și include multe observații, considerații și concluzii originale ale autorului însuși. Ca o lucrare de sinteză, oferă o idee bună a metodelor cantitative utilizate și a rezultatelor obținute cu ajutorul acestora. Întrebările pe care le combinăm condiționat în secțiunea de statistici lingvistice sunt tratate în partea a doua și a patra a cărții.

Dintre numeroasele cazuri de aplicare a metodelor statisticii matematice la studiul problemelor lingvistice, ne vom concentra pe cele mai generale, care pot fi considerate și ca fiind cele mai tipice. Utilizarea datelor de la alți autori - Boldrini 7 7 , Mathesius 7 8 , Mariotti 7 9 , Zipf 8 0 , Deway 8 1 și alții, precum și citarea propriilor studii care determină frecvența relativă a distribuției fonemelor, literelor, lungimea cuvântului (măsurată prin numărul de litere și silabe) , forme gramaticale și elemente metrice în latină și greacă hexametru, Herdan stabilește faptul stabilității frecvenței relative a elementelor lingvistice ca o caracteristică comună tuturor structurilor lingvistice. El derivă următoarea regulă: „Proporțiile elementelor lingvistice aparținând unuia sau altuia nivel sau sferă de codificare lingvistică – fonologie, gramatică, metrică – rămân mai mult sau mai puțin constante pentru o limbă dată, într-o anumită perioadă de dezvoltare a acesteia și în cadrul limitele observaţiilor suficient de ample şi impartite.» 8 2 . Această regulă, pe care Herdan o numește legea de bază a limbajului, el caută să interpreteze și să extindă într-un anumit fel. „El”, scrie Herdan despre această lege, „este o expresie a faptului că și aici, unde voința umană și libertatea de alegere sunt acordate<124>cel mai larg cadru, unde alegerea conștientă și jocul fără griji alternează între ele, există o stabilitate considerabilă în ansamblu... în gramatică, dar și în raport cu frecvența de utilizare a fonemelor specifice, unităților lexicale (cuvinte) și fonemelor gramaticale și constructii; cu alte cuvinte, asemănarea nu este doar în ceea ce este folosit, ci și în cât de des este folosit” 8 3 . Această situație se datorează unor motive de înțeles, dar acest lucru dă naștere la noi concluzii. Când se examinează diferite texte sau segmente ale unei anumite limbi, de exemplu, se constată că frecvențele relative de utilizare a unui anumit fonem (sau a altor elemente de vorbire) de către diferiți oameni rămân practic aceleași. Aceasta conduce la interpretarea formelor individuale de vorbire ca niște fluctuații ale probabilității constante de utilizare a fonemului considerat într-o limbă dată. Astfel, rezultă că în activitatea sa de vorbire o persoană este supusă anumitor legi ale probabilității în raport cu numărul de elemente lingvistice utilizate. Și atunci, când observăm un număr imens de elemente lingvistice într-un set mare de texte sau segmente de vorbire, avem impresia de dependență cauzală în sensul că în acest caz există și o determinare în raport cu utilizarea anumitor elemente lingvistice. . Cu alte cuvinte, se dovedește a fi admisibil să se afirme că ceea ce pare a fi o relație cauzală din punct de vedere intuitiv, este cantitativ o probabilitate 8 4 . Este clar că cu cât este mai mare totalul<125>specificul textelor sau segmentelor de vorbire examinate, cu atât mai clar se va manifesta stabilitatea frecvenței relative de utilizare a elementelor lingvistice și în utilizarea individuală (legea numerelor mari). Din aceasta, se trage o nouă concluzie generală că limbajul este un fenomen de masă și ar trebui tratat ca atare.

Aceste concluzii, ajunse pe baza calculelor de frecvență ale elementelor fonetice, cuvintelor și formelor gramaticale, care împreună constituie o limbă, sunt apoi aplicate la „interpretarea statistică” a împărțirii lui Saussure în „limbă” (lalangue) și „vorbire” (laparole). ). Potrivit lui Saussure, „limbajul” este un set de obiceiuri lingvistice care fac posibilă comunicarea între membrii unei comunități lingvistice date. Aceasta este o realitate socială, un „fenomen de masă”, obligatoriu pentru toți oamenii care vorbesc această limbă. Herdan, după cum sa indicat, demonstrează că membrii unei singure comunități lingvistice sunt asemănători între ei nu numai prin faptul că folosesc aceleași foneme, unități lexicale și forme gramaticale, ci și prin faptul că toate aceste elemente sunt folosite cu aceeași frecvență. . Astfel, definiția sa statistică a „limbii” ia următoarea formă: „limba” (lalangue) este totalitatea elementelor lingvistice comune plus probabilitatea lor relativă de a fi utilizate.

Această definiție a „limbajului” este, de asemenea, punctul de plecare pentru interpretarea statistică corespunzătoare a „vorbirii”, care, potrivit lui Saussure, este un enunț individual. Contrastând „limbajul” ca fenomen social al „vorbirii” ca fenomen individual, Saussure a scris: „Vorbirea este un act individual de voință și înțelegere, în care este necesar să se distingă: 1. combinații cu care subiectul vorbitor folosește limbajul. cod pentru a-și exprima gândul personal; 2. un mecanism psihofizic care îi permite să obiectiveze aceste combinaţii” 8 5 . Întrucât „limba” în statistica lingvistică este considerată ca un set de elemente cu o anumită relativă<126>o anumită probabilitate de utilizare a acestora, în măsura în care include totalitatea statistică sau ansamblul (populația) ca caracteristică cea mai esențială și poate fi considerată sub acest aspect. În conformitate cu aceasta, „vorbirea” se transformă într-un eșantion separat luat din „limbă” ca agregat statistic. Probabilitatea în acest caz este determinată de raportul dintre „vorbire” și „limbă” (în înțelegerea lor „cantitativă”), iar distribuția frecvenței relative de utilizare a diferitelor elemente ale limbii este interpretată ca rezultat al unei „alegerea” colectivă (alegerea) într-o anumită perioadă cronologică a existenței limbii. Realizând că o astfel de interpretare a diferențelor dintre „limbă” și „vorbire” este totuși construită pe baze complet diferite de cele ale lui Saussure, Herdan scrie în acest sens: „Această modificare aparent minoră a conceptului lui Saussure are consecința importantă că „limbajul” (lalangue). ) capătă acum o caracteristică esențială sub forma unui agregat statistic (populație). Această populație se caracterizează prin anumite frecvențe relative sau probabilități de fluctuație, ceea ce înseamnă că fiecare element lingvistic aparține unui anumit nivel lingvistic. În acest caz, „vorbirea” (laparole), în conformitate cu sensul său, se dovedește a fi un termen pentru definirea eșantioanelor statistice prelevate din „limbă” ca populație statistică. Devine evident că alegerea (alegerea) apare aici sub forma raportului dintre „vorbire” și „limbă”, fiind raportul dintre un eșantion prelevat la întâmplare și un agregat statistic (populație). Însăși ordinea distribuției frecvenței, ca depozit al activității de vorbire a unei comunități lingvistice de-a lungul secolelor, este un element de alegere (alegere), dar nu de alegere individuală, ca în stil, ci de alegere colectivă. Folosind o metaforă, putem vorbi aici despre alegerea făcută de spiritul limbii, dacă înțelegem prin aceasta principiile comunicării lingvistice, care sunt în concordanță cu complexul de date mentale ale membrilor unei anumite comunități lingvistice. Stabilitatea seriei este rezultatul probabilității (șansei)» 8 6 .

Un caz special de aplicare a principiului enunţat<127>pa este delimitarea în limbaj a fenomenelor normative de „excepții” (abateri). Statistica lingvistică afirmă că metoda statistică permite eliminarea neclarității existente în această problemă și stabilirea unor criterii clare de distincție între aceste fenomene. Dacă norma este înțeleasă ca o populație statistică (în sensul de mai sus), iar excepția (sau eroarea) este o abatere de la frecvențele arătate de populația statistică, atunci se sugerează o soluție cantitativă a întrebării. Totul se rezumă la o relație statistică între „populație” și „outlier”. Dacă frecvențele observate într-un eșantion individual se abate de la probabilitățile datorate populației statistice cu mai mult decât este determinat de o serie de numărări ale eșantionului, atunci avem motive să concluzionăm că linia de demarcație între „aceeași” (normă) și „nu la fel" (excepție) este încălcat.

Diferențele cantitative dintre „limbă” și „vorbire” sunt, de asemenea, folosite pentru a distinge două tipuri de elemente lingvistice: gramaticale și lexicale. Punctul de plecare pentru rezolvarea acestei probleme, care prezintă adesea mari dificultăți din punct de vedere lingvistic, este ipoteza că gradul de frecvență al elementelor gramaticale este diferit de cel al unităților lexicale. Acest lucru ar fi asociat cu „generalizarea” elementelor gramaticale, modul în care acestea diferă de conceptele fixate de unitățile lexicale. În plus, se presupune că elementele gramaticale sunt, de regulă, mult mai mici ca volum: ca cuvinte independente (cuprind pronume, prepoziții, conjuncții și cuvinte auxiliare) ele constau, de obicei, dintr-un număr mic de foneme și sub formă de „forme conexe. „- din unul sau două foneme 8 7 . Cu cât elementul lingvistic este mai mic, cu atât „lungimea” (momentul cantitativ) este mai puțin capabilă să servească drept caracteristică definitorie și cu atât mai importantă dobândește „calitatea” fonemelor în acest scop. Ce metode sunt propuse pentru rezolvarea problemei luate în considerare? Se rezolvă prin referire la conceptul pur cantitativ de gramatică<128>încărcați, „Să presupunem”, scrie Herdan în această privință, „că suntem interesați să comparăm două limbi în acest sens. Cum determinăm cu un anumit grad de obiectivitate „încărcătura gramaticală” pe care o poartă o limbă? Este clar că această sarcină va depinde de poziția liniei de demarcație care separă gramatica de vocabular. Prima considerație care ne poate veni în minte este să stabilim cât de „complexă” este gramatica unei anumite limbi. La urma urmei, „complexitatea” este o caracteristică calitativă, iar conceptul de „încărcare gramaticală” este o caracteristică cantitativă. Adevărat, sarcina depinde într-o anumită măsură de complexitate, dar nu în totalitate. O limbă poate fi răsplătită cu o gramatică extrem de complexă, dar doar o parte relativ mică din ea este folosită în activitatea limbii. Definim „încărcătura gramaticală” ca totalitatea gramaticii pe care o poartă o limbă atunci când este în acțiune, care aduce imediat problema noastră în domeniul lingvisticii structurale în sensul în care disciplina a fost definită de Saussure. În prezentarea următoare se folosesc metode cantitative pentru a determina diferența dintre limbi, în funcție de locul în care se află granița, separând gramatica de vocabular” 8 8 . Cu alte cuvinte, diferențele de limbă în acest caz ar trebui reduse la diferențe în relațiile numerice dintre elementele gramaticale și lexicale.

Materialele pe care le avem la dispoziție pictează următorul tablou. În engleză (s-au luat în considerare doar „cuvinte gramaticale”: pronume, sau, așa cum se mai numesc, „substitute”, prepoziții, conjuncții și verbe auxiliare), într-un segment care include 78633 de cazuri de utilizare a tuturor cuvintelor (1027 cuvinte diferite), 53.102 cazul utilizării elementelor gramaticale sau, mai precis, „cuvinte gramaticale” (149 de cuvinte diferite), adică 67,53% cu 15,8% cuvinte diferite. Acestea sunt datele lui Deway 8 9 . Alte date arată un procent diferit<129>raport: 57,1% cu 5,4% cuvinte diferite 9 0 . Această discrepanță semnificativă se explică prin diferența dintre limbajul scris și cel vorbit. Formele scrise ale limbii (primele date) se presupune că folosesc mai multe elemente gramaticale decât cele orale (al doilea caz). În Divina Comedie a lui Dante (după originalul italian), Mariotti a stabilit 54,4% din aparițiile „cuvintelor gramaticale”.

O altă modalitate și, aparent, mai perfectă de a determina încărcătura gramaticală a unei limbi este numărarea fonemelor incluse în elementele gramaticale. În acest caz, nu sunt luate în considerare numai cuvintele gramaticale independente, ci și formele înrudite. Există diverse opțiuni aici. De exemplu, determinarea frecvenței relative a utilizării fonemelor individuale de consoane în elemente gramaticale și compararea acestora cu frecvența utilizării totale a acelorași foneme (datele finale ale unui astfel de raport în limba engleză oferă o proporție de 99,9% la 100.000 - utilizare totală); sau o comparație similară a consoanelor în funcție de grupuri de clasificare separate (labiale, palatale, velare și alte foneme). Raportul final ia aici forma unei proporții de 56,47% (în elemente gramaticale) la 60,25% (în utilizare totală); sau aceeași comparație a fonemelor consoane inițiale (în acest caz, raportul a fost de 100,2% în cuvintele gramaticale la 99,95 în utilizarea totală). Sunt posibile și alte operații statistice mai complexe, care, totuși, au ca rezultat expresii cantitative similare ale problemei studiate.

Datele cantitative date servesc drept bază pentru o concluzie generală. Se rezumă la faptul că distribuția fonemelor în elemente gramaticale determină natura distribuției (în termeni numerici, bineînțeles) a fonemelor în limbă în ansamblu. Și acest lucru, la rândul său, ne permite să concluzionăm că utilizarea elementelor gramaticale în cea mai mică măsură depinde de alegerea individuală și constituie acea parte a expresiei lingvistice care este controlată de probabilități.<130>ness. Această concluzie speculativă este confirmată de calculul formelor gramaticale în limba rusă, realizat de Esselson 9 1 . Studiul a fost supus la 46896 de cuvinte preluate din sursele II (lucrări de Griboedov, Dostoievski, Goncharov, Saltykov-Șcedrin, Garshin, Belinsky, Amfiteatrov, Gusev-Orenburgsky, Ehrenburg, Simonov și N. Ostrovsky). Acestea au fost împărțite în cuvinte colocviale (17.756 cuvinte sau 37,9%) și non-colocviale (29140 cuvinte sau 62,1%). Apoi întregul set de cuvinte a fost împărțit în 4 grupe în funcție de natura lor gramaticală: grupa 1 cuprindea substantive, adjective, adjective în funcție de substantive, pronume și numerale flexate; în grupa a 2-a - verbe; în grupa a 3-a - participii verbale, participii în funcție de adjective și substantive și gerunzii; în grupa a 4-a - forme invariabile de adverbe, prepoziții, conjuncții și particule. Rezultatele rezumate (sunt prezentate și tabele cu date pentru autori individuali) oferă următorul raport:

grupa 1

a 2-a grupă

a 3-a grupă

a 4-a grupă

colocvial

taciturn

Herdan caracterizează luarea în considerare a datelor cantitative astfel obţinute în următoarele cuvinte: „Ele justifică concluzia că elementele gramaticale trebuie considerate ca un factor care determină probabilitatea unei expresii lingvistice. O astfel de concluzie evită calificarea împovărătoare a fiecărui cuvânt folosit. Este clar că, din moment ce gramatica și vocabularul nu sunt stocate în cochilii etanșe, nici „alegerea” pură sau „șansa” pură nu sunt. Atât gramatica, cât și vocabularul conțin ambele elemente, deși în proporții semnificativ variabile” 9 2 .<131>

O mare parte a cărții lui Herdan este dedicată studiului dualității sau dualității în limbaj, iar conceptul însuși de dualitate se bazează pe caracteristici matematice.

Astfel, teoremele din geometria proiectivă pot fi aranjate în două serii, astfel încât fiecare teoremă dintr-o serie să poată fi obținută dintr-o teoremă a altei serii prin înlocuirea cuvintelor punctși Drept. De exemplu, dacă este dat afirmația: „orice puncte diferite aparțin uneia și numai unei linii”, atunci putem deduce din ea afirmația corespunzătoare: „orice două linii diferite aparțin unui singur punct”. O altă metodă de determinare a dualității este reprezentarea unor planuri diferite ale fenomenului studiat de-a lungul absciselor și ordonatelor. Deci, așa cum face, de exemplu, Yul 9 3, diferite frecvențe de utilizare sunt numărate de-a lungul axei absciselor, iar numărul de unități lexicale a căror frecvență este determinată etc., este numărat de-a lungul axei ordonatelor..cercetare lingvistică.

Sub conceptul de dualitate astfel definit, care în toate cazurile are de fapt caracterul unui cod binar și care este considerat, de asemenea, trăsătura cea mai esențială a structurii lingvistice, se introduc fenomene de calități extrem de diferite, permițând opoziția pe două planuri. : repartizarea folosirii cuvintelor dupa natura unitatilor lexicale si repartizarea unitatilor lexicale dupa frecventa.utilizarea cuvintelor; forme de vorbire scrise și vorbite; elemente lexicale și gramaticale; sinonime și antonime; fonemul și reprezentarea sa grafică; definit și definitoriu (semnificativul și semnificația lui Saussure), etc.

După un studiu cantitativ al dualității unuia sau altui fenomen lingvistic sau „text” limitat, de regulă, se trage o concluzie căreia i se atribuie calitățile universalității lingvistice. Natura unor astfel de concluzii și modul în care sunt justificate pot fi văzute în exemplu<132>studii ale dualității cuvântului și conceptului (de fapt, vorbim despre raportul dintre lungimea cuvântului și volumul conceptului - trebuie avut în vedere că utilizarea extrem de liberă a termenilor lingvistici și de altă natură în astfel de lucrări îngreunează adesea înțelegerea). Este important de remarcat aici că sursa de observații a acestui tip de dualitate lingvistică au fost folosite ca sursă de observații ale acestui tip de dualitate lingvistică nomenclatura internațională a bolilor (aproximativ 1000 de denumiri) și registrul general al bolilor din Anglia și Wells pentru 1949. În acest caz, următoarele generale se ajunge la concluzia: „Orice concept care denotă o idee generală are ceea ce se poate numi „sferă” sau „volum”. Permite prin mediul său să se gândească la multe obiecte sau alte concepte care se află în „sfera” sa. Pe de altă parte, toate elementele necesare definirii unui concept constituie ceea ce se numește „conținutul” acestuia. Volumul și conținutul sunt reciproc corelate - cu cât conținutul este mai mic și, în consecință, cu cât conceptul este mai abstract, cu atât sfera sau volumul acestuia este mai mare, adică cu atât mai multe obiecte sunt aduse sub el. Aceasta poate fi văzută ca o analogie (în sfera conceptuală) cu principiile de codificare, conform cărora lungimea unui simbol și frecvența de utilizare sunt interdependente” 9 4 .

Principiul dualității se aplică și unor probleme particulare. De exemplu, la stabilirea echivalenței semnificațiilor cuvintelor în două limbi diferite. Ca urmare a studierii dicționarului englez-german de către Muret - 3anders folosind metoda matematică a iterațiilor, se ajunge la concluzia că probabilitatea utilizării unui cuvânt englezesc cu unul sau mai multe semnificații în traducerea germană rămâne constantă pentru fiecare literă inițială din întregul dicționar. 9 5 . Luarea în considerare a ordinii cuvintelor în dicționarele chineze duce la concluzia că este de natură taxonomică, deoarece numărul de linii din caracter indică locul acestuia (ca radical independent sau o anumită subclasă subordonată radicalului). Taxonomia este un principiu subordonator al clasificării folosit în zoologie și botanică. Kherdan susține că<133>bazele lexicografiei chineze sunt construite tot pe principiile taxonomiei 9 6 etc.

Făcând o evaluare generală a acestui domeniu de aplicare a metodelor matematice în studiul problemelor lingvistice (adică, statistica lingvistică), este necesar, aparent, să pornim de la poziția care a fost formulată de Ettinger: „Matematica poate fi folosită eficient. în slujba lingvisticii numai atunci când lingviştii au clar limitele reale ale aplicării ei, precum şi posibilităţile modelelor matematice folosite” 9 7 . Cu alte cuvinte, putem vorbi de lingvistică matematică atunci când metodele matematice își dovedesc adecvarea pentru rezolvarea acelor probleme lingvistice propriu-zise, care în totalitatea lor constituie știința limbajului. Dacă nu este cazul, deși acest lucru poate deschide noi aspecte ale cercetării științifice, atunci în acest caz putem vorbi despre orice, dar nu despre lingvistică - în acest caz, ne referim la diferite tipuri de lingvistică aplicată (vom vorbi despre mai târziu). vorbire de mai jos), dar lingvistică științifică sau teoretică. Pe baza acestei poziții, trebuie remarcat că din punctul de vedere al unui lingvist, multe din statisticile lingvistice sunt îndoielnice și chiar năucitoare.

Să trecem la analiza doar a două exemple (pentru a nu aglomera prezentarea), prevăzând că la fiecare dintre ele pot fi formulate obiecții foarte semnificative. Aici avem o distincție cantitativă între unitățile gramaticale și lexicale. Se pare că, pentru a face o astfel de distincție, este necesar să se știe deja în prealabil ce aparține domeniului gramaticii și ce anume vocabularului, deoarece „încărcarea gramaticală” a limbii (adică totalitatea elementelor gramaticale). folosit în vorbire), așa cum este indicat mai sus, „depinde de linia de demarcație care separă vocabularul de gramatică”. Fără a ști unde se află această linie, este deci imposibil de făcut distincția indicată. Care este atunci sensul metodei cantitative de a distinge lexical de gram<134>matic? Cu toate acestea, în ceea ce îl privește pe Herdan, el nu se gândește în mod deosebit la această problemă și clasifică cu îndrăzneală elementele lingvistice, referindu-se la elemente gramaticale „forme înrudite”, care, judecând după prezentare, ar trebui înțelese ca flexiune exterioară, și „cuvinte gramaticale”, care includ prepoziții, conjuncții, verbe auxiliare și pronume - acestea din urmă în virtutea faptului că sunt „înlocuitori”. Dar dacă vorbim doar despre această calitate a pronumelor și pe această bază le raportăm la elemente gramaticale, atunci, evident, li se atribuie și cuvinte precum „menționat mai sus”, „numit”, „dat” etc. cum acţionează şi ei ca deputaţi. În legătură cu metoda de separare a elementelor gramaticale utilizate în statistica lingvistică, se pune firesc întrebarea cum să se ocupe în acest caz de fenomene gramaticale „non-formale” precum ordinea cuvintelor, tonurile, morfeme zero, relațiile paradigmatice (unele dintre aceste fenomene). , apropo, găsiți reflectare în acele limbi care sunt studiate prin metode matematice)? Cum să faci o distincție în limbile cu inflexiune internă bogată (ca, de exemplu, în limbile semitice), unde nu numai că modifică gramatical rădăcina (radical), dar îi conferă și existență lexicală, deoarece rădăcina fără permutări are nicio existență reală în limbă? Ce ar trebui să se înțeleagă prin complexitatea gramaticală a unei limbi, după ce criteriu este determinată? Dacă punctul cantitativ, care în acest caz este subliniat în toate modurile posibile, atunci una dintre limbile cele mai dificile din punct de vedere gramatical va fi engleza, care are construcții precum Ishallhavebeencalling sau Hewouldhavebeencalling. În aceste propoziții, numai apelul poate fi clasificat ca lexical și, prin urmare, orice altceva trebuie considerat gramatical. Ce motive există pentru a lega frecvența de utilizare a elementelor gramaticale cu generalitatea sau abstractitatea semnificațiilor cuvintelor gramaticale? La urma urmei, este destul de evident că frecvența relativ mare de utilizare a elementelor gramaticale este determinată de funcția lor în construcția propozițiilor, iar în ceea ce privește abstractitatea semnificațiilor, este foarte ușor să găsești un mare<135>numărul de elemente lexicale care pot concura cu ușurință cu elementele gramaticale în acest sens, fiind în mare parte inferior acestora ca frecvență (de exemplu, ființă, existență, extindere, spațiu, substanță etc).

Un tip similar de absurd se ivește în fața noastră în cazul definiției dualității (dualității) cuvântului și conceptului. Este necesar să existe o înțelegere extrem de particulară a esenței structurale a limbii pentru a o supune cercetării utilizând nomenclatorul bolilor și registrul spitalicesc al bolilor, care, așa cum sa indicat mai sus, a servit drept material sursă pentru o importantă lingvistică. concluzii. Fără să ne oprim asupra folosirii complet obscure a unor astfel de termeni care nu au o existență lingvistică, cum ar fi sfera, sfera și conținutul unui concept (apropo, sensul lexical al cuvântului și conceptul desemnat de termenul științific sunt grosolan confuz), să trecem la concluzia care se face în acest caz. După cum sa menționat mai sus, avem de-a face cu afirmația că „sfera și conținutul sunt corelate reciproc”. Întregul curs de raționament care dă naștere la o asemenea concluzie, precum și modul de operare matematică a faptelor lingvistice, arată clar că în acest caz o calitate foarte esențială a limbajului este complet ignorată, ceea ce bulversează toate calculele efectuate. : capacitatea de a exprima același lucru.conținut” prin unități lingvistice de „volum” diferit, care au, fără îndoială, de altfel și o frecvență relativă diferită de utilizare. Deci, putem desemna aceeași persoană ca și Petrov, cunoscutul meu, el, un moscovit, un tânăr, un angajat al universității, fratele soției mele, un bărbat pe care l-am întâlnit pe pod etc. În lumina unor astfel de fapte, există sunt fără îndoială doar concluzii private, cărora însă, după cum s-a subliniat, li se acordă o semnificație universală, dar și oportunitatea aplicării metodelor cantitative în sine la astfel de probleme lingvistice.

Dar uneori lingviștilor li se oferă concluzii, a căror validitate nu este pusă la îndoială. Aceasta este „legea de bază a limbajului”, care constă în faptul că în limbă există o anumită stabilitate a elementelor sale și frecvența relativă a mențiunii lor.<136>consum. Problema cu acest tip de descoperiri este însă că sunt cunoscute de multă vreme de lingviști. La urma urmei, este destul de evident că dacă limba nu ar avea o anumită stabilitate și fiecare membru al unei anumite comunități lingvistice ar varia în mod liber elementele limbii, atunci comunicarea reciprocă nu ar fi posibilă și însăși existența limbii ar deveni lipsită de sens. . În ceea ce privește distribuția frecvenței relative a utilizării elementelor individuale ale limbii, ea și-a găsit expresia în lingvistică sub forma alocării categoriilor de vocabular și gramatică pasiv și activ, cărora L. V. Shcherba a acordat atât de multă atenție. În acest caz, metodele statistice nu pot ajuta lingviștii decât în distribuția elementelor lingvistice specifice în funcție de categoriile de frecvență relativă a utilizării lor, dar ei nu au niciun motiv să pretindă că descoperă noi modele care să fie valoroase pentru lingvistica teoretică.

Pe de altă parte, lingvistica oferă o serie de concluzii cu adevărat „originale”, care sunt extrem de indicative pentru natura gândirii științifice a adepților săi. Astfel, „vocabul politic” din lucrările lui Churchill, Benes, Halifax, Stresemann și alții este studiat cu metode statistice complexe, iar traducerile lucrărilor lor în limba engleză sunt folosite în calculele pentru autorii nevorbitori de limbă engleză. Rezultatele calculelor sunt prezentate sub forma a numeroase tabele, formule matematice și ecuații. Interpretarea lingvistică a datelor cantitative în acest caz se rezumă la faptul că utilizarea de către Churchill a „vocabularului politic” este cea mai tipică (?) pentru acest grup de autori și că utilizarea cuvintelor de către Churchill în cazurile în care se ocupă de probleme politice este tipică. a grupului de vorbire engleză.9 8 .

Într-un alt caz, după manipulări statistice adecvate, se ajunge la concluzia că Hitler a încălcat dualitatea dintre „limbaj” și „vorbire” în sensul cantitativ al acestor termeni în folosirea Germaniei naziste. Un caz special de distrugere a acestei dualități este înțelegerea literală<137>întorsături metaforice (de exemplu, „turnați sare în răni deschise”). Germania nazistă s-a marcat cu atât de multe acte inumane încât nu mai este nevoie să o condamnăm pentru această răutate lingvistică 9 9 . Potrivit lui Kherdan, definiția lui Marx a limbajului ca realitate imediată a gândirii duce și la o încălcare a dualității lingvistice, iar legea dialecticii despre trecerea unui fenomen în opusul său este, în opinia sa, legea lingvistică greșit înțeleasă a dualității. de limbaj. Astfel de interpretări vorbesc de la sine.

În cele din urmă, un neajuns comun inerent tuturor cazurilor de mai sus a metodei cantitative de studiu a materialului lingvistic și de a dobândi astfel un caracter metodologic este abordarea elementelor lingvistice ca ansamblu mecanic de fapte absolut independente unele de altele, în conformitate cu care, dacă există sau tipare, ele se referă doar la relaţiile numerice de distribuţie a faptelor autonome, în afara dependenţelor lor sistemice. Adevărat, J. Watmow încearcă în toate modurile posibile să asigure că matematica este mai bună decât orice fel de analiză structurală lingvistică, capabilă să dezvăluie trăsăturile structurale ale unei limbi. „Matematica modernă”, scrie el, „nu se preocupă de măsurare și calcul, a căror precizie este limitată de însăși natura lor, ci în primul rând de structură. Acesta este motivul pentru care matematica este foarte propice pentru acuratețea învățării limbilor - în măsura în care o descriere separată, și mai limitată în natură, nu este capabilă... La fel ca în fizică, elementele matematice sunt folosite pentru a descrie lumea fizică, întrucât se presupune că ele corespund elementelor lumii fizice, deci în lingvistica matematică elementele matematice se presupune că corespund elementelor lumii vorbirii” 101 . Dar o astfel de formulare a întrebării nu salvează în niciun caz situația, deoarece în cel mai bun caz se poate<138>dați o analiză a limbajului fie ca structură fizică, care este încă departe de a fi suficientă pentru o limbă și, în final, este încă de același caracter mecanic, fie ca structură logico-matematică, iar aceasta transferă limbajul într-o altă limbă. avion și, în multe privințe, străin acestuia. Nu este de prisos să remarcăm că Watmow prevede succesele lingvisticii matematice doar în viitor, iar în ceea ce privește rezultatele reale ale acestora, le evaluează în următoarele cuvinte: „... aproape toată munca făcută până în prezent de Herdan, Zipf, Yul, Giro (Guiraux) și alții, nu este în niciun caz în afara sferei criticii atât din partea lingvisticii, cât și a matematicii; ea miroase a amatorism în mare măsură” 103 . Astfel, dacă nu încercăm să prezicem viitorul metodelor matematice în cercetarea lingvistică, ci încercăm să apreciem ceea ce avem astăzi, atunci, în mod necesar, va trebui să admitem că, de fapt, matematica a fost până acum limitată în domeniul lingvisticii doar la „măsurare și calcul”, și nu am putut face o analiză calitativă a limbii, aprofundând în structura ei.<139>

Să încercăm să fim cât mai obiectivi. Într-o anumită parte, datele cantitative, aparent, pot fi folosite de lingvistică, dar numai ca auxiliare și mai ales în probleme care au o orientare practică. În ceea ce privește majoritatea metodelor cantitative de studiere a fenomenelor lingvistice individuale, concluzia generală a lui R. Brown este, fără îndoială, justificată: „Pot fi considerate așa cum le consideră Kherdan, dar care este sensul tuturor acestor lucruri?” 104 . Să ne imaginăm că punem întrebarea: „Ce sunt copacii din această grădină?”. Și ca răspuns primim: „Sunt o sută de copaci în această grădină”. Este acesta răspunsul la întrebarea noastră și chiar are sens? Dar în ceea ce privește multe întrebări lingvistice, metodele matematice oferă exact astfel de răspunsuri.

Cu toate acestea, există un domeniu larg de activitate de cercetare, folosind în principal metode matematice și în același timp orientându-le către material lingvistic, unde oportunitatea unei astfel de combinații este fără îndoială. „Sensul” acestei activități de cercetare, semnificația ei este determinată de scopurile la care aspiră. A fost deja testat în practică. În acest caz, vorbim despre problemele asociate cu crearea de mașini de informare, structuri pentru traducerea automată a textelor științifice scrise, automatizarea traducerii vorbirii orale dintr-o limbă în alta și cu întreaga gamă de sarcini care sunt combinate. în problemele lingvistice ale ciberneticii. Întregul set de astfel de probleme primește de obicei denumirea generală de lingvistică aplicată. Astfel, se distinge de așa-numita lingvistică matematică, care include acele domenii de lucru care au fost desemnate mai sus ca stilostatistică și statistică lingvistică, deși nu evită în niciun caz prelucrarea statistică a materialului lingvistic. Poate cea mai importantă trăsătură a lingvisticii aplicate, care o separă de lingvistica matematică, așa cum am subliniat mai sus, este că prima are direcția opusă: nu matematică pentru lingvistică, ci lingvistică.<140>(formalizată prin metode matematice) pentru o gamă largă de probleme practice.

Nu este nevoie să dezvăluiți conținutul problemelor individuale care sunt acum incluse în zona extrem de largă a lingvisticii aplicate. Spre deosebire de lingvistica matematică, aceste probleme sunt discutate activ în literatura lingvistică sovietică și pe bună dreptate încep să ocupe un loc din ce în ce mai proeminent în problemele științifice ale institutelor de cercetare 105 . Astfel, ele sunt deja bine cunoscute comunității noastre lingvistice. Această împrejurare, însă, nu ne scutește de necesitatea de a le supune reflecției, în special, din punctul de vedere al principiilor științei limbajului. Acest lucru va ajuta, fără îndoială, la eliminarea neînțelegerilor care apar din ce în ce mai des între reprezentanții științelor care sunt foarte îndepărtați unul de celălalt și care participă la lucrările privind problemele lingvisticii aplicate și va schița, pe de o parte, modalități de convergență a acestora. , și delimitarea domeniilor de cercetare, pe de altă parte. Este de la sine înțeles că următoarele considerații vor reprezenta punctul de vedere al lingvistului și este necesar ca matematicienii să încerce nu numai să-l asimileze, ci, în legătură cu întrebările ridicate, să le dea interpretarea lor.

Lingvistul-teoreticianul nu poate fi în niciun fel mulțumit cu faptul că în toate cazurile<141>limbajului în scopurile stabilite de lingvistica aplicată, baza lor este un model matematic. În conformitate cu aceasta, observațiile asupra fenomenelor limbajului și rezultatele obținute în acest fel sunt exprimate în termeni și concepte de matematică, adică prin ecuații și formule matematice. Să ne uităm la un exemplu pentru claritate. Condon 1 06 și Zipf 1 07 au stabilit că logaritmii frecvenței ( f) aparițiile cuvintelor într-un text mare sunt situate aproape în linie dreaptă, dacă sunt corelate în diagramă cu logaritmii de rang sau rang ( r) din aceste cuvinte. Ecuația f=c:r, Unde Cu este o constantă reflectă această relaţie în sensul limitat că c:r pentru valoarea setată r reproduce cu mare aproximare frecvenţa observată. Relație între fși r, exprimat printr-o formulă matematică, este un model pentru relația dintre valorile observate ale frecvenței de utilizare și rangul, sau rangul, al cuvintelor. Acesta este unul dintre cazurile de modelare matematică. 

Întreaga teorie a informaţiei se bazează în întregime pe modelul matematic al procesului de comunicare dezvoltat de C. Shannon 108 . Este definită ca „o disciplină matematică dedicată metodelor de calcul și estimare a cantității de informații conținute în orice date și studiului proceselor de stocare și transmitere a informațiilor” (TSB, vol. 51, p. 128). În consecință, conceptele de bază ale teoriei informațiilor primesc o expresie matematică.Informația se măsoară în binit sau unități binare (un cod, cu care se aseamănă limbajul, cu două semnale condiționate la fel de probabile transmite o unitate binară de informație în timpul transmiterii fiecărui caracter). ).-fie cod și cantitatea medie de informații transmise<142>formațiuni. Redundanța este exprimată ca procent din capacitatea totală de transmitere a codului”, 1 09 etc. În același mod, traducerea automată necesită dezvoltarea algoritmică a cartografierii elementelor unei limbi în alta etc. 1 10 . Acestea sunt alte cazuri de modelare.

Utilizarea modelelor fără nicio semnificație poate fi de un ajutor foarte semnificativ, în special, după toate probabilitățile, în rezolvarea problemelor pe care le pune lingvistica aplicată. Cu toate acestea, pentru lingvistica teoretică, este foarte important ca un model abstract, de regulă, să nu reproducă toate trăsăturile unui fenomen real, toate calitățile sale funcționale. Așadar, un arhitect, înainte de a construi o casă, își poate crea modelul, care reproduce casa fiind proiectată în toate cele mai mici detalii, iar asta îl ajută să rezolve o serie de probleme practice legate de construcția casei în sine. Dar un astfel de model de casă, oricât de precis ar fi, este lipsit de acea „funcție” și de acel scop pentru care sunt construite toate casele în general - nu este capabil să ofere unei persoane o locuință. Situația este similară cu limbajul, unde modelul nu este întotdeauna capabil să-și reproducă toate calitățile. În acest caz, problema este și mai complicată de faptul că nu sunt folosite criterii lingvistice, ci matematice pentru a construi modelul. „Modelele matematice... – scrie A. Ettinger, – joacă un rol extrem de important în toate domeniile tehnologiei, dar întrucât sunt un instrument de sinteză, semnificația lor pentru lingvistică, care este în primul rând o disciplină istorică și descriptivă, este limitată în mod firesc. ” 1 11 .<143>

Modelarea matematică a unei limbi este de fapt aplicabilă numai stării sale statice, care este condiționată pentru un lingvist și de fapt este în conflict direct cu calitatea de bază a unei limbi, a cărei formă de existență este însăși dezvoltarea. Este de la sine înțeles că studiul static al unei limbi nu este în niciun caz exclus din lingvistică și stă la baza alcătuirii gramaticilor și dicționarelor normative, gramaticilor descriptive, gramaticilor practice și dicționarelor care servesc drept ghid pentru studiul practic al limbilor străine etc. Cu toate acestea, în toate astfel de lucrări, care sunt predominant aplicate în natură, lingviștii limitează în mod conștient domeniul de cercetare și în niciun caz nu închid ochii la alte aspecte ale limbajului 1 12 . Odată cu o examinare statică a limbii, în special, astfel de calități ale limbii asociate cu natura sa dinamică, cum ar fi productivitatea, dependența de formele de gândire și interacțiunea extinsă cu factori culturali, sociali, politici, istorici și alți factori, dispar complet din câmpul de vedere al cercetătorului. Numai pe plan sincronic limbajul poate fi considerat ca un sistem de semne sau coduri convenționale, care însă se dovedește a fi complet nejustificat de îndată ce adoptăm un punct de vedere dinamic mai potrivit pentru limbaj. În procesele de dezvoltare, calitățile limbajului cum ar fi motivația, polisemia cuvintelor care nu au granițe stabile, neautonomia semnificației unui cuvânt și a învelișului său sonor și potențialul creativ al unui cuvânt asociat contextului sunt manifestat, iar toate acestea sunt în contradicție acută cu principalele caracteristici ale unui cod sau ale unui semn 1 13 . Evident, în lingvistica aplicată, se poate gândi și la toate aceste calități ale limbii și, din punct de vedere practic, se poate mulțumi cu, ca să spunem așa, un „instantaneu” al limbii, care este încă capabil să dea o idee destul de aproximativă despre mecanismul de funcționare a acestuia.<144>nirovaniya. Totuși, fiecare astfel de „instantaneu”, dacă este considerată ca un fapt al limbajului, și nu ca un fapt al unui sistem de coduri convenționale, trebuie inclusă în procesul nesfârșit al mișcării în care limbajul există întotdeauna 1 14 . Ea nu poate fi studiată în afara acelor condiții specifice care caracterizează această mișcare, care își lasă amprenta asupra stării date a limbii și determină potențialul dezvoltării sale ulterioare. Aici există aceeași diferență ca între o fotografie de moment a unei persoane și portretul său pictat cu pensula unui artist adevărat. În opera artistului, avem în fața noastră o imagine generalizantă a unei persoane în toată originalitatea nu numai a aspectului său fizic, ci și a conținutului său spiritual interior. Dintr-un portret artistic, putem citi și trecutul persoanei înfățișate pe el și putem determina de ce este capabil în acțiunile sale. Și un instantaneu, deși capabil să ofere o imagine mai precisă a aspectului originalului, este lipsit de aceste calități și surprinde adesea atât un coș accidental care a sărit pe nas, cât și<145>o ipostaza sau o expresie complet necaracteristica, care in cele din urma duce la o denaturare a originalului.

Trebuie remarcat faptul că metoda „instantaneelor” poate fi, desigur, aplicată faptelor dezvoltării limbajului. Dar în acest caz, ne vom ocupa de fapt doar de stări separate ale limbii, care, în caracterizarea lor cantitativă, se dovedesc a fi legate nu mai mult decât o caracterizare cantitativă comparativă a diferitelor limbi. Acest tip de „dinamică” cantitativă nu va conține nimic organic, iar legătura dintre stările individuale ale limbajului se va baza doar pe compararea relațiilor numerice. Dacă și în acest caz, să apelăm la o analogie, atunci ne putem referi la creșterea copilului. Dezvoltarea sa, desigur, poate fi reprezentată sub forma dinamicii datelor numerice despre greutatea sa, înălțimea, raporturile variabile ale volumului părților corpului său, dar toate aceste date sunt absolut desprinse de tot ceea ce constituie în primul rând esența individuală. a unei persoane - caracterul, înclinațiile, obiceiurile, aromele sale etc.

O altă latură negativă a „modelării” matematice a limbii este faptul că nu poate servi drept principiu general pe baza căruia este posibil să se realizeze o descriere cuprinzătoare și cuprinzătoare - sistematică a limbii. Doar o abordare matematică a fenomenelor limbajului, de exemplu, nu va face posibil să se răspundă nici măcar la întrebări atât de fundamentale (fără de care însăși existența științei limbajului este de neconceput), precum: ce este limbajul, ce fenomene ar trebui să fie atribuite celor lingvistice propriu-zise, cum se definește un cuvânt sau o propoziție, care sunt conceptele și categoriile de bază ale limbajului etc. Înainte de a trece la metodele matematice de studiere a limbajului, este necesar să avem deja răspunsuri (chiar și sub formă de o ipoteză de lucru) la toate aceste întrebări în avans. Nu este nevoie să închidem ochii asupra faptului că, în toate cazurile cunoscute nouă de studiul fenomenelor lingvistice prin metode matematice, toate aceste concepte și categorii au trebuit inevitabil acceptate așa cum au fost definite de tradițional sau, relativ vorbind, metode calitative.

Această caracteristică a metodelor matematice în aplicarea lor lingvistică a fost remarcată de Spang-Hanssen când pi<146>sal: „Trebuie avut în vedere că faptele observate care primesc o expresie cantitativă... nu au valoare dacă nu fac parte din descriere, iar în scopuri lingvistice ar trebui să fie o descriere sistematică, strâns legată de o lingvistică calitativă. descriere şi teorie” 1 15 . Într-un alt discurs al lui Spang-Hanssen, găsim o clarificare a acestei idei: „Până nu se dovedește posibilitatea construirii unui sistem cantitativ și atâta timp cât există un sistem calitativ general acceptat pentru un anumit domeniu de studiu, calcule de frecvență și altele. caracteristicile numerice din punct de vedere lingvistic nu au nici un sens” 1 16 . Idei similare sunt exprimate de Uldall, legându-le oarecum neașteptat de dezvoltarea fundamentelor teoretice generale ale glosematicii: „Când un lingvist numără sau măsoară tot ceea ce numără și măsoară, în sine nu este determinat cantitativ; de exemplu, cuvintele, atunci când sunt numărate, sunt definite, dacă sunt definite deloc, în termeni destul de diferiți.<147>

Astfel, rezultă că atât în termeni teoretici, cât și în aplicarea lor practică, metodele matematice sunt direct dependente de concepte și categorii lingvistice definite prin metode tradiționale, filologice sau, după cum am menționat mai sus, calitative. În ceea ce privește lingvistica aplicată, este important să conștientizăm această dependență și, în consecință, să facem cunoștință cu totalitatea principalelor categorii ale lingvisticii tradiționale.

Adevărat, nu există niciun motiv să reproșăm reprezentanților științelor exacte care lucrează în domeniul lingvisticii aplicate că nu folosesc datele lingvisticii moderne. Acest lucru nu corespunde cu starea reală a lucrurilor. Ei nu numai că cunosc perfect, ci și folosesc pe scară largă în activitatea lor sistemele de trăsături diferențiale stabilite de lingviști care sunt caracteristice diferitelor limbi, distribuția și aranjarea elementelor lingvistice în cadrul unor sisteme lingvistice specifice, realizările foneticii acustice etc. în acest caz, este necesară o rezervă foarte semnificativă. De altfel, reprezentanții științelor exacte folosesc datele unei singure direcții în lingvistică - așa-numita lingvistică descriptivă, care s-a remarcat în mod deliberat de problemele tradiționale ale lingvisticii teoretice, departe de a acoperi întregul domeniu al cercetării lingvistice, de la un din punct de vedere lingvistic, are deficiențe metodologice semnificative, care au condus-o la criza recent dezvăluită 1 18 , și, în plus, are o orientare pur practică, corespunzătoare intereselor lingvisticii aplicate. Toate rezervele și reproșurile care au fost făcute mai sus împotriva considerației statice a limbajului sunt aplicabile lingvisticii descriptive. O astfel de abordare unilaterală a lingvisticii descriptive poate, investigatorul<148>justificată totuși doar de sarcinile pe care lingvistica aplicată și le propune, dar departe de a epuiza întregul conținut al științei limbajului.

În procesul de dezvoltare a întrebărilor de lingvistică aplicată, pot apărea noi probleme teoretice și, de fapt, au apărut deja. Unele dintre aceste probleme sunt strâns legate de sarcinile specifice lingvisticii aplicate și au ca scop depășirea dificultăților care apar în rezolvarea acestor probleme. Alte probleme sunt direct legate de lingvistica teoretică, permițând o nouă perspectivă asupra ideilor tradiționale sau deschizând noi domenii de cercetare lingvistică, noi concepte și teorii. Printre acestea din urmă, de exemplu, se numără problema creării unui limbaj „mașină” (sau limbaj intermediar), care este cel mai strâns legat de un set complex de probleme cardinale ale lingvisticii teoretice precum relația dintre concepte și semnificațiile lexicale, logica și gramatica, diacronia și sincronia, natura semnifică a limbii, esența sensului lingvistic, principiile construirii limbajelor artificiale etc. 1 19 . În acest caz, este deosebit de important să se stabilească înțelegerea reciprocă și comunitatea în munca comună a reprezentanților disciplinelor lingvistice și ai științelor exacte. În ceea ce privește latura lingvistică, în acest caz, aparent, nu ar trebui să vorbim despre limitarea eforturilor, de exemplu, a designerilor de mașini de traducere în avans” și încercarea de a stabili capacitățile de lucru ale unor astfel de mașini folosind poeziile lui N. Gribaciov sau V. .proza lui Kochetov 1 20 . Mașina în sine va găsi limitele capacităților sale și profitabilitatea - limitele utilizării sale. Dar lingviștii, ca contribuție la cauza comună, trebuie să-și aducă cunoștințele despre trăsăturile structurii limbii, versatilitatea acesteia, relațiile interne de intersectare ale elementelor sale, precum și conexiunile largi și multilaterale ale limbajului cu cele fizice, fiziologice. , mental și logic<149>mi fenomene, modele specifice de funcționare și dezvoltare a limbajului. Totalitatea acestor cunoștințe este necesară pentru proiectanții mașinilor respective pentru a nu rătăci în direcții greșite, ci pentru a face căutarea intenționată și orientată clar. Chiar și scurta trecere în revistă a cazurilor de aplicare a metodelor matematice la problemele lingvistice, care a fost făcută în acest eseu, convinge că astfel de cunoștințe nu vor fi în niciun caz de prisos pentru reprezentanții științelor exacte.

Pe baza tuturor considerațiilor de mai sus, se poate ajunge în mod evident la câteva concluzii generale.

Deci, lingvistică matematică? Dacă aceasta înseamnă utilizarea metodelor matematice ca cheie universală pentru rezolvarea tuturor problemelor lingvistice, atunci astfel de afirmații ar trebui recunoscute ca fiind absolut nejustificate. Tot ceea ce s-a făcut în această direcție a făcut până acum foarte puțin sau chiar deloc pentru a rezolva problemele tradiționale ale științei limbajului. În cel mai rău caz, aplicarea metodelor matematice este însoțită de absurdități evidente sau, din punct de vedere lingvistic, este absolut lipsită de sens. În cel mai bun caz, metodele matematice pot fi folosite ca metode auxiliare ale cercetării lingvistice, fiind puse în slujba unor sarcini lingvistice specifice și limitate. Nu poate fi vorba despre vreo „filozofie cantitativă a limbajului”. La un moment dat, fizica, psihologia, fiziologia, logica, sociologia și etnologia au încălcat independența științei limbajului, dar nu au putut subjuga lingvistica. S-a întâmplat contrariul - lingvistica a profitat de realizările acestor științe și, în măsura necesară pentru ea însăși, a început să folosească ajutorul lor, îmbogățind astfel arsenalul tehnicilor sale de cercetare. Acum, se pare, a venit rândul matematicii. Este de sperat că această nouă comunitate va contribui și la întărirea științei limbii, la îmbunătățirea metodelor sale de lucru și la creșterea diversității acestora. Prin urmare, este la fel de legitim să vorbim despre lingvistică matematică ca și despre lingvistică fizică, lingvistică fiziologică, lingvistică logică, lingvistică psihologică și<150>etc. Nu există astfel de lingviști, există o singură lingvistică, care folosește în mod profitabil datele altor științe ca instrumente auxiliare de cercetare. Astfel, nu există niciun motiv să se retragă înaintea asaltului noii științe și să-i cedeze cu ușurință pozițiile pe care le-a câștigat. Aici este foarte potrivit să ne amintim cuvintele lui A. Martinet: „Poate că este tentant să se alăture uneia sau altei mișcări majore de gândire folosind câțiva termeni bine aleși, sau să declare cu o formulă matematică rigoarea raționamentului cuiva. A sosit însă momentul ca lingviștii să-și dea seama de independența științei lor și să se elibereze de acel complex de inferioritate care îi face să-și asocieze oricare dintre acțiunile lor cu unul sau altul principiu științific general, în urma căruia contururile realității devin mereu doar mai vagi, în loc să devină mai clare.

Prin urmare, matematica în sine și lingvistica în sine. Acest lucru nu exclude în niciun caz asistența lor reciprocă sau o întâlnire amicală în lucrul comun asupra problemelor comune. Acest gen de loc de aplicare a eforturilor concertate ale celor două științe este întreaga gamă largă de probleme care fac parte din lingvistica aplicată și au o mare importanță economică națională. Ar trebui doar să ne dorim ca în munca lor comună ambele științe să demonstreze o înțelegere reciprocă maximă, ceea ce va contribui, fără îndoială, la fructificarea maximă a cooperării lor.<151>

Interacțiunea dintre matematică și lingvistică

Introducere

Capitolul 1. Istoria aplicării metodelor matematice în lingvistică

1.1. Formarea lingvisticii structurale la începutul secolelor XIX-XX

1.2. Aplicarea metodelor matematice în lingvistică în a doua jumătate a secolului XX

Capitolul 2. Exemple selectate de utilizare a matematicii în lingvistică

2.1. Traducere automată

2.2.Metode statistice în învăţarea limbilor străine

2.3. Învățarea unei limbi prin metode de logică formală

2.4. Perspective de aplicare a metodelor matematice în lingvistică

Concluzie

Literatură

Anexa 1. Ronald Schleifer. Ferdinand de Saussure

Anexa 2. Ferdinand de Saussure (traducere)

Introducere

Scopul lucrării mele de curs este de a evidenția pe scurt legătura dintre matematică și o astfel de ramură a lingvisticii precum lingvistica. Începând cu anii 1950, matematica a fost folosită în lingvistică pentru a crea un aparat teoretic de descriere a structurii limbilor (atât naturale, cât și artificiale). Cu toate acestea, trebuie spus că nu și-a găsit imediat o astfel de aplicație practică. Inițial, metodele matematice din lingvistică au început să fie utilizate pentru a clarifica conceptele de bază ale lingvisticii, cu toate acestea, odată cu dezvoltarea tehnologiei computerelor, o astfel de premisă teoretică a început să-și găsească aplicare în practică. Rezolvarea unor sarcini precum traducerea automată, recuperarea automată a informațiilor, procesarea automată a textului a necesitat o abordare fundamental nouă a limbii. Lingvistii s-au confruntat cu întrebarea: cum să învețe să reprezinte tiparele lingvistice în forma în care acestea pot fi aplicate direct tehnologiei. Termenul „lingvistică matematică”, care este popular în timpul nostru, se referă la orice cercetare lingvistică care utilizează metode exacte (iar conceptul de metode exacte în știință este întotdeauna strâns legat de matematică). Unii oameni de știință din trecut cred că expresia în sine nu poate fi ridicată la rangul de termen, deoarece nu înseamnă nicio „lingvistică” specială, ci doar o nouă direcție axată pe îmbunătățirea, creșterea acurateței și fiabilității metodelor de cercetare lingvistică. Lingvistica folosește atât metode cantitative (algebrice), cât și necantitative, ceea ce o apropie de logica matematică și, în consecință, de filosofie și chiar de psihologie. Chiar și Schlegel a remarcat interacțiunea dintre limbaj și conștiință, iar Ferdinand de Saussure, un lingvist proeminent de la începutul secolului al XX-lea (voi povesti mai târziu despre influența sa asupra dezvoltării metodelor matematice în lingvistică), a conectat structura limbii cu apartenența ei. oamenilor. Cercetătorul modern L. Perlovsky merge mai departe, identificând caracteristicile cantitative ale limbii (de exemplu, numărul de genuri, cazuri) cu particularitățile mentalității naționale (mai multe despre aceasta în Secțiunea 2.2, „Metode statistice în lingvistică”).

Capitolul I. Istoria aplicării metodelor matematice în lingvistică

1.1 Formarea lingvisticii structurale la începutul secolelor XIX - XX

Descrierea matematică a limbii se bazează pe ideea de limbă ca mecanism, care se întoarce la faimosul lingvist elvețian de la începutul secolului al XX-lea, Ferdinand de Saussure.

Veragă inițială a conceptului său este teoria limbajului ca sistem format din trei părți (limbaj în sine - langue, vorbire - parole și activitate de vorbire - limbaj), în care fiecare cuvânt (membru al sistemului) este considerat nu în sine. , dar în legătură cu alţii.membri. După cum a remarcat mai târziu un alt lingvist proeminent, danezul Louis Hjelmslev, Saussure „a fost primul care a cerut o abordare structurală a limbajului, adică o descriere științifică a limbii prin înregistrarea relațiilor dintre unități”.

Astfel, în teoria lui F. de Saussure se poate observa interacțiunea lingvisticii, pe de o parte, cu sociologia și psihologia socială (de remarcat că, în același timp, fenomenologia lui Husserl, psihanaliza lui Freud, teoria relativității a lui Einstein au fost în curs de dezvoltare, au avut loc experimente asupra formei și conținutului în literatură, muzică și arte plastice), pe de altă parte, cu matematica (conceptul de consistență corespunde conceptului algebric de limbaj). Un astfel de concept a schimbat conceptul de interpretare lingvistică ca atare: Fenomenele au început să fie interpretate nu în raport cu cauzele apariției lor, ci în raport cu prezentul și viitorul. Interpretarea a încetat să mai fie independentă de intențiile unei persoane (în ciuda faptului că intențiile pot fi impersonale, „inconștiente” în sensul freudian al cuvântului).

Funcționarea mecanismului lingvistic se manifestă prin activitatea de vorbire a vorbitorilor nativi. Rezultatul vorbirii sunt așa-numitele „texte corecte” - secvențe de unități de vorbire care se supun anumitor tipare, dintre care multe permit descrierea matematică. Teoria modalităţilor de descriere a structurii sintactice se ocupă cu studiul metodelor de descriere matematică a textelor corecte (în primul rând propoziţii). Într-o astfel de structură, analogiile lingvistice sunt definite nu cu ajutorul calităților lor inerente, ci cu ajutorul relațiilor de sistem („structurale”).

Ideile lui Saussure au fost dezvoltate în Occident de către contemporanii mai tineri ai marelui lingvist elvețian: în Danemarca - L. Hjelmslev, deja menționat de mine, care a dat naștere teoriei algebrice a limbajului în lucrarea sa „Fundamentals of Linguistic Theory”, în SUA - E. Sapir, L. Bloomfield, C. Harris, în Cehia - om de știință-emigrant rus N. Trubetskoy.

În țara noastră, lingvistica structurală a început să se dezvolte cam în același timp ca și în Occident - la începutul secolelor XIX-XX. Concomitent cu F. de Saussure, conceptul de limbaj ca sistem a fost dezvoltat în lucrările lor de către profesorii Universității din Kazan F.F. Fortunatov și I.A. Baudouin de Courtenay. Acesta din urmă a corespuns multă vreme cu de Saussure, respectiv școlile de lingvistică de la Geneva și Kazan au colaborat între ele. Dacă Saussure poate fi numit ideologul metodelor „exacte” în lingvistică, atunci Baudouin de Courtenay a pus bazele practice pentru aplicarea lor. El a fost primul care a separat lingvistica (ca știință exactă folosind metode statistice și dependență funcțională) de filologie (o comunitate de discipline umanitare care studiază cultura spirituală prin limbaj și vorbire). Omul de știință însuși credea că „lingvistica poate fi utilă în viitorul apropiat, doar eliberată de uniunea obligatorie cu filologia și istoria literară”. Fonologia a devenit „terenul de testare” pentru introducerea metodelor matematice în lingvistică – sunetele ca „atomi” ai sistemului limbajului, având un număr limitat de proprietăți ușor măsurabile, erau materialul cel mai convenabil pentru metodele formale, riguroase de descriere. Fonologia neagă existența semnificației în sunet, astfel încât factorul „uman” a fost eliminat în studii. În acest sens, fonemele sunt ca obiectele fizice sau biologice.

Sunetele unei limbi sunt un set de caracteristici organizate sistematic. În anii 1920-1930, după Saussure, Jacobson și N.S. Trubetskoy au evidențiat „trăsăturile distinctive” ale fonemelor. Aceste caracteristici se bazează pe structura organelor vorbirii - limbă, dinți, corzi vocale. De exemplu, în limba engleză diferența dintre „t” și „d” este prezența sau absența unei „voci” (tensiunea corzilor vocale) și nivelul vocii care distinge un fonem de altul. Astfel, fonologia poate fi considerată un exemplu de regula generală a limbajului descrisă de Saussure: „Există doar diferențe în limbaj”. Și mai important nu este aceasta: diferența implică de obicei condițiile exacte între care se află; dar în limbaj există doar diferenţe fără condiţii precise. Fie că avem în vedere „desemnare” sau „semnificat” - în limbă nu există nici concepte, nici sunete care ar fi existat înainte de dezvoltarea sistemului lingvistic.

Astfel, în lingvistica saussureană, fenomenul studiat este înțeles ca un ansamblu de comparații și opoziții de limbaj. Limbajul este atât o expresie a sensului cuvintelor, cât și un mijloc de comunicare, iar aceste două funcții nu coincid niciodată. Putem observa alternanța formei și a conținutului: contrastele lingvistice definesc unitățile sale structurale, iar aceste unități interacționează pentru a crea un anumit conținut semnificativ. Deoarece elementele limbajului sunt aleatorii, nici contrastul, nici combinația nu pot sta la baza. Aceasta înseamnă că într-o limbă, trăsăturile distinctive formează un contrast fonetic la un nivel diferit de înțelegere, fonemele sunt combinate în morfeme, morfemele în cuvinte, cuvintele în propoziții etc. În orice caz, un întreg fonem, cuvânt, propoziție etc. este mai mult decât suma părților sale.

Saussure a propus ideea unei noi științe a secolului XX, separată de lingvistică, studiind rolul semnelor în societate. Saussure a numit această știință semiologie (din greacă „semeon” - un semn). „Știința” semioticii, care s-a dezvoltat în Europa de Est în anii 1920-1930 și la Paris în anii 1950-1960, a extins studiul limbajului și al structurilor lingvistice în constatări literare compuse (sau formulate) cu ajutorul acestor structuri. În plus, în amurgul carierei sale, în paralel cu cursul său de lingvistică generală, Saussure s-a angajat într-o analiză „semiotică” a poeziei romane târzii, încercând să descopere anagrame compuse în mod deliberat ale numelor proprii. Această metodă a fost în multe privințe opusul raționalismului în analiza sa lingvistică: a fost o încercare de a studia într-un sistem problema „probabilității” în limbaj. O astfel de cercetare ajută la concentrarea pe „partea reală” a probabilității; „cuvântul cheie” pentru care Saussure caută o anagramă este, după Jean Starobinsky, „un instrument pentru poet, nu sursa vieții poemului”. Poezia servește la schimbarea sunetelor cuvântului cheie. Potrivit lui Starobinsky, în această analiză, „Saussure nu se adâncește în căutarea semnificațiilor ascunse”. Dimpotrivă, în lucrările sale se remarcă dorința de a evita întrebările legate de conștiință: „de vreme ce poezia se exprimă nu numai în cuvinte, ci și în ceea ce dau naștere acestor cuvinte, ea depășește controlul conștiinței și depinde doar de legile limbajului” (vezi . Anexa 1).

Dacă este cu adevărat așa, este doar pentru că nu și-ar putea imagina „intenția” fără un obiect; el nu a putut acoperi complet decalajul dintre formă și conținut – în scrierile sale aceasta s-a transformat într-o întrebare. În schimb, a apelat la „legitimitatea lingvistică”. Între, pe de o parte, conceptele secolului al XIX-lea bazate pe istorie și presupuneri subiective și metode de interpretare aleatorie bazate pe aceste concepte și, pe de altă parte, concepte structuraliste care șterg opoziția dintre formă și conținut (subiect și obiect) , semnificație și origini în structuralism, psihanaliză și chiar mecanică cuantică, scrierile lui Ferdinand de Saussure despre lingvistică și semiotică marchează un punct de cotitură în studiul semnificațiilor în limbă și cultură.

Din păcate, după ce Stalin a venit la putere în 1924, lingvistica rusă, ca multe alte științe, este aruncată înapoi. Mulți oameni de știință talentați au fost forțați să emigreze, au fost expulzați din țară sau au murit în lagăre. Abia la mijlocul anilor 1950 a devenit posibil un anumit pluralism de teorii – mai multe despre aceasta în secțiunea 1.2.

1.2 Aplicarea metodelor matematice în lingvistică în a doua jumătate a secolului XX

Până la mijlocul secolului al XX-lea s-au format patru școli lingvistice mondiale, fiecare dintre ele s-a dovedit a fi strămoșul unei anumite metode „exacte”. Școala fonologică de la Leningrad (strămoșul său a fost un elev al lui Baudouin de Courtenay L.V. Shcherba) a folosit un experiment psiholingvistic bazat pe analiza vorbirii vorbitorilor nativi ca principal criteriu de generalizare a sunetului sub formă de fonem.

Oamenii de știință ai Cercului Lingvistic din Praga, în special, fondatorul acestuia, N.S. Trubetskoy, care a emigrat din Rusia, a dezvoltat teoria opozițiilor - structura semantică a limbii a fost descrisă de ei ca un set de unități semantice construite în mod opozițional - Sem. Această teorie a fost aplicată în studiul nu numai al limbii, ci și al culturii artistice.

Ideologii descriptivismului american au fost lingviştii L. Bloomfield şi E. Sapir. Limbajul a fost prezentat descriptiviștilor ca un set de enunțuri de vorbire, care au constituit obiectul principal al studiului lor. Accentul lor s-a pus pe regulile de descriere științifică (de unde și denumirea) textelor: studiul organizării, așezării și clasificării elementelor lor. Formalizarea procedeelor analitice în domeniul fonologiei și morfologiei (elaborarea de principii pentru studiul limbajului la diferite niveluri, analiza distributivă, metoda constituenților direcți etc.) a condus la formularea unor întrebări generale de modelare lingvistică. Neatenția față de planul conținutului limbii, precum și latura paradigmatică a limbii, nu a permis descriptiviștilor să interpreteze limbajul ca un sistem suficient de deplin.

Chomsky, descendent al imigranților din Rusia, a studiat lingvistica, matematica și filozofia la Universitatea din Pennsylvania din 1945, fiind puternic influențat de profesorul său Zelig Harris - ca și Harris, Chomsky a considerat și consideră în continuare părerile sale politice apropiate de anarhism (cunoscut încă ca critic al sistemului politic existent al SUA și ca unul dintre liderii spirituali ai antiglobalismului).

Prima lucrare științifică majoră a lui Chomsky, teza sa de master Morfology of Modern Hebrew (1951), a rămas nepublicată. Chomsky și-a luat doctoratul de la Universitatea din Pennsylvania în 1955, dar o mare parte din cercetările care stau la baza disertației sale (publicată integral abia în 1975 sub titlul The Logical Structure of Linguistic Theory) și prima sa monografie, Syntactic Structures (1957, Rus. trad. . 1962), a fost interpretat la Universitatea Harvard în 1951-1955. În același 1955, omul de știință s-a mutat la Institutul de Tehnologie din Massachusetts, unde a devenit profesor în 1962.

Teoria lui Chomsky a trecut prin mai multe etape în dezvoltarea sa.

În prima monografie „Syntactic Structures”, omul de știință a prezentat limbajul ca un mecanism de generare a unui set infinit de propoziții folosind un set finit de mijloace gramaticale. Pentru a descrie proprietățile lingvistice, el a propus conceptele de structuri gramaticale profunde (ascunse de percepția directă și generate de un sistem de reguli recursive, adică pot fi aplicate în mod repetat) și de suprafață (percepute direct), precum și transformări care descriu tranziția. de la structurile adânci la cele de suprafață. Mai multe structuri de suprafață pot corespunde unei singure structuri adânci (de exemplu, construcția pasivă Decretul este semnat de președinte este derivat din aceeași structură adâncă ca și construcția activă Președintele semnează decretul) și invers (de exemplu, ambiguitatea Mamă). iubește fiica este descrisă ca rezultat al coincidenței structurilor de suprafață care se întorc la două adâncimi diferite, în una dintre care mama este cea care iubește fiica, iar în cealaltă, cea pe care fiica o iubește).

În anii 1970, Chomsky a lucrat la teoria guvernării și a legăturii (GB-theory - de la cuvintele guvernare și obligatoriu) - mai generală decât cea anterioară. În ea, omul de știință a abandonat regulile specifice care descriu structurile sintactice ale limbilor specifice. Toate transformările au fost înlocuite cu o mutare universală. În cadrul teoriei GB, există și module private, fiecare dintre acestea fiind responsabil pentru propria sa parte a gramaticii.

Deja recent, în 1995, Chomsky a prezentat un program minimalist, în care limbajul uman este descris ca limbajul mașinilor. Este doar un program, nu un model sau o teorie. În ea, Chomsky identifică două subsisteme principale ale aparatului limbajului uman: lexicul și sistemul de calcul, precum și două interfețe - fonetică și logică.

Școala Fonologică din Moscova, ai cărei reprezentanți au fost A.A. Reformatsky, V.N. Sidorov, P.S. Kuznetsov, A.M. Sukhotin, R.I. Avanesov, a folosit o teorie similară pentru a studia fonetica. Treptat, metodele „exacte” încep să fie aplicate nu numai în ceea ce privește fonetică, ci și sintaxă. Atât lingviştii, cât şi matematicienii, atât aici, cât şi în străinătate, încep să studieze structura limbii. În anii 1950 și 60, în URSS a început o nouă etapă în interacțiunea dintre matematică și lingvistică, asociată cu dezvoltarea sistemelor de traducere automată.

Impulsul pentru începerea acestor lucrări în țara noastră l-au constituit primele dezvoltări în domeniul traducerii automate în Statele Unite (deși primul dispozitiv de traducere mecanizată de P.P. Smirnov-Troyansky a fost inventat în URSS încă din 1933, acesta, fiind primitiv , nu s-a răspândit). În 1947, A. Butt și D. Britten au venit cu un cod pentru traducerea cuvânt cu cuvânt folosind un computer, un an mai târziu, R. Richens a propus o regulă pentru împărțirea cuvintelor în tulpini și terminații în traducerea automată. Acei ani au fost cu totul diferiți de cei de azi. Acestea erau mașini foarte mari și scumpe care ocupau încăperi întregi și necesitau un personal mare de ingineri, operatori și programatori pentru a le întreține. Practic, aceste calculatoare erau folosite pentru a efectua calcule matematice pentru nevoile instituțiilor militare - noul în matematică, fizică și tehnologie a servit, în primul rând, afacerilor militare. În primele etape, dezvoltarea MP a fost susținută activ de armată, în timp ce (în condițiile Războiului Rece) s-a dezvoltat direcția ruso-engleză în SUA, iar direcția anglo-rusă în URSS.

În ianuarie 1954, la Universitatea Tehnică din Massachusetts a avut loc Experimentul Georgetown, prima demonstrație publică de traducere din rusă în engleză pe mașina IBM-701. Rezumat al mesajului despre trecerea cu succes a experimentului, realizat de D.Yu. Panov, a apărut în RJ „Matematică”, 1954, nr. 10: „Traducerea dintr-o limbă în alta folosind o mașină: un raport asupra primului test de succes”.

Cu toate acestea, prima generație de sisteme de traducere automată a fost foarte imperfectă. Toate s-au bazat pe algoritmi de traducere secvențială „cuvânt cu cuvânt”, „expresie cu frază” – conexiunile semantice dintre cuvinte și propoziții nu au fost luate în considerare în niciun fel. De exemplu, pot fi date următoarele propoziții: „Ioan își căuta cutia de jucării. În sfârșit l-a găsit. Cutia era în stilou. John era foarte fericit. (John își căuta cutia de jucării. În cele din urmă a găsit-o. Cutia era în tarc. John era foarte fericit.)” „Pen” în acest context nu este un „pix” (instrument de scris), ci un „pix” (play-pen). Cunoașterea sinonimelor, antonimelor și semnificațiilor figurate este dificil de introdus într-un computer. O direcție promițătoare a fost dezvoltarea sistemelor informatice axate pe utilizarea unui traducător uman.

Lyapunov a vorbit despre traducere extragând sensul textului tradus și prezentându-l într-o altă limbă. Abordarea construirii sistemelor de traducere automată bazată pe obținerea reprezentării semantice a propoziției de intrare prin analiza semantică și sinteza propoziției de intrare în funcție de reprezentarea semantică obținută este încă considerată cea mai perfectă. Astfel de sisteme se numesc sisteme I (de la cuvântul „interlingua”). Totuși, sarcina de a le crea, amânată la sfârșitul anilor 50 și începutul anilor 60, nu a fost rezolvată pe deplin până acum, în ciuda eforturilor Federației Internaționale a IFIP, comunitatea mondială a oamenilor de știință din domeniul prelucrării informațiilor.

La 6 mai 1960, a fost adoptat Decretul Prezidiului Academiei de Științe a URSS „Cu privire la dezvoltarea metodelor structurale și matematice pentru studiul limbii”, iar diviziile corespunzătoare au fost create la Institutul de Lingvistică și Institutul de limba rusă. Din 1960, în principalele universități umanitare ale țării - facultatea de filologie a Universității de Stat din Moscova, Leninrad, universitățile Novosibirsk, Institutul de Stat al Limbilor Străine din Moscova - a început pregătirea în domeniul procesării automate a textului.

Cu toate acestea, lucrările de traducere automată din această perioadă, numite „clasice”, prezintă un interes mai mult teoretic decât practic. Sistemele de traducere automată rentabile au început să fie create abia în anii optzeci ai secolului trecut. Voi vorbi despre asta mai târziu în Secțiunea 2.1, Traducere automată.

Anii 1960 - 70 includ dezvoltări teoretice profunde folosind metodele teoriei mulțimilor și logicii matematice, cum ar fi teoria câmpului și teoria mulțimilor fuzzy.

În această teorie, vorbim nu atât despre apartenența elementelor la o mulțime dată (АОа), cât despre gradul de apartenență al acestei (mАОа), întrucât elementele periferice pot aparține mai multor domenii într-un grad sau altul. Zade (Lofti-zade) era originar din Azerbaidjan, până la vârsta de 12 ani a avut practica de a comunica în patru limbi - azeră, rusă, engleză și persană - și a folosit trei alfabete diferite: chirilic, latin, arab. Când un om de știință este întrebat ce este comun între teoria mulțimilor fuzzy și lingvistică, el nu neagă această legătură, dar clarifică: „Nu sunt sigur că studiul acestor limbi a avut o mare influență asupra gândirii mele. Dacă acesta a fost cazul, atunci numai subconștient. În tinerețe, Zadeh a studiat la o școală prezbiteriană din Teheran, iar după al Doilea Război Mondial a emigrat în Statele Unite. „Întrebarea nu este dacă sunt american, rus, azer sau orice altceva”, a spus el.

Rezumate similare:

Limbajul și vorbirea ca una dintre problemele fundamentale în stilistică. Conceptul de fonem și nivel fonologic. Conceptul de limbă ca sistem și niveluri ale sistemului lingvistic. Conceptul de morfeme și tipurile lor. O propoziție ca unitate sintactică a unui text. Semne ale sistemului lingvistic.

Introducere

Capitolul 1. Istoria aplicării metodelor matematice în lingvistică

1.1. Formarea lingvisticii structurale la începutul secolelor XIX-XX

1.2. Aplicarea metodelor matematice în lingvistică în a doua jumătate a secolului XX

Capitolul 2. Exemple selectate de utilizare a matematicii în lingvistică

2.1. Traducere automată

2.2.Metode statistice în învăţarea limbilor străine

2.3. Învățarea unei limbi prin metode de logică formală

2.4. Perspective de aplicare a metodelor matematice în lingvistică

Concluzie

Literatură

Anexa 1. Ronald Schleifer. Ferdinand de Saussure

Anexa 2. Ferdinand de Saussure (traducere)

Introducere

Scopul lucrării mele de curs este de a evidenția pe scurt legătura dintre matematică și o astfel de ramură a lingvisticii precum lingvistica. Începând cu anii 1950, matematica a fost folosită în lingvistică pentru a crea un aparat teoretic de descriere a structurii limbilor (atât naturale, cât și artificiale). Cu toate acestea, trebuie spus că nu și-a găsit imediat o astfel de aplicație practică. Inițial, metodele matematice din lingvistică au început să fie utilizate pentru a clarifica conceptele de bază ale lingvisticii, cu toate acestea, odată cu dezvoltarea tehnologiei computerelor, o astfel de premisă teoretică a început să-și găsească aplicare în practică. Rezolvarea unor sarcini precum traducerea automată, recuperarea automată a informațiilor, procesarea automată a textului a necesitat o abordare fundamental nouă a limbii. Lingvistii s-au confruntat cu întrebarea: cum să învețe să reprezinte tiparele lingvistice în forma în care acestea pot fi aplicate direct tehnologiei. Termenul „lingvistică matematică”, care este popular în timpul nostru, se referă la orice cercetare lingvistică care utilizează metode exacte (iar conceptul de metode exacte în știință este întotdeauna strâns legat de matematică). Unii oameni de știință din trecut cred că expresia în sine nu poate fi ridicată la rangul de termen, deoarece nu înseamnă nicio „lingvistică” specială, ci doar o nouă direcție axată pe îmbunătățirea, creșterea acurateței și fiabilității metodelor de cercetare lingvistică. Lingvistica folosește atât metode cantitative (algebrice), cât și necantitative, ceea ce o apropie de logica matematică și, în consecință, de filosofie și chiar de psihologie. Chiar și Schlegel a remarcat interacțiunea dintre limbaj și conștiință, iar Ferdinand de Saussure, un lingvist proeminent de la începutul secolului al XX-lea (voi povesti mai târziu despre influența sa asupra dezvoltării metodelor matematice în lingvistică), a conectat structura limbii cu apartenența ei. oamenilor. Cercetătorul modern L. Perlovsky merge mai departe, identificând caracteristicile cantitative ale limbii (de exemplu, numărul de genuri, cazuri) cu particularitățile mentalității naționale (mai multe despre aceasta în Secțiunea 2.2, „Metode statistice în lingvistică”).

Capitolul I. Istoria aplicării metodelor matematice în lingvistică

1.1 Formarea lingvisticii structurale la începutul secolelor XIX - XX

Descrierea matematică a limbii se bazează pe ideea de limbă ca mecanism, care se întoarce la faimosul lingvist elvețian de la începutul secolului al XX-lea, Ferdinand de Saussure.

Astfel, în teoria lui F. de Saussure se poate observa interacțiunea lingvisticii, pe de o parte, cu sociologia și psihologia socială (de remarcat că, în același timp, fenomenologia lui Husserl, psihanaliza lui Freud, teoria relativității a lui Einstein au fost în curs de dezvoltare, au avut loc experimente asupra formei și conținutului în literatură, muzică și arte plastice), pe de altă parte, cu matematica (conceptul de consistență corespunde conceptului algebric de limbaj). Un astfel de concept a schimbat conceptul de interpretare lingvistică ca atare: Fenomenele au început să fie interpretate nu în raport cu cauzele apariției lor, ci în raport cu prezentul și viitorul. Interpretarea a încetat să mai fie independentă de intențiile unei persoane (în ciuda faptului că intențiile pot fi impersonale, „inconștiente” în sensul freudian al cuvântului).

Funcționarea mecanismului lingvistic se manifestă prin activitatea de vorbire a vorbitorilor nativi. Rezultatul vorbirii sunt așa-numitele „texte corecte” - secvențe de unități de vorbire care se supun anumitor tipare, dintre care multe permit descrierea matematică. Teoria modalităţilor de descriere a structurii sintactice se ocupă cu studiul metodelor de descriere matematică a textelor corecte (în primul rând propoziţii). Într-o astfel de structură, analogiile lingvistice sunt definite nu cu ajutorul calităților lor inerente, ci cu ajutorul relațiilor de sistem („structurale”).

Introducere

Capitolul 1. Istoria aplicării metodelor matematice în lingvistică

1.1. Formarea lingvisticii structurale la începutul secolelor XIX-XX

1.2. Aplicarea metodelor matematice în lingvistică în a doua jumătate a secolului XX

Capitolul 2. Exemple selectate de utilizare a matematicii în lingvistică

2.1. Traducere automată

2.2.Metode statistice în învăţarea limbilor străine

2.3. Învățarea unei limbi prin metode de logică formală

2.4. Perspective de aplicare a metodelor matematice în lingvistică

Concluzie

Literatură

Anexa 1. Ronald Schleifer. Ferdinand de Saussure

Anexa 2. Ferdinand de Saussure (traducere)

Introducere

Scopul lucrării mele de curs este de a evidenția pe scurt legătura dintre matematică și o astfel de ramură a lingvisticii precum lingvistica. Începând cu anii 1950, matematica a fost folosită în lingvistică pentru a crea un aparat teoretic de descriere a structurii limbilor (atât naturale, cât și artificiale). Cu toate acestea, trebuie spus că nu și-a găsit imediat o astfel de aplicație practică. Inițial, metodele matematice din lingvistică au început să fie utilizate pentru a clarifica conceptele de bază ale lingvisticii, cu toate acestea, odată cu dezvoltarea tehnologiei computerelor, o astfel de premisă teoretică a început să-și găsească aplicare în practică. Rezolvarea unor sarcini precum traducerea automată, recuperarea automată a informațiilor, procesarea automată a textului a necesitat o abordare fundamental nouă a limbii. Lingvistii s-au confruntat cu întrebarea: cum să învețe să reprezinte tiparele lingvistice în forma în care acestea pot fi aplicate direct tehnologiei. Termenul „lingvistică matematică”, care este popular în timpul nostru, se referă la orice cercetare lingvistică care utilizează metode exacte (iar conceptul de metode exacte în știință este întotdeauna strâns legat de matematică). Unii oameni de știință din trecut cred că expresia în sine nu poate fi ridicată la rangul de termen, deoarece nu înseamnă nicio „lingvistică” specială, ci doar o nouă direcție axată pe îmbunătățirea, creșterea acurateței și fiabilității metodelor de cercetare lingvistică. Lingvistica folosește atât metode cantitative (algebrice), cât și necantitative, ceea ce o apropie de logica matematică și, în consecință, de filosofie și chiar de psihologie. Chiar și Schlegel a remarcat interacțiunea dintre limbaj și conștiință, iar Ferdinand de Saussure, un lingvist proeminent de la începutul secolului al XX-lea (voi povesti mai târziu despre influența sa asupra dezvoltării metodelor matematice în lingvistică), a conectat structura limbii cu apartenența ei. oamenilor. Cercetătorul modern L. Perlovsky merge mai departe, identificând caracteristicile cantitative ale limbii (de exemplu, numărul de genuri, cazuri) cu particularitățile mentalității naționale (mai multe despre aceasta în Secțiunea 2.2, „Metode statistice în lingvistică”).

Capitolul I. Istoria aplicării metodelor matematice în lingvistică

1.1 Formarea lingvisticii structurale la începutul secolelor XIX - XX

Descrierea matematică a limbii se bazează pe ideea de limbă ca mecanism, care se întoarce la faimosul lingvist elvețian de la începutul secolului al XX-lea, Ferdinand de Saussure.

Saussure a propus ideea unei noi științe a secolului XX, separată de lingvistică, studiind rolul semnelor în societate. Saussure a numit această știință semiologie (din greacă „semeîon” - un semn). „Știința” semioticii, care s-a dezvoltat în Europa de Est în anii 1920 și 1930 și la Paris în anii 1950 și 1960, a extins studiul limbajului și al structurilor lingvistice în descoperiri literare compuse (sau formulate) cu ajutorul acestor structuri. În plus, în amurgul carierei sale, în paralel cu cursul său de lingvistică generală, Saussure s-a angajat într-o analiză „semiotică” a poeziei romane târzii, încercând să descopere anagrame compuse în mod deliberat ale numelor proprii. Această metodă a fost în multe privințe opusul raționalismului în analiza sa lingvistică: a fost o încercare de a studia într-un sistem problema „probabilității” în limbaj. O astfel de cercetare ajută la concentrarea pe „partea reală” a probabilității; „cuvântul cheie” pentru care Saussure caută o anagramă este, după Jean Starobinsky, „un instrument pentru poet, nu sursa vieții poemului”. Poezia servește la schimbarea sunetelor cuvântului cheie. Potrivit lui Starobinsky, în această analiză, „Saussure nu se adâncește în căutarea semnificațiilor ascunse”. Dimpotrivă, în lucrările sale se remarcă dorința de a evita întrebările legate de conștiință: „de vreme ce poezia se exprimă nu numai în cuvinte, ci și în ceea ce dau naștere acestor cuvinte, ea depășește controlul conștiinței și depinde doar de legile limbajului” (vezi . Anexa 1).

1.2 Aplicarea metodelor matematice în lingvistică în a doua jumătate a secolului XX

Teoria lui Chomsky a trecut prin mai multe etape în dezvoltarea sa.

Impulsul pentru începerea acestor lucrări în țara noastră l-au constituit primele dezvoltări în domeniul traducerii automate în Statele Unite (deși primul dispozitiv de traducere mecanizată de P.P. Smirnov-Troyansky a fost inventat în URSS încă din 1933, acesta, fiind primitiv , nu s-a răspândit). În 1947, A. Butt și D. Britten au venit cu un cod pentru traducerea cuvânt cu cuvânt folosind un computer, un an mai târziu, R. Richens a propus o regulă pentru împărțirea cuvintelor în tulpini și terminații în traducerea automată. Acei ani au fost cu totul diferiți de cei de azi. Acestea erau mașini foarte mari și scumpe care ocupau încăperi întregi și necesitau un personal mare de ingineri, operatori și programatori pentru a le întreține. Practic, aceste calculatoare erau folosite pentru a efectua calcule matematice pentru nevoile instituțiilor militare - noul în matematică, fizică și tehnologie a servit, în primul rând, afacerilor militare. În primele etape, dezvoltarea MP a fost susținută activ de armată, în timp ce (în condițiile Războiului Rece) s-a dezvoltat direcția ruso-engleză în SUA, iar direcția anglo-rusă în URSS.

Cu toate acestea, prima generație de sisteme de traducere automată a fost foarte imperfectă. Toate s-au bazat pe algoritmi de traducere secvențială „cuvânt cu cuvânt”, „expresie cu frază” – conexiunile semantice dintre cuvinte și propoziții nu au fost luate în considerare în niciun fel. De exemplu, propozițiile sunt: John își căuta cutia de jucării.În sfârșit l-a găsit. Cutia era în stilou.John era foarte fericit. (John își căuta cutia de jucării. În cele din urmă a găsit-o. Cutia era în tarc. John era foarte fericit.)” „Pen” în acest context nu este un „pix” (instrument de scris), ci un „pix” ( pixă de joacă). Cunoașterea sinonimelor, antonimelor și semnificațiilor figurate este dificil de introdus într-un computer. O direcție promițătoare a fost dezvoltarea sistemelor informatice axate pe utilizarea unui traducător uman.

Lyapunov a vorbit despre traducere extragând sensul textului tradus și prezentându-l într-o altă limbă. Abordarea construirii sistemelor de traducere automată bazată pe obținerea reprezentării semantice a propoziției de intrare prin analiza semantică și sinteza propoziției de intrare în funcție de reprezentarea semantică obținută este încă considerată cea mai perfectă. Astfel de sisteme se numesc sisteme I (de la cuvântul „interlingua”). Totuși, sarcina creării acestora, amânată la sfârșitul anilor 50 și începutul anilor 60, nu a fost rezolvată pe deplin până acum, în ciuda eforturilor Federației Internaționale a IFIP - comunitatea mondială a oamenilor de știință în domeniul prelucrării informațiilor.

Anii 1960 - 70 includ dezvoltări teoretice profunde folosind metodele teoriei mulțimilor și logicii matematice, cum ar fi teoria câmpului și teoria mulțimilor fuzzy.

În această teorie, vorbim nu atât despre apartenența elementelor la o mulțime dată (АОа), cât despre gradul de apartenență (mАОа), întrucât elementele periferice pot aparține mai multor domenii într-un grad sau altul. Zade (Lofti-zade) era originar din Azerbaidjan, până la vârsta de 12 ani a avut practica de a comunica în patru limbi - azeră, rusă, engleză și persană - și a folosit trei alfabete diferite: chirilic, latin, arab. Când un om de știință este întrebat ce este comun între teoria mulțimilor fuzzy și lingvistică, el nu neagă această legătură, dar clarifică: „Nu sunt sigur că studiul acestor limbi a avut o mare influență asupra gândirii mele. Dacă acesta a fost cazul, atunci numai subconștient. În tinerețe, Zadeh a studiat la o școală prezbiteriană din Teheran, iar după al Doilea Război Mondial a emigrat în Statele Unite. „Întrebarea nu este dacă sunt american, rus, azer sau altcineva”, a spus el într-una dintre conversații, „sunt modelat de toate aceste culturi și popoare și mă simt destul de confortabil printre fiecare dintre ele”. În aceste cuvinte există ceva asemănător cu ceea ce caracterizează teoria mulțimilor fuzzy - o abatere de la definițiile neechivoce și categoriile clare.

Capitolul 2. Exemple selectate de utilizare a matematicii în lingvistică

2.1 Traducere automată

În perioada 1978-93, 20 de milioane de dolari au fost cheltuiți pentru cercetare în domeniul traducerii automate în SUA, 70 de milioane în Europa și 200 de milioane în Japonia.

În iulie 1990, la Forumul PC de la Moscova a fost prezentat primul sistem comercial de traducere automată din Rusia numit PROMT (PROgrammer's Machine Translation) PROMT a câștigat concursul NASA pentru furnizarea de sisteme MP (PROMT era singura companie neamericană din acest domeniu). În 1992, PROMT a lansat o întreagă familie de sisteme sub noul nume STYLUS pentru traducerea din engleză, germană, franceză, italiană și spaniolă în rusă și din rusă în engleză, iar primul sistem de traducere automată din lume pentru Windows a fost creat pe baza STYLUS în 1993. În 1994, STYLUS 2.0 a fost lansat pentru Windows 3.X/95/NT, iar în 1995-1996 a treia generație de sisteme de traducere automată, STYLUS 3.0 complet pe 32 de biți pentru Windows 95/NT, în timp ce a fost finalizată cu succes dezvoltarea de primele sisteme de traducere automată ruso-germană și rusă-franceză complet noi.

2.2 Metode statistice în învăţarea limbilor străine