A história da aplicação de métodos matemáticos em linguística. Perspectivas para a aplicação de métodos matemáticos em linguística

Índice
Introdução
Capítulo 1. A história da aplicação de métodos matemáticos em linguística
1.1. A formação da linguística estrutural na virada dos séculos XIX-XX
1.2. Aplicação de métodos matemáticos em linguística na segunda metade do século XX.
Conclusão
Literatura
Introdução
No século 20, tem havido uma tendência contínua para a interação e interpenetração de vários campos do conhecimento.As fronteiras entre as ciências individuais estão gradualmente se esvaindo; há cada vez mais ramos da atividade mental que estão "na junção" do conhecimento humanitário, técnico e das ciências naturais.
Outra característica óbvia da modernidade é o desejo de estudar as estruturas e seus elementos constituintes. Portanto, um lugar crescente, tanto na teoria científica quanto na prática, é dado à matemática. Entrando em contato, por um lado, com a lógica e a filosofia, por outro, com a estatística (e, consequentemente, com as ciências sociais), a matemática penetra cada vez mais profundamente naquelas áreas que por muito tempo foram consideradas puramente "humanitários", ampliando seu potencial heurístico (a resposta à pergunta "quanto" muitas vezes ajudará a responder às perguntas "o quê" e "como"). A linguística não foi exceção.O objetivo do meu trabalho de conclusão de curso é destacar brevemente a conexão entre a matemática e um ramo da linguística como a linguística. Desde a década de 1950, a matemática tem sido usada na linguística para criar um aparato teórico para descrever a estrutura das línguas (naturais e artificiais). No entanto, deve-se dizer que não encontrou imediatamente essa aplicação prática para si. Inicialmente, os métodos matemáticos em linguística começaram a ser utilizados para esclarecer os conceitos básicos da linguística, porém, com o desenvolvimento da tecnologia computacional, tal premissa teórica começou a ser aplicada na prática. A resolução de tarefas como tradução automática, recuperação de informações por máquina, processamento automático de texto exigia uma abordagem fundamentalmente nova da linguagem. Uma questão surgiu diante dos linguistas: como aprender a representar padrões linguísticos na forma em que eles podem ser aplicados diretamente à tecnologia. O termo “linguística matemática”, que é popular em nosso tempo, refere-se a qualquer pesquisa linguística que use métodos exatos (e o conceito de métodos exatos na ciência está sempre intimamente relacionado à matemática). Alguns cientistas dos últimos anos acreditam que a expressão em si não pode ser elevada à categoria de termo, pois não significa nenhuma “linguística” especial, mas apenas uma nova direção voltada para o aprimoramento, aumento da precisão e confiabilidade dos métodos de pesquisa linguística. A linguística usa métodos quantitativos (algébricos) e não quantitativos, o que a aproxima da lógica matemática e, consequentemente, da filosofia e até da psicologia. Até mesmo Schlegel notou a interação da linguagem e da consciência, e o proeminente linguista do início do século XX, Ferdinand de Saussure (falarei sobre sua influência no desenvolvimento de métodos matemáticos em linguística mais tarde), conectou a estrutura da linguagem com seu pertencimento. ao povo. O pesquisador moderno L. Perlovsky vai além, identificando as características quantitativas da língua (por exemplo, o número de gêneros, casos) com as peculiaridades da mentalidade nacional (mais sobre isso na Seção 2. 2, "Métodos Estatísticos em Lingüística").
A interação da matemática e da linguística é um tema multifacetado, e em meu trabalho não me deterei em tudo, mas, antes de tudo, em seus aspectos aplicados.
Capítulo I. História da Aplicação de Métodos Matemáticos em Lingüística
1.1 A formação da linguística estrutural na virada dos séculos XIX-XX
A descrição matemática da linguagem é baseada na ideia de linguagem como mecanismo, que remonta ao famoso linguista suíço do início do século XX, Ferdinand de Saussure.
O elo inicial de seu conceito é a teoria da linguagem como um sistema constituído de três partes (língua em si - langue, fala - parole e atividade de fala - langage), em que cada palavra (membro do sistema) é considerada não em si mesma. , mas em conexão com outros. ...

           Desde a época em que Baudouin de Courtenay, em 1904, expressou pela primeira vez sua opinião sobre a necessidade de aplicar métodos matemáticos na linguística ( Kondrashov N.A., 1979, 170), muito tempo se passou antes que as primeiras tentativas sérias de usá-los começassem. Mas, gradualmente, os métodos matemáticos em linguística encontraram as mais diversas aplicações. Havia até um ramo inteiro da linguística - a linguística matemática ( Lesokhin M. M., 1982 e outros). Em fonética e sintaxe, o uso dos processos de Markov conhecidos na teoria das probabilidades tem grandes perspectivas. Na linguística histórica e comparada, que mais nos interessa, são desenvolvidos os métodos de glotocronologia, um dos quais foi proposto por Maurice Swadesh (Maurice Swadesh, 1960-1). Ele admitiu que certa parte do vocabulário básico de todas as línguas forma um certo núcleo lexical, que é relativamente estável, porque muda a uma taxa constante, mas muito lenta, aproximadamente da mesma forma que ocorre o decaimento radioativo. Se soubermos a porcentagem de palavras que foram preservadas no idioma por um determinado tempo, podemos calcular a constante de taxa para alterações na composição lexical, que, embora seja um valor constante, pode diferir ligeiramente para diferentes idiomas e diferentes períodos de seu desenvolvimento. Ele compilou uma lista do núcleo lexical de palavras, primeiro na quantidade de 100, e depois 200 palavras, e comparando a porcentagem de palavras desse núcleo que foram preservadas em pares de línguas intimamente relacionadas, tentou calcular o tempo decorrido desde o momento em que essas línguas se separaram. No entanto, o ritmo da mudança de idioma é realmente muito diferente para diferentes idiomas e épocas. Segundo Vl. Georgiev, "sob o sistema primitivo, o processo de mudanças na vida social e na linguagem é tanto mais lento quanto mais penetramos nas profundezas dos milênios: para as menores mudanças, não eram necessários séculos, mas milênios" ( Georgiev Vl., 1958, 243). Portanto, é provável que os resultados dos cálculos obtidos por Swadesh contradissessem os fatos óbvios, e o cientista tentou melhorar seu método, mas sem sucesso ( Swadesh Morris, 1960-2). Sua ideia era certamente muito interessante, mas sua implementação foi impossível devido à dificuldade de determinar a constante de taxa de mudanças no núcleo lexical, e a impossibilidade fundamental de compilar uma lista de palavras desse núcleo que pudesse ser universal para todas as línguas do mundo sem exceção. A impossibilidade de resolver esses problemas foi provada por Harry Hoyer ( Hoyer Harry, 1960) e V.A. Zvegintsev, que escreveu:


           Quando M. Swadesh tenta compilar uma "lista experimental" adequada para todas as línguas e formular regras universais para sua compilação, ele se propõe a uma tarefa que na verdade não pode ser realizada" (Zvegintsev V.A., 1960, 13) .


           Além disso, uma tentativa interessante de determinar a idade de línguas individuais foi feita por M.V.Arapov e M.M.Hertz. Eles se propuseram a tarefa de "construir um modelo matemático de mudanças de dicionário e, com base nesse modelo, obter teoricamente a relação entre o tempo de ocorrência de uma palavra e sua classificação no dicionário de frequência" ( Arapov M.V., Herts M.M., 1974, 3). Com esse modelo, eles esperavam calcular a idade de idiomas separados e relacionados. Para isso, eles propuseram uma fórmula empírica que descreve a probabilidade de uma palavra aparecer em um determinado momento. A chave para esta fórmula é uma certa constante, que pode mudar para diferentes seções cronológicas e para diferentes línguas, mas a taxa de desenvolvimento de uma língua em diferentes períodos, como já observado, pode ser muito diferente, e agora não podemos ter a mínima idéia sobre essas características. Os autores avaliaram objetivamente seu método, observando que queriam apenas demonstrar suas capacidades, pois para calcular a constante, é necessário ter dicionários de frequência compilados de acordo com um único método, e a lexicografia histórica teria que ser desenvolvida para que poderia tornar possível fixar o momento do aparecimento de uma nova palavra com precisão, pelo menos por um século. "Como esses dois requisitos não são atendidos ... os dados sobre a taxa de mudança de idiomas individuais não são comparáveis" ( Arapov M.V., Herts M.M., 1974, 56). Portanto, o método ainda está esperando para ser implementado.

           A primeira tentativa de quantificar o grau de parentesco entre as línguas foi feita em 1927 por J. Chekanovskiy. Ele tentou usar o critério matemático de independência para avaliar a semelhança de duas associações, introduzidas na prática da pesquisa antropológica por E.B. Taylor em 1888. Com esse método, o pesquisador polonês mostrou o grau de relação entre as línguas eslavas e, posteriormente, alguns indo-europeu ( Czekanowski Jan, 1957, 71). O método não foi aceito pela maioria dos linguistas devido à escolha arbitrária de recursos e a necessidade de contagem dupla de alguns deles ( Popowska-Taborska Hanna, 1991, 34). Existem também outros métodos para avaliar a similaridade de associações, que levam em conta a presença de uma determinada característica em um dos dois objetos, que está ausente no outro objeto.

           No entanto, para o estudo da relação das línguas por comparação de vocabulário, são inaceitáveis, pois a ausência de um traço na realidade só pode significar sua ausência à nossa disposição, mas na verdade poderia ter existido antes ou existe agora, mas não foi registrado por pesquisadores científicos. Na arqueologia e na antropologia, tais métodos podem encontrar aplicação, porque estamos lidando com objetos materiais que dão uma ideia suficientemente de sua forma original, mas na linguística histórica nunca podemos ter certeza de que o objeto de pesquisa carece de alguns sinais. o passado distante. Portanto, em linguística, aplica-se a regra: "Só os fatos positivos têm valor probatório".

           Depois as ideias de Czekanowski foram continuadas em certo sentido por outro pesquisador polonês W. Manczak, que adere ao conceito fundamental: há uma certa conexão entre o parentesco das línguas e sua localização geográfica ( Manczak Witold, 1981, 138). Ele faz uma comparação do número de palavras comuns em gótico, búlgaro antigo e lituano, usando exclusivamente os textos da Bíblia escritos nessas línguas, supondo que sejam muito próximos respectivamente das línguas germânica, eslava e báltica, com base em sua segunda princípio: contar o que pode ser encontrado em gramáticas e dicionários, muitas vezes pode levar a conclusões falsas, enquanto contar o que está contido em textos permite descobrir a verdade. Não é o lugar para considerar seus princípios linguísticos aqui, especialmente porque Popowska-Taborska já fez isso ( Popowska-Taborska Hanna, 1991, 35-35, 94-97), mas o lado matemático da pesquisa carece de alguns comentários. Geralmente é impossível conectar a localização geográfica da casa ancestral dos eslavos com base nos dados obtidos nas três línguas, porque, figurativamente falando, há mais de uma incógnita em uma equação. Mesmo tendo obtido o verdadeiro layout de três idiomas em um avião, devemos saber exatamente o local onde pelo menos um desses idiomas foi formado e ter certeza de que a área de um dos idiomas restantes está em uma certa direção a partir dele. Além disso, também é necessário determinar de alguma forma o tempo, porque os falantes das três línguas ao longo do tempo podem mudar os locais de seus assentamentos mais de uma vez e se encontrar em posições diferentes entre si. O envolvimento no estudo da relação dessas línguas com o latim, como faz Manczak, também muda pouco, pois também não há razão para supor a priori que as línguas germânicas, eslavas e bálticas foram formadas durante a existência do Império Romano.

A penetração na linguística dos métodos matemáticos e do "espírito matemático" contribuíram para o desenvolvimento da linguística na direção da precisão e da objetividade. No entanto, sérios obstáculos impedem seu desenvolvimento nessa direção. O autor reflete sobre as razões da convergência da linguística e da matemática, sobre os limites da aplicabilidade dos métodos matemáticos em linguística e sobre a natureza dos fatores que impedem o entendimento mútuo entre matemáticos e linguistas.

Quando, na segunda metade da década de 1950, alguns jovens linguistas pensaram em aplicar métodos matemáticos para estudar a estrutura da linguagem e começaram a colaborar com os matemáticos, isso causou surpresa e até choque entre muitos de seus colegas - afinal, eles estavam convencidos desde a infância que as humanidades, entre as quais a linguística, não têm e não podem ter nada em comum com a matemática e outras ciências "exatas".

Enquanto isso, a existência de uma estreita conexão entre linguagem natural e matemática não era uma descoberta nova naquela época. L. S. Vygotsky escreveu no livro “Thinking and Speech” publicado em 1934: “A primeira pessoa que viu na matemática o pensamento que se origina da linguagem, mas a supera, foi, aparentemente, Descartes” e continuou: “Nossa linguagem coloquial usual, devido à suas inerentes flutuações e inconsistências de ordem gramatical e psicológica, encontra-se em estado de equilíbrio móvel entre os ideais de harmonia matemática e fantástica e em movimento incessante, que chamamos de evolução.

A doutrina das categorias gramaticais que surgiu na Grécia antiga já era uma descrição de alguns dos aspectos mais importantes da estrutura da língua com a ajuda de modelos abstratos semelhantes em estilo aos modelos que foram criados pelos matemáticos gregos antigos para descrever formulários; apenas a familiaridade de conceitos como caso, gênero etc., que se tornaram, como escreveu H. Steinthal, “nossa segunda natureza”, nos impede de compreender o alto nível de pensamento abstrato que sua criação exigia. Portanto, deve-se surpreender que as primeiras tentativas de usar ferramentas matemáticas reais para descrever o “ideal de harmonia matemática” linguística tenham sido feitas apenas em meados do século XX.

Há duas razões para este "atraso". Em primeiro lugar, a ciência da linguagem, após passos significativos dados na antiguidade, voltou a se desenvolver realmente apenas no século XIX, mas ao longo deste século a atenção principal dos linguistas voltou-se para a história da língua, e somente no século seguinte, que em geral foi um século de estruturalismo para as humanidades, a linguística pela primeira vez depois do período antigo voltou-se para o estudo das estruturas linguísticas, mas em um novo nível. Quando os linguistas perceberam que a linguagem é, nas palavras de F. de Saussure, um “sistema de relações puras”, ou seja, um sistema de signos, cuja natureza física é insignificante, e somente as relações entre eles são significativas, o paralelo entre linguagem e construções matemáticas tornaram-se bastante evidentes, que são também "sistemas de relações puras", e já no início do século XX, o mesmo de Saussure sonhava em estudar a linguagem por meios matemáticos.

Em segundo lugar, os métodos quantitativos vieram à tona na matemática no início da Nova Era, e somente no século 19 os matemáticos começaram novamente a construir modelos abstratos não quantitativos, que diferiam dos antigos em um nível mais alto de abstração, e também - o que é especialmente importante para o nosso tópico - na medida em que podem ser usados ​​para descrever uma gama muito mais ampla de fenômenos do que formas espaciais; muitas vezes, esses modelos acabaram sendo um meio conveniente e até necessário para estudar fenômenos que os matemáticos que os construíram não pensaram e nem sabiam de sua existência. Entre esses modelos estavam aqueles que mais tarde receberam aplicação em linguística; desenvolvimento especialmente intensivo de disciplinas matemáticas, cujo conteúdo era sua construção, ocorreu na primeira metade do século XX. Portanto, o encontro da matemática e da linguística em meados deste século foi bastante natural.

Um dos resultados desse encontro foi o surgimento de uma nova disciplina matemática - a linguística matemática, cujo tema é o desenvolvimento de um aparato matemático para a pesquisa linguística. O lugar central na linguística matemática é ocupado pela teoria das gramáticas formais, que, pela natureza do aparato nela utilizado, está relacionada à lógica matemática e, em particular, à teoria dos algoritmos. Ele fornece métodos formais para descrever as unidades linguísticas corretas de diferentes níveis e, mais importante, métodos formais para descrever as transformações das unidades linguísticas - tanto no mesmo nível quanto entre níveis. A teoria das estruturas sintáticas é contígua à teoria das gramáticas formais, que é muito mais simples em termos de aparato, mas não menos importante para aplicações linguísticas. Na linguística matemática, também estão sendo desenvolvidos modelos analíticos da linguagem, nos quais, a partir de certos dados - considerados conhecidos - sobre "textos corretos", são feitas construções formais, cujo resultado é a descrição de alguns "componentes" do mecanismo da linguagem. Desta forma, pode-se obter uma descrição formal de alguns conceitos gramaticais tradicionais. Isso também deve incluir a descrição do significado da frase usando o aparato da lógica intensional (“semântica Montagu”).

Claro, com a ajuda do aparato matemático, apenas um dos dois ideais de linguagem de que Vygotsky falou pode ser descrito; portanto, as objeções muitas vezes ouvidas ao uso de um ou outro modelo matemático (ou modelos matemáticos em geral) sob a alegação de que não abrange tais e tais casos particulares não fazem sentido: descrever as “flutuações e inconsistências” inerentes da linguagem, é preciso absolutamente outros meios, não matemáticos, e apenas uma descrição clara do "ideal matemático" poderia ajudar a encontrá-los, pois permitiria delimitar claramente o "fantástico" do "matemático" no Língua. Mas isso ainda é assunto para o futuro.

Não menos, e talvez mais importante do que o surgimento da linguística matemática, foi a penetração direta na linguística de idéias e conceitos matemáticos fundamentais - como conjunto, função, isomorfismo. Na semântica linguística moderna, os conceitos de predicado e quantificador, oriundos da lógica matemática, desempenham um papel importante. (O primeiro deles surgiu na lógica mesmo quando não se distinguia da linguística, e agora voltou à linguística de forma generalizada e matematicamente processada.)

E, por fim, de grande importância é o refinamento da linguagem da pesquisa linguística, que ocorre devido à penetração do "espírito matemático" na linguística, não apenas naquelas áreas onde é possível utilizar ideias e métodos matemáticos. Tudo isso pode ser brevemente resumido da seguinte forma: a linguística está se tornando uma ciência cada vez mais precisa e mais objetiva - sem deixar, é claro, de ser uma ciência das humanidades.

No entanto, existem sérios obstáculos nesse caminho natural de desenvolvimento da linguística que podem retardá-lo por muito tempo. A principal é a “separação de faculdades” que surgiu no início da Nova Era: cientistas naturais e matemáticos, por um lado, e cientistas humanitários, por outro, não estão interessados ​​no trabalho de colegas “de outra faculdade ” e, além disso, no fundo, e muitas vezes os desprezam abertamente. . Matemáticos e cientistas naturais (e ainda mais "técnicos") tendem a ver a pesquisa em humanidades apenas como uma espécie de "decoração" ou mesmo "conversa fiada", enquanto as "humanidades" estão prontas para tolerar matemática e ciências naturais apenas por uma questão prática. beneficiam e estão convencidos de que nada podem ajudar a compreender a natureza do espírito humano.

Somente em meados do século XIX, neste, nas palavras do grande biólogo e grande pensador Konrad Lorenz, "o muro do mal entre as ciências naturais e as humanidades (die böse Mauer zwischen Natur- und Geistwissenschaften)" foi a primeira brecha no lugar mais tênue que separa a lógica da matemática. No século 20, outras lacunas apareceram - entre elas a que matemáticos e linguistas fizeram de ambos os lados - mas ainda são poucas, o muro continua forte e não faltam esforços de ambos os lados para fortalecê-lo ainda mais e remendar até os buracos. Muitas vezes, esses esforços são bem-sucedidos; a mais recente "realização" nesse sentido - "educação de perfil" no ensino médio, que já na infância divide as pessoas capazes e interessadas em "faculdades" e as ensina a se orgulhar da ignorância em ciências "estrangeiras" - pode dificultar muito a maior convergência das ciências naturais e humanas, essenciais para o desenvolvimento normal de ambas. Uma das consequências de erguer um muro é que as "humanidades", incluindo a grande maioria dos linguistas, não sabem nada sobre os fundamentos precisamente dos ramos da matemática que são de maior importância para as humanidades (e imagine um matemático como um pessoa envolvida exclusivamente em cálculos).

Outro obstáculo é a corrida frenética característica do estado atual da ciência, a busca ininterrupta de cada vez mais novos “resultados”, estreitando o horizonte e não deixando tempo para pensar em problemas mais profundos ou se dedicar ao estudo sério de um adjacente e, além disso, disciplina científica não muito adjacente. Isso se aplica igualmente a linguistas e matemáticos - como, de fato, a todos aqueles que estão profissionalmente engajados na ciência.

E a terceira é a inércia, ou, mais simplesmente, a preguiça. À primeira vista, preguiça e corrida frenética são incompatíveis, mas na realidade se dão bem e, além disso, se apoiam e se estimulam. Quando uma pessoa tem preguiça de assumir uma tarefa difícil, ela se agarra a uma mais fácil e “confiável”, cujo sucesso justifica e encoraja sua inércia. Uma atitude arrogante em relação aos "irmãos mais novos" que pululam do outro lado do muro também estimula a preguiça e é incentivada por ela. Quando, por exemplo, um matemático propõe reconsiderar todas as ideias sobre a história antiga, sem se dar ao trabalho de se familiarizar pelo menos um pouco com as línguas antigas, a mesma mãe preguiçosa é muito responsável por isso.

O perigo para o desenvolvimento da ciência colocado por esses obstáculos é muito mais sério do que pode parecer à primeira vista. Quando a ignorância nas ciências "estrangeiras" se torna motivo de orgulho, isso naturalmente leva à superficialidade e à ignorância também nas "nossas". Há muito tempo existem muito mais do que duas "faculdades", seu número cresce de ano para ano, e cada uma é cercada por um muro das outras; paredes aparecem dentro das faculdades também. Os horizontes dos pesquisadores estão se estreitando gradualmente; é verdade que o aparato de pesquisa se torna cada vez mais sutil e refinado, mas quase exclusivamente pequenos objetos caem em seu campo de visão, e reforça-se a ideia de que só eles merecem ser estudados. Há todas as razões para falar de uma crise na ciência, e a linguística não é exceção. Agora, parece-me, é o momento de olhar para trás e pensar.

Aqui reunidos linguistas da direção, que está associada ao modelo "Significado - Texto". Este modelo, criado nos anos 60 do século passado, foi um dos primeiros e melhores resultados do encontro da linguística e da matemática, após o qual cresceram duas gerações de linguistas, habituados ao pensamento preciso desde os seus anos de estudante. Mas eles, infelizmente, não estão livres da inércia, o que os impede de perceber a existência de uma crise e pensar em formas de superá-la. Enquanto isso, entre todos os linguistas - e talvez até entre todos os envolvidos nas humanidades - eles têm as oportunidades mais objetivas para tal entendimento, e eu espero que eles aproveitem essas oportunidades.

O texto do relatório foi gentilmente cedido por A.V. Gladkiy e pela editora

Durante o último século, a linguística sempre foi citada como um exemplo de ciência que se desenvolveu rapidamente e muito rapidamente atingiu a maturidade metodológica. Já em meados do século passado, a ciência jovem tomava com confiança seu lugar no círculo das ciências que tinham uma tradição milenar, e um de seus representantes mais proeminentes - A. Schleicher - teve a coragem de acreditar que com suas obras ele já estava resumindo a linha final.<113>A história da linguística, no entanto, mostrou que tal opinião era muito precipitada e injustificada. No final do século, a linguística sofreu seu primeiro grande choque associado à crítica dos princípios neogramaticais, seguido de outros. Note-se que todas as crises que podemos descortinar na história da ciência da linguagem, via de regra, não abalaram seus fundamentos, mas, ao contrário, contribuíram para o fortalecimento e trouxeram consigo um refinamento e aprimoramento dos métodos de pesquisa linguística, ampliando-se com temas e questões científicas.

Mas ao lado da linguística, outras ciências também viveram e se desenvolveram, incluindo um grande número de novas. As ciências físicas, químicas e técnicas (chamadas "exatas") tiveram um desenvolvimento especialmente rápido em nosso tempo, e sua base teórica, a matemática, reinou sobre todas elas. As ciências exatas não apenas pressionaram fortemente todas as humanidades, mas atualmente estão se esforçando para "incorporá-las à sua fé", subordiná-las aos seus costumes, impor-lhes seus métodos de pesquisa. Na situação atual, usando uma expressão japonesa, pode-se dizer que agora os linguistas-filólogos estão profanando a própria borda do tapete, onde as ciências exatas, encabeçadas pela matemática, estão triunfantes e livremente localizadas.

Não seria mais conveniente, do ponto de vista dos interesses científicos gerais, capitular à matemática, entregar-se inteiramente ao poder de seus métodos, aos quais algumas vozes clamam abertamente 59 , e assim, talvez, ganhar novas forças ? Para responder a essas perguntas, devemos primeiro olhar para o que a matemática afirma neste caso, em que área da linguística os métodos matemáticos encontram sua aplicação, até que ponto eles são consistentes com as especificidades do material linguístico e se eles são capazes de dar ou mesmo apenas sugerir respostas para essas perguntas, estabelecidas pela ciência da linguagem.

Desde o início, deve-se notar que entre os entusiastas da nova tendência matemática na linguística<114>Não há unanimidade de opiniões sobre suas metas e objetivos na pesquisa estática. Acad. A. A. Markov, que foi o primeiro a aplicar métodos matemáticos à linguagem, Boldrini, Yul, Mariotti consideram os elementos da linguagem como material ilustrativo adequado para construir métodos quantitativos, ou para teoremas estatísticos, sem se perguntar se os resultados de tal estudo são de interesse para linguistas 6 0 . Ross acredita que a teoria da probabilidade e a estatística matemática fornecem uma ferramenta ou, como agora preferem dizer, um modelo matemático para testar e confirmar aquelas conclusões linguísticas que permitem uma interpretação numérica. Assim, os métodos matemáticos são concebidos apenas como meios auxiliares da pesquisa linguística 6 1 . Muito mais é reivindicado por Herdan, que em seu livro não apenas resumiu e sistematizou todas as tentativas de estudo matemático de problemas de linguagem, mas também tentou dar-lhes uma orientação clara em relação a trabalhos futuros. Ele concentra a apresentação de todo o material de seu livro na “compreensão da estatística literária (como ele chama o estudo de textos por métodos de estatística matemática. - ÀS 3.) como parte integrante da linguística” 6 2 , e formula a essência e as tarefas desta nova seção da linguística nas seguintes palavras: “A estatística literária como filosofia quantitativa da linguagem é aplicável a todos os ramos da linguística. Em nossa opinião, a estatística literária é uma linguística estrutural elevada ao nível de uma ciência quantitativa ou de uma filosofia quantitativa. Assim, é igualmente errado definir seus resultados como fora do escopo<115>linguística ou tratá-la como ferramenta auxiliar de pesquisa” 6 3 .

Dificilmente é aconselhável entrar na teorização sobre se é legítimo, neste caso, falar do surgimento de um novo ramo da linguística e resolver a questão de suas reivindicações, sem antes se referir à consideração do que realmente foi feito em nesta área, e esclarecer em que direção a aplicação de novos métodos 6 4 . Isso nos ajudará a entender as diferenças de opinião.

O uso de critérios matemáticos (ou, mais precisamente, estatísticos) para resolver problemas linguísticos não é de forma alguma novo para a ciência da linguagem e, em um grau ou outro, tem sido usado por linguistas. Afinal, de fato, conceitos tradicionais da linguística como lei fonética (e afins)<116>nee com isso - uma exceção à lei), a produtividade dos elementos gramaticais (por exemplo, sufixos derivacionais), ou mesmo os critérios para relações afins entre línguas, até certo ponto, são baseados em características estatísticas relativas. Afinal, quanto mais nítida e clara for a oposição estatística dos casos observados, mais motivos temos para falar sobre sufixos produtivos e improdutivos, sobre a lei fonética e suas exceções, sobre a presença ou ausência de parentesco entre as línguas. Mas se em tais casos o princípio estatístico foi usado mais ou menos espontaneamente, então no futuro ele começou a ser aplicado conscientemente e já com um certo estabelecimento de metas. Assim, em nosso tempo, os chamados dicionários de frequência de vocabulário e expressões de idiomas individuais 6 5 ou mesmo os significados de palavras multilíngues com um "foco geral na realidade" 6 6 se tornaram muito difundidos. Os dados desses dicionários são usados ​​para compilar livros didáticos de língua estrangeira (cujos textos são construídos sobre o vocabulário mais comumente usado) e dicionários mínimos. O cálculo estatístico encontrou um uso linguístico especial no método de lexicoestatística ou glotocronologia de M. Swadesh, onde, com base em fórmulas estatísticas que levam em consideração os casos de desaparecimento das línguas das palavras do fundo principal, é possível estabelecer a cronologia absoluta do desmembramento das famílias linguísticas 6 7 .

Nos últimos anos, os casos de aplicação de métodos matemáticos ao material linguístico aumentaram significativamente e, na massa de tais tentativas, direções mais ou menos definidas foram delineadas. Vamos virar<117>à sua consideração sequencial, sem entrar em detalhes.

Comecemos pela direção que recebeu o nome de estiloestatística. Neste caso, estamos falando da definição e caracterização das características estilísticas de obras individuais ou autores através das relações quantitativas dos elementos linguísticos utilizados. A abordagem estatística ao estudo dos fenômenos estilísticos baseia-se na compreensão do estilo literário como uma forma individual de dominar os meios da linguagem. Ao mesmo tempo, o pesquisador está completamente distraído da questão do significado qualitativo dos elementos linguísticos contáveis, concentrando toda a sua atenção apenas no lado quantitativo; o lado semântico das unidades linguísticas estudadas, a sua carga emocional e expressiva, bem como a sua participação na tessitura de uma obra de arte - tudo isso fica desconsiderado, refere-se aos fenômenos ditos redundantes. Assim, uma obra de arte surge sob a forma de um agregado mecânico, cuja especificidade da construção encontra a sua expressão apenas através das relações numéricas dos seus elementos. Os representantes da estiloestatística não fecham os olhos a todas as circunstâncias observadas, opondo-se aos métodos da estilística tradicional, que sem dúvida incluem elementos de subjetividade, com uma única qualidade do método matemático, que, na opinião deles, compensa todas as suas deficiências - a objetividade dos resultados alcançados. “Nós nos esforçamos”, escreve, por exemplo, V. Fuchs, “... para caracterizar o estilo de expressão linguística por meios matemáticos. Para tanto, devem ser criados métodos, cujos resultados sejam tão objetivos quanto os resultados das ciências exatas... Isso sugere que, pelo menos inicialmente, trataremos apenas de qualidades estruturais formais, e não de conteúdo semântico de expressões linguísticas. Assim obteremos um sistema de relações ordinais, que em sua totalidade será a base e o ponto de partida da teoria matemática do estilo” 6 8 .<118>

O tipo mais simples de abordagem estatística para estudar a linguagem de escritores ou obras individuais é contar as palavras usadas, já que a riqueza do dicionário, aparentemente, também deve caracterizar o próprio autor de certa forma. No entanto, os resultados de tais cálculos dão resultados um tanto inesperados a esse respeito e não contribuem de forma alguma para o conhecimento e avaliação estética de uma obra literária, o que não é menos uma das tarefas da estilística. Aqui estão alguns dados sobre o número total de palavras usadas em uma série de trabalhos:

Bíblia (latim). . . . . . . . . . 5649 palavras

Bíblia (hebraico). . . . 5642 palavras

Demóstenes (fala). . . . . . . . . . . . 4972 palavras

Salústio. . . . . . . . . . . . . . . . . 3394 palavras

Horácio. . . . . . . . . . . . . . . . . . . .6084 palavras

Dante (Divina Comédia) 5860 palavras

(isso inclui 1615 nomes próprios e nomes geográficos)

Tasso (Orland furioso). . . . 8474 palavras

Milton. . . . . . . . . . . . . . . . . . . . 0,8000 palavras (aproximadamente fornecidas)

Shakespeare. . . . . . . . . . . . . . . . . . .15.000 palavras

(aproximadamente, de acordo com outras fontes 20.000 palavras)

O. Jespersen destaca que o dicionário de Zola, Kipling e Jack London supera significativamente o dicionário de Milton, ou seja, o número é 8000 6 9 . O cálculo do dicionário de discursos do presidente americano W. Wilson descobriu que ele é mais rico que o de Shakespeare. A isso devem ser adicionados os dados dos psicólogos. Assim, Terman, com base em observações de um grande número de casos, descobriu que o vocabulário de uma criança média é de cerca de 3.600 palavras, e aos 14 anos - já 9.000. O adulto médio usa 11.700 palavras, e uma pessoa de "aumentou inteligência" até 13500 7 0 . Assim, esses dados numéricos por si só não fornecem qualquer base para identificar as qualidades estilísticas das obras e apenas "objetivamente"<119>eles afirmam o uso de um número diferente de palavras por diferentes autores, o que, como mostram os cálculos acima, não está relacionado ao valor artístico relativo de suas obras.

Os cálculos da frequência relativa do uso de palavras por autores individuais são construídos de maneira um pouco diferente. Nesse caso, não apenas a quantidade total de palavras é levada em consideração, mas também a frequência de uso de palavras individuais. O processamento estatístico do material assim obtido consiste no fato de que palavras com igual frequência de uso são agrupadas em classes (ou ranks), o que leva ao estabelecimento da distribuição de frequência de todas as palavras utilizadas por um determinado autor. Um caso especial desse tipo de cálculo é a determinação da frequência relativa de palavras especiais (por exemplo, vocabulário românico nas obras de Chaucer, como foi feito por Mersand 7 1). A frequência relativa das palavras usadas pelos autores contém as mesmas informações objetivas sobre o estilo dos autores individuais que os cálculos totais acima, com a única diferença de que o resultado são dados numéricos mais precisos. Mas também é usado para datar obras individuais do mesmo autor com base em um cálculo preliminar da frequência relativa do uso de palavras em diferentes períodos de sua vida (de acordo com obras datadas pelo próprio autor). Outro tipo de utilização dos dados de tais cálculos é estabelecer a autenticidade da autoria de obras para as quais esta questão parece duvidosa 7 2 . Neste último caso, tudo se baseia em uma comparação de fórmulas estatísticas para a frequência de uso em obras genuínas e controversas. Não há necessidade de falar sobre a grande relatividade e aproximação dos resultados obtidos por tais métodos. Afinal, a frequência relativa de uso varia não apenas com a idade do autor, mas também com o gênero, enredo e ambiente histórico da obra (cf., por exemplo, "Pão" e "Pedro I" de A . Tolstoi).<120>

Aprofundando o método descrito acima, a estiloestatística como característica do estilo passou a recorrer ao critério de estabilidade da frequência relativa das palavras mais utilizadas. O método utilizado neste caso pode ser ilustrado pelo processamento estatístico da história de Pushkin "A Filha do Capitão" por Esselson e Epstein no Instituto de Línguas Eslavas da Universidade de Detroit (EUA) 7 3 . Todo o texto da história (cerca de 30.000 ocorrências de palavras) foi submetido ao levantamento, e depois trechos contendo cerca de 10.000 e 5.000 ocorrências. Além disso, para determinar a estabilidade da frequência relativa do uso das palavras, as 102 palavras mais comuns (com frequência de 1160 vezes a 35) foram comparadas com a frequência relativa calculada (feita com base em passagens seletivas) com o real. Por exemplo, a união "e" foi usada 1.160 vezes ao longo da história. Em uma passagem contendo 5.000 ocorrências de todas as palavras, espera-se que essa conjunção seja usada 5.000 x 1.160:30.000, ou arredondada 193 vezes, e em uma passagem contendo 10.000 ocorrências de todas as palavras, espera-se que seja usada 10.000 x 1.160: 30.000 ou 386 vezes. A comparação dos dados obtidos com este tipo de cálculo com os dados reais mostra um desvio muito pequeno (dentro de 5%). Com base em tais cálculos, verificou-se que nesta história de Pushkin, a preposição "k" é usada duas vezes mais que "y", e o pronome "você" é usado três vezes mais que "eles", etc. , apesar de todas as vicissitudes da trama, tanto ao longo da história quanto em suas partes individuais, há uma estabilidade na frequência relativa do uso das palavras. O que se observa em relação a algumas palavras (mais comuns) é presumivelmente aplicável a todas as palavras utilizadas na obra. Segue-se que o estilo do autor pode ser caracterizado por uma certa proporção da variabilidade da frequência média de uso de uma palavra para a frequência geral de uma determinada língua.<121>a frequência de seu uso. Essa proporção é considerada como uma característica quantitativa objetiva do estilo do autor.

Outros elementos formais da estrutura da linguagem são estudados de forma semelhante. Assim, por exemplo, V. Fuchs submeteu as características métricas das obras de Goethe, Rilke, César, Salústio etc. a uma consideração estatística comparativa.

O critério da estabilidade da frequência relativa do uso das palavras, embora clarifique a técnica da caracterização quantitativa do estilo, não introduz nada de fundamentalmente novo em comparação com os métodos mais primitivos analisados ​​acima. Todos os métodos de estiloestatística acabam por dar os mesmos resultados "objetivos" desapaixonados, deslizando sobre a superfície da linguagem e agarrando-se apenas a signos puramente externos. Os métodos quantitativos, aparentemente, não são capazes de focalizar as diferenças qualitativas do material em estudo e de fato nivelar todos os objetos em estudo.

Onde a especificação máxima é necessária, os critérios mais generalizados são oferecidos; as características qualitativas são expressas na linguagem da quantidade. Isso não é apenas uma contradição lógica, mas também um desacordo com a natureza das coisas. De fato, o que acontece se tentarmos obter uma característica estilística comparativa (ou seja, qualitativa) das obras de Alexander Gerasimov e Rembrandt com base na proporção quantitativa de tinta vermelha e preta em suas telas? Parece um absurdo absoluto. Até que ponto informações quantitativas completamente “objetivas” sobre os dados físicos de uma pessoa podem nos dar uma ideia de tudo o que caracteriza uma pessoa e constitui sua verdadeira essência? Obviamente nenhum. Eles podem servir apenas como um sinal individual que distingue uma pessoa da outra, como uma impressão de circunvoluções no polegar. A situação é semelhante com as características quantitativas do estilo literário. Se você olhar de perto, eles fornecem dados tão escassos para julgar o estilo real<122>qualidades da linguagem do autor, bem como uma descrição das circunvoluções no dedo para o estudo da psicologia humana.

A tudo o que foi dito, deve-se acrescentar que no passado, na chamada escola formal de crítica literária, já se tentava fazer um estudo quantitativo do estilo dos escritores, quando epítetos, metáforas e -elementos melódicos do verso foram contados. No entanto, esta tentativa não foi mais desenvolvida.

Outra área de aplicação de métodos matemáticos para o estudo de fenômenos linguísticos pode ser agrupada sob o nome de estatística linguística. Ele procura se intrometer nas questões fundamentais da teoria da linguagem e, assim, obter uma vocação na esfera linguística própria. Para se familiarizar com essa direção, é melhor recorrer à já mencionada obra de Herdan, nas palavras de um de seus muitos revisores, "um livro monstruosamente pretensioso" 7 5 , recebeu, no entanto, uma ampla resposta entre os linguistas 7 6 . Tendo em vista que Herdan (como já mencionado acima) procurou reunir em seu livro tudo o que há de mais significativo no campo da aplicação de métodos matemáticos a problemas linguísticos, em seu livro não estamos lidando tanto com Kherdan quanto com todo um tendência. Como mostra o próprio título do livro, “Linguagem como escolha e probabilidade”, seu foco principal é esclarecer o que na linguagem é deixado ao livre arbítrio do falante e o que se deve à estrutura imanente da língua, assim como na determinação da proporção quantitativa dos elementos de primeira e segunda ordem. O livro de Kherdan traz informações quase exaustivas sobre todo o trabalho nessa área realizado por representantes de diversas especialidades.<123>(filósofos, linguistas, matemáticos, técnicos), mas não se limita a isso e inclui muitas observações originais, considerações e conclusões do próprio autor. Como trabalho resumidor, dá uma boa ideia dos métodos quantitativos utilizados e dos resultados alcançados com a ajuda deles. As questões que combinamos condicionalmente na seção de estatística linguística são tratadas na segunda e quarta partes do livro.

Dos muitos casos de aplicação dos métodos da estatística matemática ao estudo das questões linguísticas, vamos nos concentrar nos mais gerais, que também podem ser considerados os mais típicos. Utilizando dados de outros autores - Boldrini 7 7 , Mathesius 7 8 , Mariotti 7 9 , Zipf 8 0 , Deway 8 1 e outros, além de citar seus próprios estudos que determinam a frequência relativa da distribuição de fonemas, letras, comprimento da palavra (medido pelo número de letras e sílabas) , formas gramaticais e elementos métricos em latim e hexâmetro grego, Herdan estabelece o fato da estabilidade da frequência relativa dos elementos linguísticos como uma característica comum a todas as estruturas linguísticas. Ele deriva a seguinte regra: “As proporções de elementos linguísticos pertencentes a um ou outro nível ou esfera de codificação linguística – fonologia, gramática, métrica – permanecem mais ou menos constantes para uma determinada língua, em um determinado período de seu desenvolvimento e dentro do limites de observações suficientemente extensas e imparciais. » 8 2 . Essa regra, que Herdan chama de lei básica da linguagem, ele procura interpretar e expandir de uma certa maneira. “Ele”, escreve Herdan sobre essa lei, “é uma expressão do fato de que mesmo aqui, onde a vontade humana e a liberdade de escolha são concedidas<124>No quadro mais amplo, onde a escolha consciente e o jogo despreocupado se alternam, há uma considerável estabilidade no todo... na gramática, mas também em relação à frequência de uso de fonemas específicos, unidades lexicais (palavras) e fonemas gramaticais e construções; ou seja, a semelhança não está apenas no que é usado, mas também na frequência com que é usado” 8 3 . Esta situação deve-se a razões compreensíveis, mas dá origem a novas conclusões. Ao examinar diferentes textos ou segmentos de uma determinada língua, por exemplo, verifica-se que as frequências relativas de uso de um determinado fonema (ou outros elementos da fala) por diferentes pessoas permanecem basicamente as mesmas. Isso leva à interpretação de formas individuais de fala como algumas flutuações na probabilidade constante de usar o fonema considerado em um determinado idioma. Assim, verifica-se que em sua atividade de fala uma pessoa está sujeita a certas leis de probabilidade em relação ao número de elementos linguísticos utilizados. E então, quando observamos um grande número de elementos linguísticos em um grande conjunto de textos ou segmentos de fala, temos a impressão de dependência causal no sentido de que neste caso há também uma determinação em relação ao uso de determinados elementos linguísticos . Em outras palavras, torna-se admissível afirmar que o que intuitivamente parece ser uma relação causal é quantitativamente uma probabilidade 8 4 . É claro que quanto maior o total<125>a especificidade dos textos examinados ou segmentos de fala, mais claramente a estabilidade da frequência relativa do uso de elementos linguísticos também se manifestará no uso individual (a lei dos grandes números). A partir disso, uma nova conclusão geral é tirada de que a linguagem é um fenômeno de massa e deve ser tratada como tal.

Essas conclusões, alcançadas com base em cálculos de frequência de elementos fonéticos, palavras e formas gramaticais, que juntos constituem uma língua, são então aplicadas à "interpretação estatística" da divisão de Saussure em "língua" (lalangue) e "fala" (laparole). ). Segundo Saussure, "língua" é um conjunto de hábitos linguísticos que possibilitam a comunicação entre membros de uma determinada comunidade linguística. Esta é uma realidade social, um “fenômeno de massa” obrigatório para todas as pessoas que falam essa língua. Herdan, como indicado, prova que os membros de uma única comunidade linguística são semelhantes entre si não apenas por usarem os mesmos fonemas, unidades lexicais e formas gramaticais, mas também pelo fato de que todos esses elementos são usados ​​com a mesma frequência. . Assim, sua definição estatística de "língua" assume a seguinte forma: "língua" (lalíngua) é a totalidade dos elementos linguísticos comuns mais sua probabilidade relativa de serem usados.

Essa definição de "linguagem" é também o ponto de partida para a correspondente interpretação estatística de "fala", que, segundo Saussure, é uma afirmação individual. Contrastando a “linguagem” como fenômeno social da “fala” como fenômeno individual, Saussure escreveu: “A fala é um ato individual de vontade e compreensão, no qual é preciso distinguir: 1. código para expressar seu pensamento pessoal; 2. um mecanismo psicofísico que lhe permite objetivar essas combinações” 8 5 . Como a "língua" na estatística linguística é considerada como um conjunto de elementos com certa<126>certa probabilidade de seu uso, na medida em que inclui a totalidade ou conjunto estatístico (população) como a característica mais essencial e pode ser considerada neste aspecto. De acordo com isso, "fala" se transforma em uma amostra separada retirada de "linguagem" como um agregado estatístico. A probabilidade neste caso é determinada pela proporção de "fala" para "linguagem" (em sua compreensão "quantitativa"), e a distribuição da frequência relativa do uso de diferentes elementos da linguagem é interpretada como resultado de uma "escolha" coletiva (escolha) em um determinado período cronológico da existência da língua. Entendendo que tal interpretação das diferenças entre “língua” e “fala” é, no entanto, construída em bases completamente diferentes das de Saussure, Herdan escreve a esse respeito: “Esta modificação aparentemente menor do conceito de Saussure tem a importante consequência de que a “linguagem” ) adquire agora uma característica essencial na forma de agregado estatístico (população). Esta população é caracterizada por certas frequências relativas ou probabilidades de flutuação, o que significa que cada elemento linguístico pertence a um determinado nível linguístico. Nesse caso, "fala" (laparole), de acordo com seu significado, acaba sendo um termo para definir amostras estatísticas retiradas de "linguagem" como um conjunto estatístico. Torna-se óbvio que a escolha (escolha) aparece aqui na forma da razão entre “fala” e “linguagem”, sendo a razão entre uma amostra colhida ao acaso e um agregado estatístico (população). A própria ordem de distribuição de frequência, como depósito da atividade de fala de uma comunidade linguística ao longo dos séculos, é um elemento de escolha (escolha), mas não de escolha individual, como no estilo, mas de escolha coletiva. Usando uma metáfora, podemos falar aqui da escolha feita pelo espírito da língua, se entendermos por isso os princípios da comunicação linguística, que estão de acordo com o complexo de dados mentais dos membros de uma determinada comunidade linguística. A estabilidade das séries é o resultado da probabilidade (acaso)» 8 6 .

Um caso especial de aplicação do princípio declarado<127>pa é a delimitação na linguagem dos fenômenos normativos de "exceções" (desvios). Na linguoestatística, argumenta-se que o método estatístico permite eliminar a imprecisão existente nesta questão e estabelecer critérios claros de distinção entre esses fenômenos. Se a norma é entendida como uma população estatística (no sentido acima), e a exceção (ou erro) é um desvio das frequências mostradas pela população estatística, então uma solução quantitativa da questão se sugere. Tudo se resume a uma relação estatística entre "população" e "outlier". Se as frequências observadas em uma amostra individual se desviam das probabilidades devido à população estatística em mais do que o determinado por uma série de contagens de amostra, então temos razões para concluir que a linha de demarcação entre "o mesmo" (norma) e "não o mesmo" (exceção) é violado.

As diferenças quantitativas entre "língua" e "fala" também são usadas para distinguir dois tipos de elementos linguísticos: gramaticais e lexicais. O ponto de partida para resolver este problema, que muitas vezes apresenta grandes dificuldades do ponto de vista linguístico, é a suposição de que o grau de frequência dos elementos gramaticais é diferente do das unidades lexicais. Isso está supostamente associado à "generalização" de elementos gramaticais, como eles diferem de conceitos fixados por unidades lexicais. Além disso, os elementos gramaticais são supostamente, em regra, muito menores em volume: como palavras independentes (incluem pronomes, preposições, conjunções e palavras auxiliares) geralmente consistem em um pequeno número de fonemas e na forma de "formas conectadas " - de um ou dois fonemas 8 7 . Quanto menor o elemento linguístico, menos capaz sua "comprimento" (momento quantitativo) servir como característica definidora, e mais importante a "qualidade" dos fonemas adquire para esse fim. Que métodos são propostos para resolver o problema em consideração? É resolvido referindo-se ao conceito puramente quantitativo de gramática<128>load, “Suponha”, escreve Herdan a esse respeito, “que estamos interessados ​​em comparar duas linguagens a esse respeito. Como determinamos com certo grau de objetividade a “carga gramatical” que uma língua carrega? É claro que essa carga dependerá da posição da linha de demarcação que separa a gramática do vocabulário. A primeira consideração que pode vir à nossa mente é determinar quão "complexa" é a gramática de uma determinada língua. Afinal, “complexidade” é uma característica qualitativa, e o conceito de “carga gramatical” é uma característica quantitativa. É verdade que a carga até certo ponto depende da complexidade, mas não inteiramente. Uma língua pode ser recompensada com uma gramática extremamente complexa, mas apenas uma parte comparativamente pequena dela é usada na atividade da língua. Definimos "carga gramatical" como a totalidade de gramática que uma língua carrega quando está em ação, o que imediatamente traz nosso problema para o âmbito da linguística estrutural no sentido em que a disciplina foi definida por Saussure. Na apresentação a seguir, métodos quantitativos são usados ​​para determinar a diferença entre as línguas, dependendo de onde está o limite, separando a gramática do vocabulário” 8 8 . Em outras palavras, as diferenças linguísticas neste caso devem ser reduzidas a diferenças nas relações numéricas entre elementos gramaticais e lexicais.

Os materiais à nossa disposição pintam o seguinte quadro. Em inglês (só foram consideradas “palavras gramaticais”: pronomes, ou, como também são chamados, “substitutos”, preposições, conjunções e verbos auxiliares), em um segmento que inclui 78633 casos de uso de todas as palavras (1027 palavras diferentes), 53.102 o caso do uso de elementos gramaticais, ou, mais precisamente, "palavras gramaticais" (149 palavras diferentes), que é de 67,53% com 15,8% de palavras diferentes. Tais são os dados de Deway 8 9 . Outros dados mostram uma porcentagem diferente<129>proporção: 57,1% com 5,4% de palavras diferentes 9 0 . Essa discrepância significativa é explicada pela diferença entre a linguagem escrita e a falada. As formas escritas da língua (primeiro dado) supostamente usam mais elementos gramaticais do que os orais (segundo caso). Na Divina Comédia de Dante (após o original italiano), Mariotti estabeleceu 54,4% das ocorrências de "palavras gramaticais".

Outra e, aparentemente, mais perfeita maneira de determinar a carga gramatical de uma língua é contar os fonemas incluídos nos elementos gramaticais. Nesse caso, não apenas palavras gramaticais independentes são levadas em consideração, mas também formas relacionadas. Existem várias opções aqui. Por exemplo, determinar a frequência relativa do uso de fonemas consonantais individuais em elementos gramaticais e compará-los com a frequência do uso total desses mesmos fonemas (os dados finais de tal proporção em inglês fornecem uma proporção de 99,9% para 100.000 - uso total); ou uma comparação semelhante de consoantes de acordo com grupos de classificação separados (labial, palatal, velar e outros fonemas). A proporção final aqui toma a forma de uma proporção de 56,47% (em elementos gramaticais) para 60,25% (em uso total); ou a mesma comparação dos fonemas consonantais iniciais (neste caso, a proporção foi de 100,2% em palavras gramaticais para 99,95 em uso total). Outras operações estatísticas mais complexas também são possíveis, mas que resultam em expressões quantitativas semelhantes do problema em estudo.

Os dados quantitativos fornecidos servem de base para uma conclusão geral. Tudo se resume ao fato de que a distribuição dos fonemas nos elementos gramaticais determina a natureza da distribuição (em termos numéricos, é claro) dos fonemas na língua como um todo. E isso, por sua vez, permite concluir que o uso de elementos gramaticais depende, em menor grau, da escolha individual e constitui aquela parte da expressão linguística que é controlada pelas probabilidades.<130>ness. Essa conclusão especulativa é confirmada pelo cálculo das formas gramaticais na língua russa, feito por Esselson 9 1 . O estudo foi submetido a 46.896 palavras retiradas das fontes II (obras de Griboyedov, Dostoiévski, Goncharov, Saltykov-Shchedrin, Garshin, Belinsky, Amfiteatrov, Gusev-Orenburgsky, Ehrenburg, Simonov e N. Ostrovsky). Eles foram divididos em palavras coloquiais (17.756 palavras ou 37,9%) e não coloquiais (29.140 palavras ou 62,1%). Em seguida, todo o conjunto de palavras foi dividido em 4 grupos dependendo de sua natureza gramatical: o 1º grupo incluiu substantivos, adjetivos, adjetivos em função de substantivos, pronomes e numerais flexionados; no 2º grupo - verbos; no 3º grupo - particípios verbais, particípios em função de adjetivos e substantivos e gerúndios; no 4º grupo - formas invariáveis ​​de advérbios, preposições, conjunções e partículas. Os resultados do resumo (também são fornecidas tabelas com dados para autores individuais) fornecem a seguinte proporção:

1º grupo

2º grupo

3º grupo

4º grupo

coloquial

taciturno

Herdan caracteriza a consideração dos dados quantitativos assim obtidos nas seguintes palavras: “Eles justificam a conclusão de que os elementos gramaticais devem ser considerados como um fator determinante da verossimilhança de uma expressão linguística. Tal conclusão evita a qualificação onerosa de cada palavra usada. É claro que, como a gramática e o vocabulário não são guardados em conchas estanques, também não são pura "escolha" ou pura "acaso". Tanto a gramática quanto o vocabulário contêm ambos os elementos, embora em proporções significativamente variadas” 9 2 .<131>

Uma grande parte do livro de Herdan é dedicada ao estudo da dualidade ou dualidade na linguagem, e o próprio conceito de dualidade é baseado em características matemáticas.

Assim, teoremas em geometria projetiva podem ser dispostos em duas séries, de modo que cada teorema de uma série pode ser obtido de algum teorema de outra série substituindo as palavras ponto e direto. Por exemplo, se a afirmação for dada: "quaisquer pontos diferentes pertencem a uma e apenas uma linha", então podemos derivar dela a afirmação correspondente: "quaisquer duas linhas diferentes pertencem a um e apenas um ponto". Outro método para determinar a dualidade é traçar diferentes planos do fenômeno em estudo ao longo das abcissas e ordenadas. Assim, como Yul 9 3 faz, por exemplo, as diferentes frequências de uso são contadas ao longo do eixo das abcissas, e o número de unidades lexicais cuja frequência é determinada etc., é contado ao longo do eixo das ordenadas.

Sob o conceito de dualidade assim definido, que em todos os casos tem realmente o caráter de um código binário e que também é considerado o traço mais essencial da estrutura linguística, são trazidos fenômenos de qualidades extremamente diferentes, permitindo a oposição em dois planos : a distribuição do uso das palavras segundo a natureza das unidades lexicais e a distribuição das unidades lexicais segundo a frequência. formas de fala escritas e faladas; elementos lexicais e gramaticais; sinonimos e antonimos; fonema e sua representação gráfica; definível e definidor (significante e significante de Saussure), etc.

Após um estudo quantitativo da dualidade de um ou outro fenômeno linguístico particular ou "texto" limitado, em regra, é tirada uma conclusão, à qual são atribuídas as qualidades de universalidade linguística. A natureza de tais conclusões e a forma como são justificadas podem ser vistas no exemplo<132>estudos da dualidade da palavra e do conceito (na verdade, estamos falando da razão entre o comprimento da palavra e o volume do conceito - deve-se ter em mente que o uso extremamente livre de termos linguísticos e outros em tais obras muitas vezes torna a compreensão muito difícil). É importante notar aqui que a nomenclatura internacional de doenças (cerca de 1000 nomes) e o registro geral de doenças na Inglaterra e Wells para 1949 foram utilizados como fonte de observações desse tipo de dualidade linguística. A conclusão é feita: “Todo conceito que denota uma ideia geral tem o que pode ser chamado de “esfera” ou “volume”. Ele permite através de seu meio pensar sobre muitos objetos ou outros conceitos que estão dentro de sua "esfera". Por outro lado, todos os itens necessários para definir um conceito constituem o que se chama de seu "conteúdo". Volume e conteúdo estão mutuamente correlacionados - quanto menor o conteúdo e, consequentemente, quanto mais abstrato o conceito, maior seu escopo ou volume, ou seja, mais objetos são trazidos sob ele. Isso pode ser visto como uma analogia (na esfera conceitual) aos princípios de codificação, segundo os quais o comprimento de um símbolo e a frequência de uso são interdependentes” 9 4 .

O princípio da dualidade também se aplica a problemas particulares. Por exemplo, ao estabelecer a equivalência dos significados das palavras em dois idiomas diferentes. Como resultado do estudo do dicionário inglês-alemão de Muret - 3anders usando o método matemático de iterações, conclui-se que a probabilidade de usar uma palavra inglesa com um ou mais significados na tradução alemã permanece constante para cada letra inicial em todo o dicionário 9 5 . A consideração da ordem das palavras nos dicionários chineses leva à conclusão de que ela é de natureza taxonômica, pois o número de traços no caractere indica seu lugar (como radical independente ou certa subclasse subordinada ao radical). A taxonomia é um princípio subordinador de classificação usado em zoologia e botânica. Kherdan afirma que<133>os fundamentos da lexicografia chinesa também são construídos sobre os princípios da taxonomia 9 6, etc.

Fazendo uma avaliação geral desta área de aplicação de métodos matemáticos ao estudo de problemas linguísticos (i.e., estatística linguística), é necessário, aparentemente, partir da posição que foi formulada por Ettinger: “A matemática pode ser utilizada de forma eficaz a serviço da linguística somente quando os linguistas tiverem claros os limites reais de sua aplicação, bem como as possibilidades dos modelos matemáticos utilizados” 9 7 . Em outras palavras, podemos falar de linguística matemática quando os métodos matemáticos provam sua adequação para resolver esses problemas linguísticos propriamente ditos, que em sua totalidade constituem a ciência da linguagem. Se este não for o caso, embora isso possa abrir novos aspectos da pesquisa científica, então neste caso podemos falar sobre qualquer coisa, mas não sobre linguística - neste caso, não nos referimos a diferentes tipos de linguística aplicada (falaremos sobre depois) fala abaixo), mas linguística científica, ou teórica. Com base nessa posição, deve-se notar que, do ponto de vista de um linguista, muito da estatística linguística é duvidoso e até desconcertante.

Passemos à análise de apenas dois exemplos (para não confundir a apresentação), estipulando que se podem fazer objeções muito significativas a cada um deles. Aqui temos uma distinção quantitativa entre unidades gramaticais e lexicais. Acontece que, para fazer tal distinção, é preciso já saber de antemão o que pertence ao campo da gramática, e o que pertence ao vocabulário, pois a “carga gramatical” da língua (ou seja, a totalidade dos elementos gramaticais usado na fala), como indicado no citado acima, “depende da linha de demarcação que separa o vocabulário da gramática”. Sem saber onde está essa linha, é, portanto, impossível traçar a distinção indicada. Qual é então o significado do método quantitativo de distinguir o léxico da gramática?<134>mático? No entanto, quanto a Herdan, ele não pensa particularmente nessa questão e classifica com ousadia os elementos linguísticos, referindo-se aos elementos gramaticais "formas relacionadas", que, a julgar pela apresentação, devem ser entendidos como flexão externa, e "palavras gramaticais", que incluem preposições, conjunções, verbos auxiliares e pronomes - estes últimos em virtude do fato de serem "substitutos". Mas se falamos apenas sobre essa qualidade dos pronomes e, com base nisso, os relacionamos com elementos gramaticais, então, obviamente, palavras como “acima”, “nomeado”, “dado”, etc., também devem ser atribuídas a eles, então como eles também atuam como deputados. Em conexão com o método de separação de elementos gramaticais usados ​​em estatística linguística, surge naturalmente a questão de como lidar neste caso com fenômenos gramaticais “não formais” como ordem de palavras, tons, morfemas zero, relações paradigmáticas (alguns desses fenômenos , a propósito, encontrar reflexo naquelas linguagens que são estudadas por métodos matemáticos)? Como fazer uma distinção em línguas com rica flexão interna (como, por exemplo, nas línguas semíticas), onde não apenas modifica gramaticalmente a raiz (radical), mas também lhe dá existência lexical, pois a raiz sem permutações tem nenhuma existência real na língua? O que deve ser entendido pela complexidade gramatical de uma língua, por qual critério ela é determinada? Se o ponto quantitativo, que neste caso é enfatizado de todas as maneiras possíveis, então uma das línguas gramaticalmente mais difíceis será o inglês, que possui construções como Ishallhavebeencalling ou Hewouldhavebeencalling. Nessas frases, apenas a chamada pode ser classificada como lexical, e todo o resto, portanto, deve ser considerado gramatical. Que fundamentos existem para ligar a frequência de uso de elementos gramaticais com a generalidade ou abstração dos significados das palavras gramaticais? Afinal, é bastante óbvio que a frequência relativamente grande de uso de elementos gramaticais é determinada por sua função na construção de frases, e quanto à abstração dos significados, é muito fácil encontrar uma grande<135>o número de elementos lexicais que podem facilmente competir com elementos gramaticais a este respeito, sendo muito inferior a eles em frequência (por exemplo, ser, existência, extensão, espaço, substância etc).

Um tipo semelhante de absurdo surge diante de nós no caso da definição da dualidade (dualidade) da palavra e do conceito. É necessário ter uma compreensão extremamente peculiar da essência estrutural da língua para submetê-la a pesquisas utilizando a nomenclatura de doenças e o registro hospitalar de doenças, que, como indicado acima, serviu de fonte de material para estudos linguísticos muito importantes. conclusões. Sem me deter no uso completamente obscuro de termos que não têm existência linguística, como a esfera, o alcance e o conteúdo de um conceito (aliás, o significado lexical da palavra e o conceito denotado pelo termo científico são grosseiramente confuso), vamos voltar para a conclusão que é feita neste caso. Como dito acima, estamos lidando com a afirmação de que "escopo e conteúdo são mutuamente correlacionados". Todo o raciocínio que dá origem a tal conclusão, bem como o modo de operação matemática dos fatos linguísticos, mostra claramente que, neste caso, uma qualidade muito essencial da linguagem é completamente ignorada, o que perturba todos os cálculos que estão sendo realizados. : a capacidade de expressar a mesma coisa, conteúdo” por unidades linguísticas de “volume” diferente, que sem dúvida têm, além disso, frequência relativa de uso diferente. Assim, podemos designar a mesma pessoa como Petrov, meu conhecido, ele, um moscovita, um jovem, um funcionário da universidade, o irmão da minha mulher, um homem que conhecemos na ponte, etc. são, sem dúvida, apenas conclusões particulares, que, no entanto, como foi apontado, recebem significado universal, mas também a conveniência de aplicar os próprios métodos quantitativos a tais problemas linguísticos.

Mas às vezes são oferecidas conclusões aos linguistas, cuja validade não está em dúvida. Esta é a "lei básica da linguagem", que consiste no fato de que na linguagem há uma certa estabilidade de seus elementos e a frequência relativa de sua menção.<136>consumo. O problema com esse tipo de descobertas, no entanto, é que elas são conhecidas há muito tempo pelos linguistas. Afinal, é bastante óbvio que se a língua não tivesse uma certa estabilidade e cada membro de uma dada comunidade linguística variasse livremente os elementos da língua, então a comunicação mútua não seria possível e a própria existência da língua se tornaria sem sentido. . Quanto à distribuição da frequência relativa do uso de elementos individuais da língua, ela encontrou sua expressão na linguística na forma de atribuição de categorias de vocabulário e gramática passiva e ativa, às quais L. V. Shcherba prestou tanta atenção. Nesse caso, os métodos estatísticos só podem ajudar os linguistas na distribuição de elementos linguísticos específicos de acordo com as categorias da frequência relativa de seu uso, mas eles não têm motivos para alegar descobrir novos padrões valiosos para a linguística teórica.

Por outro lado, a linguoestatística oferece uma série de conclusões verdadeiramente "originais", que são extremamente indicativas da natureza do pensamento científico de seus adeptos. Assim, o "vocabulário político" nas obras de Churchill, Benes, Halifax, Stresemann e outros é estudado com métodos estatísticos complexos, e as traduções de suas obras para o inglês são usadas nos cálculos para autores que não falam inglês. Os resultados dos cálculos são apresentados na forma de várias tabelas, fórmulas matemáticas e equações. A interpretação linguística dos dados quantitativos neste caso se resume ao fato de que o uso de Churchill do "vocabulário político" é o mais típico (?) do grupo de fala em inglês 9 8 .

Em outro caso, após as devidas manipulações estatísticas, conclui-se que Hitler violou a dualidade entre “linguagem” e “fala” no sentido quantitativo desses termos no uso da Alemanha nazista. Um caso especial de destruição dessa dualidade é a compreensão literal<137>voltas metafóricas (por exemplo, "derramar sal em feridas abertas"). A Alemanha nazista marcou-se com tantos atos desumanos que quase não há necessidade de condená-la por essa atrocidade linguística 9 9 . De acordo com Kherdan, a definição de linguagem de Marx como a realidade imediata do pensamento também leva a uma violação da dualidade linguística, e a lei da dialética sobre a transição de um fenômeno para seu oposto é, em sua opinião, a lei linguística incompreendida da dualidade de linguagem. Tais interpretações falam por si.

Finalmente, uma deficiência comum inerente a todos os casos acima do método quantitativo de estudar o material linguístico e assim adquirir um caráter metodológico é a abordagem dos elementos linguísticos como um conjunto mecânico de fatos absolutamente independentes um do outro, de acordo com o qual, se houver ou padrões, referem-se apenas às relações numéricas de distribuição de fatos autônomos, fora de suas dependências sistêmicas. É verdade que J. Watmow está tentando de todas as maneiras assegurar que é a matemática que é melhor do que qualquer tipo de análise estrutural linguística, capaz de revelar as características estruturais de uma língua. “A matemática moderna”, escreve ele, “não lida com medição e cálculo, cuja precisão é limitada por sua própria natureza, mas principalmente com estrutura. É por isso que a matemática é altamente conducente à precisão do aprendizado de línguas - na medida em que uma descrição separada, ainda mais limitada por natureza, não é capaz de ... Assim como na física, os elementos matemáticos são usados ​​para descrever o mundo físico, uma vez que se supõe que correspondem a elementos do mundo físico, então, na linguística matemática, os elementos matemáticos devem corresponder aos elementos do mundo da fala” 101 . Mas tal formulação da questão de modo algum salva a situação, pois na melhor das hipóteses pode<138>dar uma análise da linguagem ou como estrutura física, que ainda está longe de ser suficiente para uma linguagem, e em última análise ainda tem o mesmo caráter mecanicista, ou como estrutura lógico-matemática, e isso transfere a linguagem para um plano e, em muitos aspectos, estranho a ele. Não é supérfluo notar que Watmow prevê os sucessos da linguística matemática apenas no futuro, e quanto aos seus resultados reais, ele os avalia com as seguintes palavras: “... quase todo o trabalho feito até hoje por Herdan, Zipf, Yul, Giro (Guiraux) e outros, não está fora do escopo da crítica tanto da linguística quanto da matemática; ela cheira a amadorismo em grande medida” 103 . Assim, se não tentarmos prever o futuro dos métodos matemáticos na pesquisa linguística, mas tentarmos apreciar o que temos hoje, então, necessariamente, teremos que admitir que, de fato, a matemática até agora tem sido limitada no campo da linguística apenas para “medição e cálculo”, e não pude dar uma análise qualitativa da língua, aprofundando sua estrutura.<139>

Vamos tentar ser o mais objetivo possível. Em certa parte, os dados quantitativos, aparentemente, podem ser utilizados pela linguística, mas apenas como auxiliares e principalmente em problemas de orientação prática. No que diz respeito à maioria dos métodos quantitativos de estudar fenômenos linguísticos individuais, a conclusão geral de R. Brown é indubitavelmente justificada: “Eles podem ser considerados como Kherdan os considera, mas qual é o significado de tudo isso?” 104. Vamos imaginar que fazemos a pergunta: "Quais são as árvores deste jardim?". E como resposta recebemos: "Há cem árvores neste jardim." Esta é a resposta à nossa pergunta, e isso realmente faz sentido? Mas no que diz respeito a muitas questões linguísticas, os métodos matemáticos dão exatamente essas respostas.

No entanto, há um amplo campo de atividade de pesquisa, utilizando principalmente métodos matemáticos e ao mesmo tempo orientando-os para o material linguístico, onde a conveniência de tal combinação é inquestionável. O "sentido" desta actividade de investigação, o seu significado é determinado pelos objectivos a que aspira. Já foi testado na prática. Neste caso, estamos a falar dos problemas associados à criação de máquinas de informação, estruturas de tradução automática de textos científicos escritos, automatização da tradução da fala oral de uma língua para outra, e com todo o leque de tarefas que se combinam nas questões linguísticas da cibernética. Todo o conjunto de tais problemas geralmente recebe o nome geral de linguística aplicada. Assim, distingue-se da chamada linguística matemática, que inclui as áreas de trabalho que foram designadas acima como estiloestatística e estatística linguística, embora de forma alguma evite o processamento estatístico do material linguístico. Talvez a característica mais importante da linguística aplicada, separando-a da linguística matemática, conforme descrito acima, é que a primeira tem a direção oposta: não a matemática para a linguística, mas a linguística.<140>(formalizado por métodos matemáticos) para uma ampla gama de problemas práticos.

Não há necessidade de divulgar o conteúdo de problemas individuais que agora estão incluídos na área extremamente ampla da linguística aplicada. Em contraste com a linguística matemática, esses problemas são discutidos ativamente na literatura linguística soviética e, com razão, começam a ocupar um lugar cada vez mais proeminente nos problemas científicos dos institutos de pesquisa 105 . Assim, eles já são bem conhecidos da nossa comunidade linguística. Essa circunstância, porém, não nos exime da necessidade de submetê-los à reflexão, em particular, do ponto de vista dos princípios da ciência da linguagem. Isso, sem dúvida, ajudará a eliminar os mal-entendidos que surgem cada vez mais frequentemente entre representantes de ciências muito distantes entre si e participam do trabalho sobre os problemas da linguística aplicada, e traçará caminhos para sua convergência, por um lado , e delimitação de áreas de pesquisa, por outro lado. Escusado será dizer que as seguintes considerações representarão o ponto de vista do linguista, e é necessário que os matemáticos não apenas tentem assimilá-lo, mas, em conexão com as questões levantadas, dê-lhes sua interpretação.

O linguista-teórico não pode de modo algum ficar satisfeito com o fato de que em todos os casos<141>linguagem para os fins estabelecidos pela linguística aplicada, sua base é um modelo matemático. De acordo com isso, as observações sobre os fenômenos da linguagem e os resultados assim obtidos são expressos em termos e conceitos da matemática, ou seja, por meio de equações e fórmulas matemáticas. Vejamos um exemplo para maior clareza. Condon 1 06 e Zipf 1 07 estabeleceram que os logaritmos da frequência ( f) as ocorrências de palavras em um texto grande estão localizadas quase em linha reta, se estiverem correlacionadas no diagrama com os logaritmos de posto ou posto ( r) dessas palavras. A equação f=c:r, Onde Comé uma constante reflete essa relação no sentido limitado de que c:r para valor definido r reproduz a frequência observada com grande aproximação. Relacionamento entre f e r, expresso por uma fórmula matemática, é um modelo para a relação entre os valores observados da frequência de uso e a classificação, ou classificação, das palavras. Este é um dos casos de modelagem matemática. 

Toda a teoria da informação é inteiramente baseada no modelo matemático do processo de comunicação desenvolvido por C. Shannon 108 . É definida como "uma disciplina matemática dedicada aos métodos de cálculo e estimativa da quantidade de informação contida em quaisquer dados, e ao estudo dos processos de armazenamento e transmissão de informação" (TSB, vol. 51, p. 128). Assim, os conceitos básicos da teoria da informação recebem uma expressão matemática. A informação é medida em binits ou unidades binárias (um código, ao qual a linguagem é comparada, com dois sinais condicionais igualmente prováveis ​​transmite uma unidade binária de informação durante a transmissão de cada caractere ). -qualquer código e a quantidade média de informações transmitidas<142>formações. A redundância é expressa em percentagem da capacidade total de transmissão do código”, 1 09 etc. Da mesma forma, a tradução automática requer o desenvolvimento algorítmico de elementos de mapeamento de uma língua para outra, etc. 1 10 . Esses são outros casos de modelagem.

A utilização de modelos sem qualquer significado pode ser uma ajuda muito significativa, em particular, com toda a probabilidade, na resolução dos problemas que a linguística aplicada se coloca. No entanto, para a linguística teórica, é muito importante que um modelo abstrato, via de regra, não reproduza todas as características de um fenômeno real, todas as suas qualidades funcionais. Assim, um arquiteto, antes de construir uma casa, pode criar sua maquete, que reproduz a casa que está sendo projetada em todos os mínimos detalhes, e isso o ajuda a resolver uma série de questões práticas relacionadas à construção da própria casa. Mas esse modelo de casa, por mais preciso que seja, é desprovido dessa “função” e dessa finalidade para a qual todas as casas são construídas em geral - não é capaz de fornecer moradia a uma pessoa. A situação é semelhante com a linguagem, onde o modelo nem sempre consegue reproduzir todas as suas qualidades. Nesse caso, a questão se complica ainda mais pelo fato de não serem utilizados critérios linguísticos, mas matemáticos para construir o modelo. “Modelos matemáticos ... - escreve A. Ettinger, - desempenham um papel extremamente importante em todas as áreas da tecnologia, mas como eles são uma ferramenta de síntese, seu significado para a linguística, que é principalmente uma disciplina histórica e descritiva, é naturalmente limitado ” 1 11 .<143>

A modelagem matemática de uma língua é realmente aplicável apenas ao seu estado estático, que é condicional para um linguista e de fato está em conflito direto com a qualidade básica de uma língua, cuja própria forma de existência é o desenvolvimento. Escusado será dizer que o estudo estático de uma língua não é de forma alguma excluído da linguística e é a base para a compilação de gramáticas e dicionários normativos, gramáticas descritivas, gramáticas práticas e dicionários que servem de guia para o estudo prático de línguas estrangeiras, etc. No entanto, em todos esses trabalhos, que são predominantemente aplicados na natureza, os linguistas conscientemente limitam o campo de pesquisa e de forma alguma fecham os olhos para outros aspectos da linguagem 1 12 . Com um exame estático da língua, em particular, tais qualidades da língua associadas à sua natureza dinâmica, como produtividade, dependência de formas de pensamento e ampla interação com fatores culturais, sociais, políticos, históricos e outros, desaparecem completamente campo de visão do pesquisador. Somente no plano sincrônico a linguagem pode ser considerada como um sistema de signos ou códigos convencionais, o que, no entanto, acaba sendo completamente injustificado assim que adotamos um ponto de vista dinâmico mais adequado à linguagem. É nos processos de desenvolvimento que qualidades da linguagem como motivação, polissemia de palavras que não possuem limites estáveis, não autonomia do significado de uma palavra e de sua concha sonora, e o potencial criativo de uma palavra associada ao contexto são manifesta, e tudo isso está em nítida contradição com as principais características de um código ou de um signo 1 13 . Obviamente, em linguística aplicada, também se pode pensar em todas essas qualidades da linguagem e, para fins práticos, contentar-se com, por assim dizer, um “instantâneo” da linguagem, que ainda é capaz de dar uma ideia bastante aproximada de o mecanismo de seu funcionamento.<144>nirovaniya. No entanto, cada um desses "instantâneos", se considerado como um fato da linguagem, e não como um fato de um sistema de códigos convencionais, deve ser incluído no interminável processo de movimento em que a linguagem sempre existe 1 14 . Não pode ser estudado fora das condições específicas que caracterizam esse movimento, que marca o estado dado da língua e determina o potencial de seu desenvolvimento posterior. Aqui há a mesma diferença entre uma fotografia momentânea de uma pessoa e seu retrato pintado com um pincel de um verdadeiro artista. Na obra do artista, temos diante de nós uma imagem generalizante de uma pessoa em toda a originalidade não apenas de sua aparência física, mas também de seu conteúdo espiritual interior. A partir de um retrato artístico, também podemos ler o passado da pessoa retratada e determinar do que ela é capaz em suas ações. E um instantâneo, embora capaz de dar uma imagem mais precisa da aparência do original, é desprovido dessas qualidades e muitas vezes captura tanto uma espinha acidental que saltou no nariz quanto<145>uma pose ou expressão completamente atípica, que acaba levando a uma distorção do original.

Deve-se notar que o método dos "instantâneos" pode, é claro, ser aplicado aos fatos do desenvolvimento da linguagem. Mas, neste caso, estaremos realmente lidando apenas com estados separados da língua, que, em sua caracterização quantitativa, acabam sendo conectados não mais do que uma caracterização quantitativa comparativa de diferentes línguas. Esse tipo de "dinâmica" quantitativa não conterá nada orgânico, e a conexão entre os estados individuais da linguagem se baseará apenas na comparação de relações numéricas. Se também neste caso recorrermos a uma analogia, podemos nos referir ao crescimento da criança. Seu desenvolvimento, é claro, pode ser representado na forma da dinâmica de dados numéricos sobre seu peso, altura, proporções variáveis ​​do volume de partes de seu corpo, mas todos esses dados são absolutamente separados de tudo o que constitui principalmente a essência individual. de uma pessoa - seu caráter, inclinações, hábitos. , sabores, etc.

Outro lado negativo da "modelagem" matemática da linguagem é o fato de que ela não pode servir como o princípio geral com base no qual é possível realizar uma descrição abrangente e abrangente - sistemática da linguagem. Somente uma abordagem matemática dos fenômenos da linguagem, por exemplo, não permitirá responder nem mesmo a questões tão fundamentais (sem as quais a própria existência da ciência da linguagem é impensável), tais como: o que é linguagem, quais fenômenos deveriam ser? atribuídas às próprias linguísticas, como se define uma palavra ou frase, quais são os conceitos e categorias básicas da linguagem, etc. uma hipótese de trabalho) a todas essas questões com antecedência. Não há necessidade de fechar os olhos para o fato de que em todos os casos que conhecemos do estudo dos fenômenos linguísticos por métodos matemáticos, todos esses conceitos e categorias inevitavelmente tiveram que ser aceitos como foram definidos por métodos tradicionais ou, relativamente falando, métodos qualitativos.

Essa característica dos métodos matemáticos em sua aplicação linguística foi notada por Spang-Hanssen quando pi<146>sal: “Deve-se ter em mente que os fatos observados que recebem uma expressão quantitativa... descrição e teoria” 1 15 . Em outro discurso de Spang-Hanssen, encontramos um esclarecimento dessa ideia: “Até que se prove a possibilidade de construir um sistema quantitativo, e enquanto houver um sistema qualitativo geralmente aceito para um determinado campo de estudo, cálculos de frequências e outros características numéricas do ponto de vista linguístico não fazem sentido" 1 16 . Idéias semelhantes são expressas por Uldall, conectando-as um tanto inesperadamente com o desenvolvimento dos fundamentos teóricos gerais da glossemática: “Quando um linguista conta ou mede tudo o que conta e mede, em si não é determinado quantitativamente; por exemplo, as palavras, quando contadas, são definidas, se é que são definidas, em termos bem diferentes.<147>

Assim, verifica-se que tanto em termos teóricos quanto em sua aplicação prática, os métodos matemáticos são diretamente dependentes de conceitos e categorias linguísticas definidas por métodos tradicionais, filológicos ou, como mencionado acima, qualitativos. Em termos de linguística aplicada, é importante perceber essa dependência e, consequentemente, conhecer a totalidade das principais categorias da linguística tradicional.

É verdade que não há razão para censurar os representantes das ciências exatas que trabalham no campo da linguística aplicada por não usarem os dados da linguística moderna. Isso não corresponde ao estado real das coisas. Eles não apenas conhecem perfeitamente bem, mas também usam amplamente em seu trabalho os sistemas de traços diferenciais estabelecidos por linguistas que são característicos de diferentes línguas, a distribuição e disposição dos elementos linguísticos dentro de sistemas linguísticos específicos, as conquistas da fonética acústica etc. neste caso, é necessária uma reserva bastante significativa. De fato, representantes das ciências exatas utilizam os dados de apenas uma direção na linguística - a chamada linguística descritiva, que deliberadamente se distinguiu dos problemas tradicionais da linguística teórica, longe de abranger todo o campo da pesquisa linguística, de uma do ponto de vista linguístico, apresenta deficiências metodológicas significativas, que o levaram a uma crise recentemente revelada 1 18 , e, além disso, tem uma orientação puramente prática, correspondendo aos interesses da linguística aplicada. Todas as reservas e censuras feitas acima contra a consideração estática da linguagem são aplicáveis ​​à linguística descritiva. Tal abordagem unilateral da linguística descritiva pode, o investigador<148>no entanto, justificada apenas pelas tarefas que a linguística aplicada se propõe, mas longe de esgotar todo o conteúdo da ciência da linguagem.

No processo de desenvolvimento de questões de linguística aplicada, novos problemas teóricos podem surgir, e de fato já surgiram. Alguns desses problemas estão intimamente relacionados com as tarefas específicas da linguística aplicada e visam superar as dificuldades que surgem na resolução desses problemas. Outros problemas estão diretamente relacionados à linguística teórica, permitindo uma nova perspectiva sobre as ideias tradicionais ou abrindo novas áreas de pesquisa linguística, novos conceitos e teorias. Entre estes últimos, por exemplo, está o problema da criação de uma linguagem “máquina” (ou linguagem intermediária), que está mais intimamente relacionada a um conjunto complexo de questões cardinais da linguística teórica como a relação de conceitos e significados lexicais, lógica e linguagem. gramática, diacronia e sincronia, a natureza sígnica da língua, a essência do significado linguístico, os princípios da construção de línguas artificiais, etc. 1 19 . Neste caso, é especialmente importante estabelecer a compreensão mútua e a comunidade no trabalho comum dos representantes das disciplinas linguísticas e das ciências exatas. Quanto ao lado linguístico, neste caso, aparentemente, não deveríamos estar falando em limitar os esforços de, por exemplo, projetistas de máquinas de tradução com antecedência” e tentar estabelecer as capacidades de trabalho de tais máquinas usando os poemas de N. Gribachev ou V. A prosa de Kochetov 1 20 . A própria máquina encontrará os limites de suas capacidades e lucratividade - os limites de seu uso. Mas os linguistas, como sua contribuição para a causa comum, devem trazer seu conhecimento das características da estrutura da língua, sua versatilidade, as relações internas de interseção de seus elementos, bem como as conexões amplas e multilaterais da linguagem com os aspectos físicos, fisiológicos e físicos. , mental e lógico<149>fenômenos mi, padrões específicos de funcionamento e desenvolvimento da linguagem. A totalidade desse conhecimento é necessária aos projetistas das respectivas máquinas para não vagar em direções erradas, mas para tornar a busca proposital e claramente orientada. Mesmo a brevíssima revisão dos casos de aplicação de métodos matemáticos a problemas linguísticos, feita neste ensaio, convence de que tal conhecimento não será de forma alguma supérfluo para representantes das ciências exatas.

Com base em todas as considerações acima, pode-se obviamente chegar a algumas conclusões gerais.

Então, linguística matemática? Se isso significa o uso de métodos matemáticos como uma chave mestra universal para resolver todos os problemas linguísticos, então tais afirmações devem ser reconhecidas como absolutamente injustificadas. Tudo o que foi feito nesse sentido até agora pouco ou nada fez para resolver os problemas tradicionais da ciência da linguagem. Na pior das hipóteses, a aplicação de métodos matemáticos é acompanhada de óbvios absurdos ou, do ponto de vista linguístico, é absolutamente sem sentido. Na melhor das hipóteses, os métodos matemáticos podem ser usados ​​como métodos auxiliares da pesquisa linguística, sendo colocados a serviço de tarefas linguísticas específicas e limitadas. Não pode haver nenhuma "filosofia quantitativa da linguagem" neste caso. Ao mesmo tempo, a física, a psicologia, a fisiologia, a lógica, a sociologia e a etnologia invadiram a independência da ciência da linguagem, mas não puderam subjugar a linguística. Aconteceu o contrário - a linguística aproveitou as conquistas dessas ciências e, na medida do necessário para si, começou a usar sua ajuda, enriquecendo assim o arsenal de suas técnicas de pesquisa. Agora, aparentemente, é a vez da matemática. Espera-se que esta nova comunidade contribua também para o fortalecimento da ciência da linguagem, o aprimoramento de seus métodos de trabalho e o aumento de sua diversidade. É, portanto, tão legítimo falar de linguística matemática quanto de linguística física, linguística fisiológica, linguística lógica, linguística psicológica e<150>etc. Não existe tal linguística, existe apenas uma linguística, que usa proveitosamente os dados de outras ciências como ferramentas auxiliares de pesquisa. Assim, não há razão para recuar diante da investida da nova ciência e ceder facilmente a ela as posições que conquistou. Aqui é muito apropriado relembrar as palavras de A. Martinet: “Talvez seja tentador juntar um ou outro grande movimento de pensamento usando alguns termos bem escolhidos, ou declarar com alguma fórmula matemática o rigor do raciocínio. No entanto, chegou a hora de os linguistas perceberem a independência de sua ciência e se libertarem desse complexo de inferioridade que os faz associar qualquer de suas ações a um ou outro princípio científico geral, pelo qual os contornos da realidade sempre se tornam apenas mais vago, em vez de se tornar mais claro.

Portanto, a matemática em si e a linguística em si. Isso de forma alguma exclui a assistência mútua ou um encontro amistoso no trabalho conjunto sobre problemas comuns. Esse tipo de lugar de aplicação dos esforços conjuntos das duas ciências é todo o amplo leque de problemas que fazem parte da linguística aplicada e são de grande importância econômica nacional. Deve-se apenas desejar que em seu trabalho conjunto ambas as ciências demonstrem o máximo de compreensão mútua, o que sem dúvida contribuirá para a máxima fecundidade de sua cooperação.<151>

A formação da linguística estrutural na virada dos séculos XIX-XX. Métodos estatísticos na aprendizagem de línguas. Aplicação de métodos matemáticos em linguística na segunda metade do século XX. Aprender a língua por métodos de lógica formal. Características da tradução automática.

INTRODUÇÃO

Capítulo 1. A história da aplicação de métodos matemáticos em linguística

1.1. A formação da linguística estrutural na virada dos séculos XIX-XX

1.2. Aplicação de métodos matemáticos em linguística na segunda metade do século XX.

Capítulo 2. Exemplos selecionados do uso da matemática na linguística

2.1. Tradução automática

2.2. Métodos estatísticos na aprendizagem de línguas

2.3. Aprender uma língua por métodos de lógica formal

2.4. Perspectivas para a aplicação de métodos matemáticos em linguística

Conclusão

Literatura

Apêndice 1. Ronald Schleifer. Fernando de Saussure

Apêndice 2. Ferdinand de Saussure (tradução)

INTRODUÇÃO

No século XX, houve uma tendência contínua para a interação e interpenetração de vários campos do conhecimento. As fronteiras entre as ciências individuais são gradualmente borradas; há cada vez mais ramos da atividade mental que estão "na junção" do conhecimento humanitário, técnico e das ciências naturais.

Outra característica óbvia da modernidade é o desejo de estudar as estruturas e seus elementos constituintes. Portanto, um lugar crescente, tanto na teoria científica quanto na prática, é dado à matemática. Entrando em contato, por um lado, com a lógica e a filosofia, por outro, com a estatística (e, consequentemente, com as ciências sociais), a matemática penetra cada vez mais profundamente naquelas áreas que por muito tempo foram consideradas puramente “humanitários”, ampliando seu potencial heurístico (a resposta à pergunta “quanto” muitas vezes ajudará a responder às perguntas “o quê” e “como”). A linguística não foi exceção.

O objetivo do meu trabalho de curso é destacar brevemente a conexão entre a matemática e um ramo da linguística como a linguística. Desde a década de 1950, a matemática tem sido usada na linguística para criar um aparato teórico para descrever a estrutura das línguas (naturais e artificiais). Ao mesmo tempo, deve-se dizer que não encontrou imediatamente essa aplicação prática para si. Inicialmente, os métodos matemáticos em linguística começaram a ser utilizados para esclarecer os conceitos básicos da linguística, porém, com o desenvolvimento da tecnologia computacional, tal premissa teórica começou a encontrar aplicação na prática. A resolução de tarefas como tradução automática, recuperação de informações por máquina, processamento automático de texto exigia uma abordagem fundamentalmente nova da linguagem. Os linguistas enfrentaram a questão: como aprender a representar padrões linguísticos na forma em que eles podem ser aplicados diretamente à tecnologia. O termo “linguística matemática”, que é popular em nosso tempo, refere-se a qualquer pesquisa linguística que use métodos exatos (e o conceito de métodos exatos na ciência está sempre intimamente relacionado à matemática). Alguns cientistas do passado acreditam que a expressão em si não pode ser elevada à categoria de termo, pois não significa nenhuma “linguística” especial, mas apenas uma nova direção voltada para o aprimoramento, aumento da precisão e confiabilidade dos métodos de pesquisa linguística. A linguística usa métodos quantitativos (algébricos) e não quantitativos, o que a aproxima da lógica matemática e, consequentemente, da filosofia e até da psicologia. Até mesmo Schlegel notou a interação da linguagem e da consciência, e Ferdinand de Saussure, um linguista proeminente do início do século XX (falarei sobre sua influência no desenvolvimento de métodos matemáticos em linguística mais tarde), conectou a estrutura da linguagem com seu pertencimento. ao povo. O pesquisador moderno L. Perlovsky vai além, identificando as características quantitativas da língua (por exemplo, o número de gêneros, casos) com as peculiaridades da mentalidade nacional (mais sobre isso na Seção 2.2, "Métodos Estatísticos em Lingüística").

A interação da matemática e da linguística é um tema multifacetado, e em meu trabalho não me deterei em tudo, mas, antes de tudo, em seus aspectos aplicados.

Capítulo IHistória da aplicação de métodos matemáticos em linguística

1.1 Formação da linguística estruturalna virada dos séculos XIX-XX

A descrição matemática da linguagem é baseada na ideia de linguagem como mecanismo, que remonta ao famoso linguista suíço do início do século XX, Ferdinand de Saussure.

O elo inicial de seu conceito é a teoria da linguagem como um sistema composto por três partes (a própria linguagem é Língua, Fala - senha, e atividade de fala - Língua), em que cada palavra (membro do sistema) é considerada não em si mesma, mas em conexão com outros membros. Como outro linguista proeminente, o dinamarquês Louis Hjelmslev, observou mais tarde, Saussure "foi o primeiro a exigir uma abordagem estrutural da linguagem, isto é, uma descrição científica da linguagem registrando as relações entre as unidades".

Compreendendo a linguagem como uma estrutura hierárquica, Saussure foi o primeiro a colocar o problema do valor e do significado das unidades linguísticas. Fenômenos e eventos separados (digamos, a história da origem de palavras indo-européias individuais) devem ser estudados não por si mesmos, mas em um sistema no qual são correlacionados com componentes semelhantes.

A unidade estrutural da linguagem de Saussure considerava a palavra, "signo", na qual se combinavam som e significado. Nenhum desses elementos existe um sem o outro: portanto, o falante nativo entende os vários matizes do significado de uma palavra polissemântica como um elemento separado no todo estrutural, na língua.

Assim, na teoria de F. de Saussure pode-se ver a interação da linguística, por um lado, com a sociologia e a psicologia social (note-se que, ao mesmo tempo, a fenomenologia de Husserl, a psicanálise de Freud, a teoria da relatividade de Einstein eram desenvolvendo, experimentavam-se a forma e o conteúdo na literatura, na música e nas artes plásticas), por outro lado, com a matemática (o conceito de sistemicidade corresponde ao conceito algébrico de linguagem). Tal conceito mudou o conceito de interpretação linguística como tal: os fenômenos passaram a ser interpretados não em relação às causas de sua ocorrência, mas em relação ao presente e ao futuro. A interpretação deixou de ser independente das intenções de uma pessoa (apesar do fato de que as intenções podem ser impessoais, "inconscientes" no sentido freudiano da palavra).

O funcionamento do mecanismo linguístico se manifesta através da atividade de fala dos falantes nativos. O resultado da fala são os chamados "textos corretos" - sequências de unidades de fala que obedecem a determinados padrões, muitos dos quais permitem uma descrição matemática. A teoria das formas de descrever a estrutura sintática trata do estudo de métodos para a descrição matemática de textos corretos (principalmente sentenças). Em tal estrutura, as analogias linguísticas são definidas não com a ajuda de suas qualidades inerentes, mas com a ajuda de relações de sistema (“estruturais”).

No Ocidente, as ideias de Saussure são desenvolvidas pelos contemporâneos mais jovens do grande linguista suíço: na Dinamarca - L. Hjelmslev, já mencionado por mim, que deu origem à teoria algébrica da linguagem em sua obra "Fundamentos da Teoria Linguística", em os EUA - E. Sapir, L. Bloomfield, C. Harris, na República Checa - o cientista emigrante russo N. Trubetskoy.

As regularidades estatísticas no estudo da linguagem começaram a ser tratadas por ninguém menos que o fundador da genética, Georg Mendel. Foi somente em 1968 que os filólogos descobriram que, nos últimos anos de sua vida, ele era fascinado pelo estudo dos fenômenos linguísticos usando os métodos da matemática. Mendel trouxe esse método para a linguística da biologia; na década de 1990, apenas os linguistas e biólogos mais ousados ​​afirmavam a viabilidade de tal análise. Nos arquivos do mosteiro de S. Tomasz em Brno, cujo abade era Mendel, foram encontradas folhas com colunas de sobrenomes terminadas em "mann", "bauer", "mayer", e com algumas frações e cálculos. Em um esforço para descobrir as leis formais da origem dos nomes de família, Mendel faz cálculos complexos, nos quais leva em conta o número de vogais e consoantes na língua alemã, o número total de palavras que considera, o número de sobrenomes, etc.

Em nosso país, a linguística estrutural começou a se desenvolver mais ou menos na mesma época que no Ocidente - na virada dos séculos 19 para 20. Simultaneamente com F. de Saussure, o conceito de linguagem como sistema foi desenvolvido em seus trabalhos por professores da Universidade de Kazan F.F. Fortunatov e I.A. Baudouin de Courtenay. Este último correspondeu por muito tempo com de Saussure, respectivamente, as escolas de linguística de Genebra e Kazan colaboraram entre si. Se Saussure pode ser chamado de ideólogo dos métodos "exatos" em linguística, então Baudouin de Courtenay lançou as bases práticas para sua aplicação. Ele foi o primeiro a separar a linguística (como exato uma ciência que usa métodos estatísticos e dependência funcional) da filologia (uma comunidade de disciplinas humanitárias que estudam a cultura espiritual através da linguagem e da fala). O próprio cientista acreditava que "a linguística pode ser útil em um futuro próximo, apenas libertada da união obrigatória com a filologia e a história literária" . A fonologia tornou-se o "campo de testes" para a introdução de métodos matemáticos na linguística - os sons como "átomos" do sistema linguístico, tendo um número limitado de propriedades facilmente mensuráveis, eram o material mais conveniente para métodos formais e rigorosos de descrição. A fonologia nega a existência de significado no som, de modo que o fator "humano" foi eliminado nos estudos. Nesse sentido, os fonemas são como objetos físicos ou biológicos.

Os fonemas, como os menores elementos linguísticos aceitáveis ​​para a percepção, representam uma esfera separada, uma "realidade fenomenológica" separada. Por exemplo, em inglês, o som "t" pode ser pronunciado de maneira diferente, mas em todos os casos, uma pessoa que fala inglês o perceberá como "t". O principal é que o fonema desempenhará sua função principal - significativa. Além disso, as diferenças entre as línguas são tais que variedades de um som em uma língua podem corresponder a diferentes fonemas em outra; por exemplo, "l" e "r" em inglês são diferentes, enquanto em outros idiomas são variedades do mesmo fonema (como o "t" em inglês, pronunciado com ou sem aspiração). O vasto vocabulário de qualquer língua natural é um conjunto de combinações de um número muito menor de fonemas. Em inglês, por exemplo, apenas 40 fonemas são usados ​​para pronunciar e escrever cerca de um milhão de palavras.

Os sons de uma língua são um conjunto de características sistematicamente organizado. Nas décadas de 1920 e 1930, seguindo Saussure, Jacobson e N.S. Trubetskoy destacaram as "características distintivas" dos fonemas. Esses recursos são baseados na estrutura dos órgãos da fala - língua, dentes, cordas vocais. Por exemplo, em inglês a diferença entre "t" e "d" é a presença ou ausência de uma "voz" (a tensão das cordas vocais) e o nível de voz que distingue um fonema do outro. Assim, a fonologia pode ser considerada um exemplo da regra geral da linguagem descrita por Saussure: "Só existem diferenças na linguagem". Ainda mais importante não é isso: a diferença geralmente implica as condições exatas entre as quais está localizada; mas na linguagem há apenas diferenças sem condições precisas. Quer estejamos considerando "designação" ou "significado" - na língua não há conceitos nem sons que teriam existido antes do desenvolvimento do sistema linguístico.

Assim, na linguística saussureana, o fenômeno estudado é entendido como um conjunto de comparações e oposições da linguagem. A linguagem é ao mesmo tempo uma expressão do significado das palavras e um meio de comunicação, e essas duas funções nunca coincidem. Podemos notar a alternância de forma e conteúdo: contrastes linguísticos definem suas unidades estruturais, e essas unidades interagem para criar um determinado conteúdo significativo. Como os elementos da linguagem são aleatórios, nem contraste nem combinação podem ser a base. Isso significa que em uma língua, os traços distintivos formam um contraste fonético em um nível diferente de compreensão, os fonemas são combinados em morfemas, morfemas - em palavras, palavras - em frases etc. Em qualquer caso, um fonema inteiro, palavra, frase, etc. é mais do que apenas a soma de suas partes.

Saussure propôs a ideia de uma nova ciência do século XX, separada da linguística, estudando o papel dos signos na sociedade. Saussure chamou essa ciência de semiologia (do grego "semeion" - um sinal). A "ciência" da semiótica, que se desenvolveu na Europa Oriental nas décadas de 1920 e 1930 e em Paris nas décadas de 1950 e 1960, expandiu o estudo da linguagem e das estruturas linguísticas em descobertas literárias compostas (ou formuladas) com a ajuda dessas estruturas. Além disso, no crepúsculo de sua carreira, paralelamente ao seu curso de linguística geral, Saussure se engajou em uma análise "semiótica" da poesia romana tardia, tentando descobrir anagramas de nomes próprios compostos deliberadamente. Esse método era, em muitos aspectos, o oposto do racionalismo em sua análise linguística: era uma tentativa de estudar em um sistema o problema da "probabilidade" na linguagem. Tal pesquisa ajuda a focalizar o "lado real" da probabilidade; a "palavra-chave" para a qual Saussure procura um anagrama é, segundo Jean Starobinsky, "uma ferramenta para o poeta, não a fonte da vida do poema". O poema serve para trocar os sons da palavra-chave. Segundo Starobinsky, nesta análise, "Saussure não se aprofunda na busca de significados ocultos". Ao contrário, em suas obras é perceptível um desejo de evitar questões relacionadas à consciência: “como a poesia se expressa não apenas em palavras, mas também no que essas palavras dão origem, ela ultrapassa o controle da consciência e depende apenas de as leis da linguagem” (ver . Anexo 1).

A tentativa de Saussure de estudar os nomes próprios na poesia romana tardia enfatiza um dos componentes de sua análise linguística - a natureza arbitrária dos signos, bem como a essência formal da linguística de Saussure, que exclui a possibilidade de analisar o significado. Todorov conclui que hoje as obras de Saussure parecem ser extremamente consistentes em sua relutância em estudar os símbolos de um fenômeno que tem um significado claramente definido [Apêndice 1]. Explorando anagramas, Saussure presta atenção apenas à repetição, mas não às opções anteriores. . . . Estudando os Nibelungenlied, ele define os símbolos apenas para atribuí-los a leituras errôneas: se não forem intencionais, os símbolos não existem. Afinal, em seus escritos sobre linguística geral, ele assume a existência de uma semiologia que descreve não apenas os signos linguísticos; mas essa suposição é limitada pelo fato de que a semiologia só pode descrever sinais aleatórios e arbitrários.

Se é realmente assim, é apenas porque ele não podia imaginar a "intenção" sem um objeto; ele não conseguiu preencher completamente a lacuna entre forma e conteúdo - em seus escritos isso se transformou em uma questão. Em vez disso, ele se voltou para a "legitimidade linguística". Entre, por um lado, conceitos oitocentistas baseados na história e conjecturas subjetivas, e métodos de interpretação aleatória baseados nesses conceitos, e, por outro lado, conceitos estruturalistas que apagam a oposição entre forma e conteúdo (sujeito e objeto) , significado e origens no estruturalismo, na psicanálise e até na mecânica quântica - os escritos de Ferdinand de Saussure sobre linguística e semiótica marcam um ponto de virada no estudo dos significados na linguagem e na cultura.

Cientistas russos também foram representados no Primeiro Congresso Internacional de Linguistas em Haia em 1928. S. Kartsevsky, R. Yakobson e N. Trubetskoy fizeram um relatório que examinou a estrutura hierárquica da linguagem - no espírito das ideias mais modernas para o início do século passado. Jakobson em seus escritos desenvolveu as idéias de Saussure de que os elementos básicos de uma língua devem ser estudados, antes de tudo, em conexão com suas funções, e não com as razões de sua ocorrência.

Infelizmente, depois que Stalin chegou ao poder em 1924, a linguística russa, como muitas outras ciências, foi rechaçada. Muitos cientistas talentosos foram forçados a emigrar, foram expulsos do país ou morreram em campos. Somente a partir de meados da década de 1950 um certo pluralismo de teorias se tornou possível – mais sobre isso na Seção 1.2.

1.2 Aplicação de métodos matemáticos em linguística na segunda metade do século XX

Em meados do século XX, quatro escolas linguísticas mundiais se formaram, cada uma das quais acabou sendo o ancestral de um certo método “exato”. Escola Fonológica de Leningrado(seu ancestral foi aluno de Baudouin de Courtenay L.V. Shcherba) usou um experimento psicolinguístico baseado na análise da fala de falantes nativos como o principal critério para generalizar o som na forma de um fonema.

Cientistas Círculo Linguístico de Praga, em particular - seu fundador N.S. Trubetskoy, que emigrou da Rússia, desenvolveu a teoria das oposições - a estrutura semântica da língua foi descrita por eles como um conjunto de unidades semânticas construídas opositivamente - Sem. Essa teoria foi aplicada no estudo não apenas da linguagem, mas também da cultura artística.

Ideólogos Descritivismo americano foram os linguistas L. Bloomfield e E. Sapir. A linguagem foi apresentada aos descritivistas como um conjunto de enunciados de fala, objeto principal de seu estudo. Seu foco estava nas regras de descrição científica (daí o nome) dos textos: o estudo da organização, disposição e classificação de seus elementos. A formalização de procedimentos analíticos no campo da fonologia e da morfologia (desenvolvimento de princípios para o estudo da linguagem em diferentes níveis, análise distributiva, método dos constituintes diretos etc.) levou à formulação de questões gerais de modelagem linguística. A desatenção ao plano do conteúdo da linguagem, bem como ao lado paradigmático da linguagem, não permitiu que os descritivistas interpretassem a linguagem como um sistema suficientemente completo.

Na década de 1960, desenvolveu-se a teoria das gramáticas formais, que surgiu principalmente devido ao trabalho do filósofo e linguista americano N. Chomsky. Ele é legitimamente considerado um dos mais famosos cientistas modernos e figuras públicas, muitos artigos, monografias e até mesmo um documentário completo são dedicados a ele. Com o nome de uma maneira fundamentalmente nova de descrever a estrutura sintática inventada por Chomsky - gramática generativa (generativa) - a tendência correspondente na linguística foi chamada gerativismo.

Chomsky, descendente de imigrantes da Rússia, estudou linguística, matemática e filosofia na Universidade da Pensilvânia desde 1945, sendo fortemente influenciado por seu professor Zelig Harris - assim como Harris, Chomsky considerou e ainda considera suas visões políticas próximas ao anarquismo (ele ainda é conhecido como crítico do sistema político dos EUA existente e como um dos líderes espirituais do anti-globalismo).

Primeiro grande trabalho científico de Chomsky, tese de mestrado "Morfologia do hebraico moderno » (1951) permaneceu inédito. Chomsky recebeu seu doutorado da Universidade da Pensilvânia em 1955, mas grande parte da pesquisa subjacente à sua dissertação (publicada na íntegra apenas em 1975 sob o título The Logical Structure of Linguistic Theory) e sua primeira monografia, Syntactic Structures (1957, Rus. trans. . 1962), foi realizado na Universidade de Harvard em 1951-1955. No mesmo ano de 1955, o cientista mudou-se para o Massachusetts Institute of Technology, onde se tornou professor em 1962.

A teoria de Chomsky passou por vários estágios em seu desenvolvimento.

Na primeira monografia "Estruturas sintáticas", o cientista apresentou a linguagem como um mecanismo de geração de um conjunto infinito de frases usando um conjunto finito de meios gramaticais. Para descrever as propriedades linguísticas, ele propôs os conceitos de estruturas gramaticais profundas (ocultas da percepção direta e geradas por um sistema de regras recursivas, ou seja, podem ser aplicadas repetidamente) e superficiais (diretamente percebidas), bem como transformações que descrevem a transição desde estruturas profundas até estruturas superficiais. Várias estruturas de superfície podem corresponder a uma estrutura profunda (por exemplo, uma estrutura passiva O decreto é assinado pelo presidente derivado da mesma Estrutura Profunda que a construção ativa O presidente assina o decreto) e vice-versa (assim, a ambiguidade mãe ama filha descrito como resultado de uma coincidência de estruturas superficiais que remontam a duas profundezas diferentes, em uma das quais a mãe é quem ama a filha, e na outra, a que é amada pela filha).

A teoria padrão de Chomsky é considerada o modelo de "Aspectos" estabelecido no livro de Chomsky "Aspectos da Teoria da Sintaxe". Nesse modelo, pela primeira vez, regras de interpretação semântica foram introduzidas na teoria formal, atribuindo significado a estruturas profundas. Em Aspectos, a competência linguística se opõe ao uso da linguagem (performance), adota-se a chamada hipótese Katz-Postal sobre a preservação do sentido durante a transformação, em relação à qual se exclui o conceito de transformação opcional, e um aparato de recursos sintáticos que descrevem a compatibilidade léxica são introduzidos.

Na década de 1970, Chomsky trabalhou na teoria do controle e vinculação (teoria GB - das palavras governo e vinculativo) é mais geral que o anterior. Nele, o cientista abandonou as regras específicas que descrevem as estruturas sintáticas de linguagens específicas. Todas as transformações foram substituídas por uma transformação de movimento universal. Dentro da estrutura da teoria GB, existem também módulos privados, cada um responsável por sua própria parte da gramática.

Já recentemente, em 1995, Chomsky apresentou um programa minimalista, onde a linguagem humana é descrita como linguagem de máquina. Este é apenas um programa - não um modelo ou uma teoria. Nele, Chomsky identifica dois subsistemas principais do aparato da linguagem humana: o léxico e o sistema computacional, além de duas interfaces - fonética e lógica.

As gramáticas formais de Chomsky tornaram-se clássicas por descrever não apenas linguagens naturais, mas também linguagens artificiais - em particular, linguagens de programação. O desenvolvimento da linguística estrutural na segunda metade do século XX pode ser justamente considerado uma "revolução chomskiana".

Escola Fonológica de Moscou, cujos representantes eram A.A. Reformatsky, V. N. Sidorov, P. S. Kuznetsov, A. M. Sukhotin, R.I. Avanesov, usou uma teoria semelhante para estudar fonética. Gradualmente, métodos "exatos" estão começando a ser aplicados não apenas em fonética, mas também em sintaxe. Tanto linguistas quanto matemáticos, tanto aqui quanto no exterior, estão começando a estudar a estrutura da língua. Nas décadas de 1950 e 1960, iniciou-se na URSS uma nova etapa na interação entre matemática e linguística, associada ao desenvolvimento de sistemas de tradução automática.

O impulso para o início desses trabalhos em nosso país foram os primeiros desenvolvimentos no campo da tradução automática nos Estados Unidos (embora o primeiro dispositivo de tradução mecanizada de P.P. Smirnov-Troyansky tenha sido inventado na URSS em 1933, sendo primitivo , não se difundiu). Em 1947, A. Butt e D. Britten criaram um código para tradução palavra por palavra usando um computador; um ano depois, R. Richens propôs uma regra para dividir palavras em radicais e terminações na tradução automática. Aqueles anos eram bem diferentes de hoje. Eram máquinas muito grandes e caras que ocupavam salas inteiras e exigiam uma grande equipe de engenheiros, operadores e programadores para mantê-las. Basicamente, esses computadores foram usados ​​para realizar cálculos matemáticos para as necessidades das instituições militares - o novo em matemática, física e tecnologia serviu, antes de tudo, aos assuntos militares. Nos estágios iniciais, o desenvolvimento do MP foi ativamente apoiado pelos militares, com tudo isso (nas condições da Guerra Fria), a direção russo-inglesa desenvolvida nos EUA e a direção anglo-russa na URSS.

Em janeiro de 1954, o "Georgetown Experiment" ocorreu na Universidade Técnica de Massachusetts - a primeira demonstração pública de tradução do russo para o inglês na máquina IBM-701. Resumo da mensagem sobre a passagem bem sucedida do experimento, feita por D.Yu. Panov, apareceu no RJ "Matemática", 1954, nº 10: "Tradução de um idioma para outro usando uma máquina: um relatório sobre o primeiro teste bem-sucedido".

D. Yu. Panov (na época diretor do Instituto de Informação Científica - INI, mais tarde VINITI) atraiu I. K. Belskaya, que mais tarde chefiou o grupo de tradução automática do Instituto de Matemática Precisa e Engenharia da Computação da Academia de Ciências da URSS, para trabalhar na tradução automática. No final de 1955, data a primeira experiência de tradução do inglês para o russo com a ajuda da máquina BESM. Programas para BESM foram compilados por N.P. Trifonov e L. N. Korolev, cuja tese de doutorado foi dedicada a métodos de construção de dicionários para tradução automática.

Paralelamente, o trabalho de tradução automática foi realizado no Departamento de Matemática Aplicada do Instituto de Matemática da Academia de Ciências da URSS (agora o Instituto M.V. Keldysh de Matemática Aplicada da Academia Russa de Ciências). Por iniciativa do matemático A.A. Lyapunov. Ele envolveu O.S. Kulagin e seus alunos T.D. Wentzel e N. N. Rico. As ideias de Lyapunov e Kulagina sobre a possibilidade de usar a tecnologia para traduzir de um idioma para outro foram publicadas na revista Nature, 1955, nº 8. A partir do final de 1955, T.N. Moloshnaya, que então começou a trabalhar de forma independente no algoritmo de tradução inglês-russo.

R. Frumkina, que na época trabalhava no algoritmo de tradução do espanhol, lembra que nesta fase do trabalho era difícil dar passos consistentes. Com muito mais frequência, tive que seguir a experiência heurística - minha ou de colegas.

Ao mesmo tempo, a primeira geração de sistemas de tradução automática era muito imperfeita. Todos eles foram baseados em algoritmos de tradução sequencial "palavra por palavra", "frase por frase" - as conexões semânticas entre palavras e frases não foram levadas em consideração de forma alguma. Por exemplo, as frases são: John estava procurando sua caixa de brinquedos.Finalmente ele encontrou. A caixa estava na caneta.João ficou muito feliz. (John estava procurando sua caixa de brinquedos. Finalmente a encontrou. A caixa estava no cercadinho. John estava muito feliz.).” "Caneta" neste contexto não é uma "caneta" (ferramenta de escrita), mas um "cercadinho" ( caneta de brincar). O conhecimento de sinônimos, antônimos e significados figurativos é difícil de entrar em um computador. Uma direção promissora foi o desenvolvimento de sistemas computacionais focados no uso de um tradutor humano.

Com o tempo, os sistemas de tradução direta foram substituídos por sistemas T (da palavra inglesa "transfer" - transformação), nos quais a tradução era realizada no nível das estruturas sintáticas. Os algoritmos de T-systems usaram um mecanismo que possibilitou construir uma estrutura sintática de acordo com as regras gramaticais do idioma da sentença de entrada (semelhante a como uma língua estrangeira é ensinada no ensino médio) e, em seguida, sintetizar a sentença de saída transformando a estrutura sintática e substituindo as palavras necessárias do dicionário.

Lyapunov falou sobre tradução extraindo o significado do texto traduzido e apresentando-o em outro idioma. A abordagem de construção de sistemas de tradução automática baseada na obtenção da representação semântica da sentença de entrada por análise semântica e síntese da sentença de entrada de acordo com a representação semântica obtida ainda é considerada a mais perfeita. Tais sistemas são chamados de sistemas I (da palavra "interlíngua"). Ao mesmo tempo, a tarefa de criá-los, recuada no final dos anos 50 e início dos anos 60, não foi totalmente resolvida até agora, apesar dos esforços da Federação Internacional do IFIP - a comunidade mundial de cientistas na área de processamento de informações .

Os cientistas pensaram em como formalizar e construir algoritmos para trabalhar com textos, quais dicionários deveriam ser inseridos na máquina, quais padrões linguísticos deveriam ser usados ​​na tradução automática. A linguística tradicional não tinha tais ideias - não apenas em termos de semântica, mas também em termos de sintaxe. Naquela época, não havia listas de construções sintáticas para nenhuma língua, as condições para sua compatibilidade e intercambialidade não foram estudadas, as regras para construir grandes unidades de estrutura sintática a partir de elementos constituintes menores não foram desenvolvidas.

A necessidade de criar os fundamentos teóricos da tradução automática levou à formação e desenvolvimento da linguística matemática. O papel principal neste assunto na URSS foi desempenhado pelos matemáticos A.A. Lyapunov, O. S. Kulagina, V. A. Uspensky, linguistas V.Yu. Rosenzweig, P. S. Kuznetsov, R. M. Frumkina, A. A. Reformatsky, I.A. Melchuk, V. V. Ivanov. A dissertação de Kulagina foi dedicada ao estudo da teoria formal das gramáticas (simultaneamente com N. Khomsky nos EUA), Kuznetsov propôs a tarefa de axiomatização da linguística, que remonta aos trabalhos de F.F. Fortunatov.

Em 6 de maio de 1960, foi adotado o Decreto do Presidium da Academia de Ciências da URSS "Sobre o desenvolvimento de métodos estruturais e matemáticos para o estudo da linguagem", e as divisões correspondentes foram criadas no Instituto de Linguística e no Instituto da Língua russa. Desde 1960, as principais universidades humanitárias do país - a Faculdade de Filologia da Universidade Estadual de Moscou, Leninrad, Universidades de Novosibirsk, Instituto Estadual de Línguas Estrangeiras de Moscou - começaram a treinar pessoal no campo do processamento automático de texto.

Ao mesmo tempo, os trabalhos de tradução automática desse período, chamados de "clássicos", são de interesse mais teórico do que prático. Os sistemas de tradução automática econômicos começaram a ser criados apenas nos anos oitenta do século passado. Falarei sobre isso mais tarde na Seção 2.1, Tradução automática.

As décadas de 1960 e 1970 incluem desenvolvimentos teóricos profundos usando os métodos da teoria dos conjuntos e da lógica matemática, como a teoria de campo e a teoria dos conjuntos difusos.

O autor da teoria de campo em linguística foi o poeta, tradutor e linguista soviético V.G. Admoni. Ele inicialmente desenvolveu sua teoria com base na língua alemã. Para Admoni, o conceito de "campo" denota um conjunto arbitrário não vazio de elementos linguísticos (por exemplo, "campo lexical", "campo semântico").

A estrutura do campo é heterogênea: consiste em um núcleo, cujos elementos possuem um conjunto completo de características que definem um conjunto, e uma periferia, cujos elementos podem ter tanto as características de um determinado conjunto (não todas). e vizinhos. Vou dar um exemplo que ilustra esta afirmação: por exemplo, em inglês, o campo de palavras compostas (“day-dream” - “dream” é difícil de separar do campo de frases (“tear gas” - “tear gas”) .

A teoria dos conjuntos fuzzy já mencionada acima está intimamente relacionada à teoria de campos. Na URSS, os linguistas V.G. Admoni, I. P. Ivanova, G. G. Pochentsov, no entanto, seu ancestral foi o matemático americano L. Zadeh, que em 1965 publicou o artigo “Fuzzy Logic”. Dando uma justificativa matemática para a teoria dos conjuntos fuzzy, Zade os considerou com base no material linguístico.

Nesta teoria, estamos falando não tanto da pertença dos elementos a um determinado conjunto (Aa), mas do grau dessa pertinência (Aa), uma vez que elementos periféricos podem pertencer a vários campos em um grau ou outro. Zade (Lofti-zade) era natural do Azerbaijão, até os 12 anos tinha a prática de se comunicar em quatro idiomas - azerbaijano, russo, inglês e persa - e usava três alfabetos diferentes: cirílico, latim, árabe. Quando se pergunta a um cientista o que há de comum entre a teoria dos conjuntos difusos e a linguística, ele não nega essa conexão, mas esclarece: “Não tenho certeza de que o estudo dessas linguagens tenha tido um grande impacto no meu pensamento. Se este fosse o caso, então apenas subconscientemente. Em sua juventude, Zadeh estudou em uma escola presbiteriana em Teerã e, após a Segunda Guerra Mundial, emigrou para os Estados Unidos. “A questão não é se sou americano, russo, azerbaijano ou qualquer outra pessoa”, disse ele em uma das conversas, “sou moldado por todas essas culturas e povos e me sinto bastante confortável entre cada um deles”. Nessas palavras há algo parecido com o que caracteriza a teoria dos conjuntos difusos - um afastamento de definições inequívocas e categorias nítidas.

Em nosso país, na década de 70, foram traduzidas e estudadas as obras de linguistas ocidentais do século XX. I A. Melchuk traduziu as obras de N. Chomsky para o russo. NO. Slyusareva em seu livro "A teoria de F. de Saussure à luz da linguística moderna" conecta os postulados do ensino de Saussure com os problemas reais da linguística dos anos 70. Há uma tendência para uma maior matematização da linguística. As principais universidades nacionais estão treinando pessoal na especialidade "Lingüística matemática (teórica, aplicada)". Ao mesmo tempo, no Ocidente, há um salto acentuado no desenvolvimento da tecnologia da computação, que exige cada vez mais novos fundamentos linguísticos.

Na década de 1980, o professor do Instituto de Estudos Orientais da Academia de Ciências Yu.K. Lekomtsev, ao analisar a linguagem da linguística através da análise de esquemas, tabelas e outros tipos de notação utilizados em descrições linguísticas, considera sistemas matemáticos adequados para esses fins (principalmente sistemas de álgebra matricial).

Assim, ao longo do século XX, houve uma convergência das exatas e das humanidades. A interação da matemática com a linguística encontrou cada vez mais aplicações práticas. Mais sobre isso no próximo capítulo.

Capítulo 2. Exemplos selecionados do uso da matemática na linguística

2.1 Tradução automática

A ideia de traduzir de uma língua para outra com a ajuda de um mecanismo universal surgiu vários séculos antes dos primeiros desenvolvimentos nesta área começarem - em 1649, René Descartes propôs a ideia de uma língua em que as ideias equivalentes de diferentes idiomas seriam expressos por um símbolo. As primeiras tentativas de implementar essa ideia nos anos 1930-40, o início dos desenvolvimentos teóricos em meados do século, a melhoria dos sistemas de tradução com a ajuda da tecnologia nos anos 1970-80, o rápido desenvolvimento da tecnologia de tradução nos últimos década - estas são as etapas do desenvolvimento da tradução automática como indústria. É a partir dos trabalhos sobre tradução automática que a linguística computacional como ciência cresceu.

Com o desenvolvimento da tecnologia da computação no final dos anos 70 e início dos anos 80, os pesquisadores estabeleceram metas mais realistas e econômicas - a máquina se tornou não uma concorrente (como se supunha anteriormente), mas uma assistente de um tradutor humano. A tradução automática deixa de servir exclusivamente a tarefas militares (todas as invenções e pesquisas soviéticas e americanas, focadas principalmente em russo e inglês, contribuíram para a Guerra Fria de uma forma ou de outra). Em 1978, palavras em linguagem natural foram transmitidas na rede interconectada Arpa e, seis anos depois, surgiram os primeiros programas de tradução de microcomputadores nos Estados Unidos.

Nos anos 70, a Comissão das Comunidades Europeias compra a versão inglês-francês do tradutor informático Systran, encomendando também as versões francês-inglês e italiano-inglês, e o sistema de tradução russo-inglês utilizado pelas Forças Armadas dos EUA. Assim foram lançadas as bases do projeto EUROTRA.

Sobre o renascimento da tradução automática nos anos 70-80. Atestam os seguintes factos: a Comissão das Comunidades Europeias (CEC) adquire a versão inglês-francesa do Systran, bem como o sistema de tradução do russo para o inglês (este último desenvolvido após o relatório ALPAC e continuado a ser utilizado pela US Air Força e NASA); além disso, a CEC ordena o desenvolvimento das versões francês-inglês e italiano-inglês. Simultaneamente, há uma rápida expansão das atividades de tradução automática no Japão; nos EUA, a Organização Pan-Americana da Saúde (OPAS) ordena o desenvolvimento de uma direção espanhol-inglês (sistema SPANAM); A Força Aérea dos EUA está financiando o desenvolvimento de um sistema de tradução automática no Centro de Pesquisa Linguística da Universidade do Texas em Austin; O grupo TAUM no Canadá está fazendo progressos notáveis ​​no desenvolvimento de seu sistema METEO (tradução meteorológica). Vários projetos começaram nos anos 70 e 80. posteriormente desenvolvido em sistemas comerciais completos.

Durante o período de 1978-93, foram gastos 20 milhões de dólares em pesquisas no campo da tradução automática nos EUA, 70 milhões na Europa e 200 milhões no Japão.

Uma das novidades é a tecnologia TM (translation memory), que funciona no princípio da acumulação: durante o processo de tradução, o segmento original (frase) e sua tradução são salvos, resultando na formação de um banco de dados linguístico; se um segmento idêntico ou semelhante for encontrado no texto recém-traduzido, ele será exibido junto com a tradução e uma indicação da porcentagem de correspondência. O tradutor então toma uma decisão (editar, rejeitar ou aceitar a tradução), cujo resultado é armazenado pelo sistema, de modo que não há necessidade de traduzir a mesma frase duas vezes. Atualmente, o desenvolvedor de um conhecido sistema comercial baseado na tecnologia TM é o sistema TRADOS (fundado em 1984).

Atualmente, várias dezenas de empresas estão desenvolvendo sistemas comerciais de tradução automática, incluindo: Systran, IBM, L&H (Lernout & Hauspie), Transparent Language, Cross Language, Trident Software, Atril, Trados, Caterpillar Co., LingoWare; Ata Software; Linguistica b.v. e outros.Agora você pode usar os serviços de tradutores automáticos diretamente na Web: alphaWorks; Tradutor Online da PROMT, LogoMedia.net, Serviço de Tradução Babel Fish da AltaVista; InfiniT. com; Traduzindo a Internet.

Sistemas de tradução comercialmente eficazes também surgiram na segunda metade dos anos 80 em nosso país. O próprio conceito de tradução automática se expandiu (começou a incluir “a criação de uma série de sistemas e dispositivos automáticos e automatizados que executam automática ou semiautomaticamente todo o ciclo de tradução ou tarefas individuais em diálogo com uma pessoa”) e as dotações governamentais para o desenvolvimento desta indústria aumentaram.

Russo, inglês, alemão, francês e japonês tornaram-se os principais idiomas dos sistemas de tradução nacionais. O All-Union Translation Center (VTsP) desenvolveu um sistema de tradução de inglês e alemão para russo usando o computador EC-1035-ANRAP. Consistia em três dicionários - entrada em inglês e alemão e saída em russo - sob um único software. Havia vários dicionários especializados substituíveis - em informática, programação, eletrônica de rádio, engenharia mecânica, agricultura, metalurgia. O sistema poderia funcionar em dois modos - automático e interativo, quando a tela exibia o texto-fonte e a tradução por frase, que uma pessoa podia editar. A velocidade de tradução do texto em ANRAP (do início da digitação até o final da impressão) foi de aproximadamente 100 páginas por hora.

Em 1989, foi criada uma família de tradutores comerciais do tipo SPRINT, trabalhando com russo, inglês, alemão e japonês. Sua principal vantagem era a compatibilidade com o IBM PC - assim, os sistemas nacionais de tradução automática atingiram o nível internacional de qualidade. Ao mesmo tempo, está sendo desenvolvido um sistema de tradução automática do francês para o russo FRAP, que inclui 4 etapas de análise de texto: grafemática, morfológica, sintática e semântica. Em LGPI eles. Herzen, o trabalho estava em andamento em um sistema SILOD-MP de quatro idiomas (inglês, francês, espanhol e russo) (os dicionários inglês-russo e franco-russo foram usados ​​no modo industrial.

Para tradução especializada de textos de engenharia elétrica, existia o sistema ETAP-2. A análise do texto de entrada nele foi realizada em dois níveis - morfológico e sintático. O dicionário ETAP-2 continha cerca de 4 mil verbetes; a fase de transformação do texto - cerca de 1000 regras (96 gerais, 342 privadas, o resto são dicionário). Tudo isso garantiu uma qualidade de tradução satisfatória (digamos, o título da patente "Optical phase grid arranjo e dispositivo de acoplamento tendo tal arranjo" foi traduzido como "Um dispositivo óptico de rede de fase e um dispositivo de conexão com tal dispositivo" - apesar da tautologia, o significado é preservado).

No Instituto Pedagógico de Línguas Estrangeiras de Minsk, com base no dicionário inglês-russo de formas e frases de palavras, foi inventado um sistema de tradução automática de títulos, no Instituto de Estudos Orientais da Academia de Ciências - um sistema para traduzir do japonês para o russo. O primeiro serviço automático de vocabulário e terminologia (SLOTHERM) para computação e programação, criado no Instituto de Pesquisa de Sistemas de Automação de Moscou, continha aproximadamente 20.000 termos em um dicionário explicativo e dicionários especiais para pesquisa linguística.

Os sistemas de tradução automática começaram gradualmente a ser usados ​​não apenas para o fim a que se destinavam, mas também como um componente importante dos sistemas de aprendizado automático (para ensinar tradução, verificar ortografia e conhecimento gramatical).

Os anos 90 trouxeram consigo o rápido desenvolvimento do mercado de PCs (do desktop ao bolso) e da tecnologia da informação, o uso generalizado da Internet (que está se tornando mais internacional e multilíngue). Tudo isso tornou o desenvolvimento de sistemas de tradução automática em demanda. Desde o início dos anos 1990 Desenvolvedores domésticos também estão entrando no mercado de sistemas para PC.

Em julho de 1990, o primeiro sistema comercial de tradução automática na Rússia chamado PROMT (PROgrammer's Machine Translation) foi apresentado no PC Forum em Moscou. Em 1991, ZAO [!!! foi substituída por uma sociedade anónima não pública] "Proekt MT", e já em 1992, a empresa PROMT venceu o concurso da NASA para o fornecimento de sistemas MP (a PROMT foi a única empresa não americana nesta competição). toda a família de sistemas sob o novo nome STYLUS para tradução de inglês, alemão, francês, italiano e espanhol para russo e de russo para inglês, e em 1993, com base no STYLUS, foi criado o primeiro sistema de tradução automática para Windows do mundo. STYLUS 2.0 para Windows 3.X/95/NT foi lançado, e em 1995-1996 a terceira geração de sistemas de tradução automática, totalmente STYLUS 3.0 de 32 bits para Windows 95/NT, foi introduzida, ao mesmo tempo, o desenvolvimento de um novo, os primeiros sistemas de tradução automática russo-alemão e russo-francês do mundo.

Em 1997, foi assinado um acordo com a empresa francesa Softissimo para a criação de sistemas de tradução de francês para alemão e inglês e vice-versa, e em dezembro deste ano foi lançado o primeiro sistema de tradução alemão-francês do mundo. No mesmo ano, a empresa PROMT lançou um sistema implementado usando a tecnologia Giant, que suporta várias direções de idioma em um shell, além de um tradutor especial para trabalhar no WebTranSite da Internet.

Em 1998, toda uma constelação de programas foi lançada sob o novo nome PROMT 98. Um ano depois, a PROMT lançou dois novos produtos: um pacote de software exclusivo para trabalhar na Internet - PROMT Internet e um tradutor para sistemas de correio corporativo - PROMT Mail Tradutor. Em novembro de 1999, o PROMT foi reconhecido como o melhor sistema de tradução automática testado pela revista francesa PC Expert, superando seus concorrentes em 30%. Soluções de servidor especiais também foram desenvolvidas para clientes corporativos - o servidor de tradução corporativa PROMT Translation Server (PTS) e a solução de Internet PROMT Internet Translation Server (PITS). Em 2000, a PROMT atualizou toda a sua linha de produtos de software lançando uma nova geração de sistemas MT: PROMT Translation Office 2000, PROMT Internet 2000 e Magic Gooddy 2000.

A tradução online com o suporte do sistema PROMT é utilizada em diversos sites nacionais e estrangeiros: Tradutor Online da PROMT, InfiniT.com, Translate.Ru, Lycos, etc., bem como em instituições de diversos perfis de tradução de documentos comerciais, artigos e cartas (há sistemas de tradução integrados diretamente no Outlook Express e em outros clientes de e-mail).

Atualmente, novas tecnologias de tradução automática estão surgindo com base no uso de sistemas de inteligência artificial e métodos estatísticos. Sobre este último - na próxima seção.

2.2 Extramtodos icos no aprendizado de lnguas

Considerável atenção na linguística moderna é dada ao estudo dos fenômenos linguísticos usando os métodos da matemática quantitativa. Os dados quantitativos muitas vezes ajudam a compreender mais profundamente os fenômenos em estudo, seu lugar e papel no sistema de fenômenos relacionados. A resposta à pergunta "quanto" ajuda a responder às perguntas "o quê", "como", "por que" - tal é o potencial heurístico de uma característica quantitativa.

Os métodos estatísticos desempenham um papel significativo no desenvolvimento de sistemas de tradução automática (ver Seção 2.1). Na abordagem estatística, o problema de tradução é considerado em termos de um canal ruidoso. Imagine que precisamos traduzir uma frase do inglês para o russo. O princípio do canal barulhento nos oferece a seguinte explicação da relação entre uma frase em inglês e uma frase em russo: uma frase em inglês nada mais é que uma frase em russo distorcida por algum tipo de ruído. Para recuperar a frase original em russo, precisamos saber o que as pessoas costumam dizer em russo e como as frases em russo são distorcidas em inglês. A tradução é realizada procurando uma frase em russo que maximize os produtos da probabilidade incondicional da frase em russo e a probabilidade da frase em inglês (original) dada a frase em russo fornecida. De acordo com o teorema de Bayes, esta frase em russo é a tradução mais provável do inglês:

onde e é a frase de tradução e f é a frase original

Portanto, precisamos de um modelo de origem e um modelo de canal, ou um modelo de linguagem e um modelo de tradução. O modelo de idioma deve atribuir uma pontuação de probabilidade a qualquer frase no idioma de destino (no nosso caso, russo) e o modelo de tradução à frase original. (ver tabela 1)

Em geral, o sistema de tradução automática opera em dois modos:

1. Treinamento do sistema: um corpus de treinamento de textos paralelos é obtido e, usando programação linear, são procurados tais valores de tabelas de correspondência de tradução que maximizam a probabilidade de (por exemplo) a parte russa do corpus com o inglês disponível de acordo ao modelo de tradução selecionado. Um modelo da língua russa é construído na parte russa do mesmo corpus.

2. Exploração: com base nos dados obtidos para uma frase em inglês desconhecido, busca-se um russo que maximize o produto das probabilidades atribuídas pelo modelo de linguagem e pelo modelo de tradução. O programa usado para essa pesquisa é chamado de decodificador.

O modelo de tradução estatística mais simples é o modelo de tradução literal. Neste modelo, assume-se que para traduzir uma frase de um idioma para outro, basta traduzir todas as palavras (criar um “saco de palavras”), e o modelo providenciará sua colocação na ordem correta. P(a, f | e) para P(a | e, f), ou seja probabilidades de um dado alinhamento dado um par de sentenças, cada probabilidade P(a, f | e) é normalizada pela soma das probabilidades de todos os alinhamentos de um dado par de sentenças:

A implementação do algoritmo de Viterbi usado para treinar o Modelo #1 é a seguinte:

1. Toda a tabela de probabilidades de correspondência de tradução é preenchida com os mesmos valores.

2. Para todas as variantes possíveis de conexões de palavras em pares, a probabilidade P(a, f | e) é calculada:

3. Os valores de P(a, f | e) são normalizados para obter os valores de P(a | e, f).

4. A frequência de cada par de tradução é calculada, ponderada pela probabilidade de cada opção de alinhamento.

5. As frequências ponderadas resultantes são normalizadas e formam uma nova tabela de probabilidades de correspondência de tradução

6. O algoritmo é repetido a partir da etapa 2.

Considere, como exemplo, o treinamento de um modelo semelhante em um corpus de dois pares de sentenças (Fig. 2):

Casa Branca

Após um grande número de iterações, obteremos uma tabela (Tabela 2), que mostra que a tradução é realizada com alta precisão.

Além disso, os métodos estatísticos são amplamente utilizados no estudo do vocabulário, morfologia, sintaxe e estilo. Cientistas da Universidade Estadual de Perm realizaram um estudo baseado na afirmação de que as frases estereotipadas são um importante "material de construção" do texto. Essas frases consistem em palavras repetidas "nucleares" e especificadores de palavras dependentes e têm uma coloração estilística pronunciada.

No estilo científico, as palavras "nucleares" podem ser chamadas: pesquisa, estudo, tarefa, problema, questão, fenômeno, fato, observação, análise etc. No jornalismo, outras palavras serão “nucleares”, que têm um valor acrescido especificamente para o texto do jornal: tempo, pessoa, poder, negócios, ação, lei, vida, história, lugar etc. (total 29)

De particular interesse para os linguistas é também a diferenciação profissional da língua nacional, a peculiaridade do uso do vocabulário e da gramática, dependendo do tipo de ocupação. Sabe-se que os motoristas na fala profissional utilizam a forma w cerca de fer, os médicos dizem k cerca de clube em vez de coquetel Yu sh - tais exemplos podem ser dados. A tarefa da estatística é rastrear a variabilidade da pronúncia e a mudança na norma linguística.

As diferenças profissionais levam a diferenças não apenas gramaticais, mas também lexicais. Universidade Estadual de Yakut em homenagem M.K. Ammosov, foram analisados ​​50 questionários com as reações mais comuns a certas palavras entre médicos e construtores (Tabela 3).

Construtores

humano

paciente (10), personalidade (5)

homem (5)

Boa

ajuda (8), ajuda (7)

mal (16)

vida

morte (10)

adorável (5)

morte

cadáver (8)

vida (6)

o fogo

calor (8), queimar (6)

fogo (7)

dedo

mão (14), panarício (5)

grande (7), índice (6)

olhos

visão (6), aluno, oftalmologista (5 cada)

marrom (10), grande (6)

cabeça

mente (14), cérebro (5)

grande (9), inteligente (8), inteligente (6)

perder

consciência, vida (4 cada)

dinheiro (5), encontrar (4)

Nota-se que os médicos mais frequentemente do que os construtores fazem associações relacionadas à sua atividade profissional, uma vez que as palavras de estímulo dadas no questionário têm mais a ver com sua profissão do que com a profissão de construtor.

Regularidades estatísticas em um idioma são usadas para criar dicionários de frequência - dicionários que fornecem características numéricas da frequência de palavras (formas de palavras, frases) de qualquer idioma - o idioma do escritor, qualquer trabalho, etc. uma palavra é usada como uma característica da frequência de ocorrência de uma palavra no texto de um determinado volume

O modelo de percepção da fala é impossível sem um dicionário como seu componente essencial. Na percepção da fala, a unidade operacional básica é a palavra. Disso se segue, em particular, que cada palavra do texto percebido deve ser identificada com a unidade correspondente do vocabulário interno do ouvinte (ou leitor). É natural supor que desde o início a busca está limitada a alguns subdomínios do dicionário. De acordo com a maioria das teorias modernas de percepção da fala, a análise fonética real da sonoridade do texto em um caso típico fornece apenas algumas informações parciais sobre a possível aparência fonológica da palavra, e esse tipo de informação corresponde não a uma, mas a algumas MUITAS palavras. do dicionário; Assim, surgem dois problemas:

(a) selecionar o conjunto apropriado de acordo com certos parâmetros;

(b) dentro dos limites do conjunto delineado (se alocado adequadamente) para "eliminar" todas as palavras, exceto a única que melhor corresponde à palavra dada do texto reconhecido. Uma das estratégias de "abandono" é excluir palavras de baixa frequência. Segue-se que o vocabulário para percepção da fala é um dicionário de frequência. É a criação de uma versão para computador do dicionário de frequências da língua russa que é a tarefa inicial do projeto apresentado.

Com base no material do idioma russo, existem 5 dicionários de frequência (sem contar os dicionários de filiais). Observemos apenas algumas deficiências gerais dos dicionários existentes.

Todos os dicionários de frequência conhecidos do idioma russo são baseados no processamento de matrizes de textos escritos (impressos). Em parte por esse motivo, quando a identidade de uma palavra é amplamente baseada em coincidências formais e gráficas, a semântica não é suficientemente levada em consideração. Como resultado, as características de frequência também são deslocadas, distorcidas; por exemplo, se o compilador do dicionário de frequência inclui palavras da combinação "um ao outro" nas estatísticas gerais do uso da palavra "amigo", isso dificilmente se justifica: dada a semântica, devemos admitir que já são palavras diferentes, ou melhor, que uma unidade de dicionário independente é apenas a combinação como um todo.

Além disso, em todos os dicionários existentes, as palavras são colocadas apenas em suas formas básicas: substantivos no singular, caso nominativo, verbos no infinitivo etc. Alguns dos dicionários fornecem informações sobre a frequência das formas das palavras, mas geralmente não o fazem de forma consistente o suficiente, não de forma exaustiva. As frequências de diferentes formas de palavras da mesma palavra obviamente não coincidem. O desenvolvedor de um modelo de percepção de fala deve levar em conta que em um processo perceptivo real, é precisamente uma forma de palavra específica que está “imersa” no texto que está sujeita a reconhecimento: com base na análise da seção inicial do expoente da forma da palavra, um conjunto de palavras com início idêntico é formado, e a seção inicial da forma da palavra não é necessariamente idêntica à seção inicial da forma do dicionário. É a forma da palavra que possui uma estrutura rítmica específica, que também é um parâmetro extremamente importante para a seleção perceptiva das palavras. Por fim, na representação final do enunciado reconhecido, novamente, as palavras são representadas pelas formas de palavras correspondentes.

Existem muitos trabalhos que demonstram a importância da frequência no processo de percepção da fala. Mas não temos conhecimento de trabalhos em que a frequência das formas das palavras seria usada - ao contrário, todos os autores praticamente ignoram a frequência das formas das palavras individuais, referindo-se exclusivamente aos lexemas. Se os resultados obtidos por eles não forem considerados artefatos, deve-se supor que o falante nativo de alguma forma tem acesso a informações sobre a razão das frequências das formas das palavras e das formas do dicionário, ou seja, de fato, lexemas. Além disso, tal transição de uma forma de palavra para um lexema, é claro, não pode ser explicada pelo conhecimento natural do paradigma correspondente, pois a informação de frequência deve ser usada antes da identificação final da palavra, caso contrário ela simplesmente perde seu significado.

De acordo com as características estatísticas primárias, é possível determinar com um dado erro relativo aquela parte do dicionário, que inclui palavras com alta frequência de ocorrência, independentemente do tipo de texto. Também é possível, introduzindo ordenação gradual no dicionário, obter uma série de dicionários cobrindo as primeiras 100, 1000, 5000, etc. de palavras frequentes. As características estatísticas do dicionário são de interesse em relação à análise semântica do vocabulário. O estudo de grupos sujeito-ideológicos e campos semânticos mostra que as associações lexicais são sustentadas por ligações semânticas que se concentram em torno de lexemas de significado mais comum. A descrição de significados dentro do campo léxico-semântico pode ser realizada por meio da identificação de palavras com os lexemas mais abstratos em significado. Aparentemente, unidades de dicionário "vazias" (do ponto de vista das potências nominativas) constituem uma camada estatisticamente homogênea.

Vocabulários para gêneros individuais não são menos valiosos. Estudar a medida de sua similaridade e a natureza das distribuições estatísticas fornecerá informações interessantes sobre a estratificação qualitativa do vocabulário dependendo da esfera de uso da fala.

A compilação de dicionários de grande frequência requer o uso de tecnologia de computador. A introdução de mecanização parcial e automação no processo de trabalho em um dicionário é de interesse como um experimento no processamento de máquina de dicionários para diferentes textos. Tal dicionário requer um sistema mais rigoroso para processar e acumular material de vocabulário. Em miniatura, trata-se de um sistema de recuperação de informações capaz de fornecer informações sobre vários aspectos do texto e do vocabulário. Algumas solicitações básicas a este sistema são planejadas desde o início: o número total de palavras do inventário, as características estatísticas de uma palavra individual e dicionários inteiros, ordenação de zonas freqüentes e raras do dicionário, etc. construir automaticamente dicionários reversos para gêneros e fontes individuais. Muitas outras informações estatísticas úteis sobre o idioma serão extraídas do conjunto acumulado de informações. O dicionário de frequência do computador cria uma base experimental para a transição para uma automação mais ampla do trabalho de vocabulário.

Os dados estatísticos dos dicionários de frequência também podem ser amplamente utilizados na resolução de outros problemas linguísticos - por exemplo, na análise e determinação dos meios ativos de formação de palavras do idioma russo moderno, resolvendo problemas de melhoria de gráficos e ortografia, relacionados a levar em consideração conta informações estatísticas sobre o vocabulário (com tudo isso, é importante levar em conta características probabilísticas de combinações de grafemas, tipos de combinações de letras realizadas em palavras), transcrição prática e transliteração. Os parâmetros estatísticos do dicionário também serão úteis na resolução de problemas de automatização de digitação, reconhecimento e leitura automática de texto literal.

Dicionários explicativos modernos e gramáticas da língua russa são construídos principalmente com base em textos literários e artísticos. Existem dicionários de frequência da língua de A.S. Pushkin, A. S. Griboedova, F. M. Dostoiévski, V. V. Vysotsky e muitos outros autores. No Departamento de História e Teoria da Literatura do Estado de Smolensk. A Universidade Pedagógica trabalha há vários anos para compilar dicionários de frequência de textos poéticos e em prosa. Para este estudo, foram selecionados dicionários de frequência de todas as letras de Pushkin e mais dois poetas da idade de ouro - "Ai da sagacidade" de Griboyedov e toda a poesia de Lermontov; Pasternak e outros cinco poetas da Idade de Prata - Balmont 1894-1903, "Poems about the Beautiful Lady" de Blok, "Stone" de Mandelstam, "Pillar of Fire" de Gumilyov, "Anno Domini MCMXXI" de Akhmatova e "Sisters of My Life" de Pasternak e mais quatro poetas da Idade do Ferro - "Poems by Yuri Jivago", "When it clears up", todo o corpus de letras de M. Petrovs, "The road is far away", "Windshield", "Adeus à neve" e "Ferraduras" de Mezhirov, "Antimirov" de Voznesensky e "Snezhnitsy » Rylenkova.

Deve-se notar que esses dicionários são de natureza diferente: alguns representam o vocabulário de uma obra dramática, outros - livros de letras, ou vários livros, ou todo o corpus de poemas do poeta. Os resultados da análise apresentada neste artigo devem ser tomados com cautela, não podem ser tomados como absolutos. Ao mesmo tempo, com a ajuda de medidas especiais, a diferença na natureza ontológica dos textos pode ser reduzida até certo ponto.

Nos últimos anos, a oposição entre o discurso coloquial e o livro tornou-se cada vez mais clara. Essa questão é especialmente discutida entre os metodólogos que exigem uma guinada no ensino para a língua falada. Ao mesmo tempo, a especificidade do discurso coloquial ainda permanece inexplicada.

Os dicionários foram processados ​​através da criação de um aplicativo de usuário no ambiente do programa EXCEL97 office. O aplicativo inclui quatro planilhas do livro EXCEL - "Folha de Título", "Folha de Dicionários" com dados iniciais, "Proximidade" e "Distâncias" com resultados, além de um conjunto de macros.

As informações iniciais são inseridas na folha "Dicionários". Nas células do EXCEL são escritos os dicionários dos textos estudados, a última coluna S é formada a partir dos resultados obtidos e é igual ao número de palavras encontradas em outros dicionários. As tabelas "Proximidade" e "Distâncias" contêm medidas calculadas de proximidade M, correlação R e distância D.

Macros de aplicativo são procedimentos de programação baseados em eventos escritos em Visual Basic for Application (VBA). Os procedimentos são baseados em objetos de biblioteca VBA e seus métodos de processamento. Assim, para operações com planilhas do aplicativo, são utilizados o objeto-chave Planilha (planilha) e o método correspondente de ativação da planilha Ativar (ativar). A configuração do intervalo dos dados de origem analisados ​​na planilha Dicionário é realizada pelo método Select do objeto Range (range), e a transferência de palavras como valores para variáveis ​​é realizada conforme a propriedade Value (valor) do mesmo Range objeto.

Apesar do fato de que a análise de correlação de posto nos torna cautelosos sobre a dependência de tópicos entre diferentes textos, a maioria das palavras mais frequentes em cada texto tem correspondências em um ou mais outros textos. A coluna S mostra o número de tais palavras entre as 15 palavras mais frequentes para cada autor. Palavras em negrito aparecem apenas nas palavras de um poeta em nossa tabela. Blok, Akhmatova e Petrovs não têm nenhuma palavra destacada, eles têm S = 15. Esses três poetas têm as mesmas 15 palavras mais frequentes, diferem apenas no local da lista. Mas mesmo Pushkin, cujo vocabulário é o mais original, tem S = 8, e há 7 palavras destacadas.

Os resultados mostram que existe uma certa camada de vocabulário que concentra os principais temas da poesia. Como regra, essas palavras são curtas: do número total (225) de usos de palavras de uma sílaba 88, duas sílabas 127, três sílabas 10. Muitas vezes, essas palavras representam os principais mitologemas e podem se formar em pares: noite - dia, terra - céu (sol), Deus - homem (pessoas), vida - morte, corpo - alma, Roma - mundo(em Mandelstam); podem ser combinados em mitologemas de nível superior: céu, estrela, sol, terra; em uma pessoa, como regra, o corpo, coração, sangue, braço, perna, bochecha, olhos se destacam. Dos estados humanos, a preferência é dada ao sono e ao amor. A casa e as cidades pertencem ao mundo humano - Moscou, Roma, Paris. A criatividade é representada por lexemas palavra e música.

Griboedov e Lermontov quase não têm palavras que denotam natureza entre as palavras mais frequentes. Eles têm três vezes mais palavras que denotam uma pessoa, partes de seu corpo, elementos de seu mundo espiritual. Pushkin e poetas do século XX. designações de homem e natureza são aproximadamente iguais. Neste aspecto importante do assunto, podemos dizer que o século XX. seguiu Pushkin.

Tema mínimo um negócio entre as palavras mais frequentes, encontra-se apenas em Griboyedov e Pushkin. Lermontov e poetas do século XX. dá lugar a um tema mínimo palavra. A palavra não exclui os atos (interpretação bíblica do tema: no Novo Testamento, todos os ensinamentos de Jesus Cristo são considerados como a palavra de Deus ou a palavra de Jesus, e os apóstolos às vezes se autodenominam ministros da Palavra). O significado sagrado da palavra lexema é manifestado de forma convincente, por exemplo, no verso de Pasternak "E a imagem do mundo, revelada na Palavra". O significado sagrado do lexema palavra em conjunto e em contraste com os assuntos humanos, é convincentemente manifestado no poema de mesmo nome de Gumilyov.

Tokens encontrados em apenas um texto caracterizam a originalidade de um determinado livro ou de uma coleção de livros. Por exemplo, a palavra "mente" é a mais frequente na comédia de Griboedov "Ai do Wit" - mas não ocorre entre as palavras de frequência de outros textos. O tema da mente é de longe o mais significativo na comédia. Este lexema acompanha a imagem de Chatsky, sendo o nome de Chatsky o mais frequente na comédia. Assim, a obra combina organicamente o nome comum mais frequente com o nome próprio mais frequente.

O coeficiente de correlação mais alto conecta os temas dos livros trágicos "A Coluna de Fogo" de Gumilyov e "Anno Domini MCMXXI" de Akhmatova. Entre os 15 substantivos mais frequentes, há 10 comuns, incluindo sangue, coração, alma, amor, palavra, céu. Lembre-se de que o livro de Akhmatova incluía uma miniatura "Você não estará vivo ...", escrito entre a prisão de Gumilyov e sua execução.

Os temas da vela e da multidão no material estudado são encontrados apenas nos "Poemas de Yuri Zhivago". O tema da vela nos versos do romance tem muitos significados contextuais: está associado à imagem de Jesus Cristo, aos temas da fé, imortalidade, criatividade, namoro. A vela é a fonte de luz mais importante nas cenas centrais do romance. O tema da multidão se desenvolve em conexão com a ideia principal do romance, na qual a vida privada de uma pessoa com seus valores inabaláveis ​​se opõe à imoralidade do novo estado, construído sobre os princípios de agradar a multidão .

O trabalho também envolve a terceira etapa, também refletida no programa - este é o cálculo da diferença entre os números ordinais de palavras comuns a dois dicionários e a distância média entre as mesmas palavras de dois dicionários. Esta etapa permite passar das tendências gerais na interação dos dicionários identificadas com a ajuda da estatística para um nível que se aproxima do texto. Por exemplo, os livros de Gumilyov e Akhmatova se correlacionam estatisticamente significativamente. Observamos quais palavras se tornaram comuns em seus dicionários e, em primeiro lugar, escolhemos aquelas cujos números de série diferem minimamente ou iguais a zero. São essas palavras que têm o mesmo número de classificação e, consequentemente, são esses temas mínimos nas mentes dos dois poetas que são igualmente importantes. Em seguida, você deve passar para o nível de textos e contextos.

Os métodos quantitativos também ajudam a estudar as características dos povos - falantes nativos. Digamos, existem 6 casos em russo, não há casos em inglês e, em alguns idiomas dos povos do Daguestão, o número de casos chega a 40. L. Perlovsky em seu artigo “Consciousness, Language and Culture” correlaciona esses características com a tendência dos povos ao individualismo ou coletivismo, com percepção das coisas e fenômenos separadamente ou em conexão com outros. Afinal, foi no mundo de língua inglesa (não há casos - a coisa é percebida “por si mesma”) que surgiram conceitos como liberdade individual, liberalismo e democracia (observo que uso esses conceitos apenas em conexão com o linguagem, sem quaisquer características avaliativas). Apesar do fato de que tais suposições ainda permanecem apenas no nível de hipóteses científicas ousadas, elas ajudam a olhar para fenômenos já familiares de uma nova maneira.

Como podemos ver, as características quantitativas podem ser aplicadas em áreas completamente diferentes da linguística, o que cada vez mais borra as fronteiras entre métodos "exatos" e "humanitários". A linguística está recorrendo cada vez mais à ajuda não apenas da matemática, mas também da tecnologia computacional para resolver seus problemas.

2.3 Aprendizagem Ilinguagem por métodos de lógica formal

Com os métodos não quantitativos da matemática, em particular com a lógica, a linguística teórica moderna interage não menos frutífera do que com os quantitativos. O rápido desenvolvimento das tecnologias computacionais e o crescimento de seu papel no mundo moderno exigiram uma revisão da abordagem da interação da linguagem e da lógica em geral.

Os métodos da lógica são amplamente utilizados no desenvolvimento de linguagens formalizadas, em particular, linguagens de programação, cujos elementos são alguns símbolos (semelhantes à matemática), escolhidos (ou construídos a partir de símbolos previamente selecionados) e interpretados de uma certa maneira, relacionados a qualquer uso, compreensão e compreensão "tradicionais" dos mesmos símbolos em outros contextos. Um programador lida constantemente com a lógica em seu trabalho. O significado de programação é apenas ensinar o computador a raciocinar (no sentido mais amplo da palavra). Ao mesmo tempo, os métodos de "raciocínio" são muito diferentes. Todo programador gasta uma certa quantidade de tempo procurando bugs em seus próprios programas e nos programas de outras pessoas. Ou seja, procurar erros no raciocínio, na lógica. E isso também deixa sua marca. É muito mais fácil detectar erros lógicos na fala comum. A relativa simplicidade das línguas estudadas pelos lógicos permite que eles elucidem as estruturas dessas línguas com mais clareza do que é alcançável por linguistas que analisam exclusivamente línguas naturais complexas. Tendo em vista que as línguas estudadas pelos lógicos usam relações copiadas das línguas naturais, os lógicos são capazes de fazer contribuições significativas para a teoria geral da linguagem. A situação aqui é semelhante à que ocorre na física: o físico também formula teoremas para casos idealmente simplificados que não ocorrem na natureza - ele formula leis para gases ideais, líquidos ideais, fala sobre movimento na ausência de atrito, etc. Para esses casos idealizados, podem ser estabelecidas leis simples que muito contribuiriam para a compreensão do que realmente acontece e do que provavelmente permaneceria desconhecido para a física se tentasse considerar a realidade diretamente, em toda a sua complexidade.

No estudo das línguas naturais, os métodos lógicos são usados ​​para que os aprendizes da língua não possam “memorizar” estupidamente o maior número possível de palavras, mas compreendam melhor sua estrutura. L. Shcherba também usou em suas palestras um exemplo de uma frase construída de acordo com as leis da língua russa: “O brilhante kuzdra shteko boked o bokra e enrola o bokra”, e então perguntou aos alunos o que isso significava. Apesar de o significado das palavras na frase permanecer obscuro (elas simplesmente não existem em russo), foi possível responder claramente: “kuzdra” é o sujeito, um substantivo feminino, no caso nominativo singular, “ bokr” é animado, e etc. A tradução da frase acaba por ser algo assim: “Algo feminino de uma só vez fez algo sobre algum tipo de criatura masculina e depois começou a fazer algo assim por um longo e gradual com seu filhote”. Um exemplo semelhante de um texto (artístico) a partir de palavras inexistentes, construído inteiramente de acordo com as leis da linguagem, é o Jabberwock de Lewis Carroll (em Alice no País das Maravilhas, Carroll, pela boca de seu personagem Humpty Dumpty, explica o significado de as palavras que ele inventou: "cozido" - oito horas da noite, quando é hora de preparar o jantar, "chlivky" - frágil e hábil, "shorek" - um cruzamento entre um furão, um texugo e um saca-rolhas, "mergulho " - pular, mergulhar, girar, "nava" - grama sob o relógio de sol (se estende um pouco para a direita, um pouco para a esquerda e um pouco para trás), "grunhir" - grunhir e rir, "zelyuk" - um peru verde, “myumzik” - um pássaro; suas penas estão desgrenhadas e se projetam em todas as direções, como uma vassoura, “mova” - longe de casa) .

Um dos principais conceitos da lógica moderna e da linguística teórica, usado no estudo de línguas de vários cálculos lógico-matemáticos, línguas naturais, para descrever a relação entre línguas de diferentes "níveis" e caracterizar a relação entre os línguas em consideração e as áreas temáticas descritas com sua ajuda, é o conceito de metalinguagem. Uma metalinguagem é uma linguagem usada para expressar julgamentos sobre outra linguagem, a linguagem-objeto. Com a ajuda de uma metalinguagem, eles estudam a estrutura das combinações de caracteres (expressões) da linguagem-objeto, provam teoremas sobre suas propriedades expressivas, sobre sua relação com outras linguagens etc. relação a essa metalinguagem. Tanto a linguagem de assunto quanto a metalinguagem podem ser linguagens comuns (naturais). A metalinguagem pode diferir da linguagem objeto (por exemplo, em um livro didático de inglês para russos, russo é a metalinguagem e inglês é a linguagem objeto), mas também pode coincidir com ela ou diferir apenas parcialmente, por exemplo, em terminologia especial (A terminologia linguística russa é um elemento da metalinguagem para descrever a língua russa, os chamados fatores semânticos fazem parte da metalinguagem para descrever a semântica das línguas naturais).

O conceito de "metalinguagem" tornou-se muito frutífero em conexão com o estudo de linguagens formalizadas que são construídas no âmbito da lógica matemática. Ao contrário das linguagens de assunto formalizadas, neste caso a metalinguagem, por meio da qual a metateoria é formulada (estudando as propriedades da teoria do sujeito formulada na linguagem de assunto), é, via de regra, uma linguagem natural ordinária, de alguma forma especial um fragmento limitado de uma linguagem natural que não contém nenhum tipo de ambiguidade, metáforas, conceitos "metafísicos", etc. elementos da linguagem comum que impedem seu uso como ferramenta para pesquisas científicas precisas. Ao mesmo tempo, a própria metalinguagem pode ser formalizada e (independentemente disso) tornar-se objeto de pesquisas realizadas por meio da metametalinguagem, e tal série pode ser “pensada” como crescendo indefinidamente.

A lógica nos ensina uma distinção frutífera entre a linguagem-objeto e a metalinguagem. A linguagem-objeto é o próprio objeto da pesquisa lógica, e a metalinguagem é aquela linguagem inevitavelmente artificial na qual tal pesquisa é conduzida. O pensamento lógico consiste apenas em formular as relações e a estrutura de uma linguagem real (linguagem objeto) na linguagem dos símbolos (metalinguagem).

A metalinguagem deve, em todo caso, ser “não mais pobre” do que sua linguagem objetiva (ou seja, para cada expressão desta última na metalinguagem deve haver seu nome, “tradução”) - caso contrário, se esses requisitos não forem atendidos (o que certamente ocorre em línguas naturais, se acordos especiais não estabelecem o contrário) surgem paradoxos semânticos (antinomias).

À medida que mais e mais novas linguagens de programação foram criadas, em conexão com o problema dos tradutores de programação, havia uma necessidade urgente de criar metalinguagens. Atualmente, a metalinguagem da forma Backus-Naur (abreviada como BNF) é a mais comumente usada para descrever a sintaxe das linguagens de programação. É uma forma compacta na forma de algumas fórmulas semelhantes às matemáticas. Para cada conceito da linguagem existe uma metafórmula única (fórmula normal). Consiste em partes esquerda e direita. O lado esquerdo especifica o conceito que está sendo definido e o lado direito especifica o conjunto de construções de linguagem admissíveis que são combinadas nesse conceito. A fórmula usa metacaracteres especiais na forma de colchetes angulares, que contêm o conceito definido (no lado esquerdo da fórmula) ou um conceito previamente definido (no lado direito), e a separação das partes esquerda e direita é indicada por o metacaractere "::=", cujo significado é equivalente às palavras "por definição existe". As fórmulas metalinguísticas são incorporadas aos tradutores de alguma forma; com a ajuda deles, as construções usadas pelo programador são verificadas quanto à conformidade formal com qualquer uma das construções que são sintaticamente válidas nessa linguagem. Existem também metalinguagens separadas de várias ciências - assim, o conhecimento existe na forma de várias metalinguagens.

Os métodos lógicos também serviram de base para a criação de sistemas de inteligência artificial baseados no conceito de conexionismo. O conexionismo é uma tendência especial na ciência filosófica, cujo assunto são questões de conhecimento. Dentro da estrutura dessa tendência, estão sendo feitas tentativas para explicar as habilidades intelectuais de uma pessoa usando redes neurais artificiais. Compostas por um grande número de unidades estruturais semelhantes aos neurônios, com um peso atribuído a cada elemento que determina a força da conexão com outros elementos, as redes neurais são modelos simplificados do cérebro humano. Experimentos com redes neurais desse tipo demonstraram sua capacidade de aprender a realizar tarefas como reconhecimento de padrões, leitura e identificação de estruturas gramaticais simples.

Os filósofos começaram a se interessar pelo conexionismo, pois a abordagem conexionista prometia fornecer uma alternativa à teoria clássica da mente e à ideia amplamente difundida dentro dessa teoria de que o funcionamento da mente é semelhante ao processamento da linguagem simbólica por um sistema digital. computador. Este conceito é muito controverso, mas nos últimos anos tem encontrado cada vez mais adeptos.

O estudo lógico da linguagem continua o conceito de linguagem como sistema de Saussure. O fato de que ela continua constantemente confirma mais uma vez a ousadia das conjecturas científicas do início do século passado. Dedicarei a última seção do meu trabalho às perspectivas para o desenvolvimento de métodos matemáticos na linguística hoje.

2.4 Perspectivas para a aplicação de métodos matemáticos em linguística

Na era da informática, os métodos da linguística matemática receberam uma nova perspectiva de desenvolvimento. A procura de soluções para os problemas da análise linguística está agora a ser cada vez mais implementada ao nível dos sistemas de informação. Ao mesmo tempo, a automatização do processo de tratamento do material linguístico, proporcionando ao investigador oportunidades e vantagens significativas, impõe-lhe inevitavelmente novas exigências e tarefas.

A combinação de conhecimento "exato" e "humanitário" tornou-se terreno fértil para novas descobertas no campo da linguística, informática e filosofia.

A tradução automática de um idioma para outro continua sendo um ramo da tecnologia da informação em rápido crescimento. Apesar do fato de que a tradução assistida por computador nunca pode ser comparada em qualidade à tradução humana (especialmente para textos literários), a máquina tornou-se um assistente indispensável para uma pessoa na tradução de grandes volumes de texto. Acredita-se que em um futuro próximo serão criados sistemas de tradução mais avançados, baseados principalmente na análise semântica do texto.

Uma área igualmente promissora é a interação da linguística e da lógica, que serve como base filosófica para a compreensão da tecnologia da informação e da chamada "realidade virtual". Em um futuro próximo, o trabalho continuará na criação de sistemas de inteligência artificial - embora, novamente, nunca seja igual ao humano em suas capacidades. Tal competição não tem sentido: em nosso tempo, a máquina deveria se tornar (e se torna) não uma rival, mas uma assistente do homem, não algo do reino da fantasia, mas parte do mundo real.

O estudo da língua por métodos estatísticos continua, o que permite determinar com mais precisão suas propriedades qualitativas. É importante que as hipóteses mais ousadas sobre a linguagem encontrem sua prova matemática e, portanto, lógica.

O mais significativo é que vários ramos da aplicação da matemática na linguística, antes bastante isolados, nos últimos anos foram correlacionados entre si, conectando-se em um sistema coerente, por analogia com o sistema linguístico descoberto há um século por Ferdinand de Saussure e Yvan Baudouin de Courtenay. Esta é a continuidade do conhecimento científico.

A linguística no mundo moderno tornou-se a base para o desenvolvimento da tecnologia da informação. Enquanto a ciência da computação continuar sendo um ramo da atividade humana em rápido desenvolvimento, a união da matemática e da linguística continuará a desempenhar seu papel no desenvolvimento da ciência.

Conclusão

Ao longo do século 20, as tecnologias de computador percorreram um longo caminho - do uso militar ao uso pacífico, de uma faixa estreita de objetivos à penetração em todos os ramos da vida humana. A matemática como ciência encontrou um significado prático sempre novo com o desenvolvimento da tecnologia da computação. Este processo continua até hoje.

O anteriormente impensável "tandem" de "físicos" e "letristas" tornou-se uma realidade. Para a plena interação da matemática e da informática com as humanidades, eram necessários especialistas qualificados de ambos os lados. Enquanto os cientistas da computação precisam cada vez mais de conhecimentos humanitários sistemáticos (linguísticos, culturais, filosóficos) para compreender as mudanças na realidade ao seu redor, na interação do homem e da tecnologia, desenvolver cada vez mais novos conceitos linguísticos e mentais, escrever programas, então qualquer "Humanidades" em nosso tempo para seu crescimento profissional deve dominar pelo menos o básico de trabalhar com um computador.

A matemática, estando intimamente interligada com a informática, continua a desenvolver-se e a interagir com as ciências naturais e as humanidades. No novo século, a tendência para a matematização da ciência não está enfraquecendo, mas, ao contrário, está aumentando. Com base em dados quantitativos, são compreendidas as leis do desenvolvimento da língua, suas características históricas e filosóficas.

O formalismo matemático é mais adequado para descrever padrões em linguística (como, de fato, em outras ciências - tanto as humanas quanto as naturais). A situação às vezes se desenvolve na ciência de tal maneira que, sem o uso de uma linguagem matemática apropriada, é impossível entender a natureza física, química etc. processo não é possível. Criando um modelo planetário do átomo, o famoso físico inglês do século XX. E. Rutherford experimentou dificuldades matemáticas. A princípio, sua teoria não foi aceita: não parecia convincente, e a razão para isso foi o desconhecimento de Rutherford da teoria da probabilidade, com base no mecanismo do qual só foi possível entender a representação modelo das interações atômicas. Percebendo isso, já naquela época um destacado cientista, dono do Prêmio Nobel, matriculou-se no seminário do matemático Professor Lamb e durante dois anos, junto com os alunos, participou de um curso e realizou um workshop sobre a teoria das probabilidades . Com base nele, Rutherford foi capaz de descrever o comportamento do elétron, dando ao seu modelo estrutural uma precisão convincente e ganhando reconhecimento. O mesmo acontece com a linguística.

Isso levanta a questão: o que há de tão matemático nos fenômenos objetivos, graças aos quais eles podem ser descritos na linguagem da matemática, na linguagem das características quantitativas? São unidades homogêneas de matéria distribuídas no espaço e no tempo. Aquelas ciências que foram mais longe do que outras no isolamento da homogeneidade e se revelam mais adequadas para o uso da matemática nelas.

A Internet, que se desenvolveu rapidamente na década de 1990, reuniu representantes de vários países, povos e culturas. Apesar de o inglês continuar sendo a principal língua de comunicação internacional, a Internet tornou-se multilíngue em nosso tempo. Isso levou ao desenvolvimento de sistemas de tradução automática comercialmente bem-sucedidos que são amplamente utilizados em vários campos da atividade humana.

As redes de computadores tornaram-se objeto de reflexão filosófica - cada vez mais novos conceitos linguísticos, lógicos, de visão de mundo têm sido criados que ajudam a entender a "realidade virtual". Em muitas obras de arte, foram criados cenários - mais frequentemente pessimistas - sobre o domínio das máquinas sobre uma pessoa e a realidade virtual - sobre o mundo exterior. Longe de sempre, tais previsões acabaram sendo sem sentido. A tecnologia da informação não é apenas uma indústria promissora para investir o conhecimento humano, é também uma forma de controlar a informação e, consequentemente, sobre o pensamento humano.

Este fenômeno tem um lado negativo e um lado positivo. Negativo - porque o controle sobre a informação é contrário ao direito humano inalienável de livre acesso a ela. Positivo - porque a falta desse controle pode levar a consequências catastróficas para a humanidade. Basta lembrar um dos filmes mais sábios da última década - "Quando o mundo acabar", de Wim Wenders, cujos personagens estão completamente imersos na "realidade virtual" de seus próprios sonhos gravados em um computador. Ao mesmo tempo, nem um único cientista e nem um único artista pode dar uma resposta inequívoca à pergunta: o que espera a ciência e a tecnologia no futuro.

Focar no "futuro", às vezes parecendo fantástico, era uma característica distintiva da ciência em meados do século XX, quando os inventores procuravam criar modelos perfeitos de tecnologia que pudessem funcionar sem intervenção humana. O tempo mostrou a natureza utópica de tal pesquisa. Ao mesmo tempo, seria supérfluo condenar os cientistas por isso - sem seu entusiasmo nos anos 1950-60, a tecnologia da informação não teria dado um salto tão poderoso nos anos 90, e não teríamos o que temos agora.

As últimas décadas do século XX mudaram as prioridades da ciência - a pesquisa, o pathos inventivo deu lugar ao interesse comercial. Novamente, isso não é bom nem ruim. Esta é uma realidade em que a ciência está cada vez mais integrada na vida quotidiana.

O século 21 deu continuidade a essa tendência e, em nosso tempo, as invenções não são apenas fama e reconhecimento, mas, antes de tudo, dinheiro. É também por isso que é importante garantir que as últimas conquistas da ciência e da tecnologia não caiam nas mãos de grupos terroristas ou regimes ditatoriais. A tarefa é difícil ao ponto da impossibilidade; realizá-lo tanto quanto possível é tarefa de toda a comunidade mundial.

A informação é uma arma, e as armas não são menos perigosas do que as armas nucleares ou químicas - só que não agem fisicamente, mas psicologicamente. A humanidade precisa pensar no que é mais importante para ela neste caso - liberdade ou controle.

Os mais recentes conceitos filosóficos relacionados ao desenvolvimento das tecnologias da informação e a tentativa de compreendê-los mostraram as limitações tanto do materialismo das ciências naturais, que dominou durante o século XIX e início do século XX, quanto do idealismo extremo, que nega o significado do mundo material . É importante para o pensamento moderno, especialmente o pensamento ocidental, superar esse dualismo de pensamento, quando o mundo circundante é claramente dividido em material e ideal. O caminho para isso é um diálogo de culturas, uma comparação de diferentes pontos de vista sobre os fenômenos circundantes.

Paradoxalmente, a tecnologia da informação pode desempenhar um papel importante nesse processo. As redes de computadores, e especialmente a Internet, não são apenas um recurso de entretenimento e atividade comercial vigorosa, mas também um meio de comunicação significativo e controverso entre representantes de várias civilizações do mundo moderno, bem como de diálogo entre o passado e o o presente. Podemos dizer que a Internet ultrapassa as fronteiras espaciais e temporais.

E no diálogo das culturas por meio da tecnologia da informação, o papel da linguagem como o mais antigo meio de comunicação universal ainda é importante. É por isso que a linguística, em interação com a matemática, filosofia e ciência da computação, experimentou seu segundo nascimento e continua a se desenvolver hoje. A tendência do presente continuará no futuro - "até o fim do mundo", como há 15 anos, o mesmo V. Wenders previu. É verdade que não se sabe quando esse fim ocorrerá - mas é importante agora, porque o futuro mais cedo ou mais tarde se tornará o presente de qualquer maneira.

Anexo 1

Fernando de Saussure

O linguista suíço Ferdinand de Saussure (1857-1913) é amplamente considerado o fundador da linguística moderna em suas tentativas de descrever a estrutura da linguagem em vez da história de línguas e formas de linguagem particulares. De fato, o método do Estruturalismo nos estudos linguísticos e literários e um ramo significativo da Semiótica encontram seu principal ponto de partida em sua obra na virada do século XX. Argumentou-se mesmo que o complexo de estratégias e concepções que veio a ser chamado de "pós-estruturalismo" - o trabalho de Jacques Derrida, Michel Foucault, Jacques Lacan, Julia Kristeva, Roland Barthes e outros - é sugerido pela obra de Saussure na linguística e nas leituras anagramáticas da poesia latina tardia, do modernismo literário à psicanálise e à filosofia no início do século XX. Como argumentam Algirdas Julien Greimas e Joseph Courtes em Semiotics and Language: An Analytic Dictionary, sob o título "Interpretação", surgiu no início do século XX um novo modo de interpretação que eles identificam com a linguística saussureana, a fenomenologia husserliana e a psicanálise freudiana. Nesse modo, "a interpretação não é mais uma questão de atribuir um conteúdo dado a uma forma que de outra forma não teria, mas uma paráfrase que formula de outra maneira o conteúdo equivalente de um elemento significante dentro de um sistema semiótico dado" (p. 159). nesta compreensão de "interpretação", forma e conteúdo não são distintos; ao contrário, toda "forma" é, alternativamente, também um "conteúdo" semântico, uma "forma significante", de modo que a interpretação oferece uma paráfrase analógica de algo que já significa dentro de algum outro sistema de significação.

Tal reinterpretação da forma e da compreensão - que Claude Lévi-Strauss descreve em uma de suas articulações mais programáticas do conceito de estruturalismo, em "Estrutura e forma: reflexões sobre uma obra de Vladimir Propp" - está implícita no Curso póstumo de Saussure em General Linguistics (1916, trad., 1959, 1983). Em sua vida, Saussure publicou relativamente pouco, e sua principal obra, o Curso, foi a transcrição por seus alunos de vários cursos de linguística geral que ele ofereceu em 1907-11. No Curso, Saussure pediu o estudo "científico" da linguagem em oposição ao trabalho em linguística histórica que havia sido feito no século XIX. Esse trabalho é uma das grandes conquistas do intelecto ocidental: tomar palavras particulares como os blocos de construção de linguagem, a linguística histórica (ou "diacrônica") traçou a origem e o desenvolvimento das línguas ocidentais a partir de uma fonte de linguagem comum putativa, primeiro uma língua "indo-europeia" e depois uma "p" anterior língua roto-indo-europeia".

É precisamente este estudo das ocorrências únicas de palavras, com a suposição concomitante de que a "unidade" básica da linguagem é, de fato, a existência positiva desses "elementos-palavra", que Saussure questionou. Seu trabalho foi uma tentativa de reduzir a massa de fatos sobre a linguagem, estudados tão minuciosamente pela linguística histórica, a um número gerenciável de proposições. A "escola comparada" da Filologia do século XIX, diz Saussure no Curso, "não conseguiu estabelecer a verdadeira ciência da linguística" porque "não conseguiu descobrir a natureza de seu objeto de estudo" (3). Essa "natureza", argumenta ele, deve ser encontrada não apenas nas palavras "elementares" que uma linguagem compreende - os aparentes fatos "positivos" (ou "substâncias") da linguagem - mas nas relações formais que dão origem a esses fatos. "substâncias".

O reexame sistemático da linguagem por Saussure baseia-se em três pressupostos. O primeiro é que o estudo científico da linguagem precisa desenvolver e estudar o sistema e não a história dos fenômenos linguísticos. seus "eventos de fala" particulares, que ele designa como parole - e o objeto próprio da linguística, o sistema (ou "código") que governa esses eventos, que ele designa como langue. concepção sincrônica" da relação entre os elementos da linguagem em um determinado instante, em vez do estudo "diacrônico" do desenvolvimento da linguagem ao longo da história.

Essa suposição deu origem ao que Roman Jakobson em 1929 veio a designar como "estruturalismo", no qual "qualquer conjunto de fenômenos examinados pela ciência contemporânea é tratado não como uma aglomeração mecânica, mas como um todo estrutural, a concepção mecânica de processos cede à questão da sua função" ("Romântico" 711). Nesta passagem, Jakobson está articulando a intenção de Saussure de definir a linguística como um sistema científico em oposição a uma simples contabilidade "mecânica" de acidentes históricos. agora chamá-lo de "estrutural" - linguística: que os elementos básicos da linguagem só podem ser estudados em relação às suas funções e não em relação às suas causas. em que se relacionam com outros chamados eventos e entidades. Trata-se de uma reorientação radical na concepção da experiência e dos fenômenos, cuja importância o filósofo Ernst Cassirer comparou "à nova ciência de Galileu que no século XVII mudou toda a nossa conceito do mundo físico" (citado em Culler, Pursuit 2 quatro). Essa mudança, como observam Greimas e Courtes, reconcebe a "interpretação" e, portanto, reconcebe a explicação e a compreensão em si. Em vez de a explicação "ser em termos das causas de um fenômeno", de modo que, como "efeito", está de alguma forma subordinada às suas causas, a explicação aqui consiste em subordinar um fenômeno à sua "função" orientada para o futuro ou "propósito." A explicação não é mais independente das intenções ou propósitos humanos (mesmo que essas intenções possam ser impessoais, comunitárias ou, em termos freudianos, "inconscientes").

Em sua linguística, Saussure realiza essa transformação especificamente na redefinição da "palavra" linguística, que ele descreve como o "signo" linguístico e define em termos funcionalistas. O signo, ele argumenta, é a união de "um conceito e uma imagem sonora", que ele chamou de "significado e significante" (66-67; a tradução de Roy Harris de 1983 oferece os termos "significação" e "sinal"). A natureza de sua "combinação" é "funcional" na medida em que nem o significado nem o significante são a "causa" do outro, mas "cada um seus valores do outro" (8). elemento da linguagem, o signo , relacionalmente e faz a suposição básica da linguística histórica, a saber, a identidade das unidades elementares de linguagem e significação (ou seja, "palavras"), sujeita a análise rigorosa. a palavra "árvore" como a "mesma" palavra não é porque a palavra é definida por qualidades inerentes - não é uma "aglomeração mecânica" de tais qualidades - mas porque é definida como um elemento de um sistema, o "todo estrutural" da linguagem.

Tal definição relacional (ou "diacrítica") de uma entidade governa a concepção de todos os elementos da linguagem na linguística estrutural. Isso fica mais claro na realização mais impressionante da linguística saussureana, o desenvolvimento dos conceitos de "fonemas" e "características distintivas" da linguagem. Os fonemas são as menores unidades articuladas e significantes de uma língua. Não são os sons que ocorrem na linguagem, mas as "imagens sonoras" mencionadas por Saussure, que são apreendidas pelos falantes - fenomenalmente apreendidas - como portadoras de significado. (Assim, Elmar Holenstein descreve a linguística de Jakobson, que segue Saussure de maneiras importantes, como "estruturalismo fenomenológico".) . . é uma realidade fenomenológica e não empírica; não é a obra em si, mas um conjunto de relações funcionais que estão localizadas na consciência de um coletivo (geração, meio, etc.)" (citado em Galan 35). Da mesma forma, Lévi-Strauss, o principal porta-voz do estruturalismo francês , observou em 1960 que "a estrutura não tem conteúdo distinto; ela é o próprio conteúdo, e a organização lógica na qual ela está presa é concebida como uma propriedade do real" (167; ver também Jakobson, Fundamentals 27-28).

Os fonemas, portanto, os menores elementos perceptíveis da linguagem, não são objetos positivos, mas uma "realidade fenomenológica". Em inglês, por exemplo, o fonema /t/ pode ser pronunciado de muitas maneiras diferentes, mas em todos os casos um falante de inglês o reconhecerá como funcionando como um /t/. Um t aspirado (ou seja, um t pronunciado com uma respiração semelhante a h depois dele), um som t agudo ou grave, um som t estendido e assim por diante, todos funcionarão da mesma maneira para distinguir o significado de "to" e "do" em inglês. Além disso, as diferenças entre as línguas são tais que variações fonológicas em uma língua podem constituir fonemas distintos em outra; assim, o inglês distingue entre /l/ e /r/, enquanto outras línguas são tão estruturadas que essas articulações são consideradas variações do mesmo fonema (como o t aspirado e não aspirado em inglês). Em toda língua natural, o grande número de palavras possíveis é uma combinação de um pequeno número de fonemas. O inglês, por exemplo, possui menos de 40 fonemas que se combinam para formar mais de um milhão de palavras diferentes.

Os próprios fonemas da linguagem são estruturas de traços sistematicamente organizadas. Nas décadas de 1920 e 1930, seguindo o exemplo de Saussure, Jakobson e N. S. Trubetzkoy isolaram as "características distintivas" dos fonemas. Essas características são baseadas na estrutura fisiológica dos órgãos da fala - língua, dentes, cordas vocais, etc. Saussure menciona no Curso e que Harris descreve como "fonética fisiológica" (39; a tradução anterior de Baskin usa o termo "fonologia" [(1959) 38]) - e eles se combinam em "pacotes" de oposições binárias para formar fonemas. Por exemplo, em inglês a diferença entre /t/ e /d/ é a presença ou ausência de "voz" (o engajamento das cordas vocais), e no nível de vozeamento esses fonemas se definem reciprocamente. Dessa forma, a fonologia é um exemplo específico de uma regra geral da linguagem descrita por Saussure: Na linguagem existem apenas diferenças. ainda mais importante: uma diferença geralmente implica termos positivos entre os quais a diferença é estabelecida; mas na linguagem há apenas diferenças sem termos positivos. Quer tomemos o significado ou o significante, a linguagem não tem ideias nem sons que existiam antes do sistema linguístico. (120)

Nessa estrutura, as identidades linguísticas são determinadas não por qualidades inerentes, mas por relações sistêmicas ("estruturais").

Eu disse que a fonologia "seguiu o exemplo" de Saussure, porque embora sua análise da fisiologia da produção da linguagem "seria hoje", como diz Harris, "chamada de "física", em oposição a "psicológica" ou "funcional", "" (Leitura 49), consequentemente no Curso ele articulou a direção e os contornos de uma análise funcional da linguagem. Da mesma forma, sua única obra extensa publicada, Memoire sur le systeme primitif des voyelles dans les langues indo-europeennes (Memória sobre o sistema primitivo de vogais nas línguas indo-europeias), que apareceu em 1878, estava totalmente inserida no projeto do século XIX. linguística histórica do século. No entanto, dentro deste trabalho, como Jonathan Culler argumentou, Saussure demonstrou "a fecundidade de pensar a linguagem como um sistema de itens puramente relacionais, mesmo quando trabalhando na tarefa de reconstrução histórica" ​​(Saussure 66). Ao analisar as relações estruturais sistemáticas entre os fonemas para explicar os padrões de alternância vocálica nas línguas indo-européias existentes, Saussure sugeriu que, além de vários fonemas diferentes /a/, deve ter havido outro fonema que poderia ser descrito formalmente. "O que torna a obra de Saussure tão impressionante", conclui Culler, "é o fato de que quase cinquenta anos depois, quando o hitita cuneiforme foi descoberto e decifrado, descobriu-se que continha um fonema, escrito h, que se comportava como Saussure havia previsto. . Ele havia descoberto, por uma análise puramente formal, o que hoje é conhecido como as laríngeas do indo-europeu" (66).

Essa concepção da determinação relacional ou diacrítica dos elementos de significação, implícita e explícita no Curso, sugere um terceiro pressuposto que rege a linguística estrutural, o que Saussure chama de "arbitrário do signo". Com isso ele quer dizer que a relação entre o significante e o significado na linguagem nunca é necessária (ou "motivada"): pode-se encontrar tão facilmente o significante sonoro arbre quanto a árvore significante para se unir ao conceito "árvore". Mas, mais do que isso, significa que o significado também é arbitrário: pode-se definir o conceito "árvore" tanto por sua qualidade lenhosa (que excluiria as palmeiras) quanto por seu tamanho (que exclui as "plantas lenhosas baixas" que chamar arbustos). Isso deve deixar claro que a numeração de suposições que venho apresentando não representa uma ordem de prioridade: cada suposição - a natureza sistêmica da significação (melhor apreendida estudando a linguagem "sincronicamente"), a natureza relacional ou "diacrítica" dos elementos da significação, a natureza arbitrária dos signos - deriva seu valor dos outros.

Ou seja, a linguística saussureana compreende os fenômenos que estuda em relações abrangentes de combinação e contraste na linguagem. Nessa concepção, a linguagem é tanto o processo de articulação do significado (significação) quanto seu produto (comunicação), e essas duas funções da linguagem não são idênticas nem totalmente congruentes (ver Schleifer, "Desconstrução"). Aqui, podemos ver a alternância entre forma e conteúdo que Greimas e Courtes descrevem na interpretação modernista: a linguagem apresenta contrastes que definem formalmente suas unidades, e essas unidades se combinam em níveis sucessivos para criar o conteúdo significante. Além disso, como os elementos da linguagem são arbitrários, nem o contraste nem a combinação podem ser considerados básicos. Assim, na linguagem, os traços distintivos se combinam para formar fonemas contrastantes em outro nível de apreensão, os fonemas se combinam para formar morfemas contrastantes, os morfemas se combinam para formar palavras, as palavras se combinam para formar frases e assim por diante. Em cada caso, o fonema inteiro, ou palavra, ou sentença, e assim por diante, é maior que a soma de suas partes (assim como a água, H2O, no exemplo de Saussure [(1959) 103] é mais que a aglomeração mecânica de hidrogênio e oxigênio).

Os três pressupostos do Curso de Lingüística Geral levaram Saussure a clamar por uma nova ciência do século XX que fosse além da ciência linguística para estudar "a vida dos signos na sociedade". Saussure chamou essa ciência de "semiologia (do grego semeion "sinal")" (16). A "ciência" da semiótica, tal como passou a ser praticada no Leste Europeu nas décadas de 1920 e 1930 e em Paris nas décadas de 1950 e 1960, ampliou o estudo da linguagem e das estruturas linguísticas aos artefatos literários constituídos (ou articulados) por essas estruturas. Além disso, durante a última parte de sua carreira, mesmo enquanto oferecia os cursos de linguística geral, Saussure prosseguiu com sua própria análise "semiótica" da poesia latina tardia na tentativa de descobrir anagramas de nomes próprios deliberadamente ocultos. O método de estudo era, em muitos aspectos, o oposto do racionalismo funcional de suas análises linguísticas: tentava, como menciona Saussure em um dos 99 cadernos em que se dedicava a este estudo, examinar sistematicamente o problema do "acaso", que " torna-se o fundamento inevitável de tudo" (citado em Starobinski 101). Tal estudo, como diz o próprio Saussure, centra-se no "fato material" do acaso e do sentido (citado 101), de modo que a "palavra-tema" cujo anagrama Saussure busca, como argumenta Jean Starobinski, "é, para o poeta , um instrumento, e não um germe vital do poema. O poema é obrigado a reempregar os materiais fônicos da palavra-tema" (45). Nessa análise, diz Starobinski, "Saussure não se perdeu na busca de significados ocultos". Em vez disso, sua obra parece demonstrar um desejo de fugir de todos os problemas decorrentes da consciência: "Como a poesia não se realiza apenas em palavras, mas é algo nascido das palavras, ela escapa ao controle arbitrário da consciência para depender apenas de uma espécie de legalidade linguística "(121).

Ou seja, a tentativa de Saussure de descobrir nomes próprios na poesia latina tardia - o que Tzvetan Todorov chama de redução de uma "palavra . . . ao seu significante" (266) - enfatiza um dos elementos que nortearam sua análise linguística, a natureza arbitrária do signo. uma substância" - que elimina efetivamente a semântica como objeto principal de análise.) Como conclui Todorov, a obra de Saussure parece hoje notavelmente homogênea em sua recusa em aceitar fenômenos simbólicos. . . . Em sua pesquisa sobre anagramas, ele presta atenção apenas aos fenômenos de repetição, não aos de evocação. . . . Em seus estudos dos Nibelungos, ele reconhece símbolos apenas para atribuí-los a leituras equivocadas: como não são intencionais, os símbolos não existem. Finalmente, em seus cursos de linguística geral, ele contempla a existência da semiologia e, portanto, de outros signos que não os linguísticos; mas esta afirmação é ao mesmo tempo limitada pelo fato de que a semiologia se dedica a um único tipo de signo: aqueles que são arbitrários. (269-70)

Se isso é verdade, é porque Saussure não podia conceber a "intenção" sem sujeito; ele não conseguia escapar da oposição entre forma e conteúdo que seu trabalho tanto questionava. Em vez disso, ele recorreu à "legalidade linguística". Situada entre, por um lado, as concepções oitocentistas de história, subjetividade e o modo de interpretação causal governado por essas concepções e, por outro lado, as concepções "estruturalistas" do século XX daquilo que Lévi-Strauss chamou de "kantismo sem um sujeito transcendental" (citado em Connerton 23) - conceitos que apagam a oposição entre forma e conteúdo (ou sujeito e objeto) e a hierarquia de primeiro plano e segundo plano no estruturalismo completo, na psicanálise e até na mecânica quântica - o trabalho de Ferdinand de Saussure em linguística e semiótica circunscreve um momento marcante no estudo do significado e da cultura.

Ronald Schleifer

Anexo 2

Fernando de Saussure (tradução)

O linguista suíço Ferdinand de Saussure (1857-1913) é considerado o fundador da linguística moderna - graças às suas tentativas de descrever a estrutura da língua, em vez da história de línguas individuais e formas de palavras. Em geral, os fundamentos dos métodos estruturais em linguística e crítica literária e, em grande medida, semiótica foram lançados em suas obras no início do século XX. Comprova-se que os métodos e conceitos do chamado "pós-estruturalismo", desenvolvidos nas obras de Jacques Derrida, Michel Foucault, Jacques Lacan, Julia Kristeva, Roland Barthes e outros, remontam às obras linguísticas de Saussure e leituras anagramáticas da poesia romana tardia. Deve-se notar que o trabalho de Saussure sobre linguística e interpretação linguística ajuda a conectar uma ampla gama de disciplinas intelectuais - da física às inovações literárias, psicanálise e filosofia do início do século XX. A. J. Greimas e J. Kurte escrevem em Semiótica e Linguagem: “Um dicionário analítico com o título “Interpretação” como um novo tipo de interpretação surgiu no início do século XX junto com a linguística de Saussure, a fenomenologia de Husserl e a psicanálise de Freud. Nesse caso, “interpretação não é a atribuição de um conteúdo dado a uma forma que de outra forma não teria, mas sim uma paráfrase que formula de outro modo o mesmo conteúdo de um elemento significante dentro de um sistema semiótico dado” (159). ). Nessa compreensão de "interpretação", forma e conteúdo são inseparáveis; pelo contrário, cada forma é preenchida com significado semântico (“forma significativa”), de modo que a interpretação oferece uma nova e semelhante recontagem de algo significativo em outro sistema de signos.

Uma compreensão semelhante de forma e conteúdo, apresentada por Claude Lévi-Strauss em uma das principais obras do estruturalismo, ("Structure and Form: Reflections on the Works of Vladimir Propp"), pode ser vista no livro postumamente publicado de Saussure "Course in Lingüística Geral" (1916, trad., 1959, 1983). Durante sua vida, Saussure publicou pouco, "Curso" - sua principal obra - foi coletado das notas de alunos que assistiram às suas palestras sobre linguística geral em 1907-11. No Curso, Saussure pediu um estudo "científico" da linguagem, contrastando-o com a linguística histórico-comparativa do século XIX. Essa obra pode ser considerada uma das maiores conquistas do pensamento ocidental: tomando como base as palavras individuais como elementos estruturais da linguagem, a linguística histórica (ou “diacrônica”) comprovou a origem e o desenvolvimento das línguas da Europa Ocidental língua indo-européia comum - e um proto-indo-europeu anterior.

É justamente esse estudo das ocorrências únicas das palavras, com a concomitante suposição de que a "unidade" básica da linguagem é, de fato, a existência positiva desses "elementos da palavra" que Saussure questionou. Seu trabalho foi uma tentativa de reduzir os muitos fatos sobre a linguagem estudados casualmente pela linguística comparativa a um pequeno número de teoremas. A escola filológica comparada do século XIX, escreve Saussure, "não conseguiu criar uma verdadeira escola de linguística" porque "não compreendia a essência do objeto de estudo" (3). Essa "essência", argumenta ele, reside não apenas nas palavras individuais - as "substâncias positivas" da linguagem -, mas também nas conexões formais que ajudam essas substâncias a existir.

O "teste" de linguagem de Saussure baseia-se em três suposições. Em primeiro lugar, a compreensão científica da linguagem se baseia não em um fenômeno histórico, mas estrutural. Assim, ele distinguia entre fenômenos individuais da linguagem - "eventos de fala", que ele define como "parole" - e o próprio, em sua opinião, objeto de estudo da linguística, o sistema (código, estrutura) que controla esses eventos ( "língua"). Tal estudo sistemático, além disso, requer uma concepção "síncrona" da relação entre os elementos da linguagem em um dado momento, ao invés de um estudo "diacrônico" do desenvolvimento da linguagem ao longo de sua história.

Essa hipótese foi a precursora do que Roman Jakobson em 1929 chamaria de "estruturalismo" - uma teoria em que "qualquer conjunto de fenômenos investigados pela ciência moderna é considerado não como uma acumulação mecânica, mas como um todo estrutural em que o componente construtivo está correlacionado com a função" ("Romântico "711). Nesta passagem, Jakobson formulou a ideia de Saussure de definir a linguagem como uma estrutura, em oposição à enumeração "mecânica" dos acontecimentos históricos. Além disso, Jakobson desenvolve outro pressuposto saussureano, que se tornou o precursor da linguística estrutural: os elementos básicos da linguagem devem ser estudados em conexão não tanto com suas causas, mas com suas funções. Fenômenos e eventos separados (digamos, a história da origem de palavras indo-européias individuais) devem ser estudados não por si mesmos, mas em um sistema no qual são correlacionados com componentes semelhantes. Esta foi uma virada radical na comparação dos fenômenos com a realidade circundante, cujo significado foi comparado pelo filósofo Ernst Cassirer com "a ciência de Galileu, que transformou as idéias sobre o mundo material no século XVII". , como observam Greimas e Kurthe, muda a ideia de “interpretação”, consequentemente, as próprias explicações. presente e futuro A interpretação deixou de ser independente das intenções de uma pessoa (apesar de as intenções poderem ser impessoais, “inconscientes” no sentido freudiano da palavra).

Em sua linguística, Saussure mostra especialmente essa virada na mudança do conceito de palavra na linguística, que ele define como signo e descreve em termos de suas funções. Um sinal para ele é uma combinação de som e significado, "significado e designação" (66-67; na tradução inglesa de 1983 de Roy Harris - "significação" e "sinal"). A natureza deste composto é "funcional" (nem um nem outro elemento pode existir sem o outro); além disso, "um empresta qualidades do outro" (8). Assim, Saussure define o principal elemento estrutural da linguagem - o signo - e faz da base da linguística histórica a identidade dos signos às palavras, o que exige uma análise particularmente rigorosa. Portanto, podemos entender diferentes significados de, digamos, a mesma palavra "árvore" - não porque a palavra seja apenas um conjunto de certas qualidades, mas porque ela é definida como um elemento no sistema de signos, no "todo estrutural", na língua.

Tal conceito relativo ("diacrítico") de unidade fundamenta o conceito de todos os elementos da linguagem na linguística estrutural. Isso fica especialmente claro na descoberta mais original da linguística saussureana, no desenvolvimento do conceito de "fonemas" e "características distintivas" da linguagem. Os fonemas são a menor das unidades linguísticas faladas e significativas. Não são apenas sons que ocorrem na língua, mas "imagens sonoras", observa Saussure, que são percebidas pelos falantes nativos como tendo significado. (Note-se que Elmar Holenstein chama a linguística de Jakobson, que dá continuidade às ideias e conceitos de Saussure em suas principais disposições, de "estruturalismo fenomenológico"). É por isso que o principal orador da Escola de Estruturalismo de Praga, Jan Mukarowski, observou em 1937 que “estrutura. . . não um conceito empírico, mas fenomenológico; não é o resultado em si, mas um conjunto de relações significativas da consciência coletiva (geração, outros, etc.)”. Pensamento semelhante foi expresso em 1960 por Lévi-Strauss, líder do estruturalismo francês: “A estrutura não tem conteúdo definido; é significativo em si mesmo, e a construção lógica em que está encerrado é a marca da realidade.

Por sua vez, os fonemas, como os menores elementos linguísticos aceitáveis ​​para a percepção, representam uma "realidade fenomenológica" integral separada. Por exemplo, em inglês, o som "t" pode ser pronunciado de maneira diferente, mas em todos os casos, uma pessoa que fala inglês o perceberá como "t". Aspirado, elevado ou abaixado, um longo som de "t", etc., distinguirá igualmente o significado das palavras "to" e "do". Além disso, as diferenças entre as línguas são tais que variedades de um som em uma língua podem corresponder a diferentes fonemas em outra; por exemplo, "l" e "r" em inglês são diferentes, enquanto em outros idiomas são variedades do mesmo fonema (como o inglês "t", pronunciado com e sem aspiração). O vasto vocabulário de qualquer língua natural é um conjunto de combinações de um número muito menor de fonemas. Em inglês, por exemplo, apenas 40 fonemas são usados ​​para pronunciar e escrever cerca de um milhão de palavras.

Os sons de uma língua são um conjunto de características sistematicamente organizado. Nas décadas de 1920 e 1930, seguindo Saussure, Jacobson e N.S. Trubetskoy destacaram as "características distintivas" dos fonemas. Essas características são baseadas na estrutura dos órgãos da fala - língua, dentes, cordas vocais - Saussure percebe isso no "Curso de Lingüística Geral", e Harris chama isso de "fonética fisiológica" (na tradução anterior de Baskin, o termo "fonologia " é usado) - eles estão conectados em "nós » durg contra um amigo para fazer sons. Por exemplo, em inglês, a diferença entre "t" e "d" é a presença ou ausência de "voz" (a tensão das cordas vocais) e o nível de voz que distingue um fonema do outro. Assim, a fonologia pode ser considerada um exemplo da regra geral da linguagem descrita por Saussure: "Só existem diferenças na linguagem". Ainda mais importante não é isso: a diferença geralmente implica as condições exatas entre as quais está localizada; mas na linguagem há apenas diferenças sem condições precisas. Quer estejamos considerando "designação" ou "significado" - na língua não há conceitos nem sons que teriam existido antes do desenvolvimento do sistema linguístico.

Em tal estrutura, as analogias linguísticas são definidas não com a ajuda de suas qualidades inerentes, mas com a ajuda de relações de sistema (“estruturais”).

Já mencionei que a fonologia em seu desenvolvimento se baseou nas ideias de Saussure. Embora sua análise da fisiologia linguística nos tempos modernos, diz Harris, "fosse chamada de 'física', em oposição a 'psicológica' ou 'funcional', em The Course ele articulou claramente a direção e os princípios básicos da análise funcional da linguagem. Seu único trabalho publicado durante sua vida, Memoire sur le systeme primitif des voyelles dans les langues indo-europeennes (Notas sobre o sistema vocálico original nas línguas indo-europeias), publicado em 1878, estava completamente alinhado com a linguística histórica comparativa do século 19. Não obstante, nesta obra, diz Jonathan Culler, Saussure mostrou “a fecundidade da ideia de linguagem como um sistema de fenômenos interligados, mesmo com sua reconstrução histórica”. Analisando a relação entre os fonemas, explicando a alternância de vogais nas línguas modernas do grupo indo-europeu, Saussure sugeriu que além de vários sons diferentes "a", deve haver outros fonemas descritos formalmente. “O que torna a obra de Saussure particularmente impressionante”, conclui Kaller, “é que quase 50 anos depois, quando o cuneiforme hitita foi descoberto e decifrado, foi encontrado um fonema, na escrita denotada por “h”, que se comportou como Saussure previu. Através da análise formal, ele descobriu o que hoje é conhecido como som gutural nas línguas indo-européias.

No conceito de uma definição relativa (diacrítica) dos signos, tanto explícitos quanto implícitos no Curso, há um terceiro pressuposto-chave da linguística estrutural, chamado por Saussure de "natureza arbitrária do signo". Com isso se quer dizer que a relação entre som e significado na linguagem não é motivada por nada: pode-se facilmente conectar a palavra "arbre" e a palavra "árvore" com o conceito de "árvore". Além disso, isso significa que o som também é arbitrário: pode-se definir o conceito de "árvore" pela presença de casca (exceto palmeiras) e por tamanho (exceto "plantas lenhosas baixas" - arbustos). A partir disso, deve ficar claro que todos os pressupostos que apresento não são divididos em mais e menos importantes: cada um deles - a natureza sistêmica dos signos (mais compreensíveis no estudo "síncrono" da língua), seu relativo (diacrítico) essência, a natureza arbitrária dos signos - vem do resto.

Assim, na linguística saussureana, o fenômeno estudado é entendido como um conjunto de comparações e oposições da linguagem. A linguagem é ao mesmo tempo uma expressão do significado das palavras (designação) e seu resultado (comunicação) - e essas duas funções nunca coincidem (veja "Desconstrução da linguagem" de Shleifer). Podemos ver a alternância de forma e conteúdo que Greimas e Kurte descrevem na versão mais recente da interpretação: os contrastes linguísticos definem suas unidades estruturais, e essas unidades interagem em níveis sucessivos para criar um determinado conteúdo significativo. Como os elementos da linguagem são aleatórios, nem contraste nem combinação podem ser a base. Isso significa que, em uma língua, os traços distintivos formam um contraste fonético em um nível diferente de compreensão, os fonemas são combinados em morfemas contrastantes, morfemas - em palavras, palavras - em frases etc. Em qualquer caso, um fonema inteiro, palavra, frase, etc. é mais do que a soma de suas partes (assim como a água, no exemplo de Saussure, é mais do que uma combinação de hidrogênio e oxigênio).

Três pressupostos do “Curso de Linguística Geral” levaram Saussure à ideia de uma nova ciência do século XX, separada da linguística, estudando “a vida dos signos na sociedade”. Saussure chamou essa ciência de semiologia (do grego "semeion" - um sinal). A "ciência" da semiótica, que se desenvolveu na Europa Oriental nas décadas de 1920 e 1930 e em Paris nas décadas de 1950 e 1960, estendeu o estudo da linguagem e das estruturas linguísticas em achados literários compostos (ou formulados) em termos dessas estruturas. Além disso, no crepúsculo de sua carreira, paralelamente ao seu curso de linguística geral, Saussure se engajou em uma análise "semiótica" da poesia romana tardia, tentando descobrir anagramas de nomes próprios compostos deliberadamente. Esse método era em muitos aspectos o oposto do racionalismo em sua análise linguística: era uma tentativa, como escreve Saussure em um dos 99 cadernos, de estudar no sistema o problema da "probabilidade", que "torna-se a base de tudo. " Tal investigação, afirma o próprio Saussure, ajuda a focalizar o "lado real" da probabilidade; A “palavra-chave” para a qual Saussure procura um anagrama é, segundo Jean Starobinsky, “uma ferramenta para o poeta, e não a fonte de vida para o poema. O poema serve para inverter os sons da palavra-chave. Segundo Starobinsky, nesta análise, "Saussure não se aprofunda na busca de significados ocultos". Ao contrário, em suas obras, é perceptível um desejo de evitar questões relacionadas à consciência: “como a poesia se expressa não apenas em palavras, mas também no que essas palavras dão origem, ela extrapola o controle da consciência e depende apenas de as leis da linguagem”.

A tentativa de Saussure de estudar nomes próprios na poesia romana tardia (Tsvetan Todorov chamou isso de abreviação de "uma palavra... a essência formal da linguística saussureana ("Linguagem", afirma ele, "a essência da forma, não do fenômeno"), que exclui a possibilidade de analisar o significado. Todorov conclui que hoje os escritos de Saussure parecem notavelmente consistentes em sua relutância em estudar símbolos [fenômenos que têm um significado bem definido]. . . . Explorando anagramas, Saussure presta atenção apenas à repetição, mas não às opções anteriores. . . . Estudando os Nibelungenlied, ele define os símbolos apenas para atribuí-los a leituras errôneas: se não forem intencionais, os símbolos não existem. Afinal, em seus escritos sobre linguística geral, ele assume a existência de uma semiologia que descreve não apenas os signos linguísticos; mas essa suposição é limitada pelo fato de que a semiologia só pode descrever sinais aleatórios e arbitrários.

Se é realmente assim, é apenas porque ele não podia imaginar a "intenção" sem um objeto; ele não conseguiu preencher completamente a lacuna entre forma e conteúdo - em seus escritos isso se transformou em uma questão. Em vez disso, ele se voltou para a "legitimidade linguística". Situando-se entre, por um lado, conceitos oitocentistas baseados na história e conjecturas subjetivas, e métodos de interpretação acidental baseados nesses conceitos, e, por outro lado, conceitos estruturalistas, que Lévi-Strauss chamou de “kantismo sem ator transcendente”. "- apagando a oposição entre forma e conteúdo (sujeito e objeto), significado e origem no estruturalismo, na psicanálise e até na mecânica quântica, os escritos de Ferlinand de Saussure sobre linguística e semiótica marcam um ponto de virada no estudo dos significados na linguagem e na cultura.

Ronald Shleifer

Literatura

1. Admoni V.G. Fundamentos da teoria da gramática / V.G. Admoni; Academia de Ciências da URSS.-M.: Nauka, 1964.-104p.

3. Arapov, M.V., Herts, M.M. Métodos matemáticos em linguística. M., 1974.

4. Arnold I.V. A estrutura semântica da palavra no inglês moderno e a metodologia para seu estudo. /4. Arnold-L.: Educação, 1966. - 187 p.

6. Bashlykov A.M. Sistema de tradução automática. / SOU. Bashlykov, A. A. Sokolov. - M.: LLC "FIMA", 1997. - 20 p.

7.Baudouin de Courtenay: Patrimônio teórico e modernidade: Resumos dos relatórios da conferência científica internacional / Ed.I.G. Kondratiev. - Kazan: KGU, 1995. - 224 p.

8. A. V. Gladkiy, Elements of Mathematical Linguistics. / . Gladkiy A.V., Melchuk I.A. -M., 1969. - 198 p.

9. Golovin, B.N. Linguagem e estatística. /B.N. Golovin - M., 1971. - 210 p.

10. Zvegintsev, V.A. Lingüística teórica e aplicada. / V. A. Zvegintsev - M., 1969. - 143 p.

11. Kasevich, V.B. Semântica. Sintaxe. Morfologia. // V. B. Kasevich - M., 1988. - 292 p.

12. Lekomtsev Yu.K. INTRODUÇÃO à linguagem formal da linguística / Yu.K. Lekomtsev. - M.: Nauka, 1983, 204 p., fl.

13. A herança linguística de Baudouin de Courtenay no final do século XX: Resumos da Conferência Internacional Científica e Prática 15-18 de março de 2000. - Krasnoyarsk, 2000. - 125 p.

Matveeva G.G. Significados gramaticais ocultos e identificação da pessoa social (“retrato”) do falante / G.G. Matveev. - Rostov, 1999. - 174 p.

14. Melchuk, I.A. Experiência na construção de modelos linguísticos "Significado<-->Texto". / I.A. Melchuk. - M., 1974. - 145 p.

15. Nelyubin L.L. Tradução e linguística aplicada / L.L. Nelyubin. - M.: Escola Superior, 1983. - 207 p.

16. Sobre os métodos exatos de pesquisa linguística: sobre a chamada "linguística matemática" / O.S. Akhmanova, I.A. Melchuk, E.V. Paducheva e outros - M., 1961. - 162 p.

17. Piotrovsky L.G. Lingüística Matemática: Livro Didático / L.G. Piotrovsky, K. B. Bektaev, A. A. Piotrovskaya. - M.: Escola Superior, 1977. - 160 p.

18. Ele é. Texto, máquina, pessoa. - L., 1975. - 213 p.

19. Ele é. Lingüística Aplicada / Ed. A. S. Gerda. - L., 1986. - 176 p.

20. Revzin, I.I. modelos de linguagem. M., 1963. Revzin, I.I. Lingüística Estrutural Moderna. Problemas e métodos. M., 1977. - 239 p.

21. Revzin, I.I., Rozentsveig, V.Yu. Fundamentos de tradução geral e automática / Revzin I.I., Rozentsveig, V.Yu. - M., 1964. - 401 p.

22. Slyusareva N.A. A teoria de F. de Saussure à luz da linguística moderna / N.A. Slyusareva. - M.: Nauka, 1975. - 156 p.

23. Coruja, L.Z. Lingüística Analítica / L.Z. Coruja - M., 1970. - 192 p.

24. Saussure F. de. Notas sobre Lingüística Geral / F. de Saussure; Por. de fr. - M.: Progresso, 2000. - 187 p.

25. Ele é. Curso de Lingüística Geral / Per. de fr. - Ecaterimburgo, 1999. -426 p.

26. Estatísticas de fala e análise automática de texto / Ed. ed. R.G. Piotrovsky. L., 1980. - 223 p.

27. Stoll, P. Sets. Lógica. Teorias axiomáticas. / R. Stoll; Por. do inglês. - M., 1968. - 180 p.

28. Tenier, L. Fundamentos da sintaxe estrutural. M., 1988.

29. Ubin I.I. Automação das atividades de tradução na URSS / I.I. Ubin, L. Yu. Korostelev, B. D. Tikhomirov. - M., 1989. - 28 p.

30. Faure, R., Kofman, A., Denis-Papin, M. Modern Mathematics. M., 1966.

31. Shenk, R. Processamento de informações conceituais. M., 1980.

32. Shikhanovich, Yu.A. INTRODUÇÃO à matemática moderna (conceitos iniciais). M., 1965

33. Shcherba L.V. Vogais russas em termos qualitativos e quantitativos / L.V. Shcherba - L.: Nauka, 1983. - 159 p.

34. Abdullah-zade F. Cidadão do mundo // Spark - 1996. - No. 5. - p.13

35. V.A. Uspensky. Preliminar para os leitores da "New Literary Review" às mensagens semióticas de Andrei Nikolaevich Kolmogorov. - Nova Revisão Literária. -1997. - Nº 24. - S. 18-23

36. Perlovsky L. Consciência, linguagem e cultura. - Conhecimento é poder. -2000. №4 - S. 20-33

Introdução? Teoria da Tradução de Palestra