História da Linguística Computacional. O que é Linguística Computacional? Kit de ferramentas cognitivas de linguística computacional

Novoselova Irina

Por que nem todas as traduções automáticas são perfeitas? O que determina a qualidade de uma tradução? O autor tem conhecimento suficiente para usar e complementar os dicionários de informática existentes? A autora procurou dar respostas a essas questões em sua obra. Informe sobre o tema - no arquivo anexo, o produto das atividades do projeto - no portal da escola

Download:

Visualização:

abrir

Internacional

pesquisar

conferência

estudantes e estudantes do ensino médio

"Educação. A ciência. Profissão"

Seção "Linguística Estrangeira"

"Linguística da Computação"

Feito por Irina Novosyolova

Ginásio MOU nº 39 "Clássico"

10 classe "B"

Orientadores Científicos:

Chigrineva Tatyana Dmitrievna,

Professor de inglês da mais alta categoria

Osipova Svetlana Leonidovna,

professor de ciência da computação da mais alta categoria

cidade de Otradny

2011

  1. palavras inglesas em TIC

Olhe para o site

  1. Meu experimento

Uma das tarefas é realizar um experimento, que consiste em comparar as capacidades de vários dicionários linguísticos de computador, para uma tradução mais precisa e aproximada do inglês para o russo.

Os seguintes sites foram testados:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Pela pureza do experimento, escolhi frases com vários graus de complexidade de tradução estilística. As frases de entrada são as seguintes:

1. Um novo relatório diz que os adolescentes de hoje são mais egoístas do que eram há 20 anos

(Novo relatório diz que os adolescentes de hoje são mais egoístas do que eram há 20 anos)

2. Ela acredita que os videogames e a Internet são as maiores razões para esse aumento do egoísmo.

(Ela acredita que os videogames e a Internet são os maiores motivos desse crescente egoísmo)

3. Eles querem ser melhores que os outros

(Eles querem ser melhores que o resto)

4. Ela descobriu que o grande aumento começou a partir do ano 2000, quando os videogames violentos se tornaram muito populares.

(Ela encontrou muito crescimento a partir de 2000, quando os videogames violentos se tornaram muito populares)

Depois de traduzir essas frases em sites de tradutores online, obtive os seguintes resultados:

  1. http://translate.eu/

Linguística Computacional: Métodos, Recursos, Aplicações

Introdução

Prazo linguística computacional(CL) nos últimos anos é cada vez mais comum em conexão com o desenvolvimento de vários sistemas de software aplicados, incluindo produtos de software comercial. Isso se deve ao rápido crescimento da sociedade da informação de texto, inclusive na Internet, e à necessidade de processamento automático de textos em linguagem natural (NL). Essa circunstância estimula o desenvolvimento da linguística computacional como campo da ciência e o desenvolvimento de novas tecnologias de informação e linguística.

No âmbito da linguística computacional, que existe há mais de 50 anos (e também é conhecida sob os nomes linguística de máquina, processamento de texto automático em NL) muitos métodos e ideias promissoras foram propostos, mas nem todos encontraram ainda sua expressão em produtos de software utilizados na prática. O nosso objetivo é caracterizar as especificidades desta área de investigação, formular as suas principais tarefas, indicar as suas ligações com outras ciências, dar um breve panorama das principais abordagens e recursos utilizados, e caracterizar brevemente as aplicações existentes de LC. Para um conhecimento mais detalhado dessas questões, livros podem ser recomendados.

1. Tarefas de linguística computacional

A linguística computacional surgiu na interseção de ciências como linguística, matemática, ciência da computação (Ciência da Computação) e inteligência artificial. As origens do CL remontam às pesquisas do famoso cientista americano N. Chomsky no campo da formalização da estrutura da linguagem natural; seu desenvolvimento é baseado em resultados no campo da linguística geral (linguística). A linguística estuda as leis gerais da linguagem natural - sua estrutura e funcionamento, e inclui as seguintes áreas:

Ø Fonologia- estuda os sons da fala e as regras para sua combinação na formação da fala;

Ø Morfologia- trata da estrutura interna e da forma externa das palavras do discurso, incluindo as partes do discurso e suas categorias;

Ø Sintaxe- estuda a estrutura das frases, as regras de compatibilidade e a ordem das palavras numa frase, bem como as suas propriedades gerais como unidade da linguagem.

Ø Semânticae pragmática- áreas intimamente relacionadas: a semântica lida com o significado das palavras, frases e outras unidades do discurso, e a pragmática lida com as características de expressar esse significado em conexão com os objetivos específicos da comunicação;

Ø Lexicografia descreve o léxico de um determinado SL - suas palavras individuais e suas propriedades gramaticais, bem como métodos para criar dicionários.

Os resultados de N. Chomsky, obtidos na interseção da linguística e da matemática, lançaram as bases para a teoria das linguagens e gramáticas formais (muitas vezes chamadas de gerador, ou gerador gramáticos). Essa teoria agora linguística matemática e é usado para processar não tanto NL, mas linguagens artificiais, principalmente linguagens de programação. Por sua natureza, é uma disciplina bastante matemática.

A linguística matemática também inclui linguística quantitativa, estudando as características de frequência da linguagem - palavras, suas combinações, construções sintáticas, etc., enquanto usa métodos matemáticos de estatística, para que você possa chamar esse ramo da ciência de linguística estatística.

O CL também está intimamente relacionado a um campo científico interdisciplinar como a inteligência artificial (IA), dentro do qual são desenvolvidos modelos computacionais de funções intelectuais individuais. Um dos primeiros programas de trabalho no campo de IA e CL é o conhecido programa de T. Winograd, que entendia as ordens mais simples de uma pessoa para mudar o mundo dos cubos, formulado em um subconjunto limitado de NL. Cabe destacar que, apesar da óbvia interseção de pesquisas no campo da LC e da IA ​​(já que a proficiência linguística está relacionada às funções intelectuais), a IA não absorve todas as LC, pois possui base teórica e metodologia próprias. Comum a essas ciências é a modelagem computacional como principal método e objetivo final da pesquisa.

Assim, a tarefa do LC pode ser formulada como o desenvolvimento de programas de computador para processamento automático de textos em NL. E embora o processamento seja entendido de forma bastante ampla, nem todos os tipos de processamento podem ser chamados de linguísticos, e os processadores correspondentes podem ser chamados de linguísticos. Processador linguístico deve usar um ou outro modelo formal da linguagem (mesmo que seja muito simples), o que significa que deve ser dependente da linguagem de uma forma ou de outra (ou seja, depender de um NL específico). Assim, por exemplo, o editor de texto Mycrosoft Word pode ser chamado de linguístico (até porque usa dicionários), mas o editor do Bloco de Notas não.

A complexidade das tarefas do CL se deve ao fato de o NL ser um complexo sistema de sinais multinível que surgiu para a troca de informações entre as pessoas, desenvolvido no processo da atividade prática humana e em constante mudança em relação a essa atividade . Outra dificuldade no desenvolvimento de métodos de LC (e a dificuldade de estudar NL no âmbito da linguística) está associada à diversidade de línguas naturais, diferenças significativas em seu vocabulário, morfologia, sintaxe, diferentes línguas fornecem diferentes maneiras de expressar o mesmo significado.

2. Características do sistema NL: níveis e conexões

Os objetos dos processadores linguísticos são os textos de NL. Os textos são entendidos como quaisquer amostras de fala - oral e escrita, de qualquer gênero, mas basicamente LC considera textos escritos. O texto possui uma estrutura unidimensional, linear, e também carrega um determinado significado, enquanto a linguagem atua como meio de converter o significado transmitido em textos (síntese de fala) e vice-versa (análise de fala). O texto é composto por unidades menores, e existem várias maneiras de dividir (dividir) o texto em unidades pertencentes a diferentes níveis.

A existência dos seguintes níveis é geralmente reconhecida:

O nível das frases (declarações) - nível sintático;

· Léxico-morfológico homonímia (o tipo mais comum) ocorre quando as formas de palavras de dois lexemas diferentes coincidem, por exemplo, versículo- um verbo no masculino singular e um substantivo no caso nominativo singular),

· Homonímia sintática significa uma ambiguidade na estrutura sintática, levando a várias interpretações: Estudantes de Lvov foram para Kyiv,vôo aviões posso ser perigoso(famoso exemplo de Chomsky), etc.

3. Modelagem em linguística computacional

O desenvolvimento de um processador linguístico (LP) envolve uma descrição das propriedades linguísticas do texto processado da NL, e essa descrição é organizada como modelo Língua. Como na modelagem em matemática e programação, um modelo é entendido como algum sistema que reflete uma série de propriedades essenciais do fenômeno que está sendo modelado (ou seja, NL) e, portanto, possui uma semelhança estrutural ou funcional.

Os modelos de linguagem usados ​​em LC são geralmente construídos com base em teorias criadas por linguistas através do estudo de vários textos e com base em sua intuição linguística (introspecção). Qual é a especificidade dos modelos KL? As seguintes características podem ser distinguidas:

Formalidade e, em última análise, algoritmização;

Funcionalidade (o objetivo da modelagem é reproduzir as funções da linguagem como uma "caixa preta", sem construir um modelo preciso para a síntese e análise da fala humana);

Generalidade do modelo, ou seja, leva em conta um conjunto bastante grande de textos;

· Validade experimental, que envolve testar o modelo em diferentes textos;

· Dependência de dicionários como componente obrigatório do modelo.

A complexidade da LS, sua descrição e processamento levam à divisão desse processo em etapas separadas correspondentes aos níveis da língua. A maioria das LPs modernas é do tipo modular, em que cada nível de análise ou síntese linguística corresponde a um módulo processador. Em particular, no caso de análise de texto, os módulos LP individuais realizam:

Ø Análise grafmática, ou seja, destacando as formas das palavras no texto (transição de caracteres para palavras);

Ø Análise morfológica - a transição das formas das palavras para suas lemas(formas de dicionário de lexemas) ou Fundamentos(partes nucleares da palavra, menos morfemas flexionais);

Ø Análise sintática, ou seja, identificar a estrutura gramatical das frases do texto;

Ø Análise semântica e pragmática, que determina o significado das frases e a reação correspondente do sistema dentro do qual o LP funciona.

Diferentes esquemas de interação desses módulos são possíveis (trabalho sequencial ou análise intercalada paralela), porém, níveis individuais - morfologia, sintaxe e semântica ainda são processados ​​por mecanismos diferentes.

Assim, o LP pode ser considerado como um conversor multiestágio que, no caso da análise de texto, traduz cada uma de suas frases em uma representação interna de seu significado, e vice-versa no caso da síntese. O modelo de linguagem correspondente pode ser chamado estrutural.

Embora os modelos de CL completos exijam levar em consideração todos os principais níveis da linguagem e a disponibilidade de módulos apropriados, ao resolver alguns problemas aplicados, é possível prescindir da representação de níveis individuais no LP. Por exemplo, nos primeiros programas experimentais de LC, os textos processados ​​pertenciam a áreas problemáticas muito restritas (com um conjunto limitado de palavras e uma ordem estrita de palavras), de modo que o reconhecimento de palavras poderia usar suas letras iniciais, omitindo as etapas de análise morfológica e sintática. .

Outro exemplo de modelo reduzido, hoje bastante utilizado, é o modelo linguístico da frequência dos símbolos e suas combinações (bigramas, trigramas, etc.) nos textos de uma NL específica. Tal modelo estatístico apresenta informação linguística ao nível dos caracteres (letras) do texto, sendo suficiente, por exemplo, detectar erros de digitação no texto ou reconhecer a sua filiação linguística. Um modelo semelhante baseado nas estatísticas de palavras individuais e sua ocorrência conjunta em textos (bigramas, trigramas de palavras) é usado, por exemplo, para resolver ambiguidade lexical ou determinar a parte do discurso de uma palavra (em idiomas como o inglês) .

Observe que é possível modelos estatísticos estruturais, em que certas estatísticas são levadas em consideração ao apresentar níveis individuais de NL - palavras, construções sintáticas etc.

Em uma LP do tipo modular, em cada etapa da análise ou síntese do texto, é utilizado um modelo apropriado (morfologia, sintaxe, etc.).

Os modelos morfológicos de análise de formas de palavras existentes no CL diferem principalmente nos seguintes parâmetros:

O resultado do trabalho é um lema ou radical com um conjunto de características morfológicas (gênero, número, caso, tipo, pessoa, etc.) de uma determinada forma de palavra;

o método de análise - baseado no dicionário de formas de palavras da língua ou no dicionário de fundamentos, ou o método não-dicionário;

· a possibilidade de processar a forma da palavra de um lexema não incluído no dicionário.

Na síntese morfológica, os dados iniciais são o lexema e as características morfológicas específicas da forma da palavra solicitada do lexema dado; também é possível solicitar a síntese de todas as formas do lexema dado. O resultado tanto da análise morfológica quanto da síntese é geralmente ambíguo.

Para modelar a sintaxe dentro da estrutura da LC, um grande número de ideias e métodos diferentes foram propostos que diferem na maneira como a sintaxe da linguagem é descrita, na maneira como essa informação é usada na análise ou síntese da sentença da LS e a forma como a estrutura sintática da frase é apresentada. É bastante condicionalmente possível destacar três abordagens principais para a criação de modelos: uma abordagem generativa que remonta às ideias de Chomsky, uma abordagem que remonta às ideias de I. Melchuk e é representada pelo modelo Texto Significado, bem como como uma abordagem em que certas tentativas são feitas para superar as limitações das duas primeiras abordagens, em particular, a teoria dos grupos sintáticos.

Dentro da estrutura da abordagem generativa, a análise sintática geralmente é realizada com base em uma gramática formal livre de contexto que descreve a estrutura frasal de uma sentença, ou com base em alguma extensão da gramática livre de contexto. Essas gramáticas procedem de uma divisão linear sequencial de uma sentença em frases (construções sintáticas, por exemplo, sintagmas nominais) e, portanto, refletem simultaneamente suas estruturas sintáticas e lineares. A estrutura sintática hierárquica da sentença NL obtida como resultado da análise é descrita árvore de componentes, cujas folhas contêm as palavras da frase, as subárvores correspondem às construções sintáticas (frases) incluídas na frase, e os arcos expressam as relações de aninhamento das construções.

A abordagem em consideração pode incluir gramáticas de rede, que são tanto um dispositivo para descrever um sistema de linguagem quanto para definir um procedimento para analisar sentenças baseado no conceito de um autômato finito, por exemplo, uma rede de transição estendida ATN .

Como parte da segunda abordagem, uma forma mais visual e comum é usada para representar a estrutura sintática de uma frase - árvores de dependência. Os nós da árvore contêm as palavras da sentença (geralmente um verbo-predicado na raiz), e cada arco da árvore que conecta um par de nós é interpretado como um subordinando conexão entre eles, e a direção da conexão corresponde à direção desse arco. Como, neste caso, as ligações sintáticas das palavras e a ordem das palavras na frase são separadas, então, com base nas árvores de subordinação, quebradas e não projetivo construções que ocorrem com bastante frequência em idiomas com ordem de palavras livre.

As árvores de componentes são mais adequadas para descrever linguagens em uma ordem de palavras rígida; sua representação de construções quebradas e não projetivas requer uma extensão do formalismo gramatical utilizado. Mas no quadro desta abordagem, as construções com relações não subordinadas são descritas com mais naturalidade. Ao mesmo tempo, uma dificuldade comum para ambas as abordagens é a apresentação de membros homogêneos da frase.

Os modelos sintáticos em todas as abordagens tentam levar em conta as restrições impostas à conexão das unidades linguísticas na fala, enquanto de uma forma ou de outra é utilizado o conceito de valência. Valência- é a capacidade de uma palavra ou outra unidade de uma língua anexar outras unidades de uma certa forma sintática; actanteé uma palavra ou uma construção sintática que preenche essa valência. Por exemplo, o verbo russo entregar tem três valências principais, que podem ser expressas pelas seguintes palavras interrogativas: quem? a quem? que? No âmbito da abordagem generativa, as valências das palavras (em primeiro lugar, os verbos) são descritas principalmente na forma de quadros especiais ( subcategorização molduras), e na estrutura da abordagem de árvore de dependência, como modelos de gestão.

Os modelos da semântica da linguagem são os menos desenvolvidos no âmbito do CL. Para a análise semântica de sentenças, as chamadas gramáticas de casos e casos semânticos(valência), com base na qual a semântica da frase é descrita como através da conexão da palavra principal (verbo) com seus atuantes semânticos, ou seja, através de casos semânticos. Por exemplo, o verbo entregar descrito por casos semânticos dando(agente), destinatário e transferir objeto.

Para representar a semântica de todo o texto, geralmente são usados ​​dois formalismos logicamente equivalentes (ambos descritos em detalhes na estrutura da IA):

· Fórmulas de cálculo de predicados expressando propriedades, estados, processos, ações e relações;

· As redes semânticas são grafos rotulados em que os vértices correspondem a conceitos e os vértices correspondem às relações entre eles.

Quanto aos modelos de pragmática e discurso, que permitem processar não apenas frases individuais, mas também o texto como um todo, as ideias de Van Dyck são utilizadas principalmente para construí-los. Um dos modelos raros e bem-sucedidos é o modelo de síntese discursiva de textos conectados. Tais modelos devem levar em conta referências anafóricas e outros fenômenos de nível discursivo.

Concluindo a caracterização dos modelos linguísticos no âmbito da LC, detemo-nos um pouco mais na teoria dos modelos linguísticos "Texto de Significado", e no âmbito do qual surgiram muitas ideias frutíferas que estavam à frente do seu tempo e ainda são relevantes.

De acordo com essa teoria, o NL é considerado como um tipo especial de conversor que realiza o processamento de significados dados em textos correspondentes e textos dados em seus significados correspondentes. O significado é entendido como o invariante de todas as transformações sinônimas do texto. O conteúdo de um fragmento de fala conectado sem divisão em frases e formas de palavras é exibido como uma representação semântica especial que consiste em dois componentes: gráfico semântico e informações sobre organização comunicativa do significado.

Como características distintivas da teoria devem ser indicadas:

o orientação para a síntese de textos (a capacidade de gerar textos corretos é considerada o principal critério de competência linguística);

o natureza multinível e modular do modelo, e os principais níveis da linguagem são divididos em níveis superficiais e profundos: eles diferem, por exemplo, profundo(semantizado) e superfície sintaxe ("pura"), bem como níveis morfológicos superficiais e morfológicos profundos;

o a natureza integral do modelo de linguagem; salvar as informações apresentadas em cada nível pelo módulo correspondente realizando a transição deste nível para o seguinte;

o meios especiais de descrição sintática (regras para conectar unidades) em cada nível; para descrever a compatibilidade lexical, foi proposto um conjunto funções lexicais, com a ajuda da qual são formuladas as regras da paráfrase sintática;

o ênfase no vocabulário em vez da gramática; o dicionário armazena informações relacionadas aos diferentes níveis do idioma; em particular, para análise sintática, são usados ​​modelos de gerenciamento de palavras que descrevem suas valências sintáticas e semânticas.

Esta teoria e modelo linguístico encontrou a sua concretização no sistema de tradução automática da ETAP.

4. Recursos linguísticos

O desenvolvimento de processadores linguísticos requer uma apresentação adequada das informações linguísticas sobre o NL processado. Essas informações são exibidas em vários dicionários e gramáticas de computador.

Dicionários são a forma mais tradicional de representação da informação lexical; eles diferem em suas unidades (geralmente palavras ou frases), estrutura, escopo do vocabulário (dicionários de termos de uma área específica do problema, dicionários de vocabulário geral, etc.). A unidade do dicionário é chamada Entrada do dicionário, ele fornece informações sobre o token. Os homônimos lexicais geralmente são apresentados em diferentes entradas de dicionário.

Dicionários morfológicos usados ​​para análise morfológica são os mais comuns em LC, sua entrada de dicionário contém informações morfológicas sobre a palavra correspondente - parte da fala, classe flexional (para línguas flexionais), uma lista de significados de palavras, etc. processador linguístico no dicionário informações gramaticais também podem ser adicionados, como padrões de controle de palavras.

Existem dicionários que fornecem mais informações sobre palavras. Por exemplo, o modelo linguístico "Texto-Significado" baseia-se essencialmente em dicionário explicativo-combinatório, no verbete do qual, além de informações morfológicas, sintáticas e semânticas (valências sintáticas e semânticas), são apresentadas informações sobre a compatibilidade lexical dessa palavra.

Vários processadores linguísticos usam dicionários de sinônimos. Um tipo relativamente novo de dicionários - dicionários de parônimos, ou seja, palavras aparentemente semelhantes que diferem em significado, por exemplo, desconhecido e estrangeiro, edição e referência .

Outro tipo de recursos lexicais - bases de frases, em que são selecionadas as frases mais típicas de um determinado idioma. Essa base de frases no idioma russo (cerca de um milhão de unidades) é o núcleo do sistema CrossLexic.

Tipos mais complexos de recursos lexicais são tesauros e ontologias. Thesaurus é um dicionário semântico, ou seja, um dicionário no qual são apresentadas conexões semânticas de palavras - sinônimos, relações gênero-espécie (às vezes chamadas de relação acima-abaixo), associações parte-todo. A difusão dos tesauros está associada à solução de problemas de recuperação de informação.

O conceito de ontologia está intimamente relacionado ao conceito de tesauro. Ontologia é um conjunto de conceitos, entidades de um determinado campo do conhecimento, focados em uso múltiplo para diversas tarefas. Ontologias podem ser criadas com base no vocabulário existente na linguagem - neste caso são chamadas linguístico e.

Tal ontologia linguística é considerada o sistema WordNet - um grande recurso lexical no qual são coletadas as palavras da língua inglesa: substantivos, adjetivos, verbos e advérbios, e suas conexões semânticas de diversos tipos são apresentadas. Para cada uma das partes do discurso indicadas, as palavras são agrupadas em grupos de sinônimos ( synsets), entre as quais se estabelecem as relações de antonímia, hiponímia (relação gênero-espécie), meronímia (relação parte-todo). O recurso contém cerca de 25 mil palavras, o número de níveis hierárquicos para a relação gênero-espécie é em média de 6 a 7, chegando às vezes a 15. O nível superior da hierarquia forma uma ontologia comum - um sistema de conceitos básicos sobre o mundo.

De acordo com o esquema WordNet inglês, foram construídos recursos lexicais semelhantes para outros idiomas europeus, unidos sob o nome comum EuroWordNet.

Um tipo completamente diferente de recursos linguísticos é Gramática, cujo tipo depende do modelo de sintaxe usado no processador. Na primeira aproximação, a gramática é um conjunto de regras que expressam as propriedades sintáticas gerais de palavras e grupos de palavras. O número total de regras gramaticais também depende do modelo de sintaxe, variando de várias dezenas a várias centenas. Em essência, tal problema se manifesta aqui como a relação entre gramática e vocabulário no modelo de linguagem: quanto mais informações são apresentadas no dicionário, mais curta pode ser a gramática e vice-versa.

Deve-se notar que a construção de dicionários de computador, tesauros e gramáticas é um trabalho volumoso e demorado, às vezes até mais demorado do que o desenvolvimento de um modelo linguístico e do processador correspondente. Portanto, uma das tarefas subordinadas do CL é a automatização da construção dos recursos linguísticos.

Os dicionários de computador geralmente são formados pela conversão de dicionários de texto comuns, mas muitas vezes é necessário um trabalho muito mais complexo e meticuloso para construí-los. Isso geralmente acontece ao construir dicionários e tesauros para áreas científicas em rápido desenvolvimento - biologia molecular, ciência da computação, etc. O material de origem para extrair as informações linguísticas necessárias pode ser coleções e corpora de textos.

Um corpus de textos é uma coleção de textos coletados de acordo com um certo princípio de representatividade (por gênero, autoria, etc.), em que todos os textos são marcados, ou seja, dotados de alguma marcação linguística (anotações) - morfológica, de acento, sintática , etc. Atualmente, existem pelo menos uma centena de corpora diferentes - para diferentes NL e com diferentes marcações, na Rússia o mais famoso é o Corpus Nacional da Língua Russa.

Corpora rotulados são criados por linguistas e são usados ​​tanto para pesquisa linguística quanto para ajuste (treinamento) de modelos e processadores usados ​​em CL usando métodos matemáticos bem conhecidos de aprendizado de máquina. Assim, o aprendizado de máquina é usado para configurar métodos para resolver ambiguidade lexical, reconhecer partes do discurso e resolver referências anafóricas.

Como os corpora e as coleções de textos são sempre limitados em termos dos fenômenos linguísticos neles apresentados (e os corpora, além disso, são criados há bastante tempo), recentemente os textos da Internet são cada vez mais considerados como um recurso linguístico mais completo. Sem dúvida, a Internet é a fonte mais representativa de amostras de fala modernas, mas seu uso como corpus requer o desenvolvimento de tecnologias especiais.

5. Aplicações de linguística computacional

O campo de aplicações da linguística computacional está em constante expansão, por isso caracterizaremos aqui os problemas aplicados mais conhecidos resolvidos por suas ferramentas.

Tradução automática- a primeira aplicação do CL, com o qual esta área surgiu e se desenvolveu. Os primeiros programas de tradução foram construídos há mais de 50 anos e baseavam-se na mais simples estratégia de tradução palavra por palavra. No entanto, rapidamente se percebeu que a tradução automática requer um modelo linguístico completo que leve em conta todos os níveis da língua, até a semântica e a pragmática, o que repetidamente dificultou o desenvolvimento dessa direção. Um modelo bastante completo é usado no sistema doméstico ETAP, que traduz textos científicos do francês para o russo.

Observe, no entanto, que no caso de tradução para um idioma relacionado, por exemplo, ao traduzir do espanhol para o português ou do russo para o ucraniano (que têm muito em comum na sintaxe e na morfologia), o processador pode ser implementado com base em um modelo, por exemplo, baseado na mesma estratégia de tradução palavra por palavra.

Atualmente, existe toda uma gama de sistemas de tradução por computador (de qualidade variável), desde grandes projetos de pesquisa internacionais até tradutores automáticos comerciais. De grande interesse são os projetos de tradução multilíngue, utilizando uma linguagem intermediária na qual o significado das frases traduzidas é codificado. Outra direção moderna é a tradução estatística, baseada nas estatísticas da tradução de palavras e frases (essas ideias, por exemplo, são implementadas no tradutor do mecanismo de pesquisa do Google).

Mas apesar de muitas décadas de desenvolvimento de toda essa área, em geral, a tarefa da tradução automática ainda está muito longe de ser completamente resolvida.

Outra aplicação bastante antiga da linguística computacional é recuperação de informação e tarefas relacionadas de indexação, resumo, classificação e categorização de documentos.

A pesquisa de texto completo de documentos em grandes bancos de dados de documentos (principalmente científicos, técnicos, comerciais), geralmente é realizada com base em sua pesquisar imagens, que é entendido como um conjunto palavras-chave- palavras que reflitam o tema principal do documento. A princípio, apenas palavras individuais da LS foram consideradas como palavras-chave, e a busca foi realizada sem levar em consideração sua flexão, o que é acrítico para idiomas fracamente flexionais como o inglês. Para as línguas flexionais, por exemplo, para o russo, foi necessário utilizar um modelo morfológico que levasse em conta a flexão.

A solicitação de pesquisa também foi apresentada como um conjunto de palavras, documentos adequados (relevantes) foram determinados com base na semelhança da solicitação e na imagem de pesquisa do documento. A criação de uma imagem de pesquisa de um documento envolve indexação seu texto, ou seja, destacando palavras-chave nele. Como muitas vezes o tópico e o conteúdo do documento são exibidos com muito mais precisão não por palavras individuais, mas por frases, as frases começaram a ser consideradas palavras-chave. Isso complicou significativamente o procedimento de indexação de documentos, pois era necessário usar várias combinações de critérios estatísticos e linguísticos para selecionar frases significativas no texto.

De fato, a recuperação de informações usa principalmente padrão de vetor de texto(as vezes chamado sacola do palavras- um saco de palavras), em que o documento é representado por um vetor (conjunto) de suas palavras-chave. Os modernos motores de busca na Internet também utilizam este modelo, indexando os textos pelas palavras neles utilizadas (ao mesmo tempo, utilizam procedimentos de classificação muito sofisticados para devolver documentos relevantes).

O modelo de texto especificado (com algumas complicações) também é usado nos problemas relacionados de recuperação de informações considerados abaixo.

Resumo de texto- reduzir seu volume e obter seu resumo - abstract (conteúdo contratado), o que torna mais rápida a busca em acervos de documentos. Também pode ser elaborado um resumo geral para diversos documentos relacionados ao tema.

O principal método de abstração automática ainda é a seleção das frases mais significativas do texto abstraído, para as quais as palavras-chave do texto geralmente são calculadas primeiro e o coeficiente de significância das frases do texto é calculado. A escolha de frases significativas é complicada por ligações anafóricas de frases, cuja quebra é indesejável - para resolver este problema, estão sendo desenvolvidas certas estratégias para selecionar frases.

Uma tarefa perto de referenciar - anotação o texto do documento, ou seja, compilando sua anotação. Em sua forma mais simples, um resumo é uma lista dos principais tópicos do texto, para os quais os procedimentos de indexação podem ser usados ​​para destacar.

Ao criar grandes coleções de documentos, as tarefas são relevantes classificação e agrupamento textos para criar classes de documentos relacionados ao tema. Classificação significa atribuir cada documento a uma determinada classe com parâmetros conhecidos antecipadamente, e agrupamento significa dividir um conjunto de documentos em agrupamentos, ou seja, subconjuntos de documentos relacionados tematicamente. Para resolver esses problemas, são utilizados métodos de aprendizado de máquina e, portanto, essas tarefas aplicadas são chamadas de Text Mining e pertencem à direção científica conhecida como Data Mining, ou mineração de dados.

Muito próximo do problema de classificação rubricando texto - sua atribuição a um dos títulos temáticos previamente conhecidos (geralmente os títulos formam uma árvore hierárquica de tópicos).

O problema da classificação está se tornando mais difundido, é resolvido, por exemplo, ao reconhecer spam, e uma aplicação relativamente nova é a classificação de mensagens SMS em dispositivos móveis. Uma nova e relevante direção de pesquisa para a tarefa geral de recuperação de informação é a busca de documentos multilíngues.

Outra tarefa relativamente nova relacionada à recuperação de informações é formação de respostas a perguntas(Resposta à pergunta) . Essa tarefa é resolvida determinando o tipo de pergunta, procurando textos que potencialmente contenham a resposta a essa pergunta e extraindo a resposta desses textos.

Uma direção aplicada completamente diferente, que está se desenvolvendo, embora lentamente, mas com firmeza, é automatização da preparação e edição textos sobre EY. Uma das primeiras aplicações nesse sentido foram os programas para detectar automaticamente a hifenização de palavras e os programas para verificação ortográfica de texto (ortográficos ou autocorretores). Apesar da aparente simplicidade do problema da hifenização, sua solução correta para muitos NLs (por exemplo, inglês) requer conhecimento da estrutura morfêmica das palavras do idioma correspondente e, portanto, do dicionário correspondente.

A verificação ortográfica foi implementada há muito tempo em sistemas comerciais e conta com um modelo de vocabulário e morfologia apropriado. Um modelo de sintaxe incompleto também é usado, com base no qual todos os erros sintáticos bastante frequentes (por exemplo, erros de concordância de palavras) são revelados. Ao mesmo tempo, a detecção de erros mais complexos, por exemplo, o uso indevido de preposições, ainda não foi implementada nos autocorretores. Muitos erros lexicais também não são detectados, em particular, erros resultantes de erros de digitação ou uso indevido de palavras semelhantes (por exemplo, peso em vez de pesado). Nos estudos modernos de CL, são propostos métodos para a detecção e correção automatizada de tais erros, bem como alguns outros tipos de erros estilísticos. Esses métodos usam estatísticas sobre a ocorrência de palavras e frases.

Uma tarefa aplicada próxima ao apoio à preparação de textos é ensino de lingua natural, no âmbito desta direção, são frequentemente desenvolvidos sistemas informáticos para o ensino de línguas - inglês, russo, etc. (sistemas semelhantes podem ser encontrados na Internet). Normalmente, esses sistemas suportam o estudo de certos aspectos da linguagem (morfologia, vocabulário, sintaxe) e são baseados em modelos apropriados, por exemplo, um modelo de morfologia.

Quanto ao estudo do vocabulário, também são usados ​​análogos eletrônicos de dicionários de texto (nos quais, de fato, não há modelos de linguagem). No entanto, dicionários de computador multifuncionais também estão sendo desenvolvidos que não possuem análogos de texto e são voltados para uma ampla gama de usuários - por exemplo, um dicionário de frases russas Crosslexic. Este sistema abrange uma ampla gama de vocabulário - palavras e suas combinações de palavras aceitáveis, e também fornece informações sobre modelos de gerenciamento de palavras, sinônimos, antônimos e outros correlatos semânticos de palavras, o que é claramente útil não apenas para quem estuda russo, mas também para falantes nativos.

A próxima área de aplicação que vale a pena mencionar é geração automática textos sobre EY. Em princípio, esta tarefa pode ser considerada uma subtarefa da tarefa de tradução automática já considerada acima, no entanto, no âmbito da direção, existem várias tarefas específicas. Tal tarefa é a geração multilíngue, ou seja, a construção automática em vários idiomas de documentos especiais - fórmulas de patentes, instruções de operação para produtos técnicos ou sistemas de software, com base em sua especificação em uma linguagem formal. Modelos de linguagem bastante detalhados são usados ​​para resolver esse problema.

Uma tarefa aplicada cada vez mais relevante, muitas vezes referida como Text Mining, é extraindo informações de textos, ou Extração de Informações, que é necessária para resolver problemas de análise econômica e industrial. Para fazer isso, determinados objetos são identificados no teste NL - entidades nomeadas (nomes, personalidades, nomes geográficos), seus relacionamentos e eventos associados a eles. Como regra, isso é implementado com base na análise parcial do texto, permitindo o processamento de feeds de notícias de agências de notícias. Como a tarefa é bastante complexa não apenas teoricamente, mas também tecnologicamente, a criação de sistemas significativos para extração de informações de textos é viável no âmbito das empresas comerciais.

A direção de Text Mining inclui ainda duas outras tarefas relacionadas - a seleção de opiniões (Opinion Mining) e a avaliação da tonalidade dos textos (Sentiment Analysis), atraindo a atenção de um número cada vez maior de pesquisadores. A primeira tarefa busca (em blogs, fóruns, lojas online, etc.) opiniões de usuários sobre produtos e outros objetos e analisa essas opiniões. A segunda tarefa aproxima-se da tarefa clássica de análise de conteúdo de textos de comunicação de massa, avalia o tom geral dos enunciados.

Outra aplicação que vale a pena mencionar é - apoio ao diálogo com o usuário no NL no âmbito de qualquer sistema de software de informação. Na maioria das vezes, esse problema foi resolvido para bancos de dados especializados - neste caso, a linguagem de consulta é bastante limitada (lexicalmente e gramaticalmente), o que permite o uso de modelos de linguagem simplificados. As solicitações à base, formuladas em NL, são traduzidas para uma linguagem formal, após o que é realizada a busca das informações necessárias e construída a frase de resposta correspondente.

Como o último em nossa lista de aplicativos CL (mas não em importância), indicamos reconhecimento e síntese de voz. Erros de reconhecimento que inevitavelmente surgem nestas tarefas são corrigidos por métodos automáticos baseados em dicionários e conhecimentos linguísticos sobre morfologia. O aprendizado de máquina também será aplicado nessa área.

Conclusão

A linguística computacional demonstra resultados bastante tangíveis em diversas aplicações para processamento automático de textos em NL. Seu desenvolvimento posterior depende tanto do surgimento de novas aplicações quanto do desenvolvimento independente de vários modelos de linguagem, nos quais muitos problemas ainda não foram resolvidos. Os mais desenvolvidos são os modelos de análise morfológica e de síntese. Os modelos de sintaxe ainda não foram trazidos ao nível de módulos estáveis ​​e eficientes, apesar do grande número de formalismos e métodos propostos. Ainda menos estudados e formalizados são os modelos de nível semântico e pragmático, embora o processamento automático do discurso já seja exigido em várias aplicações. Observe que as ferramentas já existentes da própria linguística computacional, o uso de aprendizado de máquina e corpora de texto, podem avançar significativamente na solução desses problemas.

Literatura

1. Baeza-Yates, R. e Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

2. Bateman, J., Zock M. Natural Language Generation. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p.304.

3. Biber, D., Conrad S. e Reppen D. Linguística de Corpus. Investigando a estrutura e o uso da linguagem. Cambridge University Press, Cambridge, 1998.

4. Bolshakov, I. A., Linguística putacional de Gelbukh. Modelos, Recursos, Aplicações. México, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical Machine Translation. // Linguística Computacional, Vol. 19(2): 263-3

6. Carroll J R. Análise. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 233-248.

7. Chomsky, N. Syntactic Structures. Haia: Mouton, 1957.

8. Grishman R. Extração de informações. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 545-559.

9. Harabagiu, S., Moldovan D. Resposta a perguntas. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 560-582.

10. Hearst, M. A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.) WordNet: Um banco de dados lexical eletrônico. MIT Press, Cambridge, 1998, p.131-151.

11. Hirst, G. Ontology and the Lexicon. In.: Handbook on Ontology in Niformation Systems. Berlim, Springer, 2003.

12. Jacquemin C., Bourigault D. Extração de termos e indexação automática // Mitkov R. (ed.): Handbook of Computational Linguistics. Oxford University Press, 2003. p. 599-615.

13. Kilgarriff, A., G. Grefenstette. Introdução à Edição Especial na Web como linguística putacional, V. 29, No. 3, 2003, pág. 333-347.

14. Manning, cap. D., H. Schütze. Fundamentos do Processamento Estatístico de Linguagem Natural. MIT Press, 1999.

15. Matsumoto Y. Aquisição de Conhecimento Lexical. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 395-413.

16. O Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.

17. Oakes, M., Paice C. D. Extração de termos para abstração automática. Avanços Recentes na Terminologia Computacional. D. Bourigault, C. Jacquemin e M. L "Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.

18. Pedersen, T. Uma árvore de decisão de bigramas é um preditor preciso dos sentidos das palavras. Proc. 2ª Reunião Anual do NAC ACL, Pittsburgh, PA, 2001, p. 79-86.

19. Samuelsson C. Métodos Estatísticos. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 358-375.

20. Salton, G. Processamento automático de texto: a transformação, análise e recuperação de informações por computador. Reading, MA: Addison-Wesley, 1988.

21. Somers, H. Tradução automática: Últimos desenvolvimentos. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, p. 512-528.

22. Strzalkowski, T. (ed.) Natural Language Information Retrieval. Kluwer, 19h.

23. Woods W. A. ​​Grammers de Rede de Transição para Análise de Linguagem Natural/ Comunicações da ACM, V. 13, 1970, No. 10, p. 591-606.

24. Word Net: um banco de dados lexical eletrônico. /Christian Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic Collocation Suggestion in Academic Writing // Proceedings of the ACL 2010 Conference Short Papers, 2010.

26. e outros Suporte linguístico do sistema ETAP-2. Moscou: Nauka, 1989.

27. etc. Tecnologias de análise de dados: Data Mining, Visual Mining, Text Mining, OLAP - 2ª ed. - São Petersburgo: BHV-Petersburgo, 2008.

28. Bolshakov, Vocabulary - um grande dicionário eletrônico de combinações e conexões semânticas de palavras russas. // Comp. linguística e inteligência. tecnologias: Anais de int. Conf. "Diálogo 2009". Edição: RGGU, 2009, pp. 45-50.

29. Bolshakova E. I., Bolshakov detecção e correção automatizada de malapropismos russos // NTI. Ser. 2, nº 5, 2007, pp. 27-40.

30. Wang, Kinch V. Uma estratégia para compreender um texto coerente.// Novo em linguística estrangeira. Questão. XXIII– M., Progresso, 1988, p. 153-211.

31. Vasiliev V. G., Krivenko M. P. Métodos de processamento automatizado de texto. – M.: IPI RAN, 2008.

32. Vinograd T. Um programa que entende linguagem natural - M., mundo, 1976.

33. Estrutura suave da linguagem natural em sistemas de comunicação automatizados. - M., Nauka, 1985.

34. Gusev, V.D., Dicionário de parônimos Salomatina: versão 2. // NTI, Ser. 2, nº 7, 2001, p. 26-33.

35. Zakharov - espaço como corpus de linguagem // Linguística Computacional e Tecnologias Inteligentes: Proceedings of Int. Diálogo da Conferência '2005 / Ed. , - M.: Nauka, 2005, p. 166-171.

36. Kasevich de linguística geral. - M., Nauka, 1977.

37. Leontief compreensão de textos: Sistemas, modelos, recursos: Textbook - M.: Academy, 2006.

38. Dicionário Enciclopédico Linguístico / Ed. V. N. Yartseva, Moscou: Enciclopédia Soviética, 1990, 685 p.

39., Saliy para indexação e categorização automática: desenvolvimento, estrutura, manutenção. // NTI, Ser. 2, Nº 1, 1996.

40. Luger J. Inteligência artificial: estratégias e métodos para resolver problemas complexos. M., 2005.

41. McQueen K. Estratégias discursivas para síntese de texto em linguagem natural // Novo em linguística estrangeira. Questão. XXIV. M.: Progresso, 1989, pp. 311-356.

42. Teoria de Melchuk dos modelos linguísticos "SIGNIFICADO "TEXTO". - M., Nauka, 1974.

43. Corpus Nacional da Língua Russa. http://*****

44. Khoroshevsky VF OntosMiner: uma família de sistemas para extração de informações de coleções multilíngues de documentos // Nona Conferência Nacional de Inteligência Artificial com Participação Internacional KII-2004. T. 2. - M.: Fizmatlit, 2004, pp. 573-581.

linguística software de linguística estatística

História do desenvolvimento da linguística computacional

O processo de formação e formação da linguística moderna como ciência da linguagem natural é um longo desenvolvimento histórico do conhecimento linguístico. O conhecimento linguístico é baseado em elementos, cuja formação ocorreu no processo de atividade, indissociavelmente ligada ao desenvolvimento da estrutura da fala oral, ao surgimento, ao desenvolvimento e aprimoramento da escrita, ao aprender a escrever, bem como à interpretação. e decodificação de textos.

A linguagem natural como objeto da linguística ocupa um lugar central nessa ciência. No processo de desenvolvimento da linguagem, as ideias sobre ela também mudaram. Se anteriormente nenhuma importância especial era atribuída à organização interna da língua, e era considerada, antes de tudo, no contexto de sua relação com o mundo exterior, então, a partir do final do século XIX - início do século XX , um papel especial é atribuído à estrutura formal interna da linguagem. Foi durante esse período que o famoso linguista suíço Ferdinand de Saussure desenvolveu os fundamentos de ciências como a semiologia e a linguística estrutural, detalhados em seu livro A Course in General Linguistics (1916).

O cientista é dono da ideia de considerar a linguagem como um mecanismo único, um sistema integral de signos, que por sua vez possibilita descrever a linguagem matematicamente. Saussure foi o primeiro a propor uma abordagem estrutural da linguagem, ou seja, a descrição de uma língua por meio do estudo das relações entre suas unidades. Por unidades, ou "sinais", ele entendia uma palavra que combina significado e som. O conceito proposto pelo cientista suíço baseia-se na teoria da linguagem como um sistema de signos, composto por três partes: linguagem (da langue francesa), fala (da parole francesa) e atividade da fala (da langage francesa).

O próprio cientista definiu a ciência que criou, a semiologia, como "uma ciência que estuda a vida dos signos no quadro da vida da sociedade". Sendo a língua um sistema de signos, em busca de uma resposta à questão do lugar que a linguística ocupa entre as outras ciências, Saussure argumentou que a linguística faz parte da semiologia. É geralmente aceito que foi o filólogo suíço que lançou as bases teóricas de uma nova direção na linguística, tornando-se o fundador, o "pai" da linguística moderna.

O conceito apresentado por F. de Saussure foi desenvolvido nos trabalhos de muitos cientistas notáveis: na Dinamarca - L. Elmslev, na República Tcheca - N. Trubetskoy, nos EUA - L. Bloomfield, Z. Harris, N. Chomsky. Quanto ao nosso país, aqui a linguística estrutural começou seu desenvolvimento aproximadamente no mesmo período de tempo que no Ocidente - na virada dos séculos XIX-XX. - nas obras de F. Fortunatov e I. Baudouin de Courtenay. Deve-se notar que I. Baudouin de Courtenay trabalhou em estreita colaboração com F. de Saussure. Se Saussure lançou as bases teóricas da linguística estrutural, então Baudouin de Courtenay pode ser considerado a pessoa que lançou as bases para a aplicação prática dos métodos propostos pelo cientista suíço. Foi ele quem definiu a linguística como uma ciência que usa métodos estatísticos e dependências funcionais, e a separou da filologia. A primeira experiência de aplicação de métodos matemáticos em linguística foi a fonologia - a ciência da estrutura dos sons de uma língua.

Note-se que os postulados propostos por F. de Saussure puderam refletir-se nos problemas da linguística que eram relevantes em meados do século XX. É nesse período que se delineia uma clara tendência à matematização da ciência da linguagem. Praticamente em todos os grandes países, começa o rápido desenvolvimento da ciência e da tecnologia da computação, que por sua vez exigia cada vez mais novas bases linguísticas. O resultado de tudo isso foi a rápida convergência das ciências exatas e humanas, bem como a interação ativa da matemática e da linguística, que encontrou aplicação prática na resolução de problemas científicos urgentes.

Na década de 1950, na interseção de ciências como matemática, linguística, ciência da computação e inteligência artificial, surgiu uma nova direção da ciência - a linguística computacional (também conhecida como linguística de máquina ou processamento automático de textos em linguagem natural). As principais etapas no desenvolvimento dessa direção ocorreram no contexto da evolução dos métodos de inteligência artificial. Um poderoso impulso para o desenvolvimento da linguística computacional foi a criação dos primeiros computadores. No entanto, com o advento de uma nova geração de computadores e linguagens de programação nos anos 60, inicia-se uma etapa fundamentalmente nova no desenvolvimento dessa ciência. Deve-se notar também que as origens da linguística computacional remontam aos trabalhos do famoso linguista americano N. Chomsky no campo da formalização da estrutura da linguagem. Os resultados de sua pesquisa, obtidos na intersecção da linguística e da matemática, formaram a base para o desenvolvimento da teoria das linguagens formais e gramáticas (gramáticas generativas ou generativas), que é amplamente utilizada para descrever linguagens naturais e artificiais, em linguagens de programação específicas. Para ser mais preciso, essa teoria é uma disciplina bastante matemática. Pode ser considerado um dos primeiros em tal direção da linguística aplicada como a linguística matemática.

Os primeiros experimentos e primeiros desenvolvimentos em linguística computacional relacionam-se à criação de sistemas de tradução automática, bem como sistemas que simulam as habilidades da linguagem humana. No final dos anos 80, com o advento e o desenvolvimento ativo da Internet, houve um rápido crescimento no volume de informações textuais disponíveis em formato eletrônico. Isso levou ao fato de que as tecnologias de recuperação da informação passaram para um estágio qualitativamente novo de seu desenvolvimento. Havia a necessidade de processamento automático de textos em linguagem natural, surgiram tarefas e tecnologias completamente novas. Os cientistas enfrentam um problema como o processamento rápido de um enorme fluxo de dados não estruturados. Para encontrar uma solução para este problema, grande importância tem sido dada ao desenvolvimento e aplicação de métodos estatísticos na área de processamento automático de texto. Foi com a ajuda deles que se tornou possível resolver problemas como dividir textos em clusters unidos por um tema comum, destacar certos fragmentos no texto etc. Além disso, o uso de métodos de estatística matemática e aprendizado de máquina possibilitou resolver os problemas de reconhecimento de fala e a criação de mecanismos de busca.

Os cientistas não pararam nos resultados alcançados: continuaram a estabelecer novas metas e objetivos, a desenvolver novas técnicas e métodos de pesquisa. Tudo isso levou ao fato de que a linguística passou a atuar como uma ciência aplicada, combinando uma série de outras ciências, sendo o protagonismo a matemática com sua variedade de métodos quantitativos e a capacidade de aplicá-los para uma compreensão mais profunda dos fenômenos. sendo estudado. Assim começou a sua formação e desenvolvimento da linguística matemática. No momento, esta é uma ciência bastante “jovem” (existe há cerca de cinquenta anos), no entanto, apesar de sua “idade muito jovem”, é um campo de conhecimento científico já estabelecido com muitas realizações de sucesso.

O termo "linguística computacional" geralmente se refere a uma ampla área de uso de ferramentas de computador - programas, tecnologias de computador para organizar e processar dados - para modelar o funcionamento de uma linguagem em determinadas condições, situações, áreas problemáticas, bem como o escopo de modelos de linguagem de computador, apenas em linguística, mas também em disciplinas relacionadas. Na verdade, apenas neste último caso estamos falando de linguística aplicada em sentido estrito, pois a modelagem de linguagem computacional também pode ser considerada como um campo de aplicação da teoria da programação (ciência da computação) no campo da linguística. No entanto, a prática geral é tal que o escopo da linguística computacional abrange quase tudo relacionado ao uso de computadores em linguística: "O termo" linguística computacional "define uma orientação geral para o uso de computadores para resolver uma variedade de problemas científicos e práticos relacionadas com a linguagem, sem limitar de forma alguma as formas de resolver esses problemas.

Aspecto institucional da linguística computacional. Como direção científica especial, a linguística computacional tomou forma nos anos 60. O fluxo de publicações nesta área é muito alto. Além das coleções temáticas, a revista Computational Linguistics é publicada trimestralmente nos EUA. Um grande trabalho organizacional e científico é realizado pela Association for Computational Linguistics, que possui estruturas regionais em todo o mundo (em particular, a filial europeia). A cada dois anos há conferências internacionais sobre linguística computacional - KOLING. Questões relevantes também são amplamente representadas em conferências internacionais sobre inteligência artificial em vários níveis.

Kit de ferramentas cognitivas de linguística computacional

A linguística computacional como uma disciplina aplicada especial se distingue principalmente por sua ferramenta - isto é, pelo uso de ferramentas de computador para processar dados de linguagem. Como os programas de computador que modelam certos aspectos do funcionamento de uma linguagem podem usar uma variedade de ferramentas de programação, parece que não há necessidade de falar sobre uma metalinguagem comum. No entanto, não é. Existem princípios gerais de modelagem computacional do pensamento, que de alguma forma são implementados em qualquer modelo computacional. Essa linguagem é baseada na teoria do conhecimento desenvolvida em inteligência artificial e formando um importante ramo da ciência cognitiva.

A tese principal da teoria do conhecimento afirma que o pensamento é um processo de processamento e geração de conhecimento. "Conhecimento" ou "conhecimento" é considerado uma categoria indefinida. O sistema cognitivo humano atua como um "processador" que processa o conhecimento. Na epistemologia e na ciência cognitiva, distinguem-se dois tipos principais de conhecimento - declarativo ("saber o quê") e procedimental ("saber como"2)). O conhecimento declarativo geralmente é apresentado como um conjunto de proposições, declarações sobre algo. Um exemplo típico de conhecimento declarativo é a interpretação de palavras em dicionários explicativos comuns. Por exemplo, um copo] - "um pequeno recipiente arredondado, geralmente com uma alça, feito de porcelana, faiança, etc.". O conhecimento declarativo se presta ao procedimento de verificação em termos de "verdadeiro-falso". O conhecimento procedimental é apresentado como uma sequência (lista) de operações, ações a serem executadas. Esta é uma instrução geral sobre ações em uma determinada situação. Um exemplo típico de conhecimento processual são as instruções para o uso de eletrodomésticos.

Ao contrário do conhecimento declarativo, o conhecimento procedural não pode ser verificado como verdadeiro ou falso. Eles podem ser avaliados apenas pelo sucesso ou falha do algoritmo.

A maioria dos conceitos das ferramentas cognitivas da linguística computacional são homônimos: denotam simultaneamente algumas entidades reais do sistema cognitivo humano e formas de representar essas entidades em algumas metalinguagens. Em outras palavras, os elementos da metalinguagem têm um aspecto ontológico e instrumental. Ontologicamente, a divisão do conhecimento declarativo e procedimental corresponde a diferentes tipos de conhecimento do sistema cognitivo humano. Assim, o conhecimento sobre objetos específicos, objetos da realidade é principalmente declarativo, e as habilidades funcionais de uma pessoa para andar, correr, dirigir um carro são realizadas no sistema cognitivo como conhecimento processual. Instrumentalmente, o conhecimento (tanto ontologicamente procedimental quanto declarativo) pode ser representado como um conjunto de descrições, descrições e como um algoritmo, uma instrução. Em outras palavras, o conhecimento ontologicamente declarativo sobre o objeto da realidade "mesa" pode ser representado proceduralmente como um conjunto de instruções, algoritmos para sua criação, montagem (= aspecto criativo do conhecimento processual) ou como algoritmo para seu uso típico (= funcional aspecto do conhecimento processual). No primeiro caso, este pode ser um guia para um carpinteiro iniciante e, no segundo, uma descrição das possibilidades de uma mesa de escritório. O inverso também é verdadeiro: o conhecimento ontologicamente procedimental pode ser representado declarativamente.

Requer uma discussão separada se qualquer conhecimento ontologicamente declarativo pode ser representado como procedimental e qualquer ontologicamente procedimental - como declarativo. Os pesquisadores concordam que qualquer conhecimento declarativo pode, em princípio, ser representado procedimentalmente, embora isso possa se tornar muito antieconômico para um sistema cognitivo. O inverso dificilmente é verdade. O fato é que o conhecimento declarativo é muito mais explícito, é mais fácil para uma pessoa entender do que o conhecimento procedimental. Em contraste com o conhecimento declarativo, o conhecimento procedimental é predominantemente implícito. Assim, a habilidade linguística, sendo conhecimento procedimental, está escondida de uma pessoa, não é percebida por ela. Uma tentativa de explicar os mecanismos de funcionamento da linguagem leva à disfunção. Especialistas no campo da semântica lexical sabem, por exemplo, que a introspecção semântica de longo prazo necessária para estudar o plano de conteúdo de uma palavra leva o pesquisador a perder parcialmente a capacidade de distinguir entre usos corretos e incorretos da palavra analisada . Outros exemplos podem ser citados. Sabe-se que, do ponto de vista da mecânica, o corpo humano é um sistema complexo de dois pêndulos que interagem.

Na teoria do conhecimento, várias estruturas de conhecimento são usadas para estudar e representar o conhecimento - quadros, cenários, planos. De acordo com M. Minsky, "um quadro é uma estrutura de dados projetada para representar uma situação estereotipada" [Minsky 1978, p.254]. Mais detalhadamente, pode-se dizer que um frame é uma estrutura conceitual para uma representação declarativa do conhecimento sobre uma situação unificada tematicamente tipada contendo slots interconectados por certas relações semânticas. Para fins de ilustração, um quadro é frequentemente representado como uma tabela, cujas linhas formam slots. Cada slot tem seu próprio nome e conteúdo (consulte a Tabela 1).

tabela 1

Fragmento do quadro "tabela" em uma visualização de tabela

Dependendo da tarefa específica, a estruturação de quadros pode ser muito mais complexa; um quadro pode incluir subquadros aninhados e referências a outros quadros.

Em vez de uma tabela, uma forma de representação de predicado é frequentemente usada. Nesse caso, o quadro está na forma de um predicado ou de uma função com argumentos. Existem outras maneiras de representar um quadro. Por exemplo, ele pode ser representado como uma tupla da seguinte forma: ( (nome do quadro) (nome do slot)) (valor do slot,), ..., (nome do slot n) (valor do slot n) ).

Normalmente, os frames nas linguagens de representação do conhecimento têm essa forma.

Como outras categorias cognitivas da linguística computacional, o conceito de frame é homônimo. Ontologicamente, é uma parte do sistema cognitivo humano e, nesse sentido, o quadro pode ser comparado a conceitos como gestalt, protótipo, estereótipo, esquema. Na psicologia cognitiva, essas categorias são consideradas precisamente do ponto de vista ontológico. Assim, D. Norman distingue duas formas principais de existência e organização do conhecimento no sistema cognitivo humano - redes e esquemas semânticos. "Esquemas", escreve ele, "são pacotes organizados de conhecimento reunidos para representar unidades de conhecimento distintas e autocontidas. Meu esquema para Sam pode conter informações que descrevem suas características físicas, suas atividades e traços de personalidade. Esse esquema se correlaciona com outros esquemas. que descrevem seus outros aspectos" [Norman 1998, p. 359]. Se tomarmos o lado instrumental da categoria frame, então esta é uma estrutura para a representação declarativa do conhecimento. Nos sistemas de IA atuais, os quadros podem formar estruturas de conhecimento complexas; os sistemas de quadros permitem hierarquia - um quadro pode fazer parte de outro quadro.

Em termos de conteúdo, o conceito de frame está muito próximo da categoria de interpretação. De fato, um slot é um análogo de valência, o preenchimento de um slot é um análogo de um actante. A principal diferença entre eles é que a interpretação contém apenas informações linguisticamente relevantes sobre o plano do conteúdo da palavra, e o frame, em primeiro lugar, não está necessariamente vinculado à palavra e, em segundo lugar, inclui todas as informações relevantes para uma determinada situação-problema, incluindo inclusive extralinguística (conhecimento do mundo) 3).

Um cenário é uma estrutura conceitual para a representação processual do conhecimento sobre uma situação ou comportamento estereotipado. Elementos de script são as etapas de um algoritmo ou instrução. As pessoas costumam falar sobre "cenário de restaurante", "cenário de compra" e assim por diante.

O quadro também foi originalmente usado para apresentação processual (cf. o termo "quadro processual"), mas o termo "cenário" é agora mais comumente usado nesse sentido. Um cenário pode ser representado não apenas como um algoritmo, mas também como uma rede, cujos vértices correspondem a determinadas situações, e os arcos correspondem a conexões entre situações. Junto com o conceito de script, alguns pesquisadores utilizam a categoria de script para modelagem computacional de inteligência. De acordo com R. Schenk, um script é uma sequência de relações causais geralmente aceita e bem conhecida. Por exemplo, entender o diálogo

Na rua derrama como um balde.

Você ainda tem que ir à loja: não há nada na casa - ontem os convidados varreram tudo.

é baseado em conexões semânticas não explícitas como "se chover, é indesejável sair, porque você pode adoecer". Essas conexões formam um roteiro, que é usado por falantes nativos para entender o comportamento verbal e não verbal de cada um.

Como resultado da aplicação do cenário a uma situação-problema específica, um plano). Um plano é usado para representar procedimentalmente o conhecimento sobre possíveis ações que levam a um objetivo específico. Um plano relaciona uma meta a uma sequência de ações.

No caso geral, o plano inclui uma sequência de procedimentos que transferem o estado inicial do sistema para o estado final e levam ao alcance de uma determinada submeta e meta. Nos sistemas de IA, o plano surge como resultado da atividade de planejamento ou planejamento do módulo correspondente - o módulo de planejamento. O processo de planejamento pode ser baseado na adaptação de dados de um ou mais cenários, ativados por procedimentos de teste, para solucionar uma situação-problema. A execução do plano é realizada por um módulo executivo que controla os procedimentos cognitivos e as ações físicas do sistema. No caso elementar, um plano em um sistema inteligente é uma sequência simples de operações; em versões mais complexas, o plano está associado a um assunto específico, seus recursos, capacidades, objetivos, com informações detalhadas sobre a situação-problema, etc. A emergência do plano ocorre no processo de comunicação entre o modelo do mundo, parte do qual é formado por cenários, o módulo de planejamento e o módulo executivo.

Ao contrário de um cenário, um plano está associado a uma situação específica, a um executor específico e persegue um objetivo específico. A escolha do plano é regida pelos recursos do contratante. A viabilidade de um plano é condição obrigatória para sua geração em um sistema cognitivo, e a característica de viabilidade é inaplicável a um cenário.

Outro conceito importante é o modelo do mundo. O modelo do mundo é usualmente entendido como um conjunto de conhecimentos sobre o mundo organizado de certa forma, inerente a um sistema cognitivo ou seu modelo computacional. Em um sentido um pouco mais geral, o modelo de mundo é falado como parte de um sistema cognitivo que armazena conhecimento sobre a estrutura do mundo, seus padrões, etc. Em outro sentido, o modelo de mundo está associado aos resultados da compreensão do texto ou, mais amplamente, o discurso. No processo de compreensão do discurso, constrói-se seu modelo mental, resultado da interação do plano de conteúdo do texto e do conhecimento sobre o mundo inerente a esse sujeito [Johnson-Laird 1988, p. 237 et seq.] . O primeiro e o segundo entendimentos são frequentemente combinados. Isso é típico de pesquisadores linguísticos que trabalham com linguística cognitiva e ciência cognitiva.

Intimamente relacionado à categoria de quadro está o conceito de cena. A categoria cena é usada principalmente na literatura como designação da estrutura conceitual para a representação declarativa de situações e suas partes atualizadas em um ato de fala e destacadas por meios linguísticos (lexemas, construções sintáticas, categorias gramaticais etc.). Estando associada a formas linguísticas, a cena muitas vezes é atualizada por uma determinada palavra ou expressão. Em gramáticas de enredo (veja abaixo), uma cena aparece como parte de um episódio ou narrativa. Exemplos característicos de cenas são um conjunto de cubos com os quais o sistema de IA trabalha, a cena de ação na história e os participantes da ação, etc. Na inteligência artificial, as cenas são utilizadas em sistemas de reconhecimento de imagens, bem como em programas voltados ao estudo (análise, descrição) de situações-problema. O conceito de cena tornou-se difundido na linguística teórica, bem como na lógica, em particular na semântica situacional, em que o significado de uma unidade lexical está diretamente associado à cena.

A linguística computacional praticamente se esgotou hoje. Isso é indicado diretamente pela experiência malsucedida de pesquisadores e desenvolvedores de produtos de informação "intelectuais", que trabalham há mais de meio século na criação de programas tão ambiciosos como, por exemplo, tradução automática adequada ou busca semântica de informações em matrizes de documentos em linguagem natural.

O futuro do processamento por máquina de textos em linguagem natural, é claro, é visto na criação e desenvolvimento de tecnologias supralinguísticas capazes de analisar o conteúdo da informação no nível de compreensão semântica do contexto, assim como uma pessoa pode fazer. No entanto, a criação de "máquinas pensantes" (Thinking Machine) durante muito tempo foi dificultada por dois fatores principais - a falta de metodologia necessária e ferramentas adequadas para resolver dois problemas fundamentais - isso é encontrar uma "fórmula de sentido" e construir um "modelo de conhecimento sobre o universo" em alguma forma formalizada acessível por computador, sem a qual, de fato, é impossível repetir a natureza do pensamento humano no nível do programa.

Os linguistas, juntamente com a cibernética, não foram capazes de superar esses problemas, pois esta já está fora dos limites de sua especialização disciplinar, o que, de fato, retardou significativamente o desenvolvimento de áreas aplicadas de processamento de texto tão solicitadas, como como a criação de sistemas de diálogo “inteligentes” ou “mecanismos de busca semântica na Internet”. E a mesma tradução automática ainda deixa muito a desejar.

A experiência do desenvolvimento do progresso científico e tecnológico sugere que o resultado revolucionário desejado é obtido, em regra, na junção de diferentes campos tecnológicos e disciplinas disciplinares. Aparentemente, o problema do “pensamento de máquina” será resolvido exatamente quando entendermos exatamente como nossa consciência natural funciona no plano processual e quando pudermos descobrir com segurança se esses procedimentos de pensamento, mostrados a nós na quantidade necessária e suficiente, algoritmo final de computador.

Deve-se notar que, nos últimos anos, começou a se desenvolver uma nova disciplina científica ("smartbuter"), que trata exatamente do fato de estudar a natureza processual da atividade mental humana. Podemos dizer que no momento temos um avanço significativo nessa direção e já entendemos com bastante clareza como funciona o algoritmo do pensamento humano. Se falamos sobre isso em geral, então, em primeiro lugar, deve-se notar que uma pessoa não pensa em imagens, como geralmente se pensa, mas em “padrões de comportamento de imagem” (IGO). Em segundo lugar, pensamos “ontologológicamente”, ou seja, fazemos perguntas constantemente, mesmo sem percebermos, e procuramos permanentemente respostas para elas (também automaticamente). Finalmente, uma compreensão significativa de tudo o que acontece ao redor do indivíduo ou em sua mente durante qualquer contemplação é realizada precisamente com a ajuda de uma certa “representação modelo” do universo circundante. Isso acontece comparando aqueles MPOs que ele recebe de forma operacional com as ideias sobre o Universo armazenadas na memória humana de longo prazo. Exatamente, essas três principais baleias compõem toda a tecnologia do pensamento natural, que agora resta apenas ser simplesmente transferida para uma linguagem compreensível para os programadores e obter o resultado tão esperado.

Quando as pessoas compreendem qualquer mensagem linguística natural, elas praticamente nunca estabelecem uma correspondência instantânea do julgamento declarado com os conceitos e padrões de comportamento das imagens armazenadas em sua memória. Cada vez que eles dão aos MPOs recebidos (percebidos) a primeira correspondência associativo-heurística que surge em suas mentes, com base nas especificidades de sua experiência e conhecimento acumulados, e só então, no curso de repensar o texto, eles começam refinar e concretizar as informações recebidas. A linguística computacional, por outro lado, busca estabelecer correspondências exatas entre os significados das palavras, bem como suas relações mútuas, tentando superar o problema da ambiguidade das ferramentas verbais inerentes a qualquer língua, o que, na verdade, é muito diferente de como o nosso pensamento funciona. Afinal, uma pessoa alcança a compreensão da fala ou do texto não pelo conhecimento das cargas morfológicas das palavras ou pelo estabelecimento de ligações sintáticas entre as palavras, e nem mesmo porque reconheceu os significados específicos (semantis) das palavras, mas exatamente devido aos pressupostos associativos iniciais e à subsequente “rolagem iterativa” de todo o contexto” para traçar o quadro final da correspondência da informação percebida com o seu conteúdo interno.