Linguística de máquina. História, desenvolvimento e formação da linguística computacional como direção científica.

Filologia ensino médio Economia, está sendo lançado um novo programa de mestrado dedicado à linguística computacional: recebe candidatos com formação básica humanitária e matemática e qualquer pessoa interessada em resolver problemas em um dos ramos mais promissores da ciência. Sua líder, Anastasia Bonch-Osmolovskaya, disse à Teoria e Prática o que é linguística computacional, por que os robôs não substituirão os humanos e o que eles ensinarão em Mestrado em HSE em Linguística Computacional.

Este programa é quase o único desse tipo na Rússia. Onde você estudou sozinho?

Estudei na Universidade Estadual de Moscou no Departamento de Linguística Teórica e Aplicada Faculdade de Filologia. Não cheguei logo, no começo entrei filial russa, mas depois me interessei seriamente por linguística e fui atraído pela atmosfera que permanece no departamento até hoje. O mais importante é que haja um bom contato entre professores e alunos e seu interesse mútuo.

Quando tive filhos e tive que ganhar a vida, entrei no campo da linguística comercial. Em 2005, não estava muito claro qual era essa área de atuação como tal. Trabalhei em diferentes empresas linguísticas: comecei com uma pequena empresa no site Public.ru - esta é uma biblioteca de mídia, onde comecei a trabalhar com tecnologias linguísticas. Depois trabalhei por um ano na Rosnanotech, onde tive a ideia de fazer um portal analítico para que os dados nele fossem estruturados automaticamente. Depois, chefiei o departamento linguístico da empresa Avicomp - já é uma produção séria na área linguística computacional e tecnologias semânticas. Ao mesmo tempo, dei um curso de linguística computacional na Universidade Estadual de Moscou e tentei torná-lo mais moderno.

Dois recursos para um linguista: - um site criado por linguistas para pesquisas científicas e aplicadas relacionadas à língua russa. Este é um modelo da língua russa, apresentado com a ajuda de uma enorme variedade de textos de diferentes gêneros e períodos. Os textos são fornecidos com marcação linguística, que pode ser usada para obter informações sobre a frequência de determinados fenômenos linguísticos. Wordnet - um enorme banco de dados léxico da lingua inglesa, Ideia principal Wordnet - para conectar não palavras, mas seus significados em uma grande rede. Wordnet pode ser baixado e usado para seus próprios projetos.

O que a linguística computacional faz?

Este é o campo mais interdisciplinar. O mais importante aqui é entender o que está acontecendo no mundo eletrônico e quem o ajudará a fazer coisas específicas.

Estamos cercados por um grande número de informação digital, existem muitos projetos de negócios cujo sucesso depende do processamento da informação, esses projetos podem estar relacionados a marketing, política, economia e o que for. E é muito importante poder lidar com essa informação de forma eficaz - o principal não é apenas a velocidade de processamento da informação, mas também a facilidade com que você pode, depois de filtrar o ruído, obter os dados de que precisa e criar um imagem completa deles.

Anteriormente, algumas ideias globais estavam associadas à linguística computacional, por exemplo: as pessoas pensavam que a tradução automática substituiria a tradução humana, os robôs funcionariam em vez de pessoas. Mas agora parece uma utopia, e a tradução automática é usada nos mecanismos de busca para pesquisar rapidamente em um idioma desconhecido. Ou seja, agora a linguística raramente lida com tarefas abstratas - principalmente com algumas pequenas coisas que podem ser inseridas em um grande produto e ganhar dinheiro com isso.

Um de grandes tarefas linguística moderna - a web semântica, quando a busca ocorre não apenas pela coincidência de palavras, mas pelo significado, e todos os sites são de alguma forma marcados pela semântica. Isso pode ser útil, por exemplo, para relatórios policiais ou médicos que são escritos todos os dias. A análise de conexões internas fornece muitas informações necessárias e é incrivelmente longa para lê-las e calculá-las manualmente.

Em poucas palavras, temos mil textos, precisamos organizá-los em pilhas, apresentar cada texto como uma estrutura e obter uma tabela com a qual já podemos trabalhar. Isso é chamado de processamento de informações não estruturadas. Por outro lado, a linguística computacional lida, por exemplo, com a criação de textos artificiais. Existe uma empresa que criou um mecanismo para gerar textos sobre temas que são chatos para uma pessoa escrever: mudanças nos preços dos imóveis, previsão do tempo, relatório sobre jogos de futebol. É muito mais caro encomendar esses textos para uma pessoa, além disso, os textos de computador sobre esses tópicos são escritos em uma linguagem humana coerente.

Desenvolvimentos no campo da busca de informações não estruturadas na Rússia estão ativamente envolvidos em contratações "Yandex", "Kaspersky Lab" grupos de pesquisa quem estuda aprendizado de máquina. Alguém no mercado está tentando criar algo novo no campo da linguística computacional?

**Livros sobre Linguística Computacional:**

Daniel Jurafsky, Processamento de Fala e Linguagem

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Introdução à Recuperação de Informação

Jacob Testelec, "Introdução à Sintaxe Geral"

A maioria dos desenvolvimentos linguísticos são propriedade de grandes empresas, quase nada pode ser encontrado em acesso livre. Isso dificulta o desenvolvimento da indústria, não temos um mercado linguístico livre, soluções in a box.

Além disso, falta uma completa recursos de informação. Existe um projeto como o Corpus Nacional da Língua Russa. Este é um dos melhores corpus nacionais do mundo, que se desenvolve rapidamente e abre oportunidades incríveis para o desenvolvimento científico e pesquisa aplicada. A diferença é quase a mesma que na biologia - antes e depois da pesquisa de DNA.

Mas muitos recursos não existem em russo. Portanto, não há análogo a um recurso maravilhoso em inglês como o Framenet - essa é uma rede conceitual, onde todas as conexões possíveis de uma palavra específica com outras palavras são formalmente apresentadas. Por exemplo, existe a palavra "voar" - quem pode voar, onde, com que pretexto essa palavra é usada, com quais palavras ela é combinada e assim por diante. Este recurso ajuda a conectar o idioma com Vida real, ou seja, rastrear como uma determinada palavra se comporta no nível da morfologia e da sintaxe. É muito útil.

A Avicomp está atualmente desenvolvendo um plug-in para pesquisar artigos relacionados. Ou seja, se você estiver interessado em algum artigo, poderá ver rapidamente a história da trama: quando surgiu o tema, o que foi escrito e quando foi o pico de interesse nesse problema. Por exemplo, usando este plugin, será possível, a partir de um artigo sobre eventos na Síria, ver muito rapidamente como ano passado acontecimentos se desenrolaram ali.

Como será estruturado o processo de aprendizagem no programa de mestrado?

A educação em HSE é organizada em módulos separados - como em universidades ocidentais. Os alunos serão divididos em pequenas equipes, mini-startups - ou seja, ao final devemos obter vários projetos finalizados. Queremos obter produtos reais, que abriremos para as pessoas e deixaremos em domínio público.

Além de orientadores diretos de projetos de alunos, queremos encontrar curadores para eles entre seus empregadores potenciais- do mesmo "Yandex", por exemplo, que também vai jogar este jogo e dar alguns conselhos aos alunos.

Espero que as pessoas mais Áreas diferentes: programadores, linguistas, sociólogos, profissionais de marketing. Teremos vários cursos de adaptação em linguística, matemática e programação. Então teremos dois cursos sérios de linguística, e eles estarão conectados com as mais relevantes teorias linguísticas, queremos que nossos graduados sejam capazes de ler e entender artigos linguísticos contemporâneos. É a mesma coisa com a matemática. Teremos um curso chamado "Fundamentos Matemáticos da Linguística Computacional", que apresentará as seções da matemática em que se baseia a linguística computacional moderna.

Para se inscrever em um programa de mestrado, você precisa passar exame vestibular no idioma e passar em uma competição de portfólio.

Além das disciplinas principais, haverá uma linha de disciplinas eletivas, planejamos vários ciclos - dois deles são focados no aprofundamento de temas individuais, que incluem, por exemplo, tradução automática e linguística de corpus, e, em ao contrário, um está relacionado a áreas afins: como , redes sociais, aprendizado de máquina ou Humanidades Digitais - um curso que esperamos que seja ministrado em inglês.

Os linguistas da computação estão envolvidos no desenvolvimento de algoritmos de reconhecimento de texto e fala, na síntese de fala artificial, na criação de sistemas de tradução semântica e no próprio desenvolvimento da inteligência artificial (no sentido clássico da palavra, como substituto da inteligência humana, é improvável que apareça, mas vários sistemas especialistas baseados em análise de dados).

Os algoritmos de reconhecimento de voz serão cada vez mais usados ​​na vida cotidiana - casas inteligentes e dispositivos eletrônicos não terão controles remotos e botões, mas uma interface de voz será usada. Essa tecnologia está sendo aperfeiçoada, mas ainda há muitos desafios: é difícil para um computador reconhecer a fala humana, porque pessoas diferentes falam de maneira muito diferente. Portanto, via de regra, os sistemas de reconhecimento funcionam bem quando são treinados para um falante e já ajustados às suas características de pronúncia, ou quando o número de frases que o sistema pode reconhecer é limitado (como, por exemplo, em comandos de voz para TV ).

Especialistas na criação de programas de tradução semântica ainda têm muito trabalho pela frente: este momento bons algoritmos são desenvolvidos apenas para tradução de e para o inglês. Existem muitos problemas aqui - diferentes idiomas são organizados de maneira diferente em um plano semântico, isso difere até mesmo no nível de construção de frases, e nem todos os significados de um idioma podem ser transmitidos usando o aparato semântico de outro. Além disso, o programa deve distinguir entre homônimos, reconhecer corretamente as partes do discurso, selecionar valor correto palavra polissemântica apropriada ao contexto.

Sintetizar fala artificial (por exemplo, para robôs domésticos) também é um trabalho meticuloso. É difícil fazer com que o som da fala criado artificialmente seja natural para ouvido humano, porque existem milhões de nuances às quais não prestamos atenção, mas sem as quais tudo não é mais “isso” - falsos começos, pausas, tropeços etc. O fluxo de fala é contínuo e ao mesmo tempo discreto: falamos sem pausa entre as palavras, mas não nos é difícil entender onde termina uma palavra e começa outra, e para uma máquina isso será um grande problema.

A maior direção em linguística computacional está ligada ao Big Data. Afinal, existem enormes corpora de textos, como feeds de notícias, dos quais você precisa isolar certas informações - por exemplo, para destacar notícias ou afinar o RSS ao gosto de um determinado usuário. Essas tecnologias já existem e continuarão a se desenvolver, porque o poder de computação está crescendo rapidamente. A análise linguística de textos também é utilizada para garantir a segurança na Internet, informação necessária para serviços especiais.

Onde estudar como linguista computacional? Nós, infelizmente, temos uma divisão bastante forte entre especialidades relacionadas à linguística clássica e programação, estatística e análise de dados. E para se tornar um linguista digital, você precisa entender os dois. NO universidades estrangeiras existem programas de ensino superior em linguística computacional, mas ainda temos melhor opção- obter uma educação linguística básica e, em seguida, dominar o básico de TI. É bom que agora existam muitos cursos online diferentes, infelizmente, na minha época de estudante, não era assim. Estudei na Faculdade de Linguística Aplicada da Universidade Estadual de Linguística de Moscou, onde tínhamos cursos de inteligência artificial e reconhecimento de fala - mas ainda não o suficiente. Agora, as empresas de TI estão tentando ativamente interagir com as instituições. Meus colegas da Kaspersky Lab e eu também tentamos participar processo educacional: damos palestras, realizamos conferências estudantis, concedemos bolsas para alunos de pós-graduação. Mas, por enquanto, a iniciativa vem mais dos empregadores do que das universidades.

TRABALHO DO CURSO

na disciplina "Informática"

sobre o tema: "Linguística da Computação"


INTRODUÇÃO

2. Interfaces modernas de linguística computacional

CONCLUSÃO

LITERATURA


Introdução

As tecnologias de informação automatizadas desempenham um papel importante na vida da sociedade moderna. Com o passar do tempo, seu valor aumenta continuamente. Mas o desenvolvimento da tecnologia da informação é muito desigual: se nível moderno tecnologia de computador e meios de comunicação atinge a imaginação, então no campo do processamento de informação semântica, os sucessos são muito mais modestos. Esses sucessos dependem, em primeiro lugar, de conquistas no estudo dos processos do pensamento humano, dos processos de comunicação de fala entre as pessoas e da capacidade de simular esses processos em um computador.

Quando se trata de criar tecnologias de informação promissoras, os problemas de processamento automático informações de texto apresentados em línguas naturais vêm à tona. Isso é determinado pelo fato de que o pensamento de uma pessoa está intimamente ligado à sua linguagem. Além disso, a linguagem natural é uma ferramenta de pensamento. Ele é também remédio universal comunicação entre as pessoas - um meio de percepção, acumulação, armazenamento, processamento e transmissão de informações. Os problemas do uso da linguagem natural em sistemas automáticos de processamento de informações são tratados pela ciência da linguística computacional. Essa ciência surgiu há relativamente pouco tempo - na virada dos anos cinquenta e sessenta do século passado. Ao longo do último meio século, resultados científicos e práticos significativos foram obtidos no campo da linguística computacional: sistemas maquina de tradução textos de uma língua natural para outra, sistemas para recuperação automatizada de informações em textos, sistemas para análise automática e síntese da fala oral e muitos outros. Este trabalhoé dedicado à construção de uma interface de computador ideal usando linguística computacional ao conduzir pesquisa linguística.


1. Lugar e papel da linguística computacional na pesquisa linguística

NO mundo moderno A linguística computacional está sendo cada vez mais usada em vários estudos linguísticos.

A linguística computacional é uma área do conhecimento relacionada à resolução de problemas de processamento automático de informações apresentadas em linguagem natural. Central problemas científicos a linguística computacional é o problema da modelagem do processo de compreensão do significado dos textos (transição do texto para uma representação formalizada de seu significado) e o problema da síntese da fala (transição de uma representação formalizada do significado para textos em linguagem natural). Estes problemas surgem ao resolver uma série de problemas aplicados e, em particular, problemas de detecção automática e correção de erros ao inserir textos em um computador, análise automática e síntese de fala oral, tradução automática de textos de um idioma para outro, comunicação com um computador em linguagem natural, classificação e indexação automática de documentos de texto, sua referência automática, pesquisa de documentos em bases de dados de texto completo.

As ferramentas linguísticas criadas e utilizadas em linguística computacional podem ser condicionalmente divididas em duas partes: declarativas e procedurais. A parte declarativa inclui dicionários de unidades linguísticas e de fala, textos e vários tipos de tabelas gramaticais, enquanto a parte processual inclui meios de manipulação de unidades linguísticas e de fala, textos e tabelas gramaticais. A interface do computador refere-se à parte processual da linguística computacional.

O sucesso na resolução de problemas aplicados de linguística computacional depende, em primeiro lugar, da completude e precisão da representação dos meios declarativos na memória do computador e da qualidade dos meios procedimentais. Até à data, o nível necessário de resolução destes problemas ainda não foi alcançado, embora o trabalho no campo da linguística computacional esteja sendo realizado em todas as países desenvolvidos mundo (Rússia, EUA, Inglaterra, França, Alemanha, Japão, etc.).

No entanto, podem ser notadas importantes conquistas científicas e práticas no campo da linguística computacional. Assim, em vários países (Rússia, EUA, Japão, etc.) foram construídos sistemas experimentais e industriais para tradução automática de textos de um idioma para outro, vários sistemas experimentais para comunicação com computadores em linguagem natural foram construídos , está em andamento o trabalho de criação de bancos de dados terminológicos, tesauros, dicionários de máquina bilíngües e multilíngues (Rússia, EUA, Alemanha, França etc.), estão sendo construídos sistemas de análise e síntese automática da fala oral (Rússia, EUA, Japão, etc.) .), pesquisas estão em andamento no campo da construção de modelos de linguagens naturais.

Um importante problema metodológico da linguística computacional aplicada é a correta avaliação da correlação necessária entre os componentes declarativos e procedimentais dos sistemas de processamento automático de informação de texto. O que deve ser preferido: procedimentos computacionais poderosos baseados em sistemas de vocabulário relativamente pequenos com informações gramaticais e semânticas ricas, ou um componente declarativo poderoso com interfaces de computador relativamente simples? A maioria dos cientistas acredita que a segunda maneira é preferível. Levará mais rapidamente ao alcance de objetivos práticos, pois neste caso haverá menos becos sem saída e obstáculos difíceis de superar, e aqui será possível usar computadores em maior escala para automatizar pesquisa e desenvolvimento.

A necessidade de mobilizar esforços, principalmente no desenvolvimento da componente declarativa dos sistemas automáticos de processamento de texto, é confirmada por meio século de experiência no desenvolvimento da linguística computacional. Afinal, aqui, apesar dos indiscutíveis sucessos dessa ciência, o entusiasmo pelos procedimentos algorítmicos não trouxe o sucesso esperado. Houve até alguma decepção com as possibilidades dos meios processuais.

À luz do exposto, parece promissor tal caminho de desenvolvimento da linguística computacional, quando os principais esforços serão direcionados para a criação de dicionários poderosos de unidades de linguagem e fala, o estudo de sua estrutura semântico-sintática e a criação de procedimentos básicos para análise e síntese morfológica, semântico-sintática e conceitual de textos. Isso permitirá resolver uma ampla gama de problemas aplicados no futuro.

A linguística computacional enfrenta, em primeiro lugar, as tarefas de suporte linguístico aos processos de recolha, acumulação, processamento e procura de informação. Os mais importantes deles são:

1. Automatização da compilação e processamento linguístico de dicionários de máquina;

2. Automatização dos processos de detecção e correcção de erros na introdução de textos num computador;

3. Indexação automática de documentos e pedidos de informação;

4. Classificação e referenciamento automático de documentos;

5. Apoio linguístico a processos de busca de informação em bases de dados monolingues e multilingues;

6. Tradução automática de textos de uma língua natural para outra;

7. Construção de processadores linguísticos que proporcionem aos utilizadores a comunicação com sistemas de informação inteligentes automatizados (em particular, com sistemas especialistas) em linguagem natural, ou numa linguagem próxima do natural;

8. Extração de informações factuais de textos não formalizados.

Detenhamo-nos em detalhes sobre os problemas mais relevantes para o tópico de pesquisa.

NO atividades práticas centros de informação, há a necessidade de resolver o problema de detecção e correção automática de erros em textos quando eles são inseridos em um computador. Essa tarefa complexa pode ser condicionalmente dividida em três tarefas - as tarefas de ortografia, controle sintático e semântico de textos. O primeiro deles pode ser resolvido usando o procedimento de análise morfológica, que usa um dicionário de máquina de referência bastante poderoso de radicais de palavras. No processo de controle ortográfico, as palavras do texto são submetidas à análise morfológica, e se suas bases forem identificadas com as bases do dicionário de referência, são consideradas corretas; se não forem identificados, então, acompanhados de um micro-contexto, são distribuídos para visualização por uma pessoa. Uma pessoa detecta e corrige palavras distorcidas, e o sistema de software correspondente faz essas correções no texto corrigido.

A tarefa de controle sintático de textos para detectar erros neles é muito mais difícil do que a tarefa de controle ortográfico. Em primeiro lugar, porque inclui em sua composição a tarefa de controle ortográfico como seu componente obrigatório e, em segundo lugar, porque o problema da análise sintática de textos não formalizados ainda não foi totalmente resolvido. No entanto, o controle sintático parcial dos textos é bem possível. Há dois caminhos a seguir: ou compilar dicionários de máquina suficientemente representativos de estruturas sintáticas de referência e comparar com eles as estruturas sintáticas do texto analisado; ou desenvolver um sistema complexo de regras para verificar a consistência gramatical dos elementos do texto. A primeira forma nos parece mais promissora, embora, é claro, não exclua a possibilidade de utilizar elementos da segunda via. A estrutura sintática dos textos deve ser descrita em termos de classes gramaticais de palavras (mais precisamente, na forma de sequências de conjuntos de informações gramaticais para palavras).

A tarefa de controle semântico de textos para detectar erros semânticos neles deve ser atribuída à classe de tarefas de inteligência artificial. Na íntegra, só pode ser resolvido com base na modelagem dos processos do pensamento humano. Ao mesmo tempo, aparentemente, será necessário criar bases de conhecimento enciclopédicas poderosas e ferramentas de software para manipular o conhecimento. No entanto, para áreas temáticas limitadas e para informações formalizadas, esse problema é bastante solucionável. Deve ser colocado e resolvido como uma tarefa de controle semântico-sintático dos textos.

O problema de automatizar a indexação de documentos e consultas é tradicional para sistemas automatizados de busca de texto. A princípio, a indexação foi entendida como o processo de atribuição de índices de classificação a documentos e consultas, refletindo seu conteúdo temático. No futuro, esse conceito foi transformado e o termo "indexação" passou a se referir ao processo de tradução de descrições de documentos e consultas de uma linguagem natural para uma linguagem formalizada, em particular, para a linguagem de "imagens de busca". As imagens de busca de documentos passaram, via de regra, a ser feitas na forma de listas de palavras-chave e frases refletindo seu conteúdo temático, e imagens de busca de consultas - na forma de estruturas lógicas em que palavras-chave e frases eram conectadas umas às outras por operadores lógicos e sintáticos.

É conveniente realizar a indexação automática de documentos de acordo com os textos de seus resumos (se houver), pois o conteúdo principal dos documentos é refletido nos resumos de forma concentrada. A indexação pode ser feita com ou sem controle de dicionário de sinônimos. No primeiro caso, as palavras-chave e frases do dicionário de máquina de referência são pesquisadas no texto do título do documento e seu resumo, e apenas aquelas que se encontram no dicionário são incluídas no DOD. No segundo caso, palavras-chave e frases são extraídas do texto e incluídas no POD, independentemente de pertencerem a algum dicionário de referência. Uma terceira opção também foi implementada, onde, juntamente com os termos do tesauro da máquina, a AML também incluiu termos extraídos do título e da primeira frase do resumo do documento. Experimentos mostraram que os PODs compilados automaticamente com base nos títulos e resumos dos documentos fornecem uma maior completude da pesquisa do que os PODs compilados manualmente. Isso se explica pelo fato de que o sistema de indexação automática reflete de forma mais completa vários aspectos do conteúdo dos documentos do que o sistema de indexação manual.

Com a indexação automática de consultas, surgem aproximadamente os mesmos problemas da indexação automática de documentos. Aqui você também precisa extrair palavras-chave e frases do texto e normalizar as palavras incluídas no texto da consulta. Links lógicos entre palavras-chave e frases e operadores contextuais podem ser inseridos manualmente ou usando um procedimento automatizado. Um elemento importante O processo de indexação automática de uma consulta é a adição de suas palavras-chave e frases com seus sinônimos e hipônimos (às vezes também hiperônimos e outros termos associados aos termos originais da consulta). Isso pode ser feito automaticamente ou interativamente usando um dicionário de sinônimos.

Já consideramos parcialmente o problema de automatizar a busca de informações documentais em conexão com a tarefa de indexação automática. O mais promissor aqui é a busca de documentos por seus textos completos, pois o uso de qualquer tipo de substituto para este fim (descrições bibliográficas, busca de imagens de documentos e textos de seus resumos) leva à perda de informações durante a busca. As maiores perdas ocorrem quando suas descrições bibliográficas são utilizadas como substitutos de documentos primários, as menores - quando são utilizados resumos.

Caracteristicas importantes As qualidades da recuperação da informação são sua integridade e precisão. A completude da busca pode ser assegurada levando-se em conta, tanto quanto possível, os vínculos paradigmáticos entre as unidades de linguagem e fala (palavras e frases), e a precisão - levando-se em conta seus vínculos sintagmáticos. Há uma opinião de que a completude e a precisão da pesquisa estão inversamente relacionadas: as medidas para melhorar uma dessas características levam à deterioração da outra. Mas isso só é verdade para a lógica de pesquisa fixa. Se essa lógica for aprimorada, ambas as características poderão ser aprimoradas simultaneamente.

O processo de busca de informações em bancos de dados de texto completo deve ser construído como um processo de comunicação interativa entre um usuário e um sistema de recuperação de informação (IPS), no qual ele procura sequencialmente através de fragmentos de texto (parágrafos, parágrafos) que satisfaçam condições lógicas pedido, e seleciona aqueles que lhe interessam. Como os resultados finais da pesquisa podem ser dados como textos completos documentos, bem como qualquer de seus fragmentos.

Como se depreende das considerações anteriores, na busca automática de informações, é preciso superar a barreira linguística que surge entre o usuário e o IPS devido à variedade de formas de representação de um mesmo sentido que ocorre nos textos. Essa barreira se torna ainda mais significativa se você precisar pesquisar em bancos de dados multilíngues. A solução cardinal do problema aqui pode ser a tradução automática de textos de documentos de um idioma para outro. Isso pode ser feito com antecedência, antes de enviar documentos para um mecanismo de pesquisa, ou no processo de pesquisa de informações. NO último caso a consulta do usuário deve ser traduzida para o idioma da matriz de documentos em que a pesquisa está sendo realizada e os resultados da pesquisa para o idioma da consulta. De tal tipo motores de busca já está trabalhando na Internet. O sistema Cyrillic Browser também foi construído na VINITI RAS, o que possibilita a busca de informações em textos em russo em consultas em inglês com os resultados da pesquisa exibidos também no idioma do usuário.

Uma tarefa importante e promissora da linguística computacional é a construção de processadores linguísticos que permitem aos usuários se comunicarem com sistemas de informação automatizados inteligentes (em particular, com sistemas especialistas) em linguagem natural ou em uma linguagem próxima à natural. Uma vez que a informação é armazenada de forma formalizada em sistemas inteligentes modernos, os processadores linguísticos, atuando como intermediários entre uma pessoa e um computador, devem resolver as seguintes tarefas principais: representar seu significado em uma linguagem formalizada (ao inserir informações em um computador); 2) a tarefa de transição de uma representação formalizada do significado das mensagens de saída para sua representação em linguagem natural (quando a informação é dada a uma pessoa). A primeira tarefa deve ser resolvida por análise morfológica, sintática e conceitual de solicitações e mensagens de entrada, a segunda - por síntese conceitual, sintática e morfológica das mensagens de saída.

A análise conceitual de solicitações de informações e mensagens consiste em identificar sua estrutura conceitual (os limites dos nomes dos conceitos e as relações entre os conceitos no texto) e traduzir essa estrutura em uma linguagem formalizada. É realizado após a análise morfológica e sintática de solicitações e mensagens. A síntese conceitual das mensagens consiste na transição da representação dos elementos de sua estrutura em uma linguagem formalizada para uma representação verbal (verbal). Depois disso, as mensagens recebem o desenho sintático e morfológico necessário.

Para a tradução automática de textos de uma língua natural para outra, é necessário ter dicionários de correspondências de tradução entre os nomes dos conceitos. O conhecimento sobre tais correspondências tradutórias foi acumulado por muitas gerações de pessoas e publicado na forma de edições especiais - dicionários bilíngues ou multilíngues. Para especialistas que conhecem até certo ponto línguas estrangeiras, esses dicionários serviram como auxiliares valiosos na tradução de textos.

Em dicionários tradicionais bilíngües e multilíngues propósito geral equivalentes de transferência foram indicados principalmente para palavras individuais, para frases - com muito menos frequência. A indicação de equivalentes de tradução para frases era mais típica para dicionários terminológicos especiais. Portanto, ao traduzir segmentos de textos contendo palavras polissemânticas, os alunos muitas vezes tiveram dificuldades.

Abaixo estão as correspondências de tradução entre vários pares de frases em inglês e russo sobre tópicos "escolares".

1) O morcego parece um rato com asas - O morcego parece um rato com asas.

2) As crianças gostam de brincar na areia da praia - As crianças adoram brincar na areia da praia.

3) Uma gota de chuva caiu na minha mão - Uma gota de chuva caiu na minha mão.

4) A madeira seca queima facilmente - a madeira seca queima bem.

5) Ele fingiu não me ouvir - Ele fingiu não me ouvir.

Aqui as frases em inglês não são expressões idiomáticas. No entanto, sua tradução para o russo só pode ser considerada, com alguma extensão, como uma simples tradução palavra por palavra, já que quase todas as palavras nelas incluídas são polissêmicas. Portanto, apenas as conquistas da linguística computacional podem ajudar os alunos aqui.

O conteúdo do artigo

LINGUÍSTICA DA COMPUTAÇÃO, direção em linguística aplicada, focada no uso de ferramentas computacionais - programas, tecnologias computacionais para organizar e processar dados - para modelar o funcionamento de uma linguagem em determinadas condições, situações, áreas problemáticas, etc., bem como todo o escopo da computação modelos de linguagem em linguística e disciplinas relacionadas. Na verdade, apenas neste último caso estamos falando de linguística aplicada em sentido estrito, pois a modelagem computacional de uma linguagem também pode ser considerada como uma esfera de aplicação da ciência da computação e da teoria da programação para resolver problemas da ciência da linguagem. Na prática, no entanto, quase tudo relacionado ao uso de computadores em linguística é referido como linguística computacional.

Como uma direção científica especial, a linguística computacional tomou forma na década de 1960. O termo russo "linguística computacional" é um papel vegetal da linguística computacional inglesa. Como o adjetivo computacional em russo também pode ser traduzido como “computacional”, o termo “linguística computacional” também é encontrado na literatura, mas na ciência doméstica adquire um significado mais restrito, aproximando-se do conceito de “linguística quantitativa”. O fluxo de publicações nesta área é muito alto. Exceto coleções temáticas, nos Estados Unidos, a revista Computational Linguistics é publicada trimestralmente. Ótima organização e trabalho científicoé realizado pela Association for Computational Linguistics, que possui estruturas regionais (em particular, a filial europeia). A cada dois anos há conferências internacionais de linguística computacional - COLING. Questões relevantes geralmente são amplamente apresentadas também em várias conferências sobre inteligência artificial.

Toolkit de Linguística Computacional.

A linguística computacional, como uma disciplina aplicada especial, distingue-se principalmente por sua ferramenta - ou seja, sobre a utilização de ferramentas informáticas para o processamento de dados linguísticos. Porque o programas de computador, modelando certos aspectos do funcionamento da linguagem, pode usar as mais vários meios programação, então parece não haver necessidade de falar sobre o aparato conceitual geral da linguística computacional. No entanto, não é. Existem princípios gerais simulação de computador pensamento, que são de alguma forma implementados em qualquer modelo de computador. Eles são baseados na teoria do conhecimento, que foi originalmente desenvolvida no campo da inteligência artificial e mais tarde se tornou uma das seções da ciência cognitiva. O mais importante categorias conceituais linguística computacional são estruturas de conhecimento como "frames" (estruturas conceituais, ou, como se costuma dizer, estruturas conceituais para a representação declarativa do conhecimento sobre uma situação unificada tematicamente tipificada), "cenários" (estruturas conceituais para a representação processual do conhecimento sobre uma situação estereotipada situação ou comportamento estereotipado), "planos" (estruturas de conhecimento que fixam ideias sobre ações possíveis levando à conquista propósito específico). O conceito de "cena" está intimamente relacionado à categoria de quadro. A categoria cena é usada principalmente na literatura sobre linguística computacional como designação de uma estrutura conceitual para a representação declarativa de situações e suas partes que são atualizadas em um ato de fala e destacadas por meios linguísticos (lexemas, construções sintáticas, categorias gramaticais, etc.). .).

Um certo conjunto organizado de estruturas de conhecimento forma o "modelo do mundo" do sistema cognitivo e seu modelo computacional. Nos sistemas de inteligência artificial, o modelo do mundo forma um bloco especial, que, dependendo da arquitetura escolhida, pode incluir conhecimento geral sobre o mundo (na forma de proposições simples como "está frio no inverno" ou na forma de regras de produção "se está chovendo lá fora, você precisa colocar uma capa de chuva ou levar um guarda-chuva"), alguns fatos específicos ("O pico mais alto do mundo é o Everest"), e também valores e suas hierarquias, às vezes destacados em um "bloco axiológico" especial.

A maioria dos elementos dos conceitos de ferramentas de linguística computacional são homônimos: designam simultaneamente algumas entidades reais do sistema cognitivo humano e formas de representação dessas entidades utilizadas em sua descrição teórica e modelagem. Em outras palavras, os elementos aparato conceitual a linguística computacional tem aspectos ontológicos e instrumentais. Por exemplo, no aspecto ontológico, a separação entre conhecimento declarativo e procedimental corresponde a tipos diferentes conhecimento que uma pessoa tem - o chamado conhecimento do QUE (declarativo; como, por exemplo, conhecimento endereço postal de algum NN), por um lado, e conhecimento de COMO (processual; tal, por exemplo, conhecimento que permite encontrar o apartamento deste NN, mesmo sem saber o seu endereço formal) - por outro. No aspecto instrumental, o conhecimento pode ser incorporado em um conjunto de descrições (descrições), em um conjunto de dados, por um lado, e em um algoritmo, uma instrução que um computador ou algum outro modelo de sistema cognitivo executa, por outro lado. outro.

Direções da Linguística Computacional.

A esfera do CL é muito diversificada e inclui áreas como modelagem computacional de comunicação, modelagem da estrutura do enredo, tecnologias de hipertexto para apresentação de texto, tradução automática, lexicografia computacional. NO sentido estreito As questões de CL são frequentemente associadas a uma área aplicada interdisciplinar com um nome um tanto infeliz de "processamento de linguagem natural" (tradução do termo inglês Natural Language Processing). Surgiu no final da década de 1960 e desenvolveu-se no âmbito da disciplina científica e tecnológica "inteligência artificial". Em seu próprio caminho forma interna a frase "processamento de linguagem natural" abrange todas as áreas em que os computadores são usados ​​para processar dados de linguagem. Enquanto isso, uma compreensão mais restrita deste termo tornou-se fixa na prática - o desenvolvimento de métodos, tecnologias e sistemas específicos que garantem a comunicação entre uma pessoa e um computador em linguagem natural ou limitada.

O rápido desenvolvimento da direção do "processamento de linguagem natural" cai na década de 1970, que foi associada a um crescimento exponencial inesperado no número de usuários finais de computadores. Como é impossível ensinar linguagens e tecnologias de programação a todos os usuários, surgiu o problema de organizar a interação com programas de computador. A solução para este problema de comunicação seguiu dois caminhos principais. No primeiro caso, foram feitas tentativas de adaptação de linguagens de programação e sistemas operacionais ao usuário final. Como resultado, surgiram linguagens de alto nível como o Visual Basic, bem como sistemas operacionais convenientes construídos no espaço conceitual de metáforas familiares aos humanos - DESK, LIBRARY. A segunda forma é o desenvolvimento de sistemas que permitam interagir com um computador em uma área problemática específica em uma linguagem natural ou alguma versão limitada dela.

A arquitetura dos sistemas de processamento de linguagem natural geralmente inclui uma unidade de análise mensagem de voz usuário, um bloco de interpretação de mensagem, um bloco para gerar o significado de uma resposta e um bloco para sintetizar a estrutura de superfície de um enunciado. Uma parte especial do sistema é o componente de diálogo, que contém estratégias de diálogo, as condições para a aplicação dessas estratégias e formas de superar possíveis falhas de comunicação (falhas no processo de comunicação).

Entre os sistemas computacionais de processamento de linguagem natural, os sistemas de perguntas e respostas são geralmente distinguidos, sistemas de diálogo resolução de problemas e sistemas de processamento de texto conectados. Inicialmente, os sistemas de perguntas e respostas começaram a ser desenvolvidos como resposta a má qualidade codificações de consultas ao buscar informações em sistemas de recuperação de informações. Como a área problemática de tais sistemas era muito limitada, isso simplificou um pouco os algoritmos para traduzir consultas em uma representação de linguagem formal e o procedimento inverso para transformar uma representação formal em declarações de linguagem natural. A partir de desenvolvimentos nacionais, o sistema POET, criado por uma equipe de pesquisadores liderada por E.V. Popov, pertence a programas desse tipo. O sistema processa solicitações em russo (com pequenas restrições) e sintetiza uma resposta. O diagrama de blocos do programa pressupõe a passagem de todas as etapas de análise (morfológica, sintática e semântica) e as etapas de síntese correspondentes.

Os sistemas de diálogo para resolver problemas, ao contrário dos sistemas do tipo anterior, jogam na comunicação papel ativo, uma vez que sua tarefa é obter uma solução para o problema com base no conhecimento que é apresentado nele e nas informações que podem ser obtidas do usuário. O sistema contém estruturas de conhecimento que registram sequências típicas de ações para resolver problemas em uma determinada área do problema, bem como informações sobre recursos necessários. Quando o usuário faz uma pergunta ou define uma determinada tarefa, o script correspondente é ativado. Se alguns componentes de script estiverem ausentes ou alguns recursos estiverem ausentes, o sistema iniciará a comunicação. É assim que funciona, por exemplo, o sistema SNUKA, que resolve os problemas de planejamento de operações militares.

Os sistemas de processamento de texto conectado são bastante diversos em estrutura. Eles característica comum pode ser considerado o uso generalizado das tecnologias de representação do conhecimento. As funções de sistemas desse tipo são entender o texto e responder a perguntas sobre seu conteúdo. A compreensão é considerada não como uma categoria universal, mas como um processo de extração de informações de um texto, determinado por uma intenção comunicativa específica. Em outras palavras, o texto é "lido" apenas com a suposição de que é o usuário em potencial que deseja saber sobre ele. Assim, os sistemas de processamento de texto conectados acabam por não ser universais, mas orientados para problemas. Exemplos típicos de sistemas do tipo em discussão são os sistemas RESEARCHER e TAILOR, que formam um único pacote de software, que permite ao usuário obter informações de resumos de patentes que descrevem objetos físicos complexos.

A área mais importante da linguística computacional é o desenvolvimento de sistemas de recuperação de informação (IPS). Este último surgiu no final dos anos 1950 e início dos anos 1960 como resposta a um aumento acentuado no volume de informações científicas e técnicas. Pelo tipo de informação armazenada e processada, bem como pelas características da busca, os IPS são divididos em dois grandes grupos - documental e factual. Os sistemas de informação documental armazenam os textos dos documentos ou suas descrições (resumos, fichas bibliográficas, etc.). As IPS factográficas tratam da descrição de fatos específicos, e não necessariamente na forma textual. Podem ser tabelas, fórmulas e outros tipos de apresentação de dados. Existem também IPSs mistos que incluem documentos e informações factuais. Atualmente, os sistemas de informação factográfica são construídos com base em tecnologias de banco de dados (DB). Para fornecer a recuperação de informações no IPS, são criadas linguagens especiais de recuperação de informações, que são baseadas em tesauros de recuperação de informações. A linguagem de recuperação de informações é uma linguagem formal destinada a descrever certos aspectos do plano de conteúdo dos documentos armazenados no IPS e da solicitação. O procedimento para descrever um documento em uma linguagem de recuperação de informações é chamado de indexação. Como resultado da indexação, cada documento recebe sua descrição formal na linguagem de recuperação da informação - a imagem de busca do documento. Da mesma forma, a consulta é indexada, à qual são atribuídas a imagem de pesquisa da consulta e a prescrição de pesquisa. Os algoritmos de recuperação de informações são baseados na comparação da prescrição de pesquisa com a imagem de pesquisa da consulta. O critério para emissão de documento para solicitação pode consistir na correspondência total ou parcial entre a imagem de busca do documento e a prescrição de busca. Em alguns casos, o próprio usuário tem a oportunidade de formular os critérios de emissão. Isso é determinado por sua necessidade de informação. As linguagens descritivas de recuperação de informações são mais usadas em ISs automatizados. O assunto do documento é descrito por um conjunto de descritores. Palavras e termos que denotam categorias e conceitos simples e bastante elementares da área do problema atuam como descritores. Tantos descritores são inseridos na imagem de pesquisa do documento quanto vários tópicos afetados pelo documento. O número de descritores não é limitado, o que permite descrever o documento em uma matriz de características multidimensional. Muitas vezes, em uma linguagem de recuperação de informações de descritores, são impostas restrições à combinabilidade dos descritores. Neste caso, podemos dizer que a linguagem de recuperação de informação possui uma sintaxe.

Um dos primeiros sistemas a trabalhar com uma linguagem de descrição foi sistema americano UNITERM criado por M. Taube. Nesse sistema, as palavras-chave do documento, os unitermos, funcionavam como descritores. A peculiaridade deste IPS é que inicialmente o dicionário da linguagem da informação não foi definido, mas surgiu no processo de indexação do documento e da consulta. O desenvolvimento de sistemas modernos de recuperação de informação está associado ao desenvolvimento de IPS do tipo não tesauro. Tais IPS trabalham com o usuário em uma linguagem natural limitada, e a busca é realizada nos textos de resumos de documentos, em suas descrições bibliográficas e, muitas vezes, nos próprios documentos. Para indexação no IPS do tipo não-tesauro, são usadas palavras e frases de linguagem natural.

Até certo ponto, o campo da linguística computacional pode incluir trabalhos no campo da criação de sistemas de hipertexto, considerados como uma forma especial de organizar o texto e até mesmo como fundamentalmente o novo tipo texto, oposto em muitas de suas propriedades ao texto usual formado na tradição de tipografia de Gutenberg. A ideia de hipertexto está associada ao nome de Vannevar Bush, conselheiro científico do presidente F. Roosevelt. W. Bush fundamentou teoricamente o projeto do sistema técnico "Memex", que permitia ao usuário vincular textos e seus fragmentos por diversos tipos de links, principalmente por relações associativas. Ausência tecnologia de computador dificultaram a implementação do projeto, pois o sistema mecânico se mostrou muito complexo para implementação prática.

A ideia de Bush na década de 1960 recebeu um segundo nascimento no sistema "Xanadu" de T. Nelson, que já pressupunha o uso da tecnologia da computação. "Xanadu" permitia ao usuário ler a totalidade dos textos inseridos no sistema jeitos diferentes, em várias sequências, o software possibilitou tanto lembrar a sequência de textos visualizados quanto escolher quase qualquer um deles em um ponto arbitrário no tempo. Um conjunto de textos com relações que os conectam (um sistema de transições) foi chamado de hipertexto por T. Nelson. Muitos pesquisadores consideram a criação do hipertexto como o início de uma nova era da informação, oposta à era da impressão. A linearidade da escrita, refletindo externamente a linearidade da fala, acaba sendo uma categoria fundamental que limita o pensamento humano e a compreensão do texto. O mundo do significado é não linear, portanto, a compressão da informação semântica em um segmento linear de fala requer o uso de "pacotes comunicativos" especiais - divisão em tópico e rema, divisão do plano de conteúdo do enunciado em explícito (enunciado, proposição, foco) e as camadas implícitas (pressuposição, consequência, implicatura do discurso). A rejeição da linearidade do texto tanto no processo de sua apresentação ao leitor (ou seja, na leitura e compreensão) quanto no processo de síntese, segundo os teóricos, contribuiria para a "libertação" do pensamento e até mesmo para o surgimento de suas novas formas.

Em um sistema computacional, o hipertexto é representado como um grafo, cujos nós contêm textos tradicionais ou seus fragmentos, imagens, tabelas, vídeos, etc. Os nós são conectados por uma variedade de relacionamentos, cujos tipos são especificados pelos desenvolvedores do software de hipertexto ou pelo próprio leitor. As relações definem as possibilidades potenciais de movimento, ou navegação pelo hipertexto. Os relacionamentos podem ser unidirecionais ou bidirecionais. Assim, as setas bidirecionais permitem que o usuário se mova em ambas as direções, enquanto as setas unidirecionais permitem que o usuário se mova apenas em uma direção. A cadeia de nós por onde o leitor passa enquanto visualiza os componentes do texto forma um caminho, ou rota.

As implementações de computador de hipertexto são hierárquicas ou de rede. A estrutura hierárquica – em forma de árvore – do hipertexto limita significativamente as possibilidades de transição entre seus componentes. Nesse hipertexto, as relações entre os componentes se assemelham à estrutura de um tesauro baseado nas relações gênero-espécie. O hipertexto de rede permite que você use vários tipos de relacionamentos entre componentes, não limitados a relacionamentos gênero-espécie. De acordo com o modo de existência do hipertexto, distinguem-se hipertextos estáticos e dinâmicos. O hipertexto estático não muda durante a operação; nele, o usuário pode registrar seus comentários, mas eles não alteram a essência do assunto. Para hipertexto dinâmico, a mudança é uma forma normal de existência. Normalmente, hipertextos dinâmicos funcionam onde é necessário analisar constantemente o fluxo de informações, ou seja, em serviços de informação de vários tipos. O hipertexto é, por exemplo, o Arizona Information System (AAIS), que é atualizado mensalmente com 300 a 500 resumos por mês.

As relações entre os elementos do hipertexto podem ser inicialmente fixadas pelos criadores, ou podem ser geradas sempre que o usuário acessar o hipertexto. No primeiro caso, estamos falando de hipertextos de estrutura rígida e, no segundo caso, de hipertextos de estrutura mole. A estrutura rígida é tecnologicamente bastante clara. A tecnologia para organizar uma estrutura soft deve ser baseada em uma análise semântica da proximidade dos documentos (ou outras fontes de informação) entre si. Esta é uma tarefa não trivial da linguística computacional. Atualmente, o uso de tecnologias de estrutura suave em palavras-chave é difundido. A transição de um nó para outro na rede de hipertexto é realizada como resultado da busca por palavras-chave. Como o conjunto de palavras-chave pode diferir a cada vez, a estrutura do hipertexto também muda a cada vez.

A tecnologia de construção de sistemas de hipertexto não distingue entre informações textuais e não textuais. Enquanto isso, a inclusão de informações visuais e sonoras (vídeos, pinturas, fotografias, gravações de som, etc.) mudança significativa interface de usuário e software mais poderoso e suporte de computador. Tais sistemas são chamados de hipermídia ou multimídia. A visibilidade dos sistemas multimídia predeterminou seu uso generalizado na educação, na criação de versões computadorizadas de enciclopédias. Existem, por exemplo, CD-roms lindamente executados com sistemas multimídia para enciclopédias infantis publicados por Dorlin Kindersley.

No âmbito da lexicografia informática, estão a ser desenvolvidas tecnologias informáticas para a compilação e operação de dicionários. Programas especiais - bancos de dados, arquivos de computador, programas de processamento de texto - permitem gerar automaticamente entradas de dicionário, armazenar informações de dicionário e processá-las. Muitos programas lexicográficos de computador diferentes são divididos em dois grandes grupos: programas para suporte a trabalhos lexicográficos e dicionários automáticos de vários tipos, incluindo bancos de dados lexicográficos. Um dicionário automático é um dicionário em um formato de máquina especial projetado para uso em um computador por um usuário ou um programa de processamento de texto de computador. Em outras palavras, há uma diferença entre dicionários automáticos para usuários finais humanos e dicionários automáticos para programas de processamento de texto. Os dicionários automáticos destinados ao usuário final, em termos de interface e estrutura de uma entrada de dicionário, diferem significativamente dos dicionários automáticos incluídos em sistemas de tradução automática, sistemas de referência automática, sistemas de recuperação de informação, etc. Na maioria das vezes, são versões de computador de dicionários convencionais conhecidos. Existem análogos de computador de dicionários explicativos da língua inglesa no mercado de software (Webster automático, dicionário explicativo automático de inglês da editora Collins, versão automática do New Large dicionário inglês-russo ed. Yu.D. Apresyan e E.M. Mednikova), há também versão do computador Dicionário de Ozhegov. Dicionários automáticos para programas de processamento de texto podem ser chamados de dicionários automáticos no sentido exato. Eles geralmente não são destinados ao usuário médio. Características de sua estrutura, o escopo do material de vocabulário são definidos pelos programas que interagem com eles.

A modelagem computacional da estrutura do enredo é outra direção promissora linguística computacional. O estudo da estrutura do enredo remete aos problemas da crítica literária estrutural (em sentido amplo), da semiótica e dos estudos culturais. Os programas computacionais disponíveis para modelagem de enredos são baseados em três formalismos básicos de representação de enredos - direções morfológicas e sintáticas de representação de enredos, bem como na abordagem cognitiva. As idéias sobre a estrutura morfológica da estrutura do enredo remontam às famosas obras de V.Ya. Propp ( cm.) sobre um conto de fadas russo. Propp percebeu que, com a abundância de personagens e eventos em um conto de fadas, o número de funções dos personagens é limitado e propôs um aparato para descrever essas funções. As ideias de Propp formaram a base do programa de computador TALE, que simula a geração do enredo de um conto de fadas. O algoritmo do programa TALE é baseado na sequência de funções dos personagens do conto de fadas. De fato, as funções de Propp configuram um conjunto de situações tipificadas, ordenadas com base na análise de material empírico. Capacidades de acoplamento várias situações nas regras de geração foram determinadas por uma sequência típica de funções - na forma em que pode ser estabelecida a partir dos textos dos contos de fadas. No programa, sequências típicas de funções foram descritas como cenários típicos para o encontro de personagens.

A base teórica da abordagem sintática do enredo do texto foram as “gramáticas de enredo”, ou “gramáticas narrativas” (gramáticas de histórias). Surgiram em meados da década de 1970 como resultado da transferência das ideias da gramática gerativa de N. Chomsky para a descrição da macroestrutura do texto. Se os componentes mais importantes da estrutura sintática na gramática gerativa eram os grupos verbais e nominais, então na maioria das gramáticas de enredo a exposição (cenário), evento e episódio foram apontados como os básicos. Na teoria das gramáticas do enredo, as condições de minimalidade, ou seja, as restrições que determinavam o status de uma sequência de elementos do enredo como um enredo normal, foram amplamente discutidas. Descobriu-se, porém, que puramente métodos linguísticosé impossível fazê-lo. Muitas restrições são de natureza sociocultural. As gramáticas de enredo, diferindo significativamente no conjunto de categorias na árvore de geração, permitiram um conjunto muito limitado de regras para modificar a estrutura narrativa (narrativa).

No início da década de 1980, um dos alunos de R. Schenk, V. Lenert, como parte do trabalho de criação de um gerador de plotagem de computador, propôs um formalismo original de unidades de plotagem emocionais (Unidades de plotagem afetivas), que acabou sendo uma ferramenta poderosa para representar a estrutura do enredo. Embora tenha sido originalmente desenvolvido para um sistema de inteligência artificial, esse formalismo tem sido usado em estudos puramente teóricos. A essência da abordagem de Lehnert era que o enredo era descrito como uma mudança sucessiva nos estados cognitivo-emocionais dos personagens. Assim, o foco do formalismo de Lehnert não está nos componentes externos da trama - exposição, evento, episódio, moralidade -, mas em suas características substantivas. Nesse sentido, o formalismo de Lehnert é em parte um retorno às ideias de Propp.

A linguística computacional também inclui a tradução automática, que atualmente está passando por um renascimento.

Literatura:

Popov E. V. Comunicação com computadores em linguagem natural. M., 1982
Sadur V. G. Comunicação de voz com computadores eletrônicos e problemas de seu desenvolvimento. - No livro: Comunicação oral: problemas e perspectivas. M., 1983
Baranov A. N. Categorias de inteligência artificial em semântica linguística. Quadros e roteiros. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modelagem da comunicação em sistemas homem-máquina. – Apoio linguístico sistemas de informação. M., 1987
Olker H. R. Contos de fadas, tragédias e formas de apresentar a história mundial. - No livro: Linguagem e Modelagem interação social. M., 1987
Gorodetsky B.Yu. Linguística Computacional: Linguagem de Modelagem Comunicação
McQueen K. Estratégias discursivas para síntese de texto em linguagem natural. – Novidade em linguística estrangeira. Questão. XXIV, Linguística Computacional. M., 1989
Popov E.V., Preobrazhensky A.B. . Características da implementação de sistemas NL
Preobrazhensky A.B. O estado de desenvolvimento dos modernos sistemas NL. - Inteligência artificial. Livro. 1, Sistemas de comunicação e sistemas especialistas. M., 1990
Subbotina M.M. Hipertexto. Nova forma Comunicação escrita. — VINITI, Ser. Informática, 1994, v. 18
Baranov A. N. Introdução à Linguística Aplicada. M., 2000



O termo "linguística computacional" geralmente se refere a uma ampla área de uso de ferramentas de computador - programas, tecnologias de computador para organizar e processar dados - para modelar o funcionamento de uma linguagem em determinadas condições, situações, áreas problemáticas, bem como o escopo de modelos de linguagem de computador, apenas em linguística, mas também em disciplinas relacionadas. Na verdade, apenas neste último caso estamos falando de linguística aplicada em sentido estrito, pois a modelagem de linguagem computacional também pode ser considerada como um campo de aplicação da teoria da programação (ciência da computação) no campo da linguística. No entanto, a prática geral é tal que o escopo da linguística computacional abrange quase tudo relacionado ao uso de computadores em linguística: "O termo" linguística computacional "define uma orientação geral para o uso de computadores para resolver uma variedade de problemas científicos e práticos relacionadas com a linguagem, sem limitar de forma alguma as formas de resolver esses problemas.

Aspecto institucional da linguística computacional. Como direção científica especial, a linguística computacional tomou forma nos anos 60. O fluxo de publicações nesta área é muito alto. Além das coleções temáticas, a revista Computational Linguistics é publicada trimestralmente nos EUA. Um grande trabalho organizacional e científico é realizado pela Association for Computational Linguistics, que possui estruturas regionais em todo o mundo (em particular, a filial europeia). A cada dois anos há conferências internacionais sobre linguística computacional - KOLING. Questões relevantes também são amplamente representadas em conferências internacionais sobre inteligência artificial em vários níveis.

Kit de ferramentas cognitivas de linguística computacional

A linguística computacional como uma disciplina aplicada especial se distingue principalmente por sua ferramenta - isto é, pelo uso de ferramentas de computador para processar dados de linguagem. Como os programas de computador que modelam certos aspectos do funcionamento de uma linguagem podem usar uma variedade de ferramentas de programação, parece que não há necessidade de falar sobre uma metalinguagem comum. No entanto, não é. Existem princípios gerais de modelagem computacional do pensamento, que de alguma forma são implementados em qualquer modelo computacional. Essa linguagem é baseada na teoria do conhecimento desenvolvida em inteligência artificial e formando um importante ramo da ciência cognitiva.

A tese principal da teoria do conhecimento afirma que o pensamento é um processo de processamento e geração de conhecimento. "Conhecimento" ou "conhecimento" é considerado uma categoria indefinida. O sistema cognitivo humano atua como um "processador" que processa o conhecimento. Na epistemologia e na ciência cognitiva, distinguem-se dois tipos principais de conhecimento - declarativo ("saber o quê") e procedimental ("saber como"2)). O conhecimento declarativo geralmente é apresentado como um conjunto de proposições, declarações sobre algo. Um exemplo típico de conhecimento declarativo é a interpretação de palavras em dicionários explicativos comuns. Por exemplo, um copo] - "um pequeno recipiente arredondado, geralmente com uma alça, feito de porcelana, faiança, etc.". O conhecimento declarativo se presta ao procedimento de verificação em termos de "verdadeiro-falso". O conhecimento procedimental é apresentado como uma sequência (lista) de operações, ações a serem executadas. Esta é uma instrução geral sobre ações em uma determinada situação. Um exemplo típico de conhecimento processual são as instruções para o uso de eletrodomésticos.

Ao contrário do conhecimento declarativo, o conhecimento procedural não pode ser verificado como verdadeiro ou falso. Eles podem ser avaliados apenas pelo sucesso ou falha do algoritmo.

A maioria dos conceitos das ferramentas cognitivas da linguística computacional são homônimos: denotam simultaneamente algumas entidades reais do sistema cognitivo humano e formas de representar essas entidades em algumas metalinguagens. Em outras palavras, os elementos da metalinguagem têm um aspecto ontológico e instrumental. Ontologicamente, a divisão do conhecimento declarativo e procedimental corresponde a diferentes tipos de conhecimento do sistema cognitivo humano. Assim, o conhecimento sobre objetos específicos, objetos da realidade é principalmente declarativo, e as habilidades funcionais de uma pessoa para andar, correr, dirigir um carro são realizadas no sistema cognitivo como conhecimento processual. Instrumentalmente, o conhecimento (tanto ontologicamente procedimental quanto declarativo) pode ser representado como um conjunto de descrições, descrições e como um algoritmo, uma instrução. Em outras palavras, o conhecimento ontologicamente declarativo sobre o objeto da realidade “mesa” pode ser representado processualmente como um conjunto de instruções, algoritmos para sua criação, montagem (= aspecto criativo do conhecimento processual) ou como algoritmo para seu uso típico (= aspecto funcional conhecimento processual). No primeiro caso, este pode ser um guia para um carpinteiro iniciante e, no segundo, uma descrição das possibilidades de uma mesa de escritório. O inverso também é verdadeiro: o conhecimento ontologicamente procedimental pode ser representado declarativamente.

Requer uma discussão separada se qualquer conhecimento ontologicamente declarativo pode ser representado como procedimental e qualquer ontologicamente procedimental - como declarativo. Os pesquisadores concordam que qualquer conhecimento declarativo pode, em princípio, ser representado procedimentalmente, embora isso possa se tornar muito antieconômico para um sistema cognitivo. O inverso dificilmente é verdade. O fato é que o conhecimento declarativo é muito mais explícito, é mais fácil para uma pessoa entender do que o conhecimento procedimental. Em contraste com o conhecimento declarativo, o conhecimento procedimental é predominantemente implícito. Assim, a habilidade linguística, sendo conhecimento procedimental, está escondida de uma pessoa, não é percebida por ela. Uma tentativa de explicar os mecanismos de funcionamento da linguagem leva à disfunção. Especialistas no campo da semântica lexical sabem, por exemplo, que a introspecção semântica de longo prazo necessária para estudar o plano de conteúdo da palavra leva o pesquisador a perder parcialmente a capacidade de distinguir entre o correto e o correto. usos indevidos palavra analisada. Outros exemplos podem ser citados. Sabe-se que, do ponto de vista da mecânica, o corpo humano é Sistema complexo dois pêndulos em interação.

Na teoria do conhecimento, o conhecimento é estudado e representado usando várias estruturas conhecimento - quadros, cenários, planos. De acordo com M. Minsky, "um quadro é uma estrutura de dados projetada para representar uma situação estereotipada" [Minsky 1978, p.254]. Mais detalhadamente, pode-se dizer que um frame é uma estrutura conceitual para uma representação declarativa do conhecimento sobre uma situação unificada tematicamente tipada contendo slots interconectados por certas relações semânticas. Para fins de ilustração, um quadro é frequentemente representado como uma tabela, cujas linhas formam slots. Cada slot tem seu próprio nome e conteúdo (consulte a Tabela 1).

tabela 1

Fragmento do quadro "tabela" em uma visualização de tabela

Dependendo do tarefa específica a estruturação de quadros pode ser significativamente mais complexa; um quadro pode incluir subquadros aninhados e referências a outros quadros.

Em vez de uma tabela, uma forma de representação de predicado é frequentemente usada. Nesse caso, o quadro está na forma de um predicado ou de uma função com argumentos. Existem outras maneiras de representar um quadro. Por exemplo, pode ser representado como uma tupla o seguinte tipo: ( (nome do quadro) (nome do slot)) (valor do slot,),..., (nome do slot n) (valor do slot n) ).

Normalmente, os frames nas linguagens de representação do conhecimento têm essa forma.

Como outras categorias cognitivas da linguística computacional, o conceito de frame é homônimo. Ontologicamente, é uma parte do sistema cognitivo humano e, nesse sentido, o quadro pode ser comparado a conceitos como gestalt, protótipo, estereótipo, esquema. Na psicologia cognitiva, essas categorias são consideradas precisamente do ponto de vista ontológico. Assim, D. Norman distingue duas formas principais de existência e organização do conhecimento no sistema cognitivo humano - redes e esquemas semânticos. "Esquemas", escreve ele, "são pacotes organizados de conhecimento reunidos para representar unidades de conhecimento distintas e autocontidas. Meu esquema para Sam pode conter informações que descrevem suas características físicas, suas atividades e traços de personalidade. Esse esquema se correlaciona com outros esquemas. que descrevem seus outros aspectos" [Norman 1998, p. 359]. Se tomarmos o lado instrumental da categoria frame, então esta é uma estrutura para a representação declarativa do conhecimento. Nos sistemas de IA existentes, os quadros podem formar estruturas complexas conhecimento; os sistemas de quadros permitem hierarquia - um quadro pode fazer parte de outro quadro.

Em termos de conteúdo, o conceito de frame está muito próximo da categoria de interpretação. De fato, um slot é um análogo de valência, o preenchimento de um slot é um análogo de um actante. A principal diferença entre eles é que a interpretação contém apenas informações linguisticamente relevantes sobre o plano do conteúdo da palavra, e o frame, em primeiro lugar, não está necessariamente vinculado à palavra e, em segundo lugar, inclui todas as informações relevantes para uma determinada situação-problema, incluindo inclusive extralinguística (conhecimento do mundo) 3).

Um cenário é uma estrutura conceitual para a representação processual do conhecimento sobre uma situação ou comportamento estereotipado. Elementos de script são as etapas de um algoritmo ou instrução. As pessoas costumam falar sobre "cenário de restaurante", "cenário de compra" e assim por diante.

O quadro também foi originalmente usado para apresentação processual (cf. o termo "quadro processual"), mas o termo "cenário" é agora mais comumente usado nesse sentido. Um cenário pode ser representado não apenas como um algoritmo, mas também como uma rede, cujos vértices correspondem a determinadas situações, e os arcos correspondem a conexões entre situações. Junto com o conceito de script, alguns pesquisadores utilizam a categoria de script para modelagem computacional de inteligência. De acordo com R. Schenk, um script é uma sequência bem conhecida e geralmente aceita causa. Por exemplo, entender o diálogo

Na rua derrama como um balde.

Você ainda tem que ir à loja: não há nada na casa - ontem os convidados varreram tudo.

é baseado em conexões semânticas não explícitas como "se chover, é indesejável sair, porque você pode adoecer". Essas conexões formam um roteiro, que é usado por falantes nativos para entender o comportamento verbal e não verbal de cada um.

Como resultado da aplicação do cenário a uma situação-problema específica, um plano). Um plano é usado para representar procedimentalmente o conhecimento sobre possíveis ações que levam a um objetivo específico. Um plano relaciona uma meta a uma sequência de ações.

No caso geral, o plano inclui uma sequência de procedimentos que transferem o estado inicial do sistema para o estado final e levam ao alcance de uma determinada submeta e meta. Nos sistemas de IA, o plano surge como resultado da atividade de planejamento ou planejamento do módulo correspondente - o módulo de planejamento. O processo de planejamento pode ser baseado na adaptação de dados de um ou mais cenários, ativados por procedimentos de teste, para solucionar uma situação-problema. A execução do plano é realizada por um módulo executivo que controla os procedimentos cognitivos e ações físicas sistemas. No caso elementar, um plano em um sistema inteligente é uma sequência simples de operações; em versões mais complexas, o plano está associado a um assunto específico, seus recursos, capacidades, objetivos, informação detalhada sobre uma situação problemática, etc. A emergência do plano ocorre no processo de comunicação entre o modelo do mundo, parte do qual é formado por cenários, o módulo de planejamento e o módulo executivo.

Ao contrário de um cenário, um plano está associado a uma situação específica, a um executor específico e persegue um objetivo específico. A escolha do plano é regida pelos recursos do contratante. A viabilidade de um plano é condição obrigatória para sua geração em um sistema cognitivo, e a característica de viabilidade é inaplicável a um cenário.

Outro conceito importante- modelo do mundo. O modelo do mundo é geralmente entendido como um conjunto de conhecimentos sobre o mundo organizado de uma determinada maneira, inerente a um sistema cognitivo ou seu modelo computacional. Em um sentido um pouco mais geral, o modelo de mundo é falado como parte de um sistema cognitivo que armazena conhecimento sobre a estrutura do mundo, seus padrões, etc. Em outro sentido, o modelo de mundo está associado aos resultados da compreensão do texto ou, mais amplamente, discurso. No processo de compreensão do discurso, constrói-se seu modelo mental, resultado da interação do plano de conteúdo do texto e do conhecimento sobre o mundo inerente a esse sujeito [Johnson-Laird 1988, p. 237 et seq.] . O primeiro e o segundo entendimentos são frequentemente combinados. Isso é típico de pesquisadores linguísticos que trabalham com linguística cognitiva e ciência cognitiva.

Intimamente relacionado à categoria de quadro está o conceito de cena. A categoria cena é utilizada principalmente na literatura como designação da estrutura conceitual para a representação declarativa de situações e suas partes atualizadas em um ato de fala e destacadas por meios linguísticos (lexemas, construções sintáticas, categorias gramaticais etc.). Estando associada a formas linguísticas, a cena é frequentemente atualizada certa palavra ou expressão. Em gramáticas de enredo (veja abaixo), uma cena aparece como parte de um episódio ou narrativa. Exemplos típicos cenas - um conjunto de cubos com os quais o sistema de IA trabalha, a cena na história e os participantes da ação, etc. Na inteligência artificial, as cenas são usadas em sistemas de reconhecimento de imagem, bem como em programas orientados à pesquisa (análise, descrição) situações-problema. O conceito de cena tornou-se difundido na linguística teórica, bem como na lógica, em particular na semântica situacional, em que o significado de uma unidade lexical está diretamente associado à cena.