Computerphilologie. Computerlinguistik als angewandte Sprachwissenschaft

Linguistik (von lat. lingua -
Sprache), Linguistik, Linguistik - Wissenschaft,
Sprachen studieren.
Das ist die Naturwissenschaft menschliche Sprache allgemein
und über alle Sprachen der Welt als seine
personalisierte Vertreter.
BEI weiten Sinne Wörter, Linguistik
unterteilt in wissenschaftliche und praktische. Öfters
nur mit Linguistik ist genau gemeint
wissenschaftliche Linguistik. Es ist Teil der Semiotik
die Wissenschaft der Zeichen.
Linguistik wird professionell von Linguisten praktiziert.

Linguistik und Informatik.
Im Leben moderne Gesellschaft wichtige Rolle automatisiert spielen
Informationstechnologie. Sondern Entwicklung Informationstechnologie Mai geht es weiter
sehr ungleichmäßig: wenn modernes Niveau Informatik und
Kommunikationsmittel ist erstaunlich, dann im Bereich der semantischen Verarbeitung
Informationserfolg ist viel bescheidener. Diese Erfolge hängen vor allem davon ab
Fortschritte in der Untersuchung von Prozessen menschliches Denken, Sprechvorgänge
Kommunikation zwischen Menschen und die Fähigkeit, diese Prozesse am Computer zu simulieren. Und das ist eine Aufgabe von äußerster Komplexität wir reden auf die Schaffung von vielversprechend
Informationstechnologie, dann die Probleme der automatischen Textverarbeitung
Informationen, die in natürlichen Sprachen präsentiert werden, treten in den Vordergrund.
Dies wird dadurch bestimmt, dass das Denken eines Menschen eng mit seiner Sprache verbunden ist. Mehr
Darüber hinaus ist die natürliche Sprache ein Werkzeug des Denkens. Er ist auch
universelles Kommunikationsmittel zwischen Menschen - ein Mittel der Wahrnehmung,
Sammeln, Speichern, Verarbeiten und Übermitteln von Informationen.
Nutzungsprobleme Natürliche Sprache im Automatikbetrieb
Informationsverarbeitung ist die Wissenschaft der Computerlinguistik. Diese Wissenschaft
erst vor relativ kurzer Zeit entstanden - um die Wende der fünfziger und sechziger Jahre
das letzte Jahrhundert. Anfangs, während seiner Gründung, hatte es verschiedene
Titel: Mathematische Linguistik, Computerlinguistik, Ingenieurwissenschaften
Linguistik. Aber in den frühen Achtzigern blieb der Name dran
Computerlinguistik.

Computerlinguistik ist ein Wissensgebiet, das sich auf die Problemlösung bezieht
automatische Verarbeitung von in natürlicher Sprache präsentierten Informationen.
Zentral wissenschaftliche Probleme Computerlinguistik ist ein Problem
Modellieren des Prozesses des Verstehens der Bedeutung von Texten (Übergang von Text zu
formalisierte Darstellung ihrer Bedeutung) und das Problem der Sprachsynthese (Übergang von
formalisierte Bedeutungsdarstellung von Texten in natürlicher Sprache). Diese Probleme
entstehen bei der Lösung einer Reihe von Anwendungsproblemen:
1) automatische Erkennung und Korrektur von Fehlern bei der Eingabe von Texten in einen Computer,
2) automatische Analyse und Synthese mündliche Rede,
3) automatische Übersetzung Texte von einer Sprache in die andere,
4) Kommunikation mit einem Computer in einer natürlichen Sprache,
5) automatische Klassifizierung und Indexierung von Textdokumenten, deren
automatische Verdichtung, Suche nach Dokumenten in Volltextdatenbanken.
Im letzten halben Jahrhundert auf dem Gebiet der Computerlinguistik,
bedeutende wissenschaftliche u praktische Ergebnisse: Maschinensysteme
Übersetzung von Texten von einer natürlichen Sprache in eine andere, automatisiert
Suche nach Informationen in Texten, Systemen zur automatischen Analyse und Synthese mündlicher Sprache und
viele andere. Aber es gab auch Enttäuschungen. Zum Beispiel das Problem der maschinellen Übersetzung
Texte von einer Sprache in eine andere zu übersetzen erwies sich als viel schwieriger als gedacht
die Pioniere der maschinellen Übersetzung und ihre Nachfolger. Dasselbe kann man darüber sagen
automatisierte Suche nach Informationen in Texten und über die Aufgabe der mündlichen Analyse und Synthese
Rede. Wissenschaftler und Ingenieure müssen offenbar noch hart daran arbeiten
die gewünschten Ergebnisse erzielen.

Natural Language Processing (engl. Natural Language Processing; syntaktische,
morphologisch, semantische Analysen Text). Dazu gehören auch:
Korpuslinguistik, Erstellung und Nutzung elektronischer Textkorpora
Schaffung elektronische Wörterbücher, Thesauri, Ontologien. Zum Beispiel Lingvo. Wörterbücher
verwendet, zum Beispiel für automatische Übersetzung, Rechtschreibprüfung.
Automatische Übersetzung von Texten. Beliebt bei russischen Übersetzern
ist prompt. Bekannt unter den Freien Google ÜbersetzerÜbersetzen
Automatisches Extrahieren von Fakten aus dem Text (Extraktion von Informationen) (engl. fact
Extraktion, Textmining)
Auto-Abstracting (englische automatische Textzusammenfassung). Diese Funktion ist aktiviert
zum Beispiel in Microsoft Word.
Aufbau von Wissensmanagementsystemen. Siehe Expertensysteme
Erstellung von Frage-Antwort-Systemen (engl. Question Answering Systems).
Optische Zeichenerkennung (OCR). Zum Beispiel FineReader
Automatische Spracherkennung (ASR). Es gibt kostenpflichtige und kostenlose Software
Automatische Sprachsynthese

Timofeeva Maria Kirillovna
Arzt Philologische Wissenschaften, älter wissenschaftlicher Mitarbeiter Labor für Logische Systeme des Instituts für Mathematik. S.L. Soboleva SB RAS, Leiterin der Abteilung für grundlegende und angewandte Linguistik, Institut für Geisteswissenschaften der Staatlichen Universität Nowosibirsk. Absolventin des Instituts für Mathematische Linguistik Fakultät der Geisteswissenschaften Nowosibirsk staatliche Universität.
Forschungsinteressen: Philosophische und methodische Grundlagen der Linguistik, logische Probleme Semantik und Pragmatik der natürlichen Sprache, funktional Mathematische Modelle natürliche Sprache, natürliche und formale Sprachen.

Stukachev Alexej Iljitsch
Kandidat der physikalischen und mathematischen Wissenschaften, außerordentlicher Professor, Senior Research Fellow am Institut für Mathematik. S.L. Soboleva SB RAS, außerordentliche Professorin, Institut für diskrete Mathematik und Informatik, Fakultät für Mechanik und Mathematik, NSU, außerordentliche Professorin, Institut für grundlegende und angewandte Linguistik, Institut für Geisteswissenschaften, NSU
Wissenschaftliche Interessensgebiete: mathematische Logik, Berechenbarkeitstheorie (verallgemeinerte Berechenbarkeit, Berechenbarkeit in zulässigen Mengen, HF-Berechenbarkeit), Modelltheorie ( konstruktive Modelle, effektive Darstellungen von Systemen, Grad der Darstellbarkeit), berechenbare Analyse. Mathematische Linguistik Schlüsselwörter: formale Semantik, Montagu-Semantik, distributive Semantik.

Barachnin Wladimir Borissowitsch
Führender Forscher des Labors Informationsressourcen Institut Computertechnologien SB RAS, Professor der Abteilung mathematische Modellierung Fakultät für Mechanik und Mathematik der NSU, Professor der Abteilung für Informatiksysteme und Allgemeine Informatik Fakultät für Informationstechnologie, Staatliche Universität Nowosibirsk.
Forschungsinteressen: Aufbau von Modellen verteilter Informationssysteme, Erstellung von Algorithmen zur Verarbeitung halbstrukturierter Textdokumente, Automatisierung komplexe Analyse poetische Texte, methodische Fragen der Informatik.

Bruches Elena Pawlowna
Doktorand des nach ihm benannten Instituts für Informatiksysteme. A. P. Ershova SB RAS, Assistentin der Abteilung für grundlegende und angewandte Linguistik des Instituts für Geisteswissenschaften der Staatlichen Universität Nowosibirsk, Computerlinguistin bei der Firma "OnPositive".
Forschungsinteressen: Verarbeitung natürlicher Sprache, maschinelles Lernen, künstliche Intelligenz.

Pavlovsky Evgeny Nikolaevich
Kandidat der physikalischen und mathematischen Wissenschaften, Mitglied des Rates junger Wissenschaftler und Spezialisten der Regierung der Region Nowosibirsk, Mitglied des Expertenrates des Technoparks der Novosibirsk Akademgorodok, Vorsitzender des Organisationskomitees des Sibirischen Symposiums für Datenwissenschaft und Ingenieurkonferenz.
Berufsziel: Systematisierung von Ansätzen zur Formalisierung von Geschäftsanforderungen in Big-Data-Projekten.

Palchunov Dmitry Evgenievich
Leitender Forscher am Institut für Mathematik. S. L. Soboleva SB RAS, Leiterin der Abteilung für Allgemeine Informatik, NSU, Leiterin der Abteilung "Institut für Diskrete Mathematik und Informatik", Fakultät für Mechanik und Mathematik, NSU.
Forschungsinteressen: Es werden grundlegende Ergebnisse zum Studium Boolescher Algebren mit ausgezeichneten Idealen (I-Algebren) erzielt.

Sviridenko Dmitri Iwanowitsch
Mitarbeiter des Instituts für Mathematik der SB RAS und der Staatlichen Universität Nowosibirsk, Geschäftsmann, Organisator und Mitinhaber von High-Tech-Unternehmen, die im Bereich der Informations-, Kommunikations- und Digitaltechnologien tätig sind. Beteiligt sich an Forschungsarbeiten zur semantischen Modellierung, die durch ein Stipendium der Russian Science Foundation finanziert werden.
Forschungsinteressen: Philosophie, Methodologie, angewandte mathematische Logik. Der Autor des Konzepts und mathematische Theorie semantische Modellierung, die in den 80er Jahren des letzten Jahrhunderts gemeinsam mit Akademikern der Russischen Akademie der Wissenschaften S.S. Goncharov und Yu.L. Ershov vorgebracht wurde. Gegenwärtig entwickelt er aktiv die Methodik und mathematische Theorie dieses Konzepts weiter und beschäftigt sich auch mit Anwendungen dieses Konzepts Diverse Orte. Arbeitet an der Erstellung einer Methodik, mathematischen Theorie und Sprache für semantische Smart Deals und Verträge, wobei die Ideen der semantischen Modellierung in Bezug auf TRIZ und andere Bereiche angewendet werden.

Savostyanov Alexander Nikolaevich
Leitender Forscher am Labor für Differentielle Psychophysiologie des Forschungsinstituts für Physiologie und grundlegende Medizin, Leiter des Labors für Psychologische Genetik des Instituts für Zytologie und Genetik der Sibirischen Abteilung der Russischen Akademie der Wissenschaften, Professor der Abteilung für Allgemeine Informatik der Fakultät für Informationstechnologie der Staatlichen Universität Nowosibirsk, Professor der Abteilung für Grundlagen und Angewandte Linguistik Humanitäres Institut NGU.
Wissenschaftliche Interessen Schlüsselwörter: Neurophysiologie, Psychogenetik, Neurolinguistik, Methoden der Computerverarbeitung biologischer Signale. Die Forschung zielt darauf ab, Risikofaktoren für die Entstehung und Entwicklung affektiver Pathologien beim Menschen zu identifizieren, abhängig von sozialen und Klimabedingungen lebenswichtige Tätigkeit. Im Rahmen der Forschung werden Expeditionen in verschiedene Regionen Russlands durchgeführt ( Novosibirsk Region, Tyva, Jakutien, Republik Altai) und Nachbarländer(Mongolei, China) zu sammeln biologisches Material und Sammlungen von EEG-Aufzeichnungen in verschiedenen experimentelle Bedingungen. Ziel der Forschung ist es, diagnostische Systeme zu schaffen, die es ermöglichen, das Risiko einer Verletzung der emotionalen Regulation des menschlichen Verhaltens unter erhöhten Stressbedingungen abzuschätzen.

COMPUTERLINGUISTIK (Pauspapier aus der englischen Computerlinguistik), einer der Bereiche der angewandten Linguistik, in dem die Sprache untersucht und das Funktionieren der Sprache unter bestimmten Bedingungen, Situationen und Modellen modelliert wird Problemzonen entwickelt und genutzt Computerprogramme, Computertechnologien zum Organisieren und Verarbeiten von Daten. Andererseits ist dies das Anwendungsgebiet von Computersprachmodellen in der Linguistik und verwandten Disziplinen. Wie ein besonderes wissenschaftliche Richtung Die Computerlinguistik nahm Gestalt an Europäische Studien In den 1960ern. Weil die Englisches Adjektiv Computational kann auch mit „computational“ übersetzt werden, der Begriff „Computerlinguistik“ findet sich in der Literatur jedoch auch in Hauswirtschaft er bekommt mehr enge Bedeutung Annäherung an das Konzept der "quantitativen Linguistik".

In der Computerlinguistik wird häufig der Begriff „Quantitative Linguistik“ verwendet, der eine interdisziplinäre Richtung charakterisiert angewandte Forschung, wo quantitative oder statistische Analysemethoden als Hauptwerkzeug für das Studium von Sprache und Rede verwendet werden. Manchmal steht die quantitative (oder quantitative) Linguistik der kombinatorischen Linguistik gegenüber. In letzterem spielt ein "nicht-quantitativer" mathematischer Apparat die dominierende Rolle - Mengenlehre, mathematische Logik, Theorie der Algorithmen usw. theoretischer Punkt Nutzung ansehen statistische Methoden in Linguistik können Sie ergänzen strukturelles Modell Sprache mit probabilistischer Komponente, d. h. ein theoretisches strukturell-probabilistisches Modell zu erstellen, das ein erhebliches Erklärungspotential hat. BEI Anwendungsbereich Die quantitative Linguistik wird vor allem durch die Verwendung von Fragmenten dieses Modells repräsentiert, das zur sprachlichen Überwachung des Funktionierens der Sprache, zur Dekodierung des verschlüsselten Textes, zur Autorisierung / Zuordnung des Textes usw. verwendet wird.

Der Begriff "Computerlinguistik" und die Probleme dieses Bereichs werden oft mit der Modellierung von Kommunikation und vor allem - mit der Bereitstellung menschlicher Interaktion mit einem Computer in einer natürlichen oder begrenzten natürlichen Sprache (dazu spezielle Systeme Natural Language Processing) sowie mit Theorie und Praxis von Information Retrieval Systems (IPS). Die Sicherstellung der Kommunikation zwischen einem Menschen und einem Computer in natürlicher Sprache wird manchmal auch mit dem Begriff „Natural Language Processing“ bezeichnet (Übersetzung von der englischen Sprache Begriff Verarbeitung natürlicher Sprache). Dieser Bereich der Computerlinguistik entstand Ende der 1960er Jahre im Ausland und entwickelte sich innerhalb der wissenschaftlichen und technologischen Disziplin namens künstliche Intelligenz (Werke von R. Schenk, M. Lebovits, T. Winograd usw.). Der Begriff "Verarbeitung natürlicher Sprache" sollte in seiner Bedeutung alle Bereiche umfassen, in denen Computer zur Verarbeitung von Sprachdaten eingesetzt werden. In der Praxis hat sich jedoch ein engeres Begriffsverständnis eingebürgert – die Entwicklung von Methoden, Technologien und spezifischen Systemen, die die Kommunikation zwischen Mensch und Computer in natürlicher oder eingeschränkt natürlicher Sprache sicherstellen.

Bis zu einem gewissen Grad kann die Computerlinguistik auch Arbeiten auf dem Gebiet der Erstellung von Hypertextsystemen berücksichtigen spezieller Weg Textorganisation und sogar wie grundlegend die neue art Text, der in vielen seiner Eigenschaften dem gewöhnlichen Text entgegengesetzt ist, der in der Gutenberg-Drucktradition gebildet wird (siehe Gutenberg).

Zur Computerlinguistik gehört auch die automatische Übersetzung.

Im Rahmen der Computerlinguistik hat sich eine relativ neue Richtung herausgebildet, die sich seit den 1980er-90er Jahren aktiv entwickelt - die Korpuslinguistik allgemeine Grundsätze Erstellung sprachlicher Datenkorpora (insbesondere Textkorpora) unter Verwendung von modern Computertechnologie. Textkorpora sind Sammlungen speziell ausgewählter Texte aus Büchern, Zeitschriften, Zeitungen etc., die auf maschinelle Medien übertragen und zur maschinellen Verarbeitung bestimmt sind. Eines der ersten Textkorpora wurde 1962-63 unter der Leitung von W. Francis für amerikanisches Englisch an der Brown University (das sogenannte Brown Corpus) erstellt. In Russland entwickelt sich seit Anfang der 2000er Jahre das nach V. V. Vinogradov benannte Institut für russische Sprache der Russischen Akademie der Wissenschaften Nationales Korps der russischen Sprache, bestehend aus einer repräsentativen Auswahl russischsprachiger Texte mit einem Volumen von etwa 100 Millionen Wortverwendungen. Neben der eigentlichen Konstruktion von Datenkorpora befasst sich die Korpuslinguistik mit der Erstellung von Computerwerkzeugen (Computerprogrammen), die dazu bestimmt sind, verschiedene Informationen aus Textkorpora zu extrahieren. An Textkorpora werden aus Nutzersicht Anforderungen an Repräsentativität (Repräsentativität), Vollständigkeit und Sparsamkeit gestellt.

Die Computerlinguistik entwickelt sich sowohl in Russland als auch im Ausland aktiv. Die Publikationsflut in diesem Bereich ist sehr hoch. Außer thematische Sammlungen, in den USA erscheint seit 1984 vierteljährlich die Zeitschrift Computational Linguistics. Tolle Organisation u wissenschaftliche Arbeit wird von der Association for Computational Linguistics durchgeführt, die weltweit regionale Strukturen hat (insbesondere den europäischen Zweig). Alle zwei Jahre finden internationale Konferenzen COLINT statt (2008 fand die Konferenz in Manchester statt). Die Hauptrichtungen der Computerlinguistik werden auch auf der jährlichen internationalen Konferenz "Dialogue" diskutiert, die vom Russian Research Institute of Artificial Intelligence organisiert wird. Fakultät für Philologie Staatliche Universität Moskau, Yandex und eine Reihe anderer Organisationen. Die relevanten Themen werden auch breit auf präsentiert Internationale Konferenzen auf künstlicher Intelligenz auf verschiedenen Ebenen.

Lit.: Zvegintsev V. A. Theoretische und angewandte Linguistik. M, 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Mathematische Linguistik. M, 1977; Gorodezki B. Ju. Tatsächliche Probleme Angewandte Linguistik // Neu in der Fremdsprachenwissenschaft. M., 1983. Ausgabe. 12; Kibrik A.E. Angewandte Linguistik // Kibrik A.E. Aufsätze zu allgemeinen und angewandten Fragen der Linguistik. M., 1992; Kennedy G. Einführung in die Korpuslinguistik. L., 1998; Bolshakov I. A., Gelbukh A. Computerlinguistik: Modelle, Ressourcen, Anwendungen. Mech., 2004; Nationales Korpus der russischen Sprache: 2003-2005. M., 2005; Baranov A. N. Einführung in die angewandte Linguistik. 3. Aufl. M., 2007; Computerlinguistik und intellektuelle Technologien. M., 2008. Ausgabe. 7.

Einführung

Was ist Computerlinguistik?

Computerlinguistik , eine Richtung in der angewandten Linguistik, die sich auf die Verwendung von Computerwerkzeugen - Programmen, Computertechnologien zum Organisieren und Verarbeiten von Daten - zum Modellieren des Funktionierens einer Sprache unter bestimmten Bedingungen, Situationen, Problembereichen usw. sowie auf den gesamten Umfang konzentriert von Computersprachmodellen in der Linguistik und verwandten Disziplinen. Eigentlich nur drin letzter Fall und reden Angewandte Sprachwissenschaften im engeren Sinne, da die Computermodellierung einer Sprache auch als Anwendungsgebiet der Informatik und der Programmiertheorie zur Lösung sprachwissenschaftlicher Probleme angesehen werden kann. In der Praxis wird jedoch fast alles, was mit dem Einsatz von Computern in der Linguistik zu tun hat, als Computerlinguistik bezeichnet.

Als besondere Wissenschaftsrichtung nahm die Computerlinguistik in den 1960er Jahren Gestalt an. Der russische Begriff „Computerlinguistik“ ist ein Pauspapier aus der englischen Computerlinguistik. Da das Adjektiv „computational“ im Russischen auch mit „computational“ übersetzt werden kann, findet sich der Begriff „Computerlinguistik“ zwar auch in der Literatur, erhält aber in der Hauswirtschaft eine engere Bedeutung und nähert sich dem Begriff der „quantitativen Linguistik“. Die Publikationsflut in diesem Bereich ist sehr hoch. Neben thematischen Sammlungen erscheint in den USA vierteljährlich die Zeitschrift Computational Linguistics. Eine große organisatorische und wissenschaftliche Arbeit leistet die Arbeitsgemeinschaft für Computerlinguistik, die über regionale Strukturen (insbesondere den europäischen Zweig) verfügt. Alle zwei Jahre gibt es internationale Konferenzen zur Computerlinguistik - COLING. Relevante Themen werden in der Regel auch auf verschiedenen Konferenzen zur künstlichen Intelligenz breit präsentiert.

Aufgaben

Computerlinguistik nimmt sich der eigentlichen linguistischen Problematik der Computermodellierung der Sprachaktivität an. Seine Aufgaben bestehen darin, genauere und vollständigere linguistische Modelle und fortschrittlichere Algorithmen für Analyse und Synthese zu erstellen.

Die Hauptrichtungen sind:

1) Mensch-Computer-Interaktion: Steuerung - Programmiersprachen, Informationsübertragung - Schnittstelle.

2) Arbeit mit Texten: Indexierung, Analyse und Klassifizierung, automatische Bearbeitung (Fehlerkorrektur), Wissenserkennung, maschinelle Übersetzung.

Geschichte

Eine einfache Generierung einer Teilmenge der englischen Sprache für den Zugriff auf Datenbanken wurde von einem der frühen amerikanischen Systeme LIFER (Language Interface Facility wich Elipsis and Recursion) bereitgestellt, das in den 70er Jahren erstellt wurde. Danach erschienen andere, flexiblere Systeme auf dem Computermarkt, die eine begrenzte natürliche Sprachschnittstelle mit einem Computer bereitstellten.

In den 1980er Jahren wurden in den Vereinigten Staaten eine Reihe von Unternehmen gegründet, die sich mit der Entwicklung und dem Verkauf von Schnittstellen für natürliche Sprache mit Datenbanken und Expertensystemen beschäftigten. 1985 Die Semantec Corporation stellte ein solches Q&A-Softwarepaket vor, die Carnegie Group bot ein ähnliches LanguageCraft-Paket an.

Es wird aktiv daran gearbeitet, automatische Übersetzungssysteme zu schaffen. Weit verbreitet ist das automatische Übersetzungssystem SYSTRAN, das unter der Leitung von D. Tom im Auftrag der US Air Force entwickelt wurde. Während 1974 - 1975. Das System wurde von der NASA Aerospace Association verwendet, um Dokumente für das Apollo-Sojus-Projekt zu übersetzen. Heute übersetzt sie jährlich etwa 100.000 Seiten aus mehreren Sprachen.

In Europa wurde die Arbeit an der Schaffung von Computerübersetzungssystemen durch die Gründung des Europäischen Informationsnetzwerks (EURONET DIANA) angeregt. 1982 kündigte die Europäische Wirtschaftsgemeinschaft die Schaffung des europäischen EUROTRA-Programms an, dessen Zweck die Entwicklung eines Systems ist Computerübersetzung für alle Europäische Sprachen. Ursprünglich wurde das Projekt auf 12 Millionen US-Dollar geschätzt, 1987 ermittelten Experten die Gesamtkosten dieses Projekts auf mehr als 160 Millionen US-Dollar.

In Japan konzentriert sich die Computerlinguistikforschung auf ein landesweites Computerprogramm der fünften Generation, das 1981 eingeführt wurde.

Es gibt eine Reihe militärischer Projekte zur Schaffung von Mensch-Maschine-Schnittstellen in natürlicher Sprache. In den Vereinigten Staaten werden sie hauptsächlich im Rahmen der Strategic Computer Initiative durchgeführt, einem zehnjährigen Programm, das 1983 vom Verteidigungsministerium verabschiedet wurde. Sein Ziel ist es, eine neue Generation "intelligenter" Waffen und militärischer Systeme zu schaffen um die technologische Überlegenheit der Vereinigten Staaten langfristig zu sichern.

Natürlich gehen Spezialisten für künstliche Intelligenz, die sich mit Computern und Programmiersprachen auskennen, energisch daran, das Problem des Sprachverständnisses mit eigenen Methoden zu lösen. Es wurde nach Algorithmen für natürliche Sprache gesucht. Für sehr enge Spezialgebiete wurden komplexe Sprachverständnisprogramme erstellt, partielle maschinelle Übersetzungsprogramme implementiert und einiges mehr. Aber es gab keinen entscheidenden Fortschritt bei der Lösung des Problems des Sprachverständnisses. Sprache und Mensch sind so eng miteinander verbunden, dass sich die Wissenschaftler mit dem Problem der Verständigung der Welt durch den Menschen auseinandersetzen mussten. Und das ist das Reich der Philosophie.

Grundbegriffe der Linguistik

Der Begriff "Computerlinguistik" bezieht sich üblicherweise auf ein weites Gebiet der Verwendung von Computerwerkzeugen - Programme, Computertechnologien zum Organisieren und Verarbeiten von Daten - zur Modellierung der Funktionsweise einer Sprache unter bestimmten Bedingungen, Situationen, Problembereichen sowie dem Umfang von Computersprachmodellen nur in der Linguistik, aber auch in verwandten Disziplinen. Eigentlich sprechen wir nur im letzteren Fall von angewandter Linguistik im engeren Sinne, da die Computermodellierung einer Sprache auch als Anwendungsgebiet der Programmiertheorie (Informatik) im Bereich der Linguistik angesehen werden kann. Dennoch ist die allgemeine Praxis so, dass der Anwendungsbereich der Computerlinguistik fast alles umfasst, was mit dem Einsatz von Computern in der Linguistik zu tun hat: „Der Begriff „Computerlinguistik“ legt eine allgemeine Orientierung auf den Einsatz von Computern zur Lösung einer Vielzahl von wissenschaftlichen und praktische Aufgaben mit der Sprache verbunden sind, ohne die Möglichkeiten zur Lösung dieser Probleme einzuschränken.

Institutioneller Aspekt der Computerlinguistik. Als besondere wissenschaftliche Richtung nahm die Computerlinguistik in den 60er Jahren Gestalt an. Die Publikationsflut in diesem Bereich ist sehr hoch. Neben thematischen Sammelbänden erscheint in den USA vierteljährlich die Zeitschrift Computational Linguistics. Eine große organisatorische und wissenschaftliche Arbeit wird von der Association for Computer Linguistics geleistet, die weltweit regionale Strukturen hat (insbesondere den europäischen Zweig). Alle zwei Jahre gibt es internationale Konferenzen zur Computerlinguistik - KOLING. Relevante Fragestellungen sind auch auf internationalen Konferenzen zur künstlichen Intelligenz auf verschiedenen Ebenen breit vertreten.

Kognitiver Werkzeugkasten der Computerlinguistik

Computerlinguistik als Spezialgebiet angewandte Disziplin zeichnet sich in erster Linie durch das Instrument aus - also durch die Nutzung Computereinrichtungen Verarbeitung von Sprachdaten. Da Computerprogramme, die bestimmte Aspekte der Funktionsweise einer Sprache modellieren, eine Vielzahl von Programmierwerkzeugen verwenden können, scheint es nicht notwendig, über eine gemeinsame Metasprache zu sprechen. Dies ist jedoch nicht der Fall. Es gibt allgemeine Grundsätze Computersimulation Denken, die auf die eine oder andere Weise in jedem realisiert werden Computermodell. Diese Sprache basiert auf der Theorie des Wissens, die in entwickelt wurde künstliche Intelligenz und bilden einen wichtigen Zweig der Kognitionswissenschaft.

Die Hauptthese der Erkenntnistheorie besagt, dass Denken ein Prozess der Verarbeitung und Generierung von Wissen ist. "Wissen" oder "Wissen" wird als undefinierte Kategorie betrachtet. Der "Prozessor", der Wissen verarbeitet, ist kognitives System Person. In der Erkenntnis- und Kognitionswissenschaft werden zwei Haupttypen von Wissen unterschieden – deklarativ („wissen was“) und prozedural („wissen wie“2)). Deklaratives Wissen wird normalerweise als eine Reihe von Aussagen, Aussagen über etwas dargestellt. Ein typisches Beispiel deklaratives Wissen kann als gewöhnliche Interpretation von Wörtern betrachtet werden erklärende Wörterbücher. Zum Beispiel eine Tasse] - "ein kleines abgerundetes Trinkgefäß, normalerweise mit einem Henkel, aus Porzellan, Fayence usw.". Deklaratives Wissen bietet sich für das Verifikationsverfahren im Sinne von „true-false“ an. Prozedurales Wissen wird als Abfolge (Liste) von Operationen, auszuführenden Aktionen dargestellt. Das ist etwas allgemeine Anweisungüber Handlungen in einer bestimmten Situation. Ein typisches Beispiel für prozedurales Wissen sind Gebrauchsanweisungen für Haushaltsgeräte.

Anders als deklaratives Wissen kann prozedurales Wissen nicht als wahr oder falsch verifiziert werden. Sie können nur anhand des Erfolgs oder Misserfolgs des Algorithmus bewertet werden.

Die meisten Konzepte des kognitiven Werkzeugkastens der Computerlinguistik sind homonym: Sie bezeichnen gleichzeitig einige reale Entitäten des menschlichen kognitiven Systems und Möglichkeiten, diese Entitäten in einigen Metasprachen darzustellen. Mit anderen Worten, die Elemente der Metasprache haben einen ontologischen und instrumentellen Aspekt. Ontologisch entspricht die Trennung von deklarativem und prozeduralem Wissen verschiedene Typen Kenntnisse des menschlichen kognitiven Systems. Also Wissen über bestimmte Themen sind Objekte der Realität überwiegend deklarativ, und die funktionellen Fähigkeiten einer Person, zu gehen, zu laufen, Auto zu fahren, werden im kognitiven System als prozedurales Wissen realisiert. Instrumental kann Wissen (sowohl ontologisch prozedural als auch deklarativ) als eine Menge von Beschreibungen, Beschreibungen und als Algorithmus, eine Anweisung, dargestellt werden. Mit anderen Worten, ontologisch deklaratives Wissen über das Realitätsobjekt „Tisch“ kann prozedural als eine Menge von Anweisungen, Algorithmen zu seiner Erstellung, Zusammenstellung (= schöpferischer Aspekt von prozeduralem Wissen) oder als Algorithmus für seine typische Verwendung (= funktionaler Aspekt Verfahrenswissen). Im ersten Fall kann dies eine Anleitung für einen unerfahrenen Schreiner sein, im zweiten Fall eine Beschreibung der Möglichkeiten eines Büroschreibtisches. Auch die Umkehrung gilt: ontologisches Wissen lässt sich deklarativ darstellen.

Es bedarf einer gesonderten Diskussion, ob jedes ontologisch deklarative Wissen als prozedural und jedes ontologisch prozedural als deklarativ dargestellt werden kann. Forscher sind sich einig, dass grundsätzlich jedes deklarative Wissen prozedural dargestellt werden kann, was sich für ein kognitives System jedoch als sehr unökonomisch erweisen kann. Umgekehrt gilt das kaum. Tatsache ist, dass deklaratives Wissen viel expliziter ist, es ist für eine Person leichter zu verstehen als prozedurales Wissen. Im Gegensatz zum deklarativen Wissen ist prozedurales Wissen überwiegend implizit. So, Sprachfähigkeit, als prozedurales Wissen, ist einer Person verborgen, wird von ihr nicht realisiert. Der Versuch, die Mechanismen der Sprachfunktion zu erklären, führt zu Funktionsstörungen. Fachleute auf dem Gebiet der lexikalischen Semantik wissen beispielsweise, dass die für das Studium des Wortinhaltsplans notwendige langfristige semantische Selbstbeobachtung dazu führt, dass dem Forscher teilweise die Fähigkeit zur Unterscheidung zwischen richtig und richtig abhanden kommt missbraucht analysiertes Wort. Andere Beispiele können genannt werden. Es ist bekannt, dass der menschliche Körper aus Sicht der Mechanik ist Komplexes System zwei wechselwirkende Pendel.

In der Wissenstheorie wird Wissen untersucht und dargestellt verschiedene Strukturen Wissen - Rahmen, Szenarien, Pläne. Laut M. Minsky ist „ein Rahmen eine Datenstruktur, die dazu bestimmt ist, eine stereotype Situation darzustellen“ [Minskiy 1978, S.254]. Genauer gesagt können wir sagen, dass der Rahmen eine konzeptionelle Struktur für die deklarative Repräsentation von Wissen über eine typisierte thematisch einheitliche Situation ist, die Slots enthält, die durch bestimmte semantische Beziehungen miteinander verbunden sind. Zur Veranschaulichung wird ein Rahmen oft als Tisch dargestellt, dessen Reihen Schlitze bilden. Jeder Slot hat seinen eigenen Namen und Inhalt (siehe Tabelle 1).

Tabelle 1

Fragment des Rahmens "Tabelle" in einer Tabellenansicht

Abhängig von bestimmte Aufgabe die Rahmenstrukturierung kann wesentlich komplexer sein; ein Frame kann verschachtelte Subframes und Verweise auf andere Frames enthalten.

Anstelle einer Tabelle wird häufig eine Prädikatsdarstellung verwendet. In diesem Fall hat der Rahmen die Form eines Prädikats oder einer Funktion mit Argumenten. Es gibt andere Möglichkeiten, einen Rahmen darzustellen. Beispielsweise kann es als Tupel dargestellt werden folgende Art: ( (frame name) (slot name)) (slot value,),..., (slot name n) (slot value n) ).

Typischerweise haben Frames in Wissensrepräsentationssprachen diese Form.

Wie andere kognitive Kategorien der Computerlinguistik ist das Konzept eines Rahmens gleichnamig. Ontologisch gesehen ist es ein Teil des menschlichen kognitiven Systems, und in diesem Sinne kann der Rahmen mit Konzepten wie Gestalt, Prototyp, Stereotyp, Schema verglichen werden. In der Kognitionspsychologie werden diese Kategorien genau aus ontologischer Sicht betrachtet. D. Norman unterscheidet also zwei Hauptarten der Existenz und Organisation von Wissen im menschlichen kognitiven System - semantische Netzwerke und Schemata. „Schemata“, schreibt er, „sind organisierte Wissenspakete, die zusammengefügt werden, um getrennte, in sich geschlossene Wissenseinheiten darzustellen. Mein Schema für Sam kann Informationen enthalten, die seines beschreiben physikalische Eigenschaften, seine Tätigkeit und Persönlichkeitsmerkmale. Dieses Schema korreliert mit anderen Schemata, die andere Aspekte davon beschreiben“ [Norman 1998, S.359]. Nehmen wir die instrumentelle Seite der Frame-Kategorie, dann ist dies eine Struktur zur deklarativen Repräsentation von Wissen. Rahmen können komplexe Strukturen Wissen; Rahmensysteme ermöglichen eine Hierarchie – ein Rahmen kann Teil eines anderen Rahmens sein.

Inhaltlich ist der Begriff des Frames der Kategorie der Interpretation sehr nahe. In der Tat ist ein Slot ein Analogon einer Valenz, das Füllen eines Slots ist ein Analogon eines Aktanten. Der Hauptunterschied zwischen ihnen besteht darin, dass die Interpretation nur sprachlich relevante Informationen über den Inhalt des Wortes enthält und der Rahmen erstens nicht unbedingt an das Wort gebunden ist und zweitens alle für ein bestimmtes Problem relevanten Informationen enthält Situation, einschließlich einschließlich außersprachlicher (Wissen der Welt) 3).

Ein Szenario ist ein konzeptioneller Rahmen für die prozedurale Repräsentation von Wissen über eine stereotype Situation oder ein Verhalten. Skriptelemente sind die Schritte eines Algorithmus oder einer Anweisung. Die Leute sprechen normalerweise von „Restaurantszenario“, „Kaufszenario“ und so weiter.

Ursprünglich wurde Frame auch für die prozedurale Darstellung verwendet (vgl. den Begriff "Procedural Frame"), aber der Begriff "Szenario" wird heute häufiger in diesem Sinne verwendet. Ein Szenario kann nicht nur als Algorithmus, sondern auch als Netzwerk dargestellt werden, dessen Knoten bestimmten Situationen und die Bögen Verbindungen zwischen Situationen entsprechen. Neben dem Konzept eines Szenarios verwenden einige Forscher die Kategorie eines Skripts für die Computermodellierung von Intelligenz. Laut R. Schenk ist ein Drehbuch eine allgemein akzeptierte, wohlbekannte Sequenz kausale Zusammenhänge. Zum Beispiel den Dialog verstehen

Auf der Straße schüttet es wie aus Eimern.

Sie müssen noch in den Laden gehen: Im Haus ist nichts - gestern haben die Gäste alles gekehrt.

basiert auf nicht expliziten semantischen Beziehungen wie "if Es regnet, es ist unerwünscht, nach draußen zu gehen, weil man krank werden kann.“ Diese Verbindungen bilden ein Skript, das von Muttersprachlern verwendet wird, um das verbale und nonverbale Verhalten des anderen zu verstehen.

Als Ergebnis der Anwendung des Szenarios auf eine spezifische Problemsituation a planen). Die Blaupause wird verwendet, um Wissen über prozedural darzustellen mögliche Aktionen zum Erfolg führt bestimmten Zweck. Ein Plan bezieht ein Ziel auf eine Abfolge von Aktionen.

BEI Allgemeiner Fall Der Plan enthält eine Abfolge von Verfahren, die den Anfangszustand des Systems in den Endzustand überführen und zum Erreichen eines bestimmten Teilziels und Ziels führen. Bei KI-Systemen entsteht der Plan als Ergebnis der Planung bzw. Planungstätigkeit des entsprechenden Moduls – des Planungsmoduls. Der Planungsprozess kann auf der Anpassung von Daten aus einem oder mehreren Szenarien basieren, die durch Testverfahren aktiviert werden, um eine Problemsituation zu lösen. Die Ausführung des Plans wird von einem Ausführungsmodul durchgeführt, das kognitive Verfahren steuert und körperliche Aktionen Systeme. Im elementaren Fall ist der Plan in intellektuelles System ist eine einfache Abfolge von Operationen; In komplexeren Versionen ist der Plan mit einem bestimmten Thema, seinen Ressourcen, Fähigkeiten, Zielen, genaue Informationüber eine problematische Situation usw. Die Entstehung des Plans erfolgt im Kommunikationsprozess zwischen dem Weltmodell, dessen Teil Szenarien bilden, dem Planungsmodul und dem Ausführungsmodul.

Im Gegensatz zu einem Drehbuch geht es bei einem Plan darum spezifische Situation, ein bestimmter Leistungsträger und verfolgt die Erreichung eines bestimmten Ziels. Die Wahl des Plans richtet sich nach den Ressourcen des Auftragnehmers. Machbarkeit planen - erforderliche Bedingung seine Generationen im kognitiven System, und das Erfüllbarkeitsmerkmal ist auf das Szenario nicht anwendbar.

Andere wichtiges Konzept- Modell der Welt. Ein Weltmodell wird üblicherweise als eine Menge organisierten Wissens über die Welt in einer bestimmten Weise verstanden, die für ein kognitives System oder sein Computermodell charakteristisch ist. In ein paar mehr Gesamtansicht Das Weltmodell wird als Teil des kognitiven Systems bezeichnet, das Wissen über die Struktur der Welt, ihre Muster usw. speichert. In einem anderen Sinne ist das Weltmodell mit den Ergebnissen des Textverständnisses verbunden oder, allgemeiner, Diskurs. Im Prozess des Verstehens des Diskurses wird sein mentales Modell aufgebaut, das das Ergebnis der Interaktion zwischen dem Inhaltsplan des Textes und dem diesem Subjekt innewohnenden Wissen über die Welt ist [Johnson-Laird 1988, S. 237 ff.]. Folge]. Das erste und zweite Verständnis werden oft kombiniert. Dies ist typisch für Sprachforscher, die in der kognitiven Linguistik und Kognitionswissenschaft arbeiten.

Eng verwandt mit der Kategorie des Rahmens ist der Begriff der Szene. Die Szenenkategorie wird in der Literatur hauptsächlich als Bezeichnung der Begriffsstruktur zur deklarativen Repräsentation von aktualisiertem In verwendet Sprechakt und engagiert Sprache bedeutet(Token, syntaktische Konstruktionen, Grammatische Kategorien etc) Situationen und ihre Teile5). Da sie mit sprachlichen Formen verbunden ist, wird die Szene oft aktualisiert bestimmtes Wort oder Ausdruck. In Handlungsgrammatiken (siehe unten) erscheint eine Szene als Teil einer Episode oder Erzählung. Typische Beispiele Szenen - eine Reihe von Würfeln, mit denen das KI-System arbeitet, die Szene in der Geschichte und die Teilnehmer an der Aktion usw. In der künstlichen Intelligenz werden Szenen in Bilderkennungssystemen sowie in forschungsorientierten Programmen (Analyse, Beschreibung) verwendet Problemsituationen. Der Begriff der Szene hat sich in der theoretischen Linguistik, aber auch in der Logik, insbesondere in der Situationssemantik, durchgesetzt, in der die Bedeutung lexikalische Einheit verbindet sich direkt mit der Szene.