Geschichte der Computerlinguistik. Was ist Computerlinguistik? Kognitiver Werkzeugkasten der Computerlinguistik

Novoselova Irina

Warum sind nicht alle maschinellen Übersetzungen perfekt? Was bestimmt die Qualität einer Übersetzung? Verfügt der Autor über ausreichende Kenntnisse, um vorhandene Computerwörterbücher zu nutzen und zu ergänzen? Antworten auf diese Fragen versucht die Autorin in ihrem Werk zu geben. Bericht zum Thema - in der angehängten Datei, das Produkt der Projektaktivitäten - auf dem Schulportal

Herunterladen:

Vorschau:

offen

International

Forschung

Konferenz

Gymnasiasten und Studenten

"Bildung. Die Wissenschaft. Beruf"

Sektion "Fremdlinguistik"

"Computerlinguistik"

Hergestellt von Irina Nowosjolowa

MOU Turnhalle Nr. 39 "Classic"

10 "B"-Klasse

Wissenschaftliche Betreuer:

Chigrineva Tatyana Dmitrievna,

Englischlehrer der höchsten Kategorie

Osipova Svetlana Leonidovna,

Informatiklehrer der höchsten Kategorie

Stadt Otradny

2011

Englische Wörter in der IKT

Schauen Sie sich die Website an

Mein Versuch

Eine der Aufgaben besteht darin, ein Experiment durchzuführen, das darin besteht, die Fähigkeiten verschiedener sprachlicher Computerwörterbücher zu vergleichen, um eine genauere und ungefährere Übersetzung aus dem Englischen ins Russische zu erhalten.

Folgende Seiten wurden getestet:

http://translate.eu/
http://translate.google.ru/#ru
http://www.langinfo.ru/index.php?div=6
http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Für die Reinheit des Experiments habe ich Sätze mit unterschiedlicher Komplexität der stilistischen Übersetzung ausgewählt. Die Eingabephrasen lauten wie folgt:

1. Ein neuer Bericht besagt, dass die Teenager von heute egoistischer sind als vor 20 Jahren

(Neuer Bericht besagt, dass die Teenager von heute egoistischer sind als vor 20 Jahren)

2. Sie glaubt, dass Videospiele und das Internet die Hauptgründe für diesen erhöhten Egoismus sind.

(Sie glaubt, dass Videospiele und das Internet die Hauptgründe für diesen wachsenden Egoismus sind.)

3. Sie wollen besser sein als andere

(Sie wollen besser sein als der Rest)

4. Sie stellte fest, dass der große Anstieg ab dem Jahr 2000 begann, als gewalttätige Videospiele wirklich populär wurden.

(Sie fand ab dem Jahr 2000, als gewalttätige Videospiele wirklich populär wurden, ein großes Wachstum.)

Nachdem ich diese Sätze auf Online-Übersetzerseiten übersetzt hatte, erhielt ich die folgenden Ergebnisse:

http://translate.eu/

Computerlinguistik: Methoden, Ressourcen, Anwendungen

Einführung

Begriff Computerlinguistik(CL) ist in den letzten Jahren im Zusammenhang mit der Entwicklung verschiedener angewandter Softwaresysteme, einschließlich kommerzieller Softwareprodukte, zunehmend üblich geworden. Dies ist auf das schnelle Wachstum der Textinformationsgesellschaft, auch im Internet, und die Notwendigkeit einer automatischen Verarbeitung von Texten in natürlicher Sprache (NL) zurückzuführen. Dieser Umstand stimuliert die Entwicklung der Computerlinguistik als Wissenschaftsgebiet und die Entwicklung neuer Informations- und Sprachtechnologien.

Im Rahmen der seit mehr als 50 Jahren bestehenden Computerlinguistik (auch bekannt unter den Namen Maschinenlinguistik, Automatische Textverarbeitung in NL) wurden viele vielversprechende Methoden und Ideen vorgeschlagen, aber noch nicht alle haben ihren Ausdruck in Softwareprodukten gefunden, die in der Praxis eingesetzt werden. Unser Ziel ist es, die Besonderheiten dieses Forschungsbereichs zu charakterisieren, seine Hauptaufgaben zu formulieren, seine Verbindungen zu anderen Wissenschaften aufzuzeigen, einen kurzen Überblick über die wichtigsten verwendeten Ansätze und Ressourcen zu geben und die bestehenden Anwendungen von CL kurz zu charakterisieren. Für eine ausführlichere Einarbeitung in diese Themen können Bücher empfohlen werden.

1. Aufgaben der Computerlinguistik

Die Computerlinguistik entstand an der Schnittstelle von Wissenschaften wie Linguistik, Mathematik, Informatik (Informatik) und künstlicher Intelligenz. Die Ursprünge von CL gehen auf die Forschung des berühmten amerikanischen Wissenschaftlers N. Chomsky auf dem Gebiet der Formalisierung der Struktur natürlicher Sprache zurück; seine Entwicklung basiert auf Ergebnissen der allgemeinen Sprachwissenschaft (Linguistik). Die Linguistik befasst sich mit den allgemeinen Gesetzen der natürlichen Sprache - ihrer Struktur und Funktionsweise und umfasst die folgenden Bereiche:

Ø Phonologie- untersucht die Sprachlaute und die Regeln für ihre Kombination bei der Sprachbildung;

Ø Morphologie- befasst sich mit der inneren Struktur und äußeren Form von Wörtern, einschließlich Wortarten und deren Kategorien;

Ø Syntax- untersucht die Satzstruktur, die Kompatibilitätsregeln und die Wortreihenfolge in einem Satz sowie seine allgemeinen Eigenschaften als Einheit der Sprache.

Ø Semantikund Pragmatik- eng verwandte Bereiche: Die Semantik befasst sich mit der Bedeutung von Wörtern, Sätzen und anderen sprachlichen Einheiten, die Pragmatik mit den Merkmalen des Ausdrucks dieser Bedeutung im Zusammenhang mit den spezifischen Kommunikationszielen;

Ø Lexikographie beschreibt das Lexikon eines bestimmten SL - seine einzelnen Wörter und ihre grammatikalischen Eigenschaften sowie Methoden zum Erstellen von Wörterbüchern.

Die Ergebnisse von N. Chomsky, die an der Schnittstelle von Linguistik und Mathematik erzielt wurden, legten den Grundstein für die Theorie der formalen Sprachen und Grammatiken (oft als generativ, oder generativ Grammatiker). Diese Theorie ist jetzt Mathematische Linguistik und wird verwendet, um nicht so sehr NL zu verarbeiten, sondern künstliche Sprachen, hauptsächlich Programmiersprachen. Es ist von Natur aus eine ziemlich mathematische Disziplin.

Mathematische Linguistik umfasst auch quantitative Linguistik, das Studium der Häufigkeitsmerkmale der Sprache - Wörter, ihrer Kombinationen, syntaktischen Konstruktionen usw. unter Verwendung mathematischer Methoden der Statistik, so dass man diesen Wissenschaftszweig statistische Linguistik nennen kann.

CL steht auch in engem Zusammenhang mit einem so interdisziplinären Wissenschaftsgebiet wie der künstlichen Intelligenz (KI), innerhalb derer Computermodelle individueller intellektueller Funktionen entwickelt werden. Eines der ersten Arbeitsprogramme auf dem Gebiet von AI und CL ist das bekannte Programm von T. Winograd, das die einfachsten Befehle einer Person verstand, um die Welt der Würfel zu verändern, formuliert auf einer begrenzten Teilmenge von NL. Es sollte beachtet werden, dass trotz der offensichtlichen Schnittmenge von Forschung im Bereich CL und KI (da Sprachkompetenz mit intellektuellen Funktionen zusammenhängt), KI nicht alle CL absorbiert, da sie ihre eigene theoretische Grundlage und Methodik hat. Gemeinsam ist diesen Wissenschaften die Computermodellierung als Hauptmethode und Endziel der Forschung.

Somit kann die Aufgabe von CL als die Entwicklung von Computerprogrammen zur automatischen Verarbeitung von Texten in NL formuliert werden. Und obwohl Verarbeitung ziemlich breit verstanden wird, können bei weitem nicht alle Verarbeitungsarten als linguistisch bezeichnet werden, und die entsprechenden Prozessoren können als linguistisch bezeichnet werden. Linguistischer Prozessor muss das eine oder andere formale Modell der Sprache verwenden (auch wenn es sehr einfach ist), was bedeutet, dass es auf die eine oder andere Weise sprachabhängig sein muss (dh von einer bestimmten NL abhängen muss). So kann beispielsweise der Texteditor Mycrosoft Word als linguistisch bezeichnet werden (schon deshalb, weil er Wörterbücher verwendet), der NotePad-Editor jedoch nicht.

Die Komplexität der Aufgaben von CL ist darauf zurückzuführen, dass NL ein komplexes mehrstufiges Zeichensystem ist, das für den Informationsaustausch zwischen Menschen entstanden ist, sich im Prozess menschlicher praktischer Tätigkeit entwickelt hat und sich in Verbindung mit dieser Tätigkeit ständig verändert . Eine weitere Schwierigkeit bei der Entwicklung von CL-Methoden (und die Schwierigkeit, SL im Rahmen der Linguistik zu studieren) hängt mit der Vielfalt natürlicher Sprachen zusammen, signifikante Unterschiede in ihrem Vokabular, ihrer Morphologie, Syntax, verschiedene Sprachen bieten unterschiedliche Ausdrucksmöglichkeiten selbe Bedeutung.

2. Merkmale des NL-Systems: Ebenen und Verbindungen

Die Objekte linguistischer Prozessoren sind die Texte von NL. Unter Texten werden alle mündlichen und schriftlichen Sprachproben jeglicher Art verstanden, aber im Grunde betrachtet CL schriftliche Texte. Der Text hat eine eindimensionale, lineare Struktur und trägt auch eine bestimmte Bedeutung, während die Sprache als Mittel fungiert, um die übertragene Bedeutung in Texte umzuwandeln (Sprachsynthese) und umgekehrt (Sprachanalyse). Der Text besteht aus kleineren Einheiten, und es gibt mehrere Möglichkeiten, den Text in Einheiten aufzuteilen (aufzuteilen), die verschiedenen Ebenen angehören.

Die Existenz der folgenden Ebenen wird allgemein anerkannt:

Die Ebene der Sätze (Aussagen) - syntaktische Ebene;

· Lexiko-morphologisch Homonymie (der häufigste Typ) tritt auf, wenn die Wortformen zweier verschiedener Lexeme übereinstimmen, z. B. Vers- ein Verb im Singular Maskulinum und ein Substantiv im Singular Nominativ),

· Syntaktische Homonymie bedeutet eine Mehrdeutigkeit in der syntaktischen Struktur, was zu mehreren Interpretationen führt: Studenten aus Lemberg gingen nach Kiew,fliegend Flugzeuge kann sein gefährlich(berühmtes Beispiel von Chomsky) usw.

3. Modellierung in der Computerlinguistik

Die Entwicklung eines linguistischen Prozessors (LP) beinhaltet eine Beschreibung der linguistischen Eigenschaften des verarbeiteten Textes der NL, und diese Beschreibung ist organisiert als Modell Sprache. Wie bei der Modellierung in Mathematik und Programmierung wird ein Modell als ein System verstanden, das eine Reihe wesentlicher Eigenschaften des zu modellierenden Phänomens (dh NL) widerspiegelt und daher eine strukturelle oder funktionale Ähnlichkeit aufweist.

Sprachmodelle, die in CL verwendet werden, werden normalerweise auf der Grundlage von Theorien erstellt, die von Linguisten durch das Studium verschiedener Texte und auf der Grundlage ihrer sprachlichen Intuition (Introspektion) erstellt wurden. Was ist die Besonderheit der KL-Modelle? Folgende Merkmale lassen sich unterscheiden:

Formalität und letztlich Algorithmierbarkeit;

Funktionalität (der Zweck der Modellierung besteht darin, die Funktionen der Sprache als „Black Box“ zu reproduzieren, ohne ein genaues Modell für die Synthese und Analyse der menschlichen Sprache zu erstellen);

Allgemeingültigkeit des Modells, d. h. es berücksichtigt eine ziemlich große Menge an Texten;

· Experimentelle Validität, die das Testen des Modells an verschiedenen Texten beinhaltet;

· Vertrauen auf Wörterbücher als obligatorischer Bestandteil des Modells.

Die Komplexität der SL, ihrer Beschreibung und Verarbeitung führt dazu, dass dieser Prozess in getrennte Stufen unterteilt wird, die den Sprachebenen entsprechen.Die meisten modernen LPs sind modular aufgebaut, wobei jede Ebene der sprachlichen Analyse oder Synthese einer separaten entspricht Prozessormodul. Insbesondere bei der Textanalyse leisten einzelne LP-Module:

Ø Graphematische Analyse, d. h. Hervorheben von Wortformen im Text (Übergang von Buchstaben zu Wörtern);

Ø Morphologische Analyse - der Übergang von Wortformen zu ihren Lemmata(Wörterbuchformen von Lexemen) oder Grundlagen(Kernteile des Wortes, minus Flexionsmorpheme);

Ø Syntaktische Analyse, d.h. Identifizierung der grammatikalischen Struktur von Textsätzen;

Ø Semantische und pragmatische Analyse, die die Bedeutung von Phrasen und die entsprechende Reaktion des Systems bestimmt, in dem die LP arbeitet.

Es sind unterschiedliche Schemata der Interaktion dieser Module möglich (sequentielles Arbeiten oder parallel verschachtelte Analyse), jedoch werden einzelne Ebenen - Morphologie, Syntax und Semantik noch von unterschiedlichen Mechanismen verarbeitet.

Somit kann LP als mehrstufiger Konverter betrachtet werden, der im Fall der Textanalyse jeden seiner Sätze in eine interne Darstellung seiner Bedeutung übersetzt und umgekehrt im Fall der Synthese. Das entsprechende Sprachmodell kann aufgerufen werden strukturell.

Obwohl vollständige CL-Modelle die Berücksichtigung aller Hauptniveaus der Sprache und die Verfügbarkeit geeigneter Module erfordern, kann bei der Lösung einiger angewandter Probleme auf die Darstellung einzelner Niveaus im LP verzichtet werden. Beispielsweise gehörten verarbeitete Texte in frühen experimentellen CL-Programmen zu sehr engen Problembereichen (mit einem begrenzten Satz von Wörtern und einer strengen Wortreihenfolge), sodass die Worterkennung ihre Anfangsbuchstaben verwenden konnte, wobei die Phasen der morphologischen und syntaktischen Analyse weggelassen wurden.

Ein weiteres Beispiel für ein reduziertes Modell, das inzwischen recht häufig verwendet wird, ist das Sprachmodell der Häufigkeit von Symbolen und deren Kombinationen (Bigramme, Trigramme usw.) in den Texten einer bestimmten NL. Solch Statistisches Modell stellt sprachliche Informationen auf der Ebene von Zeichen (Buchstaben) des Textes dar und reicht beispielsweise aus, um Tippfehler im Text zu erkennen oder seine sprachliche Zugehörigkeit zu erkennen. Ein ähnliches Modell, das auf der Statistik einzelner Wörter und ihrem gemeinsamen Vorkommen in Texten (Bigramme, Worttrigramme) basiert, wird beispielsweise verwendet, um lexikalische Mehrdeutigkeiten aufzulösen oder die Wortart (in Sprachen wie Englisch) zu bestimmen. .

Beachten Sie, dass dies möglich ist Strukturstatistische Modelle, in dem bestimmte Statistiken bei der Darstellung einzelner NL-Niveaus berücksichtigt werden - Wörter, syntaktische Konstruktionen usw.

In einem modularen LP wird in jeder Phase der Textanalyse oder -synthese ein geeignetes Modell (Morphologie, Syntax usw.) verwendet.

Die in CL vorhandenen morphologischen Modelle der Analyse von Wortformen unterscheiden sich hauptsächlich in folgenden Parametern:

Das Ergebnis der Arbeit ist ein Lemma oder Stamm mit einer Reihe morphologischer Merkmale (Geschlecht, Numerus, Kasus, Typ, Person usw.) einer bestimmten Wortform;

die Analysemethode - basierend auf dem Wörterbuch der Wortformen der Sprache oder auf dem Wörterbuch der Grundlagen oder der nicht-Wörterbuchmethode;

· die Möglichkeit, die Wortform eines nicht im Wörterbuch enthaltenen Lexems zu verarbeiten.

Bei der morphologischen Synthese sind die Ausgangsdaten das Lexem und spezifische morphologische Merkmale der angeforderten Wortform des gegebenen Lexems; es ist auch möglich, die Synthese aller Formen des gegebenen Lexems anzufordern. Das Ergebnis sowohl der morphologischen Analyse als auch der Synthese ist im Allgemeinen mehrdeutig.

Um die Syntax im Rahmen von CL zu modellieren, wurde eine große Anzahl unterschiedlicher Ideen und Methoden vorgeschlagen, die sich in der Art und Weise unterscheiden, wie die Syntax der Sprache beschrieben wird, wie diese Informationen in der Analyse oder Synthese des SL-Satzes verwendet werden, und die Art und Weise, wie die syntaktische Struktur des Satzes dargestellt wird. Es lassen sich ganz bedingt drei Hauptansätze zur Modellbildung herausgreifen: ein generativer Ansatz, der auf die Ideen von Chomsky zurückgeht, ein Ansatz, der auf die Ideen von I. Melchuk zurückgeht und ebenfalls durch das Meaning-Text-Modell repräsentiert wird als ein Ansatz, bei dem bestimmte Versuche unternommen werden, die Beschränkungen der ersten beiden Ansätze zu überwinden, insbesondere der Theorie der syntaktischen Gruppen.

Im Rahmen des generativen Ansatzes wird die syntaktische Analyse normalerweise auf der Grundlage einer formalen kontextfreien Grammatik durchgeführt, die die Phrasenstruktur eines Satzes beschreibt, oder auf der Grundlage einer Erweiterung der kontextfreien Grammatik. Diese Grammatiken gehen von einer sequentiellen linearen Unterteilung eines Satzes in Phrasen (syntaktische Konstruktionen, z. B. Nominalphrasen) aus und spiegeln daher gleichzeitig sowohl seine syntaktischen als auch seine linearen Strukturen wider. Die hierarchische syntaktische Struktur des als Ergebnis der Analyse erhaltenen NL-Satzes wird beschrieben Komponentenbaum, deren Blätter die Wörter des Satzes enthalten, die Teilbäume entsprechen den im Satz enthaltenen syntaktischen Konstruktionen (Phrasen), und die Bögen drücken die Verschachtelungsbeziehungen der Konstruktionen aus.

Der betrachtete Ansatz kann Netzwerkgrammatiken umfassen, die sowohl ein Gerät zum Beschreiben eines Sprachsystems als auch zum Festlegen eines Verfahrens zum Analysieren von Sätzen basierend auf dem Konzept eines endlichen Automaten, beispielsweise eines erweiterten Übergangsnetzwerks ATN, sind.

Als Teil des zweiten Ansatzes wird eine visuellere und üblichere Methode verwendet, um die syntaktische Struktur eines Satzes darzustellen - Abhängigkeitsbäume. Die Knoten des Baums enthalten die Wörter des Satzes (normalerweise ein Verbprädikat an der Wurzel), und jeder Bogen des Baums, der ein Knotenpaar verbindet, wird als syntaktischer Bogen interpretiert. unterordnen Verbindung zwischen ihnen, und die Verbindungsrichtung entspricht der Richtung dieses Bogens. Da in diesem Fall die syntaktischen Wortverbindungen und die Wortreihenfolge im Satz getrennt werden, wird dann anhand von Unterordnungsbäumen gebrochen und nicht-projektiv Konstruktionen, die in Sprachen mit freier Wortstellung recht häufig vorkommen.

Komponentenbäume eignen sich eher zur Beschreibung von Sprachen in einer starren Wortstellung; ihre Darstellung von gebrochenen und nicht-projektiven Konstruktionen erfordert eine Erweiterung des verwendeten grammatikalischen Formalismus. Aber im Rahmen dieses Ansatzes werden Konstruktionen mit nicht-untergeordneten Beziehungen natürlicher beschrieben. Gleichzeitig ist eine gemeinsame Schwierigkeit beider Ansätze die Darstellung homogener Satzglieder.

Syntaktische Modelle in allen Ansätzen versuchen, die Einschränkungen zu berücksichtigen, die der Verbindung von Spracheinheiten in der Sprache auferlegt werden, während auf die eine oder andere Weise das Konzept der Valenz verwendet wird. Wertigkeit- dies ist die Fähigkeit eines Wortes oder einer anderen Einheit einer Sprache, andere Einheiten auf eine bestimmte syntaktische Weise anzuhängen; Aktant ist ein Wort oder eine syntaktische Konstruktion, die diese Valenz ausfüllt. Zum Beispiel das russische Verb aushändigen hat drei Hauptvalenzen, die durch die folgenden Fragewörter ausgedrückt werden können: wer? an wen? was? Im Rahmen des generativen Ansatzes werden die Valenzen von Wörtern (vor allem Verben) hauptsächlich in Form von speziellen Rahmen beschrieben ( Unterkategorisierung Rahmen) , und im Rahmen des Dependency-Tree-Ansatzes, as Managementmodelle.

Modelle der Semantik der Sprache sind im Rahmen von CL am wenigsten entwickelt. Für die semantische Analyse von Sätzen werden die sogenannten Fallgrammatiken u semantische Fälle(Valenz), auf deren Grundlage die Semantik des Satzes beschrieben wird als durch die Verbindung des Hauptwortes (Verb) mit seinen semantischen Aktanten, d. h. durch semantische Fälle. Zum Beispiel das Verb aushändigen durch semantische Fälle beschrieben geben(Agent), Adressat und Objekt übertragen.

Zur Darstellung der Semantik des gesamten Textes werden meist zwei logisch äquivalente Formalismen verwendet (beide im Rahmen der KI ausführlich beschrieben):

· Prädikatskalkülformeln, die Eigenschaften, Zustände, Prozesse, Aktionen und Beziehungen ausdrücken;

· Semantische Netze sind beschriftete Graphen, in denen Knoten Konzepten und Knoten Beziehungen zwischen ihnen entsprechen.

Was die Modelle der Pragmatik und des Diskurses betrifft, die es erlauben, nicht nur einzelne Sätze, sondern den Text als Ganzes zu verarbeiten, werden hauptsächlich die Ideen von Van Dyck verwendet, um sie aufzubauen. Eines der seltenen und erfolgreichen Modelle ist das Modell der diskursiven Synthese zusammenhängender Texte. Solche Modelle sollten anaphorische Bezüge und andere Phänomene auf Diskursebene berücksichtigen.

Lassen Sie uns zum Abschluss der Charakterisierung von Sprachmodellen im Rahmen von CL ein wenig mehr auf die Theorie der sprachlichen Modelle „Meaning Text“ eingehen, in der viele fruchtbare Ideen auftauchten, die ihrer Zeit voraus waren und immer noch aktuell sind.

In Übereinstimmung mit dieser Theorie wird die NL als eine besondere Art von Konverter angesehen, der die Verarbeitung von gegebenen Bedeutungen in entsprechende Texte und von gegebenen Texten in ihre entsprechenden Bedeutungen durchführt. Die Bedeutung wird als Invariante aller synonymen Transformationen des Textes verstanden. Der Inhalt eines zusammenhängenden Sprachfragments ohne Unterteilung in Phrasen und Wortformen wird als spezielle semantische Repräsentation dargestellt, die aus zwei Komponenten besteht: semantischer Graph und Informationen über kommunikative Sinnorganisation.

Als Besonderheiten der Theorie sind anzugeben:

o Orientierung an der Synthese von Texten (die Fähigkeit, korrekte Texte zu erstellen, gilt als Hauptkriterium für Sprachkompetenz);

o mehrstufiger, modularer Charakter des Modells, und die Hauptebenen der Sprache werden in oberflächliche und tiefe Ebenen unterteilt: Sie unterscheiden sich z. tief(semantisiert) und Fläche("reine") Syntax sowie oberflächenmorphologische und tiefenmorphologische Ebenen;

o der integrale Charakter des Sprachmodells; Speichern der auf jeder Ebene präsentierten Informationen durch das entsprechende Modul, das den Übergang von dieser Ebene zur nächsten durchführt;

o spezielle Mittel zur Beschreibung der Syntax (Regeln zum Verbinden von Einheiten) auf jeder Ebene; Um die lexikalische Kompatibilität zu beschreiben, wurde ein Satz vorgeschlagen lexikalische Funktionen, mit deren Hilfe die Regeln der syntaktischen Paraphrasierung formuliert werden;

o Betonung des Wortschatzes statt der Grammatik; das Wörterbuch speichert Informationen in Bezug auf verschiedene Sprachniveaus; insbesondere zur syntaktischen Analyse werden Wortverwaltungsmodelle verwendet, die ihre syntaktischen und semantischen Valenzen beschreiben.

Dieses Theorie- und Sprachmodell hat seine Verkörperung im maschinellen Übersetzungssystem ETAP gefunden.

4. Sprachliche Ressourcen

Die Entwicklung linguistischer Prozessoren erfordert eine angemessene Präsentation von linguistischen Informationen über das verarbeitete NL. Diese Informationen werden in einer Vielzahl von Computerwörterbüchern und Grammatiken angezeigt.

Wörterbücher sind die traditionellste Form der Darstellung lexikalischer Informationen; sie unterscheiden sich in ihren Einheiten (normalerweise Wörter oder Phrasen), Struktur, Umfang des Wortschatzes (Wörterbücher mit Begriffen eines bestimmten Problembereichs, Wörterbücher des allgemeinen Wortschatzes usw.). Die Wörterbucheinheit wird aufgerufen Eintrag im Wörterbuch, stellt es Informationen über das Token bereit. Lexikalische Homonyme werden normalerweise in verschiedenen Wörterbucheinträgen präsentiert.

Morphologische Wörterbücher, die für die morphologische Analyse verwendet werden, sind die gebräuchlichsten in CL, ihr Wörterbucheintrag enthält morphologische Informationen über das entsprechende Wort - Wortart, Flexionsklasse (für Flexionssprachen), eine Liste von Wortbedeutungen usw. Abhängig von der Organisation der Sprachprozessor im Wörterbuch können auch grammatikalische Informationen hinzugefügt werden, wie beispielsweise Wortsteuerungsmuster.

Es gibt Wörterbücher, die mehr Informationen über Wörter liefern. Beispielsweise stützt man sich im Wesentlichen auf das linguistische Modell „Meaning-Text“. erklärend-kombinatorisches Wörterbuch, in dessen Wörterbucheintrag neben morphologischen, syntaktischen und semantischen Informationen (syntaktische und semantische Valenzen) Informationen über die lexikalische Kompatibilität dieses Wortes dargestellt werden.

Eine Reihe von linguistischen Prozessoren verwenden synonym wörterbücher. Eine relativ neue Art von Wörterbüchern - paronym wörterbücher, also äußerlich ähnliche Wörter mit unterschiedlicher Bedeutung, z. Fremder und Außerirdischer, Bearbeitung und Hinweis .

Eine andere Art von lexikalischen Ressourcen - Phrase Basen, in dem die typischsten Phrasen einer bestimmten Sprache ausgewählt werden. Eine solche Basis von Phrasen in russischer Sprache (etwa eine Million Einheiten) ist der Kern des CrossLexic-Systems.

Komplexere Arten von lexikalischen Ressourcen sind Thesauri und Ontologien. Thesaurus ist ein semantisches Wörterbuch, d. h. ein Wörterbuch, in dem semantische Zusammenhänge von Wörtern dargestellt werden – Synonyme, Geschlechter-Art-Beziehungen (manchmal auch Oben-Unten-Beziehung genannt), Teil-Ganzes, Assoziationen. Die Verbreitung von Thesauri ist mit der Lösung von Iverbunden.

Das Konzept der Ontologie ist eng mit dem Konzept des Thesaurus verwandt. Ontologie ist eine Reihe von Konzepten, Entitäten eines bestimmten Wissensgebiets, die sich auf die mehrfache Verwendung für verschiedene Aufgaben konzentrieren. Ontologien können auf Basis des in der Sprache vorhandenen Vokabulars erstellt werden – in diesem Fall heißen sie sprachlich und.

Eine solche linguistische Ontologie wird als WordNet-System betrachtet - eine große lexikalische Ressource, in der die Wörter der englischen Sprache gesammelt werden: Substantive, Adjektive, Verben und Adverbien und ihre semantischen Verbindungen verschiedener Typen werden präsentiert. Für jeden der angegebenen Wortarten werden Wörter in Gruppen von Synonymen gruppiert ( synsets), zwischen denen die Beziehungen der Antonymie, Hyponymie (Gattung-Art-Beziehung), Meronymie (Teil-Ganzes-Beziehung) hergestellt werden. Die Ressource enthält etwa 25.000 Wörter, die Anzahl der Hierarchieebenen für die Beziehung zwischen Gattung und Art beträgt durchschnittlich 6-7 und erreicht manchmal 15. Die obere Ebene der Hierarchie bildet eine gemeinsame Ontologie - ein System grundlegender Konzepte über die Welt.

Nach dem englischen WordNet-Schema wurden ähnliche lexikalische Ressourcen für andere europäische Sprachen aufgebaut, vereint unter dem gemeinsamen Namen EuroWordNet.

Eine ganz andere Art von Sprachmitteln ist Grammatik, dessen Typ vom im Prozessor verwendeten Syntaxmodell abhängt. Grammatik ist in erster Näherung ein Regelwerk, das die allgemeinen syntaktischen Eigenschaften von Wörtern und Wortgruppen ausdrückt. Die Gesamtzahl der Grammatikregeln hängt auch vom Syntaxmodell ab und variiert von mehreren zehn bis zu mehreren hundert. Im Wesentlichen manifestiert sich hier ein solches Problem in der Beziehung zwischen Grammatik und Wortschatz im Sprachmodell: Je mehr Informationen im Wörterbuch präsentiert werden, desto kürzer kann die Grammatik sein und umgekehrt.

Es sei darauf hingewiesen, dass die Erstellung von Computerwörterbüchern, Thesauri und Grammatiken eine umfangreiche und zeitaufwändige Arbeit ist, manchmal sogar zeitaufwändiger als die Entwicklung eines linguistischen Modells und des entsprechenden Prozessors. Eine der untergeordneten Aufgaben von CL ist daher die Automatisierung der Konstruktion sprachlicher Ressourcen.

Computerwörterbücher werden oft durch Konvertieren gewöhnlicher Textwörterbücher gebildet, aber oft ist viel komplexere und mühsamere Arbeit erforderlich, um sie zu erstellen. Dies geschieht normalerweise beim Erstellen von Wörterbüchern und Thesauri für sich schnell entwickelnde wissenschaftliche Bereiche - Molekularbiologie, Informatik usw. Das Ausgangsmaterial zum Extrahieren der erforderlichen sprachlichen Informationen kann sein Sammlungen u Korpora von Texten.

Ein Textkorpus ist eine Sammlung von Texten, die nach einem bestimmten Prinzip der Repräsentativität (nach Genre, Autorschaft usw.) gesammelt wurden, in der alle Texte ausgezeichnet, dh mit sprachlichen Auszeichnungen (Annotationen) versehen sind - morphologisch , Akzent, Syntax usw. Derzeit gibt es mindestens hundert verschiedene Korpora - für verschiedene NL und mit unterschiedlichen Markierungen, in Russland ist das bekannteste das Nationalkorpus der russischen Sprache.

Beschriftete Korpora werden von Linguisten erstellt und sowohl für die linguistische Forschung als auch zum Tuning (Training) von Modellen und Prozessoren verwendet, die in CL unter Verwendung bekannter mathematischer Methoden des maschinellen Lernens verwendet werden. Daher wird maschinelles Lernen verwendet, um Methoden zum Auflösen lexikalischer Mehrdeutigkeit, zum Erkennen von Wortarten und zum Auflösen anaphorischer Referenzen einzurichten.

Da Korpora und Textsammlungen hinsichtlich der in ihnen repräsentierten sprachlichen Phänomene immer begrenzt sind (und Korpora zudem über einen längeren Zeitraum angelegt werden), werden Internettexte in letzter Zeit zunehmend als vollständigere sprachliche Ressource betrachtet. Zweifellos ist das Internet die repräsentativste Quelle für moderne Sprachproben, aber seine Verwendung als Korpus erfordert die Entwicklung spezieller Technologien.

5. Anwendungen der Computerlinguistik

Das Anwendungsgebiet der Computerlinguistik erweitert sich ständig, daher werden wir hier die bekanntesten angewandten Probleme charakterisieren, die mit ihren Werkzeugen gelöst werden.

Maschinell übersetzen- die früheste Anwendung von CL, mit der dieser Bereich selbst entstand und sich entwickelte. Die ersten Übersetzungsprogramme wurden vor über 50 Jahren entwickelt und basierten auf der einfachsten Wort-für-Wort-Übersetzungsstrategie. Allerdings wurde schnell erkannt, dass die maschinelle Übersetzung ein vollständiges sprachliches Modell erfordert, das alle Ebenen der Sprache bis hin zur Semantik und Pragmatik berücksichtigt, was die Entwicklung dieser Richtung immer wieder behinderte. Ein ziemlich vollständiges Modell wird im inländischen System ETAP verwendet, das wissenschaftliche Texte aus dem Französischen ins Russische übersetzt.

Beachten Sie jedoch, dass im Fall der Übersetzung in eine verwandte Sprache, zum Beispiel beim Übersetzen vom Spanischen ins Portugiesische oder vom Russischen ins Ukrainische (die in Syntax und Morphologie viel gemeinsam haben), der Prozessor basierend auf einer vereinfachten implementiert werden kann Modell zum Beispiel, das auf der gleichen Strategie der Wort-für-Wort-Übersetzung basiert.

Derzeit gibt es eine ganze Reihe von Computerübersetzungssystemen (in unterschiedlicher Qualität), von großen internationalen Forschungsprojekten bis hin zu kommerziellen automatischen Übersetzern. Von großem Interesse sind Projekte zur mehrsprachigen Übersetzung, die eine Zwischensprache verwenden, in der die Bedeutung übersetzter Sätze kodiert ist. Eine weitere moderne Richtung ist die statistische Übersetzung, basierend auf der Statistik der Übersetzung von Wörtern und Sätzen (diese Ideen werden beispielsweise in der Google-Suchmaschine Übersetzer implementiert).

Aber trotz der jahrzehntelangen Entwicklung dieses ganzen Bereichs ist die Aufgabe der maschinellen Übersetzung im Allgemeinen noch lange nicht vollständig gelöst.

Eine andere ziemlich alte Anwendung der Computerlinguistik ist Informationsrückgewinnung und damit verbundene Aufgaben der Indizierung, Zusammenfassung, Klassifizierung und Kategorisierung von Dokumenten.

Die Volltextsuche von Dokumenten in großen Dokumentendatenbanken (vorwiegend naturwissenschaftlich, technisch, kaufmännisch) erfolgt in der Regel auf deren Basis Bilder suchen, die als Menge verstanden wird Schlüsselwörter- Wörter, die das Hauptthema des Dokuments widerspiegeln. Als Schlüsselwörter wurden zunächst nur einzelne Wörter der SL berücksichtigt und die Suche ohne Berücksichtigung ihrer Flexion durchgeführt, was für schwach flektierende Sprachen wie Englisch unkritisch ist. Für Flexionssprachen, zum Beispiel für Russisch, war es notwendig, ein morphologisches Modell zu verwenden, das die Flexion berücksichtigt.

Die Suchanfrage wurde ebenfalls als Wortgruppe dargestellt, passende (relevante) Dokumente wurden anhand der Ähnlichkeit der Anfrage und des Suchbildes des Dokuments ermittelt. Das Erstellen eines Suchbildes eines Dokuments beinhaltet Indizierung seinen Text, d. h. das Hervorheben von Schlüsselwörtern darin. Da das Thema und der Inhalt des Dokuments sehr oft nicht durch einzelne Wörter, sondern durch Phrasen viel genauer dargestellt werden, wurden Phrasen als Schlüsselwörter betrachtet. Dies erschwerte das Verfahren zur Indexierung von Dokumenten erheblich, da verschiedene Kombinationen statistischer und sprachlicher Kriterien verwendet werden mussten, um sinnvolle Phrasen im Text auszuwählen.

In der Tat verwendet Information Retrieval hauptsächlich Textvektormuster(manchmal genannt Tasche von Wörter- eine Worttüte), in der das Dokument durch einen Vektor (Satz) seiner Schlüsselwörter dargestellt wird. Auch moderne Internet-Suchmaschinen verwenden dieses Modell, indem sie Texte nach den darin verwendeten Wörtern indexieren (gleichzeitig verwenden sie sehr ausgefeilte Ranking-Verfahren, um relevante Dokumente zurückzugeben).

Das spezifizierte Textmodell (mit einigen Komplikationen) wird auch in den verwandten Problemen des Informationsabrufs verwendet, die unten betrachtet werden.

Abstrakter Text- Verringerung des Umfangs und Erhalt der Zusammenfassung - Zusammenfassung (zusammengefasster Inhalt), wodurch die Suche in Dokumentensammlungen beschleunigt wird. Es kann auch ein allgemeines Abstract für mehrere themenverwandte Dokumente erstellt werden.

Die Hauptmethode der automatischen Zusammenfassung ist immer noch die Auswahl der signifikantesten Sätze des abstrahierten Textes, für die normalerweise zuerst die Schlüsselwörter des Textes berechnet werden und der Signifikanzkoeffizient der Sätze des Textes berechnet wird. Die Auswahl sinnvoller Sätze wird durch anaphorische Satzverknüpfungen erschwert, deren Bruch unerwünscht ist - zur Lösung dieses Problems werden bestimmte Strategien zur Satzauswahl entwickelt.

Eine Aufgabe, die dem Referenzieren nahe kommt - Anmerkung den Text des Dokuments, d. h. das Kompilieren seiner Anmerkung. In seiner einfachsten Form ist ein Abstract eine Liste von Hauptthemen des Textes, die durch Indexierungsverfahren hervorgehoben werden können.

Beim Erstellen großer Dokumentensammlungen sind die Aufgaben relevant Einstufung und Clusterung Texte , um themenbezogene Dokumentenklassen zu erstellen . Klassifikation bedeutet, jedes Dokument mit vorab bekannten Parametern einer bestimmten Klasse zuzuordnen, und Clustering bedeutet, eine Menge von Dokumenten in Cluster, d. h. Teilmengen thematisch verwandter Dokumente, zu unterteilen. Um diese Probleme zu lösen, werden Methoden des maschinellen Lernens verwendet, und daher werden diese angewandten Aufgaben als Text Mining bezeichnet und gehören zur wissenschaftlichen Richtung, die als Data Mining oder Data Mining bekannt ist.

Ganz in der Nähe der Klassifizierungsaufgabe rubrizieren Text - seine Zuordnung zu einer der bisher bekannten thematischen Überschriften (normalerweise bilden Überschriften einen hierarchischen Themenbaum).

Das Problem der Klassifizierung wird immer weiter verbreitet, es wird beispielsweise bei der Erkennung von Spam gelöst, und eine relativ neue Anwendung ist die Klassifizierung von SMS-Nachrichten in mobilen Geräten. Eine neue und relevante Forschungsrichtung für die allgemeine Aufgabe der Informationsbeschaffung ist die mehrsprachige Dokumentensuche.

Eine weitere relativ neue Aufgabe im Zusammenhang mit der Informationsbeschaffung ist Bildung von Antworten auf Fragen(Fragebeantwortung) . Diese Aufgabe wird gelöst, indem der Fragetyp bestimmt, nach Texten gesucht wird, die möglicherweise die Antwort auf diese Frage enthalten, und die Antwort aus diesen Texten extrahiert wird.

Eine ganz andere angewandte Richtung, die sich, wenn auch langsam, aber stetig, entwickelt Automatisierung der Vorbereitung und Bearbeitung Texte auf EY. Eine der ersten Anwendungen in dieser Richtung waren Programme zur automatischen Erkennung von Worttrennungen und Programme zur Rechtschreibprüfung von Texten (Rechtschreiber oder Autokorrektoren). Trotz der scheinbaren Einfachheit des Silbentrennungsproblems erfordert seine korrekte Lösung für viele NLs (z. B. Englisch) die Kenntnis der morphämischen Struktur der Wörter der entsprechenden Sprache und damit des entsprechenden Wörterbuchs.

Die Rechtschreibprüfung ist seit langem in kommerziellen Systemen implementiert und stützt sich auf ein geeignetes Vokabular- und Morphologiemodell. Es wird auch ein unvollständiges Syntaxmodell verwendet, auf dessen Grundlage recht häufig alle syntaktischen Fehler (z. B. Wortvereinbarungsfehler) aufgedeckt werden. Gleichzeitig ist die Erkennung komplexerer Fehler, beispielsweise des Missbrauchs von Präpositionen, noch nicht in Autokorrektoren implementiert. Viele lexikalische Fehler werden auch nicht erkannt, insbesondere Fehler, die auf Tippfehler oder Missbrauch ähnlicher Wörter zurückzuführen sind (z. Last statt gewichtig). In modernen Studien zu CL werden Methoden zur automatisierten Erkennung und Korrektur solcher Fehler sowie einiger anderer Arten von Stilfehlern vorgeschlagen. Diese Verfahren verwenden Statistiken über das Vorkommen von Wörtern und Phrasen.

Eine anwendungsnahe Aufgabe zur Unterstützung der Erstellung von Texten ist natursprachlicher Unterricht Im Rahmen dieser Richtung werden häufig Computersysteme für den Sprachunterricht - Englisch, Russisch usw. - entwickelt (ähnliche Systeme finden Sie im Internet). Typischerweise unterstützen diese Systeme das Studium bestimmter Aspekte der Sprache (Morphologie, Vokabular, Syntax) und basieren auf geeigneten Modellen, beispielsweise einem Morphologiemodell.

Für das Lernen des Wortschatzes werden auch elektronische Analoga von Textwörterbüchern verwendet (in denen es tatsächlich keine Sprachmodelle gibt). Es werden jedoch auch multifunktionale Computerwörterbücher entwickelt, die keine Textanaloga haben und sich an ein breites Benutzerspektrum richten - zum Beispiel ein Wörterbuch russischer Phrasen Crosslexic. Dieses System deckt ein breites Spektrum an Vokabeln ab – Wörter und ihre akzeptablen Wortkombinationen und bietet auch Informationen zu Wortverwaltungsmodellen, Synonymen, Antonyme und anderen semantischen Korrelaten von Wörtern, die nicht nur für diejenigen nützlich sind, die Russisch lernen, sondern auch für Muttersprachler.

Der nächste erwähnenswerte Anwendungsbereich ist automatische Generierung Texte auf EY. Grundsätzlich kann diese Aufgabe als Teilaufgabe der bereits oben betrachteten maschinellen Übersetzungsaufgabe betrachtet werden, jedoch gibt es im Rahmen der Anleitung eine Reihe spezifischer Aufgaben. Eine solche Aufgabe ist die mehrsprachige Generierung, also die automatische mehrsprachige Erstellung von Spezialdokumenten – Patentformeln, Bedienungsanleitungen für technische Produkte oder Softwaresysteme, basierend auf deren Spezifikation in einer formalen Sprache. Zur Lösung dieses Problems werden recht detaillierte Sprachmodelle verwendet.

Eine zunehmend relevante angewandte Aufgabe, die oft als Text Mining bezeichnet wird, ist Informationen extrahieren aus Texten oder Informationsextraktion, die bei der Lösung von Problemen der Wirtschafts- und Industrieanalytik erforderlich ist. Dazu werden im NL-Test bestimmte Objekte identifiziert - benannte Entitäten (Namen, Persönlichkeiten, geografische Namen), ihre Beziehungen und damit verbundene Ereignisse. Dies erfolgt in der Regel auf Basis einer partiellen Textanalyse, die eine Verarbeitung von Newsfeeds von Nachrichtenagenturen ermöglicht. Da die Aufgabenstellung nicht nur theoretisch, sondern auch technologisch recht komplex ist, ist die Schaffung sinnvoller Systeme zur Extraktion von Informationen aus Texten im Rahmen kommerzieller Unternehmen machbar.

Die Ausrichtung von Text Mining umfasst auch zwei weitere verwandte Aufgaben – die Auswahl von Meinungen (Opinion Mining) und die Bewertung der Tonalität von Texten (Sentiment Analysis), die die Aufmerksamkeit einer wachsenden Zahl von Forschern auf sich ziehen. Die erste Aufgabe sucht (in Blogs, Foren, Onlineshops etc.) nach Nutzermeinungen zu Produkten und anderen Objekten und analysiert diese Meinungen. Die zweite Aufgabe steht in der Nähe der klassischen Aufgabe der Inhaltsanalyse von Texten der Massenkommunikation, sie bewertet den allgemeinen Ton von Aussagen.

Eine weitere erwähnenswerte Anwendung ist − Dialogunterstützung mit dem Benutzer auf der NB im Rahmen eines beliebigen Informationssoftwaresystems. Meistens wurde dieses Problem für spezialisierte Datenbanken gelöst - in diesem Fall ist die Abfragesprache ziemlich begrenzt (lexikalisch und grammatikalisch), was die Verwendung vereinfachter Sprachmodelle ermöglicht. In NL formulierte Anfragen an die Basis werden in eine formale Sprache übersetzt, wonach die Suche nach den erforderlichen Informationen durchgeführt und die entsprechende Antwortphrase gebildet wird.

Als letzte in unserer Liste der CL-Anwendungen (aber nicht in der Bedeutung) geben wir an Spracherkennung und -synthese. Erkennungsfehler, die bei diesen Aufgaben zwangsläufig auftreten, werden durch automatische Methoden korrigiert, die auf Wörterbüchern und sprachlichem Wissen über Morphologie basieren. Auch maschinelles Lernen wird in diesem Bereich Anwendung finden.

Fazit

Die Computerlinguistik zeigt ganz konkrete Ergebnisse in verschiedenen Anwendungen zur automatischen Verarbeitung von Texten in NL. Seine Weiterentwicklung hängt sowohl vom Aufkommen neuer Anwendungen als auch von der eigenständigen Entwicklung verschiedener Sprachmodelle ab, bei denen viele Probleme noch nicht gelöst sind. Am weitesten entwickelt sind die Modelle der morphologischen Analyse und Synthese. Trotz der Vielzahl vorgeschlagener Formalismen und Methoden sind Syntaxmodelle noch nicht auf das Niveau stabiler und effizienter Module gebracht worden. Noch weniger erforscht und formalisiert sind Modelle auf der Ebene der Semantik und Pragmatik, obwohl bereits in einer Reihe von Anwendungen eine automatische Diskursverarbeitung gefordert wird. Beachten Sie, dass die bereits vorhandenen Werkzeuge der Computerlinguistik selbst, die Verwendung von maschinellem Lernen und Textkorpora, die Lösung dieser Probleme erheblich voranbringen können.

Literatur

1. Baeza-Yates, R. und Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

2. Bateman, J., Zock M. Erzeugung natürlicher Sprache. In: Das Oxford-Handbuch der Computerlinguistik. Mitkov R. (Hrsg.). Oxford University Press, 2003, S. 304.

3. Biber, D., Conrad S. und Reppen D. Korpuslinguistik. Untersuchung von Sprachstruktur und -gebrauch. Cambridge University Press, Cambridge, 1998.

4. Bolshakov, I. A., Gelbukh putational Linguistics. Modelle, Ressourcen, Anwendungen. Mexiko, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. Die Mathematik der statistischen maschinellen Übersetzung. // Computerlinguistik, Bd. 19(2): 263-3

6. Carroll J. R. Parsing. In: Das Oxford-Handbuch der Computerlinguistik. Mitkov R. (Hrsg.). Oxford University Press, 2003, p. 233-248.

7. Chomsky, N. Syntaktische Strukturen. Den Haag: Mouton, 1957.

8. Grishman R. Informationsextraktion. In: Das Oxford-Handbuch der Computerlinguistik. Mitkov R. (Hrsg.). Oxford University Press, 2003, p. 545-559.

9. Harabagiu, S., Moldovan D. Question Answering. In: Das Oxford-Handbuch der Computerlinguistik. Mitkov R. (Hrsg.). Oxford University Press, 2003, p. 560-582.

10. Hearst, M. A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (Hrsg.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, S. 131–151.

11. Hirst, G. Ontologie und das Lexikon. In.: Handbuch zu Ontologien in Niformationssystemen. Berlin, Springer, 2003.

12. Jacquemin C., Bourigault D. Term Extraction and Automatic Indexing // Mitkov R. (Hrsg.): Handbook of Computational Linguistics. Oxford University Press, 2003. p. 599-615.

13. Kilgarriff, A., G. Grefenstette. Einführung in das Sonderheft im Web als Reputationslinguistik, V. 29, Nr. 3, 2003, p. 333-347.

14. Manning, Kap. D., H. Schütze. Grundlagen der statistischen Verarbeitung natürlicher Sprache. MIT Press, 1999.

15. Matsumoto Y. Lexikalischer Wissenserwerb. In: Das Oxford-Handbuch der Computerlinguistik. Mitkov R. (Hrsg.). Oxford University Press, 2003, p. 395-413.

16. Das Oxford-Handbuch zur Computerlinguistik. R. Mitkov (Hrsg.). Oxford University Press, 2005.

17. Oakes, M., Paice C. D. Term Extraction for Automatic Abstracting. Jüngste Fortschritte in der Computerterminologie. D. Bourigault, C. Jacquemin und M. L. Homme (Hrsg.), John Benjamins Publishing Company, Amsterdam, 2001, S. 353-370.

18. Pedersen, T. Ein Entscheidungsbaum von Bigrammen ist ein genauer Prädiktor für Wortbedeutungen. Proz. 2. Jahrestreffen von NAC ACL, Pittsburgh, PA, 2001, p. 79-86.

19. Samuelsson C. Statistische Methoden. In: Das Oxford-Handbuch der Computerlinguistik. Mitkov R. (Hrsg.). Oxford University Press, 2003, p. 358-375.

20. Salton, G. Automatische Textverarbeitung: Transformation, Analyse und Abruf von Informationen durch Computer. Lesen, MA: Addison-Wesley, 1988.

21. Somers, H. Maschinelle Übersetzung: Neueste Entwicklungen. In: Das Oxford-Handbuch der Computerlinguistik. Mitkov R. (Hrsg.). Oxford University Press, 2003, p. 512-528.

22. Strzalkowski, T. (Hrsg.) Natural Language Information Retrieval. Klüwer, 19p.

23. Woods W. A. Transition Network Grammers for Natural Language Analysis/ Communications of the ACM, V. 13, 1970, No. 10, p. 591-606.

24. Word Net: eine elektronische lexikalische Datenbank. / Christian Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic Collocation Suggestion in Academic Writing // Proceedings of the ACL 2010 Conference Short Papers, 2010.

26. ua Sprachliche Unterstützung des ETAP-2-Systems. Moskau: Nauka, 1989.

27. usw. Datenanalysetechnologien: Data Mining, Visual Mining, Text Mining, OLAP - 2. Aufl. - St. Petersburg: BHV-Petersburg, 2008.

28. Bolshakov, Vocabulary - ein großes elektronisches Wörterbuch von Kombinationen und semantischen Verbindungen russischer Wörter. // Komp. Linguistik und Intelligenz. Technologien: Proceedings of int. Konf. „Dialog 2009“. Ausgabe: RGGU, 2009, S. 45-50.

29. Bolshakova E. I., Bolshakov-Erkennung und automatische Korrektur russischer Malapropismen // NTI. Ser. 2, Nr. 5, 2007, S. 27-40.

30. Wang, Kinch V. Eine Strategie zum Verstehen eines kohärenten Textes.// Neu in der Fremdsprachenlinguistik. Ausgabe. XXIII– M., Progress, 1988, p. 153-211.

31. Vasiliev V. G., Krivenko M. P. Methoden der automatisierten Textverarbeitung. – M.: IGE RAN, 2008.

32. Vinograd T. Ein Programm, das natürliche Sprache versteht - M., Welt, 1976.

33. Glatte Struktur natürlicher Sprache in automatisierten Kommunikationssystemen. -M., Nauka, 1985.

34. Gusev, V.D., Salomatina Wörterbuch der Paronyme: Version 2. // NTI, Ser. 2, Nr. 7, 2001, p. 26-33.

35. Zakharov - Raum als Sprachkorpus // Computerlinguistik und Intelligente Technologien: Proceedings of Int. Konferenzdialog ‘2005 / Hrsg. ,-M.: Nauka, 2005, p. 166-171.

36. Kasevich der allgemeinen Sprachwissenschaft. -M., Nauka, 1977.

37. Leontief Textverständnis: Systeme, Modelle, Ressourcen: Lehrbuch – M.: Akademie, 2006.

38. Linguistisches Enzyklopädisches Wörterbuch / Ed. V. N. Yartseva, Moskau: Soviet Encyclopedia, 1990, 685 p.

39., Saliy zur automatischen Indexierung und Kategorisierung: Entwicklung, Struktur, Pflege. // NTI, Ser. 2, Nr. 1, 1996.

40. Luger J. Künstliche Intelligenz: Strategien und Methoden zur Lösung komplexer Probleme. M., 2005.

41. McQueen K. Diskursive Strategien zur Textsynthese in natürlicher Sprache // Neu in der Fremdsprachenlinguistik. Ausgabe. XXIV. M.: Progress, 1989, S. 311-356.

42. Melchuk-Theorie sprachlicher Modelle "BEDEUTUNG "TEXT". -M., Nauka, 1974.

43. Nationales Korpus der russischen Sprache. http://*****

44. Khoroshevsky VF OntosMiner: eine Familie von Systemen zum Extrahieren von Informationen aus mehrsprachigen Dokumentensammlungen // Neunte Nationale Konferenz über künstliche Intelligenz mit internationaler Beteiligung KII-2004. T. 2. - M.: Fizmatlit, 2004, S. 573-581.

Linguistik Software für statistische Linguistik

Entwicklungsgeschichte der Computerlinguistik

Der Entstehungs- und Herausbildungsprozess der modernen Linguistik als Wissenschaft der natürlichen Sprache ist eine lange historische Entwicklung des sprachlichen Wissens. Sprachliches Wissen basiert auf Elementen, deren Bildung im Tätigkeitsprozess erfolgte, der untrennbar mit der Entwicklung der Struktur der mündlichen Rede, der Entstehung, Weiterentwicklung und Verbesserung der Schrift, dem Schreibenlernen sowie der Interpretation verbunden ist und Dekodierung von Texten.

Die natürliche Sprache als Gegenstand der Linguistik nimmt in dieser Wissenschaft einen zentralen Platz ein. Im Laufe der Sprachentwicklung änderten sich auch die Vorstellungen darüber. Wenn der inneren Organisation der Sprache früher keine besondere Bedeutung beigemessen wurde und sie vor allem im Zusammenhang mit ihrer Beziehung zur Außenwelt betrachtet wurde, dann ab Ende des 19. bis Anfang des 20. Jahrhunderts , kommt der internen formalen Struktur der Sprache eine besondere Rolle zu. In dieser Zeit entwickelte der berühmte Schweizer Linguist Ferdinand de Saussure die Grundlagen solcher Wissenschaften wie Semiologie und strukturelle Linguistik, die in seinem Buch A Course in General Linguistics (1916) detailliert beschrieben wurden.

Dem Wissenschaftler gehört die Idee, die Sprache als einen einzigen Mechanismus zu betrachten, ein integrales Zeichensystem, das es wiederum ermöglicht, die Sprache mathematisch zu beschreiben. Saussure war der erste, der einen strukturellen Ansatz zur Sprache vorschlug, nämlich die Beschreibung einer Sprache durch das Studium der Beziehungen zwischen ihren Einheiten. Unter Einheiten oder „Zeichen“ verstand er ein Wort, das Bedeutung und Klang vereint. Das vom Schweizer Wissenschaftler vorgeschlagene Konzept basiert auf der Theorie der Sprache als Zeichensystem, das aus drei Teilen besteht: Sprache (aus dem Französischen langue), Sprechen (aus dem Französischen parole) und Sprachaktivität (aus dem Französischen langage).

Der Wissenschaftler selbst definierte die von ihm geschaffene Wissenschaft, die Semiologie, als "eine Wissenschaft, die das Leben der Zeichen im Rahmen des gesellschaftlichen Lebens untersucht". Da Sprache ein Zeichensystem ist, argumentierte Saussure auf der Suche nach einer Antwort auf die Frage, welchen Platz die Linguistik unter anderen Wissenschaften einnimmt, dass die Linguistik Teil der Semiologie ist. Es ist allgemein anerkannt, dass es der Schweizer Philologe war, der den theoretischen Grundstein für eine neue Richtung in der Linguistik legte und zum Begründer, zum „Vater“ der modernen Linguistik wurde.

Das von F. de Saussure vorgebrachte Konzept wurde in den Arbeiten vieler herausragender Wissenschaftler weiterentwickelt: in Dänemark - L. Elmslev, in der Tschechischen Republik - N. Trubetskoy, in den USA - L. Bloomfield, Z. Harris, N. Chomsky. In unserem Land begann die Entwicklung der strukturellen Linguistik ungefähr zur gleichen Zeit wie im Westen - um die Wende vom 19. zum 20. Jahrhundert. - in den Werken von F. Fortunatov und I. Baudouin de Courtenay. Es sei darauf hingewiesen, dass I. Baudouin de Courtenay eng mit F. de Saussure zusammengearbeitet hat. Wenn Saussure die theoretische Grundlage der strukturellen Linguistik gelegt hat, dann kann Baudouin de Courtenay als derjenige angesehen werden, der die Grundlagen für die praktische Anwendung der von dem Schweizer Wissenschaftler vorgeschlagenen Methoden gelegt hat. Er war es, der die Linguistik als eine Wissenschaft definierte, die sich statistischer Methoden und funktionaler Abhängigkeiten bedient, und sie von der Philologie abgrenzte. Die erste Erfahrung mit der Anwendung mathematischer Methoden in der Linguistik war die Phonologie - die Wissenschaft von der Struktur der Laute einer Sprache.

Es sei darauf hingewiesen, dass sich die von F. de Saussure aufgestellten Postulate in den Mitte des 20. Jahrhunderts relevanten Problemen der Linguistik widerspiegeln konnten. In dieser Zeit zeichnet sich ein deutlicher Trend zur Mathematisierung der Sprachwissenschaft ab. Praktisch in allen großen Ländern beginnt die rasante Entwicklung von Wissenschaft und Computertechnik, die wiederum immer neue sprachliche Grundlagen erfordert. Das Ergebnis all dessen war die schnelle Konvergenz der exakten und geisteswissenschaftlichen Fächer sowie das aktive Zusammenwirken von Mathematik und Linguistik, die praktische Anwendung bei der Lösung dringender wissenschaftlicher Probleme fanden.

In den 1950er Jahren entstand an der Schnittstelle von Wissenschaften wie Mathematik, Linguistik, Informatik und künstlicher Intelligenz eine neue Wissenschaftsrichtung – die Computerlinguistik (auch bekannt als Maschinenlinguistik oder automatische Verarbeitung von Texten in natürlicher Sprache). Die Hauptetappen in der Entwicklung dieser Richtung fanden vor dem Hintergrund der Entwicklung der Methoden der künstlichen Intelligenz statt. Ein starker Impuls für die Entwicklung der Computerlinguistik war die Entwicklung der ersten Computer. Mit dem Aufkommen einer neuen Generation von Computern und Programmiersprachen in den 60er Jahren beginnt jedoch eine grundlegend neue Etappe in der Entwicklung dieser Wissenschaft. Es sei auch darauf hingewiesen, dass die Ursprünge der Computerlinguistik auf die Arbeiten des berühmten amerikanischen Linguisten N. Chomsky auf dem Gebiet der Formalisierung der Struktur der Sprache zurückgehen. Die Ergebnisse seiner Forschung, die an der Schnittstelle von Linguistik und Mathematik gewonnen wurden, bildeten die Grundlage für die Entwicklung der Theorie der formalen Sprachen und Grammatiken (generative oder generative Grammatiken), die weit verbreitet ist, um sowohl natürliche als auch künstliche Sprachen zu beschreiben. insbesondere Programmiersprachen. Genauer gesagt handelt es sich bei dieser Theorie um eine ziemlich mathematische Disziplin. Es kann als eines der ersten in einer solchen Richtung der angewandten Linguistik wie der mathematischen Linguistik angesehen werden.

Die ersten Experimente und ersten Entwicklungen in der Computerlinguistik beziehen sich auf die Erstellung von maschinellen Übersetzungssystemen sowie Systemen, die menschliche Sprachfähigkeiten simulieren. In den späten 80er Jahren, mit dem Aufkommen und der aktiven Entwicklung des Internets, nahm die Menge der in elektronischer Form verfügbaren Textinformationen rapide zu. Dies hat dazu geführt, dass Information-Retrieval-Technologien in eine qualitativ neue Stufe ihrer Entwicklung eingetreten sind. Es bestand Bedarf an automatischer Verarbeitung von Texten in natürlicher Sprache, völlig neue Aufgaben und Technologien tauchten auf. Wissenschaftler stehen vor einem Problem wie der schnellen Verarbeitung eines riesigen Stroms unstrukturierter Daten. Um dieses Problem zu lösen, wurde der Entwicklung und Anwendung statistischer Verfahren im Bereich der automatischen Textverarbeitung große Bedeutung beigemessen. Mit ihrer Hilfe wurde es möglich, solche Probleme zu lösen, wie das Aufteilen von Texten in Cluster, die durch ein gemeinsames Thema verbunden sind, das Hervorheben bestimmter Textfragmente usw. Darüber hinaus ermöglichte der Einsatz von Methoden der mathematischen Statistik und des maschinellen Lernens die Lösung der Probleme der Spracherkennung und der Erstellung von Suchmaschinen.

Die Wissenschaftler hörten nicht bei den erzielten Ergebnissen auf: Sie setzten sich weiterhin neue Ziele und Ziele, um neue Techniken und Forschungsmethoden zu entwickeln. All dies führte dazu, dass die Linguistik begann, als angewandte Wissenschaft zu agieren, die eine Reihe anderer Wissenschaften vereinte, unter denen die Mathematik mit ihrer Vielfalt an quantitativen Methoden und der Fähigkeit, sie für ein tieferes Verständnis der Phänomene zu nutzen, die führende Rolle hatte studiert werden. So begann seine Bildung und Entwicklung der mathematischen Linguistik. Im Moment ist dies eine ziemlich „junge“ Wissenschaft (sie existiert seit ungefähr fünfzig Jahren), aber trotz ihres sehr „jungen Alters“ ist es ein bereits etabliertes Wissenschaftsgebiet mit vielen erfolgreichen Errungenschaften.

Der Begriff "Computerlinguistik" bezieht sich üblicherweise auf ein weites Gebiet der Verwendung von Computerwerkzeugen - Programme, Computertechnologien zum Organisieren und Verarbeiten von Daten - zur Modellierung der Funktionsweise einer Sprache unter bestimmten Bedingungen, Situationen, Problembereichen sowie dem Umfang von Computersprachmodellen nur in der Linguistik, aber auch in verwandten Disziplinen. Eigentlich sprechen wir nur im letzteren Fall von angewandter Linguistik im engeren Sinne, da Computersprachmodellierung auch als Anwendungsgebiet der Programmiertheorie (Informatik) im Bereich der Linguistik betrachtet werden kann. Dennoch ist die allgemeine Praxis so, dass das Gebiet der Computerlinguistik fast alles abdeckt, was mit dem Einsatz von Computern in der Linguistik zu tun hat: „Der Begriff „Computerlinguistik“ legt eine allgemeine Ausrichtung auf den Einsatz von Computern zur Lösung einer Vielzahl wissenschaftlicher und praktischer Probleme fest in Bezug auf die Sprache, ohne die Möglichkeiten zur Lösung dieser Probleme in irgendeiner Weise einzuschränken.

Institutioneller Aspekt der Computerlinguistik. Als besondere wissenschaftliche Richtung nahm die Computerlinguistik in den 60er Jahren Gestalt an. Die Publikationsflut in diesem Bereich ist sehr hoch. Neben thematischen Sammelbänden erscheint in den USA vierteljährlich die Zeitschrift Computational Linguistics. Eine große organisatorische und wissenschaftliche Arbeit wird von der Association for Computer Linguistics geleistet, die weltweit regionale Strukturen hat (insbesondere den europäischen Zweig). Alle zwei Jahre gibt es internationale Konferenzen zur Computerlinguistik - KOLING. Relevante Fragestellungen sind auch auf internationalen Konferenzen zur künstlichen Intelligenz auf verschiedenen Ebenen breit vertreten.

Kognitiver Werkzeugkasten der Computerlinguistik

Die Computerlinguistik als spezielle angewandte Disziplin zeichnet sich vor allem durch ihr Werkzeug aus, also durch den Einsatz von Computerwerkzeugen zur Verarbeitung von Sprachdaten. Da Computerprogramme, die bestimmte Aspekte der Funktionsweise einer Sprache modellieren, eine Vielzahl von Programmierwerkzeugen verwenden können, scheint es nicht notwendig, über eine gemeinsame Metasprache zu sprechen. Dies ist jedoch nicht der Fall. Es gibt allgemeine Prinzipien der Computermodellierung des Denkens, die irgendwie in jedem Computermodell implementiert sind. Diese Sprache basiert auf der Wissenstheorie, die in der künstlichen Intelligenz entwickelt wurde und einen wichtigen Zweig der Kognitionswissenschaft bildet.

Die Hauptthese der Erkenntnistheorie besagt, dass Denken ein Prozess der Verarbeitung und Generierung von Wissen ist. "Wissen" oder "Wissen" wird als undefinierte Kategorie betrachtet. Das menschliche kognitive System fungiert als „Prozessor“, der Wissen verarbeitet. In der Erkenntnis- und Kognitionswissenschaft werden zwei Haupttypen von Wissen unterschieden – deklarativ („wissen was“) und prozedural („wissen wie“2)). Deklaratives Wissen wird normalerweise als eine Reihe von Aussagen, Aussagen über etwas dargestellt. Ein typisches Beispiel für deklaratives Wissen ist die Interpretation von Wörtern in gewöhnlichen erklärenden Wörterbüchern. Zum Beispiel eine Tasse] - "ein kleines abgerundetes Trinkgefäß, meist mit Henkel, aus Porzellan, Fayence usw." . Deklaratives Wissen bietet sich für das Verifikationsverfahren im Sinne von „true-false“ an. Prozedurales Wissen wird als Abfolge (Liste) von Operationen, auszuführenden Aktionen dargestellt. Dies ist eine allgemeine Anleitung zum Handeln in einer bestimmten Situation. Ein typisches Beispiel für prozedurales Wissen sind Gebrauchsanweisungen für Haushaltsgeräte.

Anders als deklaratives Wissen kann prozedurales Wissen nicht als wahr oder falsch verifiziert werden. Sie können nur anhand des Erfolgs oder Misserfolgs des Algorithmus bewertet werden.

Die meisten Konzepte des kognitiven Werkzeugkastens der Computerlinguistik sind homonym: Sie bezeichnen gleichzeitig einige reale Entitäten des menschlichen kognitiven Systems und Möglichkeiten, diese Entitäten in einigen Metasprachen darzustellen. Mit anderen Worten, die Elemente der Metasprache haben einen ontologischen und instrumentellen Aspekt. Die Trennung von deklarativem und prozeduralem Wissen entspricht ontologisch unterschiedlichen Wissenstypen des menschlichen kognitiven Systems. Das Wissen über bestimmte Objekte, Objekte der Realität, ist also hauptsächlich deklarativ, und die funktionellen Fähigkeiten einer Person, zu gehen, zu laufen, Auto zu fahren, werden im kognitiven System als prozedurales Wissen realisiert. Instrumental kann Wissen (sowohl ontologisch prozedural als auch deklarativ) als eine Menge von Beschreibungen, Beschreibungen und als Algorithmus, eine Anweisung, dargestellt werden. Mit anderen Worten, ontologisch deklaratives Wissen über das Realitätsobjekt „Tisch“ kann prozedural als eine Menge von Anweisungen, Algorithmen zu seiner Erstellung, Zusammenstellung (= schöpferischer Aspekt von prozeduralem Wissen) oder als Algorithmus zu seiner typischen Verwendung (= funktional Aspekt des prozeduralen Wissens). Im ersten Fall kann dies eine Anleitung für einen Schreineranfänger sein, im zweiten eine Beschreibung der Möglichkeiten eines Büroschreibtisches. Auch die Umkehrung gilt: ontologisches Wissen lässt sich deklarativ darstellen.

Es bedarf einer gesonderten Diskussion, ob jedes ontologisch deklarative Wissen als prozedural und jedes ontologisch prozedural als deklarativ dargestellt werden kann. Forscher sind sich einig, dass prinzipiell jedes deklarative Wissen prozedural dargestellt werden kann, was sich jedoch für ein kognitives System als sehr unökonomisch erweisen kann. Umgekehrt gilt das kaum. Tatsache ist, dass deklaratives Wissen viel expliziter ist, es ist für eine Person leichter zu verstehen als prozedurales Wissen. Im Gegensatz zum deklarativen Wissen ist prozedurales Wissen überwiegend implizit. Die Sprachfähigkeit als prozedurales Wissen ist also einer Person verborgen, wird von ihr nicht realisiert. Der Versuch, die Mechanismen der Sprachfunktion zu erklären, führt zu Funktionsstörungen. Fachleute auf dem Gebiet der lexikalischen Semantik wissen beispielsweise, dass die zum Studium des Wortinhaltsplans notwendige langfristige semantische Selbstbeobachtung dazu führt, dass der Forscher teilweise die Fähigkeit verliert, zwischen richtigen und falschen Verwendungen des analysierten Wortes zu unterscheiden. Weitere Beispiele lassen sich anführen. Es ist bekannt, dass der menschliche Körper aus Sicht der Mechanik ein komplexes System aus zwei zusammenwirkenden Pendeln ist.

In der Wissenstheorie werden verschiedene Wissensstrukturen verwendet, um Wissen zu untersuchen und darzustellen - Rahmen, Szenarien, Pläne. Laut M. Minsky ist „ein Rahmen eine Datenstruktur, die dazu bestimmt ist, eine stereotype Situation darzustellen“ [Minsky 1978, S.254]. Genauer gesagt können wir sagen, dass der Rahmen eine konzeptionelle Struktur für die deklarative Repräsentation von Wissen über eine typisierte thematisch einheitliche Situation ist, die Slots enthält, die durch bestimmte semantische Beziehungen miteinander verbunden sind. Zur Veranschaulichung wird ein Rahmen oft als Tisch dargestellt, dessen Reihen Schlitze bilden. Jeder Slot hat seinen eigenen Namen und Inhalt (siehe Tabelle 1).

Tabelle 1

Fragment des Rahmens "Tabelle" in einer Tabellenansicht

Je nach Aufgabenstellung kann die Rahmenstrukturierung wesentlich komplexer sein; Ein Frame kann verschachtelte Subframes und Verweise auf andere Frames enthalten.

Anstelle einer Tabelle wird häufig eine Prädikatsdarstellung verwendet. In diesem Fall hat der Rahmen die Form eines Prädikats oder einer Funktion mit Argumenten. Es gibt andere Möglichkeiten, einen Rahmen darzustellen. Beispielsweise kann es als ein Tupel der folgenden Form dargestellt werden: ( (Frame-Name) (Slot-Name)) (Slot-Wert), ..., (Slot-Name n) (Slot-Wert n) ).

Typischerweise haben Frames in Wissensrepräsentationssprachen diese Form.

Wie andere kognitive Kategorien der Computerlinguistik ist das Konzept eines Rahmens gleichnamig. Ontologisch gesehen ist es ein Teil des menschlichen kognitiven Systems, und in diesem Sinne kann der Rahmen mit Konzepten wie Gestalt, Prototyp, Stereotyp, Schema verglichen werden. In der Kognitionspsychologie werden diese Kategorien genau aus ontologischer Sicht betrachtet. Daher unterscheidet D. Norman zwei Hauptarten der Existenz und Organisation von Wissen im menschlichen kognitiven System - semantische Netzwerke und Schemata. „Schemata“, schreibt er, „sind organisierte Wissenspakete, die zusammengesetzt sind, um verschiedene, in sich geschlossene Wissenseinheiten darzustellen. Mein Schema für Sam kann Informationen enthalten, die seine körperlichen Merkmale, seine Aktivitäten und Persönlichkeitsmerkmale beschreiben. Dieses Schema korreliert mit anderen Schemata die seine anderen Aspekte beschreiben“ [Norman 1998, S. 359]. Nehmen wir die instrumentelle Seite der Frame-Kategorie, dann handelt es sich um eine Struktur zur deklarativen Repräsentation von Wissen. In aktuellen KI-Systemen können Frames komplexe Wissensstrukturen bilden; Rahmensysteme ermöglichen eine Hierarchie – ein Rahmen kann Teil eines anderen Rahmens sein.

Inhaltlich ist der Begriff des Frames der Kategorie der Interpretation sehr nahe. In der Tat ist ein Slot ein Analogon der Valenz, das Füllen eines Slots ist ein Analogon eines Aktanten. Der Hauptunterschied zwischen ihnen besteht darin, dass die Interpretation nur sprachlich relevante Informationen über den Inhalt des Wortes enthält und der Rahmen erstens nicht unbedingt an das Wort gebunden ist und zweitens alle für das gegebene Problem relevanten Informationen enthält Situation, einschließlich einschließlich außersprachlicher (Wissen der Welt) 3).

Ein Szenario ist ein konzeptioneller Rahmen für die prozedurale Repräsentation von Wissen über eine stereotype Situation oder ein Verhalten. Skriptelemente sind die Schritte eines Algorithmus oder einer Anweisung. Die Leute sprechen normalerweise von „Restaurantszenario“, „Kaufszenario“ und so weiter.

Der Rahmen wurde ursprünglich auch für die prozedurale Darstellung verwendet (vgl. den Begriff "prozeduraler Rahmen"), aber der Begriff "Szenario" wird heute häufiger in diesem Sinne verwendet. Ein Szenario kann nicht nur als Algorithmus, sondern auch als Netzwerk dargestellt werden, dessen Knoten bestimmten Situationen und die Bögen Verbindungen zwischen Situationen entsprechen. Neben dem Konzept eines Skripts verwenden einige Forscher die Kategorie eines Skripts für die Computermodellierung von Intelligenz. Nach R. Schenk ist ein Skript eine allgemein akzeptierte, wohlbekannte Folge kausaler Beziehungen. Zum Beispiel den Dialog verstehen

Auf der Straße schüttet es wie aus Eimern.

Sie müssen noch in den Laden gehen: Im Haus ist nichts - gestern haben die Gäste alles gekehrt.

basiert auf nicht expliziten semantischen Zusammenhängen wie "Wenn es regnet, ist es unerwünscht, nach draußen zu gehen, weil man krank werden kann." Diese Verbindungen bilden ein Skript, das von Muttersprachlern verwendet wird, um das verbale und nonverbale Verhalten des anderen zu verstehen.

Als Ergebnis der Anwendung des Szenarios auf eine spezifische Problemsituation a planen). Ein Plan wird verwendet, um Wissen über mögliche Aktionen, die zu einem bestimmten Ziel führen, prozedural darzustellen. Ein Plan bezieht ein Ziel auf eine Abfolge von Aktionen.

Im allgemeinen Fall beinhaltet der Plan eine Abfolge von Verfahren, die den Ausgangszustand des Systems in den Endzustand überführen und zur Erreichung eines bestimmten Teilziels und Ziels führen. Bei KI-Systemen entsteht der Plan als Ergebnis der Planung bzw. Planungstätigkeit des entsprechenden Moduls – des Planungsmoduls. Der Planungsprozess kann auf der Anpassung von Daten aus einem oder mehreren Szenarien basieren, die durch Testverfahren aktiviert werden, um eine Problemsituation zu lösen. Die Ausführung des Plans wird von einem Exekutivmodul ausgeführt, das die kognitiven Verfahren und physischen Aktionen des Systems steuert. Im elementaren Fall ist ein Plan in einem intelligenten System eine einfache Abfolge von Operationen; In komplexeren Versionen wird der Plan mit einem bestimmten Thema, seinen Ressourcen, Fähigkeiten, Zielen, mit detaillierten Informationen zur Problemsituation usw. verknüpft. Die Entstehung des Plans erfolgt im Kommunikationsprozess zwischen dem Weltmodell, dessen Teil Szenarien bilden, dem Planungsmodul und dem Ausführungsmodul.

Im Gegensatz zu einem Szenario ist ein Plan mit einer bestimmten Situation, einem bestimmten Ausführenden verbunden und verfolgt ein bestimmtes Ziel. Die Wahl des Plans richtet sich nach den Ressourcen des Auftragnehmers. Die Machbarkeit eines Plans ist eine obligatorische Bedingung für seine Generierung in einem kognitiven System, und die Machbarkeitseigenschaft ist auf ein Szenario nicht anwendbar.

Ein weiterer wichtiger Begriff ist das Modell der Welt. Das Modell der Welt wird üblicherweise als eine Menge von Wissen über die Welt verstanden, die auf eine bestimmte Weise organisiert ist und einem kognitiven System oder seinem Computermodell innewohnt. In einem etwas allgemeineren Sinne wird vom Weltmodell gesprochen als Teil eines kognitiven Systems, das Wissen über die Struktur der Welt, ihre Muster usw. speichert. In einem anderen Sinne wird das Weltmodell mit den Ergebnissen in Verbindung gebracht des Verstehens des Textes oder, weiter gefasst, des Diskurses. Im Prozess des Verstehens des Diskurses wird sein mentales Modell aufgebaut, das das Ergebnis der Interaktion zwischen dem Inhaltsplan des Textes und dem diesem Subjekt innewohnenden Wissen über die Welt ist [Johnson-Laird 1988, S. 237 ff.]. Folge]. Das erste und zweite Verständnis werden oft kombiniert. Dies ist typisch für Sprachforscher, die in der kognitiven Linguistik und Kognitionswissenschaft arbeiten.

Eng verwandt mit der Kategorie des Rahmens ist der Begriff der Szene. Die Szenenkategorie wird in der Literatur hauptsächlich als Bezeichnung einer Begriffsstruktur zur deklarativen Repräsentation von Situationen und deren in einem Sprechakt aktualisierten und mit sprachlichen Mitteln (Lexemen, syntaktischen Konstruktionen, grammatikalischen Kategorien etc.) hervorgehobenen Teilen verwendet. In Verbindung mit sprachlichen Formen wird die Szene oft durch ein bestimmtes Wort oder einen bestimmten Ausdruck aktualisiert. In Handlungsgrammatiken (siehe unten) erscheint eine Szene als Teil einer Episode oder Erzählung. Charakteristische Beispiele für Szenen sind eine Reihe von Würfeln, mit denen das KI-System arbeitet, der Handlungsort in der Geschichte und die Teilnehmer an der Handlung usw. In der künstlichen Intelligenz werden Szenen in Bilderkennungssystemen sowie in Programmen verwendet, die sich auf die Untersuchung (Analyse, Beschreibung) von Problemsituationen konzentrieren. Weit verbreitet ist der Begriff der Szene in der theoretischen Linguistik, aber auch in der Logik, insbesondere in der Situationssemantik, in der die Bedeutung einer lexikalischen Einheit direkt mit der Szene verbunden ist.

Die Computerlinguistik hat sich heute praktisch erschöpft. Darauf weisen unmittelbar die erfolglosen Erfahrungen von Forschern und Entwicklern "intellektueller" Informationsprodukte hin, die seit mehr als einem halben Jahrhundert an der Schaffung solch ambitionierter Programme wie beispielsweise adäquater maschineller Übersetzung oder semantischer Suche nach Informationen in Arrays von Dokumenten in natürlicher Sprache.

Die Zukunft der maschinellen Verarbeitung natürlichsprachlicher Texte wird natürlich in der Schaffung und Entwicklung supralinguistischer Technologien gesehen, die in der Lage sind, den Inhalt von Informationen auf der Ebene des semantischen Verständnisses des Kontexts zu analysieren, so wie es ein Mensch tun kann. Die Schaffung von "denkenden Maschinen" (Thinking Machine) wurde jedoch lange Zeit durch zwei Hauptfaktoren behindert - das Fehlen der erforderlichen Methodik und geeigneter Werkzeuge zur Lösung zweier grundlegender Probleme - nämlich das Finden einer "Bedeutungsformel" und deren Aufbau ein "Wissensmodell über das Universum" in einer formalisierten, computerzugänglichen Form, ohne die es tatsächlich unmöglich ist, die Natur des menschlichen Denkens auf Programmebene zu wiederholen.

Linguisten zusammen mit der Kybernetik konnten diese Probleme nicht überwinden, da letztere bereits außerhalb der Grenzen ihres Fachgebiets liegt, was die Entwicklung solch lange nachgefragter Anwendungsbereiche der Textverarbeitung, wie z B. die Schaffung „intelligenter“ Dialogsysteme oder „semantischer Internet-Suchmaschinen“. Und die gleiche maschinelle Übersetzung lässt noch zu wünschen übrig.

Die Erfahrungen mit der Entwicklung des wissenschaftlichen und technologischen Fortschritts legen nahe, dass das gewünschte bahnbrechende Ergebnis in der Regel letztlich an der Schnittstelle verschiedener Technologiefelder und Fachdisziplinen erzielt wird. Offenbar wird das Problem des „Maschinendenkens“ genau dann gelöst sein, wenn wir genau verstehen, wie unser natürliches Bewusstsein im Ablaufplan arbeitet, und wenn wir zuverlässig herausfinden können, ob diese Denkvorgänge, die uns in der notwendigen und ausreichenden Menge gezeigt werden, es tun werden Endgültige Computeralgorithmisierung.

Anzumerken ist, dass sich in den letzten Jahren eine neue („smartbuter“) wissenschaftliche Disziplin zu entwickeln begonnen hat, die sich genau damit beschäftigt, dass sie die prozedurale Natur der menschlichen Geistestätigkeit untersucht. Wir können sagen, dass wir im Moment einen bedeutenden Durchbruch in diese Richtung haben und wir bereits ziemlich genau verstehen, wie der Algorithmus des menschlichen Denkens funktioniert. Wenn wir darüber allgemein sprechen, dann ist zunächst festzuhalten, dass der Mensch nicht in Bildern denkt, wie man gemeinhin denkt, sondern in „Bildverhaltensmustern“ (IGO). Zweitens denken wir „ontologisch“, das heißt, wir stellen ständig Fragen, auch ohne es selbst zu merken, und suchen permanent nach Antworten darauf (auch automatisch). Schließlich wird ein sinnvolles Verständnis von allem, was während einer Kontemplation um den Einzelnen herum oder in seinem Kopf passiert, gerade mit Hilfe einer bestimmten „Modellrepräsentation“ des umgebenden Universums durchgeführt. Dies geschieht, indem er die MPOs, die er auf operativer Basis erhält, mit den im menschlichen Langzeitgedächtnis gespeicherten Vorstellungen über das Universum vergleicht. Genau diese drei Hauptwale machen die gesamte Technologie des natürlichen Denkens aus, die jetzt nur noch einfach in eine für Programmierer verständliche Sprache übertragen werden muss und das lang ersehnte Ergebnis liefert.

Wenn Menschen irgendeine Nachricht in natürlicher Sprache verstehen, stellen sie praktisch nie eine sofortige Übereinstimmung des geäußerten Urteils mit den Konzepten und Verhaltensmustern der in ihrem Gedächtnis gespeicherten Bilder her. Sie geben den empfangenen (wahrgenommenen) MPOs jeweils die erste assoziativ-heuristische Entsprechung, die sich in ihren Köpfen ergibt, basierend auf den Besonderheiten ihrer Erfahrung und ihres Wissens, und erst dann beginnen sie im Zuge des weiteren Umdenkens des Textes zur Klärung und Konkretisierung der erhaltenen Informationen. Die Computerlinguistik hingegen versucht, genaue Entsprechungen zwischen den Bedeutungen von Wörtern sowie ihren gegenseitigen Beziehungen herzustellen und versucht, das Problem der Mehrdeutigkeit verbaler Werkzeuge zu überwinden, die jeder Sprache innewohnen, die tatsächlich sehr unterschiedlich ist davon, wie unser Denken funktioniert. Schließlich gelangt ein Mensch zum Sprach- oder Textverständnis gar nicht durch die Kenntnis der morphologischen Wortbedeutungen oder der Herstellung syntaktischer Verbindungen zwischen Wörtern, und nicht einmal dadurch, dass er die spezifischen Bedeutungen (Semantis) von Wörtern erkannt hat, sondern genau aufgrund der anfänglichen assoziativen Annahmen und des anschließenden „iterativen Scrollens“ des gesamten Kontextes“, um das endgültige Bild der Übereinstimmung der wahrgenommenen Information mit ihrem inneren Inhalt zu zeichnen.

Portal für den Studenten. Selbsttraining

Herunterladen:

Vorschau:

Englische Wörter in der IKT

Mein Versuch

Entwicklungsgeschichte der Computerlinguistik

Kognitiver Werkzeugkasten der Computerlinguistik

ZUM THEMA PASSENDE ARTIKEL