Maschinenlinguistik. Geschichte, Entwicklung und Formierung der Computerlinguistik als Wissenschaftsrichtung

Philologie weiterführende Schule Economics startet ein neuer Masterstudiengang, der sich der Computerlinguistik widmet: Er begrüßt Bewerberinnen und Bewerber mit einer humanitären und mathematischen Grundausbildung sowie alle, die Interesse an der Lösung von Problemen in einem der zukunftsträchtigsten Wissenschaftszweige haben. Ihre Leiterin, Anastasia Bonch-Osmolovskaya, erklärte Theorie und Praxis, was Computerlinguistik ist, warum Roboter Menschen nicht ersetzen werden und was sie lehren werden HSE-Master-Abschluss in Computerlinguistik.

Dieses Programm ist fast das einzige seiner Art in Russland. Wo hast du selbst studiert?

Ich habe an der Staatlichen Universität Moskau am Institut für Theoretische und Angewandte Linguistik studiert Fakultät für Philologie. Ich bin nicht gleich dort angekommen, ich bin zuerst eingetreten Russische Niederlassung, aber dann begann ich mich ernsthaft für Linguistik zu interessieren, und ich war von der Atmosphäre angezogen, die bis heute an der Fakultät herrscht. Das Wichtigste dabei ist der gute Kontakt zwischen Lehrern und Schülern und das gegenseitige Interesse.

Als ich Kinder bekam und meinen Lebensunterhalt verdienen musste, ging ich in die Wirtschaftslinguistik. Im Jahr 2005 war noch nicht ganz klar, was dieses Tätigkeitsfeld als solches ist. Ich habe in verschiedenen Sprachunternehmen gearbeitet: Ich habe mit einem kleinen Unternehmen auf der Website Public.ru angefangen - das ist so eine Mediathek, in der ich angefangen habe, mit Sprachtechnologien zu arbeiten. Dann habe ich ein Jahr bei Rosnanotech gearbeitet, wo ich die Idee hatte, ein Analyseportal zu erstellen, dessen Daten automatisch strukturiert werden. Dann leitete ich die Sprachabteilung bei der Firma Avicomp – das ist schon eine seriöse Produktion in diesem Bereich Computerlinguistik und semantische Technologien. Gleichzeitig habe ich an der Moskauer Staatsuniversität einen Kurs in Computerlinguistik unterrichtet und versucht, ihn moderner zu gestalten.

Zwei Ressourcen für einen Linguisten: - eine Website, die von Linguisten für wissenschaftliche und angewandte Forschung im Zusammenhang mit der russischen Sprache erstellt wurde. Dies ist ein Modell der russischen Sprache, präsentiert mit Hilfe einer großen Auswahl an Texten aus verschiedenen Genres und Epochen. Texte werden mit sprachlichem Markup versehen, mit dessen Hilfe Informationen über die Häufigkeit bestimmter sprachlicher Phänomene gewonnen werden können. Wordnet - eine riesige lexikalische Datenbank der englischen Sprache, Hauptidee Wordnet - um nicht Wörter, sondern ihre Bedeutungen in einem großen Netzwerk zu verbinden. Wordnet kann heruntergeladen und für eigene Projekte verwendet werden.

Was macht Computerlinguistik?

Dies ist der interdisziplinärste Bereich. Das Wichtigste dabei ist, zu verstehen, was in der elektronischen Welt passiert und wer Ihnen bei bestimmten Dingen hilft.

Wir sind umgeben von große Menge digitale Informationen, es gibt viele Geschäftsprojekte, deren Erfolg von der Verarbeitung von Informationen abhängt, diese Projekte können mit Marketing, Politik, Wirtschaft und was auch immer zusammenhängen. Und es ist sehr wichtig, mit diesen Informationen effektiv umgehen zu können - die Hauptsache ist nicht nur die Geschwindigkeit der Informationsverarbeitung, sondern auch die Leichtigkeit, mit der Sie nach dem Herausfiltern des Rauschens die benötigten Daten erhalten und erstellen können ganzes Bild von ihnen.

Früher wurden einige globale Ideen mit der Computerlinguistik in Verbindung gebracht, zum Beispiel: Die Menschen dachten, dass die maschinelle Übersetzung die menschliche Übersetzung ersetzen würde, Roboter würden anstelle von Menschen arbeiten. Aber jetzt scheint es wie eine Utopie, und maschinelle Übersetzung wird in Suchmaschinen verwendet, um schnell in einer fremden Sprache zu suchen. Das heißt, die Linguistik befasst sich heute selten mit abstrakten Aufgaben – meist mit einigen kleinen Dingen, die in ein großes Produkt eingebaut werden können und damit Geld verdienen.

Einer von große Aufgaben moderne Linguistik - das semantische Web, wenn die Suche nicht nur nach dem Zusammentreffen von Wörtern, sondern nach Bedeutung erfolgt und alle Seiten irgendwie von Semantik geprägt sind. Dies kann zum Beispiel für Polizei- oder Arztberichte nützlich sein, die täglich geschrieben werden. Die Analyse interner Verbindungen liefert viele notwendige Informationen, und es ist unglaublich lang, sie manuell zu lesen und zu berechnen.

Kurz gesagt, wir haben tausend Texte, wir müssen sie in Stapeln sortieren, jeden Text als Struktur darstellen und eine Tabelle erhalten, mit der wir bereits arbeiten können. Dies wird als unstrukturierte Informationsverarbeitung bezeichnet. Andererseits befasst sich die Computerlinguistik beispielsweise mit der Erstellung künstlicher Texte. Es gibt ein Unternehmen, das sich einen Mechanismus ausgedacht hat, um Texte zu Themen zu generieren, über die es langweilig ist, darüber zu schreiben: Änderungen der Immobilienpreise, Wettervorhersage, Berichte Fußballspiele. Es ist viel teurer, diese Texte für eine Person zu bestellen, außerdem sind Computertexte zu solchen Themen in einer kohärenten menschlichen Sprache geschrieben.

Entwicklungen auf dem Gebiet der Suche nach unstrukturierten Informationen in Russland werden aktiv in "Yandex", "Kaspersky Lab" eingestellt Forschungsgruppen die studieren maschinelles Lernen. Versucht jemand auf dem Markt, etwas Neues auf dem Gebiet der Computerlinguistik zu erfinden?

**Bücher zur Computerlinguistik:**

Daniel Jurafsky, Sprach- und Sprachverarbeitung

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Einführung in die Informationsbeschaffung

Jacob Testelec, „Einführung in die allgemeine Syntax“

Die meisten Sprachentwicklungen sind Eigentum großer Unternehmen, fast nichts ist darin zu finden uneingeschränkter Zugang. Dies behindert die Entwicklung der Branche, wir haben keinen freien Sprachmarkt, keine Boxlösungen.

Außerdem fehlt es an Vollständigkeit Informationsressourcen. Es gibt ein solches Projekt wie das National Corpus of the Russian Language. Dies ist eines der besten nationalen Korpusse der Welt, das sich schnell entwickelt und unglaubliche Möglichkeiten für Wissenschaft und Forschung eröffnet angewandte Forschung. Der Unterschied ist ungefähr derselbe wie in der Biologie – vor und nach der DNA-Forschung.

Aber viele Ressourcen existieren nicht auf Russisch. Es gibt also kein Analogon zu einer so wunderbaren englischsprachigen Ressource wie Framenet - dies ist ein solches konzeptionelles Netzwerk, in dem alle möglichen Verbindungen eines bestimmten Wortes mit anderen Wörtern formal dargestellt werden. Da ist zum Beispiel das Wort „fliegen“ – wer kann fliegen, wo, mit welchem ​​Vorwand wird dieses Wort verwendet, mit welchen Wörtern wird es kombiniert und so weiter. Diese Ressource hilft, die Sprache mit zu verbinden wahres Leben, das heißt zu verfolgen, wie sich ein bestimmtes Wort auf der Ebene der Morphologie und Syntax verhält. Es ist sehr nützlich.

Avicomp entwickelt derzeit ein Plug-in für die Suche nach verwandten Artikeln. Das heißt, wenn Sie sich für einen Artikel interessieren, können Sie schnell die Geschichte der Handlung einsehen: wann das Thema auftauchte, was geschrieben wurde und wann der Höhepunkt des Interesses an diesem Problem war. Mit diesem Plugin wird es zum Beispiel möglich sein, ausgehend von einem Artikel über Ereignisse in Syrien, sehr schnell zu sehen, wie vergangenes Jahr dort spielten sich die ereignisse ab.

Wie wird der Lernprozess im Masterstudium gestaltet?

Die Ausbildung an der HSE ist in separate Module unterteilt - wie in Westliche Universitäten. Studierende werden in kleine Teams aufgeteilt, Mini-Startups – also am Ende sollen es mehrere werden abgeschlossene Projekte. Wir wollen echte Produkte bekommen, die wir dann für Menschen öffnen und gemeinfrei lassen.

Neben direkten Betreuern studentischer Projekte wollen wir aus ihrem Kreis Kuratoren dafür gewinnen Potentielle Arbeitgeber- zum Beispiel von demselben "Yandex", der dieses Spiel auch spielen und den Schülern Ratschläge geben wird.

Ich hoffe, dass die Leute am meisten verschiedene Bereiche: Programmierer, Linguisten, Soziologen, Vermarkter. Wir werden mehrere Anpassungskurse in Linguistik, Mathematik und Programmierung anbieten. Dann haben wir zwei ernsthafte Kurse in Linguistik, und sie werden mit den relevantesten verbunden Sprachtheorien, möchten wir, dass unsere Absolventen in der Lage sind, zeitgenössische sprachwissenschaftliche Artikel zu lesen und zu verstehen. Genauso ist es mit der Mathematik. Wir werden einen Kurs mit dem Titel "Mathematische Grundlagen der Computerlinguistik" haben, der diejenigen Bereiche der Mathematik vorstellen wird, auf denen die moderne Computerlinguistik basiert.

Um sich für einen Masterstudiengang einzuschreiben, müssen Sie bestehen Aufnahmeprüfung in Sprache und bestehe einen Mappenwettbewerb.

Neben den Hauptfächern wird es eine Reihe von Wahlpflichtfächern geben, wir haben mehrere Zyklen geplant - zwei davon konzentrieren sich auf die Vertiefung einzelner Themen, zu denen beispielsweise maschinelle Übersetzung und Korpuslinguistik gehören, und weiter im Gegenteil, man bezieht sich auf verwandte Bereiche: wie , soziale Netzwerke, maschinelles Lernen oder Digital Humanities - ein Kurs, von dem wir hoffen, dass er auf Englisch angeboten wird.

Computerlinguisten beschäftigen sich mit der Entwicklung von Text- und Spracherkennungsalgorithmen, der Synthese künstlicher Sprache, der Erstellung semantischer Übersetzungssysteme und der eigentlichen Entwicklung künstlicher Intelligenz (im klassischen Sinne des Wortes als Ersatz für menschliche Intelligenz). wird wahrscheinlich nie erscheinen, aber verschiedene Expertensysteme, die auf Datenanalyse basieren).

Spracherkennungsalgorithmen werden zunehmend im Alltag zum Einsatz kommen – Smart Homes und elektronische Geräte werden keine Fernbedienungen und Knöpfe haben, sondern eine Sprachschnittstelle. Diese Technologie wird perfektioniert, aber es gibt noch viele Herausforderungen: Es ist für einen Computer schwierig, menschliche Sprache zu erkennen, weil verschiedene Menschen sehr unterschiedlich sprechen. Daher funktionieren Erkennungssysteme in der Regel gut, wenn sie entweder auf einen Sprecher trainiert und bereits auf seine Ausspracheeigenschaften eingestellt sind, oder wenn die Anzahl der Phrasen, die das System erkennen kann, begrenzt ist (wie zum Beispiel bei Sprachbefehlen für das Fernsehen ).

Spezialisten für die Erstellung semantischer Übersetzungsprogramme haben noch viel Arbeit vor sich: dieser Moment gute Algorithmen werden nur für die Übersetzung ins und aus dem Englischen entwickelt. Hier gibt es viele Probleme - verschiedene Sprachen sind in einem semantischen Plan unterschiedlich angeordnet, dies unterscheidet sich sogar auf der Ebene der Phrasenkonstruktion, und nicht alle Bedeutungen einer Sprache können mit dem semantischen Apparat einer anderen übermittelt werden. Außerdem muss das Programm Homonyme unterscheiden, Wortarten richtig erkennen, auswählen richtigen Wert dem Kontext angemessenes polysemantisches Wort.

Auch das Synthetisieren künstlicher Sprache (z. B. für Heimroboter) ist eine mühselige Arbeit. Es ist schwierig, künstlich erzeugte Sprache natürlich klingen zu lassen menschliches Ohr, weil es Millionen von Nuancen gibt, auf die wir nicht achten, ohne die aber alles nicht mehr „das“ ist - Fehlstarts, Pausen, Ruckler usw. Der Sprachstrom ist kontinuierlich und gleichzeitig diskret: Wir sprechen ohne Pausen zwischen den Wörtern, aber es ist für uns nicht schwierig zu verstehen, wo ein Wort endet und ein anderes beginnt, und für eine Maschine wird dies ein großes Problem sein.

Die größte Richtung in der Computerlinguistik ist mit Big Data verbunden. Schließlich gibt es riesige Korpora von Texten wie Newsfeeds, aus denen man bestimmte Informationen isolieren muss – zum Beispiel um berichtenswerte Ereignisse hervorzuheben oder RSS an den Geschmack eines bestimmten Benutzers anzupassen. Solche Technologien existieren bereits und werden sich weiterentwickeln, denn die Rechenleistung wächst rasant. Die sprachliche Analyse von Texten wird auch verwendet, um die Sicherheit bei der Internetsuche zu gewährleisten notwendige Informationen für besondere Dienstleistungen.

Wo kann man als Computerlinguist studieren? Leider haben wir eine ziemlich starke Trennung zwischen Fachgebieten in Bezug auf klassische Linguistik und Programmierung, Statistik und Datenanalyse. Und um ein digitaler Linguist zu werden, muss man beides verstehen. BEI ausländische Universitäten Es gibt Hochschulprogramme in Computerlinguistik, aber wir haben sie immer noch Beste Option- eine sprachliche Grundausbildung erhalten und dann die Grundlagen der IT beherrschen. Gut, dass es mittlerweile viele verschiedene Online-Kurse gibt, leider war das zu meiner Studienzeit noch nicht so. Ich habe an der Fakultät für Angewandte Linguistik der Moskauer Staatlichen Linguistischen Universität studiert, wo wir Kurse in künstlicher Intelligenz und Spracherkennung hatten – aber immer noch nicht genug. Jetzt versuchen IT-Unternehmen aktiv, mit Institutionen zu interagieren. Meine Kollegen von Kaspersky Lab und ich versuchen auch, daran teilzunehmen Bildungsprozess: Wir halten Vorlesungen, veranstalten Studentenkonferenzen, vergeben Stipendien an Doktoranden. Aber vorerst kommt die Initiative eher von Arbeitgebern als von Universitäten.

KURSARBEIT

in der Disziplin "Informatik"

zum Thema: "Computerlinguistik"


EINLEITUNG

2. Moderne Schnittstellen der Computerlinguistik

FAZIT

LITERATUR


Einführung

Automatisierte Informationstechnologien spielen eine wichtige Rolle im Leben der modernen Gesellschaft. Im Laufe der Zeit nimmt ihr Wert kontinuierlich zu. Aber die Entwicklung der Informationstechnologie ist sehr ungleichmäßig: Wenn modernes Niveau Computertechnik und Kommunikationsmittel die Vorstellungskraft anregt, sind die Erfolge im Bereich der semantischen Informationsverarbeitung wesentlich bescheidener. Diese Erfolge hängen in erster Linie von der Erforschung der Prozesse des menschlichen Denkens, der Prozesse der Sprachkommunikation zwischen Menschen und der Fähigkeit ab, diese Prozesse auf einem Computer zu simulieren.

Wenn es darum geht, zukunftsträchtige Informationstechnologien zu schaffen, treten die Probleme der automatischen Verarbeitung auf Textinformationen in natürlichen Sprachen präsentiert werden, treten in den Vordergrund. Dies wird dadurch bestimmt, dass das Denken eines Menschen eng mit seiner Sprache verbunden ist. Darüber hinaus ist die natürliche Sprache ein Werkzeug des Denkens. Er ist auch Allheilmittel Kommunikation zwischen Menschen - ein Mittel zur Wahrnehmung, Sammlung, Speicherung, Verarbeitung und Übertragung von Informationen. Die Probleme der Verwendung natürlicher Sprache in automatischen Iwerden von der Wissenschaft der Computerlinguistik behandelt. Diese Wissenschaft entstand vor relativ kurzer Zeit - um die Wende der fünfziger und sechziger Jahre des letzten Jahrhunderts. Im letzten halben Jahrhundert wurden bedeutende wissenschaftliche und praktische Ergebnisse auf dem Gebiet der Computerlinguistik erzielt: Systeme Maschinenübersetzung Texte von einer natürlichen Sprache in eine andere, Systeme zur automatisierten Suche nach Informationen in Texten, Systeme zur automatischen Analyse und Synthese mündlicher Sprache und viele andere. diese Arbeit widmet sich der Konstruktion einer optimalen Computerschnittstelle unter Verwendung von Computerlinguistik beim Dirigieren Sprachliche Forschung.


1. Platz und Rolle der Computerlinguistik in der Sprachforschung

BEI moderne Welt Computerlinguistik wird zunehmend in verschiedenen sprachwissenschaftlichen Studien eingesetzt.

Computerlinguistik ist ein Wissensgebiet, das sich mit der Lösung von Problemen der automatischen Verarbeitung von Informationen befasst, die in natürlicher Sprache präsentiert werden. Zentral wissenschaftliche Probleme Computerlinguistik sind das Problem der Modellierung des Bedeutungsverstehens von Texten (Übergang von Text zu einer formalisierten Bedeutungsrepräsentation) und das Problem der Sprachsynthese (Übergang von einer formalisierten Bedeutungsrepräsentation zu Texten in natürlicher Sprache). Diese Probleme entstehen bei der Lösung einer Reihe von Anwendungsproblemen und insbesondere bei Problemen der automatischen Erkennung und Korrektur von Fehlern bei der Eingabe von Texten in einen Computer, der automatischen Analyse und Synthese mündlicher Sprache, der automatischen Übersetzung von Texten von einer Sprache in eine andere, der Kommunikation mit eines Computers in natürlicher Sprache, automatische Klassifikation und Indexierung von Textdokumenten, deren automatische Referenzierung, Suche nach Dokumenten in Volltextdatenbanken.

Sprachwerkzeuge, die in der Computerlinguistik erstellt und verwendet werden, können bedingt in zwei Teile unterteilt werden: deklarativ und prozedural. Der deklarative Teil umfasst Wörterbücher von Sprach- und Spracheinheiten, Texte und verschiedene Arten von Grammatiktabellen, während der prozedurale Teil Mittel zur Manipulation von Sprach- und Spracheinheiten, Texten und Grammatiktabellen umfasst. Computerschnittstelle bezieht sich auf den prozeduralen Teil der Computerlinguistik.

Der Erfolg bei der Lösung angewandter Probleme der Computerlinguistik hängt zuallererst von der Vollständigkeit und Genauigkeit der Repräsentation deklarativer Mittel im Computerspeicher und von der Qualität prozeduraler Mittel ab. Bis heute ist das erforderliche Niveau zur Lösung dieser Probleme noch nicht erreicht, obwohl insgesamt auf dem Gebiet der Computerlinguistik gearbeitet wird Industrieländer Welt (Russland, USA, England, Frankreich, Deutschland, Japan usw.).

Dennoch können ernsthafte wissenschaftliche und praktische Erfolge auf dem Gebiet der Computerlinguistik festgestellt werden. So wurden in einer Reihe von Ländern (Russland, USA, Japan usw.) experimentelle und industrielle Systeme zur maschinellen Übersetzung von Texten von einer Sprache in eine andere gebaut, eine Reihe experimenteller Systeme zur Kommunikation mit Computern in natürlicher Sprache wurden gebaut , es werden terminologische Datenbanken, Thesauri, zwei- und mehrsprachige Maschinenwörterbücher (Russland, USA, Deutschland, Frankreich usw.) erstellt, Systeme zur automatischen Analyse und Synthese mündlicher Sprache werden aufgebaut (Russland, USA, Japan usw .) wird auf dem Gebiet der Erstellung von Modellen natürlicher Sprachen geforscht.

Ein wichtiges methodisches Problem der angewandten Computerlinguistik ist die richtige Einschätzung der notwendigen Korrelation zwischen den deklarativen und prozeduralen Komponenten automatischer Textinformationsverarbeitungssysteme. Was sollte bevorzugt werden: leistungsstarke Rechenverfahren, die auf relativ kleinen Vokabularsystemen mit reichhaltigen grammatikalischen und semantischen Informationen basieren, oder eine leistungsstarke deklarative Komponente mit relativ einfachen Computerschnittstellen? Die meisten Wissenschaftler glauben, dass der zweite Weg vorzuziehen ist. Sie führt schneller zum Erreichen praktischer Ziele, da es hier weniger Sackgassen und schwer zu überwindende Hindernisse gibt und hier der Einsatz von Computern in größerem Umfang zur Automatisierung von Forschung und Entwicklung möglich wird.

Die Notwendigkeit, Anstrengungen zu mobilisieren, vor allem bei der Entwicklung der deklarativen Komponente automatischer Textverarbeitungssysteme, wird durch ein halbes Jahrhundert Erfahrung in der Entwicklung der Computerlinguistik bestätigt. Denn hier brachte trotz der unbestreitbaren Erfolge dieser Wissenschaft die Begeisterung für algorithmische Verfahren nicht den erhofften Erfolg. Es gab sogar eine gewisse Enttäuschung über die Möglichkeiten verfahrensrechtlicher Mittel.

Im Lichte des Vorstehenden erscheint ein solcher Entwicklungsweg der Computerlinguistik vielversprechend, wenn die Hauptanstrengungen auf die Erstellung leistungsfähiger Wörterbücher von Sprach- und Spracheinheiten, das Studium ihrer semantisch-syntaktischen Struktur und deren Erstellung gerichtet sind grundlegende Verfahren zur morphologischen, semantisch-syntaktischen und begrifflichen Analyse und Synthese von Texten. Damit wird es möglich, zukünftig eine Vielzahl von Anwendungsproblemen zu lösen.

Der Computerlinguistik stehen zunächst Aufgaben der sprachlichen Unterstützung der Prozesse des Sammelns, Sammelns, Verarbeitens und Suchens von Informationen gegenüber. Die wichtigsten davon sind:

1. Automatisierung der Erstellung und sprachlichen Verarbeitung von Maschinenwörterbüchern;

2. Automatisierung der Prozesse zur Erkennung und Korrektur von Fehlern bei der Eingabe von Texten in einen Computer;

3. Automatische Indexierung von Dokumenten und Informationsanfragen;

4. Automatische Klassifizierung und Referenzierung von Dokumenten;

5. Sprachliche Unterstützung von Informationssuchprozessen in ein- und mehrsprachigen Datenbanken;

6. Maschinelle Übersetzung von Texten von einer natürlichen Sprache in eine andere;

7. Konstruktion von Sprachprozessoren, die Benutzern die Kommunikation mit automatisierten intelligenten Informationssystemen (insbesondere mit Expertensystemen) in natürlicher Sprache oder in einer natürlichen Sprache ermöglichen;

8. Extraktion von Sachinformationen aus nicht formalisierten Texten.

Lassen Sie uns im Detail auf die Probleme eingehen, die für das Thema der Studie am relevantesten sind.

BEI praktische Tätigkeiten Informationszentren besteht die Notwendigkeit, das Problem der automatischen Erkennung und Korrektur von Fehlern in Texten zu lösen, wenn sie in einen Computer eingegeben werden. Diese komplexe Aufgabe lässt sich bedingt in drei Aufgaben unterteilen – die Aufgaben der Rechtschreibung, der syntaktischen und der semantischen Kontrolle von Texten. Die erste von ihnen kann unter Verwendung eines morphologischen Analyseverfahrens unter Verwendung eines ziemlich leistungsfähigen Referenzmaschinenwörterbuchs von Wortstämmen gelöst werden. Bei der Rechtschreibkontrolle werden die Wörter des Textes einer morphologischen Analyse unterzogen, und wenn ihre Basen mit den Basen des Referenzwörterbuchs identifiziert werden, werden sie als korrekt angesehen; wenn sie nicht identifiziert werden, werden sie, begleitet von einem Mikrokontext, zur Ansicht durch eine Person ausgegeben. Eine Person erkennt und korrigiert verzerrte Wörter, und das entsprechende Softwaresystem nimmt diese Korrekturen am korrigierten Text vor.

Die Aufgabe der syntaktischen Kontrolle von Texten, um Fehler in ihnen zu erkennen, ist viel schwieriger als die Aufgabe ihrer Rechtschreibkontrolle. Zum einen, weil es in seiner Zusammensetzung die Aufgabe der Rechtschreibprüfung als obligatorischen Bestandteil beinhaltet, und zum anderen, weil das Problem der syntaktischen Analyse nicht formalisierter Texte noch nicht vollständig gelöst ist. Dennoch ist eine partielle syntaktische Kontrolle von Texten durchaus möglich. Hier gibt es zwei Wege: Entweder erstellen Sie ausreichend repräsentative Maschinenwörterbücher von syntaktischen Referenzstrukturen und vergleichen die syntaktischen Strukturen des analysierten Textes mit ihnen; oder entwickeln ein komplexes Regelwerk zur Prüfung der grammatikalischen Konsistenz von Textelementen. Der erste Weg erscheint uns vielversprechender, obwohl er natürlich die Möglichkeit der Verwendung von Elementen des zweiten Wegs nicht ausschließt. Die syntaktische Struktur von Texten sollte durch grammatikalische Klassen von Wörtern (genauer gesagt in Form von Folgen von Sätzen grammatikalischer Informationen für Wörter) beschrieben werden.

Die Aufgabe der semantischen Kontrolle von Texten, um darin semantische Fehler zu erkennen, ist der Klasse der Aufgaben der künstlichen Intelligenz zuzuordnen. In vollem Umfang kann es nur auf der Grundlage der Modellierung der Prozesse des menschlichen Denkens gelöst werden. Gleichzeitig wird es offenbar notwendig sein, leistungsfähige enzyklopädische Wissensbasen und Softwaretools zur Manipulation von Wissen zu schaffen. Dennoch ist dieses Problem für begrenzte Fachgebiete und für formalisierte Informationen durchaus lösbar. Sie sollte als Aufgabe der semantisch-syntaktischen Kontrolle von Texten gestellt und gelöst werden.

Das Problem der Automatisierung der Indizierung von Dokumenten und Abfragen ist für automatisierte Textsuchsysteme traditionell. Unter Indexierung wurde zunächst der Vorgang verstanden, Dokumenten und Suchanfragen Klassifikationsindizes zuzuweisen, die ihren thematischen Inhalt widerspiegeln. In Zukunft wurde dieses Konzept transformiert und der Begriff "Indexierung" begann sich auf den Prozess der Übersetzung von Beschreibungen von Dokumenten und Abfragen aus einer natürlichen Sprache in eine formalisierte zu beziehen, insbesondere in die Sprache der "Suchbilder". Suchbilder von Dokumenten wurden in der Regel in Form von Listen mit Schlüsselwörtern und Phrasen erstellt, die ihren thematischen Inhalt widerspiegelten, und Suchbilder von Abfragen - in Form von logischen Strukturen, in denen Schlüsselwörter und Phrasen miteinander verbunden waren durch logische und syntaktische Operatoren.

Die automatische Verschlagwortung von Dokumenten ist bequem nach den Texten ihrer Abstracts (falls vorhanden) durchzuführen, da der Hauptinhalt der Dokumente in konzentrierter Form in den Abstracts wiedergegeben wird. Die Indizierung kann mit oder ohne Thesaurussteuerung erfolgen. Im ersten Fall wird im Titeltext des Dokuments und seiner Zusammenfassung nach Schlüsselwörtern und Phrasen des Wörterbuchs der Referenzmaschine gesucht, und nur die im Wörterbuch gefundenen werden in das DOD aufgenommen. Im zweiten Fall werden Schlüsselwörter und Phrasen aus dem Text extrahiert und in den POD aufgenommen, unabhängig davon, ob sie zu einem Referenzwörterbuch gehören. Eine dritte Option wurde ebenfalls implementiert, bei der die AML neben den Begriffen aus dem maschinellen Thesaurus auch Begriffe enthielt, die aus dem Titel und dem ersten Satz der Zusammenfassung des Dokuments extrahiert wurden. Experimente haben gezeigt, dass PODs, die automatisch basierend auf Titeln und Zusammenfassungen von Dokumenten zusammengestellt wurden, eine größere Vollständigkeit der Suche bieten als manuell zusammengestellte PODs. Dies erklärt sich aus der Tatsache, dass das automatische Indexierungssystem verschiedene Aspekte des Inhalts von Dokumenten vollständiger widerspiegelt als das manuelle Indexierungssystem.

Bei der automatischen Indexierung von Abfragen treten ungefähr die gleichen Probleme auf wie bei der automatischen Indexierung von Dokumenten. Auch hier müssen Sie Schlüsselwörter und Phrasen aus dem Text extrahieren und die im Abfragetext enthaltenen Wörter normalisieren. Logische Verknüpfungen zwischen Schlüsselwörtern und Phrasen und Kontextoperatoren können manuell oder mithilfe eines automatisierten Verfahrens eingegeben werden. Ein wichtiges Element Der Prozess der automatischen Indizierung einer Suchanfrage besteht in der Hinzufügung ihrer Schlüsselwörter und Phrasen mit ihren Synonymen und Hyponymen (manchmal auch Hypernyme und andere Begriffe, die mit den ursprünglichen Begriffen der Suchanfrage verbunden sind). Dies kann automatisch oder interaktiv unter Verwendung eines maschinellen Thesaurus erfolgen.

Das Problem der Automatisierung der Suche nach dokumentarischen Informationen haben wir bereits teilweise im Zusammenhang mit der Aufgabe der automatischen Indexierung betrachtet. Am erfolgversprechendsten ist hier die Suche nach Dokumenten anhand ihrer Volltexte, da die Verwendung jeglicher Substitute für diesen Zweck (bibliografische Beschreibungen, Suchbilder von Dokumenten und Texte ihrer Abstracts) zu Informationsverlusten bei der Suche führt. Die größten Verluste treten auf, wenn ihre bibliografischen Beschreibungen als Ersatz für Primärdokumente verwendet werden, die kleinsten - wenn Abstracts verwendet werden.

Wichtige Funktionen Die Qualitäten der Informationsbeschaffung sind ihre Vollständigkeit und Genauigkeit. Die Vollständigkeit der Suche kann sichergestellt werden, indem so weit wie möglich die paradigmatischen Verbindungen zwischen den Sprach- und Spracheinheiten (Wörter und Phrasen) berücksichtigt werden, und die Genauigkeit - indem ihre syntagmatischen Verbindungen berücksichtigt werden. Es besteht die Meinung, dass Vollständigkeit und Genauigkeit der Suche in umgekehrtem Zusammenhang stehen: Maßnahmen zur Verbesserung eines dieser Merkmale führen zu einer Verschlechterung des anderen. Dies gilt jedoch nur für feste Suchlogik. Wenn diese Logik verbessert wird, können beide Eigenschaften gleichzeitig verbessert werden.

Der Prozess der Suche nach Informationen in Volltextdatenbanken sollte als Prozess der interaktiven Kommunikation zwischen einem Benutzer und einem Information Retrieval System (IPS) aufgebaut sein, bei dem er nacheinander Textfragmente (Absätze, Absätze) durchsucht, die zufriedenstellend sind logische Bedingungen Anfrage und wählt diejenigen aus, die für ihn von Interesse sind. Als endgültige Suchergebnisse können z Volltexte Dokumente sowie alle ihre Fragmente.

Wie aus den vorangegangenen Überlegungen ersichtlich ist, muss bei der automatischen Suche nach Informationen die Sprachbarriere überwunden werden, die durch die Vielfalt der Darstellungsformen gleicher Bedeutung in Texten zwischen dem Benutzer und dem IPS entsteht. Diese Barriere wird noch deutlicher, wenn Sie in mehrsprachigen Datenbanken suchen müssen. Die Hauptlösung des Problems kann hier die maschinelle Übersetzung von Dokumententexten von einer Sprache in eine andere sein. Dies kann entweder im Voraus erfolgen, bevor Dokumente in eine Suchmaschine hochgeladen werden, oder während der Suche nach Informationen. BEI letzter Fall Die Abfrage des Benutzers muss in die Sprache der Dokumentenreihe übersetzt werden, in der die Suche durchgeführt wird, und die Suchergebnisse in die Sprache der Abfrage. Von solcher Art Suchmaschinen arbeiten bereits im Internet. Bei VINITI RAS wurde auch das kyrillische Browsersystem entwickelt, das die Suche nach Informationen in russischsprachigen Texten bei Abfragen in englischer Sprache ermöglicht, wobei die Suchergebnisse auch in der Sprache des Benutzers angezeigt werden.

Eine wichtige und zukunftsträchtige Aufgabe der Computerlinguistik ist die Konstruktion von Sprachprozessoren, die Benutzern die Kommunikation mit intelligenten automatisierten Informationssystemen (insbesondere mit Expertensystemen) in natürlicher oder in einer naturnahen Sprache ermöglichen. Da Informationen in modernen intelligenten Systemen in formalisierter Form gespeichert werden, müssen Sprachprozessoren, die als Vermittler zwischen einer Person und einem Computer fungieren, die folgenden Hauptaufgaben lösen: 1) die Aufgabe, aus Texten eingegebene Informationsanfragen und Nachrichten in natürlicher Sprache zu bewegen ihre Bedeutung in einer formalisierten Sprache darzustellen (bei der Eingabe von Informationen in einen Computer); 2) die Aufgabe des Übergangs von einer formalisierten Darstellung der Bedeutung von Ausgabenachrichten zu ihrer Darstellung in natürlicher Sprache (wenn einer Person Informationen gegeben werden). Die erste Aufgabe sollte durch morphologische, syntaktische und konzeptionelle Analyse von Eingangsanforderungen und Nachrichten gelöst werden, die zweite - durch konzeptionelle, syntaktische und morphologische Synthese von Ausgangsnachrichten.

Die konzeptionelle Analyse von Informationsanfragen und Nachrichten besteht darin, ihre konzeptionelle Struktur (die Grenzen der Namen von Konzepten und Beziehungen zwischen Konzepten im Text) zu identifizieren und diese Struktur in eine formalisierte Sprache zu übersetzen. Es wird nach morphologischer und syntaktischer Analyse von Anfragen und Nachrichten durchgeführt. Die konzeptionelle Synthese von Nachrichten besteht im Übergang von der Darstellung der Elemente ihrer Struktur in einer formalisierten Sprache zu einer verbalen (verbalen) Darstellung. Danach erhalten die Nachrichten das notwendige syntaktische und morphologische Design.

Für die maschinelle Übersetzung von Texten von einer natürlichen Sprache in eine andere ist es notwendig, Wörterbücher mit Übersetzungskorrespondenzen zwischen den Namen von Konzepten zu haben. Das Wissen über solche Übersetzungskorrespondenzen wurde von vielen Generationen von Menschen gesammelt und in Form von Sonderausgaben herausgegeben - zweisprachige oder mehrsprachige Wörterbücher. Für Fachleute mit teilweisen Fremdsprachenkenntnissen waren diese Wörterbücher wertvolle Hilfsmittel beim Übersetzen von Texten.

In traditionellen zwei- und mehrsprachigen Wörterbüchern allgemeiner Zweck Transferäquivalente wurden hauptsächlich für angegeben individuelle Wörter, für Phrasen - viel seltener. Die Angabe von Übersetzungsäquivalenten für Phrasen war eher typisch für spezielle terminologische Wörterbücher. Bei der Übersetzung von Textabschnitten mit polysemantischen Wörtern hatten die Studierenden daher oft Schwierigkeiten.

Nachfolgend finden Sie Übersetzungskorrespondenzen zwischen mehreren Paaren englischer und russischer Phrasen zu "Schul" -Themen.

1) Die Fledermaus sieht aus wie eine Maus mit Flügeln - Die Fledermaus sieht aus wie eine Maus mit Flügeln.

2) Kinder spielen gerne im Sand am Strand - Kinder lieben es, im Sand am Strand zu spielen.

3) Ein Regentropfen fiel auf meine Hand - Ein Regentropfen fiel auf meine Hand.

4) Trockenes Holz brennt leicht - trockenes Holz brennt gut.

5) Er tat so, als würde er mich nicht hören - Er tat so, als würde er mich nicht hören.

Hier sind die englischen Redewendungen keine Redewendungen. Dennoch kann ihre Übersetzung ins Russische nur bedingt als einfache Wort-für-Wort-Übersetzung angesehen werden, da fast alle darin enthaltenen Wörter polysem sind. Daher können den Studierenden hier nur die Errungenschaften der Computerlinguistik helfen.

Der Inhalt des Artikels

COMPUTERLINGUISTIK, Richtung Angewandte Linguistik, die sich auf die Verwendung von Computerwerkzeugen - Programmen, Computertechnologien zur Organisation und Verarbeitung von Daten - zur Modellierung des Funktionierens einer Sprache unter bestimmten Bedingungen, Situationen, Problembereichen usw. sowie auf den gesamten Bereich des Computers konzentriert Sprachmodelle in der Linguistik u verwandten Disziplinen. Eigentlich spricht man nur im letzteren Fall von angewandter Linguistik im engeren Sinne, da die Computermodellierung einer Sprache auch als Anwendungsgebiet der Informatik und der Programmiertheorie zur Lösung sprachwissenschaftlicher Probleme betrachtet werden kann. In der Praxis wird jedoch fast alles, was mit dem Einsatz von Computern in der Linguistik zu tun hat, als Computerlinguistik bezeichnet.

Als besondere Wissenschaftsrichtung nahm die Computerlinguistik in den 1960er Jahren Gestalt an. Der russische Begriff „Computerlinguistik“ ist ein Pauspapier aus der englischen Computerlinguistik. Da das Adjektiv „computational“ im Russischen auch mit „computational“ übersetzt werden kann, findet sich der Begriff „Computerlinguistik“ zwar auch in der Literatur, erhält aber in der russischen Wissenschaft eine engere Bedeutung und nähert sich dem Begriff der „quantitativen Linguistik“. Die Publikationsflut in diesem Bereich ist sehr hoch. Außer thematische Sammlungen, in den Vereinigten Staaten, erscheint die Zeitschrift Computational Linguistics vierteljährlich. Tolle Organisation u wissenschaftliche Arbeit wird von der Association for Computerlinguistics durchgeführt, die über regionale Strukturen (insbesondere den europäischen Zweig) verfügt. Alle zwei Jahre gibt es internationale Konferenzen zur Computerlinguistik - COLING. Relevante Themen werden in der Regel auch auf verschiedenen Konferenzen zur künstlichen Intelligenz breit präsentiert.

Toolkit der Computerlinguistik.

Die Computerlinguistik als spezielle angewandte Disziplin zeichnet sich vor allem durch ihr Werkzeug - d.h. über die Verwendung von Computerwerkzeugen zur Verarbeitung von Sprachdaten. Weil die Computerprogramme, die bestimmte Aspekte des Funktionierens der Sprache modellieren, am meisten verwenden können verschiedene Bedeutungen Programmieren, dann scheint es unnötig, über den allgemeinen Begriffsapparat der Computerlinguistik zu sprechen. Dies ist jedoch nicht der Fall. Es gibt allgemeine Grundsätze Computersimulation denken, die irgendwie in jedem Computermodell implementiert sind. Sie basieren auf der Erkenntnistheorie, die ursprünglich im Bereich der künstlichen Intelligenz entwickelt wurde und später zu einem Teilgebiet der Kognitionswissenschaft wurde. Das wichtigste Begriffliche Kategorien Computerlinguistik sind solche Wissensstrukturen wie "Frames" (konzeptionelle oder, wie sie sagen, konzeptionelle Strukturen zur deklarativen Repräsentation von Wissen über eine typisierte thematisch einheitliche Situation), "Szenarien" (konzeptionelle Strukturen zur prozeduralen Repräsentation von Wissen über eine stereotype Situation oder stereotypes Verhalten), „Pläne“ (Wissensstrukturen, die Vorstellungen über mögliche Aktionen zum Erfolg führt bestimmten Zweck). Der Begriff „Szene“ ist eng mit der Kategorie Rahmen verbunden. Die Szenenkategorie wird in der Literatur zur Computerlinguistik hauptsächlich als Bezeichnung einer Begriffsstruktur zur deklarativen Repräsentation von Situationen und deren Teilen verwendet, die in einem Sprechakt aktualisiert und mit sprachlichen Mitteln (Lexeme, syntaktische Konstruktionen, grammatikalische Kategorien etc .).

Ein bestimmter organisierter Satz von Wissensstrukturen bildet das "Modell der Welt" des kognitiven Systems und seines Computermodells. Bei Systemen der künstlichen Intelligenz bildet das Modell der Welt einen speziellen Block, der je nach gewählter Architektur enthalten sein kann Allgemeinwissenüber die Welt (in Form von einfachen Aussagen wie "im Winter ist es kalt" oder in Form von Produktionsregeln "wenn es draußen regnet, musst du einen Regenmantel anziehen oder einen Regenschirm mitnehmen"), einige spezifische Fakten ("Die höchster Gipfel der Welt ist der Everest"), und auch Werte und ihre Hierarchien, manchmal herausgegriffen in einem speziellen "axiologischen Block".

Die meisten Elemente der Konzepte computerlinguistischer Werkzeuge sind gleichnamig: Sie bezeichnen gleichzeitig einige reale Entitäten des menschlichen kognitiven Systems und Darstellungsweisen dieser Entitäten, die in ihrer theoretischen Beschreibung und Modellierung verwendet werden. Mit anderen Worten, die Elemente konzeptioneller Apparat Computerlinguistik hat ontologische und instrumentelle Aspekte. Beispielsweise entspricht im ontologischen Aspekt die Trennung von deklarativem und prozeduralem Wissen verschiedene Typen Wissen, das eine Person hat - das sogenannte Wissen von WAS (deklarativ; so zum Beispiel Wissen Anschrift eines NN) einerseits und Wissen WIE (prozedural; solches zum Beispiel Wissen, das es Ihnen ermöglicht, die Wohnung dieses NN zu finden, auch ohne seine formelle Adresse zu kennen) - andererseits. Im instrumentellen Aspekt kann Wissen einerseits in einer Reihe von Beschreibungen (Beschreibungen) verkörpert sein, andererseits in einem Algorithmus, einer Anweisung, die ein Computer oder ein anderes Modell eines kognitiven Systems ausführt Sonstiges.

Richtungen der Computerlinguistik.

Der Bereich von CL ist sehr vielfältig und umfasst Bereiche wie Computermodellierung der Kommunikation, Modellierung der Plotstruktur, Hypertext-Technologien für die Textpräsentation, maschinelle Übersetzung, Computerlexikographie. BEI engeren Sinne CL-Fragen werden oft mit einem interdisziplinären Anwendungsgebiet mit dem etwas unglücklichen Namen „Natural Language Processing“ (Übersetzung des englischen Begriffs Natural Language Processing) in Verbindung gebracht. Sie entstand Ende der 1960er Jahre und entwickelte sich im Rahmen der naturwissenschaftlich-technischen Disziplin „Künstliche Intelligenz“. Auf seine eigene Art und Weise innere Gestalt Der Begriff "Verarbeitung natürlicher Sprache" umfasst alle Bereiche, in denen Computer zur Verarbeitung von Sprachdaten eingesetzt werden. Mittlerweile hat sich in der Praxis ein engeres Verständnis dieses Begriffs etabliert – die Entwicklung von Methoden, Technologien und spezifischen Systemen, die die Kommunikation zwischen einem Menschen und einem Computer in natürlicher oder eingeschränkter natürlicher Sprache sicherstellen.

Die rasante Entwicklung in Richtung „Natural Language Processing“ fällt auf die 1970er Jahre, die mit einem unerwarteten exponentiellen Wachstum der Zahl der Endnutzer von Computern einherging. Da es unmöglich ist, allen Benutzern Sprachen und Programmiertechnologien beizubringen, ist das Problem der Organisation der Interaktion mit Computerprogrammen aufgetreten. Die Lösung dieses Kommunikationsproblems folgte zwei Hauptwegen. Im ersten Fall wurde versucht, Programmiersprachen und Betriebssysteme an den Endnutzer anzupassen. Infolgedessen erschienen Hochsprachen wie Visual Basic sowie praktische Betriebssysteme, die im konzeptionellen Raum von Metaphern aufgebaut sind, die dem Menschen vertraut sind - DESK, LIBRARY. Der zweite Weg ist die Entwicklung von Systemen, die es ermöglichen würden, mit einem Computer in einem bestimmten Problembereich in einer natürlichen Sprache oder einer eingeschränkten Version davon zu interagieren.

Die Architektur von Systemen zur Verarbeitung natürlicher Sprache umfasst im Allgemeinen eine Analyseeinheit Sprachnachricht Benutzer, einen Nachrichteninterpretationsblock, einen Block zum Erzeugen der Bedeutung einer Antwort und einen Block zum Synthetisieren der Oberflächenstruktur einer Äußerung. Ein besonderer Teil des Systems ist die Dialogkomponente, die Dialogstrategien, die Bedingungen für die Anwendung dieser Strategien und Möglichkeiten zur Überwindung möglicher Kommunikationsfehler (Fehler im Kommunikationsprozess) enthält.

Unter natürlichsprachverarbeitenden Computersystemen werden üblicherweise Frage-Antwort-Systeme unterschieden, Dialogsysteme Problemlösung und angeschlossene Textverarbeitungssysteme. Als Reaktion darauf wurden zunächst Frage-Antwort-Systeme entwickelt minderer Qualität Kodierungen von Anfragen bei der Suche nach Informationen in Information-Retrieval-Systemen. Da der Problembereich solcher Systeme sehr begrenzt war, vereinfachte dies etwas die Algorithmen zur Übersetzung von Anfragen in eine formalsprachliche Darstellung und das umgekehrte Vorgehen zur Transformation einer formalen Darstellung in natürlichsprachliche Aussagen. Aus inländischen Entwicklungen gehört das POET-System, das von einem Forscherteam unter der Leitung von E. V. Popov erstellt wurde, zu Programmen dieser Art. Das System verarbeitet Anfragen in russischer Sprache (mit geringfügigen Einschränkungen) und synthetisiert eine Antwort. Das Blockdiagramm des Programms geht von der Durchführung aller Analysestufen (morphologisch, syntaktisch und semantisch) und den entsprechenden Synthesestufen aus.

Dialogsysteme zur Problemlösung spielen im Gegensatz zu Systemen der vorigen Art in der Kommunikation aktive Rolle, da ihre Aufgabe darin besteht, auf der Grundlage des darin enthaltenen Wissens und der Informationen, die vom Benutzer erhalten werden können, eine Lösung für das Problem zu finden. Das System enthält Wissensstrukturen, die typische Handlungsabläufe zur Lösung von Problemen in einem bestimmten Problembereich sowie Informationen darüber erfassen notwendigen Ressourcen. Wenn der Benutzer eine Frage stellt oder eine bestimmte Aufgabe stellt, wird das entsprechende Skript aktiviert. Wenn einige Skriptkomponenten fehlen oder einige Ressourcen fehlen, initiiert das System die Kommunikation. So funktioniert zum Beispiel das SNUKA-System, das die Probleme der Planung von Militäreinsätzen löst.

Verbundene Textverarbeitungssysteme sind sehr unterschiedlich aufgebaut. Sie gemeinsames Merkmal kann als weit verbreitete Verwendung von Wissensrepräsentationstechnologien angesehen werden. Die Funktionen solcher Systeme bestehen darin, den Text zu verstehen und inhaltliche Fragen zu beantworten. Verstehen wird nicht als universelle Kategorie betrachtet, sondern als Prozess des Extrahierens von Informationen aus einem Text, der von einer bestimmten kommunikativen Absicht bestimmt wird. Mit anderen Worten, der Text wird nur in der Annahme "gelesen", dass es der potenzielle Benutzer ist, der davon wissen möchte. Damit erweisen sich angeschlossene Textverarbeitungssysteme keineswegs als universell, sondern problemorientiert. Typische Beispiele für Systeme des diskutierten Typs sind die RESECHER- und TAILOR-Systeme, die ein einziges bilden Softwarepaket, die es dem Benutzer ermöglicht, Informationen aus Patentauszügen zu erhalten, die komplexe physikalische Objekte beschreiben.

Das wichtigste Gebiet der Computerlinguistik ist die Entwicklung von Information-Retrieval-Systemen (IPS). Letztere entstanden in den späten 1950er und frühen 1960er Jahren als Reaktion auf eine starke Zunahme des Umfangs wissenschaftlicher und technischer Informationen. Durch die Art der gespeicherten und verarbeiteten Informationen sowie durch die Suchfunktionen werden IPS in zwei große Gruppen unterteilt - dokumentarische und sachliche. Dokumenteninformationssysteme speichern die Texte von Dokumenten oder deren Beschreibungen (Abstracts, bibliographische Karten etc.). Faktografische IPS befassen sich mit der Beschreibung spezifischer Fakten, und nicht unbedingt in Textform. Dies können Tabellen, Formeln und andere Arten der Datendarstellung sein. Es gibt auch gemischte IPS, die sowohl Dokumente als auch Sachinformationen enthalten. Gegenwärtig werden faktographische Informationssysteme auf der Grundlage von Datenbank-(DB-)Technologien aufgebaut. Um die Informationsbeschaffung in IPS bereitzustellen, werden spezielle Informationsbeschaffungssprachen erstellt, die auf Informationsbeschaffungsthesauri basieren. Information Retrieval Language ist eine formale Sprache, die dazu bestimmt ist, bestimmte Aspekte des Inhaltsplans von im IPS gespeicherten Dokumenten und der Anfrage zu beschreiben. Das Verfahren zur Beschreibung eines Dokuments in einer Information-Retrieval-Sprache wird Indizierung genannt. Als Ergebnis der Indexierung wird jedem Dokument seine formale Beschreibung in der Information-Retrieval-Sprache zugeordnet – das Suchbild des Dokuments. Ebenso wird die Suchanfrage indexiert, der das Suchbild der Suchanfrage und die Suchvorschrift zugeordnet sind. Infbasieren auf dem Vergleich der Suchvorgabe mit dem Suchbild der Anfrage. Das Kriterium für die Ausstellung eines Dokuments für eine Anfrage kann in einer vollständigen oder teilweisen Übereinstimmung zwischen dem Suchbild des Dokuments und der Suchvorschrift bestehen. Teilweise hat der Nutzer die Möglichkeit, die Vergabekriterien selbst zu formulieren. Dieser wird durch sein Informationsbedürfnis bestimmt. Beschreibende Informationsabrufsprachen werden häufiger in automatisierten Informationssystemen verwendet. Das Thema des Dokuments wird durch eine Reihe von Deskriptoren beschrieben. Als Deskriptoren fungieren Wörter und Begriffe, die einfache, ziemlich elementare Kategorien und Konzepte des Problembereichs bezeichnen. In das Suchbild des Dokuments werden so viele Deskriptoren eingetragen wie verschiedene Themen von dem Dokument betroffen. Die Anzahl der Deskriptoren ist nicht begrenzt, was es ermöglicht, das Dokument in einer mehrdimensionalen Merkmalsmatrix zu beschreiben. Häufig werden in einer Deskriptor-Informationsabrufsprache Beschränkungen der Kombinierbarkeit von Deskriptoren auferlegt. In diesem Fall können wir sagen, dass die Information-Retrieval-Sprache eine Syntax hat.

Eines der ersten Systeme, das mit einer Deskriptorsprache arbeitete, war Amerikanisches System UNITERM erstellt von M. Taube. In diesem System fungierten die Schlüsselwörter des Dokuments, die Uniterms, als Deskriptoren. Die Besonderheit dieses IPS besteht darin, dass zunächst das Wörterbuch der Informationssprache nicht festgelegt wurde, sondern im Prozess der Indizierung des Dokuments und der Abfrage entstand. Die Entwicklung moderner Informationsabrufsysteme ist mit der Entwicklung von IPS vom Nicht-Thesaurus-Typ verbunden. Solche IPS arbeiten mit dem Benutzer in einer begrenzten natürlichen Sprache, und die Suche wird in den Texten von Zusammenfassungen von Dokumenten, in ihren bibliografischen Beschreibungen und oft in den Dokumenten selbst durchgeführt. Für die Indizierung im Nicht-Thesaurustyp IPS werden Wörter und Phrasen der natürlichen Sprache verwendet.

Bis zu einem gewissen Grad kann das Gebiet der Computerlinguistik Arbeiten auf dem Gebiet der Erstellung von Hypertextsystemen umfassen, die als besondere Art der Textorganisation und sogar als grundlegend angesehen werden die neue art Text, der in vielen seiner Eigenschaften dem üblichen Text entgegensteht, der in der Gutenberg-Tradition der Typografie gebildet wird. Die Idee des Hypertexts ist mit dem Namen von Vannevar Bush, dem Wissenschaftsberater von Präsident F. Roosevelt, verbunden. W. Bush begründete theoretisch das Projekt des technischen Systems "Memex", das es dem Benutzer ermöglichte, Texte und ihre Fragmente durch verschiedene Arten von Verknüpfungen, hauptsächlich durch assoziative Relationen, zu verknüpfen. Abwesenheit Computertechnologie erschwerte die Umsetzung des Projekts, da sich die Mechanik als zu komplex für die praktische Umsetzung erwies.

Eine zweite Geburt erhielt Bushs Idee in den 1960er Jahren im "Xanadu"-System von T. Nelson, das bereits den Einsatz von Computertechnologie voraussetzte. "Xanadu" ermöglichte es dem Benutzer, die Gesamtheit der in das System eingegebenen Texte zu lesen verschiedene Wege, in verschiedenen Sequenzen, ermöglichte es die Software, die Reihenfolge der betrachteten Texte sowohl zu speichern als auch zu einem beliebigen Zeitpunkt fast beliebig auszuwählen. Eine Menge von Texten mit sie verbindenden Beziehungen (ein System von Übergängen) wurde von T. Nelson als Hypertext bezeichnet. Viele Forscher betrachten die Schaffung von Hypertext als den Beginn eines neuen Informationszeitalters, das dem Zeitalter des Druckens entgegengesetzt ist. Die Linearität der Schrift, die nach außen hin die Linearität der Sprache widerspiegelt, erweist sich als grundlegende Kategorie, die das menschliche Denken und Textverständnis einschränkt. Die Bedeutungswelt ist nichtlinear, daher erfordert die Komprimierung semantischer Informationen in einem linearen Sprachsegment die Verwendung spezieller "kommunikativer Pakete" - Aufteilung in Thema und Rheum, Aufteilung des Äußerungsinhaltsplans in explizite (Aussage, Aussage, Fokus) und implizite (Voraussetzung, Konsequenz, Implikatur des Diskurses) Schichten . Die Ablehnung der Linearität des Textes sowohl im Prozess seiner Präsentation für den Leser (d. h. beim Lesen und Verstehen) als auch im Prozess der Synthese würde laut Theoretikern zur „Befreiung“ des Denkens und sogar zur Entstehung von beitragen seine neuen Formen.

In einem Computersystem wird Hypertext als Graph dargestellt, dessen Knoten herkömmliche Texte oder deren Fragmente, Bilder, Tabellen, Videos usw. enthalten. Die Knoten sind durch verschiedene Beziehungen verbunden, deren Typen von den Entwicklern der Hypertext-Software oder vom Leser selbst festgelegt werden. Relationen definieren die potentiellen Möglichkeiten der Bewegung oder Navigation durch den Hypertext. Beziehungen können unidirektional oder bidirektional sein. Dementsprechend ermöglichen bidirektionale Pfeile dem Benutzer, sich in beide Richtungen zu bewegen, während unidirektionale Pfeile es dem Benutzer ermöglichen, sich nur in eine Richtung zu bewegen. Die Kette von Knoten, die der Leser durchläuft, während er die Bestandteile des Textes betrachtet, bildet einen Pfad oder eine Route.

Computerimplementierungen von Hypertext sind hierarchisch oder netzwerkartig. Die hierarchische – baumartige – Struktur des Hypertextes schränkt die Möglichkeiten des Übergangs zwischen seinen Bestandteilen erheblich ein. In einem solchen Hypertext ähneln die Beziehungen zwischen Komponenten der Struktur eines Thesaurus, der auf Gattungs-Art-Beziehungen basiert. Netzwerk-Hypertext ermöglicht die Verwendung verschiedener Arten von Beziehungen zwischen Komponenten, die nicht auf Gattungs-Art-Beziehungen beschränkt sind. Je nach Existenzweise von Hypertext werden statische und dynamische Hypertexte unterschieden. Der statische Hypertext ändert sich während des Betriebs nicht; Darin kann der Benutzer seine Kommentare aufzeichnen, aber sie ändern nichts an der Sache. Für dynamischen Hypertext ist Veränderung eine normale Existenzform. Typischerweise funktionieren dynamische Hypertexte dort, wo es notwendig ist, den Informationsfluss ständig zu analysieren, d.h. in Informationsdiensten verschiedener Art. Hypertext ist beispielsweise das Arizona Information System (AAIS), das monatlich mit 300–500 Abstracts pro Monat aktualisiert wird.

Beziehungen zwischen Hypertext-Elementen können anfänglich von den Erstellern festgelegt werden, oder sie können immer dann erzeugt werden, wenn der Benutzer auf den Hypertext zugreift. Im ersten Fall handelt es sich um Hypertexte mit starrer Struktur und im zweiten Fall um Hypertexte mit weicher Struktur. Der starre Aufbau ist technologisch ganz klar. Die Technologie zum Organisieren einer weichen Struktur sollte auf einer semantischen Analyse der Nähe von Dokumenten (oder anderen Informationsquellen) zueinander basieren. Dies ist eine nicht triviale Aufgabe der Computerlinguistik. Derzeit ist die Verwendung von Soft-Structure-Technologien für Keywords weit verbreitet. Der Übergang von einem Knoten zum anderen im Hypertext-Netzwerk erfolgt als Ergebnis der Suche nach Schlüsselwörtern. Da der Satz von Schlüsselwörtern jedes Mal anders sein kann, ändert sich auch die Struktur des Hypertexts jedes Mal.

Die Technologie zum Aufbau von Hypertext-Systemen unterscheidet nicht zwischen Text- und Nicht-Text-Informationen. Inzwischen ist die Einbeziehung von Bild- und Toninformationen (Videos, Gemälde, Fotografien, Tonaufnahmen etc.) erforderlich signifikante Veränderung Benutzeroberfläche und leistungsfähigere Software und Computerunterstützung. Solche Systeme werden als Hypermedia oder Multimedia bezeichnet. Die Sichtbarkeit von Multimediasystemen bestimmte ihre weit verbreitete Verwendung in der Bildung, bei der Erstellung von Computerversionen von Enzyklopädien. Es gibt zum Beispiel wunderschön gestaltete CD-Roms mit Multimediasystemen für Kinderenzyklopädien, herausgegeben von Dorlin Kindersley.

Im Rahmen der Computerlexikographie werden Computertechnologien für die Erstellung und den Betrieb von Wörterbüchern entwickelt. Spezielle Programme - Datenbanken, Computeraktenschränke, Textverarbeitungsprogramme - ermöglichen es Ihnen, Wörterbucheinträge automatisch zu erstellen, Wörterbuchinformationen zu speichern und zu verarbeiten. Viele verschiedene lexikografische Computerprogramme werden in zwei große Gruppen unterteilt: Programme zur Unterstützung lexikografischer Werke und automatische Wörterbücher verschiedener Art, einschließlich lexikografischer Datenbanken. Ein automatisches Wörterbuch ist ein Wörterbuch in einem speziellen Maschinenformat, das zur Verwendung auf einem Computer durch einen Benutzer oder ein Computer-Textverarbeitungsprogramm entwickelt wurde. Mit anderen Worten, es gibt einen Unterschied zwischen automatischen menschlichen Endbenutzer-Wörterbüchern und automatischen Wörterbüchern für Textverarbeitungsprogramme. Automatische Wörterbücher, die für den Endbenutzer bestimmt sind, unterscheiden sich hinsichtlich der Benutzeroberfläche und der Struktur eines Wörterbucheintrags erheblich von automatischen Wörterbüchern, die in maschinellen Übersetzungssystemen, automatischen Referenzierungssystemen, Informationsabrufsystemen usw. enthalten sind. Meistens handelt es sich um Computerversionen bekannter konventioneller Wörterbücher. Es gibt Computeranaloga von erklärenden Wörterbüchern der englischen Sprache auf dem Softwaremarkt (automatischer Webster, automatisches erklärendes englisches Wörterbuch des Collins-Verlags, automatische Version des New Large Wörterbuch Englisch-Russisch ed. Yu.D. Apresyan und E.M. Mednikova), gibt es auch Computerversion Ozhegovs Wörterbuch. Automatische Wörterbücher für Textverarbeitungsprogramme können im genauen Sinne als automatische Wörterbücher bezeichnet werden. Sie sind im Allgemeinen nicht für den durchschnittlichen Benutzer bestimmt. Die Merkmale ihrer Struktur, der Umfang des Vokabularmaterials werden von den Programmen festgelegt, die mit ihnen interagieren.

Computermodellierung der Plotstruktur ist eine andere vielversprechende Richtung Computerlinguistik. Die Untersuchung der Struktur der Handlung bezieht sich auf die Probleme der strukturellen Literaturkritik (im weiteren Sinne), der Semiotik und der Kulturwissenschaften. Die verfügbaren Computerprogramme zur Plot-Modellierung basieren auf drei grundlegenden Plot-Präsentationsformalismen – morphologische und syntaktische Richtungen für die Plot-Präsentation sowie auf einem kognitiven Ansatz. Ideen über die morphologische Struktur der Handlungsstruktur gehen auf die berühmten Werke von V. Ya. Propp ( cm.) über ein russisches Märchen. Propp bemerkte, dass bei der Fülle von Charakteren und Ereignissen in einem Märchen die Anzahl der Charakterfunktionen begrenzt ist, und er schlug einen Apparat zur Beschreibung dieser Funktionen vor. Propps Ideen bildeten die Grundlage für das Computerprogramm TALE, das die Generierung einer Märchenhandlung simuliert. Der Algorithmus des TALE-Programms basiert auf dem Funktionsablauf der Märchenfiguren. Tatsächlich stellen die Propp-Funktionen eine Reihe typisierter Situationen dar, die auf der Grundlage der Analyse von empirischem Material geordnet sind. Kopplungsfähigkeiten verschiedene Situationen in den Zeugungsregeln wurden durch eine typische Funktionsfolge bestimmt - in der Form, wie sie aus Märchentexten ermittelt werden kann. Im Programm wurden typische Funktionsabläufe als typische Szenarien für Begegnungscharaktere beschrieben.

Die theoretische Grundlage der syntaktischen Herangehensweise an die Handlung des Textes waren „Handlungsgrammatiken“ oder „Erzählgrammatiken“ (Geschichtengrammatiken). Sie entstanden Mitte der 1970er Jahre als Ergebnis der Übertragung der Ideen von N. Chomskys generativer Grammatik auf die Beschreibung der Makrostruktur des Textes. Wenn die wichtigsten Komponenten der syntaktischen Struktur in der generativen Grammatik verbale und nominale Gruppen waren, dann wurden in den meisten Plotgrammatiken Exposition (Setting), Ereignis und Episode als grundlegende herausgegriffen. In der Theorie der Plotgrammatiken wurden Minimalitätsbedingungen, also Restriktionen, die den Status einer Folge von Plotelementen als Normalplot festlegten, vielfach diskutiert. Es stellte sich jedoch heraus, dass rein Sprachliche Methoden es ist unmöglich, dies zu tun. Viele Einschränkungen sind soziokultureller Natur. Plot-Grammatiken, die sich in der Menge der Kategorien im Generationsbaum erheblich unterschieden, erlaubten einen sehr begrenzten Satz von Regeln zum Modifizieren der narrativen (narrativen) Struktur.

In den frühen 1980er Jahren schlug einer von R. Schenks Studenten, V. Lenert, im Rahmen der Arbeit an der Erstellung eines Computerplotgenerators einen originellen Formalismus emotionaler Ploteinheiten (Affective Plot Units) vor, der sich als mächtiges Werkzeug herausstellte zur Darstellung der Plotstruktur. Ursprünglich für ein System der künstlichen Intelligenz entwickelt, wurde dieser Formalismus in rein theoretischen Studien verwendet. Die Essenz von Lehnerts Ansatz war, dass die Handlung als sukzessive Veränderung der kognitiv-emotionalen Zustände der Charaktere beschrieben wurde. Der Fokus von Lehnerts Formalismus liegt also nicht auf den äußeren Komponenten der Handlung – Exposition, Ereignis, Episode, Moral – sondern auf ihren inhaltlichen Merkmalen. Insofern ist Lehnerts Formalismus teilweise eine Rückbesinnung auf Propps Ideen.

Zur Computerlinguistik gehört auch die maschinelle Übersetzung, die derzeit eine Wiedergeburt erlebt.

Literatur:

Popov E.V. Kommunikation mit Computern in natürlicher Sprache. M., 1982
Sadur V. G. Sprachkommunikation mit elektronischen Rechnern und Problemen ihrer Entwicklung. - Im Buch: Sprachkommunikation: Probleme und Perspektiven. M., 1983
Baranow A. N. Kategorien künstlicher Intelligenz in der linguistischen Semantik. Frames und Skripte. M., 1987
Kobozeva I. M., Laufer N. I., Saburova I. G. Modellierung der Kommunikation in Mensch-Maschine-Systemen. – Sprachliche Unterstützung Informationssysteme. M., 1987
Olker H.R. Märchen, Tragödien und Darstellungsformen der Weltgeschichte. - Im Buch: Sprache und Modellierung soziale Interaktion. M., 1987
Gorodetsky B.Ju. Computerlinguistik: Modellierung der Sprachkommunikation
McQueen K. Diskursive Strategien für die Textsynthese in natürlicher Sprache. – Neu in der Fremdsprachenwissenschaft. Ausgabe. XXIV, Computerlinguistik. M., 1989
Popov E. V., Preobraschenski A. B. . Merkmale der Implementierung von NL-Systemen
Preobraschenski A.B. Der Entwicklungsstand moderner NL-Systeme. - Künstliche Intelligenz. Buch. 1, Kommunikationssysteme und Expertensysteme. M., 1990
Subbotin M.M. Hypertext. Neue Form schriftliche Kommunikation. — VINITI, Ser. Informatik, 1994, V. 18
Baranow A. N. Einführung in die Angewandte Linguistik. M., 2000



Der Begriff "Computerlinguistik" bezieht sich üblicherweise auf ein weites Gebiet der Verwendung von Computerwerkzeugen - Programme, Computertechnologien zum Organisieren und Verarbeiten von Daten - zur Modellierung der Funktionsweise einer Sprache unter bestimmten Bedingungen, Situationen, Problembereichen sowie dem Umfang von Computersprachmodellen nur in der Linguistik, aber auch in verwandten Disziplinen. Eigentlich sprechen wir nur im letzteren Fall von angewandter Linguistik im engeren Sinne, da Computersprachmodellierung auch als Anwendungsgebiet der Programmiertheorie (Informatik) im Bereich der Linguistik betrachtet werden kann. Dennoch ist die allgemeine Praxis so, dass das Gebiet der Computerlinguistik fast alles abdeckt, was mit dem Einsatz von Computern in der Linguistik zu tun hat: „Der Begriff „Computerlinguistik“ legt eine allgemeine Ausrichtung auf den Einsatz von Computern zur Lösung einer Vielzahl wissenschaftlicher und praktischer Probleme fest in Bezug auf die Sprache, ohne die Möglichkeiten zur Lösung dieser Probleme in irgendeiner Weise einzuschränken.

Institutioneller Aspekt der Computerlinguistik. Als besondere wissenschaftliche Richtung nahm die Computerlinguistik in den 60er Jahren Gestalt an. Die Publikationsflut in diesem Bereich ist sehr hoch. Neben thematischen Sammelbänden erscheint in den USA vierteljährlich die Zeitschrift Computational Linguistics. Eine große organisatorische und wissenschaftliche Arbeit wird von der Association for Computer Linguistics geleistet, die weltweit regionale Strukturen hat (insbesondere den europäischen Zweig). Alle zwei Jahre gibt es internationale Konferenzen zur Computerlinguistik - KOLING. Relevante Fragestellungen sind auch auf internationalen Konferenzen zur künstlichen Intelligenz auf verschiedenen Ebenen breit vertreten.

Kognitiver Werkzeugkasten der Computerlinguistik

Die Computerlinguistik als spezielle angewandte Disziplin zeichnet sich vor allem durch ihr Werkzeug aus, also durch den Einsatz von Computerwerkzeugen zur Verarbeitung von Sprachdaten. Da Computerprogramme, die bestimmte Aspekte der Funktionsweise einer Sprache modellieren, eine Vielzahl von Programmierwerkzeugen verwenden können, scheint es nicht notwendig, über eine gemeinsame Metasprache zu sprechen. Dies ist jedoch nicht der Fall. Es gibt allgemeine Prinzipien der Computermodellierung des Denkens, die irgendwie in jedem Computermodell implementiert sind. Diese Sprache basiert auf der Wissenstheorie, die in der künstlichen Intelligenz entwickelt wurde und einen wichtigen Zweig der Kognitionswissenschaft bildet.

Die Hauptthese der Erkenntnistheorie besagt, dass Denken ein Prozess der Verarbeitung und Generierung von Wissen ist. "Wissen" oder "Wissen" wird als undefinierte Kategorie betrachtet. Das menschliche kognitive System fungiert als „Prozessor“, der Wissen verarbeitet. In der Erkenntnis- und Kognitionswissenschaft werden zwei Haupttypen von Wissen unterschieden – deklarativ („wissen was“) und prozedural („wissen wie“2)). Deklaratives Wissen wird normalerweise als eine Reihe von Aussagen, Aussagen über etwas präsentiert. Ein typisches Beispiel für deklaratives Wissen ist die Interpretation von Wörtern in gewöhnlichen erklärenden Wörterbüchern. Zum Beispiel eine Tasse] - "ein kleines abgerundetes Trinkgefäß, normalerweise mit einem Henkel, aus Porzellan, Fayence usw.". Deklaratives Wissen bietet sich für das Verifikationsverfahren im Sinne von „true-false“ an. Prozedurales Wissen wird als Abfolge (Liste) von Operationen, auszuführenden Aktionen dargestellt. Dies ist eine allgemeine Anleitung zum Handeln in einer bestimmten Situation. Ein typisches Beispiel für prozedurales Wissen sind Gebrauchsanweisungen für Haushaltsgeräte.

Anders als deklaratives Wissen kann prozedurales Wissen nicht als wahr oder falsch verifiziert werden. Sie können nur anhand des Erfolgs oder Misserfolgs des Algorithmus bewertet werden.

Die meisten Konzepte des kognitiven Werkzeugkastens der Computerlinguistik sind homonym: Sie bezeichnen gleichzeitig einige reale Entitäten des menschlichen kognitiven Systems und Möglichkeiten, diese Entitäten in einigen Metasprachen darzustellen. Mit anderen Worten, die Elemente der Metasprache haben einen ontologischen und instrumentellen Aspekt. Die Trennung von deklarativem und prozeduralem Wissen entspricht ontologisch unterschiedlichen Wissenstypen des menschlichen kognitiven Systems. Das Wissen über bestimmte Objekte, Objekte der Realität, ist also hauptsächlich deklarativ, und die funktionellen Fähigkeiten einer Person, zu gehen, zu laufen, Auto zu fahren, werden im kognitiven System als prozedurales Wissen realisiert. Instrumental kann Wissen (sowohl ontologisch prozedural als auch deklarativ) als eine Menge von Beschreibungen, Beschreibungen und als Algorithmus, eine Anweisung, dargestellt werden. Mit anderen Worten, ontologisch deklaratives Wissen über das Realitätsobjekt „Tisch“ kann prozedural als eine Menge von Anweisungen, Algorithmen zu seiner Erstellung, Zusammenstellung (= schöpferischer Aspekt von prozeduralem Wissen) oder als Algorithmus für seine typische Verwendung (= funktionaler Aspekt Verfahrenswissen). Im ersten Fall kann dies eine Anleitung für einen Schreineranfänger sein, im zweiten eine Beschreibung der Möglichkeiten eines Büroschreibtisches. Auch die Umkehrung gilt: ontologisches prozedurales Wissen lässt sich deklarativ darstellen.

Es bedarf einer gesonderten Diskussion, ob jedes ontologisch deklarative Wissen als prozedural und jedes ontologisch prozedural als deklarativ dargestellt werden kann. Forscher sind sich einig, dass prinzipiell jedes deklarative Wissen prozedural dargestellt werden kann, was sich jedoch für ein kognitives System als sehr unökonomisch erweisen kann. Umgekehrt gilt das kaum. Tatsache ist, dass deklaratives Wissen viel expliziter ist, es ist für eine Person leichter zu verstehen als prozedurales Wissen. Im Gegensatz zum deklarativen Wissen ist prozedurales Wissen überwiegend implizit. Die Sprachfähigkeit als prozedurales Wissen ist also einer Person verborgen, wird von ihr nicht realisiert. Der Versuch, die Mechanismen der Sprachfunktion zu erklären, führt zu Funktionsstörungen. Fachleute auf dem Gebiet der lexikalischen Semantik wissen beispielsweise, dass die für das Studium des Wortinhaltsplans notwendige langfristige semantische Selbstbeobachtung dazu führt, dass der Forscher teilweise die Fähigkeit verliert, zwischen richtig und richtig zu unterscheiden missbraucht analysiertes Wort. Weitere Beispiele lassen sich anführen. Es ist bekannt, dass der menschliche Körper aus Sicht der Mechanik ist Komplexes System zwei wechselwirkende Pendel.

In der Wissenstheorie wird Wissen untersucht und dargestellt verschiedene Strukturen Wissen - Rahmen, Szenarien, Pläne. Laut M. Minsky ist „ein Rahmen eine Datenstruktur, die dazu bestimmt ist, eine stereotype Situation darzustellen“ [Minsky 1978, S.254]. Genauer gesagt können wir sagen, dass der Rahmen eine konzeptionelle Struktur für die deklarative Repräsentation von Wissen über eine typisierte thematisch einheitliche Situation ist, die Slots enthält, die durch bestimmte semantische Beziehungen miteinander verbunden sind. Zur Veranschaulichung wird ein Rahmen oft als Tisch dargestellt, dessen Reihen Schlitze bilden. Jeder Slot hat seinen eigenen Namen und Inhalt (siehe Tabelle 1).

Tabelle 1

Fragment des Rahmens "Tabelle" in einer Tabellenansicht

Abhängig von bestimmte Aufgabe die Rahmenstrukturierung kann wesentlich komplexer sein; Ein Frame kann verschachtelte Subframes und Verweise auf andere Frames enthalten.

Anstelle einer Tabelle wird häufig eine Prädikatsdarstellung verwendet. In diesem Fall hat der Rahmen die Form eines Prädikats oder einer Funktion mit Argumenten. Es gibt andere Möglichkeiten, einen Rahmen darzustellen. Beispielsweise kann es als Tupel dargestellt werden folgende Art: ( (frame name) (slot name)) (slot value,),..., (slot name n) (slot value n) ).

Typischerweise haben Frames in Wissensrepräsentationssprachen diese Form.

Wie andere kognitive Kategorien der Computerlinguistik ist das Konzept eines Rahmens gleichnamig. Ontologisch gesehen ist es ein Teil des menschlichen kognitiven Systems, und in diesem Sinne kann der Rahmen mit Konzepten wie Gestalt, Prototyp, Stereotyp, Schema verglichen werden. In der Kognitionspsychologie werden diese Kategorien genau aus ontologischer Sicht betrachtet. D. Norman unterscheidet also zwei Hauptarten der Existenz und Organisation von Wissen im menschlichen kognitiven System - semantische Netzwerke und Schemata. „Schemata“, schreibt er, „sind organisierte Wissenspakete, die zusammengesetzt sind, um verschiedene, in sich geschlossene Wissenseinheiten darzustellen. Mein Schema für Sam kann Informationen enthalten, die seine körperlichen Merkmale, seine Aktivitäten und Persönlichkeitsmerkmale beschreiben. Dieses Schema korreliert mit anderen Schemata die seine anderen Aspekte beschreiben“ [Norman 1998, S. 359]. Nehmen wir die instrumentelle Seite der Frame-Kategorie, dann handelt es sich um eine Struktur zur deklarativen Repräsentation von Wissen. In bestehenden KI-Systemen können sich Frames bilden komplexe Strukturen Wissen; Rahmensysteme ermöglichen eine Hierarchie – ein Rahmen kann Teil eines anderen Rahmens sein.

Inhaltlich ist der Begriff des Frames der Kategorie der Interpretation sehr nahe. In der Tat ist ein Slot ein Analogon der Valenz, das Füllen eines Slots ist ein Analogon eines Aktanten. Der Hauptunterschied zwischen ihnen besteht darin, dass die Interpretation nur sprachlich relevante Informationen über den Inhalt des Wortes enthält und der Rahmen erstens nicht unbedingt an das Wort gebunden ist und zweitens alle für ein bestimmtes Problem relevanten Informationen enthält Situation, einschließlich einschließlich außersprachlicher (Wissen der Welt) 3).

Ein Szenario ist ein konzeptioneller Rahmen für die prozedurale Repräsentation von Wissen über eine stereotype Situation oder ein Verhalten. Skriptelemente sind die Schritte eines Algorithmus oder einer Anweisung. Die Leute sprechen normalerweise von „Restaurantszenario“, „Kaufszenario“ und so weiter.

Der Rahmen wurde ursprünglich auch für die prozedurale Darstellung verwendet (vgl. den Begriff "prozeduraler Rahmen"), aber der Begriff "Szenario" wird heute häufiger in diesem Sinne verwendet. Ein Szenario kann nicht nur als Algorithmus, sondern auch als Netzwerk dargestellt werden, dessen Knoten bestimmten Situationen und die Bögen Verbindungen zwischen Situationen entsprechen. Neben dem Konzept eines Skripts verwenden einige Forscher die Kategorie eines Skripts für die Computermodellierung von Intelligenz. Laut R. Schenk ist ein Drehbuch eine allgemein akzeptierte, wohlbekannte Sequenz Verursachung. Zum Beispiel den Dialog verstehen

Auf der Straße schüttet es wie aus Eimern.

Sie müssen noch in den Laden gehen: Im Haus ist nichts - gestern haben die Gäste alles gekehrt.

basiert auf nicht expliziten semantischen Zusammenhängen wie "Wenn es regnet, ist es unerwünscht, nach draußen zu gehen, weil man krank werden kann." Diese Verbindungen bilden ein Skript, das von Muttersprachlern verwendet wird, um das verbale und nonverbale Verhalten des anderen zu verstehen.

Als Ergebnis der Anwendung des Szenarios auf eine spezifische Problemsituation a planen). Ein Plan wird verwendet, um Wissen über mögliche Aktionen, die zu einem bestimmten Ziel führen, prozedural darzustellen. Ein Plan bezieht ein Ziel auf eine Abfolge von Aktionen.

Im allgemeinen Fall beinhaltet der Plan eine Abfolge von Verfahren, die den Ausgangszustand des Systems in den Endzustand überführen und zur Erreichung eines bestimmten Teilziels und Ziels führen. Bei KI-Systemen entsteht der Plan als Ergebnis der Planung bzw. Planungstätigkeit des entsprechenden Moduls – des Planungsmoduls. Der Planungsprozess kann auf der Anpassung von Daten aus einem oder mehreren Szenarien basieren, die durch Testverfahren aktiviert werden, um eine Problemsituation zu lösen. Die Ausführung des Plans wird von einem Ausführungsmodul durchgeführt, das kognitive Verfahren steuert und körperliche Aktionen Systeme. Im elementaren Fall ist ein Plan in einem intelligenten System eine einfache Abfolge von Operationen; In komplexeren Versionen ist der Plan mit einem bestimmten Thema, seinen Ressourcen, Fähigkeiten, Zielen, genaue Informationüber eine problematische Situation usw. Die Entstehung des Plans erfolgt im Kommunikationsprozess zwischen dem Weltmodell, dessen Teil Szenarien bilden, dem Planungsmodul und dem Ausführungsmodul.

Anders als das Drehbuch ist der Plan mit einer bestimmten Situation, einem bestimmten Darsteller verbunden und verfolgt ein bestimmtes Ziel. Die Wahl des Plans richtet sich nach den Ressourcen des Auftragnehmers. Die Machbarkeit eines Plans ist eine obligatorische Bedingung für seine Generierung in einem kognitiven System, und die Machbarkeitseigenschaft ist nicht auf ein Szenario anwendbar.

Andere wichtiges Konzept- Modell der Welt. Unter einem Weltmodell versteht man üblicherweise eine Menge von Wissen über die Welt, die in einer bestimmten Weise organisiert ist und einem kognitiven System oder seinem Computermodell innewohnt. In einem etwas allgemeineren Sinne wird vom Weltmodell gesprochen als Teil eines kognitiven Systems, das Wissen über die Struktur der Welt, ihre Muster usw. speichert. In einem anderen Sinne wird das Weltmodell mit den Ergebnissen in Verbindung gebracht des Verstehens des Textes oder, weiter gefasst, des Diskurses. Im Prozess des Verstehens des Diskurses wird sein mentales Modell aufgebaut, das das Ergebnis der Interaktion zwischen dem Inhaltsplan des Textes und dem diesem Subjekt innewohnenden Wissen über die Welt ist [Johnson-Laird 1988, S. 237 ff.]. Folge]. Das erste und zweite Verständnis werden oft kombiniert. Dies ist typisch für Sprachforscher, die in der kognitiven Linguistik und Kognitionswissenschaft arbeiten.

Eng verwandt mit der Kategorie des Rahmens ist der Begriff der Szene. Die Szenenkategorie wird in der Literatur hauptsächlich als Bezeichnung einer Begriffsstruktur zur deklarativen Repräsentation von Situationen und deren in einem Sprechakt aktualisierten und mit sprachlichen Mitteln (Lexemen, syntaktischen Konstruktionen, grammatikalischen Kategorien etc.) hervorgehobenen Teilen verwendet. Da sie mit sprachlichen Formen verbunden ist, wird die Szene oft aktualisiert bestimmtes Wort oder Ausdruck. In Handlungsgrammatiken (siehe unten) erscheint eine Szene als Teil einer Episode oder Erzählung. Typische Beispiele Szenen - eine Reihe von Würfeln, mit denen das KI-System arbeitet, die Szene in der Geschichte und die Teilnehmer an der Aktion usw. In der künstlichen Intelligenz werden Szenen in Bilderkennungssystemen sowie in forschungsorientierten Programmen (Analyse, Beschreibung) verwendet Problemsituationen. Weit verbreitet ist der Begriff der Szene in der theoretischen Linguistik, aber auch in der Logik, insbesondere in der Situationssemantik, in der die Bedeutung einer lexikalischen Einheit direkt mit der Szene verbunden ist.