Исследовательский проект: "Математическая лингвистика". Перспективы применения математических методов в лингвистике

Введение

Глава 1. История применения математических методов в лингвистике

1.1. Становление структурной лингвистики на рубеже XIX – ХХ веков

1.2. Применение математических методов в лингвистике во второй половине ХХ века

Глава 2. Отдельные примеры использования математики в лингвистике

2.1. Машинный перевод

2.2.Статистические методы в изучении языка

2.3. Изучение языка методами формальной логики

2.4. Перспективы применения математических методов в лингвистике

Заключение

Литература

Приложение 1. Ronald Schleifer. Ferdinand de Saussure

Приложение 2. Фердинанд де Соссюр (перевод)

Введение

В ХХ веке наметилась продолжающаяся и поныне тенденция к взаимодействию и взаимопроникновению различных областей знаний. Постепенно стираются грани между отдельными науками; появляется всё больше отраслей умственной деятельности, находящихся «на стыке» гуманитарного, технического и естественнонаучного знания.

Другая очевидная особенность современности – стремление к изучению структур и составляющих их элементов. Поэтому всё большее место как в научной теории, так и на практике уделяется математике. Соприкасаясь, с одной стороны, с логикой и философией, с другой стороны, со статистикой (а, следовательно, и с общественными науками), математика всё глубже проникает в те сферы, которые на протяжении долгого времени было принято считать чисто «гуманитарными», расширяя их эвристический потенциал (ответ на вопрос «сколько» часто помоагет ответить и на вопросы «что» и «как). Исключением не стало и языкознание.

Цель моей курсовой работы – кратко осветить связь математики с такой отраслью языкознания, как лингвистика. Начиная с 50-х годов прошлого века, математика применяется в лингвистике при создании теоретического аппарата для описания строения языков (как естественных, так и искусственных). Однако следует сказать, что она не сразу нашла себе подобное практическое применение. Первоначально математические методы в лингвистике стали использоваться для того, чтобы уточнить основные понятия языкознания, однако с развитием компьютерной техники подобная теоретическая посылка стала находить применение на практике. Разрешение таких задач, как машинный перевод, машинный поиск информации, автоматическая обработка текста требовало принципиально нового подхода к языку. Перед лингвистами назрел вопрос: как научиться представлять языковые закономерности в том виде, в котором их можно подавать непосредственно на технику. Популярным в наше время термином «математическая лингвистика» называют любые лингвистические исследования, в которых применяются точные методы (а понятие точных методов в науке всегда тесно связано с математикой). Некоторые учёные прошлых лет, считают, что само выражение нельзя возводить в ранг термина, так как оно обозначает не какую-то особую «лингвистику», а лишь новое направление, ориентированное на усовершенствование, повышение точности и надёжности методов исследования языка. В лингвистике используются как количественные (алгебраические), так и неколичественные методы, что сближает её с математической логикой, а, следовательно, и с философией, и даже с психологией. Ещё Шлегель отмечал взаимодействие языка и сознания, а видный лингвист начала ХХ века Фердинанд де Соссюр (о его влиянии на становление математических методов в лингвистике расскажу позже) связывал структуру языка с его принадлежностью к народу. Современный исследователь Л. Перловский идёт дальше, отождествляя количественные характеристики языка (например, число родов, падежей) с особенностями национального менталитета (об этом в разделе 2.2, «Статистические методы в лингвистике»).

Взаимодействие математики и языкознания – тема многогранная, и в своей работе я остановлюсь не на всех, а, в первую очередь, на её прикладных аспектах.

Глава I. История применения математических методов в лингвистике

1.1 Становление структурной лингвистики на рубеже XIX – ХХ веков

Математическое описание языка основано на представлении о языке как о механизме, восходящем к известному швейцарскому лингвисту начала ХХ века Фердинанду де Соссюру.

Начальное звено его концепции – теория языка как системы, cостоящей из трёх частей (собственно язык – langue , речь – parole , и речевую деятельность – langage ), в которой каждое слово (член системы) рассматривается не само по себе, а в связи с другими членами. Как впоследствии отметил другой видный лингвист, датчанин Луи Ельмслев, Соссюр «первый требовал структурного подхода к языку, то есть научного описания языка путём регистрации соотношений между единицами» .

Понимая язык как иерархическую структуру, Соссюр первым поставил проблему ценности, значимости языковых единиц. Отдельные явления и события (скажем, история происхождения отдельных индоевропейских слов) должны изучаться не сами по себе, а в системе, в которой они соотнесены с подобными же составляющими.

Структурной единицей языка Соссюр считал слово, «знак», в котором соединялись звучание и смысл. Ни один из этих элементов не существует друг без друга: поэтому носителю языка понятны различные оттенки значения многозначного слова как отдельного элемента в структурном целом, в языке.

Таким образом, в теории Ф. де Соссюра можно увидеть взаимодействие лингвистики, с одной стороны, с социологией и социальной психологией (следует отметить, что в это же время развиваются феноменология Гуссерля, психоанализ Фрейда, теория относительности Эйнштейна, происходят эксперименты над формой и содержанием в литературе, музыке и изобразительном искусстве), с другой стороны – с математикой (понятие системности соответствует алгебраической концепции языка). Подобная концепция изменила понятие языковой интерпретации как таковой: Явления стали трактоваться не относительно причин их возникновения, а относительно настоящего и будущего. Толкование перестало быть независимым от намерений человека (несмотря на то, что намерения могут быть безличными, «бессознательными» во фрейдистском понимании этого слова).

Функционирование же языкового механизма проявляется через речевую деятельность носителей языка. Результатом речи являются так называемые «правильные тексты» – последовательности речевых единиц, подчиняющиеся определённым закономерностям, многие из которых допускают математическое описание. Изучением способов математического описания правильных текстов (в первую очередь, предложений) занимается теория способов описания синтаксической структуры. В подобной структуре языковые аналогии определены не с помощью изначально присущих им качеств, а с помощью системных («структурных») отношений.

На Западе соссюровские идеи развивают младшие современники великого швейцарского лингвиста: в Дании – уже упомянутый мною Л. Ельмслев, давший начало алгебраической теории языка в своём труде «Основы лингвистической теории», в США – Э. Сепир, Л. Блумфилд, Ц. Харрис, в Чехии – русский учёный-эмигрант Н. Трубецкой.

Статистическими же закономерностями в изучении языка стал заниматься не кто иной, как основоположник генетики Георг Мендель. Только в 1968 году филологи обнаружили, что, оказывается, в последние годы жизни он был увлечен изучением лингвистических явлений с помощью методов математики. Этот метод Мендель привнёс в лингвистику из биологии; в девяностые годы девятнадцатого века лишь самые смелые лингвисты и биологи заявляли о целесообразности подобного анализа. В архиве монастыря св. Томаша в г. Брно, аббатом которого был Мендель, были найдены листки со столбцами фамилий, оканчивающимися на «mann», «bauer», «mayer», и с какими-то дробями и вычислениями. Стремясь обнаружить формальные законы происхождения фамильных имен, Мендель производит сложные подсчеты, в которых учитывает количество гласных и согласных в немецком языке, общее число рассматриваемых им слов, количество фамилий и т.д.

В нашей стране структурная лингвистика начала развиваться примерно в то же время, что и на Западе – на рубеже XIX-XX веков. Одновременно с Ф. де Соссюром понятие языка как системы разрабатывали в своих трудах профессора Казанского университета Ф.Ф. Фортунатов и И.А. Бодуэн де Куртенэ. Последний на протяжении долгого времени переписывался с де Соссюром, соответственно, женевская и казанская школы языкознания сотрудничали друг с другом. Если Соссюра можно назвать идеологом «точных» методов в лингвистике, то Бодуэн де Куртенэ заложил практические основы их применения. Он первым отделил лингвистику (как точную науку, использующую статистические методы и функциональную зависимость) от филологии (общности гуманитарных дисциплин, изучающих духовную культуру через язык и речь). Сам учёный считал, что «языкознание может принести пользу в ближайшем будущем, лишь освободившись от обязательного союза с филологией и историей литературы» . «Испытательным полигоном» для внедрения математических методов в лингвистику стала фонология – звуки как «атомы» языковой системы, обладающие ограниченным количеством легко измеримых свойств, были самым удобным материалом для формальных, строгих методов описания. Фонология отрицает наличие смысла у звука, так что в исследованиях устранялся «человеческий» фактор. В этом смысле фонемы подобны физическим или биологическим объектам.

Фонемы, как самые мелкие языковые элементы, приемлемые для восприятия, представляют собой отдельную сферу, отдельную «феноменологическую реальность». Например, в английском языке звук «т» может произноситься по-разному, но во всех случаях человек, владеющий английским, будет воспринимать его как «т». Главное, что фонема будет выполнять свою главную – смыслоразличительную – функцию. Более того – различия между языками таковы, что разновидности одного звука в одном языке могут соответствовать разным фонемам в другом; например «л» и «р» в английском различны, в то время как в других языках это разновидности одной фонемы (подобно английскому «т», произнесённому с придыханием или без). Обширный словарный запас любого естественного языка представляет собой набор сочетаний гораздо меньшего количества фонем. В английском, например, для произнесения и написания около миллиона слов используется всего 40 фонем.

Звуки языка представляют собой системно организованный набор черт. В 1920е –1930е, вслед за Соссюром, Якобсон и Н.С.Трубецкой выделили «отличительные черты» фонем. Эти черты основаны на строении органов речи – языка, зубов, голосовых связок. Скажем, в английском разница между «т» и «д» заключается в наличии или отсутствии «голоса» (напряжении голосовых связок) и в уровне голоса, отличающем одну фонему от другой. Таким образом, фонологию можно считать примером общего языкового правила, описанного Соссюром: «В языке есть только различия» . Более важно даже не это: различие обычно подразумевает точные условия, между которыми оно и находится; но в языке существуют только различия без точных условий. Рассматриваем ли мы «обозначение» или «обозначаемое» – в языке не существует ни понятий, ни звуков, которые существовали бы до того, как развилась языковая система.

Таким образом, в соссюровском языкознании изучаемый феномен понимается как свод сопоставлений и противопоставлений языка. Язык – это и выражение значения слов, и средство общения, причём эти две функции никогда не совпадают. Мы можем заметить чередование формы и содержания: языковые контрасты определяют его структурные единицы, и эти единицы взаимодействуют, чтобы создать определённое значимое содержание. Так как элементы языка случайны, ни контраст, ни сочетание не могут быть основой. Значит, в языке отличительные признаки формируют фонетический контраст на другом уровне понимания, фонемы соединяются в морфемы, морфемы – в слова, слова – в предложения и т.д. В любом случае, целая фонема, слово, предложение и т.д. представляет собой нечто большее, чем просто сумма составляющих.

Соссюр предложил идею новой науки двадцатого века, отдельно от лингвистики изучающей роль знаков в обществе. Соссюр назвал эту науку семиологией (от греческого «semeîon» - знак). «Наука» семиотики, развивавшаяся в Восточной Европе в 1920е –1930е и в Париже в 1950е – 1960е, расширила изучение языка и лингвистических структур до литературных находок, составленных (или сформулированных) с помощью этих структур. Кроме того, на закате своей карьеры, параллельно совему курсу общей лингвистики, Соссюр занялся «семиотическим» анализом поздней римской поэзии, пытаясь открыть умышленно составленные анаграммы имён собственных. Этот метод был во многом противоположен рационализму в его лингвистическом анализе: он был попыткой, изучить в системе проблему «вероятности» в языке. Такое исследование помогает сосредоточиться на «вещественной стороне» вероятности; «ключевое слово», анаграмму которого ищет Соссюр, как утверждает Жан Старобинский, «инструмент для поэта, а не источник жизни стихотворения». Стихотворение служит для того, чтобы поменять местами звуки ключевого слова. По словам Старобинского, в этом анализе «Соссюр не углубляется в поиски скрытых смыслов». Напротив, в его работах заметно желание избежать вопросов, связанных с сознанием: «так как поэзия выражается не только в словах, но и в том, что порождают эти слова, она выходит из-под контроля сознания и зависит только от законов языка» (cм. Приложение 1).

Попытка Соссюра изучить имена собственные в поздней римской поэзии подчёркивает одну из составляющих его лингвистического анализа – произвольную природу знаков, а также формальную сущность соссюровской лингвистики, что исключает возможность анализа смысла. Тодоров делает вывод, что в наши дни труды Соссюра выглядят на редкость последовательными в нежелании изучать символы явления, имеющие чётко определённое значение [Приложение 1]. Исследуя анаграммы, Соссюр обращает внимание только на повторение, но не на предшествующие варианты. . . . Изучая «Песнь о Нибелунгах», он определяет символы только для того, чтобы присвоить их ошибочным чтениям: если они неумышленны, символов не существует. В конце концов, в своих трудах по общей лингвистике он делает предположение о существовании семиологии, описывающей не только лингвистические знаки; но это предположение ограничивается тем, что семиoлогия может описывать только случайные, произвольные знаки.

Раз это действительно так, то только потому, что не мог представить «намерение» без предмета; он не мог до конца преодолеть пропасть между формой и содержанием – в его трудах это превращалось в вопрос. Вместо этого он обращался к «языковой законности». Находясь между, с одной стороны, концепциями девятнадцатого века, основанными на истории и субъективных догадках, и методах случайной интерпретации, основанных на этих концепциях, и, с другой стороны, структуралистскими концепциями, стирающими противостояние между формой и содержанием (субъектом и объектом), значением и происхождением в структурализме, психоанализе и даже квантовой механике – труды Фердинанда де Соссюра по лингвистике и семиотике обозначают поворотный момент в изучении значений в языке и культуре.

Русские учёные были представлены и на Первом международном конгрессе лингвистов в Гааге в 1928 году. С. Карцевский, Р. Якобсон и Н. Трубецкой выступили с докладом, в котором рассматривалась иерархическая структура языка – в духе самых современных для начала прошлого века представлений. Якобсон в своих трудах развивал идеи Соссюра о том, что базовые элементы языка должны изучаться, в первую очередь, в связи со своими функциями, а не с причинами их возникновения.

К сожалению, после прихода в 1924 году к власти Сталина отечественное языкознание, как и многие другие науки, отбрасывает назад. Многие талантливые учёные вынуждены были эмигрировать, были высланы из страны или погибли в лагерях. Только с середины 1950-х годов стал возможен некоторый плюрализм теорий – об этом в разделе 1.2.

1.2 Применение математических методов в лингвистике во второй половине ХХ века

К середине ХХ века сформировалось четыре мировых лингвистических школы, каждая из которых оказалась родоначальником определённого «точного» метода. Ленинградская фонологическая школа (её родоначальником был ученик Бодуэна де Куртенэ Л.В. Щерба) использовала в качестве основного критерия обобщения звука в виде фонемы психолингвистический эксперимент, основанный на анализе речи носителей языка.

Учёные Пражского лингвистического кружка , в частности – его основатель Н.С. Трубецкой, эмигрировавший из России, разработали теорию оппозиций – семантическая структура языка была описана ими как набор оппозитивно постороенных семантических единиц – сем. Эта теория применялась в изучении не только языка, но и художественной культуры.

Идеологами американского дескриптивизма были языковеды Л. Блумфилд и Э. Сепир. Язык представлялся дескриптивистам в виде совокупности речевых высказываний, которые и были главным объектом их исследования. В центре их внимания оказались правила научного описания (отсюда название) текстов: изучение организации, аранжировка и классификация их элементов. Формализация аналитических процедур в области фонологии и морфологии (разработка принципов исследования языка на разных уровнях, дистрибутивного анализа, метода непосредственно составляющих и т.д.) привела к постановке общих вопросов лингвистического моделирования. Невнимание к плану содержания языка, а также парадигматической стороне языка не позволило дескриптивистам достаточно полно интерпретировать язык как систему.

В 1960-х годах развивается теория формальных грамматик, возникшая, главным образом, благодаря работам американского философа и лингвиста Н. Хомского. Он по праву считается одним из наиболее известных современных учёных и общественных деятелей, ему посвящено множество статей, монографий и даже полнометражный документальный фильм. По имени принципиально нового способа описания синтаксической структуры, изобретённого Хомским – генеративной (порождающей) грамматики – соответствующее течение в лингвистике получило название генеративизма .

Хомский, потомок выходцев из России, с 1945 года изучал в Пенсильванском университете лингвистику, математику и философию, находясь под сильным влиянием своего учителя Зелига Хэрриса – как и Хэррис, Хомский считал и считает свои политические взгляды близкими к анархизму (до сих пор он известен как критик существующего политического строя США и как один из духовных лидеров антиглобализма).

Первая крупная научная работа Хомского, магистерская диссертация «Морфология современного иврита» (1951), так и осталась неопубликованной. Докторскую степень Хомский получил в Пенсильванском университете в 1955, однако большая часть исследований, положенных в основу диссертации (полностью опубликованной только в 1975 под названием «Логическая структура лингвистической теории») и его первой монографии «Синтаксические структуры» (Syntactic Structures, 1957, рус. пер. 1962), была выполнена в Гарвардском университете в 1951–1955. В том же 1955 ученый перешел в Массачусетский технологический институт, профессором которого он стал в 1962.

В своём развитии теория Хомского прошла несколько этапов.

В первой монографии «Синтактические структуры» учёный представил язык как механизмепорождения бесконечного множества предложений с помощью конечного набора грамматических средств. Для описания языковых свойств он предложил понятия глубинной (скрытой от непосредственного восприятия и порождаемой системой рекурсивных, т.е. могущих применяться многократно, правил) и поверхностной (непосредственно воспринимаемой) грамматических структур, а также трансформаций, описывающих переход от глубинных структур к поверхностным. Одной глубинной структуре могут соответствовать несколько поверхностных (например, пассивная конструкция Указ подписывается президентом выводится из той же глубинной структуры, что и активная конструкция Президент подписывает указ ) и наоборот (так, неоднозначность Мать любит дочь описывается как результат совпадения поверхностных структур, восходящих к двум различным глубинным, в одной из которых мать – та, кто любит дочь, а в другой – та, кого любит дочь).

Стандартной теорией Хомского считается модель «Аспектов», изложенная в книге Хомского «Аспекты теории синтаксиса». В этой модели в формальную теорию впервые вводились правила семантической интерпретации, приписывающих значение глубинным структурам. В «Аспектах» языковая компетенция противопоставлена употреблению языка (performance), принята так называемая гипотеза Катца – Постала о сохранении смысла при трансформации, в связи с чем исключено понятие факультативной трансформации, а также введен аппарат синтаксических признаков, описывающих лексическую сочетаемость.

В 1970-е Хомский работает над теорией управления и связывания (GB-теория – от слов government и binding ) – более общей, нежели предыдущая. В ней учёный отказался от специфических правил, описывающих синтаксические структуры конкретных языков. Все трансформации были заменены одной универсальной трансформацией перемещения. В рамках GB-теории существуют и частные модули, каждый из которых отвечает за свою часть грамматики.

Уже недавно, в 1995 году, Хомский выдвинул минималистскую программу, где человеческий язык описывается подобно машинному. Это лишь программа – не модель и не теория. В ней Хомский выделяет две главных подсистемы языкового аппарата человека: лексикон и вычислительную систему, а также два интерфейса – фонетический и логический.

Формальные грамматики Хомского стали классическими для описания не только естественных, но и искусственных языков – в частности, языков программирования. Развитие структурной лингвистики во второй половине ХХ века можно по праву считать «хомскианской революцией».

Московская фонологическая школа , представителями которой были А.А. Реформатский, В.Н. Сидоров, П.С. Кузнецов, А.М. Сухотин, Р.И. Аванесов, использовала подобную же теорию для изучения фонетики. Постепенно «точные» методы начинают применяться касаемо не только фонетики, но и синтаксиса. Структурностью языка начинают заниматься и лингвисты, и математики – как у нас, так и за рубежом. В 1950-60е в СССР начинается новый этап во взаимодействии математики и лингвистики, связанный с разработкой систем машинного перевода.

Толчком к началу этих работ в нашей стране послужили первые разработки в области машинного перевода в США (хотя первое механизированное переводное устройство П.П. Смирнова-Троянского было изобретено в CCCР ещё в 1933 году, оно, будучи примитивным, не получило распространения). В 1947 году А.Бутт и Д. Бриттен придумали код для пословного перевода с помощью ЭВМ, годом позже Р.Риченс предложил правило разбиения слов на основу и окончание при машинном переводе. В те годы довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений – новое в математике, физике и технике служило, в первую очередь, военному делу. На ранних этапах разработка МП активно поддерживалась военными, при этом (в условиях «холодной войны») в США развивалось русско-английское направление, а в СССР - англо-русское.

В январе 1954 года в Массачусетском техническом университете состоялся «Джорджтаунский эксперимент»– первая публичная демонстрация перевода с русского языка на английский на машине ИБМ-701. Реферат сообщения об удачном прохождении эксперимента, сделанный Д.Ю. Пановым, появился в РЖ «Математика», 1954, №10: «Перевод с одного языка на другой при помощи машины: отчёт о первом успешном испытании».

К работам по машинному переводу Д. Ю. Панов (в то время директор Института научной информации – ИНИ, позднее ВИНИТИ) привлёк И. К. Бельскую, которая позднее возглавит группу машинного перевода в Институте точной математики и вычислительной техники АН СССР. К концу 1955 года относится первый опыт перевода с английского языка на русский при помощи машины БЭСМ. Программы для БЭСМ составляли Н.П. Трифонов и Л.Н. Королёв, кандидатская диссертация которого была посвящена методам построения словарей для машинного перевода.

Параллельно работы по машинному переводу велись в Отделении прикладной математики Математического института АН СССР (сейчас Институт прикладной математики имени М.В. Келдыша РАН). По инициативе математика А.А. Ляпунова. К работам по переводу текстов на машине «Стрела» с французского языка на русский он привлёк аспирантку МИАН О.С. Кулагину и своих учениц Т.Д. Вентцель и Н.Н. Рикко. Представления Ляпунова и Кулагиной о возможности использования техники для перевода с одного языка на другой были опубликованы в журнале «Природа», 1955, №8. С конца 1955 года к ним присоединилась Т.Н. Молошная, затем приступившая к самостоятельной работе над алгоритмом англо-русского перевода.

Р.Фрумкина , занимавшаяся в то время алогритмом перевода с испанского, вспоминает, что на этом этапе работ сложно было делать какие-то последовательные шаги. Гораздо чаще приходилось следовать эвристическому опыту – своему или коллег.

Однако первое поколение систем машинного перевода было весьма несовершенным. Все они базировались на алгоритмах последовательного перевода «слово за словом», «фраза за фразой» – смысловые связи между словами и предложениями никак не учитывались. Для примера можно привести предложения: «John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy . (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив.)». «Pen» в данном контексте – не «ручка» (инструмент для письма), а «детский манеж» (play-pen ). Знание синонимов, антониов и переносных значений сложно вводить в компьютер. Перспективным направлением становилась разработка машинных систем, ориентированных на использование человеком-переводчиком.

Со временем на смену системам прямого перевода пришли Т-системы (от английского слова «transfer» – преобразование), в которых перевод осуществлялся на уровне синтаксических структур. В алгоритмах Т-систем использовался механизм, позволяющий построить синтаксическую структуру по правилам грамматики языка входного предложения (подобно тому, как учат иностранному языку в средней школе), а затем синтезировать выходное предложение, преобразуя синтаксическую структуру и подставляя из словаря нужные слова.

Ляпунов говорил о переводе путём извлечения смысла переводимого текста и его представления на другом языке. Подход к построению систем машинного перевода, основанный на получении смыслового представления входного предложения путём его семантического анализа и синтеза входного предложения по полученному смысловому представлению, до сих пор считается наиболее совершенным. Такие системы называют И-системами (от слова «интерлингва»). Однако задача по их созданию, поставленная ещё в конце 50-х – начале 60-х, не решена полностью до сих пор, несмотря на усилия Международной федерации IFIP – мирового сообщества учёных в области обработки информации.

Учёные задумались над тем, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе. Такими представлениями традиционная лингвистика не располагала – не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозмаеняемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких составляющих элементов.

Потребность в создании теоретических основ машинного перевода и привела к формированию и развитию математической лингвистики. Ведущую роль в этом деле в СССР сыграли математики А.А. Ляпунов, О.С. Кулагина, В.А. Успенский, лингвисты В.Ю. Розенцвейг, П.С. Кузнецов, Р.М. Фрумкина, А.А. Реформатский, И.А. Мельчук, В.В. Иванов. Диссертация Кулагиной была посвящена исследованию формальной теории грамматик (одновременно с Н.Хомским в США), Кузнецов выдвинул задачу аксиоматизации лингвистики, восходящую к работам Ф.Ф. Фортунатова.

6 мая 1960 года было принято Постановление Президиума АН СССР «О развитии структурных и математических методов исследования языка», в Институте языкознания и Институте русского языка были созданы соответствующие подразделения. С 1960 года в ведущих гуманитарных вузах страны – филологическом факультете МГУ, Ленинрадском, Новосибирском университетах, МГПИИЯ – началась подготовка кадров в области автоматической обработки текста.

Однако работы по машинному переводу этого периода, называемого «классическим», представляют собой скорее теоретический, нежели практический интерес. Экономически эффективные системы машинного перевода стали создаваться только в восьмидесятые годы прошлого века. Об этом я расскажу позже, в разделе 2.1, «Машинный перевод».

К 1960-м – 70-м годам относятся глубокие теоретические разработки, использующие методы теории множеств и математической логики, такие, как теория поля и теория нечётких множеств.

Автором теории поля в лингвистике был советский поэт, переводчик и лингвист В.Г. Адмони. Свою теорию он изначально разрабатывал на основе немецкого языка. У Адмони понятие «поле» обозначает произвольное непустое множество языковых элементов (например, «лексическое поле», «семантическое поле»).

Структура поля неоднородна: оно состоит из ядра, элементы которого обладают полным набором признаков, определяющих множество, и периферии, элементы которой могут обладать как признаками данного множества (не всеми), так и соседних. Приведу пример, иллюстрирующий данное высказывание: скажем, в английском языке поле сложных слов («day-dream» – «мечтать» трудноотделимо от поля словосочетаний («tear gas» – «слезоточивый газ»).

С теорией поля тесно связана уже упомянутая выше теория нечётких множеств. В СССР её обоснованием занимались лингвисты В.Г. Адмони, И.П. Иванова, Г.Г. Поченцов, однако её родоначальником был американский математик Л.Заде, в 1965 году выпустивший статью «Fuzzy Logic». Давая математическое обоснование теории нечётких множеств, Заде рассматривал их на лингвистическом материале.

В этой теории речь идёт уже не столько о принадлежности элементов к данному множеству (АÎа), сколько о степени этой принадлежности (mАÎа), так как периферийные элементы могут в той или иной мере принадлежать нескольким полям. Заде (Лофти-заде) был выходцем из Азербайджана, до 12 лет имел практику общения на четырех языках - азербайджанском, русском, английском и персидском - и пользовался тремя различными алфавитами: кириллицей, латинским, арабским. Когда ученого спрашивают, что общего между теорией нечетких множеств и лингвистикой, он не отрицает этой связи, но уточняет: «Я не уверен, что изучение этих языков оказало большое влияние на мое мышление. Если это и имело место, то разве что подсознательно». В юности Заде учился в Тегеране в пресвитерианской школе, а после Второй мировой войны эмигрировал в США. «Вопрос не в том, являюсь ли я американцем, русским, азербайджанцем или кем-то еще, - сказал он в одной из бесед, - я сформирован всеми этими культурами и народами и чувствую себя достаточно комфортабельно среди каждого из них» . В этих словах есть нечто родственное тому, что характеризует теорию нечетких множеств – отход от однозначных определений и резких категорий.

В нашей стране в 70е переводятся и изучаются труды западных лингвистов ХХ века. И.А. Мельчук перевёл на русский язык сочинения Н. Хомского. Н.А. Слюсарева в своей книге «Теория Ф. де Соссюра в свете современной лингвистики» связывает постулаты соссюровского учения с актуальными проблемами лингвистики 70-х. Намечается тенденция к дальнейшей математизации лингвистики. В ведущих отечественных вузахидёт подготовка кадров по специальности «Математическая (теоретическая, прикладная) лингвистика». В это же время на Западе происходит резкий скачок в развитии вычислительной техники, для чего требуются всё более новые лингвистические основы.

Таким образом, на протяжении всего ХХ века шло сближение точных и гуманитарных наук. Взаимодействие математики с лингвистикой всё чаще находило практическое применение. Об этом – в следующей главе.

Глава 2. Отдельные примеры использования математики в лингвистике

2.1 Машинный перевод

Идея перевода с одного языка на другой при помощи универсального механизма возникла несколькими веками раньше, чем начались первые разработки в этой области – ещё в 1649 году Рене Декарт предложил идею языка, в котором эквивалентные идеи разных языков выражались бы одним символом. Первые попытки осуществить эту идею в 1930-40е, начало теоретических разработок в середине века, усовершенствование систем перевода при помощи техники в 1970-80е, бурное развитие переводческой техники в последнее десятилетие – таковы этапы развития машинного перевода как отрасли. Именно из работ по машинному переводу выросла компьютерная лингвистика как наука.

С развитием вычислительной техники в конце 70х – начале 80х исследователи задались более реалистичными и экономически выгодными целями – машина становилась не конкурентом (как предполагалось раньше), а помощником человека-переводчика. Машинный перевод перестаёт служить исключительно военным задачам (все советские и американские изобретения и исследования, ориентированные, в первую очередь, на русский и английский языки, в той или иной мере способствовали «холодной войне»). В 1978 году слова естественного языка были переданы в объединённой сети Arpa, шестью годами позже в США появились первые программы перевода для микрокомпьютеров.

В 70е Комиссия Европейских Общин покупает англо-французскую версию компьютерного переводчика Systran, заказывая также франко-аглийскую и итало-английскую версии, и систему перевода с русского на английский, использовавшуюся американскими Вооружёнными Силами. Так были заложены основы проекта EUROTRA.

О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итало-английской версий. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM); ВВС США финансируют разработку системы машинного перевода в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг. впоследствии развились в полноценные коммерческие системы.

За период 1978-93 в США на исследования в области машинного перевода истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

Одной из новых разработок стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой, поэтому не нужно дважды переводить одно и то же предложение. В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

В настоящее несколько десятков компаний занимаются разработкой коммерческих систем машинного перевода, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Transparent Language, Cross Language, Trident Software, Atril, Trados, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v. и др. Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: alphaWorks; PROMT"s Online Translator; LogoMedia.net; AltaVista"s Babel Fish Translation Service; InfiniT.com; Translating the Internet.

Коммерчески эффективные переводческие системы появились во второй половине 80х и в нашей стране. Расширилось само понятие машинного перевода (к нему стали относить «создание целого ряда автоматических и автоматизированных систем и устройств, выполняющих автоматически или полуавтоматически весь цикл перевода либо отдельные задачи в диалоге с человеком» ), увеличились государственные ассигнования на развитие этой отрасли.

Основными языками отечественных переводческих систем стали русский, английский, немецкий, французский и японский. Во Всесоюзном центре переводов (ВЦП) была разработана система перевода с английского и немецкого языков на русский на машине ЭВМ ЕС-1035 –АНРАП. Она состояла из трёх словарей – входных английского и немецкого и выходного русского – под единым программным обеспечением. Существовало несколько сменных специализированных словарей – по вычислительной технике, программированию, радиоэлектронике, машиностроению, сельскому хозяйству, металлургии. Система могла работать в двух режимах – автоматическом и интерактивном, когда на экране отображался пофразно исходный текст и перевод, который человек мог отредактировать. Скорость перевода текста на АНРАП (от начала набора до окончания печати) составляла примерно 100 страниц в час.

В 1989 году было создано семейство коммерческих переводчиков типа СПРИНТ, работавших с русским, английским, немецким и японским языками. Их главным преимуществом стала их совместимость с IBM PC – таким образом отечественные системы машинного перевода достигали международного уровня качества. В это же время разрабатывается система машинного перевода с французского языка на русский ФРАП, включающая в себя 4 этапа анализа текста: графематический, морфологический, синтаксический и семантический. В ЛГПИ им. Герцена шла работа над четырёхязычной (английский, французский. Испанский, русский) системой СИЛОД-МП (в промышленном режиме эксплуатировались англо-русский и франко-русский словари.

Для специализированного перевода текстов по электротехнике существовала система ЭТАП-2. Анализ входного текста в ней осуществлялся на двух уровнях – морфологическом и синтаксическом. Словарь ЭТАП-2 содержал около 4 тысяч статей; этап преобразования текста – около 1000 правил (96 общих, 342 частных, остальные – словарные). Всё это обеспечивало удовлетворительное качество перевода (скажем, заголовок патента «Optical phase grid arrangement and coupling device having such an arrangement» переводился как «Устройство оптической фазовой сетки и соединяющее устройство с таким устройством» – несмотря на тавтологию, смысл сохранён).

В Минском педагогическом институте иностранных языков на базе англо-русского словаря словоформ и оборотов была изобретена система машинного перевода заголовков), в Институте востоковедения АН – система перевода с японского на русский. Созданная в Московском НИИ систем автоматизации первая автоматическая словарно-терминологическая служба (СЛОТЕРМ) по вычислительной технике и программированию содержала примерно 20000 терминов в толковом словаре и специальных словарях для лингвистических исследований.

Системы машинного перевода постепенно стали использоваться не только по прямому назначению, но и как важный компонент автоматических обучающих систем (для обучения переводу, контроля орфографических и грамматических знаний).

90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало востребованным дальнейшее развитие автоматизированных переводческих систем. С начала 1990-х гг. на рынок систем ПК выходят и отечественные разработчики.

В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer"s Machine Translation). В 1991 г. было создано ЗАО "ПРОект МТ", и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе). В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система машинного перевода для Windows. В 1994 г. вышла версия STYLUS 2.0 для Windows 3.Х/95/NT, а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT, одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем машинного перевода.

В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" компания выпустила систему, реализованную по технологии Гигант, поддерживающей несколько языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite.

В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98. Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet, и переводчик для корпоративных почтовых систем - PROMT Mail Translator. В ноябре 1999 года PROMT была признана лучшей системой машинного перевода среди тестируемых французским журналом PC Expert, обойдя конкурентов по сумме показателей на 30 процентов. Для корпоративных клиентов разработаны также специальные серверные решения - корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS). В 2000 г. "ПРОМТ" обновила всю линию своих программных продуктов, выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000.

Перевод в режиме он-лайн при поддержке системы "ПРОМТ" используется на ряде отечественных и зарубежных сайтов: PROMT"s Online Translator, InfiniT.com, Translate.Ru, Lycos и др., а также в учреждениях различного профиля для перевода деловой документации, статей и писем (существуют системы перевода, встраиваемые непосредственно в Outlook Express и другие почтовые клиенты).

В наше время появляются новые технологии машинного перевода, основанные на использовании систем искусственного интеллекта, статистических методах. О последних – в следующем разделе.

2.2 Статистические методы в изучении языка

Немалое внимание в современной лингвистике отводится изучению языковых явлений методами количественной математики. Количественные данные часто помогают более глубоко осмыслить изучаемые явления, их место и роль в системе смежных явлений. Ответ на вопрос «сколько» помогает ответить и на вопросы «что», «как», «почему» – таков эвристический потенциал количественной характеристики.

Немалую роль статистические методы играют в разработке систем машинного перевода (см. раздел 2.1). При статистическом подходе проблема перевода рассматривается в терминах канала с помехами. Представим себе, что нам нужно перевести предложение с английского на русский. Принцип канала с помехами предлагает нам следующее объяснение отношений между английской и русской фразой: английское предложение представляет собой не что иное, как русское предложение, искаженное неким шумом. Для того чтобы восстановить исходное русское предложение, нам нужно знать, что именно люди обычно говорят по-русски и как русские фразы искажаются до состояния английского. Перевод осуществляется путем поиска такого русского предложения, которое максимизирует произведения безусловной вероятности русского предложения и вероятности английского предложения (оригинала) при условии данного русского предложения. Согласно теореме Байеса, это русское предложение является наиболее вероятным переводом английского:

где e – предложение перевода, а f – предложение оригинала

Таким образом, нам требуется модель источника и модель канала, или модель языка и модель перевода. Модель языка должна присваивать оценку вероятности любому предложению конечного языка (в нашем случае, русского), а модель перевода –предложению оригинала. (cм. табл.1)

В общем случае система машинного перевода работает в двух режимах:

1. Обучение системы: берется тренировочный корпус параллельных текстов, и с помощью линейного программирования ищутся такие значения таблиц переводных соответствий, которые максимизируют вероятность (например) русской части корпуса при имеющейся английской согласно выбранной модели перевода. На русской части того же корпуса строится модель русского языка.

2. Эксплуатация: на основе полученных данных для незнакомого английского предложения ищется русское, максимизирующее произведение вероятностей, присваиваемых моделью языка и моделью перевода. Программа, используемая для такого поиска, называется дешифратором.

Самой простой статистической моделью перевода является модель дословного перевода. В этой модели предполагается, что для перевода предложения с одного языка на другой достаточно перевести все слова (создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель Для приведения P(a, f | e) к P(a | e, f), т.е. вероятности данного выравнивания при данной паре предложений, каждая вероятность P(a, f | e) нормализуется по сумме вероятностей всех выравниваний данной пары предложений:

Реализация алгоритма Витерби, используемая для обучения Модели №1, состоит в следующем:

1.Вся таблица вероятностей переводных соответствий заполняется одинаковыми значениями.

2. Для всех возможных вариантов попарных связей слов вычисляется вероятность P(a, f | e):

3. Значения P(a, f | e) нормализуются для получения значений P(a | e, f).

4. Подсчитывается частота каждой переводной пары, взвешенная по вероятности каждого варианта выравнивания.

5. Полученные взвешенные частоты нормализуются и формируют новую таблицу вероятностей переводных соответствий

6. Алгоритм повторяется с шага 2.

Рассмотрим в качестве примера тренировку подобной модели на корпусе из двух пар предложений (рис.2):

Белый Дом/White House

После большого числа итераций мы получим таблицу (табл.2.), из которой видно, что перевод осуществляется с высокой точностью.

Также статистические методы широко используются в изучении лексики, морфологии, синтаксиса, стилистики. Учёные Пермского государственного университета провели исследование, в основе которого лежало утверждение о том, что стереотипные словосочестания являются важным «строительным материалом» текста . Эти словосочетания состоят из «ядерных» повторяющихся слов и зависимых слов-конкретизавторов и имеют ярко выраженную стилистическую окраску.

В научном стиле «ядерными» словами можно назвать: исследование, изучение, задача, проблема, вопрос, явление, факт, наблюдение, анализ и др. В публицистике «ядерными» будут уже другие слова, обладающие повышенной ценностью именно для текста газеты: время, лицо, власть, дело, действие, закон, жизнь, история, место и т.д. (всего 29)

Особый интерес для лингвистов представляет также профессиональная диффереренциация общенародного языка, своеобразие использования лексики и грамматики в зависимости от рода занятий. Известно, что шофёры в профессиональной речи употребляю форму шо фер, медики говорят ко клюш вместо коклю ш – подобных примеров можно привести. Задача статистики – проследить за вариативностью произношения и изменением языковой нормы.

Профессиональные различия ведут за собой различия не только грамматические, но и лексические. В Якутском государственном университете им. М.К. Аммосова было проанализировано по 50 анкет с наиболее часто встречающимися реакциями на некоторые слова среди медиков и строителей (табл.3) .

		Строители
человек	пациент (10), личность (5)	мужчина (5)
добро	помощь (8), помогать (7)	зло (16)
жизнь	смерть (10)	прекрасная (5)
смерть	труп (8)	жизнь (6)
огонь	жар (8), ожог (6)	пожар (7)
палец	рука (14), панариций (5)	большой (7), указательный (6)
глаза	зрение (6), зрачок, окулист (по 5)	карие (10), большие (6)
голова	ум (14), мозги (5)	большая (9), умная (8), ум (6)
терять	сознание, жизнь (по 4)	деньги (5), находить (4)

Можно заметить, что медики чаще, чем строители, дают ассоциации, связанные с их профессиональной деятельностью, так как приведённые в анкете слова-стимулы имеют к их профессии больше отношения, чем к профессии строителя.

Статистические закономерности в языке используются для создания частотных словарей – словарей, в которых приводятся числовые характеристики употребительности слов (словоформ, словосочетаний) какого-либо языка – языка писателя, какого-либо произведения и т. п. Обычно в качестве характеристики употребительности используется частота встречаемости слова в тексте определенного объема

Модель восприятия речи невозможна без словаря как своего существеннейшего компонента. При восприятии речи основной оперативной единицей выступает слово. Из этого следует, в частности, что каждое слово воспринимаемого текста должно быть отождествлено с соответствующей единицей внутреннего словаря слушающего (или читающего). Естественно считать, что уже с самого начала поиск ограничен некоторыми подобластями словаря. Согласно большинству современных теорий восприятия речи, собственно фонетический анализ звучащего текста в типичном случае дает лишь некоторую частичную информацию о возможном фонологическом облике слова, и такого рода информации отвечает не одно, а определенное МНОЖЕСТВО слов словаря; следовательно, возникает две задачи:

(а) выделить соответствующее множество по тем или иным параметрам;

(б) в пределах очерченного множества (если оно выделено адекватно) произвести «отсев» всех слов, кроме того единственного, которое и соответствует наилучшим образом данному слову распознаваемого текста. Одна из стратегий «отсева» – исключение низкочастотных слов. Отсюда следует, что словарь для восприятия речи – это частотный словарь. Именно создание компьютерной версии частотного словаря русского языка и является первоначальной задачей представляемого проекта.

На материале русского языка существует 5 частотных словарей (не считая отраслевых). Отметим лишь некоторые общие недостатки имеющихся словарей.

Все известные частотные словари русского языка построены на обработке массивов письменных (печатных) текстов. Отчасти по этой причине, когда тождество слова во многом опирается на совпадение формальное, графическое, недостаточно учитывается семантика. В результате оказываются смещенными, искаженными и частотные характеристики; например, если слова из сочетания «друг друга» составитель частотного словаря включает в общую статистику употребления слова «друг», то едва ли это оправданно: учитывая семантику, мы должны признать, что это уже другие слова, а точнее, что самостоятельной словарной единицей выступает лишь само по себе сочетание в целом.

Также во всех существующих словарях слова помещены лишь в своих основных формах: существительные в форме единственного числа, именительного падежа, глаголы в форме инфинитива и т.д. Некоторые из словарей дают информацию о частотности словоформ, но обычно делают это недостаточно последовательно, не исчерпывающим образом. Частотности разных словоформ одного и того же слова заведомо не совпадают. Разработчик же модели восприятия речи должен учитывать, что в реальном перцептивном процессе распознаванию подлежит именно конкретная словоформа, «погруженная» в текст: на базе анализа начального участка экспонента словоформы формируется множество слов с идентичным началом, причем начальный участок словоформы не обязательно тождествен начальному участку словарной формы. Именно словоформе принадлежит конкретная ритмическая структура – также чрезвычайно важный параметр для перцептивного отбора слов. Наконец, в итоговом представлении распознанного высказывания опять-таки слова представлены соответствующими словоформами.

Существует множество работ, в которых демонстрируется важность частотности в процессе восприятии речи. Но нам не известны работы, где использовалась бы частотность словоформ – напротив, все авторы практически игнорируют частотность отдельных словоформ, обращаясь исключительно к лексемам. Если полученные ими результаты не считать артефактами, приходится допустить, что носителю языка каким-то образом доступна информация о соотношении частотностей словоформ и словарной формы, т.е., фактически, лексемы. Причем такого рода переход от словоформы к лексеме, конечно, невозможно объяснить естественным знанием соответствующей парадигмы, поскольку информация о частотности должна использоваться до окончательной идентификации слова, иначе она просто теряет смысл.

По первичным статистическим характеристикам можно определить с заданной относительной погрешностью ту часть словника, в которую входят слова с высокой частотой появления независимо от типа текста. Возможно также, введя ступенчатое упорядочение в словарь, получить серию словников, охватывающих первые 100, 1000, 5000 и т. д. частых слов. Статистические характеристики словаря вызывают интерес в связи со смысловым анализом лексики. Изучение предметно-идеологическнх групп и семантических полей показывает, что лексические объединения поддерживаются семантическими связями, которые концентрируются вокруг лексем с наиболее общим значением. Описание значений в пределах лексико-семантического поля может проводиться посредством идентификации слов с наиболее абстрактными по смыслу лексемами. По-видимому, «пустые» (с точки зрения номинативных потенций) единицы словаря составляют статистически однородный пласт.

Не меньшую ценность имеют и словники по отдельным жанрам. Изучение меры их сходства и характера статистических распределений даст интересные сведения о качественном расслоении лексики в зависимости от сферы речеупотребления.

Составление больших частотных словарей требует обращения к вычислительной технике. Введение частичной механизации и автоматизации в процесс работы над словарем представляет интерес как эксперимент машинной обработки словников к разным текстам. Такой словарь требует более строгой системы обработки и накопления словарного материала. В миниатюре это информационно-поисковая система, которая способна выдавать сведения о различных сторонах текста и словаря. Некоторые основные запросы к этой системе планируются с самого начала: общее количество инвентаризованных слов, статистические характеристики отдельного слова и целых словников, упорядочение частых и редких зон словника и т. п. Машинная картотека позволяет автоматически строить обратные словари по отдельным жанрам и источникам. Множество других полезных статистических сведений о языке будет извлечено из накопленного массива информации. Компьютерный частотный словарь создает экспериментальную базу для перехода к более обширной автоматизации словарных работ.

Статистические данные частотных словарей могут быть широко использованы и при решении других лингвистических задач – например, при анализе и определении активных средств словообразования современного русского языка, решении вопросов усовершенствования графики и орфографии, которые связаны с учетом статистических сведений о словарном составе (при этом важно учитывать вероятностные характеристики комбинаций графем, реализованные в словах типы буквосочетаний), практической транскрипции и транслитерации. Статистические параметры словаря будут полезны и при решении вопросов автоматизации печатного дела, распознавания и автоматического чтения буквенного текста.

Современные толковые словари и грамматики русского языка в основном построены на базе литературно-художественных текстов. Существуют частотные словари языка А.С. Пушкина, А.С. Грибоедова, Ф.М. Достоевского, В.В. Высоцкого и многих других авторов. На кафедре истории и теории литературы Смоленского гос. педагогического университета ряд лет ведётся работа по составлению частотных словарей стихотворных и прозаических текстов. Для настоящего исследования отобраны частотные словари всей лирики Пушкина и ещё двух поэтов золотого века – «Горя от ума» Грибоедова и всей поэзии Лермонтова; Пастернака и ещё пяти поэтов серебряного века - Бальмонта 1894-1903 гг., «Стихов о Прекрасной Даме» Блока, «Камня» Мандельштама, «Огненного столпа» Гумилёва, «Anno Domini MCMXXI» Ахматовой и «Сестры моей жизни» Пастернака и ещё четырёх поэтов века железного – «Стихотворений Юрия Живаго», “Когда разгуляется”, всего корпуса лирики М. Петровых, «Дорога далека», «Ветрового стекла», «Прощания со снегом» и «Подковы» Межирова, «Антимиров» Вознесенского и «Снежницы» Рыленкова.

Следует отметить, что эти словари по природе своей различны: одни представляют лексику одного драматического произведения, другие – книги лирики, или нескольких книг, или всего корпуса стихов поэта. Результаты анализа, представленные в настоящей работе, следует воспринимать с осторожностью, их нельзя абсолютизировать. Однако с помощью специальных мер разницу онтологической природы текстов можно до известной степени уменьшить.

В последние годы все более отчетливо осознается противопоставление разговорной и книжной речи. Особенно остро обсуждается этот вопрос среди методистов, которые требуют поворота обучения в сторону разговорного языка. Однако специфика разговорной речи до сих пор остается необъясненной.

Обработка словарей выполнялась путем создания пользовательского приложения в среде офисной программы EXCEL97. Приложение включает четыре рабочих листа книги EXCEL – «Титульный лист», лист «Словари» с исходными данными, «Близости» и «Расстояния» с результатами, а также набор макросов.

Исходная информация вводится на лист «Словари». В ячейки EXCEL, записываются словари исследуемых текстов, последний столбец S формируется из полученных результатов и равен количеству слов, встречающихся в других словарях. Таблицы «Близости» и «Расстояния» содержат рассчитанные меры близости M, корреляции R и расстояния D.

Макросы приложения представляют собой событийные программные процедуры на языке Visual Basic for Application (VBA). Основу процедур составляют библиотечные объекты VBA и методы их обработки. Так, для операций с рабочими листами приложения используется ключевой объект Worksheet (рабочий лист) и соответствующий ему метод активизации листа Activate (активизировать). Задание диапазона анализируемых исходных данных на листе «Словари» выполняется методом Select (выбрать) объекта Range (диапазон), а передача слов в качестве значений переменным выполняется как свойство Value (значение) этого же объекта Range.

Несмотря на то, что ранговый корреляционный анализ заставляет с осторожностью говорить о зависимости тематики между разными текстами, большая часть самых частотных слов каждого текста имеет соответствия в одном или нескольких других текстах. В колонке S показано количество таких слов среди 15 наиболее частотных у каждого автора. Полужирным шрифтом выделены слова, встречающиеся в нашей таблице только у одного поэта. Нет выделенных слов вовсе у Блока, Ахматовой и Петровых, у них S = 15. У этих трёх поэтов все 15 самых частотных слов одни и те же, различаются они только местом в списке. Но даже у Пушкина, лексика которого наиболее оригинальна, S = 8, а выделенных слов 7.

Результаты показывают, что существует определённый слой лексики, концентрирующий основные темы поэзии. Как правило, эти слова коротки: из общего числа (225) словоупотреблений односложных 88, двусложных 127, трёхсложных 10. Зачастую эти слова представляют основные мифологемы и могут распадаться на пары: ночь - день, земля - небо (солнце), Бог - человек (люди), жизнь - смерть, тело - душа, Рим - мир (у Мандельштама); могут объединяться в мифологемы более высокого уровня: небо, звезда, солнце, земля; в человеке как правило выделяются тело, сердце, кровь, рука, нога, щека, глаза . Из человеческих состояний предпочтение отдаётся сну и любви. К миру человека принадлежат дом и города – Москва, Рим, Париж. Творчество представлено лексемами слово и песня .

У Грибоедова и Лермонтова среди наиболее частотных слов почти нет слов, обозначающих природу. У них втрое больше слов, обозначающих человека, части его тела, элементы его духовного мира. У Пушкина и поэтов ХХ в. обозначений человека и природы приблизительно поровну. В этом важном аспекте тематики, можем сказать, ХХ в. пошёл за Пушкиным.

Минимальная тема дело среди самых частотных слов встречается только у Грибоедова и Пушкина. У Лермонтова и поэтов ХХ в. она уступает место минимальной теме слово . Слово не исключает дела (библейская трактовка темы: в Новом Завете всё учение Иисуса Христа рассматривается как слово Божье или слово Иисуса, а апостолы иногда называют себя служителями Слова). Сакральный смысл лексемы слово убедительно проявляется, например, в стихе Пастернака «И образ мира, в Слове явленный». Сакральный смысл лексемы слово в со- и противопоставлении с человеческими делами убедительно проявляется в одноимённом стихотворении Гумилёва.

Лексемы, которые встречаются только в одном тексте, характеризуют своеобразие данной книги или совокупности книг. Например, слово «ум» - самое частотное в комедии Грибоедова «Горе от ума» – но оно не встречается среди частотных слов других текстов. Тема ума безусловно является наиболее значимой в комедии. Эта лексема сопровождает образ Чацкого, причём имя Чацкого является наиболее частотным в комедии. Таким образом, в произведении органически сочетаются самое частотное имя нарицательное с самым частотным именем собственным.

Самый высокий коэффициент корреляции связывает тематику трагических книг Гумилёва «Огненный столп» и Ахматовой «Anno Domini MCMXXI». Среди 15 наиболее частотных имён существительных здесь 10 общих, в том числе кровь, сердце, душа, любовь, слово, небо. Напомним, что в книгу Ахматовой вошла миниатюра «Не бывать тебе в живых...», написанная между арестом Гумилёва и его расстрелом.

Темы свечи и толпы в исследованном материале встречаются только в «Стихотворениях Юрия Живаго». Тема свечи в стихах из романа имеет множество контекстуальных значений: она связана с образом Иисуса Христа, с темами веры, бессмертия, творчества, любовного свидания. Свеча – важнейший источник света в центральных сценах романа. Тема толпы развивается в связи с основной идеей романа, в котором частная жизнь человека с её незыблемыми ценностями противопоставлена безнравственности нового государства, построенного на началах угождения толпе.

Работа предполагает и третий этап, тоже отраженный в программе, - это вычисление разности порядковых номеров слов, общих для двух словарей и среднего показателя расстояния между одинаковыми словами двух словарей. Этот этап позволяет от общих тенденций взаимодействия словарей, выявленных с помощью статистики, перейти на уровень, приближающийся к тексту. Например, статистически значимо коррелируют книги Гумилева и Ахматовой. Мы смотрим, какие слова оказались общими для их словарей, и выбираем прежде всего те, разница между порядковыми номерами которых минимальна или равна нулю. Именно эти слова имеют один и тот же ранговый номер и, следовательно, именно эти минимальные темы в сознании двух поэтов одинаково важны. Далее следует переходить на уровень текстов и контекстов.

Количественные методы также помогают изучить особенности народов – носителей языка. Скажем, в русском языке 6 падежей, в английском падежей нет, а в отдельных языках народов Дагестана количество падежей доходит до 40. Л.Перловский в своей статье «Сознание, язык и культура» соотносит эти характеристики со склонностью народов к индивидуализму или коллективизму , с восприятием вещей и явлений отдельно или в связи с другими. Ведь именно в англоязычном мире (падежей нет – вещь воспринимается «сама по себе») появились такие понятия, как свобода личности, либерализм и демократия (замечу, что я употребляю эти понятия только в связи с языком, без какой-либо оценочной характеристики). Несмотря на то, что подобные догадки пока остаются лишь на уровне смелых научных гипотез, они помогают посмотреть по-новому на уже знакомые явления.

Как мы видим, количественные характеристики могут применяться в совершенно различных областях языкознания, что всё больше стирает границы между «точными» и «гуманитарными» методами. Лингвистика всё чаще прибегает к помощи не только математики, но и вычислительной техники для решения своих задач.

2.3 Изучение языка методами формальной логики

С неколичественными методами математики, в частности, с логикой, современная теоретическая лингвистика взаимодействует не менее плодотворно, чем с количественными. Быстрое развитие компьютерных технологий и возрастание их роли в современном мире потребовало пересмотра подхода к взаимодействию языка и логики в целом.

Методы логики широко используются в разработке формализованных языков, в частности, языков программирования, элементами которых являются некоторые символы (сродни математическим), выбираемые (или конструируемые из выбранных ранее символов) и интерпретируемые определённым образом, связанным ни с каким «традиционным» употреблением, пониманием и функциями таких же символов в других контекстах. Программист постоянно имеет дело с логикой в своей работе. Смысл программирования состоит как раз в том, чтобы научить компьютер рассуждать (в широком смысле слова). При этом методы "рассуждения" оказываются самыми разными. Каждый программист тратит определенное время на поиск ошибок в своих и чужих программах. То есть, на поиск ошибок в рассуждениях, в логике. И это тоже накладывает свой отпечаток. Гораздо легче обнаруживаешь логические ошибки и в обычной речи. Относительная простота языков, изучаемых логиками, позволяет им выяснять структуры этих языков более четко, чем это достижимо для лингвистов, анализирующих исключительно сложные естественные языки. Ввиду того, что языки, изучаемые логиками, используют отношения, скопированные с естественных языков, логики способны внести существенный вклад в общую теорию языка. Ситуация здесь подобна той, которая имеет место в физике: физик также формулирует теоремы для идеально упрощенных случаев, которые не происходят в природе вообще - он формулирует законы для идеальных газов, идеальных жидкостей, говорит о движении при отсутствии трения и т.д. Для этих идеализированных случаев можно установить простые законы, которые значительно способствовали бы пониманию того, что происходит в действительности и что, вероятно, осталось бы неизвестным физике, если бы она пробовала рассматривать действительность непосредственно, во всей сложности.

В изучении естественных языков логические методы используются для того, чтобы изучающие язык могли не тупо «зазубрить» как можно больше слов, а лучше понять его структуру. Ещё Л. Щерба использовал на своих лекциях пример предложения, построенного по законам русского языка: «Глокая куздра штеко будланула бокра и курдячит бокренка», – а потом спрашивал у студентов, что это значит. Несмотря на то, что смысл слов в предложении оставался непонятен (их просто не существует в русском языке), можно было чётко ответить: «куздра» – подлежащее, существительное женского рода, в единственном числе, именительном падеже, «бокр» – одушевлённое, и т.д. Перевод фразы получается примерно таков: «Нечто женского рода в один прием совершило что-то над каким-то существом мужского рода, а потом начало что-то такое вытворять длительное, постепенное с его детенышем» . Подобным же примером текста (художественного) из несуществующих слов, построенного полностью по законам языка, является «Бармаглот» Льюиса Кэрролла (в «Алисе в стране чудес» Кэрролл устами своего персонажа Шалтая-Болтая объясняет и значение придуманных им слов: «варкалось» – восемь часов вечера, когда уже пора варить ужин, «хливкий» – хлипкий и ловкий, «шорёк» – помесь хорька, барсука и штопора, «пыряться» – прыгать, нырять, вертеться, «нава» – трава под солнечными часами (простирается немного направо, немного налево и немного назад), «хрюкотать» – хрюкать и хохотать, «зелюк» – зелёный индюк, «мюмзик» – птица; перья у неё растрёпаны и торчат во все стороны, как веник, «мова» – далеко от дома) .

Одно из основных понятий современной логики и теоретической лингвистики, используемое при исследовании языков различных логико-математических исчислений, естественных языков, для описания отношений между языками различных «уровней» и для характеристики отношений между рассматриваемыми языками и описываемыми с их помощью предметными областями – понятие метаязыка. Метаязык – это язык, используемый для выражения суждений о другом языке, языке-объекте. С помощью метаязыка изучают структуру знакосочетаний (выражений) языка-объекта, доказывают теоремы о его выразительных свойствах, об отношении его к другим языкам и т. п. Изучаемый язык называется также предметным языком по отношению к данному метаязыку. Как предметный язык, так и метаязык могут быть обычными (естественными) языками. Метаязык может отличаться от языка-объекта (например, в учебнике английского языка для русских русский язык является метаязыком, а английский – языком-объектом), но может и совпадать с ним или отличаться лишь частично, например специальной терминологией (русская лингвистическая терминология – элемент метаязыка для описания русского языка; т. н. семантические множители – часть метаязыка описания семантики естественных языков).

Логика учит нас плодотворному разграничению языка-объекта и метаязыка. Язык-объект - это сам предмет логического исследования, а метаязык - тот неизбежно искусственный язык, на котором такое исследование ведется. Логическое мышление как раз и состоит в том, чтобы сформулировать на языке символов (метаязыке) отношения и структуру реального языка (языка-объекта).

Метаязык должен быть во всяком случае «не беднее» своего предметного языка (т. е. для каждого выражения последнего в метаязыке должно иметься его имя- «перевод») – иначе, при невыполнении этих требований (что заведомо имеет место в естественных языках, если специальными соглашениями не предусмотрено обратное) возникают семантические парадоксы (антиномии).

По мере создания все новых и новых языков программирования в связи с проблемой программирования трансляторов появилась острая необходимость в создании метаязыков. В настоящее время наиболее употребительным для описания синтаксиса языков программирования является метаязык форм Бэкуса-Наура (сокращенно БНФ). Он представляет собой компактную форму в виде некоторых формул, похожих на математические. Для каждого понятия языка существует единственная метаформула (нормальная формула). Она состоит из левой и правой частей. В левой части указывается определяемое понятие, а в правой - задается множество допустимых конструкций языка, которые объединяются в это понятие. В формуле используют специальные метасимволы в виде угловых скобок, в которых заключено определяемое понятие (в левой части формулы) или ранее определенное понятие (в ее правой части), а разделение левой и правой частей указывается метасимволом "::=", смысл которого эквивалентен словам "по определению есть". Металингвистические формулы в некотором виде заложены в трансляторы; с их помощью ведется проверка конструкций, используемых программистом, на формальное соответствие какой-нибудь из конструкций, синтаксически допустимых в этом языке. Существуют и отдельные метаязыки различных наук – таким образом, знания существуют в виде различных метаязыков.

Логические методы также послужили основой для создания систем искусственного интеллекта, основанных на концепции коннекционизма. Коннекционизм – это особое течение в философской науке, предметом которого являются вопросы познания. В рамках этого течения предпринимаются попытки объяснить интеллектуальные способности человека, используя искусственные нейронные сети. Составленные из большого числа структурных единиц, аналогичных нейронам, с заданным для каждого элемента весом, определяющим силу связи с другими элементами, нейронные сети представляют собой упрощённые модели человеческого мозга. Эксперименты с нейронными сетями подобного рода продемонстрировали их способность к обучению выполнения таких задач, как распознавание образов, чтение и определение простых грамматических структур.

Философы начали проявлять интерес к коннекционизму, так как коннекционистский подход обещал обеспечить альтернативу классической теории разума и широко распространённой в рамках этой теории идеи, согласно которой механизмы работы разума имеют сходство с обработкой символического языка цифровым компьютером. Эта концепция весьма спорна, однако в последние годы она находит всё больше сторонников.

Логическое изучение языка продолжает соссюровскую концепцию о языке как системе. То, что оно постоянно продолжается, ещё раз подтверждает смелость научных догадок начала прошлого века. Последний раздел своей работы я посвящу перспективам развития математических методов в лингвистике в наши дни.

2.4 Перспективы применения математических методов в лингвистике

В эпоху компьютерных технологий методы математической лингвистики получили новую перспективу развития. Поиск решения проблем лингвистического анализа все активнее реализуется теперь на уровне информационных систем. Вместе с тем автоматизация процесса обработки языкового материала, предоставляя исследователю значительные возможности и преимущества, неизбежно выдвигает перед ним новые требования и задачи.

Соединение «точного» и «гуманитарного» знания стало плодородной почвой для новых открытий в области лингвистики, информатики и философии.

Машинный перевод с одного языка на другой остаётся быстро развивающейся отраслью информационных технологий. Несмотря на то, что перевод при помощи компьютера никогда не сравнится по качеству с переводом, сделанным человеком (особенно это касается художественных текстов), машина стала неотъемлемым помощником человека в переводе больших объёмов текста. Считается, что в ближайшем будущем будут созданы более совершенные переводческие системы, основанные, в первую очередь, на семантическом анализе текста.

Не менее перспективным направлением остаётся взаимодействие лингвистики и логики, служащее философским фундаментом для осмысления информационных технологий и так называемой «виртуальной реальности». В ближайшем будущем продолжится работа над созданием систем искусственного интеллекта – хотя, опять же, он никогда не будет равен человеческому по его возможностям. Подобная конкуренция бессмысленна: в наше время машина должна стать (и становится) не соперником, а помощником человека, не чем–то из области фантастики, а частью реального мира.

Продолжается изучение языка методами статистики, что позволяет более точно определить его качественные свойства. Важно, чтобы наиболее смелые гипотезы о языке находили своё математическое, а, следовательно, и логическое, доказательство.

Наиболее значимо то, что различные отрасли применения математики в лингвистике, до этого достаточно разрозненные, в последние годы соотносятся между собой, соединяясь в стройную систему, по аналогии с системой языка, открытой столетие назад Фердинандом де Соссюром и Иваном Бодуэном де Куртенэ. В этом – преемственность научного знания.

Лингвистика в современном мире стала фундаментом для развития информационных технологий. Пока информатика остаётся бурно развивающейся отраслью человеческой деятельности, союз математики и лингвистики продолжит играть свою роль в развитии науки.

Заключение

За ХХ век компьютерные технологии проделали большой путь – от военного применения к мирному, от узкого круга целей до проникновения во все отрасли человеческой жизни. Математика как наука находила всё новое практическое значение с развитием вычислительной техники. Этот процесс продолжается и сегодня.

Немыслимый раньше «тандем» «физиков» и «лириков» стал реальностью. Для полноценного взаимодействия математики и информатики с гуманитарными науками потребовались квалифицированные специалисты как с той, так и с другой стороны. В то время как специалистам-компьютерщикам всё более нужны систематические гуманитарные знания (лингвистические, культурологические, философские) , чтобы осмыслять изменения в окружающей их реальности, во взаимодействии человека и техники, разрабатывать всё новые и новые языковые и мыслительные концепции, писать программы, то любой «гуманитарий» в наше время для своего профессионального роста должен овладеть хотя бы азами работы с компьютером.

Математика, будучи тесно взаимосвязанной с информатикой, продолжает развиваться и взаимодействовать с естественнонаучным и гуманитарным знанием. В новом веке не ослабевает, а, наоборот, усиливается тенденция к математизации науки. На количественных данных осмысливаются закономерности развития языка, его исторические и философские характеристики.

Математический формализм более всего подходит для описания закономерностей в лингвистике (как, впрочем, и в других науках – и гуманитарных, и естественных). Ситуация порой складывается в науке так, что без применения соответствующего математического языка понять характер физического, химического и т.п. процесса невозможно. Создавая планетарную модель атома, известный английский физик XX в. Э. Резерфорд испытал математические трудности. Вначале его теорию не приняли: она не звучала доказательно, и виной тому явилось незнание Резерфордом теории вероятности, на основе механизма которой только и возможно было понять модельное представление атомных взаимодействий. Осознав это, выдающийся уже к тому времени ученый, обладатель Нобелевской премии, записался в семинар математика профессора Лэмба и в течение двух лет вместе со студентами прослушал курс и отработал практикум по теории вероятности. На ее основе Резерфорд смог описать поведение электрона, придав своей структурной модели убедительную точность и получив признание. То же – и с языкознанием.

Напрашивается вопрос, что же содержится в объективных явлениях такое математическое, благодаря чему они и поддаются описанию на языке математики, на языке количественных характеристик? Это однородные единицы вещества, распределяемые в пространстве и времени. Те науки, которые дальше других прошли путь к выделению однородности, и оказываются лучше приспособленными для использования в них математики.

Стремительно развившаяся в 90е годы сеть Интернет объединила под собой представителей различных стран, народов и культур. Несмотря на то, что основным языком международного общения продолжает служить английский, Интернет в наше время стал многоязычным. Это обусловило развитие коммерчески успешных систем машинного перевода, широко использующихся в различных областях человеческой деятельности.

Компьютерные сети стали объектом философского осмысления – создавались всё новые лингвистические, логические, мировоззренческие концепции, помогающие понять «виртуальную реальность». Во многих художественных произведениях создавались сценарии – чаще пессимистические – о господстве машин над человеком, а виртуальной реаьности – над окружающим миром. Далеко не всегда подобные прогнозы оказывались бессмысленными. Информационные технологии – не только перспективная отрасль вложения человеческих знаний, это ещё и способ контроля над информацией, а, следовательно, и над человеческой мыслью.

У этого явления есть как отрицательная, так и положительная сторона. Отрицательная – потому что контроль над информацией противоречит неотъемлемому человеческому праву на свободный доступ к ней. Положительная – потому что отсутствие этого контроля может привести к катастрофическим последствиям для человечества. Достаточно вспомнить один из наиболее мудрых фильмов последнего десятилетия – «Когда наступит конец света» Вима Вендерса, герои которого полностью погрузились в «виртуальную реальность» собственных снов, записываемых на компьютер. Однако ни один учёный и ни один художник не может дать однозначного ответа на вопрос: что же ждёт науку и технику в будущем.

Ориентировка на «будущее», порой кажущееся фантастическим, была отличительной особенностью науки середины ХХ века, когда изобретатели стремились создать совершенные образцы техники, которые могут работать без вмешательства человека. Время показало утопичность подобных изысканий. Однако было бы излишним осуждать учёных за это – без их энтузиазма в 1950е – 60е информационные технологии не сделали бы столь мощного скачка в 90е, и мы бы не имели того, что имеем сейчас.

Последние десятилетия ХХ века изменили приоритеты науки – исследовательский, изобретательский пафос уступил место коммерческому интересу. Опять же – это не хорошо и не плохо. Это – реальность, в которой наука оказывается всё более интегрированной в повседневную жизнь.

Наступивший XXI век продолжил эту тенденцию, и в наше время за изобретениями стоят не только слава и признание, но, в первую очередь, деньги. Ещё и поэтому важно заботиться о том, чтобы новейшие достижения науки и техники не попали в руки террористических группировок или диктаторских режимов. Задача сложная до невозможности; максимально осуществить её – задача всего мирового сообщества.

Информация – оружие, причём оружие не менее опасное, чем ядерное или химическое – только действует оно не физически, а, скорее, психологически. Человечеству надо задуматься о том, что для него в этом случае важнее – свобода или контроль.

Новейшие философские концепции, связанные с развитием информационных технологий и попыткой их осмыслить, показали ограниченность как естественнонаучного материализма, господствовавшего на протяжении ХIХ – начала ХХ веков, так и крайнего идеализма, отрицающего значимость материального мира. Современной мысли, особенно мысли Запада, важно преодолеть этот дуализм в мышлении, когда окружающий мир чётко делится на материальное и идеальное. Путь к этому – диалог культур, сопоставление разных точек зрения на окружающие явления.

Как ни парадоксально, информационные технологии могут сыграть не последнюю роль в этом процессе. Компьютерные сети, и особенно Интернет – это не только ресурс для развлечения и бурной коммерческой деятельности, это ещё и средство осмысленного, спорного общения между представителями различных цивилизаций в современном мире, а также для диалога прошлого с настоящим. Можно сказать, что Интернет раздвигает пространственные и временные рамки.

А в диалоге культур посредством информационных технологий по-прежнему важна роль языка как древнейшего универсального средства общения. Именно поэтому лингвистика во взаимодействии с математикой, философией и информатикой пережила своё второе рождение и продолжает развиваться поныне. Тенденция настоящего продолжится и в будущем – «until the end of the world», как 15 лет назад предсказывал всё тот же В. Вендерс. Правда, неизвестно, когда произойдёт этот конец – но важно ли это сейчас, ведь будущее рано или поздно всё равно станет настоящим.

Приложение 1

Ferdinand de Saussure

The Swiss linguist Ferdinand de Saussure (1857-1913) is widely considered to be the founder of modern linguistics in its attempts to describe the structure of language rather than the history of particular languages and language forms. In fact, the method of Structuralism in linguistics and literary studies and a significant branch of Semiotics find their major starting point in his work at the turn of the twentieth century. It has even been argued that the complex of strategies and conceptions that has come to be called "poststructuralism" – the work of Jacques Derrida, Michel Foucault, Jacques Lacan, Julia Kristeva, Roland Barthes, and others – is suggested by Saussure"s work in linguistics and anagrammatic readings of late Latin poetry. If this is so, it can be seen most clearly in the way that Saussure"s work in linguistics and interpretation participates in transformations in modes of understanding across a wide range of intellectual disciplines from physics to literary modernism to psychoanalysis and philosophy in the early twentieth century. As Algirdas Julien Greimas and Joseph Courtés argue in Semiotics and Language: An Analytic Dictionary, under the heading "Interpretation," a new mode of interpretation arose in the early twentieth century which they identify with Saussurean linguistics, Husserlian Phenomenology, and Freudian psychoanalysis. In this mode, "interpretation is no longer a matter of attributing a given content to a form which would otherwise lack one; rather, it is a paraphrase which formulates in another fashion the equivalent content of a signifying element within a given semiotic system" (159). In this understanding of "interpretation," form and content are not distinct; rather, every "form" is, alternatively, a semantic "content" as well, a "signifying form," so that interpretation offers an analogical paraphrase of something that already signifies within some other system of signification.

Such a reinterpretation of form and understanding – which Claude Lévi-Strauss describes in one of his most programmatic articulations of the concept of structuralism, in "Structure and Form: Reflections on a Work by Vladimir Propp" – is implicit in Saussure"s posthumous Course in General Linguistics (1916, trans., 1959, 1983). In his lifetime, Saussure published relatively little, and his major work, the Course, was the transcription by his students of several courses in general linguistics he offered in 1907-11. In the Course Saussure called for the "scientific" study of language as opposed to the work in historical linguistics that had been done in the nineteenth century. That work is one of the great achievements of Western intellect: taking particular words as the building blocks of language, historical (or "diachronic") linguistics traced the origin and development of Western languages from a putative common language source, first an "Indo-European" language and then an earlier "proto-Indo-European" language.

It is precisely this study of the unique occurrences of words, with the concomitant assumption that the basic "unit" of language is, in fact, the positive existence of these "word-elements," that Saussure questioned. His work was an attempt to reduce the mass of facts about language, studied so minutely by historical linguistics, to a manageable number of propositions. The "comparative school" of nineteenth-century Philology, Saussure says in the Course, "did not succeed in setting up the true science of linguistics" because "it failed to seek out the nature of its object of study" ( 3). That "nature," he argues, is to be found not simply in the "elemental" words that a language comprises – the seeming "positive" facts (or "substances") of language – but in the formal relationships that give rise to those "substances."

Saussure"s systematic reexamination of language is based upon three assumptions. The first is that the scientific study of language needs to develop and study the system rather than the history of linguistic phenomena. For this reason, he distinguishes between the particular occurrences of language – its particular "speech-events," which he designates as parole – and the proper object of linguistics, the system (or "code") governing those events, which he designates as langue. Such a systematic study, moreover, calls for a "synchronic" conception of the relationship among the elements of language at a particular instant rather than the "diachronic" study of the development of language through history.

This assumption gave rise to what Roman Jakobson in 1929 came to designate as "structuralism," in which "any set of phenomena examined by contemporary science is treated not as a mechanical agglomeration but as a structural whole the mechanical conception of processes yields to the question of their function" ("Romantic" 711). In this passage Jakobson is articulating Saussure"s intention to define linguistics as a scientific system as opposed to a simple, "mechanical" accounting of historical accidents. Along with this, moreover, Jakobson is also describing the second foundational assumption in Saussurean – we can now call it "structural" – linguistics: that the basic elements of language can only be studied in relation to their functions rather than in relation to their causes. Instead of studying particular and unique events and entities (i.e., the history of particular Indo-European "words"), those events and entities have to be situated within a systemic framework in which they are related to other so-called events and entities. This is a radical reorientation in conceiving of experience and phenomena, one whose importance the philosopher Ernst Cassirer has compared to "the new science of Galileo which in the seventeenth century changed our whole concept of the physical world" (cited in Culler, Pursuit 24). This change, as Greimas and Courtés note, reconceives "interpretation" and thus reconceives explanation and understanding themselves. Instead of explanation"s being in terms of a phenomenon"s causes, so that, as an "effect," it is in some ways subordinate to its causes, explanation here consists in subordinating a phenomenon to its future-oriented "function" or "purpose." Explanation is no longer independent of human intentions or purposes (even though those intentions can be impersonal, communal, or, in Freudian terms, "unconscious").

In his linguistics Saussure accomplishes this transformation specifically in the redefinition of the linguistic "word," which he describes as the linguistic "sign" and defines in functionalist terms. The sign, he argues, is the union of "a concept and a sound image," which he called "signified and signifier " (66-67; Roy Harris"s 1983 translation offers the terms "signification" and "signal" ). The nature of their "combination" is "functional" in that neither the signified nor the signifier is the "cause" of the other; rather, "each its values from the other" (8). In this way, Saussure defines the basic element of language, the sign, relationally and makes the basic assumption of historical linguistics, namely, the identity of the elemental units of language and signification (i.e., "words"), subject to rigorous analysis. The reason we can recognize different occurrences of the word "tree" as the "same" word is not because the word is defined by inherent qualities – it is not a "mechanical agglomeration" of such qualities – but because it is defined as an element in a system, the "structural whole," of language.

Such a relational (or "diacritical") definition of an entity governs the conception of all the elements of language in structural linguistics. This is clearest in the most impressive achievement of Saussurean linguistics, the development of the concepts of the "phonemes" and "distinctive features" of language. Phonemes are the smallest articulated and signifying units of a language. They are not the sounds that occur in language but the "sound images" Saussure mentions, which are apprehended by speakers – phenomenally apprehended – as conveying meaning. (Thus, Elmar Holenstein describes Jakobson"s linguistics, which follows Saussure in important ways, as "phenomenological structuralism.") It is for this reason that the leading spokesperson for Prague School Structuralism, Jan Mukarovsky, noted in 1937 that "structure . . . is a phenomenological and not an empirical reality; it is not the work itself, but a set of functional relationships which are located in the consciousness of a collective (generation, milieu, etc.)" (cited in Galan 35). Similarly, Lévi-Strauss, the leading spokesperson for French structuralism, noted in 1960 that "structure has no distinct content; it is content itself, and the logical organization in which it is arrested is conceived as a property of the real" (167; see also Jakobson, Fundamentals 27-28).

Phonemes, then, the smallest perceptible elements of language, are not positive objects but a "phenomenological reality." In English, for instance, the phoneme /t/ can be pronounced in many different ways, but in all cases an English speaker will recognize it as functioning as a /t/. An aspirated t (i.e., a t pronounced with an h-like breath after it), a high-pitched or low-pitched t sound, an extended t sound, and so on, will all function in the same manner in distinguishing the meaning of "to" and "do" in English. Moreover, the differences between languages are such that phonological variations in one language can constitute distinct phonemes in another; thus, English distinguishes between /l/ and /r/, whereas other languages are so structured that these articulations are considered variations of the same phoneme (like the aspirated and unaspirated t in English). In every natural language, the vast number of possible words is a combination of a small number of phonemes. English, for instance, possesses less than 40 phonemes that combine to form over a million different words.

The phonemes of language are themselves systematically organized structures of features. In the 1920s and 1930s, following Saussure"s lead, Jakobson and N. S. Trubetzkoy isolated the "distinctive features" of phonemes. These features are based upon the physiological structure of the speech organs – tongue, teeth, vocal chords, and so on – that Saussure mentions in the Course and that Harris describes as "physiological phonetics" ( 39; Baskin"s earlier translation uses the term "phonology" [(1959) 38]) – and they combine in "bundles" of binary oppositions to form phonemes. For instance, in English the difference between /t/ and /d/ is the presence or absence of "voice" (the engagement of the vocal chords), and on the level of voicing these phonemes reciprocally define one another. In this way, phonology is a specific example of a general rule of language described by Saussure: In language there are only differences. Even more important: a difference generally implies positive terms between which the difference is set up; but in language there are only differences without positive terms. Whether we take the signified or the signifier, language has neither ideas nor sounds that existed before the linguistic system. ( 120)

In this framework, linguistic identities are determined not by inherent qualities but by systemic ("structural") relationships.

I have said that phonology "followed the lead" of Saussure, because even though his analysis of the physiology of language production "would nowadays," as Harris says, "be called "physical," as opposed to either "psychological" or "functional"" (Reading 49), nevertheless in the Course he articulated the direction and outlines of a functional analysis of language. Similarly, his only extended published work, Mémoire sur le système primitif des voyelles dans les langues indo-européennes (Memoir on the primitive system of vowels in Indo-European languages), which appeared in 1878, was fully situated within the project of nineteenth-century historical linguistics. Nevertheless, within this work, as Jonathan Culler has argued, Saussure demonstrated "the fecundity of thinking of language as a system of purely relational items, even when working at the task of historical reconstruction" (Saussure 66). By analyzing the systematic structural relationships among phonemes to account for patterns of vowel alternation in existing Indo-European languages, Saussure suggested that in addition to several different phonemes /a/, there must have been another phoneme that could be described formally. "What makes Saussure"s work so very impressive," Culler concludes, "is the fact that nearly fifty years later, when cuneiform Hittite was discovered and deciphered, it was found to contain a phoneme, written h, which behaved as Saussure had predicted. He had discovered, by a purely formal analysis, what are now known as the laryngeals of Indo-European" (66).

This conception of the relational or diacritical determination of the elements of signification, which is both implicit and explicit in the Course, suggests a third assumption governing structural linguistics, what Saussure calls "the arbitrary nature of the sign." By this he means that the relationship between the signifier and signified in language is never necessary (or "motivated"): one could just as easily find the sound signifier arbre as the signifier tree to unite with the concept "tree". But more than this, it means that the signified is arbitrary as well: one could as easily define the concept "tree" by its woody quality (which would exclude palm trees) as by its size (which excludes the "low woody plants" we call shrubs). This should make clear that the numbering of assumptions I have been presenting does not represent an order of priority: each assumption – the systemic nature of signification (best apprehended by studying language "synchronically"), the relational or "diacritical" nature of the elements of signification, the arbitrary nature of signs – derives its value from the others.

That is, Saussurean linguistics understands the phenomena it studies in overarching relationships of combination and contrast in language. In this conception, language is both the process of articulating meaning (signification) and its product (communication), and these two functions of language are neither identical nor fully congruent (see Schleifer, "Deconstruction"). Here, we can see the alternation between form and content that Greimas and Courtés describe in modernist interpretation: language presents contrasts that formally define its units, and these units combine on succeeding levels to create the signifying content. Since the elements of language are arbitrary, moreover, neither contrast nor combination can be said to be basic. Thus, in language distinctive features combine to form contrasting phonemes on another level of apprehension, phonemes combine to form contrasting morphemes, morphemes combine to form words, words combine to form sentences, and so on. In each instance, the whole phoneme, or word, or sentence, and so on, is greater than the sum of its parts (just as water, H2O, in Saussure"s example [(1959) 103] is more than the mechanical agglomeration of hydrogen and oxygen).

The three assumptions of the Course in General Linguistics led Saussure to call for a new science of the twentieth century that would go beyond linguistic science to study "the life of signs within society." Saussure named this science "semiology (from Greek semeîon "sign")" (16). The "science" of semiotics, as it came to be practiced in Eastern Europe in the 1920s and 1930s and Paris in the 1950s and 1960s, widened the study of language and linguistic structures to literary artifacts constituted (or articulated) by those structures. Throughout the late part of his career, moreover, even while he was offering the courses in general linguistics, Saussure pursued his own "semiotic" analysis of late Latin poetry in an attempt to discover deliberately concealed anagrams of proper names. The method of study was in many ways the opposite of the functional rationalism of his linguistic analyses: it attempted, as Saussure mentions in one of the 99 notebooks in which he pursued this study, to examine systematically the problem of "chance," which "becomes the inevitable foundation of everything" (cited in Starobinski 101). Such a study, as Saussure himself says, focuses on "the material fact" of chance and meaning (cited 101), so that the "theme-word" whose anagram Saussure is seeking, as Jean Starobinski argues, "is, for the poet, an instrument, and not a vital germ of the poem. The poem is obliged to re-employ the phonic materials of the theme-word" (45). In this analysis, Starobinski says, "Saussure did not lose himself in a search for hidden meanings." Instead, his work seems to demonstrate a desire to evade all the problems arising from consciousness: "Since poetry is not only realized in words but is something born from words, it escapes the arbitrary control of consciousness to depend solely on a kind of linguistic legality" (121).

That is, Saussure"s attempt to discover proper names in late Latin poetry – what Tzvetan Todorov calls the reduction of a "word . . . to its signifier" (266) – emphasizes one of the elements that governed his linguistic analysis, the arbitrary nature of the sign. (It also emphasizes the formal nature of Saussurean linguistics – "Language," he asserts, "is a form and not a substance" – which effectively eliminates semantics as a major object of analysis.) As Todorov concludes, Saussure"s work appears remarkably homogeneous today in its refusal to accept symbolic phenomena . . . . In his research on anagrams, he pays attention only to the phenomena of repetition, not to those of evocation. . . . In his studies of the Nibelungen, he recognizes symbols only in order to attribute them to mistaken readings: since they are not intentional, symbols do not exist. Finally in his courses on general linguistics, he contemplates the existence of semiology, and thus of signs other than linguistic ones; but this affirmation is at once limited by the fact that semiology is devoted to a single type of sign: those which are arbitrary. (269-70)

If this is true, it is because Saussure could not conceive of "intention" without a subject; he could not quite escape the opposition between form and content his work did so much to call into question. Instead, he resorted to "linguistic legality." Situated between, on the one hand, nineteenth-century conceptions of history, subjectivity, and the mode of causal interpretation governed by these conceptions and, on the other hand, twentieth-century "structuralist" conceptions of what Lévi-Strauss called "Kantianism without a transcendental subject" (cited in Connerton 23) – conceptions that erase the opposition between form and content (or subject and object) and the hierarchy of foreground and background in full-blown structuralism, psychoanalysis, and even quantum mechanics – the work of Ferdinand de Saussure in linguistics and semiotics circumscribes a signal moment in the study of meaning and culture.

Ronald Schleifer

Приложение 2

Фердинанд де Соссюр (перевод)

Швейцарский языковед Фердинанд де Соссюр (1857-1913) считается основателем современной лингвистики – благодаря своим попыткам описать структуру языка, а не историю отдельных языков и словоформ. По большому счёту, основы структурных методов в лингвистике и литературоведении и, в значительной мере, семиотики были заложены в его работах в самом начале двадцатого века. Доказано, что методы и концепции так называемого "постструктурализма", развитые в работах Жака Деррида, Мишеля Фуко, Жака Лакана, Юлии Кристевой, Ролана Барта и других, восходят к лингвистическим трудам Соссюра и анаграмматическим прочтениям поздней римской поэзии. Следует заметить, что работы Соссюра по лингвистике и языковой интерпретации помогает связать широкий круг интеллектуальных дисциплин – от физики до литературных новшеств, психоанализа и философии начала двадцатого века. А. Дж. Греймас и Ж. Курте пишут в «Семиотике и языке»: «Аналитический словарь с заголовком «Интерпретация» как новый вид интерпретации появился в начале ХХ века вместе с лингвистикой Соссюра, феноменологией Гуссерля и психоанализом Фрейда. В таком случае, "интерпретация – это не приписывание данного содержания к форме, которая иначе испытала бы недостаток в том; скорее это - пересказ, который формулирует другим способом то же содержание значимого элемента в пределах данной семиотической системы" (159). В таком понимании «интерпретации», форма и содержание неразрывны; напротив, каждая форма наполнена семантическим значением («значимая форма»), поэтому интерпретация предлагает новый, аналогичный пересказ чего-то, значимого в другой знаковой системе.

Подобное понимание формы и содержания, представляемое Клодом Леви-Строссом в одной из программных работ структурализма, ("Структура и Форма: Размышления над трудами Владимира Проппа") – можно увидеть в посмертно вышедшей книге Соссюра «Курс общей лингвистики» (1916, пер., 1959, 1983). При жизни Соссюр мало публиковался, «Курс» – его основная работа – был собран по конспектам студентов, посещавших его лекции по общей лингвистике в 1907-11 гг. В «Курсе» Соссюр призывал к «научному» исследованию языка, противопоставляя его сравнительно-историческому языкознанию девятнадцатого века. Эту работу можно считать одним из величайших достижений западной мысли: беря за основу отдельные слова как структурные элементы языка, историческое (или «диахроническое») языкознание доказывало происхождение и развитие западноевропейских языков от общего, индоевропейского языка– и более раннего праиндоевропейского.

Это - точно это исследование уникальных возникновений слов, с сопутствующим предположением, что основная "единица" языка, фактически, положительное существование этих "элементов слова", что Соссюр подверг сомнению. Его работа была попыткой сократить множество фактов о языке, вскользь изученных сравнительной лингвистикой, до небольшого числа теорем. Сравнительная филологическая школа XIX века, пишет Соссюр, «не преуспела в создании настоящей школы лингвистики», так как «она не поняла сущности объекта изучения» ( 3). Эта «сущность», утверждает он, заключается не только в отдельных словах – «позитивных субстанциях» языка – но и в формальных связях, помогающих этим субстанциям существовать.

Соссюровская «проверка» языка основана на трёх предположениях. Первое: научное понимание языка основано не на историческом, а на структурном феномене. Поэтому он различал отдельные явления языка –«события речи», которые он определяет как «parole» – и надлежащий, по его мнению, объект изучения лингвистики, систему (код, структуру), управляющую этими событиями («langue»). Подобное систематическое изучение, кроме того, требует «синхронной» концепции отношений между элементами языка в данный момент, а не «диахронического» исследования развития языка через его историю.

Эта гипотеза стала предтечей того, что Роман Якобсон в 1929 назовёт «структурализмом» – теории, где "любой набор явлений, исследованный современной наукой, рассматривается не как механическое скопление, а как структурное целое, в котором конструктивная составляющая соотносится с функцией" ("Romantic" 711). В этом отрывке Якобсон сформулировал соссюровскую идею определения языка как структуры в противовес «машинальному» перечислению исторических событий. Кроме того, Якобсон развивает и другое соссюровское предположение, ставшее предтечей стркутурной лингвистики: базовые элементы языка должны изучаться в связи не столько со своими причинами, сколько со своими функциями. Отдельные явления и события (скажем, история происхождения отдельных индоевропейских слов) должны изучаться не сами по себе, а в системе, в котрой они соотнесены с подобными же составляющими. Это был радикальный поворот в сопоставлении явлений с окружающей действительностью, значимость которого философ Эрнст Кассирер сравнил с «наукой Галилея, перевернувшей в семнадцатом веке представления о материальном мире". Такой поворот, как замечают Греймас и Курте, меняет представление о «интерпретации», а, седовательно, и сами объяснения. Явления стали трактоваться не относительно причин их возникновения, а относительно того эффекта, который они могут оакзать в настоящем и будущем. Толкование перестало быть независимым от намерений человека(несмотря на то, что намерения могут быть безличными, «бессознательными» во фрейдистском понимании этого слова).

В своей лингвистике Соссюр особенно показывает этот поворот в изменении понятия слова в лингвистике, которое он определяет как знак и описывает с точки зрения его функций. Знак для него –соединение звучания и смысла, «обозначаемого и обозначения » (66-67; в английском переводе 1983 года авторства Роя Харриса – «signification» и "signal" ). Природа этого соединения – «функциональная» (ни тот, ни другой элемент не могут существовать друг без друга); более того, "одно заимствует качества у другого" (8). Таким образом Соссюр определяет основной структурный элемент языка – знак – и делает основой исторического языкознания идентичность знаков словам, что требует особо строгого анализа. Поэтому мы можем понять разные значения, скажем, одного и того же слова «дерево» – не потому что слово представляет собой лишь набор определённых качеств, а потому что оно определено как элемент в знаковой системе, в «структурном целом», в языке.

Подобное относительное («диакритическое») понятие единства лежит в основе представления о всех элементах языка в структурной лингвистике. Это особенно ясно видно в наиболее оригинальной находкесоссюровского языкознания, в развитии концепции «фонем» и «отличительных особенностей» языка. Фонемы – самые мелкие из произносимых и значимых языковых единиц. Они являются не только звуками, встречающимися в языке, но «звуковыми образами», замечает Соссюр, которые воспринимаются носителями языка как обладающие значением. (Следует заметить, что Элмар Холенштейн называет лингвистику Якобсона, по основным положениям продолжающего идеи и концепции Соссюра, «феноменологическим структурализмом»). Именно поэтому ведущий докладчик пражской школы структурализма, Ян Мукаровский, заметил в 1937 году, что «структура. . . не эмпирическое, а феноменологическое понятие; это не сам результат, а набор значимых отношений коллективного сознания (поколения, окружающих и т.д.)». Похожую мысль высказал в 1960 году Леви-Стросс, лидер французского структурализма: «У структуры нет определённого содержания; она сама по себе содержательна, и логическая конструкция, в которую она заключена, представляет собой отпечаток реальности».

В свою очередь, фонемы, как самые мелкие языковые элементы, приемлемые для восприятия, представляют собой отдельную цельную «феноменологическую реальность». Например, в английском языке звук «т» может произноситься по-разному, но во всех случаях человек, владеющий английским, будет воспринимать его как «т». Произнесённый с придыханием, с высоким или низким подъёмом языка, долгий звук «т» и т.п будет одинаково различать значение слов «to» и «do». Более того – различия между языками таковы, что разновидности одного звука в одном языке могут соответствовать разным фонемам в другом; например «л» и «р» в английском различны, в то время как в других языках это разновидности одной фонемы (подобно английскому «т», произнесённому с придыханием и без). Обширный словарный запас любого естественного языка представляет собой набор сочетаний гораздо меньшего количества фонем. В английском, например, для произнесения и написания около миллиона слов используется всего 40 фонем.

Звуки языка представляют собой системно организованный набор черт. В 1920е –1930е, вслед за Соссюром, Якобсон и Н.С.Трубецкой выделили «отличительные черты» фонем. Эти черты основаны на строении органов речи – языка, зубов, голосовых связок – Соссюр замечает это в «Курсе общей лингвистики», а Харрис называет «физиологической фонетикой» (в более раннем переводе Баскина используется термин «фонология») – они соединяются в «узлы» дург против друга, чтобы издавать звуки. Скажем, in в английском разница между «т» и «д» заключается в наличии или отсутствии «голоса» (напряжении голосовых связок), и в уровне голоса, отличающем одну фонему от другой. Таким образом, фонологию можно считать примером общего языкового праивла, описанного Соссюром: «В языке есть только различия». Более важно даже не это: различие обычно подразумевает точные условия, между которыми оно и находится; но в языке существуют только различия без точных условий. Рассматриваем ли мы «обозначение» или «обозначаемое» – в языке не существует ни понятий, ни звуков, которые существовали бы до того, как развилась языковая система.

В подобной структуре, языковые аналогии определены не с помощью изначально присущих им качеств, а с помощью системных («структурных») отношений.

Я уже упомянул, что фонология в своём развитии опиралась на идеи Соссюра. Несмотря на то, что его анализ языковой физиологии в наше время по словам Харриса, «был бы назван «физическим», в противовес «психологическому» или «функциональному», в «Курсе» он отчётливо сформулировал направление и основные принципы функционального анализа языка. Его единственная изданная при жизни работа, «Mémoire sur le système primitif des voyelles dans les langues indo-européennes» (Записки о первоначальной системе гласных в индоевропейских языках), изданная в 1878, полностью находилась в русле сравнительно-исторического языкознания XIX века. Тем не менее этим трудом, как говорит Джонатан Каллер, Соссюр показал «плодотворность представления о языке как о системе взаимосвязанных явлений, даже при его исторической реконструкции». Анализируя взаимосвязи между фонемами, объясняя чередования гласных в современных языках индоевропейской группы, Соссюр предположил, что кроме нескольких разных звуков «а», должны быть и другие фонемы, описываемые формально. «Что производит особое впечатление в труде Соссюра, – делает вывод Каллер, – то, что почти 50 лет спустя, при открытии и расшифровке хеттской клинописи, была найдена фонема, на письме обозначаемая «h», которая вела себя так, как предсказывал Соссюр. С помощью формального анализа он открыл то, что сейчас известно как гортанный звук в индоевропейских языках.

В концепция относительного (диакритического) определения знаков, как явно выраженной, так и подразумеваемой в «Курсе», существует и третье ключевое предположение структурной лингвистики, названное Соссюром «произвольной природой знака». Под этим подразумевается, что отношение между звучанием и значением в языке ничем не мотивировано: с одинаковой лёгкостью можно соединить слово «arbre» и слово «tree» с понятием «дерево». Более того, это значит, что звучание тоже произвольно: можно определить понятие «дерево» по наличию у него коры (кроме пальм) и по размеру (кроме «низких древесных растений» - кустарников). Из этого должно быть понятно, что все представляемые мною предположения не делятся на более и менее важные: каждое из них – системный характер знаков (более всего понятный при «синхронном» изучении языка), их относительная (диакритическая) сущность, произвольная природа знаков – исходит из остальных.

Таким образом, в соссюровском языкознании изучаемый феномен понимается как свод сопоставлений и противопоставлений языка. Язык – это и выражение значения слов (обозначение), и их результат (общение) – и эти две функции никогда не совпадают (см. «Деконструкцию языка» Шлейфера). Мы можем заметить чередование формы и содержания, которое Греймас и Курте описывают в новейшем варианте интерпретации: языковые контрасты определяют его структурные единицы, и эти единицы взаимодействуют на сменяющих друг друга уровнях, чтобы создать определённое значимое содержание. Так как элементы языка случайны, ни контраст, ни сочетание не могут быть основой. Значит, в языке отличительные признаки формируют фонетический контраст на другом уровне понимания, фонемы соединяются в контрастные морфемы, морфемы – в слова, слова – в предложения и т.д. В любом случае, целая фонема, слово, предложение и т.д. представляет собой нечто большее, чем сумма составляющих (так же как вода, в соссюровском примере – больше, чем сочетание водорода и кислорода).

Три предположения «Курса общей лингвистики» привели Соссюра к идее новой науки двадцатого века, отдельно от лингвистики изучающей «жизнь знаков в обществе». Соссюр назвал эту науку семиологией (от греческого «semeîon» - знак). «Наука» семиотики, развивавшаяся в Восточной Европе в 1920е –1930е и в Париже в 1950е and 1960е, расширила изучение языка и лингвистических структур до литературных находок, составленных (или сформулированных) с помощью этих структур. Кроме того, на закате своей карьеры, параллельно своему курсу общей лингвистики, Соссюр занялся «семиотическим» анализом поздней римской поэзии, пытаясь открыть умышленно составленные анаграммы имён собственных. Этот метод был во многом противоположен рационализму в его лингвистическом анализе: он был попыткой, как пишет Соссюр в одной из 99 записных книжек, изучить в системе проблему «вероятности», которая «становится основой всего». Такое исследование, как утверждает сам Соссюр, помогает сосредоточиться на «вещественной стороне» вероятности; «ключевое слово», анаграмму которого ищет Соссюр, как утверждает Жан Старобинский, «инструмент для поэта, а не источник жизни стихотворения. Стихотворение служит для того, чтобы поменять местами звуки ключевого слова». По словам Старобинского, в этом анализе «Соссюр не углубляется в поиски скрытых смыслов». Напротив, в его работах заметно желание избежать вопросов, связанных с сознанием: «так как поэзия выражается не только в словах, но и в том, что порождают эти слова, она выходит из-под контроля сознания и зависит только от законов языка».

Попытка Соссюра изучить имена собственные в поздней римской поэзии (Цветан Тодоров назвал это сокращением «слова... лишь до его написания») подчёркивает одну из составляющих его лингвистического анализа – произвольную природу знаков, а также формальную сущность соссюровской лингвистики («Язык, – утверждает он, «суть форма, а не явление»), что исключает возможность анализа смысла. Тодоров делает вывод, что в наши дни труды Соссюра выглядят на редкость последовательными в нежелании изучать символы [явления, имеющие чётко определённое значение]. . . . Исследуя анаграммы, Соссюр обращает внимание только на повторение, но не на предшествующие варианты. . . . Изучая «Песнь о Нибелунгах», он определяет символы только для того, чтобы присвоить их ошибочным чтениям: если они неумышленны, символов не существует. В конце концов, в своих трудах по общей лингвистике он делает предположение о существовании семиологии, описывающей не только лингвистические знаки; но это предположение ограничивается тем, что семилогоия может описывать только случайные, произвольные знаки.

Раз это действительно так, то только потому, что не мог представить «намерение» без предмета; он не мог до конца преодолеть пропасть между формой и содержанием – в его трудах это превращалось в вопрос. Вместо этого он обращался к «языковой законности». Находясь между, с одной стороны, концепциями девятнадцатого века, основанными на истории и субъективных догадках, и методах случайной интерпретации, основанных на этих концепциях, и, с другой стороны, структуралистскими концепциями, которые Леви-Стросс назвал «кантианством без трансцендентного действующего лица» – стирающими противостояние между формой и содержанием (субъектом и объектом), значением и происхождением в структурализме, психоанализе и даже квантовой механике – труды Ферлинанда де Соссюра по лингвистике и семиотике обозначают поворотный момент в изучении значений в языке и культуре.

Рональд Шлейфер

Литература

1. Адмони В.Г. Основы теории грамматики / В.Г. Адмони; АН СССР.-М.: Наука, 1964.-104с.

4. Арнольд И.В. Семантическая структура слова в современном английском языке и методика её исследования. /И.В. Арнольд– Л.: Просвещение, 1966. – 187 с.

6.Башлыков А.М. Система автоматизированного перевода. / А.М. Башлыков, А.А. Соколов. – М.: ООО «ФИМА», 1997. – 20 с.

7.Бодуэн де Куртенэ: Теоретическое насле дие и современность: Тезисы докладов международной научной конференции / Ред.И.Г. Кондратьева. – Казань: КГУ, 1995. – 224 с.

8. Гладкий А.В., Элементы математической лигвистики. / . Гладкий А.В., Мельчук И.А. –М., 1969. – 198 с.

9. Головин, Б.Н. Язык и статистика. /Б.Н. Головин –М., 1971. – 210 с.

10. Звегинцев, В.А. Теоретическая и прикладная лингвистика. / В.А. Звегинцев –М., 1969. – 143 с.

11. Касевич, В.Б. Семантика. Синтаксис. Морфология. // В.Б. Касевич –М., 1988. – 292 c.

12. Лекомцев Ю.К. Введение в формальный язык лингвистики/ Ю.К. Лекомцев. – М.: Наука, 1983, 204 с., ил.

13. Лингвистическое наследие Бодуэна де Куртенэ на исходе ХХ столетия: Тезисы докладов международской научно-практическтй конференции 15-18 марта 2000 года. – Красноярск, 2000. – 125 с.

Матвеева Г.Г. Скрытые грамматические значения и идентификация социального лица («портрета») говорящего/ Г.Г. Матвеева. – Ростов, 1999. – 174 с.

14. Мельчук, И.A. Опыт постpоения лингвистических моделей "Смысл <--> Текст"./ И.А. Мельчук. – М., 1974. – 145 c.

15. Нелюбин Л.Л. Перевод и прикладная лингвистика/Л.Л. Нелюбин. – М. : Высшая школа, 1983. – 207 с.

16. О точных методах исследования языка: о так называемой «математической лингвистике»/ О.С. Ахманова, И. А. Мельчук, Е.В. Падучева и др. – М., 1961. – 162 с.

17. Пиотровский Л.Г. Математическая лингвистика: Учебное пособие/ Л.Г. Пиотровский, К.Б. Бектаев, А.А. Пиотровская. – М.: Высшая школа, 1977. – 160 с.

18.Он же. Текст, машина, человек. – Л., 1975. – 213 с.

19. Он же. Прикладное языкознание / Под ред. А.С Герда. – Л., 1986. – 176 с.

20. Ревзин, И.И. Модели языка. М., 1963. Ревзин, И.И. Современная структурная лингвистика. Проблемы и методы. М., 1977. – 239 с.

21. Ревзин, И.И., Розенцвейг, В.Ю. Основы общего и машинного перевода/Ревзин И.И., Розенцвейг, В.Ю. – М., 1964. – 401 с.

22. Слюсарёва Н.А. Теория Ф.де Соссюра в свете современной лингвистики/ Н.А. Слюсарева. – М.:Наука, 1975. – 156 с.

23. Сова, Л.З. Аналитическая лингвистика/ Л.З. Сова – М., 1970. – 192 с.

24. Соссюр Ф. де. Заметки по общей лингвистике/ Ф. де Соссюр; Пер. с фр. – М.: Прогресс, 2000. – 187 с.

25. Он же. Курс общей лингвистики/ Пер. с фр. – Екатеринбург, 1999. –426 с.

26. Статистика речи и автоматический анализ текста / Отв. ред. Р.Г. Пиотровский. Л., 1980. – 223 с.

27. Столл, P. Множествa. Логикa. Aксиомaтические теоpии./ Р. Столл; Пер. с англ. – М., 1968. – 180 с.

28. Теньер, Л. Основы структурного синтаксиса. М., 1988.

29. Убин И.И. Автоматизация переводческой деятельности в СССР/ И.И. Убин, Л.Ю. Коростелёв, Б.Д. Тихомиров. – М., 1989. – 28 с.

30. Фоp, P. , Кофмaн, A., Дени-Пaпен, М. Совpеменнaя мaтемaтикa. М., 1966.

31. Шенк, Р. Обработка концептуальной информации. М., 1980.

32. Шихaнович, Ю.A. Введение в современную мaтемaтику (нaчaльные понятия). М., 1965

33. Щерба Л.В. Русские гласные в качественном и количественном отношении/ Л.В. Щерба – Л.: Наука, 1983. – 159 с.

34. Абдулла-заде Ф. Гражданин мира// Огонёк – 1996. – №5. – С.13

35. В.А. Успенский. Предварение для читателей «Нового литературного обозрения» к семиотическим посланиям Андрея Николаевича Колмогорова. – Новое литературное обозрение. –1997. – № 24. – С. 18-23

36. Перловский Л. Сознание, язык и культура. – Знание – сила. –2000. №4 – С. 20-33

37. Фрумкина Р.М. О нас – наискосок. //Русский Журнал. – 2000. – №1. – С. 12

38. Фитиалов, С.Я. О моделировании синтаксиса в структурной лингвистике // Проблемы структурной лингвистики. М., 1962.

39. Он же. Об эквивалентности грамматики НС и грамматики зависимостей // Проблемы структурной лингвистики. М., 1967.

40. Хомский, Н. Логические основы лингвистической теории // Новое в лингвистике. Вып. 4. М., 1965

41. Schleifer R. Ferdinand de Saussure// press. jhu.ru

42. www.krugosvet.ru

43. www.lenta.ru

45. press. jhu.ru

46. ru.wikipedia.org

Не подлежит сомнению, что использование в языкознании математических и логических методов ("точных методов") в значительной степени было стимулировано задачами прикладной лингвистики. Если и делались попытки приложения этих методов для решения проблем, непосредственно относящихся к области теоретического языкознания, например для разграничения явлений языка и речи * , то в перспективе (хотя, может быть, и не всегда ясной и близкой) имелись в виду все же потребности прикладной лингвистики. Между прочим, это означает, что оценка результатов подобного рода операций должна производиться с обязательным учетом целей прикладной лингвистики.

* (См.: G. Нerdan, Language as Choice and Chance, Groningen, 1956. )

Успех использования этих методов в совершенно новой области с общей точки зрения во многом обусловливается ответом на вопрос, в какой мере допустимо отождествление логически правильного языка с естественным языком, или, в другой формулировке, возможно ли сведение второго к первому * . Ответ на этот вопрос обычно дается в практической форме - посредством построения статистических, теоретико-информационных, теорети ко-множественных, теоретико-вероятностных и других математических моделей языка, не всегда, впрочем, ориентирующихся на конкретные задачи ** . При построении подобного рода моделей их авторы нередко исходят из того допущения (очевидного с их точки зрения), что любое приложение формально-логического или математического аппарата к лингвистическому описанию и исследованию автоматически способствует их совершенствованию. По этому поводу хорошо сказал Уоррен Плят в своем обзоре работ по математической лингвистике: "Если рассматривать языковые модели как абстрактные системы дискретных элементов, то к ним можно применять различные математические понятия и методы, начиная от элементарной идеи числа и кончая сложными "логическими, статистическими и теоретико-множественными операциями. Однако представление о том, что всякое привлечение чисел и математических операций для описания таких систем элементов делает утверждения более "точными" или более "научными", является абсолютно ошибочным. Нужно прежде всего показать, что новая система, полученная таким образом, является более удовлетворительной моделью" чем исходная система,- либо в том отношении, что она дает возможность формулировать более простые и более общие теоретические утверждения о некоторых аспектах моделируемой области, либо потому, что операции над моделью проливают свет на результаты соответствующих операций в моделируемой области. Одна из основных опасностей, связанных с построением математических моделей языка, в особенности количественных, состоит в том, что неразборчивое использование математического аппарата неизбежно приводит к бессмысленным и дезориентирующим результатам. Необходимо ясно понимать поэтому, что предпосылкой обогащения лингвистики с помощью математики является не только знание соответствующих областей математики, но и, кроме того, глубокое понимание сущности лингвистических проблем, на разрешение которых должны быть направлены математические методы" *** .

* (Ср. замечание Г. Карри: "То, что существует тесная связь между математикой и логикой, с одной стороны, и языком - с другой, стало очевидным уже достаточно давно, а сейчас этот факт оказался в центре внимания в более строгом омысле..." (Н. В. Curry, Some Logical Aspects of Grammatical Structure, в материалах симпозиума "Structure of Language and its Mathematical Aspects", Providence, 1961, p. 57). )

** (Весьма своевременным в этой связи представляется замечание П. Гарвина (сделанное им в рецензии на кн. У. Вar-Hillel, Language and Information: Selected Essays on Their Theory and Application, London, 1964): "Большинство работ по теории обработки информации и приложений для ее целей вычислительных машин совершенно наивно и, бесспорно, не так полезно, как это было бы желательно". Касаясь негативной позиции Бар-Хиллела относительно эффективности логико-математических методов для автоматической обработки речевой информации, П. Гарвин полагает, что в ней все же содержатся позитивные элементы, так как эта позиция "заставит по крайней мере некоторых ученых относиться менее серьезно к своим теориям" (журнал "American Documentation", New York," vol. 16, N 2, 1965, p. 127). )

*** (W. Рlath, Mathematical Linguistics. В кн.: "Trends in European and American Linguistics 1930-1960", Antwerp, 1961, pp. 22-2Э. )

С тем чтобы, по возможности, избежать указанной Уорреном Плятом опасности, необходимо не только располагать чисто эмпирическими попытками ответа на формулированный выше вопрос, но и стремиться к его общетеоретическому осмыслению. По сути дела, вопрос о сводимости естественного языка к той или иной логико-математической его модели или интерпретации есть основной вопрос теории прикладной лингвистики, необходимость создания которой ощущается все более настоятельно. При рассмотрении данного вопроса в первую очередь должна быть рассмотрена природа тех явлений, которые составляют предмет изучения, с одной стороны, логики и математики, а с другой, естественного языка, а затем также возможности тех методов, которыми работает каждая из этих наук. Уже из сопоставительного изучения этих моментов окажется возможным сделать некоторые общие выводы, которые могут быть небесполезными для всех тех, кому по необходимости приходится проводить свои исследования на пересечении перечисленных наук.

До известной степени этой цели служит симпозиум "Структура языка и его математические аспекты", проведенный Американским математическим обществом * . Но все они, как это явствует и из самого названия симпозиума, затрагивают только отдельные и в ряде случаев весьма частные аспекты интересующей нас проблемы. Хотя в своей совокупности они и создают достаточно аргументированные предпосылки для ответа на разбираемый нами вопрос, однако в них все же отсутствует четкое и недвусмысленное формулирование необходимых выводов. Во многом участники симпозиума продолжают линию эмпирических попыток разрешения вопроса, отнюдь не навязчиво предлагая свои опыты вниманию лингвистов в надежде, что они уже сами разберутся в том, насколько представленные ими гипотезы и решения окажутся пригодными для их целей.

* ("Structure of Language and its Mathematical Aspects". Proc. of the Soc. of Appl. Math., 12. Providence, 1961. )

Более подходящими поэтому в качестве отправной точки для осмысления результатов работы лингвистов, логиков и математиков в разбираемом нами плане являются две статьи, помещенные в сборнике "Естественный язык и вычислительная машина" * :М.Мэрона "Точка зрения логика на обработку лингвистических данных" и П. Гарвина и В. Кэраша "Лингвистика, обработка лингвистических данных и математика". В них излагаются рабочие возможности логики и математики, их отношение к эмпирическим наукам, способы решения задач и пр. Обратимся к рассмотрению поднятых этими статьями проблем с точки зрения того вопроса, который был сформулирован выше.

* ("Natural Language and the Computer", ed. bv P. Garvin, New York, 1963. )

2

Казалось бы, мы уже имеем абсолютно недвусмысленный ответ на наш вопрос. Так, например, Н. Д. Андреев и JI. Р. Зиндер пишут: "Математическое представление (модель) языков отнюдь не тождественно самому языку" * . Им следует и автор книги "Модели языка" И. И. Ревзин, который указывает, что в результате моделирования может явиться лишь "более или менее близкая аппроксимация данных конкретной действительности" ** . Однако сказать так - значит еще ничего не сказать, так как остается нераскрытым, почему это так и следует ли все же обращаться к методу математического и логического моделирования, а если да, то в каких пределах и для какой цели.

* (H. Д. Андреев, Л. P. Зиндер, Основные проблемы прикладной лингвистики, "Вопросы языкознания"., 1959, № 4, стр. 18. )

** (И. И. Ревзин, Модели языка, М., 1962, стр. 8. Кстати говоря, выражение "близкая аппроксимация" - прямая тавтология: близкая приближенность. )

Для разрешения всех этих вопросов в качестве исходного пункта первоначально устанавливается, к каким наукам - индуктивным или дедуктивным - относятся лингвистика, логика и математика. Что касается последних двух наук, то их положение ясно - они, бесспорно, относятся к дедуктивным наукам, опирающимся в своей исследовательской методике на умозаключение. Лингвистику же традиционно определяют как эмпирическую науку, а это предполагает, что ее главной научной целью является описание фактов. Это значит, видимо, что лингвистика должна быть отнесена к области индуктивных наук. Это значит также, что, стремясь использовать в лингвистике формальный аппарат логики и математики, пытаются применить в индуктивной науке дедуктивные методы исследования.

Впрочем, в последние годы индуктивная природа науки о языке - лингвистики стала подвергаться косвенно или прямо сомнению. В наиболее резкой форме это сделал Л. Ельмслев. Правда, используемая им терминология весьма сбивчива и, в частности, характеризуется своеобразным и очень личным пониманием терминов "дедукция" и "индукция" (фактически он истолковывает их совершенно обратным образом). Однако излагаемые им основы его лингвистической теории не оставляют никаких сомнений относительно ее методической сущности. Так, он считает допустимым использование любых исходных операционных определений, что характерно для дедуктивных наук. И сам он в следующих выражениях характеризует свою теорию: "1. Теория в нашем смысле сама по себе независима от опыта. Сама по себе она ничего не говорит ни о возможности ее применения, ни об отношении к опытным данным. Она не включает постулата о существовании. Она представляет собой то, что было названо чисто дедуктивной системой в том смысле, что она одна может быть использована для исчисления возможностей, вытекающих из ее предпосылок. 2. С другой стороны, теория включает ряд предпосылок, о которых из предшествующего опыта известно, что они удовлетворяют условиям применения к некоторым опытным данным. Эти предпосылки наиболее общи и могут поэтому удовлетворять условиям применения к большому числу экспериментальных данных" * .

* ( "Пролегомены к теории языка". Сб. "Новое в лингвистике", вып. 1, М., 1960, стр. 274-275. )

Как явствует из этого высказывания, Л. Ельмслев стремится провести идею о двойственной методической природе объектов лингвистического исследования, с преимущественным акцентом на их дедуктивные признаки. Ему следует приписать и тот довольно двусмысленный способ ("с одной стороны... но с другой стороны..."), который вообще стал характерным для рассмотрения данного вопроса (и который дает возможность повернуть в любую из сторон). Идея методической двойственности лингвистики получила в последнее время широкое хождение и даже послужила теоретической основой для формулирования принципов и самого последнего по времени своего возникновения направления в науке о языке - лингвистики универсалий (универсалиализма). В "Меморандуме относительно лингвистических универсалий" говорится по этому поводу: "Изучение лингвистических универсалий ведет к целой серии эмпирических обобщений относительно языкового поведения - как еще требующих эксперимента, так и уже установленных. Эти обобщения представляют собой потенциальный материал для построения дедуктивной структуры научных законов. Впрочем, некоторые и, может быть, большинство из них пока располагают всего лишь статусом эмпирических обобщений, которые при современном состоянии наших знаний не представляется возможным соотнести с обобщениями или дедуктивно вывести из законов более общей значимости" * . С не меньшей определенностью выражается и Дж. Гринберг в своем предисловии к сборнику, посвященному лингвистическим универсалиям. Полемизируя с известными словами Л. Блумфильда о том, что "единственно правомерными обобщениями относительно языка являются индуктивные обобщения", он пишет: "Все же, по-видимому, считается общепринятым, что научный метод должен быть не только индуктивным, но и дедуктивным. Формулирование обобщений, полученных индуктивным исследованием, приводит к теоретическим гипотезам, на основе которых путем дедукции в свою очередь могут быть выведены дальнейшие обобщения. Эти последние затем должны быть подвергнуты эмпирической проверке" ** .

* ( "Memorandum Concerning Language Universals", "Universals of Language", ed. by J. Greenberg, Cambridge, Mass., 1963, p. 262-263. )

** ("Universals of Language", p. IX. )

То обстоятельство, что история языкознания состоит не только из накопления фактов языка и их классификации, но и из смены точек зрения на сам язык, что неизбежно предполагает различие подходов к языковым фактам и даже различное их теоретическое истолкование, заставило и некоторых советских лингвистов также прийти к выводам о методической двойственности их науки. С. К. Шаумян предпочитает, правда, говорить при этом о методе гипотетико-дедуктивном и следующим образом излагает его особенности: "Гипотетико-дедуктивный метод представляет собой циклическую процедуру, которая начинается с фактов и кончается фактами. В этой процедуре различаются четыре фазы:

фиксирование фактов, требующих объяснения;
выдвижение гипотез для объяснения данных фактов;
выведение из гипотез предсказаний о фактах, лежащих за пределами круга фактов, для объяснения которых были выдвинуты гипотезы;
проверка фактов, которые предсказываются гипотезами, и определение вероятности гипотез.

Гипотетико-дедуктивный метод принципиально отличается от индуктивного метода, применяемого в таких областях знания, как, например, описательная ботаника или зоология" * . Метод С. К. Шаумяна фактически полностью повторяет метод лингвистики универсалий Дж. Гринберга. Единственное различие состоит в наименовании. Если, например, Дж. Гринберг говорит о сочетании индуктивного и дедуктивного методов, то С. К. Шаумян именует свой метод гипотетико-дедуктивным: обозначение явно непоследовательное для метода, который "начинается с фактов и кончается фактами".

* (С. К. Шаумян, Проблемы теоретической фонологии, М., 1962, стр. 18-19. Относительно гипотетико-дедуктивного метода см. также статью В. С. Швырева "Некоторые вопросы логико-методологического анализа отношения теоретического и эмпирического уровней научного знания" в сб. "Проблемы логики научного познания" (М., 1964), стр. 66-75 (3-й раздел статьи). )

Вопросом о том, куда следует отнести языкознание, задается и И. И. Ревзин. "По самой своей природе,- отвечает он на этот вопрос,- языковедение должно прежде всего пользоваться индуктивными методами, оно описывает конкретные речевые акты конкретных языков...

С другой стороны, наличие бесконечного множества речевых актов, изучаемых лингвистом, едва ли дает возможность сформулировать основные понятия науки о языке обобщением по индукции.

Отсюда следует, что лингвисты нуждаются не только в индуктивных, но и в дедуктивных методах исследования, чтобы получить систему общих знаний, помогающих осмыслить те данные, которые добываются при анализе конкретных языков...

В своей дедуктивной части языковедение, по-видимому, может быть построено так, как строится логика или математика, а именно: выделяется некоторое минимальное количество первичных, не определяемых терминов, а все остальные термины определяются через первичные. При этом должны быть четко сформулированы некоторые первичные утверждения о связи этих терминов между собой (аксиомы), и все остальные утверждения должны доказываться, т. е. сводиться к некоторым другим утверждениям" * .

* (И. И. Ревзин, Модели языка, М., 1962, стр. 7-8. )

Здесь метод дедукции, воплощающийся в логике и математике, выступает всего лишь как средство упорядочения "множества речевых актов" для целей создания "системы общих понятий". В прямом противоречии с этой задачей стоит, однако, изложение самого дедуктивного метода, рекомендуемого для использования в языкознании. Он полностью отмысливается и от актов и от фактов и за исходный момент построения системы общих лингвистических понятий принимает набор не определяемых и, по-видимому, абсолютно условных первичных терминов, через посредство которых определяются все последующие термины.

Это противоречие не случайно, оно кроется в самой природе рассматриваемых нами наук. Казалось бы, вывод, что при изучении лингвистических объектов допустимо сочетание индуктивного и дедуктивного методов, открывает двери для использования в лингвистике логических и математических методов, и конкретной реализацией этого вывода является создание многочисленных формально-логических и математических моделей языка. Но, как будет ясно из дальнейшего, такой упрощенный подход не может дать удовлетворительных результатов. Можно согласиться с тем, что в лингвистическом исследовании допустимо и даже необходимо сочетать дедуктивную и индуктивную методику. В конце концов, как писал В. Брёндаль, "индукция есть не что иное, как замаскированная дедукция, и за чистыми связями, установленными между наблюдаемыми явлениями, совершенно неизбежно предполагается реальность, специфический объект данной науки" * . Но это еще не значит, что в лингвистику следует безоговорочно и механически переносить формальный аппарат логики и математики без всякого учета "специфического объекта данной науки". Как справедливо замечает тот же И. И. Ревзин, "доказательства, полученные дедуктивным путем, сколь бы безукоризненными они ни были с логической точки зрения, еще ничего не говорят о свойствах реального языка, описываемого моделью" ** . И он для определения действенности моделей рекомендует обратиться к практике, каковую представляет машинный перевод и "другие практические приложения языкознания".

* (B. Брёндаль, Структуральная лингвистика. Цитировано по книге: В. А. 3вегинцев, История языкознания XIX и XX вв. в очеркам и извлечениях, ч. II, М., 1965, стр. 95. )

** ( И. И. Ревзин, Модели языка, М., 1962, стр. 10. )

А практика прикладной лингвистики свидетельствует, что на использование математических и логических методов при изучении явлений языка накладываются очень строгие ограничения.

3

Логика дает пример наиболее последовательного использования дедуктивного метода. Математика во многом следует за логикой в этом отношении, и поэтому они могут рассматриваться совместно.

Разумеется, и логика, и математика в отношении своих методов и интерпретации целей не представляют гомогенных систем. Так, например, применительно к логике мы можем говорить о логике диалектической, формальной, математической и, в более узком смысле, о предметной, семантической, феноменологической, трансцедентальной, или конструктивной, комбинаторной, многозначной, модальной и пр. По необходимости, однако, придется отмыслиться от всех подобных подразделений и говорить только о самых общих чертах, свойственных логике и математике в целом, и главным образом о тех, которые с наибольшей отчетливостью демонстрируют дедуктивный характер методов этих наук.

Став на эту позицию, мы, следовательно, не будем обращаться к индуктивной логике. Отметим только, что выводы в индуктивной логике не определяются предпосылками - тем самым они не являются тавтологическими. Выводы в индуктивной логике находятся в прямой зависимости от фактов, а эти последние определяются объемом наших знаний - таким образом, они устанавливаются на вероятностной основе. Вероятность является основным методическим орудием индуктивной логики.

Дедуктивную логику наиболее полным образом представляют формальная и математическая логики, имеющие много общего. Дедуктивная логика - наука, изучающая человеческое мышление или мыслительные акты со стороны их структуры или формы, отвлекаясь от их конкретного содержания. Таким образом, дедуктивная логика стремится сформулировать законы и принципы, соблюдение которых является обязательным условием для достижения истинных результатов в процессе получения выводного знания. Основным методическим орудием дедуктивной логики является импликация. Выводное знание она получает без непосредственного обращения к опыту или к практике, посредством лишь применения законов логики. В процессе дедукции предпосылка обусловливает вывод: если предпосылка истинна, то и вывод должен быть истинным. Таким образом, вывод заключается уже в предпосылке, и цель дедукции - сделать очевидным то, что в скрытом состоянии заключено уже в предпосылке. Отсюда следует, что всякий полученный посредством дедукции вывод тавтологичен, т. е. логически является пустым, хотя с иных точек зрения, например в случаях применения формально-логического аппарата для целей других наук, может быть новым, неожиданным и оригинальным.

Аналогичное положение имеет место в математике - обоснованность доводов в ней полностью покоится на дедукции. При этом в математике, как правило, приемлема любая исходная точка зрения, любой подход к решению проблемы - лишь бы они удовлетворяли условиям математической дедукции. Математика располагает богатым набором такого рода "исходных точек зрения" и "подходов", которые исследователь альтернативно может использовать для решения своей задачи. Математическая проблематика часто переводима в разные эквивалентные формы, а каждая из них предполагает использование различных областей математической теории с целью решения проблемы. Таким образом, математик обладает фактически неограниченной свободой выбора предпосылок - он выбирает те из них, которые, с его точки зрения, таят в себе самые обещающие возможности для наиболее простого, небанального, изящного решения задачи. Его талант и опыт проявляются именно в удачном выборе предпосылок, тех "допустим, что..." или "если... то", которыми пестрят математические работы. Так же как и в логике, математические предпосылки - аксиомы или постулаты - обусловливают определения еще не определенных единиц.

Свобода выбора предпосылок в математике находится в прямой зависимости от того, что она оперирует нематериальными единицами, или объектами,- ее внимание направлено на отношения между ними. Математические объекты служат в качестве символов, выражающих структуру чистых отношений. Математическую систему можно, таким образом, рассматривать как набор формальных отношений, существующих лишь в силу констатаций этих отношений. Разумеется, в частности, в прикладных целях констатации отношений могут стремиться воплотить корреспонденции с внешней реальностью, но это никак не воздействует на сами констатации отношений - скорее, наоборот. Математики исследуют не "истинность" своих аксиом, хотя и требуют между ними взаимной согласованности. Исследование внутри математической системы есть исследование и установление связей, которые позволяют доказать, что факт теории А предполагает факт теории В. Следовательно, основной вопрос в математике не "что такое А и В?", а "предполагает ли А (или обусловливает ли) В?".

Совершенно иное положение в лингвистике. Она в основном ориентируется на первый из этих вопросов, и это не дает ей возможности оторваться от реальности; она, следовательно, оперирует не абстрактными, а конкретными единицами, хотя и стремится в ряде случаев к созданию абстрагированных объектов, вроде понятия фонемы или морфемы. Такое положение характерно не только для традиционной лингвистики, но в равной степени свойственно и новейшим ее направлениям, объединившимся под знаменем структурализма. Выше уже приводился ряд высказываний, которые, пытаясь использовать в науке о языке не только индуктивные, но и дедуктивные методы (или математические и логические методы), не смогли все же обойти необходимость обращения к реальному лингвистическому факту. В дополнение к ним можно привести еще одно, которое вносит полную ясность в рассматриваемый вопрос: "Лингвистический анализ,- пишет в указанной связи П. Гарвин,- в основном индуктивный процесс в том смысле, что он стремится установить список элементов или набор констатаций, исходя из лингвистических стимулов информантов или же из изучения текста. Он основывается на предположении, что в обоих этих источниках сведений окажется возможным распознать регулярно встречающиеся элементы различных типов и порядков сложности. Классификация этих типов и констатация их условий дистрибуции, полученные в результате анализа, образуют индуктивное описание языка" * .

* (P. Garvin, A Study of Inductive Method in Syntax, "Word", vol. 18 (1962), p. 107, )

В лингвистике, конечно, также можно использовать метод предпосылок, исходя из которых затем определяются частные объекты, факты или единицы языка. Но здесь мы сталкиваемся с двумя особенностями, которые вносят существенные коррективы в использование этого метода. В отличие от логики и математики в этом случае будет искаться "истинность" полученных таким способом определений, т. е. их соответствие данным опыта. Таким образом, устанавливается взаимозависимость предпосылки и выводного знания: предпосылка определяет вывод (определение частного лингвистического объекта в терминах предпосылки), но если вывод не соответствует данным опыта, то возникает необходимость коррективы самой предпосылки. Но такого рода коррективы предпосылки не имеют ничего общего с той переводимостью в эквивалентные формы, которая, как указывалось выше, допустима в математике, так как они обусловливаются не формальными соображениями, а данными опыта. Все сказанное дает основание заключить, что само понятие предпосылки и свобода ее выбора обладают в лингвистическом анализе специфичностью, с которой нельзя не считаться при использовании в языкознании дедуктивного метода.

Лингвисты не могут пользоваться с такой свободой методом "если" или "допустим", как математики. Свобода предпосылок у них очень строго ограничена. История науки о языке знает немало смен "точек зрения", или, иными словами, исходных предпосылок, которые были подсказаны открытием новых фактов, распространением на лингвистику общенаучных идей или даже формированием оригинальных теорий. Но для лингвиста во всех подобных случаях смена "если", или исходной предпосылки, есть смена всей научной конценции. Поэтому лингвист говорит не "если", а постулирует свое понимание предпосылки, т. е. фактически понимание предмета своего исследования, и, исходя из этого понимания, дает определение частных единиц языка, проверяя "истинность" этих определений данными опыта. Последнее же обстоятельство, в силу взаимозависимости предпосылки и вывода в лингвистике, служит средством проверки и правомерности самой предпосылки, стоящей в начале дедуктивного по форме лингвистического анализа. Так, если обращаться к конкретным примерам, в прошлом язык истолковывался как естественный организм (у Шлейхера), как индивидуальная психофизиологическая деятельность (у младограмматиков) и т. д. Исследовательская практика, основывающаяся на этих концепциях, показала их недостаточность. Ныне исходной предпосылкой лингвистического анализа является постулат, что язык есть система знаков * . Он подлежит такой же проверке опытом и практикой, как и любая другая концепция в науке о языке.

* (См.: Paul Garvin, The Definitional Model of Language. В кн.: "Natural Language and the Computer", ed. by P. L. Garvin, New York, 1964. )

Уже эти предварительные и самые общие соображения показывают, что дедуктивные методы вовсе не противопоказаны лингвистике, но применение их требует соблюдения специфических условий. Именно эти специфические условия накладывают определенные ограничения на механическое перенесение методов логики и математики в область лингвистики. Однако, если мы ограничимся такой общей констатацией, многое останется все еще неясным. Именно поэтому следует углубить разбираемый нами вопрос и для подкрепления потенциальных выводов обратиться к практике прикладной лингвистики, где с наибольшей отчетливостью проявляется правомерность предпосылок и соответствие опытным данным сделанных на их основе выводов.

4

Отношения между языком и логикой носят весьма своеобразный характер. Представители эмпирических наук, к которым относится и лингвистика, изучают тот или иной предмет или явление с целью описать или объяснить его. Полученные ими результаты они формулируют на языке, который именуется языком-объектом. Логик орудует доказательствами, умозаключениями, суждениями и пр., но они доступны ему только в языковой форме. Таким образом, получается, что логик на одну ступень находится дальше от реального мира, чем представители эмпирических наук. Его анализ направляется не непосредственно на реальный объект, изучаемый эмпирическими науками, а на их язык * . Иными словами, он исследует язык и формулирует полученные результаты на языке, который именуется метаязыком.

* ("Логический анализ научного знания,- пишут в этой связи П. В. Таванец и В. С. Швырев,- есть прежде всего и непосредственно анализ языка, в котором выражается это знание". См. статью "Логика научного познания" в сб. "Проблемы логики научного познания", М., 1964, стр. 161 )

С логической точки зрения основной единицей языка является не знак и не обозначаемый им объект, а предложение, так как только в нем может развернуться логический процесс. Именно поэтому только предложение может быть истинным или ложным. А слова сами по себе не могут обладать этими качествами. Но прежде чем мы сможем установить, является ли предложение истинным или нет, нам необходимо констатировать, что оно имеет значение.

Понятия истинности и значения относятся к области семантики. Через посредство этих отношений и определяется истинность или ложность предложения: если предложение описывает объекты правильно, оно истинно, а если неправильно - нет. Но языковые выражения могут вступать в отношения иные, чем те, которые существуют между обозначаемыми ими объектами. Кроме того, предложения могут вступать в отношения с другими предложениями. Задача логика заключается в том, чтобы выяснить природу отношений между языковыми выражениями и предложениями и установить правила для определения того, выдерживается предписанная в данном случае процедура или нет. При решении последнего вопроса логик не обращается к объектам, описываемым предложением. Он интересуется лингвистической формой, а не ее содержанием, что, разумеется, не препятствует ее содержательной интерпретации, в результате чего возникает формализованный язык. Формализованный язык может быть представлен в виде абстрактной системы, например исчисления предикатов.

Итак, логик может в зависимости от задач исследования работать на двух уровнях - синтаксическом (логический синтаксис) и семантическом (логическая семантика). Рассмотрим сначала приложение первого из этих уровней к естественному языку.

Если логик, занятый изучением языковых форм и существующих между ними отношений, может оставаться в пределах синтаксического уровня, оперируя не содержательными терминами, то лингвист этого сделать не может. Все уровни естественного языка (за исключением, может быть, фонематического) содержательны и поэтому вне семантики немыслимы. И более того, естественный язык не существует вне прагматики, которая не может быть легко отслоена от него в силу той простой причины, что в речевом акте она постоянно трансполируется в семантику. Поэтому естественный язык - всегда интерпретация, и притом двуступенчатая, поскольку связана и с семантикой и с прагматикой * . И эта интерпретация не поддается пока никакой формализации.

* (Ср. замечания Нилса Бора о математическом языке, где "необходимая для объективного описания однозначность определений достигается при употреблении математических символов именно благодаря тому, что таким способом избегают ссылки на сознательный субъект, которыми пронизан повседневный язык" (Ниле Бор, Атомная физика и человеческое познание, М., 1961, стр. 96). )

Перейдем теперь ко второму уровню, когда исчислению посредством семантических правил приписывается интерпретация. И в этом случае мы получим образование, никак не сопоставимое с естественным языком. Правда, здесь мы имеем дело с содержательными терминами, но в логическом и естественном языке они строят свое отношение к "истинности" на совершенно иных основаниях. Как пишет А. Тарский, "истинное", "во всяком случае в его классической трактовке", является таковым в той мере, в какой оно "совпадает с действительностью" * . Но этот критерий "истинности" фактически применим лишь к естественным языкам, всегда ориентированным на действительность. По-иному обстоит дело в логической семантике. Семантический анализ опирается лишь на логическую интерпретацию системы и предполагает установление определенных правил, формулирующих условия истинности. Он предписывает следствие этим правилам, не отвечая на вопрос, в какой мере здесь имеет место "совпадение с действительностью". Кроме того, сама ориентированность на действительность осуществляется в естественном языке не непосредственно, а через человека, что опять-таки делает необходимым обращение к третьему уровню - прагматическому. "Переход на семантический уровень,- констатируют П. В. Таванец и В. С. Швырев,- не есть само по себе возвращение к живому языку в его конкретности, как может показаться на первый взгляд, благодаря тому, что смысловая функция языка как будто существо языка, как "непосредственной действительности мысли". На самом деле исходная схема семантики "язык - действительность" не дает еще конкретного образа языка как непосредственной действительности мысли по той простой причине, что язык связан с действительностью не сам по себе неким мистическим способом, а через человека, через его действия, его поведение. Поэтому, собственно говоря, конкретное представление о языке как носителе мысли может быть достигнуто лишь на уровне его прагматического анализа по схеме "язык - действия человека с языком и на основе языка -действительность" ** .

* (A. Tarski, Grundlegung der Wissenschaftlichen Semantik. "Actes du Congres International de Philosophie Scientique", 1936. )

* (См. статью "Логика научного познания" в сб. "Проблемы логики научного познания" (М., 1964, стр. 16). )

Но и это еще не все. Касаясь рассматриваемого вопроса, В. М. Глушков пишет: "Живой человеческий язык может рассматриваться как формальный язык лишь после того, как будет сформулирована строгая система правил, позволяющая отличить выражения, допустимые в языке, от всех прочих выражений, то есть осмысленные предложения от бессмысленных" * . Разъясняя трудности, возникающие при формализации естественного языка, он далее указывает, что "никакой фиксированный формализованный язык не может быть адекватен живому человеческому языку, поскольку последний в отличие от первого непрерывно развивается и совершенствуется. Поэтому всякая формализация любого живого человеческого языка представляет собой лишь более или менее удачный его мгновенный слепок, утрачивающий сходство с оригиналом по мере развития последнего" ** . Если бы все сводилось только к этому, то это было бы еще полбеды. В прикладной лингвистике отмысливаются от моментов развития языка, стремятся рассматривать его как совершенно стабильную систему и все же никак не удается добиться формализации естественного языка. Происходит это по весьма простой причине. Формальная система и естественный язык основывают свою действенность на полярно противоположных качествах. Всякая формальная система всегда тождественна самой себе. Именно это ее качество делает возможным выполнение ею своих функций во всех конкретных случаях ее приложения. А естественный язык - в плане своего содержания, своей семантики или, как в этих случаях принято говорить, в своем информативном плане - никогда не тождествен самому себе. Именно эта его способность делает возможным его функционирование во всех конкретных случаях своего применения. Оставаясь тем же самым языком, он в разных ситуациях всегда иной. При этом он не обладает ни эксплицитными, ни формативными правилами, ни правилами "истинности", ни трансформационными правилами для определения того, какое из потенциальных значений или оттенков значений получит данное слово в той или иной ситуации. Более того, почти любое слово естественного языка может получить значение, которое не зафиксировано никаким языком - оно может, возникнув, закрепиться в языке, но с таким же успехом, подобно беглому огоньку, вспыхнув, затеряться в лингвистическом "космосе" и погаснуть. И при всех этих качествах естественный язык оказывается изумительно совершенным орудием, которое позволяет добиться полного взаимопонимания относительно самых сложных понятий, и в любых ситуациях. Отчего это происходит?

* (В. М. Глушков, Мышление и кибернетика, "Вопросы философии", 1963, № 1, стр. 37-38. )

** ( В. М.. Глушков, Мышление и кибернетика, "Вопросы философии", 1963, № 1, стр. 38. )

Видимо, ответ на этот вопрос частично следует искать в одной мысли основоположника семиотики Ч. Пирса, которую он настойчиво повторяет во многих своих работах. Ее можно истолковать так. В современной лингвистике язык принято определять как систему знаков. Это исходная предпосылка для всего лингвистического анализа. Если это так, то язык не просто система знаков, а система взаимно интерпретирующих друг друга знаков, существующих в языке постольку, поскольку они интерпретированы в других знаках. Ч. Пирс формулирует это следующим образом: "Ни один знак не может функционировать в качестве знака, если он не интерпретирован в другом знаке. Следовательно, для знака абсолютно существенно, чтобы он воздействовал на другой знак" * . И в другом месте: "Все назначение знака состоит в том, что он будет интерпретирован в другом знаке" ** . И пожалуй, наиболее важное: "Знак не есть знак, если только он не переводит себя в другой знак, в котором он получает более полное развитие" *** .

* (Ch. Peirce, Collected Papers, Cambridge, Mass., vol. 8, §. 225. )

** (Tам ж e, §. 191. )

*** (Ch. Peirce, Collected Papers, Cambridge, Mass., vol. 5, § 594. )

Следовательно, естественный язык есть система знаков, которые посредством взаимной интерпретации получают возможность отвечать на все потребности человека в смысловом выражении. Но здесь необходима одна существенная оговорка. Ведь все потребности этого рода обусловливаются отношением человека к явлениям внешнего мира и общественной средой, в которой протекает его жизнь. В силу этого обстоятельства трансформационная семантика, если бы ее удалось создать, не может опираться лишь на правила взаимной интерпретации знаков, носить закрытый и конечный характер. Она оказывается производной от очень большого количества величин, всячески противящихся формализации * .

* ( P. Якобсон в данной связи констатирует: "Мы можем построить чисто лингвистическую семантику, если примем положение Пирса о том, что существенная особенность каждого языкового знака состоит в том, что он может быть переведен другим языковым знаком, более развернутым, более эксплицитным или, напротив, более эллиптичным знаком той же самой или другой языковой системы. Именно благодаря этой переводимости вскрываются те семантические инварианты, которые мы ищем в означающем. Таким образом, мы получаем возможность решать семантические проблемы языка также с помощью дистрибутивного анализа" (выступление на 1-м Международном симпозиуме "Знак в системе языка", Эрфурт, ГДР, 1959). Цитировано по книге: В. А. 3вегинцев, История языкознания XIX - XX веков в очерках и извлечениях, ч. 2, М., 1965, стр. 398.

В связи со сказанным важно рассмотреть особенности процедуры решения задач и само понятие решимости в логике и математике, с одной стороны, и в лингвистике - с другой.

Прежде чем в математике приступить к решению проблемы, она должна быть сформулирована в точных терминах - само это формулирование является предпосылкой успешного решения проблемы. При этом, как уже указывалось, математик может свободно трансформировать данное формулирование проблемы в эквивалентный вариант - математика располагает для этого и соответствующими средствами. Уже на этой первичной стадии исследовательской методики лингвистика существенно отличается от математики. При формулировании своих проблем лингвист располагает некоторым количеством наблюденных эмпирических данных, которым он не всегда может дать точную формулировку, но которые тем не менее он волей-неволей должен класть в основу своего исследования, уже в процессе самого этого исследования. Чтобы не идти далеко за примерами, можно сослаться на лингвистическое значение, которое составляет основу всей работы в области автоматической переработки речевой информации, но вместе с тем определяется весьма туманно и разноречиво. Именно это обстоятельство и заставляет исследователей в этой области постоянно менять свою стратегию.

Но вот исследование начато и достигнуто какое-то решение. Что это значит применительно к логике и математике и применительно к лингвистике? Логика, как указывалось выше, дает возможность эксплицитно представить заключения, имплицитно присутствующие в предпосылке, но она не располагает правилами, использование которых может гарантировать, что при этом будет добыто желаемое решение, так как она есть не средство достижения новых выводов, а всего лишь методика определения их правильности. Она - не волшебный ключ ко всем тайнам. Совершенно очевидно, что если бы логика обладала подобными правилами, то тогда бы не было и нерешенных проблем. Достаточно было бы приложить определенный набор логических правил, и мы бы автоматически получали готовый ответ на любой мучающий нас вопрос. В свете сказанного специфическое значение приобретает и понятие решимости проблемы или задачи.

В логике и в математике всякий конечный результат признается истинным, если в процессе доказательства не было нарушено никакое формальное правило. Так как при этом возможны разные пути доказательства, допустимо существование различных решений. Но все они могут быть подвержены проверке с точки зрения требования логики или математики. По-иному обстоит дело в лингвистике. Она не располагает аппаратом, с помощью которого можно проверить или доказать правильность полученных выводов. Соответственно с этим определяется и истинность достигнутых решений - она устанавливается не формальными правилами, а своим соответствием данным опыта. При этих условиях теоретически следовало бы ожидать единого конечного решения. Однако практически, как свидетельствуют об этом разноречивые лингвистические определения даже основных категорий языка, это не имеет места. Известный субъективизм оценок в этом случае всегда присутствует, и он до известной степени определяется объемом фактов (и, разумеется, их характером), находящихся в распоряжении исследователя. Отсюда следует, что "истинность" решения в лингвистике всегда дается в некотором приближении и имеет не детерминативный характер, а вероятностный.

В этих условиях очень важно правильность лингвистических определений и истолкований подвергнуть проверке на основе объективных критериев. Возможность такой проверки дает широкая область прикладной лингвистики, где естественному языку противостоит машина, представляющая в этом противопоставлении интересы логики и математики.

5

Для решения практических задач прикладной лингвистики используется цифровая вычислительная машина. Она способна воспринимать, хранить, передавать, перегруппировывать и выдавать информацию. Она интерпретирует и выполняет набор команд (программу команд), а также модицифирует их в процессе выполнения задания. Она в состоянии решать весьма сложные проблемы, но при этом весь процесс перехода от задания к решению должен быть исчерпывающе и непротиворечиво описан в терминах последовательности основных элементарных операций. Информация вводится в машину с помощью двузначного (бинарного) кода, или языка. Машина оперирует закодированными таким образом словами, соответствующими основным логическим связям или функциям исчисления высказываний или предикатов. Машина может решать сложные математические задачи именно в силу того, что сложные математические операции оказывается возможным свести к последовательности арифметических операций, а эти последние, в свою очередь к логическим операциям. Следовательно, цифровую вычислительную машину можно рассматривать как логическую машину.

Таким образом, какой бы сложности ни была задача, машина решает ее с помощью последовательности элементарных операций, программа которых должна быть сформулирована абсолютно недвусмысленно (непротиворечиво), точно, детально и исчерпывающе полно. Другими словами, она не должна выходить за те пределы, которые устанавливаются логическим исчислением высказываний, и, когда мы задаемся вопросом, может ли машина совладать с обработкой информации, заключенной в естественных языках, нам прежде всего нужно выяснить, в какой степени логическое исчисление высказываний является адекватной моделью для естественного языка.

Учитывая специфику цифровой вычислительной машины, описанную выше, первое, что необходимо сделать, чтобы машина "поняла" задание и начала обработку речевой информации в соответствии с этим заданием, заключается в переформулировке информации, содержащейся в естественном языке, на логический язык. Дело, следовательно, идет о переводе естественного языка на язык логического исчисления высказываний. При этом, как показал Бар-Хиллел * , приходится сталкиваться с такими трудностями, которые рисуют перспективы автоматической обработки в весьма мрачном свете, если не будет изменено все направление поисков решения данной проблемы. По меньшей мере придется считаться со следующими препятствиями, для преодоления которых мы пока не располагаем необходимыми средствами.

* ( Y. Вar-Hillel, A Demonstration of the Nonfeasibility of Fully Automatic High Quality Translation, "Advances in Computers:", vol. 1, New York, 1960, pp. 158-163. )

А. Логическое исчисление высказываний слишком бедно для того, чтобы можно было бы даже с далеким приближением произвести на него переформулировку естественного языка, невероятно сложного по своей семантической структуре, обладающего огромным объемом избыточных элементов и - самое главное - часто отличающегося такой неясностью и неопределенностью в выражении "смысла", что никакая двузначная логика не способна справиться с созданием искусственного двойника естественного языка * . Правда, логика, как указывалось, имеет дело лишь с лингвистической формой. Но поскольку дело идет об автоматической обработке информации, необходимо уметь различать и семантическую информацию, и если этого невозможно достичь с помощью имеющихся в нашем распоряжении логических средств, то откуда мы можем почерпнуть уверенность, что наш перевод естественного языка на логический правилен?

* ( В статье Ч. Хоккета "Грамматика для слушающего" приводится много примеров такого рода сложностей в "естественном" понимании предложения, которые разрешаются последующими и далеко уходящими шагами анализа (Сh, Hockett, Grammar for the Hearer, "Structure of Language and its Mathematical Aspects", Providence, 1961, pp. 220-236). )

Б. Машина не может учитывать того, что Бар-Хиллел называет "общими предварительными данными информации" (general background of information), которые фактически остаются за пределами естественного языка и поэтому не подлежат переводу на логический язык. Лингвисты в этих случаях говорят о вне языковом контексте (frame of reference), который неприметным для нас, но очень решительным образом корректирует или даже подвергает полному переосмыслению все наши слова. Ведь даже такая простая фраза, как "Я вернусь засветло", для точного ее понимания и определения содержащегося в ней временного указания, как минимум, требует предварительного знания того, когда, где она была произнесена и в какое время года. Только подобного рода предварительная информация часто является единственным средством для уяснения тех внутрифразовых отношений, с которыми не в состоянии справиться ни исчисление высказываний, ни исчисление предикатов. Так, беря для примера два промелькнувших в газетах предложения:

Аспирант университета из города Курска;

Заслуженный рационализатор Сибири,-

мы видим, что каждое из них может быть истолковано двояким образом. Если придерживаться лишь формально-грамматических признаков, то первое предложение с одинаковым успехом можно понять и как "Аспирант из университета, расположенного в городе Курске" и как "Аспирант университета, проживающий в городе Курске (или происходящий из города Курска)". А второе предложение может быть трактовано и как "Заслуженный рационализатор, полем деятельности которого является Сибирь" и как "Заслуженный рационализатор, являющийся жителем Сибири". И только предварительные и никак не выраженные в предложениях знания (предварительная информация), констатирующие, что в городе Курске нет университета и что "заслуженный рационализатор" есть почетное звание, присваиваемое в Советском Союзе отдельными административными округами, дают возможность правильного понимания этих предложений. Если внимательно приглядеться, то почти за каждой фразой разговорного языка стоит весьма основательная и разветвленная предварительная информация, само собой разумеющаяся для человека, но лежащая за пределами "разумения" машины, которая не знает ни рода, ни племени.

В. Машина не может делать внутритекстовые смысловые заключения, распространяющиеся на несколько предложений (а иногда даже намеренно на целый рассказ, чтобы до конца не раскрыть его персонажа или сюжетного хода). На это обстоятельство обратил внимание голландский лингвист А. Рейхлинг * , иллюстрируя свою мысль следующим примером. Допустим, что мы читаем некое повествование, которое начинается предложением: "Я играю с моим братом". Если мы на этом остановимся, то в нашем распоряжении не будет никаких данных для выяснения того, как же следует понимать эту фразу, о какой игре здесь идет речь. Ведь можно играть на деньги (в карты и пр.), на музыкальном инструменте, в театре или в кино, в игрушки, в футбол, играть для забавы, играть человеком и его судьбой и т. д. Но вот мы читаем дальше: "Я сказал это, когда Вильгельм однажды встретился мне в баре". Теперь уже с большей вероятностью мы можем заключить, что, по-видимому, речь идет об игре на деньги. Но все же существуют и другие возможности. Далее следует: "Мой брат подошел к столу, и кости были брошены". Теперь ясно, о какой игре идет речь, хотя нигде в тексте точного указания на действительный смысл слова "игра" не было дано. Мы догадались о нем по совокупности тех внешних примет, которые даны в тексте в разных предложениях. Эти приметы следуют здесь одна вслед за другой, но они в письменном повествовании могут и значительно отстоять друг от друга. Человек может выбрать их из широкого языкового контекста (в данном случае мы имеем дело с ним), сопоставить и затем уже сделать соответствующее умозаключение. Машина же лишена этой возможности.

* (На коллоквиуме, организованном в 1961 г. Stichting Studiecentrum voor Administrative Automatisering. Имеется и немецкий перевод доклада: A. Rеiсhling, Moglichkeiten und Grenzen der mechanischen Ubersetzung, aus der Sicht des Linguisten, "Beitrage zur Sprachkunde und Informationsverarbeitung", Heft 1, Wifcn, 1963. )

Но, может быть, этого и не надо ей? И действительно, при машинном переводе данных предложений на немецкий или французский особых трудностей не возникает (но трудности, конечно, возникнут при переводе других предложений). При переводе на немецкий мы можем употребить буквализм: Ich spile mit meinem Bruder. Точно так же и во французском мы можем начать: Je joue avec... Уже при переводе на английский возникают сложности грамматического порядка, так как в приведенном тексте нет никаких указаний на то, какую форму должна выбрать машина: 1. I am play ing with my brother, 2. I play with my brother или 3. I"ll play with my brother? И уж совсем скверно получается при переводе на испанский язык, так как машине придется выбирать по меньшей мере между тремя глаголами: jugar, tocar или trabajar.

Тут логический язык беспомощен.

Г. Машина фактически имеет дело с речью (или, точнее, с речевыми отрезками) - в ее письменной и устной форме. Каждая из этих форм речи имеет свою систему прагматических элементов, способных к тому же переходить в семантические (а правила такого перехода и не изучены и во многом произвольны). Так, например, устная речь обладает такой супрасегментной надстройкой, как интонация. Интонацию ныне представляется возможным классифицировать по функциональным типам и выделять вопросительную, повествовательную и прочие интонации. Однако совершенно бесспорно, что интонация существует не автономно от предложений; она, конечно, взаимодействует со смыслом, заключенным в них. В подтверждение этого утверждения достаточно сослаться на риторический вопрос, который является вопросом только по внешней своей структуре, но не является вопросом по значению: он не требует ответа со стороны слушающих. Так возникает новый вид трудностей, с которыми логический язык не имеет возможности справиться.

Д. Методика автоматической обработки речевой информации (и, в частности, машинного перевода) исходит из предположения, что любое предложение, да и язык в целом, "разбирается" на некоторое количество элементарных смысловых единиц (слов), из которых затем можно по определенным правилам "собирать" заданные предложения. Следствием этого предположения является другое, в соответствии с которым смысл предложения представляет арифметическую сумму смыслов составляющих его слов. Здесь за образец берется математика, где самые сложные операции, которые проделывает вычислительная машина, в конечном счете сводятся к предельно элементарным. Но в языке мы сталкиваемся с почти полностью противоположной картиной. Дело не только в том, что в разных языках предложения в смысловом отношении по-разному "разбираются" на части. Например:

Девушка идет. Девушка стоит. Шляпа идет девушке. Das Madchen geht. Das Madchen steht. Der Hut steht dem Madchen (буквально: Шляпа стоит девушке).

Дело также и в том, что даже в пределах одного языка чаще всего не наблюдается арифметически правильных отношений между смыслом предложения и смыслами (значениями) составляющих его слов. По этому поводу Э. Бенвенист пишет: "Предложение реализуется посредством слов. Но слова-это не просто отрезки предложения. Предложение- целое, не сводящееся к сумме его частей, присущий целому смысл распределяется на всю совокупность компонентов" * . Речь при этом идет не об идиоматических выражениях (типа: "делать спустя рукава", "втирать кому-либо очки" и пр.), а о самых обычных предложениях. Возьмем элементарный пример:

Ждите! - пойду я в театр.

Можно ли утверждать, что смысл этого предложения представляет собой арифметическую сумму значений слов: ждать, пойти, театр, я, в? Исходя из такого арифметического представления, мы должны были бы ожидать, что любая комбинация этих слов, представленная в грамматически правильном предложении, сохранит тот же самый смысл - ведь от перестановки места слагаемых сумма слагаемых не изменяется. Но вот попробуем лишь слегка модифицировать данное предложение:

Я пойду в театр - ждите!

Мы видим, что по своему смыслу это второе предложение значительно отличается от первого.

* (Е. Benveniste, Les niveaux de Г analyse linguistique, "Preprints of Papers for the Ninth International Congress of Linguists", Cambridge, Mass., 1962, p. 497 )

Это - из числа предельно элементарных примеров, а если обратимся к более сложным, то бессилие любых трансформационных правил, которым должны быть подведомственны такие случаи, станет особенно очевидным. Иначе и быть не может: ведь предложение представляет собой последовательность моносем, а моносема (см. раздел "Система семантических исследований"), как синтаксическая конфигурация, больше слова. Это обстоятельство приводит к тому, что предложение, как последовательность моносем, есть последовательность взаимоопределяющихся элементов, связанных друг с другом в смысловом отношении в неразрывную цепочку, которую схематически и в сугубо обобщенном виде можно изобразить следующим образом * :

* ( См. "Приложение" в конце книги. )

Именно в силу указанных особенностей предложений между последними и словами имеется качественное различие. Если слова можно определять как знаки, то предложения, бесспорно, выходят за пределы знакового уровня.

Вопрос о "разложимости" языка и предложений упирается в более общий. Есть структуры, способные выполнять свои функции лишь в своем сложном составе. При попытке разложить их на более мелкие части или свести к более элементарным структурам они фактически распадаются, перестают существовать как таковые, утрачивают качества, свойственные им в их сложном составе. Таков язык. Это понимал В. Гумбольдт (подходя, правда, к данному вопросу несколько с иной стороны), когда писал: "Для того чтобы человек мог понять хотя бы одно-единственное слово не просто как душевное побуждение (т. е. рефлекторно.- В. З.), а как членораздельный звук, обозначающий понятие, весь язык полностью и во всех своих связях-уже должен быть заложен в нем. В языке нет ничего единичного, каждый отдельный его элемент проявляет себя лишь как часть целого" * . Переведя это суждение В. Гумбольдта на язык современной науки, мы получаем следующую формулировку, принадлежащую М. Таубе: "...нетрудно понять, что язык как система содержательных символов, устных или письменных, не есть формальная система и не может быть сведен к ней без разрушения его истинной природы... Когда язык формализован, он перестает быть языком и становится кодом" ** .

* (В. Гумбольдт, О сравнительном изучении языков применительно к различным эпохам их развития. Цитировано по книге: В. А. Звегинцев, История языкознания XIX - XX веков в очерках и извлечениях, ч. I, М., 1964, стр. 79. )

** (М. Таубе, Вычислительные машины и здравый смысл, М.* 1964, стр. 18. )

Но если даже удастся справиться с перечисленными языковыми трудностями, существуют еще препятствия собственно логического порядка - речь в данном случае идет о так называемых "правилах разрешения" (decision rules). Ведь если мы хотим быть уверенными, что машина будет действовать логически безукоризненно, мы должны снабдить ее набором правил, следуя которым она и сможет последовательно пройти путь от исходной информации к потребным выводам. Применительно к логическим исчислениям высказываний мы располагаем такими правилами, но для более сложных логик таких правил нет, и, более того, есть основания полагать, что такие правила нельзя и найти. Если же ориентироваться на те правила, которые имеются уже в нашем распоряжении, то использование их сделает процесс разрешения настолько сложным (даже при применении усовершенствованных вычислительных машин), что игра не будет стоить свеч * .

* (Чтобы показать, какую работу приходится делать вычислительной машине, работающей методом последовательных шагов, А. Л. Сэмюэль обращается к примеру игры в шашки. Он пишет: "Чтобы заставить вычислительную машину играть в шашки, мы прежде всего должны изобразить положение шашек на доске по способу, который вычислительная машина могла бы запомнить. Затем последствия каждого из имеющихся ходов должны анализироваться заглядыванием в будущее, как это в общем делал бы человек, рассматривая каждый начальный ход по очереди, затем - все возможные ответные ходы противника, затем для каждого из них - все контрответы и т. д. Даже если мысленно перенестись в будущее, к наибыстрейшей возможной машине, подчиненной лишь таким ограничениям, как размеры вселенной, молекулярная природа материи и конечная скорость света, то и такой вычислительной машине потребовались бы многие столетия, а может быть, и более длительный срок, чем даже возраст вселенной, чтобы сделать свой первый ход" (А. Л. Сэмюэль, Искусственный разум: прогресс и проблемы. Приложение к книге: М. Таубе, Вычислительные машины и здравый смысл, М., 1964* стр. 140-141). )

В таком виде рисуется проблема применения логических и математических методов в науке о языке на основании данных прикладной лингвистики. Каковы же выводы? Выводы уже формулировались выше - логический анализ допускает сочетание индуктивных методов с дедуктивными, но, когда мы говорим об использовании в лингвистике дедуктивных методов, не следует все сводить к слепому подчинению лингвистического исследования логико-математическим методам. Естественный язык восстает против такого насилия. И практика прикладной лингвистики подтверждает эти выводы, устанавливая, что между формализованным логическим языком и естественным языком такие различия, что достаточно полный (в информативном плане) перевод второго в первый невозможен. Значит ли это, что в лингвистике (и, в частности, прикладной) следует отказаться от использования логико-математических методов? Конечно, нет. Но только не следует переоценивать их возможностей. Пока они довольно скромны. И чтобы не быть тут голословными, обратимся к свидетельству математиков и логиков, которым в практике своей работы приходится применять свои знания к исследованию естественного языка.

Вот что говорит математик: "Помощь математики в изучении естественного языка еще далека от очевидности... Прежде чем мы можем думать об использовании математики для исчисления, необходимо определить границы и функции лингвистических единиц... Это - вне математическая задача, она является частью индуктивных методов в лингвистике.

Выяснилось, что математика не заменяет эмпирической методологии, хотя некоторые лингвисты и стремятся к этому. Наоборот, только после того, как единицы и отношения естественного языка будут установлены индуктивным методом и соответствующим образом подтверждены (верифицированы), будут созданы необходимые условия для реалистического применения математики к естественному языку. При этом математики либо обнаружат, что они имеют дело с новой манифестацией того, что по своей сущности уже знакомо им, либо получат стимул для математического мышления нового порядка" * .

* (P. Garvin and W. Karush, Linguistics - data Processing and Mathematics, "Natural Language and the Computer", New York, 1963, pp. 368-369. См. также в той же книге статью: W. Ksrush, The Use of Mathematics in the Behavioral Sciencess, pp. 64-83. )

А вот что говорит логик: "Перспективы автоматической обработки речевой информации очень хороши, но роль логики в этой области ограничена. Впрочем, как орудие лингвистического анализа, не как набор правил для выведения заключений, она дает реальные обещания" * . И далее он устанавливает, какая исследовательская стратегия при этом более предпочтительна: "Проблемы следует решать не посредством непреклонного следования набору правил, установленных логиком, а скорее с помощью эвристической техники ** ... Следует предпочитать эмпирический индуктивный подход к автоматической обработке речевой информации, при котором ищутся грубые правила для решения информационных проблем. Не следует пытаться переводить обычный язык на логический с целью последующей обработки его, но, скорее, искать правила эвристического типа, которые позволят совладеть с естественным языком. Следует прекратить поиски абсолютной достоверности и обратиться к приближенным методам, которые, с накоплением опыта, будут уточнены и усовершенствованы. Мы предпочитаем рассматривать апроксимации таким же образом, каким рассматривают теорию в науке, где видоизменения и усовершенствования делаются на основе данных, полученных в результате эксперимента" *** .

* (М. Maron, A Logician"s View of Language - data Processing, указанная книга, стр. 144. )

** (Достаточно ясное представление об эвристической методике дает A. Л. Сэмюэль. Противопоставляя ее формальной методике логической процедуры, он пишет, что вместо нее можно применять методику, "где несколько более или менее произвольно выбранных процедур исследуются довольно неполным образом и каждая дает некоторый ключ для ориентировки, на правильном ли мы пути* пока, наконец, через серию догадок мы не придем к формулировке удовлетворительного доказательства. В обоих приведенных случаях мы можем иногда прийти к правильному или хотя бы к очень хорошему ответу за изумительно короткий отрезок времени, но вместе с тем отсутствует уверенность в том, что мы вообще когда-либо получим решение, как и уверенность, что представляющееся нам решение наилучшее. Такой метод решения задач получил название "эвристической" процедуры в отличие от применения "алгоритма"... Эвристическое решение задач, когда оно успешно, должно, конечно, расцениваться как более высокая умственная активность, чем решение задач посредством более или менее автоматической процедуры". Цитировано по русскому переводу: A. Л. Сэмюэль, Искусственный разум: прогресс и проблемы. Приложение к книге: М. Таубе, Вычислительные машины и здравый смысл, М., 1964, стр. 136-137. )

*** (М. Мarоn, указ. соч., стр. 143-144, )

Таковы общие выводы. Они говорят о том, что в совместной работе с логиками и математиками лингвистам принадлежит ведущая роль. В обязанность лингвистов входит подготовка языкового материала таким образом, чтобы сделать его доступным обработке логико-математическими методами. Именно в этом направлении следует искать реалистического сочетания в лингвистике индуктивных методов с дедуктивными. А когда при решении задач прикладной лингвистики речь идет об эвристических гипотезах, то они в первую очередь должны исходить от лингвиста, так как он ближе к языку и по своей должности обязан лучше знать и понимать его.

Оглавление
Введение
Глава 1. История применения математических методов в лингвистике
1.1. Становление структурной лингвистики на рубеже XIX – ХХ веков
1.2. Применение математических методов в лингвистике во второй половине ХХ века
Глава 2. Отдельные примеры использования математики в лингвистике
2.1. Машинный перевод
2.2.Статистические методы в изучении языка
2.3. Изучение языка методами формальной логики
2.4. Перспективы применения математических методов в лингвистике
Заключение
Литература
Приложение 1. Ronald Schleifer. Ferdinand de Saussure
Приложение 2. Фердинанд де Соссюр (перевод)

Введение
В ХХ веке наметилась продолжающаяся и поныне тенденция к взаимодействию и взаимопроникновению различных областей знаний. Постепенно стираются грани между отдельными науками; появляется всё больше отраслей умственной деятельности, находящихся «на стыке» гуманитарного, технического и естественнонаучного знания.
Другая очевидная особенность современности – стремление к изучению структур и составляющих их элементов. Поэтому всё большее место как в научной теории, так и на практике уделяется математике. Соприкасаясь, с одной стороны, с логикой и философией, с другой стороны, со статистикой (а, следовательно, и с общественными науками), математика всё глубже проникает в те сферы, которые на протяжении долгого времени было принято считать чисто «гуманитарными», расширяя их эвристический потенциал (ответ на вопрос «сколько» часто помоагет ответить и на вопросы «что» и «как). Исключением не стало и языкознание.
Цель моей курсовой работы – кратко осветить связь математики с такой отраслью языкознания, как лингвистика. Начиная с 50-х годов прошлого века, математика применяется в лингвистике при создании теоретического аппарата для описания строения языков (как естественных, так и искусственных). Однако следует сказать, что она не сразу нашла себе подобное практическое применение. Первоначально математические методы в лингвистике стали использоваться для того, чтобы уточнить основные понятия языкознания, однако с развитием компьютерной техники подобная теоретическая посылка стала находить применение на практике. Разрешение таких задач, как машинный перевод, машинный поиск информации, автоматическая обработка текста требовало принципиально нового подхода к языку. Перед лингвистами назрел вопрос: как научиться представлять языковые закономерности в том виде, в котором их можно подавать непосредственно на технику. Популярным в наше время термином «математическая лингвистика» называют любые лингвистические исследования, в которых применяются точные методы (а понятие точных методов в науке всегда тесно связано с математикой). Некоторые учёные прошлых лет, считают, что само выражение нельзя возводить в ранг термина, так как оно обозначает не какую-то особую «лингвистику», а лишь новое направление, ориентированное на усовершенствование, повышение точности и надёжности методов исследования языка. В лингвистике используются как количественные (алгебраические), так и неколичественные методы, что сближает её с математической логикой, а, следовательно, и с философией, и даже с психологией. Ещё Шлегель отмечал взаимодействие языка и сознания, а видный лингвист начала ХХ века Фердинанд де Соссюр (о его влиянии на становление математических методов в лингвистике расскажу позже) связывал структуру языка с его принадлежностью к народу. Современный исследователь Л. Перловский идёт дальше, отождествляя количественные характеристики языка (например, число родов, падежей) с особенностями национального менталитета (об этом в разделе 2.2, «Статистические методы в лингвистике»).
Взаимодействие математики и языкознания – тема многогранная, и в своей работе я остановлюсь не на всех, а, в первую очередь, на её прикладных аспектах.

Глава I. История применения математических методов в лингвистике
1.1 Становление структурной лингвистики на рубеже XIX – ХХ веков
Математическое описание языка основано на представлении о языке как о механизме, восходящем к известному швейцарскому лингвисту начала ХХ века Фердинанду де Соссюру.
Начальное звено его концепции – теория языка как системы, cостоящей из трёх частей (собственно язык – langue , речь – parole , и речевую деятельность – langage ), в которой каждое слово (член системы) рассматривается не само по себе, а в связи с другими членами. Как впоследствии отметил другой видный лингвист, датчанин Луи Ельмслев, Соссюр «первый требовал структурного подхода к языку, то есть научного описания языка путём регистрации соотношений между единицами» .
Понимая язык как иерархическую структуру, Соссюр первым поставил проблему ценности, значимости языковых единиц. Отдельные явления и события (скажем, история происхождения отдельных индоевропейских слов) должны изучаться не сами по себе, а в системе, в которой они соотнесены с подобными же составляющими.
Структурной единицей языка Соссюр считал слово, «знак», в котором соединялись звучание и смысл. Ни один из этих элементов не существует друг без друга: поэтому носителю языка понятны различные оттенки значения многозначного слова как отдельного элемента в структурном целом, в языке.
Таким образом, в теории Ф. де Соссюра можно увидеть взаимодействие лингвистики, с одной стороны, с социологией и социальной психологией (следует отметить, что в это же время развиваются феноменология Гуссерля, психоанализ Фрейда, теория относительности Эйнштейна, происходят эксперименты над формой и содержанием в литературе, музыке и изобразительном искусстве), с другой стороны – с математикой (понятие системности соответствует алгебраической концепции языка). Подобная концепция изменила понятие языковой интерпретации как таковой: Явления стали трактоваться не относительно причин их возникновения, а относительно настоящего и будущего. Толкование перестало быть независимым от намерений человека (несмотря на то, что намерения могут быть безличными, «бессознательными» во фрейдистском понимании этого слова).
Функционирование же языкового механизма проявляется через речевую деятельность носителей языка. Результатом речи являются так называемые «правильные тексты» – последовательности речевых единиц, подчиняющиеся определённым закономерностям, многие из которых допускают математическое описание. Изучением способов математического описания правильных текстов (в первую очередь, предложений) занимается теория способов описания синтаксической структуры. В подобной структуре языковые аналогии определены не с помощью изначально присущих им качеств, а с помощью системных («структурных») отношений.
На Западе соссюровские идеи развивают младшие современники великого швейцарского лингвиста: в Дании – уже упомянутый мною Л. Ельмслев, давший начало алгебраической теории языка в своём труде «Основы лингвистической теории», в США – Э. Сепир, Л. Блумфилд, Ц. Харрис, в Чехии – русский учёный-эмигрант Н. Трубецкой.
Статистическими же закономерностями в изучении языка стал заниматься не кто иной, как основоположник генетики Георг Мендель. Только в 1968 году филологи обнаружили, что, оказывается, в последние годы жизни он был увлечен изучением лингвистических явлений с помощью методов математики. Этот метод Мендель привнёс в лингвистику из биологии; в девяностые годы девятнадцатого века лишь самые смелые лингвисты и биологи заявляли о целесообразности подобного анализа. В архиве монастыря св. Томаша в г. Брно, аббатом которого был Мендель, были найдены листки со столбцами фамилий, оканчивающимися на «mann», «bauer», «mayer», и с какими-то дробями и вычислениями. Стремясь обнаружить формальные законы происхождения фамильных имен, Мендель производит сложные подсчеты, в которых учитывает количество гласных и согласных в немецком языке, общее число рассматриваемых им слов, количество фамилий и т.д.
В нашей стране структурная лингвистика начала развиваться примерно в то же время, что и на Западе – на рубеже XIX-XX веков. Одновременно с Ф. де Соссюром понятие языка как системы разрабатывали в своих трудах профессора Казанского университета Ф.Ф. Фортунатов и И.А. Бодуэн де Куртенэ. Последний на протяжении долгого времени переписывался с де Соссюром, соответственно, женевская и казанская школы языкознания сотрудничали друг с другом. Если Соссюра можно назвать идеологом «точных» методов в лингвистике, то Бодуэн де Куртенэ заложил практические основы их применения. Он первым отделил лингвистику (как точную науку, использующую статистические методы и функциональную зависимость) от филологии (общности гуманитарных дисциплин, изучающих духовную культуру через язык и речь). Сам учёный считал, что «языкознание может принести пользу в ближайшем будущем, лишь освободившись от обязательного союза с филологией и историей литературы» . «Испытательным полигоном» для внедрения математических методов в лингвистику стала фонология – звуки как «атомы» языковой системы, обладающие ограниченным количеством легко измеримых свойств, были самым удобным материалом для формальных, строгих методов описания. Фонология отрицает наличие смысла у звука, так что в исследованиях устранялся «человеческий» фактор. В этом смысле фонемы подобны физическим или биологическим объектам.
Фонемы, как самые мелкие языковые элементы, приемлемые для восприятия, представляют собой отдельную сферу, отдельную «феноменологическую реальность». Например, в английском языке звук «т» может произноситься по-разному, но во всех случаях человек, владеющий английским, будет воспринимать его как «т». Главное, что фонема будет выполнять свою главную – смыслоразличительную – функцию . Более того – различия между языками таковы, что разновидности одного звука в одном языке могут соответствовать разным фонемам в другом; например «л» и «р» в английском различны, в то время как в других языках это разновидности одной фонемы (подобно английскому «т», произнесённому с придыханием или без). Обширный словарный запас любого естественного языка представляет собой набор сочетаний гораздо меньшего количества фонем. В английском, например, для произнесения и написания около миллиона слов используется всего 40 фонем.
Звуки языка представляют собой системно организованный набор черт. В 1920е –1930е, вслед за Соссюром, Якобсон и Н.С.Трубецкой выделили «отличительные черты» фонем. Эти черты основаны на строении органов речи – языка, зубов, голосовых связок. Скажем, в английском разница между «т» и «д» заключается в наличии или отсутствии «голоса» (напряжении голосовых связок) и в уровне голоса, отличающем одну фонему от другой. Таким образом, фонологию можно считать примером общего языкового правила, описанного Соссюром: «В языке есть только различия» . Более важно даже не это: различие обычно подразумевает точные условия, между которыми оно и находится; но в языке существуют только различия без точных условий. Рассматриваем ли мы «обозначение» или «обозначаемое» – в языке не существует ни понятий, ни звуков, которые существовали бы до того, как развилась языковая система.
Таким образом, в соссюровском языкознании изучаемый феномен понимается как свод сопоставлений и противопоставлений языка. Язык – это и выражение значения слов, и средство общения, причём эти две функции никогда не совпадают. Мы можем заметить чередование формы и содержания: языковые контрасты определяют его структурные единицы, и эти единицы взаимодействуют, чтобы создать определённое значимое содержание. Так как элементы языка случайны, ни контраст, ни сочетание не могут быть основой. Значит, в языке отличительные признаки формируют фонетический контраст на другом уровне понимания, фонемы соединяются в морфемы, морфемы – в слова, слова – в предложения и т.д. В любом случае, целая фонема, слово, предложение и т.д. представляет собой нечто большее, чем просто сумма составляющих.
Соссюр предложил идею новой науки двадцатого века, отдельно от лингвистики изучающей роль знаков в обществе. Соссюр назвал эту науку семиологией (от греческого «semeîon» - знак). «Наука» семиотики, развивавшаяся в Восточной Европе в 1920е –1930е и в Париже в 1950е – 1960е, расширила изучение языка и лингвистических структур до литературных находок, составленных (или сформулированных) с помощью этих структур. Кроме того, на закате своей карьеры, параллельно совему курсу общей лингвистики, Соссюр занялся «семиотическим» анализом поздней римской поэзии, пытаясь открыть умышленно составленные анаграммы имён собственных. Этот метод был во многом противоположен рационализму в его лингвистическом анализе: он был попыткой, изучить в системе проблему «вероятности» в языке. Такое исследование помогает сосредоточиться на «вещественной стороне» вероятности; «ключевое слово», анаграмму которого ищет Соссюр, как утверждает Жан Старобинский, «инструмент для поэта, а не источник жизни стихотворения». Стихотворение служит для того, чтобы поменять местами звуки ключевого слова. По словам Старобинского, в этом анализе «Соссюр не углубляется в поиски скрытых смыслов». Напротив, в его работах заметно желание избежать вопросов, связанных с сознанием: «так как поэзия выражается не только в словах, но и в том, что порождают эти слова, она выходит из-под контроля сознания и зависит только от законов языка» (cм. Приложение 1).
Попытка Соссюра изучить имена собственные в поздней римской поэзии подчёркивает одну из составляющих его лингвистического анализа – произвольную природу знаков, а также формальную сущность соссюровской лингвистики, что исключает возможность анализа смысла. Тодоров делает вывод, что в наши дни труды Соссюра выглядят на редкость последовательными в нежелании изучать символы явления, имеющие чётко определённое значение [Приложение 1]. Исследуя анаграммы, Соссюр обращает внимание только на повторение, но не на предшествующие варианты. . . . Изучая «Песнь о Нибелунгах», он определяет символы только для того, чтобы присвоить их ошибочным чтениям: если они неумышленны, символов не существует. В конце концов, в своих трудах по общей лингвистике он делает предположение о существовании семиологии, описывающей не только лингвистические знаки; но это предположение ограничивается тем, что семиoлогия может описывать только случайные, произвольные знаки.
Раз это действительно так, то только потому, что не мог представить «намерение» без предмета; он не мог до конца преодолеть пропасть между формой и содержанием – в его трудах это превращалось в вопрос. Вместо этого он обращался к «языковой законности». Находясь между, с одной стороны, концепциями девятнадцатого века, основанными на истории и субъективных догадках, и методах случайной интерпретации, основанных на этих концепциях, и, с другой стороны, структуралистскими концепциями, стирающими противостояние между формой и содержанием (субъектом и объектом), значением и происхождением в структурализме, психоанализе и даже квантовой механике – труды Фердинанда де Соссюра по лингвистике и семиотике обозначают поворотный момент в изучении значений в языке и культуре.
Русские учёные были представлены и на Первом международном конгрессе лингвистов в Гааге в 1928 году. С. Карцевский, Р. Якобсон и Н. Трубецкой выступили с докладом, в котором рассматривалась иерархическая структура языка – в духе самых современных для начала прошлого века представлений. Якобсон в своих трудах развивал идеи Соссюра о том, что базовые элементы языка должны изучаться, в первую очередь, в связи со своими функциями, а не с причинами их возникновения.
К сожалению, после прихода в 1924 году к власти Сталина отечественное языкознание, как и многие другие науки, отбрасывает назад. Многие талантливые учёные вынуждены были эмигрировать, были высланы из страны или погибли в лагерях. Только с середины 1950-х годов стал возможен некоторый плюрализм теорий – об этом в разделе 1.2.
1.2 Применение математических методов в лингвистике во второй половине ХХ века
К середине ХХ века сформировалось четыре мировых лингвистических школы, каждая из которых оказалась родоначальником определённого «точного» метода. Ленинградская фонологическая школа (её родоначальником был ученик Бодуэна де Куртенэ Л.В. Щерба) использовала в качестве основного критерия обобщения звука в виде фонемы психолингвистический эксперимент, основанный на анализе речи носителей языка.
Учёные Пражского лингвистического кружка , в частности – его основатель Н.С. Трубецкой, эмигрировавший из России, разработали теорию оппозиций – семантическая структура языка была описана ими как набор оппозитивно постороенных семантических единиц – сем. Эта теория применялась в изучении не только языка, но и художественной культуры.
Идеологами американского дескриптивизма были языковеды Л. Блумфилд и Э. Сепир. Язык представлялся дескриптивистам в виде совокупности речевых высказываний, которые и были главным объектом их исследования. В центре их внимания оказались правила научного описания (отсюда название) текстов: изучение организации, аранжировка и классификация их элементов. Формализация аналитических процедур в области фонологии и морфологии (разработка принципов исследования языка на разных уровнях, дистрибутивного анализа, метода непосредственно составляющих и т.д.) привела к постановке общих вопросов лингвистического моделирования. Невнимание к плану содержания языка, а также парадигматической стороне языка не позволило дескриптивистам достаточно полно интерпретировать язык как систему.

Ануфриева Анастасия, Ивлев Михаил, Мирошников Всеволод, Артюх Екатерина

Работа учащихся 5 класса. Исследовательский проект: "Математическая лингвистика". Групповая работа по предметам- математика и иностранный язык.

Скачать:

Предварительный просмотр:

Главное управление образования мэрии города Новосибирска

Дворец творчества детей и учащейся молодежи «Юниор»

Открытый городской конкурс исследовательских проектов

учащихся 5-8 классов

Направление: естественно-математический проект

Математическая лингвистика

Ивлев Михаил,

Мирошников Всеволод,

Артюх Екатерина

МБОУСОШ№26, 5 класс

Калининский район г. Новосибирска

Консультанты проекта: Ясюренко Майя Дмитриевна,

Учитель математики и информатики,

Севастьянова Татьяна Сергеевна,

учитель английского языка

I квалификационной категории.

Контактные телефоны руководителей:

8-952-924-02-66 (Ясюренко М.Д.)

8-913-896-81-77 (Севастьянова Т.С.)

г. Новосибирск 2013

Проект: «Математическая лингвистика»

Участники проекта: Ануфриева Анастасия, Ивлев Михаил, Мирошников Всеволод, Артюх Екатерина.

Консультанты проекта: Ясюренко Майя Дмитриевна, учитель математики и информатики. Севастьянова Татьяна Сергеевна, учитель английского языка I

квалификационной категории.

Класс: 5А

Название, номер учебного учреждения, где выполнялся проект: МБОУСОШ№26, Калининского района, города Новосибирска

Предметная область: математика, иностранный язык.

Время работы над проектом: ноябрь 2012г. - февраль 2013г.(долгосрочный)

Цель проекта: поиск точек соприкосновения математики и лингвистики.

Задачи:

Познакомиться с историй развития математики и становления лингвистики.
Найти отдельные примеры применения математики в лингвистике.
Изучить перспективы применения математических методов в лингвистике. Сделать выводы.

Тип проекта (по виду деятельности): поисковый, исследовательский

Используемые технологии: мультимедия

Форма продукта проекта: «Математическая лингвистика» (мультимедийная презентация).

Исследование:

- отбор и изучение теоретического материала по данной теме;

- обработка полученной информации;

- определение перспектив применения математических методов в лингвистике.

Область применения результата проекта: учебная (математика, иностранный язык).

Введение…………………………………………………………………………..2

Глава 1. История применения математических методов в лингвистике

1.1. История математики………………………………………………………....3

1.2. Становление лингвистики…………………………………………………...4

1.3. Математическая лингвистика……………………………………………….8

Глава 2. Отдельные примеры использования математики в лингвистике

2.1. Изучение языка методами формальной логики…………………………11

2.2. Перспективы применения математических методов в лингвистике…...13

Заключение...……………………………………………………………………14

Литература………………………………………………………………………15

Введение.

В ХХ веке наметилась тенденция к взаимодействию и взаимопроникновению различных областей знаний. Постепенно стираются грани между отдельными науками; появляется всё больше отраслей умственной деятельности, находящихся «на стыке» гуманитарного, технического и естественнонаучного знания.

Другая очевидная особенность современности – стремление к изучению структур и составляющих их элементов. Поэтому всё большее место как в научной теории, так и на практике уделяется математике. Математика всё глубже проникает в те сферы, которые на протяжении долгого времени было принято считать чисто «гуманитарными», расширяя их эвристический потенциал (ответ на вопрос «сколько» часто помогает ответить и на вопросы «что» и «как). Исключением не стало и языкознание.

Цель нашей работы – кратко осветить связь математики с такой отраслью языкознания, как лингвистика. Первоначально математические методы в лингвистике стали использоваться для того, чтобы уточнить основные понятия языкознания, однако с развитием компьютерной техники подобная теоретическая посылка стала находить применение на практике. Разрешение таких задач, как машинный перевод, машинный поиск информации, автоматическая обработка текста требовало принципиально нового подхода к языку. Перед лингвистами назрел вопрос: как научиться представлять языковые закономерности в том виде, в котором их можно подавать непосредственно на технику. Популярным в наше время термином «математическая лингвистика» называют любые лингвистические исследования, в которых применяются точные методы (а понятие точных методов в науке всегда тесно связано с математикой). В лингвистике используются как количественные (алгебраические), так и неколичественные методы, что сближает её с математической логикой, а, следовательно, и с философией, и даже с психологией. Немецкий философ, лингвист Фридрих Шлегель отмечал взаимодействие языка и сознания, а видный лингвист начала ХХ века Фердинанд де Соссюр связывал структуру языка с его принадлежностью к народу. Взаимодействие математики и языкознания – тема многогранная, и в нашей работе мы остановимся не на всех, а, в первую очередь, на её прикладных аспектах.

Глава 1. История применения математических методов в лингвистике.

1.1. История математики.

В истории математики традиционно выделяются несколько этапов развития математических знаний:

Формирование понятия геометрической фигуры и числа как идеализации реальных объектов и множеств однородных объектов. Появление счёта и измерения, которые позволили сравнивать различные числа, длины, площади и объёмы.
Изобретение арифметических операций. Накопление эмпирическим путём (методом проб и ошибок) знаний о свойствах арифметических действий, о способах измерения площадей и объёмов простых фигур и тел. В этом направлении далеко продвинулись шумеро вавилонские , китайские и индийские математики древности.
Появление в древней Греции дедуктивной математической системы, показавшей, как получать новые математические истины на основе уже имеющихся. Венцом достижений древнегреческой математики стали «Начала» Евклида , игравшие роль стандарта математической строгости в течение двух тысячелетий.
Математики стран ислама не только сохранили античные достижения, но и смогли осуществить их синтез с открытиями индийских математиков, которые в теории чисел продвинулись дальше греков.
В XVI-XVIII веках возрождается и уходит далеко вперёд европейская математика. Её концептуальной основой в этот период являлась уверенность в том, что математические модели являются своего рода идеальным скелетом Вселенной, и поэтому открытие математических истин является одновременно открытием новых свойств реального мира. Главным успехом на этом пути стала разработка математических моделей зависимости переменных величин (функция ) и общая теория движения (анализ бесконечно малых ). Все естественные науки были перестроены на базе новооткрытых математических моделей, и это привело к колоссальному их прогрессу .
В XIX-XX веках становится понятно, что взаимоотношение математики и реальности далеко не столь просто, как ранее казалось. Не существует общепризнанного ответа на своего рода «основной вопрос философии математики»: найти причину «непостижимой эффективности математики в естественных науках». В этом, и не только в этом, отношении математики разделились на множество дискутирующих школ. Наметилось несколько опасных тенденций: чрезмерно узкая специализация, изоляция от практических задач и др. В то же время мощь математики и её престиж, поддержанный эффективностью применения, высоки как никогда прежде.

Помимо большого исторического интереса, анализ эволюции математики представляет огромную важность для развития философии и методологии математики. Нередко знание истории способствует и прогрессу конкретных математических дисциплин; например, древняя китайская задача (теорема) об остатках сформировала целый раздел теории чисел .

Обоснование математики

К началу XIX века относительно строгое логическое (дедуктивное) обоснование имела только евклидова геометрия, хотя строгость её уже тогда справедливо считалась недостаточной. Свойства новых объектов (например, комплексных чисел , бесконечно малых и т. д.) попросту считались в целом такими же, как у объектов уже известных; если же такая экстраполяция была невозможна, свойства подбирались опытным путём.

Огюстен Луи Коши

Построение фундамента математики началось с анализа. В 1821 году Коши опубликовал «Алгебраический анализ», где чётко определил основные понятия на основе концепции предела. Всё же он сделал ряд ошибок, например, почленно интегрировал и дифференцировал ряды, не доказывая допустимость таких операций. Завершил фундамент анализа Вейерштрасс , который выяснил роль важного понятия равномерной непрерывности . Одновременно Вейерштрасс (1860-е годы) и Дедекинд (1870-е) дали обоснование теории вещественных чисел .

Подписи к слайдам:

Математическая лингвистика Авторы: Ануфриева Анастасия, Ивлев Михаил, Мирошников Всеволод, Артюх Екатерина МБОУСОШ№26, 5 класс Калининский район г. Новосибирска Консультанты проекта: Ясюренко Майя Дмитриевна, учитель математики и информатики, Севастьянова Татьяна Сергеевна, учитель английского языка I квалификационной категории.

Цель проекта: поиск точек соприкосновения математики и лингвистики.

Задачи проекта: Познакомиться с историй развития математики и становления лингвистики. Найти отдельные примеры применения математики в лингвистике. Изучить перспективы применения математических методов в лингвистике. Сделать выводы.

Этапы развития математических знаний: Формирование понятия геометрической фигуры и числа как идеализации реальных объектов и множеств однородных объектов. Появление счёта и измерения, которые позволили сравнивать различные числа, длины, площади и объёмы.

Изобретение арифметических операций. Появление в древней Греции дедуктивной математической системы. Математики стран ислама не только сохранили античные достижения, но и смогли осуществить их синтез с открытиями индийских математиков, которые в теории чисел продвинулись дальше греков.

В XVI-XVIII веках возрождается и уходит далеко вперёд европейская математика. В XIX-XX веках становится понятно, что взаимоотношение математики и реальности далеко не столь просто, как ранее казалось.

Огюстен Луи Коши

История языкознания в своём развитии прошла 5 периодов. 1 период – 5-4 вв. до н.э. – XVI вв. 2 период – XVII-XVIII вв. 3 период – конец XVIII-первая половина XIX вв. 4 период – период системного изучения языка – конец XIX – первая треть XX вв. 5 период – 30-е годы XX в. по настоящее время.

Математическая лингвистика: Изучает особенности семиотического и математического моделирования естественного языка (и речи) с целью перевода информации, содержащейся в неформализованном виде в тексте, на формализованный искусственный язык (например, на некоторый информационный язык) на основе такого математического аппарата, как теория множеств и алгебра отношений, теория нечетких множеств и лингвистической переменной, теория вероятностей и математическая статистика, а так же элементов теории информации. Тесно связана с инженерной лингвистикой. Отрасль языкознания, занимающаяся изучением возможностей применения математических методов к исследованию и описанию языка.

Метаязык – это язык, используемый для выражения суждений о другом языке, языке-объекте. С помощью метаязыка изучают структуру знакосочетаний (выражений) языка-объекта, доказывают теоремы о его выразительных свойствах, об отношении его к другим языкам и т. п.

История применения математических методов в лингвистикеЛЕКЦИЯ № 1

план

Становление
структурной лингвистики
на рубеже XIX – ХХ веков.
Применение математических методов
в лингвистике во второй половине ХХ
века.
Перспективы
применения
математических методов в
лингвистике.

Фердинанд де Соссюр (1857-1913) язык как система

собственно язык langue
речь - parole
речевую деятельность
- langage

И.А. Бодуэн де Куртенэ (1845 - 1929)

«Звуки - «атомы» языковой
системы, обладающие
ограниченным количеством
легко измеримых свойств.
Это самый удобный
материал для формальных,
строгих методов
описания.»

Структурная лингвистика –

это совокупность воззрений на язык и
методов его исследования, в основе
которых лежит понимание языка как
знаковой системы с четко выделимыми
структурными элементами (единицами
языка, их классами и пр.) и стремление к
строгому (приближающемуся к точным
наукам) формальному описанию языка.

Ленинградская
фонологическая школа
(Л.В. Щерба) использовала в качестве
основного критерия обобщения звука в
виде фонемы психолингвистический
эксперимент, основанный на анализе
речи носителей языка.
Пражский лингвистический кружок
(Н.С. Трубецкой) разработал теорию
оппозиций – семантическая структура
языка была описана ими как набор
оппозитивно постороенных
семантических единиц – сем.

Применение математических методов в лингвистике во второй половине ХХ века

Американский
дескриптивизм
(Л. Блумфилд и Э. Сепир). Язык
представлялся дескриптивистам в виде
совокупности речевых высказываний.
Формальная грамматика Н. Хомского.
Московская
фонологическая школа,
представителями которой были А.А.
Реформатский, В.Н. Сидоров, П.С.
Кузнецов, А.М. Сухотин, Р.И. Аванесов.

системы машинного перевода

Алгоритм
последовательного перевода
«слово за словом», «фраза за фразой.»
Т-системы (от английского слова «transfer»
- преобразование), в которых перевод
осуществлялся на уровне синтаксических
структур.
И-системы (от слова «интерлингва») получение смыслового представления
входного предложения путём его
семантического анализа и синтеза
входного предложения по полученному
смысловому представлению.

10. Пракладная лингвистика

изучает
не язык в его состоянии (т.е.
системе), а язык в действии (т.е. в
общении);
решает конкретную прикладную задачу,
создавая языковые модели, и при этом не
претендует на объяснение фактов языка
(как теоретическая лингвистика);
ориентирована на конкретные подъязыки
(т.е. на выборочные знания о языке), а не
на весь язык в целом.

11. квантитативная лингвистика

- междисциплинарное направление в
прикладных исследованиях, в котором в
качестве основного инструмента изучения
языка и речи используются
количественные или статистические
методы анализа.

12. компьютерная лингвистика

– разработка методов, технологий и
конкретных систем, обеспечивающих
общение человека с ЭВМ на естественном
или ограниченном естественном языке.

13. компьютерная лингвистика

создание систем обработки естественного
языка (например, систем обработки связного
текста);
разработка информационно-поисковых систем
(документальных, т.е. в которых хранятся
тексты, и фактографических, т.е. в которых
хранятся факты, представленные не только в
текстовой форме, то и в форме таблиц,
формул и т.п.);
создание гипертекстовых систем (т.е.
множества текстов со связывающими их
отношениями);
разработка компьютерных технологий
составления и эксплуатации словарей.

14. Спасибо за внимание!

15. Доклады:

Законы
природы и «гуманитарные» законы.
Математическая революция в лингвистике.
Копенгагенская школа структурной
лингвистики.
Становление прикладной лингвистики как
научной дисциплины.

16. Практическое занятие:

Описание истории применения математических
методов в лингвистике от античности до наших
дней.
Проявление тенденций интеграции
математических, лингвистических и др. знаний в
истории развития науки о языке.
Сопоставительная характеристика прикладной и
теоретической лингвистики (заполните таблицу
Сравнительная характеристика прикладной и
теоретической лингвистики).
Корпусная лингвистика как раздел прикладной
лингвистики.
Прикладные аспекты квантитативной лингвистики.
Компьютерная лингвистика и ее инструментарий.

Портал для школьника. Самоподготовка