Частота букв в русском языке. Частота применения букв в русском языке Какие буквы чаще всего встречаются в словах

Известно, что буквенная раскладка на клавиатуре печатной машины или ПК составлена не случайным образом, а подчиняется определенным правилам. Так, в центральной части клавиатуры расположены наиболее часто употребляемые буквы, а по краям - те, что встречаются реже. Также известно, что гласные буквы используются чаще согласных. Эти сведения получены с помощью специальной формулы в Национальном корпусе русского языка.

Самые употребляемые гласные буквы

Как ни странно, буква «о» - лидер по количеству употреблений в письменной речи, как среди гласных, так и среди согласных букв. За ней следуют «а» и «и», а уже после начинаются согласные. По подсчетам специалистов, частотность использования буквы «о» составляет одну десятую процента, тогда как частотность других гласных колеблется в пределах семи - восьми сотых процента.

Наиболее популярные согласные буквы

Самой часто используемой согласной является «н». При этом наибольшее количество слов в русском языке начинаются с буквы «п». Среди гласных же по этому признаку лидирует «о».

Самой редкой согласной в русской речи считается буква «ф», используемая в словах, пришедших из иностранных языков, а также звукоподражаниях, например «фыркнуть».

Такая статистика может пригодиться при составлении тавтограмм. Суть этой словесной игры состоит в том, чтобы составить связный рассказ, каждое слово в котором должно начинаться с одной и той же буквы.

Частота применения букв в русском языке

А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных...Причем частота употребляемости гласных букв в языке выше, чем согласных.

Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования...

Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Русская буква, имеющая наибольшую частотность в использовании - это гласная «О », как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти » (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

А в самом начале слов чаще всего встречается согласная буква «П ». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

Частота использования букв основа криптоанализа.

Написал забавный php-скрипт. Погонял через него все тексты на« Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов - определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом« Спектатора».

Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

о - 9.28%
а - 8.66%
е - 8.10%
и - 7.45%
н - 6.35%
т - 6.30%
р - 5.53%
с - 5.45%
л - 4.32%
в - 4.19%
к - 3.47%
п - 3.35%
м - 3.29%
у - 2.90%
д - 2.56%
я - 2.22%
ы - 2.11%
ь - 1.90%
з - 1.81%
б - 1.51%
г - 1.41%
й - 1.31%
ч - 1.27%
ю - 1.03%
х - 0.92%
ж - 0.78%
ш - 0.77%
ц - 0.52%
щ - 0.49%
ф - 0.40%
э - 0.17%
ъ - 0.04%

Тем, кто поедет на« Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая« привычная» буква« б» употребляется реже, чем« редкая» буква« ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните:« **а**и*е» и« ср*вн*т*». И в том и в другом случае - это слово« сравните».

И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу - о том и пою. А смысл?.. Как часто вы в нормальной жизни говорите слово« карандаш»? Если задача - научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке« случайных» четырехбуквенных слов выскочило« осел». В следующей полсотне - слова« мчим» и« нато». Но, увы, очень много неблагозвучных комбинаций, таких, как« блтт» или« нрро».

Поэтому - следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на« нормальные». Например:« коивдиот»,« воабма»,« апый»,« депоид»,« дебяко»,« орфа»,« поеснавы»,« озза»,« ченя»,« риторя»,« урдеед»,« утоичи»,« стых»,« сапоть»,« гравда»,« абабап»,« обарто»,« еелует»,« лярезы»,« мыни»,« бромомер» и даже« тодебыст».

Куда применить... есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа,« мемолисо» или« уторорерто». Или - генератор футуристических стихов« Бурлюк-php»:« опелдиий миатон, линоаз окмиая... деесопен одесон».

И есть еще один вариант. Надо попробовать...

Некоторые статистические данные об использовании русских слов:

  • Средняя длина слова 5.28 символа.
  • Средняя длина предложения 10.38 слов.
  • 1000 наиболее частотных лемм покрывает 64.0708% текста.
  • 2000 наиболее частотных лемм покрывают 71.9521% текста.
  • 3000 наиболее частотных лемм покрывают 76.5104% текста.
  • 5000 наиболее частотных лемм покрывают 82.0604% текста.

После заметки мне пришло вот такое письмо:


Здравствуйте, Дмитрий!

Проанализировав статью« Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
Вами написанный скрипт кажется мне предназначенным абсолютно не для« Поля чудес» в большей мере, а для другого.
Первое самое разумное применение результатов работы Вашего скрипта - определение порядка букв при программировании кнопок для мобильных устройств. Да, да - именно в мобильниках и нужно все это.

Я распределил это по волнам ()

Далее распределение по кнопкам:
1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
3. Все буквы из третьей волны туда же на оставшиеся две кнопки
4. 4,5 и 6 волны уходят во второй ряд
5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

Заранее большое спасибо.

Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая - служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые« популярные» слова:« и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

Возвращаясь к клавиатурам - очевидно, что в клавиатуре буквосочетания« не»,« что»,« он»,« на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые« удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

Насчет же мобильных устройств... Наверное, it makes sense. По крайней мере, буквы« о»,« а»,« е» и« и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления: , . - ? ! " ; :) (

Посмотрите на клавиатуре клавиши "F" и "J" и вы увидите небольшие зацепки. Это наш проводник в мире слепой печати.

Начав изучать слепую печать, я столкнулся с ощущением будто что-то не так в нашей раскладке. Дело было в несовпадении частот встречаемости букв в русском языке с их расположением на клавиатуре.

Как вы думаете, какая буква чаще всего встречается в русском языке? А если бы вы были на "Поле чудес", какую букву назвали бы в первую очередь? Чаще всего встречается буква "О", а реже всего - "Ф". Нет ни одного исконно-русского слова, начинающегося на букву "Ф".

Вот таблица распределения вероятностей букв в русских текстах:

Вероятность

Вероятность

Вероятность

Вероятность

Буква "Ф" встречается в 45 раз меньше "О" , а занимает такое же удобное место как и "О". Кто был тот человек, который принял этот стандарт? Ответ на этот вопрос вы найдете в статье Трагедия запятой : "... подумайте, запятая встречается гораздо чаще чем точка, а между тем запятая расположена в верхнем регистре. Этого нет ни в одном языке мира, кроме русского...".

Просмотрев таблицу, вы могли убедиться в следующем: чтобы печатать вслепую можно выучить расположение не всех букв, а только, например, 20 - они встречаются в более чем 90 % случаях. Я не верю, что человек, часто печатающий, не может запомнить расположение клавиш и работать не глядя на них. Все дело в привычке. Обратите внимание: в любой службе, где оформляют бумаги, операторы смотрят на клавиатуру, хотя печатают очень быстро.

Но я понял, в составлении раскладки вероятность учитывалась . Только она расчитана была на тех... кто печатает, смотря на клавиатуру!!!

Легко заметить, все наиболее часто встречаемые буквы расположены в поле прямой видимости, а встречающиеся реже - вынесены на периферию.

С английской раскладкой дело обстоит немного хуже:

Программы для слепой печати . Их много, обзоры вы можете посмотреть на http://www.urikor.net . Я выбрал Соло и Стамина . Решил начать с Соло. Она оказалась платной, но была доступна демо. Чтобы выполнить 1! упражнение по печати 2 символов нужно прочитать больше 10 страниц - этакий "тренажер" по скорочтению.

И дальше вас не пропустят пока вы все не прочитаете и не выполните норматив. Я почти собрался удалять программу, как мне пришло письмо с сайта Соло, где интересовались моими успехами. Письмо было длинное, и я подумал:" Вот молодцы, научились быстро печатать и пишут всем большие письма".

Но изучив письмо внимательно, я понял, что оно составлено роботом-автоответчиком, хотя подписано человеком. Теперь я понял, для чего в анкете меня так много спрашивали о моих интересах и цвете волос. Соло я удалил.

Сам я занимался с программой Stamina . Она сделана с душой! Вы можете даже не заниматься с программой, а скачать ее ради одной справки. Это самая смешная справка!


Как я запоминал клавиши.
"фыва" и "олдж" вы выучите быстро. Каждому пальцу по букве. Итого уже 8! Учил я их не в Staminе, а в программе с сайта http://www.urikor.net . А дальше запоминал сами движения. Например, у многих при изучении слепой печати возникают трудности с буквой "и". Разместив пальцы на "фыва" и "олдж", мне, чтобы нажать на клавишу "и" нужно сделать полный поворот правого указательного пальца.

При таком повороте я могу попасть только на клавишу "и". Для каждого пальца я запомнил такие движения: "п" - левый указательный влево, "к" - вверх, "е" - вверх и вправо и т.д.

Проблемы : так как раскладка не оптимизирована для слепой печати, то получается, что сходные буквы лежат зеркально друг другу, это клавиши "а" и "о", "к" и "г". И что интереснее: упражнения для указательных пальцев даются одновременно! , т.е. учат одновременно "а" и "о", "е" и "н" , "п" и "р".

На мой взгляд это неправильно - в мозгу происходит путанница. По крайней мере, я путаюсь иногда. Когда будете учиться слепой печати, подумайте над движениями - потом трудно переучиваться. Кстати существует проблема с работой на клавиатуре у некоторых женщин, из-за длинных ногтей они нажимают другие клавиши.

И вот когда я все выучил и решил, что буду печатать в слепую, настал следующий этап - "лень" . Каждый день мне нужно было много печатать и так как скорость с подглядыванием больше, то я все время подглядывал. Спустя пару месяцев я победил себя и заклеил все клавиши наклейками от видеокассет.

Внимание : если вы не заклеите клавиши, то привычка вас победит. Когда я работаю на клавиатурах, где видны буквы, у меня возникает соблазн подсмотреть. Теперь обратного пути нет и это первая статья написанная полностью вслепую.

Зачем мне это. Пока испытываю чувство глубокого удовлетворения. Скорость пока немного меньше, чем с подглядыванием да и ошибки пока есть, но уже печатая эту статью, заметил как повышается скорость и иногда я забываюсь, а потом смотрю - напечатано. Как будто сознание снимает блоки.

Интересно наблюдать как учишься сам, ведь такого опыта больше не будет. Теперь планирую научиться играть на пианино. Я даже думаю, что знаю как играть(!), нужно только Вспомнить.

P.S.
Прошел год. Печатаю только вслепую и на большой скорости. Если вы работаете за компьютером, обязательно научитесь печатать вслепую. Это проще чем вы думаете.
Вот небольшая заметка Инны Иголкиной о том как, она училась печатать вслепую.

А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных...Причем частота употребляемости гласных букв в языке выше, чем согласных.

Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования...

Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Русская буква, имеющая наибольшую частотность в использовании - это гласная «О », как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти » (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

А в самом начале слов чаще всего встречается согласная буква «П ». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

Частота использования букв основа криптоанализа.