Frequência das letras em russo. Frequência de uso de letras no idioma russo Quais letras são encontradas com mais frequência nas palavras

Sabe-se que o layout das letras no teclado de uma impressora ou PC não é composto aleatoriamente, mas obedece a certas regras. Assim, as letras mais utilizadas ficam localizadas na parte central do teclado, e as menos comuns ficam nas bordas. Também se sabe que as vogais são usadas com mais frequência do que as consoantes. Esta informação foi obtida por meio de uma fórmula especial no Corpus Nacional da Língua Russa.

As vogais mais comuns

Curiosamente, a letra “o” é líder em número de usos na fala escrita, tanto entre vogais quanto entre consoantes. É seguido por “a” e “e”, e depois começam as consoantes. Segundo especialistas, a frequência de uso da letra “o” é de um décimo de um por cento, enquanto a frequência das demais vogais varia de sete a oito centésimos de um por cento.

Consoantes mais populares

A consoante mais comumente usada é "n". Além disso, o maior número de palavras na língua russa começa com a letra “p”. Entre as vogais, “o” é o líder nesse quesito.

A consoante mais rara na língua russa é a letra “f”, usada em palavras que vêm de línguas estrangeiras, bem como em onomatopeias, por exemplo “bufar”.

Essas estatísticas podem ser úteis na compilação de tautogramas. O objetivo deste jogo de palavras é criar uma história coerente, cada palavra deve começar com a mesma letra.

Frequência de uso de letras em russo

Você sabia que algumas letras do alfabeto são encontradas em palavras com mais frequência do que outras... Além disso, a frequência de uso de vogais na língua é maior do que de consoantes.

Quais letras do alfabeto russo são encontradas com mais ou menos frequência nas palavras usadas para escrever um texto?

A estatística trata da identificação e do estudo de padrões gerais. Com a ajuda desta direção científica, você pode responder à questão colocada acima contando o número de cada letra do alfabeto russo, as palavras utilizadas e selecionando um trecho das obras de diversos autores. Para seu próprio interesse e para ter algo para fazer fora do tédio, todos podem fazer isso por conta própria. Vou me referir às estatísticas de um estudo já realizado...

Alfabeto russo cirílico. Durante a sua existência, passou por diversas reformas, como resultado da formação do moderno sistema do alfabeto russo, incluindo 33 letras.

o — 9,28%
uma — 8,66%
e — 8,10%
e - 7,45%
n — 6,35%
t — 6,30%
p — 5,53%
s — 5,45%
eu - 4,32%
em - 4,19%
k — 3,47%
n — 3,35%
m — 3,29%
você - 2,90%
d — 2,56%
I – 2,22%
s — 2,11%
b — 1,90%
z — 1,81%
b — 1,51%
g — 1,41%
- 1,31%
h — 1,27%
você – 1,03%
x — 0,92%
f — 0,78%
w — 0,77%
c-0,52%
sch – 0,49%
f — 0,40%
e-0,17%
- 0,04%

A letra russa com maior frequência de uso é a vogal “ SOBRE", como já foi justamente sugerido aqui. Existem também exemplos típicos como “ DEFESA"(7 peças em uma palavra e nada de exótico ou surpreendente; muito comum na língua russa). A alta popularidade da letra “O” é explicada em grande parte por um fenômeno gramatical como a vogal completa. Ou seja, “frio” em vez de “frio” e “geada” em vez de “escória”.

E logo no início das palavras, a letra consoante “” é mais frequentemente encontrada P" Esta liderança também é confiante e incondicional. Muito provavelmente, a explicação é fornecida por um grande número de prefixos começando com a letra “P”: pere-, pre-, pre-, pri-, pro- e outros.

A frequência de uso das letras é a base da criptoanálise.

Eu escrevi um script PHP engraçado. Passei todos os textos do Spectator para verificar o idioma. No total, 39.110 formas de palavras diferentes são utilizadas nos textos. Quantos diferentes exatamente? palavras- bastante difícil de determinar. Para chegar pelo menos de alguma forma mais próximo desse número, peguei apenas as 5 primeiras letras da palavra e as comparei. O resultado foi 14.373 dessas combinações. Seria um exagero chamar isso de vocabulário de “Espectador”.

Então peguei as palavras e examinei-as quanto à frequência de repetição das letras. O ideal é levar algum tipo de dicionário, para completar o quadro. Você não pode executar textos, você só precisa de palavras únicas. No texto, algumas palavras são repetidas com mais frequência do que outras. Assim, foram obtidos os seguintes resultados:

o - 9,28%
uma - 8,66%
e - 8,10%
e - 7,45%
n - 6,35%
t - 6,30%
p - 5,53%
s - 5,45%
eu - 4,32%
em - 4,19%
k - 3,47%
n - 3,35%
m - 3,29%
você - 2,90%
d - 2,56%
I – 2,22%
s - 2,11%
b - 1,90%
z - 1,81%
b - 1,51%
g - 1,41%
- 1,31%
h - 1,27%
você - 1,03%
x - 0,92%
f - 0,78%
w - 0,77%
c - 0,52%
sch - 0,49%
f - 0,40%
e - 0,17%
ъ - 0,04%

Aconselho quem vai ao “Campo dos Milagres” que memorize esta tabela. E nomeie as palavras nessa ordem. Assim, por exemplo, parece que uma letra “b” tão “familiar” é usada com menos frequência do que a letra “rara” “s”. Devemos lembrar também que uma palavra possui mais de uma vogal. E se você adivinhou uma vogal, então você precisa começar a seguir as consoantes. Além disso, a palavra é adivinhada precisamente por suas consoantes. Compare: “**a**i*e” e “sr*vn*t*”. Em ambos os casos, a palavra é “comparar”.

E mais uma consideração. Como você aprende ingles? Lembrar? E caneta, e lápis, e mesa. O que vejo é sobre o que canto. Qual é o sentido?.. Com que frequência você diz a palavra “lápis” na vida normal? Se a tarefa é ensinar como falar da maneira mais rápida e eficiente possível, então você precisa ensinar de acordo. Analisamos o idioma e destacamos as palavras mais utilizadas. E começamos a aprender com eles. Para falar mais ou menos inglês, bastam apenas mil e quinhentas palavras.

Outro mimo: formar palavras a partir de letras aleatoriamente, mas levando em consideração a frequência de ocorrência, para que pareçam palavras normais. Nas primeiras dez palavras “aleatórias” de quatro letras, “burro” apareceu. Nos próximos cinquenta - as palavras “rushing” e “NATO”. Mas, infelizmente, existem muitas combinações dissonantes, como “bltt” ou “nrro”.

Portanto – o próximo passo. Dividi todas as palavras em combinações de duas letras e comecei a combiná-las aleatoriamente (mas levando em consideração a frequência de repetição). O aço em grandes quantidades produzirá palavras semelhantes a “normal”. Por exemplo: “koivdiot”, “voabma”, “apy”, “depoid”, “debyako”, “orfa”, “poesnavy”, “ozza”, “chenya”, “rhetoria”, “urdeed”, “utoichi” , “stikh”, “sapot”, “gravda”, “ababap”, “obarto”, “eleuet”, “lyarezy”, “myni”, “bromomer” e até “todebyst”.

Onde se inscrever... existem opções. Por exemplo, escreva um gerador de belos nomes divertidos de marcas. Para iogurtes. Tipo, “memoliso” ou “utororerto”. Ou - o gerador de poemas futuristas "Burliuk-php": "opeldiy miaton, linoaz okmiaya... deesopen odesson."

E há mais uma opção. Precisa tentar...

Algumas estatísticas sobre o uso de palavras russas:

  • O comprimento médio da palavra é de 5,28 caracteres.
  • O comprimento médio da frase é de 10,38 palavras.
  • Os 1000 lemas mais frequentes cobrem 64,0708% do texto.
  • Os lemas mais frequentes de 2000 cobrem 71,9521% do texto.
  • Os 3.000 lemas mais frequentes cobrem 76,5104% do texto.
  • Os 5.000 lemas mais frequentes cobrem 82,0604% do texto.

Após a nota, recebi esta carta:


Olá Dmitri!

Depois de analisar o artigo “A linguagem vai trazer você para Kiev” e a parte onde você descreve seu programa, surgiu uma ideia.
O roteiro que você escreveu me parece não se destinar de forma alguma ao “Campo dos Milagres”, mas a outra coisa.
O primeiro uso mais razoável dos resultados do seu script é determinar a ordem das letras ao programar botões para dispositivos móveis. Sim, sim - é nos telemóveis que tudo isto é necessário.

Distribuí em ondas ()

A seguir está a distribuição por botões:
1. Todas as letras da primeira onda vão para 4 botões na primeira linha
2. Todas as letras da segunda onda também estão nos 4 botões restantes na mesma primeira linha
3. Todas as letras da terceira onda vão para os dois botões restantes
4. Ondas 4,5 e 6 vão para a segunda linha
5. 7,8,9 ondas vão para a terceira linha, e a 9ª onda vai completamente (apesar do número aparentemente grande de letras) para a terceira linha do 9º botão, de modo que o 10º botão fica para todos os tipos de pontuação marcas (ponto final, vírgula, etc.).

Acho que tudo está claro como está, sem explicações detalhadas. Mesmo assim, você poderia processar com seu script (incluindo sinais de pontuação) os seguintes textos:

E depois postar as estatísticas? Pareceu-me? que os textos reflitam tanto quanto possível o nosso discurso moderno e, ainda assim, falamos e escrevemos SMS.

Muito obrigado antecipadamente.

Portanto, existem duas formas de analisar a frequência de repetição de letras. Método 1. Pegue um texto, encontre nele formas de palavras únicas (não repetidas) e analise-as. O método é bom para construir estatísticas baseadas em palavras do idioma russo, e não em textos. Método 2. Não procure palavras únicas no texto, mas vá direto para a contagem da frequência de repetição das letras. Obtemos a frequência das letras no texto russo, e não nas palavras russas. Para criar teclados e outras coisas, você precisa usar exatamente este método: os textos são digitados no teclado.

Os teclados devem levar em consideração não apenas a frequência das letras, mas também as palavras (formas das palavras) mais persistentes. Não é tão difícil adivinhar quais palavras são as mais usadas: estas são, em primeiro lugar, oficial classes gramaticais, porque sua função é servir sempre e em qualquer lugar, e pronomes, cujo papel não é menos importante: substituir qualquer coisa/pessoa na fala (este, ele, ela). Bem, os verbos principais (ser, dizer). Com base nos resultados da análise dos textos listados acima, recebi as seguintes palavras “populares”: “e, não, em, aquilo, ele, eu, em, com, ela, como, mas, dele, isto, para , a, tudo, ela, foi, então, então, disse, para, você, oh, em, ele, eu, apenas, para, eu, sim, você, de, era, quando, de, para, ainda, agora , eles, disseram, já, ele, não, era, ela, para ser, bem, nem, se, muito, nada, aqui, ela mesma, para que, para si mesma, isso, talvez, aquilo, antes, nós, eles, se, era, é, do que, ou ela” e assim por diante.

Voltando aos teclados, é óbvio que no teclado as combinações de letras “não”, “o que”, “ele”, “ligado” e outras devem estar o mais próximas possível umas das outras, ou se não forem próximas, então de alguma forma ideal caminho. É preciso pesquisar exatamente como os dedos se movem no teclado, encontrar as posições mais “confortáveis” e nelas colocar as letras mais utilizadas, sem esquecer, porém, das combinações de letras.

O problema, como sempre, é um só: mesmo que seja possível criar um Teclado Único, o que acontecerá com os milhões de pessoas que já estão acostumadas com o qwerty/ytsuken?

Quanto aos dispositivos móveis... Provavelmente faz sentido. No mínimo, as letras “o”, “a”, “e” e “i” devem estar exatamente na mesma tecla. Sinais de pontuação em ordem de frequência de uso: , . - ? ! " ; :) (

Observe as teclas “F” e “J” do teclado e você verá pequenas pistas. Este é o nosso guia para o mundo da digitação.

Tendo começado a estudar digitação, me deparei com a sensação de que algo estava errado em nosso layout. A questão era uma discrepância entre a frequência de ocorrência das letras no idioma russo e sua localização no teclado.

Qual você acha que é a letra mais comum na língua russa? E se você estivesse no “Campo dos Milagres”, qual letra você nomearia primeiro? A letra mais comum é “O” e a menos comum é “F”. Não existe uma única palavra nativa russa que comece com a letra "F".

Aqui está uma tabela de distribuição de probabilidade de letras em textos russos:

Probabilidade

Probabilidade

Probabilidade

Probabilidade

A letra “F” é encontrada 45 vezes menos que “O”, mas ocupa o mesmo lugar conveniente que “O”. Quem foi a pessoa que adotou esse padrão? Você encontrará a resposta a esta pergunta no artigo A Tragédia da Vírgula: "... pense, a vírgula é encontrada com muito mais frequência do que o ponto final, e mesmo assim a vírgula está localizada em maiúscula. Isso não é encontrado em nenhum idioma no mundo, exceto russo...".

Olhando a tabela, você pode se convencer do seguinte: para digitar às cegas, você pode aprender a localização não de todas as letras, mas apenas, por exemplo, de 20 - elas ocorrem em mais de 90% dos casos. Não acredito que uma pessoa que digita com frequência não consiga lembrar a localização das teclas e trabalhar sem olhar para elas. É tudo uma questão de hábito. Atenção: em qualquer serviço onde a documentação é preenchida, os operadores olham para o teclado, embora digitem muito rapidamente.

Mas eu entendi na elaboração do layout a probabilidade foi levada em consideração. Só que foi projetado para aqueles... que digitando enquanto olha no teclado!!!

É fácil notar que todas as letras encontradas com mais frequência estão localizadas na linha de visão e as menos encontradas estão localizadas na periferia.

Com o layout inglês a situação é um pouco pior:

Programas para digitação. Existem muitos deles, você pode ver as avaliações em http://www.urikor.net. Eu escolhi Solo e Stamina. Decidi começar com Solo. Acabou sendo pago, mas uma demonstração estava disponível. Para completar 1! exercício de digitação são necessários 2 caracteres ler mais de 10 páginas - uma espécie de “simulador” de leitura rápida.

E eles não deixarão você continuar até que você leia tudo e cumpra o padrão. Eu estava quase apagando o programa quando recebi uma carta do site Solo, onde estavam interessados ​​no meu progresso. A carta era longa e pensei: “Muito bem, eles aprenderam a digitar rápido e a escrever cartas longas para todo mundo”.

Mas depois de estudar a carta com atenção, percebi que ela foi escrita por um robô respondedor, embora tenha sido assinada por uma pessoa. Agora entendo porque o questionário me perguntou tanto sobre meus interesses e cor de cabelo. Eu apaguei sozinho.

Eu mesmo trabalhei com o programa Stamina. É feito com alma! Você nem precisa trabalhar com o programa, basta baixá-lo apenas para referência. Esta é a referência mais engraçada!


Como me lembrei das chaves.
Você aprenderá “fyva” e “oldzh” rapidamente. Uma letra para cada dedo. Total já 8! Eu os ensinei não em Stamina, mas em um programa do site http://www.urikor.net. E então me lembrei dos próprios movimentos. Por exemplo, muitas pessoas têm dificuldade com a letra “i” ao aprender a digitar. Depois de colocar os dedos em “fyva” e “olj”, para pressionar a tecla “i” preciso dar uma volta completa com o dedo indicador direito.

Com esta rotação só consigo apertar a tecla "e". Para cada dedo memorizei os seguintes movimentos: “p” - dedo indicador esquerdo para a esquerda, “k” - para cima, “e” - para cima e para a direita, etc.

Problemas: como o layout não é otimizado para digitação, verifica-se que letras semelhantes são imagens espelhadas umas das outras, são as teclas “a” e “o”, “k” e “g”. E o que é mais interessante: são dados exercícios para os dedos indicadores simultaneamente!, ou seja Eles ensinam “a” e “o”, “e” e “n”, “p” e “r” ao mesmo tempo.

Na minha opinião isso é errado - ocorre confusão no cérebro. Pelo menos às vezes fico confuso. Quando você aprender a digitar, pense nos movimentos - então será difícil reaprender. Aliás, algumas mulheres têm dificuldade em trabalhar no teclado, por causa das unhas compridas pressionam outras teclas.

E quando aprendi tudo e decidi que iria digitar às cegas, veio o próximo palco - "preguiça". Todos os dias eu precisava digitar muito e como a velocidade de espreitar é maior, eu espiava o tempo todo. Depois de alguns meses eu me conquistei e gravou isso Todas as chaves são adesivos de fitas de vídeo.

Atenção: Se você não guardar suas chaves com fita adesiva, o hábito irá derrotá-lo. Quando trabalho em teclados onde as letras são visíveis, fico tentado a espiar. Agora não há como voltar atrás e este é o primeiro artigo escrito de forma totalmente cega.

Por que eu preciso disso. Até agora sinto uma sensação de profunda satisfação. A velocidade ainda é um pouco menor que a de espiar e ainda há erros, mas já enquanto digitava este artigo percebi como a velocidade aumenta e às vezes me esqueço, e aí olho - está impresso. É como se a consciência estivesse removendo bloqueios.

É interessante observar como você aprende sozinho, porque você não terá essa experiência novamente. Agora pretendo aprender a tocar piano. Acho até que sei jogar(!), só preciso lembrar.

P.S.
Um ano se passou. Eu só digito touch e em alta velocidade. Se você trabalha em um computador, aprenda a digitar. É mais fácil do que você pensa.
Aqui está uma breve nota de Inna Igolkina sobre como ela aprendeu a digitar touch-touch.

Você sabia que algumas letras do alfabeto são encontradas em palavras com mais frequência do que outras... Além disso, a frequência de uso de vogais na língua é maior do que de consoantes.

Quais letras do alfabeto russo são encontradas com mais ou menos frequência nas palavras usadas para escrever um texto?

A estatística trata da identificação e do estudo de padrões gerais. Com a ajuda desta direção científica, você pode responder à questão colocada acima contando o número de cada letra do alfabeto russo, as palavras utilizadas e selecionando um trecho das obras de diversos autores. Para seu próprio interesse e para ter algo para fazer fora do tédio, todos podem fazer isso por conta própria. Vou me referir às estatísticas de um estudo já realizado...

Alfabeto russo cirílico. Durante a sua existência, passou por diversas reformas, como resultado da formação do moderno sistema do alfabeto russo, incluindo 33 letras.

o — 9,28%
uma — 8,66%
e — 8,10%
e - 7,45%
n — 6,35%
t — 6,30%
p — 5,53%
s — 5,45%
eu - 4,32%
em - 4,19%
k — 3,47%
n — 3,35%
m — 3,29%
você - 2,90%
d — 2,56%
I – 2,22%
s — 2,11%
b — 1,90%
z — 1,81%
b — 1,51%
g — 1,41%
- 1,31%
h — 1,27%
você – 1,03%
x — 0,92%
f — 0,78%
w — 0,77%
c-0,52%
sch – 0,49%
f — 0,40%
e-0,17%
- 0,04%

A letra russa com maior frequência de uso é a vogal “ SOBRE", como já foi justamente sugerido aqui. Existem também exemplos típicos como “ DEFESA"(7 peças em uma palavra e nada de exótico ou surpreendente; muito comum na língua russa). A alta popularidade da letra “O” é explicada em grande parte por um fenômeno gramatical como a vogal completa. Ou seja, “frio” em vez de “frio” e “geada” em vez de “escória”.

E logo no início das palavras, a letra consoante “” é mais frequentemente encontrada P" Esta liderança também é confiante e incondicional. Muito provavelmente, a explicação é fornecida por um grande número de prefixos começando com a letra “P”: pere-, pre-, pre-, pri-, pro- e outros.

A frequência de uso das letras é a base da criptoanálise.