Frecvența literelor în rusă. Frecvența de utilizare a literelor în limba rusă Ce litere se găsesc cel mai des în cuvinte

Se știe că aspectul literelor de pe tastatura unei prese de tipar sau PC nu este compus la întâmplare, ci respectă anumite reguli. Astfel, cele mai frecvent utilizate litere sunt situate în partea centrală a tastaturii, iar cele mai puțin frecvente sunt situate la margini. De asemenea, se știe că vocalele sunt folosite mai des decât consoanele. Aceste informații au fost obținute folosind o formulă specială în Corpusul Național al Limbii Ruse.

Cele mai comune vocale

În mod ciudat, litera „o” este liderul în numărul de utilizări în vorbirea scrisă, atât în ​​rândul vocalelor, cât și în rândul consoanelor. Este urmat de „a” și „și”, după care încep consoanele. Potrivit experților, frecvența de utilizare a literei „o” este de o zecime de procent, în timp ce frecvența altor vocale variază de la șapte la opt sutimi de procent.

Cele mai populare consoane

Cea mai des folosită consoana este „n”. În plus, cel mai mare număr de cuvinte în limba rusă încep cu litera „p”. Dintre vocale, „o” este lider în acest sens.

Cea mai rară consoană din vorbirea rusă este litera „f”, folosită în cuvintele care provin din limbi străine, precum și onomatopee, de exemplu „fornitul”.

Astfel de statistici pot fi utile la compilarea tautogramelor. Scopul acestui joc de cuvinte este de a crea o poveste coerentă, fiecare cuvânt în care trebuie să înceapă cu aceeași literă.

Frecvența utilizării literelor în rusă

Știți că unele litere ale alfabetului se găsesc în cuvinte mai des decât altele... Mai mult, frecvența de utilizare a vocalelor în limbă este mai mare decât a consoanelor.

Ce litere ale alfabetului rus se găsesc cel mai des sau mai puțin des în cuvintele folosite pentru a scrie text?

Statistica se ocupă cu identificarea și studiul tiparelor generale. Cu ajutorul acestei direcții științifice, puteți răspunde la întrebarea pusă mai sus numărând numărul fiecărei litere a alfabetului rus, cuvintele folosite și selectând un fragment din lucrările diverșilor autori. Pentru propriul interes și de dragul a ceva de făcut din plictiseală, fiecare poate face asta pe cont propriu. Mă voi referi la statisticile unui studiu deja realizat...

Alfabetul rus chirilic. În timpul existenței sale, a cunoscut mai multe reforme, în urma cărora s-a format sistemul modern de alfabet rusesc, inclusiv 33 de litere.

o — 9,28%
a — 8,66%
e — 8,10%
și - 7,45%
n — 6,35%
t — 6,30%
p — 5,53%
s — 5,45%
l - 4,32%
în — 4,19%
k — 3,47%
n — 3,35%
m — 3,29%
y - 2,90%
d — 2,56%
I - 2,22%
s — 2,11%
b — 1,90%
z — 1,81%
b — 1,51%
g — 1,41%
a — 1,31%
h — 1,27%
yu — 1,03%
x — 0,92%
f — 0,78%
w — 0,77%
c — 0,52%
sch — 0,49%
f — 0,40%
e - 0,17%
ъ — 0,04%

Litera rusă cu cea mai mare frecvență de utilizare este vocala „ DESPRE", așa cum s-a sugerat deja pe bună dreptate aici. Există, de asemenea, exemple tipice precum „ APĂRARE„(7 bucăți într-un singur cuvânt și nimic exotic sau surprinzător; foarte comun pentru limba rusă). Popularitatea ridicată a literei „O” se explică în mare măsură printr-un astfel de fenomen gramatical precum vocala completă. Adică „rece” în loc de „rece” și „îngheț” în loc de „scum”.

Și chiar la începutul cuvintelor, litera consoană „” se găsește cel mai adesea P" Această conducere este, de asemenea, încrezătoare și necondiționată. Cel mai probabil, explicația este oferită de un număr mare de prefixe care încep cu litera „P”: pere-, pre-, pre-, pri-, pro- și altele.

Frecvența de utilizare a literelor stă la baza criptoanalizei.

Am scris un script PHP amuzant. Am trecut prin el toate textele de pe Spectator pentru a verifica limba. În total, în texte sunt folosite 39.110 de forme diferite de cuvinte. Câte diferite mai exact? cuvinte- destul de greu de determinat. Ca să mă apropii măcar cumva de această cifră, am luat doar primele 5 litere ale cuvântului și le-am comparat. Rezultatul a fost 14.373 de astfel de combinații. Ar fi o exagerare să numim asta vocabularul „Spectatorului”.

Apoi am luat cuvintele și le-am examinat pentru frecvența de repetare a literelor. În mod ideal, trebuie să luați un fel de dicționar, pentru a completa imaginea. Nu poți rula texte, ai nevoie doar de cuvinte unice. În text, unele cuvinte se repetă mai des decât altele. Astfel, s-au obținut următoarele rezultate:

o - 9,28%
a - 8,66%
e - 8,10%
și - 7,45%
n - 6,35%
t - 6,30%
p - 5,53%
s - 5,45%
l - 4,32%
în - 4,19%
k - 3,47%
n - 3,35%
m - 3,29%
y - 2,90%
d - 2,56%
I - 2,22%
s - 2,11%
b - 1,90%
z - 1,81%
b - 1,51%
g - 1,41%
a - 1,31%
h - 1,27%
yu - 1,03%
x - 0,92%
f - 0,78%
w - 0,77%
c - 0,52%
sch - 0,49%
f - 0,40%
e - 0,17%
ъ - 0,04%

Îi sfătuiesc pe cei care merg la „Câmpul Miracolelor” să memoreze acest tabel. Și numește cuvintele în această ordine. Deci, de exemplu, s-ar părea că o astfel de literă „familiară” „b” este folosită mai rar decât litera „rară” „s”. De asemenea, trebuie să ne amintim că un cuvânt are mai multe vocale. Și că, dacă ați ghicit o vocală, atunci trebuie să începeți să urmați consoanele. Și în plus, cuvântul este ghicit tocmai după consoanele sale. Comparați: „**a**i*e” și „sr*vn*t*”. În ambele cazuri, cuvântul este „compara”.

Și încă o considerație. Cum ai învățat engleză? Tine minte? E pix, e creion, e masă. Ceea ce văd este ceea ce cânt. Care este rostul?... Cât de des rostiți cuvântul „creion” în viața normală? Dacă sarcina este să predați cum să vorbiți cât mai rapid și eficient posibil, atunci trebuie să predați în consecință. Analizăm limba și scoatem în evidență cuvintele cele mai des folosite. Și începem să învățăm de la ei. Pentru a vorbi mai mult sau mai puțin engleza, sunt suficiente doar o mie și jumătate de cuvinte.

Un alt răsfăț: să formezi cuvinte din litere aleatoriu, dar ținând cont de frecvența de apariție, astfel încât să pară cuvinte normale. În primele zece cuvinte „aleatorie” din patru litere, a apărut „măgarul”. În următorii cincizeci - cuvintele „grabă” și „NATO”. Dar, din păcate, există o mulțime de combinații disonante, precum „bltt” sau „nrro”.

Prin urmare - următorul pas. Am împărțit toate cuvintele în combinații de două litere și am început să le combin aleatoriu (dar ținând cont de frecvența repetării). Oțelul în cantități mari va produce cuvinte similare cu „normal”. De exemplu: „koivdiot”, „voabma”, „apy”, „depoid”, „debyako”, „orfa”, „poesnavy”, „ozza”, „chenya”, „retoria”, „urdeed”, „utoichi” , „stikh”, „sapot”, „gravda”, „ababap”, „obarto”, „eleuet”, „lyarezy”, „myni”, „bromomer” și chiar „todebyst”.

Unde să aplici... există opțiuni. De exemplu, scrieți un generator de nume jucăușe de marcă frumoase. Pentru iaurturi. De exemplu, „memoriso” sau „utotororerto”. Sau - generatorul de poezii futuriste „Burliuk-php”: „opeldiy miaton, linoaz okmiaya... deesopen odesson”.

Și mai există o opțiune. Trebuie sa incerc...

Câteva statistici despre utilizarea cuvintelor rusești:

  • Lungimea medie a cuvântului este de 5,28 caractere.
  • Lungimea medie a propoziției este de 10,38 cuvinte.
  • Cele mai frecvente 1000 de leme acoperă 64,0708% din text.
  • Cele mai frecvente leme din 2000 acoperă 71,9521% din text.
  • Cele mai frecvente 3000 de leme acoperă 76,5104% din text.
  • Cele 5000 de leme cele mai frecvente acoperă 82,0604% din text.

După notă am primit această scrisoare:


Salut Dmitry!

După ce ați analizat articolul „Limba vă va aduce la Kiev” și partea în care vă descrieți programul, a apărut o idee.
Scenariul pe care l-ai scris mi se pare a fi destinat absolut nu pentru „Câmpul miracolelor” într-o măsură mai mare, ci pentru altceva.
Prima utilizare cea mai rezonabilă a rezultatelor scriptului dvs. este determinarea ordinii literelor atunci când programați butoanele pentru dispozitivele mobile. Da, da - este nevoie de toate acestea în telefoanele mobile.

L-am distribuit în valuri ()

Următoarea este distribuția pe butoane:
1. Toate literele din primul val merg la 4 butoane din primul rând
2. Toate literele din al doilea val sunt, de asemenea, pe celelalte 4 butoane din același prim rând
3. Toate literele din al treilea val merg la celelalte două butoane
4. 4.5 și 6 valuri merg pe al doilea rând
5. 7,8,9 valuri merg la al treilea rând, iar al 9-lea val merge complet (în ciuda numărului aparent mare de litere) la al treilea rând al celui de-al 9-lea buton, astfel încât al 10-lea buton este lăsat pentru tot felul de semne de punctuație semne (punct, virgulă etc.).

Cred că totul este clar așa cum este, fără explicații detaliate. Dar totuși, ați putea procesa cu scenariul dvs. (inclusiv semnele de punctuație) următoarele texte:

Și apoi postezi statisticile? Mi s-a parut mie? că textele reflectă cât mai mult vorbirea noastră modernă și totuși atât vorbim, cât și scriem SMS-uri.

Vă mulțumesc foarte mult anticipat.

Deci, există două moduri de a analiza frecvența de repetare a literelor. Metoda 1. Luați un text, găsiți forme de cuvinte unice (nerepetate) în el și analizați-le. Metoda este bună pentru a construi statistici bazate pe cuvinte în limba rusă, și nu pe texte. Metoda 2. Nu căutați cuvinte unice în text, ci treceți direct la numărarea frecvenței de repetare a literelor. Obținem frecvența literelor în text rusesc, și nu în cuvinte rusești. Pentru a crea tastaturi și alte lucruri, trebuie să utilizați exact această metodă: textele sunt tastate pe tastatură.

Tastaturile ar trebui să țină cont nu numai de frecvența literelor, ci și de cele mai persistente cuvinte (forme de cuvinte). Nu este atât de greu de ghicit care cuvinte sunt cele mai des folosite: acestea sunt, în primul rând, oficial părți de vorbire, deoarece rolul lor este de a servi mereu și pretutindeni, și pronume, al căror rol nu este mai puțin important: de a înlocui orice lucru/persoană în vorbire (acest, el, ea). Ei bine, verbele principale (a fi, a spune). Pe baza rezultatelor analizei textelor enumerate mai sus, am primit următoarele cuvinte „populare”: „și, nu, în, că, el, eu, pe, cu, ea, cum, ci, lui, asta, să , a, tot, ea, a fost, așa, atunci, a spus, pentru, tu, o, la, el, eu, numai, pentru, mine, da, tu, din, a fost, când, din, pentru, încă, acum , ei, au spus, deja, el, nu, era, ea, să fie, bine, nici dacă, foarte, nimic, aici, ea însăși, astfel încât, pentru ea, aceasta, poate, că, înainte, noi, ei, dacă, au fost, este, decât, sau, ea” și așa mai departe.

Revenind la tastaturi, este evident că în tastatură combinațiile de litere „nu”, „ce”, „el”, „pe” și altele ar trebui să fie cât mai aproape una de cealaltă, sau dacă nu aproape, atunci în unele optime. cale. Este necesar să se efectueze cercetări asupra modului exact în care degetele se mișcă pe tastatură, să găsiți cele mai „confortabile” poziții și să plasați în ele cele mai frecvent utilizate litere, fără a uita, totuși, de combinațiile de litere.

Problema, ca întotdeauna, este una: chiar dacă este posibil să se creeze o tastatură unică, ce se va întâmpla cu milioanele de oameni care sunt deja obișnuiți cu qwerty/ytsuken?

Cât despre dispozitivele mobile... Probabil că are sens. Cel puțin, literele „o”, „a”, „e” și „i” trebuie să fie exact pe aceeași cheie. Semnele de punctuație în ordinea frecvenței de utilizare: , . - ? ! " ; :) (

Uită-te la tastele „F” și „J” de pe tastatură și vei vedea mici indicii. Acesta este ghidul nostru pentru lumea tastării la atingere.

După ce am început să studiez tastarea tactilă, m-am confruntat cu sentimentul că ceva nu era în regulă în aspectul nostru. Ideea a fost o discrepanță între frecvența de apariție a literelor în limba rusă și locația lor pe tastatură.

Care crezi că este cea mai comună scrisoare în limba rusă? Și dacă ai fi la „Câmpul Miracolelor”, ce literă ai numi prima? Cea mai comună litera este „O”, iar cea mai puțin frecventă este „F”. Nu există un singur cuvânt nativ rusesc care să înceapă cu litera „F”.

Iată un tabel cu distribuția probabilității literelor din textele rusești:

Probabilitate

Probabilitate

Probabilitate

Probabilitate

Litera „F” se găsește de 45 de ori mai puțin decât „O”, dar ocupă același loc convenabil ca „O”. Cine a fost persoana care a adoptat acest standard? Răspunsul la această întrebare îl veți găsi în articolul Tragedia virgulei: „... gândiți-vă, virgula se găsește mult mai des decât punctul și totuși virgula este situată cu majuscule. Aceasta nu se găsește în nicio limbă. în lume în afară de rusă...”.

După ce te-ai uitat la tabel, ai putea fi convins de următoarele: pentru a tasta orbește, poți afla locația nu tuturor literelor, ci numai, de exemplu, 20 - acestea apar în mai mult de 90% din cazuri. Nu cred că o persoană care tastează frecvent nu poate să-și amintească locația cheilor și să lucreze fără să se uite la ele. Totul este o chestiune de obicei. Vă rugăm să rețineți: în orice serviciu în care se completează actele, operatorii se uită la tastatură, deși scriu foarte repede.

Dar am înțeles la întocmirea machetei probabilitatea a fost luată în considerare. Numai că a fost conceput pentru cei... care tastând în timp ce se uită pe tastatura!!!

Este ușor de observat că toate literele întâlnite cel mai frecvent sunt situate în linia vizuală, iar cele mai puțin întâlnite sunt plasate la periferie.

Cu aspectul în limba engleză, situația este puțin mai proastă:

Programe pentru tastarea tactilă. Sunt multe dintre ele, vă puteți uita la recenzii la http://www.urikor.net. Am ales Solo și Stamina. Am decis să încep cu Solo. S-a dovedit a fi plătit, dar era disponibil un demo. Pentru a completa 1! exercițiu de tastare necesare 2 caractere citit mai mult de 10 pagini - un fel de „simulator” pentru citirea rapidă.

Și nu vă vor lăsa să treceți mai departe până când nu citiți totul și îndepliniți standardul. Era aproape pe cale să șterg programul când am primit o scrisoare de pe site-ul Solo, unde erau interesați de progresul meu. Scrisoarea era lungă și m-am gândit: „Bravo, au învățat să tasteze rapid și să scrie scrisori lungi tuturor”.

Dar după ce am studiat cu atenție scrisoarea, mi-am dat seama că a fost scrisă de un robot care răspunde, deși era semnată de o persoană. Acum înțeleg de ce chestionarul m-a întrebat atât de mult despre interesele mele și culoarea părului. Am șters solo.

Eu însumi am lucrat cu programul Stamina. Este făcută cu suflet! Nici măcar nu trebuie să lucrați cu programul, ci să îl descărcați doar pentru referință. Aceasta este cea mai amuzantă referință!


Cum mi-am amintit cheile.
Veți învăța rapid „fyva” și „oldzh”. O literă pentru fiecare deget. Total deja 8! I-am predat nu în Sminе, ci într-un program de pe site-ul http://www.urikor.net. Și apoi mi-am amintit de mișcările în sine. De exemplu, mulți oameni au dificultăți cu litera „i” atunci când învață tastarea tactilă. După ce mi-am pus degetele pe „fyva” și „olj”, pentru a apăsa tasta „i”, trebuie să rotesc complet degetul arătător drept.

Cu această rotație nu pot apăsa decât tasta „și”. Pentru fiecare deget, am memorat următoarele mișcări: „p” - degetul arătător stâng spre stânga, „k” - sus, „e” - sus și la dreapta etc.

Probleme: deoarece aspectul nu este optimizat pentru tastarea la atingere, se dovedește că literele similare sunt imagini în oglindă unele cu altele, acestea sunt tastele „a” și „o”, „k” și „g”. Și ce este mai interesant: se dau exerciții pentru degetele arătător simultan!, adică Ei predau „a” și „o”, „e” și „n”, „p” și „r” în același timp.

Dupa parerea mea asta este gresit - apare confuzia la nivelul creierului. Cel puțin mă confund uneori. Când înveți să tastezi la atingere, gândește-te la mișcări - atunci este dificil să reînveți. Apropo, unele femei au o problemă cu lucrul la tastatură; din cauza unghiilor lungi, apăsă alte taste.

Și când am învățat totul și am decis că voi tasta orbește, a venit următorul etapa - „lenea”. În fiecare zi aveam nevoie să tast mult și din moment ce viteza cu peeking este mai mare, m-am uitat tot timpul. După câteva luni m-am cucerit și a înregistrat-o Toate cheile sunt autocolante de pe casete video.

Atenţie: Dacă nu îți înregistrezi cheile, obiceiul te va învinge. Când lucrez la tastaturi unde literele sunt vizibile, sunt tentat să arunc cu ochiul. Acum nu mai există întoarcere și acesta este primul articol scris complet orbește.

De ce am nevoie de el. Până acum simt un sentiment de satisfacție profundă. Viteza este încă puțin mai mică decât cu privirea și există încă erori, dar deja în timp ce tasteam acest articol, am observat cum crește viteza și uneori mă uit de mine și apoi mă uit - este tipărit. Este ca și cum conștiința îndepărtează blocurile.

Este interesant să urmărești cum înveți singur, pentru că nu vei mai avea o astfel de experiență. Acum plănuiesc să învăț să cânt la pian. Chiar cred că știu să joc(!), trebuie doar să-mi amintesc.

P.S.
A trecut un an. Tastau doar touch și cu viteză mare. Dacă lucrați pe un computer, asigurați-vă că învățați cum să tastați prin atingere. E mai ușor decât crezi.
Iată o scurtă notă de la Inna Igolkina despre modul în care a învățat să tasteze touch-touch.

Știți că unele litere ale alfabetului se găsesc în cuvinte mai des decât altele... Mai mult, frecvența de utilizare a vocalelor în limbă este mai mare decât a consoanelor.

Ce litere ale alfabetului rus se găsesc cel mai des sau mai puțin des în cuvintele folosite pentru a scrie text?

Statistica se ocupă cu identificarea și studiul tiparelor generale. Cu ajutorul acestei direcții științifice, puteți răspunde la întrebarea pusă mai sus numărând numărul fiecărei litere a alfabetului rus, cuvintele folosite și selectând un fragment din lucrările diverșilor autori. Pentru propriul interes și de dragul a ceva de făcut din plictiseală, fiecare poate face asta pe cont propriu. Mă voi referi la statisticile unui studiu deja realizat...

Alfabetul rus chirilic. În timpul existenței sale, a cunoscut mai multe reforme, în urma cărora s-a format sistemul modern de alfabet rusesc, inclusiv 33 de litere.

o — 9,28%
a — 8,66%
e — 8,10%
și - 7,45%
n — 6,35%
t — 6,30%
p — 5,53%
s — 5,45%
l - 4,32%
în — 4,19%
k — 3,47%
n — 3,35%
m — 3,29%
y - 2,90%
d — 2,56%
I - 2,22%
s — 2,11%
b — 1,90%
z — 1,81%
b — 1,51%
g — 1,41%
a — 1,31%
h — 1,27%
yu — 1,03%
x — 0,92%
f — 0,78%
w — 0,77%
c — 0,52%
sch — 0,49%
f — 0,40%
e - 0,17%
ъ — 0,04%

Litera rusă cu cea mai mare frecvență de utilizare este vocala „ DESPRE", așa cum s-a sugerat deja pe bună dreptate aici. Există, de asemenea, exemple tipice precum „ APĂRARE„(7 bucăți într-un singur cuvânt și nimic exotic sau surprinzător; foarte comun pentru limba rusă). Popularitatea ridicată a literei „O” se explică în mare măsură printr-un astfel de fenomen gramatical precum vocala completă. Adică „rece” în loc de „rece” și „îngheț” în loc de „scum”.

Și chiar la începutul cuvintelor, litera consoană „” se găsește cel mai adesea P" Această conducere este, de asemenea, încrezătoare și necondiționată. Cel mai probabil, explicația este oferită de un număr mare de prefixe care încep cu litera „P”: pere-, pre-, pre-, pri-, pro- și altele.

Frecvența de utilizare a literelor stă la baza criptoanalizei.