Ang dalas ng paggamit ng mga titik sa wikang Ruso. Paano gamitin ang bagong frequency dictionary ng Russian vocabulary Mga istatistika ng frequency ng mga salita sa Russian

Ang dalas ng paggamit ng mga titik sa Russian

Alam mo ba na ang ilang mga titik ng alpabeto ay matatagpuan sa mga salita nang mas madalas kaysa sa iba ... Bukod dito, ang dalas ng mga patinig sa wika ay mas mataas kaysa sa mga katinig.

Anong mga titik ng alpabetong Ruso ang pinakakaraniwan o hindi gaanong karaniwan sa mga salitang ginagamit sa pagsulat ng teksto?

Ang mga istatistika ay nakatuon sa pagkilala at pag-aaral ng mga pangkalahatang pattern. Sa tulong ng direksyong pang-agham na ito, masasagot ng isa ang tanong sa itaas sa pamamagitan ng pagbibilang ng bilang ng bawat isa sa mga titik ng alpabetong Ruso, ang mga salitang ginamit, pagpili ng sipi mula sa mga gawa ng iba't ibang mga may-akda. Para sa kanilang sariling interes at para sa kapakanan ng pagkabagot, lahat ay maaaring gawin ito sa kanilang sarili. Sangguni ako sa mga istatistika ng isang naisagawa na pag-aaral ...

Ang alpabetong Ruso ay Cyrillic. Sa panahon ng pagkakaroon nito, dumaan ito sa ilang mga reporma, na nagresulta sa pagbuo ng modernong sistemang alpabetikong Ruso, na kinabibilangan ng 33 titik.

o - 9.28%
a — 8.66%
e - 8.10%
at - 7.45%
n - 6.35%
t - 6.30%
p - 5.53%
c - 5.45%
l - 4.32%
c — 4.19%
k - 3.47%
n - 3.35%
m - 3.29%
y - 2.90%
e - 2.56%
Ako - 2.22%
s — 2.11%
b - 1.90%
h - 1.81%
b - 1.51%
d - 1.41%
ika - 1.31%
h - 1.27%
yu - 1.03%
x - 0.92%
g - 0.78%
w - 0.77%
c - 0.52%
u - 0.49%
f - 0.40%
e - 0.17%
b — 0.04%

Ang letrang Ruso na may pinakamataas na dalas ng paggamit ay ang patinig " O', gaya ng wastong iminungkahi dito. Mayroon ding mga katangiang halimbawa, tulad ng " PAGTATANGGOL"(7 piraso sa isang salita at walang kakaiba o nakakagulat; napaka pamilyar sa wikang Ruso). Ang mataas na katanyagan ng titik na "O" ay higit sa lahat dahil sa gayong grammatical phenomenon bilang buong kasunduan. Ibig sabihin, "malamig" sa halip na "malamig" at "frost" sa halip na "hamak".

At sa pinakadulo simula ng mga salita, ang titik ng katinig " P". Ang pamumuno na ito ay may tiwala din at walang kondisyon. Malamang, ang paliwanag ay nagbibigay ng isang malaking bilang ng mga prefix na may titik na "P": re-, pre-, pre-, pre-, pro- at iba pa.

Ang dalas ng sulat ay ang batayan ng cryptanalysis.

Gusto kong balaan ka na ang impormasyong ipinakita sa artikulong ito ay medyo luma na. Hindi ko ito muling isinulat upang sa kalaunan ay maikumpara ko kung paano nagbabago ang mga pamantayan ng SEO sa paglipas ng panahon. Makakahanap ka ng napapanahon na impormasyon sa paksang ito sa mga bagong materyales:

Kumusta, mahal na mga mambabasa ng blog site. Ang artikulo sa araw na ito ay muling ilalaan sa paksang gaya ng search engine optimization (). Mas maaga, nahawakan na natin ang maraming mga isyu na may kaugnayan sa naturang konsepto bilang.

Ngayon gusto kong ipagpatuloy ang pakikipag-usap tungkol sa on-page SEO, habang nililinaw ang ilan sa mga puntong nabanggit kanina, pati na rin ang pag-usapan ang hindi pa natin napag-uusapan. Kung nagagawa mong magsulat ng magagandang natatanging mga teksto, ngunit sa parehong oras ay hindi binibigyang pansin ang pang-unawa sa kanila ng mga search engine, kung gayon hindi nila magagawang pumunta sa tuktok ng mga resulta ng paghahanap para sa mga query na nauugnay sa ang mga paksa ng iyong mga kahanga-hangang artikulo.

Ano ang nakakaapekto sa kaugnayan ng teksto sa query sa paghahanap

At ito ay napakalungkot, dahil sa ganitong paraan hindi mo napagtanto ang buong potensyal ng iyong proyekto, na maaaring maging lubhang kahanga-hanga. Kailangan mong maunawaan na ang mga search engine sa karamihan ay mga hangal at prangka na mga programa na hindi kayang lumampas sa kanilang mga kakayahan at tumingin sa iyong proyekto gamit ang mga mata ng tao.

Hindi nila makikita ang marami sa kung ano ang mabuti at kailangan sa iyong proyekto (kung ano ang inihanda mo para sa mga bisita). Maaari lamang nilang pag-aralan ang teksto, na isinasaalang-alang ang maraming mga bahagi, ngunit napakalayo pa rin nila sa pang-unawa ng tao.

Samakatuwid, kakailanganin nating pumasok sa mga sapatos ng mga search robot kahit saglit lang at maunawaan kung ano ang kanilang pinagtutuunan ng pansin kapag nagraranggo ng iba't ibang mga teksto para sa iba't ibang mga query sa paghahanap (). At para dito kailangan mong magkaroon ng ideya tungkol sa, para dito kakailanganin mong basahin ang artikulo.

Karaniwang sinusubukan nilang gumamit ng mga keyword sa pamagat ng pahina, sa ilang panloob na heading, pati na rin nang pantay-pantay at natural hangga't maaari upang ipamahagi ang mga ito sa buong artikulo. Oo, siyempre, ang pag-highlight ng mga susi sa teksto ay maaari ding gamitin, ngunit huwag kalimutan ang tungkol sa muling pag-optimize na maaaring sumunod.

Ang density ng paglitaw ng mga susi sa teksto ay mahalaga din, ngunit ngayon ito ay hindi isang kanais-nais na kadahilanan, ngunit, sa kabaligtaran, isang babala - hindi mo ito maaaring lumampas.

Ang halaga ng density ng paglitaw ng keyword sa dokumento ay tinutukoy nang simple. Sa katunayan, ito ang dalas ng paggamit nito sa teksto, na tinutukoy sa pamamagitan ng paghati sa bilang ng paglitaw nito sa dokumento sa haba ng dokumento sa mga salita. Dati, ang posisyon ng site sa isyu ay direktang nakasalalay dito.

Ngunit malamang na naiintindihan mo na hindi posible na buuin ang lahat ng materyal mula lamang sa mga susi, dahil hindi ito mababasa, ngunit salamat sa Diyos na hindi ito kinakailangan. Bakit mo natanong? Oo, dahil may limitasyon ang dalas ng paggamit ng keyword sa teksto, pagkatapos nito ay hindi na tataas ang kaugnayan ng isang dokumento para sa isang query na naglalaman ng keyword na ito.

Yung. ito ay sapat na para sa amin upang makamit ang isang tiyak na dalas at kami, sa gayon, i-optimize ito hangga't maaari. O sobra-sobra na natin ito at mahulog sa ilalim ng filter.

Ito ay nananatiling upang malutas ang dalawang tanong (at marahil tatlo): kung ano ang maximum na density ng paglitaw ng keyword, pagkatapos nito ay mapanganib na upang madagdagan ito, pati na rin upang malaman.

Ang katotohanan ay ang mga keyword na naka-highlight na may mga accent na tag at nakapaloob sa TITLE tag ay may mas timbang para sa paghahanap kaysa sa mga katulad na keyword na nangyayari lamang sa teksto. Ngunit kamakailan lamang, sinimulan na itong gamitin ng mga webmaster at ganap na na-spam ang salik na ito, na may kaugnayan sa kung saan ang kahalagahan nito ay nabawasan at maaaring humantong sa pagbabawal sa buong site dahil sa pang-aabuso ng mga strongs.

Ngunit ang mga susi sa TITLE ay may kaugnayan pa rin, mas mahusay na huwag ulitin ang mga ito doon at huwag subukang itulak ang mga ito nang labis sa isang pamagat ng pahina. Kung ang mga keyword ay nasa TITLE, maaari naming makabuluhang bawasan ang kanilang bilang sa artikulo (at samakatuwid ay gawing madali itong basahin at mas angkop para sa mga tao, at hindi para sa mga search engine), na nakamit ang parehong kaugnayan, ngunit walang panganib ng nahuhulog sa ilalim ng filter.

Sa palagay ko ay malinaw ang lahat sa tanong na ito - mas maraming mga susi ang nakapaloob sa accent at mga tag ng TITLE, mas maraming pagkakataong mawala ang lahat nang sabay-sabay. Ngunit kung hindi mo gagamitin ang mga ito, wala ka ring makakamit. Ang pinakamahalagang pamantayan ay ang pagiging natural ng pagpapakilala ng mga keyword sa teksto. Kung sila, ngunit ang mambabasa ay hindi natitisod tungkol sa kanila, kung gayon sa pangkalahatan ay maayos ang lahat.

Ngayon ay nananatili upang malaman kung anong dalas ng paggamit ng isang keyword sa isang dokumento ang pinakamainam, na nagbibigay-daan sa iyo upang gawing may kaugnayan ang pahina hangga't maaari nang hindi nangangailangan ng mga parusa. Alalahanin muna natin ang formula na ginagamit ng karamihan (marahil lahat) ng mga search engine sa pagraranggo.

Paano matukoy ang katanggap-tanggap na dalas ng paggamit ng susi

Napag-usapan na natin ang tungkol sa mathematical model kanina sa artikulong binanggit sa itaas. Ang kakanyahan nito para sa partikular na query sa paghahanap na ito ay ipinahayag ng isang pinasimpleng formula: TF*IDF. Kung saan ang TF ay ang direktang dalas ng paglitaw ng query na ito sa teksto ng dokumento (ang dalas ng paglitaw ng mga salita dito).

IDF - ang kabaligtaran na dalas ng paglitaw (pambihira) ng query na ito sa lahat ng iba pang mga dokumento sa Internet na na-index ng search engine na ito (sa koleksyon).

Binibigyang-daan ka ng formula na ito na matukoy ang pagsusulatan (kaugnayan) ng isang dokumento sa isang query sa paghahanap. Kung mas mataas ang halaga ng produktong TF*IDF, mas magiging may kaugnayan ang dokumentong ito at mas mataas ito, lahat ng iba pang bagay ay pantay.

Yung. lumalabas na ang bigat ng dokumento para sa isang naibigay na query (ang sulat nito) ay magiging mas malaki, mas madalas ang mga susi mula sa query na ito ay ginagamit sa teksto, at mas madalas ang mga key na ito ay matatagpuan sa iba pang mga dokumento sa Internet.

Malinaw na hindi namin maimpluwensyahan ang IDF, maliban sa pagpili ng isa pang query na aming i-optimize. Ngunit maaari at maimpluwensyahan namin ang TF, dahil gusto naming makuha ang aming bahagi (at hindi maliit) ng trapiko mula sa Yandex at mga resulta ng paghahanap sa Google sa mga tanong ng user na kailangan namin.

Ngunit ang katotohanan ay ang mga algorithm ng paghahanap ay kinakalkula ang halaga ng TF gamit ang isang medyo nakakalito na formula na isinasaalang-alang ang paglago sa dalas ng paggamit ng keyword sa teksto hanggang sa isang tiyak na limitasyon, pagkatapos ay halos huminto ang paglago ng TF, sa kabila ng katotohanan na tataas mo ang dalas. Ito ay isang uri ng anti-spam na filter.

Medyo matagal na ang nakalipas (hanggang mga 2005), ang halaga ng TF ay kinakalkula gamit ang isang medyo simpleng formula at talagang katumbas ng density ng paglitaw ng keyword. Ang mga resulta ng pagkalkula ng kaugnayan gamit ang formula na ito ay hindi eksaktong nagustuhan ng mga search engine, dahil sila ay nag-pander sa mga spammer.

Pagkatapos ang formula ng TF ay naging mas kumplikado, tulad ng isang bagay na lumitaw ang pagduduwal sa pahina at nagsimula itong umasa hindi lamang sa dalas ng paglitaw, kundi pati na rin sa dalas ng paggamit ng iba pang mga salita sa parehong teksto. At ang pinakamainam na halaga ng TF ay maaaring makamit kung ang susi ay naging ang pinakamadalas na ginagamit na salita.

Posible rin na taasan ang halaga ng TF sa pamamagitan ng pagtaas ng laki ng teksto habang pinapanatili ang porsyento ng paglitaw. Kung mas malaki ang tuwalya na may artikulo na may parehong porsyento ng mga susi, mas mataas ang dokumentong ito.

Ngayon ang formula ng TF ay naging mas kumplikado, ngunit sa parehong oras, ngayon hindi namin kailangang dalhin ang density sa punto kung saan ang teksto ay nagiging hindi nababasa at ang mga search engine ay magpapataw ipagbawal ang aming proyekto para sa spam. At ngayon ay hindi na kailangang magsulat ng hindi katumbas ng mahabang mga sheet.

Habang pinapanatili ang parehong perpektong density (tutukoy namin ito nang mas mababa ng kaunti mula sa kaukulang graph), ang pagtaas ng laki ng salita ng isang artikulo ay mapapabuti lamang ang posisyon nito sa SERP hanggang sa umabot ito sa isang tiyak na haba. Kapag mayroon ka nang perpektong haba, ang pagtaas nito ay hindi makakaapekto sa kaugnayan (mas tiyak, ito ay, ngunit napaka, napakaliit).

Malinaw na makikita ang lahat ng ito kung bubuo ka ng isang graph batay sa nakakalito na TF na ito (direktang dalas ng pagpasok). Kung sa isang sukat ng graph na ito ay mayroong TF, at sa kabilang sukat - ang porsyento ng dalas ng paglitaw ng keyword sa teksto, pagkatapos ay makukuha natin ang tinatawag na hyperbole bilang isang resulta:

Ang iskedyul, siyempre, ay tinatayang, dahil kakaunti ang nakakaalam ng totoong TF formula na ginagamit ng Yandex o Google. Ngunit sa pamamagitan ng husay maaari itong matukoy pinakamainam na saklaw kung saan dapat ang dalas. Ito ay humigit-kumulang 2-3 porsiyento ng kabuuang bilang ng mga salita.

Kung isasaalang-alang mo na isasama mo pa rin ang ilan sa mga susi sa mga tag ng accent at ang header ng TITLE, kung gayon ito ang magiging limitasyon, pagkatapos nito ang karagdagang pagtaas sa density ay maaaring puno ng pagbabawal. Hindi na kumikita na mababad at i-disfigure ang teksto na may malaking bilang ng mga keyword, dahil magkakaroon ng higit pang mga minus kaysa sa mga plus.

Ano ang haba ng teksto ay magiging sapat para sa promosyon

Batay sa parehong ipinapalagay na TF, maaaring i-plot ng isa ang halaga nito laban sa haba ng salita. Sa kasong ito, maaari mong kunin ang dalas ng mga keyword na pare-pareho para sa anumang haba at katumbas, halimbawa, sa anumang halaga mula sa pinakamainam na hanay (mula 2 hanggang 3 porsiyento).

Kapansin-pansin, makakakuha tayo ng isang graph na eksaktong kapareho ng hugis tulad ng tinalakay sa itaas, tanging ang haba ng teksto sa libu-libong salita ang iaakma sa kahabaan ng abscissa. At mula dito posible na gumuhit ng isang konklusyon tungkol sa pinakamainam na hanay ng haba, kung saan halos naabot na ang pinakamataas na halaga ng TF.

Bilang resulta, lumalabas na ito ay nasa hanay mula 1000 hanggang 2000 na salita. Sa isang karagdagang pagtaas, ang kaugnayan ay halos hindi lalago, at sa isang mas maikling haba, ito ay babagsak nang husto.

yun. maaari naming tapusin na upang ang iyong mga artikulo ay makakuha ng mataas na lugar sa mga resulta ng paghahanap, kailangan mong gumamit ng mga keyword sa teksto na may dalas na hindi bababa sa 2-3%. Ito ang una at pangunahing konklusyon na ginawa namin. Well, ang pangalawa ay na ngayon ay hindi na kinakailangan na magsulat ng napakaraming artikulo upang makapasok sa Tuktok.

Ito ay sapat na upang malampasan ang milestone ng 1000 - 2000 salita at isama ang 2-3% ng mga keyword dito. Iyon na - iyon na recipe para sa perpektong teksto, na magagawang makipagkumpitensya para sa isang lugar sa itaas para sa mga query na mababa ang dalas, kahit na walang paggamit ng panlabas na pag-optimize (pagbili ng mga link sa artikulong ito na may mga anchor na may kasamang mga keyword). Bagaman, upang maghalungkat ng kaunti Mga Miralink , GGL, Rotapost o GetGoodLink ay maayos dahil makakatulong ito sa iyong proyekto.

Hayaan mong ipaalala ko sa iyo muli na ang haba ng teksto na iyong isinulat, pati na rin ang dalas ng paggamit ng ilang mga keyword dito, maaari mong malaman sa tulong ng mga dalubhasang programa o sa tulong ng mga online na serbisyo na dalubhasa sa kanilang pagsusuri. Isa sa mga serbisyong ito ay ISTIO, tungkol sa gawaing ginamit ko.

Ang lahat ng sinabi ko sa itaas ay hindi isang daang porsyento na maaasahan, ngunit halos kapareho sa katotohanan. Anyway, ang aking personal na karanasan ay nagpapatunay sa teoryang ito. Ngunit ang mga algorithm ng Yandex at Google ay patuloy na sumasailalim sa mga pagbabago, at kakaunti ang nakakaalam kung paano ito magiging bukas, maliban sa mga malapit sa kanilang pag-unlad o mga developer.

Good luck sa iyo! Magkita tayo sa lalong madaling panahon sa site ng mga pahina ng blog

Baka interesado ka

Panloob na pag-optimize - pagpili ng keyword, pagsusuri sa pagduduwal, pinakamainam na Pamagat, pagdoble ng nilalaman at muling pag-link sa ilalim ng LF
Mga keyword sa teksto at mga heading
Paano nakakaapekto ang mga keyword sa pag-promote ng website sa mga search engine
Mga online na serbisyo para sa mga webmaster - lahat ng kailangan mo upang magsulat ng mga artikulo, pag-optimize ng search engine at pag-aralan ang tagumpay nito
Mga paraan upang ma-optimize ang nilalaman at isaalang-alang ang tema ng site sa panahon ng pag-promote ng link upang mabawasan ang mga gastos
Yandex Wordstat at ang semantic core - pagpili ng mga keyword para sa site gamit ang mga istatistika mula sa online na serbisyo Wordstat.Yandex.ru
Anchor - ano ito at gaano kahalaga ang mga ito sa pag-promote ng website
Anong mga salik sa pag-optimize ng search engine ang nakakaapekto sa pag-promote ng website at hanggang saan
Mag-isa ang promosyon, promosyon at pag-optimize ng site
Accounting para sa morpolohiya ng wika at iba pang mga problemang nalutas ng mga search engine, pati na rin ang pagkakaiba sa pagitan ng HF, MF at LF na mga query
Pagtitiwala sa website - kung ano ito, kung paano ito sukatin sa XTools, kung ano ang nakakaapekto dito at kung paano dagdagan ang awtoridad ng iyong site

Maikling pahayag ng problema

Mayroong isang set ng mga file na may mga teksto sa Russian mula sa fiction ng iba't ibang genre hanggang sa mga ulat ng balita. Kinakailangang mangolekta ng mga istatistika sa paggamit ng mga pang-ukol sa ibang bahagi ng pananalita.

Mahahalagang puntos sa gawain

1. Kabilang sa mga pagkukunwari ay hindi lamang sa at sa, ngunit matatag na kumbinasyon ng mga salita na ginamit bilang pang-ukol, halimbawa kumpara sa o kahit na. Samakatuwid, imposibleng simpleng gumuho ang mga teksto sa pamamagitan ng mga puwang.

2. Mayroong maraming mga teksto, ilang GB, kaya ang pagpoproseso ay dapat sapat na mabilis, kahit sa loob ng ilang oras.

Balangkas ang solusyon at mga resulta

Isinasaalang-alang ang umiiral na karanasan sa paglutas ng mga problema sa pagproseso ng teksto, napagpasyahan na manatili sa binagong "unix-way", ibig sabihin, hatiin ang pagproseso sa ilang mga yugto, upang sa bawat yugto ang resulta ay magiging plain text. Hindi tulad ng purong unix-way, sa halip na ilipat ang mga hilaw na materyales ng text sa pamamagitan ng mga tubo, ise-save namin ang lahat bilang mga file ng disk. Sa kabutihang palad, ang halaga ng isang gigabyte sa isang hard drive ay kakaunti na ngayon.

Ang bawat yugto ay ipinatupad bilang isang hiwalay, maliit at simpleng utility na nagbabasa ng mga text file at nagse-save ng mga produkto ng buhay ng silikon nito.

Ang isang karagdagang bonus ng diskarteng ito, bilang karagdagan sa pagiging simple ng mga utility, ay nakasalalay sa incremental na katangian ng solusyon - maaari mong i-debug ang unang yugto, patakbuhin ang lahat ng gigabytes ng teksto sa pamamagitan nito, pagkatapos ay simulan ang pag-debug sa pangalawang yugto, nang hindi sinasayang. oras sa pag-uulit ng una.

Paghiwa-hiwalay ng teksto sa mga salita

Dahil ang mga source text na ipoproseso ay nakaimbak na bilang mga flat file sa utf-8 encoding, nilaktawan namin ang zero stage - pag-parse ng mga dokumento, pag-extract ng text content mula sa mga ito at pag-save ng mga ito bilang simpleng text file, kaagad na nagpapatuloy sa gawain ng tokenization.

Ang lahat ay magiging simple at boring kung hindi para sa simpleng katotohanan na ang ilang mga preposisyon sa Russian ay binubuo ng ilang "mga linya" na pinaghihiwalay ng isang puwang, at kung minsan ay isang kuwit. Upang hindi masira ang mga ganoong verbose preposition, isinama ko muna ang function ng tokenization sa API ng diksyunaryo. Ang layout sa C# ay naging simple at hindi kumplikado, literal na isang daang linya. Narito ang pinagmulan. Kung itatapon namin ang panimulang bahagi, nilo-load ang diksyunaryo at ang huling bahagi kasama ang pag-alis nito, pagkatapos ang lahat ay bumaba sa ilang dosenang linya.

Ang lahat ng ito ay matagumpay na gumiling ng mga file, ngunit ang mga pagsubok ay nagpakita ng isang makabuluhang disbentaha - napakababang bilis. Sa platform ng x64, ito ay naging halos 0.5 MB bawat minuto. Siyempre, isinasaalang-alang ng tokenizer ang lahat ng uri ng mga espesyal na kaso tulad ng " A.S. Pushkin", ngunit para sa solusyon ng orihinal na problema, ang naturang katumpakan ay hindi kailangan.

Bilang gabay sa posibleng bilis, mayroong isang statistical file processing utility na Empirika. Ginagawa nito ang dalas ng pagproseso ng 22 GB ng mga text sa loob ng humigit-kumulang 2 oras. Mayroon ding mas matalinong solusyon sa verbose preposition na problema sa loob, kaya nagdagdag ako ng bagong script na pinagana gamit ang -tokenize na opsyon sa command line. Ayon sa mga resulta ng pagtakbo, ito ay naging mga 500 segundo bawat 900 MB, iyon ay, mga 1.6 MB bawat segundo.

Ang resulta ng pagtatrabaho sa mga 900 MB ng tekstong ito ay isang file na halos magkapareho ang laki, 900 MB. Ang bawat salita ay naka-imbak sa isang hiwalay na linya.

Dalas ng paggamit ng mga pang-ukol

Dahil hindi ko nais na magmaneho ng isang listahan ng mga preposisyon sa teksto ng programa, muli kong kinuha ang isang diksyunaryo ng grammar para sa C # na proyekto, gamit ang sol_ListEntries function na nakakuha ako ng kumpletong listahan ng mga preposisyon, mga 140 piraso, at pagkatapos ay lahat ay walang kuwenta. Teksto ng programa sa C#. Nangongolekta lamang ito ng mga pares ng pang-ukol + salita, ngunit hindi magiging problema ang pagpapalawak.

Ang pagpoproseso ng 1 GB na text file na may mga salita ay tumatagal lamang ng ilang minuto, na nagreresulta sa isang talahanayan ng dalas, na ina-upload namin muli sa disk bilang isang text file. Ang pang-ukol, ang pangalawang salita at ang bilang ng mga paglitaw ay pinaghihiwalay dito ng isang tab na character:

PRO BROKEN 3
Nakamarka ng 1 ang PRO
PRO FORM 1
PRO NORM 1
PRO GUTOM 1
SA LEGAL 9
MULA SA TERRACE 1
SA KABILA NG TAPE 1
OVER DRAWER 14

Sa kabuuan, mula sa paunang 900 MB ng teksto, humigit-kumulang 600 libong mga pares ang nakuha.

Pag-aralan at tingnan ang mga resulta

Ito ay maginhawa upang pag-aralan ang talahanayan na may mga resulta sa Excel o Access. Sa pamamagitan ng lakas ng ugali sa SQL na-load ko ang data sa Access.

Ang unang bagay na dapat gawin ay pag-uri-uriin ang mga resulta sa pababang pagkakasunud-sunod ng dalas upang makita ang pinakamadalas na mga pares. Ang paunang halaga ng naprosesong text ay masyadong maliit, kaya ang sample ay hindi masyadong kinatawan at maaaring iba sa mga huling resulta, ngunit narito ang nangungunang sampung:

MAY 29193 KAMI
SA VOLUME 26070
Mayroon akong 25843
TUNGKOL SA VOLUME 24410
SIYA ay may 22768
SA ITO 22502
SA LUGAR 20749
NOONG 20545
TUNGKOL DITO 18761
Gamit ang NIM 18411

Ngayon ay maaari kang bumuo ng isang graph upang ang mga frequency ay nasa OY axis, at ang mga pattern ay naka-linya sa kahabaan ng OX sa pababang pagkakasunud-sunod. Ibibigay nito ang inaasahang pamamahagi na may mahabang buntot:

Bakit kailangan ang istatistikang ito?

Bilang karagdagan sa katotohanan na ang dalawang C# utilities ay maaaring gamitin upang ipakita kung paano magtrabaho kasama ang procedural API, may isa pang mahalagang layunin - upang bigyan ang tagasalin at ang text reconstruction algorithm na istatistikal na hilaw na materyales. Bilang karagdagan sa mga pares ng mga salita, kakailanganin din ang mga trigram, para dito kakailanganing bahagyang palawakin ang pangalawa sa mga nabanggit na kagamitan.

- - Proteksyon sa impormasyon ng mga paksa EN dalas ng paggamit ng salita ... Handbook ng Teknikal na Tagasalin

s; mga frequency; at. 1. hanggang Madalas (1 digit). Subaybayan ang dalas ng pag-uulit ng mga galaw. Mga kinakailangang oras ng pagtatanim ng patatas. Bigyang-pansin ang rate ng pulso. 2. Ang bilang ng mga pag-uulit ng parehong mga paggalaw, pagbabagu-bago sa kung ano ang l. yunit ng oras. H. pag-ikot ng gulong. Ch... encyclopedic Dictionary

I Ang alkoholismo ay isang malalang sakit na nailalarawan sa pamamagitan ng kumbinasyon ng mga sakit sa isip at somatic na nagreresulta mula sa sistematikong pag-abuso sa alkohol. Ang pinakamahalagang pagpapakita ng A. x. ay binago ang pagtitiis sa ... ... Medical Encyclopedia

BIBILIN- isa sa mga partikular na terminong ginamit sa mga tala ng hook sa Rus. non-linear polyphony, na nailalarawan sa pamamagitan ng isang binuo na sub-voice polyphonic warehouse at isang matalim na dissonance ng vertical. Pevch. pagpapatupad ng termino sa kasalukuyan. hindi alam ang oras... Orthodox Encyclopedia

Stylostatistic na paraan ng pagsusuri ng teksto- ay ang paggamit ng mga tool ng matematikal na istatistika sa larangan ng stylistics upang matukoy ang mga uri ng paggana ng wika sa pagsasalita, ang mga pattern ng paggana ng wika sa iba't ibang lugar ng komunikasyon, mga uri ng teksto, ang mga detalye ng mga function. mga istilo at...

Portion flavored snus, mini portion Ang Snus ay isang uri ng produktong tabako. Ito ay durog na moistened na tabako, na inilalagay sa pagitan ng itaas (mas madalas na mas mababa) na labi at gum ... Wikipedia

pang-agham na istilo- kumakatawan sa siyentipiko ang globo ng komunikasyon at aktibidad sa pagsasalita na nauugnay sa pagpapatupad ng agham bilang isang anyo ng kamalayan sa lipunan; sumasalamin sa teoretikal na pag-iisip, kumikilos sa isang konseptwal na lohikal na anyo, na kung saan ay nailalarawan sa pamamagitan ng objectivity at abstraction ... Stylistic encyclopedic dictionary ng wikang Ruso

- (sa espesyal na panitikan ay isang patronymic din) bahagi ng generic na pangalan, na itinalaga sa bata sa pamamagitan ng pangalan ng ama. Ang mga pagkakaiba-iba ng mga patronymic na pangalan ay maaaring ikonekta ang kanilang mga carrier sa mas malayong mga ninuno, lolo, lolo sa tuhod ... ... Wikipedia

Pangkalahatang paggamit, applicability, prevalence, applicability, marketability, general accepted Dictionary of Russian synonyms. commonality noun, number of synonyms: 10 commonality (11) ... diksyunaryo ng kasingkahulugan

pangangatwiran- - functionally semantic na uri ng pananalita (tingnan) - (FSTR), naaayon sa anyo ng abstract na pag-iisip - hinuha, pagsasagawa ng isang espesyal na gawaing pangkomunikasyon - upang magbigay ng pagsasalita ng isang makatwirang karakter (dumating sa isang lohikal na paraan sa isang bagong paghatol o .. .... Stylistic encyclopedic dictionary ng wikang Ruso