I.V. Danilevsky, Batas ng Zipf-Pareto, mga bagong teknolohiyang quantum at ang pilosopiya ng walang malay

Sa panahon ng proseso ng halalan, ang mga botante ay nagpapahayag ng kanilang saloobin sa tiyak mga pulitiko o mga partido, na bumoto para sa isang partikular na kandidato o partido. Ang tanong ay lumitaw - mayroon bang anumang mga pattern na naglalarawan sa pamamahagi ng mga boto sa pagitan ng iba't ibang mga kandidato o partido? Kung walang mga regularidad, kung gayon ang anumang ugnayan sa pagitan ng mga bilang ng mga boto na natanggap ng mga kandidato o partido, gayundin sa pagitan ng mga bilang ng mga boto na ito at, halimbawa, ang turnout ng mga botante o ang bilang ng mga di-wastong balota, ay posible. Kung mayroong ilang mga pattern sa pamamahagi ng mga boto, hindi lahat ng mga variant ng kanilang pamamahagi ay posible. Batay sa materyal ng maraming halalan sa karamihan iba't ibang bansa isang istatistikal na kaugnayan ang nahayag na umiiral sa pagitan ng mga bilang ng mga boto na natanggap sa mga halalan ng iba't ibang kandidato at partido. Napag-alaman na ang relasyong ito ay inilalarawan ng sumusunod na simpleng relasyon:

Kung sa isang axis ang bilang ng mga boto na N(i) na natanggap ng bawat kandidato ay naka-plot sa isang logarithmic scale, at sa kabilang axis, din sa isang logarithmic scale, ang lugar na inokupahan ko ng parehong kandidato sa panahon ng halalan, kung gayon ang mga puntos nakuha na may sapat na approximation ay matatagpuan sa isang tuwid na linya:

ln N(i) = A - B x lni (1)

Ang bisa ng equation sa itaas ay nakumpirma sa isang serye ng mga gawa Mga espesyalista sa Russia sa Mathematical Political Science (Sobyanin, Sukhovolsky, 1995), na sinuri ang mga resulta ng mga halalan ng mga kinatawan ng mga tao ng Russia noong 1990, ang mga halalan ng Pangulo ng Russia noong 1991 at 1996, pati na rin ang data sa mga halalan sa isang bilang ng mga bansa , simula sa halalan sa pagkapangulo sa France noong 1848, kung saan natalo si Louis Napoleon Bonaparte.

Ito resulta ng matematika hindi mahalaga sa kalikasan. Mga Espesyalista - ang mga physicist, chemist, metalurgist, demographer, ecologist at mga kinatawan ng maraming iba pang larangan ng kaalaman na nakikitungo sa malaking halaga ng istatistikal na data, ay lubos na nakakaalam na ang ipinahiwatig na pagkakaayos ng numero ay pangkalahatang katangian at inilalarawan ang sitwasyon ng "malaya kompetisyon"para sa pamamahagi ng isang may hangganang bilang ng anumang kondisyong "mga kalakal". Lumalabas na ang lahat ng naiisip na iba't ibang mga bagay, sitwasyon at sanhi-at-epekto na mga relasyon ay hindi nagbabago sa likas na katangian ng pag-asa na ito: sa sandaling magkaroon ng libreng kompetisyon, ang mga resulta nito sa anumang kaso ay umaangkop sa "logarithmic straight line" - tanging ang pare-parehong A at ang slope ng tuwid na linya B ang nagbabago. kung saan ang populasyon sa mga sibilisadong bansa ay humahantong sa gayong pag-asa. Samantala, sa USSR, ang mga lungsod tulad ng Moscow , Leningrad at ilang iba pang mga sentro ay makabuluhang lumihis mula sa "direktang libreng kompetisyon" - dahil sa mga administratibong paghihigpit na nauugnay sa rehimeng pasaporte. Ang kumpetisyon ay humahantong sa parehong relasyon sa pagitan ng laki ng pinakamalaking kapalaran at ang "lugar" na inookupahan ng kanilang mga may-ari sa listahan ng mga naturang estado - siyempre, sa mga bahagi ng mundo kung saan umiiral ang mga naturang listahan. Eksaktong pareho kilala ng mga zoologist ang batas ng pamamahagi ng mga mandaragit ayon sa masa (sa kawalan ng anthropogenic na mga kadahilanan), atbp.

Sa unang pagkakataon, ang mga regularidad ng ganitong uri ay itinatag ng Italian sociologist at mathematician na si V. Pareto, na nakikibahagi sa pamamahagi ng mga naninirahan sa bansa ayon sa kanilang kayamanan; kasunod nito, ang American linguist na si J.K. Zipf, pag-aaral sa pamamahagi ng dalas ng paggamit ng mga salita sa mga teksto. Iba't ibang mga pagpipilian Ang mga ratio na nakasulat sa itaas ay tinatawag na batas ng Zipf-Pareto. Ang mga paraan ng pagsusuri na nauugnay sa pag-aaral ng mga pamamahagi ng ranggo ay malawakang ginagamit sa linggwistika, scientometrics, at ekolohiya. Ang pagsunod sa kaugnayan (1) para sa proseso ng elektoral ay nangangahulugan na mayroong "malayang kompetisyon" ng lahat ng kandidato na may pagkakataong malayang ipaliwanag sa mga botante ang kanilang Mga Pananaw na Pampulitika at platapormang pampulitika.

Ang katuparan ng batas ng Zipf-Pareto para sa proseso ng elektoral ay nangangahulugan na ang bawat isa sa mga kandidato, bawat isa sa mga partido at pampulitikang grupo ng mga botante ay bumoboto ayon sa tiyak na uri, ay may sariling pampulitikang plataporma, hindi nagsasapawan sa lahat ng iba pa. Dapat saklawin ng mga available na kandidato ang lahat ng posibleng kagustuhan ng mga botante; kung gayon ang proporsyon ng mga botante na naghahanap ng kanilang pagpili sa labas ng iminungkahing listahan ng mga kandidato ay medyo maliit, at ang equation (1) ay naglalarawan ng pamamahagi ng mga boto na may mataas na katumpakan. Kung hindi, maaaring lumitaw ang mga walang laman na "niches" sa pamamahagi (1), at ang buong pagsusuri ay magiging mas kumplikado.

Ang mga parameter A at B na kasama sa equation (1) ay kinakalkula batay sa data sa bilang ng mga botante na bumoto para sa iba't ibang kandidato o para sa iba't ibang grupong pampulitika gamit ang mga pamamaraan. pagsusuri ng regression. Ang Parameter A sa equation (1) ay ang logarithm ng bilang ng mga botante na bumoto para sa nangungunang kandidato. Ang value B, ang preference coefficient, ay nagpapakilala sa slope ng tuwid na linya (1) at nagsisilbing numerical measure ng homogeneity ng pagpili ng mga botante. Kung B = 0, nangangahulugan ito na ang mga botante ay walang anumang kagustuhan para sa ilang partido o kandidato kaysa sa iba, at lahat sila ay natanggap sa mga halalan parehong numero mga boto. Sa kabaligtaran, sa malalaking halaga steepness B, ang mga panlabas na partido ay tumatanggap ng napakakaunting mga boto kumpara sa mga nangungunang partido (gayunpaman, sa pagsasagawa ng parameter B ay halos hindi hihigit sa isa). Kung ang mga paglihis mula sa tuwid na linya ng uri (1) ay napansin, pagkatapos ay sa ilalim ng mga pagpapalagay na ginawa sa itaas, ito ay nagpapahiwatig ng kawalan ng mga kondisyon para sa libreng kumpetisyon sa pulitika. Ito ay maaaring sanhi ng alinman sa pagkakaroon ng ilang karagdagang kumikilos panlabas na mga kadahilanan, halimbawa, pananakot sa mga botante na may posibleng pampulitika at pang-ekonomiyang panunupil sa kaso ng pagboto (o hindi pagboto) para sa isang partikular na kandidato, o direktang palsipikasyon ng mga resulta ng halalan sa panahon ng pagbibilang ng mga boto sa mga komisyon ng halalan iba't ibang antas. Ipinapakita ng Figure 2 ang isang tipikal na graph ng pamamahagi ng ranggo ng bilang ng mga botante sa mga halalan sa Russia. Tulad ng nakikita mo, sa pagitan ng mga numero iba't ibang grupo ng mga botante at ang mga hanay ng mga grupong ito (ibig sabihin, mga lugar ng mga kandidato) sa logarithmic coordinate (kasama ang magkabilang axes), halos may linear na relasyon.

Ang uri ng pamamahagi ng mga boto para sa iba't ibang kandidato o partido ay nakakatulong upang matukoy ang pandaraya sa elektoral. Sa pinakasimpleng kaso ng palsipikasyon, kung ang isang tiyak na bilang ng mga balotang napunan pabor sa ilang kandidato o partido ay itinapon sa mga kahon ng balota, lumalabas na ang pamamahagi ng ranggo ng bilang ng mga boto para sa mga indibidwal na kandidato ay hindi itinatanghal nang diretso. Ngunit kung ibubukod natin ang data sa kandidato kung saan ginawa ang mga falsification ng pabor, kung gayon para sa natitirang mga kandidato (o partido) ang pamamahagi ng ranggo ay tumutugma sa teoretikal. Sa kasong isinasaalang-alang, ang bilang ng mga naitanim na balota ay maaaring tantiyahin mula sa pagkakaiba sa pagitan ng bilang ng mga boto na natanggap ng naturang kandidato ayon sa opisyal na datos at ang bilang na natagpuan mula sa rank distribution equation pagkatapos na ibukod ang mga datos na nauugnay sa nasabing kandidato. Ipinapakita ng Figure 3 ang pamamahagi ng mga boto na inihagis - ayon sa komisyon sa halalan - para sa mga kandidato para sa posisyon ng pinuno ng administrasyon Rehiyon ng Lipetsk sa mga halalan na ginanap noong tagsibol ng 1993. Ang pamamahagi na ito ay malinaw na malayo sa isang tuwid na linya. Sa kasong ito, kinumpirma ng paglilitis, na naganap noong 1995, ang pagkakaroon ng mga falsification na pabor sa kandidatong nanalo sa unang pwesto.

George Zipf

Ang mga teksto ay ang pangunahing mapagkukunan ng impormasyon sa Internet. Naturally, ang pag-promote ng mga site sa mga TOP ng paghahanap ay kadalasang nauugnay sa tamang spelling katulad na nilalaman. Ngunit ang pagsulat ng isang teksto ay hindi sapat - kailangan mo ring ayusin ito ayon sa iba't ibang mga panuntunan at rekomendasyon sa SEO. Sa mga ito, ang pinakasikat at malawakang ginagamit ay maaaring makilala:

  • Isang minimum na pagduduwal, tubig at spam.
  • Ang tamang istraktura ng inilagay na materyal (heading, listahan).
  • Pagpasok ng mga susi.

Ito ang lahat ng mga pangunahing kaalaman, kaya ginagamit niya ang mga ito karamihan ng mga optimizer. Ngunit parami nang parami ang mga site sa Internet, kaya ang ilan sa kanilang mga may-ari ay naghahanap ng iba pang mga opsyon upang matagumpay na mai-promote ang kanilang produkto. At dito naaalala ng ilan sa kanila ang isang partikular na batas ng Zipf. Ngunit hindi lamang sinimulan nilang hasain ang kanilang sariling mga sulatin para sa isang serbisyo batay sa mga pahayag ng isang English scientist na nabuhay na nakakaalam kung ilang taon na ang nakalilipas, ginagawa din nila ang mga upahang copywriters na mag-isip tungkol dito!

Ngunit si Dr. Aitupit ay nasa alerto, samakatuwid, tulad ng Black Cloak, nagmamadali siyang tumulong sa mga hack sa Internet upang harapin ang kahusayan ang pamamaraang ito upang i-promote ang mga site sa Tops ng pinakasikat na mga search engine.

Pagsubok sa batas ni Zipf

Sa katunayan, dalawang mahalagang katangian lamang:

  • Ang pagduduwal ng sinuri na nilalaman.
  • pagiging natural.

Ang unang kawalan ng produktong ito ay tiyak na nakasalalay sa mga tagapagpahiwatig ng pagduduwal: malinaw na hindi isinasaalang-alang ng mga developer na mayroong isang klasiko at akademikong pagkakaiba-iba ng katangiang SEO na ito. At alam ng karamihan sa mga taong nagtatrabaho sa larangang ito na ganap na magkakaibang mga pamamaraan ang ginagamit upang bawasan ang pagganap ng bawat isa sa mga opsyon. iba't ibang paraan(Susubukan ni Dr. Aitupit na sabihin ang tungkol dito sa isa sa kanyang mga susunod na post). Ngunit ang Tsipfo-service ay hindi nagpapaalam sa mga gumagamit nito tungkol dito, na kung minsan ay maaaring humantong sa ilang mga paghihirap. Hindi kita pahihirapan ng mahabang panahon at sasabihin ko iyon sa kasong ito tanging klasikong pagduduwal ang ipinahiwatig.

Lumipat tayo sa Natural. Ano ito? Matagal na akong naghahanap ng sapat na impormasyon sa isyung ito. Ngunit natagpuan ko lamang ang isang patuloy na muling pagsusulat ng ilang mga mahirap na salita, ang kahulugan nito ay imposibleng maunawaan nang walang ilang bote ng beer. Hindi, siyempre, maaaring ako ay pipi, ngunit ang bawat isa sa inyo ay naiintindihan ito:

“..empirical regularity ng word frequency distribution natural na wika: kung ang lahat ng mga salita ng wika (o sapat lang mahabang text) ayos sa pababang pagkakasunud-sunod ng dalas ng kanilang paggamit, kung gayon ang dalas ng ika-10 salita sa naturang listahan ay humigit-kumulang inversely proportional sa nito serial number n (ang tinatawag na ranggo ng salitang ito, tingnan ang sukat ng pagkakasunud-sunod). Halimbawa, ang pangalawang pinakaginagamit na salita ay halos dalawang beses na mas karaniwan kaysa sa una, ang pangatlo ay tatlong beses na mas karaniwan kaysa sa una, at iba pa..”

Empirical, damn it, regularity ... Dapat ganyan ang pagkakasulat! Well, okay - hindi siya patatawarin ni Satanas. Hindi ito ang pinakakawili-wili! Ito ay kagiliw-giliw na ang may-akda ng kasabihang ito ay isang Amerikanong lingguwista na nabuhay sa kalagitnaan ng huling siglo, nang si George Lucas at Leonid Ilyich Brezhnev lamang ang nakakaalam tungkol sa Internet. Ibig sabihin, may mga taong naniniwala na ang mga modernong search engine ay obligado lamang na magsagawa ng pagsusuri ayon sa batas ng Zipf? Pardonte, ginoo, ngunit bakit ang impiyerno? ..

Marahil, pagkatapos ng mga salita sa itaas, ang ilang mga mambabasa ay magpapasya na ang may-akda ng opus na ito ay isang tipikal na balabol? Susubukan kong magbigay ng mga karapat-dapat na argumento upang kumbinsihin ka!

– Ang kinakailangan na ang mga parameter ng teksto ay sumunod sa batas ng Zipf o, upang maging tumpak, sa lahat ng uri ng "mga serbisyo" na diumano'y sinusuri ang mga teksto para sa naturang pagsunod ay isang pakunwaring ang pinakadalisay na tubig. Ang ganitong kundisyon ay walang kahulugan kapwa mula sa punto ng view ng kalidad ng teksto at mula sa punto ng view ng pag-optimize nito para sa mga search engine.

- Zipf check ay katulad ng SEO amulets at feng shui - Nakarinig ako ng tugtog, ngunit hindi ko alam kung nasaan ito. At dahil mayroong maraming pseudoscientific mystification sa SEO sa pangkalahatan dahil sa paunang pagkakalapit ng mga algorithm ng search engine, ang Zipf check ay napaka-harmonya na sumali sa mas may-katuturang mga tagapagpahiwatig ng kalidad - key density at pagiging natatangi, ang mga resulta kung saan, sa turn, ay dapat ding maging tinanggap hanggang sa.

Walang haka-haka sa aking bahagi - matapat na nagpahayag ng mga salita na isinulat tungkol sa batas na ito!

At handa akong mag-subscribe sa bawat salita nina Zheka at Advego. Mag-fantasize tayo. Isipin na mayroong isang makina sa harap mo. Kailangan mong lapitan at i-dial ang isang arbitrary na kumbinasyon ng mga numero sa kanyang scoreboard. Tamang numero walang nakakaalam, kaya sa bawat oras na ang halaga ng mga panalo ay iba-iba. Ang ilang mga tao ay nagpapasok lamang ng mga halaga at umalis, ang iba ay nagsimulang mag-imbento ng ilang uri ng sistema: sumasayaw sila ng rumba, dumura nang tatlong beses nang mahigpit sa isang anggulo na labinlimang digri, kumakain ng kambing na natuyo tatlong araw na ang nakakaraan, at iba pa. At pagkatapos ay isa sa mga huling masuwerteng - sinira niya ang jackpot! Kung bakit siya masuwerte - alam ng impiyerno. Baka nahulaan lang niya ang kumbinasyon, o baka nagical ang kambing. Ngunit sa susunod na araw, ang taong ito ay pumunta sa makina at nag-set up ng isang mesa sa malapit, kung saan inaanyayahan niya ang lahat na subukan ang kanyang pamamaraan bago mag-dial ng isang numero ...

Hindi pa rin kumbinsido? Pagkatapos ay gagamit ako ng mabibigat na artilerya - magsasagawa ako ng isang eksperimento.

Visual check ng text ayon sa batas ng Zipf

Para sa paparating na trabaho, nagpasya akong kumuha ng ilang iba't ibang paraan mahahalagang parirala at suriin ang mga teksto para sa pagsunod sa batas ng Zipf, na matatagpuan sa iba't ibang lugar ng TOP ng aming domestic search engine na Yandex. Magsimula na tayo.

Ang unang susi ay "Pagbuo ng bahay mula sa isang bar."

Pumili ako ng isang site na matatagpuan sa tuktok ng ranggo sa paghahanap, gumagawa ako ng pagsusuri:

Ano ang mayroon tayo: pagiging natural - 80, pagduduwal - 5.9.

Bumaling ako sa pahina sa ibaba sa search engine, pumili ng isang site mula sa ikatlong dosena, at magsagawa ng pagsusuri:

Resulta: pagiging natural - 82, pagduduwal - 6.16.

Bumaba ako ng isang dosenang posisyon sa ibaba at ulitin ang pamamaraan:

Resulta: E - 86, T - 8.6.

Ngunit sa TOP iba ​​ang katumbas ng halaga! kaunti? Ulitin namin ang tseke. Kinuha namin ang susunod na susi. Ipagpalagay - ang paggamot ng almuranas.

Resulta: E - 70, T - 11.23.

Sa ibaba ng dalawang dosenang mga posisyon:

Resulta: E - 91, T - 4.90.

Isa pang pahina sa ibaba:

Resulta: E - 91, T - 4.12.

Konklusyon

Tulad ng makikita mula sa pagsusuri, ang pinakamahusay na mga tagapagpahiwatig ng pagiging natural ng mga materyales sa teksto ayon sa batas ng Zipf ay hindi sa lahat ng ginagarantiyahan ang tagumpay ng kumpetisyon sa mga teksto na matatagpuan sa iba pang mga mapagkukunan ng Internet. Gayunpaman, nasa iyo ang pagpapasya...


Kamusta! AT kamakailang mga panahon parami nang parami ang naririnig ko mula sa mga kasamahan tungkol sa kinakailangan sa TOR upang suriin ang kalidad ng teksto ayon sa batas ni Zipf. At hindi lahat ay nauunawaan kung paano i-edit ang teksto para sa batas na ito. Sa artikulong ngayon ay susubukan kong sabihin sa iyo kung paano ang pinaka sa simpleng paraan pagbutihin ang parameter, at linawin din kung bakit mahusay na mga may-akda actually hindi naman kailangan.

Maaari mong matukoy ang kalidad ng teksto ayon sa batas ng Zipf gamit ang ilang mga serbisyo. Pero, I consider PR-CY to be the most adequate, pinagsasama nito tamang formula na may simple at malinaw na interface. Iyan ang ginamit ko sa paghahanda ng materyal na ito.

Ano ang Batas ng Zipf

Upang magsimula, ito ay nagkakahalaga ng pag-unawa kung ano ito. Ayon sa Wikipedia, binuo ni Jean-Baptiste Estoux ang pattern na ito noong 1908, ang batas na ito ay orihinal na tinutukoy sa shorthand. Ang unang aplikasyon ng regularidad na alam ng pangkalahatang publiko ay nauugnay sa demograpiya, at mas tiyak sa distribusyon ng populasyon sa mga lungsod, ay ginamit ni Felix Auerbach.

Natanggap ng pattern ang modernong pangalan nito noong 1949 salamat sa linguist na si George Zipf. Ipinakita niya sa tulong nito ang gradasyon ng pamamahagi ng yaman sa populasyon. At noon lamang nagsimulang ilapat ang batas upang matukoy ang pagiging madaling mabasa ng mga teksto.

Paano ito kinakalkula

Upang maayos na magamit ang batas na ito, kailangan mong maunawaan kung paano ito gumagana. Suriin natin ang formula para sa pagkalkula.

  • Ang F ay ang dalas ng paggamit ng salita;
  • R ay serial number;
  • C- pare-pareho(ang bilang na nagpapahiwatig ng pinakamalaking bilang ng mga pag-uulit ng salita).

Sa pagsasagawa, ang isa pang formula ay lumalabas na mas maginhawa, mukhang mas malinaw.

Ang diskarte na ito ay mas maginhawa, dahil mayroon kaming data sa bilang ng mga pag-uulit ng pinakakaraniwang salita. Ito ay mula sa dami na sila ay tinataboy.

Upang gawing simple, sa aming teksto ang pangalawang pinakamadalas na salita ay dapat na dalawang beses na mas bihira kaysa sa una. Dumating sa ikatlong puwesto, tatlong beses at iba pa.

Halimbawa ng angkop na teksto

Ang teorya ay tinalakay ng kaunti. Ito ay nananatiling humarap sa pagsasanay. Bilang isang pang-eksperimentong teksto, kumuha ako ng isang artikulo mula sa T-Zh. Bakit mula doon? Simple lang ang lahat. Sa ngayon, isa ito sa mga pinakamahusay na halimbawa ng istilo ng impormasyon na minamahal ng marami. Buweno, kawili-wili kung ano ang ipapakita ng tekstong isinulat sa ilalim ng direksyon ni Maxim Ilyakhov. Sasabihin ko kaagad na ang mga teksto para sa tagapagpahiwatig na ito ay nasa antas, bagaman, sa pagkakaroon ng pala ng higit sa 40 mga site, wala akong nakitang isang artikulo na may mahinang pagiging natural. Gayundin, agad akong susulong at sasabihin na ang pang-eksperimentong teksto pagkatapos ng pag-angkop ay naging mas masahol pa, sa kabila ng pinahusay na marka ng Zipf, hindi ka dapat mag-abala nang labis sa labis na pagtaas ng pagiging natural.

Ito ang ipinakita sa amin ng analyzer pagkatapos suriin.

Tingnan natin kung ano ang nasa loob. Tulad ng nakikita mo, mayroong isang haligi na may mga salita, pati na rin ang mga hindi maunawaan na mga numero. Ang hanay na "pangyayari" (1) ay nagpapahiwatig kung gaano karaming beses naganap ang mga anyo ng salita sa teksto. Sa hanay ng Zipf (2) ay ang inirerekomendang bilang ng mga entry. Ang mga marker 3 at 4 ay nagmamarka ng perpektong tagapagpahiwatig para sa pangalawa at pangatlong posisyon. Dapat mo ring bigyang pansin ang mga rekomendasyon, ipinapahiwatig nito kung gaano karaming mga salita ang kailangan mong alisin upang makamit ang perpektong kumbinasyon.

Para sa isang mas mahusay na pag-unawa, suriin natin kung ano ang binibilang ng analyzer. Kinukuha namin ang numero 39 (C) bilang batayan, kailangan din namin ng serial number, bigyang-pansin ang posisyon ng 2 (F). Kinukuha namin ang formula.

Kapalit.

F=39/2=19.5

Nag-ikot kami at nakakuha ng 20, magiging ganito kinakailangang dami mga pangyayari. Kinumpirma ito ng analyzer. Sa ating bansa, ang pangalawang pinakasikat na salita ay ginagamit ng 28 beses, ayon sa pagkakabanggit, 8 pag-uulit ay kailangang alisin o palitan.

Ang pagkakaroon ng pakikitungo sa prinsipyo ng batas, nagsisimula kaming mag-edit. Upang gawin ito, tinatanggal o pinapalitan namin ng mga salitang magkasingkahulugan na mas maraming paglitaw kaysa sa kinakailangan ng Zipf. Bilang isang resulta, nakuha namin ang larawang ito.

Tulad ng nakikita mo, nagawa kong taasan ang rate mula 83% hanggang 88%. Gayunpaman, ang kalidad ng teksto ay lubhang nagdusa. Hindi ka dapat magsikap na taasan ang bilang na ito sa 100%. Sa katunayan, kung mayroon ka nang 75%, ito ay napakahusay at hindi mo na dapat pasukin pa.

Nakatutulong na payo

Bigyang-pansin hindi lamang ang mga unang linya. Magsimulang umangkop sa huling mga posisyon nakalista, madalas silang nagbibigay mas malaking impluwensya sa Kabuuang puntos kaysa sa unang sampung salita.

Zipf at SEO

Ngayon ay lumipat tayo sa kung bakit kailangang malaman ng isang copywriter ang pattern na ito. Kapag nag-order ng mga teksto, sinisikap ng mga SEO na gawin itong pinaka-maginhawa para sa mga search engine. Ito ay pinaniniwalaan (bagaman hindi malinaw kung kanino) na ang batas ng Zipf ay aktibong ginagamit ng mga algorithm sa paghahanap. Mahirap patunayan o pabulaanan ang pahayag na ito. Wala akong mahanap na anumang matino na pananaliksik at mga eksperimento sa paksang ito.

Nagpasya na suriin ito sa aking sarili. Upang gawin ito, kinuha ko ang mga resulta para sa isang mapagkumpitensyang query na "plastic windows", kinuha ni Yandex ang mga resulta ng Moscow, kinailangan kong mag-conjure sa Google, at tila nakilala rin ako bilang isang residente ng kabisera (ayon sa kahit na nagpakita sa akin ng ad na may Moscow geolocation). Kinuha ko ang unang pahina ng isyu, kasama ang ika-49 na lugar. Ganito ang naging tanda.

Kung titingnan mo nang mas malapit, makikita mo na sa Yandex ang output ay mas pantay, kung titingnan mo ang pattern na aming pinag-aaralan. Ngunit, habang higit pa mataas na rate hindi ginagarantiyahan ang tagumpay sa laban para sa unang lugar sa tuktok.

Batay dito, masasabing kung gumagamit ang mga search engine batas na ito, ay isa lamang sa mga kadahilanan. At hindi ang pangunahing isa.

natuklasan

Ayan yun. Ngayon alam mo na kung ano ang kalidad ng teksto ayon sa batas ng Zipf, at maaari mo ring ayusin ang indicator na ito. Sa katunayan, walang kumplikado dito, ang lahat ay medyo simple. Ito ay sapat na upang maunawaan ang prinsipyo ng pagpapatakbo ng regular na ito nang isang beses.

mga salita ng isang natural na wika: kung ang lahat ng mga salita ng isang wika (o isang sapat na mahabang teksto) ay inayos sa pababang pagkakasunud-sunod ng kanilang dalas ng paggamit, kung gayon ang dalas n-ika salita sa naturang listahan ay humigit-kumulang inversely proportional sa ordinal na numero nito n(ang tinatawag na ranggo ng salitang ito, tingnan ang sukat ng pagkakasunud-sunod). Halimbawa, ang pangalawang pinaka ginagamit na salita ay halos dalawang beses na mas karaniwan kaysa sa una, ang pangatlo ay tatlong beses na mas karaniwan kaysa sa una, at iba pa.

Kasaysayan ng paglikha[ | ]

Ang may-akda ng pagtuklas ng pattern ay isang French stenographer (fr. Jean-Baptiste Estoup), na inilarawan ito noong 1908 sa The Range of Shorthand. Ang batas ay unang inilapat upang ilarawan ang pamamahagi ng mga sukat ng lungsod ng German physicist na si Felix Auerbach sa kanyang akdang "The Law of Population Concentration" noong 1913 at dinala ang pangalan ng American linguist na si George Zipf, na noong 1949 ay aktibong nagpasikat. itong regularidad, unang nagmumungkahi na gamitin ito upang ilarawan ang pamamahagi ng mga puwersang pang-ekonomiya at katayuang sosyal.

Ang isang paliwanag ng batas ng Zipf batay sa mga katangian ng ugnayan ng mga additive Markov chain (na may step memory function) ay ibinigay noong 2005.

Ang batas ng Zipf ay inilarawan sa matematika ng pamamahagi ng Pareto. Ito ay isa sa mga pangunahing batas na ginagamit sa infometrics.

Mga aplikasyon ng batas[ | ]

George Zipf noong 1949 sa unang pagkakataon ay nagpakita ng pamamahagi ng mga kita ng mga tao ayon sa kanilang mga sukat: ang pinakamayamang tao ay may dalawang beses mas maraming pera kaysa sa susunod na mayaman, at iba pa. Ang pahayag na ito ay naging totoo para sa ilang bansa (England, France, Denmark, Holland, Finland, Germany, USA) sa panahon mula 1926 hanggang 1936.

Gumagana rin ang batas na ito kaugnay ng pamamahagi ng sistema ng lungsod: ang lungsod na may pinakamaraming malaking populasyon sa alinmang bansa na doble ang laki kaysa sa susunod na pinakamalaking lungsod, at iba pa. Kung ayusin mo ang lahat ng mga lungsod ng isang partikular na bansa sa listahan sa pababang pagkakasunud-sunod ng populasyon, kung gayon ang bawat lungsod ay maaaring italaga ng isang tiyak na ranggo, iyon ay, ang numero na natatanggap nito sa listahang ito. Kasabay nito, ang laki at ranggo ng populasyon ay sumusunod sa isang simpleng pattern na ipinahayag ng formula:

P n = P 1 / n (\displaystyle P_(n)=P_(1)/n),

saan P n (\displaystyle P_(n))- populasyon ng lungsod n-ika ranggo; P 1 (\displaystyle P_(1))- populasyon ng pangunahing lungsod ng bansa (1st rank).

Kinukumpirma ng empirical research pahayag na ito.

Noong 1999, inilarawan ng ekonomista na si Xavier Gabet ang batas ng Zipf bilang isang halimbawa ng batas ng kapangyarihan: kung random na lumalaki ang mga lungsod na may parehong standard deviation, pagkatapos ay sa limitasyon ang pamamahagi ay magsasama sa batas ng Zipf.

Ayon sa mga natuklasan ng mga mananaliksik na may kaugnayan sa urban settlement sa Russian Federation, alinsunod sa batas ng Zipf:

  • karamihan sa mga lungsod sa Russia ay nasa itaas ng perpektong kurba ng Zipf, kaya ang inaasahang trend ay isang patuloy na pagbaba sa bilang at populasyon ng mga katamtaman at maliliit na bayan dahil sa paglipat sa malalaking lungsod;
  • ayon sa pagkakabanggit, 7 milyon-plus na mga lungsod (St. Petersburg, Novosibirsk, Yekaterinburg, Nizhny Novgorod, Kazan, Chelyabinsk, Omsk), na mas mababa sa perpektong Zipf curve, ay may malaking reserbang paglaki ng populasyon at inaasahan ang paglaki ng populasyon;
  • may mga panganib ng depopulasyon ng unang lungsod sa ranggo (Moscow), dahil ang pangalawang lungsod (St. Petersburg) at kasunod na malalaking lungsod ay malayo sa likod ng perpektong Zipf curve dahil sa pagbaba ng demand para sa paggawa na may sabay-sabay na pagtaas sa gastos sa pamumuhay, kasama, una sa lahat, ang halaga ng pagbili at pag-upa ng pabahay.

Pagpuna [ | ]

Amerikanong bioinformatician nagmungkahi ng istatistikal na paliwanag ng batas ni Zipf, na nagpapatunay na ang isang random na pagkakasunud-sunod ng mga character ay sumusunod din sa batas na ito. Ang may-akda ay naghinuha na ang batas ni Zipf, tila, ay isang purong istatistikal na kababalaghan na walang kinalaman sa semantika ng teksto at may mababaw na kaugnayan sa linggwistika.