ი.ვ. დანილევსკი, ზიფ-პარეტოს კანონი, ახალი კვანტური ტექნოლოგიები და არაცნობიერის ფილოსოფია

საარჩევნო პროცესის დროს ამომრჩეველი გამოხატავს თავის დამოკიდებულებას გარკვეულის მიმართ პოლიტიკოსებიან პარტიებს, რომლებიც ხმას აძლევენ კონკრეტულ კანდიდატს ან პარტიას. ჩნდება კითხვა - არის თუ არა რაიმე შაბლონი, რომელიც აღწერს ხმების განაწილებას სხვადასხვა კანდიდატსა თუ პარტიას შორის? თუ კანონზომიერებები არ არის, მაშინ შესაძლებელია ნებისმიერი კორელაცია კანდიდატების ან პარტიების მიერ მიღებულ ხმებს შორის, ასევე ხმების ამ რაოდენობასა და, მაგალითად, ამომრჩეველთა აქტივობას ან ბათილად მყოფი ბიულეტენების რაოდენობას შორის. თუ არსებობს გარკვეული ნიმუშები ხმების განაწილებაში, მაშინ მათი განაწილების ყველა ვარიანტი არ არის შესაძლებელი. ბევრი არჩევნების მასალაზე დაყრდნობით ყველაზე სხვადასხვა ქვეყნებშიგამოვლინდა სტატისტიკური კავშირი, რომელიც არსებობს სხვადასხვა კანდიდატისა და პარტიის მიერ არჩევნებში მიღებული ხმების რაოდენობას შორის. აღმოჩნდა, რომ ეს ურთიერთობა აღწერილია შემდეგი მარტივი ურთიერთობით:

თუ ერთ ღერძზე თითოეული კანდიდატის მიერ მიღებული N(i) ხმების რაოდენობა გამოსახულია ლოგარითმულ შკალაზე, ხოლო მეორე ღერძზე, ასევე ლოგარითმული სკალაზე, არჩევნების დროს ერთი და იმავე კანდიდატის მიერ დაკავებული ადგილი i, მაშინ ქულები. საკმარისი მიახლოებით მიღებული სწორი ხაზის გასწვრივ მდებარეობს:

ln N(i) = A - B x lni (1)

ზემოაღნიშნული განტოლების მართებულობა დადასტურდა სამუშაოების სერიაში რუსი სპეციალისტებიმათემატიკური პოლიტიკის მეცნიერებაში (სობიანინი, სუხოვოლსკი, 1995), რომელმაც გააანალიზა 1990 წელს რუსეთის სახალხო დეპუტატების არჩევნების შედეგები, 1991 და 1996 წლებში რუსეთის პრეზიდენტის არჩევნები, აგრეთვე მონაცემები რიგ ქვეყნებში არჩევნების შესახებ. დაწყებული საპრეზიდენტო არჩევნებით საფრანგეთში 1848 წელს, სადაც დაამარცხა ლუი ნაპოლეონ ბონაპარტი.

ეს მათემატიკური შედეგიარატრივიალური ბუნებით. სპეციალისტებმა - ფიზიკოსებმა, ქიმიკოსებმა, მეტალურგებმა, დემოგრაფებმა, ეკოლოგებმა და ცოდნის სხვა დარგის წარმომადგენლებმა, რომლებიც დაკავშირებულია დიდი რაოდენობით სტატისტიკურ მონაცემებთან, კარგად იციან, რომ მითითებული რიცხვითი კანონზომიერება არის ზოგადი ხასიათიდა აღწერს სიტუაციას „თავისუფალი კონკურსი"ნებისმიერი პირობითი "საქონლის" სასრული რაოდენობის განაწილებისთვის. გამოდის, რომ საგნების, სიტუაციების და მიზეზ-შედეგობრივი კავშირის ყველა შესაძლო სახეობა არ ცვლის ამ დამოკიდებულების ხასიათს: როგორც კი თავისუფალი კონკურენცია იქნება, მისი შედეგები ნებისმიერ შემთხვევაში ჯდება "ლოგარითმულ სწორ ხაზზე" - იცვლება მხოლოდ A მუდმივი და სწორი ხაზის დახრილობა B. ამ ქვეყნებში მოსახლეობა ცივილიზებულ ქვეყნებში სწორედ ასეთ დამოკიდებულებამდე მიჰყავს. იმავდროულად, სსრკ-ში, ქალაქები ასეთია. როგორც მოსკოვმა, ლენინგრადმა და ზოგიერთმა სხვა ცენტრმა მნიშვნელოვნად გადაუხვიეს „პირდაპირ თავისუფალ კონკურენციას“ - საპასპორტო რეჟიმთან დაკავშირებული ადმინისტრაციული შეზღუდვების გამო. კონკურენცია იწვევს იგივე ურთიერთობას უმსხვილესი ქონების ზომასა და მათი მფლობელების მიერ დაკავებულ „ადგილს“ ასეთი სახელმწიფოების სიაში - რა თქმა უნდა, მსოფლიოს იმ მხარეებში, სადაც ასეთი სიები არსებობს. Ზუსტად იგივე ცნობილია ზოოლოგებისთვისმტაცებლების მასის მიხედვით განაწილების კანონი (არარსებობის შემთხვევაში ანთროპოგენური ფაქტორები) და ა.შ.

პირველად მსგავსი კანონზომიერებები დაადგინა იტალიელმა სოციოლოგმა და მათემატიკოსმა ვ.პარეტომ, რომელიც დაკავებული იყო ქვეყნის მცხოვრებთა მათი სიმდიდრის მიხედვით განაწილებით; შემდგომში ამერიკელმა ლინგვისტმა ჯ. Zipf, ტექსტებში სიტყვების გამოყენების სიხშირის განაწილების შესწავლა. სხვადასხვა ვარიანტებიზემოთ დაწერილ თანაფარდობებს უწოდებენ Zipf-Pareto კანონს. წოდებების განაწილების შესწავლასთან დაკავშირებული ანალიზის მეთოდები ფართოდ გამოიყენება ლინგვისტიკაში, მეცნიერომეტრიასა და ეკოლოგიაში. (1) მიმართებასთან შესაბამისობა საარჩევნო პროცესთან დაკავშირებით ნიშნავს, რომ არსებობს ყველა კანდიდატის „თავისუფალი კონკურენცია“, რომლებსაც აქვთ შესაძლებლობა თავისუფლად აუხსნან ამომრჩევლებს თავიანთი პოლიტიკური შეხედულებებიდა პოლიტიკური პლატფორმა.

ზიპფ-პარეტოს კანონის შესრულება საარჩევნო პროცესისთვის ნიშნავს იმას, რომ თითოეული კანდიდატი, თითოეული პარტია და ამომრჩეველთა პოლიტიკური ჯგუფი კენჭს აძლევს გარკვეული ტიპისაქვს თავისი პოლიტიკური პლატფორმა, რომელიც არ გადაფარავს ყველა დანარჩენს. ხელმისაწვდომმა კანდიდატებმა უნდა მოიცვას ამომრჩევლის ყველა შესაძლო უპირატესობა; მაშინ ამომრჩეველთა პროპორცია, რომლებიც ეძებენ თავიანთ არჩევანს კანდიდატთა სიის გარეთ, საკმაოდ მცირეა და განტოლება (1) აღწერს ხმების განაწილებას მაღალი სიზუსტით. წინააღმდეგ შემთხვევაში, ცარიელი "ნიშები" შეიძლება გამოჩნდეს განაწილებაში (1) და მთელი ანალიზი უფრო გართულდეს.

(1) განტოლებაში შეტანილი A და B პარამეტრები გამოითვლება იმ ამომრჩეველთა რაოდენობის საფუძველზე, რომლებმაც ხმა მისცეს სხვადასხვა კანდიდატს ან სხვადასხვა პოლიტიკურ ჯგუფს, მეთოდების გამოყენებით. რეგრესიული ანალიზი. პარამეტრი A (1) განტოლებაში არის ამომრჩეველთა რაოდენობის ლოგარითმი, რომლებმაც ხმა მისცეს წამყვან კანდიდატს. მნიშვნელობა B, უპირატესობის კოეფიციენტი, ახასიათებს სწორი ხაზის (1) დახრილობას და ემსახურება ამომრჩეველთა არჩევანის ერთგვაროვნების რიცხვით საზომს. თუ B = 0, ეს ნიშნავს, რომ ამომრჩეველს არ აქვს რაიმე უპირატესობა ზოგიერთ პარტიას ან კანდიდატს სხვებზე და რომ ყველამ მიიღო არჩევნებში იგივე ნომერიხმები. პირიქით, ზე დიდი ღირებულებებიციცაბო B, აუტსაიდერი პარტიები იღებენ ძალიან ცოტა ხმას წამყვან პარტიებთან შედარებით (თუმცა, პრაქტიკაში B პარამეტრი თითქმის არასოდეს არ არის ერთზე მეტი). თუ შეინიშნება გადახრები (1) ტიპის სწორი ხაზიდან, მაშინ ზემოთ მოცემული ვარაუდებით, ეს მიუთითებს თავისუფალი პოლიტიკური კონკურენციის პირობების არარსებობაზე. ეს შეიძლება გამოწვეული იყოს ან რაიმე დამატებითი მოქმედების არსებობით გარეგანი ფაქტორებიმაგალითად, ამომრჩეველთა დაშინება შესაძლო პოლიტიკური და ეკონომიკური რეპრესიებით კონკრეტული კანდიდატისთვის ხმის მიცემის (ან ხმის მიცემის) შემთხვევაში, ან არჩევნების შედეგების პირდაპირი გაყალბება საარჩევნო კომისიებში ხმების დათვლის დროს. სხვადასხვა დონეზე. დიაგრამა 2 გვიჩვენებს რუსეთში არჩევნებზე ამომრჩეველთა რაოდენობის რანგის განაწილების ტიპურ გრაფიკს. როგორც ხედავთ, რიცხვებს შორის სხვადასხვა ჯგუფებიამომრჩეველთა და ამ ჯგუფების რიგები (ანუ კანდიდატების ადგილები) ლოგარითმულ კოორდინატებში (ორივე ღერძის გასწვრივ), პრაქტიკულად ხაზოვანი ურთიერთობაა.

სხვადასხვა კანდიდატსა თუ პარტიაზე მიცემული ხმების განაწილების ტიპი ხელს უწყობს საარჩევნო გაყალბების იდენტიფიცირებას. გაყალბების უმარტივეს შემთხვევაში, თუ რომელიმე კანდიდატის ან პარტიის სასარგებლოდ შევსებული ბიულეტენების გარკვეული რაოდენობა გადაიყრება საარჩევნო ყუთებში, გამოდის, რომ ცალკეულ კანდიდატებზე მიცემული ხმების რანგობრივი განაწილება პირდაპირ არ არის გამოსახული. მაგრამ თუ გამოვრიცხავთ იმ კანდიდატის მონაცემებს, რომლის სასარგებლოდ გაყალბდა, მაშინ დარჩენილი კანდიდატებისთვის (ან პარტიებისთვის) წოდებების განაწილება თეორიულს შეესაბამება. განსახილველ შემთხვევაში ჩადებული ბიულეტენების რაოდენობა შეიძლება გამოითვალოს ამ კანდიდატის მიერ ოფიციალური მონაცემებით მიღებული ხმების რაოდენობასა და წოდებების განაწილების განტოლებიდან აღმოჩენილ რაოდენობას შორის ამ კანდიდატთან დაკავშირებული მონაცემების გამორიცხვის შემდეგ. დიაგრამა 3 გვიჩვენებს ხმების განაწილებას - საარჩევნო კომისიის მიხედვით - ადმინისტრაციის ხელმძღვანელის პოსტზე კანდიდატებისთვის ლიპეცკის რეგიონი 1993 წლის გაზაფხულზე გამართულ არჩევნებში. ეს განაწილება აშკარად შორს არის სწორი ხაზისგან. ამ შემთხვევაში სასამართლო პროცესმა, რომელიც გაიმართა 1995 წელს, დაადასტურა გაყალბების არსებობა პირველი ადგილის მფლობელი კანდიდატის სასარგებლოდ.

ჯორჯ ზიპფი

ინტერნეტში ინფორმაციის მთავარი წყარო ტექსტებია. ბუნებრივია, საიტების პოპულარიზაცია საძიებო TOP-ებში ძირითადად ასოცირდება სწორი მართლწერამსგავსი შინაარსი. მაგრამ ტექსტის დაწერა საკმარისი არ არის - თქვენ ასევე უნდა მოაწყოთ იგი SEO-ს სხვადასხვა წესებისა და რეკომენდაციების მიხედვით. მათგან ყველაზე პოპულარული და ფართოდ გამოყენებული შეიძლება გამოირჩეოდეს:

მინიმალური გულისრევა, წყალი და სპამი.
განთავსებული მასალის სწორი სტრუქტურა (სათაურები, სიები).
გასაღებების შეყვანა.

ეს ყველაფერი საფუძვლებია, ამიტომ ის იყენებს მათ უმეტესობაოპტიმიზატორები. მაგრამ ინტერნეტში სულ უფრო მეტი საიტია, ამიტომ მათი ზოგიერთი მფლობელი ეძებს სხვა ვარიანტებს მათი პროდუქტის წარმატებით პოპულარიზაციისთვის. და აქ ზოგიერთ მათგანს ახსოვს Zipf-ის გარკვეული კანონი. მაგრამ ისინი არა მხოლოდ იწყებენ საკუთარი ნაწერების დახვეწას სერვისისთვის, რომელიც ეყრდნობა ინგლისელი მეცნიერის განცხადებებს, რომელიც ვინ იცის რამდენი წლის წინ ცხოვრობდა, ისინი ასევე აიძულებენ დაქირავებულ კოპირაითერებს ჭკუას აერიონ ამაზე!

მაგრამ დოქტორი აიტუპიტი მზადყოფნაშია, ამიტომ, შავი მოსასხამის მსგავსად, ის ჩქარობს დასახმარებლად ინტერნეტ ჰაკერებს, რათა გაუმკლავდეს ეფექტურობას. ამ მეთოდითსაიტების პოპულარიზაცია ყველაზე ცნობილი საძიებო სისტემების ტოპებში.

Zipf-ის კანონის ტესტი

სინამდვილეში, მხოლოდ ორი მნიშვნელოვანი მახასიათებელია:

შემოწმებული შინაარსის გულისრევა.
ბუნებრიობა.

ამ პროდუქტის პირველი მინუსი მდგომარეობს ზუსტად გულისრევის ინდიკატორებში: დეველოპერებმა აშკარად არ გაითვალისწინეს, რომ არსებობს ამ SEO მახასიათებლის კლასიკური და აკადემიური ვარიაცია. და ამ სფეროში მომუშავე ადამიანების უმეტესობამ იცის, რომ სრულიად განსხვავებული მეთოდები გამოიყენება თითოეული ვარიანტის შესრულების შესამცირებლად. სხვადასხვა გზები(დოქტორი აიტუპიტი შეეცდება ამის შესახებ ერთ-ერთ მომდევნო პოსტში გითხრათ). მაგრამ Tsipfo-სერვისი არ აცნობებს მომხმარებლებს ამის შესახებ, რაც ზოგჯერ გარკვეულ სირთულეებს იწვევს. დიდხანს არ გატანჯავ და ამას ვიტყვი ამ საქმესმხოლოდ კლასიკური გულისრევა იგულისხმება.

გადავიდეთ ბუნებრივზე. Რა არის ეს? დიდი ხანია ვეძებ ადეკვატურ ინფორმაციას ამ საკითხზე. მაგრამ მე ვიპოვე მხოლოდ რამდენიმე აბსტრაქტული სიტყვის მუდმივი გადაწერა, რომელთა მნიშვნელობის გაგება შეუძლებელია ორი ბოთლი ლუდის გარეშე. არა, რა თქმა უნდა, მე შეიძლება სულელი ვარ, მაგრამ თითოეულ თქვენგანს შეუძლია ამის გაგება:

„..სიტყვის სიხშირის განაწილების ემპირიული ნიმუში ბუნებრივი ენა: თუ ენის ყველა სიტყვა (ან უბრალოდ საკმარისი გრძელი ტექსტი) დაალაგეთ მათი გამოყენების სიხშირის კლებადობით, მაშინ ასეთ სიაში n-ე სიტყვის სიხშირე დაახლოებით უკუპროპორციული იქნება მის სერიული ნომერი n (ამ სიტყვის ე.წ. რანგი, იხ. რიგის მასშტაბი). მაგალითად, მეორე ყველაზე ხშირად გამოყენებული სიტყვა დაახლოებით ორჯერ ნაკლებია პირველზე, მესამე სამჯერ ნაკლებია პირველზე და ასე შემდეგ.

ემპირიული, ჯანდაბა, კანონზომიერება... ასე უნდა ეწერა! კარგი, - სატანა არ აპატიებს მას. ეს არ არის ყველაზე საინტერესო! საინტერესოა, რომ ამ გამონათქვამის ავტორი ამერიკელი ლინგვისტია, რომელიც ცხოვრობდა გასული საუკუნის შუა ხანებში, როცა ინტერნეტის შესახებ მხოლოდ ჯორჯ ლუკასმა და ლეონიდ ილიჩ ბრეჟნევმა იცოდნენ. ანუ არსებობენ ადამიანები, რომლებსაც სჯერათ, რომ თანამედროვე საძიებო სისტემები უბრალოდ ვალდებულნი არიან განახორციელონ ანალიზი Zipf-ის კანონის მიხედვით? ბოდიში, ბატონო, მაგრამ რატომ ჯანდაბა? ..

ალბათ, ზემოთ მოყვანილი სიტყვების შემდეგ, ზოგიერთი მკითხველი გადაწყვეტს, რომ ამ ოპუსის ავტორი ტიპიური ბალაბოლია? ვეცდები ღირსეული არგუმენტები მოგაწოდოთ დასარწმუნებლად!

- მოთხოვნა, რომ ტექსტის პარამეტრები შეესაბამებოდეს Zipf-ის კანონს ან, უფრო ზუსტად, ყველა სახის „მომსახურებას“, რომლებიც თითქოს ტექსტებს ამოწმებენ ასეთი შესაბამისობისთვის, არის მოტყუება. ყველაზე სუფთა წყალი. ასეთი პირობა უაზროა როგორც ტექსტის ხარისხის, ასევე მისი ოპტიმიზაციის თვალსაზრისით. საძიებო სისტემები.

- Zipf შემოწმება ჰგავს SEO ამულეტებს და ფენგ შუის - გავიგე ზარის ხმა, მაგრამ არ ვიცი სად არის. და რადგან ზოგადად SEO-ში ბევრი ფსევდომეცნიერული მისტიფიკაციაა საძიებო სისტემის ალგორითმების თავდაპირველი სიახლოვის გამო, Zipf შემოწმება ძალიან ჰარმონიულად უერთდება ხარისხის უფრო შესაბამის ინდიკატორებს - ძირითადი სიმკვრივე და უნიკალურობა, რომლის შედეგებიც, თავის მხრივ, ასევე უნდა იყოს. მიღებული იმდენად, რამდენადაც.

არავითარი სპეკულაცია ჩემი მხრიდან - ამ კანონის შესახებ დაწერილი პატიოსნად კომუნირებული სიტყვები!

და მე მზად ვარ გამოვიწერო ჟეკას და ადვეგოს ყოველი სიტყვა. მოდი ვიფანტაზიოროთ. წარმოიდგინეთ, რომ თქვენს წინ არის მანქანა. თქვენ უნდა მიუახლოვდეთ და აკრიფოთ ნომრების თვითნებური კომბინაცია მის დაფაზე. სწორი ნომერიარავინ იცის, ამიტომ ყოველ ჯერზე მოგების ოდენობა განსხვავებულია. ზოგი უბრალოდ შეაქვს ღირებულებებს და ტოვებს, ზოგი იწყებს რაღაც სისტემის გამოგონებას: ცეკვავენ რუმბას, აფურთხებენ სამჯერ მკაცრად თხუთმეტ გრადუსიანი კუთხით, ჭამენ სამი დღის წინ გამხმარ თხას და ა.შ. და შემდეგ ერთ-ერთი ბოლო იღბლიანი - ის არღვევს ჯეკპოტს! რატომ გაუმართლა - ჯოჯოხეთმა იცის. შესაძლოა მან უბრალოდ გამოიცნო კომბინაცია, ან იქნებ თხა იყო ჯადოსნური. მაგრამ მეორე დღეს, ეს ადამიანი მიდის მანქანასთან და აწყობს მაგიდას იქვე, სადაც ყველას ეპატიჟება სცადონ თავისი ტექნიკა ნომერზე აკრეფამდე...

ჯერ კიდევ არ ხართ დარწმუნებული? მერე მძიმე არტილერიას გამოვიყენებ - ექსპერიმენტს ჩავატარებ.

ტექსტის ვიზუალური შემოწმება Zipf-ის კანონის მიხედვით

მომავალი ნამუშევრისთვის გადავწყვიტე რამდენიმე განსხვავებული გადამეღო საკვანძო ფრაზებიდა შეამოწმეთ ტექსტები Zipf-ის კანონთან შესაბამისობისთვის, რომელიც მდებარეობს ჩვენი შიდა საძიებო სისტემის Yandex-ის TOP-ის სხვადასხვა ადგილას. Დავიწყოთ.

პირველი გასაღები არის "სახლის აშენება ბარიდან".

მე ვირჩევ საიტს, რომელიც მდებარეობს საძიებო რეიტინგის ზედა ნაწილში, ვაკეთებ ანალიზს:

რა გვაქვს: ბუნებრიობა - 80, გულისრევა - 5,9.

საძიებო სისტემაში ვუბრუნდები ქვემოთ მოცემულ გვერდს, ვირჩევ საიტს მესამე ათეულიდან და ვაკეთებ ანალიზს:

შედეგი: ბუნებრიობა - 82, გულისრევა - 6,16.

ქვემოთ ჩავდივარ ათეულ პოზიციაზე და ვიმეორებ პროცედურას:

შედეგი: E - 86, T - 8.6.

მაგრამ TOP-ში სხვა რაღაც ღირს! რამდენიმე? ჩვენ ვიმეორებთ შემოწმებას. ჩვენ ვიღებთ შემდეგ გასაღებს. დავუშვათ - ბუასილის მკურნალობა.

შედეგი: E - 70, T - 11.23.

ორი ათეული პოზიციის ქვემოთ:

შედეგი: E - 91, T - 4.90.

კიდევ ერთი გვერდი ქვემოთ:

შედეგი: E - 91, T - 4.12.

დასკვნა

როგორც ანალიზიდან ჩანს, Zipf-ის კანონის მიხედვით ტექსტური მასალების ბუნებრიობის საუკეთესო მაჩვენებლები საერთოდ არ იძლევა სხვა ინტერნეტ რესურსებზე მდებარე ტექსტებთან კონკურენციის წარმატების გარანტიას. თუმცა შენი გადასაწყვეტია...

გამარჯობა! AT ბოლო დროსუფრო და უფრო ხშირად მესმის კოლეგებისგან TOR-ში ტექსტის ხარისხის შეფასების მოთხოვნა Zipf-ის კანონის მიხედვით. და ყველას არ ესმის, თუ როგორ უნდა შეცვალონ ტექსტი ამ კანონისთვის. დღევანდელ სტატიაში შევეცდები გითხრათ როგორ ყველაზე მარტივი გზითპარამეტრის გაუმჯობესება და ასევე იმის გარკვევა, თუ რატომ კარგი ავტორებისინამდვილეში ეს არ არის საჭირო.

თქვენ შეგიძლიათ განსაზღვროთ ტექსტის ხარისხი Zipf-ის კანონის მიხედვით რამდენიმე სერვისის გამოყენებით. მაგრამ, PR-CY მიმაჩნია ყველაზე ადეკვატურად, ის აერთიანებს სწორი ფორმულამარტივი და მკაფიო ინტერფეისით. სწორედ ეს გამოვიყენე ამ მასალის მომზადებისას.

რა არის Zipf-ის კანონი

დასაწყისისთვის, ღირს იმის გაგება, თუ რა არის ეს. ვიკიპედიის მიხედვით, ჟან-ბატისტ ესტუმ ჩამოაყალიბა ეს ნიმუში 1908 წელს, ეს კანონი თავდაპირველად სტენოგრამას მოიხსენიებდა. ფართო საზოგადოებისთვის ცნობილი კანონზომიერების პირველი გამოყენება ეხება დემოგრაფიას, უფრო სწორედ ქალაქებში მოსახლეობის განაწილებას, გამოიყენა ფელიქს აუერბახმა.

ნიმუშმა თანამედროვე სახელი მიიღო 1949 წელს ენათმეცნიერის ჯორჯ ზიპფის წყალობით. მან მისი დახმარებით აჩვენა მოსახლეობის შორის სიმდიდრის განაწილების გრადაცია. და მხოლოდ ამის შემდეგ დაიწყო კანონის გამოყენება ტექსტების წაკითხვის დასადგენად.

როგორ გამოითვლება

ამ კანონის სწორად გამოსაყენებლად, თქვენ უნდა გესმოდეთ, როგორ მუშაობს იგი. მოდით გავაანალიზოთ გაანგარიშების ფორმულა.

F არის სიტყვის გამოყენების სიხშირე;
R არის სერიული ნომერი;
C- მუდმივი(რაოდენობა მიუთითებს სიტყვის გამეორების ყველაზე დიდ რაოდენობაზე).

პრაქტიკაში, კიდევ ერთი ფორმულა უფრო მოსახერხებელია, ის უფრო ნათლად გამოიყურება.

ეს მიდგომა უფრო მოსახერხებელია, რადგან ჩვენ გვაქვს მონაცემები ყველაზე გავრცელებული სიტყვის გამეორებების რაოდენობის შესახებ. სწორედ ამ რაოდენობით ხდება მათი მოგერიება.

გამარტივებისთვის, ჩვენს ტექსტში მეორე ყველაზე ხშირი სიტყვა პირველზე ორჯერ იშვიათი უნდა იყოს. მესამე ადგილზე მოხვედრა, სამჯერ და ასე შემდეგ.

ტექსტის შესაბამისი მაგალითი

თეორია ცოტა განიხილება. რჩება პრაქტიკასთან გამკლავება. როგორც ექსპერიმენტული ტექსტი ავიღე სტატია თ-ჟ. რატომ იქიდან? ყველაფერი მარტივია. ამ დროისთვის, ეს არის ინფორმაციის სტილის ერთ-ერთი საუკეთესო მაგალითი, რომელიც ბევრს უყვარს. ისე, საინტერესო იყო, რას აჩვენებდა მაქსიმ ილიახოვის ხელმძღვანელობით დაწერილი ტექსტი. მაშინვე ვიტყვი, რომ ამ ინდიკატორის ტექსტები დონეზეა, თუმცა, 40-ზე მეტი საიტის ჩაძირვის შემდეგ, საერთოდ ვერ ვიპოვე ცუდი ბუნებრიობის არც ერთი სტატია. გარდა ამისა, მე მაშინვე წინ გადავხტები და ვიტყვი, რომ ექსპერიმენტული ტექსტი მორგების შემდეგ ბევრად გაუარესდა, მიუხედავად Zipf-ის გაუმჯობესებული ქულისა, ძალიან არ უნდა შეგაწუხოთ ბუნებრიობის გადაჭარბებული მატება.

ეს გვაჩვენა ანალიზატორმა შემოწმების შემდეგ.

მოდით შევხედოთ რა არის იქ. როგორც ხედავთ, არის სვეტი სიტყვებით, ასევე გაუგებარი რიცხვებით. სვეტი "შემთხვევა" (1) მიუთითებს რამდენჯერ გვხვდება ტექსტში სიტყვის ფორმები. Zipf სვეტში (2) არის ჩანაწერების რეკომენდებული რაოდენობა. მარკერები 3 და 4 აღნიშნავენ იდეალურ მაჩვენებლებს მეორე და მესამე პოზიციებისთვის. ასევე ყურადღება უნდა მიაქციოთ რეკომენდაციებს, ეს მიუთითებს რამდენი სიტყვის ამოღება გჭირდებათ სრულყოფილი კომბინაციის მისაღწევად.

უკეთ რომ გავიგოთ, გავაანალიზოთ რა დათვალა ანალიზატორი. ჩვენ საფუძვლად ვიღებთ რიცხვს 39 (C), ასევე გვჭირდება სერიული ნომერი, ყურადღება მიაქციეთ 2 (F) პოზიციას. ჩვენ ვიღებთ ფორმულას.

შემცვლელი.

F=39/2=19.5

ვამრგვალებთ და ვიღებთ 20-ს, ეს იქნება საჭირო რაოდენობამოვლენებს. ამას ადასტურებს ანალიზატორი. ჩვენს ქვეყანაში მეორე ყველაზე პოპულარული სიტყვა გამოიყენება 28-ჯერ, შესაბამისად, 8 გამეორება საჭირო იქნება ამოღება ან ჩანაცვლება.

კანონის პრინციპს რომ შევეხებით, ვიწყებთ რედაქტირებას. ამისათვის ჩვენ წავშლით ან სინონიმებით ვცვლით სიტყვებს, რომლებსაც უფრო მეტი შემთხვევა აქვთ, ვიდრე მოითხოვს Zipf-ს. შედეგად, ჩვენ ვიღებთ ამ სურათს.

როგორც ხედავთ, მე მოვახერხე მაჩვენებლის გაზრდა 83%-დან 88%-მდე. თუმცა, ტექსტის ხარისხი მნიშვნელოვნად დაზარალდა. თქვენ არ უნდა ცდილობთ ამ მაჩვენებლის 100%-მდე გაზრდას. სინამდვილეში, თუ უკვე გაქვთ 75%, ეს შესანიშნავია და არ უნდა გარყვნილიყოთ.

სასარგებლო რჩევა

ყურადღება მიაქციეთ არა მხოლოდ პირველ ხაზებს. დაიწყეთ მორგება ბოლო პოზიციებიჩამოთვლილი, ისინი ხშირად უზრუნველყოფენ უფრო დიდი გავლენაზე საერთო ქულავიდრე პირველი ათი სიტყვა.

Zipf და SEO

ახლა მოდით გადავიდეთ იმაზე, თუ რატომ უნდა იცოდეს კოპირაიტერმა ეს ნიმუში. ტექსტების შეკვეთისას, SEO-ები ცდილობენ გახადონ ისინი ყველაზე მოსახერხებელი საძიებო სისტემებისთვის. ითვლება (თუმცა უცნობია ვის მიერ), რომ Zipf-ის კანონი აქტიურად გამოიყენება საძიებო ალგორითმების მიერ. ამ განცხადების დამტკიცება ან უარყოფა რთულია. მე ვერ ვიპოვე რაიმე საღი კვლევა და ექსპერიმენტი ამ თემაზე.

გადავწყვიტე მე თვითონ გადამემოწმებინა. ამისათვის მე ავიღე შედეგები ასეთი კონკურენტული მოთხოვნისთვის "პლასტმასის ფანჯრებისთვის", Yandex-მა აიღო მოსკოვის შედეგები, მომიწია ჩაფიქრება Google-ში და, როგორც ჩანს, ასევე გამიჩინა, როგორც დედაქალაქის მკვიდრი (შესაბამისად მინიმუმმაჩვენა განცხადება მოსკოვის გეოლოკაციით). ნომრის პირველი გვერდი ავიღე, პლუს 49-ე ადგილი. ასე აღმოჩნდა ნიშანი.

თუ უფრო კარგად დააკვირდებით, ხედავთ, რომ Yandex-ში გამომავალი უფრო თანაბარია, თუ გადავხედავთ იმ ნიმუშს, რომელსაც ჩვენ ვსწავლობთ. მაგრამ, ხოლო მეტი მაღალი რეიტინგიარ იძლევა გარანტიას გამარჯვებაში პირველ ადგილზე გასვლისთვის ბრძოლაში.

ამის საფუძველზე შეიძლება ითქვას, რომ თუ საძიებო სისტემები იყენებენ ეს კანონი, მხოლოდ ერთ-ერთი ფაქტორია. და არა მთავარი.

დასკვნები

Ის არის. ახლა თქვენ იცით, რა არის ტექსტის ხარისხი Zipf-ის კანონის მიხედვით და ასევე შეგიძლიათ დაარეგულიროთ ეს მაჩვენებელი. სინამდვილეში, აქ არაფერია რთული, ყველაფერი საკმაოდ მარტივია. საკმარისია ერთხელ გავიგოთ ამ კანონზომიერების მოქმედების პრინციპი.

ბუნებრივი ენის სიტყვები: თუ ენის ყველა სიტყვა (ან უბრალოდ საკმაოდ გრძელი ტექსტი) დალაგებულია მათი გამოყენების სიხშირის კლებადობით, მაშინ სიხშირე ნ-ასეთ ჩამონათვალში მე-1 სიტყვა დაახლოებით უკუპროპორციული იქნება მისი რიგითი რიცხვისა ნ(ე. წ წოდებაამ სიტყვის, იხილეთ წესრიგის მასშტაბი). მაგალითად, მეორე ყველაზე ხშირად გამოყენებული სიტყვა დაახლოებით ორჯერ ნაკლებია პირველზე, მესამე სამჯერ ნაკლებია პირველზე და ა.შ.

შექმნის ისტორია[ | ]

ნიმუშის აღმოჩენის ავტორი არის ფრანგი სტენოგრაფი (ფრ. ჟან-ბატისტ ესტუპი), რომელმაც აღწერა იგი 1908 წელს სლოგანდის დიაპაზონში. კანონი პირველად გამოიყენა ქალაქების ზომების განაწილების აღსაწერად გერმანელმა ფიზიკოსმა ფელიქს აუერბახმა თავის ნაშრომში "მოსახლეობის კონცენტრაციის კანონი" 1913 წელს და ატარებს ამერიკელი ენათმეცნიერის ჯორჯ ზიპფის სახელს, რომელმაც 1949 წელს აქტიური პოპულარიზაცია მოახდინა. ამ კანონზომიერებას, ჯერ შესთავაზა მისი გამოყენება ეკონომიკური ძალების განაწილების აღსაწერად და სოციალური სტატუსი.

Zipf-ის კანონის ახსნა, რომელიც დაფუძნებულია დანამატის მარკოვის ჯაჭვების კორელაციულ თვისებებზე (საფეხურიანი მეხსიერების ფუნქციით) იყო მოცემული 2005 წელს.

Zipf-ის კანონი მათემატიკურად არის აღწერილი პარეტოს განაწილებით. ეს არის ერთ-ერთი ძირითადი კანონი, რომელიც გამოიყენება ინფომეტრიკაში.

კანონის გამოყენება[ | ]

ჯორჯ ზიპფმა 1949 წელს პირველად აჩვენა ხალხის შემოსავლების განაწილება მათი ზომის მიხედვით: უმდიდრეს ადამიანს აქვს ორჯერ. მეტი ფულივიდრე შემდეგი მდიდარი კაცი და ა.შ. ეს განცხადება მართალი აღმოჩნდა რიგ ქვეყნებში (ინგლისი, საფრანგეთი, დანია, ჰოლანდია, ფინეთი, გერმანია, აშშ) 1926 წლიდან 1936 წლამდე პერიოდში.

ეს კანონი ასევე მუშაობს ქალაქის სისტემის განაწილებასთან დაკავშირებით: ქალაქი, სადაც ყველაზე მეტია დიდი მოსახლეობანებისმიერ ქვეყანაში ორჯერ უფრო დიდი, ვიდრე მომდევნო უდიდესი ქალაქი და ა.შ. თუ სიაში აწყობთ გარკვეული ქვეყნის ყველა ქალაქს მოსახლეობის კლებადობით, მაშინ თითოეულ ქალაქს შეიძლება მიენიჭოს გარკვეული წოდება, ანუ რიცხვი, რომელსაც იგი იღებს ამ სიაში. ამავდროულად, მოსახლეობის ზომა და წოდება ემორჩილება მარტივ შაბლონს, რომელიც გამოხატულია ფორმულით:

P n = P 1 / n (\displaystyle P_(n)=P_(1)/n),

სადაც P n (\displaystyle P_(n))- ქალაქის მოსახლეობა ნ-მე წოდება; P 1 (\displaystyle P_(1))- ქვეყნის მთავარი ქალაქის მოსახლეობა (1 რანგი).

ემპირიული კვლევა ადასტურებს ამ განცხადებას.

1999 წელს ეკონომისტმა ქსავიერ გაბეტმა აღწერა Zipf-ის კანონი, როგორც ძალაუფლების კანონის მაგალითი: თუ ქალაქები შემთხვევით იზრდებიან იგივე სტანდარტული გადახრით, მაშინ ლიმიტზე განაწილება გადაიყრება Zipf-ის კანონს.

მკვლევარების დასკვნებით რუსეთის ფედერაციაში ურბანული დასახლებების შესახებ, Zipf-ის კანონის შესაბამისად:

რუსეთის ქალაქების უმეტესობა იდეალური Zipf მრუდის ზემოთ მდებარეობს, ამიტომ მოსალოდნელი ტენდენციაა საშუალო და პატარა ქალაქების რაოდენობისა და მოსახლეობის მუდმივი შემცირება მიგრაციის გამო. დიდი ქალაქები;
შესაბამისად 7 მილიონზე მეტი ქალაქი (სანქტ-პეტერბურგი, ნოვოსიბირსკი, ეკატერინბურგი, ნიჟნი ნოვგოროდი, ყაზანი, ჩელიაბინსკი, ომსკი), რომლებიც იდეალური Zipf მრუდის ქვემოთ არიან, აქვთ მოსახლეობის ზრდის მნიშვნელოვანი რეზერვი და ელიან მოსახლეობის ზრდას;
არის პირველი ქალაქის (მოსკოვი) დეპოპულაციის რისკი, რადგან მეორე ქალაქი (სანკტ-პეტერბურგი) და შემდგომი დიდი ქალაქები ბევრად ჩამორჩებიან Zipf-ის იდეალურ მრუდს შრომაზე მოთხოვნის შემცირების გამო შრომაზე მოთხოვნის შემცირების გამო. ცხოვრების ღირებულება, მათ შორის, უპირველეს ყოვლისა, საცხოვრებლის შეძენისა და გაქირავების ღირებულება.

კრიტიკა [ | ]

ამერიკელი ბიოინფორმატიკოსი შესთავაზა Zipf-ის კანონის სტატისტიკური ახსნა, რომელიც ადასტურებს, რომ სიმბოლოების შემთხვევითი თანმიმდევრობა ასევე ემორჩილება ამ კანონს. ავტორი ასკვნის, რომ Zipf-ის კანონი, როგორც ჩანს, არის წმინდა სტატისტიკური ფენომენი, რომელსაც არაფერი აქვს საერთო ტექსტის სემანტიკასთან და აქვს ზედაპირული კავშირი ლინგვისტიკასთან.

პორტალი სტუდენტისთვის. თვითმმართველობის ტრენინგი