კომპიუტერის დახმარება. Zipf-ის კანონი და სოციალური და ეკონომიკური ფენომენების ფრაქტალური ბუნება

პირველად კითხვის დროს შევხვდი Zipf-ის კანონის აღწერას. კანონის არსი: თუ რომელიმე ტექსტის სიტყვები რანჟირებულია გამოყენების სიხშირის მიხედვით, მაშინ რანგის პროდუქტი სიხშირით არის მუდმივი მნიშვნელობა:

F*R=C, სადაც:

F არის ტექსტში სიტყვის გაჩენის სიხშირე;

R - სიტყვის წოდება (ყველაზე ხშირად გამოყენებული სიტყვა იღებს 1 წოდებას, შემდეგი - 2 და ა.შ.);

C არის მუდმივი.

ვისაც ჯერ კიდევ ახსოვს ცოტა ალგებრა :), ზემოთ მოცემულ ფორმულაში ადვილია ჰიპერბოლის განტოლების ამოცნობა. Zipf-მა ექსპერიმენტულად დაადგინა, რომ C ≈ 0.1. ასე რომ, Zipf-ის კანონის გრაფიკული გამოსახულება დაახლოებით შემდეგია:

ბრინჯი. 1. Zipf-ის კანონის ჰიპერბოლა.

ჩამოტვირთეთ შენიშვნა ფორმატში, მაგალითები ფორმატში

ჰიპერბოლას აქვს შესანიშნავი თვისება. თუ ორივე ღერძისთვის ავიღებთ ლოგარითმულ შკალას, მაშინ ჰიპერბოლა სწორ ხაზს ჰგავს:

ბრინჯი. 2. იგივე ჰიპერბოლა, ოღონდ გრაფაზე ლოგარითმული მასშტაბებით

შეიძლება გაჩნდეს კითხვა: რა შუაშია საძიებო სისტემის ოპტიმიზაცია? ასე რომ, გამოდის, რომ სპეციალურად გენერირებული ტექსტები, რომლებიც შეიცავს საკვანძო სიტყვების გაზრდილ რაოდენობას, არ ჯდება კანონში. საძიებო სისტემები (გუგლი, იანდექსი) ამოწმებენ ტექსტებს „ბუნებრივობაზე“, ანუ შეესაბამება Zipf-ის კანონს და ან ამცირებენ საიტების რეიტინგს „საეჭვო“ ტექსტებით, ან საერთოდ კრძალავენ ასეთ საიტებს.

მეორედ შევხვდი ზიპფის კანონს ბენუა მანდელბროტთან მის წიგნში. და იმდენად მომეწონა ეს პატარა განყოფილება, რომ ნება მომეცით მისი სრული ციტირება.

მოულოდნელი ძალაუფლების კანონი

1950 წელს მე ვიყავი ახალგაზრდა მათემატიკის სტუდენტი პარიზის უნივერსიტეტში, ვეძებდი თემას ჩემი დისერტაციისთვის. ბიძაჩემი ზოლემი იყო ადგილობრივი მათემატიკის სახელმძღვანელოს პროფესორი: ღრმა თეორეტიკოსი, ძალიან კონსერვატიული და, მიუხედავად იმისა, რომ დაიბადა პოლონეთში, საფრანგეთის სამეცნიერო საზოგადოების საყრდენი. უკვე 31 წლის ასაკში აირჩიეს პრესტიჟულ ფრანგულ კოლეჯში სრულ განაკვეთზე პროფესორად.

ეს იყო ნიკოლას ბურბაკის ეპოქა; ამ კოლექტიური ფსევდონიმის მიღმა იმალებოდა მათემატიკური „კლუბი“, რომელიც ხელოვნებაში დადასა თუ ლიტერატურაში ეგზისტენციალიზმის მსგავსად, საფრანგეთიდან გავრცელდა და გარკვეული პერიოდის განმავლობაში უაღრესად გავლენიანი გახდა მსოფლიო ასპარეზზე. აბსტრაქცია და წმინდა მათემატიკა, მათემატიკა მათემატიკის გულისთვის, ამაღლდა კულტის ხარისხში; „კლუბის“ წევრები ზიზღით იგდებდნენ პრაგმატიზმს, გამოყენებით მათემატიკას და მათემატიკასაც კი, როგორც მეცნიერების იარაღს. ეს მიდგომა იყო დოგმატი ფრანგი მათემატიკოსებისთვის და ჩემთვის, ალბათ, საფრანგეთის დატოვების და IBM-ში სამუშაოდ წასვლის მიზეზი. მე, ბიძაჩემის საუბედუროდ, ახალგაზრდა მეამბოხე ვიყავი. სადოქტორო დისერტაციაზე მუშაობისას ხშირად შევდიოდი მის კაბინეტში დღის ბოლოს სასაუბროდ და ხშირად ეს საუბრები დისკუსიაში გადაიზარდა. ერთხელ, ვცდილობდი როგორმე გამელამაზებინა მომავალი გრძელი და მოსაწყენი მეტროთი მგზავრობა სახლში, ვთხოვე მას რაღაც წასაკითხი გზად. მან ხელი აიღო ნაგვის კალათში და რამდენიმე დაქუცმაცებული ქაღალდი ამოიღო.

"აი, აიღე ეს," ჩაიჩურჩულა ბიძაჩემმა. ”ყველაზე სულელური სტატია, რომელიც გიყვარს.

ეს იყო სოციოლოგ ჯორჯ კინგსლი ზიპფის წიგნის მიმოხილვა. Zipf, საკმარისად მდიდარი ადამიანი, რომ არ ეფიქრა თავის ყოველდღიურ პურზე, ჰარვარდის უნივერსიტეტში კითხულობდა ლექციებს მის მიერ გამოგონილ დისციპლინაზე, რომელსაც მან უწოდა სტატისტიკური ადამიანის ეკოლოგია. მის წიგნში „ადამიანის ქცევა და მინიმალური ძალისხმევის პრინციპი“ ძალაუფლების კანონები განიხილებოდა, როგორც სოციალური მეცნიერებების საყოველთაო სტრუქტურები. ჩიპში, ძალაუფლების კანონები საკმაოდ გავრცელებულია და მოქმედებს როგორც ფორმა, რასაც მე ახლა ფრაქტალურ თვითგამეორებას ვუწოდებ სასწორზე. სეისმოლოგებს აქვთ მათემატიკური ფორმულა რიხტერის ცნობილი სკალის მიხედვით მიწისძვრების რაოდენობის ძალა-კანონის დამოკიდებულების შესახებ. ან სხვა სიტყვებით რომ ვთქვათ: სუსტი მიწისძვრები ხშირია, ძლიერი კი იშვიათია და მიწისძვრების სიხშირე და სიძლიერე დაკავშირებულია ზუსტი ფორმულით. იმ დროს ასეთი მაგალითები ცოტა იყო და მათ მხოლოდ რამდენიმე ადამიანი იცნობდა. ზიპფი, ენციკლოპედისტი, შეპყრობილი იყო იმ იდეით, რომ ძალაუფლების კანონები არ შემოიფარგლებოდა ფიზიკურ მეცნიერებებში; ისინი ექვემდებარებიან ქცევის, ორგანიზაციისა და ადამიანის ანატომიის ყველა გამოვლინებას - სასქესო ორგანოების ზომასაც კი.

საბედნიეროდ, წიგნის მიმოხილვა, რომელიც ბიძაჩემმა მომცა, შემოიფარგლა მხოლოდ ერთი უჩვეულოდ ელეგანტური მაგალითით: სიტყვების სიხშირით. ტექსტში ან მეტყველებაში, ზოგიერთი სიტყვა, როგორიცაა ინგლისური the (განსაზღვრული არტიკლი) ან ეს ("ის"), ხშირად გვხვდება; სხვები, milreis ან momus, იშვიათად ან საერთოდ არ ჩნდება (ყველაზე ცნობისმოყვარეებისთვის: პირველი ნიშნავს ძველ პორტუგალიურ მონეტას, მეორე არის სიტყვის "კრიტიკოსის" სინონიმი). Zipf-მა შემოგვთავაზა შემდეგი სავარჯიშო: აიღეთ ნებისმიერი ტექსტი და დაითვალეთ რამდენჯერ გამოჩნდება მასში თითოეული სიტყვა. შემდეგ თითოეულ სიტყვას მიანიჭეთ წოდება: 1 - ყველაზე ხშირად გამოყენებული სიტყვებისთვის, 2 - მათთვის, ვინც მეორე ადგილს იკავებს გაჩენის სიხშირით და ა.შ. და ბოლოს, შექმენით გრაფიკი, რომელზედაც თითოეული რანგისთვის მიუთითეთ ამ სიტყვის გაჩენის რაოდენობა. ჩვენ მივიღებთ საოცარ ნახატს. მრუდი ერთნაირად არ იკლებს მოცემულ ტექსტში ყველაზე გავრცელებული სიტყვიდან უიშვიათესამდე. თავიდან ის თავბრუდამხვევი სისწრაფით ეცემა, რის შემდეგაც უფრო ნელა იწყებს კლებას, იმეორებს პლაცდარმიდან გადმოხტა მოთხილამურეს ტრაექტორიას, შემდეგ კი დაეშვა და დაეშვა თოვლით დაფარული მთის შედარებით რბილ ფერდობზე. კლასიკური არაერთგვაროვანი მასშტაბის მაგალითი. Zipf-მა, რომელმაც მოარგა მრუდი თავის დიაგრამებს, გამოვიდა ფორმულა ამისთვის.

გაოგნებული დავრჩი. მეტროში ჩემი ხანგრძლივი მგზავრობის დასასრულს უკვე მქონდა თემა სადოქტორო დისერტაციის ნახევარზე. ზუსტად ვიცოდი, როგორ აეხსნა სიტყვების სიხშირეების განაწილების მათემატიკური საფუძვლები, რასაც ზიფფი, მათემატიკოსი არ იყო, არ შეეძლო. მომდევნო თვეებში საოცარი აღმოჩენები მელოდა. ამ განტოლების გამოყენებით, თქვენ შეგიძლიათ შექმნათ ძლიერი ინსტრუმენტი სოციალური კვლევისთვის. Zipf-ის ფორმულის გაუმჯობესებულმა ვერსიამ შესაძლებელი გახადა ნებისმიერი ადამიანის ლექსიკის სიმდიდრის რაოდენობრივი შეფასება და რანჟირება: მაღალი ღირებულება - მდიდარი ლექსიკა; დაბალი ღირებულება - ცუდი. ასეთი მასშტაბით შეიძლება გავზომოთ განსხვავებები ლექსიკაში ტექსტებსა თუ გამომსვლელებს შორის. შესაძლებელი ხდება ერუდიციის რაოდენობრივი შეფასება. მართალია, ჩემი მეგობრები და კონსულტანტები შეშინებულნი იყვნენ ჩემი გადაწყვეტილებით დამეწყო ეს უცნაური თემა. ზიპფი, მითხრეს, უცნაური კაცია. მაჩვენეს მისი წიგნი და დავთანხმდი, რომ ეს ამაზრზენი იყო. სიტყვების დათვლა არ არის ნამდვილი მათემატიკა, დავრწმუნდი. ამ საკითხს რომ შევუდექი, ვერასდროს ვიპოვი კარგ სამსახურს; და არც პროფესორობა გამიჭირდება.

მაგრამ ბრძნული რჩევებისადმი ყრუ დავრჩი. მეტიც, დისერტაცია საერთოდ ყოველგვარი კონსულტანტის გარეშე დავწერე და უნივერსიტეტის ერთ-ერთი ბიუროკრატიც კი დავარწმუნე, ბეჭდით დაემოწმებინა. მე გადავწყვიტე ბოლომდე გავყოლოდი არჩეულ გზას და გამომეყენებინა Zipf-ის იდეები ეკონომიკაში, რადგან არა მხოლოდ მეტყველება შეიძლება დაიყვანოს ძალაუფლების კანონმდე. ჩვენ ვართ მდიდრები თუ ღარიბები, აყვავებულები თუ მშიერი - ეს ყველაფერი ასევე მეჩვენებოდა ძალაუფლების კანონის ობიექტად.

მანდელბროტმა ოდნავ შეცვალა Zipf-ის ფორმულა:

F \u003d C * R -1 /ა, სად

ა - ლექსიკის სიმდიდრის დამახასიათებელი კოეფიციენტი; რაც უფრო დიდია a-ს მნიშვნელობა, მით უფრო მდიდარია ტექსტის ლექსიკა, რადგან თითოეული სიტყვის გაჩენის სიხშირის დამოკიდებულების მრუდი მის წოდებაზე უფრო ნელა იკლებს და, მაგალითად, იშვიათი სიტყვები უფრო ხშირად ჩნდება, ვიდრე მცირე მნიშვნელობებით. ა. სწორედ ამ ქონებას აპირებდა მანდელბროტის გამოყენება ერუდიციის შესაფასებლად.

Zipf-ის კანონით ყველაფერი ასე გლუვი არ არის და კონკრეტულ აპლიკაციებში ყოველთვის არ არის შესაძლებელი ექსპერიმენტულად განსაზღვრულ a კოეფიციენტზე დაყრდნობა. ამავდროულად, Zipf-ის კანონი სხვა არაფერია თუ არა პარეტოს კანონი „პირიქით“, ვინაიდან ორივე არის ძალაუფლების სერიების განსაკუთრებული შემთხვევები, ან ... ეკონომიკური და სოციალური სისტემების ფრაქტალური ბუნების გამოვლინება.

მე თვითონ ჩამოვაყალიბე ეკონომიკური სისტემების ფრაქტალური ბუნების არსი შემდეგნაირად. ერთის მხრივ, არის აზარტული თამაში: რულეტკა, კამათლის სროლა. მეორეს მხრივ, ტექნოლოგიური/ფიზიკური ავარია: ხორხზე დამზადებული ლილვის დიამეტრის ცვალებადობა, ზრდასრული ადამიანის სიმაღლის ცვალებადობა. ყველა ეს ფენომენი აღწერილია. ასე რომ, არის მთელი რიგი ფენომენები, რომლებიც არ ემორჩილება ამ განაწილებას: ქვეყნების და ინდივიდების სიმდიდრე, აქციების ფასების რყევები, გაცვლითი კურსი, სიტყვების გამოყენების სიხშირე, მიწისძვრების სიძლიერე... ასეთი ფენომენებისთვის დამახასიათებელია. არის ის, რომ საშუალო მნიშვნელობა ძალიან არის დამოკიდებული ნიმუშზე. მაგალითად, თუ აიღებთ სხვადასხვა სიმაღლის ას შემთხვევით ადამიანს, მაშინ მათ დედამიწაზე ყველაზე მაღალი ადამიანის დამატება დიდად არ შეცვლის ამ ჯგუფის საშუალო სიმაღლეს. თუ ასი შემთხვევითი ადამიანის საშუალო შემოსავალს გამოვთვლით, მაშინ პლანეტის უმდიდრესი ადამიანის - კარლოს სლიმ ელუს (და არა ბილ გეითსის, როგორც ბევრი ფიქრობს :)) დამატება, მნიშვნელოვნად გაზრდის ყველას საშუალო სიმდიდრეს, დაახლოებით 500 მილიონამდე. დოლარი!

ფრაქტალობის კიდევ ერთი გამოვლინებაა ნიმუშის მნიშვნელოვანი სტრატიფიკაცია. განვიხილოთ, მაგალითად,

დამეთანხმებით, წარმოდგენილი ნიმუში ჰგავს ორ წვეთ წყალს Zipf-ის მრუდის მსგავსი!

ფრაქტალობის ერთ-ერთი თვისებაა თვითგამეორება. ასე რომ, სიაში ჩამოთვლილი მსოფლიოს 192 ქვეყნიდან, მსოფლიო სიმდიდრის 80% კონცენტრირებულია მხოლოდ 18 ქვეყანაში - 9,4% (18/192). თუ ახლა მხოლოდ ამ 18 ქვეყანას განვიხილავთ, მაშინ მათი საერთო სიმდიდრე 46 ტრილიონია. დოლარი - თანაბრად არათანაბრად ნაწილდება. ამ 46 ტრილიონიდან 80%. კონცენტრირებულია ქვეყნების ნახევარზე ნაკლებზე და ა.შ.

შეიძლება იკითხოთ: რა არის ამ ყველაფრის პრაქტიკული დასკვნა? მე ვიტყოდი ამას:

სოციალური და ეკონომიკური სისტემები არ არის აღწერილი გაუსიანის მიერ. ეს შაბლონები ემორჩილება ძალაუფლების სერიებს [ფრაქტალური ბუნების სინონიმი].
საშუალოდან გამონაკლისები არსებითად უფრო სავარაუდოა, ვიდრე გაუსის ზარის მრუდით ნაწინასწარმეტყველები. უფრო მეტიც, outliers არის შინაგანი სისტემა; ისინი არ არიან შემთხვევითი, მაგრამ რეგულარული.
რისკების შეფასება შეუძლებელია იშვიათი არასასურველი მოვლენების ნორმალური ალბათობის განაწილების საფუძველზე.
… არ ვიტყუები, ჯერ ვერაფერს მოვიფიქრე… მაგრამ ეს არ ნიშნავს, რომ მეტი პრაქტიკული დასკვნები არ არსებობს… უბრალოდ, ჩემი ცოდნა ამით შემოიფარგლება…

... მაგრამ უნდა აღიაროთ, ლამაზი ნიმუშები!

ფრაქტალობისთვის იხილეთ ბენუა მანდელბროტი

უნდა აღინიშნოს, რომ სხვადასხვა წყაროდან მიღებული მონაცემები მნიშვნელოვნად განსხვავდება, მაგრამ ეს არ არის აქ განხილული თემის შესაბამისი.

ტექსტის ხარისხის შეფასების კრიტერიუმებს შორის უმთავრესად მისი ბუნებრიობა ითვლება. ამ ინდიკატორის გადამოწმება შესაძლებელია ამერიკელმა ლინგვისტმა ჯორჯ ზიპფის მიერ აღმოჩენილი მათემატიკური მეთოდით.

Zipf-ის კანონის ტესტი- ეს არის ტექსტის ბუნებრიობის შეფასების, სიტყვების განლაგების კანონზომიერების განსაზღვრის მეთოდი, სადაც სიტყვის სიხშირე უკუპროპორციულია ტექსტში მისი ადგილისა.

Zipf-ის პირველი კანონი "რანგი - სიხშირე"

C \u003d (სიტყვის გაჩენის სიხშირე x სიხშირის რანგი) / სიტყვების რაოდენობა.

თუ ავიღებთ სიტყვის თანაფარდობას სიხშირის რანგთან, მაშინ მნიშვნელობა (C) უცვლელი იქნება და ეს მართალია ნებისმიერი ენის დოკუმენტისთვის, თითოეულ ენათა ჯგუფში მნიშვნელობა იქნება მუდმივი.

სიტყვები, რომლებიც მნიშვნელოვანია დოკუმენტისთვის და განსაზღვრავს მის საგანს, ჰიპერბოლის შუაშია. ყველაზე ხშირად გამოყენებული სიტყვები, ისევე როგორც დაბალი სიხშირე, არ ატარებენ გადამწყვეტ სემანტიკურ მნიშვნელობას.

Zipf-ის მეორე კანონი "რაოდენობა - სიხშირე"

სიტყვის სიხშირე და მისი რიცხვი ტექსტში ასევე დაკავშირებულია ერთმანეთთან. თუ თქვენ შექმნით გრაფიკს, სადაც X არის სიტყვის სიხშირე, Y არის მოცემული სიხშირის სიტყვების რაოდენობა, მრუდის ფორმა უცვლელი იქნება.

კარგი ტექსტის დაწერის პრინციპი ვარაუდობს, რომ ის მაქსიმალურად გასაგები უნდა იყოს მინიმალური სიტყვების გამოყენებით.

კანონი გვიჩვენებს საერთო საკუთრებას ნებისმიერი ენისთვის, ვინაიდან ყოველთვის იქნება ყველაზე ხშირად გამოყენებული სიტყვების გარკვეული რაოდენობა.

აუცილებელია SEO ტექსტის ბუნებრიობის შემოწმება, თუ საკვანძო სიტყვები იყო გამოყენებული წერილობით, რათა ის იყოს საინტერესო და გასაგები მკითხველთა დიდი აუდიტორიისთვის. ასევე, ეს მაჩვენებელი მნიშვნელოვანია საძიებო სისტემების მიერ საიტების რეიტინგის დროს, რომლებიც განსაზღვრავენ ტექსტის შესაბამისობას საკვანძო მოთხოვნებთან, ანაწილებენ სიტყვებს მნიშვნელოვან, შემთხვევით და დამხმარე ჯგუფებად.

მეტი:

კავშირი ტექსტში f სიტყვის გაჩენის სიხშირესა და სიხშირის ლექსიკონში (რანგი) r მის ადგილს შორის უკუპროპორციულია. რაც უფრო მაღალია სიტყვის წოდება (რაც უფრო შორს არის ლექსიკონის დასაწყისიდან), მით უფრო დაბალია ტექსტში მისი გაჩენის სიხშირე.
ასეთი დამოკიდებულების გრაფიკი არის ჰიპერბოლა, რომელიც ძალიან მკვეთრად ეცემა დაბალ რიგებში და შემდეგ, სიხშირის მცირე მნიშვნელობების რეგიონში, f, გადაჭიმულია ძალიან შორს, თანდათან, მაგრამ ძალიან შეუმჩნევლად, მცირდება როგორც წოდება, r, იზრდება.
თუ ერთი სიტყვის გაჩენის სიხშირე არის 4 მილიონზე, ხოლო მეორის სიხშირე 3 მილიონზე, არ აქვს მნიშვნელობა ამ სიტყვების რიგები ათასჯერ განსხვავდება. ეს სიტყვები იმდენად იშვიათად გამოიყენება, რომ ბევრ მშობლიურ ენას არც კი გაუგია.
თუმცა, ეს შორეული რეგიონი იმითაა გამორჩეული, რომ აქ მდებარე სიტყვას ძალიან მარტივად შეუძლია მისი წოდების ღირებულება რამდენჯერმე შეამციროს. სიტყვის წარმოშობის სიხშირის უმცირესი მატებაც კი მკვეთრად ანაცვლებს მის პოზიციას სიხშირის ლექსიკონის დასაწყისში.
ამ კანონის მიხედვით, სიტყვის პოპულარობის საზომია მისი პოზიცია ენის სიხშირის ლექსიკონში. უფრო პოპულარული სიტყვა უფრო ახლოსაა ლექსიკონის ზედა ნაწილში, ვიდრე ნაკლებად პოპულარული.
იგი ასახავს ენაში სიტყვის გამოყენების სიხშირის დამოკიდებულებას სიხშირის ლექსიკონში მის ადგილს. უფრო ხშირად გამოიყენება ენის პოპულარული სიტყვები. მათემატიკური თვალსაზრისით, ამ დამოკიდებულების გრაფიკი არის ჰიპერბოლა მკვეთრი აწევით საწყისთან მიახლოებისას და გრძელი, ნაზი, თითქმის ჰორიზონტალური „კუდი“. ამ „კუდში“ განლაგებულია ენის სიტყვების უმეტესობა. აქ სიტყვის ადგილი სიხშირის ლექსიკონში, თუ ცვლის ამ სიტყვის გამოყენების სიხშირეს ენაში, სულაც არ არის.
მაგრამ როგორც კი სიხშირის ლექსიკონში სიტყვის პოზიცია მიაღწევს ჰიპერბოლის იმ ადგილს, სადაც, როგორც კი მივუახლოვდებით საწყისს, იწყება მრუდის მნიშვნელოვანი აწევა, სიტუაცია იცვლება. ახლა სიტყვის წარმოშობის სიხშირის მცირე ცვლილება აღარ იწვევს მის რანგში მნიშვნელოვან ცვლილებებს, ანუ სიხშირის ლექსიკონში სიტყვის პოზიცია წყვეტს ცვლილებას. ეს ნიშნავს, რომ სიტყვის პოპულარობის ზრდა შენელდა. იმისათვის, რომ ის გაგრძელდეს, განსაკუთრებული ზომები უნდა იქნას მიღებული სიტყვის გაჩენის სიხშირის გაზრდის მიზნით. მაგალითად, თუ სიტყვა არის პროდუქტის სახელი, თქვენ უნდა დახარჯოთ ფული სარეკლამო კომპანიაში (

გამარჯობა! ბოლო დროს უფრო და უფრო ხშირად მესმის კოლეგებისგან TOR-ში მოთხოვნის შესახებ ტექსტის ხარისხის შეფასება Zipf-ის კანონის მიხედვით. და ყველას არ ესმის, თუ როგორ უნდა შეცვალონ ტექსტი ამ კანონისთვის. დღევანდელ სტატიაში შევეცდები გითხრათ როგორ გავაუმჯობესოთ პარამეტრი უმარტივესად და ასევე განვმარტო რატომ არ სჭირდებათ კარგ ავტორებს ეს.

თქვენ შეგიძლიათ განსაზღვროთ ტექსტის ხარისხი Zipf-ის კანონის მიხედვით რამდენიმე სერვისის გამოყენებით. მაგრამ, ვფიქრობ, PR-CY ყველაზე ადეკვატურია, ის აერთიანებს სწორ ფორმულას მარტივ და გასაგებ ინტერფეისთან. სწორედ ეს გამოვიყენე ამ მასალის მომზადებისას.

რა არის Zipf-ის კანონი

დასაწყისისთვის, ღირს იმის გაგება, თუ რა არის ეს. ვიკიპედიის მიხედვით, ჟან-ბატისტ ესტუმ ჩამოაყალიბა ეს ნიმუში 1908 წელს, ეს კანონი თავდაპირველად სტენოგრამას მოიხსენიებდა. ფართო საზოგადოებისთვის ცნობილი კანონზომიერების პირველი გამოყენება ეხება დემოგრაფიას, უფრო სწორედ ქალაქებში მოსახლეობის განაწილებას, გამოიყენა ფელიქს აუერბახმა.

ნიმუშმა თანამედროვე სახელი მიიღო 1949 წელს ენათმეცნიერის ჯორჯ ზიპფის წყალობით. მან მისი დახმარებით აჩვენა მოსახლეობის შორის სიმდიდრის განაწილების გრადაცია. და მხოლოდ ამის შემდეგ დაიწყო კანონის გამოყენება ტექსტების წაკითხვის დასადგენად.

როგორ გამოითვლება

ამ კანონის სწორად გამოსაყენებლად, თქვენ უნდა გესმოდეთ, როგორ მუშაობს იგი. მოდით გავაანალიზოთ გაანგარიშების ფორმულა.

F არის სიტყვის გამოყენების სიხშირე;
R არის სერიული ნომერი;
C არის მუდმივი მნიშვნელობა (რიცხვი, რომელიც მიუთითებს ყველაზე დიდ სიტყვას გამეორებების რაოდენობის მიხედვით).

პრაქტიკაში, კიდევ ერთი ფორმულა უფრო მოსახერხებელია, ის უფრო ნათლად გამოიყურება.

ეს მიდგომა უფრო მოსახერხებელია, რადგან ჩვენ გვაქვს მონაცემები ყველაზე გავრცელებული სიტყვის გამეორებების რაოდენობის შესახებ. სწორედ ამ რაოდენობით ხდება მათი მოგერიება.

გამარტივებისთვის, ჩვენს ტექსტში მეორე ყველაზე ხშირი სიტყვა პირველზე ორჯერ იშვიათი უნდა იყოს. მესამე ადგილზე მოხვედრა, სამჯერ და ასე შემდეგ.

ტექსტის შესაბამისი მაგალითი

თეორია ცოტა განიხილება. რჩება პრაქტიკასთან გამკლავება. როგორც ექსპერიმენტული ტექსტი ავიღე სტატია თ-ჟ. რატომ იქიდან? ყველაფერი მარტივია. ამ დროისთვის, ეს არის ინფორმაციის სტილის ერთ-ერთი საუკეთესო მაგალითი, რომელიც ბევრს უყვარს. ისე, საინტერესო იყო, რას აჩვენებდა მაქსიმ ილიახოვის ხელმძღვანელობით დაწერილი ტექსტი. მაშინვე ვიტყვი, რომ ამ ინდიკატორის ტექსტები დონეზეა, თუმცა, 40-ზე მეტი საიტის ჩაძირვის შემდეგ, საერთოდ ვერ ვიპოვე ცუდი ბუნებრიობის არც ერთი სტატია. გარდა ამისა, მე მაშინვე წინ გადავხტები და ვიტყვი, რომ ექსპერიმენტული ტექსტი მორგების შემდეგ ბევრად გაუარესდა, მიუხედავად Zipf-ის გაუმჯობესებული ქულისა, ძალიან არ უნდა შეგაწუხოთ ბუნებრიობის გადაჭარბებული მატება.

ეს გვაჩვენა ანალიზატორმა შემოწმების შემდეგ.

მოდით შევხედოთ რა არის იქ. როგორც ხედავთ, არის სვეტი სიტყვებით, ასევე გაუგებარი რიცხვებით. სვეტი "შემთხვევა" (1) მიუთითებს რამდენჯერ გვხვდება ტექსტში სიტყვის ფორმები. Zipf სვეტში (2) არის ჩანაწერების რეკომენდებული რაოდენობა. მარკერები 3 და 4 აღნიშნავენ იდეალურ მაჩვენებლებს მეორე და მესამე პოზიციებისთვის. ასევე ყურადღება უნდა მიაქციოთ რეკომენდაციებს, ეს მიუთითებს რამდენი სიტყვის ამოღება გჭირდებათ სრულყოფილი კომბინაციის მისაღწევად.

უკეთ რომ გავიგოთ, გავაანალიზოთ რა დათვალა ანალიზატორი. ჩვენ საფუძვლად ვიღებთ რიცხვს 39 (C), ასევე გვჭირდება სერიული ნომერი, ყურადღება მიაქციეთ 2 (F) პოზიციას. ჩვენ ვიღებთ ფორმულას.

შემცვლელი.

F=39/2=19.5

ვამრგვალებთ და ვიღებთ 20-ს, ეს იქნება შემთხვევების საჭირო რაოდენობა. ამას ადასტურებს ანალიზატორი. ჩვენს ქვეყანაში მეორე ყველაზე პოპულარული სიტყვა გამოიყენება 28-ჯერ, შესაბამისად, 8 გამეორება საჭირო იქნება ამოღება ან ჩანაცვლება.

კანონის პრინციპს რომ შევეხებით, ვიწყებთ რედაქტირებას. ამისათვის ჩვენ წავშლით ან სინონიმებით ვცვლით სიტყვებს, რომლებსაც უფრო მეტი შემთხვევა აქვთ, ვიდრე მოითხოვს Zipf-ს. შედეგად, ჩვენ ვიღებთ ამ სურათს.

როგორც ხედავთ, მე მოვახერხე მაჩვენებლის გაზრდა 83%-დან 88%-მდე. თუმცა, ტექსტის ხარისხი მნიშვნელოვნად დაზარალდა. თქვენ არ უნდა ცდილობთ ამ მაჩვენებლის 100%-მდე გაზრდას. სინამდვილეში, თუ უკვე გაქვთ 75%, ეს შესანიშნავია და არ უნდა გარყვნილიყოთ.

სასარგებლო რჩევა

ყურადღება მიაქციეთ არა მხოლოდ პირველ ხაზებს. დაიწყეთ სიის ბოლო პოზიციებიდან მორგება, ისინი ხშირად უფრო დიდ გავლენას ახდენენ საერთო ქულაზე, ვიდრე პირველი ათი სიტყვა.

Zipf და SEO

ახლა მოდით გადავიდეთ იმაზე, თუ რატომ უნდა იცოდეს კოპირაიტერმა ეს ნიმუში. ტექსტების შეკვეთისას, SEO-ები ცდილობენ გახადონ ისინი ყველაზე მოსახერხებელი საძიებო სისტემებისთვის. ითვლება (თუმცა უცნობია ვის მიერ), რომ Zipf-ის კანონი აქტიურად გამოიყენება საძიებო ალგორითმების მიერ. ამ განცხადების დამტკიცება ან უარყოფა რთულია. მე ვერ ვიპოვე რაიმე საღი კვლევა და ექსპერიმენტი ამ თემაზე.

გადავწყვიტე მე თვითონ გადამემოწმებინა. ამისათვის მე ავიღე საკითხი ასეთი კონკურენტული მოთხოვნისთვის "პლასტმასის ფანჯრები", Yandex-მა აიღო მოსკოვის საკითხი, მომიწია ჩაფიქრება Google-ში და მან ასევე, როგორც ჩანს, გამიჩინა ჩემი დედაქალაქის მკვიდრი (ყოველ შემთხვევაში, მან მაჩვენა რეკლამა მოსკოვის გეოლოკაციით). ნომრის პირველი გვერდი ავიღე, პლუს 49-ე ადგილი. ასე აღმოჩნდა ნიშანი.

თუ უფრო კარგად დააკვირდებით, ხედავთ, რომ Yandex-ში გამომავალი უფრო თანაბარია, თუ გადავხედავთ იმ ნიმუშს, რომელსაც ჩვენ ვსწავლობთ. მაგრამ, ამავდროულად, უფრო მაღალი მაჩვენებელი არ იძლევა გამარჯვების გარანტიას ზევით პირველი ადგილისთვის ბრძოლაში.

ამის საფუძველზე შეიძლება ითქვას, რომ თუ საძიებო სისტემები ამ კანონს მიმართავენ, ეს მხოლოდ ერთ-ერთი ფაქტორია. და არა მთავარი.

დასკვნები

Ის არის. ახლა თქვენ იცით, რა არის ტექსტის ხარისხი Zipf-ის კანონის მიხედვით და ასევე შეგიძლიათ დაარეგულიროთ ეს მაჩვენებელი. სინამდვილეში, აქ არაფერია რთული, ყველაფერი საკმაოდ მარტივია. საკმარისია ერთხელ გავიგოთ ამ კანონზომიერების მოქმედების პრინციპი.

SEO-ს სამყარო მუდმივად ვითარდება და ოპტიმიზაცია არ დგას. არსებობს ტექსტების წერის ახალი მეთოდები, მათი მომზადება უკეთესი ინდექსირებისთვის. ერთ-ერთი პარამეტრი, რომელსაც ოპტიმიზატორებმა დიდი ყურადღება მიაქციეს, არის ტექსტის ბუნებრიობა Zipf-ის კანონის მიხედვით. რა არის Zipf-ის კანონი და მისი როლი SEO-ს პოპულარიზაციაში?

ფორმულირების მიხედვით, Zipf-ის კანონი არის ემპირიულად ჩამოყალიბებული კანონზომიერება ტექსტში სიტყვების სიხშირის მდებარეობაში. კანონის მიხედვით, ტექსტში სიტყვის სიხშირე თითქმის უკუპროპორციულია სიაში მისი ადგილისა. ანუ, თუ კანონიდან დავიწყებთ, ტექსტში მეორე ყველაზე ხშირად ნახსენები სიტყვა პირველზე ორჯერ ნაკლები უნდა იყოს გამოყენებული, ხოლო მესამე - სამჯერ ნაკლებად და ა.შ.

ამ ნიმუშის გასაადვილებლად, ყურადღება უნდა მიაქციოთ ასოების განლაგებას კომპიუტერის კლავიატურაზე. ეს არ არის შემთხვევითი: ნებისმიერი ენის ყველაზე ხშირად გამოყენებული ასოები უფრო მოსახერხებელია, ვიდრე ნაკლებად ხშირად გამოყენებული. სიტყვებთან სიტუაცია იდენტურია: არის ხშირად გამოყენებული სიტყვები და იშვიათად გამოყენებული, უფრო მნიშვნელოვანი სიტყვები, რომლებიც განსაზღვრავენ ტექსტის საგანს.

სიტყვების მნიშვნელობის მიხედვით გამოყოფა ასევე გამოიყენება საძიებო სისტემის ალგორითმებში საიტების რეიტინგის დროს. ამის გათვალისწინებით, სიტყვების განსხვავება მნიშვნელობისა და გამოყენების სიხშირის მხრივ ხელს უწყობს სიტყვების 3 ჯგუფად დაყოფას SEO ტექსტების წერისას:

Დამხმარე. ამ ჯგუფში შედის სიტყვები, რომლებიც არ ატარებენ დამოუკიდებელ სემანტიკური დატვირთვას, როგორიცაა კავშირები, წინადადებები, ნაცვალსახელები, ნაწილაკები. ყველა დამხმარე სიტყვა საძიებო სისტემების მიერ აღიქმება, როგორც ინფორმაციული ხმაური და იგნორირებულია რანჟირებისას.
Მნიშვნელოვანი. ასეთი სიტყვები ტექსტებში ნაკლებად გვხვდება და მნიშვნელოვან სემანტიკურ დატვირთვას ატარებს. საძიებო სისტემები ამ ჯგუფის სიტყვებს საკვანძო სიტყვებად აღიქვამენ.
შემთხვევითი. ამ ჯგუფის სიტყვები იშვიათად გამოიყენება კონკრეტული თემის ტექსტებისთვის და პრაქტიკულად არ მოქმედებს ძიების რეიტინგზე.

SEO სპეციალისტების თქმით, ამერიკელმა ლინგვისტმა ჯორჯ ზიპფმა განსაზღვრა კანონები, რომელთა გამოყენება საძიებო სისტემებმა დაიწყეს ტექსტების ბუნებრიობისა და უნიკალურობის დასადგენად გამოყენებული სიტყვების სიხშირით.

SEO-ებს ხშირად ექმნებათ პრობლემები ტექსტის პოპულარიზაციასთან დაკავშირებით, როდესაც უნიკალურობისა და შესაბამისობის ქულები მაღალია. ანუ, ტექსტი შეიძლება იყოს 100%-ით უნიკალური, ოპტიმიზირებული იყოს საკვანძო მოთხოვნისთვის მაღალი რელევანტურით, და ამავე დროს არ მიაღწიოს მწვერვალს ან, უარესი, დარჩეს პოზიციის ანალიზის პროგრამების ხედვის მიღმა.

ადვილი არ არის იმის დადგენა, თუ რამდენად მოქმედებს Zipf-ის კანონი ინდივიდუალურად ძიების შედეგებზე. სავარაუდოდ, საძიებო სისტემები ითვალისწინებენ მრავალი ფაქტორის ერთობლიობას, რომელთა შორის არის ბუნებრიობის შემოწმება Zipf-ის მიხედვით. დღეს კონტენტი ერთ-ერთ მნიშვნელოვან როლს ასრულებს ძიების პოპულარიზაციაში, ამიტომ SEO ტექსტების შექმნისას რეკომენდებულია უნიკალურობისა და ბუნებრიობის ინდიკატორების ფრთხილად მონიტორინგი. არსებობს მრავალი სერვისი ტექსტების შესამოწმებლად. მოდით ვიცხოვროთ ორ ყველაზე პოპულარულ და დადასტურებულ საიტზე - 1y.ru და pr-cy.ru.

სერვისი 1y.ru

საიტი საშუალებას გაძლევთ შეამოწმოთ ცალკეული ვებ გვერდების, მთლიანი საიტების ან ტექსტების შინაარსის ბუნებრიობა 100-დან 5000 სიტყვამდე. ანონიმური მომხმარებლების ლიმიტი საშუალებას იძლევა დღეში 2000-მდე ტექსტის შემოწმება. საიტის მინუსი არის ის, რომ შეუძლებელია ვებ გვერდის შემოწმება შედეგების დამახინჯების გარეშე, რადგან სერვისი სკანირებს ყველა ნაპოვნი ტექსტურ ინფორმაციას, მათ შორის რუბრიკატორს, ვიჯეტებს, მენიუებს და სხვა სახის დამხმარე ტექსტს.

ტექსტის შემოწმების შემდეგ, 1y.ru გთავაზობთ შინაარსის სტატისტიკას განმეორებითი სიტყვების შემცირების რეკომენდაციებით და გთავაზობთ გრაფიკს სამი მრუდით: შემოწმებული ტექსტის მნიშვნელობების მრუდი, რეკომენდებული მნიშვნელობების მრუდი და იდეალური მნიშვნელობების მრუდი. .

სერვისი pr-cy.ru

ეს რესურსი ასევე იძლევა შესაძლებლობას შევაფასოთ ტექსტებისა და ვებ გვერდების ბუნებრიობა. სერვისი ფილტრავს გაჩერების სიტყვებს, ითვლის ტექსტის გულისრევის პროცენტს და ასევე იძლევა რეკომენდაციებს ზიპფის კანონის მიხედვით შემთხვევების რაოდენობის შემცირების ან გაზრდის შესახებ.

დასკვნა

შედეგების განსხვავება სხვადასხვა სერვისში ერთი ტექსტის შემოწმებისას შეიძლება მნიშვნელოვანი იყოს. ასე რომ, ტექსტის პირველ სამ აბზაცში, რომელსაც კითხულობთ, აჩვენა 59% 1y.ru-სთვის და 88% pr-cy.ru-სთვის. არსებობს მხოლოდ ერთი დასკვნა: ტექსტების წერისას დიდი ყურადღება არ უნდა მიაქციოთ სტატიის სხეულში ძირითადი ჩანაწერების შეყვანას. თქვენ უნდა დაწეროთ საინტერესო და ხელმისაწვდომი გზით და თუ მაინც გჭირდებათ ტექსტში საკვანძო სიტყვების ჩასმა, მაშინ ტექსტი უნდა შეამოწმოთ Zipf მეთოდით.

ბუნებრივი ენის სიტყვები: თუ ენის ყველა სიტყვა (ან უბრალოდ საკმარისად გრძელი ტექსტი) დალაგებულია მათი გამოყენების სიხშირის კლებადობით, მაშინ სიხშირე ნ-ასეთ ჩამონათვალში მე-1 სიტყვა დაახლოებით უკუპროპორციული იქნება მისი რიგითი რიცხვისა ნ(ე. წ წოდებაამ სიტყვის იხილეთ წესრიგის მასშტაბი). მაგალითად, მეორე ყველაზე ხშირად გამოყენებული სიტყვა დაახლოებით ორჯერ ნაკლებია პირველზე, მესამე სამჯერ ნაკლებია პირველზე და ა.შ.

შექმნის ისტორია[ | ]

ნიმუშის აღმოჩენის ავტორი არის ფრანგი სტენოგრაფი (ფრ. ჟან-ბატისტ ესტუპი), რომელმაც აღწერა იგი 1908 წელს სლოგანდის დიაპაზონში. კანონი პირველად გამოიყენა ქალაქების ზომების განაწილების აღსაწერად გერმანელმა ფიზიკოსმა ფელიქს აუერბახმა თავის ნაშრომში "მოსახლეობის კონცენტრაციის კანონი" 1913 წელს და ეწოდა ამერიკელი ენათმეცნიერის ჯორჯ ზიპფის პატივსაცემად, რომელმაც 1949 წელს აქტიურად გაავრცელა ეს ნიმუში და პირველად შესთავაზა. გამოიყენოს ის ეკონომიკური ძალების განაწილებისა და სოციალური სტატუსის აღსაწერად.

Zipf-ის კანონის ახსნა, რომელიც დაფუძნებულია დანამატის მარკოვის ჯაჭვების კორელაციულ თვისებებზე (საფეხურიანი მეხსიერების ფუნქციით) იყო მოცემული 2005 წელს.

Zipf-ის კანონი მათემატიკურად არის აღწერილი პარეტოს განაწილებით. ეს არის ერთ-ერთი ძირითადი კანონი, რომელიც გამოიყენება ინფომეტრიკაში.

კანონის გამოყენება[ | ]

ჯორჯ ზიპფმა 1949 წელს პირველად აჩვენა ხალხის შემოსავლების განაწილება მათი ზომის მიხედვით: უმდიდრეს ადამიანს აქვს ორჯერ მეტი ფული, ვიდრე მომდევნო უმდიდრესი და ა.შ. ეს განცხადება მართალი აღმოჩნდა რიგ ქვეყნებში (ინგლისი, საფრანგეთი, დანია, ჰოლანდია, ფინეთი, გერმანია, აშშ) 1926 წლიდან 1936 წლამდე პერიოდში.

ეს კანონი მუშაობს საქალაქო სისტემის განაწილებასთან დაკავშირებითაც: ნებისმიერ ქვეყანაში ყველაზე მეტი მოსახლეობით ქალაქი ორჯერ აღემატება მომდევნო დიდ ქალაქს და ა.შ. თუ სიაში აწყობთ გარკვეული ქვეყნის ყველა ქალაქს მოსახლეობის კლებადობით, მაშინ თითოეულ ქალაქს შეიძლება მიენიჭოს გარკვეული წოდება, ანუ რიცხვი, რომელსაც იგი იღებს ამ სიაში. ამავდროულად, მოსახლეობის ზომა და წოდება ემორჩილება მარტივ შაბლონს, რომელიც გამოხატულია ფორმულით:

P n = P 1 / n (\displaystyle P_(n)=P_(1)/n),

სადაც P n (\displaystyle P_(n))- ქალაქის მოსახლეობა ნ-მე წოდება; P 1 (\displaystyle P_(1))- ქვეყნის მთავარი ქალაქის მოსახლეობა (1 რანგი).

ემპირიული კვლევები მხარს უჭერს ამ მტკიცებას.

1999 წელს ეკონომისტმა ქსავიერ გაბეტმა აღწერა Zipf-ის კანონი, როგორც ძალაუფლების კანონის მაგალითი: თუ ქალაქები შემთხვევით იზრდებიან იგივე სტანდარტული გადახრით, მაშინ ლიმიტზე განაწილება გადაიყრება Zipf-ის კანონს.

მკვლევარების დასკვნებით რუსეთის ფედერაციაში ურბანული დასახლებების შესახებ, Zipf-ის კანონის შესაბამისად:

რუსეთის ქალაქების უმეტესობა იდეალური Zipf მრუდის ზემოთ მდებარეობს, ამიტომ მოსალოდნელი ტენდენციაა საშუალო და პატარა ქალაქების რაოდენობისა და მოსახლეობის მუდმივი კლება დიდ ქალაქებში მიგრაციის გამო;
შესაბამისად, 7 მილიონზე მეტ ქალაქს (სანქტ-პეტერბურგი, ნოვოსიბირსკი, ეკატერინბურგი, ნიჟნი ნოვგოროდი, ყაზანი, ჩელიაბინსკი, ომსკი), რომლებიც იდეალური Zipf მრუდის ქვემოთ არიან, აქვთ მოსახლეობის ზრდის მნიშვნელოვანი რეზერვი და ელიან მოსახლეობის ზრდას;
არსებობს რანგის პირველი ქალაქის (მოსკოვის) დეპოპულაციის რისკი, რადგან მეორე ქალაქი (სანქტ-პეტერბურგი) და შემდგომი დიდი ქალაქები ბევრად ჩამორჩებიან Zipf-ის იდეალურ მრუდს შრომაზე მოთხოვნის შემცირების გამო შრომაზე მოთხოვნის შემცირების გამო. ცხოვრების ღირებულება, მათ შორის, უპირველეს ყოვლისა, საცხოვრებლის შეძენისა და გაქირავების ღირებულება.

კრიტიკა [ | ]

ამერიკელი ბიოინფორმატიკოსი შესთავაზა Zipf-ის კანონის სტატისტიკური ახსნა, რომელიც ადასტურებს, რომ სიმბოლოების შემთხვევითი თანმიმდევრობა ასევე ემორჩილება ამ კანონს. ავტორი ასკვნის, რომ Zipf-ის კანონი, როგორც ჩანს, არის წმინდა სტატისტიკური ფენომენი, რომელსაც არაფერი აქვს საერთო ტექსტის სემანტიკასთან და აქვს ზედაპირული კავშირი ლინგვისტიკასთან.

პორტალი სტუდენტისთვის. თვითმმართველობის მომზადება