ជំនួយកុំព្យូទ័រ។ ច្បាប់របស់ Zipf និងលក្ខណៈប្រភាគនៃបាតុភូតសង្គម និងសេដ្ឋកិច្ច

ជាលើកដំបូងដែលខ្ញុំបានជួបការពិពណ៌នាអំពីច្បាប់របស់ Zipf ពេលកំពុងអាន។ ខ្លឹមសារនៃច្បាប់៖ ប្រសិនបើពាក្យនៃអត្ថបទណាមួយត្រូវបានចាត់ថ្នាក់ដោយភាពញឹកញាប់នៃការប្រើប្រាស់ នោះផលិតផលនៃចំណាត់ថ្នាក់ដោយប្រេកង់គឺជាតម្លៃថេរ៖

F*R=Cដែលជាកន្លែងដែល៖

F គឺជាភាពញឹកញាប់នៃការកើតឡើងនៃពាក្យនៅក្នុងអត្ថបទ;

R - ចំណាត់ថ្នាក់ពាក្យ (ពាក្យដែលប្រើញឹកញាប់បំផុតទទួលបានចំណាត់ថ្នាក់លេខ 1 បន្ទាប់ - 2 ។ល។);

C គឺជាថេរ។

សម្រាប់អ្នកដែលនៅតែចងចាំពិជគណិតតិចតួច :) នៅក្នុងរូបមន្តខាងលើ វាងាយស្រួលក្នុងការទទួលស្គាល់សមីការនៃអ៊ីពែបូឡា។ Zipf បានកំណត់ដោយពិសោធន៍ថា C ≈ 0.1 ។ ដូច្នេះ តំណាងក្រាហ្វិកនៃច្បាប់ Zipf គឺប្រហែលដូចខាងក្រោម៖

អង្ករ។ 1. Hyperbola នៃច្បាប់ Zipf ។

ទាញយកចំណាំក្នុងទម្រង់ ជាឧទាហរណ៍ក្នុងទម្រង់

អ៊ីពែបូឡាសមានទ្រព្យសម្បត្តិគួរឱ្យកត់សម្គាល់។ ប្រសិនបើយើងយកមាត្រដ្ឋានលោការីតសម្រាប់អ័ក្សទាំងពីរ នោះអ៊ីពែបូឡានឹងមើលទៅដូចជាបន្ទាត់ត្រង់៖

អង្ករ។ 2. អ៊ីពែរបូលដូចគ្នា ប៉ុន្តែនៅលើក្រាហ្វដែលមានមាត្រដ្ឋានលោការីត

សំណួរអាចកើតឡើង: តើការបង្កើនប្រសិទ្ធភាពម៉ាស៊ីនស្វែងរកទាក់ទងនឹងវា? ដូច្នេះវាប្រែថាអត្ថបទដែលបានបង្កើតជាពិសេសដែលមានចំនួនពាក្យគន្លឹះកើនឡើងមិនសមនឹងច្បាប់ទេ។ ម៉ាស៊ីនស្វែងរក (Google, Yandex) ពិនិត្យអត្ថបទសម្រាប់ "ធម្មជាតិ" ពោលគឺការអនុលោមតាមច្បាប់របស់ Zipf និងបន្ថយចំណាត់ថ្នាក់នៃគេហទំព័រដែលមានអត្ថបទ "គួរឱ្យសង្ស័យ" ឬសូម្បីតែហាមឃាត់គេហទំព័របែបនេះ។

លើកទីពីរដែលខ្ញុំបានជួបច្បាប់ Zipf គឺជាមួយ Benoit Mandelbrot នៅក្នុងសៀវភៅរបស់គាត់។ ហើយខ្ញុំចូលចិត្តផ្នែកតូចនេះខ្លាំងណាស់ដែលអនុញ្ញាតឱ្យខ្ញុំដកស្រង់វាពេញ។

ច្បាប់អំណាចដែលមិនបានរំពឹងទុក

នៅឆ្នាំ 1950 ខ្ញុំជានិស្សិតគណិតវិទ្យាវ័យក្មេងនៅសាកលវិទ្យាល័យប៉ារីសកំពុងស្វែងរកប្រធានបទសម្រាប់និក្ខេបបទរបស់ខ្ញុំ។ ពូរបស់ខ្ញុំ Zolem គឺជាឧទាហរណ៍សៀវភៅសិក្សាក្នុងស្រុករបស់សាស្រ្តាចារ្យគណិតវិទ្យា៖ ជាអ្នកទ្រឹស្ដីជ្រៅ អភិរក្សនិយម ហើយទោះបីជាកើតនៅប្រទេសប៉ូឡូញ ដែលជាសសរស្តម្ភនៃសហគមន៍វិទ្យាសាស្ត្របារាំងក៏ដោយ។ រួចហើយនៅអាយុ 31 ឆ្នាំគាត់ត្រូវបានជ្រើសរើសជាសាស្រ្តាចារ្យពេញម៉ោងនៅមហាវិទ្យាល័យបារាំងដ៏ល្បីល្បាញ។

នោះគឺជាសម័យរបស់ Nicolas Bourbaki ។ នៅពីក្រោយឈ្មោះក្លែងក្លាយសមូហភាពនេះត្រូវបានលាក់ "ក្លឹប" គណិតវិទ្យាដែលដូចជា ដាដា នៅក្នុងសិល្បៈ ឬអត្ថិភាពនិយមក្នុងអក្សរសិល្ប៍បានរីករាលដាលពីប្រទេសបារាំង ហើយបានក្លាយជាពេលវេលាដ៏មានឥទ្ធិពលបំផុតនៅលើឆាកពិភពលោក។ អរូបី និងគណិតវិទ្យាសុទ្ធ, គណិតសម្រាប់ជាប្រយោជន៍នៃគណិតវិទ្យា, ត្រូវបានលើកឡើងដល់ថ្នាក់នៃធម៌មួយ; សមាជិកនៃ "ក្លឹប" បានមើលងាយការអនុវត្តជាក់ស្តែង គណិតវិទ្យាអនុវត្ត និងសូម្បីតែគណិតវិទ្យាជាឧបករណ៍នៃវិទ្យាសាស្ត្រ។ វិធីសាស្រ្តនេះគឺជា dogma សម្រាប់គណិតវិទូបារាំង ហើយសម្រាប់ខ្ញុំ ប្រហែលជាហេតុផលដែលត្រូវចាកចេញពីប្រទេសបារាំង ហើយទៅធ្វើការនៅ IBM ។ ខ្ញុំជាអ្នកបះបោរវ័យក្មេងដោយក្តីព្រួយបារម្ភរបស់ពូខ្ញុំ។ ពេលកំពុងធ្វើការលើវិញ្ញាបនបត្រថ្នាក់បណ្ឌិតរបស់ខ្ញុំ ខ្ញុំបានចូលការិយាល័យរបស់គាត់ជាញឹកញាប់នៅពេលចុងបញ្ចប់នៃថ្ងៃដើម្បីជជែក ហើយជារឿយៗការសន្ទនាទាំងនេះប្រែទៅជាការពិភាក្សា។ មានពេលមួយ ដោយព្យាយាមបំភ្លឺការជិះរថភ្លើងក្រោមដីដ៏យូរ និងគួរឱ្យធុញនឹងមកដល់ផ្ទះ ខ្ញុំបានសុំឱ្យគាត់អានអ្វីមួយនៅតាមផ្លូវ។ គាត់បានចូលទៅក្នុងធុងសំរាម ហើយទាញក្រដាសជាច្រើនសន្លឹក

ពូរបស់ខ្ញុំបានរអ៊ូរទាំថា "នៅទីនេះ យកវាទៅ" ។ “ អត្ថបទឆ្កួតបំផុតដែលអ្នកស្រឡាញ់។

វាជាការពិនិត្យឡើងវិញនៃសៀវភៅមួយដោយសង្គមវិទូ George Kingsley Zipf ។ Zipf ជាបុរសសម្បូរលុយមិនគិតអំពីនំបុ័ងប្រចាំថ្ងៃរបស់គាត់បានបង្រៀននៅសកលវិទ្យាល័យ Harvard អំពីវិន័យដែលគាត់បានបង្កើតឡើង ដែលគាត់ហៅថាស្ថិតិអេកូឡូស៊ីមនុស្ស។ នៅក្នុងសៀវភៅរបស់គាត់ Human Behavior and the Principle of Least Effort ច្បាប់អំណាចត្រូវបានគេមើលឃើញថាជារចនាសម្ព័ន្ធទូទៅនៃវិទ្យាសាស្ត្រសង្គម។ នៅក្នុងបន្ទះឈីប ច្បាប់ថាមពលគឺជារឿងធម្មតា ហើយដើរតួជាទម្រង់នៃអ្វីដែលខ្ញុំហៅថា Fractal Self-repetition នៅលើមាត្រដ្ឋាន។ អ្នកជំនាញរញ្ជួយដីមានរូបមន្តគណិតវិទ្យាសម្រាប់ការពឹងផ្អែកនៃច្បាប់ថាមពលនៃចំនួននៃការរញ្ជួយដីលើកម្លាំងរបស់ពួកគេយោងទៅតាមមាត្រដ្ឋាន Richter ដ៏ល្បីល្បាញ។ ឬនិយាយម្យ៉ាងទៀត៖ ការរញ្ជួយដីខ្សោយគឺជារឿងធម្មតា ខណៈពេលដែលខ្លាំងគឺកម្រ ហើយភាពញឹកញាប់ និងកម្លាំងនៃការរញ្ជួយគឺទាក់ទងគ្នាដោយរូបមន្តជាក់លាក់មួយ។ នៅពេលនោះមានគំរូបែបនេះតិចតួច ហើយគេស្គាល់មនុស្សតែពីរបីនាក់ប៉ុណ្ណោះ។ Zipf, សព្វវចនាធិប្បាយ, ត្រូវបានឈ្លក់វង្វេងជាមួយនឹងគំនិតដែលថាច្បាប់អំណាចមិនត្រូវបានកំណត់ចំពោះវិទ្យាសាស្រ្តរូបវន្ត; ពួកគេត្រូវទទួលរងនូវការបង្ហាញទាំងអស់នៃអាកប្បកិរិយា អង្គការ និងកាយវិភាគសាស្ត្ររបស់មនុស្ស - សូម្បីតែទំហំនៃប្រដាប់បន្តពូជក៏ដោយ។

ជាសំណាងល្អ ការពិនិត្យឡើងវិញនៃសៀវភៅដែលពូរបស់ខ្ញុំបានផ្តល់ឱ្យខ្ញុំកំណត់ដោយខ្លួនវាផ្ទាល់ទៅនឹងឧទាហរណ៍ដ៏ឆើតឆាយមិនធម្មតាមួយគឺភាពញឹកញាប់នៃពាក្យ។ នៅក្នុងអត្ថបទ ឬសុន្ទរកថា ពាក្យមួយចំនួនដូចជាភាសាអង់គ្លេស the (អត្ថបទច្បាស់លាស់) ឬនេះ ("វា") កើតឡើងជាញឹកញាប់។ អ្នកផ្សេងទៀត milreis ឬ momus ហាក់ដូចជាកម្រ ឬមិនដែលទាល់តែសោះ (សម្រាប់ការចង់ដឹងចង់ឃើញបំផុត៖ ទីមួយមានន័យថាកាក់ព័រទុយហ្គាល់បុរាណ ទីពីរគឺមានន័យដូចពាក្យ "រិះគន់")។ Zipf បានស្នើរលំហាត់ខាងក្រោម៖ យកអត្ថបទណាមួយ ហើយរាប់ចំនួនដងដែលពាក្យនីមួយៗលេចឡើងក្នុងនោះ។ បន្ទាប់មកកំណត់ចំណាត់ថ្នាក់ទៅពាក្យនីមួយៗ៖ 1 - សម្រាប់ពាក្យដែលប្រើញឹកញាប់បំផុត 2 - សម្រាប់អ្នកដែលកាន់កាប់កន្លែងទីពីរទាក់ទងនឹងភាពញឹកញាប់នៃការកើតឡើង។ល។ ជាចុងក្រោយ បង្កើតក្រាហ្វដែលសម្រាប់ចំណាត់ថ្នាក់នីមួយៗ បង្ហាញពីចំនួននៃការកើតឡើងនៃពាក្យនេះ។ យើងនឹងទទួលបានគំនូរដ៏អស្ចារ្យ។ ខ្សែកោងមិនថយចុះស្មើគ្នាពីពាក្យធម្មតាបំផុតនៅក្នុងអត្ថបទដែលបានផ្តល់ឱ្យទៅកម្របំផុត។ ដំបូងវាធ្លាក់ដោយល្បឿនវិលមុខ បន្ទាប់មកវាចាប់ផ្តើមថយចុះបន្តិចម្តងៗ ដោយធ្វើឡើងវិញនូវគន្លងរបស់អ្នកជិះស្គីដែលបានលោតពីលើក្តារស្គី ហើយបន្ទាប់មកបានចុះចត និងចុះតាមជម្រាលភ្នំដែលគ្របដណ្តប់ដោយព្រិល។ ឧទាហរណ៍នៃមាត្រដ្ឋានមិនឯកសណ្ឋានបុរាណ។ Zipf ដោយបានកែសម្រួលខ្សែកោងឱ្យសមនឹងដ្យាក្រាមរបស់គាត់ បានបង្កើតរូបមន្តសម្រាប់វា។

ខ្ញុំស្រឡាំងកាំង។ នៅចុងបញ្ចប់នៃការជិះរថភ្លើងក្រោមដីដ៏វែងរបស់ខ្ញុំ ខ្ញុំមានប្រធានបទសម្រាប់ពាក់កណ្តាលនៃសញ្ញាបត្របណ្ឌិតរបស់ខ្ញុំរួចហើយ។ ខ្ញុំដឹងច្បាស់ពីរបៀបពន្យល់ពីមូលដ្ឋានគ្រឹះគណិតវិទ្យានៃការចែកចាយប្រេកង់នៃពាក្យ ដែល Zipf មិនមែនជាគណិតវិទូ មិនអាចធ្វើបាន។ ប៉ុន្មានខែក្រោយមក ការរកឃើញដ៏អស្ចារ្យកំពុងរង់ចាំខ្ញុំ។ ដោយប្រើសមីការនេះ អ្នកអាចបង្កើតឧបករណ៍ដ៏មានឥទ្ធិពលសម្រាប់ការស្រាវជ្រាវសង្គម។ កំណែដែលបានធ្វើឱ្យប្រសើរឡើងនៃរូបមន្ត Zipf ធ្វើឱ្យវាអាចធ្វើទៅបានដើម្បីកំណត់បរិមាណនិងចំណាត់ថ្នាក់ភាពសម្បូរបែបនៃវាក្យសព្ទរបស់មនុស្សណាមួយ: តម្លៃខ្ពស់ - វាក្យសព្ទសម្បូរបែប; តម្លៃទាប - ក្រីក្រ។ ជាមួយនឹងមាត្រដ្ឋានបែបនេះ មនុស្សម្នាក់អាចវាស់ភាពខុសគ្នានៃវាក្យសព្ទរវាងអត្ថបទ ឬវាគ្មិន។ វាអាចទៅរួចក្នុងការកំណត់បរិមាណនៃការសិក្សា។ ពិតមែនហើយ មិត្តភ័ក្តិ និងទីប្រឹក្សារបស់ខ្ញុំមានការភ័យរន្ធត់ចំពោះការប្តេជ្ញាចិត្តរបស់ខ្ញុំក្នុងការដោះស្រាយប្រធានបទចម្លែកនេះ។ Zipf ពួកគេបានប្រាប់ខ្ញុំថា គឺជាមនុស្សចម្លែក។ ខ្ញុំត្រូវបានបង្ហាញសៀវភៅរបស់គាត់ ហើយខ្ញុំយល់ស្របថាវាគួរឱ្យស្អប់ខ្ពើម។ ការរាប់ពាក្យមិនមែនជាគណិតវិទ្យាពិតទេ ខ្ញុំជឿជាក់។ ដោយចាប់យកមុខវិជ្ជានេះ ខ្ញុំនឹងមិនស្វែងរកការងារល្អទេ។ ហើយវាក៏មិនងាយស្រួលសម្រាប់ខ្ញុំក្នុងការក្លាយជាសាស្រ្តាចារ្យផងដែរ។

ប៉ុន្តែខ្ញុំនៅតែថ្លង់ចំពោះដំបូន្មានដ៏ឈ្លាសវៃ។ ជាងនេះទៅទៀត ខ្ញុំបានសរសេរនិក្ខេបបទរបស់ខ្ញុំដោយគ្មានអ្នកប្រឹក្សាណាមួយទាល់តែសោះ ហើយថែមទាំងបានបញ្ចុះបញ្ចូលការិយាល័យការិយាធិបតេយ្យរបស់សាកលវិទ្យាល័យឱ្យបញ្ជាក់វាដោយត្រា។ ខ្ញុំបានតាំងចិត្តដើរតាមផ្លូវដែលបានជ្រើសរើសរហូតដល់ទីបញ្ចប់ ហើយអនុវត្តគំនិតរបស់ Zipf ក្នុងផ្នែកសេដ្ឋកិច្ច ព្រោះមិនត្រឹមតែការនិយាយអាចកាត់បន្ថយទៅជាច្បាប់អំណាចប៉ុណ្ណោះទេ។ យើងជាអ្នកមាន ឬក្រ វិបុលភាព ឬអត់ឃ្លាន - ទាំងអស់នេះក៏ហាក់ដូចជាខ្ញុំជាកម្មវត្ថុនៃច្បាប់អំណាច។

Mandelbrot បានកែប្រែរូបមន្ត Zipf បន្តិច៖

F \u003d C * R -1 /កកន្លែងណា

a - មេគុណលក្ខណៈនៃភាពសម្បូរបែបនៃវាក្យសព្ទ; តម្លៃរបស់ a កាន់តែធំ វាក្យសព្ទនៃអត្ថបទកាន់តែសម្បូរបែប ចាប់តាំងពីខ្សែកោងនៃការពឹងផ្អែកនៃភាពញឹកញាប់នៃការកើតឡើងនៃពាក្យនីមួយៗនៅលើចំណាត់ថ្នាក់របស់វាថយចុះយឺតជាង ហើយឧទាហរណ៍ ពាក្យកម្រលេចឡើងញឹកញាប់ជាងតម្លៃតូចជាង។ នៃ ក. វាគឺជាទ្រព្យសម្បត្តិនេះដែល Mandelbrot មានបំណងប្រើដើម្បីវាយតម្លៃការស៊ើបអង្កេត។

មិនមែនអ្វីៗទាំងអស់មានភាពរលូនជាមួយនឹងច្បាប់របស់ Zipf នោះទេ ហើយនៅក្នុងកម្មវិធីជាក់លាក់ វាមិនតែងតែអាចធ្វើទៅបានដើម្បីពឹងផ្អែកលើមេគុណដែលបានកំណត់ដោយពិសោធន៍ a. ទន្ទឹមនឹងនេះច្បាប់របស់ Zipf គឺគ្មានអ្វីក្រៅពីច្បាប់របស់ Pareto "ផ្ទុយទៅវិញ" ចាប់តាំងពីពួកគេទាំងពីរគឺជាករណីពិសេសនៃស៊េរីអំណាចឬ ... ការបង្ហាញនៃធម្មជាតិប្រភាគនៃប្រព័ន្ធសេដ្ឋកិច្ចនិងសង្គម។

សម្រាប់ខ្លួនខ្ញុំផ្ទាល់ ខ្ញុំបានបង្កើតខ្លឹមសារនៃលក្ខណៈប្រភាគនៃប្រព័ន្ធសេដ្ឋកិច្ចដូចខាងក្រោម។ នៅលើដៃមួយ, មានល្បែងនៃឱកាសមួយ: រ៉ូឡែត, បោះគ្រាប់ឡុកឡាក់។ ម៉្យាងវិញទៀត គ្រោះថ្នាក់ផ្នែករូបវិទ្យា៖ ការបំរែបំរួលនៃអង្កត់ផ្ចិតនៃអ័ក្សដែលផលិតនៅលើក្រឡឹង ការប្រែប្រួលកម្ពស់របស់មនុស្សពេញវ័យ។ បាតុភូតទាំងអស់នេះត្រូវបានពិពណ៌នា។ ដូច្នេះ មានបាតុភូតមួយចំនួនដែលមិនគោរពតាមការបែងចែកនេះ៖ ទ្រព្យសម្បត្តិរបស់ប្រទេស និងបុគ្គល ការប្រែប្រួលតម្លៃភាគហ៊ុន អត្រាប្តូរប្រាក់ ភាពញឹកញាប់នៃការប្រើប្រាស់ពាក្យ ភាពខ្លាំងនៃការរញ្ជួយដី ... ចំពោះបាតុភូតបែបនេះ លក្ខណៈ គឺថាតម្លៃជាមធ្យមគឺពឹងផ្អែកខ្លាំងលើគំរូ។ ជាឧទាហរណ៍ ប្រសិនបើអ្នកយកមនុស្សដែលមានកម្ពស់ខុសៗគ្នា ចៃដន្យមួយរយនាក់នោះ ការបន្ថែមមនុស្សដែលមានកម្ពស់ខ្ពស់ជាងគេនៅលើផែនដីទៅពួកគេនឹងមិនផ្លាស់ប្តូរកម្ពស់មធ្យមរបស់ក្រុមនេះច្រើននោះទេ។ ប្រសិនបើយើងគណនាប្រាក់ចំណូលជាមធ្យមរបស់មនុស្សចៃដន្យមួយរយនាក់នោះ ការបន្ថែមអ្នកមានបំផុតនៅលើភពផែនដី - Carlos Slim Elu (ហើយមិនមែន Bill Gates ដូចដែលមនុស្សជាច្រើនគិតទេ :)) នឹងបង្កើនទ្រព្យសម្បត្តិជាមធ្យមរបស់មនុស្សគ្រប់រូបរហូតដល់ 500 លាននាក់។ ដុល្លារ!

ការបង្ហាញមួយទៀតនៃ fracality គឺជាការ stratification ដ៏សំខាន់នៃគំរូ។ ពិចារណាឧទាហរណ៍។

យល់ស្រប គំរូដែលបានបង្ហាញគឺដូចជាទឹកពីរតំណក់ស្រដៀងនឹងខ្សែកោង Zipf!

មួយនៃលក្ខណៈសម្បត្តិនៃការ fracality គឺការធ្វើឡើងវិញដោយខ្លួនឯង។ ដូច្នេះ ក្នុងចំណោមប្រទេសចំនួន 192 នៃពិភពលោកដែលបានចុះបញ្ជីក្នុងបញ្ជីនេះ 80% នៃទ្រព្យសម្បត្តិរបស់ពិភពលោកត្រូវបានប្រមូលផ្តុំត្រឹមតែ 18 ប្រទេស - 9.4% (18/192) ។ ប្រសិនបើឥឡូវនេះយើងពិចារណាតែប្រទេសទាំង 18 នេះ នោះទ្រព្យសម្បត្តិសរុបរបស់ពួកគេគឺ 46 ពាន់ពាន់លាន។ ដុល្លារ - ចែកចាយមិនស្មើគ្នា។ 80% នៃ 46 ពាន់ពាន់លានទាំងនេះ។ ប្រមូលផ្តុំនៅក្នុងប្រទេសតិចជាងពាក់កណ្តាល។ល។

អ្នកអាចសួរថា តើអ្វីជាសេចក្តីសន្និដ្ឋានជាក់ស្តែងនៃការទាំងអស់នេះ? ខ្ញុំនឹងនិយាយដូចនេះ៖

ប្រព័ន្ធសង្គម និងសេដ្ឋកិច្ចមិនត្រូវបានពិពណ៌នាដោយ Gaussian ទេ។ គំរូទាំងនេះគោរពតាមស៊េរីថាមពល [មានន័យដូចនឹងធម្មជាតិ fractal]។
Outliers ពីមធ្យមគឺទំនងជាច្រើនជាងអ្វីដែលបានព្យាករណ៍ដោយខ្សែកោង Gaussian ។ លើសពីនេះទៅទៀត outliers គឺជាផ្នែកខាងក្នុងនៃប្រព័ន្ធ; ពួកគេមិនមែនចៃដន្យទេ ប៉ុន្តែជាធម្មតា។
ការប៉ាន់ប្រមាណហានិភ័យមិនអាចបង្កើតឡើងដោយផ្អែកលើការចែកចាយប្រូបាប៊ីលីតេធម្មតានៃព្រឹត្តិការណ៍ដែលមិនចង់បានដ៏កម្រនោះទេ។
… ខ្ញុំនឹងមិនកុហកទេ ខ្ញុំមិនអាចគិតអ្វីផ្សេងទៀតបានទេ… ប៉ុន្តែនេះមិនមែនមានន័យថាមិនមានការសន្និដ្ឋានជាក់ស្តែងទៀតទេ… វាគ្រាន់តែថាចំណេះដឹងរបស់ខ្ញុំត្រូវបានកំណត់ចំពោះរឿងនេះ…

... ប៉ុន្តែអ្នកត្រូវតែទទួលស្គាល់, គំរូដ៏ស្រស់ស្អាត!

សម្រាប់ភាពមិនពិត សូមមើល Benoit Mandelbrot

វាគួរតែត្រូវបានកត់សម្គាល់ថាទិន្នន័យពីប្រភពផ្សេងៗគ្នាមានភាពខុសប្លែកគ្នាយ៉ាងខ្លាំងប៉ុន្តែនេះមិនទាក់ទងនឹងប្រធានបទដែលបានពិភាក្សានៅទីនេះទេ។

ក្នុងចំណោមលក្ខណៈវិនិច្ឆ័យសម្រាប់វាយតម្លៃគុណភាពនៃអត្ថបទ ភាពធម្មជាតិរបស់វាត្រូវបានគេចាត់ទុកថាជាកត្តាចម្បង។ សូចនាករនេះអាចត្រូវបានផ្ទៀងផ្ទាត់ដោយប្រើវិធីសាស្ត្រគណិតវិទ្យាដែលរកឃើញដោយអ្នកភាសាវិទូជនជាតិអាមេរិកលោក George Zipf។

ការធ្វើតេស្តច្បាប់របស់ Zipfគឺជាវិធីសាស្រ្តសម្រាប់វាយតម្លៃភាពធម្មជាតិនៃអត្ថបទ ដែលកំណត់លំនាំនៃការរៀបចំពាក្យ ដែលភាពញឹកញាប់នៃពាក្យគឺសមាមាត្រច្រាសទៅនឹងកន្លែងរបស់វានៅក្នុងអត្ថបទ។

ច្បាប់ទីមួយរបស់ Zipf "ចំណាត់ថ្នាក់ - ប្រេកង់"

C \u003d (ភាពញឹកញាប់នៃការកើតឡើងនៃពាក្យ x ចំណាត់ថ្នាក់នៃប្រេកង់) / ចំនួនពាក្យ។

ប្រសិនបើយើងយកសមាមាត្រនៃពាក្យមួយទៅចំណាត់ថ្នាក់នៃប្រេកង់ នោះតម្លៃ (C) នឹងមិនផ្លាស់ប្តូរ ហើយនេះជាការពិតសម្រាប់ឯកសារក្នុងភាសាណាមួយ ក្នុងក្រុមភាសានីមួយៗតម្លៃនឹងថេរ។

ពាក្យដែលមានសារៈសំខាន់សម្រាប់ឯកសារ និងកំណត់ប្រធានបទរបស់វាគឺនៅកណ្តាលអតិផរណា។ ពាក្យដែលប្រើញឹកញាប់បំផុត ក៏ដូចជាប្រេកង់ទាប មិនមានន័យច្បាស់លាស់ទេ។

ច្បាប់ទីពីររបស់ Zipf "បរិមាណ - ប្រេកង់"

ភាពញឹកញាប់នៃពាក្យមួយ និងលេខរបស់វានៅក្នុងអត្ថបទក៏ទាក់ទងគ្នាទៅវិញទៅមកដែរ។ ប្រសិនបើអ្នកបង្កើតក្រាហ្វដែល X គឺជាប្រេកង់នៃពាក្យមួយ Y គឺជាចំនួននៃពាក្យនៃប្រេកង់ដែលបានផ្តល់ឱ្យ រូបរាងរបស់ខ្សែកោងនឹងមិនផ្លាស់ប្តូរទេ។

គោលការណ៍នៃការសរសេរអត្ថបទល្អផ្ដល់យោបល់ថា វាត្រូវតែធ្វើឱ្យយល់បានច្រើនបំផុតដោយប្រើពាក្យតិចបំផុត។

ច្បាប់បង្ហាញពីទ្រព្យសម្បត្តិរួមសម្រាប់ភាសាណាមួយចាប់តាំងពី វាតែងតែមានចំនួនជាក់លាក់នៃពាក្យដែលកើតឡើងញឹកញាប់បំផុត។

វាចាំបាច់ក្នុងការពិនិត្យមើលអត្ថបទ SEO សម្រាប់ធម្មជាតិប្រសិនបើពាក្យគន្លឹះត្រូវបានប្រើក្នុងការសរសេរដូច្នេះវាគួរឱ្យចាប់អារម្មណ៍និងអាចយល់បានសម្រាប់អ្នកអានច្រើន។ ដូចគ្នានេះផងដែរ សូចនាករនេះមានសារៈសំខាន់នៅពេលដាក់ចំណាត់ថ្នាក់គេហទំព័រដោយម៉ាស៊ីនស្វែងរក ដែលកំណត់ការឆ្លើយឆ្លងនៃអត្ថបទទៅកាន់សំណួរសំខាន់ៗ ការចែកចាយពាក្យទៅជាក្រុមសំខាន់ៗ ចៃដន្យ និងជំនួយ។

ច្រើនទៀត៖

ទំនាក់ទំនងរវាងប្រេកង់នៃការកើតឡើងនៃពាក្យនៅក្នុងអត្ថបទ f និងកន្លែងរបស់វានៅក្នុងវចនានុក្រមប្រេកង់ (ចំណាត់ថ្នាក់) r គឺសមាមាត្របញ្ច្រាស។ ចំណាត់ថ្នាក់នៃពាក្យកាន់តែខ្ពស់ (កាន់តែឆ្ងាយវាពីដើមវចនានុក្រម) ភាពញឹកញាប់នៃការកើតឡើងរបស់វានៅក្នុងអត្ថបទកាន់តែទាប។
ក្រាហ្វនៃការពឹងផ្អែកបែបនេះគឺជាអ៊ីពែបូឡាដែលធ្លាក់ចុះយ៉ាងខ្លាំងនៅកម្រិតទាប ហើយបន្ទាប់មកនៅក្នុងតំបន់នៃតម្លៃតូចនៃភាពញឹកញាប់នៃការកើតឡើង f លាតសន្ធឹងឆ្ងាយណាស់បន្តិចម្តងៗ ប៉ុន្តែដោយមិនអាចយល់បាន ថយចុះដូចជា ចំណាត់ថ្នាក់, r, កើនឡើង។
ប្រសិនបើភាពញឹកញាប់នៃការកើតឡើងនៃពាក្យមួយគឺ 4 ក្នុងមួយលាន ហើយភាពញឹកញាប់នៃពាក្យមួយទៀតគឺ 3 ក្នុងមួយលាន វាមិនសំខាន់ទេដែលថាចំណាត់ថ្នាក់នៃពាក្យទាំងនេះខុសគ្នាមួយពាន់ដង។ ពាក្យទាំងនេះកម្រប្រើណាស់ ដែលអ្នកនិយាយដើមកំណើតជាច្រើនមិនបានឮពាក្យទាំងនោះ។
ទោះជាយ៉ាងណាក៏ដោយ តំបន់ឆ្ងាយនេះគឺគួរអោយកត់សំគាល់ដែលពាក្យដែលមានទីតាំងនៅទីនេះអាចកាត់បន្ថយតម្លៃនៃចំណាត់ថ្នាក់របស់វាបានយ៉ាងងាយច្រើនដង។ សូម្បីតែការកើនឡើងតិចតួចបំផុតនៃប្រេកង់នៃការកើតឡើងនៃពាក្យមួយយ៉ាងខ្លាំងផ្លាស់ប្តូរទីតាំងរបស់វាទៅការចាប់ផ្តើមនៃវចនានុក្រមប្រេកង់។
នៅក្នុងលក្ខខណ្ឌនៃច្បាប់នេះ រង្វាស់នៃប្រជាប្រិយភាពនៃពាក្យមួយគឺជាទីតាំងរបស់វានៅក្នុងវចនានុក្រមប្រេកង់នៃភាសា។ ពាក្យដែលពេញនិយមជាងគឺនៅជិតកំពូលនៃវចនានុក្រមជាងពាក្យដែលមិនសូវពេញនិយម។
វាឆ្លុះបញ្ចាំងពីភាពអាស្រ័យនៃប្រេកង់នៃការប្រើប្រាស់ពាក្យនៅក្នុងភាសាមួយនៅលើកន្លែងរបស់វានៅក្នុងវចនានុក្រមប្រេកង់។ ពាក្យពេញនិយមនៃភាសាត្រូវបានគេប្រើញឹកញាប់ជាង។ តាមទស្សនៈគណិតវិទ្យា ក្រាហ្វនៃការពឹងផ្អែកនេះគឺជាអ៊ីពែបូឡាដែលមានការកើនឡើងយ៉ាងខ្លាំងនៅពេលដែលវាចូលទៅជិតប្រភពដើម និងវែង ទន់ភ្លន់ ស្ទើរតែផ្ដេក "កន្ទុយ" ។ ពាក្យភាគច្រើននៃភាសាមានទីតាំងនៅ "កន្ទុយ" នេះ។ នៅទីនេះ កន្លែងនៃពាក្យនៅក្នុងវចនានុក្រមប្រេកង់ ប្រសិនបើវាផ្លាស់ប្តូរភាពញឹកញាប់នៃការប្រើប្រាស់ពាក្យនេះនៅក្នុងភាសានោះ គឺមិនមែនទាល់តែសោះ។
ប៉ុន្តែដរាបណាទីតាំងនៃពាក្យនៅក្នុងវចនានុក្រមប្រេកង់ទៅដល់កន្លែងនោះនៅលើអ៊ីពែបូឡា ដែលនៅពេលដែលយើងចូលទៅជិតប្រភពដើម ការកើនឡើងគួរឱ្យកត់សម្គាល់នៅក្នុងខ្សែកោងចាប់ផ្តើម ស្ថានភាពផ្លាស់ប្តូរ។ ឥឡូវនេះការផ្លាស់ប្តូរតូចមួយនៅក្នុងប្រេកង់នៃការកើតឡើងនៃពាក្យមួយលែងនាំឱ្យមានការផ្លាស់ប្តូរគួរឱ្យកត់សម្គាល់នៅក្នុងចំណាត់ថ្នាក់របស់វា នោះគឺទីតាំងនៃពាក្យនៅក្នុងវចនានុក្រមប្រេកង់ឈប់ផ្លាស់ប្តូរ។ នេះមានន័យថាការកើនឡើងនៃប្រជាប្រិយភាពរបស់ពាក្យនេះបានថយចុះ។ ដើម្បីឱ្យវាបន្តវិធានការពិសេសគួរតែត្រូវបានអនុវត្តដើម្បីបង្កើនភាពញឹកញាប់នៃការកើតឡើងនៃពាក្យ។ ឧទាហរណ៍ ប្រសិនបើពាក្យនោះជាឈ្មោះផលិតផល អ្នកត្រូវចំណាយប្រាក់លើក្រុមហ៊ុនផ្សាយពាណិជ្ជកម្ម (

សួស្តីអ្នកទាំងអស់គ្នា! ថ្មីៗនេះ កាន់តែច្រើនឡើងៗ ខ្ញុំឮពីសហការីអំពីតម្រូវការនៅក្នុង TOR ដើម្បីវាយតម្លៃគុណភាពនៃអត្ថបទដោយយោងតាមច្បាប់របស់ Zipf ។ ហើយមិនមែនគ្រប់គ្នាយល់ពីរបៀបកែសម្រួលអត្ថបទសម្រាប់ច្បាប់នេះទេ។ នៅក្នុងអត្ថបទថ្ងៃនេះ ខ្ញុំនឹងព្យាយាមប្រាប់អ្នកពីវិធីកែលម្អប៉ារ៉ាម៉ែត្រដោយវិធីសាមញ្ញបំផុត ហើយក៏បញ្ជាក់ផងដែរពីមូលហេតុដែលអ្នកនិពន្ធល្អពិតជាមិនត្រូវការវា។

អ្នកអាចកំណត់គុណភាពនៃអត្ថបទនេះបើយោងតាមច្បាប់របស់ Zipf ដោយប្រើសេវាកម្មជាច្រើន។ ប៉ុន្តែខ្ញុំគិតថា PR-CY គឺគ្រប់គ្រាន់បំផុត វារួមបញ្ចូលគ្នានូវរូបមន្តត្រឹមត្រូវជាមួយនឹងចំណុចប្រទាក់ដ៏សាមញ្ញ និងអាចយល់បាន។ នោះហើយជាអ្វីដែលខ្ញុំបានប្រើក្នុងការរៀបចំសម្ភារៈនេះ។

តើអ្វីទៅជាច្បាប់របស់ Zipf

ដើម្បីចាប់ផ្តើមជាមួយវាមានតម្លៃយល់ថាវាជាអ្វី។ យោងតាមវិគីភីឌា លោក Jean-Baptiste Estoux បានបង្កើតគំរូនេះនៅឆ្នាំ 1908 ដែលច្បាប់នេះដើមឡើយសំដៅទៅលើពាក្យខ្លី។ កម្មវិធីដំបូងនៃភាពទៀងទាត់ដែលគេស្គាល់ចំពោះសាធារណជនទូទៅទាក់ទងនឹងប្រជាសាស្រ្ត ហើយកាន់តែច្បាស់ទៅទៀតចំពោះការបែងចែកចំនួនប្រជាជននៅក្នុងទីក្រុងត្រូវបានប្រើប្រាស់ដោយ Felix Auerbach ។

គំរូនេះបានទទួលឈ្មោះទំនើបរបស់វានៅឆ្នាំ 1949 ដោយសារអ្នកភាសាវិទូ George Zipf ។ គាត់បានបង្ហាញដោយមានជំនួយរបស់ខ្លួនក្នុងការចាត់ថ្នាក់នៃការបែងចែកទ្រព្យសម្បត្តិក្នុងចំណោមប្រជាជន។ ហើយមានតែនៅពេលនោះច្បាប់បានចាប់ផ្តើមអនុវត្តដើម្បីកំណត់លទ្ធភាពអានអត្ថបទ។

តើវាត្រូវបានគណនាយ៉ាងដូចម្តេច

ដើម្បីប្រើច្បាប់នេះឱ្យបានត្រឹមត្រូវ អ្នកត្រូវយល់ពីរបៀបដែលវាដំណើរការ។ ចូរយើងវិភាគរូបមន្តសម្រាប់ការគណនា។

F គឺជាប្រេកង់នៃការប្រើប្រាស់ពាក្យ;
R គឺជាលេខស៊េរី;
C គឺជាតម្លៃថេរ (លេខដែលបង្ហាញពីពាក្យធំបំផុតក្នុងន័យនៃចំនួនពាក្យដដែលៗ)។

នៅក្នុងការអនុវត្តរូបមន្តមួយផ្សេងទៀតប្រែទៅជាងាយស្រួលជាងវាមើលទៅច្បាស់ជាង។

វិធីសាស្រ្តនេះគឺមានភាពងាយស្រួលជាងមុន ដោយសារយើងមានទិន្នន័យអំពីចំនួនពាក្យដដែលៗនៃពាក្យសាមញ្ញបំផុត។ វាគឺមកពីបរិមាណនេះដែលពួកគេត្រូវបាន repelled ។

ដើម្បីងាយស្រួលក្នុងអត្ថបទរបស់យើង ពាក្យដែលប្រើញឹកញាប់បំផុតទីពីរគួរតែកម្រជាងពាក្យទីមួយពីរដង។ មកដល់លំដាប់ទី៣ បីដង។

ឧទាហរណ៍ដែលសមនឹងអត្ថបទ

ទ្រឹស្តីត្រូវបានដោះស្រាយបន្តិចបន្តួច។ វានៅសល់ដើម្បីដោះស្រាយជាមួយការអនុវត្ត។ ជាអត្ថបទពិសោធន៍ ខ្ញុំបានយកអត្ថបទពី T-Zh ។ ហេតុអ្វីបានជាមកពីទីនោះ? អ្វីគ្រប់យ៉ាងគឺសាមញ្ញ។ នៅពេលនេះ នេះគឺជាឧទាហរណ៍ដ៏ល្អបំផុតមួយនៃរចនាប័ទ្មព័ត៌មានដែលមនុស្សជាច្រើនចូលចិត្ត។ ជាការប្រសើរណាស់, វាគួរឱ្យចាប់អារម្មណ៍អ្វីដែលអត្ថបទដែលបានសរសេរក្រោមការដឹកនាំរបស់ Maxim Ilyakhov នឹងបង្ហាញ។ ខ្ញុំនឹងនិយាយភ្លាមៗថា អត្ថបទសម្រាប់សូចនាករនេះគឺនៅកម្រិត បើទោះបីជាដោយបាន shoveled ច្រើនជាង 40 គេហទំព័រ, ខ្ញុំមិនបានរកឃើញអត្ថបទតែមួយជាមួយនឹងធម្មជាតិមិនល្អទាល់តែសោះ។ ដូចគ្នានេះផងដែរ ខ្ញុំនឹងលោតទៅមុខភ្លាមៗ ហើយនិយាយថាអត្ថបទពិសោធន៍បន្ទាប់ពីការសមកាន់តែអាក្រក់ ទោះបីជាពិន្ទុ Zipf ប្រសើរឡើងក៏ដោយ អ្នកមិនគួររំខានច្រើនពេកជាមួយនឹងការកើនឡើងហួសហេតុនៃធម្មជាតិនោះទេ។

នេះគឺជាអ្វីដែលអ្នកវិភាគបានបង្ហាញយើងបន្ទាប់ពីពិនិត្យ។

ចូរយើងក្រឡេកមើលអ្វីដែលនៅទីនោះ។ ដូចដែលអ្នកអាចឃើញមានជួរឈរដែលមានពាក្យក៏ដូចជាលេខដែលមិនអាចយល់បាន។ ជួរ "កើតឡើង" (1) បង្ហាញថាតើទម្រង់ពាក្យកើតឡើងប៉ុន្មានដងក្នុងអត្ថបទ។ នៅក្នុងជួរឈរ Zipf (2) គឺជាចំនួនធាតុដែលបានណែនាំ។ សញ្ញាសម្គាល់ 3 និង 4 សម្គាល់សូចនាករដ៏ល្អសម្រាប់ទីតាំងទីពីរ និងទីបី។ អ្នកក៏គួរយកចិត្តទុកដាក់លើអនុសាសន៍ផងដែរ វាបង្ហាញពីចំនួនពាក្យដែលអ្នកត្រូវការដើម្បីដកចេញ ដើម្បីសម្រេចបាននូវការរួមបញ្ចូលគ្នាដ៏ល្អឥតខ្ចោះ។

ដើម្បីយល់កាន់តែច្បាស់ ចូរយើងវិភាគនូវអ្វីដែលអ្នកវិភាគបានរាប់។ យើងយកលេខ 39 (C) ជាមូលដ្ឋាន យើងក៏ត្រូវការលេខសៀរៀលដែរ យកចិត្តទុកដាក់លើទីតាំង 2 (F) ។ យើងយករូបមន្ត។

ជំនួស។

F=39/2=19.5

យើងបង្គត់ឡើង ហើយទទួលបាន 20 វានឹងជាចំនួននៃការកើតឡើងដែលត្រូវការ។ នេះត្រូវបានបញ្ជាក់ដោយអ្នកវិភាគ។ នៅក្នុងប្រទេសរបស់យើងពាក្យដែលពេញនិយមបំផុតទីពីរត្រូវបានគេប្រើ 28 ដងរៀងគ្នា 8 ពាក្យដដែលៗនឹងត្រូវដកចេញឬជំនួស។

ដោយបានដោះស្រាយតាមគោលការណ៍ច្បាប់ យើងចាប់ផ្តើមកែសម្រួល។ ដើម្បីធ្វើដូច្នេះ យើងលុប ឬជំនួសដោយពាក្យមានន័យដូចដែលមានការកើតឡើងច្រើនជាងតម្រូវការដោយ Zipf ។ ជាលទ្ធផលយើងទទួលបានរូបភាពនេះ។

ដូចដែលអ្នកអាចឃើញខ្ញុំបានគ្រប់គ្រងដើម្បីបង្កើនអត្រាពី 83% ទៅ 88% ។ ទោះយ៉ាងណាក៏ដោយ គុណភាពនៃអត្ថបទបានរងទុក្ខយ៉ាងខ្លាំង។ អ្នកមិនគួរព្យាយាមបង្កើនតួលេខនេះដល់ 100% ទេ។ តាមពិតប្រសិនបើអ្នកមាន 75% រួចហើយ នេះគឺល្អហើយអ្នកមិនគួរបង្វែរទៀតទេ។

ដំបូន្មានមានប្រយោជន៍

យកចិត្តទុកដាក់មិនត្រឹមតែបន្ទាត់ដំបូងប៉ុណ្ណោះទេ។ ចាប់ផ្តើមសមពីមុខតំណែងចុងក្រោយក្នុងបញ្ជី ពួកវាច្រើនតែមានឥទ្ធិពលលើពិន្ទុរួមជាងដប់ពាក្យដំបូង។

Zipf និង SEO

ឥឡូវនេះ សូមបន្តទៅមូលហេតុដែលអ្នកនិពន្ធចម្លងត្រូវដឹងពីគំរូនេះ។ នៅពេលបញ្ជាទិញអត្ថបទ SEOs ខិតខំធ្វើឱ្យពួកគេមានភាពងាយស្រួលបំផុតសម្រាប់ម៉ាស៊ីនស្វែងរក។ វាត្រូវបានគេជឿថា (ទោះបីជាមិនច្បាស់ថានរណា) ថាច្បាប់របស់ Zipf ត្រូវបានប្រើប្រាស់យ៉ាងសកម្មដោយក្បួនដោះស្រាយស្វែងរក។ វាពិបាកក្នុងការបញ្ជាក់ ឬបដិសេធសេចក្តីថ្លែងការណ៍នេះ។ ខ្ញុំមិនអាចស្វែងរកការស្រាវជ្រាវ និងការពិសោធន៍ដ៏ត្រឹមត្រូវណាមួយលើប្រធានបទនេះទេ។

សម្រេចចិត្តពិនិត្យមើលខ្លួនឯង។ ដើម្បីធ្វើដូច្នេះខ្ញុំបានយកបញ្ហាសម្រាប់សំណួរប្រកួតប្រជែងបែបនេះ "បង្អួចប្លាស្ទិក" Yandex បានយកបញ្ហាទីក្រុងម៉ូស្គូខ្ញុំត្រូវនិយាយនៅក្នុង Google ហើយគាត់ក៏ហាក់ដូចជាកំណត់ខ្ញុំថាជាអ្នករស់នៅរដ្ឋធានី (យ៉ាងហោចណាស់គាត់បានបង្ហាញខ្ញុំ។ ការផ្សាយពាណិជ្ជកម្មជាមួយទីតាំងភូមិសាស្ត្រទីក្រុងម៉ូស្គូ) ។ ខ្ញុំបានយកទំព័រទីមួយនៃបញ្ហាបូកនឹងលេខ 49 ។ នេះជារបៀបដែលសញ្ញាបានលេចចេញមក។

ប្រសិនបើអ្នកក្រឡេកមើលឱ្យជិតអ្នកអាចមើលឃើញថានៅក្នុង Yandex ទិន្នផលគឺកាន់តែច្រើនប្រសិនបើអ្នកក្រឡេកមើលគំរូដែលយើងកំពុងសិក្សា។ ប៉ុន្តែទន្ទឹមនឹងនេះ តួលេខខ្ពស់ជាងនេះមិនធានាថានឹងទទួលបានជ័យជម្នះក្នុងការប្រកួតដណ្តើមបានចំណាត់ថ្នាក់លេខ១នៅកំពូលឡើយ។

ផ្អែកលើចំណុចនេះ វាអាចនិយាយបានថា ប្រសិនបើម៉ាស៊ីនស្វែងរកអនុវត្តច្បាប់នេះ គឺគ្រាន់តែជាកត្តាមួយប៉ុណ្ណោះ។ ហើយមិនមែនជារឿងសំខាន់ទេ។

ការសន្និដ្ឋាន

យល់ព្រម វាចប់ហើយឥឡូវនេះ។ ឥឡូវនេះអ្នកដឹងពីគុណភាពនៃអត្ថបទយោងទៅតាមច្បាប់របស់ Zipf ហើយអ្នកក៏អាចកែតម្រូវសូចនាករនេះបានផងដែរ។ តាមពិតមិនមានអ្វីស្មុគស្មាញនៅទីនេះទេ អ្វីគ្រប់យ៉ាងគឺសាមញ្ញណាស់។ វាគ្រប់គ្រាន់ដើម្បីយល់ពីគោលការណ៍នៃប្រតិបត្តិការនៃភាពទៀងទាត់នេះម្តង។

ពិភពនៃ SEO កំពុងវិវឌ្ឍឥតឈប់ឈរ ហើយការបង្កើនប្រសិទ្ធភាពមិននៅស្ងៀមទេ។ មានវិធីសាស្រ្តថ្មីនៃការសរសេរអត្ថបទ ការរៀបចំរបស់ពួកគេសម្រាប់ការធ្វើលិបិក្រមកាន់តែប្រសើរ។ ប៉ារ៉ាម៉ែត្រមួយក្នុងចំណោមប៉ារ៉ាម៉ែត្រដែលអ្នកបង្កើនប្រសិទ្ធភាពបានយកចិត្តទុកដាក់គឺភាពធម្មជាតិនៃអត្ថបទយោងទៅតាមច្បាប់របស់ Zipf ។ តើអ្វីទៅជាច្បាប់របស់ Zipf និងតួនាទីរបស់វាក្នុងការផ្សព្វផ្សាយ SEO?

យោងតាមពាក្យ ច្បាប់របស់ Zipf គឺជាភាពទៀងទាត់ដែលបានបង្កើតឡើងជាក់ស្តែងនៅក្នុងទីតាំងនៃភាពញឹកញាប់នៃពាក្យនៅក្នុងអត្ថបទមួយ។ យោងតាមច្បាប់ ភាពញឹកញាប់នៃពាក្យនៅក្នុងអត្ថបទគឺស្ទើរតែសមាមាត្រច្រាសទៅនឹងកន្លែងរបស់វានៅក្នុងបញ្ជី។ នោះគឺប្រសិនបើយើងចាប់ផ្តើមពីច្បាប់នោះពាក្យទីពីរដែលត្រូវបានលើកឡើងញឹកញាប់បំផុតនៅក្នុងអត្ថបទគួរតែត្រូវបានប្រើពីរដងតិចជាងពាក្យទីមួយហើយទីបី - បីដងតិចជាងញឹកញាប់ហើយដូច្នេះនៅលើ។

ដើម្បីងាយស្រួលក្នុងការយល់អំពីគំរូនេះ អ្នកគួរតែយកចិត្តទុកដាក់លើការរៀបចំអក្សរនៅលើក្តារចុចកុំព្យូទ័រ។ វាមិនមែនជារឿងចៃដន្យទេ៖ អក្សរដែលប្រើញឹកញាប់បំផុតនៃភាសាណាមួយមានទីតាំងងាយស្រួលជាងអក្សរដែលប្រើតិចជាញឹកញាប់។ ស្ថានភាពជាមួយពាក្យគឺដូចគ្នាបេះបិទ៖ មានពាក្យដែលប្រើញឹកញាប់ និងកម្រប្រើ ជាពាក្យសំខាន់ៗដែលកំណត់ប្រធានបទនៃអត្ថបទ។

ការបំបែកដោយសារៈសំខាន់នៃពាក្យក៏ត្រូវបានគេប្រើផងដែរនៅពេលដាក់ចំណាត់ថ្នាក់គេហទំព័រនៅក្នុងក្បួនដោះស្រាយម៉ាស៊ីនស្វែងរក។ ជាមួយនឹងគំនិតនេះ ភាពខុសគ្នានៃពាក្យនៅក្នុងអត្ថន័យ និងភាពញឹកញាប់នៃការប្រើប្រាស់ជួយបែងចែកពាក្យជា 3 ក្រុមនៅពេលសរសេរអត្ថបទ SEO:

ជំនួយ។ ក្រុមនេះរាប់បញ្ចូលទាំងពាក្យដែលមិនមានបន្ទុកន័យឯករាជ្យ ដូចជាការភ្ជាប់ បុព្វបទ សព្វនាម ភាគល្អិត។ ពាក្យជំនួយទាំងអស់ត្រូវបានយល់ឃើញដោយម៉ាស៊ីនស្វែងរកថាជាសំឡេងរំខានព័ត៌មាន និងមិនត្រូវបានអើពើនៅពេលដាក់ចំណាត់ថ្នាក់។
សំខាន់។ ពាក្យបែបនេះមិនសូវមានជាទូទៅក្នុងអត្ថបទទេ ហើយមានផ្ទុកនូវអត្ថន័យដ៏សំខាន់។ ម៉ាស៊ីនស្វែងរកយល់ឃើញថាពាក្យរបស់ក្រុមនេះជាពាក្យគន្លឹះ។
ចៃដន្យ។ ពាក្យរបស់ក្រុមនេះកម្រប្រើសម្រាប់អត្ថបទលើប្រធានបទជាក់លាក់ណាមួយ ហើយអនុវត្តជាក់ស្តែងមិនប៉ះពាល់ដល់ចំណាត់ថ្នាក់ស្វែងរកទេ។

យោងតាមអ្នកជំនាញ SEO អ្នកភាសាវិទូជនជាតិអាមេរិកលោក George Zipf បានកំណត់ច្បាប់ដែលម៉ាស៊ីនស្វែងរកបានចាប់ផ្តើមប្រើដើម្បីកំណត់ភាពធម្មជាតិនិងភាពប្លែកនៃអត្ថបទដោយភាពញឹកញាប់នៃពាក្យដែលបានប្រើ។

SEOs ជារឿយៗប្រឈមមុខនឹងបញ្ហាជាមួយនឹងការផ្សព្វផ្សាយអត្ថបទ នៅពេលដែលភាពប្លែក និងពិន្ទុពាក់ព័ន្ធខ្ពស់។ នោះគឺ អត្ថបទអាចមានលក្ខណៈពិសេស 100% ធ្វើឱ្យប្រសើរសម្រាប់សំណួរគន្លឹះដែលមានភាពពាក់ព័ន្ធខ្ពស់ ហើយក្នុងពេលតែមួយមិនឈានដល់កំពូល ឬអាក្រក់ជាងនេះ នៅតែចេញពីទិដ្ឋភាពនៃកម្មវិធីវិភាគទីតាំង។

វាមិនងាយស្រួលទេក្នុងការកំណត់ថាតើច្បាប់របស់ Zipf ប៉ះពាល់ដល់លទ្ធផលស្វែងរកជាលក្ខណៈបុគ្គលប៉ុណ្ណានោះទេ។ ភាគច្រើនទំនងជាម៉ាស៊ីនស្វែងរកយកទៅក្នុងគណនីរួមបញ្ចូលគ្នានៃកត្តាជាច្រើនដែលក្នុងនោះមានការត្រួតពិនិត្យសម្រាប់ធម្មជាតិយោងទៅតាម Zipf ។ សព្វថ្ងៃនេះ ខ្លឹមសារដើរតួនាទីដ៏សំខាន់បំផុតមួយក្នុងការផ្សព្វផ្សាយការស្វែងរក ដូច្នេះនៅពេលបង្កើតអត្ថបទ SEO វាត្រូវបានណែនាំឱ្យត្រួតពិនិត្យដោយប្រុងប្រយ័ត្ននូវសូចនាករនៃភាពប្លែក និងធម្មជាតិ។ មានសេវាកម្មជាច្រើនសម្រាប់ពិនិត្យអត្ថបទ។ ចូរយើងរស់នៅលើគេហទំព័រដែលពេញនិយម និងបង្ហាញឱ្យឃើញច្រើនបំផុតពីរគឺ 1y.ru និង pr-cy.ru ។

សេវាកម្ម 1y.ru

គេហទំព័រនេះអនុញ្ញាតឱ្យអ្នកពិនិត្យមើលភាពធម្មជាតិនៃខ្លឹមសារនៃគេហទំព័រនីមួយៗ គេហទំព័រទាំងមូល ឬអត្ថបទពី 100 ទៅ 5000 ពាក្យ។ ដែនកំណត់សម្រាប់អ្នកប្រើប្រាស់អនាមិកអនុញ្ញាតឱ្យពិនិត្យមើលរហូតដល់ 2000 អត្ថបទក្នុងមួយថ្ងៃ។ គុណវិបត្តិនៃគេហទំព័រគឺថា វាមិនអាចទៅរួចទេក្នុងការត្រួតពិនិត្យគេហទំព័រដោយមិនបង្ខូចទ្រង់ទ្រាយលទ្ធផល ដោយសារសេវាកម្មស្កេនព័ត៌មានអត្ថបទដែលបានរកឃើញទាំងអស់ រួមទាំងកម្មវិធី rubricator ធាតុក្រាហ្វិក ម៉ឺនុយ និងប្រភេទផ្សេងទៀតនៃអត្ថបទជំនួយ។

បន្ទាប់ពីពិនិត្យមើលអត្ថបទ 1y.ru ផ្តល់នូវស្ថិតិមាតិកាជាមួយនឹងការណែនាំសម្រាប់កាត់បន្ថយពាក្យដដែលៗ និងផ្តល់ក្រាហ្វដែលមានខ្សែកោងបី៖ ខ្សែកោងនៃតម្លៃនៃអត្ថបទដែលបានពិនិត្យ ខ្សែកោងនៃតម្លៃដែលបានណែនាំ និងខ្សែកោងនៃតម្លៃដ៏ល្អ។ .

សេវាកម្ម pr-cy.ru

ធនធាននេះក៏ផ្តល់ឱកាសមួយដើម្បីវាយតម្លៃភាពធម្មជាតិនៃអត្ថបទ និងគេហទំព័រ។ សេវាកម្មនេះច្រោះពាក្យបញ្ឈប់ គណនាភាគរយនៃការចង្អោរអត្ថបទ និងក៏ផ្តល់នូវការណែនាំសម្រាប់កាត់បន្ថយ ឬបង្កើនចំនួននៃការកើតឡើងនេះបើយោងតាមច្បាប់របស់ Zipf ។

សេចក្តីសន្និដ្ឋាន

ភាពខុសគ្នានៃលទ្ធផលនៅពេលពិនិត្យមើលអត្ថបទមួយនៅក្នុងសេវាកម្មផ្សេងៗអាចមានសារៈសំខាន់។ ដូច្នេះ កថាខណ្ឌបីដំបូងនៃអត្ថបទដែលអ្នកកំពុងអានបង្ហាញ 59% សម្រាប់ 1y.ru និង 88% សម្រាប់ pr-cy.ru ។ មានការសន្និដ្ឋានតែមួយប៉ុណ្ណោះ៖ នៅពេលសរសេរអត្ថបទ អ្នកមិនគួរយកចិត្តទុកដាក់ខ្លាំងពេកក្នុងការបញ្ចូលធាតុសំខាន់ៗទៅក្នុងតួអត្ថបទនោះទេ។ អ្នកត្រូវសរសេរតាមរបៀបដែលគួរឱ្យចាប់អារម្មណ៍ និងអាចចូលប្រើបាន ហើយប្រសិនបើអ្នកនៅតែត្រូវការបង្កប់ពាក្យគន្លឹះក្នុងអត្ថបទនោះ អ្នកគួរតែពិនិត្យមើលអត្ថបទដោយប្រើវិធីសាស្ត្រ Zipf ។

ពាក្យនៃភាសាធម្មជាតិ៖ ប្រសិនបើពាក្យទាំងអស់នៃភាសាមួយ (ឬគ្រាន់តែជាអត្ថបទវែងគ្រប់គ្រាន់) ត្រូវបានតម្រៀបតាមលំដាប់ចុះនៃប្រេកង់នៃការប្រើប្រាស់របស់ពួកគេ នោះប្រេកង់ ន-th ពាក្យនៅក្នុងបញ្ជីបែបនេះនឹងមានសមាមាត្រច្រាសធៀបទៅនឹងចំនួនធម្មតារបស់វា។ ន(អ្វីដែលគេហៅថា ចំណាត់ថ្នាក់នៃពាក្យនេះ សូមមើលមាត្រដ្ឋាននៃលំដាប់)។ ជាឧទាហរណ៍ ពាក្យដែលប្រើច្រើនជាងគេទីពីរគឺប្រហែលពីរដងតិចជាងពាក្យទីមួយ ទីបីគឺតិចជាងធម្មតាបីដង។ល។

ប្រវត្តិនៃការបង្កើត[ | ]

អ្នកនិពន្ធនៃរបកគំហើញនៃលំនាំគឺជាអ្នកសរសេរអត្ថបទជនជាតិបារាំង (fr. Jean-Baptiste Estoup) ដែលបានពិពណ៌នាវានៅឆ្នាំ 1908 នៅក្នុងជួរនៃ Shorthand ។ ច្បាប់នេះត្រូវបានអនុវត្តជាលើកដំបូងដើម្បីពិពណ៌នាអំពីការចែកចាយទំហំទីក្រុងដោយរូបវិទូជនជាតិអាឡឺម៉ង់ Felix Auerbach នៅក្នុងការងាររបស់គាត់ "ច្បាប់នៃការប្រមូលផ្តុំប្រជាជន" ក្នុងឆ្នាំ 1913 ហើយត្រូវបានដាក់ឈ្មោះតាមអ្នកភាសាវិទូជនជាតិអាមេរិកលោក George Zipf ដែលនៅឆ្នាំ 1949 បានពេញនិយមយ៉ាងសកម្មនូវគំរូនេះ ដោយស្នើឡើងជាលើកដំបូង។ ដើម្បីប្រើវាដើម្បីពិពណ៌នាអំពីការបែងចែកកម្លាំងសេដ្ឋកិច្ច និងស្ថានភាពសង្គម។

ការពន្យល់អំពីច្បាប់របស់ Zipf ដោយផ្អែកលើលក្ខណៈសម្បត្តិទំនាក់ទំនងនៃខ្សែសង្វាក់ Markov បន្ថែម (ជាមួយមុខងារចងចាំជំហាន) ត្រូវបានផ្តល់ឱ្យក្នុងឆ្នាំ 2005 ។

ច្បាប់របស់ Zipf ត្រូវបានពិពណ៌នាតាមគណិតវិទ្យាដោយការចែកចាយ Pareto ។ វាគឺជាច្បាប់មូលដ្ឋានមួយដែលប្រើក្នុង infometrics ។

ការអនុវត្តច្បាប់[ | ]

លោក George Zipf ក្នុងឆ្នាំ 1949 ដំបូងបានបង្ហាញពីការបែងចែកប្រាក់ចំណូលរបស់មនុស្សទៅតាមទំហំរបស់ពួកគេ៖ អ្នកមានបំផុតមានលុយពីរដងច្រើនជាងអ្នកមានបំផុតបន្ទាប់ ហើយដូច្នេះនៅលើ។ សេចក្តីថ្លែងការណ៍នេះបានក្លាយទៅជាការពិតសម្រាប់ប្រទេសមួយចំនួន (អង់គ្លេស បារាំង ដាណឺម៉ាក ហូឡង់ ហ្វាំងឡង់ អាឡឺម៉ង់ សហរដ្ឋអាមេរិក) នៅក្នុងអំឡុងពេលពីឆ្នាំ 1926 ដល់ឆ្នាំ 1936 ។

ច្បាប់នេះក៏ដំណើរការផងដែរទាក់ទងនឹងការបែងចែកប្រព័ន្ធទីក្រុង៖ ទីក្រុងដែលមានប្រជាជនច្រើនជាងគេនៅក្នុងប្រទេសណាមួយមានទំហំធំជាងពីរដងនៃទីក្រុងធំបំផុតបន្ទាប់។ល។ ប្រសិនបើអ្នករៀបចំទីក្រុងទាំងអស់នៃប្រទេសជាក់លាក់មួយក្នុងបញ្ជីតាមលំដាប់ចុះនៃចំនួនប្រជាជន នោះទីក្រុងនីមួយៗអាចត្រូវបានចាត់ថ្នាក់ជាក់លាក់មួយ នោះគឺជាចំនួនដែលវាទទួលបាននៅក្នុងបញ្ជីនេះ។ ទន្ទឹមនឹងនេះ ទំហំប្រជាជន និងចំណាត់ថ្នាក់គោរពតាមលំនាំសាមញ្ញដែលបង្ហាញដោយរូបមន្ត៖

P n = P 1 / n (\displaystyle P_(n)=P_(1)/n),

កន្លែងណា P n (\displaystyle P_(n))- ចំនួនប្រជាជនទីក្រុង ន- ចំណាត់ថ្នាក់; P 1 (\displaystyle P_(1))- ចំនួនប្រជាជននៃទីក្រុងសំខាន់នៃប្រទេស (ចំណាត់ថ្នាក់ទី 1) ។

ការសិក្សាជាក់ស្តែងគាំទ្រការអះអាងនេះ។

នៅឆ្នាំ 1999 សេដ្ឋវិទូ Xavier Gabet បានពណ៌នាអំពីច្បាប់របស់ Zipf ជាឧទាហរណ៍នៃច្បាប់អំណាចមួយ៖ ប្រសិនបើទីក្រុងរីកចម្រើនដោយចៃដន្យជាមួយនឹងគម្លាតស្តង់ដារដូចគ្នានោះ ការចែកចាយនឹងទៅជាច្បាប់របស់ Zipf ដល់កម្រិតកំណត់។

យោងតាមការរកឃើញរបស់អ្នកស្រាវជ្រាវទាក់ទងនឹងការតាំងទីលំនៅទីក្រុងនៅក្នុងសហព័ន្ធរុស្ស៊ីស្របតាមច្បាប់របស់ Zipf:

ទីក្រុងភាគច្រើននៅក្នុងប្រទេសរុស្ស៊ីស្ថិតនៅពីលើខ្សែកោង Zipf ដ៏ល្អ ដូច្នេះនិន្នាការដែលរំពឹងទុកគឺការថយចុះជាបន្តបន្ទាប់នៃចំនួន និងចំនួនប្រជាជននៃទីក្រុងមធ្យម និងតូច ដោយសារការធ្វើចំណាកស្រុកទៅកាន់ទីក្រុងធំ។
តាមនោះ ទីក្រុងចំនួន 7 លានបូក (St. Petersburg, Novosibirsk, Yekaterinburg, Nizhny Novgorod, Kazan, Chelyabinsk, Omsk) ដែលស្ថិតនៅក្រោមខ្សែកោង Zipf ដ៏ល្អ មានទុនបំរុងកំណើនប្រជាជនយ៉ាងសំខាន់ ហើយរំពឹងថានឹងមានកំណើនប្រជាជន។
មានហានិភ័យនៃចំនួនប្រជាជននៃទីក្រុងទីមួយនៅក្នុងចំណាត់ថ្នាក់ (ទីក្រុងម៉ូស្គូ) ចាប់តាំងពីទីក្រុងទីពីរ (សាំងពេទឺប៊ឺគ) និងទីក្រុងធំជាបន្តបន្ទាប់គឺនៅឆ្ងាយពីខ្សែកោង Zipf ដ៏ល្អដោយសារតែការថយចុះនៃតម្រូវការការងារជាមួយនឹងការកើនឡើងក្នុងពេលដំណាលគ្នា។ តម្លៃនៃការរស់នៅ រាប់បញ្ចូលទាំងថ្លៃដើមនៃការទិញ និងជួលផ្ទះ។

ការរិះគន់ [ | ]

អ្នកជីវវិទ្យាអាមេរិក បានស្នើការពន្យល់ស្ថិតិនៃច្បាប់របស់ Zipf ដោយបង្ហាញថា លំដាប់ចៃដន្យនៃតួអក្សរក៏គោរពតាមច្បាប់នេះដែរ។ អ្នកនិពន្ធសន្និដ្ឋានថា ច្បាប់របស់ Zipf ជាក់ស្តែង គឺជាបាតុភូតស្ថិតិសុទ្ធសាធ ដែលមិនពាក់ព័ន្ធនឹងអត្ថន័យនៃអត្ថបទ និងមានទំនាក់ទំនងដ៏ស្រើបស្រាលទៅនឹងភាសាវិទ្យា។

វិបផតថលសម្រាប់សិស្ស។ ការបណ្តុះបណ្តាលខ្លួនឯង