कंप्यूटर सहायता. ज़िप्फ़ का नियम और सामाजिक और आर्थिक घटनाओं की भग्न प्रकृति

पढ़ते समय पहली बार मुझे ज़िप्फ़ के नियम का वर्णन मिला। कानून का सार: यदि किसी पाठ के शब्दों को उपयोग की आवृत्ति के आधार पर क्रमबद्ध किया जाता है, तो रैंक और आवृत्ति का उत्पाद एक स्थिर मान होता है:

एफ*आर =सी, कहाँ:

एफ - पाठ में किसी शब्द के घटित होने की आवृत्ति;

आर - शब्द रैंक (सबसे अधिक उपयोग किए जाने वाले शब्द को रैंक 1 मिलता है, अगले को रैंक 2 मिलता है, आदि);

C एक स्थिरांक है.

उन लोगों के लिए जिन्हें अभी भी कम से कम बीजगणित याद है :), उपरोक्त सूत्र में आप हाइपरबोला के समीकरण को आसानी से पहचान सकते हैं। Zipf ने प्रयोगात्मक रूप से निर्धारित किया कि C ≈ 0.1। तो Zipf के नियम का चित्रमय प्रतिनिधित्व लगभग इस प्रकार है:

चावल। 1. ज़िप्फ़ के नियम की अतिशयोक्ति।

प्रारूप में नोट डाउनलोड करें, प्रारूप में उदाहरण

अतिशयोक्ति में अद्भुत गुण होता है। यदि हम दोनों अक्षों के लिए लघुगणकीय पैमाना लें, तो अतिपरवलय एक सीधी रेखा जैसा दिखेगा:

चावल। 2. वही अतिपरवलय, लेकिन लघुगणकीय पैमानों वाले ग्राफ़ पर

प्रश्न उठ सकता है: खोज इंजन अनुकूलन का इससे क्या लेना-देना है? तो, यह पता चला है कि कीवर्ड की बढ़ी हुई संख्या वाले विशेष रूप से उत्पन्न पाठ कानून में फिट नहीं होते हैं। खोज इंजन (Google, Yandex) टेक्स्ट की "स्वाभाविकता" की जांच करते हैं, यानी ज़िपफ के कानून का अनुपालन करते हैं, और या तो "संदिग्ध" टेक्स्ट वाली साइटों की रेटिंग कम कर देते हैं या ऐसी साइटों पर प्रतिबंध भी लगा देते हैं।

दूसरी बार जब मुझे जिपफ का नियम बेनोइट मैंडेलब्रॉट की पुस्तक में मिला। और मुझे यह छोटा सा भाग इतना पसंद आया कि मैं इसे पूरा उद्धृत करता हूँ।

अप्रत्याशित शक्ति कानून

1950 में, मैं पेरिस विश्वविद्यालय में गणित का एक युवा छात्र था, अपने शोध प्रबंध के लिए एक विषय की तलाश में था। मेरे चाचा ज़ोलेम गणित के प्रोफेसर के स्थानीय पाठ्यपुस्तक उदाहरण थे: एक गहन सिद्धांतकार, बहुत रूढ़िवादी और, इस तथ्य के बावजूद कि उनका जन्म पोलैंड में हुआ था, फ्रांसीसी वैज्ञानिक समुदाय के एक स्तंभ थे। पहले से ही 31 साल की उम्र में, उन्हें प्रतिष्ठित फ्रेंच कॉलेज में पूर्णकालिक प्रोफेसर चुना गया था।

वह निकोलस बॉर्बकी का युग था; इस सामूहिक छद्म नाम के पीछे एक गणितीय "क्लब" छिपा हुआ था, जो कला में दादा या साहित्य में अस्तित्ववाद की तरह, फ्रांस से फैल गया और कुछ समय के लिए विश्व मंच पर बेहद प्रभावशाली बन गया। अमूर्तन और शुद्ध गणित, गणित के लिए गणित, को एक पंथ के स्तर तक ऊपर उठाया गया; "क्लब" के सदस्यों ने व्यावहारिकता, व्यावहारिक गणित और यहां तक ​​कि गणित को एक वैज्ञानिक उपकरण के रूप में तुच्छ जाना। यह दृष्टिकोण फ्रांसीसी गणितज्ञों के लिए एक हठधर्मिता थी, और मेरे लिए, शायद, फ्रांस छोड़ने और आईबीएम में काम करने का कारण था। मेरे चाचा के भय से मैं एक युवा विद्रोही था। अपने डॉक्टरेट शोध प्रबंध पर काम करते समय, मैं अक्सर दिन के अंत में बातचीत करने के लिए उनके कार्यालय में जाता था, और अक्सर ये बातचीत चर्चा में बदल जाती थी। एक दिन, घर आने वाली लंबी और उबाऊ मेट्रो यात्रा को किसी तरह से सुखद बनाने की कोशिश करते हुए, मैंने उससे रास्ते में पढ़ने के लिए कुछ मांगा। वह कूड़ेदान में पहुंचा और कागज के कई मुड़े-तुड़े टुकड़े निकाले।

"यहाँ, यह लो," मेरे चाचा बुदबुदाये। - सबसे बेवकूफी भरा लेख, उनमें से एक जिसे आप पसंद करते हैं।

यह समाजशास्त्री जॉर्ज किंग्सले ज़िप्फ़ की एक पुस्तक की समीक्षा थी। जिपफ, एक ऐसा अमीर आदमी जो रोज़ रोटी के एक टुकड़े के बारे में चिंता नहीं करता था, ने हार्वर्ड विश्वविद्यालय में अपने स्वयं के आविष्कार के एक अनुशासन पर व्याख्यान दिया, जिसे उन्होंने सांख्यिकीय मानव पारिस्थितिकी कहा। उनकी पुस्तक ह्यूमन बिहेवियर एंड द प्रिंसिपल ऑफ लीस्ट एफर्ट ने सामाजिक विज्ञान में सर्वव्यापी संरचनाओं के रूप में शक्ति कानूनों की खोज की। चिप में, शक्ति नियम काफी सामान्य हैं और एक पैमाने पर जिसे मैं अब फ्रैक्टल स्व-पुनरावृत्ति कहता हूं, उसके एक रूप के रूप में कार्य करता है। भूकंपविज्ञानियों के पास प्रसिद्ध रिक्टर पैमाने पर भूकंपों की संख्या की उनकी तीव्रता पर शक्ति-कानून निर्भरता के लिए एक गणितीय सूत्र है। या, दूसरे शब्दों में: कमजोर भूकंप आम हैं, जबकि मजबूत भूकंप दुर्लभ हैं, और भूकंप की आवृत्ति और ताकत एक सटीक सूत्र से संबंधित हैं। उस समय ऐसे उदाहरण कम थे और उनकी जानकारी भी कम ही लोगों को थी। जिपफ, एक विश्वकोश, इस विचार से ग्रस्त था कि शक्ति कानून न केवल भौतिक विज्ञान में काम करते हैं; मानव व्यवहार, संगठन और शरीर रचना की सभी अभिव्यक्तियाँ उनके अधीन हैं - यहाँ तक कि जननांग अंगों का आकार भी।

सौभाग्य से, मेरे चाचा ने मुझे जो पुस्तक समीक्षा दी, वह केवल एक असामान्य रूप से साफ-सुथरे उदाहरण तक सीमित थी: शब्द आवृत्ति। पाठ या भाषण में, कुछ शब्द, जैसे अंग्रेजी द (निश्चित लेख) या यह ("यह"), अक्सर दिखाई देते हैं; अन्य, मिलरेइस या मोमस, शायद ही कभी या कभी नहीं दिखाई देते हैं (अधिक जिज्ञासुओं के लिए: पहले का अर्थ एक प्राचीन पुर्तगाली सिक्का है, दूसरा "आलोचक" शब्द का पर्याय है)। Zipf ने निम्नलिखित अभ्यास प्रस्तावित किया: कोई भी पाठ लें और गिनें कि प्रत्येक शब्द उसमें कितनी बार आया है। फिर प्रत्येक शब्द को एक रैंक प्रदान करें: 1 - सबसे अधिक उपयोग किए जाने वाले शब्दों के लिए, 2 - घटना की आवृत्ति के संदर्भ में दूसरे स्थान पर रहने वाले शब्दों के लिए, आदि। अंत में, एक ग्राफ बनाएं जिस पर, प्रत्येक रैंक के लिए, इस शब्द की घटनाओं की संख्या इंगित करें। हमें एक अद्भुत ड्राइंग मिलेगी. किसी दिए गए पाठ में सबसे सामान्य शब्द से लेकर सबसे दुर्लभ शब्द तक वक्र समान रूप से कम नहीं होता है। सबसे पहले यह चकरा देने वाली गति से गिरता है, जिसके बाद यह और अधिक धीरे-धीरे कम होने लगता है, एक स्कीयर के प्रक्षेपवक्र को दोहराता है जो स्प्रिंगबोर्ड से कूदता है, और फिर बर्फ से ढके पहाड़ की अपेक्षाकृत कोमल ढलान के साथ उतरता है और नीचे उतरता है। क्लासिक असमान पैमाने का एक उदाहरण. ज़िप्फ़ ने अपने आरेखों में वक्र को फिट करके, इसके लिए एक सूत्र तैयार किया।

मैं चकित रह गया। मेरी लंबी मेट्रो यात्रा के अंत तक, मेरे पास अपने डॉक्टरेट शोध प्रबंध के आधे भाग के लिए पहले से ही एक विषय था। मैं ठीक-ठीक जानता था कि शब्दों के बारंबारता वितरण के गणितीय आधार को कैसे समझाया जाए, जो जिपफ गणितज्ञ न होते हुए भी नहीं कर सकता था। अगले महीनों में, अद्भुत खोजें मेरा इंतजार कर रही थीं। उपरोक्त समीकरण का उपयोग करके, एक शक्तिशाली सामाजिक अनुसंधान उपकरण बनाया जा सकता है। जिपफ के फार्मूले के एक उन्नत संस्करण ने किसी भी व्यक्ति की शब्दावली की समृद्धि को मापना और रैंक करना संभव बना दिया: उच्च मूल्य - समृद्ध शब्दावली; कम मूल्य - ख़राब. इस तरह के पैमाने से, पाठ या वक्ताओं के बीच शब्दावली में अंतर को मापना संभव है। पांडित्य का परिमाण करना संभव हो जाता है। सच है, मेरे मित्र और सलाहकार इस अजीब विषय से निपटने के मेरे दृढ़ संकल्प से भयभीत थे। उन्होंने मुझे बताया कि जिप्फ़ विचित्र स्वभाव का व्यक्ति है। मुझे उनकी किताब दिखाई गई और मैं सहमत था कि यह घृणित थी। मुझे बताया गया कि शब्द गिनना वास्तविक गणित नहीं है। इस विषय को उठाने से मुझे कभी अच्छी नौकरी नहीं मिलेगी; और प्रोफेसर बनना भी मेरे लिए आसान नहीं होगा.

लेकिन मैं बुद्धिमान सलाह के प्रति बहरा बना रहा। इसके अलावा, मैंने अपना शोध प्रबंध बिना किसी सलाहकार के लिखा और यहां तक ​​कि विश्वविद्यालय के एक नौकरशाह को इसे मुहर के साथ प्रमाणित करने के लिए मनाने में भी कामयाब रहा। मैं अंत तक चुने गए मार्ग का अनुसरण करने और जिपफ के विचारों को अर्थशास्त्र में लागू करने के लिए दृढ़ था, क्योंकि न केवल भाषण को एक शक्ति कानून में कम किया जा सकता है। चाहे हम अमीर हों या गरीब, समृद्ध हों या भूख से मर रहे हों - यह सब भी मुझे एक शक्ति कानून का उद्देश्य लगता है।

मैंडेलब्रॉट ने जिप्फ़ के सूत्र को थोड़ा संशोधित किया:

एफ = सी * आर -1/, कहाँ

ए - शब्दावली की समृद्धि को दर्शाने वाला गुणांक; ए का मूल्य जितना बड़ा होगा, पाठ की शब्दावली उतनी ही समृद्ध होगी, क्योंकि प्रत्येक शब्द की रैंक पर घटित होने की आवृत्ति की निर्भरता का वक्र अधिक धीरे-धीरे घटता है, और, उदाहरण के लिए, दुर्लभ शब्द छोटे मूल्यों की तुलना में अधिक बार दिखाई देते हैं एक का. यह वह संपत्ति थी जिसका उपयोग मैंडेलब्रॉट ने विद्वता का आकलन करने के लिए करना चाहा था।

जिप्फ़ के नियम के साथ, सब कुछ इतना सहज नहीं है, और विशिष्ट अनुप्रयोगों में प्रयोगात्मक रूप से निर्धारित गुणांक ए पर भरोसा करना हमेशा संभव नहीं होता है। साथ ही, जिप्फ़ का नियम पेरेटो के नियम "उल्टे" से अधिक कुछ नहीं है, क्योंकि दोनों शक्ति श्रृंखला के विशेष मामले हैं, या... आर्थिक और सामाजिक प्रणालियों की भग्न प्रकृति की अभिव्यक्ति हैं।

अपने लिए, मैंने आर्थिक प्रणालियों की भग्न प्रकृति का सार इस प्रकार तैयार किया। एक ओर, खेल की यादृच्छिकता है: रूलेट, पासा फेंकना। दूसरी ओर, तकनीकी/भौतिक यादृच्छिकता: खराद पर बने शाफ्ट के व्यास में भिन्नता, एक वयस्क की ऊंचाई में भिन्नता। उपरोक्त सभी घटनाओं का वर्णन किया गया है। तो, ऐसी कई घटनाएं हैं जो इस वितरण का पालन नहीं करती हैं: देशों और व्यक्तियों की संपत्ति, स्टॉक की कीमतों में उतार-चढ़ाव, विनिमय दर, शब्दों के उपयोग की आवृत्ति, भूकंप की ताकत... ऐसी घटनाओं की विशेषता क्या है यह है कि औसत मूल्य बहुत हद तक नमूने पर निर्भर करता है। उदाहरण के लिए, यदि आप अलग-अलग ऊंचाई के सौ यादृच्छिक लोगों को लेते हैं, तो उनमें पृथ्वी के सबसे लंबे व्यक्ति को जोड़ने से उस समूह की औसत ऊंचाई में ज्यादा बदलाव नहीं आएगा। यदि हम एक सौ यादृच्छिक लोगों की औसत आय की गणना करते हैं, तो ग्रह पर सबसे अमीर व्यक्ति - कार्लोस स्लिम हेलू (और बिल गेट्स नहीं, जैसा कि कई लोग सोच सकते हैं :)) को जोड़ने से प्रत्येक की औसत संपत्ति लगभग 500 मिलियन तक बढ़ जाएगी। डॉलर!

भग्नता की एक और अभिव्यक्ति नमूने का महत्वपूर्ण स्तरीकरण है। उदाहरण के लिए विचार करें,

सहमत हूँ, प्रस्तुत पैटर्न एक फली में दो मटर की तरह है और ज़िपफ वक्र के समान है!

भग्नता का एक गुण आत्म-पुनरावृत्ति है। तो, सूची में सूचीबद्ध दुनिया के 192 देशों में से, दुनिया की 80% संपत्ति सिर्फ 18 देशों में केंद्रित है - 9.4% (18/192)। अगर अब हम केवल इन 18 देशों पर विचार करें तो उनकी कुल संपत्ति 46 ट्रिलियन है। डॉलर - समान रूप से असमान रूप से वितरित। इन 46 ट्रिलियन का 80%। आधे से भी कम देशों में संकेन्द्रित, आदि।

आप पूछ सकते हैं: इस सब से व्यावहारिक निष्कर्ष क्या है? मैं यह कहूंगा:

  1. गॉसियनों द्वारा सामाजिक और आर्थिक प्रणालियों का वर्णन नहीं किया गया है। ये पैटर्न शक्ति श्रृंखला [पर्यायवाची: भग्न प्रकृति] का पालन करते हैं।
  2. गाऊसी घंटी वक्र की भविष्यवाणी की तुलना में माध्य से आउटलेयर काफी अधिक होने की संभावना है। इसके अलावा, उत्सर्जन प्रणाली में अंतर्निहित है; वे यादृच्छिक नहीं, बल्कि प्राकृतिक हैं।
  3. जोखिम मूल्यांकन दुर्लभ प्रतिकूल घटनाओं की सामान्य संभाव्यता वितरण पर आधारित नहीं हो सकता है।
  4. ... मैं झूठ नहीं बोलूंगा, मैं अभी कुछ और नहीं सोच सकता... लेकिन इसका मतलब यह नहीं है कि अब कोई व्यावहारिक निष्कर्ष नहीं हैं... बात बस इतनी है कि मेरा ज्ञान यहीं तक सीमित है...

...लेकिन आपको स्वीकार करना होगा, पैटर्न सुंदर हैं!

भग्नता पर, बेनोइट मैंडेलब्रॉट देखें

यह ध्यान दिया जाना चाहिए कि विभिन्न स्रोतों से डेटा बहुत भिन्न होता है, लेकिन यह यहां चर्चा किए गए विषय से प्रासंगिक नहीं है।

किसी पाठ की गुणवत्ता आँकने के मापदण्डों में उसकी स्वाभाविकता को प्रमुख माना जाता है। इस सूचक का परीक्षण अमेरिकी भाषाविद् जॉर्ज जिपफ द्वारा खोजी गई गणितीय पद्धति का उपयोग करके किया जा सकता है।

Zipf के नियम के अनुसार जाँच करेंकिसी पाठ की स्वाभाविकता का आकलन करने, शब्द व्यवस्था के पैटर्न को निर्धारित करने की एक विधि है, जहां किसी शब्द की आवृत्ति पाठ में उसके स्थान के व्युत्क्रमानुपाती होती है।

Zipf का पहला नियम "रैंक-फ़्रीक्वेंसी"

सी = (किसी शब्द के घटित होने की आवृत्ति x आवृत्ति की रैंक) / शब्दों की संख्या।

यदि हम किसी शब्द का अनुपात उसकी आवृत्ति रैंक से लेते हैं, तो मान (सी) स्थिर होगा, और यह किसी भी भाषा में दस्तावेज़ के लिए सच है; प्रत्येक भाषा समूह के भीतर मान स्थिर होगा।

वे शब्द जो दस्तावेज़ के लिए महत्वपूर्ण हैं और उसके विषय को परिभाषित करते हैं, अतिशयोक्ति के बीच में हैं। सबसे अधिक उपयोग किए जाने वाले शब्द, साथ ही कम-आवृत्ति वाले, कोई निर्णायक अर्थपूर्ण अर्थ नहीं रखते हैं।

Zipf का दूसरा नियम "मात्रा - आवृत्ति"

किसी पाठ में किसी शब्द की आवृत्ति और उसकी संख्या भी एक दूसरे से संबंधित होती है। यदि आप एक ग्राफ बनाते हैं जहां X एक शब्द की आवृत्ति है, Y किसी दिए गए आवृत्ति के शब्दों की संख्या है, तो वक्र का आकार अपरिवर्तित रहेगा।

अच्छा पाठ लिखने का सिद्धांत यह है कि इसे कम से कम शब्दों का उपयोग करके जितना संभव हो उतना स्पष्ट बनाया जाए।

कानून किसी भी भाषा के लिए एक सामान्य संपत्ति दर्शाता है, क्योंकि सबसे अधिक बार आने वाले शब्दों की एक निश्चित संख्या हमेशा रहेगी।

यदि कीवर्ड का उपयोग लेखन में किया गया है तो एसईओ पाठ की स्वाभाविकता की जांच करना आवश्यक है, ताकि यह पाठकों के बड़े दर्शकों के लिए दिलचस्प और समझने योग्य हो। खोज इंजनों द्वारा साइटों की रैंकिंग करते समय यह संकेतक भी महत्वपूर्ण है, जो प्रमुख प्रश्नों के लिए पाठ के पत्राचार को निर्धारित करता है, शब्दों को महत्वपूर्ण, यादृच्छिक और सहायक समूहों में वितरित करता है।

अधिक जानकारी:

  • पाठ f में किसी शब्द के घटित होने की आवृत्ति और आवृत्ति शब्दकोश (रैंक) r में उसके स्थान के बीच संबंध व्युत्क्रमानुपाती होता है। किसी शब्द की रैंक जितनी ऊंची होगी (शब्दकोश की शुरुआत से वह उतना ही आगे होगा), पाठ में उसके आने की आवृत्ति उतनी ही कम होगी।
  • ऐसी निर्भरता का ग्राफ एक हाइपरबोला है, जो रैंक के छोटे मूल्यों पर बहुत तेजी से गिरता है, और फिर, घटना की आवृत्ति के कम मूल्यों के क्षेत्र में, एफ, बहुत दूर तक, धीरे-धीरे, लेकिन बहुत ही अगोचर रूप से फैलता है , जैसे-जैसे रैंक, आर बढ़ता है, घटता जाता है।
  • यदि एक शब्द की आवृत्ति 4 प्रति मिलियन है और दूसरे की आवृत्ति 3 प्रति मिलियन है, तो इससे कोई फर्क नहीं पड़ता कि इन शब्दों की रैंक में एक हजार गुना अंतर है। इन शब्दों का प्रयोग इतना कम किया जाता है कि कई देशी वक्ताओं ने इन्हें कभी सुना भी नहीं है।
  • हालाँकि, यह सुदूर क्षेत्र इस मायने में उल्लेखनीय है कि यहाँ स्थित एक शब्द बहुत आसानी से अपने रैंक मान को कई गुना कम कर सकता है। यहां तक ​​कि किसी शब्द के घटित होने की आवृत्ति में सबसे छोटी वृद्धि भी आवृत्ति शब्दकोश की शुरुआत में अपनी स्थिति को तेजी से बदल देती है।
  • इस नियम के अनुसार, किसी शब्द की लोकप्रियता का माप भाषा के आवृत्ति शब्दकोश में उसकी स्थिति है। कम लोकप्रिय शब्द की तुलना में अधिक लोकप्रिय शब्द शब्दकोश की शुरुआत के अधिक करीब होता है।
  • यह किसी भाषा में किसी शब्द के उपयोग की आवृत्ति की आवृत्ति शब्दकोश में उसके स्थान पर निर्भरता को दर्शाता है। भाषा के प्रचलित शब्दों का प्रयोग अधिक होता है। गणितीय दृष्टिकोण से, इस निर्भरता का ग्राफ एक हाइपरबोला है जिसमें मूल बिंदु के करीब पहुंचने पर तेज वृद्धि होती है और एक लंबी, सपाट, लगभग क्षैतिज "पूंछ" होती है। भाषा के अधिकांश शब्द इसी "पूंछ" में स्थित हैं। यहां, आवृत्ति शब्दकोश में किसी शब्द का स्थान, यदि भाषा में इस शब्द के उपयोग की आवृत्ति बदल जाती है, तो इसमें बहुत अधिक परिवर्तन नहीं होता है।
  • लेकिन जैसे ही आवृत्ति शब्दकोश में शब्द की स्थिति हाइपरबोला पर उस स्थान पर पहुंचती है, जहां, जैसे ही यह निर्देशांक की उत्पत्ति के करीब पहुंचता है, वक्र में महत्वपूर्ण वृद्धि शुरू हो जाती है, स्थिति बदल जाती है। अब किसी शब्द के घटित होने की आवृत्ति में एक छोटे से बदलाव से उसकी श्रेणी में महत्वपूर्ण परिवर्तन नहीं होता है, यानी आवृत्ति शब्दकोश में शब्द की स्थिति बदलना बंद हो जाती है। इसका मतलब यह है कि इस शब्द की लोकप्रियता की वृद्धि धीमी हो गई है। इसे जारी रखने के लिए, शब्द के घटित होने की आवृत्ति को बढ़ाने के लिए विशेष उपाय किए जाने चाहिए। उदाहरण के लिए, यदि शब्द किसी उत्पाद का नाम है, तो आपको विज्ञापन अभियान पर पैसा खर्च करना होगा (

नमस्ते! हाल ही में, मैं जिपफ के कानून के अनुसार पाठ की गुणवत्ता का मूल्यांकन करने के लिए तकनीकी विशिष्टताओं की आवश्यकता के बारे में सहकर्मियों से अधिक से अधिक बार सुन रहा हूं। और हर कोई यह नहीं समझता कि इस कानून का अनुपालन करने के लिए पाठ को कैसे संपादित किया जाए। आज के लेख में मैं आपको यह बताने की कोशिश करूंगा कि पैरामीटर को सबसे सरल तरीके से कैसे सुधारें, और यह भी स्पष्ट करें कि अच्छे लेखकों को वास्तव में इसकी आवश्यकता क्यों नहीं है।

आप कई सेवाओं का उपयोग करके Zipf के नियम के अनुसार पाठ की गुणवत्ता निर्धारित कर सकते हैं। लेकिन मुझे लगता है कि पीआर-सीवाई सबसे पर्याप्त है, यह एक सरल और समझने योग्य इंटरफ़ेस के साथ सही फॉर्मूला को जोड़ती है। यह वही है जो मैंने इस सामग्री को तैयार करते समय उपयोग किया था।

ज़िपफ का नियम क्या है?

सबसे पहले, आपको यह पता लगाना होगा कि यह क्या है। यदि आप विकिपीडिया पर विश्वास करते हैं, तो जीन-बैप्टिस्ट एस्टो ने 1908 में इस पैटर्न को तैयार किया था; यह कानून मूल रूप से शॉर्टहैंड पर लागू होता था। आम जनता के लिए ज्ञात पैटर्न का पहला अनुप्रयोग जनसांख्यिकी से संबंधित है, या अधिक सटीक रूप से शहरों में जनसंख्या के वितरण से संबंधित है, जिसका उपयोग फेलिक्स ऑउरबैक द्वारा किया गया था।

इस पैटर्न को इसका आधुनिक नाम 1949 में भाषाविद् जॉर्ज जिपफ की बदौलत मिला। इसकी सहायता से उन्होंने जनसंख्या के बीच धन वितरण का क्रम दर्शाया। और तभी पाठों की पठनीयता निर्धारित करने के लिए कानून का उपयोग किया जाने लगा।

इसकी गणना कैसे की जाती है

इस कानून का सही ढंग से उपयोग करने के लिए, आपको यह समझना होगा कि यह कैसे काम करता है। आइए गणना के सूत्र पर नजर डालें।

  • एफ - शब्द प्रयोग की आवृत्ति;
  • आर - क्रम संख्या;
  • C एक स्थिर मान है (सबसे बड़ी संख्या में दोहराव वाले शब्द को दर्शाने वाली संख्या)।

व्यवहार में, एक और सूत्र अधिक सुविधाजनक साबित होता है; यह अधिक स्पष्ट दिखता है।

यह दृष्टिकोण अधिक सुविधाजनक है क्योंकि हमारे पास सबसे सामान्य शब्द की पुनरावृत्ति की संख्या पर डेटा है। इसी मात्रा से उनकी शुरुआत होती है.

सरल बनाने के लिए, हमारे पाठ में दूसरा सबसे अधिक दोहराया जाने वाला शब्द पहले की तुलना में आधा बार दिखाई देना चाहिए। तीसरे स्थान पर आना, तीन बार इत्यादि।

पाठ समायोजन का उदाहरण

हमने सिद्धांत को थोड़ा सुलझा लिया है। जो कुछ बचा है वह अभ्यास का पता लगाना है। प्रायोगिक पाठ के रूप में, मैंने टी-जे से एक लेख लिया। वहां से क्यों? यह आसान है। फिलहाल, यह कई लोगों द्वारा पसंद की जाने वाली सूचना शैली का सबसे अच्छा उदाहरण है। खैर, यह दिलचस्प था कि मैक्सिम इल्याखोव के नेतृत्व में लिखा गया पाठ क्या दिखाएगा। मैं तुरंत कहूंगा कि इस सूचक पर पाठ समान स्तर पर हैं, हालांकि, 40 से अधिक साइटों पर खोज करने के बाद, मुझे खराब स्वाभाविकता वाला एक भी लेख नहीं मिला। इसके अलावा, मैं आगे बढ़ूंगा और कहूंगा कि समायोजन के बाद प्रयोगात्मक पाठ बहुत खराब हो गया है, जिपफ स्कोर में सुधार के बावजूद, आपको अत्यधिक बढ़ती प्राकृतिकता के साथ ज्यादा परेशान नहीं होना चाहिए।

परीक्षण के बाद विश्लेषक ने हमें यही दिखाया।

आइए देखें कि वहां क्या कहा गया है। जैसा कि आप देख सकते हैं, वहाँ शब्दों के साथ-साथ समझ से परे संख्याओं वाला एक कॉलम भी है। "घटनाएँ" कॉलम (1) इंगित करता है कि पाठ में शब्द रूप कितनी बार आते हैं। Zipf कॉलम (2) घटनाओं की अनुशंसित संख्या दिखाता है। मार्कर 3 और 4 दूसरे और तीसरे स्थान के लिए आदर्श संकेतक चिह्नित करते हैं। यह अनुशंसाओं पर भी ध्यान देने योग्य है; यह इंगित करता है कि आदर्श संयोजन प्राप्त करने के लिए कितने शब्दों को हटाने की आवश्यकता है।

बेहतर समझ के लिए, आइए देखें कि विश्लेषक ने क्या गिना। आइए संख्या 39 (सी) को आधार के रूप में लें, हमें एक क्रमांक संख्या की भी आवश्यकता होगी, स्थिति 2 (एफ) पर ध्यान दें। चलिए सूत्र लेते हैं.

आइए स्थानापन्न करें.

एफ=39/2=19.5

हम राउंड अप करते हैं और 20 प्राप्त करते हैं, यह घटनाओं की आवश्यक संख्या होगी। इसकी पुष्टि विश्लेषक ने की है. हमारे देश में, दूसरा सबसे लोकप्रिय शब्द 28 बार उपयोग किया जाता है, इसलिए 8 पुनरावृत्तियों को हटाने या बदलने की आवश्यकता होगी।

कानून के सिद्धांत को समझने के बाद, हम संपादन करना शुरू करते हैं। ऐसा करने के लिए, हम उन पर्यायवाची शब्दों को हटा देते हैं या उनके साथ बदल देते हैं जिनमें Zipf की आवश्यकता से अधिक आवृत्तियाँ होती हैं। परिणामस्वरूप, हमें यह चित्र प्राप्त होता है।

जैसा कि आप देख सकते हैं, मैं दर को 83% से बढ़ाकर 88% करने में सक्षम था। लेकिन, साथ ही, पाठ की गुणवत्ता में काफी गिरावट आई। आपको इस सूचक को 100% तक बढ़ाने का प्रयास नहीं करना चाहिए। वास्तव में, यदि आपके पास पहले से ही 75% है, तो यह बहुत अच्छा है और इसे और विकृत करने की कोई आवश्यकता नहीं है।

मददगार सलाह

केवल पहली पंक्तियों पर ही ध्यान न दें। सूची में अंतिम स्थानों से समायोजन शुरू करें; वे अक्सर पहले दस शब्दों की तुलना में समग्र संकेतक पर अधिक प्रभाव डालते हैं।

ज़िपफ और एसईओ

अब आइए आगे बढ़ते हैं कि एक कॉपीराइटर को इस पैटर्न के ज्ञान की आवश्यकता क्यों है। एसईओ विशेषज्ञ, टेक्स्ट ऑर्डर करते समय, उन्हें खोज इंजनों के लिए सबसे सुविधाजनक बनाने का प्रयास करते हैं। ऐसा माना जाता है (हालाँकि यह स्पष्ट नहीं है कि किसके द्वारा) कि Zipf का नियम सक्रिय रूप से खोज एल्गोरिदम द्वारा उपयोग किया जाता है। इस कथन को सिद्ध या असिद्ध करना कठिन है। मुझे इस विषय पर कोई सार्थक शोध या प्रयोग नहीं मिला।

मैंने स्वयं इसकी जाँच करने का निर्णय लिया। ऐसा करने के लिए, मैंने "प्लास्टिक विंडोज़" जैसे प्रतिस्पर्धी अनुरोध के खोज परिणाम लिए, यांडेक्स ने मॉस्को खोज परिणाम लिए, मुझे Google में कुछ जादू करना पड़ा, और ऐसा लगा कि मुझे राजधानी के निवासी के रूप में भी पहचाना जा सके ( कम से कम इसने मुझे मॉस्को जियोलोकेशन वाला एक विज्ञापन दिखाया)। मैंने खोज परिणामों का पहला पृष्ठ और साथ ही 49वाँ स्थान प्राप्त किया। नतीजा कुछ इस तरह का संकेत है.

यदि आप अधिक बारीकी से देखेंगे, तो आप देखेंगे कि यांडेक्स में परिणाम अधिक समान हैं, यदि आप उस पैटर्न को देखते हैं जिसका हम अध्ययन कर रहे हैं। लेकिन, साथ ही, एक उच्च संकेतक शीर्ष में प्रथम स्थान की लड़ाई में जीत की गारंटी नहीं देता है।

इसके आधार पर, हम कह सकते हैं कि यदि खोज इंजन इस कानून को लागू करते हैं, तो यह केवल कारकों में से एक है। और मुख्य नहीं.

निष्कर्ष

ठीक है अब सब ख़त्म हो गया। अब आप जानते हैं कि Zipf के नियम के अनुसार पाठ की गुणवत्ता क्या है, और आप इस संकेतक को समायोजित भी कर सकते हैं। वास्तव में, यहां कुछ भी जटिल नहीं है, सब कुछ काफी सरल है। इस पैटर्न के संचालन के सिद्धांत को एक बार समझना पर्याप्त है।

SEO की दुनिया लगातार विकसित हो रही है, और अनुकूलन स्थिर नहीं रहता है। पाठ लिखने और उन्हें बेहतर अनुक्रमण के लिए तैयार करने की नई विधियाँ उभर रही हैं। ऑप्टिमाइज़र ने जिन मापदंडों पर बारीकी से ध्यान दिया उनमें से एक ज़िपफ के नियम के अनुसार पाठ की स्वाभाविकता है। Zipf का नियम क्या है और SEO प्रमोशन में इसकी भूमिका क्या है?

सूत्रीकरण के अनुसार, जिप्फ़ का नियम एक पाठ में शब्द आवृत्ति का प्रयोगात्मक रूप से स्थापित पैटर्न है। कानून के अनुसार, किसी पाठ में किसी शब्द की आवृत्ति सूची में उसके स्थान के लगभग व्युत्क्रमानुपाती होती है। अर्थात्, कानून के आधार पर, पाठ में दूसरे सबसे अधिक बार उल्लिखित शब्द का उपयोग पहले की तुलना में दो गुना कम बार किया जाना चाहिए, और तीसरे - तीन गुना कम बार, और इसी तरह।

इस पैटर्न को समझना आसान बनाने के लिए, आपको कंप्यूटर कीबोर्ड पर अक्षरों की व्यवस्था पर ध्यान देना चाहिए। यह आकस्मिक नहीं है: किसी भी भाषा के सबसे अधिक उपयोग किए जाने वाले अक्षर कम बार उपयोग किए जाने वाले अक्षरों की तुलना में अधिक आसानी से स्थित होते हैं। शब्दों के साथ स्थिति समान है: अक्सर उपयोग किए जाने वाले और शायद ही कभी उपयोग किए जाने वाले शब्द होते हैं, अधिक महत्वपूर्ण शब्द होते हैं जो पाठ के विषय को निर्धारित करते हैं।

खोज इंजन एल्गोरिदम में साइटों की रैंकिंग करते समय शब्दों के महत्व के आधार पर पृथक्करण का भी उपयोग किया जाता है। इसे ध्यान में रखते हुए, अर्थ और उपयोग की आवृत्ति के संदर्भ में शब्दों के बीच का अंतर एसईओ पाठ लिखते समय शब्दों को 3 समूहों में विभाजित करने में मदद करता है:

  • सहायक. इस समूह में ऐसे शब्द शामिल हैं जो स्वतंत्र अर्थ भार नहीं रखते हैं, उदाहरण के लिए संयोजन, पूर्वसर्ग, सर्वनाम, कण। सभी सहायक शब्दों को खोज इंजन द्वारा सूचना शोर के रूप में माना जाता है और रैंकिंग करते समय अनदेखा कर दिया जाता है।
  • महत्वपूर्ण। ऐसे शब्द ग्रंथों में कम आम हैं और महत्वपूर्ण अर्थपूर्ण भार रखते हैं। खोज इंजन इस समूह के शब्दों को मुख्य शब्दों के रूप में देखते हैं।
  • यादृच्छिक। इस समूह के शब्दों का उपयोग किसी विशिष्ट विषय पर पाठ के लिए शायद ही कभी किया जाता है और वस्तुतः खोज रैंकिंग पर कोई प्रभाव नहीं पड़ता है।

एसईओ विशेषज्ञों के अनुसार, अमेरिकी भाषाविद् जॉर्ज जिप्फ़ ने ऐसे कानूनों की पहचान की, जिनका उपयोग खोज इंजनों द्वारा इस्तेमाल किए गए शब्दों की आवृत्ति के आधार पर ग्रंथों की स्वाभाविकता और विशिष्टता को निर्धारित करने के लिए किया जाने लगा।

ऑप्टिमाइज़र को अक्सर उच्च स्तर की विशिष्टता और प्रासंगिकता वाले टेक्स्ट को बढ़ावा देने में समस्याओं का सामना करना पड़ता है। अर्थात्, पाठ 100% अद्वितीय हो सकता है, उच्च प्रासंगिकता के साथ एक प्रमुख क्वेरी के लिए अनुकूलित किया जा सकता है, और साथ ही शीर्ष पर नहीं पहुंच सकता है या, इससे भी बदतर, पदों का विश्लेषण करने के लिए कार्यक्रमों के दृश्य क्षेत्र से बाहर रह सकता है।

यह निर्धारित करना आसान नहीं है कि Zipf का नियम व्यक्तिगत रूप से खोज परिणामों को कितना प्रभावित करता है। सबसे अधिक संभावना है, खोज इंजन कई कारकों के संयोजन को ध्यान में रखते हैं, जिनमें से प्राकृतिकता के लिए जिप्फ़ परीक्षण है। आज, सामग्री खोज इंजन प्रचार में सबसे महत्वपूर्ण भूमिकाओं में से एक निभाती है, इसलिए एसईओ टेक्स्ट बनाते समय विशिष्टता और स्वाभाविकता के संकेतकों की सावधानीपूर्वक निगरानी करने की सिफारिश की जाती है। पाठों की जाँच के लिए कई सेवाएँ हैं। आइए दो सबसे लोकप्रिय और सिद्ध साइटों पर ध्यान दें - 1y.ru और pr-cy.ru।

सेवा 1y.ru

साइट आपको सामग्री की स्वाभाविकता के लिए व्यक्तिगत वेब पेजों, संपूर्ण साइटों या 100 से 5,000 शब्दों तक के पाठों की जांच करने की अनुमति देती है। अनाम उपयोगकर्ताओं के लिए सीमा आपको प्रति दिन 2000 टेक्स्ट तक जांचने की अनुमति देती है। साइट का नुकसान यह है कि परिणामों को विकृत किए बिना किसी वेब पेज की जांच करना असंभव है, क्योंकि सेवा रूब्रिकेटर, विजेट, मेनू और अन्य प्रकार के सहायक पाठ सहित सभी पाठ जानकारी को स्कैन करती है।

पाठ की जांच करने के बाद, 1y.ru दोहराव वाले शब्दों को कम करने के लिए सिफारिशों के साथ सामग्री आंकड़े प्रदान करता है और तीन वक्रों के साथ एक ग्राफ प्रदान करता है: जांचे जा रहे पाठ के लिए एक मूल्य वक्र, एक अनुशंसित मूल्य वक्र और एक आदर्श मूल्य वक्र।

सेवा pr-cy.ru

यह संसाधन टेक्स्ट और वेब पेजों की स्वाभाविकता का मूल्यांकन करने का अवसर भी प्रदान करता है। सेवा स्टॉप शब्दों को फ़िल्टर करती है, टेक्स्ट मतली के प्रतिशत की गणना करती है, और जिपफ के कानून के अनुसार घटनाओं की संख्या को कम करने या बढ़ाने के लिए सिफारिशें भी प्रदान करती है।


निष्कर्ष

विभिन्न सेवाओं में एक ही पाठ की जाँच करते समय परिणामों में अंतर महत्वपूर्ण हो सकता है। तो, आप जो पाठ पढ़ रहे हैं उसके पहले तीन पैराग्राफ में 1y.ru के लिए 59% और pr-cy.ru के लिए 88% दिखाया गया है। केवल एक ही निष्कर्ष है: पाठ लिखते समय, आपको लेख के मुख्य भाग में प्रमुख प्रविष्टियों को फिट करने पर अत्यधिक ध्यान नहीं देना चाहिए। आपको दिलचस्प और सुलभ तरीके से लिखने की ज़रूरत है, और यदि आपको अभी भी टेक्स्ट में कीवर्ड डालने की ज़रूरत है, तो Zipf विधि का उपयोग करके टेक्स्ट की जांच करना उचित है।

किसी प्राकृतिक भाषा के शब्द: यदि किसी भाषा के सभी शब्द (या बस एक पर्याप्त लंबा पाठ) उनके उपयोग की आवृत्ति के अवरोही क्रम में क्रमबद्ध हैं, तो आवृत्ति एनऐसी सूची में वें शब्द की संख्या उसकी क्रम संख्या के लगभग व्युत्क्रमानुपाती होगी एन(तथाकथित पदयह शब्द, ऑर्डर स्केल देखें)। उदाहरण के लिए, दूसरा सबसे अधिक इस्तेमाल किया जाने वाला शब्द पहले की तुलना में लगभग दो गुना कम बार, तीसरा - पहले की तुलना में तीन गुना कम बार, इत्यादि।

सृष्टि का इतिहास[ | ]

पैटर्न की खोज के लेखक एक फ्रांसीसी आशुलिपिक (fr) हैं। जीन-बैप्टिस्ट एस्टूप), जिन्होंने 1908 में अपने काम "द रेंज ऑफ़ शॉर्टहैंड" में इसका वर्णन किया था। इस कानून का उपयोग पहली बार 1913 में जर्मन भौतिक विज्ञानी फेलिक्स ऑरबैक द्वारा अपने काम "द लॉ ऑफ पॉपुलेशन कंसंट्रेशन" में शहर के आकार के वितरण का वर्णन करने के लिए किया गया था और इसका नाम अमेरिकी भाषाविद् जॉर्ज जिपफ के नाम पर रखा गया था, जिन्होंने 1949 में इस पैटर्न को सक्रिय रूप से लोकप्रिय बनाया था, पहली बार प्रस्तावित किया था आर्थिक शक्तियों के वितरण और सामाजिक स्थिति का वर्णन करने के लिए इसका उपयोग करना।

एडिटिव मार्कोव चेन (स्टेप मेमोरी फ़ंक्शन के साथ) के सहसंबंध गुणों के आधार पर ज़िपफ के नियम की व्याख्या 2005 में दी गई थी।

ज़िप्फ़ के नियम को पेरेटो वितरण द्वारा गणितीय रूप से वर्णित किया गया है। यह इन्फोमेट्रिक्स में उपयोग किए जाने वाले बुनियादी कानूनों में से एक है।

कानून के अनुप्रयोग[ | ]

1949 में जॉर्ज ज़िप्फ़ ने सबसे पहले लोगों की आय का उनके आकार के अनुसार वितरण दिखाया था: सबसे अमीर व्यक्ति के पास अगले सबसे अमीर व्यक्ति की तुलना में दोगुना पैसा होता है, इत्यादि। यह कथन 1926 से 1936 की अवधि में कई देशों (इंग्लैंड, फ्रांस, डेनमार्क, हॉलैंड, फिनलैंड, जर्मनी, संयुक्त राज्य अमेरिका) के लिए सच साबित हुआ।

यह कानून शहरी व्यवस्था के वितरण के संबंध में भी काम करता है: किसी भी देश में सबसे बड़ी आबादी वाला शहर अगले सबसे बड़े शहर से दोगुना बड़ा होता है, इत्यादि। यदि आप किसी निश्चित देश के सभी शहरों को जनसंख्या के अवरोही क्रम में एक सूची में व्यवस्थित करते हैं, तो प्रत्येक शहर को एक निश्चित रैंक दी जा सकती है, अर्थात, वह संख्या जो उसे इस सूची में प्राप्त होती है। इस मामले में, जनसंख्या का आकार और रैंक सूत्र द्वारा व्यक्त एक सरल पैटर्न का पालन करते हैं:

पी एन = पी 1 / एन (\displaystyle पी_(एन)=पी_(1)/एन),

कहाँ पी एन (\डिस्प्लेस्टाइल पी_(एन))- शहर की जनसंख्या एन-वीं रैंक; पी 1 (\डिस्प्लेस्टाइल पी_(1))- देश के मुख्य शहर की जनसंख्या (पहली रैंक)।

अनुभवजन्य शोध इस कथन की पुष्टि करता है।

1999 में, अर्थशास्त्री ज़ेवियर गैबेट ने ज़िप्फ़ के नियम को शक्ति कानून के एक उदाहरण के रूप में वर्णित किया: यदि शहर समान मानक विचलन के साथ यादृच्छिक रूप से बढ़ते हैं, तो सीमा में वितरण ज़िप्फ़ के नियम में परिवर्तित हो जाएगा।

ज़िप्फ़ के कानून के अनुसार, रूसी संघ में शहरी निपटान के संबंध में शोधकर्ताओं के निष्कर्षों के अनुसार:

  • अधिकांश रूसी शहर आदर्श ज़िपफ़ वक्र के ऊपर स्थित हैं, इसलिए अपेक्षित प्रवृत्ति बड़े शहरों में प्रवास के कारण मध्यम और छोटे शहरों की संख्या और जनसंख्या में निरंतर कमी है;
  • तदनुसार, आदर्श ज़िपफ़ वक्र के नीचे स्थित 7 मिलियन से अधिक शहर (सेंट पीटर्सबर्ग, नोवोसिबिर्स्क, येकातेरिनबर्ग, निज़नी नोवगोरोड, कज़ान, चेल्याबिंस्क, ओम्स्क) में जनसंख्या वृद्धि के लिए एक महत्वपूर्ण रिजर्व है और जनसंख्या वृद्धि की उम्मीद है;
  • रैंक में पहले शहर (मॉस्को) की आबादी कम होने का खतरा है, क्योंकि दूसरे शहर (सेंट पीटर्सबर्ग) और उसके बाद के बड़े शहर श्रम की मांग में कमी के साथ-साथ वृद्धि के कारण आदर्श जिपफ वक्र से काफी पीछे हैं। रहने की लागत, जिसमें सबसे पहले, आवास की खरीद और किराये की लागत शामिल है।

आलोचना [ | ]

अमेरिकी जैव सूचना विज्ञान विशेषज्ञ ज़िप्फ़ के नियम की एक सांख्यिकीय व्याख्या प्रस्तावित की, जिससे साबित हुआ कि प्रतीकों का एक यादृच्छिक अनुक्रम भी इस कानून का पालन करता है। लेखक ने निष्कर्ष निकाला है कि ज़िपफ का नियम पूरी तरह से सांख्यिकीय घटना प्रतीत होता है जिसका पाठ के शब्दार्थ से कोई लेना-देना नहीं है और इसका भाषाविज्ञान से सतही संबंध है।