आई.वी. डेनिलेव्स्की, जिपफ-पेरेटो कानून, नई क्वांटम प्रौद्योगिकियां और अचेतन का दर्शन

चुनाव प्रक्रिया के दौरान मतदाता कुछ खास के प्रति अपना रुख जाहिर करते हैं राजनेताओंया पार्टियाँ, किसी विशेष उम्मीदवार या पार्टी के लिए अपना वोट डाल रही हैं। सवाल उठता है: क्या ऐसे कोई पैटर्न हैं जो विभिन्न उम्मीदवारों या पार्टियों के बीच वोटों के वितरण का वर्णन करते हैं? यदि कोई पैटर्न नहीं है, तो उम्मीदवारों या पार्टियों द्वारा प्राप्त वोटों की संख्या के साथ-साथ वोटों की इन संख्याओं और, उदाहरण के लिए, मतदाता मतदान या अमान्य मतपत्रों की संख्या के बीच कोई संबंध संभव है। यदि वोटों के वितरण में कुछ निश्चित पैटर्न हैं, तो उनके वितरण के सभी विकल्प संभव नहीं हैं। अधिकांशतः अनेक चुनावों की सामग्री पर आधारित विभिन्न देशएक सांख्यिकीय संबंध की पहचान की गई जो विभिन्न उम्मीदवारों और पार्टियों द्वारा चुनावों में प्राप्त वोटों की संख्या के बीच मौजूद है। यह पाया गया कि इस संबंध को निम्नलिखित सरल संबंध द्वारा वर्णित किया गया है:

यदि एक अक्ष पर हम एक लघुगणकीय पैमाने पर प्रत्येक उम्मीदवार द्वारा प्राप्त वोटों एन(i) की संख्या को आलेखित करते हैं, और दूसरे अक्ष पर, एक लघुगणकीय पैमाने पर भी, चुनाव के दौरान उसी उम्मीदवार द्वारा कब्जा किया गया स्थान, तो परिणामी परिणाम बिंदु एक सीधी रेखा के साथ पर्याप्त सन्निकटन के साथ स्थित हैं:

एलएन एन(आई) = ए - बी एक्स एलएनआई (1)

उपरोक्त समीकरण की वैधता की पुष्टि कार्यों की एक श्रृंखला में की गई थी रूसी विशेषज्ञगणितीय राजनीति विज्ञान में (सोबयानिन, सुहोवोल्स्की, 1995), जिन्होंने 1990 में रूस के लोगों के प्रतिनिधियों के चुनाव के परिणामों, 1991 और 1996 में रूस के राष्ट्रपति के चुनावों के साथ-साथ कई देशों में चुनावों के आंकड़ों का विश्लेषण किया। इसकी शुरुआत 1848 में फ्रांस के राष्ट्रपति चुनावों से हुई, जहां लुई नेपोलियन बोनापार्ट की हार हुई।

यह गणितीय परिणामप्रकृति में गैर-तुच्छ. विशेषज्ञ - भौतिक विज्ञानी, रसायनज्ञ, धातुविज्ञानी, जनसांख्यिकी, पारिस्थितिकीविज्ञानी और ज्ञान के कई अन्य क्षेत्रों के प्रतिनिधि जो बड़ी मात्रा में सांख्यिकीय डेटा से निपटते हैं, अच्छी तरह से जानते हैं कि संकेतित संख्यात्मक पैटर्न है सामान्य चरित्रऔर स्थिति को "मुक्त" के रूप में वर्णित करता है प्रतियोगिता"किसी भी सशर्त "वस्तुओं" की एक सीमित मात्रा के वितरण के लिए। यह पता चला है कि वस्तुओं, स्थितियों और कारण-और-प्रभाव संबंधों की सभी कल्पनीय विविधता इस निर्भरता की प्रकृति को नहीं बदलती है: जब तक कि मुक्त प्रतिस्पर्धा है , इसके परिणाम किसी भी स्थिति में "लघुगणकीय सीधी रेखा" पर फिट होते हैं - केवल स्थिरांक ए और सीधी रेखा बी की ढलान की स्थिरता में परिवर्तन होता है। और इसके विपरीत: जैसे ही मुक्त प्रतिस्पर्धा की स्थितियों से विचलन होता है, अंक अनिवार्य रूप से सीधी रेखा से विचलन - और जितना आगे, "अस्वतंत्रता के कारक" उतने ही महत्वपूर्ण। इसलिए, उदाहरण के लिए, उनमें रहने वाले लोगों की संख्या के लिए शहरों की "प्रतिस्पर्धा", सभ्य देशों में आबादी सटीक रूप से इस तरह की ओर ले जाती है निर्भरता। इस बीच, यूएसएसआर में, मॉस्को, लेनिनग्राद और कुछ अन्य केंद्र जैसे शहर "प्रत्यक्ष मुक्त प्रतिस्पर्धा" से काफी हद तक विचलित हो गए - पासपोर्ट शासन से जुड़े प्रशासनिक प्रतिबंधों के कारण। इसी तरह, मुक्त प्रतिस्पर्धा के आकार के बीच समान संबंध होता है सबसे बड़ी संपत्ति और ऐसी संपत्ति की सूची में उनके मालिकों द्वारा कब्जा किया गया "स्थान" - निश्चित रूप से, दुनिया के उन हिस्सों में जहां ऐसी सूचियां मौजूद हैं। ठीक वैसा प्राणीशास्त्रियों को ज्ञात हैद्रव्यमान के आधार पर शिकारियों के वितरण का नियम (अनुपस्थिति में)। मानवजनित कारक), वगैरह।

पहली बार, इस तरह के पैटर्न इतालवी समाजशास्त्री और गणितज्ञ वी. पेरेटो द्वारा स्थापित किए गए थे, जो देश के निवासियों को उनकी संपत्ति की मात्रा के अनुसार वितरण से संबंधित थे; इसके बाद, अमेरिकी भाषाविद् जे.के. इसी तरह के निष्कर्ष पर पहुंचे। Zipf, ग्रंथों में शब्दों के आवृत्ति वितरण का अध्ययन कर रहा है। विभिन्न विकल्पऊपर लिखे संबंध को जिपफ-पेरेटो कानून कहा जाता है। रैंक वितरण के अध्ययन से संबंधित विश्लेषण के तरीके भाषा विज्ञान, साइंटोमेट्रिक्स और पारिस्थितिकी में व्यापक हो गए हैं। चुनावी प्रक्रिया के लिए संबंध (1) के अनुपालन का मतलब है कि सभी उम्मीदवारों के बीच "मुक्त प्रतिस्पर्धा" है, जिनके पास स्वतंत्र रूप से अपनी बात समझाने का अवसर है। राजनीतिक दृष्टिकोणऔर राजनीतिक मंच.

चुनावी प्रक्रिया के लिए जिपफ-पेरेटो कानून की पूर्ति का मतलब है कि प्रत्येक उम्मीदवार, प्रत्येक दल और मतदाताओं के राजनीतिक समूह अपने अनुसार मतदान करें। एक निश्चित प्रकार, का अपना राजनीतिक मंच है जो अन्य सभी के साथ ओवरलैप नहीं होता है। उपलब्ध उम्मीदवारों को मतदाताओं के लिए उपलब्ध सभी संभावित प्राथमिकताओं को कवर करना होगा; तब उम्मीदवारों की प्रस्तावित सूची के बाहर अपनी पसंद की तलाश करने वाले मतदाताओं की हिस्सेदारी काफी कम है, और समीकरण (1) उच्च सटीकता के साथ वोटों के वितरण का वर्णन करता है। अन्यथा, खाली "आला" वितरण (1) में दिखाई दे सकता है, और संपूर्ण विश्लेषण अधिक जटिल हो जाता है।

समीकरण (1) में शामिल पैरामीटर ए और बी की गणना उन मतदाताओं की संख्या के आंकड़ों के आधार पर की जाती है जिन्होंने तरीकों का उपयोग करके विभिन्न उम्मीदवारों या विभिन्न राजनीतिक समूहों के लिए मतदान किया था। प्रतिगमन विश्लेषण. समीकरण (1) में पैरामीटर ए उन मतदाताओं की संख्या का लघुगणक है जिन्होंने अग्रणी उम्मीदवार को वोट दिया। मान बी-वरीयता गुणांक-सीधी रेखा (1) के ढलान को दर्शाता है और मतदाताओं की पसंद की एकरूपता के संख्यात्मक माप के रूप में कार्य करता है। यदि बी = 0, तो इसका मतलब है कि मतदाताओं के पास कुछ पार्टियों या उम्मीदवारों को दूसरों की तुलना में कोई प्राथमिकता नहीं है, और उन सभी को चुनाव में जीत मिली है एक जैसी संख्यावोट. इसके विपरीत, जब बड़े मूल्यस्थिरता बी, बाहरी पार्टियों को अग्रणी पार्टियों की तुलना में बहुत कम वोट मिलते हैं (हालांकि, व्यवहार में, पैरामीटर बी लगभग कभी भी एक से अधिक नहीं होता है)। यदि प्रकार (1) की सीधी रेखा से विचलन देखा जाता है, तो ऊपर की गई धारणाओं के तहत यह मुक्त राजनीतिक प्रतिस्पर्धा के लिए स्थितियों की अनुपस्थिति को इंगित करता है। यह या तो कुछ अतिरिक्त अभिनय की उपस्थिति के कारण हो सकता है बाह्य कारकउदाहरण के लिए, किसी विशेष उम्मीदवार को वोट देने (या वोट न देने) की स्थिति में संभावित राजनीतिक और आर्थिक प्रतिशोध से मतदाताओं को डराना, या चुनाव आयोगों में वोटों की गिनती करते समय चुनाव परिणामों में प्रत्यक्ष रूप से हेराफेरी करना। अलग - अलग स्तर. चित्र 2 रूस में चुनावों में मतदाताओं की संख्या के रैंक वितरण का एक विशिष्ट ग्राफ दिखाता है। जैसा कि आप देख सकते हैं, संख्याओं के बीच विभिन्न समूहमतदाताओं और इन समूहों की रैंक (यानी, उम्मीदवारों की स्थिति) में लघुगणकीय निर्देशांक (दोनों अक्षों के साथ) में व्यावहारिक रूप से एक रैखिक संबंध होता है।

विभिन्न उम्मीदवारों या पार्टियों के लिए डाले गए वोटों के वितरण के प्रकार से चुनावी धोखाधड़ी का पता लगाने में मदद मिलती है। मिथ्याकरण के सबसे सरल मामले में, यदि किसी उम्मीदवार या पार्टी के पक्ष में भरे गए मतपत्रों की एक निश्चित संख्या को मतपेटियों में डाल दिया जाता है, तो यह पता चलता है कि व्यक्तिगत उम्मीदवारों के लिए डाले गए वोटों की संख्या का रैंक वितरण दर्शाया नहीं गया है सीधा। लेकिन अगर हम उस उम्मीदवार के डेटा को बाहर कर दें जिसके पक्ष में हेराफेरी की गई थी, तो शेष उम्मीदवारों (या पार्टियों) के लिए रैंकिंग वितरण सैद्धांतिक के अनुरूप होगा। इस मामले में, आधिकारिक आंकड़ों के अनुसार ऐसे उम्मीदवार द्वारा प्राप्त वोटों की संख्या और संबंधित उम्मीदवार से संबंधित डेटा को छोड़कर रैंकिंग वितरण समीकरण से प्राप्त संख्या के बीच अंतर से फेंके गए मतपत्रों की संख्या का अनुमान लगाया जा सकता है। चित्र 3 चुनाव आयोग के अनुसार प्रशासन के प्रमुख पद के उम्मीदवारों के लिए डाले गए वोटों के वितरण को दर्शाता है लिपेत्स्क क्षेत्र 1993 के वसंत में हुए चुनावों में। यह वितरण स्पष्ट रूप से सीधे से बहुत दूर है। इस मामले में, 1995 में आयोजित एक मुकदमे में प्रथम स्थान प्राप्त करने वाले उम्मीदवार के पक्ष में धोखाधड़ी की पुष्टि हुई।

जॉर्ज जिपफ

इंटरनेट पर जानकारी का मुख्य स्रोत टेक्स्ट हैं। स्वाभाविक रूप से, खोज TOPs में साइटों का प्रचार अधिकतर जुड़ा हुआ है सही वर्तनीसमान सामग्री. लेकिन टेक्स्ट लिखना ही पर्याप्त नहीं है - आपको इसे विभिन्न एसईओ नियमों और अनुशंसाओं के अनुसार प्रारूपित करने की भी आवश्यकता है। इनमें से, सबसे लोकप्रिय और व्यापक रूप से उपयोग किए जाने वाले हैं:

  • न्यूनतम मतली, पानी और स्पैम.
  • पोस्ट की गई सामग्री की सही संरचना (शीर्षक, सूचियाँ)।
  • कुंजियाँ दर्ज करना.

ये सभी बुनियादी बातें हैं, इसलिए इनका उपयोग करें के सबसेअनुकूलक। लेकिन इंटरनेट पर अधिक से अधिक साइटें हैं, इसलिए उनके कुछ मालिक अपने उत्पाद को सफलतापूर्वक बढ़ावा देने के लिए अन्य विकल्पों की तलाश कर रहे हैं। और यहां उनमें से कुछ को एक निश्चित जिप्फ़ के नियम के बारे में याद है। लेकिन न केवल वे अपने लेखन को एक ऐसी सेवा के अनुरूप तैयार करना शुरू करते हैं जो एक अंग्रेजी वैज्ञानिक के बयानों के आधार पर काम करती है जो न जाने कितने साल पहले रहते थे, बल्कि वे किराए के कॉपीराइटरों को भी इस पर अपना दिमाग लगाने के लिए मजबूर करते हैं!

लेकिन डॉ. एतुपिट सतर्क हैं, इसलिए, ब्लैक क्लोक की तरह, वह प्रभावशीलता का पता लगाने के लिए इंटरनेट हैक की सहायता के लिए दौड़ पड़ते हैं यह विधिसबसे प्रसिद्ध खोज इंजनों के शीर्ष पर वेबसाइट के प्रचार के लिए।

Zipf के नियम के अनुसार जाँच करें

वास्तव में, केवल दो सबसे महत्वपूर्ण विशेषताएं हैं:

  • सत्यापन योग्य सामग्री की मतली.
  • स्वाभाविकता.

इस उत्पाद का पहला नुकसान मतली संकेतकों में सटीक रूप से निहित है: डेवलपर्स ने स्पष्ट रूप से इस बात पर ध्यान नहीं दिया कि इस एसईओ विशेषता की शास्त्रीय और अकादमिक भिन्नता है। और इस क्षेत्र में काम करने वाले अधिकांश लोग जानते हैं कि प्रत्येक विकल्प के प्रदर्शन को पूरी तरह से कम करना है विभिन्न तरीके(डॉ. एइतुपिट अपने अगले लेखों में इस बारे में बात करने का प्रयास करेंगे)। लेकिन Tsipfo-service अपने उपयोगकर्ताओं को इस बारे में सूचित नहीं करती है, जिससे कभी-कभी कुछ कठिनाइयों का सामना करना पड़ सकता है। मैं तुम्हें अधिक समय तक पीड़ा नहीं दूँगा और यह बात नहीं कहूँगा इस मामले मेंकेवल क्लासिक मतली निहित है।

आइए "प्राकृतिकता" की ओर आगे बढ़ें। यह क्या है? मैं लंबे समय से इस मुद्दे पर पर्याप्त जानकारी की तलाश में था। लेकिन मुझे बस कुछ गूढ़ शब्दों का निरंतर पुनर्लेखन मिला, जिनका अर्थ बीयर की कुछ बोतलों के बिना समझना असंभव है। नहीं, बेशक, शायद मैं मूर्ख हूँ, लेकिन आप में से प्रत्येक इसे समझने में सक्षम है:

“..शब्द आवृत्ति वितरण का अनुभवजन्य पैटर्न प्राकृतिक भाषा: यदि भाषा के सभी शब्द (या बस पर्याप्त हैं लंबा पाठ) को उनके उपयोग की आवृत्ति के अवरोही क्रम में क्रमबद्ध किया जाता है, तो ऐसी सूची में nवें शब्द की आवृत्ति उसके लगभग व्युत्क्रमानुपाती होगी क्रम संख्या n (इस शब्द की तथाकथित रैंक, ऑर्डर स्केल देखें)। उदाहरण के लिए, दूसरा सबसे अधिक इस्तेमाल किया जाने वाला शब्द पहले की तुलना में लगभग दो गुना कम बार आता है, तीसरा - पहले की तुलना में तीन गुना कम बार, और इसी तरह.."

अनुभवजन्य, धिक्कार है, पैटर्न... ऐसा कुछ लिखना जरूरी था! ओह ठीक है, शैतान उसे माफ नहीं करेगा। यह सबसे दिलचस्प बात नहीं है! यह दिलचस्प है कि इस कहावत के लेखक एक अमेरिकी भाषाविद् हैं जो पिछली शताब्दी के मध्य में रहते थे, जब केवल जॉर्ज लुकास और लियोनिद इलिच ब्रेझनेव ही इंटरनेट के बारे में जानते थे। अर्थात्, ऐसे लोग हैं जो मानते हैं कि आधुनिक खोज इंजन केवल Zipf के नियम के अनुसार विश्लेषण करने के लिए बाध्य हैं? क्षमा करें, महाशय, लेकिन आख़िर क्यों?..

संभवतः, कुछ पाठक, उपरोक्त शब्दों के बाद, यह निर्णय लेंगे कि इस रचना का लेखक एक विशिष्ट विदूषक है? मैं आपको समझाने के लिए योग्य तर्क लाने का प्रयास करूंगा!

- आवश्यकता यह है कि पाठ पैरामीटर जिप्फ़ के कानून का अनुपालन करते हैं या, सटीक होने के लिए, सभी प्रकार की "सेवाओं" के साथ जो कथित तौर पर इस तरह के अनुपालन के लिए पाठ की जांच करते हैं, अपवित्रता है शुद्ध पानी. ऐसी स्थिति पाठ की गुणवत्ता की दृष्टि से और इसके अनुकूलन की दृष्टि से अर्थहीन है खोज इंजन.

- जिपफ परीक्षण एसईओ ताबीज और फेंग शुई के समान है - मैंने एक बजने वाली आवाज सुनी, लेकिन मुझे नहीं पता कि यह कहां है। और चूंकि सामान्य तौर पर खोज इंजन एल्गोरिदम की प्रारंभिक बंदता के कारण एसईओ में बहुत अधिक छद्म वैज्ञानिक रहस्य है, ज़िपफ परीक्षण बहुत सामंजस्यपूर्ण रूप से अधिक प्रासंगिक गुणवत्ता संकेतकों में शामिल हो गया - कुंजी घनत्व और विशिष्टता, जिसके परिणाम, बदले में, भी आवश्यक हैं वे जिस हद तक हैं उन्हें उसी हद तक स्वीकार किया जाना चाहिए।

मेरी ओर से कोई अटकलें नहीं - इस कानून के बारे में ईमानदारी से लिखे गए शब्द!

और मैं ज़ेका और एडवेगो के हर शब्द की सदस्यता लेने के लिए तैयार हूं। आइए रचनात्मक बनें। कल्पना कीजिए कि आपके सामने किसी प्रकार की मशीन गन खड़ी है। आपको ऊपर जाकर उसके स्कोरबोर्ड पर संख्याओं का एक मनमाना संयोजन डायल करना होगा। सही संख्याकोई नहीं जानता, इसलिए जीत का आकार हर बार भिन्न होता है। कुछ लोग बस मूल्यों में प्रवेश करते हैं और चले जाते हैं, अन्य लोग किसी प्रकार की प्रणाली का आविष्कार करना शुरू कर देते हैं: वे रूंबा नृत्य करते हैं, पंद्रह डिग्री के कोण पर तीन बार सख्ती से थूकते हैं, तीन दिन पहले सूख गई बकरी को खाते हैं, और इसी तरह पर। और फिर आखिरी में से एक भाग्यशाली हो जाता है - वह जैकपॉट जीत जाता है! वह भाग्यशाली क्यों था - वह जानता है। शायद उसने सिर्फ संयोजन का अनुमान लगाया था, या शायद मुर्गा जादुई था। लेकिन अगले दिन यह आदमी मशीन के पास आता है और उसके बगल में एक टेबल लगाता है, जिस पर वह सभी को नंबर डायल करने से पहले अपना तरीका आजमाने के लिए आमंत्रित करता है...

अभी भी आश्वस्त नहीं हैं? फिर मैं भारी तोपखाने का उपयोग करूँगा और एक प्रयोग करूँगा।

Zipf के नियम का उपयोग करके पाठ का दृश्य सत्यापन

आगामी कार्य के लिए, मैंने कई अलग-अलग कार्य करने का निर्णय लिया महत्वपूर्ण वाक्यांशऔर हमारे घरेलू खोज इंजन यांडेक्स के टॉप में विभिन्न स्थानों पर स्थित जिपफ के कानून के अनुपालन के लिए ग्रंथों की जांच करें। आएँ शुरू करें।

पहली कुंजी है "लकड़ी से घर बनाना।"

मैं एक ऐसी साइट चुनता हूं जो खोज रैंकिंग के शीर्ष पर स्थित है और एक विश्लेषण करता हूं:

हमारे पास क्या है: स्वाभाविकता - 80, मतली - 5.9।

मैं खोज इंजन में नीचे दिए गए पृष्ठ पर जाता हूं, तीसरे दर्जन में से एक साइट का चयन करता हूं, और विश्लेषण करता हूं:

परिणाम: स्वाभाविकता - 82, मतली - 6.16.

मैं एक दर्जन पदों से नीचे जाता हूं और प्रक्रिया दोहराता हूं:

परिणाम: ई - 86, टी - 8.6।

लेकिन टॉप में कुछ और है! कुछ? हम जाँच दोहराते हैं। अगली कुंजी ले लो. आइए बताते हैं- बवासीर का इलाज.

परिणाम: ई - 70, टी - 11.23।

दो दर्जन पद नीचे:

परिणाम: ई-91, टी-4.90।

नीचे एक और पेज:

परिणाम: ई - 91, टी - 4.12।

निष्कर्ष

जैसा कि विश्लेषण से देखा जा सकता है, जिप्फ़ के कानून के अनुसार पाठ्य सामग्रियों की स्वाभाविकता के सर्वोत्तम संकेतक अन्य इंटरनेट संसाधनों पर स्थित पाठों के साथ प्रतिस्पर्धा की सफलता की गारंटी नहीं देते हैं। हालाँकि, यह अभी भी आपको तय करना है...


नमस्ते! में हाल ही मेंअधिक से अधिक बार मैं सहकर्मियों से जिपफ के कानून के अनुसार पाठ की गुणवत्ता का मूल्यांकन करने के लिए तकनीकी विशिष्टताओं की आवश्यकता के बारे में सुनता हूं। और हर कोई यह नहीं समझता कि इस कानून का अनुपालन करने के लिए पाठ को कैसे संपादित किया जाए। आज के लेख में मैं आपको यह बताने की कोशिश करूंगा कि सबसे कैसे सरल तरीके सेपैरामीटर में सुधार करें, और यह भी स्पष्ट करें कि क्यों अच्छे लेखकयह वास्तव में आवश्यक नहीं है.

आप कई सेवाओं का उपयोग करके Zipf के नियम के अनुसार पाठ की गुणवत्ता निर्धारित कर सकते हैं। लेकिन मुझे लगता है कि पीआर-सीवाई सबसे पर्याप्त है, यह जोड़ती है सही सूत्रएक सरल और सहज इंटरफ़ेस के साथ। यह वही है जो मैंने इस सामग्री को तैयार करते समय उपयोग किया था।

ज़िपफ का नियम क्या है?

सबसे पहले, आपको यह पता लगाना होगा कि यह क्या है। यदि आप विकिपीडिया पर विश्वास करते हैं, तो जीन-बैप्टिस्ट एस्टो ने 1908 में इस पैटर्न को तैयार किया था; यह कानून मूल रूप से शॉर्टहैंड पर लागू होता था। आम जनता के लिए ज्ञात पैटर्न का पहला अनुप्रयोग जनसांख्यिकी से संबंधित है, या अधिक सटीक रूप से शहरों में जनसंख्या के वितरण से संबंधित है, जिसका उपयोग फेलिक्स ऑउरबैक द्वारा किया गया था।

इस पैटर्न को इसका आधुनिक नाम 1949 में भाषाविद् जॉर्ज जिपफ की बदौलत मिला। इसकी सहायता से उन्होंने जनसंख्या के बीच धन वितरण का क्रम दर्शाया। और तभी पाठों की पठनीयता निर्धारित करने के लिए कानून का उपयोग किया जाने लगा।

इसकी गणना कैसे की जाती है

इस कानून का सही ढंग से उपयोग करने के लिए, आपको यह समझना होगा कि यह कैसे काम करता है। आइए गणना के सूत्र पर नजर डालें।

  • एफ - शब्द प्रयोग की आवृत्ति;
  • आर - क्रम संख्या;
  • सी - स्थिर(सबसे बड़ी संख्या में दोहराव वाले शब्द को दर्शाने वाली संख्या)।

व्यवहार में, एक और सूत्र अधिक सुविधाजनक साबित होता है; यह अधिक स्पष्ट दिखता है।

यह दृष्टिकोण अधिक सुविधाजनक है क्योंकि हमारे पास सबसे सामान्य शब्द की पुनरावृत्ति की संख्या पर डेटा है। इसी मात्रा से उनकी शुरुआत होती है.

सरल बनाने के लिए, हमारे पाठ में दूसरा सबसे अधिक दोहराया जाने वाला शब्द पहले की तुलना में आधा बार दिखाई देना चाहिए। तीसरे स्थान पर आना, तीन बार इत्यादि।

पाठ समायोजन का उदाहरण

हमने सिद्धांत को थोड़ा सुलझा लिया है। जो कुछ बचा है वह अभ्यास का पता लगाना है। प्रायोगिक पाठ के रूप में, मैंने टी-जे से एक लेख लिया। वहां से क्यों? यह आसान है। फिलहाल, यह कई लोगों द्वारा पसंद की जाने वाली सूचना शैली का सबसे अच्छा उदाहरण है। खैर, यह दिलचस्प था कि मैक्सिम इल्याखोव के नेतृत्व में लिखा गया पाठ क्या दिखाएगा। मैं तुरंत कहूंगा कि इस सूचक पर पाठ समान स्तर पर हैं, हालांकि, 40 से अधिक साइटों पर खोज करने के बाद, मुझे खराब स्वाभाविकता वाला एक भी लेख नहीं मिला। इसके अलावा, मैं आगे बढ़ूंगा और कहूंगा कि समायोजन के बाद प्रयोगात्मक पाठ बहुत खराब हो गया है, जिपफ स्कोर में सुधार के बावजूद, आपको अत्यधिक बढ़ती प्राकृतिकता के साथ ज्यादा परेशान नहीं होना चाहिए।

परीक्षण के बाद विश्लेषक ने हमें यही दिखाया।

आइए देखें कि वहां क्या कहा गया है। जैसा कि आप देख सकते हैं, वहाँ शब्दों के साथ-साथ समझ से परे संख्याओं वाला एक कॉलम भी है। "घटनाएँ" कॉलम (1) इंगित करता है कि पाठ में शब्द रूप कितनी बार आते हैं। Zipf कॉलम (2) घटनाओं की अनुशंसित संख्या दिखाता है। मार्कर 3 और 4 दूसरे और तीसरे स्थान के लिए आदर्श संकेतक चिह्नित करते हैं। यह अनुशंसाओं पर भी ध्यान देने योग्य है; यह इंगित करता है कि आदर्श संयोजन प्राप्त करने के लिए कितने शब्दों को हटाने की आवश्यकता है।

बेहतर समझ के लिए, आइए देखें कि विश्लेषक ने क्या गिना। आइए संख्या 39 (सी) को आधार के रूप में लें, हमें एक क्रमांक संख्या की भी आवश्यकता होगी, स्थिति 2 (एफ) पर ध्यान दें। चलिए सूत्र लेते हैं.

आइए स्थानापन्न करें.

एफ=39/2=19.5

राउंड अप करें और 20 प्राप्त करें, यही होगा आवश्यक मात्राघटनाएँ इसकी पुष्टि विश्लेषक ने की है. हमारे देश में, दूसरा सबसे लोकप्रिय शब्द 28 बार उपयोग किया जाता है, इसलिए 8 पुनरावृत्तियों को हटाने या बदलने की आवश्यकता होगी।

कानून के सिद्धांत को समझने के बाद, हम संपादन करना शुरू करते हैं। ऐसा करने के लिए, हम उन पर्यायवाची शब्दों को हटा देते हैं या उनके साथ बदल देते हैं जिनमें Zipf की आवश्यकता से अधिक आवृत्तियाँ होती हैं। परिणामस्वरूप, हमें यह चित्र प्राप्त होता है।

जैसा कि आप देख सकते हैं, मैं दर को 83% से बढ़ाकर 88% करने में सक्षम था। लेकिन, साथ ही, पाठ की गुणवत्ता में काफी गिरावट आई। आपको इस सूचक को 100% तक बढ़ाने का प्रयास नहीं करना चाहिए। वास्तव में, यदि आपके पास पहले से ही 75% है, तो यह बहुत अच्छा है और इसे और विकृत करने की कोई आवश्यकता नहीं है।

मददगार सलाह

केवल पहली पंक्तियों पर ही ध्यान न दें। के साथ फ़िट करना प्रारंभ करें अंतिम स्थितिसूची में, वे अक्सर होते हैं अधिक प्रभावपर सामान्य सूचकपहले दस शब्दों की तुलना में.

ज़िपफ और एसईओ

अब आइए आगे बढ़ते हैं कि एक कॉपीराइटर को इस पैटर्न के ज्ञान की आवश्यकता क्यों है। एसईओ विशेषज्ञ, टेक्स्ट ऑर्डर करते समय, उन्हें खोज इंजनों के लिए सबसे सुविधाजनक बनाने का प्रयास करते हैं। ऐसा माना जाता है (हालाँकि यह स्पष्ट नहीं है कि किसके द्वारा) कि Zipf का नियम सक्रिय रूप से खोज एल्गोरिदम द्वारा उपयोग किया जाता है। इस कथन को सिद्ध या असिद्ध करना कठिन है। मुझे इस विषय पर कोई सार्थक शोध या प्रयोग नहीं मिला।

मैंने स्वयं इसकी जाँच करने का निर्णय लिया। ऐसा करने के लिए, मैंने "प्लास्टिक विंडोज़" जैसी प्रतिस्पर्धी क्वेरी के लिए खोज परिणाम लिए, यांडेक्स में उन्होंने मॉस्को खोज परिणाम लिए, Google में मुझे कुछ जादू करना पड़ा, और ऐसा लगा कि मुझे वहां के निवासी के रूप में भी पहचाना जा सके। पूंजी (के अनुसार) कम से कममुझे मॉस्को जियोलोकेशन वाला एक विज्ञापन दिखाया गया)। मैंने खोज परिणामों का पहला पृष्ठ और साथ ही 49वाँ स्थान प्राप्त किया। नतीजा कुछ इस तरह का संकेत है.

यदि आप अधिक बारीकी से देखेंगे, तो आप देखेंगे कि यांडेक्स में परिणाम अधिक समान हैं, यदि आप उस पैटर्न को देखते हैं जिसका हम अध्ययन कर रहे हैं। लेकिन साथ ही और भी ऊँची दरशीर्ष पर प्रथम स्थान की लड़ाई में जीत की गारंटी नहीं देता।

इसके आधार पर हम कह सकते हैं कि यदि सर्च इंजन उपयोग करते हैं यह कानून, यह केवल कारकों में से एक है। और मुख्य नहीं.

निष्कर्ष

ठीक है अब सब ख़त्म हो गया। अब आप जानते हैं कि Zipf के नियम के अनुसार पाठ की गुणवत्ता क्या है, और आप इस संकेतक को समायोजित भी कर सकते हैं। वास्तव में, यहां कुछ भी जटिल नहीं है, सब कुछ काफी सरल है। इस पैटर्न के संचालन के सिद्धांत को एक बार समझना पर्याप्त है।

किसी प्राकृतिक भाषा के शब्द: यदि किसी भाषा के सभी शब्द (या सिर्फ एक पर्याप्त लंबा पाठ) उनके उपयोग की आवृत्ति के अवरोही क्रम में क्रमबद्ध हैं, तो आवृत्ति एनऐसी सूची में वें शब्द की संख्या उसकी क्रम संख्या के लगभग व्युत्क्रमानुपाती होगी एन(तथाकथित पदयह शब्द, ऑर्डर स्केल देखें)। उदाहरण के लिए, दूसरा सबसे अधिक इस्तेमाल किया जाने वाला शब्द पहले की तुलना में लगभग दो गुना कम बार, तीसरा - पहले की तुलना में तीन गुना कम बार, इत्यादि।

सृष्टि का इतिहास[ | ]

पैटर्न की खोज के लेखक एक फ्रांसीसी आशुलिपिक (fr) हैं। जीन-बैप्टिस्ट एस्टूप), जिन्होंने 1908 में अपने काम "द रेंज ऑफ़ शॉर्टहैंड" में इसका वर्णन किया था। इस कानून का उपयोग पहली बार 1913 में जर्मन भौतिक विज्ञानी फेलिक्स ऑरबैक द्वारा अपने काम "द लॉ ऑफ पॉपुलेशन कंसंट्रेशन" में शहर के आकार के वितरण का वर्णन करने के लिए किया गया था और इसका नाम अमेरिकी भाषाविद् जॉर्ज जिपफ के नाम पर रखा गया था, जिन्होंने 1949 में इसे सक्रिय रूप से लोकप्रिय बनाया था। यह पैटर्न, पहली बार आर्थिक शक्तियों के वितरण का वर्णन करने के लिए इसका उपयोग करने का प्रस्ताव रखा गया है सामाजिक स्थिति.

एडिटिव मार्कोव चेन (स्टेप मेमोरी फ़ंक्शन के साथ) के सहसंबंध गुणों के आधार पर ज़िपफ के नियम की व्याख्या 2005 में दी गई थी।

ज़िप्फ़ के नियम को पेरेटो वितरण द्वारा गणितीय रूप से वर्णित किया गया है। यह इन्फोमेट्रिक्स में उपयोग किए जाने वाले बुनियादी कानूनों में से एक है।

कानून के अनुप्रयोग[ | ]

1949 में जॉर्ज ज़िप्फ़ ने सबसे पहले लोगों की आय का उनके आकार के अनुसार वितरण दिखाया था: सबसे अमीर व्यक्ति के पास दोगुनी आय होती है अधिक पैसेअगले सबसे अमीर व्यक्ति से, इत्यादि। यह कथन 1926 से 1936 की अवधि में कई देशों (इंग्लैंड, फ्रांस, डेनमार्क, हॉलैंड, फिनलैंड, जर्मनी, संयुक्त राज्य अमेरिका) के लिए सच साबित हुआ।

यह कानून शहरी व्यवस्था के वितरण पर भी लागू होता है: सबसे अधिक वाला शहर बड़ी आबादीकोई भी देश अगले सबसे बड़े शहर से दोगुना बड़ा होता है, इत्यादि। यदि आप किसी निश्चित देश के सभी शहरों को जनसंख्या के अवरोही क्रम में एक सूची में व्यवस्थित करते हैं, तो प्रत्येक शहर को एक निश्चित रैंक दी जा सकती है, अर्थात, वह संख्या जो उसे इस सूची में प्राप्त होती है। इस मामले में, जनसंख्या का आकार और रैंक सूत्र द्वारा व्यक्त एक सरल पैटर्न का पालन करते हैं:

पी एन = पी 1 / एन (\displaystyle पी_(एन)=पी_(1)/एन),

कहाँ पी एन (\डिस्प्लेस्टाइल पी_(एन))- शहर की जनसंख्या एन-वीं रैंक; पी 1 (\डिस्प्लेस्टाइल पी_(1))- देश के मुख्य शहर की जनसंख्या (पहली रैंक)।

अनुभवजन्य शोध इसकी पुष्टि करता है यह वक्तव्य.

1999 में, अर्थशास्त्री ज़ेवियर गैबेट ने ज़िप्फ़ के नियम को शक्ति कानून के एक उदाहरण के रूप में वर्णित किया: यदि शहर समान मानक विचलन के साथ यादृच्छिक रूप से बढ़ते हैं, तो सीमा में वितरण ज़िप्फ़ के नियम में परिवर्तित हो जाएगा।

ज़िप्फ़ के कानून के अनुसार, रूसी संघ में शहरी निपटान के संबंध में शोधकर्ताओं के निष्कर्षों के अनुसार:

  • अधिकांश रूसी शहर आदर्श ज़िपफ़ वक्र के ऊपर स्थित हैं, इसलिए अपेक्षित प्रवृत्ति प्रवासन के कारण मध्यम और छोटे शहरों की संख्या और जनसंख्या में निरंतर कमी है बड़े शहर;
  • क्रमशः, 7 मिलियन से अधिक शहर (सेंट पीटर्सबर्ग, नोवोसिबिर्स्क, येकातेरिनबर्ग, निज़नी नावोगरट, कज़ान, चेल्याबिंस्क, ओम्स्क), आदर्श ज़िपफ़ वक्र के नीचे स्थित हैं, जनसंख्या वृद्धि का एक महत्वपूर्ण भंडार है और जनसंख्या वृद्धि की उम्मीद है;
  • रैंक में पहले शहर (मॉस्को) की आबादी कम होने का खतरा है, क्योंकि दूसरे शहर (सेंट पीटर्सबर्ग) और उसके बाद के बड़े शहर श्रम की मांग में कमी के साथ-साथ वृद्धि के कारण आदर्श जिपफ वक्र से काफी पीछे हैं। रहने की लागत, जिसमें सबसे पहले, आवास की खरीद और किराये की लागत शामिल है।

आलोचना [ | ]

अमेरिकी जैव सूचना विज्ञान विशेषज्ञ जिप्फ़ के नियम की एक सांख्यिकीय व्याख्या प्रस्तावित की, जिससे साबित हुआ कि प्रतीकों का एक यादृच्छिक अनुक्रम भी इस कानून का पालन करता है। लेखक ने निष्कर्ष निकाला है कि ज़िपफ का नियम पूरी तरह से सांख्यिकीय घटना प्रतीत होता है जिसका पाठ के शब्दार्थ से कोई लेना-देना नहीं है और इसका भाषाविज्ञान से सतही संबंध है।