रूसी भाषा में अक्षरों के उपयोग की आवृत्ति। रूसी शब्दावली के नए आवृत्ति शब्दकोश का उपयोग कैसे करें रूसी में शब्दों की आवृत्ति आँकड़े

रूसी में अक्षरों के उपयोग की आवृत्ति

क्या आप जानते हैं कि वर्णमाला के कुछ अक्षर दूसरों की तुलना में शब्दों में अधिक पाए जाते हैं ... इसके अलावा, भाषा में स्वरों की आवृत्ति व्यंजन से अधिक होती है।

पाठ लिखने के लिए उपयोग किए जाने वाले शब्दों में रूसी वर्णमाला के कौन से अक्षर सबसे अधिक या कम से कम सामान्य हैं?

सांख्यिकी सामान्य पैटर्न की पहचान और अध्ययन में लगी हुई है। इस वैज्ञानिक दिशा की सहायता से, उपरोक्त प्रश्न का उत्तर रूसी वर्णमाला के प्रत्येक अक्षर की संख्या, प्रयुक्त शब्द, विभिन्न लेखकों के कार्यों से एक अंश का चयन करके दिया जा सकता है। अपने स्वार्थ के लिए और ऊब के लिए, हर कोई इसे अपने दम पर कर सकता है। मैं पहले से किए गए अध्ययन के आंकड़ों का उल्लेख करूंगा ...

रूसी वर्णमाला सिरिलिक है। अपने अस्तित्व के दौरान, यह कई सुधारों से गुजरा, जिसके परिणामस्वरूप आधुनिक रूसी वर्णमाला प्रणाली का निर्माण हुआ, जिसमें 33 अक्षर शामिल हैं।

ओ - 9.28%
ए - 8.66%
ई - 8.10%
और - 7.45%
एन - 6.35%
टी - 6.30%
पी - 5.53%
सी - 5.45%
एल - 4.32%
सी - 4.19%
कश्मीर - 3.47%
एन - 3.35%
मी - 3.29%
वाई - 2.90%
ई - 2.56%
मैं - 2.22%
एस - 2.11%
ख - 1.90%
एच - 1.81%
बी - 1.51%
घ - 1.41%
वें - 1.31%
एच - 1.27%
यू - 1.03%
एक्स - 0.92%
जी - 0.78%
डब्ल्यू - 0.77%
सी - 0.52%
यू - 0.49%
च - 0.40%
ई - 0.17%
बी - 0.04%

उपयोग में उच्चतम आवृत्ति वाला रूसी अक्षर स्वर है " हे', जैसा कि यहाँ ठीक ही सुझाया गया है। विशिष्ट उदाहरण भी हैं, जैसे " रक्षा क्षमता"(एक शब्द में 7 टुकड़े और कुछ भी विदेशी या आश्चर्यजनक नहीं; रूसी भाषा से बहुत परिचित)। "ओ" अक्षर की उच्च लोकप्रियता काफी हद तक पूर्ण स्वर जैसी व्याकरणिक घटना के कारण है। यानी "ठंडा" के बजाय "ठंडा" और "मैल" के बजाय "ठंढ"।

और शब्दों की शुरुआत में व्यंजन अक्षर " पी". यह नेतृत्व भी आत्मविश्वासी और बिना शर्त है। सबसे अधिक संभावना है, स्पष्टीकरण "पी" अक्षर के साथ बड़ी संख्या में उपसर्ग देता है: पुन:, पूर्व-, पूर्व-, पूर्व-, समर्थक- और अन्य।

पत्र आवृत्ति क्रिप्टोनालिसिस का आधार है।

मैं आपको चेतावनी देना चाहता हूं कि इस लेख में प्रस्तुत जानकारी कुछ पुरानी है। मैंने इसे फिर से नहीं लिखा ताकि बाद में मैं तुलना कर सकूं कि समय के साथ SEO के मानक कैसे बदलते हैं। आप इस विषय पर नई सामग्री में अप-टू-डेट जानकारी प्राप्त कर सकते हैं:

नमस्कार, ब्लॉग साइट के प्रिय पाठकों। आज का लेख फिर से खोज इंजन अनुकूलन () जैसे विषय के लिए समर्पित होगा। इससे पहले, हम पहले ही इस तरह की अवधारणा से संबंधित कई मुद्दों पर बात कर चुके हैं।

आज मैं ऑन-पेज एसईओ के बारे में बात करना जारी रखना चाहता हूं, साथ ही पहले बताए गए कुछ बिंदुओं को स्पष्ट करता हूं, साथ ही साथ उन चीजों के बारे में भी बात करता हूं जिन पर हमने अभी तक चर्चा नहीं की है। यदि आप अच्छे अनूठे पाठ लिखने में सक्षम हैं, लेकिन साथ ही साथ खोज इंजन द्वारा उनकी धारणा पर ध्यान नहीं देते हैं, तो वे संबंधित प्रश्नों के लिए खोज परिणामों के शीर्ष पर अपना रास्ता नहीं बना पाएंगे। आपके अद्भुत लेखों के विषय।

खोज क्वेरी के लिए टेक्स्ट की प्रासंगिकता को क्या प्रभावित करता है

और यह बहुत दुखद है, क्योंकि इस तरह आपको अपने प्रोजेक्ट की पूरी क्षमता का एहसास नहीं होता है, जो बहुत प्रभावशाली हो सकता है। आपको यह समझने की आवश्यकता है कि अधिकांश भाग के लिए खोज इंजन बेवकूफ और सीधे प्रोग्राम हैं जो अपनी क्षमताओं से परे जाने में सक्षम नहीं हैं और आपकी परियोजना को मानवीय आंखों से देखते हैं।

वे आपके प्रोजेक्ट (जो आपने आगंतुकों के लिए तैयार किया है) पर बहुत कुछ नहीं देखेंगे जो अच्छा और आवश्यक है। वे बहुत सारे घटकों को ध्यान में रखते हुए केवल पाठ का विश्लेषण कर सकते हैं, लेकिन वे अभी भी मानवीय धारणा से बहुत दूर हैं।

इसलिए, हमें कम से कम कुछ समय के लिए खोज रोबोटों के जूते में उतरना होगा और यह समझना होगा कि विभिन्न खोज प्रश्नों () के लिए विभिन्न ग्रंथों की रैंकिंग करते समय वे किस पर ध्यान केंद्रित करते हैं। और इसके लिए आपके पास एक आईडिया होना चाहिए, इसके लिए आपको आर्टिकल को पढ़ना होगा।

आमतौर पर वे पृष्ठ के शीर्षक में, कुछ आंतरिक शीर्षकों में, साथ ही समान रूप से और यथासंभव स्वाभाविक रूप से पूरे लेख में वितरित करने के लिए कीवर्ड का उपयोग करने का प्रयास करते हैं। हां, बेशक, टेक्स्ट में हाइलाइटिंग कीज़ का भी इस्तेमाल किया जा सकता है, लेकिन इसके बाद होने वाले री-ऑप्टिमाइज़ेशन के बारे में मत भूलना।

पाठ में कुंजियों की घटना का घनत्व भी महत्वपूर्ण है, लेकिन अब यह एक वांछनीय कारक नहीं है, बल्कि, इसके विपरीत, एक चेतावनी है - आप इसे ज़्यादा नहीं कर सकते।

दस्तावेज़ में कीवर्ड घटना घनत्व का मान काफी सरलता से निर्धारित किया जाता है। वास्तव में, यह पाठ में इसके उपयोग की आवृत्ति है, जो दस्तावेज़ में इसकी घटना की संख्या को दस्तावेज़ की लंबाई से शब्दों में विभाजित करके निर्धारित किया जाता है। पहले, इस मुद्दे पर साइट की स्थिति सीधे इस पर निर्भर करती थी।

लेकिन आप शायद समझते हैं कि केवल चाबियों से ही सारी सामग्री की रचना करना संभव नहीं होगा, क्योंकि यह पढ़ने योग्य नहीं होगा, लेकिन भगवान का शुक्र है कि यह आवश्यक नहीं है। तुम क्यों पूछते हो? हां, क्योंकि टेक्स्ट में कीवर्ड के उपयोग की आवृत्ति की एक सीमा होती है, जिसके बाद इस कीवर्ड वाली क्वेरी के लिए दस्तावेज़ की प्रासंगिकता अब नहीं बढ़ेगी।

वे। यह हमारे लिए एक निश्चित आवृत्ति प्राप्त करने के लिए पर्याप्त होगा और इस प्रकार, हम इसे यथासंभव अनुकूलित करते हैं। या हम इसे ज़्यादा करते हैं और फ़िल्टर के नीचे आते हैं।

यह दो प्रश्नों (और शायद तीन) को हल करने के लिए बनी हुई है: कीवर्ड की घटना का अधिकतम घनत्व क्या है, जिसके बाद इसे बढ़ाना पहले से ही खतरनाक है, साथ ही यह पता लगाना है।

तथ्य यह है कि एक्सेंट टैग के साथ हाइलाइट किए गए और TITLE टैग में संलग्न कीवर्ड का टेक्स्ट में पाए जाने वाले समान कीवर्ड की तुलना में खोज के लिए अधिक वजन होता है। लेकिन हाल ही में, वेबमास्टर्स ने इसका उपयोग करना शुरू कर दिया है और इस कारक को पूरी तरह से स्पैम कर दिया है, जिसके संबंध में इसका महत्व कम हो गया है और यहां तक ​​कि मजबूत लोगों के दुरुपयोग के कारण पूरी साइट पर प्रतिबंध भी लग सकता है।

लेकिन TITLE में कुंजियाँ अभी भी प्रासंगिक हैं, बेहतर है कि उन्हें वहाँ न दोहराएं और उन्हें एक पृष्ठ शीर्षक में बहुत अधिक धकेलने का प्रयास न करें। यदि कीवर्ड TITLE में हैं, तो हम लेख में उनकी संख्या को काफी कम कर सकते हैं (और इसलिए इसे पढ़ने में आसान और लोगों के लिए अधिक उपयुक्त बनाते हैं, और खोज इंजन के लिए नहीं), समान प्रासंगिकता हासिल करने के बाद, लेकिन जोखिम के बिना फिल्टर के नीचे गिरना।

मुझे लगता है कि इस प्रश्न के साथ सब कुछ स्पष्ट है - उच्चारण और TITLE टैग में जितनी अधिक कुंजियाँ संलग्न हैं, उतनी ही अधिक संभावना है कि सब कुछ एक ही बार में खो जाए। लेकिन अगर आप इनका इस्तेमाल बिल्कुल नहीं करेंगे तो आपको कुछ हासिल भी नहीं होगा। पाठ में खोजशब्दों की शुरूआत की स्वाभाविकता सबसे महत्वपूर्ण मानदंड है। यदि वे हैं, लेकिन पाठक उनके बारे में ठोकर नहीं खाता है, तो सामान्य तौर पर सब कुछ ठीक है।

अब यह पता लगाना बाकी है कि किसी दस्तावेज़ में कीवर्ड का उपयोग करने की कौन सी आवृत्ति इष्टतम है, जो आपको बिना किसी प्रतिबंध के पृष्ठ को यथासंभव प्रासंगिक बनाने की अनुमति देती है। आइए सबसे पहले उस फॉर्मूले को याद करें जिसका इस्तेमाल ज्यादातर (शायद सभी) सर्च इंजन रैंक करने के लिए करते हैं।

कुंजी का उपयोग करने की स्वीकार्य आवृत्ति का निर्धारण कैसे करें

हम पहले ही ऊपर वर्णित लेख में गणितीय मॉडल के बारे में बात कर चुके हैं। इस विशेष खोज क्वेरी के लिए इसका सार एक सरलीकृत सूत्र द्वारा व्यक्त किया गया है: TF*IDF। जहां TF दस्तावेज़ के पाठ में इस क्वेरी की घटना की प्रत्यक्ष आवृत्ति है (वह आवृत्ति जिसके साथ इसमें शब्द आते हैं)।

आईडीएफ - इस खोज इंजन (संग्रह में) द्वारा अनुक्रमित अन्य सभी इंटरनेट दस्तावेज़ों में इस क्वेरी की घटना (दुर्लभता) की व्युत्क्रम आवृत्ति।

यह सूत्र आपको खोज क्वेरी के लिए किसी दस्तावेज़ के पत्राचार (प्रासंगिकता) को निर्धारित करने की अनुमति देता है। उत्पाद TF*IDF का मूल्य जितना अधिक होगा, यह दस्तावेज़ उतना ही प्रासंगिक होगा और जितना अधिक होगा, अन्य सभी चीजें समान होंगी।

वे। यह पता चला है कि किसी दिए गए प्रश्न (इसका पत्राचार) के लिए दस्तावेज़ का वजन अधिक होगा, अधिक बार इस क्वेरी की कुंजियों का उपयोग पाठ में किया जाता है, और कम बार ये कुंजियाँ अन्य इंटरनेट दस्तावेज़ों में पाई जाती हैं।

यह स्पष्ट है कि हम आईडीएफ को प्रभावित नहीं कर सकते, सिवाय इसके कि हम किसी अन्य क्वेरी को चुनें जिसके लिए हम अनुकूलन करेंगे। लेकिन हम टीएफ को प्रभावित कर सकते हैं और करेंगे, क्योंकि हम यैंडेक्स और Google खोज परिणामों से हमारे हिस्से के ट्रैफ़िक को हथियाना चाहते हैं जो हमें चाहिए।

लेकिन तथ्य यह है कि खोज एल्गोरिदम TF मान की गणना एक जटिल सूत्र का उपयोग करके करते हैं जो केवल एक निश्चित सीमा तक पाठ में कीवर्ड का उपयोग करने की आवृत्ति में वृद्धि को ध्यान में रखता है, जिसके बाद TF की वृद्धि व्यावहारिक रूप से रुक जाती है, इसके बावजूद तथ्य यह है कि आप आवृत्ति में वृद्धि करेंगे। यह एक तरह का एंटी-स्पैम फिल्टर है।

अपेक्षाकृत बहुत समय पहले (लगभग 2005 तक), TF मान की गणना काफी सरल सूत्र का उपयोग करके की गई थी और वास्तव में कीवर्ड घटना घनत्व के बराबर थी। इस सूत्र का उपयोग करके प्रासंगिकता की गणना के परिणाम खोज इंजन द्वारा बिल्कुल पसंद नहीं किए गए, क्योंकि वे स्पैमर के लिए गए थे।

तब TF सूत्र और अधिक जटिल हो गया, जैसे पृष्ठ मतली दिखाई दी और यह न केवल घटना की आवृत्ति पर निर्भर करने लगी, बल्कि उसी पाठ में अन्य शब्दों के उपयोग की आवृत्ति पर भी निर्भर होने लगी। और TF का इष्टतम मूल्य प्राप्त किया जा सकता है यदि कुंजी सबसे अधिक इस्तेमाल किया जाने वाला शब्द हो।

घटना प्रतिशत को बनाए रखते हुए टेक्स्ट का आकार बढ़ाकर TF मान को बढ़ाना भी संभव था। कुंजी के समान प्रतिशत वाले लेख के साथ तौलिया जितना बड़ा होगा, यह दस्तावेज़ उतना ही अधिक होगा।

अब TF सूत्र और भी जटिल हो गया है, लेकिन साथ ही, अब हमें घनत्व को उस बिंदु पर लाने की आवश्यकता नहीं है जहाँ पाठ अपठनीय हो जाता है और सर्च इंजन लगाएगास्पैम के लिए हमारी परियोजना पर प्रतिबंध। और अब असमान रूप से लंबी चादरें लिखने की भी जरूरत नहीं है।

एक ही आदर्श घनत्व को बनाए रखते हुए (हम इसे संबंधित ग्राफ से थोड़ा कम परिभाषित करेंगे), किसी लेख के शब्द आकार को बढ़ाने से SERP में उसकी स्थिति में तब तक सुधार होगा जब तक कि वह एक निश्चित लंबाई तक नहीं पहुंच जाता। एक बार जब आपके पास आदर्श लंबाई हो, तो इसे और बढ़ाना प्रासंगिकता को प्रभावित नहीं करेगा (अधिक सटीक, यह होगा, लेकिन बहुत, बहुत कम)।

यह सब स्पष्ट रूप से देखा जा सकता है यदि आप इस मुश्किल TF (प्रत्यक्ष प्रवेश आवृत्ति) के आधार पर एक ग्राफ बनाते हैं। यदि इस ग्राफ के एक पैमाने पर TF है, और दूसरे पैमाने पर - पाठ में कीवर्ड की आवृत्ति का प्रतिशत है, तो हमें परिणामस्वरूप तथाकथित अतिशयोक्ति मिलेगी:

शेड्यूल, निश्चित रूप से अनुमानित है, क्योंकि कम ही लोग यांडेक्स या Google द्वारा उपयोग किए जाने वाले वास्तविक टीएफ फॉर्मूला को जानते हैं। लेकिन गुणात्मक रूप से यह निर्धारित किया जा सकता है इष्टतम सीमाजहां आवृत्ति होनी चाहिए। यह कुल शब्दों की संख्या का लगभग 2-3 प्रतिशत है।

यदि आप इस बात को ध्यान में रखते हैं कि आप अभी भी कुछ कुंजियों को उच्चारण टैग और TITLE हेडर में संलग्न करेंगे, तो यह सीमा होगी, जिसके बाद घनत्व में और वृद्धि पर प्रतिबंध लगाया जा सकता है। बड़ी संख्या में कीवर्ड के साथ टेक्स्ट को संतृप्त और विकृत करना अब लाभदायक नहीं है, क्योंकि प्लसस की तुलना में अधिक माइनस होंगे।

पाठ की लंबाई क्या है प्रचार के लिए पर्याप्त होगा

उसी कल्पित TF के आधार पर, कोई व्यक्ति शब्द की लंबाई के विरुद्ध इसके मान को प्लॉट कर सकता है। इस मामले में, आप कीवर्ड की आवृत्ति को किसी भी लंबाई और बराबर के लिए स्थिर मान सकते हैं, उदाहरण के लिए, इष्टतम श्रेणी से किसी भी मान (2 से 3 प्रतिशत तक)।

उल्लेखनीय रूप से, हमें ठीक उसी आकार का एक ग्राफ मिलेगा जैसा कि ऊपर चर्चा की गई है, केवल हजारों शब्दों में पाठ की लंबाई को भुज के साथ समायोजित किया जाएगा। और इससे निष्कर्ष निकालना संभव होगा इष्टतम लंबाई सीमा, जिस पर TF का लगभग अधिकतम मूल्य पहले ही पहुंच चुका है।

नतीजतन, यह पता चला है कि यह 1000 से 2000 शब्दों की सीमा में होगा। और वृद्धि के साथ, प्रासंगिकता व्यावहारिक रूप से नहीं बढ़ेगी, और छोटी लंबाई के साथ, यह काफी तेजी से गिर जाएगी।

उस। हम यह निष्कर्ष निकाल सकते हैं कि आपके लेखों को खोज परिणामों में उच्च स्थान लेने के लिए, आपको पाठ में कम से कम 2-3% की आवृत्ति के साथ कीवर्ड का उपयोग करने की आवश्यकता है। यह पहला और मुख्य निष्कर्ष है जो हमने बनाया है। खैर, दूसरी बात यह है कि अब शीर्ष पर आने के लिए बहुत अधिक मात्रा में लेख लिखना बिल्कुल भी आवश्यक नहीं है।

यह 1000 - 2000 शब्दों के मील के पत्थर को पार करने और उसमें 2-3% कीवर्ड शामिल करने के लिए पर्याप्त होगा। यही है - बस यही सही पाठ के लिए नुस्खा, जो कम-आवृत्ति वाले प्रश्नों के लिए शीर्ष स्थान के लिए प्रतिस्पर्धा करने में सक्षम होगा, यहां तक ​​​​कि बाहरी अनुकूलन के उपयोग के बिना भी (इस लेख के लिंक को एंकर के साथ खरीदना जिसमें कीवर्ड शामिल हैं)। हालांकि, थोड़ी सी अफवाह फैलाने के लिए मिरालिंक्स , जीजीएल, रोटापोस्ट या गेटगुडलिंक ठीक है क्योंकि यह आपके प्रोजेक्ट में मदद करेगा।

मैं आपको एक बार फिर याद दिला दूं कि आपके द्वारा लिखे गए पाठ की लंबाई, साथ ही इसमें कुछ कीवर्ड का उपयोग करने की आवृत्ति, आप विशेष कार्यक्रमों की मदद से या ऑनलाइन सेवाओं की मदद से पता लगा सकते हैं जो उनके विश्लेषण में विशेषज्ञ हैं। इन सेवाओं में से एक है इस्तियो, उस काम के बारे में जिसके साथ मैंने बात की थी।

मैंने ऊपर जो कुछ भी कहा है वह एक सौ प्रतिशत विश्वसनीय नहीं है, लेकिन सच्चाई से बहुत मिलता-जुलता है। वैसे भी, मेरा व्यक्तिगत अनुभव इस सिद्धांत की पुष्टि करता है। लेकिन यांडेक्स और Google के एल्गोरिदम लगातार बदलाव के दौर से गुजर रहे हैं, और कम ही लोग जानते हैं कि कल कैसा होगा, सिवाय उन लोगों के जो उनके विकास या डेवलपर्स के करीब हैं।

आप सौभाग्यशाली हों! ब्लॉग पेज साइट पर जल्द ही मिलते हैं

आपकी रुचि हो सकती है

आंतरिक अनुकूलन - कीवर्ड चयन, मतली जांच, इष्टतम शीर्षक, सामग्री दोहराव और कम आवृत्तियों के तहत फिर से जोड़ना
टेक्स्ट और शीर्षकों में कीवर्ड
खोज इंजन में खोजशब्द वेबसाइट प्रचार को कैसे प्रभावित करते हैं
वेबमास्टर्स के लिए ऑनलाइन सेवाएं - लेख लिखने, खोज इंजन अनुकूलन और इसकी सफलता का विश्लेषण करने के लिए आपको जो कुछ भी चाहिए
लागत को कम करने के लिए लिंक प्रचार के दौरान सामग्री को अनुकूलित करने और साइट की थीम को ध्यान में रखने के तरीके
यांडेक्स वर्डस्टेट और सिमेंटिक कोर - ऑनलाइन सेवा Wordstat.Yandex.ru के आंकड़ों का उपयोग करके साइट के लिए कीवर्ड का चयन
एंकर - वेबसाइट प्रमोशन में यह क्या है और कितने महत्वपूर्ण हैं
कौन से खोज इंजन अनुकूलन कारक वेबसाइट प्रचार को प्रभावित करते हैं और किस हद तक
स्वतंत्र रूप से साइट का प्रचार, प्रचार और अनुकूलन
भाषा की आकृति विज्ञान और खोज इंजन द्वारा हल की गई अन्य समस्याओं के साथ-साथ एचएफ, एमएफ और एलएफ प्रश्नों के बीच अंतर के लिए लेखांकन
वेबसाइट ट्रस्ट - यह क्या है, इसे XTools में कैसे मापें, इसे क्या प्रभावित करता है और आपकी साइट के अधिकार को कैसे बढ़ाया जाए

समस्या का संक्षिप्त विवरण

विभिन्न शैलियों के उपन्यासों से लेकर समाचार रिपोर्टों तक रूसी में ग्रंथों के साथ फाइलों का एक सेट है। भाषण के अन्य भागों के साथ पूर्वसर्गों के उपयोग पर आंकड़े एकत्र करना आवश्यक है।

कार्य में महत्वपूर्ण बिंदु

1. बहाने में ही नहीं हैं परतथा प्रति, लेकिन पूर्वसर्ग के रूप में प्रयुक्त शब्दों के स्थिर संयोजन, उदाहरण के लिए की तुलना मेंया बावजूद. इसलिए, रिक्त स्थान द्वारा ग्रंथों को केवल उखड़ना असंभव है।

2. बहुत सारे टेक्स्ट हैं, कई जीबी, इसलिए प्रोसेसिंग काफी तेज होनी चाहिए, कम से कम कुछ घंटों के भीतर।

रूपरेखा समाधान और परिणाम

टेक्स्ट प्रोसेसिंग के साथ समस्याओं को हल करने में मौजूदा अनुभव को ध्यान में रखते हुए, संशोधित "यूनिक्स-वे" से चिपके रहने का निर्णय लिया गया, अर्थात् प्रसंस्करण को कई चरणों में विभाजित करने के लिए, ताकि प्रत्येक चरण में परिणाम सादा पाठ हो। शुद्ध यूनिक्स-वे के विपरीत, पाइप के माध्यम से टेक्स्ट कच्चे माल को स्थानांतरित करने के बजाय, हम सब कुछ डिस्क फ़ाइलों के रूप में सहेजेंगे। सौभाग्य से, हार्ड ड्राइव पर एक गीगाबाइट की लागत अब बहुत कम है।

प्रत्येक चरण को एक अलग, छोटी और सरल उपयोगिता के रूप में कार्यान्वित किया जाता है जो पाठ फ़ाइलों को पढ़ता है और इसके सिलिकॉन जीवन के उत्पादों को बचाता है।

इस दृष्टिकोण का एक अतिरिक्त बोनस, उपयोगिताओं की सादगी के अलावा, समाधान की वृद्धिशील प्रकृति में निहित है - आप पहले चरण को डीबग कर सकते हैं, इसके माध्यम से पाठ के सभी गीगाबाइट चला सकते हैं, फिर दूसरे चरण को बिना बर्बाद किए डीबग करना शुरू कर सकते हैं। पहले दोहराने पर समय।

टेक्स्ट को शब्दों में तोड़ना

चूंकि संसाधित किए जाने वाले स्रोत टेक्स्ट पहले से ही यूटीएफ -8 एन्कोडिंग में फ्लैट फाइलों के रूप में संग्रहीत हैं, हम शून्य चरण को छोड़ देते हैं - दस्तावेज़ों को पार्स करना, उनसे टेक्स्ट सामग्री निकालना और उन्हें सरल टेक्स्ट फाइलों के रूप में सहेजना, तुरंत टोकननाइजेशन के कार्य के लिए आगे बढ़ना।

सब कुछ सरल और उबाऊ होगा यदि साधारण तथ्य के लिए नहीं कि रूसी में कुछ प्रस्तावों में एक स्थान से अलग कई "रेखाएं" होती हैं, और कभी-कभी अल्पविराम। इस तरह के वर्बोज़ प्रीपोज़िशन को न तोड़ने के लिए, मैंने सबसे पहले डिक्शनरी एपीआई में टोकननाइज़ेशन फंक्शन को शामिल किया। C# में लेआउट सरल और सरल निकला, शाब्दिक रूप से सौ लाइनें। यहाँ स्रोत है। यदि हम परिचयात्मक भाग को हटा दें, शब्दकोश और अंतिम भाग को हटाने के साथ लोड करें, तो सब कुछ एक दर्जन पंक्तियों में नीचे आ जाता है।

यह सब सफलतापूर्वक फाइलों को पीसता है, लेकिन परीक्षणों ने एक महत्वपूर्ण खामी दिखाई - बहुत कम गति। x64 प्लेटफॉर्म पर, यह लगभग 0.5 एमबी प्रति मिनट निकला। बेशक, टोकननाइज़र सभी प्रकार के विशेष मामलों को ध्यान में रखता है जैसे " जैसा। पुश्किन", लेकिन मूल समस्या के समाधान के लिए ऐसी सटीकता अनावश्यक है।

संभावित गति के लिए एक गाइड के रूप में, एक सांख्यिकीय फ़ाइल प्रसंस्करण उपयोगिता Empirika है। यह लगभग 2 घंटे में 22 जीबी टेक्स्ट की फ्रीक्वेंसी प्रोसेसिंग करता है। अंदर वर्बोज़ प्रीपोज़िशन की समस्या का एक बेहतर समाधान है, इसलिए मैंने कमांड लाइन पर -टोकनाइज़ विकल्प द्वारा सक्षम एक नई स्क्रिप्ट जोड़ी है। रन के परिणामों के अनुसार, यह लगभग 500 सेकंड प्रति 900 एमबी, यानी लगभग 1.6 एमबी प्रति सेकंड निकला।

इन 900 एमबी टेक्स्ट के साथ काम करने का नतीजा लगभग उसी आकार की 900 एमबी की फाइल है। प्रत्येक शब्द एक अलग लाइन पर संग्रहीत है।

पूर्वसर्गों का उपयोग करने की आवृत्ति

चूँकि मैं प्रोग्राम टेक्स्ट में प्रीपोज़िशन की सूची नहीं चलाना चाहता था, मैंने फिर से C # प्रोजेक्ट के लिए एक व्याकरण शब्दकोश उठाया, sol_ListEntries फ़ंक्शन का उपयोग करके मुझे प्रीपोज़िशन की पूरी सूची मिली, लगभग 140 टुकड़े, और फिर सब कुछ है मामूली। सी # में प्रोग्राम टेक्स्ट। यह केवल पूर्वसर्ग + शब्द के जोड़े एकत्र करता है, लेकिन इसे विस्तार करने में कोई समस्या नहीं होगी।

शब्दों के साथ 1 जीबी टेक्स्ट फ़ाइल को संसाधित करने में केवल कुछ मिनट लगते हैं, जिसके परिणामस्वरूप एक आवृत्ति तालिका होती है, जिसे हम टेक्स्ट फ़ाइल के रूप में फिर से डिस्क पर अपलोड करते हैं। पूर्वसर्ग, दूसरा शब्द और घटनाओं की संख्या को इसमें एक टैब वर्ण द्वारा अलग किया जाता है:

प्रो टूटा हुआ 3
प्रो स्कोर 1
प्रो फॉर्म 1
प्रो नॉर्म 1
प्रो भूख 1
कानूनी 9 . में
छत से 1
टेप के बावजूद 1
ओवर ड्रावर 14

कुल मिलाकर, प्रारंभिक 900 एमबी पाठ से, लगभग 600 हजार जोड़े प्राप्त किए गए थे।

विश्लेषण करें और परिणाम देखें

एक्सेल या एक्सेस में परिणामों के साथ तालिका का विश्लेषण करना सुविधाजनक है। एसक्यूएल की आदत के कारण मैंने एक्सेस में डेटा लोड किया।

पहली बात यह है कि सबसे लगातार जोड़े देखने के लिए परिणामों को आवृत्ति के अवरोही क्रम में क्रमबद्ध करना है। संसाधित पाठ की प्रारंभिक मात्रा बहुत छोटी है, इसलिए नमूना बहुत प्रतिनिधिपूर्ण नहीं है और अंतिम परिणामों से भिन्न हो सकता है, लेकिन यहां शीर्ष दस हैं:

हमारे पास 29193
मात्रा 26070 . में
मेरे पास 25843 . है
वॉल्यूम 24410 . के बारे में
उसके पास 22768 . है
इस 22502 . में
क्षेत्र में 20749
20545 . के दौरान
इसके बारे में 18761
एनआईएम 18411 . के साथ

अब आप एक ग्राफ बना सकते हैं ताकि आवृत्तियों ओए अक्ष पर हों, और पैटर्न अवरोही क्रम में ओएक्स के साथ पंक्तिबद्ध हों। यह एक लंबी पूंछ के साथ अपेक्षित वितरण देगा:

इस आँकड़ों की आवश्यकता क्यों है?

इस तथ्य के अलावा कि प्रक्रियात्मक एपीआई के साथ काम करने के तरीके को प्रदर्शित करने के लिए दो सी # उपयोगिताओं का उपयोग किया जा सकता है, एक और महत्वपूर्ण लक्ष्य है - अनुवादक और पाठ पुनर्निर्माण एल्गोरिदम सांख्यिकीय कच्चे माल देना। शब्दों के जोड़े के अलावा, ट्रिग्राम की भी आवश्यकता होगी, इसके लिए उल्लेखित उपयोगिताओं में से दूसरे का थोड़ा विस्तार करना आवश्यक होगा।

- - विषय सूचना सुरक्षा एन शब्द उपयोग आवृत्ति ... तकनीकी अनुवादक की हैंडबुक

एस; आवृत्तियों; तथा। 1. बारंबार (1 अंक)। चालों की पुनरावृत्ति की आवृत्ति पर नज़र रखें। आलू बोने के आवश्यक घंटे। पल्स रेट पर ध्यान दें। 2. समान आंदोलनों की पुनरावृत्ति की संख्या, किस एल में उतार-चढ़ाव। समय की इकाई। एच पहिया रोटेशन। च... विश्वकोश शब्दकोश

शराब के व्यवस्थित दुरुपयोग के परिणामस्वरूप मानसिक और दैहिक विकारों के संयोजन द्वारा विशेषता एक पुरानी बीमारी है। A. x की सबसे महत्वपूर्ण अभिव्यक्तियाँ। सहनशक्ति को बदल दिया जाता है ... ... चिकित्सा विश्वकोश

कब्जा- रस में हुक रिकॉर्ड में प्रयुक्त विशिष्ट शब्दों में से एक। गैर-रैखिक पॉलीफोनी, एक विकसित उप-आवाज पॉलीफोनिक गोदाम और ऊर्ध्वाधर की तेज असंगति की विशेषता है। पेवच। वर्तमान में शब्द का कार्यान्वयन। समय अज्ञात है... रूढ़िवादी विश्वकोश

पाठ विश्लेषण की शैली-सांख्यिकी पद्धति- भाषण में भाषा के कामकाज के प्रकार, संचार के विभिन्न क्षेत्रों में भाषा के कामकाज के पैटर्न, ग्रंथों के प्रकार, कार्यों की बारीकियों को निर्धारित करने के लिए शैलीविज्ञान के क्षेत्र में गणितीय आँकड़ों के उपकरणों का उपयोग है। शैलियों और...

पोर्शन फ्लेवर्ड स्नस, मिनी पार्ट स्नस एक प्रकार का तंबाकू उत्पाद है। यह कुचले हुए सिक्त तंबाकू है, जिसे ऊपरी (कम अक्सर निचले) होंठ और मसूड़े के बीच रखा जाता है ... विकिपीडिया

वैज्ञानिक शैली- वैज्ञानिक का प्रतिनिधित्व करता है सामाजिक चेतना के रूप में विज्ञान के कार्यान्वयन से जुड़े संचार और भाषण गतिविधि का क्षेत्र; सैद्धांतिक सोच को दर्शाता है, एक वैचारिक तार्किक रूप में कार्य करता है, जो निष्पक्षता और अमूर्तता की विशेषता है ... रूसी भाषा का शैलीगत विश्वकोश शब्दकोश

- (विशेष साहित्य में भी एक संरक्षक) सामान्य नाम का हिस्सा, जिसे पिता के नाम से बच्चे को सौंपा जाता है। संरक्षक नामों की विविधताएं अपने वाहकों को अधिक दूर के पूर्वजों, दादा, परदादाओं से जोड़ सकती हैं ... ... विकिपीडिया

सामान्य उपयोग, प्रयोज्यता, व्यापकता, प्रयोज्यता, विपणन योग्यता, आम तौर पर स्वीकृत रूसी पर्यायवाची शब्दकोश। सामान्य संज्ञा, पर्यायवाची शब्दों की संख्या: 10 समानता (11) ... पर्यायवाची शब्दकोश

विचार- - कार्यात्मक रूप से शब्दार्थ प्रकार का भाषण (देखें) - (FSTR), अमूर्त सोच के रूप के अनुरूप - अनुमान, एक विशेष संचार कार्य करना - भाषण को एक तर्कपूर्ण चरित्र देना (एक नए निर्णय के लिए तार्किक तरीके से आना या .. .... रूसी भाषा का शैलीगत विश्वकोश शब्दकोश