क्लस्टर विश्लेषण साहित्य. रूसी संघ के शिक्षा और विज्ञान मंत्रालय

नॉलेज बेस में अपना अच्छा काम भेजना आसान है। नीचे दिए गए फॉर्म का उपयोग करें

छात्र, स्नातक छात्र, युवा वैज्ञानिक जो अपने अध्ययन और कार्य में ज्ञान आधार का उपयोग करते हैं, आपके बहुत आभारी होंगे।

परिचय

1. "क्लस्टर विश्लेषण" का इतिहास

2. शब्दावली

2.1वस्तु और विशेषता

2.2वस्तुओं के बीच की दूरी (मीट्रिक)

2.3 समूहों का घनत्व और स्थानीयता

2.4 समूहों के बीच की दूरी

3. समूहीकरण के तरीके

3.1पदानुक्रमित समूहीकृत विधियों की विशेषताएं

3.2 पुनरावृत्त क्लस्टरिंग विधियों की विशेषताएं

4. फ़ीचर क्लस्टरिंग

5. क्लस्टरिंग की स्थिरता और गुणवत्ता

ग्रन्थसूची

परिचय

"क्लस्टर विश्लेषण गणितीय तरीकों का एक सेट है जो उन वस्तुओं के समूह बनाने के लिए डिज़ाइन किया गया है जो उनके बीच की दूरी या कनेक्शन (निकटता के उपाय) के बारे में जानकारी के आधार पर एक दूसरे से अपेक्षाकृत "दूर", एक दूसरे के "करीब" हैं। अर्थ है शर्तों के समान: स्वचालित वर्गीकरण, वर्गीकरण, शिक्षक के बिना पैटर्न पहचान।" क्लस्टर विश्लेषण की यह परिभाषा सांख्यिकी शब्दकोश के नवीनतम संस्करण में दी गई है। वास्तव में, "क्लस्टर विश्लेषण" वर्गीकरण बनाने के लिए उपयोग किए जाने वाले एल्गोरिदम के काफी बड़े सेट के लिए एक सामान्यीकृत नाम है। कई प्रकाशन क्लस्टर विश्लेषण के लिए वर्गीकरण और विभाजन जैसे पर्यायवाची शब्दों का भी उपयोग करते हैं। विज्ञान में टाइपोलॉजिकल विश्लेषण के साधन के रूप में क्लस्टर विश्लेषण का व्यापक रूप से उपयोग किया जाता है। किसी भी वैज्ञानिक गतिविधि में वर्गीकरण मूलभूत घटकों में से एक है, जिसके बिना वैज्ञानिक परिकल्पनाओं और सिद्धांतों का निर्माण और परीक्षण असंभव है। इस प्रकार, मेरे काम में, मेरा मुख्य लक्ष्य क्लस्टर विश्लेषण (क्लस्टर विश्लेषण की मूल बातें) के मुद्दों पर विचार करना है, साथ ही इसकी शब्दावली पर विचार करना और डेटा प्रोसेसिंग के साथ इस पद्धति का उपयोग करने के कुछ उदाहरण देना है।

1. "क्लस्टर विश्लेषण" का इतिहास

घरेलू और विदेशी प्रकाशनों के विश्लेषण से पता चलता है कि क्लस्टर विश्लेषण का उपयोग विभिन्न प्रकार के वैज्ञानिक क्षेत्रों में किया जाता है: रसायन विज्ञान, जीव विज्ञान, चिकित्सा, पुरातत्व, इतिहास, भूगोल, अर्थशास्त्र, भाषाशास्त्र, आदि। वी. वी. नालिमोव की पुस्तक "भाषा का संभाव्य मॉडल" 70 विश्लेषणात्मक नमूनों के अध्ययन में क्लस्टर विश्लेषण के उपयोग का वर्णन करती है। क्लस्टर विश्लेषण पर अधिकांश साहित्य पिछले तीन दशकों में सामने आया है, हालाँकि क्लस्टर विधियों का उल्लेख करने वाला पहला काम काफी समय पहले सामने आया था। पोलिश मानवविज्ञानी के. चेकानोव्स्की ने "संरचनात्मक वर्गीकरण" के विचार को सामने रखा, जिसमें क्लस्टर विश्लेषण का मुख्य विचार शामिल था - वस्तुओं के कॉम्पैक्ट समूहों की पहचान।

1925 में, सोवियत हाइड्रोबायोलॉजिस्ट पी.वी. टेरेंटयेव ने सहसंबंधी विशेषताओं को समूहीकृत करने के उद्देश्य से तथाकथित "सहसंबंध आकाशगंगाओं की विधि" विकसित की। इस पद्धति ने ग्राफ़ का उपयोग करके समूहीकरण विधियों के विकास को प्रोत्साहन दिया। "क्लस्टर विश्लेषण" शब्द सबसे पहले ट्रियोन द्वारा प्रस्तावित किया गया था। शब्द "क्लस्टर" का अंग्रेजी से अनुवाद "गुच्छा, ब्रश, गुच्छा, समूह" के रूप में किया गया है। इस कारण से, इस प्रकार के विश्लेषण को शुरू में "बंच विश्लेषण" कहा जाता था। 50 के दशक की शुरुआत में, क्लस्टर विश्लेषण के लिए पदानुक्रमित एल्गोरिदम पर आर. लुईस, ई. फिक्स और जे. होजेस के प्रकाशन सामने आए। क्लस्टर विश्लेषण पर काम के विकास के लिए एक उल्लेखनीय प्रोत्साहन आर. रोसेनब्लैट के एक मान्यता उपकरण (परसेप्ट्रॉन) पर काम द्वारा दिया गया था, जिसने "शिक्षक के बिना पैटर्न पहचान" के सिद्धांत के विकास की नींव रखी।

क्लस्टरिंग विधियों के विकास के लिए प्रेरणा 1963 में प्रकाशित पुस्तक "प्रिंसिपल्स ऑफ न्यूमेरिकल टैक्सोनॉमी" थी। दो जीवविज्ञानी - रॉबर्ट सोकल और पीटर स्नेथ। इस पुस्तक के लेखक इस तथ्य से आगे बढ़े कि प्रभावी जैविक वर्गीकरण बनाने के लिए, क्लस्टरिंग प्रक्रिया को अध्ययन के तहत जीवों की विशेषता वाले विभिन्न संकेतकों का उपयोग सुनिश्चित करना चाहिए, इन जीवों के बीच समानता की डिग्री का आकलन करना चाहिए और समान जीवों की नियुक्ति सुनिश्चित करनी चाहिए। एक ही समूह में. इस मामले में, गठित समूह पर्याप्त रूप से "स्थानीय" होने चाहिए, अर्थात। समूहों के भीतर वस्तुओं (जीवों) की समानता आपस में समूहों की समानता से अधिक होनी चाहिए। लेखकों के अनुसार, पहचाने गए समूहों के बाद के विश्लेषण से यह निर्धारित किया जा सकता है कि क्या ये समूह विभिन्न जैविक प्रजातियों से मेल खाते हैं। इस प्रकार, सोकल और स्निट ने माना कि समूहों में वस्तुओं के वितरण की संरचना की पहचान करने से इन संरचनाओं के निर्माण की प्रक्रिया को स्थापित करने में मदद मिलती है। और विभिन्न समूहों (समूहों) के जीवों के बीच अंतर और समानताएं होने वाली विकासवादी प्रक्रिया को समझने और इसके तंत्र को स्पष्ट करने के आधार के रूप में काम कर सकती हैं।

इन्हीं वर्षों के दौरान, जे. मैककेन, जी. बॉल और डी. हॉल जैसे लेखकों द्वारा के-मीन्स विधियों का उपयोग करके कई एल्गोरिदम प्रस्तावित किए गए थे; जी. लांस और डब्ल्यू. विलियम्स, एन. जार्डिन और अन्य - पदानुक्रमित तरीकों का उपयोग करते हुए। घरेलू वैज्ञानिकों ने भी क्लस्टर विश्लेषण विधियों के विकास में महत्वपूर्ण योगदान दिया - ई.एम. ब्रेवरमैन, ए.ए. डोरोफ़ेयुक, आई.बी. मुचनिक, एल.ए. रैस्ट्रिगिन, यू.आई. ज़ुरावलेव, आई.आई. एलिसेवा और अन्य। विशेष रूप से, 60-70 के दशक में। नोवोसिबिर्स्क गणितज्ञ एन.जी. ज़ागोरुइको, वी.एन. एल्किना और जी.एस. लबोव द्वारा विकसित कई एल्गोरिदम बहुत लोकप्रिय थे। ये FOREL, BIGFOR, KRAB, NTTP, DRET, TRF इत्यादि जैसे प्रसिद्ध एल्गोरिदम हैं। इन पैकेजों के आधार पर, एक विशेष OTEKS सॉफ़्टवेयर पैकेज बनाया गया था। कोई कम दिलचस्प सॉफ्टवेयर उत्पाद पीपीएसए और क्लास-मास्टर मॉस्को के गणितज्ञ एस.ए. ऐवाज़्यान, आई.एस. एन्युकोव और बी.जी. मिरकिन द्वारा नहीं बनाए गए थे।

अलग-अलग डिग्री में, क्लस्टर विश्लेषण विधियाँ सबसे प्रसिद्ध घरेलू और विदेशी सांख्यिकीय पैकेजों में उपलब्ध हैं: SIGAMD, डेटास्कोप, STADIA, SOMI, PNP-BIM, SORRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , जेनस्टैट, एस-प्लस, आदि। बेशक, इस समीक्षा के प्रकाशन के 10 साल बाद, काफी कुछ बदल गया है, कई सांख्यिकीय कार्यक्रमों के नए संस्करण सामने आए हैं, और नए एल्गोरिदम और बहुत बढ़ी हुई कंप्यूटिंग शक्ति दोनों का उपयोग करते हुए पूरी तरह से नए कार्यक्रम सामने आए हैं। हालाँकि, अधिकांश सांख्यिकीय पैकेज 60-70 के दशक में प्रस्तावित और विकसित एल्गोरिदम का उपयोग करते हैं।

विशेषज्ञों के मोटे अनुमान के अनुसार, क्लस्टर विश्लेषण और ज्ञान के विभिन्न क्षेत्रों में इसके अनुप्रयोगों पर प्रकाशनों की संख्या हर तीन साल में दोगुनी हो जाती है। इस प्रकार के विश्लेषण में इतनी गहन रुचि के क्या कारण हैं? वस्तुत: इस घटना के तीन मुख्य कारण हैं। यह शक्तिशाली कंप्यूटिंग तकनीक का उद्भव है, जिसके बिना वास्तविक डेटा का क्लस्टर विश्लेषण लागू करना व्यावहारिक रूप से असंभव है। दूसरा कारण यह है कि आधुनिक विज्ञान अपनी संरचनाओं में वर्गीकरण पर अधिकाधिक निर्भर होता जा रहा है। इसके अलावा, यह प्रक्रिया अधिक से अधिक गहरी होती जा रही है, क्योंकि इसके समानांतर ज्ञान की बढ़ती विशेषज्ञता भी है, जो पर्याप्त वस्तुनिष्ठ वर्गीकरण के बिना असंभव है।

तीसरा कारण यह है कि विशिष्ट ज्ञान के गहन होने से अनिवार्य रूप से कुछ वस्तुओं और घटनाओं का विश्लेषण करते समय ध्यान में रखे जाने वाले चरों की संख्या में वृद्धि होती है। परिणामस्वरूप, व्यक्तिपरक वर्गीकरण, जो पहले काफी कम संख्या में ध्यान में रखी गई विशेषताओं पर आधारित था, अक्सर अविश्वसनीय हो जाता है। और ऑब्जेक्ट विशेषताओं के लगातार बढ़ते सेट के साथ वस्तुनिष्ठ वर्गीकरण के लिए जटिल क्लस्टरिंग एल्गोरिदम के उपयोग की आवश्यकता होती है, जिसे केवल आधुनिक कंप्यूटर के आधार पर ही लागू किया जा सकता है। यही वे कारण थे जिन्होंने "क्लस्टर बूम" को जन्म दिया। हालाँकि, डॉक्टरों और जीवविज्ञानियों के बीच, क्लस्टर विश्लेषण अभी तक काफी लोकप्रिय और सामान्य शोध पद्धति नहीं बन पाया है।

2 शब्दावली

2. 1 वस्तु और विशेषता

आइए पहले हम वस्तु और गुण जैसी अवधारणाओं का परिचय दें। वस्तु - लैटिन ऑब्जेक्टम से - विषय। रसायन विज्ञान और जीव विज्ञान के संबंध में, वस्तुओं से हमारा तात्पर्य अनुसंधान के विशिष्ट विषयों से होगा जिनका अध्ययन भौतिक, रासायनिक और अन्य तरीकों का उपयोग करके किया जाता है। ऐसी वस्तुएँ, उदाहरण के लिए, नमूने, पौधे, जानवर आदि हो सकती हैं। अध्ययन के लिए शोधकर्ता के पास उपलब्ध वस्तुओं के एक निश्चित समूह को नमूना या नमूना जनसंख्या कहा जाता है। ऐसी जनसंख्या में वस्तुओं की संख्या को आमतौर पर नमूना आकार कहा जाता है। आमतौर पर नमूना आकार लैटिन अक्षर "एन" या "एन" द्वारा दर्शाया जाता है।

विशेषता (समानार्थक शब्द - गुण, चर, विशेषता; अंग्रेजी - चर - चर।) - किसी वस्तु की एक विशिष्ट संपत्ति का प्रतिनिधित्व करता है। इन गुणों को संख्यात्मक या गैर-संख्यात्मक मानों के रूप में व्यक्त किया जा सकता है। उदाहरण के लिए, रक्तचाप (सिस्टोलिक या डायस्टोलिक) को पारा के मिलीमीटर, किलोग्राम में वजन, सेंटीमीटर में ऊंचाई आदि में मापा जाता है। ऐसे संकेत मात्रात्मक होते हैं। इन निरंतर संख्यात्मक विशेषताओं (पैमाने) के विपरीत, कई विशेषताओं में अलग-अलग, असंतत मान हो सकते हैं। बदले में, ऐसी अलग-अलग विशेषताओं को आमतौर पर दो समूहों में विभाजित किया जाता है।

1) पहला समूह रैंक है, या जैसा कि उन्हें क्रमिक चर (तराजू) भी कहा जाता है। ऐसी विशेषताओं में इन अर्थों को व्यवस्थित करने का गुण होता है। इनमें किसी विशेष बीमारी के चरण, आयु समूह, छात्र ज्ञान स्कोर, रिक्टर के अनुसार भूकंप की तीव्रता का 12-बिंदु पैमाना आदि शामिल हैं।

2) असतत विशेषताओं के दूसरे समूह में ऐसा क्रम नहीं होता है और इसे नाममात्र ("नाममात्र" शब्द से - नमूना) या वर्गीकरण विशेषताएँ कहा जाता है। ऐसे संकेतों का एक उदाहरण रोगी की स्थिति हो सकती है - "स्वस्थ" या "बीमार", रोगी का लिंग, अवलोकन अवधि - "उपचार से पहले" और "उपचार के बाद", आदि। इन मामलों में, यह कहने की प्रथा है कि ऐसी विशेषताएं नामकरण पैमाने से संबंधित हैं।

वस्तु और विशेषता की अवधारणाओं को आमतौर पर "ऑब्जेक्ट-प्रॉपर्टी" या "ऑब्जेक्ट-विशेषता" मैट्रिक्स कहा जाता है। मैट्रिक्स एक आयताकार तालिका होगी जिसमें अवलोकनों के अध्ययन किए गए नमूने के गुणों का वर्णन करने वाले फीचर मान शामिल होंगे। इस संदर्भ में, एक अवलोकन को एक अलग पंक्ति के रूप में दर्ज किया जाएगा जिसमें प्रयुक्त विशेषताओं के मूल्य शामिल होंगे। ऐसे डेटा मैट्रिक्स में एक अलग सुविधा को नमूने में सभी वस्तुओं के लिए इस सुविधा के मूल्यों वाले कॉलम द्वारा दर्शाया जाएगा।

2. 2 वस्तुओं के बीच की दूरी (मेट्रिक्स)

आइए "वस्तुओं के बीच की दूरी" की अवधारणा का परिचय दें। यह अवधारणा वस्तुओं की एक दूसरे से समानता का एक अभिन्न माप है। फ़ीचर स्पेस में वस्तुओं के बीच की दूरी एक मान d ij है जो निम्नलिखित सिद्धांतों को संतुष्ट करती है:

1. d ij > 0 (गैर-नकारात्मक दूरी)

2. डी आईजे = डी जी (समरूपता)

3. d ij + d jk > d ik (त्रिकोण असमानता)

4. यदि d ij 0 के बराबर नहीं है, तो i, j के बराबर नहीं है (गैर-समान वस्तुओं की पहचान)

5. यदि d ij = 0, तो i = j (समान वस्तुओं की अविभाज्यता)

वस्तुओं की निकटता (समानता) के माप को वस्तुओं के बीच की दूरी के व्युत्क्रम के रूप में प्रस्तुत करना सुविधाजनक है। क्लस्टर विश्लेषण के लिए समर्पित कई प्रकाशन वस्तुओं के बीच की दूरी की गणना के लिए 50 से अधिक विभिन्न तरीकों का वर्णन करते हैं। "दूरी" शब्द के अलावा, एक और शब्द अक्सर साहित्य में पाया जाता है - "मीट्रिक", जिसका तात्पर्य किसी विशेष दूरी की गणना करने की एक विधि से है। मात्रात्मक विशेषताओं के मामले में धारणा और समझ के लिए सबसे सुलभ तथाकथित "यूक्लिडियन दूरी" या "यूक्लिडियन मीट्रिक" है। इस दूरी की गणना का सूत्र है:

यह सूत्र निम्नलिखित नोटेशन का उपयोग करता है:

· डी आईजे - आई-वें और जे-वें वस्तुओं के बीच की दूरी;

· x ik - i-वें ऑब्जेक्ट के लिए k-वें चर का संख्यात्मक मान;

· एक्स जेके - जे-वें ऑब्जेक्ट के लिए के-वें चर का संख्यात्मक मान;

· v - वस्तुओं का वर्णन करने वाले चरों की संख्या।

इस प्रकार, मामले v=2 के लिए, जब हमारे पास केवल दो मात्रात्मक विशेषताएं हैं, तो दूरी d ij समकोण त्रिभुज के कर्ण की लंबाई के बराबर होगी, जो आयताकार समन्वय प्रणाली में दो बिंदुओं को जोड़ता है। ये दो बिंदु नमूने के i-वें और j-वें अवलोकनों के अनुरूप होंगे। अक्सर, सामान्य यूक्लिडियन दूरी के बजाय, इसके वर्ग d 2 ij का उपयोग किया जाता है। इसके अलावा, कुछ मामलों में, एक "भारित" यूक्लिडियन दूरी का उपयोग किया जाता है, जिसकी गणना में व्यक्तिगत शर्तों के लिए भार गुणांक का उपयोग किया जाता है। यूक्लिडियन मीट्रिक की अवधारणा को स्पष्ट करने के लिए, हम एक सरल प्रशिक्षण उदाहरण का उपयोग करते हैं। नीचे दी गई तालिका में दिखाए गए डेटा मैट्रिक्स में 5 अवलोकन और दो चर शामिल हैं।

तालिका नंबर एक

पांच देखे गए नमूनों और दो चर का डेटा मैट्रिक्स।

यूक्लिडियन मीट्रिक का उपयोग करते हुए, हम इंटरऑब्जेक्ट दूरियों के मैट्रिक्स की गणना करते हैं, जिसमें d ij मान शामिल होते हैं - i-th और j-th ऑब्जेक्ट के बीच की दूरी। हमारे मामले में, i और j वस्तु की संख्या, अवलोकन हैं। चूँकि नमूना आकार 5 है, तो i और j क्रमशः 1 से 5 तक मान ले सकते हैं। यह भी स्पष्ट है कि सभी संभावित जोड़ीवार दूरियों की संख्या 5*5=25 के बराबर होगी। दरअसल, पहली वस्तु के लिए ये निम्नलिखित दूरियाँ होंगी: 1-1; 1-2; 1-3; 1-4; 1-5. वस्तु 2 के लिए भी 5 संभावित दूरियाँ होंगी: 2-1; 2-2; 2-3; 2-4; 2-5, आदि. हालाँकि, विभिन्न दूरियों की संख्या 25 से कम होगी, क्योंकि समान वस्तुओं की अप्रभेद्यता की संपत्ति को ध्यान में रखना आवश्यक है - i = j के लिए d ij = 0। इसका मतलब यह है कि वस्तु क्रमांक 1 और उसी वस्तु क्रमांक 1 के बीच की दूरी शून्य होगी। अन्य सभी मामलों के लिए समान शून्य दूरी i = j होगी। इसके अलावा, समरूपता गुण से यह पता चलता है कि किसी भी i और j के लिए d ij = d ji। वे। वस्तु क्रमांक 1 और क्रमांक 2 के बीच की दूरी वस्तु क्रमांक 2 और क्रमांक 1 के बीच की दूरी के बराबर है।

यूक्लिडियन दूरी की अभिव्यक्ति तथाकथित सामान्यीकृत शक्ति मिन्कोव्स्की दूरी की बहुत याद दिलाती है, जिसमें शक्तियों में दो के बजाय एक और मात्रा का उपयोग किया जाता है। सामान्य तौर पर, यह मान "पी" प्रतीक द्वारा दर्शाया जाता है।

जब p = 2 हमें सामान्य यूक्लिडियन दूरी प्राप्त होती है। तो सामान्यीकृत मिन्कोव्स्की मीट्रिक के लिए अभिव्यक्ति का रूप इस प्रकार है:

घातांक "पी" के विशिष्ट मान का चुनाव शोधकर्ता द्वारा स्वयं किया जाता है।

मिन्कोव्स्की दूरी का एक विशेष मामला तथाकथित मैनहट्टन दूरी, या "शहर-ब्लॉक दूरी" है, जो p=1 के अनुरूप है:

इस प्रकार, मैनहट्टन दूरी वस्तुओं की संबंधित विशेषताओं के बीच अंतर के पूर्ण मूल्यों का योग है। पी को अनंत तक जाने पर, हमें "प्रभुत्व" मीट्रिक, या सुपर-मेट्रिक मिलता है:

जिसे d ij = max| के रूप में भी दर्शाया जा सकता है एक्स आईके - एक्स जेके |

मिन्कोव्स्की मीट्रिक वास्तव में मीट्रिक का एक बड़ा परिवार है, जिसमें सबसे लोकप्रिय मीट्रिक भी शामिल है। हालाँकि, वस्तुओं के बीच की दूरी की गणना करने की ऐसी विधियाँ भी हैं जो मिन्कोव्स्की मेट्रिक्स से मौलिक रूप से भिन्न हैं। उनमें से सबसे महत्वपूर्ण तथाकथित महालनोबिस दूरी है, जिसमें काफी विशिष्ट गुण हैं। इस मीट्रिक के लिए अभिव्यक्ति:

यहाँ के माध्यम से एक्स मैंऔर एक्स जे i-th और j-th ऑब्जेक्ट के लिए चर मानों के कॉलम वैक्टर दर्शाए गए हैं। प्रतीक टी अभिव्यक्ति में (एक्स मैं - एक्स जे ) टी तथाकथित वेक्टर ट्रांसपोज़िशन ऑपरेशन को दर्शाता है। प्रतीक एस समग्र भीतर-समूह विचरण-सहप्रसरण मैट्रिक्स को दर्शाता है। एक प्रतीक -1 ऊपर एस इसका मतलब है कि मैट्रिक्स को उल्टा करना आवश्यक है एस . मिन्कोव्स्की मीट्रिक और यूक्लिडियन मीट्रिक के विपरीत, विचरण-सहप्रसरण मैट्रिक्स के माध्यम से महालनोबिस दूरी एस चरों के सहसंबंधों से संबद्ध। जब चरों के बीच सहसंबंध शून्य होते हैं, तो महालनोबिस दूरी यूक्लिडियन दूरी के वर्ग के बराबर होती है।

द्विभाजित (केवल दो मान वाले) गुणात्मक विशेषताओं का उपयोग करने के मामले में, हैमिंग दूरी का व्यापक रूप से उपयोग किया जाता है

विचाराधीन i-th और j-th वस्तुओं के लिए संबंधित विशेषताओं के मूल्यों के बीच विसंगतियों की संख्या के बराबर।

2. 3 समूहों का घनत्व और स्थान

क्लस्टर विश्लेषण का मुख्य लक्ष्य उन वस्तुओं के समूहों को ढूंढना है जो एक नमूने में एक दूसरे के समान हैं। आइए मान लें कि कुछ संभावित तरीकों से हमने ऐसे समूह - क्लस्टर प्राप्त कर लिए हैं। समूहों के महत्वपूर्ण गुणों पर ध्यान दिया जाना चाहिए। इन गुणों में से एक क्लस्टर के भीतर बिंदुओं, अवलोकनों के वितरण का घनत्व है। यह संपत्ति हमें एक बहुआयामी अंतरिक्ष में बिंदुओं के समूह के रूप में एक क्लस्टर को परिभाषित करने की अनुमति देती है, जो इस स्थान के अन्य क्षेत्रों की तुलना में अपेक्षाकृत सघन है, जिसमें या तो बिल्कुल भी बिंदु नहीं होते हैं या बहुत कम संख्या में अवलोकन होते हैं। दूसरे शब्दों में, कोई दिया गया क्लस्टर कितना सघन है, या, इसके विपरीत, कितना विरल है? इस संपत्ति के पर्याप्त सबूत के बावजूद, ऐसे संकेतक (घनत्व) की गणना करने का कोई स्पष्ट तरीका नहीं है। किसी दिए गए क्लस्टर में बहुआयामी अवलोकनों की "पैकिंग" की कॉम्पैक्टनेस और घनत्व को दर्शाने वाला सबसे सफल संकेतक क्लस्टर के केंद्र से क्लस्टर के अलग-अलग बिंदुओं तक की दूरी का फैलाव है। इस दूरी का फैलाव जितना छोटा होगा, अवलोकन क्लस्टर के केंद्र के जितना करीब होगा, क्लस्टर घनत्व उतना ही अधिक होगा। और इसके विपरीत, दूरी का फैलाव जितना अधिक होगा, दिया गया क्लस्टर उतना ही अधिक विरल होगा, और इसलिए, क्लस्टर केंद्र के निकट और क्लस्टर केंद्र से काफी दूर दोनों बिंदु स्थित हैं।

समूहों की अगली संपत्ति उनका आकार है। क्लस्टर आकार का मुख्य संकेतक इसकी "त्रिज्या" है। यह गुण क्लस्टर के वास्तविक आकार को पूरी तरह से प्रतिबिंबित करता है यदि प्रश्न में क्लस्टर का आकार गोल है और यह बहुआयामी अंतरिक्ष में एक हाइपरस्फेयर है। हालाँकि, यदि समूहों में लम्बी आकृतियाँ हैं, तो त्रिज्या या व्यास की अवधारणा अब क्लस्टर के वास्तविक आकार को प्रतिबिंबित नहीं करती है।

क्लस्टर की एक अन्य महत्वपूर्ण संपत्ति इसकी स्थानीयता और पृथक्करणीयता है। यह बहुआयामी अंतरिक्ष में एक दूसरे से ओवरलैप की डिग्री और समूहों की पारस्परिक दूरी को दर्शाता है। उदाहरण के लिए, नीचे दिए गए चित्र में नई, एकीकृत सुविधाओं के स्थान पर तीन समूहों के वितरण पर विचार करें। इलेक्ट्रॉन माइक्रोस्कोपी का उपयोग करके अध्ययन किए गए एरिथ्रोसाइट्स के विभिन्न रूपों के प्रतिबिंबित गुणों के 12 संकेतों से अक्ष 1 और 2 एक विशेष विधि द्वारा प्राप्त किए गए थे।

चित्र 1

हम देखते हैं कि क्लस्टर 1 का आकार न्यूनतम है, और क्लस्टर 2 और 3 का आकार लगभग बराबर है। साथ ही, हम कह सकते हैं कि न्यूनतम घनत्व, और इसलिए अधिकतम दूरी फैलाव, क्लस्टर 3 की विशेषता है। इसके अलावा, क्लस्टर 1 को क्लस्टर 2 और क्लस्टर 3 दोनों से खाली जगह के काफी बड़े क्षेत्रों द्वारा अलग किया जाता है। 2 और 3 एक दूसरे के साथ आंशिक रूप से ओवरलैप होते हैं। यह भी दिलचस्प है कि क्लस्टर 1 में अक्ष 2 की तुलना में अक्ष 1 के साथ दूसरे और तीसरे समूहों से बहुत अधिक अंतर है। इसके विपरीत, क्लस्टर 2 और 3 अक्ष 1 और अक्ष 2 दोनों के साथ एक दूसरे से लगभग समान रूप से भिन्न हैं। , ऐसे दृश्य विश्लेषण के लिए नमूने के सभी अवलोकनों को विशेष अक्षों पर प्रक्षेपित करना आवश्यक है जिसमें क्लस्टर तत्वों के प्रक्षेपण अलग-अलग समूहों के रूप में दिखाई देंगे।

2. 4 समूहों के बीच की दूरी

व्यापक अर्थ में, वस्तुओं को न केवल अध्ययन की मूल वस्तुओं के रूप में समझा जा सकता है, जिन्हें "ऑब्जेक्ट-प्रॉपर्टी" मैट्रिक्स में एक अलग लाइन के रूप में प्रस्तुत किया जाता है, या बहुआयामी फीचर स्पेस में व्यक्तिगत बिंदुओं के रूप में, बल्कि ऐसे बिंदुओं के अलग-अलग समूहों के रूप में भी समझा जा सकता है। , एक या दूसरे एल्गोरिदम द्वारा एक क्लस्टर में एकजुट किया गया। इस मामले में, सवाल उठता है कि अंकों (समूहों) के ऐसे संचय के बीच की दूरी को कैसे समझा जाए और इसकी गणना कैसे की जाए। इस मामले में, बहुआयामी अंतरिक्ष में दो अवलोकनों के बीच की दूरी की गणना करने की तुलना में और भी अधिक विविध संभावनाएं हैं। यह प्रक्रिया इस तथ्य से जटिल है कि, बिंदुओं के विपरीत, क्लस्टर बहुआयामी स्थान की एक निश्चित मात्रा पर कब्जा कर लेते हैं और इसमें कई बिंदु होते हैं। क्लस्टर विश्लेषण में, इंटरक्लस्टर दूरियों का व्यापक रूप से उपयोग किया जाता है, जिसकी गणना निकटतम पड़ोसी, गुरुत्वाकर्षण के केंद्र, सबसे दूर के पड़ोसी और मध्यस्थों के सिद्धांत के अनुसार की जाती है। चार सबसे व्यापक रूप से उपयोग की जाने वाली विधियाँ एकल लिंकेज, पूर्ण लिंकेज, मध्यम लिंकेज और वार्ड की विधि हैं। एकल लिंक विधि में, एक ऑब्जेक्ट पहले से मौजूद क्लस्टर में शामिल हो जाएगा यदि क्लस्टर तत्वों में से कम से कम एक में शामिल ऑब्जेक्ट के समान समानता का स्तर है। पूर्ण लिंक विधि के लिए, किसी ऑब्जेक्ट को क्लस्टर में तभी जोड़ा जाता है जब शामिल किए जाने वाले उम्मीदवार और क्लस्टर के किसी भी तत्व के बीच समानता एक निश्चित सीमा से कम न हो। औसत लिंक विधि में कई संशोधन हैं जो एकल और पूर्ण लिंक के बीच एक समझौता हैं। वे मौजूदा क्लस्टर की सभी वस्तुओं के साथ शामिल करने के लिए उम्मीदवार की समानता के औसत मूल्य की गणना करते हैं। जुड़ाव तब किया जाता है जब पाया गया औसत समानता मान एक निश्चित सीमा तक पहुँच जाता है या उससे अधिक हो जाता है। क्लस्टर की वस्तुओं और क्लस्टर में शामिल किए जाने वाले उम्मीदवार के बीच समानता का अंकगणितीय औसत सबसे अधिक उपयोग किया जाता है।

कई क्लस्टरिंग विधियां एक-दूसरे से भिन्न होती हैं क्योंकि उनके एल्गोरिदम प्रत्येक चरण में विभिन्न विभाजन गुणवत्ता कार्यात्मकताओं की गणना करते हैं। लोकप्रिय वार्ड पद्धति को इंट्रा-क्लस्टर दूरियों के न्यूनतम विचरण को अनुकूलित करने के लिए डिज़ाइन किया गया है। पहले चरण में, प्रत्येक क्लस्टर में एक ऑब्जेक्ट होता है, जिसके कारण दूरियों का इंट्राक्लस्टर फैलाव 0 के बराबर होता है। इस विधि का उपयोग करके, उन वस्तुओं को संयोजित किया जाता है जो फैलाव में न्यूनतम वृद्धि देते हैं, जिसके परिणामस्वरूप यह विधि प्रवृत्त होती है हाइपरस्फेरिकल क्लस्टर उत्पन्न करें।

क्लस्टर विश्लेषण विधियों को वर्गीकृत करने के बार-बार प्रयास से दर्जनों या यहां तक ​​कि सैकड़ों विभिन्न वर्ग बन जाते हैं। ऐसी विविधता व्यक्तिगत अवलोकनों के बीच की दूरी की गणना के लिए बड़ी संख्या में संभावित तरीकों, क्लस्टरिंग प्रक्रिया में व्यक्तिगत समूहों के बीच की दूरी की गणना के लिए समान रूप से बड़ी संख्या में तरीकों और अंतिम क्लस्टर संरचना की इष्टतमता के विविध अनुमानों से उत्पन्न होती है।

लोकप्रिय सांख्यिकीय पैकेजों में सबसे व्यापक क्लस्टर विश्लेषण एल्गोरिदम के दो समूह हैं: पदानुक्रमित समूह विधियाँ और पुनरावृत्त समूह विधियाँ।

3. समूहीकरण के तरीके

3. 1 पदानुक्रमित समूहन विधियों की विशेषताएं

समूहीकृत पदानुक्रमित एल्गोरिदम में, जो अक्सर वास्तविक बायोमेडिकल अनुसंधान में उपयोग किया जाता है, शुरू में सभी वस्तुओं (अवलोकनों) को अलग-अलग, स्वतंत्र समूहों के रूप में माना जाता है जिसमें केवल एक तत्व होता है। शक्तिशाली कंप्यूटिंग तकनीक के उपयोग के बिना, क्लस्टर डेटा विश्लेषण का कार्यान्वयन बहुत समस्याग्रस्त है।

मीट्रिक का चुनाव शोधकर्ता द्वारा स्वयं किया जाता है। दूरी मैट्रिक्स की गणना करने के बाद, प्रक्रिया शुरू होती है संकुलन (लैटिन एग्लोमेरो से - मैं जोड़ता हूं, जमा करता हूं), क्रमिक रूप से कदम दर कदम गुजरते हुए। इस प्रक्रिया के पहले चरण में, दो प्रारंभिक अवलोकन (मोनोक्लस्टर), जिनके बीच न्यूनतम दूरी होती है, को एक क्लस्टर में संयोजित किया जाता है, जिसमें दो ऑब्जेक्ट (अवलोकन) होते हैं। इस प्रकार, पूर्व एन मोनोक्लस्टर (एक ऑब्जेक्ट से युक्त क्लस्टर) के बजाय, पहले चरण के बाद एन-1 क्लस्टर होंगे, जिनमें से एक क्लस्टर में दो ऑब्जेक्ट (अवलोकन) होंगे, और एन-2 क्लस्टर में अभी भी केवल शामिल होंगे एक वस्तु. दूसरे चरण में, एन-2 समूहों को एक दूसरे के साथ संयोजित करने की विभिन्न विधियाँ संभव हैं। ऐसा इसलिए है क्योंकि इनमें से एक क्लस्टर में पहले से ही दो ऑब्जेक्ट हैं। इस कारण से, दो मुख्य प्रश्न उठते हैं:

· दो (और फिर दो से अधिक) वस्तुओं के ऐसे समूह के निर्देशांक की गणना कैसे करें;

· "मोनो-क्लस्टर" से और "मल्टी-ऑब्जेक्ट" क्लस्टर के बीच ऐसे "मल्टी-ऑब्जेक्ट" क्लस्टर की दूरी की गणना कैसे करें।

ये प्रश्न अंततः अंतिम समूहों की अंतिम संरचना निर्धारित करते हैं (समूहों की संरचना का अर्थ है व्यक्तिगत समूहों की संरचना और बहुआयामी अंतरिक्ष में उनका सापेक्ष स्थान)। क्लस्टर के निर्देशांक और पारस्परिक दूरी की गणना के लिए मेट्रिक्स और तरीकों के विभिन्न संयोजन क्लस्टर विश्लेषण के तरीकों की विविधता को जन्म देते हैं। दूसरे चरण में, कई वस्तुओं से युक्त क्लस्टर के निर्देशांक की गणना के लिए चयनित तरीकों और इंटरक्लस्टर दूरी की गणना करने की विधि के आधार पर, या तो दो अलग-अलग अवलोकनों को एक नए क्लस्टर में फिर से विलय करना, या एक नए अवलोकन में शामिल होना संभव है। दो वस्तुओं से युक्त एक क्लस्टर में। सुविधा के लिए, समूहीकृत-पदानुक्रमित तरीकों के अधिकांश कार्यक्रम पूरा होने पर देखने के लिए दो मुख्य ग्राफ़ प्रदान कर सकते हैं। पहले ग्राफ़ को डेंड्रोग्राम (ग्रीक डेंड्रोन - पेड़ से) कहा जाता है, जो समूहन की प्रक्रिया को दर्शाता है, व्यक्तिगत अवलोकनों को एक अंतिम क्लस्टर में विलय करता है। आइए दो चरों के लिए 5 अवलोकनों के डेंड्रोग्राम का एक उदाहरण दें।

अनुसूची1

ऐसे ग्राफ़ का ऊर्ध्वाधर अक्ष इंटरक्लस्टर दूरी के अक्ष का प्रतिनिधित्व करता है, और क्षैतिज अक्ष विश्लेषण में प्रयुक्त वस्तुओं - मामलों की संख्या को इंगित करता है। इस डेंड्रोग्राम से यह स्पष्ट है कि ऑब्जेक्ट नंबर 1 और नंबर 2 को पहले एक क्लस्टर में संयोजित किया गया है, क्योंकि उनके बीच की दूरी न्यूनतम और 1 के बराबर है। यह विलय उभरते हुए ऊर्ध्वाधर खंडों को जोड़ने वाली एक क्षैतिज रेखा द्वारा ग्राफ पर प्रदर्शित होता है। C_1 और C_2 के रूप में चिह्नित बिंदुओं से। आइए हम इस तथ्य पर ध्यान दें कि क्षैतिज रेखा स्वयं 1 के बराबर इंटरक्लस्टर दूरी के स्तर पर गुजरती है। फिर, दूसरे चरण में, ऑब्जेक्ट नंबर 3, जिसे C_3 के रूप में नामित किया गया है, इस क्लस्टर में जोड़ा जाता है, जिसमें पहले से ही शामिल है दो वस्तुएं. अगले चरण में ऑब्जेक्ट नंबर 4 और नंबर 5 का विलय शामिल है, जिनके बीच की दूरी 1.41 है। और अंतिम चरण में, ऑब्जेक्ट 1, 2 और 3 का क्लस्टर ऑब्जेक्ट 4 और 5 के क्लस्टर के साथ विलय हो जाता है। ग्राफ़ दिखाता है कि इन दो अंतिम समूहों (अंतिम क्लस्टर में सभी 5 ऑब्जेक्ट शामिल हैं) के बीच की दूरी 5 से अधिक है , लेकिन 6 से कम, क्योंकि दो अंतिम समूहों को जोड़ने वाली ऊपरी क्षैतिज रेखा लगभग 7 के बराबर स्तर पर गुजरती है, और वस्तुओं 4 और 5 के कनेक्शन का स्तर 1.41 के बराबर है।

नीचे दिया गया डेंड्रोग्राम 70 संसाधित रासायनिक नमूनों से युक्त एक वास्तविक डेटा सरणी का विश्लेषण करके प्राप्त किया गया था, जिनमें से प्रत्येक की विशेषता 12 विशेषताएँ थीं।

अनुसूची 2

ग्राफ़ दिखाता है कि अंतिम चरण में, जब अंतिम दो क्लस्टर विलीन हो गए, तो उनके बीच की दूरी लगभग 200 इकाई है। यह देखा जा सकता है कि पहले क्लस्टर में दूसरे क्लस्टर की तुलना में बहुत कम ऑब्जेक्ट शामिल हैं। नीचे डेंड्रोग्राम का एक बड़ा खंड है जिसमें अवलोकन संख्याएं, जिन्हें C_65, C_58, आदि के रूप में नामित किया गया है, काफी स्पष्ट रूप से दिखाई देती हैं। (बाएं से दाएं): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94, आदि।

ग्राफ़ 3 उपरोक्त ग्राफ़ संख्या 2 का विस्तृत खंड

यह देखा जा सकता है कि ऑब्जेक्ट 44 एक मोनोक्लस्टर है जो अंतिम चरण में दाएं क्लस्टर के साथ एकजुट होता है और फिर अंतिम चरण में सभी अवलोकन एक क्लस्टर में संयुक्त हो जाते हैं।

ऐसी प्रक्रियाओं में निर्मित एक अन्य ग्राफ प्रत्येक विलय चरण पर इंटरक्लस्टर दूरियों में परिवर्तन का एक ग्राफ है। उपरोक्त डेंड्रोग्राम के लिए नीचे एक समान ग्राफ़ है।

अनुसूची 4

कई कार्यक्रमों में प्रत्येक क्लस्टरिंग चरण पर वस्तुओं के संयोजन के परिणामों को सारणीबद्ध रूप में प्रदर्शित करना संभव है। इनमें से अधिकांश तालिकाओं में, भ्रम से बचने के लिए, प्रारंभिक अवलोकनों - मोनोक्लस्टर, और दो या दो से अधिक अवलोकनों वाले वास्तविक समूहों को दर्शाने के लिए अलग-अलग शब्दावली का उपयोग किया जाता है। अंग्रेजी भाषा के सांख्यिकीय पैकेजों में, प्रारंभिक टिप्पणियों (डेटा मैट्रिक्स की पंक्तियाँ) को "केस" के रूप में नामित किया गया है। मीट्रिक की पसंद पर क्लस्टर संरचना की निर्भरता और क्लस्टर के संयोजन के लिए एल्गोरिदम की पसंद को प्रदर्शित करने के लिए, हम पूर्ण कनेक्शन एल्गोरिदम के अनुरूप एक डेंड्रोग्राम नीचे प्रस्तुत करते हैं। और यहां हम देखते हैं कि ऑब्जेक्ट #44 को अंतिम चरण में शेष चयन के साथ मिला दिया गया है।

अनुसूची 5

आइए अब इसकी तुलना उसी डेटा के लिए एकल लिंक विधि का उपयोग करके प्राप्त एक अन्य आरेख से करें। पूर्ण कनेक्शन विधि के विपरीत, यह स्पष्ट है कि यह विधि क्रमिक रूप से एक दूसरे से जुड़ी वस्तुओं की लंबी श्रृंखला उत्पन्न करती है। हालाँकि, तीनों मामलों में हम कह सकते हैं कि दो मुख्य समूह हैं।

अनुसूची 6

आइए हम यह भी ध्यान दें कि तीनों मामलों में, ऑब्जेक्ट नंबर 44 एक मोनोक्लस्टर के रूप में जुड़ता है, हालांकि क्लस्टरिंग प्रक्रिया के विभिन्न चरणों में। ऐसे मोनोक्लस्टर की पहचान असामान्य अवलोकनों का पता लगाने का एक अच्छा साधन है, जिन्हें आउटलेयर कहा जाता है। आइए इस "संदिग्ध" ऑब्जेक्ट नंबर 44 को हटाएं और फिर से क्लस्टरिंग करें। हमें निम्नलिखित डेंड्रोग्राम मिलता है:

अनुसूची 7

यह देखा जा सकता है कि "श्रृंखला" प्रभाव को संरक्षित किया गया है, जैसा कि अवलोकनों के दो स्थानीय समूहों में विभाजन है।

3. पुनरावृत्तीय क्लस्टरीकरण विधियों की 2 विशेषताएं

पुनरावृत्तीय विधियों में, सबसे लोकप्रिय विधि मैककेन की k-मीन्स विधि है। पदानुक्रमित तरीकों के विपरीत, इस पद्धति के अधिकांश कार्यान्वयन में उपयोगकर्ता को स्वयं अंतिम समूहों की आवश्यक संख्या निर्दिष्ट करनी होगी, जिसे आमतौर पर "k" के रूप में दर्शाया जाता है। जैसा कि पदानुक्रमित क्लस्टरिंग विधियों में, उपयोगकर्ता एक या दूसरे प्रकार की मीट्रिक का चयन कर सकता है। के-मीन्स विधि के विभिन्न एल्गोरिदम निर्दिष्ट समूहों के प्रारंभिक केंद्रों का चयन करने के तरीके में भी भिन्न होते हैं। विधि के कुछ संस्करणों में, उपयोगकर्ता स्वयं ऐसे प्रारंभिक बिंदुओं को निर्दिष्ट कर सकता है (या करना चाहिए), या तो उन्हें वास्तविक अवलोकनों से चुनकर, या प्रत्येक चर के लिए इन बिंदुओं के निर्देशांक निर्दिष्ट करके। इस पद्धति के अन्य कार्यान्वयन में, प्रारंभिक बिंदुओं की एक निश्चित संख्या k को यादृच्छिक रूप से चुना जाता है, और इन प्रारंभिक बिंदुओं (क्लस्टर बीज) को बाद में कई चरणों में परिष्कृत किया जा सकता है। ऐसी विधियों के 4 मुख्य चरण हैं:

· के अवलोकनों को समूहों के प्राथमिक केंद्र के रूप में चुना या सौंपा गया है;

· यदि आवश्यक हो, तो प्रत्येक अवलोकन को निकटतम निर्दिष्ट क्लस्टर केंद्रों को सौंपकर मध्यवर्ती क्लस्टर बनाए जाते हैं;

· सभी अवलोकनों को अलग-अलग समूहों को सौंपने के बाद, प्राथमिक क्लस्टर केंद्रों को क्लस्टर औसत से बदल दिया जाता है;

· पिछली पुनरावृत्ति तब तक दोहराई जाती है जब तक कि क्लस्टर केंद्रों के निर्देशांक में परिवर्तन न्यूनतम न हो जाए।

इस पद्धति के कुछ वेरिएंट में, उपयोगकर्ता मानदंड का एक संख्यात्मक मान निर्दिष्ट कर सकता है, जिसे नए क्लस्टर केंद्रों के चयन के लिए न्यूनतम दूरी के रूप में समझा जाता है। यदि किसी प्रेक्षक की प्रतिस्थापित क्लस्टर केंद्र से दूरी निर्दिष्ट संख्या से अधिक है तो उसे नए क्लस्टर केंद्र के लिए उम्मीदवार के रूप में नहीं माना जाएगा। कुछ प्रोग्रामों में इस पैरामीटर को "त्रिज्या" कहा जाता है। इस पैरामीटर के अलावा, पुनरावृत्तियों की अधिकतम संख्या निर्धारित करना या एक निश्चित, आमतौर पर काफी छोटी संख्या प्राप्त करना संभव है, जिसके साथ सभी क्लस्टर केंद्रों के लिए दूरी में परिवर्तन की तुलना की जाती है। इस पैरामीटर को आमतौर पर "अभिसरण" कहा जाता है क्योंकि पुनरावृत्त क्लस्टरिंग प्रक्रिया के अभिसरण को दर्शाता है। नीचे हम पिछले डेटा में मैककेन के-मीन्स पद्धति का उपयोग करके प्राप्त कुछ परिणाम प्रस्तुत करते हैं। आवश्यक समूहों की संख्या शुरू में 3 और फिर 2 पर सेट की गई थी। पहले भाग में विचरण के एक-तरफ़ा विश्लेषण के परिणाम शामिल हैं, जिसमें क्लस्टर संख्या एक समूहीकरण कारक के रूप में कार्य करती है। पहले कॉलम में 12 चरों की एक सूची है, उसके बाद वर्गों का योग (एसएस) और स्वतंत्रता की डिग्री (डीएफ), फिर फिशर का एफ परीक्षण और अंतिम कॉलम में प्राप्त महत्व स्तर "पी" है।

तालिका 2 मैककेन के-मीन्स विधि द्वारा प्राप्त डेटा, 70 अध्ययन किए गए नमूनों पर लागू होता है।

चर

जैसा कि इस तालिका से देखा जा सकता है, तीन समूहों में साधनों की समानता की शून्य परिकल्पना खारिज कर दी गई है। नीचे व्यक्तिगत समूहों के लिए सभी चर के औसत मूल्यों का एक ग्राफ है। वेरिएबल्स के ये समान क्लस्टर साधन नीचे तालिका के रूप में दिए गए हैं।

तालिका 3. तीन समूहों के उदाहरण का उपयोग करके डेटा की विस्तृत जांच।

चर

क्लस्टर नंबर 1

क्लस्टर नंबर 2

क्लस्टर नंबर 3

अनुसूची 8

प्रत्येक क्लस्टर के लिए चर के औसत मूल्यों का विश्लेषण हमें यह निष्कर्ष निकालने की अनुमति देता है कि, विशेषता X1 के अनुसार, क्लस्टर 1 और 3 के पास समान मान हैं, जबकि क्लस्टर 2 का औसत मान अन्य दो समूहों की तुलना में बहुत कम है। इसके विपरीत, विशेषता X2 के अनुसार, पहले क्लस्टर का मान सबसे कम है, जबकि दूसरे और तीसरे क्लस्टर का औसत मान अधिक और करीब है। विशेषताओं X3-X12 के लिए, क्लस्टर 1 में औसत मान क्लस्टर 2 और 3 की तुलना में काफी अधिक हैं। दो समूहों में क्लस्टरिंग के परिणामों के विचरण विश्लेषण की निम्न तालिका भी समानता की शून्य परिकल्पना को अस्वीकार करने की आवश्यकता को दर्शाती है चर X4 को छोड़कर, समूह का अर्थ लगभग सभी 12 विशेषताओं के लिए है, जिसके लिए प्राप्त महत्व स्तर 5% से अधिक था।

तालिका 4. दो समूहों में क्लस्टरिंग के परिणामों के विचरण विश्लेषण की तालिका।

चर

दो समूहों में क्लस्टरिंग के मामले के लिए समूह साधनों का एक ग्राफ और तालिका नीचे दी गई है।

तालिका 5. दो समूहों में क्लस्टरिंग के मामले के लिए तालिका।

चर

क्लस्टर नंबर 1

क्लस्टर नंबर 2

अनुसूची 9.

ऐसे मामले में जब शोधकर्ता पहले से समूहों की सबसे संभावित संख्या निर्धारित करने में सक्षम नहीं होता है, तो उसे गणना दोहराने के लिए मजबूर किया जाता है, उनमें से एक अलग संख्या निर्दिष्ट करता है, जैसा कि ऊपर किया गया था। और फिर, प्राप्त परिणामों की एक दूसरे से तुलना करते हुए, सबसे स्वीकार्य क्लस्टरिंग विकल्पों में से एक पर निर्णय लें।

4 . सुविधाओं का समूहन

व्यक्तिगत अवलोकनों को क्लस्टर करने के अलावा, क्लस्टरिंग सुविधाओं के लिए एल्गोरिदम भी हैं। ऐसी पहली विधियों में से एक पी.वी. टेरेंटयेव द्वारा सहसंबंध आकाशगंगाओं की विधि है। ऐसी आकाशगंगाओं की आदिम छवियां अक्सर बायोमेडिकल प्रकाशनों में तीरों से जुड़े संकेतों वाले एक वृत्त के रूप में पाई जा सकती हैं, जिसके लिए लेखकों ने एक सहसंबंध की खोज की है। कई कार्यक्रमों में वस्तुओं और सुविधाओं को क्लस्टर करने के लिए अलग-अलग प्रक्रियाएँ होती हैं। उदाहरण के लिए, एसएएस पैकेज में, VARCLUS प्रक्रिया (VARiable - वेरिएबल और CLUster - क्लस्टर से) का उपयोग सुविधाओं को क्लस्टर करने के लिए किया जाता है, जबकि टिप्पणियों का क्लस्टर विश्लेषण अन्य प्रक्रियाओं - FASTCLUS और CLUSTER द्वारा किया जाता है। दोनों ही मामलों में, डेंड्रोग्राम का निर्माण TREE (ट्री) प्रक्रिया का उपयोग करके किया जाता है।

अन्य सांख्यिकीय पैकेजों में, क्लस्टरिंग के लिए तत्वों - वस्तुओं या विशेषताओं - का चयन एक ही मॉड्यूल में किया जाता है। ऐसी अभिव्यक्तियाँ जिनमें सुविधाओं की एक जोड़ी के लिए रिश्ते की ताकत को प्रतिबिंबित करने वाले कुछ गुणांकों का मान शामिल होता है, अक्सर सुविधाओं को क्लस्टर करते समय एक मीट्रिक के रूप में उपयोग किया जाता है। इस मामले में, एक (कार्यात्मक निर्भरता) के बराबर कनेक्शन शक्ति वाली सुविधाओं के लिए सुविधाओं के बीच की दूरी को शून्य के बराबर लेना बहुत सुविधाजनक है। दरअसल, एक कार्यात्मक कनेक्शन के साथ, एक विशेषता के मूल्य का उपयोग किसी अन्य विशेषता के मूल्य की सटीक गणना करने के लिए किया जा सकता है। जैसे-जैसे सुविधाओं के बीच संबंध की ताकत कम होती जाती है, दूरी तदनुसार बढ़ती जाती है। नीचे एक ग्राफ़ है जो उन 12 विशेषताओं के संयोजन के लिए डेंड्रोग्राम दिखा रहा है जिनका उपयोग ऊपर 70 विश्लेषणात्मक नमूनों को क्लस्टर करने में किया गया था।

ग्राफ़ 10. डेंड्रोग्राम12 सुविधाओं का क्लस्टरिंग।

जैसा कि इस डेंड्रोग्राम से देखा जा सकता है, हम लक्षणों के दो स्थानीय समूहों से निपट रहे हैं: X1-X10 और X11-X12। लक्षणों के समूह X1-X10 को इंटरक्लस्टर दूरी के काफी छोटे मूल्य की विशेषता है, जो लगभग 100 इकाइयों से अधिक नहीं है। यहां हम कुछ आंतरिक युग्मित उपसमूह भी देखते हैं: X1 और X2, X3 और X4, X6 और X7। इन जोड़ियों की विशेषताओं के बीच की दूरी, जो शून्य के बहुत करीब है, उनके मजबूत जोड़ीवार संबंध को इंगित करती है। जबकि जोड़ी X11 और X12 के लिए, इंटरक्लस्टर दूरी बहुत बड़ी है और लगभग 300 इकाइयाँ हैं। अंत में, बाएँ (X1-X10) और दाएँ (X11-X12) समूहों के बीच बहुत बड़ी दूरी, लगभग 1150 इकाइयों के बराबर, यह बताती है कि सुविधाओं के इन दो समूहों के बीच संबंध काफी न्यूनतम है।

5. क्लस्टरीकरण की स्थिरता और गुणवत्ता

जाहिर है, यह सवाल उठाना बेतुका होगा कि क्लस्टर विश्लेषण विधियों का उपयोग करके प्राप्त यह या वह वर्गीकरण कितना पूर्ण है। क्लस्टरिंग विधि को बदलते समय, स्थिरता इस तथ्य में प्रकट होती है कि डेंड्रोग्राम में दो क्लस्टर काफी स्पष्ट रूप से दिखाई देते हैं।

क्लस्टर विश्लेषण के परिणामों की स्थिरता की जांच करने के संभावित तरीकों में से एक के रूप में, विभिन्न क्लस्टरिंग एल्गोरिदम के लिए प्राप्त परिणामों की तुलना करने की विधि का उपयोग किया जा सकता है। अन्य तरीके 1977 में बी. एफ्रॉन द्वारा प्रस्तावित तथाकथित बूटस्ट्रैप विधि, "जैकनाइफ" और "स्लाइडिंग कंट्रोल" विधियां हैं। क्लस्टर समाधान की मजबूती का परीक्षण करने का सबसे सरल साधन मूल नमूने को यादृच्छिक रूप से दो लगभग बराबर भागों में विभाजित करना, दोनों भागों को क्लस्टर करना और फिर परिणामों की तुलना करना होगा। अधिक श्रम-गहन तरीके में पहले ऑब्जेक्ट को क्रमिक रूप से बाहर करना और शेष (एन - 1) ऑब्जेक्ट को क्लस्टर करना शामिल है। फिर, दूसरे, तीसरे आदि को छोड़कर इस प्रक्रिया को क्रमिक रूप से पूरा करना। वस्तुओं, सभी एन परिणामी समूहों की संरचना का विश्लेषण किया जाता है। एक अन्य मजबूती परीक्षण एल्गोरिदम में कई प्रसार शामिल हैं, एन ऑब्जेक्ट्स के मूल नमूने को डुप्लिकेट करना, फिर सभी डुप्लिकेट नमूनों को एक बड़े नमूने (छद्म-जनसंख्या) में संयोजित करना और यादृच्छिक रूप से इसमें से एन ऑब्जेक्ट्स का एक नया नमूना निकालना शामिल है। इसके बाद, इस नमूने की क्लस्टरिंग की जाती है, फिर एक नया यादृच्छिक नमूना निकाला जाता है और फिर से क्लस्टरिंग की जाती है, आदि। यह भी काफी श्रम साध्य रास्ता है.

क्लस्टरिंग की गुणवत्ता का आकलन करते समय समस्याएं भी कम नहीं हैं। क्लस्टर समाधानों को अनुकूलित करने के लिए बहुत सारे एल्गोरिदम हैं। पहला काम जिसमें इंट्रा-क्लस्टर विचरण को कम करने के लिए एक मानदंड का सूत्रीकरण और एक इष्टतम समाधान खोजने के लिए एक एल्गोरिदम (जैसे कि के-मीन्स) शामिल थे, 50 के दशक में सामने आए। 1963 में जे. वार्ड के लेख में भी एक समान श्रेणीबद्ध अनुकूलन एल्गोरिथ्म की रूपरेखा दी गई है। क्लस्टर समाधान को अनुकूलित करने के लिए कोई सार्वभौमिक मानदंड नहीं है। यह सब शोधकर्ता के लिए इष्टतम समाधान चुनना कठिन बना देता है। ऐसी स्थिति में, यह स्थापित करने का सबसे अच्छा तरीका है कि अध्ययन के इस चरण में पाया गया क्लस्टर समाधान इष्टतम है, बहुभिन्नरूपी सांख्यिकी के अन्य तरीकों का उपयोग करके प्राप्त निष्कर्षों के साथ इस समाधान की स्थिरता ही है।

क्लस्टरिंग की इष्टतमता के बारे में निष्कर्ष अध्ययन की अन्य वस्तुओं पर प्राप्त समाधान के पूर्वानुमानित क्षणों के परीक्षण के सकारात्मक परिणामों से भी समर्थित है। क्लस्टर विश्लेषण के पदानुक्रमित तरीकों का उपयोग करते समय, हम इंटरक्लस्टर दूरी में चरण-दर-चरण परिवर्तनों के कई ग्राफ़ की तुलना करने की अनुशंसा कर सकते हैं। इस मामले में, उस विकल्प को प्राथमिकता दी जानी चाहिए जिसके लिए क्लस्टरिंग के अंतिम 1-2 चरणों में इस ग्राफ के तेज ऊर्ध्वाधर वृद्धि के साथ पहले चरण से कई अंतिम चरणों तक इस तरह की वृद्धि की एक सपाट रेखा है।

निष्कर्ष

अपने काम में, मैंने न केवल इस प्रकार के विश्लेषण की जटिलता, बल्कि डेटा प्रोसेसिंग की इष्टतम क्षमताओं को भी दिखाने की कोशिश की, क्योंकि अक्सर परिणामों की सटीकता के लिए दसियों से सैकड़ों नमूनों का उपयोग करना आवश्यक होता है। इस प्रकार का विश्लेषण परिणामों को वर्गीकृत और संसाधित करने में मदद करता है। मुझे यह भी लगता है कि यह महत्वहीन नहीं है कि इस विश्लेषण में कंप्यूटर तकनीक स्वीकार्य है, जो प्रसंस्करण परिणामों की प्रक्रिया को कम श्रम-गहन बनाना संभव बनाती है और इस तरह हमें विश्लेषण के लिए नमूनों के सही चयन पर अधिक ध्यान देने की अनुमति देती है।

क्लस्टर विश्लेषण के उपयोग में सूक्ष्मताएं और विवरण हैं जो व्यक्तिगत विशिष्ट मामलों में दिखाई देते हैं और तुरंत दिखाई नहीं देते हैं। उदाहरण के लिए, सुविधाओं के पैमाने की भूमिका न्यूनतम हो सकती है, या कई मामलों में प्रमुख हो सकती है। ऐसे मामलों में, परिवर्तनीय परिवर्तनों का उपयोग करना आवश्यक है। यह उन तरीकों का उपयोग करते समय विशेष रूप से प्रभावी होता है जो सुविधाओं के गैर-रेखीय परिवर्तन उत्पन्न करते हैं जो आम तौर पर सुविधाओं के बीच सहसंबंध के समग्र स्तर को बढ़ाते हैं।

केवल गुणात्मक विशेषताओं द्वारा वर्णित वस्तुओं के संबंध में क्लस्टर विश्लेषण के उपयोग में और भी अधिक विशिष्टता है। इस मामले में, गुणात्मक सुविधाओं के प्रारंभिक डिजिटलीकरण और नई सुविधाओं के साथ क्लस्टर विश्लेषण करने के तरीके काफी सफल हैं। अपने काम में, मैंने दिखाया कि क्लस्टर विश्लेषण बहुत सारी नई और मूल जानकारी प्रदान करता है, जब पर्याप्त रूप से अध्ययन किए गए सिस्टम पर लागू किया जाता है और जब एक अज्ञात संरचना के साथ सिस्टम का अध्ययन किया जाता है।

यह भी ध्यान दिया जाना चाहिए कि विकासवादी अध्ययनों में क्लस्टर विश्लेषण अपरिहार्य हो गया है, जिससे विकासवादी पथ दिखाने वाले फ़ाइलोजेनेटिक पेड़ों के निर्माण की अनुमति मिलती है। इन विधियों का उपयोग भौतिक और विश्लेषणात्मक रसायन विज्ञान में वैज्ञानिक अनुसंधान कार्यक्रमों में भी व्यापक रूप से किया जाता है।

ग्रंथ सूची

1) एवाज़्यान एस.ए., एन्युकोव आई.एस., मेशालकिन एल.डी. लागू सांख्यिकीय विश्लेषण के लिए एक सॉफ्टवेयर पैकेज की संरचना और सामग्री पर // लागू सांख्यिकीय विश्लेषण के लिए एल्गोरिदम और सॉफ्टवेयर। - एम., 1980।

2) अयवज़्यान एस.ए., बेज़हेवा जेड.आई., स्टारोवरोव ओ.वी. बहुआयामी अवलोकनों का वर्गीकरण। - एम.: सांख्यिकी, 1974।

3) बेकर वी.ए., लुकात्स्काया एम.एल. युग्मन गुणांक के मैट्रिक्स की संरचना के विश्लेषण पर // उद्योग में आर्थिक-सांख्यिकीय मॉडलिंग और पूर्वानुमान के मुद्दे। - नोवोसिबिर्स्क, 1970।

4) ब्रेवरमैन ई.एम., मुचनिक आई.बी. डेटा प्रोसेसिंग के संरचनात्मक तरीके। - एम.: नौका, 1983।

5) वोरोनिन यू. ए. वर्गीकरण सिद्धांत और उसके अनुप्रयोग। - नोवोसिबिर्स्क: नौका, 1987।

6) बोट्रियोलॉजी का अच्छा आई. जे. बोट्रियोलॉजी // वर्गीकरण और क्लस्टर। - एम .: मीर, 1980।

7) डबरोव्स्की एस.ए. अनुप्रयुक्त बहुभिन्नरूपी सांख्यिकीय विश्लेषण। - एम.: वित्त और सांख्यिकी, 1982।

8) डूरंड एन., ओडेल पी. क्लस्टर विश्लेषण। - एम.: सांख्यिकी, 1977।

9) एलीसेवा आई.आई., रुकविश्निकोव वी.एस. समूहीकरण, सहसंबंध, पैटर्न पहचान। - एम.: सांख्यिकी, 1977।

10) ज़ागोरुइको एन.जी. पहचान के तरीके और उनका अनुप्रयोग। - एम.: सोवियत रेडियो, 1972।

11) ज़ेड एल. ए. धुंधले सेट और पैटर्न पहचान और क्लस्टर विश्लेषण में उनका अनुप्रयोग // वर्गीकरण और क्लस्टर। - एम.: मीर, 1980।

12) किल्डिशेव जी.एस., एबोलेंटसेव यू.आई. बहुआयामी समूह। - एम.: सांख्यिकी, 1978।

13) रायस्काया आई.आई., गोस्टिलिन एन.आई., फ्रेनकेल ए.ए. क्लस्टर विश्लेषण में विभाजन की वैधता की जांच करने के एक तरीके के बारे में।//अर्थशास्त्र में बहुभिन्नरूपी सांख्यिकीय विश्लेषण का अनुप्रयोग और उत्पाद की गुणवत्ता का मूल्यांकन।--चौ. पी. टार्टू, 1977.

14) शूरगिन ए.एम. अंतरबिंदु दूरियों और अंतरों का वितरण // लागू बहुभिन्नरूपी सांख्यिकीय विश्लेषण के लिए सॉफ्टवेयर और एल्गोरिथम समर्थन। - एम., 1983।

15) ईरेमा आर. उनके संख्यात्मक प्रतिनिधित्व को खोजने के लिए क्लस्टर सिस्टम और एल्गोरिदम को डिजाइन करने का सामान्य सिद्धांत: टीएसयू के कंप्यूटिंग सेंटर की कार्यवाही। - टार्टू, 1978।

16) यस्त्रेम्स्की बी.एस. चयनित कार्य। - एम.: सांख्यिकी, 1964।

समान दस्तावेज़

    विपणन गतिविधियों में बाजार विभाजन के लक्ष्य। क्लस्टर विश्लेषण का सार, इसके कार्यान्वयन के मुख्य चरण। दूरी माप पद्धति या समानता माप का चयन करना। पदानुक्रमित, गैर-पदानुक्रमित क्लस्टरिंग विधियाँ। विश्वसनीयता और वैधता का आकलन करना।

    रिपोर्ट, 11/02/2009 को जोड़ी गई

    उद्यम की वित्तीय स्थिति के मुख्य संकेतक। उद्यम में संकट, इसके कारण, प्रकार और परिणाम। क्लस्टर विश्लेषण के आधुनिक तरीके और उपकरण, किसी उद्यम के वित्तीय और आर्थिक मूल्यांकन के लिए उनके उपयोग की विशेषताएं।

    थीसिस, 10/09/2013 को जोड़ा गया

    स्टेटग्राफिक्स प्लस प्रोग्राम का उपयोग करके उद्यमों का क्लस्टर विश्लेषण करना। एक रेखीय प्रतिगमन समीकरण का निर्माण. प्रतिगमन मॉडल का उपयोग करके लोच गुणांक की गणना। समीकरण के सांख्यिकीय महत्व और निर्धारण के गुणांक का आकलन करना।

    कार्य, 03/16/2014 को जोड़ा गया

    अवलोकनों के अलग-अलग समूहों के लिए टाइपोलॉजिकल रिग्रेशन का निर्माण। स्थानिक डेटा और अस्थायी जानकारी. क्लस्टर विश्लेषण के अनुप्रयोग के क्षेत्र. वस्तुओं की एकरूपता की अवधारणा, दूरी मैट्रिक्स के गुण। टाइपोलॉजिकल रिग्रेशन को अंजाम देना।

    प्रस्तुतिकरण, 10/26/2013 जोड़ा गया

    पूर्वानुमान की आधुनिक पद्धति के रूप में संयुक्त मॉडलों और विधियों का निर्माण। क्लस्टरिंग समस्याओं को हल करते समय स्थिर और गैर-स्थिर समय श्रृंखला का वर्णन करने के लिए ARIMA-आधारित मॉडल। ऑटोरेग्रेसिव एआर मॉडल और कोरेलोग्राम के अनुप्रयोग।

    प्रस्तुति, 05/01/2015 को जोड़ा गया

    विभिन्न प्रकार के मेट्रिक्स की विशेषताएँ। निकटतम पड़ोसी विधि और इसके सामान्यीकरण। निकटतम पड़ोसी एल्गोरिथ्म. पार्ज़ेन विंडो विधि. सामान्यीकृत मीट्रिक वर्गीकरणकर्ता. मीट्रिक चुनने की समस्या. मैनहट्टन और यूक्लिडियन दूरी. कोसाइन माप.

    कोर्स वर्क, 03/08/2015 को जोड़ा गया

    क्रास्नोडार क्षेत्र के निर्माण उद्योग की विशेषताएं। आवास निर्माण विकास का पूर्वानुमान. क्लस्टर विश्लेषण के लिए आधुनिक तरीके और उपकरण। किसी उद्यम की आर्थिक स्थिति का निदान करने के लिए बहुभिन्नरूपी सांख्यिकीय विधियाँ।

    थीसिस, 07/20/2015 को जोड़ा गया

    ब्रांस्क क्षेत्र के उदाहरण का उपयोग करके बंधक ऋण देने की विशेषताएं। निर्णय लेने के गणितीय तरीकों की समीक्षा: विशेषज्ञ आकलन, अनुक्रमिक और जोड़ीदार तुलना, पदानुक्रम का विश्लेषण। इष्टतम बंधक ऋण खोजने के लिए एक कार्यक्रम का विकास।

    पाठ्यक्रम कार्य, 11/29/2012 जोड़ा गया

    आधुनिक विज्ञान में प्रणाली विश्लेषण के अनुप्रयोग के क्षेत्र, इसका स्थान, भूमिका, लक्ष्य और कार्य। सिस्टम विश्लेषण तकनीकों की अवधारणा और सामग्री, इसकी अनौपचारिक विधियाँ। अनुमानी और विशेषज्ञ अनुसंधान विधियों की विशेषताएं और उनके अनुप्रयोग की विशेषताएं।

    पाठ्यक्रम कार्य, 05/20/2013 को जोड़ा गया

    आर्थिक डेटा की विशिष्टताओं को ध्यान में रखते हुए और आर्थिक विज्ञान और अभ्यास की आवश्यकताओं के अनुसार अर्थमिति विधियों का विकास और अनुसंधान। आर्थिक आंकड़ों के सांख्यिकीय विश्लेषण के लिए अर्थमितीय तरीकों और मॉडलों का अनुप्रयोग।

यह पुस्तक इस अर्थ में बहुआयामी प्रक्रियाओं और घटनाओं के विश्लेषण के लिए सबसे आशाजनक दृष्टिकोणों में से एक - क्लस्टर विश्लेषण - को समर्पित है।

क्लस्टर विश्लेषण बहुआयामी वस्तुओं को समूहीकृत करने की एक विधि है, जो एक उपयुक्त ज्यामितीय स्थान के बिंदुओं द्वारा व्यक्तिगत अवलोकनों के परिणामों का प्रतिनिधित्व करने पर आधारित है, इसके बाद इन बिंदुओं के "गुच्छों" के रूप में समूहों की पहचान की जाती है। दरअसल, अंग्रेजी में "क्लस्टर" का अर्थ है "गुच्छ", "गुच्छा (अंगूर का)", "क्लस्टर (सितारों का)", आदि। यह शब्द वैज्ञानिक शब्दावली में असामान्य रूप से अच्छी तरह से फिट बैठता है, क्योंकि इसका पहला शब्दांश पारंपरिक शब्द "से मेल खाता है" वर्ग", और दूसरा इसकी कृत्रिम उत्पत्ति का संकेत देता प्रतीत होता है। हमें इसमें कोई संदेह नहीं है कि क्लस्टर विश्लेषण की शब्दावली इस उद्देश्य के लिए पहले उपयोग किए गए सभी निर्माणों (अपर्यवेक्षित पैटर्न पहचान, स्तरीकरण, वर्गीकरण, स्वचालित वर्गीकरण इत्यादि) को प्रतिस्थापित कर देगी। क्लस्टर विश्लेषण की क्षमता समान परिस्थितियों में या समान परिणामों के साथ काम करने वाले उद्यमों के समूहों की पहचान करने, जीवन के विभिन्न पहलुओं या सामान्य रूप से जीवनशैली में आबादी के सजातीय समूहों आदि की पहचान करने की समस्याओं को हल करने के लिए स्पष्ट है।

क्लस्टर विश्लेषण 60 के दशक के मध्य में एक वैज्ञानिक दिशा के रूप में उभरा और तब से तेजी से विकसित हो रहा है, जो सांख्यिकीय विज्ञान की सबसे गहन वृद्धि की शाखाओं में से एक है। यह कहना पर्याप्त है कि विभिन्न देशों में अब तक प्रकाशित अकेले क्लस्टर विश्लेषण पर मोनोग्राफ की संख्या सैकड़ों में मापी गई है (जबकि, मान लीजिए, बहुभिन्नरूपी सांख्यिकीय विश्लेषण की ऐसी "योग्य" पद्धति पर कारक विश्लेषण, कई दर्जन पुस्तकों की गिनती करना मुश्किल से संभव है)। और यह काफी समझ में आता है. आख़िरकार, हम वास्तव में समूहीकरण ऑपरेशन के मॉडलिंग के बारे में बात कर रहे हैं, जो न केवल आंकड़ों में, बल्कि सामान्य रूप से - अनुभूति और निर्णय लेने दोनों में सबसे महत्वपूर्ण है।

हमारे देश में क्लस्टर विश्लेषण (1), सामाजिक-आर्थिक अनुसंधान में क्लस्टर विश्लेषण का उपयोग करने की पद्धति (2), क्लस्टर विश्लेषण की पद्धति (जैसे) का उपयोग करके विशिष्ट सामाजिक-आर्थिक समस्याओं के अध्ययन के लिए समर्पित कई मोनोग्राफ प्रकाशित किए गए हैं। 3) (सांख्यिकीय विश्लेषण के मूल सिद्धांत)

आई. डी. मंडेल द्वारा प्रस्तावित पुस्तक, मानो इस वर्गीकरण के लंबवत है: इसकी सामग्री इन तीन क्षेत्रों में से प्रत्येक से जुड़ी हुई है।

पुस्तक का उद्देश्य क्लस्टर विश्लेषण की वर्तमान स्थिति को संक्षेप में प्रस्तुत करना, इसके उपयोग की संभावनाओं और आगे के विकास के लिए कार्यों का विश्लेषण करना है। यह योजना अपने आप में सम्मान जगाती है: निष्पक्ष विश्लेषण और सामान्यीकरण के लिए बहुत अधिक काम, विद्वता, साहस की आवश्यकता होती है, और वैज्ञानिक समुदाय द्वारा अपने स्वयं के डिजाइनों के प्रचार और विकास की तुलना में बहुत कम महत्व दिया जाता है। (हालांकि, पुस्तक में "जानबूझकर" विश्लेषण और वर्गीकरणों के द्वंद्व से संबंधित लेखक के मूल विकास भी शामिल हैं।)

इस लक्ष्य की प्राप्ति पुस्तक के फायदे और नुकसान दोनों से जुड़ी है। फायदों में शामिल हैं:

· घटनाओं और प्रक्रियाओं की बहुआयामीता को ध्यान में रखते हुए, एकरूपता, समूहन और वर्गीकरण की अवधारणाओं का पद्धतिगत विस्तार;

· क्लस्टर विश्लेषण के दृष्टिकोण और तरीकों की एक व्यवस्थित समीक्षा (150 विशिष्ट एल्गोरिदम तक);

· क्लस्टर विश्लेषण प्रक्रियाओं की प्रयोगात्मक तुलना की प्रौद्योगिकी और परिणामों की प्रस्तुति; यह पुस्तक इस अर्थ में बहुआयामी प्रक्रियाओं और घटनाओं के विश्लेषण के लिए सबसे आशाजनक दृष्टिकोणों में से एक - क्लस्टर विश्लेषण - को समर्पित है।

क्लस्टर विश्लेषण बहुआयामी वस्तुओं को समूहीकृत करने की एक विधि है, जो एक उपयुक्त ज्यामितीय स्थान के बिंदुओं द्वारा व्यक्तिगत अवलोकनों के परिणामों का प्रतिनिधित्व करने पर आधारित है, इसके बाद इन बिंदुओं के "गुच्छों" के रूप में समूहों की पहचान की जाती है। दरअसल, अंग्रेजी में "क्लस्टर" का अर्थ है "गुच्छ", "गुच्छा (अंगूर का)", "क्लस्टर (सितारों का)", आदि। यह शब्द वैज्ञानिक शब्दावली में असामान्य रूप से अच्छी तरह से फिट बैठता है, क्योंकि इसका पहला शब्दांश पारंपरिक शब्द "से मेल खाता है" वर्ग", और दूसरा इसकी कृत्रिम उत्पत्ति का संकेत देता प्रतीत होता है। हमें इसमें कोई संदेह नहीं है कि क्लस्टर विश्लेषण की शब्दावली इस उद्देश्य के लिए पहले उपयोग किए गए सभी निर्माणों (अपर्यवेक्षित पैटर्न पहचान, स्तरीकरण, वर्गीकरण, स्वचालित वर्गीकरण इत्यादि) को प्रतिस्थापित कर देगी। क्लस्टर विश्लेषण की क्षमता समान परिस्थितियों में या समान परिणामों के साथ काम करने वाले उद्यमों के समूहों की पहचान करने, जीवन के विभिन्न पहलुओं या सामान्य रूप से जीवनशैली में आबादी के सजातीय समूहों आदि की पहचान करने की समस्याओं को हल करने के लिए स्पष्ट है।

क्लस्टर विश्लेषण 60 के दशक के मध्य में एक वैज्ञानिक दिशा के रूप में उभरा और तब से तेजी से विकसित हो रहा है, जो सांख्यिकीय विज्ञान की सबसे गहन वृद्धि की शाखाओं में से एक है। यह कहना पर्याप्त है कि क्लस्टर विश्लेषण पर केवल मोनोग्राफ की संख्या, क्लस्टर विश्लेषण विधियों का उपयोग करने के लिए सामान्य योजनाओं का विकास, काफी स्पष्ट तालिकाओं में कार्यान्वित किया गया है; प्रस्तुति की अनुशंसात्मक प्रकृति.

ये फायदे अन्य प्रकाशनों के बीच आई. डी. मंडेल की पुस्तक का स्वतंत्र स्थान निर्धारित करते हैं।

पुस्तक की कमियाँ कुछ अनुशंसाओं की अस्पष्टता और विषय-विशिष्ट सामाजिक-आर्थिक अनुप्रयोगों में क्लस्टर विश्लेषण विधियों के उपयोग के व्यवस्थित विश्लेषण की कमी हैं। सच है, उत्तरार्द्ध इस क्षेत्र में क्लस्टर विश्लेषण के अपर्याप्त उपयोग के कारण है।

पुस्तक एक स्प्रिंगबोर्ड प्रदान करती है, जिसके उपयोग से किसी भी सिद्धांत के सबसे कठिन मुद्दे में प्रगति की सुविधा मिलती है - इसके द्वारा प्रदान किए गए उपकरणों का व्यावहारिक उपयोग।

बी. जी. मिर्किन

विश्वविद्यालय: वीजेडएफईआई

वर्ष और शहर: मॉस्को 2008


1 परिचय। क्लस्टर विश्लेषण पद्धति की अवधारणा.

2. क्लस्टर विश्लेषण का उपयोग करने की पद्धति का विवरण। समस्या समाधान का परीक्षण उदाहरण.

4. प्रयुक्त सन्दर्भों की सूची

  1. परिचय। क्लस्टर विश्लेषण पद्धति की अवधारणा.

क्लस्टर विश्लेषण विधियों का एक सेट है जो बहुआयामी अवलोकनों को वर्गीकृत करना संभव बनाता है, जिनमें से प्रत्येक को विशेषताओं (पैरामीटर) X1, X2,…, Xk के एक सेट द्वारा वर्णित किया गया है।

क्लस्टर विश्लेषण का लक्ष्य समान वस्तुओं के समूहों का निर्माण है, जिन्हें आमतौर पर क्लस्टर (वर्ग, टैक्सन, संक्षेपण) कहा जाता है।

क्लस्टर विश्लेषण सांख्यिकीय अनुसंधान के क्षेत्रों में से एक है। यह विज्ञान की उन शाखाओं में विशेष रूप से महत्वपूर्ण स्थान रखता है जो सामूहिक घटनाओं और प्रक्रियाओं के अध्ययन से जुड़ी हैं। क्लस्टर विश्लेषण के तरीकों को विकसित करने और उनके उपयोग की आवश्यकता इस तथ्य से तय होती है कि वे वैज्ञानिक रूप से आधारित वर्गीकरण बनाने और देखी गई आबादी की इकाइयों के बीच आंतरिक संबंधों की पहचान करने में मदद करते हैं। इसके अलावा, क्लस्टर विश्लेषण विधियों का उपयोग जानकारी को संपीड़ित करने के लिए किया जा सकता है, जो सांख्यिकीय डेटा प्रवाह की निरंतर वृद्धि और जटिलता के संदर्भ में एक महत्वपूर्ण कारक है।

क्लस्टर विश्लेषण विधियाँ आपको निम्नलिखित समस्याओं को हल करने की अनुमति देती हैं:

वस्तुओं के सार और प्रकृति को प्रतिबिंबित करने वाली विशेषताओं को ध्यान में रखते हुए वस्तुओं का वर्गीकरण करना। ऐसी समस्या को हल करने से, एक नियम के रूप में, वर्गीकृत वस्तुओं की समग्रता के बारे में ज्ञान गहरा होता है;

वस्तुओं के अध्ययन किए गए सेट में कुछ संरचना की उपस्थिति के बारे में की गई धारणाओं की जाँच करना, अर्थात। मौजूदा संरचना की खोज करें;

खराब अध्ययन की गई घटनाओं के लिए नए वर्गीकरण का निर्माण, जब किसी आबादी के भीतर कनेक्शन की उपस्थिति स्थापित करना और उसमें संरचना पेश करने का प्रयास करना आवश्यक हो (1, पृ. 85-86)।

2. क्लस्टर विश्लेषण का उपयोग करने की पद्धति का विवरण। समस्या समाधान का परीक्षण उदाहरण.

क्लस्टर विश्लेषण k विशेषताओं की विशेषता वाली n वस्तुओं को सजातीय समूहों (क्लस्टर) में विभाजित करने की अनुमति देता है। वस्तुओं की एकरूपता दूरी p(xi xj) द्वारा निर्धारित की जाती है, जहां xi = (xi1, …., xik) और xj= (xj1,…, xjk) i की k विशेषताओं के मानों से बने वेक्टर हैं -वें और जे-वें ऑब्जेक्ट, क्रमशः।

संख्यात्मक विशेषताओं वाली वस्तुओं के लिए, दूरी निम्नलिखित सूत्र द्वारा निर्धारित की जाती है:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

वस्तुओं को सजातीय माना जाता है यदि p(xi xj)< p предельного.

यूनियन का एक चित्रमय प्रतिनिधित्व क्लस्टर यूनियन ट्री - एक डेंड्रोग्राम का उपयोग करके प्राप्त किया जा सकता है। (2.अध्याय 39).

परीक्षण मामला (उदाहरण 92)।

बिक्री की मात्रा

आइए हम "निकटतम पड़ोसी" सिद्धांत का उपयोग करके इन वस्तुओं को वर्गीकृत करें। आइए सूत्र (1)* का उपयोग करके वस्तुओं के बीच की दूरी ज्ञात करें। आइए तालिका भरें.

आइए हम बताते हैं कि तालिका कैसे भरी जाती है।

पंक्ति i और स्तंभ j के प्रतिच्छेदन पर, दूरी p(xi xj) इंगित की गई है (परिणाम को दो दशमलव स्थानों तक पूर्णांकित किया गया है)।

उदाहरण के लिए, पंक्ति 1 और स्तंभ 3 के प्रतिच्छेदन पर दूरी p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5.10 इंगित की गई है, और पंक्ति 3 और स्तंभ 5 के प्रतिच्छेदन पर दूरी इंगित की गई है दूरी p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08. चूँकि p(xi, xj) = p(xj,xi), तालिका के निचले भाग को भरने की आवश्यकता नहीं है।

आइए हम "निकटतम पड़ोसी" सिद्धांत लागू करें। हम तालिका में सबसे छोटी दूरियाँ पाते हैं (यदि ऐसी कई दूरियाँ हैं, तो उनमें से कोई एक चुनें)। यह p 1.2 ≈ p 4.5 = 2.24 है। माना p मिनट = p 4.5 = 2.24. फिर हम ऑब्जेक्ट 4 और 5 को एक समूह में जोड़ सकते हैं, यानी, संयुक्त कॉलम 4 और 5 में मूल दूरी तालिका के कॉलम 4 और 5 में संबंधित संख्याओं में से सबसे छोटी संख्या होगी। हम पंक्ति 4 और 5 के साथ भी ऐसा ही करते हैं। हमें एक नई तालिका मिलती है।

हम परिणामी तालिका में सबसे छोटी दूरियाँ पाते हैं (यदि उनमें से कई हैं, तो उनमें से कोई भी चुनें): पी मिनट = पी 1.2 = 2.24। फिर हम ऑब्जेक्ट 1,2,3 को एक समूह में जोड़ सकते हैं, यानी, संयुक्त कॉलम 1,2,3 में पिछली दूरी तालिका के कॉलम 1 और 2 और 3 की संबंधित संख्याओं में से सबसे छोटी संख्या होगी। हम पंक्तियों 1, 2 और 3 के साथ भी ऐसा ही करते हैं। हमें एक नई तालिका मिलती है।

हमें दो क्लस्टर मिले: (1,2,3) और (4,5)।

3. परीक्षण के लिए समस्याओं का समाधान.

समस्या 85.

स्थितियाँ:पांच उत्पादन सुविधाओं की विशेषता दो विशेषताएं हैं: बिक्री की मात्रा और अचल संपत्तियों की औसत वार्षिक लागत।

बिक्री की मात्रा

अचल संपत्तियों की औसत वार्षिक लागत

समाधान:आइए सूत्र (1)* (दो दशमलव स्थानों तक पूर्णांकित करते हुए) का उपयोग करके वस्तुओं के बीच की दूरी ज्ञात करें:

р 1,1 = √ (2-2) 2 + (2-2) 2 = 0

р 1.2 = √ (2-5) 2 + (7-9) 2 ≈ 3.61

р 1.3 = √ (2-7) 2 + (7-10) 2 ≈ 5.83

पी 2.2 = √ (5-5) 2 + (9-9) 2 =0

р 2.3 = √ (5-7) 2 + (9-10) 2 ≈ 2.24

पी 3.4 = √ (7-12) 2 + (10-8) 2 ≈5.39

पी 3.5 = √ (7-13) 2 + (10-5) 2 ≈ 7.81

р 4.5 = √ (12-13) 2 + (8-5) 2 ≈ 3.16

गणना परिणामों के आधार पर, तालिका भरें:

आइए हम "निकटतम पड़ोसी" सिद्धांत लागू करें। ऐसा करने के लिए, हम तालिका में सबसे छोटी दूरियाँ पाते हैं (यदि ऐसी कई दूरियाँ हैं, तो उनमें से किसी एक का चयन करें)। यह पी 2.3=2.24 है। मान लीजिए p मिनट = p 2.3 = 2.24, तो हम कॉलम "2" और "3" की वस्तुओं को मर्ज कर सकते हैं, और ऑब्जेक्ट "2" और "3" की पंक्तियों को भी मर्ज कर सकते हैं। नई तालिका में, हम मूल तालिका से सबसे छोटे मानों को संयुक्त समूहों में दर्ज करते हैं।

नई तालिका में हमें सबसे छोटी दूरियाँ मिलती हैं (यदि उनमें से कई हैं, तो उनमें से किसी एक का चयन करें)। यह पी 4.5 = 3.16 है। मान लीजिए p मिनट = p 4.5 = 3.16, तो हम कॉलम "4" और "5" की वस्तुओं को मर्ज कर सकते हैं, और ऑब्जेक्ट "4" और "5" की पंक्तियों को भी मर्ज कर सकते हैं। नई तालिका में, हम मूल तालिका से सबसे छोटे मानों को संयुक्त समूहों में दर्ज करते हैं।

नई तालिका में हमें सबसे छोटी दूरियाँ मिलती हैं (यदि उनमें से कई हैं, तो उनमें से किसी एक का चयन करें)। यह पी 1, 2 और 3 = 3.61 है। मान लीजिए p मिनट = p 1, 2 और 3 = 3.61, तो हम कॉलम ऑब्जेक्ट्स "1" और "2 और 3" को मर्ज कर सकते हैं और पंक्तियों को भी मर्ज कर सकते हैं। नई तालिका में, हम मूल तालिका से सबसे छोटे मानों को संयुक्त समूहों में दर्ज करते हैं।

हमें दो क्लस्टर मिलते हैं: (1,2,3) और (4,5)।

डेंड्रोग्राम तत्वों के चयन का क्रम और संबंधित न्यूनतम दूरी पी मिनट दिखाता है।

उत्तर:"निकटतम पड़ोसी" सिद्धांत का उपयोग करके क्लस्टर विश्लेषण के परिणामस्वरूप, समान वस्तुओं के 2 क्लस्टर बनाए गए: (1,2,3) और (4,5)।

समस्या 211.

स्थितियाँ:पांच उत्पादन सुविधाओं की विशेषता दो विशेषताएं हैं: बिक्री की मात्रा और अचल संपत्तियों की औसत वार्षिक लागत।

बिक्री की मात्रा

अचल संपत्तियों की औसत वार्षिक लागत

"निकटतम पड़ोसी" सिद्धांत का उपयोग करके इन वस्तुओं को वर्गीकृत करें।

समाधान:समस्या को हल करने के लिए, हम डेटा को मूल तालिका में प्रस्तुत करते हैं। आइए वस्तुओं के बीच की दूरी निर्धारित करें। आइए हम वस्तुओं को "निकटतम पड़ोसी" सिद्धांत के अनुसार वर्गीकृत करें। हम परिणामों को डेंड्रोग्राम के रूप में प्रस्तुत करते हैं।

बिक्री की मात्रा

अचल संपत्तियों की औसत वार्षिक लागत

सूत्र (1)* का उपयोग करके हम वस्तुओं के बीच की दूरी ज्ञात करते हैं:

पी 1.1 =0, पी 1.2 =6, पी 1.3 =8.60, पी 1.4 =6.32, पी 1.5 =6.71, पी 2.2 =0, पी 2 .3 =7.07, पी 2.4 =2, पी 2.5 =3.32, पी 3.3 = 0, पी 3.4 =5.10, पी 3.5 =4.12, पी 4 .4 =0, पी 4.5 =1, पी 5.5 =0।

हम परिणाम तालिका में प्रस्तुत करते हैं:

तालिका में दूरियों का न्यूनतम मान p 4.5=1 है। मान लीजिए p मिनट = p 4.5 = 1, तो हम कॉलम "4" और "5" की वस्तुओं को मर्ज कर सकते हैं, और ऑब्जेक्ट "4" और "5" की पंक्तियों को भी मर्ज कर सकते हैं। नई तालिका में, हम मूल तालिका से सबसे छोटे मानों को संयुक्त समूहों में दर्ज करते हैं।

नई तालिका में दूरियों का न्यूनतम मान p 2, 4 और 5=2 है। मान लीजिए p मिनट = p 2, 4 और 5=2, तो हम कॉलम "4 और 5" और "3" की वस्तुओं को मर्ज कर सकते हैं, और ऑब्जेक्ट "4 और 5" और "3" की पंक्तियों को भी मर्ज कर सकते हैं। नई तालिका में, हम तालिका से सबसे छोटे मानों को संयुक्त समूहों में दर्ज करते हैं।

नई तालिका में दूरियों का न्यूनतम मान p 3,4,5=2 है। मान लीजिए p मिनट = p 3,4,5=2, फिर हम कॉलम "3,4,5" और "2" की वस्तुओं को मर्ज कर सकते हैं, और ऑब्जेक्ट्स की पंक्तियों को "3,4,5" और मर्ज भी कर सकते हैं। "2"। नई तालिका में, हम तालिका से सबसे छोटे मानों को संयुक्त समूहों में दर्ज करते हैं।

या साइट पर लॉग इन करें.

महत्वपूर्ण! मुफ़्त डाउनलोडिंग के लिए सबमिट किए गए सभी परीक्षण आपके अपने वैज्ञानिक कार्यों के लिए एक योजना या आधार तैयार करने के लिए हैं।

दोस्त! आपके पास अपने जैसे छात्रों की मदद करने का एक अनूठा अवसर है! यदि हमारी साइट ने आपको आपकी ज़रूरत की नौकरी ढूंढने में मदद की है, तो आप निश्चित रूप से समझेंगे कि आपके द्वारा जोड़ी गई नौकरी दूसरों के काम को कैसे आसान बना सकती है।

यदि आपकी राय में परीक्षण कार्य खराब गुणवत्ता का है, या आप यह कार्य पहले ही देख चुके हैं, तो कृपया हमें बताएं।

सामाजिक-आर्थिक पूर्वानुमान कार्यों में क्लस्टर विश्लेषण

क्लस्टर विश्लेषण का परिचय.

सामाजिक-आर्थिक घटनाओं का विश्लेषण और पूर्वानुमान करते समय, शोधकर्ता को अक्सर उनके विवरण की बहुआयामीता का सामना करना पड़ता है। यह तब होता है जब बाजार विभाजन की समस्या को हल किया जाता है, काफी बड़ी संख्या में संकेतकों के आधार पर देशों की एक टाइपोलॉजी का निर्माण किया जाता है, व्यक्तिगत वस्तुओं के लिए बाजार की स्थितियों का पूर्वानुमान लगाया जाता है, आर्थिक अवसाद और कई अन्य समस्याओं का अध्ययन और पूर्वानुमान लगाया जाता है।

बड़ी संख्या में विशेषताओं द्वारा वर्णित सामाजिक-आर्थिक प्रक्रियाओं का अध्ययन करने के लिए बहुभिन्नरूपी विश्लेषण विधियां सबसे प्रभावी मात्रात्मक उपकरण हैं। इनमें क्लस्टर विश्लेषण, वर्गीकरण, पैटर्न पहचान और कारक विश्लेषण शामिल हैं।

क्लस्टर विश्लेषण सबसे स्पष्ट रूप से वर्गीकरण, कारक विश्लेषण - संचार के अध्ययन में बहुभिन्नरूपी विश्लेषण की विशेषताओं को दर्शाता है।

कभी-कभी क्लस्टर विश्लेषण दृष्टिकोण को साहित्य में संख्यात्मक वर्गीकरण, संख्यात्मक वर्गीकरण, स्व-शिक्षण पहचान आदि कहा जाता है।

क्लस्टर विश्लेषण को अपना पहला अनुप्रयोग समाजशास्त्र में मिला। क्लस्टर विश्लेषण नाम अंग्रेजी शब्द क्लस्टर - बंच, संचय से आया है। 1939 में पहली बार क्लस्टर विश्लेषण के विषय को शोधकर्ता ट्रियोन द्वारा परिभाषित और वर्णित किया गया था। क्लस्टर विश्लेषण का मुख्य उद्देश्य अध्ययन के तहत वस्तुओं और विशेषताओं के समूह को उन समूहों या समूहों में विभाजित करना है जो उचित अर्थ में सजातीय हैं। इसका मतलब है कि डेटा को वर्गीकृत करने और उसमें संबंधित संरचना की पहचान करने की समस्या का समाधान किया जा रहा है। क्लस्टर विश्लेषण विधियों का उपयोग विभिन्न प्रकार के मामलों में किया जा सकता है, यहां तक ​​​​कि उन मामलों में भी जहां हम सरल समूहीकरण के बारे में बात कर रहे हैं, जिसमें मात्रात्मक समानता के आधार पर समूहों के गठन के लिए सब कुछ नीचे आता है।

क्लस्टर विश्लेषण का बड़ा लाभ यह है कि यह आपको वस्तुओं को एक पैरामीटर के अनुसार नहीं, बल्कि विशेषताओं के पूरे सेट के अनुसार विभाजित करने की अनुमति देता है। इसके अलावा, क्लस्टर विश्लेषण, अधिकांश गणितीय और सांख्यिकीय तरीकों के विपरीत, विचाराधीन वस्तुओं के प्रकार पर कोई प्रतिबंध नहीं लगाता है, और लगभग मनमानी प्रकृति के विभिन्न प्रारंभिक डेटा पर विचार करने की अनुमति देता है। यह बहुत महत्वपूर्ण है, उदाहरण के लिए, बाजार की स्थिति का पूर्वानुमान लगाने के लिए, जब संकेतकों का रूप विविध होता है, जिससे पारंपरिक अर्थमितीय दृष्टिकोण का उपयोग करना मुश्किल हो जाता है।

क्लस्टर विश्लेषण आपको काफी बड़ी मात्रा में जानकारी पर विचार करने और बड़ी मात्रा में सामाजिक-आर्थिक जानकारी को नाटकीय रूप से कम करने और संपीड़ित करने की अनुमति देता है, जिससे वे कॉम्पैक्ट और दृश्यमान हो जाते हैं।

आर्थिक विकास (उदाहरण के लिए, सामान्य आर्थिक और कमोडिटी स्थितियां) को दर्शाने वाली समय श्रृंखला के सेट के संबंध में क्लस्टर विश्लेषण महत्वपूर्ण है। यहां आप उन अवधियों को उजागर कर सकते हैं जब संबंधित संकेतकों के मान काफी करीब थे, और समय श्रृंखला के समूहों को भी निर्धारित कर सकते हैं जिनकी गतिशीलता सबसे समान है।

क्लस्टर विश्लेषण का उपयोग पुनरावृत्त रूप से किया जा सकता है। इस मामले में, आवश्यक परिणाम प्राप्त होने तक अनुसंधान किया जाता है। इसके अलावा, यहां प्रत्येक चक्र ऐसी जानकारी प्रदान कर सकता है जो क्लस्टर विश्लेषण के आगे के अनुप्रयोग की दिशा और दृष्टिकोण को काफी हद तक बदल सकती है। इस प्रक्रिया को फीडबैक प्रणाली के रूप में दर्शाया जा सकता है।

सामाजिक-आर्थिक पूर्वानुमान के कार्यों में, अन्य मात्रात्मक तरीकों (उदाहरण के लिए, प्रतिगमन विश्लेषण) के साथ क्लस्टर विश्लेषण का संयोजन बहुत आशाजनक है।

किसी भी अन्य विधि की तरह, क्लस्टर विश्लेषण के कुछ नुकसान और सीमाएँ हैं: विशेष रूप से, क्लस्टर की संरचना और संख्या चयनित विभाजन मानदंड पर निर्भर करती है। मूल डेटा सरणी को अधिक कॉम्पैक्ट रूप में कम करते समय, कुछ विकृतियाँ उत्पन्न हो सकती हैं, और क्लस्टर मापदंडों के सामान्यीकृत मूल्यों की विशेषताओं के साथ उनके प्रतिस्थापन के कारण व्यक्तिगत वस्तुओं की व्यक्तिगत विशेषताएं खो सकती हैं। वस्तुओं को वर्गीकृत करते समय, विचाराधीन सेट में किसी भी क्लस्टर मान की अनुपस्थिति की संभावना को अक्सर नजरअंदाज कर दिया जाता है।

क्लस्टर विश्लेषण में यह माना जाता है कि:

ए) चयनित विशेषताएँ, सिद्धांत रूप में, समूहों में वांछित विभाजन की अनुमति देती हैं;

बी) माप की इकाइयाँ (पैमाने) सही ढंग से चुनी गई हैं।

पैमाने का चुनाव एक बड़ी भूमिका निभाता है। आमतौर पर, डेटा को माध्य घटाकर और मानक विचलन से विभाजित करके सामान्यीकृत किया जाता है ताकि विचरण एक के बराबर हो।

क्लस्टर विश्लेषण समस्या.

क्लस्टर विश्लेषण का कार्य, सेट जीजे विभाजन के एक और केवल एक उपसमूह से संबंधित है और इसलिए एक ही क्लस्टर से संबंधित वस्तुएं समान हैं, जबकि विभिन्न समूहों से संबंधित वस्तुएं विषम हैं।

उदाहरण के लिए, मान लीजिए कि G में n देश शामिल हैं, जिनमें से किसी की विशेषता प्रति व्यक्ति GNP (F1), प्रति 1 हजार लोगों पर कारों की संख्या M (F2), प्रति व्यक्ति बिजली खपत (F3), प्रति व्यक्ति स्टील खपत (F4) है। , वगैरह। फिर X1 (माप वेक्टर) पहले देश के लिए निर्दिष्ट विशेषताओं का एक सेट है, दूसरे के लिए X2, तीसरे के लिए X3, आदि। लक्ष्य विकास के स्तर के आधार पर देशों को वर्गीकृत करना है।

क्लस्टर विश्लेषण समस्या का समाधान विभाजन है जो कुछ इष्टतमता मानदंड को पूरा करता है। यह मानदंड विभिन्न विभाजनों और समूहों की वांछनीयता के स्तर को व्यक्त करने वाला एक प्रकार का कार्यात्मक हो सकता है, जिसे उद्देश्य फ़ंक्शन कहा जाता है। उदाहरण के लिए, वर्ग विचलन के भीतर-समूह योग को उद्देश्य फ़ंक्शन के रूप में लिया जा सकता है:

जहां xj, j-वें ऑब्जेक्ट के माप को दर्शाता है।

क्लस्टर विश्लेषण की समस्या को हल करने के लिए समानता और विषमता की अवधारणा को परिभाषित करना आवश्यक है।

यह स्पष्ट है कि वस्तुएं i-th और j-th एक क्लस्टर में गिर जाएंगी जब बिंदु Xi और Xj के बीच की दूरी (दूरस्थता) काफी छोटी होगी और जब यह दूरी काफी बड़ी होगी तो अलग-अलग क्लस्टर में गिर जाएगी। इस प्रकार, वस्तुओं के एक या विभिन्न समूहों में गिरना ईपी से शी और एक्सजे के बीच की दूरी की अवधारणा से निर्धारित होता है, जहां ईपी एक पी-आयामी यूक्लिडियन स्थान है। एक गैर-नकारात्मक फलन d(Xi, Xj) को दूरी फलन (मीट्रिक) कहा जाता है यदि:

a) d(Хi, Хj) ³ 0, Ep से सभी Хi और Хj के लिए

बी) डी(Хi, Хj) = 0, यदि और केवल यदि Хi = Хj

ग) d(Хi, Хj) = d(Хj, Хi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), जहां Xj; Xi और Xk Ep से कोई तीन वेक्टर हैं।

Хi और Хj के लिए मान d(Хi, Хj) को Хi और Хj के बीच की दूरी कहा जाता है और चयनित विशेषताओं (F1, F2, F3, ..., Fр) के अनुसार Gi और Gj के बीच की दूरी के बराबर है।

सबसे अधिक उपयोग किए जाने वाले दूरी फ़ंक्शन हैं:

1. यूक्लिडियन दूरी d2(Хi, Хj) =

2. l1 - मानक d1(Хi, Хj) =

3. सुप्रीम - मानक डी¥ (Хi, Хj) = सुपर

के = 1, 2, ..., पी

4. एलपी - मानक dр(Хi, Хj) =

यूक्लिडियन मीट्रिक सबसे लोकप्रिय है। एल1 मीट्रिक की गणना करना सबसे आसान है। सर्वोच्च मानदंड की गणना करना आसान है और इसमें ऑर्डर देने की प्रक्रिया शामिल है, और एलपी मानदंड दूरी फ़ंक्शन 1, 2, 3 को कवर करता है।

मान लें कि n आयाम X1, X2,..., Xn को आकार p ´n के डेटा मैट्रिक्स के रूप में दर्शाया गया है:

फिर वैक्टर d(Хi, Хj) के जोड़े के बीच की दूरी को दूरियों के एक सममित मैट्रिक्स के रूप में दर्शाया जा सकता है:

दूरी की विपरीत अवधारणा Gi वस्तुओं के बीच समानता की अवधारणा है। और जी.जे. एक गैर-नकारात्मक वास्तविक फलन S(Хi ; Хj) = Sij को समानता माप कहा जाता है यदि:

1) 0 £ S(Хi, Хj)<1 для Хi¹ Хj

2) एस(Хi, Хi) = 1

3) S(Хi, Хj) = S(Хj, Хi)

समानता माप मानों के जोड़े को एक समानता मैट्रिक्स में जोड़ा जा सकता है:

सिज के मान को समानता गुणांक कहा जाता है।

1.3. क्लस्टर विश्लेषण के तरीके।

आज क्लस्टर विश्लेषण के बहुत सारे तरीके हैं। आइए उनमें से कुछ पर नजर डालें (नीचे दी गई विधियों को आमतौर पर न्यूनतम विचरण विधियां कहा जाता है)।

मान लीजिए कि X प्रेक्षणों का एक मैट्रिक्स है: X = (X1, X2,..., Xu) और Xi और Xj के बीच यूक्लिडियन दूरी का वर्ग सूत्र द्वारा निर्धारित किया जाता है:

1) पूर्ण कनेक्शन की विधि.

इस पद्धति का सार यह है कि एक ही समूह (क्लस्टर) से संबंधित दो वस्तुओं में समानता गुणांक होता है जो एक निश्चित सीमा मान एस से कम होता है। यूक्लिडियन दूरी डी के संदर्भ में, इसका मतलब है कि दो बिंदुओं (वस्तुओं) के बीच की दूरी क्लस्टर का एक निश्चित सीमा मान h से अधिक नहीं होना चाहिए। इस प्रकार, h क्लस्टर बनाने वाले उपसमुच्चय के अधिकतम स्वीकार्य व्यास को परिभाषित करता है।

2) अधिकतम स्थानीय दूरी विधि.

प्रत्येक ऑब्जेक्ट को एकल बिंदु क्लस्टर के रूप में माना जाता है। वस्तुओं को निम्नलिखित नियम के अनुसार समूहीकृत किया जाता है: यदि एक क्लस्टर के बिंदुओं और दूसरे के बिंदुओं के बीच अधिकतम दूरी न्यूनतम है तो दो क्लस्टर संयुक्त हो जाते हैं। प्रक्रिया में n-1 चरण होते हैं और परिणाम ऐसे विभाजन होते हैं जो किसी भी थ्रेशोल्ड मान के लिए पिछली पद्धति के सभी संभावित विभाजनों से मेल खाते हैं।

3) शब्द की विधि.

इस पद्धति में, वर्ग विचलन के इंट्राग्रुप योग का उपयोग उद्देश्य फ़ंक्शन के रूप में किया जाता है, जो प्रत्येक बिंदु (वस्तु) और इस वस्तु वाले क्लस्टर के औसत के बीच वर्ग दूरी के योग से अधिक कुछ नहीं है। प्रत्येक चरण में, दो समूहों को संयोजित किया जाता है जिससे उद्देश्य फ़ंक्शन में न्यूनतम वृद्धि होती है, अर्थात। वर्गों के भीतर-समूह का योग। इस पद्धति का लक्ष्य निकट स्थित समूहों को संयोजित करना है।

4) केन्द्रक विधि.

दो समूहों के बीच की दूरी को इन समूहों के केंद्रों (औसत) के बीच यूक्लिडियन दूरी के रूप में परिभाषित किया गया है:

d2 ij = (`X - `Y)Т(`X - `Y) प्रत्येक n-1 चरण पर क्लस्टरिंग चरण दर चरण होती है, दो क्लस्टर G और p संयुक्त होते हैं, जिनका न्यूनतम मान d2ij होता है यदि n1 इससे बहुत अधिक है n2, तब दोनों समूहों के विलय के केंद्र एक-दूसरे के करीब होते हैं और समूहों का संयोजन करते समय दूसरे क्लस्टर की विशेषताओं को व्यावहारिक रूप से नजरअंदाज कर दिया जाता है। इस विधि को कभी-कभी भारित समूह विधि भी कहा जाता है।

1.4 अनुक्रमिक क्लस्टरिंग एल्गोरिदम।

Ι = (Ι1, Ι2,… Ιn) को समूहों (Ι1), (Ι2),…(Ιn) के एक सेट के रूप में मानें। आइए उनमें से दो को चुनें, उदाहरण के लिए, Ι i और Ι j, जो कुछ अर्थों में एक दूसरे के करीब हैं और उन्हें एक क्लस्टर में जोड़ते हैं। क्लस्टर का नया सेट, जिसमें पहले से ही n-1 क्लस्टर शामिल हैं, होगा:

(Ι1), (Ι2)…, (Ι i, Ι j),…, (Ιn)।

प्रक्रिया को दोहराते हुए, हम (n-2), (n-3), (n-4), आदि से युक्त समूहों के क्रमिक सेट प्राप्त करते हैं। समूह. प्रक्रिया के अंत में, आप n ऑब्जेक्ट से युक्त और मूल सेट Ι = (Ι1, Ι2,… Ιn) से मेल खाने वाला एक क्लस्टर प्राप्त कर सकते हैं।

दूरी के माप के रूप में, हम यूक्लिडियन मीट्रिक di j2 का वर्ग लेते हैं। और मैट्रिक्स D = (di j2) की गणना करें, जहां di j2 बीच की दूरी का वर्ग है

Ι1 Ι2 Ι3 …. Ιn
Ι1 0 d122 d132 …. d1n2
Ι2 0 d232 …. d2n2
Ι3 0 …. d3n2
…. …. ….
Ιn 0

मान लीजिए Ι i और Ι j के बीच की दूरी न्यूनतम है:

di j2 = मिनट (di j2, i ¹ j)। Ι i और Ι j का उपयोग करके हम एक नया क्लस्टर बनाते हैं

(Ι i, Ι j). आइए एक नया ((n-1), (n-1)) दूरी मैट्रिक्स बनाएं

(Ι मैं , Ι जे) Ι1 Ι2 Ι3 …. Ιn
(Ι i; Ι j) 0 दी जे21 दी जे22 दी जे23 …. दी जे2एन
Ι1 0 d122 d13 …. d12n
Ι2 0 दी जे21 …. d2n
Ι3 0 …. d3n
Ιn 0

अंतिम मैट्रिक्स के लिए (n-2) पंक्तियाँ पिछले एक से ली गई हैं, और पहली पंक्ति की पुनर्गणना की गई है। यदि हम di j2k,k = 1, 2,…, n को व्यक्त कर सकें तो गणनाओं को न्यूनतम किया जा सकता है; (k ¹ i ¹ j) मूल मैट्रिक्स के तत्वों के माध्यम से।

प्रारंभ में, दूरी केवल एकल-तत्व समूहों के बीच निर्धारित की जाती है, लेकिन एक से अधिक तत्व वाले समूहों के बीच की दूरी निर्धारित करना आवश्यक है। यह विभिन्न तरीकों से किया जा सकता है, और चुनी गई विधि के आधार पर, हम विभिन्न गुणों के साथ क्लस्टर विश्लेषण एल्गोरिदम प्राप्त करते हैं। उदाहरण के लिए, आप क्लस्टर i + j और कुछ अन्य क्लस्टर k के बीच की दूरी को क्लस्टर i और k और क्लस्टर j और k के बीच की दूरी के अंकगणितीय माध्य के बराबर रख सकते हैं:

di+j,k = ½ (di k + dj k)।

लेकिन हम di+j,k को इन दो दूरियों की न्यूनतम के रूप में भी परिभाषित कर सकते हैं:

di+j,k = मिनट (di k + dj k)।

इस प्रकार, समूहीकृत पदानुक्रमित एल्गोरिथ्म का पहला चरण वर्णित है। आगे के चरण समान हैं.

यदि दूरियों की पुनर्गणना करने के लिए निम्नलिखित सामान्य सूत्र का उपयोग किया जाता है तो एल्गोरिदम का एक काफी विस्तृत वर्ग प्राप्त किया जा सकता है:

di+j,k = A(w) मिनट(dik djk) + B(w) अधिकतम(dik djk), जहां

ए(डब्ल्यू) = यदि डिक £ डीजेके

A(w) = यदि dik > djk

बी(डब्ल्यू) = यदि डिक £ डीजेके

बी(डब्ल्यू) = यदि डिक > डीजेके

जहां ni और nj क्लस्टर i और j में तत्वों की संख्या हैं, और w एक मुफ़्त पैरामीटर है, जिसकी पसंद एक विशिष्ट एल्गोरिदम द्वारा निर्धारित की जाती है। उदाहरण के लिए, जब w = 1 हमें तथाकथित "औसत कनेक्शन" एल्गोरिथ्म मिलता है, जिसके लिए दूरियों की पुनर्गणना का सूत्र इस प्रकार होता है:

दी+ज,क =

इस मामले में, एल्गोरिथ्म के प्रत्येक चरण में दो समूहों के बीच की दूरी ऐसे सभी तत्वों के जोड़े के बीच की दूरी के अंकगणितीय माध्य के बराबर हो जाती है कि जोड़ी का एक तत्व एक क्लस्टर से संबंधित है, दूसरा दूसरे से।

यदि हम w®¥ डालते हैं तो पैरामीटर w का दृश्य अर्थ स्पष्ट हो जाता है। दूरियों की पुनर्गणना करने का सूत्र इस प्रकार है:

di+j,k = मिनट (di,k djk)

यह तथाकथित "निकटतम पड़ोसी" एल्गोरिदम होगा, जो आपको किसी भी जटिल आकार के समूहों की पहचान करने की अनुमति देता है, बशर्ते कि ऐसे समूहों के विभिन्न हिस्से एक दूसरे के करीब तत्वों की श्रृंखला से जुड़े हों। इस मामले में, एल्गोरिदम के प्रत्येक चरण पर दो समूहों के बीच की दूरी इन दो समूहों से संबंधित दो निकटतम तत्वों के बीच की दूरी के बराबर हो जाती है।

अक्सर यह मान लिया जाता है कि समूहीकृत किए जा रहे तत्वों के बीच प्रारंभिक दूरियाँ (अंतर) दी गई हैं। कुछ समस्याओं में यह वास्तव में सत्य है। हालाँकि, केवल वस्तुएँ और उनकी विशेषताएँ निर्दिष्ट की जाती हैं, और इन डेटा के आधार पर एक दूरी मैट्रिक्स बनाया जाता है। इस पर निर्भर करते हुए कि वस्तुओं के बीच या वस्तुओं की विशेषताओं के बीच की दूरी की गणना की जाती है, विभिन्न तरीकों का उपयोग किया जाता है।

वस्तुओं के क्लस्टर विश्लेषण के मामले में, अंतर का सबसे आम माप या तो यूक्लिडियन दूरी का वर्ग है

(जहां xih, xjh i-th और j-th ऑब्जेक्ट के लिए h-th सुविधा के मान हैं, और m विशेषताओं की संख्या है), या यूक्लिडियन दूरी ही है। यदि सुविधाओं को अलग-अलग भार दिए गए हैं, तो दूरी की गणना करते समय इन भारों को ध्यान में रखा जा सकता है

कभी-कभी अंतर के माप के रूप में दूरी का उपयोग किया जाता है, जिसकी गणना सूत्र का उपयोग करके की जाती है:

जिन्हें कहा जाता है: "हैमिंग", "मैनहट्टन" या "सिटी ब्लॉक" दूरी।

कई कार्यों में वस्तु विशेषताओं की समानता का एक प्राकृतिक माप उनके बीच सहसंबंध गुणांक है

जहां mi, mj, di, dj क्रमशः विशेषताओं i और j के लिए औसत और मानक विचलन हैं। विशेषताओं के बीच अंतर का माप मान 1 - r हो सकता है। कुछ समस्याओं में, सहसंबंध गुणांक का चिह्न महत्वहीन होता है और केवल माप की इकाई की पसंद पर निर्भर करता है। इस मामले में, ô1 - ri j ô का उपयोग विशेषताओं के बीच अंतर के माप के रूप में किया जाता है

1.5 समूहों की संख्या.

एक बहुत ही महत्वपूर्ण मुद्दा समूहों की आवश्यक संख्या चुनने की समस्या है। कभी-कभी आप प्राथमिकता से क्लस्टरों की एम संख्या चुन सकते हैं। हालाँकि, सामान्य स्थिति में, यह संख्या सेट को समूहों में विभाजित करने की प्रक्रिया में निर्धारित की जाती है।

फोर्टियर और सोलोमन द्वारा शोध किया गया और यह निर्धारित किया गया कि सर्वोत्तम विभाजन मिलने की संभावना प्राप्त करने के लिए समूहों की संख्या को अपनाया जाना चाहिए। इस प्रकार, विभाजनों की इष्टतम संख्या सभी संभावित विभाजनों के सेट में सर्वोत्तम या कुछ अर्थों में स्वीकार्य विभाजनों के दिए गए अंश बी का एक कार्य है। स्वीकार्य विभाजनों का अनुपात बी जितना अधिक होगा, कुल बिखराव उतना ही अधिक होगा। फोर्टियर और सोलोमन ने एक तालिका विकसित की जिसका उपयोग आवश्यक विभाजनों की संख्या ज्ञात करने के लिए किया जा सकता है। एस(ए,बी) ए और बी पर निर्भर करता है (जहां ए संभावना है कि सबसे अच्छा विभाजन पाया जाता है, बी विभाजन की कुल संख्या में सबसे अच्छे विभाजन का हिस्सा है) इसके अलावा, विषमता का माप का माप नहीं है फैलाव, लेकिन होल्ज़ेंगर और हरमन द्वारा पेश की गई सदस्यता का माप। S(a,b) मानों की तालिका नीचे दी गई है।

मानों की तालिका S(a,b)

बी ० ए 0.20 0.10 0.05 0.01 0.001 0.0001
0.20 8 11 14 21 31 42
0.10 16 22 29 44 66 88
0.05 32 45 59 90 135 180
0.01 161 230 299 459 689 918
0.001 1626 2326 3026 4652 6977 9303
0.0001 17475 25000 32526 55000 75000 100000

अक्सर, संयोजन की कसौटी (क्लस्टरों की संख्या) संबंधित फ़ंक्शन में बदलाव होता है। उदाहरण के लिए, वर्ग विचलनों का योग:

समूहीकरण प्रक्रिया को यहां मानदंड ई के मूल्य में लगातार न्यूनतम वृद्धि के अनुरूप होना चाहिए। ई के मूल्य में तेज उछाल की उपस्थिति को उन समूहों की संख्या की विशेषता के रूप में समझा जा सकता है जो अध्ययन के तहत आबादी में मौजूद हैं।

तो, समूहों की सर्वोत्तम संख्या निर्धारित करने का दूसरा तरीका वस्तुओं की दृढ़ता से बंधी अवस्था से कमजोर बंधी अवस्था में चरण संक्रमण द्वारा निर्धारित छलांग की पहचान करना है।

1.6 डेंडोग्राम।

दूरी या समानता मैट्रिक्स का प्रतिनिधित्व करने की सबसे प्रसिद्ध विधि डेंडोग्राम या वृक्ष आरेख के विचार पर आधारित है। डेंडोग्राम को अनुक्रमिक क्लस्टरिंग प्रक्रिया के परिणामों के ग्राफिकल प्रतिनिधित्व के रूप में परिभाषित किया जा सकता है, जो दूरी मैट्रिक्स के संदर्भ में किया जाता है। डेंडोग्राम का उपयोग करके, आप ग्राफ़िक या ज्यामितीय रूप से क्लस्टरिंग प्रक्रिया का प्रतिनिधित्व कर सकते हैं, बशर्ते कि यह प्रक्रिया केवल दूरी या समानता मैट्रिक्स के तत्वों पर संचालित हो।

डेंडोग्राम बनाने के कई तरीके हैं। डेंडोग्राम में, ऑब्जेक्ट बाईं ओर लंबवत स्थित होते हैं, क्लस्टरिंग परिणाम दाईं ओर स्थित होते हैं। नए समूहों की संरचना के अनुरूप दूरी या समानता मान डेंडोग्राम के शीर्ष पर एक क्षैतिज रेखा के साथ दर्शाए गए हैं।

चित्र 1 डेंडोग्राम का एक उदाहरण दिखाता है। चित्र 1 छह वस्तुओं (n=6) और k विशेषताओं (सुविधाओं) के मामले से मेल खाता है। ऑब्जेक्ट ए और सी निकटतम हैं और इसलिए 0.9 के निकटता स्तर पर एक क्लस्टर में संयुक्त होते हैं। ऑब्जेक्ट डी और ई को 0.8 के स्तर पर संयोजित किया गया है। अब हमारे पास 4 क्लस्टर हैं:

डेंडोग्राम का प्रकार किसी वस्तु और क्लस्टर के बीच समानता माप या दूरी की पसंद और क्लस्टरिंग विधि पर निर्भर करता है। सबसे महत्वपूर्ण बिंदु वस्तु और क्लस्टर के बीच समानता माप या दूरी माप का चुनाव है।

क्लस्टर विश्लेषण एल्गोरिदम की संख्या बहुत बड़ी है. उन सभी को श्रेणीबद्ध और गैर-श्रेणीबद्ध में विभाजित किया जा सकता है।

पदानुक्रमित एल्गोरिदम डेंडोग्राम के निर्माण से जुड़े हैं और इन्हें इसमें विभाजित किया गया है:

ए) समूहीकरण, प्रारंभिक तत्वों के अनुक्रमिक संयोजन और समूहों की संख्या में इसी कमी की विशेषता;

बी) विभाज्य (विभाज्य), जिसमें समूहों की संख्या एक से शुरू होकर बढ़ती है, जिसके परिणामस्वरूप विभाजित समूहों का एक क्रम बनता है।

क्लस्टर विश्लेषण एल्गोरिदम में आज अच्छा सॉफ्टवेयर कार्यान्वयन है, जो सबसे बड़े आयाम की समस्याओं को हल करने की अनुमति देता है।

1.7 डेटा

क्लस्टर विश्लेषण को अंतराल डेटा, आवृत्तियों और बाइनरी डेटा पर लागू किया जा सकता है। यह महत्वपूर्ण है कि चर तुलनीय पैमानों पर भिन्न-भिन्न हों।

माप की इकाइयों की विविधता और एक ही पैमाने पर विभिन्न संकेतकों के मूल्यों को वैध रूप से व्यक्त करने की असंभवता इस तथ्य की ओर ले जाती है कि उनके गुणों के स्थान में वस्तुओं की स्थिति को प्रतिबिंबित करने वाले बिंदुओं के बीच की दूरी एक पर निर्भर हो जाती है मनमाने ढंग से चुना गया पैमाना. स्रोत डेटा के माप में विविधता को खत्म करने के लिए, उनके सभी मान पूर्व-सामान्यीकृत हैं, अर्थात। इन मानों के अनुपात के माध्यम से एक निश्चित मान को व्यक्त किया जाता है जो किसी दिए गए संकेतक के कुछ गुणों को दर्शाता है। क्लस्टर विश्लेषण के लिए प्रारंभिक डेटा का सामान्यीकरण कभी-कभी संबंधित संकेतकों के मानक विचलन द्वारा प्रारंभिक मूल्यों को विभाजित करके किया जाता है। दूसरा तरीका तथाकथित मानकीकृत योगदान की गणना करना है। इसे Z-योगदान भी कहा जाता है।

Z-योगदान दिखाता है कि कितने मानक विचलन किसी दिए गए अवलोकन को माध्य से अलग करते हैं:

जहाँ xi इस अवलोकन का मान है, औसत है, S मानक विचलन है।

Z-योगदान का माध्य शून्य है और मानक विचलन 1 है।

मानकीकरण विभिन्न वितरणों के अवलोकनों की तुलना करने की अनुमति देता है। यदि किसी चर का वितरण सामान्य (या सामान्य के करीब) है और माध्य और भिन्नता बड़े नमूनों से ज्ञात या अनुमानित है, तो किसी अवलोकन के लिए Z-योगदान उसके स्थान के बारे में अधिक विशिष्ट जानकारी प्रदान करता है।

ध्यान दें कि मानकीकरण विधियों का अर्थ विचाराधीन वस्तुओं की समानता निर्धारित करने के दृष्टिकोण से सभी विशेषताओं को समकक्ष के रूप में पहचानना है। यह पहले ही नोट किया जा चुका है कि अर्थशास्त्र के संबंध में, विभिन्न संकेतकों की समानता को पहचानना हमेशा उचित नहीं लगता है। मानकीकरण के साथ-साथ, प्रत्येक संकेतक को एक महत्व देना वांछनीय होगा जो वस्तुओं की समानता और अंतर स्थापित करने में इसके महत्व को दर्शाता है।

इस स्थिति में, व्यक्तिगत संकेतकों के वजन को निर्धारित करने की एक विधि का सहारा लेना आवश्यक है - विशेषज्ञों का एक सर्वेक्षण। उदाहरण के लिए, आर्थिक विकास के स्तर के आधार पर देशों को वर्गीकृत करने की समस्या को हल करते समय, विकसित देशों की समस्याओं पर 40 प्रमुख मास्को विशेषज्ञों के सर्वेक्षण के परिणामों का उपयोग दस-बिंदु पैमाने पर किया गया था:

सामाजिक-आर्थिक विकास के सामान्यीकृत संकेतक - 9 अंक;

नियोजित जनसंख्या के क्षेत्रीय वितरण के संकेतक - 7 अंक;

किराये के श्रम की व्यापकता के संकेतक - 6 अंक;

उत्पादक शक्तियों के मानवीय तत्व की विशेषता बताने वाले संकेतक - 6 अंक;

भौतिक उत्पादक शक्तियों के विकास के संकेतक - 8 अंक;

सरकारी व्यय सूचक - 4 अंक;

"सैन्य-आर्थिक" संकेतक - 3 अंक;

सामाजिक-जनसांख्यिकीय संकेतक - 4 अंक।

विशेषज्ञों के आकलन अपेक्षाकृत स्थिर थे.

विशेषज्ञ आकलन संकेतकों के एक विशेष समूह में शामिल संकेतकों के महत्व को निर्धारित करने के लिए एक निश्चित आधार प्रदान करते हैं। औसत मूल्यांकन स्कोर के अनुरूप गुणांक द्वारा संकेतकों के सामान्यीकृत मूल्यों को गुणा करने से उनकी विशेषताओं के असमान वजन को ध्यान में रखते हुए, बहुआयामी अंतरिक्ष में देशों की स्थिति को प्रतिबिंबित करने वाले बिंदुओं के बीच की दूरी की गणना करने की अनुमति मिलती है।

अक्सर, ऐसी समस्याओं को हल करते समय, एक नहीं, बल्कि दो गणनाओं का उपयोग किया जाता है: पहला, जिसमें सभी विशेषताओं को समकक्ष माना जाता है, दूसरा, जहां उन्हें विशेषज्ञ आकलन के औसत मूल्यों के अनुसार अलग-अलग भार दिया जाता है।

1.8. क्लस्टर विश्लेषण का अनुप्रयोग.

आइए क्लस्टर विश्लेषण के कुछ अनुप्रयोगों पर नजर डालें।

विकास के स्तर के आधार पर देशों को समूहों में बाँटना।

65 देशों का अध्ययन 31 संकेतकों के अनुसार किया गया (प्रति व्यक्ति राष्ट्रीय आय, उद्योग में कार्यरत जनसंख्या का हिस्सा % में, प्रति व्यक्ति बचत, कृषि में नियोजित जनसंख्या का हिस्सा % में, औसत जीवन प्रत्याशा, प्रति 1 कारों की संख्या) हजार निवासी, प्रति 1 मिलियन निवासियों पर सशस्त्र बलों की संख्या, उद्योग के सकल घरेलू उत्पाद का हिस्सा% में, कृषि के सकल घरेलू उत्पाद का हिस्सा% में, आदि)

प्रत्येक देश इस विचार में 31 संकेतकों के कुछ मूल्यों की विशेषता वाली वस्तु के रूप में कार्य करता है। तदनुसार, उन्हें 31-आयामी अंतरिक्ष में बिंदुओं के रूप में दर्शाया जा सकता है। ऐसे स्थान को आमतौर पर अध्ययन की जा रही वस्तुओं के गुणों का स्थान कहा जाता है। इन बिंदुओं के बीच की दूरी की तुलना करने से संबंधित देशों की निकटता की डिग्री, एक-दूसरे से उनकी समानता प्रतिबिंबित होगी। समानता की इस समझ का सामाजिक-आर्थिक अर्थ यह है कि देशों को जितना अधिक समान माना जाता है, उन्हीं संकेतकों के बीच अंतर उतना ही कम होता है, जिनके साथ उनका वर्णन किया जाता है।

इस तरह के विश्लेषण का पहला कदम समानता मैट्रिक्स में ध्यान में रखी गई राष्ट्रीय अर्थव्यवस्थाओं की एक जोड़ी की पहचान करना है, जिनके बीच की दूरी सबसे छोटी है। ये स्पष्ट रूप से सबसे समान, समान अर्थव्यवस्थाएँ होंगी। निम्नलिखित चर्चा में इन दोनों देशों को एक एकल समूह, एक एकल समूह माना गया है। तदनुसार, मूल मैट्रिक्स को रूपांतरित किया जाता है ताकि इसके तत्व 65 नहीं, बल्कि 64 वस्तुओं - 63 अर्थव्यवस्थाओं और एक नव रूपांतरित क्लस्टर - दो सबसे समान देशों का एक सशर्त संघ - के सभी संभावित जोड़े के बीच की दूरी बन जाएं। मूल समानता मैट्रिक्स से, विलय में शामिल देशों की जोड़ी से अन्य सभी की दूरी के अनुरूप पंक्तियों और स्तंभों को हटा दिया जाता है, लेकिन विलय के दौरान प्राप्त क्लस्टर और अन्य देशों के बीच की दूरी वाली एक पंक्ति और स्तंभ को जोड़ा जाता है।

नए प्राप्त क्लस्टर और देशों के बीच की दूरी बाद वाले और नए क्लस्टर बनाने वाले दो देशों के बीच की दूरी के औसत के बराबर मानी जाती है। दूसरे शब्दों में, देशों के संयुक्त समूह को इसमें शामिल देशों की औसत विशेषताओं के लगभग बराबर विशेषताओं वाला संपूर्ण समूह माना जाता है।

विश्लेषण का दूसरा चरण 64 पंक्तियों और स्तंभों के साथ परिवर्तित मैट्रिक्स पर विचार करना है। फिर, अर्थव्यवस्थाओं की एक जोड़ी की पहचान की जाती है, जिनके बीच की दूरी सबसे कम महत्वपूर्ण है, और वे, पहले मामले की तरह, एक साथ लाए जाते हैं। इस मामले में, सबसे छोटी दूरी देशों के एक जोड़े के बीच, या किसी देश और पिछले चरण में प्राप्त देशों के संघ के बीच हो सकती है।

आगे की प्रक्रियाएं ऊपर वर्णित प्रक्रियाओं के समान हैं: प्रत्येक चरण में, मैट्रिक्स को बदल दिया जाता है ताकि पिछले चरण में एक साथ लाए गए वस्तुओं (देशों या संघों - समूहों के जोड़े) की दूरी वाले दो कॉलम और दो पंक्तियों को इससे बाहर रखा जाए। ; बहिष्कृत पंक्तियों और स्तंभों को एक स्तंभ और पंक्ति से बदल दिया जाता है जिसमें नए जोड़ से शेष वस्तुओं तक की दूरी होती है; फिर संशोधित मैट्रिक्स में निकटतम वस्तुओं की जोड़ी की पहचान की जाती है। विश्लेषण तब तक जारी रहता है जब तक कि मैट्रिक्स पूरी तरह से समाप्त न हो जाए (अर्थात, जब तक कि सभी देश एक पूरे में संयुक्त न हो जाएं)। मैट्रिक्स विश्लेषण के सामान्यीकृत परिणामों को एक समानता वृक्ष (डेन्डोग्राम) के रूप में प्रस्तुत किया जा सकता है, जैसा कि ऊपर वर्णित है, एकमात्र अंतर यह है कि समानता वृक्ष, जो उन सभी 65 देशों की सापेक्ष निकटता को दर्शाता है जिन पर हम विचार कर रहे हैं। उस आरेख से कहीं अधिक जटिल जिसमें केवल पाँच राष्ट्रीय अर्थव्यवस्थाएँ दिखाई देती हैं। तुलना की जा रही वस्तुओं की संख्या के अनुसार इस पेड़ में 65 स्तर शामिल हैं। पहले (निचले) स्तर में प्रत्येक देश के लिए अलग-अलग अंक होते हैं। दूसरे स्तर पर इन दो बिंदुओं को जोड़ने से उन देशों की एक जोड़ी दिखाई देती है जो सामान्य प्रकार की राष्ट्रीय अर्थव्यवस्था के मामले में निकटतम हैं। तीसरे स्तर पर, देशों का अगला समान जोड़ीवार अनुपात नोट किया जाता है (जैसा कि पहले ही उल्लेख किया गया है, इस अनुपात में या तो देशों की एक नई जोड़ी, या एक नया देश और समान देशों की पहले से ही पहचानी गई जोड़ी शामिल हो सकती है)। और इसी तरह अंतिम स्तर तक, जिस पर अध्ययन किए गए सभी देश एक समूह के रूप में कार्य करते हैं।

क्लस्टर विश्लेषण लागू करने के परिणामस्वरूप, देशों के निम्नलिखित पाँच समूह प्राप्त हुए:

अफ़्रीकी-एशियाई समूह;

लैटिन-एशियाई समूह;

लैटिन-भूमध्यसागरीय समूह;

विकसित पूंजीवादी देशों का समूह (अमेरिका को छोड़कर)

यहां उपयोग किए गए 31 संकेतकों से परे नए संकेतकों की शुरूआत, या उन्हें अन्य के साथ प्रतिस्थापित करने से स्वाभाविक रूप से देशों के वर्गीकरण के परिणामों में बदलाव आता है।

2. संस्कृति की समानता की कसौटी के अनुसार देशों का विभाजन।

जैसा कि आप जानते हैं, विपणन को देशों की संस्कृति (रीति-रिवाजों, परंपराओं आदि) को ध्यान में रखना चाहिए।

क्लस्टरिंग के माध्यम से, देशों के निम्नलिखित समूह प्राप्त किए गए:

अरबी;

मध्य पूर्वी;

स्कैंडिनेवियाई;

जर्मन बोलना;

अंग्रेजी बोलना वाला;

रोमनस्क्यू यूरोपीय;

लैटिन अमेरिकन;

सुदूर पूर्वी।

3. जस्ता बाजार स्थितियों के पूर्वानुमान का विकास।

क्लस्टर विश्लेषण कमोडिटी बाजार के आर्थिक और गणितीय मॉडल को कम करने के चरण में एक महत्वपूर्ण भूमिका निभाता है, कम्प्यूटेशनल प्रक्रियाओं को सुविधाजनक बनाने और सरल बनाने में मदद करता है, आवश्यक सटीकता बनाए रखते हुए प्राप्त परिणामों की अधिक कॉम्पैक्टनेस सुनिश्चित करता है। क्लस्टर विश्लेषण का उपयोग बाजार संकेतकों के पूरे प्रारंभिक सेट को उचित मानदंडों के अनुसार समूहों (क्लस्टरों) में विभाजित करना संभव बनाता है, जिससे सबसे अधिक प्रतिनिधि संकेतकों के चयन की सुविधा मिलती है।

बाज़ार की स्थितियों को मॉडल करने के लिए क्लस्टर विश्लेषण का व्यापक रूप से उपयोग किया जाता है। व्यवहार में, पूर्वानुमान संबंधी अधिकांश समस्याएं क्लस्टर विश्लेषण के उपयोग पर निर्भर करती हैं।

उदाहरण के लिए, जस्ता बाजार के लिए पूर्वानुमान विकसित करने का कार्य।

प्रारंभ में, वैश्विक जस्ता बाजार के 30 प्रमुख संकेतक चुने गए:

X1 - समय

उत्पादन के आँकड़े:

X2 - दुनिया में

X4 - यूरोप

X5 - कनाडा

X6 - जापान

X7 - ऑस्ट्रेलिया

उपभोग संकेतक:

X8 - दुनिया में

X10 - यूरोप

X11 - कनाडा

X12 - जापान

X13 - ऑस्ट्रेलिया

निर्माताओं का जिंक भंडार:

X14 - दुनिया में

X16 - यूरोप

X17 - अन्य देश

उपभोक्ताओं का जिंक भंडार:

X18 - संयुक्त राज्य अमेरिका में

X19 - इंग्लैंड में

X10 - जापान में

जिंक अयस्कों और सांद्रणों का आयात (हजार टन)

X21 - संयुक्त राज्य अमेरिका में

X22 - जापान में

X23 - जर्मनी में

जस्ता अयस्कों और सांद्रणों का निर्यात (हजार टन)

X24 - कनाडा से

X25 - ऑस्ट्रेलिया से

जिंक का आयात (हजार टन)

X26 - संयुक्त राज्य अमेरिका में

X27 - इंग्लैंड के लिए

X28 - जर्मनी में

जिंक निर्यात (हजार टन)

X29 - कनाडा से

X30 - ऑस्ट्रेलिया से

विशिष्ट निर्भरताएँ निर्धारित करने के लिए, सहसंबंध और प्रतिगमन विश्लेषण के उपकरण का उपयोग किया गया था। संबंधों का विश्लेषण युग्मित सहसंबंध गुणांक के मैट्रिक्स के आधार पर किया गया था। यहां, विश्लेषण किए गए बाजार संकेतकों के सामान्य वितरण के बारे में परिकल्पना को स्वीकार किया गया था। यह स्पष्ट है कि रिज़ उपयोग किए गए संकेतकों के बीच संबंध का एकमात्र संभावित संकेतक नहीं है। इस कार्य में क्लस्टर विश्लेषण का उपयोग करने की आवश्यकता इस तथ्य के कारण है कि जस्ता की कीमत को प्रभावित करने वाले संकेतकों की संख्या बहुत बड़ी है। निम्नलिखित कई कारणों से इन्हें कम करने की आवश्यकता है:

क) सभी चरों पर संपूर्ण सांख्यिकीय डेटा का अभाव;

बी) जब मॉडल में बड़ी संख्या में चर पेश किए जाते हैं तो कम्प्यूटेशनल प्रक्रियाओं की तीव्र जटिलता;

ग) प्रतिगमन विश्लेषण विधियों के इष्टतम उपयोग के लिए आवश्यक है कि देखे गए मानों की संख्या चरों की संख्या से कम से कम 6-8 गुना अधिक हो;

घ) मॉडल में सांख्यिकीय रूप से स्वतंत्र चर का उपयोग करने की इच्छा, आदि।

सहसंबंध गुणांक के अपेक्षाकृत बोझिल मैट्रिक्स पर सीधे इस तरह का विश्लेषण करना बहुत मुश्किल है। क्लस्टर विश्लेषण का उपयोग करते हुए, बाजार चर के पूरे सेट को समूहों में इस तरह से विभाजित किया जा सकता है कि प्रत्येक क्लस्टर के तत्व एक-दूसरे के साथ दृढ़ता से सहसंबद्ध हों, और विभिन्न समूहों के प्रतिनिधियों को कमजोर सहसंबंध की विशेषता हो।

इस समस्या को हल करने के लिए, समूहीकृत पदानुक्रमित क्लस्टर विश्लेषण एल्गोरिदम में से एक का उपयोग किया गया था। प्रत्येक चरण में, एक निश्चित अर्थ में, दो समूहों के इष्टतम संयोजन के कारण समूहों की संख्या एक से कम हो जाती है। विलय का मानदंड संबंधित फ़ंक्शन में परिवर्तन है। ऐसे फ़ंक्शन के रूप में, हमने निम्नलिखित सूत्रों का उपयोग करके गणना किए गए वर्ग विचलन के योग के मूल्यों का उपयोग किया:

(जे = 1, 2, …, एम),

जहां j क्लस्टर संख्या है, n क्लस्टर में तत्वों की संख्या है।

रिज - जोड़ी सहसंबंध गुणांक।

इस प्रकार, समूहीकरण प्रक्रिया को मानदंड ई के मूल्य में क्रमिक न्यूनतम वृद्धि के अनुरूप होना चाहिए।

पहले चरण में, प्रारंभिक डेटा सरणी को क्लस्टर से युक्त एक सेट के रूप में प्रस्तुत किया जाता है, प्रत्येक में एक तत्व शामिल होता है। समूहीकरण की प्रक्रिया समूहों के ऐसे जोड़े के संयोजन से शुरू होती है, जिससे वर्ग विचलन के योग में न्यूनतम वृद्धि होती है। इसके लिए प्रत्येक संभावित क्लस्टर संयोजन के लिए वर्ग विचलन मानों के योग का अनुमान लगाना आवश्यक है। अगले चरण में, समूहों आदि के लिए वर्ग विचलन के योग के मूल्यों पर विचार किया जाता है। यह प्रक्रिया कुछ कदम पर रोक दी जाएगी. ऐसा करने के लिए, आपको वर्ग विचलनों के योग के मूल्य की निगरानी करने की आवश्यकता है। बढ़ते मूल्यों के अनुक्रम को ध्यान में रखते हुए, कोई इसकी गतिशीलता में उछाल (एक या कई) का अनुभव कर सकता है, जिसे अध्ययन के तहत आबादी में मौजूद "उद्देश्यपूर्ण" समूहों की संख्या की विशेषता के रूप में समझा जा सकता है। दिए गए उदाहरण में, जब समूहों की संख्या 7 और 5 थी तब उछाल आया। समूहों की संख्या को और कम नहीं किया जाना चाहिए, क्योंकि इससे मॉडल की गुणवत्ता में कमी आती है। क्लस्टर प्राप्त करने के बाद, वे चर चुने जाते हैं जो आर्थिक दृष्टि से सबसे महत्वपूर्ण हैं और बाजार की स्थिति के चयनित मानदंड से सबसे अधिक निकटता से संबंधित हैं - इस मामले में, लंदन मेटल एक्सचेंज जिंक उद्धरण के साथ। यह दृष्टिकोण हमें प्रारंभिक बाज़ार संकेतकों के मूल सेट में निहित जानकारी के एक महत्वपूर्ण हिस्से को संरक्षित करने की अनुमति देता है।

"क्लस्टर विश्लेषण" शब्द का प्रयोग पहली बार अमेरिकी मनोवैज्ञानिक रॉबर्ट ट्राइटन ने 1930 में इसी नाम के अपने काम में किया था। इसके बावजूद, "क्लस्टर" और "क्लस्टर विश्लेषण" शब्द को देशी वक्ताओं द्वारा नया माना जाता है, जैसा कि अलेक्जेंडर ख्रोलेंको ने उल्लेख किया है, जिन्होंने लेक्सेम "क्लस्टर" के उपयोग का एक कॉर्पस विश्लेषण किया था: "इस शब्द का उपयोग करने वाले अधिकांश लेखक ध्यान देते हैं इसकी नवीनता के लिए” (ख्रोलेंको, 2016, पृष्ठ 106)

क्लस्टर विश्लेषण में कई अलग-अलग वर्गीकरण एल्गोरिदम शामिल हैं, जिनका उद्देश्य सूचनाओं को समूहों में व्यवस्थित करना है। यह याद रखना महत्वपूर्ण है कि क्लस्टर विश्लेषण अपने आप में एक विशिष्ट एल्गोरिदम नहीं है, बल्कि एक समस्या है जिसे हल करने की आवश्यकता है। अपने काम "रैखिक पदानुक्रम की कमी" में, मार्क एरेशेफ़्स्की ने लिखा है कि क्लस्टर विश्लेषण अनिवार्यता और ऐतिहासिक वर्गीकरण के साथ, आसपास की दुनिया में वस्तुओं के तीन प्रकार के वर्गीकरण में से एक है।

भाषाविज्ञान में, विवरण के क्लस्टर सिद्धांत का तात्पर्य इस क्लस्टर में शामिल इकाइयों के विश्लेषण के अलावा, उनके भीतर संबंधों के विश्लेषण से भी है। ये विभिन्न स्तरों पर कनेक्शन हो सकते हैं: तार्किक (उदाहरण के लिए प्रतिमानात्मक और वाक्य-विन्यास) से लेकर शब्द-निर्माण और ध्वन्यात्मक कनेक्शन तक।

एफ. ब्राउन क्लस्टर विश्लेषण (ब्राउन) के निम्नलिखित चरणों की पहचान करता है:

  • 1. एक माप का चयन करना और वर्गीकृत करने के लिए आवश्यक माप, मानदंड या इकाइयाँ तैयार करना
  • 2. समानता माप निर्धारित करना
  • 3. क्लस्टर गठन का क्रम निर्धारित करने के लिए नियम बनाना
  • 4. क्लस्टर बनाने के लिए नियम लागू करना

यह ध्यान दिया जाना चाहिए कि तीसरा बिंदु सवाल उठाता है, क्योंकि वर्गीकरण पद्धति के रूप में क्लस्टरिंग की विशिष्ट विशेषता निर्दिष्ट वर्गों की अनुपस्थिति है। दस्तावेज़ क्लस्टरिंग एक सूचना पुनर्प्राप्ति कार्य है। पाठ वर्गीकरण के विपरीत, इसमें पूर्वनिर्धारित श्रेणियां या प्रशिक्षण सेट शामिल नहीं है। क्लस्टर और उनके बीच के संबंध "दस्तावेज़ों से स्वचालित रूप से निकाले जाते हैं, और दस्तावेज़ क्रमिक रूप से इन समूहों को सौंपे जाते हैं" (गोलब, पीपी. 52-53) मार्क एरेशेफ़्स्की ने क्लस्टर विश्लेषण को एक वर्गीकरण विधि के रूप में पेश किया है। उनका मानना ​​है कि "क्लस्टर विश्लेषण के सभी रूप दो मान्यताओं पर आधारित हैं: एक वर्गीकरण समूह के सदस्यों में समान लक्षणों का एक समूह होना चाहिए, और वे लक्षण उस समूह के सभी या सिर्फ एक सदस्य में प्रकट नहीं हो सकते हैं।" (एरेशेफ़्स्की, पृष्ठ 15)

अपने काम "भाषाई विश्लेषण में क्लस्टर दृष्टिकोण" (नर्गलिवा, 2013) में एन.के.एच. नर्गलिवा ने क्लस्टर विश्लेषण के चार मुख्य कार्यों की पहचान की:

  • 1. एक टाइपोलॉजी या वर्गीकरण का विकास
  • 2. वस्तुओं को समूहीकृत करने के लिए उपयोगी वैचारिक योजनाओं की खोज करना
  • 3. अध्ययन किए गए आंकड़ों के आधार पर परिकल्पनाओं की प्रस्तुति
  • 4. यह निर्धारित करने के लिए परिकल्पनाओं या अध्ययनों का परीक्षण करना कि किसी न किसी रूप में पहचाने गए प्रकार (समूह) वास्तव में उपलब्ध डेटा में मौजूद हैं या नहीं

क्लस्टर विश्लेषण के सभी तरीकों को "हार्ड", स्पष्ट क्लस्टर विश्लेषण में विभाजित किया जा सकता है, जब प्रत्येक वस्तु या तो क्लस्टर से संबंधित होती है या नहीं, और "सॉफ्ट", फजी क्लस्टर विश्लेषण में, जब प्रत्येक वस्तु एक निश्चित डिग्री के साथ किसी समूह से संबंधित होती है। संभावना।

क्लस्टर विश्लेषण विधियों को भी पदानुक्रमित और गैर-पदानुक्रमित में विभाजित किया गया है। गैर-पदानुक्रमित तरीकों के विपरीत, पदानुक्रमित तरीके नेस्टेड समूहों की उपस्थिति का संकेत देते हैं। नर्गलिवा ने नोट किया कि पदानुक्रमित विधि "भाषाई समस्याओं को हल करने के लिए सबसे उपयुक्त प्रतीत होती है" (नर्गलिवा, पृष्ठ 1), क्योंकि यह आपको अध्ययन की जा रही घटना की संरचना को देखने और विश्लेषण करने की अनुमति देती है।