संभाव्यता वितरण का सामान्य नियम। संख्यात्मक मानों का सांख्यिकीय विश्लेषण (गैर-पैरामीट्रिक आँकड़े)

    यदि आप वित्तीय विश्लेषण के क्षेत्र में विशेषज्ञ नहीं हैं तो अपने व्यवसाय के वित्त का ठीक से प्रबंधन कैसे करें - वित्तीय विश्लेषण

    वित्तीय प्रबंधन - विषयों के बीच वित्तीय संबंध, विभिन्न स्तरों पर वित्तीय प्रबंधन, पोर्टफोलियो प्रबंधन, वित्तीय संसाधनों की आवाजाही के प्रबंधन के तरीके - यह विषय की पूरी सूची नहीं है " वित्तीय प्रबंधन"

    आइए बात करते हैं क्या है सिखाना? कुछ का मानना ​​है कि यह एक बुर्जुआ ब्रांड है, दूसरों का मानना ​​है कि यह आधुनिक व्यवसाय के साथ एक सफलता है। कोचिंग सफल व्यवसाय के लिए नियमों का एक समूह है, साथ ही इन नियमों को ठीक से प्रबंधित करने की क्षमता भी है।

4.1. क्या प्रेक्षणों का वितरण अक्सर सामान्य होता है?

अर्थमितीय और आर्थिक-गणितीय मॉडल में, विशेष रूप से, विपणन और प्रबंधन प्रक्रियाओं के अध्ययन और अनुकूलन में, उद्यम और क्षेत्रीय प्रबंधन, तकनीकी प्रक्रियाओं की सटीकता और स्थिरता, पर्यावरणीय सुरक्षा सहित विश्वसनीयता, सुरक्षा की समस्याओं में, तकनीकी के कामकाज में। उपकरणों और वस्तुओं, संगठनात्मक चार्ट के विकास अक्सर संभाव्यता सिद्धांत और गणितीय आंकड़ों की अवधारणाओं और परिणामों को लागू करते हैं। इस मामले में, संभाव्यता वितरण के कुछ पैरामीट्रिक परिवारों का अक्सर उपयोग किया जाता है। सबसे लोकप्रिय सामान्य वितरण है। लॉग-सामान्य वितरण, घातीय वितरण, गामा वितरण, वेइबुल-गनेडेन्को वितरण, आदि का भी उपयोग किया जाता है।

जाहिर है, मॉडल की वास्तविकता के अनुरूप होने की जांच करना हमेशा आवश्यक होता है। दो प्रश्न हैं। क्या वास्तविक वितरण मॉडल में उपयोग किए गए वितरण से भिन्न हैं? यह अंतर किस हद तक निष्कर्षों को प्रभावित करता है?

नीचे, सामान्य वितरण के उदाहरण और इसके आधार पर तेजी से अलग-अलग टिप्पणियों (आउटलेयर) को अस्वीकार करने के तरीकों का उपयोग करते हुए, यह दिखाया गया है कि वास्तविक वितरण लगभग हमेशा शास्त्रीय पैरामीट्रिक परिवारों में शामिल लोगों और दिए गए परिवारों से मौजूदा विचलन से भिन्न होता है। विचाराधीन मामले में इन परिवारों के उपयोग के आधार पर अस्वीकृति के बारे में गलत निष्कर्ष निकालना।

क्या माप परिणामों की सामान्यता को प्राथमिकता देने का कोई कारण है?

कभी-कभी यह तर्क दिया जाता है कि जब माप त्रुटि (या अन्य यादृच्छिक चर) को कई छोटे कारकों की संचयी क्रिया के परिणामस्वरूप निर्धारित किया जाता है, तो, संभाव्यता सिद्धांत के केंद्रीय सीमा प्रमेय (सीएलटी) के कारण, यह मान है एक सामान्य यादृच्छिक चर द्वारा अच्छी तरह से अनुमानित (वितरण द्वारा)। यह कथन सत्य है यदि छोटे कारक एक दूसरे के योगात्मक और स्वतंत्र रूप से कार्य करते हैं। यदि वे गुणनात्मक रूप से कार्य करते हैं, तो, एक ही सीएलटी के कारण, लॉग-सामान्य वितरण द्वारा अनुमानित करना आवश्यक है। अनुप्रयुक्त समस्याओं में, आमतौर पर छोटे कारकों की क्रिया की बहुलता के बजाय योगात्मकता को प्रमाणित करना संभव नहीं होता है। यदि निर्भरता एक सामान्य प्रकृति की है, एक योगात्मक या गुणक रूप में कम नहीं है, और ऐसे मॉडल को स्वीकार करने का कोई आधार नहीं है जो घातीय, वेइबुल-गनेडेन्को, गामा या अन्य वितरण देते हैं, तो व्यावहारिक रूप से वितरण के बारे में कुछ भी ज्ञात नहीं है अंतिम यादृच्छिक चर, नियमितता जैसे अंतर-गणितीय गुणों को छोड़कर।

विशिष्ट डेटा को संसाधित करते समय, कभी-कभी यह माना जाता है कि माप त्रुटियों का सामान्य वितरण होता है। सामान्यता की धारणा पर, प्रतिगमन, फैलाव, तथ्यात्मक विश्लेषण, मेट्रोलॉजिकल मॉडल के शास्त्रीय मॉडल बनाए जाते हैं, जो अभी भी घरेलू नियामक और तकनीकी दस्तावेज और अंतरराष्ट्रीय मानकों दोनों में पाए जाते हैं। आर्थिक संरचनाओं, तकनीकी उपकरणों और वस्तुओं के कामकाज की सुरक्षा सुनिश्चित करने के लिए सिस्टम के डिजाइन में उपयोग की जाने वाली कुछ विशेषताओं के अधिकतम प्राप्य स्तरों की गणना के लिए मॉडल एक ही धारणा पर आधारित हैं। हालांकि, इस तरह की धारणा के लिए कोई सैद्धांतिक आधार नहीं है। प्रयोगात्मक रूप से त्रुटियों के वितरण का अध्ययन करना आवश्यक है।

प्रयोगात्मक परिणाम क्या दिखाते हैं? मोनोग्राफ में दिया गया सारांश हमें यह बताने की अनुमति देता है कि ज्यादातर मामलों में माप त्रुटियों का वितरण सामान्य से भिन्न होता है। इस प्रकार, मशीन-इलेक्ट्रोटेक्निकल इंस्टीट्यूट (वर्ना, बुल्गारिया) में, एनालॉग विद्युत माप उपकरणों के तराजू के लिए अंशांकन त्रुटियों के वितरण का अध्ययन किया गया था। चेकोस्लोवाकिया, यूएसएसआर और बुल्गारिया में निर्मित उपकरणों का अध्ययन किया गया। त्रुटि वितरण कानून समान निकला। इसका घनत्व है

हमने विभिन्न प्रकार के (विद्युत) उपकरणों के साथ विद्युत और गैर-विद्युत मात्रा दोनों को मापते समय, विभिन्न लेखकों द्वारा अध्ययन किए गए त्रुटियों के 219 वास्तविक वितरण के मापदंडों पर डेटा का विश्लेषण किया। इस अध्ययन के परिणामस्वरूप, यह पता चला कि 111 वितरण, अर्थात्। लगभग 50% घनत्व वाले वितरण वर्ग के हैं

डिग्री पैरामीटर कहां है; बी - शिफ्ट पैरामीटर; - स्केल पैरामीटर; - तर्क के गामा समारोह ;

(सेमी। ); 63 वितरण, अर्थात्। 30% में लंबे, कोमल ढलान वाले फ्लैट-टॉप घनत्व होते हैं और इसे सामान्य या, उदाहरण के लिए, घातीय के रूप में वर्णित नहीं किया जा सकता है। शेष 45 वितरण बिमोडल निकले।

प्रसिद्ध मेट्रोलॉजिस्ट की किताब में प्रो. पीवी नोवित्स्की विभिन्न प्रकार की माप त्रुटियों के वितरण के नियमों के अध्ययन के परिणाम प्रस्तुत करता है। उन्होंने कोर पर इलेक्ट्रोमैकेनिकल उपकरणों की त्रुटियों के वितरण का अध्ययन किया, तापमान और बलों को मापने के लिए इलेक्ट्रॉनिक उपकरण, मैनुअल संतुलन के साथ डिजिटल उपकरण। प्रत्येक नमूने के लिए प्रायोगिक डेटा नमूनों की मात्रा 100-400 रीडिंग थी। यह पता चला कि 47 में से 46 वितरण सामान्य से काफी अलग थे। रेंज के 10 बिंदुओं पर एसएच -1411 डिजिटल वाल्टमीटर की 25 प्रतियों में त्रुटियों के वितरण के आकार का अध्ययन किया गया था। परिणाम समान हैं। अधिक जानकारी मोनोग्राफ में निहित है।

टार्टू स्टेट यूनिवर्सिटी की अनुप्रयुक्त गणित प्रयोगशाला ने वास्तविक सांख्यिकीय डेटा के संग्रह से 2,500 नमूनों का विश्लेषण किया। 92% में, सामान्यता परिकल्पना को अस्वीकार करना पड़ा।

प्रयोगात्मक डेटा के उपरोक्त विवरण से पता चलता है कि ज्यादातर मामलों में माप त्रुटियों में वितरण सामान्य से भिन्न होता है। इसका मतलब है, विशेष रूप से, सामान्य सिद्धांत के आधार पर छात्र के टी-टेस्ट, शास्त्रीय प्रतिगमन विश्लेषण और अन्य सांख्यिकीय विधियों के अधिकांश अनुप्रयोग, सख्ती से बोलना, उचित नहीं हैं, क्योंकि संबंधित यादृच्छिक के वितरण की सामान्यता के अंतर्निहित स्वयंसिद्ध चर गलत है।

जाहिर है, सांख्यिकीय डेटा के विश्लेषण के वर्तमान अभ्यास को सही ठहराने या यथोचित रूप से बदलने के लिए, "अवैध" अनुप्रयोगों में डेटा विश्लेषण प्रक्रियाओं के गुणों का अध्ययन करना आवश्यक है। अस्वीकृति प्रक्रियाओं के अध्ययन से पता चला है कि वे सामान्यता से विचलन के लिए बेहद अस्थिर हैं, और इसलिए वास्तविक डेटा को संसाधित करने के लिए उनका उपयोग करना उचित नहीं है (नीचे देखें); इसलिए, कोई यह दावा नहीं कर सकता है कि सामान्यता से विचलन के खिलाफ मनमाने ढंग से की गई प्रक्रिया स्थिर है।

कभी-कभी यह सुझाव दिया जाता है कि आवेदन करने से पहले, उदाहरण के लिए, दो नमूनों की एकरूपता के लिए छात्र का परीक्षण, सामान्यता की जांच करें। हालांकि इसके लिए कई मानदंड हैं, सामान्यता के लिए परीक्षण एकरूपता के परीक्षण की तुलना में अधिक जटिल और समय लेने वाली सांख्यिकीय प्रक्रिया है (दोनों छात्र-प्रकार के आंकड़ों के साथ और गैर-पैरामीट्रिक परीक्षणों के साथ)। पर्याप्त रूप से मज़बूती से सामान्यता स्थापित करने के लिए काफी बड़ी संख्या में टिप्पणियों की आवश्यकता होती है। इसलिए, यह सुनिश्चित करने के लिए कि टिप्पणियों के परिणामों का वितरण कार्य कुछ सामान्य से 0.01 से अधिक नहीं (तर्क के किसी भी मूल्य के लिए) भिन्न होता है, लगभग 2500 अवलोकनों की आवश्यकता होती है। अधिकांश आर्थिक, तकनीकी, बायोमेडिकल और अन्य अनुप्रयुक्त अध्ययनों में, टिप्पणियों की संख्या काफी कम है। यह आर्थिक संरचनाओं और तकनीकी वस्तुओं के कामकाज की सुरक्षा सुनिश्चित करने से संबंधित समस्याओं के अध्ययन में उपयोग किए जाने वाले डेटा के लिए विशेष रूप से सच है।

कभी-कभी वे मापने वाले उपकरण की तकनीकी योजना में विशेष योजक सहित त्रुटि के वितरण को सामान्य करने के लिए सीसीटी का उपयोग करने का प्रयास करते हैं। आइए इस उपाय की उपयोगिता का मूल्यांकन करें। मान लीजिए Z1, Z2,…, Zk वितरण फलन H = H(x) के साथ समान रूप से वितरित यादृच्छिक चर स्वतंत्र हैं, जैसे कि विचार करें

योजक द्वारा प्रदान की गई सामान्यता की निकटता का सूचक है

पिछले संबंध में सही असमानता पुस्तक में प्राप्त बेरी-एस्सेन असमानता में स्थिरांक के अनुमानों और मोनोग्राफ में उदाहरण से बाईं ओर के अनुमानों का अनुसरण करती है। एक सामान्य कानून के लिए = 1.6, एक समान कानून के लिए = 1.3, दो-बिंदु कानून के लिए = 1 (यह निचली सीमा है)। इसलिए, "असफल" वितरण के लिए सामान्य वितरण के लिए दूरी (कोलमोगोरोव मीट्रिक में) 0.01 से अधिक नहीं सुनिश्चित करने के लिए, कम से कम k0 शर्तों की आवश्यकता होती है, जहां

आमतौर पर उपयोग किए जाने वाले योजकों में, शब्द बहुत छोटे होते हैं। संभावित वितरण एच के वर्ग को कम करके, कोई प्राप्त कर सकता है, जैसा कि मोनोग्राफ में दिखाया गया है, तेजी से अभिसरण, लेकिन यहां सिद्धांत अभी तक अभ्यास के साथ विलय नहीं करता है। इसके अलावा, यह स्पष्ट नहीं है कि सामान्य वितरण (एक निश्चित मीट्रिक में) के वितरण की निकटता भी इस वितरण के साथ यादृच्छिक चर से निर्मित आंकड़ों के वितरण की निकटता को सामान्य अवलोकन परिणामों के अनुरूप आंकड़ों के वितरण के लिए सुनिश्चित करती है। जाहिर है, प्रत्येक विशिष्ट आँकड़ों के लिए, विशेष सैद्धांतिक अध्ययन की आवश्यकता होती है। मोनोग्राफ के लेखक इस निष्कर्ष पर आते हैं। बाहरी अस्वीकृति समस्याओं में, उत्तर है: "प्रदान नहीं करता" (नीचे देखें)।

ध्यान दें कि किसी भी वास्तविक माप का परिणाम दशमलव स्थानों की एक सीमित संख्या का उपयोग करके दर्ज किया जाता है, आमतौर पर छोटा (2-5), इसलिए किसी भी वास्तविक डेटा को केवल असतत यादृच्छिक चर का उपयोग करके मॉडल करने की सलाह दी जाती है जो कि सीमित संख्या में मान लेते हैं। सामान्य वितरण वास्तविक वितरण का सिर्फ एक अनुमान है। इसलिए, उदाहरण के लिए, कार्य में दिए गए एक विशिष्ट अध्ययन का डेटा 1.0 से 2.2 तक मान लेता है, अर्थात। कुल 13 संभावित मान हैं। यह डिरिचलेट सिद्धांत का अनुसरण करता है कि किसी बिंदु पर कार्य डेटा के अनुसार निर्मित वितरण फ़ंक्शन निकटतम सामान्य वितरण फ़ंक्शन से कम से कम 1/26 से भिन्न होता है, अर्थात। 0.04 द्वारा। इसके अलावा, यह स्पष्ट है कि एक यादृच्छिक चर के सामान्य वितरण के लिए, दशमलव स्थानों की एक निश्चित संख्या के साथ दशमलव संख्याओं के असतत सेट में गिरने की संभावना 0 है।

ऊपर जो कहा गया है, उससे यह पता चलता है कि माप के परिणाम और, सामान्य रूप से, सांख्यिकीय डेटा में ऐसे गुण होते हैं जो इस तथ्य की ओर ले जाते हैं कि उन्हें यादृच्छिक चर द्वारा वितरण के साथ मॉडल किया जाना चाहिए जो सामान्य से कम या ज्यादा अलग हैं। ज्यादातर मामलों में, वितरण सामान्य वितरण से काफी भिन्न होते हैं; दूसरों में, सामान्य वितरण को स्पष्ट रूप से किसी प्रकार का सन्निकटन माना जा सकता है, लेकिन कभी भी पूर्ण संयोग नहीं होता है। इसका अर्थ है गैर-शास्त्रीय संभाव्य मॉडल में शास्त्रीय सांख्यिकीय प्रक्रियाओं के गुणों का अध्ययन करने की आवश्यकता (इसी तरह यह छात्र की कसौटी के लिए नीचे कैसे किया जाता है), और स्थिर विकसित करने की आवश्यकता (सामान्यता से विचलन की उपस्थिति को ध्यान में रखते हुए) और गैर-पैरामीट्रिक, वितरण-मुक्त प्रक्रियाओं सहित, सांख्यिकीय डेटा प्रोसेसिंग के अभ्यास में उनका व्यापक परिचय।

अन्य पैरामीट्रिक परिवारों के लिए यहां छोड़े गए विचार समान निष्कर्षों की ओर ले जाते हैं। परिणाम निम्नानुसार तैयार किया जा सकता है। वास्तविक डेटा वितरण लगभग कभी भी किसी विशेष पैरामीट्रिक परिवार से संबंधित नहीं होते हैं। वास्तविक वितरण हमेशा पैरामीट्रिक परिवारों में शामिल लोगों से भिन्न होते हैं। मतभेद बड़े या छोटे हो सकते हैं, लेकिन वे हमेशा मौजूद रहते हैं। आइए यह समझने की कोशिश करें कि अर्थमितीय विश्लेषण के लिए ये अंतर कितने महत्वपूर्ण हैं।

सर्वाधिकार सुरक्षित। इस साइट की सामग्री का उपयोग केवल इस साइट के लिंक के साथ किया जा सकता है।

ओर्लोव ए.आई. क्या प्रेक्षणों का वितरण अक्सर सामान्य होता है? - पत्रिका "कारखाना प्रयोगशाला"। 1991 टी.57. नंबर 7 पी.64-66।

क्या प्रेक्षणों का वितरण अक्सर सामान्य होता है?

ए.आई.ओर्लोव

माप के परिणाम और, सामान्य तौर पर, सांख्यिकीय डेटा में ऐसे गुण होते हैं जो इस तथ्य की ओर ले जाते हैं कि उन्हें यादृच्छिक चर द्वारा वितरण के साथ मॉडल किया जाना चाहिए जो सामान्य से कम या ज्यादा अलग हैं। ज्यादातर मामलों में, वितरण सामान्य से काफी अलग होते हैं। दूसरों में, सामान्य वितरण को स्पष्ट रूप से किसी प्रकार का सन्निकटन माना जा सकता है। लेकिन कभी भी परफेक्ट मैच नहीं होता है। इसका मतलब है कि गैर-शास्त्रीय संभाव्य मॉडल में शास्त्रीय सांख्यिकीय प्रक्रियाओं के गुणों का अध्ययन करने की आवश्यकता, और वितरण-मुक्त प्रक्रियाओं सहित स्थिर (सामान्यता से विचलन की उपस्थिति को ध्यान में रखते हुए) और गैर-पैरामीट्रिक विकसित करने की आवश्यकता, उनके व्यापक सांख्यिकीय डेटा प्रोसेसिंग के अभ्यास में परिचय।

अर्थमितीय और आर्थिक-गणितीय मॉडल में, विशेष रूप से, विपणन और प्रबंधन प्रक्रियाओं के अध्ययन और अनुकूलन में, उद्यम और क्षेत्रीय प्रबंधन, तकनीकी प्रक्रियाओं की सटीकता और स्थिरता, पर्यावरणीय सुरक्षा सहित विश्वसनीयता, सुरक्षा की समस्याओं में, तकनीकी के कामकाज में। उपकरणों और वस्तुओं, संगठनात्मक चार्ट के विकास अक्सर संभाव्यता सिद्धांत और गणितीय आंकड़ों की अवधारणाओं और परिणामों को लागू करते हैं। इस मामले में, संभाव्यता वितरण के कुछ पैरामीट्रिक परिवारों का अक्सर उपयोग किया जाता है। सबसे लोकप्रिय सामान्य वितरण है। लॉग-सामान्य वितरण, घातीय वितरण, गामा वितरण, वेइबुल-गनेडेन्को वितरण, आदि का भी उपयोग किया जाता है।

जाहिर है, मॉडल की वास्तविकता के अनुरूप होने की जांच करना हमेशा आवश्यक होता है। दो प्रश्न हैं। क्या वास्तविक वितरण मॉडल में उपयोग किए गए वितरण से भिन्न हैं? यह अंतर किस हद तक निष्कर्षों को प्रभावित करता है?

नीचे, सामान्य वितरण के उदाहरण और इसके आधार पर तेजी से अलग-अलग टिप्पणियों (आउटलेयर) को अस्वीकार करने के तरीकों का उपयोग करते हुए, यह दिखाया गया है कि वास्तविक वितरण लगभग हमेशा शास्त्रीय पैरामीट्रिक परिवारों में शामिल लोगों और दिए गए परिवारों से मौजूदा विचलन से भिन्न होता है। विचाराधीन मामले में इन परिवारों के उपयोग के आधार पर अस्वीकृति के बारे में गलत निष्कर्ष निकालना।

क्या माप परिणामों की सामान्यता को प्राथमिकता देने का कोई कारण है?

कभी-कभी यह तर्क दिया जाता है कि जब माप त्रुटि (या अन्य यादृच्छिक चर) को कई छोटे कारकों की संचयी क्रिया के परिणामस्वरूप निर्धारित किया जाता है, तो, संभाव्यता सिद्धांत के केंद्रीय सीमा प्रमेय (सीएलटी) के कारण, यह मान है एक सामान्य यादृच्छिक चर द्वारा अच्छी तरह से अनुमानित (वितरण द्वारा)। यह कथन सत्य है यदि छोटे कारक एक दूसरे के योगात्मक और स्वतंत्र रूप से कार्य करते हैं। यदि वे गुणनात्मक रूप से कार्य करते हैं, तो, एक ही सीएलटी के कारण, लॉग-सामान्य वितरण द्वारा अनुमानित करना आवश्यक है। अनुप्रयुक्त समस्याओं में, आमतौर पर छोटे कारकों की क्रिया की बहुलता के बजाय योगात्मकता को प्रमाणित करना संभव नहीं होता है। यदि निर्भरता एक सामान्य प्रकृति की है, एक योगात्मक या गुणक रूप में कम नहीं है, और ऐसे मॉडल को स्वीकार करने का कोई आधार नहीं है जो घातीय, वेइबुल-गनेडेन्को, गामा या अन्य वितरण देते हैं, तो व्यावहारिक रूप से वितरण के बारे में कुछ भी ज्ञात नहीं है अंतिम यादृच्छिक चर, नियमितता जैसे अंतर-गणितीय गुणों को छोड़कर।

विशिष्ट डेटा को संसाधित करते समय, कभी-कभी यह माना जाता है कि माप त्रुटियों का सामान्य वितरण होता है। सामान्यता की धारणा पर, प्रतिगमन, फैलाव, तथ्यात्मक विश्लेषण, मेट्रोलॉजिकल मॉडल के शास्त्रीय मॉडल बनाए जाते हैं, जो अभी भी घरेलू नियामक और तकनीकी दस्तावेज और अंतरराष्ट्रीय मानकों दोनों में पाए जाते हैं। आर्थिक संरचनाओं, तकनीकी उपकरणों और वस्तुओं के कामकाज की सुरक्षा सुनिश्चित करने के लिए सिस्टम के डिजाइन में उपयोग की जाने वाली कुछ विशेषताओं के अधिकतम प्राप्य स्तरों की गणना के लिए मॉडल एक ही धारणा पर आधारित हैं। हालांकि, इस तरह की धारणा के लिए कोई सैद्धांतिक आधार नहीं है। प्रयोगात्मक रूप से त्रुटियों के वितरण का अध्ययन करना आवश्यक है।

प्रयोगात्मक परिणाम क्या दिखाते हैं? मोनोग्राफ में दिया गया सारांश हमें यह बताने की अनुमति देता है कि ज्यादातर मामलों में माप त्रुटियों का वितरण सामान्य से भिन्न होता है। इस प्रकार, मशीन-इलेक्ट्रोटेक्निकल इंस्टीट्यूट (वर्ना, बुल्गारिया) में, एनालॉग विद्युत माप उपकरणों के तराजू के लिए अंशांकन त्रुटियों के वितरण का अध्ययन किया गया था। चेकोस्लोवाकिया, यूएसएसआर और बुल्गारिया में निर्मित उपकरणों का अध्ययन किया गया। त्रुटि वितरण कानून समान निकला। इसका घनत्व है

हमने विभिन्न प्रकार के (विद्युत) उपकरणों के साथ विद्युत और गैर-विद्युत मात्रा दोनों को मापते समय, विभिन्न लेखकों द्वारा अध्ययन किए गए त्रुटियों के 219 वास्तविक वितरण के मापदंडों पर डेटा का विश्लेषण किया। इस अध्ययन के परिणामस्वरूप, यह पता चला कि 111 वितरण, अर्थात्। लगभग 50% घनत्व वाले वितरण वर्ग के हैं

डिग्री पैरामीटर कहां है; बी- शिफ्ट पैरामीटर; - स्केल पैरामीटर; - तर्क के गामा फ़ंक्शन;

(सेमी। ); 63 वितरण, अर्थात्। 30% में लंबे, कोमल ढलान वाले फ्लैट-टॉप घनत्व होते हैं और इसे सामान्य या, उदाहरण के लिए, घातीय के रूप में वर्णित नहीं किया जा सकता है। शेष 45 वितरण बिमोडल निकले।

प्रसिद्ध मेट्रोलॉजिस्ट की किताब में प्रो. पीवी नोवित्स्की विभिन्न प्रकार की माप त्रुटियों के वितरण के नियमों के अध्ययन के परिणाम प्रस्तुत करता है। उन्होंने कोर पर इलेक्ट्रोमैकेनिकल उपकरणों की त्रुटियों के वितरण का अध्ययन किया, तापमान और बलों को मापने के लिए इलेक्ट्रॉनिक उपकरण, मैनुअल संतुलन के साथ डिजिटल उपकरण। प्रत्येक नमूने के लिए प्रायोगिक डेटा नमूनों की मात्रा 100-400 रीडिंग थी। यह पता चला कि 47 में से 46 वितरण सामान्य से काफी अलग थे। रेंज के 10 बिंदुओं पर एसएच -1411 डिजिटल वाल्टमीटर की 25 प्रतियों में त्रुटियों के वितरण के आकार का अध्ययन किया गया था। परिणाम समान हैं। अधिक जानकारी मोनोग्राफ में निहित है।

टार्टू स्टेट यूनिवर्सिटी की अनुप्रयुक्त गणित प्रयोगशाला ने वास्तविक सांख्यिकीय डेटा के संग्रह से 2,500 नमूनों का विश्लेषण किया। 92% में, सामान्यता परिकल्पना को अस्वीकार करना पड़ा।

प्रयोगात्मक डेटा के उपरोक्त विवरण से पता चलता है कि ज्यादातर मामलों में माप त्रुटियों में वितरण सामान्य से भिन्न होता है। इसका मतलब है, विशेष रूप से, सामान्य सिद्धांत के आधार पर छात्र के टी-टेस्ट, शास्त्रीय प्रतिगमन विश्लेषण और अन्य सांख्यिकीय विधियों के अधिकांश अनुप्रयोग, सख्ती से बोलना, उचित नहीं हैं, क्योंकि संबंधित यादृच्छिक के वितरण की सामान्यता के अंतर्निहित स्वयंसिद्ध चर गलत है।

जाहिर है, सांख्यिकीय डेटा के विश्लेषण के वर्तमान अभ्यास को सही ठहराने या यथोचित रूप से बदलने के लिए, "अवैध" अनुप्रयोगों में डेटा विश्लेषण प्रक्रियाओं के गुणों का अध्ययन करना आवश्यक है। अस्वीकृति प्रक्रियाओं के अध्ययन से पता चला है कि वे सामान्यता से विचलन के लिए बेहद अस्थिर हैं, और इसलिए वास्तविक डेटा को संसाधित करने के लिए उनका उपयोग करना उचित नहीं है (नीचे देखें); इसलिए, कोई यह दावा नहीं कर सकता है कि सामान्यता से विचलन के खिलाफ मनमाने ढंग से की गई प्रक्रिया स्थिर है।

कभी-कभी यह सुझाव दिया जाता है कि आवेदन करने से पहले, उदाहरण के लिए, दो नमूनों की एकरूपता के लिए छात्र का परीक्षण, सामान्यता की जांच करें। हालांकि इसके लिए कई मानदंड हैं, सामान्यता के लिए परीक्षण एकरूपता के परीक्षण की तुलना में अधिक जटिल और समय लेने वाली सांख्यिकीय प्रक्रिया है (दोनों छात्र-प्रकार के आंकड़ों के साथ और गैर-पैरामीट्रिक परीक्षणों के साथ)। पर्याप्त रूप से मज़बूती से सामान्यता स्थापित करने के लिए काफी बड़ी संख्या में टिप्पणियों की आवश्यकता होती है। इसलिए, यह सुनिश्चित करने के लिए कि प्रेक्षणों के परिणामों का वितरण फलन 0.01 से अधिक (तर्क के किसी भी मूल्य के लिए) सामान्य से भिन्न होता है, लगभग 2500 अवलोकनों की आवश्यकता होती है। अधिकांश आर्थिक, तकनीकी, बायोमेडिकल और अन्य अनुप्रयुक्त अध्ययनों में, टिप्पणियों की संख्या काफी कम है। यह आर्थिक संरचनाओं और तकनीकी वस्तुओं के कामकाज की सुरक्षा सुनिश्चित करने से संबंधित समस्याओं के अध्ययन में उपयोग किए जाने वाले डेटा के लिए विशेष रूप से सच है।

कभी-कभी वे मापने वाले उपकरण की तकनीकी योजना में विशेष योजक सहित त्रुटि के वितरण को सामान्य करने के लिए सीसीटी का उपयोग करने का प्रयास करते हैं। आइए इस उपाय की उपयोगिता का मूल्यांकन करें। होने देना जेड 1 , जेड 2 ,…, जेड - वितरण समारोह के साथ स्वतंत्र रूप से समान रूप से वितरित यादृच्छिक चर एच =एच(एक्स) ऐसा है कि विचार

योजक द्वारा प्रदान की गई सामान्यता की निकटता का सूचक है

पिछले संबंध में सही असमानता पुस्तक में प्राप्त बेरी-एस्सेन असमानता में स्थिरांक के अनुमानों और मोनोग्राफ में उदाहरण से बाईं ओर के अनुमानों का अनुसरण करती है। एक सामान्य कानून के लिए = 1.6, एक समान कानून के लिए = 1.3, दो-बिंदु कानून के लिए = 1 (यह निचली सीमा है)। इसलिए, सामान्य वितरण के लिए दूरी (कोलमोगोरोव मीट्रिक में) सुनिश्चित करने के लिए "असफल" वितरण के लिए 0.01 से अधिक नहीं, कम से कम 0 शर्तें, जहां

आमतौर पर उपयोग किए जाने वाले योजकों में, शब्द बहुत छोटे होते हैं। संभावित वितरण के वर्ग को कम करना एच, जैसा कि मोनोग्राफ में दिखाया गया है, तेजी से अभिसरण प्राप्त करना संभव है, लेकिन यहां सिद्धांत अभी तक अभ्यास के साथ विलय नहीं हुआ है। इसके अलावा, यह स्पष्ट नहीं है कि सामान्य वितरण (एक निश्चित मीट्रिक में) के वितरण की निकटता भी इस वितरण के साथ यादृच्छिक चर से निर्मित आंकड़ों के वितरण की निकटता को सामान्य अवलोकन परिणामों के अनुरूप आंकड़ों के वितरण के लिए सुनिश्चित करती है। जाहिर है, प्रत्येक विशिष्ट आँकड़ों के लिए, विशेष सैद्धांतिक अध्ययन की आवश्यकता होती है। मोनोग्राफ के लेखक इस निष्कर्ष पर आते हैं। बाहरी अस्वीकृति समस्याओं में, उत्तर है: "प्रदान नहीं करता" (नीचे देखें)।

ध्यान दें कि किसी भी वास्तविक माप का परिणाम दशमलव स्थानों की एक सीमित संख्या का उपयोग करके दर्ज किया जाता है, आमतौर पर छोटा (2-5), इसलिए किसी भी वास्तविक डेटा को केवल असतत यादृच्छिक चर का उपयोग करके मॉडल करने की सलाह दी जाती है जो कि सीमित संख्या में मान लेते हैं। सामान्य वितरण वास्तविक वितरण का सिर्फ एक अनुमान है। इसलिए, उदाहरण के लिए, कार्य में दिए गए एक विशिष्ट अध्ययन का डेटा 1.0 से 2.2 तक मान लेता है, अर्थात। कुल 13 संभावित मान हैं। यह डिरिचलेट सिद्धांत का अनुसरण करता है कि किसी बिंदु पर कार्य डेटा के अनुसार निर्मित वितरण फ़ंक्शन निकटतम सामान्य वितरण फ़ंक्शन से कम से कम 1/26 से भिन्न होता है, अर्थात। 0.04 द्वारा। इसके अलावा, यह स्पष्ट है कि एक यादृच्छिक चर के सामान्य वितरण के लिए, दशमलव स्थानों की एक निश्चित संख्या के साथ दशमलव संख्याओं के असतत सेट में गिरने की संभावना 0 है।

ऊपर जो कहा गया है, उससे यह पता चलता है कि माप के परिणाम और, सामान्य रूप से, सांख्यिकीय डेटा में ऐसे गुण होते हैं जो इस तथ्य की ओर ले जाते हैं कि उन्हें यादृच्छिक चर द्वारा वितरण के साथ मॉडल किया जाना चाहिए जो सामान्य से कम या ज्यादा अलग हैं। ज्यादातर मामलों में, वितरण सामान्य वितरण से काफी भिन्न होते हैं; दूसरों में, सामान्य वितरण को स्पष्ट रूप से किसी प्रकार का सन्निकटन माना जा सकता है, लेकिन कभी भी पूर्ण संयोग नहीं होता है। इसका अर्थ है गैर-शास्त्रीय संभाव्य मॉडल में शास्त्रीय सांख्यिकीय प्रक्रियाओं के गुणों का अध्ययन करने की आवश्यकता (इसी तरह यह छात्र की कसौटी के लिए नीचे कैसे किया जाता है), और स्थिर विकसित करने की आवश्यकता (सामान्यता से विचलन की उपस्थिति को ध्यान में रखते हुए) और गैर-पैरामीट्रिक, वितरण-मुक्त प्रक्रियाओं सहित, सांख्यिकीय डेटा प्रोसेसिंग के अभ्यास में उनका व्यापक परिचय।

साहित्य

1. नोवित्स्की पी.वी., ज़ोग्राफ आई.ए. माप परिणामों में त्रुटियों का आकलन। - एल .: एनरगोटोमिज़डैट, 1985. - 248 पी।

2. नोवित्स्की पी.वी. उपकरणों को मापने के सूचना सिद्धांत के मूल सिद्धांत। - एल।: ऊर्जा, 1968। - 248 पी।

3. बोरोवकोव ए.ए. सिद्धांत संभावना। - एम .: नौका, 1976. - 352 पी।

4. पेट्रोव वी.वी. स्वतंत्र यादृच्छिक चर का योग। - एम .: नौका, 1972. - 416 पी।

5. ज़ोलोटारेव वी.एम. स्वतंत्र यादृच्छिक चर के योग का आधुनिक सिद्धांत। - एम .: नौका, 1986. - 416 पी।

6. ईगोरोवा एल.ए., खारितोनोव यू.एस., सोकोलोव्स्काया एल.वी. // फैक्टरी प्रयोगशाला। - 1976. वी.42। नंबर 10. एस. 1237.

दो स्वतंत्र यादृच्छिक चरों पर विचार करें और सामान्य कानूनों के अधीन:

, (12.6.1)

. (12.6.2)

इन नियमों की एक रचना करना आवश्यक है, अर्थात मात्रा के वितरण कानून को खोजने के लिए:

हम वितरण कानूनों की संरचना के लिए सामान्य सूत्र (12.5.3) लागू करते हैं:

. (12.6.3)

यदि हम समाकलन के घातांक में कोष्ठक खोलते हैं और समान पद लाते हैं, तो हमें प्राप्त होता है:

,

;

;

.

इन व्यंजकों को सूत्र (9.1.3) में प्रतिस्थापित करते हुए हम पहले ही मिल चुके हैं:

, (12.6.4)

परिवर्तन के बाद हमें मिलता है:

, (12.6.5)

और यह फैलाव केंद्र के साथ एक सामान्य कानून के अलावा और कुछ नहीं है

और मानक विचलन

. (12.6.7)

निम्नलिखित गुणात्मक तर्क की सहायता से उसी निष्कर्ष पर अधिक आसानी से पहुंचा जा सकता है।

कोष्ठकों को खोले बिना और समाकलन (12.6.3) में परिवर्तन किए बिना, हम तुरंत इस निष्कर्ष पर पहुँचते हैं कि घातांक रूप के संबंध में एक वर्ग त्रिपद है

,

जहां मान गुणांक में बिल्कुल भी शामिल नहीं है, यह गुणांक में पहली डिग्री में और गुणांक में - वर्ग में शामिल है। इसे ध्यान में रखते हुए और सूत्र (12.6.4) को लागू करते हुए, हम यह निष्कर्ष निकालते हैं कि एक घातीय कार्य है, जिसका घातांक एक वर्ग त्रिपद है, और इस प्रकार का वितरण घनत्व सामान्य कानून से मेल खाता है। इस प्रकार, हम विशुद्ध रूप से गुणात्मक निष्कर्ष पर आते हैं: मात्रा का वितरण नियम सामान्य होना चाहिए।

इस नियम के मापदंडों को खोजने के लिए - और - हम गणितीय अपेक्षाओं के योग के प्रमेय और प्रसरणों के योग के प्रमेय का उपयोग करते हैं। गणितीय अपेक्षाओं के योग प्रमेय के अनुसार

प्रसरण जोड़ प्रमेय के अनुसार

जहां से सूत्र (12.6.7) इस प्रकार है।

मानक विचलन से उनके समानुपाती संभावित विचलन में जाने पर, हम प्राप्त करते हैं:

इस प्रकार, हम निम्नलिखित नियम पर आए हैं: जब सामान्य कानूनों की रचना की जाती है, तो एक सामान्य कानून फिर से प्राप्त होता है, और गणितीय अपेक्षाओं और भिन्नताओं (या संभावित विचलन को चुकता) का सारांश दिया जाता है।

सामान्य कानूनों के लिए संरचना नियम को स्वतंत्र यादृच्छिक चर की मनमानी संख्या के मामले में सामान्यीकृत किया जा सकता है।

यदि स्वतंत्र यादृच्छिक चर हैं:

प्रकीर्णन केंद्रों के साथ सामान्य कानूनों के अधीन

और मानक विचलन

,

फिर मूल्य

मापदंडों के साथ सामान्य कानून का भी पालन करता है

सूत्र (12.6.12) के बजाय, आप समतुल्य सूत्र का उपयोग कर सकते हैं:

यदि यादृच्छिक चरों की प्रणाली को सामान्य नियम के अनुसार वितरित किया जाता है, लेकिन मात्राएँ निर्भर हैं, तो सामान्य सूत्र (12.5.1) के आधार पर, पहले की तरह, यह साबित करना आसान है कि मात्रा का वितरण कानून

एक सामान्य कानून भी है। प्रकीर्णन केंद्र अभी भी बीजगणितीय रूप से जोड़े जाते हैं, लेकिन मानक विचलन के लिए नियम अधिक जटिल हो जाता है:

, (12.6.14)

मूल्यों का सहसंबंध गुणांक कहाँ है और .

कई आश्रित यादृच्छिक चर जोड़ते समय, जो उनकी समग्रता में सामान्य कानून का पालन करते हैं, योग का वितरण कानून भी मापदंडों के साथ सामान्य हो जाता है

, (12.6.16)

या संभावित विचलन

, (12.6.17)

मूल्यों का सहसंबंध गुणांक कहां है, और योग मूल्यों के सभी अलग-अलग जोड़ीदार संयोजनों तक फैला हुआ है।

हमने सामान्य कानून की एक बहुत ही महत्वपूर्ण संपत्ति देखी है: जब सामान्य कानूनों को जोड़ा जाता है, तो व्यक्ति फिर से एक सामान्य कानून प्राप्त करता है। यह तथाकथित "स्थिरता संपत्ति" है। एक वितरण कानून को स्थिर कहा जाता है, अगर इस प्रकार के दो कानूनों की रचना करके, एक ही प्रकार का कानून फिर से प्राप्त किया जाता है। हमने ऊपर दिखाया है कि सामान्य कानून स्थिर है। बहुत कम वितरण कानूनों में स्थिरता का गुण होता है। पिछले एक (उदाहरण 2) में, हमने सुनिश्चित किया कि, उदाहरण के लिए, एकसमान घनत्व का नियम अस्थिर है: 0 से 1 के वर्गों में समान घनत्व के दो कानूनों की रचना करते समय, हमने सिम्पसन का नियम प्राप्त किया।

एक सामान्य कानून की स्थिरता व्यवहार में इसके व्यापक आवेदन के लिए आवश्यक शर्तों में से एक है। हालांकि, स्थिरता की संपत्ति, सामान्य के अलावा, कुछ अन्य वितरण कानूनों के पास भी है। सामान्य कानून की एक विशेषता यह है कि जब पर्याप्त संख्या में व्यावहारिक रूप से मनमाने वितरण कानूनों की रचना की जाती है, तो कुल कानून मनमाने ढंग से सामान्य के करीब हो जाता है, भले ही शर्तों के वितरण कानून कुछ भी हों। इसे उदाहरण के लिए, 0 से 1 के वर्गों में एकसमान घनत्व के तीन नियमों की रचना करके दिखाया जा सकता है। परिणामी वितरण कानून अंजीर में दिखाया गया है। 12.6.1. जैसा कि चित्र से देखा जा सकता है, फ़ंक्शन का ग्राफ सामान्य कानून के ग्राफ के समान है।

4.1. क्या प्रेक्षणों का वितरण अक्सर सामान्य होता है?

अर्थमितीय और आर्थिक-गणितीय मॉडल में, विशेष रूप से, विपणन और प्रबंधन प्रक्रियाओं के अध्ययन और अनुकूलन में, उद्यम और क्षेत्रीय प्रबंधन, तकनीकी प्रक्रियाओं की सटीकता और स्थिरता, पर्यावरणीय सुरक्षा सहित विश्वसनीयता, सुरक्षा की समस्याओं में, तकनीकी के कामकाज में। उपकरणों और वस्तुओं, संगठनात्मक चार्ट के विकास अक्सर संभाव्यता सिद्धांत और गणितीय आंकड़ों की अवधारणाओं और परिणामों को लागू करते हैं। इस मामले में, संभाव्यता वितरण के कुछ पैरामीट्रिक परिवारों का अक्सर उपयोग किया जाता है। सबसे लोकप्रिय सामान्य वितरण है। लॉग-सामान्य वितरण, घातीय वितरण, गामा वितरण, वेइबुल-गनेडेन्को वितरण, आदि का भी उपयोग किया जाता है।

जाहिर है, मॉडल की वास्तविकता के अनुरूप होने की जांच करना हमेशा आवश्यक होता है। दो प्रश्न हैं। क्या वास्तविक वितरण मॉडल में उपयोग किए गए वितरण से भिन्न हैं? यह अंतर किस हद तक निष्कर्षों को प्रभावित करता है?

नीचे, सामान्य वितरण के उदाहरण और इसके आधार पर तेजी से अलग-अलग टिप्पणियों (आउटलेयर) को अस्वीकार करने के तरीकों का उपयोग करते हुए, यह दिखाया गया है कि वास्तविक वितरण लगभग हमेशा शास्त्रीय पैरामीट्रिक परिवारों में शामिल लोगों और दिए गए परिवारों से मौजूदा विचलन से भिन्न होता है। विचाराधीन मामले में इन परिवारों के उपयोग के आधार पर अस्वीकृति के बारे में गलत निष्कर्ष निकालना।

क्या माप परिणामों की सामान्यता को प्राथमिकता देने का कोई कारण है?

कभी-कभी यह तर्क दिया जाता है कि जब माप त्रुटि (या अन्य यादृच्छिक चर) को कई छोटे कारकों की संचयी क्रिया के परिणामस्वरूप निर्धारित किया जाता है, तो, संभाव्यता सिद्धांत के केंद्रीय सीमा प्रमेय (सीएलटी) के कारण, यह मान है एक सामान्य यादृच्छिक चर द्वारा अच्छी तरह से अनुमानित (वितरण द्वारा)। यह कथन सत्य है यदि छोटे कारक एक दूसरे के योगात्मक और स्वतंत्र रूप से कार्य करते हैं। यदि वे गुणनात्मक रूप से कार्य करते हैं, तो, एक ही सीएलटी के कारण, लॉग-सामान्य वितरण द्वारा अनुमानित करना आवश्यक है। अनुप्रयुक्त समस्याओं में, आमतौर पर छोटे कारकों की क्रिया की बहुलता के बजाय योगात्मकता को प्रमाणित करना संभव नहीं होता है। यदि निर्भरता एक सामान्य प्रकृति की है, एक योगात्मक या गुणक रूप में कम नहीं है, और ऐसे मॉडल को स्वीकार करने का कोई आधार नहीं है जो घातीय, वेइबुल-गनेडेन्को, गामा या अन्य वितरण देते हैं, तो व्यावहारिक रूप से वितरण के बारे में कुछ भी ज्ञात नहीं है अंतिम यादृच्छिक चर, नियमितता जैसे अंतर-गणितीय गुणों को छोड़कर।

विशिष्ट डेटा को संसाधित करते समय, कभी-कभी यह माना जाता है कि माप त्रुटियों का सामान्य वितरण होता है। सामान्यता की धारणा पर, प्रतिगमन, फैलाव, तथ्यात्मक विश्लेषण, मेट्रोलॉजिकल मॉडल के शास्त्रीय मॉडल बनाए जाते हैं, जो अभी भी घरेलू नियामक और तकनीकी दस्तावेज और अंतरराष्ट्रीय मानकों दोनों में पाए जाते हैं। आर्थिक संरचनाओं, तकनीकी उपकरणों और वस्तुओं के कामकाज की सुरक्षा सुनिश्चित करने के लिए सिस्टम के डिजाइन में उपयोग की जाने वाली कुछ विशेषताओं के अधिकतम प्राप्य स्तरों की गणना के लिए मॉडल एक ही धारणा पर आधारित हैं। हालांकि, इस तरह की धारणा के लिए कोई सैद्धांतिक आधार नहीं है। प्रयोगात्मक रूप से त्रुटियों के वितरण का अध्ययन करना आवश्यक है।

प्रयोगात्मक परिणाम क्या दिखाते हैं? मोनोग्राफ में दिया गया सारांश हमें यह बताने की अनुमति देता है कि ज्यादातर मामलों में माप त्रुटियों का वितरण सामान्य से भिन्न होता है। इस प्रकार, मशीन-इलेक्ट्रोटेक्निकल इंस्टीट्यूट (वर्ना, बुल्गारिया) में, एनालॉग विद्युत माप उपकरणों के तराजू के लिए अंशांकन त्रुटियों के वितरण का अध्ययन किया गया था। चेकोस्लोवाकिया, यूएसएसआर और बुल्गारिया में निर्मित उपकरणों का अध्ययन किया गया। त्रुटि वितरण कानून समान निकला। इसका घनत्व है

हमने विभिन्न प्रकार के (विद्युत) उपकरणों के साथ विद्युत और गैर-विद्युत मात्रा दोनों को मापते समय, विभिन्न लेखकों द्वारा अध्ययन किए गए त्रुटियों के 219 वास्तविक वितरण के मापदंडों पर डेटा का विश्लेषण किया। इस अध्ययन के परिणामस्वरूप, यह पता चला कि 111 वितरण, अर्थात्। लगभग 50% घनत्व वाले वितरण वर्ग के हैं

डिग्री पैरामीटर कहां है; बी- शिफ्ट पैरामीटर; - स्केल पैरामीटर; - तर्क के गामा समारोह ;

(सेमी। ); 63 वितरण, अर्थात्। 30% में लंबे, कोमल ढलान वाले फ्लैट-टॉप घनत्व होते हैं और इसे सामान्य या, उदाहरण के लिए, घातीय के रूप में वर्णित नहीं किया जा सकता है। शेष 45 वितरण बिमोडल निकले।

प्रसिद्ध मेट्रोलॉजिस्ट की किताब में प्रो. पीवी नोवित्स्की विभिन्न प्रकार की माप त्रुटियों के वितरण के नियमों के अध्ययन के परिणाम प्रस्तुत करता है। उन्होंने कोर पर इलेक्ट्रोमैकेनिकल उपकरणों की त्रुटियों के वितरण का अध्ययन किया, तापमान और बलों को मापने के लिए इलेक्ट्रॉनिक उपकरण, मैनुअल संतुलन के साथ डिजिटल उपकरण। प्रत्येक नमूने के लिए प्रायोगिक डेटा नमूनों की मात्रा 100-400 रीडिंग थी। यह पता चला कि 47 में से 46 वितरण सामान्य से काफी अलग थे। रेंज के 10 बिंदुओं पर एसएच -1411 डिजिटल वाल्टमीटर की 25 प्रतियों में त्रुटियों के वितरण के आकार का अध्ययन किया गया था। परिणाम समान हैं। अधिक जानकारी मोनोग्राफ में निहित है।

टार्टू स्टेट यूनिवर्सिटी की अनुप्रयुक्त गणित प्रयोगशाला ने वास्तविक सांख्यिकीय डेटा के संग्रह से 2,500 नमूनों का विश्लेषण किया। 92% में, सामान्यता परिकल्पना को अस्वीकार करना पड़ा।

प्रयोगात्मक डेटा के उपरोक्त विवरण से पता चलता है कि ज्यादातर मामलों में माप त्रुटियों में वितरण सामान्य से भिन्न होता है। इसका मतलब है, विशेष रूप से, सामान्य सिद्धांत के आधार पर छात्र के टी-टेस्ट, शास्त्रीय प्रतिगमन विश्लेषण और अन्य सांख्यिकीय विधियों के अधिकांश अनुप्रयोग, सख्ती से बोलना, उचित नहीं हैं, क्योंकि संबंधित यादृच्छिक के वितरण की सामान्यता के अंतर्निहित स्वयंसिद्ध चर गलत है।

जाहिर है, सांख्यिकीय डेटा के विश्लेषण के वर्तमान अभ्यास को सही ठहराने या यथोचित रूप से बदलने के लिए, "अवैध" अनुप्रयोगों में डेटा विश्लेषण प्रक्रियाओं के गुणों का अध्ययन करना आवश्यक है। अस्वीकृति प्रक्रियाओं के अध्ययन से पता चला है कि वे सामान्यता से विचलन के लिए बेहद अस्थिर हैं, और इसलिए वास्तविक डेटा को संसाधित करने के लिए उनका उपयोग करना उचित नहीं है (नीचे देखें); इसलिए, कोई यह दावा नहीं कर सकता है कि सामान्यता से विचलन के खिलाफ मनमाने ढंग से की गई प्रक्रिया स्थिर है।

कभी-कभी यह सुझाव दिया जाता है कि आवेदन करने से पहले, उदाहरण के लिए, दो नमूनों की एकरूपता के लिए छात्र का परीक्षण, सामान्यता की जांच करें। हालांकि इसके लिए कई मानदंड हैं, सामान्यता के लिए परीक्षण एकरूपता के परीक्षण की तुलना में अधिक जटिल और समय लेने वाली सांख्यिकीय प्रक्रिया है (दोनों छात्र-प्रकार के आंकड़ों के साथ और गैर-पैरामीट्रिक परीक्षणों के साथ)। पर्याप्त रूप से मज़बूती से सामान्यता स्थापित करने के लिए काफी बड़ी संख्या में टिप्पणियों की आवश्यकता होती है। इसलिए, यह सुनिश्चित करने के लिए कि टिप्पणियों के परिणामों का वितरण कार्य कुछ सामान्य से 0.01 से अधिक नहीं (तर्क के किसी भी मूल्य के लिए) भिन्न होता है, लगभग 2500 अवलोकनों की आवश्यकता होती है। अधिकांश आर्थिक, तकनीकी, बायोमेडिकल और अन्य अनुप्रयुक्त अध्ययनों में, टिप्पणियों की संख्या काफी कम है। यह आर्थिक संरचनाओं और तकनीकी वस्तुओं के कामकाज की सुरक्षा सुनिश्चित करने से संबंधित समस्याओं के अध्ययन में उपयोग किए जाने वाले डेटा के लिए विशेष रूप से सच है।

कभी-कभी वे मापने वाले उपकरण की तकनीकी योजना में विशेष योजक सहित त्रुटि के वितरण को सामान्य करने के लिए सीसीटी का उपयोग करने का प्रयास करते हैं। आइए इस उपाय की उपयोगिता का मूल्यांकन करें। होने देना जेड 1, जेड 2,…, जेड के- वितरण समारोह के साथ स्वतंत्र रूप से समान रूप से वितरित यादृच्छिक चर एच = एच (एक्स)ऐसा है कि विचार

योजक द्वारा प्रदान की गई सामान्यता की निकटता का सूचक है

पिछले संबंध में सही असमानता पुस्तक में प्राप्त बेरी-एस्सेन असमानता में स्थिरांक के अनुमानों और मोनोग्राफ में उदाहरण से बाईं ओर के अनुमानों का अनुसरण करती है। एक सामान्य कानून के लिए = 1.6, एक समान कानून के लिए = 1.3, दो-बिंदु कानून के लिए = 1 (यह निचली सीमा है)। इसलिए, सामान्य वितरण के लिए दूरी (कोलमोगोरोव मीट्रिक में) सुनिश्चित करने के लिए "असफल" वितरण के लिए 0.01 से अधिक नहीं, कम से कम कश्मीर 0शर्तें, जहां

आमतौर पर उपयोग किए जाने वाले योजकों में, शब्द बहुत छोटे होते हैं। संभावित वितरण के वर्ग को कम करना एच, जैसा कि मोनोग्राफ में दिखाया गया है, तेजी से अभिसरण प्राप्त करना संभव है, लेकिन यहां सिद्धांत अभी तक अभ्यास के साथ विलय नहीं हुआ है। इसके अलावा, यह स्पष्ट नहीं है कि सामान्य वितरण (एक निश्चित मीट्रिक में) के वितरण की निकटता भी इस वितरण के साथ यादृच्छिक चर से निर्मित आंकड़ों के वितरण की निकटता को सामान्य अवलोकन परिणामों के अनुरूप आंकड़ों के वितरण के लिए सुनिश्चित करती है। जाहिर है, प्रत्येक विशिष्ट आँकड़ों के लिए, विशेष सैद्धांतिक अध्ययन की आवश्यकता होती है। मोनोग्राफ के लेखक इस निष्कर्ष पर आते हैं। बाहरी अस्वीकृति समस्याओं में, उत्तर है: "प्रदान नहीं करता" (नीचे देखें)।

ध्यान दें कि किसी भी वास्तविक माप का परिणाम दशमलव स्थानों की एक सीमित संख्या का उपयोग करके दर्ज किया जाता है, आमतौर पर छोटा (2-5), इसलिए किसी भी वास्तविक डेटा को केवल असतत यादृच्छिक चर का उपयोग करके मॉडल करने की सलाह दी जाती है जो कि सीमित संख्या में मान लेते हैं। सामान्य वितरण वास्तविक वितरण का सिर्फ एक अनुमान है। इसलिए, उदाहरण के लिए, कार्य में दिए गए एक विशिष्ट अध्ययन का डेटा 1.0 से 2.2 तक मान लेता है, अर्थात। कुल 13 संभावित मान हैं। यह डिरिचलेट सिद्धांत का अनुसरण करता है कि किसी बिंदु पर कार्य डेटा के अनुसार निर्मित वितरण फ़ंक्शन निकटतम सामान्य वितरण फ़ंक्शन से कम से कम 1/26 से भिन्न होता है, अर्थात। 0.04 द्वारा। इसके अलावा, यह स्पष्ट है कि एक यादृच्छिक चर के सामान्य वितरण के लिए, दशमलव स्थानों की एक निश्चित संख्या के साथ दशमलव संख्याओं के असतत सेट में गिरने की संभावना 0 है।

ऊपर जो कहा गया है, उससे यह पता चलता है कि माप के परिणाम और, सामान्य रूप से, सांख्यिकीय डेटा में ऐसे गुण होते हैं जो इस तथ्य की ओर ले जाते हैं कि उन्हें यादृच्छिक चर द्वारा वितरण के साथ मॉडल किया जाना चाहिए जो सामान्य से कम या ज्यादा अलग हैं। ज्यादातर मामलों में, वितरण सामान्य वितरण से काफी भिन्न होते हैं; दूसरों में, सामान्य वितरण को स्पष्ट रूप से किसी प्रकार का सन्निकटन माना जा सकता है, लेकिन कभी भी पूर्ण संयोग नहीं होता है। इसका अर्थ है गैर-शास्त्रीय संभाव्य मॉडल में शास्त्रीय सांख्यिकीय प्रक्रियाओं के गुणों का अध्ययन करने की आवश्यकता (इसी तरह यह छात्र की कसौटी के लिए नीचे कैसे किया जाता है), और स्थिर विकसित करने की आवश्यकता (सामान्यता से विचलन की उपस्थिति को ध्यान में रखते हुए) और गैर-पैरामीट्रिक, वितरण-मुक्त प्रक्रियाओं सहित, सांख्यिकीय डेटा प्रोसेसिंग के अभ्यास में उनका व्यापक परिचय।

अन्य पैरामीट्रिक परिवारों के लिए यहां छोड़े गए विचार समान निष्कर्षों की ओर ले जाते हैं। परिणाम निम्नानुसार तैयार किया जा सकता है। वास्तविक डेटा वितरण लगभग कभी भी किसी विशेष पैरामीट्रिक परिवार से संबंधित नहीं होते हैं। वास्तविक वितरण हमेशा पैरामीट्रिक परिवारों में शामिल लोगों से भिन्न होते हैं। मतभेद बड़े या छोटे हो सकते हैं, लेकिन वे हमेशा मौजूद रहते हैं। आइए यह समझने की कोशिश करें कि अर्थमितीय विश्लेषण के लिए ये अंतर कितने महत्वपूर्ण हैं।

संभाव्यता सिद्धांत और गणितीय सांख्यिकी में, संख्यात्मक यादृच्छिक चर के वितरण के विभिन्न पैरामीट्रिक परिवारों पर विचार किया जाता है। अर्थात्, वे सामान्य वितरण के परिवारों का अध्ययन करते हैं, लॉगरिदमिक रूप से सामान्य, घातीय, गामा वितरण, वेइबुल-गेन्डेंको वितरण, आदि। ये सभी एक, दो या तीन मापदंडों पर निर्भर करते हैं। इसलिए, वितरण का पूरी तरह से वर्णन करने के लिए, एक, दो या तीन संख्याओं को जानना या अनुमान लगाना पर्याप्त है। बहुत आराम से। इसलिए, गणितीय आँकड़ों का पैरामीट्रिक सिद्धांत व्यापक रूप से विकसित होता है, जिसमें यह माना जाता है कि टिप्पणियों के परिणामों का वितरण एक या दूसरे पैरामीट्रिक परिवार से संबंधित है।

दुर्भाग्य से, पैरामीट्रिक परिवार केवल संभाव्यता सिद्धांत और गणितीय सांख्यिकी पर पाठ्यपुस्तकों के लेखकों के दिमाग में मौजूद हैं। वे वास्तविक जीवन में मौजूद नहीं हैं। इसलिए, अर्थमिति मुख्य रूप से गैर-पैरामीट्रिक विधियों का उपयोग करती है, जिसमें टिप्पणियों के परिणामों के वितरण का एक मनमाना रूप हो सकता है।

सबसे पहले, सामान्य वितरण के उदाहरण का उपयोग करते हुए, हम विशिष्ट आर्थिक डेटा के वितरण का वर्णन करने के लिए पैरामीट्रिक परिवारों के व्यावहारिक उपयोग की असंभवता पर अधिक विस्तार से चर्चा करेंगे। फिर हम बाहरी टिप्पणियों को अस्वीकार करने के लिए पैरामीट्रिक विधियों का विश्लेषण करेंगे और पैरामीट्रिक सांख्यिकी के कई तरीकों के व्यावहारिक उपयोग की असंभवता को प्रदर्शित करेंगे, जो निष्कर्ष निकालेंगे। फिर हम संख्यात्मक यादृच्छिक चर की मुख्य विशेषताओं के आत्मविश्वास के आकलन के गैर-पैरामीट्रिक तरीकों का विश्लेषण करेंगे - गणितीय अपेक्षा, माध्यिका, विचरण, मानक विचलन, गुणांक का परिवर्तन. व्याख्यान दो नमूनों की एकरूपता की जाँच के तरीकों के साथ समाप्त होगा, स्वतंत्र या संबंधित।

क्या प्रेक्षणों का वितरण अक्सर सामान्य होता है?

अर्थमितीय और आर्थिक-गणितीय मॉडल में, विशेष रूप से, विपणन और प्रबंधन प्रक्रियाओं के अध्ययन और अनुकूलन में, उद्यम और क्षेत्रीय प्रबंधन, तकनीकी प्रक्रियाओं की सटीकता और स्थिरता, पर्यावरणीय सुरक्षा सहित विश्वसनीयता, सुरक्षा की समस्याओं में, तकनीकी के कामकाज में। उपकरणों और वस्तुओं, संगठनात्मक चार्ट के विकास अक्सर संभाव्यता सिद्धांत और गणितीय आंकड़ों की अवधारणाओं और परिणामों को लागू करते हैं। इस मामले में, संभाव्यता वितरण के कुछ पैरामीट्रिक परिवारों का अक्सर उपयोग किया जाता है। सबसे लोकप्रिय सामान्य वितरण. लॉगरिदमिक रूप से भी प्रयोग किया जाता है सामान्य वितरण, घातीय वितरण, गामा वितरण, वेइबुल-गेन्डेंको वितरण, आदि।

जाहिर है, मॉडल की वास्तविकता के अनुरूप होने की जांच करना हमेशा आवश्यक होता है। दो प्रश्न हैं। क्या वास्तविक वितरण मॉडल में उपयोग किए गए वितरण से भिन्न हैं? यह अंतर किस हद तक निष्कर्षों को प्रभावित करता है?

नीचे, सामान्य वितरण के उदाहरण और इसके आधार पर तेजी से अलग-अलग टिप्पणियों (आउटलेयर) को अस्वीकार करने के तरीकों का उपयोग करते हुए, यह दिखाया गया है कि वास्तविक वितरण लगभग हमेशा शास्त्रीय पैरामीट्रिक परिवारों में शामिल लोगों और दिए गए परिवारों से मौजूदा विचलन से भिन्न होता है। विचाराधीन मामले में इन परिवारों के उपयोग के आधार पर अस्वीकृति के बारे में गलत निष्कर्ष निकालना।

क्या माप परिणामों की सामान्यता को प्राथमिकता देने का कोई कारण है?

कभी-कभी यह तर्क दिया जाता है कि उस मामले में जहां माप त्रुटि (या अन्य) यादृच्छिक मूल्य) कई छोटे कारकों की संयुक्त कार्रवाई के परिणामस्वरूप निर्धारित किया जाता है, फिर, संभाव्यता सिद्धांत के केंद्रीय सीमा प्रमेय (सीएलटी) के आधार पर, यह मान सामान्य यादृच्छिक चर द्वारा अच्छी तरह से अनुमानित (वितरण द्वारा) किया जाता है। यह कथन सत्य है यदि छोटे कारक एक दूसरे के योगात्मक और स्वतंत्र रूप से कार्य करते हैं। यदि वे गुणनात्मक रूप से कार्य करते हैं, तो, एक ही सीएलटी के कारण, लॉग-सामान्य वितरण द्वारा अनुमानित करना आवश्यक है। अनुप्रयुक्त समस्याओं में, आमतौर पर छोटे कारकों की क्रिया की बहुलता के बजाय योगात्मकता को प्रमाणित करना संभव नहीं होता है। यदि निर्भरता एक सामान्य प्रकृति की है, एक योगात्मक या गुणक रूप में कम नहीं है, और ऐसे मॉडल को स्वीकार करने का कोई आधार नहीं है जो घातीय, वेइबुल-गनेडेन्को, गामा या अन्य वितरण देते हैं, तो व्यावहारिक रूप से वितरण के बारे में कुछ भी ज्ञात नहीं है अंतिम यादृच्छिक चर, नियमितता जैसे अंतर-गणितीय गुणों को छोड़कर।

विशिष्ट डेटा को संसाधित करते समय, कभी-कभी यह माना जाता है कि माप त्रुटियों में है सामान्य वितरण. सामान्यता की धारणा पर, प्रतिगमन, फैलाव के शास्त्रीय मॉडल, कारक विश्लेषण, मेट्रोलॉजिकल मॉडल, जो अभी भी घरेलू मानक और तकनीकी दस्तावेज़ीकरण और अंतर्राष्ट्रीय मानकों दोनों में पाए जाते हैं। आर्थिक संरचनाओं, तकनीकी उपकरणों और वस्तुओं के कामकाज की सुरक्षा सुनिश्चित करने के लिए सिस्टम के डिजाइन में उपयोग की जाने वाली कुछ विशेषताओं के अधिकतम प्राप्य स्तरों की गणना के लिए मॉडल एक ही धारणा पर आधारित हैं। हालांकि, इस तरह की धारणा के लिए कोई सैद्धांतिक आधार नहीं है। प्रयोगात्मक रूप से त्रुटियों के वितरण का अध्ययन करना आवश्यक है।

प्रयोगात्मक परिणाम क्या दिखाते हैं? मोनोग्राफ में दिया गया सारांश हमें यह बताने की अनुमति देता है कि ज्यादातर मामलों में माप त्रुटियों का वितरण सामान्य से भिन्न होता है। इस प्रकार, मशीन-इलेक्ट्रोटेक्निकल इंस्टीट्यूट (वर्ना, बुल्गारिया) में, एनालॉग विद्युत माप उपकरणों के तराजू के लिए अंशांकन त्रुटियों के वितरण का अध्ययन किया गया था। चेकोस्लोवाकिया, यूएसएसआर और बुल्गारिया में निर्मित उपकरणों का अध्ययन किया गया। त्रुटि वितरण कानून समान निकला। इसका घनत्व है

हमने विभिन्न प्रकार के (विद्युत) उपकरणों के साथ विद्युत और गैर-विद्युत मात्रा दोनों को मापते समय, विभिन्न लेखकों द्वारा अध्ययन किए गए त्रुटियों के 219 वास्तविक वितरण के मापदंडों पर डेटा का विश्लेषण किया। इस अध्ययन के परिणामस्वरूप, यह पता चला कि 111 वितरण, अर्थात्। लगभग 50% घनत्व वाले वितरण वर्ग के हैं

डिग्री पैरामीटर कहां है; - शिफ्ट पैरामीटर; - स्केल पैरामीटर; - तर्क के गामा समारोह ;

टार्टू स्टेट यूनिवर्सिटी की अनुप्रयुक्त गणित प्रयोगशाला ने वास्तविक सांख्यिकीय डेटा के संग्रह से 2,500 नमूनों का विश्लेषण किया। 92% में, सामान्यता परिकल्पना को अस्वीकार करना पड़ा।

प्रयोगात्मक डेटा के उपरोक्त विवरण से पता चलता है कि ज्यादातर मामलों में माप त्रुटियों में वितरण सामान्य से भिन्न होता है। इसका मतलब है, विशेष रूप से, छात्र के टी-टेस्ट के अधिकांश अनुप्रयोग, शास्त्रीय प्रतिगमन विश्लेषणऔर सामान्य सिद्धांत पर आधारित अन्य सांख्यिकीय तरीके, सख्ती से बोलना, उचित नहीं है, क्योंकि उनके अंतर्निहित संबंधित यादृच्छिक चर के वितरण की सामान्यता का स्वयंसिद्ध गलत है।

जाहिर है, सांख्यिकीय डेटा के विश्लेषण के वर्तमान अभ्यास को सही ठहराने या यथोचित रूप से बदलने के लिए, "अवैध" अनुप्रयोगों में डेटा विश्लेषण प्रक्रियाओं के गुणों का अध्ययन करना आवश्यक है। अस्वीकृति प्रक्रियाओं के अध्ययन से पता चला है कि वे सामान्यता से विचलन के लिए बेहद अस्थिर हैं, और इसलिए वास्तविक डेटा को संसाधित करने के लिए उनका उपयोग करना उचित नहीं है (नीचे देखें); इसलिए, कोई यह दावा नहीं कर सकता है कि सामान्यता से विचलन के खिलाफ मनमाने ढंग से की गई प्रक्रिया स्थिर है।

कभी-कभी यह सुझाव दिया जाता है कि आवेदन करने से पहले, उदाहरण के लिए, दो नमूनों की एकरूपता के लिए छात्र का परीक्षण, सामान्यता की जांच करें। हालांकि इसके लिए कई मानदंड हैं, सामान्यता के लिए परीक्षण एकरूपता के परीक्षण की तुलना में अधिक जटिल और समय लेने वाली सांख्यिकीय प्रक्रिया है (दोनों छात्र-प्रकार के आंकड़ों के साथ और गैर-पैरामीट्रिक परीक्षणों के साथ)। पर्याप्त रूप से मज़बूती से सामान्यता स्थापित करने के लिए काफी बड़ी संख्या में टिप्पणियों की आवश्यकता होती है। इसलिए, यह सुनिश्चित करने के लिए कि टिप्पणियों के परिणामों का वितरण कार्य कुछ सामान्य से 0.01 से अधिक नहीं (तर्क के किसी भी मूल्य के लिए) भिन्न होता है, लगभग 2500 अवलोकनों की आवश्यकता होती है। अधिकांश आर्थिक, तकनीकी, बायोमेडिकल और अन्य अनुप्रयुक्त अध्ययनों में, टिप्पणियों की संख्या काफी कम है। यह आर्थिक संरचनाओं और तकनीकी वस्तुओं के कामकाज की सुरक्षा सुनिश्चित करने से संबंधित समस्याओं के अध्ययन में उपयोग किए जाने वाले डेटा के लिए विशेष रूप से सच है।

कभी-कभी वे मापने वाले उपकरण की तकनीकी योजना में विशेष योजक सहित त्रुटि के वितरण को सामान्य करने के लिए सीसीटी का उपयोग करने का प्रयास करते हैं। आइए इस उपाय की उपयोगिता का मूल्यांकन करें। आज्ञा देना वितरण समारोह के साथ समान रूप से वितरित यादृच्छिक चर स्वतंत्र हो ऐसा है कि विचार

योजक द्वारा प्रदान की गई सामान्यता की निकटता का सूचक है

पिछले संबंध में सही असमानता पुस्तक में प्राप्त बेरी-एस्सेन असमानता में स्थिरांक के अनुमानों और मोनोग्राफ में उदाहरण से बाईं ओर के अनुमानों का अनुसरण करती है। के लिये सामान्य कानून, वर्दी के लिए, दो-बिंदु के लिए (यह निचली सीमा है)। इसलिए, "असफल" वितरण के लिए 0.01 से अधिक के सामान्य वितरण के लिए दूरी (कोलमोगोरोव मीट्रिक में) सुनिश्चित करने के लिए, कम से कम शर्तों की आवश्यकता होती है, जहां किसी दिए गए संख्या के साथ दशमलव संख्याओं के असतत सेट में गिरने की संभावना होती है दशमलव स्थान 0 है।

ऊपर जो कहा गया है, उससे यह पता चलता है कि माप के परिणाम और, सामान्य रूप से, सांख्यिकीय डेटा में ऐसे गुण होते हैं जो इस तथ्य की ओर ले जाते हैं कि उन्हें यादृच्छिक चर द्वारा वितरण के साथ मॉडल किया जाना चाहिए जो सामान्य से कम या ज्यादा अलग हैं। ज्यादातर मामलों में, वितरण सामान्य वितरण से काफी भिन्न होते हैं, दूसरों में, सामान्य वितरण को स्पष्ट रूप से किसी प्रकार का अनुमान माना जा सकता है, लेकिन कभी भी पूर्ण संयोग नहीं होता है। इसका तात्पर्य गैर-शास्त्रीय में शास्त्रीय सांख्यिकीय प्रक्रियाओं के गुणों का अध्ययन करने की आवश्यकता दोनों है संभाव्य मॉडल(छात्र के टी-टेस्ट के लिए नीचे क्या किया गया है) और वितरण-मुक्त प्रक्रियाओं सहित टिकाऊ (सामान्यता से विचलन की उपस्थिति को ध्यान में रखते हुए) और गैर-पैरामीट्रिक विकसित करने की आवश्यकता, सांख्यिकीय के अभ्यास में उनका व्यापक परिचय डाटा प्रासेसिंग।

अन्य पैरामीट्रिक परिवारों के लिए यहां छोड़े गए विचार समान निष्कर्षों की ओर ले जाते हैं। परिणाम निम्नानुसार तैयार किया जा सकता है। वास्तविक डेटा वितरण लगभग कभी भी किसी विशेष पैरामीट्रिक परिवार से संबंधित नहीं होते हैं। वास्तविक वितरण हमेशा पैरामीट्रिक परिवारों में शामिल लोगों से भिन्न होते हैं। मतभेद बड़े या छोटे हो सकते हैं, लेकिन वे हमेशा मौजूद रहते हैं। आइए यह समझने की कोशिश करें कि अर्थमितीय विश्लेषण के लिए ये अंतर कितने महत्वपूर्ण हैं।