सांख्यिकी में नमूनाकरण क्या है. सामान्य हिस्सेदारी के बारे में समस्याएं

अवलोकन की वस्तुओं की कुल संख्या (लोगों, घरों, उद्यमों, बस्तियों, आदि) जिनमें विशेषताओं का एक निश्चित सेट (लिंग, आयु, आय, संख्या, कारोबार, आदि) है, जो अंतरिक्ष और समय में सीमित है। जनसंख्या उदाहरण

  • मास्को के सभी निवासी (2002 की जनगणना के अनुसार 10.6 मिलियन लोग)
  • मस्कोवाइट पुरुष (2002 की जनगणना के अनुसार 4.9 मिलियन)
  • रूसी कानूनी संस्थाएं (2005 की शुरुआत में 2.2 मिलियन)
  • खाद्य उत्पाद बेचने वाले खुदरा आउटलेट (2008 की शुरुआत में 20 हजार), आदि।

नमूना (नमूना जनसंख्या)

पूरी आबादी के बारे में निष्कर्ष निकालने के लिए अध्ययन के लिए चुनी गई आबादी से वस्तुओं का हिस्सा। नमूने का अध्ययन करके प्राप्त निष्कर्ष को पूरी आबादी तक विस्तारित करने के लिए, नमूने में प्रतिनिधि होने का गुण होना चाहिए।

नमूना प्रतिनिधित्व

सामान्य जनसंख्या को सही ढंग से प्रतिबिंबित करने के लिए नमूने की संपत्ति। एक ही नमूना विभिन्न आबादी का प्रतिनिधि हो भी सकता है और नहीं भी।
उदाहरण:

  • पूरी तरह से मस्कोवाइट्स का एक नमूना, जिसके पास एक कार है, मास्को की पूरी आबादी का प्रतिनिधित्व नहीं करता है।
  • अधिकतम 100 कर्मचारियों वाले रूसी उद्यमों का नमूना रूस में सभी उद्यमों का प्रतिनिधित्व नहीं करता है।
  • बाजार में खरीदारी करने वाले Muscovites का नमूना सभी Muscovites के क्रय व्यवहार का प्रतिनिधित्व नहीं करता है।

साथ ही, ये नमूने (अन्य शर्तों के अधीन) पूरी तरह से मस्कोवाइट कार मालिकों, छोटे और मध्यम आकार के रूसी उद्यमों और बाजारों में खरीदारी करने वाले खरीदारों का प्रतिनिधित्व कर सकते हैं।
यह समझना महत्वपूर्ण है कि नमूना प्रतिनिधित्व और नमूना त्रुटि अलग-अलग घटनाएं हैं। त्रुटि के विपरीत प्रतिनिधित्व, नमूना आकार पर निर्भर नहीं करता है।
उदाहरण:
हम सर्वेक्षण किए गए मस्कोवाइट्स-कार मालिकों की संख्या में कितना भी वृद्धि करें, हम इस नमूने के साथ सभी मस्कोवाइट्स का प्रतिनिधित्व नहीं कर पाएंगे।

नमूनाकरण त्रुटि (विश्वास अंतराल)

सामान्य जनसंख्या के वास्तविक आंकड़ों से नमूना अवलोकन की सहायता से प्राप्त परिणामों का विचलन।
नमूना त्रुटि दो प्रकार की होती है: सांख्यिकीय और व्यवस्थित। सांख्यिकीय त्रुटि नमूना आकार पर निर्भर करती है। नमूना आकार जितना बड़ा होगा, उतना ही कम होगा।
उदाहरण:
400 इकाइयों के एक साधारण यादृच्छिक नमूने के लिए, अधिकतम सांख्यिकीय त्रुटि (95% आत्मविश्वास के साथ) 5% है, 600 इकाइयों के नमूने के लिए - 4%, 1100 इकाइयों के नमूने के लिए - 3%।
व्यवस्थित त्रुटि विभिन्न कारकों पर निर्भर करती है जो अध्ययन पर निरंतर प्रभाव डालते हैं और अध्ययन के परिणामों को एक निश्चित दिशा में पूर्वाग्रहित करते हैं।
उदाहरण:

  • किसी भी संभाव्यता नमूने का उपयोग सक्रिय उच्च आय वाले लोगों के अनुपात को कम करके आंका जाता है। यह इस तथ्य के कारण होता है कि ऐसे लोगों को किसी विशेष स्थान (उदाहरण के लिए, घर पर) में ढूंढना अधिक कठिन होता है।
  • उत्तरदाताओं की समस्या जो सवालों के जवाब देने से इनकार करते हैं (मास्को में "रिफ्यूसेनिक" की हिस्सेदारी, विभिन्न सर्वेक्षणों के लिए, 50% से 80% तक होती है)

कुछ मामलों में, जब सही वितरण ज्ञात होते हैं, तो कोटा शुरू करके या डेटा को फिर से भारित करके पूर्वाग्रह को समतल किया जा सकता है, लेकिन अधिकांश वास्तविक अध्ययनों में, इसका अनुमान लगाना भी काफी समस्याग्रस्त हो सकता है।

नमूना प्रकार

नमूने दो प्रकारों में विभाजित हैं:

  • संभाव्य
  • असंभवता

1. संभाव्यता नमूने
1.1 यादृच्छिक नमूनाकरण (सरल यादृच्छिक चयन)
ऐसा नमूना सामान्य जनसंख्या की एकरूपता, सभी तत्वों की उपलब्धता की समान संभावना, सभी तत्वों की पूरी सूची की उपस्थिति को मानता है। तत्वों का चयन करते समय, एक नियम के रूप में, यादृच्छिक संख्याओं की एक तालिका का उपयोग किया जाता है।
1.2 यांत्रिक (व्यवस्थित) नमूनाकरण
एक प्रकार का यादृच्छिक नमूना, कुछ विशेषता (वर्णमाला क्रम, फोन नंबर, जन्म तिथि, आदि) द्वारा क्रमबद्ध। पहले तत्व को यादृच्छिक रूप से चुना जाता है, फिर प्रत्येक 'k'th तत्व को 'n' की वृद्धि में चुना जाता है। सामान्य जनसंख्या का आकार, जबकि - N=n*k
1.3 स्तरीकृत (क्षेत्रीय)
इसका उपयोग सामान्य जनसंख्या की विषमता के मामले में किया जाता है। सामान्य जनसंख्या समूहों (स्तर) में विभाजित है। प्रत्येक स्तर में, चयन बेतरतीब ढंग से या यंत्रवत् किया जाता है।
1.4 सीरियल (नेस्टेड या क्लस्टर्ड) सैंपलिंग
सीरियल सैंपलिंग के साथ, चयन की इकाइयाँ स्वयं वस्तु नहीं होती हैं, बल्कि समूह (समूह या घोंसले) होते हैं। समूहों को यादृच्छिक रूप से चुना जाता है। समूहों के भीतर की वस्तुओं का हर जगह सर्वेक्षण किया जाता है।

2. अतुल्य नमूने
इस तरह के नमूने में चयन संयोग के सिद्धांतों के अनुसार नहीं, बल्कि व्यक्तिपरक मानदंडों के अनुसार किया जाता है - पहुंच, विशिष्टता, समान प्रतिनिधित्व, आदि।
2.1. कोटा नमूना
प्रारंभ में, वस्तुओं के समूहों की एक निश्चित संख्या आवंटित की जाती है (उदाहरण के लिए, 20-30 वर्ष, 31-45 वर्ष और 46-60 वर्ष की आयु के पुरुष; 30 से 60 की आय वाले 30 हजार रूबल तक की आय वाले व्यक्ति) हजार रूबल और 60 हजार रूबल से अधिक की आय के साथ) प्रत्येक समूह के लिए सर्वेक्षण की जाने वाली वस्तुओं की संख्या निर्दिष्ट है। प्रत्येक समूह में आने वाली वस्तुओं की संख्या निर्धारित की जाती है, सबसे अधिक बार, या तो सामान्य आबादी में समूह के पहले ज्ञात हिस्से के अनुपात में, या प्रत्येक समूह के लिए समान। समूहों के भीतर, वस्तुओं को यादृच्छिक रूप से चुना जाता है। कोटा नमूनाकरण का उपयोग अक्सर किया जाता है।
2.2. स्नोबॉल विधि
नमूना निम्नानुसार बनाया गया है। प्रत्येक उत्तरदाता, पहले से शुरू करते हुए, अपने दोस्तों, सहकर्मियों, परिचितों से संपर्क करने के लिए कहा जाता है जो चयन की शर्तों में फिट होंगे और अध्ययन में भाग ले सकते हैं। इस प्रकार, पहले चरण के अपवाद के साथ, नमूना स्वयं अध्ययन की वस्तुओं की भागीदारी के साथ बनता है। विधि का उपयोग अक्सर तब किया जाता है जब उत्तरदाताओं के कठिन-से-पहुंच समूहों को ढूंढना और उनका साक्षात्कार करना आवश्यक होता है (उदाहरण के लिए, उच्च आय वाले उत्तरदाता, एक ही पेशेवर समूह से संबंधित उत्तरदाता, उत्तरदाता जिनके कुछ समान शौक / जुनून हैं, आदि। )
2.3 स्वतःस्फूर्त प्रतिचयन
सर्वाधिक सुलभ उत्तरदाताओं का सर्वेक्षण किया जाता है। स्वतः पूर्ण होने के लिए उत्तरदाताओं को दिए गए अधिकांश इंटरनेट सर्वेक्षणों में स्वतःस्फूर्त नमूनों के विशिष्ट उदाहरण समाचार पत्रों/पत्रिकाओं में हैं। सहज नमूनों का आकार और संरचना पहले से ज्ञात नहीं है, और केवल एक पैरामीटर - उत्तरदाताओं की गतिविधि द्वारा निर्धारित किया जाता है।
2.4 विशिष्ट मामलों का नमूना
सामान्य जनसंख्या की इकाइयाँ चुनी जाती हैं जिनमें विशेषता का औसत (विशिष्ट) मान होता है। यह एक विशेषता को चुनने और उसके विशिष्ट मूल्य को निर्धारित करने की समस्या को उठाता है।

सांख्यिकी के सिद्धांत पर व्याख्यान का कोर्स

नमूना टिप्पणियों पर अधिक विस्तृत जानकारी देखने से प्राप्त की जा सकती है।

चयनात्मक अनुसंधान।

नमूनाकरण विधि की अवधारणा।

चयनात्मक अवलोकन- यह एक ऐसा गैर-निरंतर अवलोकन है जिसमें अध्ययन की जाने वाली जनसंख्या की इकाइयों का चयन यादृच्छिक रूप से किया जाता है, चयनित भाग पर शोध किया जाता है, जिसके बाद परिणाम पूरी आबादी में वितरित किए जाते हैं।

नमूनाकरण विधि का उपयोग तब किया जाता है जब

1 जब अवलोकन स्वयं देखी गई इकाइयों के नुकसान या विनाश से जुड़ा हो (मसाले के लिए धागा, दहन उत्पाद के लिए बिजली का प्रकाश बल्ब)

2 बड़ी कुल मात्रा

3 उच्च लागत (वित्तीय और श्रम)।

आमतौर पर, कुल आबादी का 5-10% नमूना सर्वेक्षण के अधीन होता है, कम अक्सर 15-25%।

नमूनाकरण का उद्देश्य समग्र माध्य और समग्र अनुपात (पी) की विशेषताओं को निर्धारित करना है। नमूना जनसंख्या के लक्षण - नमूना माध्य और नमूना अंश (डब्ल्यू) नमूना त्रुटि की मात्रा से सामान्य विशेषताओं से भिन्न होता है ( ) इसलिए, नमूना त्रुटि या प्रतिनिधित्व त्रुटि की गणना करना आवश्यक है, जो प्रत्येक प्रकार के नमूने और चयन विधि के लिए संभाव्यता सिद्धांत में विकसित सूत्रों द्वारा निर्धारित किया जाता है।

इकाइयों का चयन करने के निम्नलिखित तरीके हैं:

1 रिटर्न बॉल चयन, जिसे आमतौर पर कहा जाता है resampling.

बार-बार चयन के साथ, प्रत्येक व्यक्तिगत इकाई के नमूने में आने की संभावना स्थिर रहती है, क्योंकि एक इकाई का चयन करने के बाद, इसे फिर से जनसंख्या में वापस कर दिया जाता है और इसे फिर से चुना जा सकता है।

2 अनरिटर्न बॉल स्कीम के अनुसार चयन, कहा जाता है यादृच्छिक नमूना।इस मामले में, प्रत्येक चयनित इकाई को वापस नहीं किया जाता है, और नमूने में अलग-अलग इकाइयों को प्राप्त करने की संभावना हर समय बदलती है (शेष इकाइयों के लिए यह बढ़ जाएगी) (लॉट), यादृच्छिक संख्याओं की तालिकाएं, उदाहरण के लिए, 75 में से 75 780.

नमूना प्रकार।

1 वास्तव में - यादृच्छिक।

यह वह है जिसमें सामान्य जनसंख्या में इकाइयों के पूरे द्रव्यमान से नमूने में इकाइयों का चयन सीधे किया जाता है।

इस मामले में, चयनित इकाइयों की संख्या आमतौर पर नमूने के स्वीकृत अनुपात के आधार पर निर्धारित की जाती है।

एक नमूने के लिए, नमूना जनसंख्या में इकाइयों की संख्या और सामान्य जनसंख्या में इकाइयों की संख्या का अनुपात होता है।

तो, 2000 इकाइयों के माल के एक बैच से 5% नमूने के साथ, नमूना आकार n 100 इकाइयां है। (
), और 20% नमूने के साथ यह 400 इकाइयाँ होंगी।

(
)

एक उचित यादृच्छिक नमूने के लिए एक महत्वपूर्ण शर्त जनसंख्या की प्रत्येक इकाई को नमूने में शामिल होने का समान अवसर दिया जाता है।

यादृच्छिक चयन के साथ, माध्य के लिए सीमांत नमूना त्रुटि के बराबर है

- नमूना विचरण

एन - नमूना आकार

टी आत्मविश्वास कारक है, जो किसी दिए गए प्रायिकता पी के लिए लाप्लास इंटीग्रल फ़ंक्शन के मूल्यों की तालिका से निर्धारित होता है।

गैर-दोहराव वाले नमूने के साथ, सीमांत नमूनाकरण त्रुटि औसत के लिए सूत्र द्वारा निर्धारित की जाती है

जहाँ N हिस्से की सामान्य जनसंख्या का आकार है

कोयले में राख की मात्रा निर्धारित करने के लिए कोयले के 100 नमूनों की यादृच्छिक रूप से जांच की गई। सर्वेक्षण के परिणामस्वरूप, यह पाया गया कि नमूने में कोयले की औसत राख सामग्री 16% है, = 5%। 10 नमूनों में, कोयले की राख सामग्री> 20% थी 0.954 की संभावना के साथ यह निर्धारित करने के लिए कि जमा में कोयले की औसत राख सामग्री और राख सामग्री वाले कोयले का अनुपात> 20% होगा

औसत राख सामग्री

सीमांत नमूनाकरण त्रुटि निर्धारित करें


2*0.5=1%

पी=0.954 टी=2 . पर

राख सामग्री के साथ कोयले का हिस्सा> 20%

नमूना हिस्सा निर्धारित किया जाता है

जहां एम उन इकाइयों का अनुपात है जिनमें एक विशेषता है

शेयर के लिए नमूना त्रुटि

0.954 की संभावना के साथ, यह तर्क दिया जा सकता है कि जमा में 20% से अधिक की राख सामग्री वाले कोयले का अनुपात भीतर होगा

पी= 10%+(-)6% या

यांत्रिक नमूनाकरण।

यह वास्तव में एक तरह का है - यादृच्छिक। इस मामले में, पूरी आबादी को n बराबर भागों में विभाजित किया जाता है, और फिर प्रत्येक भाग से एक इकाई का चयन किया जाता है।

जनसंख्या की सभी इकाइयों को एक निश्चित क्रम में व्यवस्थित किया जाना चाहिए। साथ ही, अध्ययन के तहत संकेतक के संबंध में, सामान्य जनसंख्या की इकाइयों को एक महत्वपूर्ण, माध्यमिक या तटस्थ विशेषता के अनुसार आदेश दिया जा सकता है। इस मामले में, प्रत्येक समूह के बीच में जो इकाई है, उसे प्रत्येक समूह से चुना जाना चाहिए। यह नमूना पूर्वाग्रह से बचा जाता है।

लागू करें: दुकानों में खरीदारों की जांच करते समय, क्लीनिक में आगंतुकों, प्रत्येक 5,4,3, आदि।

उदाहरण यांत्रिक नमूनाकरण

किसी बैंक में अल्पकालिक ऋण के उपयोग की औसत अवधि निर्धारित करने के लिए 5% यांत्रिक नमूना बनाया जाएगा, जिसमें 100 खाते शामिल हैं। सर्वेक्षण के परिणामस्वरूप, यह पाया गया कि अल्पकालिक ऋण का उपयोग करने की औसत अवधि 30 दिनों के साथ है
5 खातों में 9 दिन ऋण अवधि> 60 दिन।

नमूनाकरण त्रुटि

वे। 0.954 की संभावना के साथ यह तर्क दिया जा सकता है कि ऋण का उपयोग करने की अवधि में उतार-चढ़ाव होता है

1 30 दिनों के भीतर + (-) 2 दिन, यानी।

ऋण के 2 शेयर एक अवधि के साथ> 60 दिन।

नमूना हिस्सा होगा

शेयर त्रुटि निर्धारित करें

0.954 की संभावना के साथ, यह तर्क दिया जा सकता है कि > 60 दिनों की परिपक्वता वाले बैंक ऋणों का हिस्सा भीतर होगा

विशिष्ट नमूना।

सामान्य जनसंख्या सजातीय विशिष्ट समूहों में विभाजित है। फिर, प्रत्येक विशिष्ट समूह से, नमूने में इकाइयों का एक व्यक्तिगत चयन एक यादृच्छिक या यांत्रिक नमूने द्वारा किया जाता है।

उदाहरण के लिए: जनसंपर्क tr. योग्यता के आधार पर अलग-अलग समूहों से मिलकर काम करने वाले।

महत्वपूर्ण विशेषता- दूसरों की तुलना में अधिक सटीक परिणाम देता है, tk। नमूने में एक टाइपोलॉजिकल इकाई शामिल है।

नमूना सेट में अवलोकन की इकाइयों का चयन विभिन्न तरीकों से किया जाता है। विशिष्ट समूहों के भीतर आनुपातिक चयन के साथ एक विशिष्ट नमूने पर विचार करें।

चयन में एक विशिष्ट समूह से नमूना आकार विशिष्ट समूहों की संख्या के अनुपात में सूत्र द्वारा निर्धारित किया जाता है

कहाँ पे =V विशिष्ट समूह से नमूने

= विशिष्ट समूह का V।

विशिष्ट समूहों के भीतर एक गैर-दोहराव यादृच्छिक और यांत्रिक चयन पद्धति के लिए नमूना माध्य और अनुपात की सीमांत त्रुटि की गणना सूत्रों द्वारा की जाती है


कहाँ पे = नमूना विचरण

उदाहरण: विशिष्ट नमूना

विवाह में प्रवेश करने वाले पुरुषों की औसत आयु निर्धारित करने के लिए, जिले में विशिष्ट समूहों की संख्या के अनुपात में इकाइयों के चयन के साथ 5% नमूना बनाया गया था।

समूहों के भीतर यांत्रिक चयन का उपयोग किया गया था

0.954 की प्रायिकता के साथ, उन सीमाओं का निर्धारण करें जिनके भीतर विवाहित पुरुषों की औसत आयु और पुनर्विवाह करने वाले पुरुषों का अनुपात होगा।

नमूने में पुरुषों के लिए विवाह की औसत आयु

सीमांत नमूना त्रुटि

0.954 की संभावना के साथ यह तर्क दिया जा सकता है कि विवाह में प्रवेश करने वाले पुरुषों की औसत आयु के भीतर होगी

पुरुषों के लिए दूसरी शादी में प्रवेश करने के भीतर हो

नमूना हिस्सा निर्धारित किया जाता है

वैकल्पिक विशेषता का नमूना विचरण है

0.954 की संभावना के साथ यह तर्क दिया जा सकता है कि दूसरी बार शादी करने वालों का अनुपात भीतर है

सीरियल नमूनाकरण।

सीरियल सैंपलिंग के साथ, जनसंख्या को समान आकार-श्रृंखला के समूहों में विभाजित किया जाता है। नमूना जनसंख्या चयनित श्रृंखला है। श्रृंखला के भीतर, श्रृंखला में आने वाली इकाइयों का निरंतर अवलोकन किया जाता है।

दोहराव वाले चयन के साथ और सूत्र द्वारा निर्धारित

कहाँ पे
- चौराहा विचरण

कहाँ पे
श्रृंखला का नमूना माध्य

धारावाहिक नमूने का नमूना माध्य

आर- सामान्य जनसंख्या की श्रृंखला की संख्या

आर - चयनित श्रृंखला की संख्या

उदाहरण: 10 ब्रिगेड की कार्यशाला में, उनकी श्रम उत्पादकता का अध्ययन करने के लिए, 20% सीरियल नमूना किया जाएगा, जिसमें 2 ब्रिगेड शामिल थे। सर्वेक्षण के परिणामस्वरूप, यह पाया गया कि

0.997 की संभावना के साथ उन सीमाओं को निर्धारित करने के लिए जिसके भीतर दुकान के श्रमिकों का औसत उत्पादन होगा।

एक सीरियल नमूने का नमूना माध्य सूत्र द्वारा निर्धारित किया जाता है

0.997 की संभावना के साथ यह तर्क दिया जा सकता है कि दुकान के कर्मचारियों का औसत उत्पादन भीतर है

कार्यशाला के तैयार उत्पाद गोदाम में, प्रत्येक बॉक्स में भागों के 200 बक्से, 40 टुकड़े हैं। तैयार उत्पादों की गुणवत्ता की जांच के लिए 10% सीरियल सैंपलिंग की जाएगी। नमूने के परिणामस्वरूप, यह पाया गया कि दोषपूर्ण भागों के लिए 15% है। सीरियल नमूना विचरण 0.0049 है।

0.997 की प्रायिकता के साथ, उन सीमाओं का निर्धारण करें जिनमें बक्सों के एक बैच में दोषपूर्ण उत्पादों का अनुपात है

दोषपूर्ण भागों का अनुपात होगा

सूत्र द्वारा हिस्से के लिए सीमांत नमूनाकरण त्रुटि निर्धारित करें

0.997 की संभावना के साथ यह तर्क दिया जा सकता है कि दोषपूर्ण भागों का अनुपात

पार्टी के भीतर है

नमूना अवलोकन को डिजाइन करने के अभ्यास में, नमूने के आकार को खोजने की आवश्यकता होती है, जो सामान्य विशेषताओं की गणना में एक निश्चित सटीकता सुनिश्चित करने के लिए आवश्यक है - औसत और अनुपात।

सीमांत नमूनाकरण त्रुटि, इसकी घटना की संभावना, और विशेषता की भिन्नता पहले से ज्ञात है।

यादृच्छिक के साथ पुन: चयननमूना आकार सूत्र द्वारा निर्धारित किया जाता है

यादृच्छिक गैर-दोहराव और यांत्रिक चयन के साथ, नमूना आकार

एक विशिष्ट नमूने के लिए

सीरियल सैंपलिंग के लिए

उदाहरण के लिए, जिले में 2000 परिवार रहते हैं।

औसत परिवार के आकार का पता लगाने के लिए यादृच्छिक गैर-दोहराव चयन की विधि द्वारा उनका एक नमूना सर्वेक्षण करने की योजना बनाई गई है।

आवश्यक नमूना आकार निर्धारित करें, बशर्ते कि 0.954 की संभावना के साथ नमूना त्रुटि 3 लोगों के मानक विचलन के साथ 1 व्यक्ति से अधिक न हो।

शहर में 10 हजार लोग रहते हैं। परिवार। यांत्रिक नमूने का उपयोग करते हुए, तीन या अधिक बच्चों वाले परिवारों के अनुपात को निर्धारित करने का प्रस्ताव है। यदि विचरण पिछले सर्वेक्षणों से 0.02 के रूप में जाना जाता है, तो प्रायिकता P=0.954 के साथ नमूना त्रुटि 0.02 से कम होने के लिए नमूना आकार क्या होना चाहिए?

योजना:

1. गणितीय सांख्यिकी की समस्याएं।

2. नमूना प्रकार।

3. चयन के तरीके।

4. नमूने का सांख्यिकीय वितरण।

5. अनुभवजन्य वितरण समारोह।

6. बहुभुज और हिस्टोग्राम।

7. विविधता श्रृंखला की संख्यात्मक विशेषताएं।

8. वितरण मापदंडों के सांख्यिकीय अनुमान।

9. वितरण मापदंडों के अंतराल अनुमान।

1. गणितीय आँकड़ों के कार्य और तरीके

गणित के आँकड़े वैज्ञानिक और व्यावहारिक उद्देश्यों के लिए सांख्यिकीय अवलोकन डेटा के परिणामों को एकत्र करने, विश्लेषण करने और संसाधित करने के तरीकों के लिए समर्पित गणित की एक शाखा है।

कुछ गुणात्मक या मात्रात्मक विशेषता के संबंध में सजातीय वस्तुओं के एक समूह का अध्ययन करने की आवश्यकता है जो इन वस्तुओं की विशेषता है। उदाहरण के लिए, यदि भागों का एक बैच है, तो भाग का मानक गुणात्मक संकेत के रूप में काम कर सकता है, और भाग का नियंत्रित आकार मात्रात्मक संकेत के रूप में काम कर सकता है।

कभी-कभी एक सतत अध्ययन किया जाता है, अर्थात्। वांछित विशेषता के संबंध में प्रत्येक वस्तु की जांच करें। व्यवहार में, एक व्यापक सर्वेक्षण का उपयोग शायद ही कभी किया जाता है। उदाहरण के लिए, यदि जनसंख्या में बहुत बड़ी संख्या में वस्तुएं हैं, तो निरंतर सर्वेक्षण करना शारीरिक रूप से असंभव है। यदि वस्तु का सर्वेक्षण उसके विनाश से जुड़ा है या बड़ी सामग्री लागत की आवश्यकता है, तो पूर्ण सर्वेक्षण करने का कोई मतलब नहीं है। ऐसे मामलों में, सीमित संख्या में वस्तुओं (नमूना सेट) को पूरी आबादी से यादृच्छिक रूप से चुना जाता है और उनके अध्ययन के अधीन किया जाता है।

गणितीय आँकड़ों का मुख्य कार्य लक्ष्य के आधार पर नमूना डेटा के आधार पर पूरी आबादी का अध्ययन करना है, अर्थात। जनसंख्या के संभाव्य गुणों का अध्ययन: वितरण का नियम, संख्यात्मक विशेषताएं, आदि। अनिश्चितता की स्थिति में प्रबंधकीय निर्णय लेने के लिए।

2. नमूना प्रकार

जनसंख्या वस्तुओं का समूह है जिससे नमूना बनाया जाता है।

नमूना जनसंख्या (नमूना) बेतरतीब ढंग से चयनित वस्तुओं का एक संग्रह है।

जनसंख्या का आकार इस संग्रह में वस्तुओं की संख्या है। सामान्य जनसंख्या का आयतन निरूपित किया जाता हैएन, चयनात्मक - एन।

उदाहरण:

यदि 1000 भागों में से 100 भागों का चयन परीक्षा के लिए किया जाता है, तो सामान्य जनसंख्या का आयतनएन = 1000, और नमूना आकारएन = 100।

नमूनाकरण दो तरीकों से किया जा सकता है: वस्तु का चयन करने और उस पर अवलोकन करने के बाद, इसे वापस किया जा सकता है या सामान्य आबादी को नहीं लौटाया जा सकता है। उस। नमूनों को दोहराया और गैर-दोहराया में विभाजित किया गया है।

दोहराया गयाबुलाया नमूना, जिस पर चयनित वस्तु (अगले एक को चुनने से पहले) सामान्य आबादी को वापस कर दी जाती है।

न दोहराईबुलाया नमूना, जिस पर चयनित वस्तु सामान्य जनसंख्या को वापस नहीं की जाती है।

व्यवहार में, गैर-दोहराव यादृच्छिक चयन आमतौर पर उपयोग किया जाता है।

सामान्य जनसंख्या में रुचि की विशेषता का न्याय करने में नमूने के डेटा को पर्याप्त रूप से आश्वस्त करने के लिए, यह आवश्यक है कि नमूने की वस्तुएं इसे सही ढंग से दर्शाती हैं। नमूना को जनसंख्या के अनुपात का सही ढंग से प्रतिनिधित्व करना चाहिए। नमूना होना चाहिए प्रतिनिधि (प्रतिनिधि)।

बड़ी संख्या के कानून के आधार पर, यह तर्क दिया जा सकता है कि यदि नमूना यादृच्छिक रूप से किया जाता है तो वह प्रतिनिधि होगा।

यदि सामान्य जनसंख्या का आकार काफी बड़ा है, और नमूना इस जनसंख्या का केवल एक छोटा सा हिस्सा है, तो दोहराए गए और गैर-दोहराए गए नमूनों के बीच का अंतर मिट जाता है; सीमित मामले में, जब एक अनंत सामान्य आबादी पर विचार किया जाता है, और नमूने का एक सीमित आकार होता है, तो यह अंतर गायब हो जाता है।

उदाहरण:

अमेरिकन जर्नल लिटरेरी रिव्यू में, सांख्यिकीय विधियों का उपयोग करते हुए, 1936 में आगामी अमेरिकी राष्ट्रपति चुनाव के परिणाम के बारे में पूर्वानुमानों का एक अध्ययन किया गया था। इस पद के लिए आवेदक एफ.डी. रूजवेल्ट और ए एम लैंडन। अध्ययन किए गए अमेरिकियों की सामान्य आबादी के लिए टेलीफोन ग्राहकों की संदर्भ पुस्तकों को एक स्रोत के रूप में लिया गया था। इनमें से 40 लाख पते बेतरतीब ढंग से चुने गए थे, जिन पर पत्रिका के संपादकों ने पोस्टकार्ड भेजकर उनसे राष्ट्रपति पद के उम्मीदवारों के प्रति अपना दृष्टिकोण व्यक्त करने के लिए कहा। सर्वेक्षण के परिणामों को संसाधित करने के बाद, पत्रिका ने एक समाजशास्त्रीय पूर्वानुमान प्रकाशित किया कि लैंडन आगामी चुनाव बड़े अंतर से जीतेंगे। और ... मैं गलत था: रूजवेल्ट जीता।
इस उदाहरण को गैर-प्रतिनिधि नमूने के उदाहरण के रूप में देखा जा सकता है। तथ्य यह है कि संयुक्त राज्य अमेरिका में बीसवीं शताब्दी के पूर्वार्द्ध में, आबादी के केवल धनी हिस्से, जिन्होंने लैंडन के विचारों का समर्थन किया था, के पास टेलीफोन थे।

3. चयन के तरीके

व्यवहार में, चयन के विभिन्न तरीकों का उपयोग किया जाता है, जिन्हें 2 प्रकारों में विभाजित किया जा सकता है:

1. चयन के लिए जनसंख्या को भागों में विभाजित करने की आवश्यकता नहीं होती है (a) सिंपल रैंडम नो रिपीट; बी) सरल यादृच्छिक दोहराव).

2. चयन, जिसमें सामान्य जनसंख्या को भागों में विभाजित किया जाता है। (ए) विशिष्ट चयन; बी) यांत्रिक चयन; में) धारावाहिक चयन).

सरल यादृच्छिक इसे बुलाओ चयन, जिसमें वस्तुओं को एक-एक करके पूरी सामान्य आबादी (यादृच्छिक रूप से) से निकाला जाता है।

ठेठबुलाया चयन, जिसमें वस्तुओं का चयन पूरी सामान्य आबादी से नहीं, बल्कि इसके प्रत्येक "विशिष्ट" भागों से किया जाता है। उदाहरण के लिए, यदि एक भाग कई मशीनों पर निर्मित होता है, तो चयन सभी मशीनों द्वारा उत्पादित भागों के पूरे सेट से नहीं, बल्कि प्रत्येक मशीन के उत्पादों से अलग-अलग किया जाता है। इस तरह के चयन का उपयोग तब किया जाता है जब सामान्य आबादी के विभिन्न "विशिष्ट" भागों में जांच की जा रही विशेषता में उल्लेखनीय रूप से उतार-चढ़ाव होता है।

यांत्रिकबुलाया चयन, जिसमें सामान्य जनसंख्या को "यांत्रिक रूप से" उतने ही समूहों में विभाजित किया जाता है, जितने नमूने में शामिल की जाने वाली वस्तुएं हैं, और प्रत्येक समूह से एक वस्तु का चयन किया जाता है। उदाहरण के लिए, यदि आपको मशीन द्वारा बनाए गए 20% पुर्जों का चयन करने की आवश्यकता है, तो प्रत्येक 5वें भाग का चयन किया जाता है; यदि 5% भागों का चयन करना आवश्यक है - प्रत्येक 20 वें, आदि। कभी-कभी ऐसा चयन एक प्रतिनिधि नमूना सुनिश्चित नहीं कर सकता है (यदि प्रत्येक 20 वें मोड़ रोलर का चयन किया जाता है, और कटर को चयन के तुरंत बाद बदल दिया जाता है, तो सभी रोलर्स को कुंद कटर से बदल दिया जाएगा)।

धारावाहिकबुलाया चयन, जिसमें वस्तुओं का चयन सामान्य आबादी से एक बार में नहीं, बल्कि "श्रृंखला" में किया जाता है, जो निरंतर सर्वेक्षण के अधीन होते हैं। उदाहरण के लिए, यदि उत्पादों का निर्माण स्वचालित मशीनों के एक बड़े समूह द्वारा किया जाता है, तो केवल कुछ मशीनों के उत्पादों की निरंतर जांच की जाती है।

व्यवहार में, संयुक्त चयन का अक्सर उपयोग किया जाता है, जिसमें उपरोक्त विधियों को संयुक्त किया जाता है।

4. नमूने का सांख्यिकीय वितरण

मान लीजिए कि सामान्य जनसंख्या से एक नमूना लिया जाता है, और मान x 1-एक बार देखा गया, x 2 -n 2 बार, ... x k - n k बार। एन = n 1 +n 2 +...+n k नमूना आकार है। देखे गए मानबुलाया विकल्प, और अनुक्रम आरोही क्रम में लिखा गया एक प्रकार है - परिवर्तनशील श्रृंखला. अवलोकनों की संख्याबुलाया आवृत्तियों (पूर्ण आवृत्तियों), और नमूना आकार के साथ उनका संबंध- सापेक्ष आवृत्तियोंया सांख्यिकीय संभावनाएं।

यदि विकल्पों की संख्या बड़ी है या नमूना निरंतर सामान्य जनसंख्या से बना है, तो भिन्नता श्रृंखला व्यक्तिगत बिंदु मानों से नहीं, बल्कि सामान्य जनसंख्या के मूल्यों के अंतराल द्वारा संकलित की जाती है। ऐसी श्रंखला कहलाती है मध्यान्तर।अंतराल की लंबाई बराबर होनी चाहिए।

नमूने का सांख्यिकीय वितरण विकल्पों की सूची और उनकी संगत आवृत्तियों या सापेक्ष आवृत्तियों को कहा जाता है।

सांख्यिकीय वितरण को अंतरालों के अनुक्रम और उनकी संगत आवृत्तियों के रूप में भी निर्दिष्ट किया जा सकता है (इस अंतराल में आने वाली आवृत्तियों का योग)

आवृत्तियों की बिंदु भिन्नता श्रृंखला को एक तालिका द्वारा दर्शाया जा सकता है:

एक्स मैं
एक्स 1
x2

एक्स के
मैं
एन 1
एन 2

एनके

इसी तरह, आप सापेक्ष आवृत्तियों की एक बिंदु परिवर्तनशील श्रृंखला का प्रतिनिधित्व कर सकते हैं।

और:

उदाहरण:

कुछ पाठ X में अक्षरों की संख्या 1000 के बराबर निकली। पहला अक्षर "i", दूसरा - अक्षर "i", तीसरा - अक्षर "a", चौथा - "u" था। फिर "ओ", "ई", "वाई", "ई", "एस" अक्षर आए।

आइए उन स्थानों को लिखें जो वे क्रमशः वर्णमाला में रखते हैं, हमारे पास हैं: 33, 10, 1, 32, 16, 6, 21, 31, 29।

इन संख्याओं को आरोही क्रम में क्रमित करने के बाद, हमें भिन्नता श्रृंखला मिलती है: 1, 6, 10, 16, 21, 29, 31, 32, 33।

पाठ में अक्षरों की उपस्थिति की आवृत्तियाँ: "ए" - 75, "ई" -87, "आई" - 75, "ओ" - 110, "वाई" - 25, "एस" - 8, "ई" - 3, "यू "- 7," मैं "- 22।

हम आवृत्तियों की एक बिंदु परिवर्तनशील श्रृंखला बनाते हैं:

उदाहरण:

वॉल्यूम नमूनाकरण आवृत्ति वितरण निर्दिष्टएन = 20।

सापेक्ष आवृत्तियों की एक बिंदु भिन्नता श्रृंखला बनाएं।

एक्स मैं

2

6

12

मैं

3

10

7

फेसला:

सापेक्ष आवृत्तियों का पता लगाएं:


एक्स मैं

2

6

12

मैं

0,15

0,5

0,35

अंतराल वितरण का निर्माण करते समय, अंतराल की संख्या या प्रत्येक अंतराल के आकार को चुनने के नियम होते हैं। यहां मानदंड इष्टतम अनुपात है: अंतराल की संख्या में वृद्धि के साथ, प्रतिनिधित्व में सुधार होता है, लेकिन डेटा की मात्रा और उन्हें संसाधित करने का समय बढ़ जाता है। अंतर x अधिकतम - x मिनट सबसे बड़े और सबसे छोटे मानों के बीच के वेरियंट को कहा जाता है बड़े पैमाने परनमूने।

अंतरालों की संख्या गिनने के लिएक आमतौर पर स्टर्गेस के अनुभवजन्य सूत्र को लागू करते हैं (निकटतम सुविधाजनक पूर्णांक के लिए गोल करना):के = 1 + 3.322 लॉग एन।

तदनुसार, प्रत्येक अंतराल का मानएच सूत्र का उपयोग करके गणना की जा सकती है:

5. अनुभवजन्य वितरण समारोह

सामान्य आबादी से कुछ नमूने पर विचार करें। मान लीजिए कि मात्रात्मक विशेषता X की आवृत्तियों का सांख्यिकीय वितरण ज्ञात है। आइए हम संकेतन का परिचय दें: n xप्रेक्षणों की संख्या है जिसमें x से कम विशेषता मान देखा गया था;एन अवलोकनों की कुल संख्या (नमूना आकार) है। सापेक्ष घटना आवृत्ति X<х равна एन एक्स / एन। यदि x बदलता है, तो आपेक्षिक आवृत्ति भी बदल जाती है, अर्थात सापेक्ष आवृत्तिएन एक्स / एनx का एक फलन है। क्योंकि यह अनुभवजन्य रूप से पाया जाता है, इसे अनुभवजन्य कहा जाता है।

अनुभवजन्य वितरण समारोह (नमूना वितरण समारोह) फ़ंक्शन को कॉल करें, जो प्रत्येक x के लिए घटना X की सापेक्ष आवृत्ति निर्धारित करता है<х.


x से कम विकल्पों की संख्या कहाँ है,

एन - नमूना आकार।

नमूने के अनुभवजन्य वितरण फलन के विपरीत, जनसंख्या का वितरण फलन F(x) कहलाता है सैद्धांतिक वितरण समारोह.

अनुभवजन्य और सैद्धांतिक वितरण कार्यों के बीच का अंतर यह है कि सैद्धांतिक कार्य एफ (एक्स) एक घटना एक्स की संभावना निर्धारित करता है एफ * (एक्स)इस घटना की प्रायिकता F (x) की प्रायिकता की ओर प्रवृत्त होता है। यानी बड़ी संख्या के लिए एफ * (एक्स)और F(x) एक दूसरे से बहुत कम भिन्न हैं।

उस। सामान्य जनसंख्या के सैद्धांतिक (अभिन्न) वितरण फ़ंक्शन के अनुमानित प्रतिनिधित्व के लिए नमूने के अनुभवजन्य वितरण फ़ंक्शन का उपयोग करना उचित है।

एफ * (एक्स)सभी गुण हैएफ (एक्स)।

1. मूल्य एफ * (एक्स)अंतराल से संबंधित हैं।

2. F*(x) एक गैर-घटता फलन है।

3. यदि सबसे छोटा संस्करण है, तो F*(x) = 0, x . पर < x1; यदि x k सबसे बड़ा प्रकार है, तो F*(x) = 1, x > x k के लिए।

वे। एफ * (एक्स)एफ (एक्स) का अनुमान लगाने के लिए कार्य करता है।

यदि नमूना एक परिवर्तनशील श्रृंखला द्वारा दिया गया है, तो अनुभवजन्य कार्य का रूप है:

अनुभवजन्य फलन के ग्राफ को संचयी कहा जाता है।

उदाहरण:

दिए गए नमूना वितरण पर एक अनुभवजन्य कार्य को प्लॉट करें।


फेसला:

नमूना आकार n = 12 + 18 +30 = 60। सबसे छोटा विकल्प 2 है, अर्थात। x . पर < 2. घटना X<6, (x 1 = 2) наблюдалось 12 раз, т.е. एफ*(एक्स)=12/60=0.2दो पर < एक्स < 6. घटना X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < एक्स < 10. क्योंकि x=10 सबसे बड़ा विकल्प है, तो एफ * (एक्स) = 1एक्स> 10 पर। वांछित अनुभवजन्य कार्य का रूप है:

संचयी:


क्यूम्युलेट ग्राफिक रूप से प्रस्तुत जानकारी को समझना संभव बनाता है, उदाहरण के लिए, सवालों के जवाब देने के लिए: "उन टिप्पणियों की संख्या निर्धारित करें जिनमें फीचर का मूल्य 6 से कम या 6 से कम नहीं था। एफ * (6) = 0.2 » तब प्रेक्षणों की संख्या जिनमें प्रेक्षित विशेषता का मान 6 से कम था, 0.2* हैएन \u003d 0.2 * 60 \u003d 12. प्रेक्षणों की संख्या जिनमें प्रेक्षित विशेषता का मान 6 से कम नहीं था (1-0.2) * n \u003d 0.8 * 60 \u003d 48।

यदि अंतराल भिन्नता श्रृंखला दी जाती है, तो अनुभवजन्य वितरण फ़ंक्शन को संकलित करने के लिए, अंतराल के मध्य बिंदु पाए जाते हैं और बिंदु भिन्नता श्रृंखला के समान अनुभवजन्य वितरण फ़ंक्शन प्राप्त किया जाता है।

6. बहुभुज और हिस्टोग्राम

स्पष्टता के लिए, सांख्यिकीय वितरण के विभिन्न ग्राफ बनाए गए हैं: बहुपद और हिस्टोग्राम

आवृत्ति बहुभुज-यह एक टूटी हुई रेखा है, जिसके खंड बिंदुओं को जोड़ते हैं ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), जहां विकल्प हैं, उनकी संगत आवृत्तियां हैं।

सापेक्ष आवृत्तियों का बहुभुज -यह एक टूटी हुई रेखा है जिसके खंड बिंदुओं ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ) को जोड़ते हैं, जहां x i भिन्न हैं, w i उनके संगत आवृत्तियां हैं।

उदाहरण:

दिए गए नमूना वितरण पर आपेक्षिक बारंबारता बहुपद को आलेखित करें:

फेसला:

एक निरंतर विशेषता के मामले में, एक हिस्टोग्राम बनाने की सलाह दी जाती है, जिसके लिए अंतराल, जिसमें सुविधा के सभी देखे गए मान शामिल होते हैं, को लंबाई के कई आंशिक अंतरालों में विभाजित किया जाता है और प्रत्येक आंशिक अंतराल के लिए n i पाया जाता है। - i-वें अंतराल में आने वाली भिन्न आवृत्तियों का योग। (उदाहरण के लिए, किसी व्यक्ति की ऊंचाई या वजन को मापते समय, हम एक निरंतर संकेत के साथ काम कर रहे हैं)।

आवृत्ति हिस्टोग्राम-यह एक चरणबद्ध आकृति है, जिसमें आयताकार होते हैं, जिनमें से आधार लंबाई के आंशिक अंतराल होते हैं, और ऊंचाई अनुपात (आवृत्ति घनत्व) के बराबर होती है।

वर्ग i-th आंशिक आयत i-th अंतराल के प्रकार की आवृत्तियों के योग के बराबर है, अर्थात। आवृत्ति हिस्टोग्राम क्षेत्र सभी आवृत्तियों के योग के बराबर है, अर्थात। नमूने का आकार।

उदाहरण:

विद्युत नेटवर्क में वोल्टेज में परिवर्तन (वोल्ट में) के परिणाम दिए गए हैं। एक भिन्नता श्रृंखला बनाएं, एक बहुभुज और एक आवृत्ति हिस्टोग्राम बनाएं यदि वोल्टेज मान निम्नानुसार हैं: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220।

फेसला:

आइए विविधताओं की एक श्रृंखला बनाएं। हमारे पास n = 20, x मिनट = 212, x अधिकतम = 232 है।

आइए अंतरालों की संख्या की गणना करने के लिए स्टर्गेस सूत्र का उपयोग करें।

आवृत्तियों की अंतराल भिन्नता श्रृंखला का रूप है:


आवृत्ति घनत्व

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

आइए आवृत्तियों का हिस्टोग्राम बनाएं:

आइए पहले अंतराल के मध्य बिंदुओं को ढूंढकर आवृत्तियों के बहुभुज का निर्माण करें:


सापेक्ष आवृत्तियों का हिस्टोग्रामआयतों से बनी एक चरणबद्ध आकृति कहलाती है जिसका आधार लंबाई h का आंशिक अंतराल है, और ऊँचाई w के अनुपात के बराबर है मैं/ एच (सापेक्ष आवृत्ति घनत्व)।

वर्ग i-वें आंशिक आयत, i-वें अंतराल में आने वाले वैरिएंट की सापेक्ष आवृत्ति के बराबर है। वे। सापेक्ष आवृत्तियों के हिस्टोग्राम का क्षेत्रफल सभी सापेक्ष आवृत्तियों के योग के बराबर होता है, अर्थात। इकाई।

7. विविधता श्रृंखला की संख्यात्मक विशेषताएं

सामान्य और नमूना आबादी की मुख्य विशेषताओं पर विचार करें।

सामान्य माध्यमिकसामान्य जनसंख्या की विशेषता के मूल्यों का अंकगणितीय माध्य कहलाता है।

विभिन्न मानों के लिए x 1 , x 2 , x 3 , …, x n । मात्रा N की सामान्य जनसंख्या का संकेत हमारे पास है:

यदि विशेषता मानों में संगत आवृत्तियाँ हैं N 1 +N 2 +…+N k =N , तो


नमूना माध्यनमूना जनसंख्या की विशेषता के मूल्यों का अंकगणितीय माध्य कहा जाता है।

यदि विशेषता मानों में संगत आवृत्तियाँ हैं n 1 +n 2 +…+n k = n, तो


उदाहरण:

नमूने के लिए नमूना माध्य की गणना करें: x 1 = 51.12; x 2 \u003d 51.07; x 3 \u003d 52.95; x 4 \u003d 52.93; x 5 \u003d 51.1; x 6 \u003d 52.98; एक्स 7 \u003d 52.29; एक्स 8 \u003d 51.23; एक्स 9 \u003d 51.07; x10 = 51.04।

फेसला:

सामान्य विचरणसामान्य औसत से सामान्य जनसंख्या की विशेषता X के मानों के वर्ग विचलन का अंकगणितीय माध्य कहलाता है।

विभिन्न मानों के लिए x 1 , x 2 , x 3 , …, x N आयतन N की जनसंख्या के चिह्न के लिए हमारे पास है:

यदि विशेषता मानों में संगत आवृत्तियाँ हैं N 1 +N 2 +…+N k =N , तो

सामान्य मानक विचलन (मानक)सामान्य प्रसरण का वर्गमूल कहा जाता है

नमूना विचरणमाध्य मान से विशेषता के प्रेक्षित मानों के वर्ग विचलन का अंकगणितीय माध्य कहलाता है।

विभिन्न मूल्यों के लिए x 1 , x 2 , x 3 , ..., x n मात्रा n के नमूना जनसंख्या के संकेत के लिए हमारे पास है:


यदि विशेषता मानों में संगत आवृत्तियाँ हैं n 1 +n 2 +…+n k = n, तो


नमूना मानक विचलन (मानक)प्रतिदर्श प्रसरण का वर्गमूल कहलाता है।


उदाहरण:

नमूना सेट वितरण तालिका द्वारा दिया गया है। नमूना विचरण ज्ञात कीजिए।


फेसला:

प्रमेय: विचरण विशेषता मानों के वर्गों के माध्य और कुल माध्य के वर्ग के बीच के अंतर के बराबर है।

उदाहरण:

इस बंटन के लिए प्रसरण ज्ञात कीजिए।



फेसला:

8. वितरण मापदंडों के सांख्यिकीय अनुमान

मान लीजिए कि सामान्य जनसंख्या का अध्ययन कुछ प्रतिदर्शों द्वारा किया जाता है। इस मामले में, अज्ञात पैरामीटर क्यू का केवल अनुमानित मूल्य प्राप्त किया जा सकता है, जो इसके अनुमान के रूप में कार्य करता है। यह स्पष्ट है कि अनुमान एक नमूने से दूसरे नमूने में भिन्न हो सकते हैं।

सांख्यिकीय मूल्यांकनक्यू*सैद्धांतिक वितरण के अज्ञात पैरामीटर को फ़ंक्शन f कहा जाता है, जो नमूने के देखे गए मूल्यों पर निर्भर करता है। एक नमूने से अज्ञात मापदंडों के सांख्यिकीय आकलन का कार्य सांख्यिकीय अवलोकनों के उपलब्ध आंकड़ों से ऐसे फ़ंक्शन का निर्माण करना है, जो शोधकर्ता को वास्तविक, अज्ञात, इन मापदंडों के मूल्यों का सबसे सटीक अनुमानित मूल्य देगा।

सांख्यिकीय अनुमानों को प्रदान किए जाने के तरीके (संख्या या अंतराल) के आधार पर, बिंदु और अंतराल में विभाजित किया जाता है।

एक बिंदु अनुमान को सांख्यिकीय अनुमान कहा जाता है।पैरामीटर Q *=f (x 1 , x 2 , ..., x n) के एक मान द्वारा निर्धारित सैद्धांतिक वितरण का पैरामीटर Q, जहांएक्स 1 , एक्स 2 , ..., xn- एक निश्चित नमूने की मात्रात्मक विशेषता X पर अनुभवजन्य टिप्पणियों के परिणाम।

विभिन्न नमूनों से प्राप्त इस तरह के पैरामीटर अनुमान अक्सर एक दूसरे से भिन्न होते हैं। निरपेक्ष अंतर /Q *-Q / कहलाता है नमूना त्रुटि (अनुमान)।

अनुमानित मापदंडों के बारे में विश्वसनीय परिणाम देने के लिए सांख्यिकीय अनुमानों के लिए, यह आवश्यक है कि वे निष्पक्ष, कुशल और सुसंगत हों।

बिंदु अनुमान, जिसकी गणितीय अपेक्षा अनुमानित पैरामीटर के बराबर (बराबर नहीं) है, कहलाती है अपरिवर्तित (स्थानांतरित). एम (क्यू *) = क्यू।

अंतर एम ( Q*)-Q को कहा जाता है पूर्वाग्रह या व्यवस्थित त्रुटि. निष्पक्ष अनुमानों के लिए, व्यवस्थित त्रुटि 0 है।

कुशल मूल्यांकनक्यू *, जो, किसी दिए गए नमूना आकार n के लिए, सबसे छोटा संभव विचरण है: Dमिनट (एन = स्थिरांक)। अन्य निष्पक्ष और सुसंगत अनुमानकों की तुलना में प्रभावी अनुमानक का प्रसार सबसे छोटा होता है।

धनवानऐसा सांख्यिकीय कहा जाता है मूल्यांकन क्यू *, जो n . के लिएअनुमानित पैरामीटर की संभावना में जाता हैक्यू , अर्थात। नमूना आकार में वृद्धि के साथएन अनुमान पैरामीटर के सही मूल्य की संभावना में जाता हैक्यू।

संगति की आवश्यकता बड़ी संख्या के नियम के अनुरूप है: अध्ययन के तहत वस्तु के बारे में जितनी अधिक प्रारंभिक जानकारी होगी, परिणाम उतना ही सटीक होगा। यदि नमूना आकार छोटा है, तो पैरामीटर के बिंदु अनुमान से गंभीर त्रुटियां हो सकती हैं।

कोई भी नमूना (मात्राएन)एक आदेशित सेट के रूप में सोचा जा सकता हैएक्स 1 , एक्स 2 , ..., xnस्वतंत्र समान रूप से वितरित यादृच्छिक चर।

विभिन्न मात्रा के नमूनों के लिए नमूना का मतलब हैएन एक ही आबादी से अलग होगा। अर्थात्, प्रतिदर्श माध्य को एक यादृच्छिक चर माना जा सकता है, जिसका अर्थ है कि हम प्रतिदर्श माध्य के वितरण और इसकी संख्यात्मक विशेषताओं के बारे में बात कर सकते हैं।

नमूना माध्य सांख्यिकीय अनुमानों पर लगाई गई सभी आवश्यकताओं को पूरा करता है, अर्थात। जनसंख्या माध्य का एक निष्पक्ष, कुशल और सुसंगत अनुमान देता है।

यह सिद्ध किया जा सकता है कि. इस प्रकार, नमूना विचरण सामान्य विचरण का एक पक्षपाती अनुमान है, जो इसे कम करके आंका गया मान देता है। यानी छोटे सैंपल साइज के साथ यह सिस्टेमैटिक एरर देगा। एक निष्पक्ष, सुसंगत अनुमान के लिए, यह मात्रा लेने के लिए पर्याप्त है, जिसे सही विचरण कहा जाता है। अर्थात।

व्यवहार में, सामान्य विचरण का अनुमान लगाने के लिए, सही विचरण का उपयोग तब किया जाता है जबएन < 30. अन्य मामलों में ( n>30) से विचलन शायद ही ध्यान देने योग्य। इसलिए, बड़े मूल्यों के लिएएन पूर्वाग्रह त्रुटि की उपेक्षा की जा सकती है।

कोई यह भी सिद्ध कर सकता है कि आपेक्षिक आवृत्तिn i / n एक निष्पक्ष और सुसंगत संभाव्यता अनुमान हैपी (एक्स = एक्स आई ) अनुभवजन्य वितरण समारोहएफ * (एक्स ) सैद्धांतिक वितरण समारोह का एक निष्पक्ष और सुसंगत अनुमान हैएफ(एक्स)=पी(एक्स< x ).

उदाहरण:

नमूना तालिका से माध्य और विचरण के निष्पक्ष अनुमान खोजें।

एक्स मैं
मैं

फेसला:

नमूना आकार n = 20।

गणितीय अपेक्षा का निष्पक्ष अनुमान नमूना माध्य है।


विचरण के निष्पक्ष अनुमान की गणना करने के लिए, हम पहले नमूना विचरण पाते हैं:

आइए अब निष्पक्ष अनुमान लगाएं:

9. वितरण मापदंडों के अंतराल अनुमान

अंतराल एक सांख्यिकीय अनुमान है जो दो संख्यात्मक मानों द्वारा निर्धारित किया जाता है - अध्ययन के तहत अंतराल के अंत।

संख्या> 0, जहां | क्यू - क्यू*|< , अंतराल अनुमान की सटीकता की विशेषता है।

विश्वस्तबुलाया मध्यान्तर , जो दी गई संभावना के साथअज्ञात पैरामीटर मान को शामिल करता हैक्यू . सभी संभावित पैरामीटर मानों के सेट पर कॉन्फिडेंस इंटरवल को लागू करनाक्यू बुलाया महत्वपूर्ण क्षेत्र. यदि क्रिटिकल क्षेत्र कॉन्फिडेंस इंटरवल के केवल एक तरफ स्थित है, तो कॉन्फिडेंस इंटरवल कहलाता है एकतरफा: वामपंथी, यदि क्रांतिक क्षेत्र केवल बाईं ओर मौजूद है, और दांए हाथ से काम करने वालाजब तक कि दाईं ओर। अन्यथा, विश्वास अंतराल कहा जाता है द्विपक्षीय.

विश्वसनीयता, या आत्मविश्वास का स्तर, क्यू अनुमान (क्यू . का उपयोग करके) *) उस प्रायिकता को नाम दें जिससे निम्नलिखित असमानता पूरी होती है: |क्यू - क्यू*|< .

सबसे अधिक बार, आत्मविश्वास की संभावना पहले से निर्धारित होती है (0.95; 0.99; 0.999) और उस पर एक के करीब होने की आवश्यकता होती है।

संभावनाबुलाया त्रुटि की संभावना, या महत्व का स्तर।

चलो | क्यू - क्यू*|< , तब. इसका मतलब है कि संभावना के साथयह तर्क दिया जा सकता है कि पैरामीटर का सही मूल्यक्यू अंतराल के अंतर्गत आता है. विचलन जितना छोटा होगा, अनुमान जितना सटीक होगा।

कॉन्फिडेंस इंटरवल की सीमाओं (सिरों) को कहा जाता है आत्मविश्वास की सीमाएँ, या महत्वपूर्ण सीमाएँ।

विश्वास अंतराल की सीमाओं के मान पैरामीटर के वितरण कानून पर निर्भर करते हैंक्यू*।

विचलन मूल्यकॉन्फिडेंस इंटरवल की आधी चौड़ाई कहलाती है मूल्यांकन सटीकता।

विश्वास अंतराल के निर्माण के तरीके सबसे पहले अमेरिकी सांख्यिकीविद् वाई. न्यूमैन द्वारा विकसित किए गए थे। अनुमान सटीकता, आत्मविश्वास संभावना और नमूना आकार n आपस में जुड़ा हुआ। इसलिए, दो मात्राओं के विशिष्ट मूल्यों को जानकर, आप हमेशा तीसरे की गणना कर सकते हैं।

यदि मानक विचलन ज्ञात है, तो सामान्य वितरण की गणितीय अपेक्षा का अनुमान लगाने के लिए विश्वास अंतराल का पता लगाना।

सामान्य वितरण के नियम के अधीन, सामान्य जनसंख्या से एक नमूना बनाया जाए। सामान्य मानक विचलन ज्ञात होने दें, लेकिन सैद्धांतिक वितरण की गणितीय अपेक्षा अज्ञात हैए().

निम्नलिखित सूत्र मान्य है:

वे। निर्दिष्ट विचलन मूल्य के अनुसारयह ज्ञात करना संभव है कि अज्ञात सामान्य माध्य किस प्रायिकता के साथ अंतराल से संबंधित है. और इसके विपरीत। यह सूत्र से देखा जा सकता है कि नमूना आकार में वृद्धि और आत्मविश्वास की संभावना के एक निश्चित मूल्य के साथ, मूल्य- घटता है, अर्थात्। अनुमान की सटीकता बढ़ जाती है। विश्वसनीयता में वृद्धि (आत्मविश्वास की संभावना) के साथ, मूल्य-बढ़ता है, अर्थात्। अनुमान की सटीकता कम हो जाती है।

उदाहरण:

परीक्षणों के परिणामस्वरूप, निम्नलिखित मान प्राप्त किए गए -25, 34, -20, 10, 21। यह ज्ञात है कि वे सामान्य वितरण कानून का पालन 2 के मानक विचलन के साथ करते हैं। गणितीय अपेक्षा ए. इसके लिए 90% कॉन्फिडेंस इंटरवल प्लॉट करें।

फेसला:

आइए जानें निष्पक्ष अनुमान

फिर


एक के लिए विश्वास अंतराल का रूप है: 4 - 1.47< ए< 4+ 1,47 или 2,53 < a < 5, 47

यदि मानक विचलन अज्ञात है, तो सामान्य वितरण की गणितीय अपेक्षा का अनुमान लगाने के लिए विश्वास अंतराल का पता लगाना।

बता दें कि सामान्य जनसंख्या सामान्य वितरण के कानून के अधीन है, जहां ए और. विश्वास अंतराल की सटीकता विश्वसनीयता के साथ कवरिंगइस मामले में, पैरामीटर a का सही मान, सूत्र द्वारा परिकलित किया जाता है:

, जहां n नमूना आकार है, , - विद्यार्थी का गुणांक (यह दिए गए मानों से ज्ञात किया जाना चाहिएएन और तालिका से "छात्र वितरण के महत्वपूर्ण बिंदु")।

उदाहरण:

परीक्षणों के परिणामस्वरूप, निम्नलिखित मान प्राप्त किए गए -35, -32, -26, -35, -30, -17। यह ज्ञात है कि वे सामान्य वितरण के नियम का पालन करते हैं। 0.9 के विश्वास स्तर के साथ जनसंख्या माध्य a के लिए विश्वास अंतराल ज्ञात कीजिए।

फेसला:

आइए जानें निष्पक्ष अनुमान.

हमे पता करने दें.

फिर

विश्वास अंतराल रूप लेगा(-29.2 - 5.62; -29.2 + 5.62) या (-34.82; -23.58)।

एक सामान्य वितरण के विचरण और मानक विचलन के लिए विश्वास अंतराल ढूँढना

सामान्य नियम के अनुसार वितरित मूल्यों के कुछ सामान्य सेट से मात्रा का एक यादृच्छिक नमूना लेने देंएन < 30 जिसके लिए नमूना प्रसरणों की गणना की जाती है: पक्षपातीऔर सही एस 2. फिर दी गई विश्वसनीयता के साथ अंतराल अनुमानों को खोजने के लिएसामान्य फैलाव के लिएडीसामान्य मानक विचलननिम्नलिखित सूत्रों का उपयोग किया जाता है।


या,

मूल्यों- महत्वपूर्ण बिंदुओं के मूल्यों की तालिका का उपयोग करके खोजेंपियर्सन वितरण।

असमानता के सभी भागों को चुकता करके इन असमानताओं से भिन्नता के लिए विश्वास अंतराल पाया जाता है।

उदाहरण:

15 बोल्ट की गुणवत्ता की जांच की गई। यह मानते हुए कि उनके निर्माण में त्रुटि सामान्य वितरण कानून और नमूना मानक विचलन के अधीन है5 मिमी के बराबर, विश्वसनीयता के साथ निर्धारित करेंअज्ञात पैरामीटर के लिए विश्वास अंतराल

हम अंतराल की सीमाओं को दोहरी असमानता के रूप में प्रस्तुत करते हैं:

विचरण के लिए दो-तरफा आत्मविश्वास अंतराल के सिरों को संबंधित तालिका का उपयोग करके दिए गए आत्मविश्वास और नमूना आकार के लिए अंकगणितीय संचालन किए बिना निर्धारित किया जा सकता है (स्वतंत्रता और विश्वसनीयता की डिग्री की संख्या के आधार पर भिन्नता के लिए आत्मविश्वास अंतराल की सीमाएं ) ऐसा करने के लिए, तालिका से प्राप्त अंतराल के सिरों को सही विचरण s 2 . से गुणा किया जाता है.

उदाहरण:

आइए पिछली समस्या को अलग तरीके से हल करें।

फेसला:

आइए सही विचरण का पता लगाएं:

तालिका के अनुसार "स्वतंत्रता और विश्वसनीयता की डिग्री की संख्या के आधार पर भिन्नता के लिए आत्मविश्वास अंतराल की सीमाएं", हम भिन्नता के लिए विश्वास अंतराल की सीमाएं पाते हैं=14 और: निचली सीमा 0.513 और ऊपरी सीमा 2.354।

प्राप्त सीमाओं को गुणा करेंs 2 और रूट निकालें (क्योंकि हमें विचरण के लिए नहीं, बल्कि मानक विचलन के लिए एक विश्वास अंतराल की आवश्यकता है)।

जैसा कि उदाहरणों से देखा जा सकता है, विश्वास अंतराल का मूल्य इसके निर्माण की विधि पर निर्भर करता है और निकट लेकिन अलग परिणाम देता है।

पर्याप्त रूप से बड़े आकार के नमूनों के लिए (एन>30) सामान्य मानक विचलन के लिए विश्वास अंतराल की सीमाएं सूत्र द्वारा निर्धारित की जा सकती हैं: - कुछ संख्या, जो सारणीबद्ध है और संबंधित संदर्भ तालिका में दी गई है।

अगर 1- क्यू<1, то формула имеет вид:

उदाहरण:

आइए पिछली समस्या को तीसरे तरीके से हल करें।

फेसला:

पहले पाया गयाएस= 5,17. क्यू(0.95; 15) = 0.46 - हम तालिका के अनुसार पाते हैं।

फिर:

जनसंख्या- इकाइयों का एक समूह जिसमें बड़े पैमाने पर चरित्र, विशिष्टता, गुणात्मक एकरूपता और भिन्नता की उपस्थिति होती है।

सांख्यिकीय आबादी में भौतिक रूप से मौजूदा वस्तुएं (कर्मचारी, उद्यम, देश, क्षेत्र) शामिल हैं, एक वस्तु है।

जनसंख्या इकाई- सांख्यिकीय जनसंख्या की प्रत्येक विशिष्ट इकाई।

एक और एक ही सांख्यिकीय आबादी एक विशेषता में सजातीय और दूसरे में विषम हो सकती है।

गुणात्मक एकरूपता- किसी भी विशेषता के लिए जनसंख्या की सभी इकाइयों की समानता और बाकी सभी के लिए असमानता।

एक सांख्यिकीय जनसंख्या में, जनसंख्या की एक इकाई का दूसरे से अंतर अक्सर मात्रात्मक प्रकृति का होता है। जनसंख्या की विभिन्न इकाइयों की विशेषता के मूल्यों में मात्रात्मक परिवर्तन को भिन्नता कहा जाता है।

फ़ीचर भिन्नता- जनसंख्या की एक इकाई से दूसरी इकाई में संक्रमण के दौरान एक विशेषता (मात्रात्मक विशेषता के लिए) में मात्रात्मक परिवर्तन।

संकेत- यह एक संपत्ति, विशेषता विशेषता या इकाइयों, वस्तुओं और घटनाओं की अन्य विशेषता है जिसे देखा या मापा जा सकता है। संकेतों को मात्रात्मक और गुणात्मक में विभाजित किया गया है। जनसंख्या की अलग-अलग इकाइयों में एक विशेषता के मूल्य की विविधता और परिवर्तनशीलता को कहा जाता है उतार-चढ़ाव.

गुणकारी (गुणात्मक) विशेषताएं मात्रात्मक नहीं हैं (सेक्स द्वारा जनसंख्या की संरचना)। मात्रात्मक विशेषताओं में एक संख्यात्मक अभिव्यक्ति होती है (आयु के अनुसार जनसंख्या की संरचना)।

सूचक- यह समय और स्थान की विशिष्ट परिस्थितियों में उद्देश्य के लिए इकाइयों या समुच्चय की किसी भी संपत्ति की मात्रात्मक और गुणात्मक विशेषता है।

उपलब्धिःसंकेतकों का एक समूह है जो अध्ययन के तहत घटना को व्यापक रूप से दर्शाता है।

उदाहरण के लिए, वेतन पर विचार करें:
  • साइन - मजदूरी
  • सांख्यिकीय जनसंख्या - सभी कर्मचारी
  • जनसंख्या की इकाई प्रत्येक कार्यकर्ता है
  • गुणात्मक एकरूपता - अर्जित वेतन
  • फ़ीचर भिन्नता - संख्याओं की एक श्रृंखला

सामान्य जनसंख्या और उसका नमूना

आधार एक या अधिक विशेषताओं को मापने के परिणामस्वरूप प्राप्त आंकड़ों का एक समूह है। वस्तुओं का वास्तव में देखा गया सेट, एक यादृच्छिक चर के कई अवलोकनों द्वारा सांख्यिकीय रूप से दर्शाया गया है, है नमूना, और काल्पनिक रूप से विद्यमान (विचारित) - सामान्य जनसंख्या. सामान्य जनसंख्या परिमित हो सकती है (अवलोकनों की संख्या एन = कॉन्स्ट) या अनंत ( एन =), और सामान्य आबादी का एक नमूना हमेशा सीमित संख्या में टिप्पणियों का परिणाम होता है। एक नमूना बनाने वाले प्रेक्षणों की संख्या कहलाती है नमूने का आकार. यदि नमूना आकार काफी बड़ा है n→∞) नमूना माना जाता है विशाल, अन्यथा इसे नमूना कहा जाता है सीमित मात्रा. नमूना माना जाता है छोटा, यदि, एक-आयामी यादृच्छिक चर को मापते समय, नमूना आकार 30 से अधिक नहीं होता है ( एन<= 30 ), और एक साथ मापते समय कई ( ) एक बहुआयामी अंतरिक्ष संबंध में विशेषताएं एनको से कम 10 (एन/के< 10) . नमूना प्रपत्र विविधता श्रृंखलाअगर इसके सदस्य हैं आदेश आँकड़े, यानी, यादृच्छिक चर के नमूना मान एक्सआरोही क्रम (रैंकिंग) में क्रमबद्ध हैं, विशेषता के मूल्यों को कहा जाता है विकल्प.

उदाहरण. लगभग एक ही बेतरतीब ढंग से चयनित वस्तुओं का सेट - मास्को के एक प्रशासनिक जिले के वाणिज्यिक बैंक, इस जिले के सभी वाणिज्यिक बैंकों की सामान्य आबादी से एक नमूने के रूप में माना जा सकता है, और मास्को में सभी वाणिज्यिक बैंकों की सामान्य आबादी के नमूने के रूप में माना जा सकता है। , साथ ही देश और आदि में वाणिज्यिक बैंकों का एक नमूना।

बुनियादी नमूनाकरण विधियां

सांख्यिकीय निष्कर्षों की विश्वसनीयता और परिणामों की सार्थक व्याख्या इस पर निर्भर करती है: प्रातिनिधिकतानमूने, यानी सामान्य जनसंख्या के गुणों के प्रतिनिधित्व की पूर्णता और पर्याप्तता, जिसके संबंध में इस नमूने को प्रतिनिधि माना जा सकता है। जनसंख्या के सांख्यिकीय गुणों का अध्ययन दो प्रकार से आयोजित किया जा सकता है: निरंतरऔर असंतत। निरंतर अवलोकनसभी की परीक्षा शामिल है इकाइयोंअध्ययन समुच्चय, ए गैर-निरंतर (चयनात्मक) अवलोकन- इसके केवल हिस्से।

नमूनाकरण को व्यवस्थित करने के पांच मुख्य तरीके हैं:

1. सरल यादृच्छिक चयन, जिसमें वस्तुओं को वस्तुओं की सामान्य आबादी से बेतरतीब ढंग से निकाला जाता है (उदाहरण के लिए, एक तालिका या एक यादृच्छिक संख्या जनरेटर का उपयोग करके), और प्रत्येक संभावित नमूने की समान संभावना होती है। ऐसे नमूने कहलाते हैं वास्तव में यादृच्छिक;

2. एक नियमित प्रक्रिया के माध्यम से सरल चयनएक यांत्रिक घटक का उपयोग करके किया जाता है (उदाहरण के लिए, तिथियां, सप्ताह के दिन, अपार्टमेंट नंबर, वर्णमाला के अक्षर, आदि) और इस तरह से प्राप्त नमूनों को कहा जाता है यांत्रिक;

3. विभक्त हो गयाचयन इस तथ्य में शामिल है कि वॉल्यूम की सामान्य आबादी को वॉल्यूम के सबसेट या परतों (स्ट्रेट) में विभाजित किया जाता है ताकि . सांख्यिकीय विशेषताओं के संदर्भ में स्ट्रेट सजातीय वस्तुएं हैं (उदाहरण के लिए, जनसंख्या को आयु समूह या सामाजिक वर्ग द्वारा स्तर में विभाजित किया जाता है; उद्योग द्वारा उद्यम)। इस मामले में, नमूनों को कहा जाता है विभक्त हो गया(अन्यथा, स्तरीकृत, विशिष्ट, ज़ोनड);

4. तरीके धारावाहिकचयन बनाने के लिए उपयोग किया जाता है धारावाहिकया नेस्टेड नमूने. वे सुविधाजनक हैं यदि एक बार में "ब्लॉक" या वस्तुओं की एक श्रृंखला की जांच करना आवश्यक है (उदाहरण के लिए, माल की एक खेप, एक निश्चित श्रृंखला के उत्पाद, या देश के क्षेत्रीय-प्रशासनिक विभाजन में जनसंख्या)। श्रृंखला का चयन यादृच्छिक या यांत्रिक तरीके से किया जा सकता है। उसी समय, माल के एक निश्चित बैच, या एक संपूर्ण क्षेत्रीय इकाई (एक आवासीय भवन या एक चौथाई) का निरंतर सर्वेक्षण किया जाता है;

5. संयुक्त(चरणबद्ध) चयन एक साथ कई चयन विधियों को जोड़ सकता है (उदाहरण के लिए, स्तरीकृत और यादृच्छिक या यादृच्छिक और यांत्रिक); ऐसा नमूना कहा जाता है संयुक्त.

चयन प्रकार

द्वारा मनव्यक्तिगत, समूह और संयुक्त चयन हैं। पर व्यक्तिगत चयनसामान्य जनसंख्या की अलग-अलग इकाइयों को नमूना सेट में चुना जाता है, जिसमें समूह चयनइकाइयों के गुणात्मक रूप से सजातीय समूह (श्रृंखला) हैं, और संयुक्त चयनपहले और दूसरे प्रकार का संयोजन शामिल है।

द्वारा तरीकाचयन भेद दोहराया और गैर-दोहरावनमूना।

बेजोड़चयन कहा जाता है, जिसमें नमूने में गिरने वाली इकाई मूल आबादी में वापस नहीं आती है और आगे के चयन में भाग नहीं लेती है; जबकि सामान्य जनसंख्या की इकाइयों की संख्या एनचयन प्रक्रिया के दौरान कम पर दोहराया गयाचयन पकड़े गएनमूने में, पंजीकरण के बाद इकाई सामान्य आबादी को वापस कर दी जाती है और इस प्रकार आगे की चयन प्रक्रिया में उपयोग किए जाने के लिए अन्य इकाइयों के साथ समान अवसर बरकरार रखती है; जबकि सामान्य जनसंख्या की इकाइयों की संख्या एनअपरिवर्तित रहता है (सामाजिक-आर्थिक अध्ययन में इस पद्धति का उपयोग शायद ही कभी किया जाता है)। हालांकि, एक बड़े . के साथ एन (एन → )के लिए सूत्र न दोहराया गयाचयन उनके लिए करीब हैं दोहराया गयाचयन और बाद वाले लगभग अधिक बार उपयोग किए जाते हैं ( एन = कॉन्स्ट).

सामान्य और नमूना जनसंख्या के मापदंडों की मुख्य विशेषताएं

अध्ययन के सांख्यिकीय निष्कर्षों का आधार एक यादृच्छिक चर का वितरण है, जबकि देखे गए मान (एक्स 1, एक्स 2, ..., एक्स एन)यादृच्छिक चर की प्राप्ति कहलाती है एक्स(एन नमूना आकार है)। सामान्य जनसंख्या में एक यादृच्छिक चर का वितरण सैद्धांतिक, प्रकृति में आदर्श है, और इसका नमूना एनालॉग है प्रयोगसिद्धवितरण। कुछ सैद्धांतिक वितरण विश्लेषणात्मक रूप से दिए गए हैं, अर्थात। उन्हें विकल्पयादृच्छिक चर के संभावित मानों के स्थान में प्रत्येक बिंदु पर वितरण फ़ंक्शन का मान निर्धारित करें। एक नमूने के लिए, वितरण फ़ंक्शन को निर्धारित करना मुश्किल और कभी-कभी असंभव होता है, इसलिए विकल्पअनुभवजन्य डेटा से अनुमान लगाया जाता है, और फिर उन्हें सैद्धांतिक वितरण का वर्णन करने वाले एक विश्लेषणात्मक अभिव्यक्ति में प्रतिस्थापित किया जाता है। इस मामले में, धारणा (या परिकल्पना) वितरण के प्रकार के बारे में सांख्यिकीय रूप से सही और गलत दोनों हो सकते हैं। लेकिन किसी भी मामले में, नमूने से खंगाला गया अनुभवजन्य वितरण केवल मोटे तौर पर सही की विशेषता है। सबसे महत्वपूर्ण वितरण पैरामीटर हैं अपेक्षित मूल्यऔर फैलाव।

उनके स्वभाव से, वितरण हैं निरंतरऔर अलग. सबसे अच्छा ज्ञात निरंतर वितरण है सामान्य. मापदंडों के चयनात्मक एनालॉग और इसके लिए हैं: माध्य मान और अनुभवजन्य विचरण। सामाजिक-आर्थिक अध्ययनों में असतत में, सबसे अधिक इस्तेमाल किया जाने वाला वैकल्पिक (द्विभाजित)वितरण। इस वितरण का अपेक्षा पैरामीटर सापेक्ष मूल्य (या .) को व्यक्त करता है साझा करना) जनसंख्या की इकाइयाँ जिनमें अध्ययन के तहत विशेषता है (यह पत्र द्वारा इंगित किया गया है); जिस जनसंख्या में यह विशेषता नहीं है उसका अनुपात पत्र द्वारा दर्शाया गया है क्यू (क्यू = 1 - पी). वैकल्पिक वितरण के विचरण में एक अनुभवजन्य एनालॉग भी होता है।

वितरण के प्रकार और जनसंख्या इकाइयों के चयन की विधि के आधार पर, वितरण मापदंडों की विशेषताओं की गणना अलग तरह से की जाती है। सैद्धांतिक और अनुभवजन्य वितरण के लिए मुख्य तालिका में दिए गए हैं। 9.1.

नमूना शेयर कश्मीर nनमूना जनसंख्या की इकाइयों की संख्या का सामान्य जनसंख्या की इकाइयों की संख्या से अनुपात है:

के एन = एन / एन.

नमूना शेयर डब्ल्यूउन इकाइयों का अनुपात है जिनका अध्ययन किया जा रहा है एक्सनमूना आकार के लिए एन:

डब्ल्यू = एन एन / एन.

उदाहरण। 5% नमूने के साथ 1000 इकाइयों वाले माल के एक बैच में नमूना अंश k nनिरपेक्ष मूल्य में 50 इकाइयाँ हैं। (एन = एन * 0.05); यदि इस नमूने में 2 दोषपूर्ण उत्पाद पाए जाते हैं, तो नमूना अंश डब्ल्यू 0.04 (w = 2/50 = 0.04 या 4%) होगा।

चूँकि प्रतिदर्श जनसंख्या सामान्य जनसंख्या से भिन्न होती है, इसलिए नमूना त्रुटि.

तालिका 9.1 सामान्य और नमूना आबादी के मुख्य पैरामीटर

नमूनाकरण त्रुटियां

किसी भी (ठोस और चयनात्मक) त्रुटियों के साथ दो प्रकार की त्रुटियां हो सकती हैं: पंजीकरण और प्रतिनिधित्व। गलतियां पंजीकरणहो सकता है अनियमितऔर व्यवस्थितचरित्र। अनियमितत्रुटियां कई अलग-अलग अनियंत्रित कारणों से बनी होती हैं, प्रकृति में अनजाने में होती हैं, और आमतौर पर संयोजन में एक दूसरे को संतुलित करती हैं (उदाहरण के लिए, कमरे में तापमान में उतार-चढ़ाव के कारण उपकरण रीडिंग में परिवर्तन)।

व्यवस्थितत्रुटियां पक्षपाती हैं, क्योंकि वे नमूने में वस्तुओं के चयन के नियमों का उल्लंघन करते हैं (उदाहरण के लिए, माप उपकरण की सेटिंग बदलते समय माप में विचलन)।

उदाहरण।शहर में जनसंख्या की सामाजिक स्थिति का आकलन करने के लिए 25% परिवारों की जांच करने की योजना है। यदि, हालांकि, प्रत्येक चौथे अपार्टमेंट का चयन इसकी संख्या पर आधारित है, तो केवल एक प्रकार के सभी अपार्टमेंट (उदाहरण के लिए, एक कमरे के अपार्टमेंट) के चयन का खतरा है, जो एक व्यवस्थित त्रुटि पेश करेगा और परिणामों को विकृत करेगा; बहुत से अपार्टमेंट नंबर का चुनाव अधिक बेहतर है, क्योंकि त्रुटि यादृच्छिक होगी।

प्रतिनिधित्व त्रुटियाँकेवल चयनात्मक अवलोकन में निहित, उन्हें टाला नहीं जा सकता है और वे इस तथ्य के परिणामस्वरूप उत्पन्न होते हैं कि नमूना पूरी तरह से सामान्य को पुन: पेश नहीं करता है। नमूने से प्राप्त संकेतकों के मान सामान्य जनसंख्या (या निरंतर अवलोकन के दौरान प्राप्त) में समान मूल्यों के संकेतकों से भिन्न होते हैं।

नमूनाकरण त्रुटिसामान्य जनसंख्या में पैरामीटर के मूल्य और उसके नमूना मूल्य के बीच का अंतर है। एक मात्रात्मक विशेषता के औसत मूल्य के लिए, यह बराबर है: , और शेयर के लिए (वैकल्पिक विशेषता) -।

नमूनाकरण त्रुटियां केवल नमूना टिप्पणियों में निहित हैं। ये त्रुटियाँ जितनी बड़ी होती हैं, उतना ही अधिक अनुभवजन्य वितरण सैद्धांतिक से भिन्न होता है। अनुभवजन्य वितरण के पैरामीटर और यादृच्छिक चर हैं, इसलिए, नमूना त्रुटियां भी यादृच्छिक चर हैं, वे विभिन्न नमूनों के लिए अलग-अलग मान ले सकते हैं, और इसलिए यह गणना करने के लिए प्रथागत है औसत त्रुटि.

औसत नमूना त्रुटिगणितीय अपेक्षा से नमूना माध्य के मानक विचलन को व्यक्त करने वाला मान है। यह मान, यादृच्छिक चयन के सिद्धांत के अधीन, मुख्य रूप से नमूना आकार और विशेषता की भिन्नता की डिग्री पर निर्भर करता है: विशेषता की भिन्नता जितनी बड़ी और छोटी होती है (इसलिए, का मूल्य), का मूल्य उतना ही छोटा होता है औसत नमूना त्रुटि। सामान्य और नमूना आबादी के भिन्नताओं के बीच का अनुपात सूत्र द्वारा व्यक्त किया जाता है:

वे। पर्याप्त रूप से बड़े के लिए, हम मान सकते हैं कि . औसत नमूना त्रुटि सामान्य जनसंख्या के पैरामीटर से नमूना आबादी के पैरामीटर के संभावित विचलन को दर्शाती है। तालिका में। 9.2 प्रेक्षण को व्यवस्थित करने के विभिन्न तरीकों के लिए औसत नमूना त्रुटि की गणना के लिए व्यंजक दिखाता है।

तालिका 9.2 विभिन्न नमूना प्रकारों के लिए नमूना माध्य और अनुपात की औसत त्रुटि (एम)

एक सतत सुविधा के लिए इंट्राग्रुप नमूना भिन्नता का औसत कहां है;

शेयर के अंतर-समूह फैलाव का औसत;

— चयनित श्रृंखला की संख्या, — श्रृंखला की कुल संख्या;

,

श्रृंखला का औसत कहाँ है;

- एक सतत सुविधा के लिए पूरे नमूने पर सामान्य औसत;

,

वें श्रृंखला में विशेषता का अनुपात कहां है;

- पूरे नमूने पर विशेषता का कुल हिस्सा।

हालांकि, औसत त्रुटि के परिमाण को केवल एक निश्चित संभावना Р (Р 1) के साथ ही आंका जा सकता है। ल्यपुनोव ए.एम. यह साबित कर दिया कि नमूना का वितरण मतलब है, और इसलिए सामान्य औसत से उनका विचलन, पर्याप्त बड़ी संख्या के साथ, सामान्य वितरण कानून का लगभग पालन करता है, बशर्ते कि सामान्य आबादी का एक सीमित माध्य और सीमित भिन्नता हो।

गणितीय रूप से, माध्य के लिए यह कथन इस प्रकार व्यक्त किया जाता है:

और भिन्न के लिए, व्यंजक (1) का रूप लेगा:

कहाँ पे - वहाँ है सीमांत नमूना त्रुटि, जो औसत नमूनाकरण त्रुटि का गुणज है , और बहुलता कारक छात्र की कसौटी ("आत्मविश्वास कारक") है, जिसे डब्ल्यू.एस. द्वारा प्रस्तावित किया गया है। गॉसेट (छद्म नाम "छात्र"); विभिन्न नमूना आकारों के मान एक विशेष तालिका में संग्रहीत किए जाते हैं।

t के कुछ मानों के लिए फंक्शन Ф(t) के मान हैं:

इसलिए, व्यंजक (3) को इस प्रकार पढ़ा जा सकता है: प्रायिकता के साथ पी = 0.683 (68.3%)यह तर्क दिया जा सकता है कि नमूना और सामान्य माध्य के बीच का अंतर माध्य त्रुटि के एक मान से अधिक नहीं होगा एम (टी = 1), संभावना के साथ पी = 0.954 (95.4%)— कि यह दो माध्य त्रुटियों के मान से अधिक न हो एम (टी = 2),संभावना के साथ पी = 0.997 (99.7%)- तीन मानों से अधिक नहीं होगा एम (टी = 3)।इस प्रकार, इस अंतर के माध्य त्रुटि के मान से तीन गुना अधिक होने की प्रायिकता निर्धारित करती है त्रुटि स्तरऔर से अधिक नहीं है 0,3% .

तालिका में। सीमांत नमूनाकरण त्रुटि की गणना के लिए 9.3 सूत्र दिए गए हैं।

तालिका 9.3 विभिन्न प्रकार के नमूने के लिए औसत और अनुपात (पी) के लिए सीमांत नमूनाकरण त्रुटि (डी)

जनसंख्या के लिए नमूना परिणाम का विस्तार

नमूना अवलोकन का अंतिम लक्ष्य सामान्य जनसंख्या को चिह्नित करना है। छोटे नमूना आकारों के लिए, मापदंडों ( और ) के अनुभवजन्य अनुमान उनके वास्तविक मूल्यों ( और ) से महत्वपूर्ण रूप से विचलित हो सकते हैं। इसलिए, उन सीमाओं को स्थापित करना आवश्यक हो जाता है जिनके भीतर पैरामीटर (और) के नमूना मूल्यों के लिए सही मान (और) निहित हैं।

विश्वास अंतरालसामान्य जनसंख्या के कुछ पैरामीटर को इस पैरामीटर के मानों की एक यादृच्छिक श्रेणी कहा जाता है, जिसकी संभावना 1 के करीब होती है ( विश्वसनीयता) में इस पैरामीटर का सही मान होता है।

सीमांत त्रुटिनमूने Δ आपको सामान्य जनसंख्या की विशेषताओं के सीमा मूल्यों को निर्धारित करने की अनुमति देता है और उनके विश्वास अंतराल, जो इसके बराबर हैं:

जमीनी स्तर विश्वास अंतरालघटाकर प्राप्त किया गया सीमांत त्रुटिनमूना माध्य (शेयर) से, और शीर्ष एक को जोड़कर।

विश्वास अंतरालमाध्य के लिए, यह सीमांत नमूना त्रुटि का उपयोग करता है और किसी दिए गए आत्मविश्वास के स्तर को सूत्र द्वारा निर्धारित किया जाता है:

इसका मतलब है कि दी गई संभावना के साथ आर, जिसे आत्मविश्वास का स्तर कहा जाता है और विशिष्ट रूप से मूल्य द्वारा निर्धारित किया जाता है टी, यह तर्क दिया जा सकता है कि माध्य का सही मूल्य से सीमा में निहित है , और शेयर का सही मूल्य की सीमा में है

तीन मानक आत्मविश्वास स्तरों के लिए विश्वास अंतराल की गणना करते समय पी=95%, पी=99% और पी=99.9%मूल्य द्वारा चुना जाता है। स्वतंत्रता की डिग्री की संख्या के आधार पर आवेदन। यदि नमूना आकार काफी बड़ा है, तो इन संभावनाओं के अनुरूप मान टीबराबर हैं: 1,96, 2,58 और 3,29 . इस प्रकार, सीमांत नमूनाकरण त्रुटि हमें सामान्य जनसंख्या की विशेषताओं और उनके आत्मविश्वास अंतराल के सीमांत मूल्यों को निर्धारित करने की अनुमति देती है:

सामाजिक-आर्थिक अध्ययनों में सामान्य आबादी के लिए चयनात्मक अवलोकन के परिणामों के वितरण की अपनी विशेषताएं हैं, क्योंकि इसके लिए इसके सभी प्रकारों और समूहों के प्रतिनिधित्व की पूर्णता की आवश्यकता होती है। इस तरह के वितरण की संभावना का आधार गणना है रिश्तेदारों की गलती:

कहाँ पे Δ % - सापेक्ष सीमांत नमूना त्रुटि; ,।

नमूना अवलोकन को जनसंख्या तक विस्तारित करने की दो मुख्य विधियाँ हैं: प्रत्यक्ष रूपांतरण और गुणांक की विधि.

सार प्रत्यक्ष रूपांतरणजनसंख्या के आकार से नमूना माध्य !!\overline(x) गुणा करना है।

उदाहरण. बता दें कि शहर में बच्चों की औसत संख्या का अनुमान एक नमूना विधि और एक व्यक्ति की राशि से लगाया जाता है। यदि शहर में 1000 युवा परिवार हैं, तो नगरपालिका नर्सरी में आवश्यक स्थानों की संख्या इस औसत को सामान्य जनसंख्या N = 1000 के आकार से गुणा करके प्राप्त की जाती है, अर्थात। 1200 सीट होगी।

गुणांक की विधिउस मामले में उपयोग करने की सलाह दी जाती है जब निरंतर अवलोकन के डेटा को स्पष्ट करने के लिए चयनात्मक अवलोकन किया जाता है।

ऐसा करने में, सूत्र का उपयोग किया जाता है:

जहां सभी चर जनसंख्या के आकार के हैं:

आवश्यक नमूना आकार

तालिका 9.4 विभिन्न प्रकार के नमूना संगठन के लिए आवश्यक नमूना आकार (एन)

स्वीकार्य नमूना त्रुटि के पूर्व निर्धारित मूल्य के साथ एक नमूना सर्वेक्षण की योजना बनाते समय, आवश्यक का सही अनुमान लगाना आवश्यक है नमूने का आकार. यह राशि एक स्वीकार्य त्रुटि स्तर की गारंटी के आधार पर चयनात्मक अवलोकन के दौरान स्वीकार्य त्रुटि के आधार पर निर्धारित की जा सकती है (जिस तरह से अवलोकन का आयोजन किया जाता है)। आवश्यक नमूना आकार n निर्धारित करने के लिए सूत्र सीमांत नमूनाकरण त्रुटि के सूत्रों से सीधे आसानी से प्राप्त किए जा सकते हैं। तो, सीमांत त्रुटि के लिए अभिव्यक्ति से:

नमूना आकार सीधे निर्धारित होता है एन:

यह सूत्र दर्शाता है कि घटती सीमांत नमूना त्रुटि के साथ Δ आवश्यक नमूना आकार को महत्वपूर्ण रूप से बढ़ाता है, जो विचरण और छात्र के टी-टेस्ट के वर्ग के समानुपाती होता है।

अवलोकन को व्यवस्थित करने की एक विशिष्ट विधि के लिए, आवश्यक नमूना आकार की गणना तालिका में दिए गए सूत्रों के अनुसार की जाती है। 9.4.

व्यावहारिक गणना उदाहरण

उदाहरण 1. निरंतर मात्रात्मक विशेषता के लिए औसत मूल्य और आत्मविश्वास अंतराल की गणना।

बैंक में लेनदारों के साथ निपटान की गति का आकलन करने के लिए, 10 भुगतान दस्तावेजों का एक यादृच्छिक नमूना किया गया था। उनके मान समान निकले (दिनों में): 10; 3; पंद्रह; पंद्रह; 22; 7; आठ; एक; उन्नीस; 20.

प्रायिकता के साथ आवश्यक पी = 0.954सीमांत त्रुटि निर्धारित करें Δ औसत गणना समय का नमूना माध्य और विश्वास सीमा।

फेसला।औसत मूल्य की गणना तालिका से सूत्र द्वारा की जाती है। नमूना जनसंख्या के लिए 9.1

फैलाव की गणना तालिका से सूत्र के अनुसार की जाती है। 9.1.

दिन की माध्य वर्ग त्रुटि।

माध्य की त्रुटि की गणना सूत्र द्वारा की जाती है:

वे। माध्य मान है एक्स ± एम = 12.0 ± 2.3 दिन.

माध्य की विश्वसनीयता थी

सीमित त्रुटि की गणना तालिका के सूत्र द्वारा की जाती है। 9.3 पुनर्चयन के लिए, चूंकि जनसंख्या का आकार अज्ञात है, और इसके लिए पी = 0.954आत्मविश्वास का स्तर।

इस प्रकार, माध्य मान `x ± D = `x ± 2m = 12.0 ± 4.6 है, अर्थात। इसका वास्तविक मूल्य 7.4 से 16.6 दिनों के बीच होता है।

छात्र तालिका का उपयोग। आवेदन हमें यह निष्कर्ष निकालने की अनुमति देता है कि n = 10 - 1 = 9 डिग्री स्वतंत्रता के लिए प्राप्त मूल्य एक महत्व स्तर £ 0.001 के साथ विश्वसनीय है, अर्थात। परिणामी माध्य मान 0 से काफी भिन्न होता है।

उदाहरण 2. प्रायिकता का अनुमान (सामान्य हिस्सा) r.

1000 परिवारों की सामाजिक स्थिति का सर्वेक्षण करने की यांत्रिक नमूना पद्धति से यह पता चला कि निम्न आय वाले परिवारों का अनुपात था डब्ल्यू = 0.3 (30%)(नमूना था 2% , अर्थात। एन/एन = 0.02) आत्मविश्वास के स्तर के साथ आवश्यक पी = 0.997एक संकेतक परिभाषित करें आरपूरे क्षेत्र में कम आय वाले परिवार।

फेसला।प्रस्तुत फ़ंक्शन मानों के अनुसार (टी)किसी दिए गए आत्मविश्वास के स्तर के लिए खोजें पी = 0.997अर्थ टी = 3(सूत्र 3 देखें)। सीमांत शेयर त्रुटि वूतालिका से सूत्र द्वारा निर्धारित करें। 9.3 गैर-दोहराए जाने वाले नमूने के लिए (यांत्रिक नमूनाकरण हमेशा गैर-दोहराव होता है):

सापेक्ष नमूनाकरण त्रुटि को सीमित करना % होगा:

क्षेत्र में निम्न-आय वाले परिवारों की संभावना (सामान्य हिस्सा) होगी p=w±Δw, और विश्वास सीमा p की गणना दोहरी असमानता के आधार पर की जाती है:

डब्ल्यू - w ≤ पी ≤ डब्ल्यू - w, अर्थात। p का ​​सही मान इसके भीतर है:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

इस प्रकार, 0.997 की संभावना के साथ, यह तर्क दिया जा सकता है कि क्षेत्र के सभी परिवारों में निम्न-आय वाले परिवारों का अनुपात 28.6% से 31.4% तक है।

उदाहरण 3अंतराल श्रृंखला द्वारा निर्दिष्ट असतत विशेषता के लिए माध्य मान और विश्वास अंतराल की गणना।

तालिका में। 9.5 उद्यम द्वारा उनके कार्यान्वयन के समय के अनुसार आदेशों के उत्पादन के लिए आवेदनों का वितरण निर्धारित है।

तालिका 9.5 घटना के समय के अनुसार प्रेक्षणों का वितरण

फेसला। औसत ऑर्डर पूरा होने के समय की गणना सूत्र द्वारा की जाती है:

औसत समय होगा:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23.1 महीने

यदि हम तालिका के अंतिम स्तंभ से p i पर डेटा का उपयोग करते हैं तो हमें वही उत्तर मिलता है। 9.5 सूत्र का उपयोग करते हुए:

ध्यान दें कि पिछले ग्रेडेशन के लिए अंतराल का मध्य कृत्रिम रूप से पिछले ग्रेडेशन के अंतराल की चौड़ाई 60 - 36 = 24 महीने के बराबर जोड़कर पाया जाता है।

फैलाव की गणना सूत्र द्वारा की जाती है

कहाँ पे एक्स मैं- अंतराल श्रृंखला के मध्य।

इसलिए !!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) और मानक त्रुटि है।

माध्य की त्रुटि की गणना सूत्र द्वारा महीनों के लिए की जाती है, अर्थात। माध्य है !!\overline(x) ± m = 23.1 ± 13.4.

सीमित त्रुटि की गणना तालिका के सूत्र द्वारा की जाती है। 9.3 पुनर्चयन के लिए क्योंकि जनसंख्या का आकार अज्ञात है, 0.954 विश्वास स्तर के लिए:

तो माध्य है:

वे। इसका वास्तविक मूल्य 0 से 50 महीने की सीमा में है।

उदाहरण 4एक वाणिज्यिक बैंक में निगम के एन = 500 उद्यमों के लेनदारों के साथ बस्तियों की गति निर्धारित करने के लिए, यादृच्छिक गैर-दोहराव चयन की विधि का उपयोग करके एक चयनात्मक अध्ययन करना आवश्यक है। आवश्यक नमूना आकार n निर्धारित करें ताकि एक संभावना के साथ P = 0.954 नमूना माध्य की त्रुटि 3 दिनों से अधिक न हो, यदि परीक्षण अनुमानों से पता चलता है कि मानक विचलन s 10 दिन था।

फेसला. आवश्यक अध्ययनों की संख्या n निर्धारित करने के लिए, हम तालिका से गैर-दोहराव चयन के लिए सूत्र का उपयोग करते हैं। 9.4:

इसमें t का मान कॉन्फिडेंस लेवल = 0.954 के लिए से निर्धारित किया जाता है। यह 2 के बराबर है। माध्य वर्ग मान s = 10, जनसंख्या आकार N = 500, और माध्य की सीमांत त्रुटि Δ x = 3. इन मानों को सूत्र में प्रतिस्थापित करने पर, हम प्राप्त करते हैं:

वे। आवश्यक पैरामीटर का अनुमान लगाने के लिए 41 उद्यमों का एक नमूना बनाने के लिए पर्याप्त है - लेनदारों के साथ बस्तियों की गति।

चयनात्मक अवलोकननिरंतर अवलोकन लागू करते समय लागू होता है शारीरिक रूप से असंभवबड़ी मात्रा में डेटा के कारण या आर्थिक रूप से अव्यवहारिक. भौतिक असंभवता होती है, उदाहरण के लिए, यात्री प्रवाह, बाजार मूल्य, पारिवारिक बजट का अध्ययन करते समय। आर्थिक अक्षमता तब होती है जब उनके विनाश से जुड़े सामानों की गुणवत्ता का आकलन किया जाता है, उदाहरण के लिए, चखना, ताकत के लिए ईंटों का परीक्षण करना आदि।

अवलोकन के लिए चुनी गई सांख्यिकीय इकाइयाँ हैं नमूना चयन ढांचाया नमूना, और उनकी पूरी सरणी - सामान्य जनसंख्या(जीएस)। जिसमें नमूने में इकाइयों की संख्यानामित एन, और पूरे एच एस में - एन. रवैया एन/एनबुलाया तुलनात्मक आकारया नमूना शेयर.

नमूने के परिणामों की गुणवत्ता इस पर निर्भर करती है: नमूना प्रतिनिधित्व, यानी जीएस में यह कितना प्रतिनिधि है। नमूने की प्रतिनिधित्वशीलता सुनिश्चित करने के लिए, यह देखना आवश्यक है इकाइयों के यादृच्छिक चयन का सिद्धांत, जो मानता है कि नमूने में HS इकाई का समावेश संयोग के अलावा किसी अन्य कारक से प्रभावित नहीं हो सकता है।

अस्तित्व यादृच्छिक चयन के 4 तरीकेनमूना लेना:

  1. वास्तव में यादृच्छिकचयन या "लोट्टो विधि", जब सीरियल नंबर सांख्यिकीय मानों को निर्दिष्ट किए जाते हैं, कुछ वस्तुओं (उदाहरण के लिए, केग्स) पर दर्ज किए जाते हैं, जो तब कुछ कंटेनर (उदाहरण के लिए, एक बैग में) में मिश्रित होते हैं और यादृच्छिक रूप से चुने जाते हैं। व्यवहार में, इस पद्धति को यादृच्छिक संख्या जनरेटर या यादृच्छिक संख्याओं के गणितीय तालिकाओं का उपयोग करके किया जाता है।
  2. यांत्रिकचयन, जिसके अनुसार प्रत्येक ( एन/एन) - सामान्य जनसंख्या का मान। उदाहरण के लिए, यदि इसमें 100,000 मान हैं, और आप 1,000 का चयन करना चाहते हैं, तो प्रत्येक 100,000 / 1000 = 100वां मान नमूने में आएगा। इसके अलावा, यदि उन्हें रैंक नहीं किया जाता है, तो पहले वाले को पहले सौ में से यादृच्छिक रूप से चुना जाता है, और अन्य की संख्या एक सौ अधिक होगी। उदाहरण के लिए, यदि इकाई संख्या 19 पहले थी, तो संख्या 119 आगे होनी चाहिए, फिर संख्या 219, फिर संख्या 319, और इसी तरह। यदि जनसंख्या इकाइयों को रैंक किया जाता है, तो पहले #50 चुना जाता है, फिर #150, फिर #250, और इसी तरह।
  3. विषम डेटा सरणी से मूल्यों का चयन किया जाता है विभक्त हो गया(स्तरीकृत) विधि, जब सामान्य जनसंख्या को पहले सजातीय समूहों में विभाजित किया जाता है, जिसमें यादृच्छिक या यांत्रिक चयन लागू होता है।
  4. एक विशेष नमूना विधि है धारावाहिकचयन, जिसमें व्यक्तिगत मात्राओं को यादृच्छिक रूप से या यंत्रवत् रूप से नहीं चुना जाता है, लेकिन उनकी श्रृंखला (कुछ संख्या से कुछ क्रमागत क्रम), जिसके भीतर निरंतर अवलोकन किया जाता है।

नमूना प्रेक्षणों की गुणवत्ता इस पर भी निर्भर करती है नमूना प्रकार: दोहराया गयाया पुनरावृत्ति रहित।
पर पुन: चयननमूने में गिरने वाले सांख्यिकीय मूल्य या उनकी श्रृंखला उपयोग के बाद सामान्य आबादी को वापस कर दी जाती है, जिससे एक नए नमूने में आने का मौका मिलता है। साथ ही, सामान्य जनसंख्या के सभी मूल्यों के नमूने में शामिल होने की समान संभावना है।
गैर-दोहराव चयनइसका मतलब है कि नमूने में शामिल सांख्यिकीय मूल्य या उनकी श्रृंखला उपयोग के बाद सामान्य आबादी में वापस नहीं आती है, और इसलिए बाद के शेष मूल्यों के लिए अगले नमूने में आने की संभावना बढ़ जाती है।

गैर-दोहराव नमूनाकरण अधिक सटीक परिणाम देता है, इसलिए इसका अधिक बार उपयोग किया जाता है। लेकिन ऐसी स्थितियां हैं जब इसे लागू नहीं किया जा सकता है (यात्री प्रवाह, उपभोक्ता मांग, आदि का अध्ययन) और फिर एक पुन: चयन किया जाता है।

नमूनाकरण त्रुटियां

नमूना सेट सांख्यिकीय मूल्यों के मात्रात्मक संकेत के साथ-साथ वैकल्पिक या जिम्मेदार आधार पर बनाया जा सकता है। पहले मामले में, नमूने की सामान्यीकरण विशेषता है द्वारा दर्शाया गया मान , और दूसरे में - नमूना शेयरमात्रा, निरूपित वू. सामान्य जनसंख्या में, क्रमशः: सामान्य औसतऔर सामान्य शेयर पी.

मतभेद - और वूआरबुलाया नमूनाकरण त्रुटि, जिसे से विभाजित किया गया है त्रुटि का पंजीकरणऔर प्रतिनिधित्व त्रुटि. सैंपलिंग त्रुटि का पहला भाग समस्या के सार की गलतफहमी के कारण गलत या गलत जानकारी के कारण होता है, प्रश्नावली, फॉर्म आदि भरते समय रजिस्ट्रार की लापरवाही। इसका पता लगाना और ठीक करना काफी आसान है। त्रुटि का दूसरा भाग यादृच्छिक चयन के सिद्धांत के साथ निरंतर या सहज गैर-अनुपालन से उत्पन्न होता है। इसका पता लगाना और खत्म करना मुश्किल है, यह पहले की तुलना में बहुत बड़ा है और इसलिए इस पर मुख्य ध्यान दिया जाता है।

एक ही सामान्य जनसंख्या से विभिन्न नमूनों के लिए नमूना त्रुटि का मान भिन्न हो सकता है, इसलिए, आंकड़ों में यह निर्धारित किया जाता है पुन: नमूनाकरण और गैर-नमूनाकरण की औसत त्रुटिसूत्रों के अनुसार:

दोहराया गया;

- पुनरावृत्ति रहित;

जहां डीवी नमूना विचरण है।

उदाहरण के लिए, 1000 कर्मचारियों वाले कारखाने में। कर्मचारियों की सेवा की औसत लंबाई निर्धारित करने के लिए 5% यादृच्छिक गैर-दोहराव नमूनाकरण किया गया था। नमूना अवलोकन के परिणाम निम्नलिखित तालिका के पहले दो स्तंभों में दिए गए हैं:

एक्स , वर्षों
(काम का अनुभव)

एफ , पर्स।
(नमूने में कर्मचारियों की संख्या)

एक्स और

एक्स और एफ

तीसरे कॉलम में, एक्स अंतराल के मध्य बिंदुओं को परिभाषित किया गया है (अंतराल की निचली और ऊपरी सीमाओं के आधे योग के रूप में), और चौथे कॉलम में, एक्स और एफ के उत्पादों को भारित अंकगणित का उपयोग करके नमूना माध्य खोजने के लिए परिभाषित किया गया है। माध्य सूत्र:

143.0/50 = 2.86 (वर्ष)।

भारित नमूना विचरण की गणना करें:
= 105,520/50 = 2,110.

अब आइए औसत गैर-पुनः परीक्षण त्रुटि का पता लगाएं:
= 0.200 (वर्ष)।

औसत नमूनाकरण त्रुटियों के सूत्रों से, यह देखा जा सकता है कि त्रुटि गैर-दोहराव वाले नमूने के साथ छोटी है, और, जैसा कि संभाव्यता सिद्धांत में सिद्ध होता है, यह 0.683 की संभावना के साथ होता है (अर्थात, यदि आप एक सामान्य से 1000 नमूने लेते हैं) जनसंख्या, तो उनमें से 683 में त्रुटि औसत नमूनाकरण त्रुटि से अधिक नहीं होगी)। यह संभावना (0.683) अधिक नहीं है, इसलिए यह व्यावहारिक गणना के लिए बहुत उपयुक्त नहीं है, जहां उच्च संभावना की आवश्यकता होती है। 0.683 से अधिक प्रायिकता के साथ नमूना त्रुटि का निर्धारण करने के लिए, परिकलित करें सीमांत नमूना त्रुटि:

कहाँ टी- आत्मविश्वास गुणांक, उस संभावना के आधार पर जिसके साथ सीमांत नमूनाकरण त्रुटि निर्धारित की जाती है।

कॉन्फिडेंस फैक्टर वैल्यूज टीविभिन्न संभावनाओं के लिए गणना की जाती है और विशेष तालिकाओं (लाप्लास इंटीग्रल) में उपलब्ध हैं, जिनमें से निम्नलिखित संयोजन व्यापक रूप से आंकड़ों में उपयोग किए जाते हैं:

संभावना 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
टी 1 1,5 1,96 2 2,5 2,58 3 3,5

संभाव्यता के एक विशिष्ट स्तर को देखते हुए, इसके अनुरूप मान को तालिका से चुना जाता है टीऔर सूत्र द्वारा सीमांत नमूनाकरण त्रुटि निर्धारित करें।
इस मामले में, = 0.95 और टी= 1.96, यानी उनका मानना ​​है कि 95% की संभावना के साथ, सीमांत नमूना त्रुटि औसत से 1.96 गुना अधिक है। यह प्रायिकता (0.95) मानी जाती है मानकऔर गणनाओं में डिफ़ॉल्ट रूप से लागू होता है।

हमारे में, हम मानक 95% संभावना (लेने से) पर सीमांत नमूनाकरण त्रुटि को परिभाषित करते हैं टी= 1.96 95% संभावना के लिए): = 1.96*0.200 = 0.392 (वर्ष)।

सीमांत त्रुटि की गणना करने के बाद, कोई पाता है सामान्य जनसंख्या की सामान्यीकरण विशेषता का विश्वास अंतराल. सामान्य औसत के लिए इस तरह के अंतराल का रूप है
यानी पूरे संयंत्र में कामगारों की औसत सेवा अवधि 2.468 से 3.252 वर्ष के बीच है।

नमूना आकार का निर्धारण

चयनात्मक अवलोकन का एक कार्यक्रम विकसित करते समय, कभी-कभी उन्हें संभावना के स्तर के साथ सीमांत त्रुटि का एक विशिष्ट मूल्य दिया जाता है। दी गई सटीकता प्रदान करने वाला न्यूनतम नमूना आकार अज्ञात रहता है। इसे नमूने के प्रकार के आधार पर माध्य और सीमांत त्रुटियों के सूत्रों से प्राप्त किया जा सकता है। इसलिए, प्रतिस्थापन और में और, प्रतिदर्श आकार के संबंध में इसे हल करने पर, हमें निम्नलिखित सूत्र प्राप्त होते हैं:
पुन: नमूनाकरण के लिए एन =
बिना पुन: नमूनाकरण के लिए एन = .

इसके अलावा, मात्रात्मक विशेषताओं वाले सांख्यिकीय मूल्यों के लिए, नमूना विचरण को भी जानना चाहिए, लेकिन गणना की शुरुआत तक यह भी ज्ञात नहीं है। इसलिए स्वीकार किया जाता है लगभगनिम्न में से एक तरीके(प्राथमिकता क्रम में):

गैर-संख्यात्मक विशेषताओं का अध्ययन करते समय, भले ही नमूना अंश के बारे में कोई अनुमानित जानकारी न हो, इसे स्वीकार किया जाता है वू= 0.5, जो, शेयर फैलाव सूत्र के अनुसार, अधिकतम आकार में नमूना फैलाव से मेल खाती है डीवी = 0,5*(1-0,5) = 0,25.