सांख्यिकी में रैखिक प्रतिगमन विधि। एक्सेल में रिग्रेशन: समीकरण, उदाहरण

प्रतिगमन विश्लेषण एक सांख्यिकीय अनुसंधान पद्धति है जो आपको एक या अधिक स्वतंत्र चर पर एक पैरामीटर की निर्भरता दिखाने की अनुमति देती है। प्री-कंप्यूटर युग में, इसका उपयोग काफी कठिन था, खासकर जब यह बड़ी मात्रा में डेटा की बात आती थी। आज, एक्सेल में रिग्रेशन बनाने का तरीका जानने के बाद, आप कुछ ही मिनटों में जटिल सांख्यिकीय समस्याओं को हल कर सकते हैं। अर्थशास्त्र के क्षेत्र से विशिष्ट उदाहरण नीचे दिए गए हैं।

प्रतिगमन के प्रकार

इस अवधारणा को ही 1886 में गणित में पेश किया गया था। प्रतिगमन होता है:

  • रैखिक;
  • परवलयिक;
  • शक्ति;
  • घातीय;
  • अतिपरवलिक;
  • प्रदर्शनकारी;
  • लघुगणक

उदाहरण 1

6 औद्योगिक उद्यमों में औसत वेतन पर सेवानिवृत्त टीम के सदस्यों की संख्या की निर्भरता निर्धारित करने की समस्या पर विचार करें।

काम। छह उद्यमों में, हमने औसत मासिक वेतन और उन कर्मचारियों की संख्या का विश्लेषण किया, जो अपनी मर्जी से चले गए। सारणीबद्ध रूप में हमारे पास है:

छोड़ने वालों की संख्या

वेतन

30000 रूबल

35000 रूबल

40000 रूबल

45000 रूबल

50000 रूबल

55000 रूबल

60000 रूबल

6 उद्यमों में औसत वेतन पर सेवानिवृत्त श्रमिकों की संख्या की निर्भरता निर्धारित करने की समस्या के लिए, प्रतिगमन मॉडल में समीकरण Y = a 0 + a 1 x 1 +…+a k x k का रूप होता है, जहां x i प्रभावित करने वाले चर हैं , a i प्रतिगमन गुणांक हैं, a k कारकों की संख्या है।

इस कार्य के लिए, Y छोड़ने वाले कर्मचारियों का संकेतक है, और प्रभावित करने वाला कारक वेतन है, जिसे हम X से दर्शाते हैं।

स्प्रेडशीट "एक्सेल" की क्षमताओं का उपयोग करना

एक्सेल में रिग्रेशन विश्लेषण उपलब्ध सारणीबद्ध डेटा के लिए अंतर्निहित कार्यों के आवेदन से पहले होना चाहिए। हालांकि, इन उद्देश्यों के लिए, बहुत उपयोगी ऐड-इन "विश्लेषण टूलकिट" का उपयोग करना बेहतर है। इसे सक्रिय करने के लिए आपको चाहिए:

  • "फ़ाइल" टैब से, "विकल्प" अनुभाग पर जाएं;
  • खुलने वाली विंडो में, "ऐड-ऑन" लाइन चुनें;
  • "प्रबंधन" लाइन के दाईं ओर नीचे स्थित "गो" बटन पर क्लिक करें;
  • "विश्लेषण पैकेज" नाम के बगल में स्थित बॉक्स को चेक करें और "ओके" पर क्लिक करके अपने कार्यों की पुष्टि करें।

यदि सब कुछ सही ढंग से किया जाता है, तो वांछित बटन एक्सेल वर्कशीट के ऊपर स्थित डेटा टैब के दाईं ओर दिखाई देगा।

एक्सेल में

अब जब हमारे पास अर्थमितीय गणना करने के लिए सभी आवश्यक आभासी उपकरण हैं, तो हम अपनी समस्या को हल करना शुरू कर सकते हैं। इसके लिए:

  • "डेटा विश्लेषण" बटन पर क्लिक करें;
  • खुलने वाली विंडो में, "रिग्रेशन" बटन पर क्लिक करें;
  • दिखाई देने वाले टैब में, Y (छोड़ने वाले कर्मचारियों की संख्या) और X (उनका वेतन) के लिए मानों की श्रेणी दर्ज करें;
  • हम "ओके" बटन दबाकर अपने कार्यों की पुष्टि करते हैं।

परिणामस्वरूप, प्रोग्राम स्वचालित रूप से प्रतिगमन विश्लेषण डेटा के साथ स्प्रेडशीट की एक नई शीट को पॉप्युलेट करेगा। टिप्पणी! एक्सेल में इस उद्देश्य के लिए आपके द्वारा पसंद किए जाने वाले स्थान को मैन्युअल रूप से सेट करने की क्षमता है। उदाहरण के लिए, यह वही शीट हो सकती है जहां वाई और एक्स मान हैं, या यहां तक ​​​​कि विशेष रूप से ऐसे डेटा को स्टोर करने के लिए डिज़ाइन की गई एक नई कार्यपुस्तिका भी हो सकती है।

आर-स्क्वायर के लिए प्रतिगमन परिणामों का विश्लेषण

एक्सेल में, माना उदाहरण के डेटा के प्रसंस्करण के दौरान प्राप्त डेटा इस तरह दिखता है:

सबसे पहले आपको आर-स्क्वायर की वैल्यू पर ध्यान देना चाहिए। यह निर्धारण का गुणांक है। इस उदाहरण में, आर-स्क्वायर = 0.755 (75.5%), यानी, मॉडल के परिकलित पैरामीटर 75.5% द्वारा माने गए मापदंडों के बीच संबंध की व्याख्या करते हैं। निर्धारण गुणांक का मान जितना अधिक होगा, किसी विशेष कार्य के लिए चुना गया मॉडल उतना ही अधिक लागू होगा। ऐसा माना जाता है कि यह 0.8 से ऊपर के आर-वर्ग मान के साथ वास्तविक स्थिति का सही वर्णन करता है। अगर R-वर्ग<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

अनुपात विश्लेषण

संख्या 64.1428 दर्शाती है कि Y का मान क्या होगा यदि हम जिस मॉडल पर विचार कर रहे हैं उसमें सभी चर xi शून्य पर सेट हैं। दूसरे शब्दों में, यह तर्क दिया जा सकता है कि विश्लेषण किए गए पैरामीटर का मूल्य अन्य कारकों से भी प्रभावित होता है जो किसी विशिष्ट मॉडल में वर्णित नहीं हैं।

सेल B18 में स्थित अगला गुणांक -0.16285, Y पर चर X के प्रभाव के भार को दर्शाता है। इसका मतलब है कि विचाराधीन मॉडल के भीतर कर्मचारियों का औसत मासिक वेतन -0.16285 के वजन के साथ छोड़ने वालों की संख्या को प्रभावित करता है, अर्थात। इसके प्रभाव की डिग्री बिल्कुल छोटी है। "-" चिह्न इंगित करता है कि गुणांक का ऋणात्मक मान है। यह स्पष्ट है, क्योंकि हर कोई जानता है कि उद्यम में वेतन जितना अधिक होता है, उतने ही कम लोग रोजगार अनुबंध को समाप्त करने या छोड़ने की इच्छा व्यक्त करते हैं।

बहु - प्रतिगमन

यह शब्द फॉर्म के कई स्वतंत्र चर के साथ एक कनेक्शन समीकरण को संदर्भित करता है:

y \u003d f (x 1 + x 2 + ... x m) + , जहां y प्रभावी विशेषता (आश्रित चर) है, और x 1 , x 2 , ... x m कारक कारक (स्वतंत्र चर) हैं।

पैरामीटर अनुमान

एकाधिक प्रतिगमन (MR) के लिए इसे कम से कम वर्गों (OLS) की विधि का उपयोग करके किया जाता है। Y = a + b 1 x 1 +…+b m x m + के रूप के रैखिक समीकरणों के लिए, हम सामान्य समीकरणों की एक प्रणाली का निर्माण करते हैं (नीचे देखें)

विधि के सिद्धांत को समझने के लिए, दो-कारक मामले पर विचार करें। तब हमारे पास सूत्र द्वारा वर्णित स्थिति होती है

यहाँ से हमें मिलता है:

जहां सूचकांक में परिलक्षित संबंधित विशेषता का प्रसरण है।

एलएसएम एक मानक पैमाने पर एमपी समीकरण पर लागू होता है। इस मामले में, हमें समीकरण मिलता है:

जहाँ t y , t x 1,… t xm मानकीकृत चर हैं जिनके लिए माध्य मान 0 हैं; β मैं मानकीकृत प्रतिगमन गुणांक हैं, और मानक विचलन 1 है।

कृपया ध्यान दें कि इस मामले में सभी β i को सामान्यीकृत और केंद्रीकृत के रूप में सेट किया गया है, इसलिए एक दूसरे के साथ उनकी तुलना को सही और स्वीकार्य माना जाता है। इसके अलावा, यह βi के सबसे छोटे मूल्यों वाले कारकों को छोड़कर, कारकों को फ़िल्टर करने के लिए प्रथागत है।

रैखिक प्रतिगमन समीकरण का उपयोग करने में समस्या

मान लीजिए कि पिछले 8 महीनों के दौरान किसी विशेष उत्पाद एन की कीमत की गतिशीलता की एक तालिका है। 1850 रूबल / टी की कीमत पर इसके बैच को खरीदने की सलाह पर निर्णय लेना आवश्यक है।

माह संख्या

महीने का नाम

आइटम नंबर की कीमत

1750 रूबल प्रति टन

1755 रूबल प्रति टन

1767 रूबल प्रति टन

1760 रूबल प्रति टन

1770 रूबल प्रति टन

1790 रूबल प्रति टन

1810 रूबल प्रति टन

1840 रूबल प्रति टन

एक्सेल स्प्रेडशीट में इस समस्या को हल करने के लिए, आपको उपरोक्त उदाहरण से पहले से ज्ञात डेटा विश्लेषण टूल का उपयोग करने की आवश्यकता है। अगला, "रिग्रेशन" अनुभाग चुनें और पैरामीटर सेट करें। यह याद रखना चाहिए कि "इनपुट वाई अंतराल" फ़ील्ड में, आश्रित चर के लिए मूल्यों की एक श्रृंखला (इस मामले में, वर्ष के विशिष्ट महीनों में उत्पाद की कीमत) दर्ज की जानी चाहिए, और "इनपुट" में X अंतराल" - स्वतंत्र चर (माह संख्या) के लिए। "ओके" पर क्लिक करके कार्रवाई की पुष्टि करें। एक नई शीट पर (यदि ऐसा संकेत दिया गया था), हमें प्रतिगमन के लिए डेटा मिलता है।

उनके आधार पर, हम y=ax+b फॉर्म का एक रैखिक समीकरण बनाते हैं, जहां पैरामीटर ए और बी महीने की संख्या के नाम के साथ पंक्ति के गुणांक हैं और गुणांक और "वाई-चौराहे" पंक्ति से प्रतिगमन विश्लेषण के परिणामों के साथ शीट। इस प्रकार, समस्या 3 के लिए रैखिक समाश्रयण समीकरण (LE) को इस प्रकार लिखा जाता है:

उत्पाद की कीमत एन = 11.714* माह संख्या + 1727.54।

या बीजीय संकेतन में

वाई = 11.714 एक्स + 1727.54

परिणामों का विश्लेषण

यह तय करने के लिए कि परिणामी रैखिक प्रतिगमन समीकरण पर्याप्त है, एकाधिक सहसंबंध गुणांक (एमसीसी) और निर्धारण गुणांक का उपयोग किया जाता है, साथ ही फिशर का परीक्षण और छात्र का परीक्षण। प्रतिगमन परिणामों के साथ एक्सेल तालिका में, वे क्रमशः एकाधिक आर, आर-वर्ग, एफ-सांख्यिकी और टी-सांख्यिकी के नामों के तहत दिखाई देते हैं।

केएमसी आर स्वतंत्र और आश्रित चर के बीच संभाव्य संबंध की मजबूती का आकलन करना संभव बनाता है। इसका उच्च मूल्य चर "महीने की संख्या" और "माल की कीमत एन प्रति 1 टन रूबल में" के बीच काफी मजबूत संबंध को इंगित करता है। हालाँकि, इस रिश्ते की प्रकृति अज्ञात बनी हुई है।

निर्धारण गुणांक का वर्ग R 2 (RI) कुल प्रकीर्णन के हिस्से की एक संख्यात्मक विशेषता है और प्रयोगात्मक डेटा के किस भाग के बिखराव को दर्शाता है, अर्थात। आश्रित चर के मान रैखिक प्रतिगमन समीकरण से मेल खाते हैं। विचाराधीन समस्या में, यह मान 84.8% के बराबर है, अर्थात्, प्राप्त एसडी द्वारा सांख्यिकीय डेटा को उच्च स्तर की सटीकता के साथ वर्णित किया गया है।

एफ-सांख्यिकी, जिसे फिशर का परीक्षण भी कहा जाता है, का उपयोग एक रैखिक संबंध के महत्व का आकलन करने के लिए किया जाता है, इसके अस्तित्व की परिकल्पना का खंडन या पुष्टि करता है।

(छात्र की कसौटी) एक रैखिक संबंध के अज्ञात या मुक्त पद के साथ गुणांक के महत्व का मूल्यांकन करने में मदद करता है। यदि t-मानदंड का मान> t करोड़, तो रैखिक समीकरण के मुक्त पद के महत्व की परिकल्पना को खारिज कर दिया जाता है।

मुक्त सदस्य के लिए विचाराधीन समस्या में, एक्सेल टूल्स का उपयोग करके, यह प्राप्त किया गया था कि t = 169.20903, और p = 2.89E-12, यानी, हमारे पास एक शून्य संभावना है कि स्वतंत्र सदस्य के महत्व के बारे में सही परिकल्पना होगी खारिज किया जाए। अज्ञात t=5.79405, और p=0.001158 पर गुणांक के लिए। दूसरे शब्दों में, अज्ञात के लिए गुणांक के महत्व के बारे में सही परिकल्पना के खारिज होने की संभावना 0.12% है।

इस प्रकार, यह तर्क दिया जा सकता है कि परिणामी रैखिक प्रतिगमन समीकरण पर्याप्त है।

शेयरों का एक ब्लॉक खरीदने की समीचीनता की समस्या

एक्सेल में मल्टीपल रिग्रेशन एक ही डेटा एनालिसिस टूल का उपयोग करके किया जाता है। एक विशिष्ट लागू समस्या पर विचार करें।

NNN के प्रबंधन को MMM SA में 20% हिस्सेदारी खरीदने की उपयुक्तता पर निर्णय लेना चाहिए। पैकेज की लागत (जेवी) 70 मिलियन अमेरिकी डॉलर है। एनएनएन विशेषज्ञों ने समान लेनदेन पर डेटा एकत्र किया। लाखों अमेरिकी डॉलर में व्यक्त किए गए ऐसे मापदंडों के अनुसार शेयरों के ब्लॉक के मूल्य का मूल्यांकन करने का निर्णय लिया गया, जैसे:

  • देय खाते (वीके);
  • वार्षिक कारोबार (वीओ);
  • प्राप्य खाते (वीडी);
  • अचल संपत्तियों की लागत (एसओएफ)।

इसके अलावा, हजारों अमेरिकी डॉलर में उद्यम (V3 P) के पैरामीटर पेरोल बकाया का उपयोग किया जाता है।

एक्सेल स्प्रेडशीट का उपयोग कर समाधान

सबसे पहले, आपको प्रारंभिक डेटा की एक तालिका बनाने की आवश्यकता है। यह इस तरह दिख रहा है:

  • "डेटा विश्लेषण" विंडो को कॉल करें;
  • "प्रतिगमन" अनुभाग का चयन करें;
  • बॉक्स में "इनपुट अंतराल वाई" कॉलम जी से आश्रित चर के मूल्यों की श्रेणी दर्ज करें;
  • "इनपुट अंतराल X" विंडो के दाईं ओर लाल तीर वाले आइकन पर क्लिक करें और शीट पर कॉलम B, C, D, F से सभी मानों की श्रेणी चुनें।

"नई वर्कशीट" चुनें और "ओके" पर क्लिक करें।

दी गई समस्या के लिए प्रतिगमन विश्लेषण प्राप्त करें।

परिणामों और निष्कर्षों की जांच

एक्सेल स्प्रेडशीट शीट पर ऊपर प्रस्तुत गोल डेटा से "हम एकत्र करते हैं", प्रतिगमन समीकरण:

एसपी \u003d 0.103 * एसओएफ + 0.541 * वीओ - 0.031 * वीके + 0.405 * वीडी + 0.691 * वीजेडपी - 265.844।

अधिक परिचित गणितीय रूप में, इसे इस प्रकार लिखा जा सकता है:

वाई = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

JSC "MMM" के लिए डेटा तालिका में प्रस्तुत किया गया है:

उन्हें प्रतिगमन समीकरण में प्रतिस्थापित करने पर, उन्हें 64.72 मिलियन अमेरिकी डॉलर का आंकड़ा मिलता है। इसका मतलब है कि जेएससी एमएमएम के शेयर नहीं खरीदे जाने चाहिए, क्योंकि उनका मूल्य 70 मिलियन अमेरिकी डॉलर अधिक है।

जैसा कि आप देख सकते हैं, एक्सेल स्प्रेडशीट और रिग्रेशन समीकरण के उपयोग ने एक बहुत ही विशिष्ट लेनदेन की व्यवहार्यता के बारे में एक सूचित निर्णय लेना संभव बना दिया है।

अब आप जानते हैं कि प्रतिगमन क्या है। ऊपर चर्चा किए गए एक्सेल में उदाहरण आपको अर्थमिति के क्षेत्र से व्यावहारिक समस्याओं को हल करने में मदद करेंगे।

प्रतिगमन विश्लेषण अधिकांश अर्थमितीय मॉडलों के निर्माण का आधार है, जिनमें लागत अनुमान मॉडल शामिल किए जाने चाहिए। मूल्यांकन मॉडल बनाने के लिए, इस पद्धति का उपयोग किया जा सकता है यदि एनालॉग्स (तुलनीय वस्तुओं) की संख्या और लागत कारकों (तुलना तत्वों) की संख्या एक दूसरे के साथ निम्नानुसार सहसंबंधित होती है: पी> (5 -g-10) x को,वे। लागत कारकों की तुलना में 5-10 गुना अधिक अनुरूप होना चाहिए। डेटा की मात्रा और कारकों की संख्या के अनुपात के लिए समान आवश्यकता अन्य कार्यों पर लागू होती है: किसी वस्तु की लागत और उपभोक्ता मापदंडों के बीच संबंध स्थापित करना; सुधारात्मक सूचकांकों की गणना के लिए प्रक्रिया का औचित्य; मूल्य प्रवृत्तियों का स्पष्टीकरण; पहनने और प्रभावित करने वाले कारकों में परिवर्तन के बीच संबंध स्थापित करना; लागत मानकों आदि की गणना के लिए निर्भरता प्राप्त करना। यादृच्छिक चर के सामान्य वितरण की आवश्यकता को पूरा नहीं करने वाले डेटा नमूने के साथ काम करने की संभावना को कम करने के लिए इस आवश्यकता की पूर्ति आवश्यक है।

प्रतिगमन संबंध केवल परिणामी चर की औसत प्रवृत्ति को दर्शाता है, जैसे लागत, एक या अधिक कारक चर में परिवर्तन से, जैसे स्थान, कमरों की संख्या, क्षेत्र, फर्श, आदि। यह एक प्रतिगमन संबंध और एक कार्यात्मक एक के बीच का अंतर है, जिसमें परिणामी चर के मूल्य को कारक चर के दिए गए मान के लिए कड़ाई से परिभाषित किया जाता है।

एक प्रतिगमन संबंध की उपस्थिति / परिणामी के बीच परऔर कारक चर एक्स पी ..., एक्स के(कारक) इंगित करता है कि यह संबंध न केवल चयनित कारक चर के प्रभाव से निर्धारित होता है, बल्कि चर के प्रभाव से भी होता है, जिनमें से कुछ आम तौर पर अज्ञात होते हैं, अन्य का आकलन और ध्यान नहीं दिया जा सकता है:

चर के लिए बेहिसाब के प्रभाव को इस समीकरण के दूसरे पद द्वारा दर्शाया गया है ?, जिसे सन्निकटन त्रुटि कहते हैं।

निम्न प्रकार के प्रतिगमन निर्भरताएँ हैं:

  • ? युग्मित प्रतिगमन - दो चर (परिणामी और भाज्य) के बीच संबंध;
  • ? एकाधिक प्रतिगमन - अध्ययन में शामिल एक परिणामी चर और दो या अधिक कारक चर की निर्भरता।

प्रतिगमन विश्लेषण का मुख्य कार्य चर (युग्मित प्रतिगमन में) और कई चर (एकाधिक प्रतिगमन में) के बीच संबंधों की निकटता को मापना है। संबंध की जकड़न को सहसंबंध गुणांक द्वारा निर्धारित किया जाता है।

प्रतिगमन विश्लेषण का उपयोग आपको अध्ययन के तहत संकेतक पर मुख्य कारकों (हेडोनिक विशेषताओं) के प्रभाव के पैटर्न को उनकी समग्रता में और उनमें से प्रत्येक को व्यक्तिगत रूप से स्थापित करने की अनुमति देता है। प्रतिगमन विश्लेषण की मदद से, गणितीय आँकड़ों की एक विधि के रूप में, यह संभव है, सबसे पहले, परिणामी (वांछित) चर की विश्लेषणात्मक निर्भरता के रूप का पता लगाना और वर्णन करना, और दूसरा, की निकटता का अनुमान लगाना। यह निर्भरता।

पहली समस्या को हल करके, एक गणितीय प्रतिगमन मॉडल प्राप्त किया जाता है, जिसकी सहायता से दिए गए कारक मूल्यों के लिए वांछित संकेतक की गणना की जाती है। दूसरी समस्या का समाधान परिकलित परिणाम की विश्वसनीयता स्थापित करना संभव बनाता है।

इस प्रकार, प्रतिगमन विश्लेषण को औपचारिक (गणितीय) प्रक्रियाओं के एक सेट के रूप में परिभाषित किया जा सकता है, जो परिणामी और कारक चर के बीच संबंध के रूप की जकड़न, दिशा और विश्लेषणात्मक अभिव्यक्ति को मापने के लिए डिज़ाइन किया गया है, अर्थात। इस तरह के विश्लेषण का आउटपुट फॉर्म का संरचनात्मक और मात्रात्मक रूप से परिभाषित सांख्यिकीय मॉडल होना चाहिए:

कहाँ पे वाई -परिणामी चर का औसत मूल्य (वांछित संकेतक, उदाहरण के लिए, लागत, किराया, पूंजीकरण दर) से अधिक पीउसके अवलोकन; x कारक चर (/-वें लागत कारक) का मान है; को -कारक चर की संख्या।

समारोह एफ (एक्स एल, ..., एक्स एलसी),परिणामी चर की फैक्टोरियल पर निर्भरता का वर्णन करने को प्रतिगमन समीकरण (फ़ंक्शन) कहा जाता है। शब्द "प्रतिगमन" (प्रतिगमन (अव्य।) - पीछे हटना, किसी चीज़ पर लौटना) विधि के गठन के चरण में हल किए गए विशिष्ट कार्यों में से एक की बारीकियों से जुड़ा है, और वर्तमान में संपूर्ण सार को प्रतिबिंबित नहीं करता है विधि, लेकिन उपयोग जारी है।

प्रतिगमन विश्लेषण में आम तौर पर निम्नलिखित चरण शामिल होते हैं:

  • ? सजातीय वस्तुओं के नमूने का निर्माण और इन वस्तुओं के बारे में प्रारंभिक जानकारी का संग्रह;
  • ? परिणामी चर को प्रभावित करने वाले मुख्य कारकों का चयन;
  • ? सामान्यता के लिए नमूने की जाँच एक्स 2 या द्विपद मानदंड;
  • ? संचार के रूप के बारे में परिकल्पना की स्वीकृति;
  • ? गणितीय डेटा प्रोसेसिंग;
  • ? प्रतिगमन मॉडल प्राप्त करना;
  • ? इसके सांख्यिकीय संकेतकों का आकलन;
  • ? प्रतिगमन मॉडल का उपयोग करके सत्यापन गणना;
  • ? परिणामों का विश्लेषण।

संचालन का निर्दिष्ट क्रम एक कारक चर और एक परिणामी चर के बीच एक जोड़ी संबंध और परिणामी चर और कई कारक चर के बीच एक बहु संबंध दोनों के अध्ययन में होता है।

प्रतिगमन विश्लेषण का उपयोग प्रारंभिक जानकारी पर कुछ आवश्यकताओं को लागू करता है:

  • ? वस्तुओं का एक सांख्यिकीय नमूना कार्यात्मक और रचनात्मक-तकनीकी शब्दों में सजातीय होना चाहिए;
  • ? काफी असंख्य;
  • ? अध्ययन के तहत लागत संकेतक - परिणामी चर (मूल्य, लागत, लागत) - नमूने में सभी वस्तुओं के लिए इसकी गणना के लिए समान शर्तों तक कम किया जाना चाहिए;
  • ? कारक चर को पर्याप्त रूप से सटीक रूप से मापा जाना चाहिए;
  • ? कारक चर स्वतंत्र या न्यूनतम निर्भर होना चाहिए।

नमूने की एकरूपता और पूर्णता के लिए आवश्यकताएं संघर्ष में हैं: वस्तुओं का चयन उनकी एकरूपता के अनुसार जितना अधिक सख्ती से किया जाता है, नमूना उतना ही छोटा होता है, और, इसके विपरीत, नमूने को बड़ा करने के लिए, वस्तुओं को शामिल करना आवश्यक होता है एक दूसरे से बहुत मिलते-जुलते नहीं हैं।

सजातीय वस्तुओं के समूह के लिए डेटा एकत्र करने के बाद, सैद्धांतिक प्रतिगमन रेखा के रूप में परिणामी और कारक चर के बीच संबंध के रूप को स्थापित करने के लिए उनका विश्लेषण किया जाता है। सैद्धांतिक प्रतिगमन रेखा को खोजने की प्रक्रिया में अनुमानित वक्र की उचित पसंद और इसके समीकरण के गुणांक की गणना शामिल है। प्रतिगमन रेखा एक चिकनी वक्र (एक विशेष मामले में, एक सीधी रेखा) है जो गणितीय फ़ंक्शन का उपयोग करके, अध्ययन के तहत निर्भरता की सामान्य प्रवृत्ति का वर्णन करती है और अनियमित, यादृच्छिक आउटलेयर को साइड कारकों के प्रभाव से सुचारू करती है।

मूल्यांकन कार्यों में युग्मित प्रतिगमन निर्भरता प्रदर्शित करने के लिए, निम्नलिखित कार्यों का सबसे अधिक उपयोग किया जाता है: रैखिक - वाई - एक 0 + एआरएस + एसशक्ति - वाई - एजे और आई + सीप्रदर्शनकारी - वाई -रैखिक घातांक - वाई - ए 0 + एआर * + एस।यहां - यादृच्छिक कारकों के लिए बेहिसाब कार्रवाई के कारण सन्निकटन त्रुटि।

इन कार्यों में, y परिणामी चर है; एक्स - कारक चर (कारक); 0 , ए आर ए 2 -प्रतिगमन मॉडल पैरामीटर, प्रतिगमन गुणांक।

रैखिक घातांक मॉडल फॉर्म के तथाकथित हाइब्रिड मॉडल के वर्ग से संबंधित है:

कहाँ पे

जहां x (मैं = 1, /) - कारकों के मूल्य;

बी टी (मैं = 0, /) प्रतीपगमन समीकरण के गुणांक हैं।

इस समीकरण में, घटक ए, बीऔर जेडसंपत्ति के अलग-अलग घटकों की लागत के अनुरूप, उदाहरण के लिए, एक भूमि भूखंड की लागत और सुधार की लागत, और पैरामीटर क्यूवह सामान्य है। यह एक सामान्य प्रभाव कारक, जैसे स्थान के लिए मूल्यवान संपत्ति के सभी घटकों के मूल्य को समायोजित करने के लिए डिज़ाइन किया गया है।

कारकों के मान जो संबंधित गुणांक की डिग्री में हैं, द्विआधारी चर (0 या 1) हैं। डिग्री के आधार पर कारक असतत या निरंतर चर हैं।

गुणन चिह्न गुणांक से जुड़े कारक भी निरंतर या असतत होते हैं।

विनिर्देश, एक नियम के रूप में, एक अनुभवजन्य दृष्टिकोण का उपयोग करके किया जाता है और इसमें दो चरण शामिल होते हैं:

  • ? ग्राफ पर रिग्रेशन फील्ड के प्लॉटिंग पॉइंट्स;
  • ? एक संभावित सन्निकटन वक्र के प्रकार का चित्रमय (दृश्य) विश्लेषण।

प्रतिगमन वक्र का प्रकार हमेशा तुरंत चयन योग्य नहीं होता है। इसे निर्धारित करने के लिए, प्रतिगमन क्षेत्र के बिंदुओं को पहले प्रारंभिक डेटा के अनुसार ग्राफ पर प्लॉट किया जाता है। फिर, संबंधों के गुणात्मक पैटर्न का पता लगाने की कोशिश करते हुए, बिंदुओं की स्थिति के साथ एक रेखा खींची जाती है: एक समान वृद्धि या एक समान कमी, गतिकी की दर में वृद्धि (कमी) के साथ वृद्धि (कमी), एक सहज दृष्टिकोण एक निश्चित स्तर।

अध्ययन के तहत कारकों की आर्थिक और भौतिक प्रकृति और उनके पारस्परिक प्रभाव के बारे में पहले से ही ज्ञात विचारों से शुरू होकर, यह अनुभवजन्य दृष्टिकोण तार्किक विश्लेषण द्वारा पूरक है।

उदाहरण के लिए, यह ज्ञात है कि परिणामी चर की निर्भरता - कई कारक चर पर आर्थिक संकेतक (कीमतें, किराया) - मूल्य-निर्माण कारक (निपटान, क्षेत्र, आदि के केंद्र से दूरी) गैर-रैखिक हैं , और उन्हें एक शक्ति, घातीय या द्विघात कार्य द्वारा काफी सख्ती से वर्णित किया जा सकता है। लेकिन कारकों की छोटी श्रेणियों के साथ, एक रैखिक फ़ंक्शन का उपयोग करके स्वीकार्य परिणाम भी प्राप्त किए जा सकते हैं।

यदि किसी एक फ़ंक्शन का तुरंत आत्मविश्वास से चुनाव करना अभी भी असंभव है, तो दो या तीन फ़ंक्शन चुने जाते हैं, उनके मापदंडों की गणना की जाती है, और फिर, कनेक्शन की जकड़न के लिए उपयुक्त मानदंड का उपयोग करके, फ़ंक्शन को अंततः चुना जाता है।

सिद्धांत रूप में, वक्र के आकार को खोजने की प्रतिगमन प्रक्रिया को कहा जाता है विनिर्देशमॉडल, और इसके गुणांक - अंशांकनमॉडल।

यदि यह पाया जाता है कि परिणामी चर y कई तथ्यात्मक चर (कारकों) पर निर्भर करता है एक्स ( , एक्स 2 , ..., एक्स के,फिर वे एक बहु प्रतिगमन मॉडल बनाने का सहारा लेते हैं। आमतौर पर बहुसंचार के तीन रूपों का उपयोग किया जाता है: रैखिक - वाई - ए 0 + ए एक्स एक्स एक्स + ए ^ एक्स 2 + ... + एक के एक्स के,प्रदर्शनकारी - वाई - ए 0 ए*मैं ए एक्स टी- ए एक्स बी,शक्ति - वाई - ए 0 एक्स एक्स ix 2 a 2. .x^ या उसके संयोजन।

घातीय और घातीय कार्य अधिक सार्वभौमिक हैं, क्योंकि वे गैर-रैखिक संबंधों का अनुमान लगाते हैं, जो कि मूल्यांकन में अध्ययन किए गए अधिकांश निर्भरताएं हैं। इसके अलावा, उनका उपयोग वस्तुओं के मूल्यांकन में और बड़े पैमाने पर मूल्यांकन के लिए सांख्यिकीय मॉडलिंग की विधि में और सुधार कारकों की स्थापना करते समय व्यक्तिगत मूल्यांकन में प्रत्यक्ष तुलना की विधि में किया जा सकता है।

अंशांकन चरण में, प्रतिगमन मॉडल के मापदंडों की गणना कम से कम वर्ग विधि द्वारा की जाती है, जिसका सार यह है कि परिणामी चर के गणना मूल्यों के वर्ग विचलन का योग है पर।, अर्थात। चयनित संबंध समीकरण के अनुसार गणना, वास्तविक मूल्यों से न्यूनतम होना चाहिए:

मान जे) (। और वाईजाना जाता है, इसलिए क्यूसमीकरण के केवल गुणांकों का एक फलन है। न्यूनतम खोजने के लिए एसआंशिक डेरिवेटिव लें क्यूसमीकरण के गुणांकों द्वारा और उन्हें शून्य के बराबर करें:

नतीजतन, हम सामान्य समीकरणों की एक प्रणाली प्राप्त करते हैं, जिसकी संख्या वांछित प्रतिगमन समीकरण के निर्धारित गुणांक की संख्या के बराबर होती है।

मान लीजिए हमें रैखिक समीकरण के गुणांक खोजने की आवश्यकता है वाई - ए 0 + आर्स।वर्ग विचलन का योग है:

/=1

फ़ंक्शन को अलग करें क्यूअज्ञात गुणांक द्वारा एक 0और और आंशिक डेरिवेटिव को शून्य के बराबर करें:

परिवर्तन के बाद हम प्राप्त करते हैं:

कहाँ पे पी -वास्तविक वास्तविक मूल्यों की संख्या परउन्हें (एनालॉग की संख्या)।

प्रतिगमन समीकरण के गुणांकों की गणना के लिए उपरोक्त प्रक्रिया गैर-रेखीय निर्भरताओं के लिए भी लागू होती है, यदि इन निर्भरताओं को रैखिक किया जा सकता है, अर्थात। चरों के परिवर्तन का उपयोग करके एक रैखिक रूप में लाना। लॉगरिदम लेने के बाद शक्ति और घातीय कार्य और चर के संबंधित परिवर्तन एक रैखिक रूप प्राप्त करते हैं। उदाहरण के लिए, एक लघुगणक लेने के बाद एक शक्ति कार्य रूप लेता है: y \u003d 1n 0 . में +ए एक्स 1 घंटे चरों के परिवर्तन के बाद वाई-में वाई, एल 0 -में और नंबर एक्स- x में हमें एक रेखीय फलन मिलता है

वाई = ए0 + सीजेएक्स,जिनके गुणांक ऊपर वर्णित अनुसार पाए जाते हैं।

बहु प्रतिगमन मॉडल के गुणांकों की गणना के लिए कम से कम वर्ग विधि का भी उपयोग किया जाता है। तो, दो चर के साथ एक रैखिक कार्य की गणना के लिए सामान्य समीकरणों की प्रणाली Xjऔर एक्स 2परिवर्तनों की एक श्रृंखला के बाद, यह इस तरह दिखता है:

आमतौर पर समीकरणों की इस प्रणाली को रैखिक बीजगणित विधियों का उपयोग करके हल किया जाता है। एक बहु घातांकीय फलन को एक रेखीय रूप में लाया जाता है, जिसमें लघुगणक और चरों को एक युग्मित घातांकीय फलन की तरह ही बदल दिया जाता है।

हाइब्रिड मॉडल का उपयोग करते समय, क्रमिक सन्निकटन की विधि की संख्यात्मक प्रक्रियाओं का उपयोग करते हुए कई प्रतिगमन गुणांक पाए जाते हैं।

कई प्रतिगमन समीकरणों के बीच अंतिम विकल्प बनाने के लिए, रिश्ते की जकड़न के लिए प्रत्येक समीकरण का परीक्षण करना आवश्यक है, जिसे सहसंबंध गुणांक, विचरण और भिन्नता के गुणांक द्वारा मापा जाता है। मूल्यांकन के लिए, आप छात्र और फिशर के मानदंड का भी उपयोग कर सकते हैं। कनेक्शन की जकड़न जितनी अधिक वक्र को प्रकट करती है, उतनी ही बेहतर होती है, अन्य सभी चीजें समान होती हैं।

यदि इस तरह के एक वर्ग की समस्या का समाधान किया जा रहा है, जब लागत कारकों पर लागत संकेतक की निर्भरता स्थापित करना आवश्यक है, तो अधिक से अधिक प्रभावित करने वाले कारकों को ध्यान में रखते हुए और इस तरह एक अधिक सटीक एकाधिक प्रतिगमन मॉडल बनाने की इच्छा है समझने योग्य। हालांकि, दो उद्देश्य सीमाएं कारकों की संख्या के विस्तार में बाधा डालती हैं। सबसे पहले, एक बहु प्रतिगमन मॉडल के निर्माण के लिए युग्मित मॉडल के निर्माण की तुलना में वस्तुओं के बहुत बड़े नमूने की आवश्यकता होती है। यह आम तौर पर स्वीकार किया जाता है कि नमूने में वस्तुओं की संख्या संख्या से अधिक होनी चाहिए पीकारक, कम से कम 5-10 बार। यह इस प्रकार है कि तीन प्रभावित करने वाले कारकों के साथ एक मॉडल बनाने के लिए, कारक मूल्यों के विभिन्न सेटों के साथ लगभग 20 वस्तुओं का एक नमूना एकत्र करना आवश्यक है। दूसरे, मूल्य संकेतक पर उनके प्रभाव में मॉडल के लिए चुने गए कारक एक दूसरे से पर्याप्त रूप से स्वतंत्र होने चाहिए। यह सुनिश्चित करना आसान नहीं है, क्योंकि नमूना आमतौर पर एक ही परिवार से संबंधित वस्तुओं को जोड़ता है, जिसमें वस्तु से वस्तु में कई कारकों में नियमित परिवर्तन होता है।

प्रतिगमन मॉडल की गुणवत्ता का परीक्षण आमतौर पर निम्नलिखित आँकड़ों का उपयोग करके किया जाता है।

प्रतिगमन समीकरण त्रुटि का मानक विचलन (आकलन त्रुटि):

कहाँ पे पी -नमूना आकार (एनालॉग की संख्या);

को -कारकों की संख्या (लागत कारक);

प्रतिगमन समीकरण द्वारा अस्पष्टीकृत त्रुटि (चित्र। 3.2);

वाई -परिणामी चर का वास्तविक मूल्य (उदाहरण के लिए, लागत); वाई टी -परिणामी चर का परिकलित मान।

इस सूचक को भी कहा जाता है अनुमान की मानक त्रुटि (RMS त्रुटि)) आकृति में, बिंदु नमूने के विशिष्ट मूल्यों को इंगित करते हैं, प्रतीक नमूने के औसत मूल्यों की रेखा को इंगित करता है, इच्छुक डैश-बिंदीदार रेखा प्रतिगमन रेखा है।


चावल। 3.2.

अनुमान त्रुटि का मानक विचलन संबंधित परिकलित मानों से y के वास्तविक मानों के विचलन की मात्रा को मापता है। पर( , प्रतिगमन मॉडल का उपयोग करके प्राप्त किया गया। यदि नमूना जिस पर मॉडल बनाया गया है वह सामान्य वितरण कानून के अधीन है, तो यह तर्क दिया जा सकता है कि वास्तविक मूल्यों का 68% परदायरे में हैं पर ± & इप्रतिगमन रेखा से, और 95% - सीमा में पर ± 2डी ई. यह सूचक सुविधाजनक है क्योंकि माप की इकाइयाँ एसजी?माप की इकाइयों का मिलान करें पर,। इस संबंध में, इसका उपयोग मूल्यांकन प्रक्रिया में प्राप्त परिणाम की सटीकता को इंगित करने के लिए किया जा सकता है। उदाहरण के लिए, मूल्य के प्रमाण पत्र में, आप संकेत कर सकते हैं कि प्रतिगमन मॉडल का उपयोग करके प्राप्त बाजार मूल्य का मूल्य वी 95% की संभावना के साथ की सीमा में है (वी-2डी,।)इससे पहले (पर + 2ds)।

परिणामी चर की भिन्नता का गुणांक:

कहाँ पे वाई -परिणामी चर का माध्य मान (चित्र 3.2)।

प्रतिगमन विश्लेषण में, भिन्नता var का गुणांक परिणाम का मानक विचलन है, जिसे परिणाम चर के माध्य के प्रतिशत के रूप में व्यक्त किया जाता है। भिन्नता का गुणांक परिणामी प्रतिगमन मॉडल के भविष्य कहनेवाला गुणों के लिए एक मानदंड के रूप में काम कर सकता है: मान जितना छोटा होगा वर, उच्च मॉडल के भविष्य कहनेवाला गुण हैं। विचरण के गुणांक का उपयोग घातांक और ई के लिए बेहतर है, क्योंकि यह एक सापेक्ष घातांक है। इस सूचक के व्यावहारिक उपयोग में, ऐसे मॉडल का उपयोग न करने की अनुशंसा की जा सकती है जिसका भिन्नता गुणांक 33% से अधिक है, क्योंकि इस मामले में यह नहीं कहा जा सकता है कि ये नमूने सामान्य वितरण कानून के अधीन हैं।

निर्धारण गुणांक (एकाधिक सहसंबंध गुणांक वर्ग):

इस सूचक का उपयोग परिणामी प्रतिगमन मॉडल की समग्र गुणवत्ता का विश्लेषण करने के लिए किया जाता है। यह इंगित करता है कि मॉडल में शामिल सभी कारक चर के प्रभाव के कारण परिणामी चर में भिन्नता का कितना प्रतिशत है। निर्धारण गुणांक हमेशा शून्य से एक की सीमा में होता है। एकता के लिए दृढ़ संकल्प गुणांक का मान जितना करीब होगा, मॉडल उतना ही बेहतर मूल डेटा श्रृंखला का वर्णन करेगा। निर्धारण के गुणांक को दूसरे तरीके से दर्शाया जा सकता है:

यहाँ प्रतिगमन मॉडल द्वारा समझाया गया त्रुटि है,

- त्रुटि अस्पष्टीकृत

प्रतिगमन मॉडल। आर्थिक दृष्टिकोण से, यह मानदंड यह निर्धारित करना संभव बनाता है कि प्रतिगमन समीकरण द्वारा मूल्य भिन्नता का कितना प्रतिशत समझाया गया है।

संकेतक की सटीक स्वीकृति सीमा R2सभी मामलों के लिए निर्दिष्ट करना असंभव है। नमूना आकार और समीकरण की सार्थक व्याख्या दोनों को ध्यान में रखा जाना चाहिए। एक नियम के रूप में, लगभग एक ही समय में प्राप्त एक ही प्रकार की वस्तुओं पर डेटा का अध्ययन करते समय, मान R2 0.6-0.7 के स्तर से अधिक नहीं है। यदि सभी पूर्वानुमान त्रुटियाँ शून्य हैं, अर्थात। जब परिणामी और कारक चर के बीच संबंध कार्यात्मक होता है, तब R2 =1.

निर्धारण का समायोजित गुणांक:

निर्धारण के समायोजित गुणांक को पेश करने की आवश्यकता को इस तथ्य से समझाया गया है कि कारकों की संख्या में वृद्धि के साथ कोनिर्धारण का सामान्य गुणांक लगभग हमेशा बढ़ता है, लेकिन स्वतंत्रता की डिग्री की संख्या घट जाती है (एन - के- एक)। दर्ज किया गया समायोजन हमेशा मान को कम करता है R2,जहां तक ​​कि (पी - 1) > (पी- से-एक)। परिणामस्वरूप, मान आर 2 सीकेओएफ)नकारात्मक भी हो सकता है। इसका मतलब है कि मूल्य R2समायोजन से पहले शून्य के करीब था और चर के प्रतिगमन समीकरण द्वारा समझाया गया विचरण का अनुपात परबहुत छोटे से।

प्रतिगमन मॉडल के दो रूपों में से जो निर्धारण के समायोजित गुणांक के मूल्य में भिन्न होते हैं, लेकिन समान रूप से अच्छे अन्य गुणवत्ता मानदंड होते हैं, निर्धारण के समायोजित गुणांक के बड़े मूल्य के साथ संस्करण बेहतर होता है। निर्धारण के गुणांक को समायोजित नहीं किया जाता है यदि (एन - के): के> 20.

फिशर अनुपात:

इस मानदंड का उपयोग निर्धारण गुणांक के महत्व का आकलन करने के लिए किया जाता है। वर्गों का अवशिष्ट योग ज्ञात लागत मूल्यों के प्रतिगमन का उपयोग करके भविष्यवाणी त्रुटि का एक उपाय है पर..वर्गों के प्रतिगमन योग के साथ इसकी तुलना से पता चलता है कि कितनी बार प्रतिगमन निर्भरता माध्य से बेहतर परिणाम की भविष्यवाणी करती है पर. महत्वपूर्ण मूल्यों की एक तालिका है एफ आरअंश की स्वतंत्रता की डिग्री की संख्या के आधार पर फिशर गुणांक - को, हर वी 2 = पी - के- 1 और महत्व स्तर ए। यदि फिशर मानदंड का परिकलित मान एफ आरतालिका मान से अधिक है, तो निर्धारण के गुणांक के महत्व की परिकल्पना, अर्थात्। प्रतिगमन समीकरण और वास्तव में मौजूदा लोगों में अंतर्निहित संबंधों के बीच विसंगति के बारे में, संभावना के साथ p = 1 - a को खारिज कर दिया जाता है।

औसत सन्निकटन त्रुटि(औसत प्रतिशत विचलन) की गणना औसत सापेक्ष अंतर के रूप में की जाती है, जिसे प्रतिशत के रूप में व्यक्त किया जाता है, परिणामी चर के वास्तविक और परिकलित मूल्यों के बीच:

इस सूचक का मूल्य जितना कम होगा, मॉडल की भविष्य कहनेवाला गुणवत्ता उतनी ही बेहतर होगी। जब इस सूचक का मूल्य 7% से अधिक नहीं होता है, तो वे मॉडल की उच्च सटीकता का संकेत देते हैं। यदि एक 8 > 15%, मॉडल की असंतोषजनक सटीकता का संकेत देते हैं।

प्रतिगमन गुणांक की मानक त्रुटि:

जहां (/I) -1 .- मैट्रिक्स का विकर्ण तत्व (एक्स जी एक्स) ~ 1 से -कारकों की संख्या;

एक्स-कारक चर मानों का मैट्रिक्स:

X7-कारक चर मानों का ट्रांसपोज़्ड मैट्रिक्स;

(जेएल) _| मैट्रिक्स के विपरीत एक मैट्रिक्स है।

प्रत्येक प्रतिगमन गुणांक के लिए ये स्कोर जितना छोटा होगा, संबंधित प्रतिगमन गुणांक का अनुमान उतना ही अधिक विश्वसनीय होगा।

छात्र का परीक्षण (टी-सांख्यिकी):

यह मानदंड आपको दिए गए प्रतिगमन गुणांक के कारण रिश्ते की विश्वसनीयता (महत्व) की डिग्री को मापने की अनुमति देता है। यदि परिकलित मान टी. तालिका मान से अधिक

टीए वी, जहां वी - पी - के - 1 स्वतंत्रता की डिग्री की संख्या है, तो परिकल्पना कि यह गुणांक सांख्यिकीय रूप से महत्वहीन है (100 - ए)% की संभावना के साथ खारिज कर दिया गया है। /-वितरण की विशेष तालिकाएँ हैं जो किसी दिए गए स्तर के महत्व और स्वतंत्रता की डिग्री की संख्या द्वारा मानदंड के महत्वपूर्ण मूल्य को निर्धारित करना संभव बनाती हैं। a का सबसे अधिक इस्तेमाल किया जाने वाला मान 5% है।

multicollinearity, अर्थात। कारक चरों के बीच पारस्परिक संबंधों के प्रभाव से सीमित संख्या में संतुष्ट होने की आवश्यकता होती है। यदि इस पर ध्यान नहीं दिया जाता है, तो आप एक अतार्किक प्रतिगमन मॉडल के साथ समाप्त हो सकते हैं। बहुसंकेतन के नकारात्मक प्रभाव से बचने के लिए, एक बहु प्रतिगमन मॉडल बनाने से पहले, युग्म सहसंबंध गुणांक की गणना की जाती है आरएक्सजेएक्सजेचयनित चर के बीच एक्स।और एक्स

यहां एक्सजेएक्स; -दो भाज्य चरों के गुणनफल का माध्य मान;

एक्सजेएक्सजे-दो कारक चर के औसत मूल्यों का उत्पाद;

कारक चर x के प्रसरण का मूल्यांकन..

दो चरों को प्रतिगामी रूप से संबंधित माना जाता है (अर्थात, कोलिनियर) यदि उनका जोड़ीदार सहसंबंध गुणांक निरपेक्ष मान में 0.8 से सख्ती से अधिक है। इस मामले में, इनमें से किसी भी चर को विचार से बाहर रखा जाना चाहिए।

परिणामी प्रतिगमन मॉडल के आर्थिक विश्लेषण की संभावनाओं का विस्तार करने के लिए, औसत का उपयोग किया जाता है लोच के गुणांक,सूत्र द्वारा निर्धारित:

कहाँ पे एक्सजे-संगत कारक चर का माध्य मान;

वाई -परिणामी चर का माध्य मान; एक मैं -संबंधित कारक चर के लिए प्रतिगमन गुणांक।

लोच गुणांक दर्शाता है कि परिणामी चर का मान औसतन कितने प्रतिशत बदलेगा जब कारक चर 1% से बदलता है, अर्थात। परिणामी चर, कारक चर में परिवर्तन पर कैसे प्रतिक्रिया करता है। उदाहरण के लिए, वर्ग की कीमत कैसे होती है। शहर के केंद्र से कुछ दूरी पर अपार्टमेंट का मी क्षेत्र।

किसी विशेष समाश्रयण गुणांक के महत्व का विश्लेषण करने की दृष्टि से उपयोगी अनुमान है निर्धारण का निजी गुणांक:

यहाँ परिणामी के विचरण का अनुमान है

चर। यह गुणांक दर्शाता है कि प्रतीपगमन समीकरण में शामिल /-वें कारक चर की भिन्नता द्वारा परिणामी चर की भिन्नता को कितने प्रतिशत समझाया गया है।

  • हेडोनिक विशेषताएँ किसी वस्तु की विशेषताएँ हैं जो खरीदारों और विक्रेताओं के दृष्टिकोण से इसके उपयोगी (मूल्यवान) गुणों को दर्शाती हैं।

प्रतिगमन और सहसंबंध विश्लेषण - सांख्यिकीय अनुसंधान विधियां। ये एक या अधिक स्वतंत्र चरों पर किसी पैरामीटर की निर्भरता दिखाने के सबसे सामान्य तरीके हैं।

नीचे, ठोस व्यावहारिक उदाहरणों का उपयोग करते हुए, हम अर्थशास्त्रियों के बीच इन दो बहुत लोकप्रिय विश्लेषणों पर विचार करेंगे। हम परिणाम प्राप्त करने का एक उदाहरण भी देंगे जब वे संयुक्त हों।

एक्सेल में रिग्रेशन विश्लेषण

आश्रित चर पर कुछ मूल्यों (स्वतंत्र, स्वतंत्र) के प्रभाव को दर्शाता है। उदाहरण के लिए, आर्थिक रूप से सक्रिय आबादी की संख्या उद्यमों की संख्या, मजदूरी और अन्य मापदंडों पर कैसे निर्भर करती है। या: विदेशी निवेश, ऊर्जा की कीमतें आदि जीडीपी के स्तर को कैसे प्रभावित करते हैं।

विश्लेषण का परिणाम आपको प्राथमिकता देने की अनुमति देता है। और मुख्य कारकों के आधार पर, भविष्यवाणी करना, प्राथमिकता वाले क्षेत्रों के विकास की योजना बनाना, प्रबंधन निर्णय लेना।

प्रतिगमन होता है:

  • रैखिक (y = a + bx);
  • परवलयिक (y = a + bx + cx 2);
  • घातांक (y = a * क्स्प (बीएक्स));
  • शक्ति (y = a*x^b);
  • अतिशयोक्तिपूर्ण (y = b/x + a);
  • लघुगणक (y = b * 1n(x) + a);
  • घातांक (y = a * b^x)।

एक्सेल में रिग्रेशन मॉडल बनाने और परिणामों की व्याख्या करने के उदाहरण पर विचार करें। आइए एक रैखिक प्रकार का प्रतिगमन लें।

काम। 6 उद्यमों में, औसत मासिक वेतन और छोड़ने वाले कर्मचारियों की संख्या का विश्लेषण किया गया। औसत वेतन पर सेवानिवृत्त कर्मचारियों की संख्या की निर्भरता का निर्धारण करना आवश्यक है।

रैखिक प्रतिगमन मॉडल का निम्न रूप है:

वाई \u003d ए 0 + ए 1 एक्स 1 + ... + ए के एक्स के।

जहाँ a प्रतिगमन गुणांक हैं, x प्रभावित करने वाले चर हैं, और k कारकों की संख्या है।

हमारे उदाहरण में, Y छोड़े गए श्रमिकों का सूचक है। प्रभावित करने वाला कारक मजदूरी (x) है।

एक्सेल में अंतर्निहित कार्य हैं जिनका उपयोग रैखिक प्रतिगमन मॉडल के मापदंडों की गणना के लिए किया जा सकता है। लेकिन विश्लेषण टूलपैक ऐड-इन इसे तेजी से करेगा।

एक शक्तिशाली विश्लेषणात्मक उपकरण सक्रिय करें:

एक बार सक्रिय होने पर, ऐड-ऑन डेटा टैब के अंतर्गत उपलब्ध होगा।

अब हम सीधे प्रतिगमन विश्लेषण से निपटेंगे।



सबसे पहले, हम आर-वर्ग और गुणांक पर ध्यान देते हैं।

आर-वर्ग निर्धारण का गुणांक है। हमारे उदाहरण में, यह 0.755 या 75.5% है। इसका मतलब यह है कि मॉडल के परिकलित पैरामीटर अध्ययन किए गए मापदंडों के बीच 75.5% की निर्भरता की व्याख्या करते हैं। निर्धारण का गुणांक जितना अधिक होगा, मॉडल उतना ही बेहतर होगा। अच्छा - 0.8 से ऊपर। खराब - 0.5 से कम (इस तरह के विश्लेषण को शायद ही उचित माना जा सकता है)। हमारे उदाहरण में - "बुरा नहीं"।

गुणांक 64.1428 दर्शाता है कि यदि विचाराधीन मॉडल में सभी चर 0 के बराबर हैं, तो Y क्या होगा। अर्थात्, अन्य कारक जो मॉडल में वर्णित नहीं हैं, वे भी विश्लेषण किए गए पैरामीटर के मूल्य को प्रभावित करते हैं।

गुणांक -0.16285, Y पर चर X के वजन को दर्शाता है। यानी, इस मॉडल के भीतर औसत मासिक वेतन -0.16285 के वजन के साथ छोड़ने वालों की संख्या को प्रभावित करता है (यह प्रभाव की एक छोटी डिग्री है)। "-" संकेत एक नकारात्मक प्रभाव को इंगित करता है: वेतन जितना अधिक होगा, उतना ही कम छोड़ दिया जाएगा। जो न्यायसंगत है।



एक्सेल में सहसंबंध विश्लेषण

सहसंबंध विश्लेषण यह स्थापित करने में मदद करता है कि एक या दो नमूनों में संकेतकों के बीच कोई संबंध है या नहीं। उदाहरण के लिए, मशीन के संचालन समय और मरम्मत की लागत, उपकरण की कीमत और संचालन की अवधि, बच्चों की ऊंचाई और वजन आदि के बीच।

यदि कोई संबंध है, तो क्या एक पैरामीटर में वृद्धि से वृद्धि (सकारात्मक सहसंबंध) या दूसरे में कमी (नकारात्मक) होती है। सहसंबंध विश्लेषण विश्लेषक को यह निर्धारित करने में मदद करता है कि क्या एक संकेतक के मूल्य का उपयोग दूसरे के संभावित मूल्य की भविष्यवाणी करने के लिए किया जा सकता है।

सहसंबंध गुणांक को r दर्शाया गया है। +1 से -1 तक भिन्न होता है। विभिन्न क्षेत्रों के लिए सहसंबंधों का वर्गीकरण अलग-अलग होगा। जब गुणांक मान 0 होता है, तो नमूनों के बीच कोई रैखिक संबंध नहीं होता है।

सहसंबंध गुणांक खोजने के लिए एक्सेल का उपयोग करने पर विचार करें।

CORREL फ़ंक्शन का उपयोग युग्मित गुणांकों को खोजने के लिए किया जाता है।

कार्य: निर्धारित करें कि क्या खराद के संचालन समय और उसके रखरखाव की लागत के बीच कोई संबंध है।

किसी भी सेल में कर्सर रखें और fx बटन दबाएं।

  1. "सांख्यिकीय" श्रेणी में, CORREL फ़ंक्शन का चयन करें।
  2. तर्क "ऐरे 1" - मानों की पहली श्रेणी - मशीन का समय: A2: A14।
  3. तर्क "ऐरे 2" - मूल्यों की दूसरी श्रेणी - मरम्मत की लागत: बी 2: बी 14। ओके पर क्लिक करें।

कनेक्शन के प्रकार को निर्धारित करने के लिए, आपको गुणांक की निरपेक्ष संख्या (गतिविधि के प्रत्येक क्षेत्र का अपना पैमाना) देखने की जरूरत है।

कई मापदंडों (2 से अधिक) के सहसंबंध विश्लेषण के लिए, "डेटा विश्लेषण" ("विश्लेषण पैकेज" ऐड-ऑन) का उपयोग करना अधिक सुविधाजनक है। सूची में, आपको एक सहसंबंध का चयन करने और एक सरणी नामित करने की आवश्यकता है। सभी।

परिणामी गुणांक सहसंबंध मैट्रिक्स में प्रदर्शित किए जाएंगे। यह एक तरह:

सहसंबंध-प्रतिगमन विश्लेषण

व्यवहार में, इन दोनों तकनीकों का अक्सर एक साथ उपयोग किया जाता है।

उदाहरण:


अब प्रतिगमन विश्लेषण डेटा दिखाई दे रहा है।

प्रतिगमन क्या है?

दो सतत चरों पर विचार करें x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n)।

आइए बिंदुओं को 2D स्कैटर प्लॉट पर रखें और कहें कि हमारे पास है रैखिक संबंधयदि डेटा एक सीधी रेखा द्वारा अनुमानित है।

अगर हम मान लें कि आपपर निर्भर करता है एक्स, और में परिवर्तन आपमें परिवर्तन के कारण एक्स, हम एक प्रतिगमन रेखा (प्रतिगमन .) को परिभाषित कर सकते हैं आपपर एक्स), जो इन दो चरों के बीच सीधे-सीधे संबंध का सबसे अच्छा वर्णन करता है।

शब्द "प्रतिगमन" का सांख्यिकीय उपयोग एक घटना से आता है जिसे प्रतिगमन के रूप में जाना जाता है, जिसका श्रेय सर फ्रांसिस गैल्टन (1889) को दिया जाता है।

उन्होंने दिखाया कि जहां लंबे पिता के लंबे बेटे होते हैं, वहीं बेटों की औसत ऊंचाई उनके लंबे पिता की तुलना में कम होती है। बेटों की औसत ऊंचाई जनसंख्या में सभी पिताओं की औसत ऊंचाई तक "पीछे" और "वापस चली गई"। इस प्रकार, औसतन लंबे पिता के छोटे (लेकिन अभी भी लंबे) बेटे होते हैं, और छोटे पिता के लंबे (लेकिन फिर भी छोटे) बेटे होते हैं।

बढतीरेखा

गणितीय समीकरण जो एक सरल (जोड़ीवार) रैखिक समाश्रयण रेखा का मूल्यांकन करता है:

एक्सस्वतंत्र चर या भविष्यवक्ता कहा जाता है।

यूआश्रित या प्रतिक्रिया चर है। यह वह मूल्य है जिसकी हम अपेक्षा करते हैं आप(औसतन) यदि हम मूल्य जानते हैं एक्स, अर्थात। अनुमानित मूल्य है आप»

  • - मूल्यांकन लाइन के मुक्त सदस्य (क्रॉसिंग); यह मान यू, जब एक्स = 0(चित्र .1)।
  • बी- अनुमानित रेखा का ढलान या ढाल; यह वह राशि है जिसके द्वारा यूअगर हम बढ़ते हैं तो औसतन बढ़ता है एक्सएक इकाई के लिए।
  • और बीअनुमानित रेखा के प्रतीपगमन गुणांक कहलाते हैं, हालांकि इस शब्द का प्रयोग अक्सर केवल के लिए किया जाता है बी.

एक से अधिक स्वतंत्र चर शामिल करने के लिए जोड़ीदार रैखिक प्रतिगमन को बढ़ाया जा सकता है; इस मामले में इसे के रूप में जाना जाता है बहु - प्रतिगमन.

चित्र .1। ए और ढलान बी के प्रतिच्छेदन को दर्शाने वाली रैखिक प्रतिगमन रेखा (Y में वृद्धि की मात्रा जब x एक इकाई से बढ़ जाती है)

कम से कम वर्ग विधि

हम अवलोकनों के नमूने का उपयोग करके प्रतिगमन विश्लेषण करते हैं जहां और बी- सच्चे (सामान्य) मापदंडों का नमूना अनुमान, α और β , जो जनसंख्या (सामान्य जनसंख्या) में रैखिक प्रतिगमन की रेखा निर्धारित करते हैं।

गुणांक निर्धारित करने की सबसे सरल विधि और बीएक कम से कम वर्ग विधि(एमएनके)।

फिट का मूल्यांकन अवशेषों पर विचार करके किया जाता है (रेखा से प्रत्येक बिंदु की लंबवत दूरी, उदाहरण के लिए अवशिष्ट = देखने योग्य आप- भविष्यवाणी की आप, चावल। 2))।

सर्वोत्तम फिट की रेखा को चुना जाता है ताकि अवशिष्ट के वर्गों का योग न्यूनतम हो।

चावल। 2. प्रत्येक बिंदु के लिए चित्रित अवशिष्ट (ऊर्ध्वाधर बिंदीदार रेखा) के साथ रैखिक प्रतिगमन रेखा।

रैखिक प्रतिगमन धारणाएँ

इसलिए, प्रत्येक देखे गए मूल्य के लिए, अवशिष्ट अंतर के बराबर है और संबंधित अनुमानित एक है। प्रत्येक अवशिष्ट सकारात्मक या नकारात्मक हो सकता है।

आप रेखीय प्रतिगमन के पीछे निम्नलिखित मान्यताओं का परीक्षण करने के लिए अवशिष्ट का उपयोग कर सकते हैं:

  • अवशिष्ट सामान्य रूप से शून्य माध्य के साथ वितरित किए जाते हैं;

यदि रैखिकता, सामान्यता, और/या निरंतर भिन्नता की धारणाएं संदिग्ध हैं, तो हम एक नई प्रतिगमन रेखा को बदल सकते हैं या गणना कर सकते हैं जिसके लिए ये धारणाएं संतुष्ट हैं (उदाहरण के लिए, लॉगरिदमिक परिवर्तन का उपयोग करें, आदि)।

असामान्य मूल्य (बाहरी) और प्रभाव के बिंदु

एक "प्रभावशाली" अवलोकन, यदि छोड़ा जाता है, तो एक या अधिक मॉडल पैरामीटर अनुमान (यानी ढलान या अवरोधन) को बदल देता है।

एक बाहरी (एक अवलोकन जो डेटा सेट में अधिकांश मूल्यों के साथ संघर्ष करता है) एक "प्रभावशाली" अवलोकन हो सकता है और 2 डी स्कैटरप्लॉट या अवशिष्ट के प्लॉट को देखते समय दृष्टि से अच्छी तरह से पता लगाया जा सकता है।

आउटलेयर और "प्रभावशाली" टिप्पणियों (अंक) दोनों के लिए, मॉडल का उपयोग किया जाता है, दोनों उनके समावेश के साथ और उनके बिना, अनुमान (प्रतिगमन गुणांक) में परिवर्तन पर ध्यान दें।

विश्लेषण करते समय, आउटलेर्स या प्रभाव बिंदुओं को स्वचालित रूप से न छोड़ें, क्योंकि केवल उन्हें अनदेखा करने से परिणाम प्रभावित हो सकते हैं। हमेशा इन बाहरी कारकों के कारणों का अध्ययन करें और उनका विश्लेषण करें।

रैखिक प्रतिगमन परिकल्पना

एक रेखीय प्रतिगमन का निर्माण करते समय, शून्य परिकल्पना की जाँच की जाती है कि प्रतिगमन रेखा β का सामान्य ढलान शून्य के बराबर है।

यदि रेखा का ढलान शून्य है, तो और के बीच कोई रैखिक संबंध नहीं है: परिवर्तन प्रभावित नहीं करता है

शून्य परिकल्पना का परीक्षण करने के लिए कि वास्तविक ढलान शून्य है, आप निम्न एल्गोरिथम का उपयोग कर सकते हैं:

अनुपात के बराबर परीक्षण आंकड़े की गणना करें, जो स्वतंत्रता की डिग्री के साथ वितरण का पालन करता है, जहां गुणांक की मानक त्रुटि


,

- अवशेषों के विचरण का अनुमान।

आमतौर पर, यदि महत्व स्तर तक पहुंच जाता है तो शून्य परिकल्पना को खारिज कर दिया जाता है।


स्वतंत्रता की डिग्री के साथ वितरण का प्रतिशत बिंदु कहां है जो दो-पूंछ वाले परीक्षण की संभावना देता है

यह वह अंतराल है जिसमें 95% की संभावना के साथ सामान्य ढलान होता है।

बड़े नमूनों के लिए, मान लें कि हम 1.96 के मान के साथ अनुमानित कर सकते हैं (अर्थात, परीक्षण के आंकड़े सामान्य रूप से वितरित किए जाएंगे)

रैखिक प्रतिगमन की गुणवत्ता का मूल्यांकन: निर्धारण का गुणांक R 2

रैखिक संबंध के कारण और हम परिवर्तन के रूप में परिवर्तन की अपेक्षा करते हैं , और हम इसे वह भिन्नता कहते हैं जो प्रतीपगमन के कारण होती है या उसकी व्याख्या की जाती है। अवशिष्ट भिन्नता यथासंभव छोटी होनी चाहिए।

यदि ऐसा है, तो अधिकांश भिन्नता को प्रतिगमन द्वारा समझाया जाएगा, और बिंदु प्रतिगमन रेखा के करीब होंगे, अर्थात। लाइन डेटा को अच्छी तरह से फिट करती है।

प्रतिगमन द्वारा समझाया गया कुल विचरण का अनुपात कहलाता है निर्धारण गुणांक, आमतौर पर प्रतिशत के रूप में व्यक्त किया जाता है और निरूपित किया जाता है R2(युग्मित रैखिक प्रतिगमन में, यह मान है r2, सहसंबंध गुणांक का वर्ग), आपको प्रतिगमन समीकरण की गुणवत्ता का व्यक्तिपरक मूल्यांकन करने की अनुमति देता है।

अंतर विचरण का प्रतिशत है जिसे प्रतिगमन द्वारा समझाया नहीं जा सकता है।

मूल्यांकन करने के लिए कोई औपचारिक परीक्षण नहीं होने के कारण, हमें प्रतिगमन रेखा के फिट की गुणवत्ता निर्धारित करने के लिए व्यक्तिपरक निर्णय पर भरोसा करने के लिए मजबूर होना पड़ता है।

एक पूर्वानुमान के लिए एक प्रतिगमन रेखा लागू करना

आप प्रेक्षित सीमा के भीतर किसी मान से किसी मान की भविष्यवाणी करने के लिए एक प्रतिगमन रेखा का उपयोग कर सकते हैं (इन सीमाओं से परे कभी भी एक्सट्रपलेशन नहीं करें)।

हम उस मान को प्रतिगमन रेखा समीकरण में प्रतिस्थापित करके एक निश्चित मान वाले वेधशालाओं के माध्य का अनुमान लगाते हैं।

इसलिए, अगर हम भविष्यवाणी करते हैं तो हम इस अनुमानित मूल्य और इसकी मानक त्रुटि का उपयोग वास्तविक जनसंख्या माध्य के लिए विश्वास अंतराल का अनुमान लगाने के लिए करते हैं।

विभिन्न मूल्यों के लिए इस प्रक्रिया को दोहराने से आप इस लाइन के लिए आत्मविश्वास की सीमा बना सकते हैं। यह एक बैंड या क्षेत्र है जिसमें एक सच्ची रेखा होती है, उदाहरण के लिए, 95% आत्मविश्वास स्तर के साथ।

सरल प्रतिगमन योजनाएं

सरल प्रतिगमन डिजाइन में एक निरंतर भविष्यवक्ता होता है। यदि भविष्यवक्ता मान P के साथ 3 मामले हैं, जैसे 7, 4 और 9, और डिज़ाइन में पहला ऑर्डर प्रभाव P शामिल है, तो डिज़ाइन मैट्रिक्स X होगा

और X1 के लिए P का उपयोग करते हुए प्रतिगमन समीकरण जैसा दिखता है

वाई = बी0 + बी1 पी

यदि एक साधारण प्रतिगमन डिज़ाइन में P पर उच्च क्रम प्रभाव होता है, जैसे कि द्विघात प्रभाव, तो डिज़ाइन मैट्रिक्स में कॉलम X1 में मान दूसरी शक्ति तक बढ़ाए जाएंगे:

और समीकरण रूप ले लेगा

Y = b0 + b1 P2

सिग्मा-प्रतिबंधित और अति-पैरामीटरयुक्त कोडिंग विधियाँ साधारण प्रतिगमन डिज़ाइनों और अन्य डिज़ाइनों पर लागू नहीं होती हैं जिनमें केवल निरंतर भविष्यवाणियाँ होती हैं (क्योंकि बस कोई स्पष्ट भविष्यवाणियाँ नहीं होती हैं)। चुने गए एन्कोडिंग विधि के बावजूद, निरंतर चर के मूल्यों को उपयुक्त शक्ति द्वारा बढ़ाया जाता है और एक्स चर के मूल्यों के रूप में उपयोग किया जाता है। इस मामले में, कोई रूपांतरण नहीं किया जाता है। इसके अलावा, प्रतिगमन योजनाओं का वर्णन करते समय, आप योजना मैट्रिक्स एक्स के विचार को छोड़ सकते हैं, और केवल प्रतिगमन समीकरण के साथ काम कर सकते हैं।

उदाहरण: सरल प्रतिगमन विश्लेषण

यह उदाहरण तालिका में दिए गए डेटा का उपयोग करता है:

चावल। 3. प्रारंभिक डेटा की तालिका।

डेटा 30 बेतरतीब ढंग से चयनित काउंटियों में 1960 और 1970 की जनगणना की तुलना पर आधारित है। काउंटी नामों को अवलोकन नामों के रूप में दर्शाया गया है। प्रत्येक चर के संबंध में जानकारी नीचे प्रस्तुत की गई है:

चावल। 4. चर विनिर्देश तालिका।

अनुसंधान उद्देश्य

इस उदाहरण के लिए, गरीबी दर और गरीबी रेखा से नीचे रहने वाले परिवारों के प्रतिशत की भविष्यवाणी करने वाली शक्ति के बीच संबंध का विश्लेषण किया जाएगा। इसलिए, हम चर 3 (Pt_Poor ) को एक आश्रित चर के रूप में मानेंगे।

एक परिकल्पना को सामने रखा जा सकता है: जनसंख्या में परिवर्तन और गरीबी रेखा से नीचे रहने वाले परिवारों का प्रतिशत संबंधित है। यह अपेक्षा करना उचित प्रतीत होता है कि गरीबी से जनसंख्या का बहिर्वाह होता है, इसलिए गरीबी रेखा से नीचे के लोगों के प्रतिशत और जनसंख्या परिवर्तन के बीच एक नकारात्मक सहसंबंध होगा। इसलिए, हम चर 1 (Pop_Chng) को एक भविष्यवक्ता चर के रूप में मानेंगे।

परिणाम देखें

प्रतिगमन गुणांक

चावल। 5. रिग्रेशन गुणांक Pt_Poor Pop_Chng पर।

Pop_Chng पंक्ति और परम के चौराहे पर। Pop_Chng पर Pt_Poor के प्रतिगमन के लिए गैर-मानकीकृत गुणांक -0.40374 है। इसका अर्थ है कि जनसंख्या में प्रत्येक इकाई कमी के लिए, गरीबी दर में 40374 की वृद्धि होती है। इस गैर-मानकीकृत गुणांक के लिए ऊपरी और निचले (डिफ़ॉल्ट) 95% विश्वास सीमा में शून्य शामिल नहीं है, इसलिए पी स्तर पर प्रतिगमन गुणांक महत्वपूर्ण है<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

चर का वितरण

डेटा में बड़े आउटलेयर होने पर सहसंबंध गुणांक काफी अधिक या कम करके आंका जा सकता है। आइए हम काउंटी द्वारा आश्रित चर Pt_Poor के वितरण की जांच करें। ऐसा करने के लिए, हम Pt_Poor चर का एक हिस्टोग्राम बनाएंगे।

चावल। 6. Pt_Poor चर का हिस्टोग्राम।

जैसा कि आप देख सकते हैं, इस चर का वितरण सामान्य वितरण से स्पष्ट रूप से भिन्न है। हालांकि, हालांकि दो काउंटियों (दाहिने हाथ के दो कॉलम) में भी परिवारों का प्रतिशत अधिक है जो सामान्य वितरण में अपेक्षा से गरीबी रेखा से नीचे हैं, वे "सीमा के अंदर" प्रतीत होते हैं।

चावल। 7. Pt_Poor चर का हिस्टोग्राम।

यह फैसला कुछ हद तक व्यक्तिपरक है। अंगूठे का नियम यह है कि आउटलेर्स को ध्यान में रखा जाना चाहिए यदि कोई अवलोकन (या अवलोकन) अंतराल के भीतर नहीं आता है (मतलब ± 3 गुना मानक विचलन)। इस मामले में, यह सुनिश्चित करने के लिए कि आउटलेर्स के साथ और बिना विश्लेषण को दोहराने के लायक है कि जनसंख्या के सदस्यों के बीच सहसंबंध पर उनका गंभीर प्रभाव नहीं पड़ता है।

स्कैटर प्लॉट

यदि दिए गए चरों के बीच संबंध के बारे में एक परिकल्पना प्राथमिकता है, तो इसे संबंधित स्कैटरप्लॉट के प्लॉट पर जांचना उपयोगी होता है।

चावल। 8. स्कैटरप्लॉट।

स्कैटरप्लॉट दो चर के बीच एक स्पष्ट नकारात्मक सहसंबंध (-.65) दिखाता है। यह प्रतिगमन रेखा के लिए 95% विश्वास अंतराल को भी दर्शाता है, अर्थात, 95% संभावना के साथ प्रतिगमन रेखा दो धराशायी वक्रों के बीच से गुजरती है।

महत्व मानदंड

चावल। 9. महत्व मानदंड वाली तालिका।

Pop_Chng प्रतिगमन गुणांक के लिए परीक्षण पुष्टि करता है कि Pop_Chng दृढ़ता से Pt_Poor , p से संबंधित है<.001 .

नतीजा

इस उदाहरण ने दिखाया कि एक साधारण प्रतिगमन योजना का विश्लेषण कैसे किया जाता है। गैर-मानकीकृत और मानकीकृत प्रतिगमन गुणांक की व्याख्या भी प्रस्तुत की गई थी। आश्रित चर के प्रतिक्रिया वितरण का अध्ययन करने के महत्व पर चर्चा की जाती है, और भविष्यवक्ता और आश्रित चर के बीच संबंधों की दिशा और ताकत को निर्धारित करने के लिए एक तकनीक का प्रदर्शन किया जाता है।