კოეფიციენტებისა და განტოლებების მნიშვნელოვნების შეფასება. დაწყვილებული წრფივი რეგრესიის განტოლების პარამეტრების მნიშვნელობის შეფასება

რეგრესიული ანალიზი არის სტატისტიკური კვლევის მეთოდი, რომელიც საშუალებას გაძლევთ აჩვენოთ პარამეტრის დამოკიდებულება ერთ ან რამდენიმე დამოუკიდებელ ცვლადზე. კომპიუტერამდელ ეპოქაში მისი გამოყენება საკმაოდ რთული იყო, განსაკუთრებით მაშინ, როცა საქმე დიდი მოცულობის მონაცემებს ეხებოდა. დღეს, როდესაც ისწავლეთ თუ როგორ უნდა შექმნათ რეგრესია Excel-ში, შეგიძლიათ გადაჭრათ რთული სტატისტიკური პრობლემები სულ რამდენიმე წუთში. ქვემოთ მოცემულია კონკრეტული მაგალითები ეკონომიკის სფეროდან.

რეგრესიის სახეები

თავად კონცეფცია მათემატიკაში 1886 წელს შევიდა. რეგრესია ხდება:

  • ხაზოვანი;
  • პარაბოლური;
  • ძალა;
  • ექსპონენციალური;
  • ჰიპერბოლური;
  • დემონსტრაციული;
  • ლოგარითმული.

მაგალითი 1

განვიხილოთ 6 სამრეწველო საწარმოში გადამდგარი გუნდის წევრების რაოდენობის დამოკიდებულების განსაზღვრის პრობლემა საშუალო ხელფასზე.

დავალება. ექვს საწარმოში გავაანალიზეთ საშუალო თვიური ხელფასი და საკუთარი სურვილით წასული თანამშრომლების რაოდენობა. ცხრილის სახით გვაქვს:

წასული ხალხის რაოდენობა

ხელფასი

30000 რუბლი

35000 რუბლი

40000 რუბლი

45000 რუბლი

50000 რუბლი

55000 რუბლი

60000 რუბლი

6 საწარმოში პენსიაზე გასული მუშაკების რაოდენობის დამოკიდებულების საშუალო ხელფასზე დამოკიდებულების დასადგენად, რეგრესიის მოდელს აქვს განტოლების ფორმა Y = a 0 + a 1 x 1 +…+a k x k , სადაც x i არის გავლენიანი ცვლადები. , a i არის რეგრესიის კოეფიციენტები, a k არის ფაქტორების რაოდენობა.

ამ ამოცანისთვის Y არის წასული თანამშრომლების მაჩვენებელი, ხოლო გავლენის ფაქტორი არის ხელფასი, რომელსაც X-ით აღვნიშნავთ.

ელცხრილის "Excel" შესაძლებლობების გამოყენება

Excel-ში რეგრესიის ანალიზს წინ უნდა უძღოდეს ჩაშენებული ფუნქციების გამოყენება ხელმისაწვდომი ცხრილის მონაცემებზე. თუმცა, ამ მიზნებისთვის უმჯობესია გამოიყენოთ ძალიან სასარგებლო დანამატი "ანალიზის ინსტრუმენტარიუმი". მის გასააქტიურებლად გჭირდებათ:

  • "ფაილი" ჩანართიდან გადადით "პარამეტრები" განყოფილებაში;
  • ფანჯარაში, რომელიც იხსნება, აირჩიეთ ხაზი "დამატებები";
  • დააჭირეთ ღილაკს "გადასვლა", რომელიც მდებარეობს ბოლოში, "მართვის" ხაზის მარჯვნივ;
  • შეამოწმეთ ყუთი სახელის გვერდით "ანალიზის პაკეტი" და დაადასტურეთ თქვენი ქმედებები "OK" დაწკაპუნებით.

თუ ყველაფერი სწორად გაკეთდა, სასურველი ღილაკი გამოჩნდება მონაცემთა ჩანართის მარჯვენა მხარეს, რომელიც მდებარეობს Excel-ის სამუშაო ფურცლის ზემოთ.

Excel-ში

ახლა, როცა ხელთ გვაქვს ყველა საჭირო ვირტუალური ინსტრუმენტი ეკონომეტრიული გამოთვლების შესასრულებლად, შეგვიძლია დავიწყოთ ჩვენი პრობლემის გადაჭრა. Ამისთვის:

  • დააჭირეთ ღილაკს "მონაცემთა ანალიზი";
  • ფანჯარაში, რომელიც იხსნება, დააჭირეთ ღილაკს "რეგრესია";
  • ჩანართში, რომელიც გამოჩნდება, შეიყვანეთ მნიშვნელობების დიაპაზონი Y-სთვის (თანამშრომლების რაოდენობა, რომლებმაც დატოვეს სამსახური) და X-სთვის (მათი ხელფასები);
  • ჩვენ ვადასტურებთ ჩვენს ქმედებებს ღილაკზე "Ok" დაჭერით.

შედეგად, პროგრამა ავტომატურად შეავსებს ცხრილის ახალ ფურცელს რეგრესიული ანალიზის მონაცემებით. Შენიშვნა! Excel-ს აქვს შესაძლებლობა ხელით დააყენოს თქვენთვის სასურველი მდებარეობა ამ მიზნით. მაგალითად, ეს შეიძლება იყოს იგივე ფურცელი, სადაც არის Y და X მნიშვნელობები, ან თუნდაც ახალი სამუშაო წიგნი, რომელიც სპეციალურად შექმნილია ასეთი მონაცემების შესანახად.

რეგრესიის შედეგების ანალიზი R-კვადრატისთვის

Excel-ში, განხილული მაგალითის მონაცემების დამუშავებისას მიღებული მონაცემები ასე გამოიყურება:

უპირველეს ყოვლისა, ყურადღება უნდა მიაქციოთ R-კვადრატის მნიშვნელობას. ეს არის განსაზღვრის კოეფიციენტი. ამ მაგალითში, R-კვადრატი = 0,755 (75,5%), ანუ მოდელის გამოთვლილი პარამეტრები ხსნის განხილულ პარამეტრებს შორის ურთიერთობას 75,5%-ით. რაც უფრო მაღალია განსაზღვრის კოეფიციენტის მნიშვნელობა, მით უფრო გამოსადეგია არჩეული მოდელი კონკრეტული ამოცანისთვის. ითვლება, რომ ის სწორად აღწერს რეალურ სიტუაციას R-კვადრატის მნიშვნელობით 0.8-ზე მეტი. თუ R-კვადრატი<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

თანაფარდობის ანალიზი

რიცხვი 64.1428 გვიჩვენებს, თუ რა იქნება Y-ის მნიშვნელობა, თუ ჩვენ განხილულ მოდელში ყველა xi ცვლადი დაყენებულია ნულზე. სხვა სიტყვებით რომ ვთქვათ, შეიძლება ითქვას, რომ გაანალიზებული პარამეტრის მნიშვნელობაზე გავლენას ახდენს სხვა ფაქტორებიც, რომლებიც არ არის აღწერილი კონკრეტულ მოდელში.

შემდეგი კოეფიციენტი -0,16285, რომელიც მდებარეობს B18 უჯრედში, აჩვენებს X ცვლადის გავლენის წონას Y-ზე. ეს ნიშნავს, რომ თანამშრომლების საშუალო თვიური ხელფასი განსახილველ მოდელში გავლენას ახდენს თანამშრომელთა რაოდენობაზე, რომელთა წონაა -0,16285, ე.ი. მისი გავლენის ხარისხი სულ მცირე. ნიშანი "-" მიუთითებს, რომ კოეფიციენტს აქვს უარყოფითი მნიშვნელობა. ეს აშკარაა, რადგან ყველამ იცის, რომ რაც უფრო მაღალია ხელფასი საწარმოში, მით უფრო ნაკლები ადამიანი გამოთქვამს სურვილი შეწყვიტოს სამუშაო ხელშეკრულება ან დატოვოს სამსახური.

მრავალჯერადი რეგრესია

ეს ტერმინი ეხება კავშირის განტოლებას ფორმის რამდენიმე დამოუკიდებელი ცვლადით:

y \u003d f (x 1 + x 2 + ... x m) + ε, სადაც y არის ეფექტური მახასიათებელი (დამოკიდებული ცვლადი), და x 1, x 2, ... x m არის ფაქტორების ფაქტორები (დამოუკიდებელი ცვლადები).

პარამეტრის შეფასება

მრავალჯერადი რეგრესიისთვის (MR) იგი ხორციელდება უმცირესი კვადრატების მეთოდით (OLS). Y = a + b 1 x 1 +…+b m x m + ε ფორმის წრფივი განტოლებისთვის, ჩვენ ვაშენებთ ნორმალური განტოლებათა სისტემას (იხ. ქვემოთ)

მეთოდის პრინციპის გასაგებად, განიხილეთ ორფაქტორიანი შემთხვევა. შემდეგ გვაქვს ფორმულით აღწერილი სიტუაცია

აქედან ვიღებთ:

სადაც σ არის ინდექსში ასახული შესაბამისი მახასიათებლის სხვაობა.

LSM გამოიყენება MP განტოლებისთვის სტანდარტიზირებადი მასშტაბით. ამ შემთხვევაში ვიღებთ განტოლებას:

სადაც t y , t x 1, ... t xm არის სტანდარტიზებული ცვლადები, რომლებისთვისაც საშუალო მნიშვნელობები არის 0; β i არის სტანდარტიზებული რეგრესიის კოეფიციენტები და სტანდარტული გადახრა არის 1.

გთხოვთ გაითვალისწინოთ, რომ ყველა β i ამ შემთხვევაში დაყენებულია როგორც ნორმალიზებული და ცენტრალიზებული, ამიტომ მათი ერთმანეთთან შედარება სწორად და დასაშვებად ითვლება. გარდა ამისა, ჩვეულებრივ ხდება ფაქტორების გაფილტვრა, უგულებელყოფთ მათ, ვისაც β-ის ყველაზე მცირე მნიშვნელობები აქვს.

პრობლემა ხაზოვანი რეგრესიის განტოლების გამოყენებით

დავუშვათ, არის მოცემული N პროდუქტის ფასის დინამიკის ცხრილი ბოლო 8 თვის განმავლობაში. აუცილებელია გადაწყვეტილების მიღება მისი პარტია 1850 რუბლი/ტ ფასში შეძენის მიზანშეწონილობის შესახებ.

თვის ნომერი

თვის სახელი

ნივთის ფასი N

1750 რუბლი ტონაზე

1755 რუბლი ტონაზე

1767 რუბლი ტონაზე

1760 რუბლი ტონაზე

1770 რუბლი ტონაზე

1790 რუბლი ტონაზე

1810 რუბლი ტონაზე

1840 რუბლი ტონაზე

Excel-ის ცხრილებში ამ პრობლემის გადასაჭრელად, თქვენ უნდა გამოიყენოთ ზემოთ მოყვანილი მაგალითიდან უკვე ცნობილი მონაცემთა ანალიზის ინსტრუმენტი. შემდეგი, აირჩიეთ "რეგრესია" განყოფილება და დააყენეთ პარამეტრები. უნდა გვახსოვდეს, რომ "შეყვანის Y ინტერვალის" ველში უნდა შეიყვანოთ დამოკიდებული ცვლადის მნიშვნელობების დიაპაზონი (ამ შემთხვევაში, პროდუქტის ფასი წელიწადის კონკრეტულ თვეებში), ხოლო "შეყვანა" X ინტერვალი“ - დამოუკიდებელი ცვლადისთვის (თვე ნომერი). დაადასტურეთ მოქმედება "OK" დაწკაპუნებით. ახალ ფურცელზე (თუ ასე იყო მითითებული), ვიღებთ მონაცემებს რეგრესიისთვის.

მათზე დაყრდნობით ვაშენებთ y=ax+b ფორმის წრფივ განტოლებას, სადაც a და b პარამეტრები არის მწკრივის კოეფიციენტები თვის რიცხვის სახელით და კოეფიციენტები და „Y-გადაკვეთის“ მწკრივი. ფურცელი რეგრესიული ანალიზის შედეგებით. ამრიგად, წრფივი რეგრესიის განტოლება (LE) 3 პრობლემისთვის იწერება როგორც:

პროდუქტის ფასი N = 11.714* თვის ნომერი + 1727.54.

ან ალგებრული აღნიშვნით

y = 11,714 x + 1727,54

შედეგების ანალიზი

იმის გადასაწყვეტად, არის თუ არა მიღებული წრფივი რეგრესიის განტოლება ადეკვატური, გამოიყენება მრავალჯერადი კორელაციის კოეფიციენტები (MCC) და განსაზღვრის კოეფიციენტები, ასევე ფიშერის ტესტი და სტუდენტის ტესტი. Excel-ის ცხრილში რეგრესიის შედეგებით, ისინი გამოჩნდება მრავალი R, R-კვადრატის, F-სტატისტიკის და t-სტატისტიკის სახელებით, შესაბამისად.

KMC R შესაძლებელს ხდის შეფასდეს დამოუკიდებელ და დამოკიდებულ ცვლადებს შორის ალბათური ურთიერთობის სიმჭიდროვე. მისი მაღალი ღირებულება მიუთითებს საკმაოდ ძლიერ კავშირზე ცვლადებს შორის "თვიანი რაოდენობა" და "საქონლის ფასი N რუბლებში 1 ტონაზე". თუმცა, ამ ურთიერთობის ბუნება უცნობია.

განსაზღვრის კოეფიციენტის კვადრატი R 2 (RI) არის ჯამური გაფანტვის წილის რიცხვითი მახასიათებელი და აჩვენებს ექსპერიმენტული მონაცემების რომელი ნაწილის გაფანტვას, ე.ი. დამოკიდებული ცვლადის მნიშვნელობები შეესაბამება წრფივი რეგრესიის განტოლებას. განსახილველ პრობლემაში ეს მნიშვნელობა უდრის 84,8%-ს, ანუ სტატისტიკური მონაცემები მაღალი სიზუსტით არის აღწერილი მიღებული SD-ით.

F- სტატისტიკა, რომელსაც ასევე უწოდებენ ფიშერის ტესტს, გამოიყენება ხაზოვანი ურთიერთობის მნიშვნელოვნების შესაფასებლად, მისი არსებობის ჰიპოთეზის გასაუქმებლად ან დასადასტურებლად.

(მოსწავლის კრიტერიუმი) ხელს უწყობს კოეფიციენტის მნიშვნელოვნების შეფასებას წრფივი ურთიერთობის უცნობი ან თავისუფალი წევრით. თუ t-კრიტერიუმის მნიშვნელობა > t cr, მაშინ წრფივი განტოლების თავისუფალი წევრის უმნიშვნელოობის ჰიპოთეზა უარყოფილია.

თავისუფალი წევრის განხილულ პრობლემაში, Excel-ის ინსტრუმენტების გამოყენებით, მიიღეს, რომ t = 169.20903 და p = 2.89E-12, ანუ გვაქვს ნულოვანი ალბათობა იმისა, რომ სწორი ჰიპოთეზა თავისუფალი წევრის უმნიშვნელოობის შესახებ იქნება. იყოს უარყოფილი. კოეფიციენტისთვის უცნობი t=5.79405 და p=0.001158. სხვა სიტყვებით რომ ვთქვათ, ალბათობა იმისა, რომ უცნობისთვის კოეფიციენტის უმნიშვნელოობის შესახებ სწორი ჰიპოთეზა უარყოფილი იქნება არის 0,12%.

ამრიგად, შეიძლება ითქვას, რომ მიღებული წრფივი რეგრესიის განტოლება ადეკვატურია.

აქციების ბლოკის ყიდვის მიზანშეწონილობის პრობლემა

Excel-ში მრავალჯერადი რეგრესია ხორციელდება იგივე მონაცემთა ანალიზის ხელსაწყოს გამოყენებით. განიხილეთ კონკრეტული გამოყენებული პრობლემა.

NNN-ის ხელმძღვანელობამ უნდა მიიღოს გადაწყვეტილება MMM SA-ში 20%-იანი წილის შეძენის მიზანშეწონილობის შესახებ. პაკეტის (JV) ღირებულება 70 მილიონი აშშ დოლარია. NNN-ის სპეციალისტებმა შეაგროვეს მონაცემები მსგავსი ტრანზაქციების შესახებ. გადაწყდა აქციების ბლოკის ღირებულების შეფასება ისეთი პარამეტრების მიხედვით, გამოხატული მილიონ აშშ დოლარებში, როგორიცაა:

  • გადასახდელები (VK);
  • წლიური ბრუნვა (VO);
  • დებიტორული ანგარიშები (VD);
  • ძირითადი საშუალებების ღირებულება (SOF).

გარდა ამისა, გამოიყენება საწარმოს სახელფასო დავალიანების პარამეტრი (V3 P) ათასობით აშშ დოლარში.

გამოსავალი Excel-ის ცხრილების გამოყენებით

უპირველეს ყოვლისა, თქვენ უნდა შექმნათ საწყისი მონაცემების ცხრილი. ეს ასე გამოიყურება:

  • დარეკეთ "მონაცემთა ანალიზის" ფანჯარაში;
  • აირჩიეთ განყოფილება "რეგრესია";
  • ველში "შეყვანის ინტერვალი Y" შეიყვანეთ დამოკიდებული ცვლადების მნიშვნელობების დიაპაზონი G სვეტიდან;
  • დააწკაპუნეთ ხატულაზე წითელი ისრით "შეყვანის ინტერვალი X" ფანჯრის მარჯვნივ და აირჩიეთ ყველა მნიშვნელობის დიაპაზონი სვეტებიდან B, C, D, F ფურცელზე.

აირჩიეთ "ახალი სამუშაო ფურცელი" და დააჭირეთ "OK".

მიიღეთ რეგრესიული ანალიზი მოცემული პრობლემისთვის.

შედეგების და დასკვნების შემოწმება

„ჩვენ ვაგროვებთ“ Excel-ის ცხრილების ფურცელზე ზემოთ წარმოდგენილი მომრგვალებული მონაცემებიდან, რეგრესიის განტოლება:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

უფრო ნაცნობი მათემატიკური ფორმით, ის შეიძლება დაიწეროს როგორც:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

სს „მმმ“-ის მონაცემები წარმოდგენილია ცხრილში:

მათი ჩანაცვლებით რეგრესიის განტოლებაში, ისინი იღებენ ციფრს 64,72 მილიონი აშშ დოლარი. ეს ნიშნავს, რომ სს MMM-ის აქციები არ უნდა იყოს შეძენილი, რადგან მათი 70 მილიონი აშშ დოლარის ღირებულება საკმაოდ გადაჭარბებულია.

როგორც ხედავთ, Excel-ის ცხრილების და რეგრესიის განტოლების გამოყენებამ შესაძლებელი გახადა ინფორმირებული გადაწყვეტილების მიღება ძალიან კონკრეტული ტრანზაქციის მიზანშეწონილობის შესახებ.

ახლა თქვენ იცით, რა არის რეგრესია. Excel-ში ზემოთ განხილული მაგალითები დაგეხმარებათ გადაჭრათ პრაქტიკული პრობლემები ეკონომეტრიის სფეროდან.

ხაზოვანი რეგრესიის განტოლების აღმოჩენის შემდეგ, ფასდება როგორც განტოლების მთლიანობაში, ასევე მისი ცალკეული პარამეტრების მნიშვნელობა.

შეამოწმეთ რეგრესიის განტოლების მნიშვნელობა - ნიშნავს იმის დადგენას, შეესაბამება თუ არა მათემატიკური მოდელი, რომელიც გამოხატავს ცვლადებს შორის ურთიერთობას ექსპერიმენტულ მონაცემებს და არის თუ არა საკმარისი ახსნა-განმარტებადი ცვლადები, რომლებიც შედის განტოლებაში (ერთი ან მეტი) დამოკიდებული ცვლადის აღსაწერად.

მნიშვნელოვნების ტესტირება ეფუძნება დისპერსიის ანალიზს.

დისპერსიის ანალიზის იდეის მიხედვით, y-ის კვადრატული გადახრების ჯამი (RMS) საშუალო მნიშვნელობიდან იყოფა ორ ნაწილად - ახსნილი და აუხსნელი:

ან, შესაბამისად:

აქ არის ორი უკიდურესი შემთხვევა: როდესაც ჯამური სტანდარტული გადახრა ზუსტად უდრის ნარჩენს და როცა მთლიანი სტანდარტული გადახრა უდრის ფაქტორულს.

პირველ შემთხვევაში, x ფაქტორი არ მოქმედებს შედეგზე, y-ის მთელი ვარიაცია განპირობებულია სხვა ფაქტორების გავლენით, რეგრესიის ხაზი პარალელურია Ox ღერძისა და განტოლება უნდა გამოიყურებოდეს.

მეორე შემთხვევაში, სხვა ფაქტორები არ მოქმედებს შედეგზე, y დაკავშირებულია x-თან ფუნქციურად, ხოლო ნარჩენი სტანდარტული გადახრა არის ნული.

თუმცა, პრაქტიკაში ორივე ტერმინი წარმოდგენილია მარჯვენა მხარეს. რეგრესიის ხაზის ვარგისიანობა პროგნოზირებისთვის დამოკიდებულია იმაზე, თუ რამდენად არის ახსნილი დისპერსიის ახსნა y-ში. თუ ახსნილი RMSD მეტია ნარჩენ RMSD-ზე, მაშინ რეგრესიის განტოლება არის სტატისტიკურად მნიშვნელოვანი და x ფაქტორი მნიშვნელოვან გავლენას ახდენს y შედეგზე. ეს იმის ტოლფასია, რომ განმსაზღვრელი კოეფიციენტი ერთიანობას მიუახლოვდება.

თავისუფლების გრადუსების რაოდენობა (df-თავისუფლების გრადუსი) არის დამოუკიდებლად ცვლადი მახასიათებლების მნიშვნელობების რაოდენობა.

საერთო სტანდარტული გადახრა მოითხოვს (n-1) დამოუკიდებელ გადახრებს,

ფაქტორულ სტანდარტულ გადახრას აქვს თავისუფლების ერთი ხარისხი და

ამრიგად, ჩვენ შეგვიძლია დავწეროთ:

ამ ნაშთიდან ჩვენ განვსაზღვრავთ, რომ = n-2.

ყოველი სტანდარტული გადახრის გაყოფით თავისუფლების ხარისხების რაოდენობაზე, მივიღებთ გადახრების საშუალო კვადრატს, ანუ დისპერსიას თავისუფლების ერთ გრადუსზე: - მთლიანი დისპერსია, - ფაქტორული, - ნარჩენი.

წრფივი რეგრესიის კოეფიციენტების სტატისტიკური მნიშვნელოვნების ანალიზი

მიუხედავად იმისა, რომ ხაზოვანი დამოკიდებულების განტოლების კოეფიციენტების თეორიული მნიშვნელობები მიჩნეულია მუდმივად, შემთხვევითი შერჩევის მონაცემებიდან განტოლების აგებისას მიღებული ამ კოეფიციენტების a და b შეფასებები შემთხვევითი ცვლადებია. თუ რეგრესიის შეცდომები ნორმალურად არის განაწილებული, მაშინ კოეფიციენტების შეფასებაც ნორმალურად არის განაწილებული და შეიძლება დახასიათდეს მათი საშუალებებითა და დისპერსიით. ამიტომ, კოეფიციენტების ანალიზი იწყება ამ მახასიათებლების გაანგარიშებით.

კოეფიციენტების განსხვავებები გამოითვლება ფორმულებით:

რეგრესიის კოეფიციენტის ვარიაცია:

სად არის ნარჩენი დისპერსია თავისუფლების ერთ ხარისხზე.

პარამეტრის დისპერსია:

ამრიგად, რეგრესიის კოეფიციენტის სტანდარტული შეცდომა განისაზღვრება ფორმულით:

პარამეტრის სტანდარტული შეცდომა განისაზღვრება ფორმულით:

ისინი ემსახურება ნულოვანი ჰიპოთეზის შესამოწმებლად, რომ რეგრესიის კოეფიციენტის b ან intercept-ის ნამდვილი მნიშვნელობა არის ნული: .

ალტერნატიულ ჰიპოთეზას აქვს ფორმა: .

t-სტატისტიკას აქვს t-სტუდენტური განაწილება თავისუფლების ხარისხით. Student-ის განაწილების ცხრილების მიხედვით, მნიშვნელოვნების გარკვეულ დონეზე b და თავისუფლების ხარისხით, გვხვდება კრიტიკული მნიშვნელობა.

თუ ნულოვანი ჰიპოთეზა უარყოფილი უნდა იყოს, კოეფიციენტები ჩაითვლება სტატისტიკურად მნიშვნელოვანი.

თუ, მაშინ ნულოვანი ჰიპოთეზის უარყოფა შეუძლებელია. (თუ კოეფიციენტი b სტატისტიკურად უმნიშვნელოა, განტოლება ასე უნდა გამოიყურებოდეს და ეს ნიშნავს, რომ მახასიათებლებს შორის კავშირი არ არის. თუ კოეფიციენტი a სტატისტიკურად უმნიშვნელოა, რეკომენდებულია ახალი განტოლების შეფასება ფორმაში).

ხაზოვანი რეგრესიის განტოლების კოეფიციენტების ინტერვალური შეფასება:

ნდობის ინტერვალი ამისთვისა: .

ნდობის ინტერვალი ამისთვისბ:

ეს ნიშნავს, რომ მოცემული სანდოობით (სად არის მნიშვნელობის დონე), a, b-ის ნამდვილი მნიშვნელობები არის მითითებულ ინტერვალებში.

რეგრესიის კოეფიციენტს აქვს მკაფიო ეკონომიკური ინტერპრეტაცია, ამიტომ ინტერვალის ნდობის ლიმიტები არ უნდა შეიცავდეს არათანმიმდევრულ შედეგებს, მაგალითად, ისინი არ უნდა შეიცავდეს ნულს.

მთლიანობაში განტოლების სტატისტიკური მნიშვნელობის ანალიზი.

ფიშერის განაწილება რეგრესიულ ანალიზში

მთლიანობაში რეგრესიის განტოლების მნიშვნელოვნების შეფასება მოცემულია ფიშერის F-ტესტის გამოყენებით. ამ შემთხვევაში, ნულოვანი ჰიპოთეზა წამოაყენეს, რომ რეგრესიის ყველა კოეფიციენტი, გარდა თავისუფალი წევრისა, ნულის ტოლია და, შესაბამისად, x ფაქტორი გავლენას არ ახდენს შედეგზე y (ან).

F - კრიტერიუმის მნიშვნელობა ასოცირდება განსაზღვრის კოეფიციენტთან. Როდესაც მრავალჯერადი რეგრესია:

სადაც m არის დამოუკიდებელი ცვლადების რაოდენობა.

Როდესაც წყვილთა რეგრესიაფორმულა F - სტატისტიკა იღებს ფორმას:

F-კრიტერიუმის ტაბულური მნიშვნელობის პოვნისას დგინდება მნიშვნელოვნების დონე (ჩვეულებრივ 0,05 ან 0,01) და თავისუფლების ორი ხარისხი: - მრავალჯერადი რეგრესიის შემთხვევაში, - დაწყვილებული რეგრესისთვის.

თუ, მაშინ უარყოფილია და კეთდება დასკვნა y-სა და x-ს შორის სტატისტიკური ურთიერთობის მნიშვნელოვნების შესახებ.

თუ, მაშინ სტატისტიკურად უმნიშვნელოდ მიჩნეული რეგრესიის განტოლების ალბათობა არ არის უარყოფილი.

კომენტარი. წყვილ ხაზოვან რეგრესიაში. ასევე, ამიტომ. ამრიგად, ჰიპოთეზების ტესტირება რეგრესიის და კორელაციის კოეფიციენტების მნიშვნელოვნების შესახებ უდრის ჰიპოთეზის ტესტირებას ხაზოვანი რეგრესიის განტოლების მნიშვნელოვნების შესახებ.

ფიშერის განაწილება შეიძლება გამოყენებულ იქნას არა მხოლოდ ჰიპოთეზის შესამოწმებლად, რომ ყველა წრფივი რეგრესიის კოეფიციენტი ერთდროულად არის ნულის ტოლი, არამედ ჰიპოთეზა, რომ ზოგიერთი კოეფიციენტი ნულის ტოლია. ეს მნიშვნელოვანია ხაზოვანი რეგრესიის მოდელის შემუშავებისას, რადგან ის საშუალებას იძლევა შეფასდეს ცალკეული ცვლადების ან მათი ჯგუფების ახსნა-განმარტებითი ცვლადების რაოდენობის გამორიცხვის მართებულობა ან, პირიქით, მათი ამ რიცხვში ჩართვა.

მოდით, მაგალითად, მრავალჯერადი წრფივი რეგრესია პირველად შეფასდა n დაკვირვებისთვის m ახსნა-განმარტებითი ცვლადით, და განსაზღვრის კოეფიციენტი ტოლია, შემდეგ ბოლო k ცვლადები გამოირიცხება ახსნა ცვლადების სიიდან და განტოლება, რომლის კოეფიციენტი განსაზღვრა არის (, რადგან (თითოეული დამატებითი ცვლადი ხსნის დამოკიდებული ცვლადის ცვალებადობის ნაწილს, რაც არ უნდა მცირე იყოს).

გამორიცხული ცვლადების მქონე ყველა კოეფიციენტის ნულის ერთდროული ტოლობის შესახებ ჰიპოთეზის შესამოწმებლად, გამოითვლება მნიშვნელობა.

რომელსაც აქვს ფიშერის განაწილება თავისუფლების ხარისხით.

ფიშერის განაწილების ცხრილების მიხედვით, მოცემული მნიშვნელოვნების დონეზე, ისინი პოულობენ. და თუ, მაშინ ნულოვანი ჰიპოთეზა უარყოფილია. ამ შემთხვევაში, არასწორია ყველა k ცვლადის გამორიცხვა განტოლებიდან.

მსგავსი მსჯელობა შეიძლება განხორციელდეს რეგრესიის განტოლებაში ერთი ან მეტი k ახალი ახსნითი ცვლადის ჩართვის მართებულობის შესახებ.

ამ შემთხვევაში გამოითვლება F - სტატისტიკა

განაწილების მქონე. ხოლო თუ ის აჭარბებს კრიტიკულ დონეს, მაშინ ახალი ცვლადების ჩართვა ხსნის დამოკიდებული ცვლადის ადრე აუხსნელი ვარიაციის მნიშვნელოვან ნაწილს (ანუ ახალი განმარტებითი ცვლადების ჩართვა გამართლებულია).

შენიშვნები. 1. მიზანშეწონილია შეიტანოთ ახალი ცვლადები ერთ დროს.

2. F - სტატისტიკის გამოსათვლელად, განტოლებაში ახსნა-განმარტებითი ცვლადების ჩართვის განხილვისას, სასურველია გავითვალისწინოთ თავისუფლების გრადუსების რაოდენობაზე მორგებული განსაზღვრის კოეფიციენტი.

F - ფიშერის სტატისტიკა ასევე გამოიყენება დაკვირვების ცალკეული ჯგუფებისთვის რეგრესიის განტოლებების დამთხვევის შესახებ ჰიპოთეზის შესამოწმებლად.

მოდით იყოს 2 ნიმუში, რომელიც შეიცავს, შესაბამისად, დაკვირვებებს. თითოეული ამ ნიმუშისთვის შეფასდა სახეობების რეგრესიის განტოლება. სტანდარტული გადახრა რეგრესიის ხაზიდან (ე.ი.) ტოლი იყოს მათთვის, შესაბამისად, .

შემოწმებულია ნულოვანი ჰიპოთეზა: რომ ამ განტოლებების ყველა შესაბამისი კოეფიციენტი ერთმანეთის ტოლია, ე.ი. ამ ნიმუშების რეგრესიის განტოლება იგივეა.

მოდით შეფასდეს იმავე ტიპის რეგრესიის განტოლება ყველა დაკვირვებისთვის ერთდროულად და RMS.

შემდეგ გამოითვლება F - სტატისტიკა ფორმულის მიხედვით:

მას აქვს ფიშერის განაწილება თავისუფლების ხარისხით. F - სტატისტიკა ახლოს იქნება ნულთან, თუ განტოლება ორივე ნიმუშისთვის ერთნაირია, რადგან ამ შემთხვევაში. იმათ. თუ, მაშინ ნულოვანი ჰიპოთეზა მიღებულია.

თუ, მაშინ ნულოვანი ჰიპოთეზა უარყოფილია და ერთი რეგრესიული განტოლება ვერ აშენდება.

პარამეტრების შეფასების შემდეგ და , მივიღეთ რეგრესიის განტოლება, რომლითაც შეგვიძლია მნიშვნელობების შეფასება მითითებული მნიშვნელობებით x. ბუნებრივია ვივარაუდოთ, რომ დამოკიდებული ცვლადის გამოთვლილი მნიშვნელობები არ დაემთხვევა რეალურ მნიშვნელობებს, რადგან რეგრესიის ხაზი აღწერს ურთიერთობას მხოლოდ საშუალოდ, ზოგადად. ირგვლივ მიმოფანტულია ცალკეული მნიშვნელობები. ამრიგად, რეგრესიის განტოლებიდან მიღებული გამოთვლილი მნიშვნელობების სანდოობა დიდწილად განისაზღვრება რეგრესიის ხაზის გარშემო დაკვირვებული მნიშვნელობების დისპერსიით. პრაქტიკაში, როგორც წესი, ცდომილების დისპერსია უცნობია და ფასდება დაკვირვების შედეგად, რეგრესიის პარამეტრებთან ერთად. და . სავსებით ლოგიკურია ვივარაუდოთ, რომ შეფასება დაკავშირებულია რეგრესიის ნარჩენების კვადრატების ჯამთან. რაოდენობა არის თეორიულ მოდელში შემავალი დარღვევების დისპერსიის ნიმუშის შეფასება . შეიძლება აჩვენოს, რომ დაწყვილებული რეგრესიის მოდელისთვის

სადაც არის დამოკიდებული ცვლადის ფაქტობრივი მნიშვნელობის გადახრა მისი გამოთვლილი მნიშვნელობიდან.

Თუ , მაშინ ყველა დაკვირვებისთვის დამოკიდებული ცვლადის რეალური მნიშვნელობები ემთხვევა გამოთვლილ (თეორიულ) მნიშვნელობებს . გრაფიკულად, ეს ნიშნავს, რომ თეორიული რეგრესიის ხაზი (ფუნქციიდან აგებული ხაზი) ​​გადის კორელაციური ველის ყველა წერტილში, რაც შესაძლებელია მხოლოდ მკაცრად ფუნქციონალური კავშირით. აქედან გამომდინარე, ეფექტური ნიშანი ზემთლიანად ფაქტორის გავლენის გამო X.

ჩვეულებრივ, პრაქტიკაში ადგილი აქვს კორელაციური ველის წერტილების გარკვეულ დისპერსიას თეორიულ რეგრესიულ ხაზთან მიმართებაში, ანუ ემპირიული მონაცემების გადახრები თეორიულიდან. ეს გაფანტვა გამოწვეულია როგორც ფაქტორის გავლენით X, ე.ი. რეგრესია on X, (ასეთ დისპერსიას ეწოდება ახსნილი, ვინაიდან იგი აიხსნება რეგრესიის განტოლებით) და სხვა მიზეზების მოქმედება (აუხსნელი ვარიაცია, შემთხვევითი). ამ გადახრების სიდიდე საფუძვლად უდევს განტოლების ხარისხის მაჩვენებლების გამოთვლას.

დისპერსიის ანალიზის ძირითადი პრინციპის მიხედვით დამოკიდებული ცვლადის კვადრატული გადახრების ჯამური ჯამი საშუალო მნიშვნელობიდან შეიძლება დაიყოს ორ კომპონენტად: ახსნილი რეგრესიის განტოლებით და აუხსნელი:

,

სადაც - ღირებულებები , გამოითვლება განტოლებით .

ვიპოვოთ კვადრატული გადახრების ჯამის შეფარდება, ახსნილი რეგრესიის განტოლებით, კვადრატების ჯამთან:

, სად

. (7.6)

რეგრესიის განტოლებით ახსნილი დისპერსიის ნაწილის თანაფარდობას მიღებული მახასიათებლის მთლიან დისპერსიასთან ეწოდება დეტერმინაციის კოეფიციენტი. მნიშვნელობა არ შეიძლება აღემატებოდეს ერთს და ეს მაქსიმალური მნიშვნელობა მიიღწევა მხოლოდ ზე, ე.ი. როდესაც თითოეული გადახრა არის ნულის ტოლი და, შესაბამისად, გაფანტვის ყველა წერტილი მდებარეობს ზუსტად სწორ ხაზზე.

დეტერმინაციის კოეფიციენტი ახასიათებს რეგრესით ახსნილი დისპერსიის წილს დამოკიდებული ცვლადის ვარიაციის ჯამურ მნიშვნელობაში. . შესაბამისად, მნიშვნელობა ახასიათებს ცვალებადობის (დისპერსიის) პროპორციას. y,აუხსნელი რეგრესიის განტოლებით და, შესაბამისად, გამოწვეული სხვა ფაქტორების გავლენით, რომლებიც არ არის გათვალისწინებული მოდელში. რაც უფრო ახლოს არის ერთთან, მით უფრო მაღალია მოდელის ხარისხი.



დაწყვილებული წრფივი რეგრესიით განსაზღვრის კოეფიციენტი უდრის დაწყვილებული წრფივი კორელაციის კოეფიციენტის კვადრატს: .

განსაზღვრის ამ კოეფიციენტის ფესვი არის მრავალჯერადი კორელაციის კოეფიციენტი (ინდექსი), ანუ თეორიული კორელაციის თანაფარდობა.

იმის გასარკვევად, რეგრესიის შეფასებისას მიღებული დეტერმინაციის კოეფიციენტის მნიშვნელობა ნამდვილად ასახავს თუ არა ნამდვილ ურთიერთობას და xშეამოწმეთ აგებული განტოლების მთლიანობა და ცალკეული პარამეტრების მნიშვნელობა. რეგრესიის განტოლების მნიშვნელოვნების ტესტირება საშუალებას გაძლევთ გაარკვიოთ არის თუ არა რეგრესიის განტოლება პრაქტიკული გამოყენებისთვის, მაგალითად, პროგნოზირებისთვის თუ არა.

ამავდროულად, წამოიჭრება მთავარი ჰიპოთეზა მთლიანობაში განტოლების უმნიშვნელოობის შესახებ, რაც ფორმალურად მცირდება ჰიპოთეზამდე, რომ რეგრესიის პარამეტრები ნულის ტოლია, ან, რაც იგივეა, რომ განსაზღვრის კოეფიციენტი ტოლია. ნულამდე: . განტოლების მნიშვნელობის შესახებ ალტერნატიული ჰიპოთეზა არის ჰიპოთეზა, რომ რეგრესიის პარამეტრები არ არის ნულის ტოლი ან რომ განსაზღვრის კოეფიციენტი არ არის ნულის ტოლი: .

რეგრესიის მოდელის მნიშვნელოვნების შესამოწმებლად გამოიყენეთ F-ფიშერის კრიტერიუმი, გამოითვლება როგორც კვადრატების ჯამის თანაფარდობა (ერთ დამოუკიდებელ ცვლადზე) კვადრატების ნარჩენი ჯამისთვის (თავისუფლების ერთ ხარისხზე):

, (7.7)

სადაც არის დამოუკიდებელი ცვლადების რაოდენობა.

დამოკიდებულების (7.7) მრიცხველისა და მნიშვნელის დაყოფის შემდეგ დამოკიდებული ცვლადის კვადრატული გადახრების ჯამზე, F-კრიტერიუმი შეიძლება ექვივალენტურად გამოისახოს კოეფიციენტის მიხედვით:

.

თუ ნულოვანი ჰიპოთეზა მართალია, მაშინ რეგრესიის განტოლებით ახსნილი დისპერსია და აუხსნელი (ნარჩენი) ვარიანსი არ განსხვავდება ერთმანეთისგან.

სავარაუდო ღირებულება F-კრიტერიუმი შედარებულია კრიტიკულ მნიშვნელობასთან, რომელიც დამოკიდებულია დამოუკიდებელი ცვლადების რაოდენობაზე და თავისუფლების ხარისხების რაოდენობაზე (n-k-1). ცხრილი (კრიტიკული) მნიშვნელობა F-კრიტერიუმი - ეს არის დისპერსიების თანაფარდობის მაქსიმალური მნიშვნელობა, რომელიც შეიძლება მოხდეს, თუ ისინი შემთხვევით განსხვავდებიან ნულოვანი ჰიპოთეზის არსებობის ალბათობის მოცემულ დონეზე. თუ გამოთვლილი მნიშვნელობა F-კრიტერიუმი აღემატება ცხრილს მოცემულ მნიშვნელოვნების დონეზე, მაშინ უარყოფილია ნულოვანი ჰიპოთეზა კავშირის არარსებობის შესახებ და კეთდება დასკვნა ამ კავშირის მნიშვნელობის შესახებ, ე.ი. მოდელი ითვლება მნიშვნელოვანად.

დაწყვილებული რეგრესიის მოდელისთვის

.

წრფივი რეგრესიის დროს, როგორც წესი, ფასდება არა მხოლოდ განტოლების მნიშვნელობა, არამედ მისი ცალკეული კოეფიციენტებიც. ამისათვის განისაზღვრება თითოეული პარამეტრის სტანდარტული შეცდომა. პარამეტრების რეგრესიის კოეფიციენტების სტანდარტული შეცდომები განისაზღვრება ფორმულებით:

, (7.8)

(7.9)

რეგრესიის კოეფიციენტების სტანდარტული შეცდომები ან ფორმულებით (7.8,7.9) გამოთვლილი სტანდარტული გადახრები, როგორც წესი, მოცემულია სტატისტიკურ პაკეტებში რეგრესიის მოდელის გამოთვლის შედეგებში.

რეგრესიის კოეფიციენტების საშუალო კვადრატული შეცდომების საფუძველზე, ამ კოეფიციენტების მნიშვნელოვნება შემოწმდება სტატისტიკური ჰიპოთეზების ტესტირების ჩვეულებრივი სქემის გამოყენებით.

როგორც მთავარი ჰიპოთეზა, წამოაყენეს ჰიპოთეზა "ჭეშმარიტი" რეგრესიის კოეფიციენტის ნულიდან უმნიშვნელო სხვაობის შესახებ. ალტერნატიული ჰიპოთეზა ამ შემთხვევაში არის საპირისპირო ჰიპოთეზა, ანუ "ჭეშმარიტი" რეგრესიის პარამეტრის ნულამდე უთანასწორობის შესახებ. ეს ჰიპოთეზა შემოწმებულია გამოყენებით t-სტატისტიკა, რომელსაც აქვს -სტუდენტური განაწილება:

შემდეგ გამოთვლილი მნიშვნელობები t-სტატისტიკა შედარებულია კრიტიკულ მნიშვნელობებთან t-სტუდენტების განაწილების ცხრილებიდან განსაზღვრული სტატისტიკა. კრიტიკული მნიშვნელობა განისაზღვრება მნიშვნელოვნების დონის მიხედვით α და თავისუფლების ხარისხების რაოდენობა, რაც არის (n-k-1), n ​​-დაკვირვებების რაოდენობა - დამოუკიდებელი ცვლადების რაოდენობა. ხაზოვანი წყვილის რეგრესიის შემთხვევაში, თავისუფლების გრადუსების რაოდენობა არის (P- 2). კრიტიკული მნიშვნელობა ასევე შეიძლება გამოითვალოს კომპიუტერზე Excel-ის ჩაშენებული STUDISP ფუნქციის გამოყენებით.

თუ გამოთვლილი მნიშვნელობა t-სტატისტიკა კრიტიკულზე მეტია, მაშინ მთავარი ჰიპოთეზა უარყოფილია და ითვლება, რომ ალბათობით (1-α)"ჭეშმარიტი" რეგრესიის კოეფიციენტი მნიშვნელოვნად განსხვავდება ნულისაგან, რაც არის შესაბამისი ცვლადების წრფივი დამოკიდებულების არსებობის სტატისტიკური დადასტურება.

თუ გამოთვლილი მნიშვნელობა t-სტატისტიკა კრიტიკულზე ნაკლებია, მაშინ არ არსებობს მიზეზი, რომ უარვყოთ მთავარი ჰიპოთეზა, ანუ "ჭეშმარიტი" რეგრესიის კოეფიციენტი მნიშვნელოვნად არ განსხვავდება ნულიდან მნიშვნელოვნების დონეზე. α . ამ შემთხვევაში მოდელიდან უნდა გამოირიცხოს ამ კოეფიციენტის შესაბამისი ფაქტორი.

რეგრესიის კოეფიციენტის მნიშვნელობა შეიძლება დადგინდეს ნდობის ინტერვალის აგებით. რეგრესიის პარამეტრების ნდობის ინტერვალი და განისაზღვრება შემდეგნაირად:

,

,

სადაც განისაზღვრება სტუდენტის განაწილების ცხრილიდან მნიშვნელოვნების დონე α და თავისუფლების ხარისხების რაოდენობა (P- 2) წყვილთა რეგრესიისთვის.

ვინაიდან ეკონომეტრიულ კვლევებში რეგრესიის კოეფიციენტებს აქვთ მკაფიო ეკონომიკური ინტერპრეტაცია, ნდობის ინტერვალები არ უნდა შეიცავდეს ნულს. რეგრესიის კოეფიციენტის ჭეშმარიტი მნიშვნელობა არ შეიძლება ერთდროულად შეიცავდეს დადებით და უარყოფით მნიშვნელობებს ნულის ჩათვლით, წინააღმდეგ შემთხვევაში კოეფიციენტების ეკონომიკურ ინტერპრეტაციაში მივიღებთ წინააღმდეგობრივ შედეგებს, რაც არ შეიძლება. ამრიგად, კოეფიციენტი მნიშვნელოვანია, თუ მიღებული ნდობის ინტერვალი არ ფარავს ნულს.

მაგალითი 7.4. 7.1 მაგალითის მიხედვით:

ა) შექმენით დაწყვილებული ხაზოვანი რეგრესიის მოდელი გაყიდვიდან მიღებული მოგების დამოკიდებულების გასაყიდ ფასზე მონაცემთა დამუშავების პროგრამული უზრუნველყოფის გამოყენებით.

ბ) რეგრესიის განტოლების მნიშვნელოვნების შეფასება მთლიანობაში გამოყენებით F-ფიშერის კრიტერიუმი ზე α=0.05.

გ) რეგრესიის მოდელის კოეფიციენტების მნიშვნელოვნების შეფასება გამოყენებით -სტუდენტური კრიტერიუმი α=0.05და α=0.1.

რეგრესიული ანალიზისთვის ვიყენებთ სტანდარტულ საოფისე პროგრამას EXCEL. ჩვენ ავაშენებთ რეგრესიის მოდელს ANALYSIS PACKAGE პარამეტრების REGRESSION ინსტრუმენტის გამოყენებით (ნახ. 7.5), რომელიც გაშვებულია შემდეგნაირად:

სერვისის მონაცემთა ანალიზიREGRESSIONOK.

სურ.7.5. REGRESSION ინსტრუმენტის გამოყენებით

REGRESSION დიალოგურ ფანჯარაში, შეყვანის ინტერვალის Y ველში შეიყვანეთ დამოკიდებული ცვლადის შემცველი უჯრედების დიაპაზონის მისამართი. შეყვანის ინტერვალის X ველში შეიყვანეთ ერთი ან მეტი დიაპაზონის მისამართები, რომლებიც შეიცავს დამოუკიდებელი ცვლადის მნიშვნელობებს. Labels პირველ სტრიქონში დაყენებულია აქტიურ მდგომარეობაში, თუ ასევე არჩეულია სვეტების სათაურები. ნახ. 7.6. ნაჩვენებია რეგრესიის მოდელის გამოთვლის ეკრანის ფორმა REGRESSION ინსტრუმენტის გამოყენებით.

ბრინჯი. 7.6. დაწყვილებული რეგრესიის მოდელის აგება გამოყენებით

რეგრესიის ინსტრუმენტი

REGRESSION ხელსაწყოს მუშაობის შედეგად ყალიბდება შემდეგი რეგრესიული ანალიზის პროტოკოლი (ნახ. 7.7).

ბრინჯი. 7.7. რეგრესიული ანალიზის პროტოკოლი

გაყიდვიდან მიღებული მოგების დამოკიდებულების განტოლებას გასაყიდ ფასზე აქვს ფორმა:

ჩვენ შევაფასებთ რეგრესიის განტოლების მნიშვნელობას გამოყენებით F-ფიშერის კრიტერიუმი. მნიშვნელობა F-ფიშერის კრიტერიუმი აღებულია EXCEL პროტოკოლის ცხრილიდან „Avariance analysis“ (ნახ. 7.7.). სავარაუდო ღირებულება F-კრიტერიუმი 53372. ცხრილის ღირებულება F-კრიტერიუმი მნიშვნელოვნების დონეზე α=0.05და თავისუფლების ხარისხების რაოდენობა არის 4.964. როგორც , მაშინ განტოლება განიხილება მნიშვნელოვანი.

სავარაუდო ღირებულებები -მოსწავლის კრიტერიუმები რეგრესიის განტოლების კოეფიციენტებისთვის მოცემულია მიღებულ ცხრილში (ნახ. 7.7). ცხრილის ღირებულება -მოსწავლის ტესტი მნიშვნელოვნების დონეზე α=0.05ხოლო თავისუფლების 10 გრადუსია 2.228. რეგრესიის კოეფიციენტისთვის , აქედან გამომდინარე კოეფიციენტი უმნიშვნელო. რეგრესიის კოეფიციენტისთვის მაშასადამე, კოეფიციენტი მნიშვნელოვანი.

თემა 4. ურთიერთობების შესწავლის სტატისტიკური მეთოდები

რეგრესიის განტოლება -ეს არის კორელაციური დამოკიდებულების ანალიტიკური წარმოდგენა. რეგრესიის განტოლება აღწერს ჰიპოთეტურ ფუნქციონალურ ურთიერთობას ეფექტური ატრიბუტის პირობით საშუალო მნიშვნელობასა და ატრიბუტის - ფაქტორის (ფაქტორების) მნიშვნელობას, ე.ი. დამოკიდებულების ძირითადი ტენდენცია.

წყვილთა კორელაციური დამოკიდებულება აღწერილია წყვილის რეგრესიის განტოლებით, მრავალჯერადი კორელაციური დამოკიდებულება - მრავალჯერადი რეგრესიის განტოლებით.

რეგრესიის განტოლებაში შედეგის ატრიბუტი არის დამოკიდებული ცვლადი (პასუხი, ცვლადი ახსნილია), ხოლო ატრიბუტის ფაქტორი დამოუკიდებელი ცვლადი (არგუმენტი, განმარტებითი ცვლადი).

რეგრესიის განტოლების უმარტივესი ტიპი არის დაწყვილებული წრფივი ურთიერთობის განტოლება:

სადაც y არის დამოკიდებული ცვლადი (ნიშანი-შედეგი); x არის დამოუკიდებელი ცვლადი (ნიშან-ფაქტორი); და არის რეგრესიის განტოლების პარამეტრები; - შეფასების შეცდომა.

სხვადასხვა მათემატიკური ფუნქცია შეიძლება გამოყენებულ იქნას როგორც რეგრესიის განტოლება. ხშირ პრაქტიკულ გამოყენებას პოულობს წრფივი დამოკიდებულების, პარაბოლის, ჰიპერბოლის, სტეპის ფუნქციის და ა.შ.

როგორც წესი, ანალიზი იწყება წრფივი დამოკიდებულებით, ვინაიდან შედეგების მნიშვნელობით ინტერპრეტაცია მარტივია. შეზღუდვის განტოლების ტიპის არჩევანი საკმაოდ მნიშვნელოვანი ნაბიჯია ანალიზში. „პრეკომპიუტერულ“ ეპოქაში ეს პროცედურა გარკვეულ სირთულეებთან იყო დაკავშირებული და ანალიტიკოსს სთხოვდა მათემატიკური ფუნქციების თვისებების ცოდნას. ამჟამად, სპეციალიზებული პროგრამების საფუძველზე, შესაძლებელია საკომუნიკაციო განტოლებების ერთობლიობის სწრაფად აგება და, ფორმალური კრიტერიუმების საფუძველზე, საუკეთესო მოდელის შერჩევა (თუმცა, ანალიტიკოსის მათემატიკური ცოდნამ არ დაკარგა აქტუალობა).

კორელაციური დამოკიდებულების ტიპის შესახებ ჰიპოთეზა შეიძლება წამოვიდეს კორელაციური ველის აგების შედეგებზე დაყრდნობით (იხ. ლექცია 6). გრაფიკზე წერტილების ადგილმდებარეობის ბუნებიდან გამომდინარე (წერტილების კოორდინატები შეესაბამება დამოკიდებული და დამოუკიდებელი ცვლადების მნიშვნელობებს), ვლინდება ნიშნების (ინდიკატორების) ურთიერთობის ტენდენცია. თუ რეგრესიის ხაზი გადის კორელაციის ველის ყველა წერტილს, მაშინ ეს მიუთითებს ფუნქციურ ურთიერთობაზე. სოციალურ-ეკონომიკური კვლევის პრაქტიკაში ასეთი სურათი არ შეინიშნება, ვინაიდან არსებობს სტატისტიკური (კორელაციური) დამოკიდებულება. კორელაციური დამოკიდებულების პირობებში სკატერპლატზე რეგრესიის ხაზის გაყვანისას შეინიშნება კორელაციური ველის წერტილების გადახრა რეგრესიის წრფედან, რაც აჩვენებს ე.წ.

განტოლების შეცდომის არსებობა განპირობებულია იმით, რომ:

§ რეგრესიის განტოლებაში არ არის გათვალისწინებული შედეგზე მოქმედი ყველა ფაქტორი;

§ შეიძლება არასწორად იყოს შერჩეული კავშირის ფორმა - რეგრესიის განტოლება;

§ ყველა ფაქტორი არ შედის განტოლებაში.

რეგრესიის განტოლების აგება ნიშნავს მისი პარამეტრების მნიშვნელობების გამოთვლას. რეგრესიის განტოლება აგებულია გაანალიზებული მახასიათებლების რეალური მნიშვნელობების საფუძველზე. პარამეტრების გაანგარიშება ჩვეულებრივ ხორციელდება გამოყენებით უმცირესი კვადრატების მეთოდი (LSM).

MNC-ის არსიარის ის, რომ შესაძლებელია განტოლების პარამეტრების ისეთი მნიშვნელობების მიღება, რომლებშიც ატრიბუტი-შედეგის თეორიული მნიშვნელობების კვადრატული გადახრების ჯამი (გამოითვლება რეგრესიის განტოლების საფუძველზე) მისი ფაქტობრივიდან. მნიშვნელობები მინიმუმამდეა დაყვანილი:

,

სადაც - მოსახლეობის i-ე ერთეულის ნიშანი-შედეგის ფაქტობრივი მნიშვნელობა; - პოპულაციის i-ე ერთეულის ნიშანი-შედეგის მნიშვნელობა, მიღებული რეგრესიის განტოლებით ().

ამრიგად, პრობლემა მოგვარებულია ექსტრემისთვის, ანუ აუცილებელია იმის დადგენა, თუ რა პარამეტრების მნიშვნელობებზე, ფუნქცია S აღწევს მინიმუმს.

დიფერენციაციის განხორციელება, ნაწილობრივი წარმოებულების ნულთან გათანაბრება:



, (7.3)

, (7.4)

სად არის ფაქტორისა და შედეგის მნიშვნელობების საშუალო პროდუქტი; - ნიშნის საშუალო მნიშვნელობა - ფაქტორი; - ნიშანი-შედეგის საშუალო მნიშვნელობა; - ნიშნის ფაქტორის ვარიაცია.

რეგრესიის განტოლების პარამეტრი ახასიათებს გრაფიკზე რეგრესიის ხაზის დახრილობას. ეს ვარიანტი ე.წ რეგრესიის კოეფიციენტიდა მისი მნიშვნელობა ახასიათებს იმით, თუ რამდენ ერთეულში შეიცვლება ნიშანი-შედეგი, როდესაც ნიშან-ფაქტორი იცვლება მისი საზომი ერთეულით. რეგრესიის კოეფიციენტის ნიშანი ასახავს დამოკიდებულების მიმართულებას (პირდაპირი ან შებრუნებული) და ემთხვევა კორელაციის კოეფიციენტის ნიშანს (დაწყვილებული დამოკიდებულების პირობებში).

განხილული მაგალითის ფარგლებში, STATISTICA პროგრამამ გამოთვალა რეგრესიის განტოლების პარამეტრები, რომელიც აღწერს კავშირს მოსახლეობის საშუალო ერთ სულ მოსახლეზე ფულადი შემოსავლის დონესა და მთლიანი რეგიონალური პროდუქტის ღირებულებას ერთ სულ მოსახლეზე რუსეთის რეგიონებში. იხილეთ ცხრილი 7.1.

ცხრილი 7.1 - განტოლების პარამეტრების გამოთვლა და შეფასება, რომელიც აღწერს მოსახლეობის საშუალო ფულადი შემოსავლის დონეს ერთ სულ მოსახლეზე და მთლიანი რეგიონალური პროდუქტის ღირებულებას შორის რუსეთის რეგიონებში, 2013 წ.

ცხრილის "B" სვეტი შეიცავს წყვილის რეგრესიის განტოლების პარამეტრების მნიშვნელობებს, შესაბამისად, შეგვიძლია დავწეროთ: = 13406.89 + 22.82 x. ეს განტოლება აღწერს ანალიზებულ მახასიათებლებს შორის ურთიერთობის ტენდენციას. პარამეტრი არის რეგრესიის კოეფიციენტი. ამ შემთხვევაში, ის უდრის 22,82-ს და ახასიათებს შემდეგს: ერთ სულ მოსახლეზე GRP 1 ათასი რუბლით გაზრდით, საშუალო ერთ სულ მოსახლეზე ფულადი შემოსავალი იზრდება საშუალოდ (როგორც მითითებულია "+" ნიშნით) 22,28 რუბლით.

რეგრესიის განტოლების პარამეტრი სოციალურ-ეკონომიკურ კვლევებში, როგორც წესი, მნიშვნელოვნად არ არის განმარტებული. ფორმალურად, იგი ასახავს ნიშნის მნიშვნელობას - შედეგს, იმ პირობით, რომ ნიშანი - ფაქტორი ნულის ტოლია. პარამეტრი ახასიათებს რეგრესიის ხაზის მდებარეობას გრაფიკზე, იხილეთ სურათი 7.1.

დიაგრამა 7.1 - კორელაციური ველი და რეგრესიული ხაზი, რომელიც ასახავს რუსეთის რეგიონებში მოსახლეობის საშუალო ფულადი შემოსავლის ერთ სულ მოსახლეზე დონის დამოკიდებულებას და ერთ სულ მოსახლეზე GRP-ის ღირებულებას.

პარამეტრის მნიშვნელობა შეესაბამება რეგრესიის ხაზის Y ღერძთან გადაკვეთის წერტილს, X=0-ზე.

რეგრესიული განტოლების აგებას თან ახლავს განტოლების მთლიანობაში და მისი პარამეტრების სტატისტიკური მნიშვნელობის შეფასება. ასეთი პროცედურების საჭიროება დაკავშირებულია მონაცემთა შეზღუდულ რაოდენობასთან, რამაც შეიძლება ხელი შეუშალოს დიდი რიცხვების კანონის მოქმედებას და, შესაბამისად, ჭეშმარიტი ტენდენციის იდენტიფიცირებას გაანალიზებულ ინდიკატორებთან ურთიერთობაში. გარდა ამისა, ნებისმიერი შესწავლილი პოპულაცია შეიძლება ჩაითვალოს ნიმუშად ზოგადი პოპულაციისგან, ხოლო ანალიზის დროს მიღებული მახასიათებლები, როგორც ზოგადი პარამეტრების შეფასება.

პარამეტრების და მთლიანობაში განტოლების სტატისტიკური მნიშვნელოვნების შეფასება წარმოადგენს მენეჯერული გადაწყვეტილებების მიღებისა და პროგნოზირების (მოდელირების) აგებული საკომუნიკაციო მოდელის გამოყენების შესაძლებლობის დასაბუთებას.

რეგრესიის განტოლების სტატისტიკური მნიშვნელობაზოგადად შეფასებულია გამოყენებით ფიშერის F-ტესტი, რომელიც არის ფაქტორული და ნარჩენი ვარიაციების თანაფარდობა, რომელიც გამოითვლება თავისუფლების ერთი ხარისხით:

სადაც - მახასიათებლის ფაქტორული განსხვავება - შედეგი; k არის ფაქტორული დისპერსიის თავისუფლების ხარისხების რაოდენობა (ფაქტორების რაოდენობა რეგრესიის განტოლებაში); - დამოკიდებული ცვლადის საშუალო მნიშვნელობა; - დამოკიდებული ცვლადის თეორიული (მიღებული რეგრესიის განტოლებით) მნიშვნელობა პოპულაციის i-ე ერთეულისთვის; - ნიშნის ნარჩენი ვარიაცია - შედეგი; n არის მოსახლეობის მოცულობა; n-k-1 არის ნარჩენი დისპერსიის თავისუფლების გრადუსების რაოდენობა.

ფიშერის F-ტესტის მნიშვნელობა, ფორმულის მიხედვით, ახასიათებს თანაფარდობას დამოკიდებული ცვლადის ფაქტორსა და ნარჩენ ცვალებადობას შორის, რაც აჩვენებს, არსებითად, რამდენჯერ აღემატება ვარიაციის ახსნილი ნაწილის მნიშვნელობა აუხსნელს.

ფიშერის F-ტესტი ტაბულირებულია, ცხრილის შეყვანა არის ფაქტორული და ნარჩენი ვარიაციების თავისუფლების ხარისხი. კრიტერიუმის გამოთვლილი მნიშვნელობის შედარება ტაბულურთან (კრიტიკულთან) იძლევა პასუხის გაცემას კითხვაზე: არის თუ არა თვისება-შედეგის ვარიაციის ის ნაწილი, რომელიც შეიძლება აიხსნას ამ ტიპის განტოლებაში შემავალი ფაქტორებით სტატისტიკურად მნიშვნელოვანი? Თუ , მაშინ რეგრესიის განტოლება აღიარებულია სტატისტიკურად მნიშვნელოვანად და, შესაბამისად, განსაზღვრის კოეფიციენტიც სტატისტიკურად მნიშვნელოვანია. წინააღმდეგ შემთხვევაში ( ), განტოლება სტატისტიკურად უმნიშვნელოა, ე.ი. განტოლებაში გათვალისწინებული ფაქტორების ცვალებადობა არ ხსნის თვისება-შედეგის ვარიაციის სტატისტიკურად მნიშვნელოვან ნაწილს, ან ურთიერთობის განტოლება არ არის სწორად შერჩეული.

განტოლების პარამეტრების სტატისტიკური მნიშვნელოვნების შეფასებასაფუძველზე განხორციელდა t-სტატისტიკა, რომელიც გამოითვლება როგორც რეგრესიის განტოლების პარამეტრების აბსოლუტური მნიშვნელობის თანაფარდობა მათ სტანდარტულ შეცდომებთან ( ):

, სად ; (7.6)

, სად ; (7.7)

სადაც - ნიშნის სტანდარტული გადახრები - ფაქტორი და ნიშანი - შედეგი; - განსაზღვრის კოეფიციენტი.

სპეციალიზებულ სტატისტიკურ პროგრამებში, პარამეტრების გამოთვლას ყოველთვის ახლავს მათი სტანდარტული (ძირი-საშუალო-კვადრატი) შეცდომების და t-სტატისტიკის გამოთვლა (იხ. ცხრილი 7.1). t- სტატისტიკის გამოთვლილი მნიშვნელობა შედარებულია ცხრილთან, თუ შესწავლილი პოპულაციის მოცულობა 30 ერთეულზე ნაკლებია (რა თქმა უნდა მცირე ნიმუში), უნდა მივმართოთ Student-ის t-განაწილების ცხრილს, თუ პოპულაციის მოცულობა დიდია. , უნდა გამოვიყენოთ ნორმალური განაწილების ცხრილი (ლაპლასის ალბათობის ინტეგრალი). განტოლების პარამეტრი ითვლება სტატისტიკურად მნიშვნელოვანი, თუ.

t- სტატისტიკაზე დაფუძნებული პარამეტრების შეფასება, არსებითად, არის ნულოვანი ჰიპოთეზის ტესტი ზოგადი პარამეტრების ნულთან ტოლობის შესახებ (H 0: =0; H 0: =0;), ანუ სტატისტიკურად უმნიშვნელოზე. რეგრესიის განტოლების პარამეტრების მნიშვნელობა. ჰიპოთეზის მნიშვნელოვნების დონე, როგორც წესი, აღებულია: = 0,05. თუ გამოთვლილი მნიშვნელოვნების დონე 0,05-ზე ნაკლებია, მაშინ ნულოვანი ჰიპოთეზა უარყოფილია და მიიღება ალტერნატიული - პარამეტრის სტატისტიკური მნიშვნელოვნების შესახებ.

გავაგრძელოთ მაგალითი. ცხრილი 7.1 სვეტში "B" აჩვენებს პარამეტრების მნიშვნელობებს, სვეტში Std.Err.ofB - პარამეტრების სტანდარტული შეცდომების მნიშვნელობებს ( ), t სვეტში (77 - თავისუფლების გრადუსების რაოდენობა) t - სტატისტიკის მნიშვნელობები გამოითვლება თავისუფლების გრადუსების რაოდენობის გათვალისწინებით. პარამეტრების სტატისტიკური მნიშვნელობის შესაფასებლად, t- სტატისტიკის გამოთვლილი მნიშვნელობები უნდა შევადაროთ ცხრილის მნიშვნელობას. ნორმალური განაწილების ცხრილში მოცემული მნიშვნელობის დონე (0.05) შეესაბამება t = 1.96. 18.02, 10.84, ე.ი. , უნდა აღიაროს მიღებული პარამეტრის მნიშვნელობების სტატისტიკური მნიშვნელობა, ე.ი. ეს მნიშვნელობები იქმნება არა შემთხვევითი ფაქტორების გავლენის ქვეშ და ასახავს გაანალიზებულ ინდიკატორებს შორის ურთიერთობის ტენდენციას.

განტოლების მთლიანობაში სტატისტიკური მნიშვნელობის შესაფასებლად მივმართავთ ფიშერის F-ტესტის მნიშვნელობას (იხ. ცხრილი 7.1). F-კრიტერიუმის გამოთვლილი მნიშვნელობა = 117.51, კრიტერიუმის ტაბულური მნიშვნელობა, დაფუძნებული თავისუფლების ხარისხების შესაბამის რაოდენობაზე (ფაქტორების ცვალებადობისთვის d.f. =1, ნარჩენი დისპერსიისთვის d.f. =77), არის 4.00 (იხ. დანართი .. ...). ამრიგად, მაშასადამე, რეგრესიის განტოლება მთლიანობაში არის სტატისტიკურად მნიშვნელოვანი. ასეთ ვითარებაში ასევე შეიძლება ვისაუბროთ განსაზღვრის კოეფიციენტის მნიშვნელობის სტატისტიკურ მნიშვნელობაზე, ე.ი. რუსეთის რეგიონებში მოსახლეობის ერთ სულ მოსახლეზე საშუალო შემოსავლის 60 პროცენტიანი ცვალებადობა შეიძლება აიხსნას მთლიანი რეგიონალური პროდუქტის მოცულობის ცვალებადობით.

რეგრესიის განტოლებისა და მისი პარამეტრების სტატისტიკური მნიშვნელობის შეფასებით, შეგვიძლია მივიღოთ შედეგების განსხვავებული კომბინაცია.

· F-ტესტით განტოლება სტატისტიკურად მნიშვნელოვანია და t-სტატისტიკის განტოლების ყველა პარამეტრი ასევე სტატისტიკურად მნიშვნელოვანია. ეს განტოლება შეიძლება გამოყენებულ იქნას როგორც მენეჯერული გადაწყვეტილებების მისაღებად (რომელ ფაქტორებზე უნდა იქონიოს გავლენა სასურველი შედეგის მისაღებად), ასევე შედეგის ატრიბუტის ქცევის პროგნოზირებისთვის ფაქტორების გარკვეული მნიშვნელობებისთვის.

· F-კრიტერიუმის მიხედვით, განტოლება სტატისტიკურად მნიშვნელოვანია, მაგრამ განტოლების პარამეტრები (პარამეტრი) უმნიშვნელოა. განტოლება შეიძლება გამოყენებულ იქნას მენეჯმენტის გადაწყვეტილებების მისაღებად (იმ ფაქტორებთან დაკავშირებით, რომლებზეც დადასტურებულია მათი გავლენის სტატისტიკური მნიშვნელობა), მაგრამ განტოლება არ შეიძლება გამოყენებულ იქნას პროგნოზირებისთვის.

· F-ტესტის განტოლება არ არის სტატისტიკურად მნიშვნელოვანი. განტოლების გამოყენება შეუძლებელია. უნდა გაგრძელდეს მნიშვნელოვანი ნიშან-ფაქტორების ან არგუმენტსა და პასუხს შორის კავშირის ანალიტიკური ფორმის ძიება.

თუ განტოლებისა და მისი პარამეტრების სტატისტიკური მნიშვნელოვნება დადასტურდა, მაშინ შეიძლება განხორციელდეს ე.წ. წერტილოვანი პროგნოზი, ე.ი. მიღებულია ატრიბუტის შედეგის (y) მნიშვნელობის შეფასება (x) ფაქტორის გარკვეული მნიშვნელობებისთვის.

აშკარაა, რომ დამოკიდებული ცვლადის პროგნოზირებული მნიშვნელობა, რომელიც გამოითვლება მიმართების განტოლების საფუძველზე, არ ემთხვევა მის რეალურ მნიშვნელობას ( გრაფიკულად, ამ ვითარებას ადასტურებს ის ფაქტი, რომ კორელაციური ველის ყველა წერტილი არ დევს რეგრესიის ხაზზე, მხოლოდ ფუნქციური შეერთებით რეგრესიის ხაზი გაივლის სკატერის დიაგრამის ყველა წერტილს. დამოკიდებული ცვლადის რეალურ და თეორიულ მნიშვნელობებს შორის შეუსაბამობების არსებობა, უპირველეს ყოვლისა, გამოწვეულია კორელაციური დამოკიდებულების არსით: ამავდროულად, შედეგზე გავლენას ახდენს მრავალი ფაქტორი, რომელთა მხოლოდ ნაწილის გათვალისწინება შესაძლებელია. კონკრეტული ურთიერთობის განტოლება. გარდა ამისა, შედეგსა და ფაქტორს შორის ურთიერთობის ფორმა (რეგრესიის განტოლების ტიპი) შესაძლოა არასწორად იყოს შერჩეული. ამასთან დაკავშირებით, ჩნდება კითხვა, რამდენად ინფორმაციულია აგებული შეზღუდვის განტოლება. ამ კითხვას ორი ინდიკატორი უპასუხებს: განსაზღვრის კოეფიციენტი (ზემოთ უკვე ვისაუბრეთ) და შეფასების სტანდარტული შეცდომა.

დამოკიდებული ცვლადის ფაქტობრივ და თეორიულ მნიშვნელობებს შორის განსხვავებას ე.წ გადახრები ან შეცდომები, ან ნარჩენები. ამ მნიშვნელობებზე დაყრდნობით, გამოითვლება ნარჩენი დისპერსია. ნარჩენი დისპერსიის კვადრატული ფესვი არის root-mean-კვადრატული (სტანდარტული) შეფასების შეცდომა:

= (7.8)

განტოლების სტანდარტული შეცდომა იზომება იმავე ერთეულებში, როგორც პროგნოზირებული მაჩვენებელი. თუ განტოლების შეცდომები მიჰყვება ნორმალურ განაწილებას (დიდი რაოდენობით მონაცემებით), მაშინ მნიშვნელობების 95 პროცენტი უნდა იყოს რეგრესიის ხაზიდან არაუმეტეს 2S მანძილით (ნორმალური განაწილების თვისებაზე დაყრდნობით - წესი. სამი სიგმადან). შეფასების სტანდარტული შეცდომის მნიშვნელობა გამოიყენება ნდობის ინტერვალების გაანგარიშებისას ნიშნის მნიშვნელობის პროგნოზირებისას - შედეგი პოპულაციის კონკრეტული ერთეულისთვის.

პრაქტიკულ კვლევაში ხშირად ხდება საჭირო მახასიათებლის საშუალო მნიშვნელობის წინასწარმეტყველება - შედეგი მახასიათებლის - ფაქტორის კონკრეტული მნიშვნელობისთვის. ამ შემთხვევაში, დამოკიდებული ცვლადის საშუალო მნიშვნელობის ნდობის ინტერვალის გაანგარიშებისას ()

გათვალისწინებულია საშუალო შეცდომის მნიშვნელობა:

(7.9)

შეცდომის სხვადასხვა მნიშვნელობების გამოყენება აიხსნება იმით, რომ მოსახლეობის კონკრეტული ერთეულებისთვის ინდიკატორების დონეების ცვალებადობა გაცილებით მაღალია, ვიდრე საშუალო მნიშვნელობის ცვალებადობა, შესაბამისად, საშუალო მნიშვნელობის პროგნოზის შეცდომა უფრო მცირეა.

დამოკიდებული ცვლადის საშუალო მნიშვნელობის პროგნოზის ნდობის ინტერვალი:

, (7.10)

სადაც - ზღვრული შეფასების შეცდომა (იხ. შერჩევის თეორია); t არის ნდობის კოეფიციენტი, რომლის მნიშვნელობა მოცემულია შესაბამის ცხრილში, მკვლევარის მიერ მიღებული ალბათობის დონის მიხედვით (თავისუფლების ხარისხების რაოდენობა) (იხ. შერჩევის თეორია).

შედეგის ატრიბუტის პროგნოზირებული მნიშვნელობის ნდობის ინტერვალი ასევე შეიძლება გამოითვალოს რეგრესიის ხაზის ცვლის (ცვლის) კორექტირების გათვალისწინებით. კორექტირების ფაქტორის მნიშვნელობა განისაზღვრება:

(7.11)

სად არის ატრიბუტი-ფაქტორის მნიშვნელობა, რომლის საფუძველზეც ხდება ატრიბუტ-შედეგის მნიშვნელობის პროგნოზირება.

აქედან გამომდინარეობს, რომ რაც უფრო განსხვავდება მნიშვნელობა ატრიბუტი-ფაქტორის საშუალო მნიშვნელობიდან, მით მეტია კორექტირების ფაქტორის მნიშვნელობა, მით მეტია პროგნოზის შეცდომა. ამ კოეფიციენტის გათვალისწინებით, პროგნოზის ნდობის ინტერვალი გამოითვლება:

რეგრესიის განტოლებაზე დაფუძნებული პროგნოზის სიზუსტეზე შეიძლება გავლენა იქონიოს სხვადასხვა მიზეზმა. უპირველეს ყოვლისა, გასათვალისწინებელია, რომ განტოლების ხარისხისა და მისი პარამეტრების შეფასება ეფუძნება შემთხვევითი ნარჩენების ნორმალური განაწილების დაშვებას. ამ ვარაუდის დარღვევა შეიძლება გამოწვეული იყოს მონაცემებში მკვეთრად განსხვავებული მნიშვნელობების არსებობით, არაერთგვაროვანი ვარიაციით, არაწრფივი ურთიერთობის არსებობით. ამ შემთხვევაში, პროგნოზის ხარისხი მცირდება. მეორე პუნქტი, რომელიც უნდა გვახსოვდეს, არის ის, რომ შედეგის პროგნოზირებისას გათვალისწინებული ფაქტორების მნიშვნელობები არ უნდა სცდებოდეს იმ მონაცემების ცვალებადობის დიაპაზონს, რომელზედაც აგებულია განტოლება.

©2015-2019 საიტი
ყველა უფლება ეკუთვნის მათ ავტორებს. ეს საიტი არ აცხადებს ავტორობას, მაგრამ უზრუნველყოფს უფასო გამოყენებას.
გვერდის შექმნის თარიღი: 2018-01-08

სოციალურ-ეკონომიკურ კვლევებში ხშირად უწევს მუშაობა შეზღუდული მოსახლეობის პირობებში, ან შერჩევითი მონაცემებით. ამიტომ რეგრესიული განტოლების მათემატიკური პარამეტრების შემდეგ აუცილებელია მათი და მთლიანობაში განტოლების შეფასება სტატისტიკური მნიშვნელოვნებისთვის, ე.ი. აუცილებელია დავრწმუნდეთ, რომ მიღებული განტოლება და მისი პარამეტრები ჩამოყალიბებულია არა შემთხვევითი ფაქტორების გავლენის ქვეშ.

უპირველეს ყოვლისა, ფასდება განტოლების სტატისტიკური მნიშვნელოვნება მთლიანობაში. შეფასება ჩვეულებრივ ტარდება ფიშერის F-ტესტის გამოყენებით. F- კრიტერიუმის გამოთვლა ეფუძნება დისპერსიების დამატების წესს. კერძოდ, ზოგადი დისპერსიის ნიშანი-შედეგი = ფაქტორის განსხვავება + ნარჩენი დისპერსია.

რეალური ფასი

თეორიული ფასი
რეგრესიის განტოლების აგების შემდეგ, შესაძლებელია გამოვთვალოთ ნიშანი-შედეგის თეორიული მნიშვნელობა, ე.ი. გამოითვლება რეგრესიის განტოლებით მისი პარამეტრების გათვალისწინებით.

ეს მნიშვნელობები ახასიათებს ანალიზში შემავალი ფაქტორების გავლენის ქვეშ ჩამოყალიბებულ ნიშან-შედეგს.

ყოველთვის არის შეუსაბამობები (ნარჩენები) შედეგის ატრიბუტის რეალურ მნიშვნელობებსა და რეგრესიის განტოლების საფუძველზე გამოთვლილ მნიშვნელობებს შორის, ანალიზში არ შედის სხვა ფაქტორების გავლენის გამო.

განსხვავებას ატრიბუტი-შედეგის თეორიულ და რეალურ მნიშვნელობებს შორის ნარჩენები ეწოდება. თვისების შედეგის ზოგადი ვარიაცია:

თვისება-შედეგში ცვალებადობა, ანალიზში შემავალი ფაქტორების თვისებების ცვალებადობის გამო, შეფასებულია შედეგის თეორიული მნიშვნელობების შედარების გზით. თვისება და მისი საშუალო მნიშვნელობები. ნარჩენი ცვალებადობა მიღებული მახასიათებლის თეორიული და რეალური მნიშვნელობების შედარების გზით. მთლიან დისპერსიას, ნარჩენს და რეალურს აქვს თავისუფლების სხვადასხვა ხარისხი.

გენერალური, - ერთეულების რაოდენობა შესწავლილ პოპულაციაში

ფაქტობრივი, - ანალიზში ჩართული ფაქტორების რაოდენობა

ნარჩენი

ფიშერის F-ტესტი გამოითვლება თანაფარდობით და გამოითვლება თავისუფლების ერთი ხარისხით.

ფიშერის F-ტესტის გამოყენება, როგორც რეგრესიის განტოლების სტატისტიკური მნიშვნელობის შეფასება, ძალიან ლოგიკურია. არის შედეგი. თვისება, ანალიზში შემავალი ფაქტორების გამო, ე.ი. ეს არის ახსნილი შედეგის პროპორცია. ნიშანი. - ეს არის შედეგის ნიშნის (ვარიაცია) ფაქტორების გამო, რომელთა გავლენაც არ არის გათვალისწინებული, ე.ი. არ შედის ანალიზში.

რომ. F-კრიტერიუმი შექმნილია შესაფასებლად აზრიანიჭარბი მეტი. თუ ის უმნიშვნელოდ დაბალია ვიდრე , და მით უმეტეს, თუ აღემატება , მაშასადამე, ანალიზი არ მოიცავს იმ ფაქტორებს, რომლებიც რეალურად მოქმედებს შედეგის ატრიბუტზე.

ფიშერის F-ტესტი ტაბულირებულია, ფაქტობრივი მნიშვნელობა შედარებულია ცხრილთან. თუ , მაშინ რეგრესიის განტოლება ითვლება სტატისტიკურად მნიშვნელოვანი. თუ, პირიქით, განტოლება არ არის სტატისტიკურად მნიშვნელოვანი და არ შეიძლება გამოყენებულ იქნას პრაქტიკაში, განტოლების მთლიანობაში მნიშვნელობა მიუთითებს კორელაციის ინდიკატორების სტატისტიკურ მნიშვნელობაზე.

განტოლების მთლიანობაში შეფასების შემდეგ აუცილებელია განტოლების პარამეტრების სტატისტიკური მნიშვნელოვნების შეფასება. ეს შეფასება ხდება სტუდენტის t-სტატისტიკის გამოყენებით. t-სტატისტიკა გამოითვლება, როგორც განტოლების პარამეტრების (მოდულის) თანაფარდობა მათ სტანდარტულ საშუალო კვადრატულ შეცდომასთან. თუ შეფასებულია ერთფაქტორიანი მოდელი, მაშინ გამოითვლება 2 სტატისტიკა.

ყველა კომპიუტერულ პროგრამაში სტანდარტული შეცდომის და t- სტატისტიკის გამოთვლა პარამეტრებისთვის ხორციელდება თავად პარამეტრების გაანგარიშებით. T-სტატისტიკა ჩამოთვლილია. თუ მნიშვნელობა არის , მაშინ პარამეტრი ითვლება სტატისტიკურად მნიშვნელოვანი, ე.ი. ჩამოყალიბდა არა შემთხვევითი ფაქტორების გავლენის ქვეშ.

t-სტატისტიკის გამოთვლა არსებითად ნიშნავს ნულოვანი ჰიპოთეზის შემოწმებას, რომ პარამეტრი უმნიშვნელოა, ე.ი. მისი ტოლობა ნულამდე. ერთფაქტორიანი მოდელით ფასდება 2 ჰიპოთეზა: და

ნულოვანი ჰიპოთეზის მიღების მნიშვნელოვნების დონე დამოკიდებულია მიღებული ნდობის დონის დონეზე. ასე რომ, თუ მკვლევარი განსაზღვრავს ალბათობის დონეს 95%, გამოითვლება მიღების მნიშვნელოვნების დონე, შესაბამისად, თუ მნიშვნელოვნების დონე ≥ 0.05, მაშინ იგი მიღებულია და პარამეტრები სტატისტიკურად უმნიშვნელოდ ითვლება. თუ , მაშინ ალტერნატივა უარყოფილია და მიიღება: და .

სტატისტიკური განაცხადის პაკეტები ასევე იძლევა მნიშვნელოვნების დონეს ნულოვანი ჰიპოთეზების მისაღებად. რეგრესიის განტოლებისა და მისი პარამეტრების მნიშვნელოვნების შეფასებამ შეიძლება მოგვცეს შემდეგი შედეგები:

ჯერ ერთი, განტოლება მთლიანობაში მნიშვნელოვანია (F-ტესტის მიხედვით) და განტოლების ყველა პარამეტრი ასევე სტატისტიკურად მნიშვნელოვანია. ეს ნიშნავს, რომ მიღებული განტოლება შეიძლება გამოყენებულ იქნას როგორც მენეჯერული გადაწყვეტილებების მისაღებად, ასევე პროგნოზირებისთვის.

მეორეც, F-კრიტერიუმის მიხედვით, განტოლება არის სტატისტიკურად მნიშვნელოვანი, მაგრამ განტოლების ერთ-ერთი პარამეტრი მაინც არ არის მნიშვნელოვანი. განტოლება შეიძლება გამოყენებულ იქნას მენეჯმენტის გადაწყვეტილებების მისაღებად გაანალიზებულ ფაქტორებთან დაკავშირებით, მაგრამ არ შეიძლება გამოყენებულ იქნას პროგნოზირებისთვის.

მესამე, განტოლება არ არის სტატისტიკურად მნიშვნელოვანი, ან განტოლება მნიშვნელოვანია F- კრიტერიუმის მიხედვით, მაგრამ მიღებული განტოლების ყველა პარამეტრი არ არის მნიშვნელოვანი. განტოლება არ შეიძლება გამოყენებულ იქნას რაიმე მიზნით.

იმისათვის, რომ რეგრესიის განტოლება აღიარებული იყოს ატრიბუტ-შედეგსა და ატრიბუტ-ფაქტორებს შორის ურთიერთობის მოდელად, აუცილებელია, რომ შეიცავდეს შედეგს განმსაზღვრელ ყველა უმნიშვნელოვანეს ფაქტორს, რათა განტოლების აზრიანი ინტერპრეტაცია მოხდეს. პარამეტრები შეესაბამება შესასწავლ ფენომენში თეორიულად გამართლებულ კავშირებს. R 2 განსაზღვრის კოეფიციენტი უნდა იყოს > 0,5.

მრავალჯერადი რეგრესიის განტოლების აგებისას მიზანშეწონილია შეფასების ჩატარება ეგრეთ წოდებული დარეგულირებული დეტერმინაციის კოეფიციენტით (R 2). R 2-ის მნიშვნელობა (ისევე როგორც კორელაციები) იზრდება ანალიზში შემავალი ფაქტორების რაოდენობის მატებასთან ერთად. კოეფიციენტების მნიშვნელობა განსაკუთრებით გადაჭარბებულია მცირე პოპულაციების პირობებში. R 2-ის უარყოფითი გავლენის ჩაქრობის მიზნით და კორელაციები სწორდება თავისუფლების ხარისხების რაოდენობის გათვალისწინებით, ე.ი. თავისუფლად ცვალებადი ელემენტების რაოდენობა, როდესაც შედის გარკვეული ფაქტორები.

განსაზღვრის მორგებული კოეფიციენტი

- დააყენეთ ზომა/დაკვირვების რაოდენობა

– ანალიზში ჩართული ფაქტორების რაოდენობა

n-1არის თავისუფლების ხარისხების რაოდენობა

(1-R2)- მიღებული ატრიბუტის ნარჩენი / აუხსნელი ვარიაციის მნიშვნელობა

ყოველთვის ნაკლები R2. ამის საფუძველზე შესაძლებელია განტოლებების შეფასებების შედარება სხვადასხვა რაოდენობის გაანალიზებულ ფაქტორებთან.

34. დროის სერიების შესწავლის პრობლემები.

დინამიკის სერიებს უწოდებენ დროის სერიებს ან დროის სერიებს. დინამიური სერია არის კონკრეტული ფენომენის დამახასიათებელი ინდიკატორების დროში მოწესრიგებული თანმიმდევრობა (მშპ-ს მოცულობა 90-დან 98 წლამდე). დინამიკის სერიის შესწავლის მიზანია შესწავლილი ფენომენის (მთავარი ტენდენცია) განვითარების შაბლონების დადგენა და ამის საფუძველზე პროგნოზირება. RD-ის განმარტებიდან გამომდინარეობს, რომ ნებისმიერი სერია შედგება ორი ელემენტისგან: დრო t და სერიის დონე (ინდიკატორის ის სპეციფიკური მნიშვნელობები, რომელთა საფუძველზეც აგებულია DR სერია). DR სერია შეიძლება იყოს 1) მომენტალური - სერია, რომლის ინდიკატორები ფიქსირდება დროის გარკვეულ მომენტში, კონკრეტულ თარიღზე, 2) ინტერვალი - სერია, რომლის მაჩვენებლები მიღებულია გარკვეული პერიოდის განმავლობაში (1. პოპულაცია პეტერბურგი, 2. მშპ პერიოდისთვის). სერიების დაყოფა მომენტებად და ინტერვალებად აუცილებელია, რადგან ეს განსაზღვრავს DR სერიის ზოგიერთი ინდიკატორის გაანგარიშების სპეციფიკას. ინტერვალური სერიების დონეების შეჯამება იძლევა მნიშვნელოვნად ინტერპრეტირებულ შედეგს, რაც არ შეიძლება ითქვას მომენტების სერიების დონეების შეჯამებაზე, რადგან ეს უკანასკნელი შეიცავს განმეორებით დათვლას. დროის სერიების ანალიზში ყველაზე მნიშვნელოვანი პრობლემაა სერიების დონეების შედარება. ეს კონცეფცია ძალიან მრავალმხრივია. დონეები შედარებადი უნდა იყოს გაანგარიშების მეთოდებით და მოსახლეობის ერთეულების ტერიტორიისა და დაფარვის თვალსაზრისით. თუ DR სერია აგებულია ღირებულებით, მაშინ ყველა დონე უნდა იყოს წარმოდგენილი ან გამოთვლილი შესადარებელი ფასებით. ინტერვალური სერიების აგებისას დონეები უნდა ახასიათებდეს დროის ერთსა და იმავე პერიოდებს. მომენტის D სერიის აგებისას დონეები უნდა დაფიქსირდეს იმავე თარიღზე. რიგები შეიძლება იყოს სრული ან არასრული. არასრული სერიები გამოიყენება ოფიციალურ პუბლიკაციებში (1980,1985,1990,1995,1996,1997,1998,1999…). RD-ის ყოვლისმომცველი ანალიზი მოიცავს შემდეგი პუნქტების შესწავლას:

1. RD დონეების ცვლილების ინდიკატორების გაანგარიშება

2. RD-ის საშუალო მაჩვენებლების გამოთვლა

3. სერიის ძირითადი ტენდენციის იდენტიფიცირება, ტრენდული მოდელების აგება

4. ავტოკორელაციის შეფასება RD-ში, ავტორეგრესიული მოდელების აგება

5. RD-ის კორელაცია

6. RD პროგნოზირება.

35. დროის სერიების დონეების ცვლილების ინდიკატორები .

ზოგადად, სერია D შეიძლება წარმოდგენილი იყოს როგორც:

y არის DR დონე, t არის მომენტი ან დროის მონაკვეთი, რომელსაც ეხება დონე (ინდიკატორი), n არის DR სერიის სიგრძე (პერიოდების რაოდენობა). დინამიკის სერიის შესწავლისას გამოითვლება შემდეგი მაჩვენებლები: 1. აბსოლუტური ზრდა, 2. ზრდის ფაქტორი (ზრდის ტემპი), 3. აჩქარება, 4. ზრდის ფაქტორი (ზრდის ტემპი), 5. 1%-იანი ზრდის აბსოლუტური მნიშვნელობა. გამოთვლილი ინდიკატორები შეიძლება იყოს: 1. ჯაჭვი - მიღებული სერიის ყოველი დონის უშუალოდ წინასთან შედარებით, 2. ძირითადი - მიღებული შედარების საფუძვლად არჩეულ დონესთან შედარებით (თუ სხვაგვარად არ არის მითითებული, სერიის 1 დონე. მიღებულია როგორც საფუძველი). 1. ჯაჭვის აბსოლუტური მოგება:. გვიჩვენებს, თუ რამდენად მეტ-ნაკლებად. ჯაჭვის აბსოლუტურ ნამატებს უწოდებენ დინამიური სერიის დონეების ცვლილების სიჩქარის ინდიკატორებს. ბაზის აბსოლუტური ზრდა: . თუ სერიის დონეები ფარდობითი ინდიკატორებია, გამოხატული %, მაშინ აბსოლუტური ზრდა გამოიხატება ცვლილების წერტილებში. 2. ზრდის ფაქტორი (ზრდის ტემპი):ის გამოითვლება როგორც სერიის დონეების თანაფარდობა უშუალოდ წინა დონეებთან (ჯაჭვის ზრდის ფაქტორები) ან შედარების საფუძვლად აღებულ დონესთან (ძირითადი ზრდის ფაქტორები): . ახასიათებს სერიის თითოეულ დონეზე რამდენჯერ > ან< предшествующего или базисного. На основе коэффициентов роста рассчитываются темпы роста. Это коэффициенты роста, выраженные в %ах: 3. აბსოლუტური ზრდის საფუძველზე, მაჩვენებელი გამოითვლება - აბსოლუტური ზრდის დაჩქარება: . აჩქარება არის აბსოლუტური ზრდის აბსოლუტური ზრდა. აფასებს, თუ როგორ იცვლება თავად მატება, არის თუ არა ისინი სტაბილური თუ აჩქარებული (მზარდი). 4. ზრდის ტემპიარის ზრდის შეფარდება შედარების საფუძველთან. გამოხატულია %: ; . ზრდის ტემპი არის ზრდის ტემპი მინუს 100%. გვიჩვენებს, რამდენი % არის ამ მწკრივის დონე > ან< предшествующего либо базисного. 5. абсолютное значение 1% прироста. Рассчитывается как отношение абсолютного прироста к темпу прироста, т.е.: - сотая доля предыдущего уровня. Все эти показатели рассчитываются для оценки степени изменения уровней ряда. Цепные коэффициенты и темпы роста называются показателями интенсивности изменения уровней ДРядов.

2. RD-ის საშუალო მაჩვენებლების გაანგარიშება გამოთვალეთ სერიის საშუალო დონეები, საშუალო აბსოლუტური მოგება, საშუალო ზრდის ტემპი და საშუალო ზრდის ტემპი. საშუალო ინდიკატორები გამოითვლება იმისთვის, რომ შევაჯამოთ ინფორმაცია და შევადაროთ მათი ცვლილების დონეები და ინდიკატორები სხვადასხვა სერიებში. 1. რიგის საშუალო დონეა) ინტერვალური დროის სერიებისთვის ის გამოითვლება მარტივი არითმეტიკული საშუალოთ: , სადაც n არის დონეების რაოდენობა დროის სერიებში; ბ) მომენტების სერიებისთვის საშუალო დონე გამოითვლება კონკრეტული ფორმულის მიხედვით, რომელსაც ქრონოლოგიური საშუალო ეწოდება: . 2. საშუალო აბსოლუტური ზრდაგამოითვლება ჯაჭვის აბსოლუტური ნამატების საფუძველზე მარტივი საშუალო არითმეტიკის მიხედვით:

. 3. საშუალო ზრდის ფაქტორიგამოითვლება ჯაჭვის ზრდის ფაქტორების საფუძველზე გეომეტრიული საშუალო ფორმულის გამოყენებით: . DR სერიის საშუალო მაჩვენებლების კომენტირებისას აუცილებელია მიეთითოს 2 წერტილი: პერიოდი, რომელიც ახასიათებს გაანალიზებულ ინდიკატორს და დროის ინტერვალი, რომლისთვისაც აგებულია DR სერია. 4. საშუალო ზრდის ტემპი: . 5. საშუალო ზრდის ტემპი: .