ხაზოვანი რეგრესიის მეთოდი სტატისტიკაში. რეგრესია Excel-ში: განტოლება, მაგალითები

რეგრესიული ანალიზი არის სტატისტიკური კვლევის მეთოდი, რომელიც საშუალებას გაძლევთ აჩვენოთ პარამეტრის დამოკიდებულება ერთ ან რამდენიმე დამოუკიდებელ ცვლადზე. კომპიუტერამდელ ეპოქაში მისი გამოყენება საკმაოდ რთული იყო, განსაკუთრებით მაშინ, როცა საქმე დიდი მოცულობის მონაცემებს ეხებოდა. დღეს, როდესაც ისწავლეთ თუ როგორ უნდა შექმნათ რეგრესია Excel-ში, შეგიძლიათ გადაჭრათ რთული სტატისტიკური პრობლემები სულ რამდენიმე წუთში. ქვემოთ მოცემულია კონკრეტული მაგალითები ეკონომიკის სფეროდან.

რეგრესიის სახეები

თავად კონცეფცია მათემატიკაში 1886 წელს შევიდა. რეგრესია ხდება:

  • ხაზოვანი;
  • პარაბოლური;
  • ძალა;
  • ექსპონენციალური;
  • ჰიპერბოლური;
  • დემონსტრაციული;
  • ლოგარითმული.

მაგალითი 1

განვიხილოთ პენსიაზე გასული გუნდის წევრების რაოდენობის დამოკიდებულების განსაზღვრის პრობლემა 6 სამრეწველო საწარმოს საშუალო ხელფასზე.

დავალება. ექვს საწარმოში გავაანალიზეთ საშუალო თვიური ხელფასი და საკუთარი ნებით წასული დასაქმებულთა რაოდენობა. ცხრილის სახით გვაქვს:

წასული ხალხის რაოდენობა

ხელფასი

30000 რუბლი

35000 რუბლი

40000 რუბლი

45000 რუბლი

50000 რუბლი

55000 რუბლი

60000 რუბლი

6 საწარმოში პენსიაზე გასული მუშაკების რაოდენობის დამოკიდებულების საშუალო ხელფასზე დამოკიდებულების დასადგენად, რეგრესიის მოდელს აქვს განტოლების ფორმა Y = a 0 + a 1 x 1 +…+a k x k, სადაც x i არის გავლენიანი ცვლადები. , a i არის რეგრესიის კოეფიციენტები, a k არის ფაქტორების რაოდენობა.

ამ ამოცანისთვის Y არის წასული თანამშრომლების მაჩვენებელი, ხოლო გავლენის ფაქტორი არის ხელფასი, რომელსაც X-ით აღვნიშნავთ.

ელცხრილის "Excel" შესაძლებლობების გამოყენება

Excel-ში რეგრესიის ანალიზს წინ უნდა უძღოდეს ჩაშენებული ფუნქციების გამოყენება ხელმისაწვდომი ცხრილის მონაცემებზე. თუმცა, ამ მიზნებისთვის უმჯობესია გამოიყენოთ ძალიან სასარგებლო დანამატი "ანალიზის ინსტრუმენტარიუმი". მის გასააქტიურებლად გჭირდებათ:

  • "ფაილი" ჩანართიდან გადადით "პარამეტრები" განყოფილებაში;
  • ფანჯარაში, რომელიც იხსნება, აირჩიეთ ხაზი "დამატებები";
  • დააჭირეთ ღილაკს "გადასვლა", რომელიც მდებარეობს ბოლოში, "მართვის" ხაზის მარჯვნივ;
  • შეამოწმეთ ყუთი სახელის გვერდით "ანალიზის პაკეტი" და დაადასტურეთ თქვენი ქმედებები "OK" დაწკაპუნებით.

თუ ყველაფერი სწორად გაკეთდა, სასურველი ღილაკი გამოჩნდება მონაცემთა ჩანართის მარჯვენა მხარეს, რომელიც მდებარეობს Excel-ის სამუშაო ფურცლის ზემოთ.

Excel-ში

ახლა, როცა ხელთ გვაქვს ყველა საჭირო ვირტუალური ინსტრუმენტი ეკონომეტრიული გამოთვლების შესასრულებლად, შეგვიძლია დავიწყოთ ჩვენი პრობლემის გადაჭრა. Ამისთვის:

  • დააჭირეთ ღილაკს "მონაცემთა ანალიზი";
  • ფანჯარაში, რომელიც იხსნება, დააჭირეთ ღილაკს "რეგრესია";
  • ჩანართში, რომელიც გამოჩნდება, შეიყვანეთ მნიშვნელობების დიაპაზონი Y-სთვის (თანამშრომლების რაოდენობა, რომლებმაც დატოვეს სამსახური) და X-სთვის (მათი ხელფასები);
  • ჩვენ ვადასტურებთ ჩვენს ქმედებებს ღილაკზე "Ok" დაჭერით.

შედეგად, პროგრამა ავტომატურად შეავსებს ცხრილის ახალ ფურცელს რეგრესიული ანალიზის მონაცემებით. Შენიშვნა! Excel-ს აქვს შესაძლებლობა ხელით დააყენოს თქვენთვის სასურველი მდებარეობა ამ მიზნით. მაგალითად, ეს შეიძლება იყოს იგივე ფურცელი, სადაც არის Y და X მნიშვნელობები, ან თუნდაც ახალი სამუშაო წიგნი, რომელიც სპეციალურად შექმნილია ასეთი მონაცემების შესანახად.

რეგრესიის შედეგების ანალიზი R-კვადრატისთვის

Excel-ში, განხილული მაგალითის მონაცემების დამუშავებისას მიღებული მონაცემები ასე გამოიყურება:

უპირველეს ყოვლისა, ყურადღება უნდა მიაქციოთ R-კვადრატის მნიშვნელობას. ეს არის განსაზღვრის კოეფიციენტი. ამ მაგალითში, R-კვადრატი = 0,755 (75,5%), ანუ მოდელის გამოთვლილი პარამეტრები ხსნის განხილულ პარამეტრებს შორის ურთიერთობას 75,5%-ით. რაც უფრო მაღალია განსაზღვრის კოეფიციენტის მნიშვნელობა, მით უფრო გამოსადეგია არჩეული მოდელი კონკრეტული ამოცანისთვის. ითვლება, რომ ის სწორად აღწერს რეალურ სიტუაციას R-კვადრატის მნიშვნელობით 0.8-ზე მეტი. თუ R-კვადრატი<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

თანაფარდობის ანალიზი

რიცხვი 64.1428 გვიჩვენებს, თუ რა იქნება Y-ის მნიშვნელობა, თუ ჩვენ განხილულ მოდელში ყველა xi ცვლადი დაყენებულია ნულზე. სხვა სიტყვებით რომ ვთქვათ, შეიძლება ითქვას, რომ გაანალიზებული პარამეტრის მნიშვნელობაზე გავლენას ახდენს სხვა ფაქტორებიც, რომლებიც არ არის აღწერილი კონკრეტულ მოდელში.

შემდეგი კოეფიციენტი -0,16285, რომელიც მდებარეობს B18 უჯრედში, აჩვენებს X ცვლადის გავლენის წონას Y-ზე. ეს ნიშნავს, რომ თანამშრომლების საშუალო თვიური ხელფასი განსახილველ მოდელში გავლენას ახდენს თანამშრომელთა რაოდენობაზე, რომელთა წონაა -0,16285, ე.ი. მისი გავლენის ხარისხი სულ მცირე. ნიშანი "-" მიუთითებს, რომ კოეფიციენტს აქვს უარყოფითი მნიშვნელობა. ეს აშკარაა, რადგან ყველამ იცის, რომ რაც უფრო მაღალია ხელფასი საწარმოში, მით უფრო ნაკლები ადამიანი გამოთქვამს სურვილს შეწყვიტოს სამუშაო ხელშეკრულება ან დატოვოს სამსახური.

მრავალჯერადი რეგრესია

ეს ტერმინი ეხება კავშირის განტოლებას ფორმის რამდენიმე დამოუკიდებელი ცვლადით:

y \u003d f (x 1 + x 2 + ... x m) + ε, სადაც y არის ეფექტური მახასიათებელი (დამოკიდებული ცვლადი) და x 1, x 2, ... x m არის ფაქტორების ფაქტორები (დამოუკიდებელი ცვლადები).

პარამეტრის შეფასება

მრავალჯერადი რეგრესიისთვის (MR) იგი ხორციელდება უმცირესი კვადრატების მეთოდით (OLS). Y = a + b 1 x 1 +…+b m x m + ε ფორმის წრფივი განტოლებისთვის, ჩვენ ვაშენებთ ნორმალური განტოლებათა სისტემას (იხ. ქვემოთ)

მეთოდის პრინციპის გასაგებად, განიხილეთ ორფაქტორიანი შემთხვევა. შემდეგ გვაქვს ფორმულით აღწერილი სიტუაცია

აქედან ვიღებთ:

სადაც σ არის ინდექსში ასახული შესაბამისი მახასიათებლის სხვაობა.

LSM გამოიყენება MP განტოლებისთვის სტანდარტიზირებადი მასშტაბით. ამ შემთხვევაში ვიღებთ განტოლებას:

სადაც t y , t x 1, ... t xm არის სტანდარტიზებული ცვლადები, რომლებისთვისაც საშუალო მნიშვნელობები არის 0; β i არის სტანდარტიზებული რეგრესიის კოეფიციენტები და სტანდარტული გადახრა არის 1.

გთხოვთ გაითვალისწინოთ, რომ ყველა β i ამ შემთხვევაში დაყენებულია როგორც ნორმალიზებული და ცენტრალიზებული, ამიტომ მათი ერთმანეთთან შედარება სწორად და დასაშვებად ითვლება. გარდა ამისა, ჩვეულებრივ ხდება ფაქტორების გაფილტვრა, უგულებელყოფთ მათ, ვისაც β-ის ყველაზე მცირე მნიშვნელობები აქვს.

პრობლემა ხაზოვანი რეგრესიის განტოლების გამოყენებით

დავუშვათ, არის მოცემული N პროდუქტის ფასის დინამიკის ცხრილი ბოლო 8 თვის განმავლობაში. აუცილებელია გადაწყვეტილების მიღება მისი პარტია 1850 რუბლი/ტ ფასში შეძენის მიზანშეწონილობის შესახებ.

თვის ნომერი

თვის სახელი

ნივთის ფასი N

1750 რუბლი ტონაზე

1755 რუბლი ტონაზე

1767 რუბლი ტონაზე

1760 რუბლი ტონაზე

1770 რუბლი ტონაზე

1790 რუბლი ტონაზე

1810 რუბლი ტონაზე

1840 რუბლი ტონაზე

Excel-ის ცხრილებში ამ პრობლემის გადასაჭრელად, თქვენ უნდა გამოიყენოთ ზემოთ მოყვანილი მაგალითიდან უკვე ცნობილი მონაცემთა ანალიზის ინსტრუმენტი. შემდეგი, აირჩიეთ "რეგრესია" განყოფილება და დააყენეთ პარამეტრები. უნდა გვახსოვდეს, რომ "შეყვანის Y ინტერვალის" ველში უნდა შეიყვანოთ დამოკიდებული ცვლადის მნიშვნელობების დიაპაზონი (ამ შემთხვევაში, პროდუქტის ფასი წელიწადის კონკრეტულ თვეებში), ხოლო "შეყვანა" X ინტერვალი“ - დამოუკიდებელი ცვლადისთვის (თვე ნომერი). დაადასტურეთ მოქმედება "OK" დაწკაპუნებით. ახალ ფურცელზე (თუ ასე იყო მითითებული), ვიღებთ მონაცემებს რეგრესიისთვის.

მათზე დაყრდნობით ვაშენებთ y=ax+b ფორმის წრფივ განტოლებას, სადაც a და b პარამეტრები არის მწკრივის კოეფიციენტები თვის რიცხვის სახელით და კოეფიციენტები და „Y-გადაკვეთის“ მწკრივი. ფურცელი რეგრესიული ანალიზის შედეგებით. ამრიგად, წრფივი რეგრესიის განტოლება (LE) 3 პრობლემისთვის იწერება როგორც:

პროდუქტის ფასი N = 11.714* თვის ნომერი + 1727.54.

ან ალგებრული აღნიშვნით

y = 11,714 x + 1727,54

შედეგების ანალიზი

იმის გადასაწყვეტად, არის თუ არა მიღებული წრფივი რეგრესიის განტოლება ადეკვატური, გამოიყენება მრავალჯერადი კორელაციის კოეფიციენტები (MCC) და განსაზღვრის კოეფიციენტები, ასევე ფიშერის ტესტი და სტუდენტის ტესტი. Excel-ის ცხრილში რეგრესიის შედეგებით, ისინი გამოჩნდებიან მრავლობითი R, R-კვადრატის, F-სტატისტიკის და t-სტატისტიკის სახელებით, შესაბამისად.

KMC R შესაძლებელს ხდის შეფასდეს დამოუკიდებელ და დამოკიდებულ ცვლადებს შორის ალბათური ურთიერთობის სიმჭიდროვე. მისი მაღალი ღირებულება მიუთითებს საკმაოდ ძლიერ ურთიერთობაზე ცვლადებს შორის "თვიანი რაოდენობა" და "საქონლის ფასი N რუბლებში 1 ტონაზე". თუმცა, ამ ურთიერთობის ბუნება უცნობია.

განსაზღვრის კოეფიციენტის კვადრატი R 2 (RI) არის ჯამური გაფანტვის წილის რიცხვითი მახასიათებელი და აჩვენებს ექსპერიმენტული მონაცემების რომელი ნაწილის გაფანტვას, ე.ი. დამოკიდებული ცვლადის მნიშვნელობები შეესაბამება წრფივი რეგრესიის განტოლებას. განსახილველ პრობლემაში ეს მნიშვნელობა უდრის 84,8%-ს, ანუ სტატისტიკური მონაცემები მაღალი სიზუსტით არის აღწერილი მიღებული SD-ით.

F- სტატისტიკა, რომელსაც ასევე უწოდებენ ფიშერის ტესტს, გამოიყენება ხაზოვანი ურთიერთობის მნიშვნელოვნების შესაფასებლად, მისი არსებობის ჰიპოთეზის გასაუქმებლად ან დასადასტურებლად.

(მოსწავლის კრიტერიუმი) ხელს უწყობს კოეფიციენტის მნიშვნელოვნების შეფასებას წრფივი ურთიერთობის უცნობი ან თავისუფალი წევრით. თუ t-კრიტერიუმის მნიშვნელობა > t cr, მაშინ წრფივი განტოლების თავისუფალი წევრის უმნიშვნელოობის ჰიპოთეზა უარყოფილია.

თავისუფალი წევრის განხილულ პრობლემაში, Excel-ის ინსტრუმენტების გამოყენებით, მიიღეს, რომ t = 169.20903 და p = 2.89E-12, ანუ გვაქვს ნულოვანი ალბათობა იმისა, რომ სწორი ჰიპოთეზა თავისუფალი წევრის უმნიშვნელოობის შესახებ იქნება. უარყოფილი იყოს. კოეფიციენტისთვის უცნობი t=5.79405 და p=0.001158. სხვა სიტყვებით რომ ვთქვათ, ალბათობა იმისა, რომ სწორი ჰიპოთეზა უცნობისთვის კოეფიციენტის უმნიშვნელოობის შესახებ უარყოფილი იქნება, არის 0,12%.

ამრიგად, შეიძლება ითქვას, რომ მიღებული წრფივი რეგრესიის განტოლება ადეკვატურია.

აქციების ბლოკის ყიდვის მიზანშეწონილობის პრობლემა

Excel-ში მრავალჯერადი რეგრესია ხორციელდება იგივე მონაცემთა ანალიზის ხელსაწყოს გამოყენებით. განიხილეთ კონკრეტული გამოყენებული პრობლემა.

NNN-ის ხელმძღვანელობამ უნდა მიიღოს გადაწყვეტილება MMM SA-ში 20%-იანი წილის შეძენის მიზანშეწონილობის შესახებ. პაკეტის (JV) ღირებულება 70 მილიონი აშშ დოლარია. NNN-ის სპეციალისტებმა შეაგროვეს მონაცემები მსგავსი ტრანზაქციების შესახებ. გადაწყდა აქციების ბლოკის ღირებულების შეფასება ისეთი პარამეტრების მიხედვით, გამოხატული მილიონ აშშ დოლარებში, როგორიცაა:

  • გადასახდელები (VK);
  • წლიური ბრუნვა (VO);
  • დებიტორული ანგარიშები (VD);
  • ძირითადი საშუალებების ღირებულება (SOF).

გარდა ამისა, გამოიყენება საწარმოს სახელფასო დავალიანების პარამეტრი (V3 P) ათასობით აშშ დოლარში.

გამოსავალი Excel-ის ცხრილების გამოყენებით

უპირველეს ყოვლისა, თქვენ უნდა შექმნათ საწყისი მონაცემების ცხრილი. ეს ასე გამოიყურება:

  • დარეკეთ "მონაცემთა ანალიზის" ფანჯარაში;
  • აირჩიეთ განყოფილება "რეგრესია";
  • ველში "შეყვანის ინტერვალი Y" შეიყვანეთ დამოკიდებული ცვლადების მნიშვნელობების დიაპაზონი G სვეტიდან;
  • დააწკაპუნეთ ხატულაზე წითელი ისრით "შეყვანის ინტერვალი X" ფანჯრის მარჯვნივ და აირჩიეთ ყველა მნიშვნელობის დიაპაზონი სვეტებიდან B, C, D, F ფურცელზე.

აირჩიეთ "ახალი სამუშაო ფურცელი" და დააჭირეთ "OK".

მიიღეთ რეგრესიული ანალიზი მოცემული პრობლემისთვის.

შედეგების და დასკვნების შემოწმება

„ჩვენ ვაგროვებთ“ Excel-ის ცხრილების ფურცელზე ზემოთ წარმოდგენილი მომრგვალებული მონაცემებიდან, რეგრესიის განტოლება:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

უფრო ნაცნობი მათემატიკური ფორმით, ის შეიძლება დაიწეროს როგორც:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

სს „მმმ“-ის მონაცემები წარმოდგენილია ცხრილში:

მათი ჩანაცვლებით რეგრესიის განტოლებაში, ისინი იღებენ ციფრს 64,72 მილიონი აშშ დოლარი. ეს ნიშნავს, რომ სს MMM-ის აქციები არ უნდა იყოს შეძენილი, რადგან მათი 70 მილიონი აშშ დოლარის ღირებულება საკმაოდ გადაჭარბებულია.

როგორც ხედავთ, Excel-ის ცხრილების და რეგრესიის განტოლების გამოყენებამ შესაძლებელი გახადა ინფორმირებული გადაწყვეტილების მიღება ძალიან კონკრეტული ტრანზაქციის მიზანშეწონილობის შესახებ.

ახლა თქვენ იცით, რა არის რეგრესია. Excel-ში ზემოთ განხილული მაგალითები დაგეხმარებათ გადაჭრათ პრაქტიკული პრობლემები ეკონომეტრიის სფეროდან.

რეგრესიული ანალიზი უდევს საფუძვლად ეკონომეტრიული მოდელების უმეტესობის შექმნას, რომელთა შორის უნდა შედიოდეს ხარჯების შეფასების მოდელები. შეფასების მოდელების შესაქმნელად, ეს მეთოდი შეიძლება გამოყენებულ იქნას, თუ ანალოგების რაოდენობა (შედარებითი ობიექტები) და ღირებულების ფაქტორების რაოდენობა (შედარების ელემენტები) კორელაციაშია ერთმანეთთან შემდეგნაირად: > (5 -გ-10) x რომ,იმათ. უნდა იყოს 5-10-ჯერ მეტი ანალოგი ვიდრე ღირებულების ფაქტორები. იგივე მოთხოვნა მონაცემთა მოცულობისა და ფაქტორების რაოდენობის თანაფარდობაზე ვრცელდება სხვა ამოცანებზეც: ობიექტის ღირებულებასა და სამომხმარებლო პარამეტრებს შორის კავშირის დადგენა; მაკორექტირებელი ინდექსების გამოთვლის პროცედურის დასაბუთება; ფასების ტენდენციების გარკვევა; ცვეთასა და გავლენის ფაქტორების ცვლილებას შორის კავშირის დადგენა; დამოკიდებულებების მიღება ხარჯების სტანდარტების გამოსათვლელად და ა.შ. ამ მოთხოვნის შესრულება აუცილებელია იმისათვის, რომ შემცირდეს მონაცემთა ნიმუშთან მუშაობის ალბათობა, რომელიც არ აკმაყოფილებს შემთხვევითი ცვლადების ნორმალური განაწილების მოთხოვნას.

რეგრესიის ურთიერთობა ასახავს მხოლოდ მიღებული ცვლადის საშუალო ტენდენციას, როგორიცაა ღირებულება, ერთი ან რამდენიმე ფაქტორის ცვლადის ცვლილებებისგან, როგორიცაა მდებარეობა, ოთახების რაოდენობა, ფართობი, სართული და ა.შ. ეს არის განსხვავება რეგრესიულ ურთიერთობასა და ფუნქციონალურს შორის, რომელშიც მიღებული ცვლადის მნიშვნელობა მკაცრად არის განსაზღვრული ფაქტორების ცვლადების მოცემული მნიშვნელობისთვის.

რეგრესიული ურთიერთობის არსებობა / მიღებულს შორის ზედა ფაქტორების ცვლადები x გვ ..., x k(ფაქტორები) მიუთითებს, რომ ეს ურთიერთობა განისაზღვრება არა მხოლოდ შერჩეული ფაქტორების ცვლადების გავლენით, არამედ ცვლადების გავლენითაც, რომელთაგან ზოგიერთი ზოგადად უცნობია, ზოგის შეფასება და გათვალისწინება შეუძლებელია:

გაუთვალისწინებელი ცვლადების გავლენა აღინიშნება ამ განტოლების მეორე წევრით ?, რომელსაც მიახლოების შეცდომას უწოდებენ.

არსებობს რეგრესიის დამოკიდებულების შემდეგი ტიპები:

  • ? დაწყვილებული რეგრესია - ურთიერთობა ორ ცვლადს შორის (შედეგად და ფაქტორულ);
  • ? მრავალჯერადი რეგრესია - ერთი შედეგიანი ცვლადისა და კვლევაში შეტანილი ორი ან მეტი ფაქტორი ცვლადის დამოკიდებულება.

რეგრესიული ანალიზის მთავარი ამოცანაა ცვლადებს (დაწყვილებულ რეგრესიაში) და მრავალ ცვლადს (მრავალჯერადი რეგრესიაში) ურთიერთობის სიახლოვის რაოდენობრივი განსაზღვრა. ურთიერთობის სიმჭიდროვე რაოდენობრივად განისაზღვრება კორელაციის კოეფიციენტით.

რეგრესიის ანალიზის გამოყენება საშუალებას გაძლევთ დაადგინოთ ძირითადი ფაქტორების (ჰედონური მახასიათებლების) გავლენის ნიმუში შესწავლილ ინდიკატორზე, როგორც მთლიანობაში, ასევე თითოეულ მათგანს ინდივიდუალურად. რეგრესიული ანალიზის, როგორც მათემატიკური სტატისტიკის მეთოდის დახმარებით, შესაძლებელია, პირველ რიგში, აღმოვაჩინოთ და აღწეროთ მიღებული (სასურველი) ცვლადის ანალიტიკური დამოკიდებულების ფორმა ფაქტორულ ცვლადებზე და მეორეც, შეფასდეს სიახლოვე. ეს დამოკიდებულება.

პირველი ამოცანის ამოხსნით მიიღება მათემატიკური რეგრესიის მოდელი, რომლის დახმარებით შემდეგ გამოითვლება სასურველი მაჩვენებელი მოცემული ფაქტორების მნიშვნელობებისთვის. მეორე პრობლემის გადაწყვეტა საშუალებას იძლევა დადგინდეს გამოთვლილი შედეგის სანდოობა.

ამრიგად, რეგრესიული ანალიზი შეიძლება განისაზღვროს, როგორც ფორმალური (მათემატიკური) პროცედურების ერთობლიობა, რომელიც შექმნილია მიღებულ და ფაქტორულ ცვლადებს შორის ურთიერთობის ფორმის შებოჭილობის, მიმართულებისა და ანალიტიკური გამოხატვის გასაზომად, ე.ი. ასეთი ანალიზის შედეგი უნდა იყოს ფორმის სტრუქტურულად და რაოდენობრივად განსაზღვრული სტატისტიკური მოდელი:

სადაც y -მიღებული ცვლადის საშუალო მნიშვნელობა (სასურველი მაჩვენებელი, მაგალითად, ღირებულება, ქირა, კაპიტალიზაციის მაჩვენებელი) მეტი მისი დაკვირვებები; x არის ფაქტორის ცვლადის მნიშვნელობა (/-th cost factor); მდე -ფაქტორების ცვლადების რაოდენობა.

ფუნქცია f (x l,...,x lc),მიღებული ცვლადის დამოკიდებულების აღწერას ფაქტორულ ცვლადებზე ეწოდება რეგრესიის განტოლება (ფუნქცია). ტერმინი „რეგრესია“ (რეგრესია (ლათ.) - უკან დახევა, რაღაცისკენ დაბრუნება) ასოცირდება მეთოდის ფორმირების ეტაპზე გადაწყვეტილი ერთ-ერთი კონკრეტული ამოცანის სპეციფიკასთან და ამჟამად არ ასახავს ამ მეთოდის მთელ არსს. მეთოდი, მაგრამ აგრძელებს გამოყენებას.

რეგრესიული ანალიზი ჩვეულებრივ მოიცავს შემდეგ ნაბიჯებს:

  • ? ერთგვაროვანი ობიექტების ნიმუშის ფორმირება და ამ ობიექტების შესახებ საწყისი ინფორმაციის შეგროვება;
  • ? მიღებულ ცვლადზე გავლენის ძირითადი ფაქტორების შერჩევა;
  • ? ნიმუშის ნორმალურობის შემოწმება გამოყენებით X 2 ან ბინომიური კრიტერიუმი;
  • ? კომუნიკაციის ფორმის შესახებ ჰიპოთეზის მიღება;
  • ? მონაცემთა მათემატიკური დამუშავება;
  • ? რეგრესიის მოდელის მიღება;
  • ? მისი სტატისტიკური მაჩვენებლების შეფასება;
  • ? გადამოწმების გამოთვლები რეგრესიის მოდელის გამოყენებით;
  • ? შედეგების ანალიზი.

ოპერაციების მითითებული თანმიმდევრობა ხდება როგორც ფაქტორულ ცვლადსა და ერთ მიღებულ ცვლადს შორის წყვილი ურთიერთობის შესწავლისას, ასევე მიღებულ ცვლადსა და რამდენიმე ფაქტორის ცვლადს შორის მრავალჯერადი ურთიერთობის შესწავლისას.

რეგრესიული ანალიზის გამოყენება საწყის ინფორმაციას აწესებს გარკვეულ მოთხოვნებს:

  • ? ობიექტების სტატისტიკური ნიმუში უნდა იყოს ერთგვაროვანი ფუნქციური და კონსტრუქციულ-ტექნოლოგიური თვალსაზრისით;
  • ? საკმაოდ მრავალრიცხოვანი;
  • ? შესწავლილი ღირებულების ინდიკატორი - შედეგად მიღებული ცვლადი (ფასი, ღირებულება, ხარჯები) - უნდა შემცირდეს იმავე პირობებზე მისი გაანგარიშებისთვის ნიმუშის ყველა ობიექტისთვის;
  • ? ფაქტორის ცვლადები საკმარისად ზუსტად უნდა გაიზომოს;
  • ? ფაქტორების ცვლადები უნდა იყოს დამოუკიდებელი ან მინიმალურად დამოკიდებული.

ნიმუშის ჰომოგენურობისა და სისრულის მოთხოვნები კონფლიქტშია: რაც უფრო მკაცრად ხდება ობიექტების შერჩევა მათი ერთგვაროვნების მიხედვით, მით უფრო მცირეა ნიმუში და, პირიქით, ნიმუშის გასადიდებლად, აუცილებელია ისეთი ობიექტების შეყვანა. ძალიან არ ჰგვანან ერთმანეთს.

ჰომოგენური ობიექტების ჯგუფისთვის მონაცემების შეგროვების შემდეგ, ისინი გაანალიზებულია, რათა დადგინდეს მიღებულ და ფაქტორულ ცვლადებს შორის ურთიერთობის ფორმა თეორიული რეგრესიის ხაზის სახით. თეორიული რეგრესიის ხაზის პოვნის პროცესი შედგება მიახლოებითი მრუდის გონივრულ არჩევანში და მისი განტოლების კოეფიციენტების გამოთვლაში. რეგრესიის ხაზი არის გლუვი მრუდი (კონკრეტულ შემთხვევაში, სწორი ხაზი), რომელიც აღწერს მათემატიკური ფუნქციის გამოყენებით შესწავლილი დამოკიდებულების ზოგად ტენდენციას და არბილებს არარეგულარულ, შემთხვევით გარე ფაქტორებს გვერდითი ფაქტორების გავლენისგან.

შეფასების ამოცანებში დაწყვილებული რეგრესიის დამოკიდებულების საჩვენებლად ყველაზე ხშირად გამოიყენება შემდეგი ფუნქციები: ხაზოვანი - y - 0 + არს + სძალა - y - aj&i + cდემონსტრაციული - y -წრფივი ექსპონენციალური - y - a 0 + ar * + s.Აქ - მიახლოების შეცდომა გამოუანგარიშებელი შემთხვევითი ფაქტორების მოქმედების გამო.

ამ ფუნქციებში y არის მიღებული ცვლადი; x - ფაქტორის ცვლადი (ფაქტორი); 0 , a r a 2 -რეგრესიული მოდელის პარამეტრები, რეგრესიის კოეფიციენტები.

ხაზოვანი ექსპონენციალური მოდელი მიეკუთვნება ე.წ. ჰიბრიდული მოდელების კლასს:

სადაც

სადაც x (i = 1, /) - ფაქტორების მნიშვნელობები;

b t (i = 0, /) არის რეგრესიის განტოლების კოეფიციენტები.

ამ განტოლებაში კომპონენტები A, Bდა შეესაბამება შეფასებული აქტივის ცალკეული კომპონენტების ღირებულებას, მაგალითად, მიწის ნაკვეთის ღირებულებას და გაუმჯობესების ღირებულებას და პარამეტრს არის საერთო. იგი შექმნილია აქტივის ყველა კომპონენტის ღირებულების კორექტირებისთვის, რომელიც ფასდება საერთო გავლენის ფაქტორზე, როგორიცაა მდებარეობა.

ფაქტორების მნიშვნელობები, რომლებიც შესაბამისი კოეფიციენტების ხარისხშია, არის ორობითი ცვლადები (0 ან 1). ფაქტორები, რომლებიც ხარისხის საფუძველშია, არის დისკრეტული ან უწყვეტი ცვლადები.

გამრავლების ნიშნის კოეფიციენტებთან დაკავშირებული ფაქტორები ასევე უწყვეტი ან დისკრეტულია.

დაზუსტება ხორციელდება, როგორც წესი, ემპირიული მიდგომის გამოყენებით და მოიცავს ორ ეტაპს:

  • ? რეგრესიის ველის წერტილების გამოსახვა გრაფიკზე;
  • ? შესაძლო მიახლოებითი მრუდის ტიპის გრაფიკული (ვიზუალური) ანალიზი.

რეგრესიის მრუდის ტიპი ყოველთვის არ არის დაუყოვნებლივ შესარჩევი. მის დასადგენად, პირველადი მონაცემების მიხედვით გრაფაზე ჯერ რეგრესიის ველის წერტილები გამოსახულია. შემდეგ ვიზუალურად იხაზება ხაზი წერტილების პოზიციის გასწვრივ, ცდილობს გაარკვიოს ურთიერთობის ხარისხობრივი ნიმუში: ერთგვაროვანი ზრდა ან ერთგვაროვანი შემცირება, ზრდა (კლება) დინამიკის სიჩქარის ზრდით (შემცირებით), გლუვი მიდგომა. გარკვეული დონე.

ამ ემპირიულ მიდგომას ავსებს ლოგიკური ანალიზი, დაწყებული უკვე ცნობილი იდეებიდან შესწავლილი ფაქტორების ეკონომიკური და ფიზიკური ხასიათისა და მათი ურთიერთგავლენის შესახებ.

მაგალითად, ცნობილია, რომ მიღებული ცვლადების - ეკონომიკური მაჩვენებლების (ფასები, რენტა) დამოკიდებულებები ფაქტორების რიგ ცვლადებზე - ფასის ფორმირების ფაქტორებზე (დაშორება დასახლების ცენტრიდან, ფართობი და ა.შ.) არის არაწრფივი. და ისინი შეიძლება საკმაოდ მკაცრად იყოს აღწერილი სიმძლავრის, ექსპონენციალური ან კვადრატული ფუნქციით. მაგრამ ფაქტორების მცირე დიაპაზონით, მისაღები შედეგების მიღება ასევე შესაძლებელია ხაზოვანი ფუნქციის გამოყენებით.

თუ ჯერ კიდევ შეუძლებელია რომელიმე ფუნქციის დაუყონებლივ არჩევის გაკეთება, მაშინ შეირჩევა ორი ან სამი ფუნქცია, გამოითვლება მათი პარამეტრები და შემდეგ, კავშირის სიმკაცრის შესაბამისი კრიტერიუმების გამოყენებით, საბოლოოდ შეირჩევა ფუნქცია.

თეორიულად, მრუდის ფორმის პოვნის რეგრესიის პროცესს უწოდებენ სპეციფიკაციამოდელი და მისი კოეფიციენტები - კალიბრაციამოდელები.

თუ აღმოჩნდა, რომ მიღებული ცვლადი y დამოკიდებულია რამდენიმე ფაქტორულ ცვლადზე (ფაქტორზე) x ( , x 2, ..., x k,შემდეგ ისინი მიმართავენ მრავალჯერადი რეგრესიის მოდელის აგებას. ჩვეულებრივ, მრავალჯერადი კომუნიკაციის სამი ფორმა გამოიყენება: ხაზოვანი - y - a 0 + a x x x + a^x 2 + ... + a k x k,დემონსტრაციული - y - a 0 a*მე a x t-a x b,ძალა - y - a 0 x x ix 2 a 2. .x^ ან მათი კომბინაციები.

ექსპონენციალური და ექსპონენციალური ფუნქციები უფრო უნივერსალურია, რადგან ისინი აახლოებენ არაწრფივ მიმართებებს, რომლებიც შეფასებისას შესწავლილი დამოკიდებულებების უმრავლესობაა. გარდა ამისა, მათი გამოყენება შესაძლებელია ობიექტების შეფასებისას და მასობრივი შეფასების სტატისტიკური მოდელირების მეთოდში და ინდივიდუალური შეფასების პირდაპირი შედარების მეთოდში კორექტირების ფაქტორების დადგენისას.

კალიბრაციის ეტაპზე, რეგრესიის მოდელის პარამეტრები გამოითვლება უმცირესი კვადრატების მეთოდით, რომლის არსი არის ის, რომ მიღებული ცვლადის გამოთვლილი მნიშვნელობების კვადრატული გადახრების ჯამი. ზე., ე.ი. გამოითვლება შერჩეული ურთიერთობის განტოლების მიხედვით, რეალური მნიშვნელობებიდან უნდა იყოს მინიმალური:

მნიშვნელობები j) (. და წ.ცნობილია, ამიტომ არის მხოლოდ განტოლების კოეფიციენტების ფუნქცია. რომ იპოვო მინიმუმი მიიღეთ ნაწილობრივი წარმოებულები განტოლების კოეფიციენტებით და გაუტოლეთ ისინი ნულს:

შედეგად ვიღებთ ნორმალურ განტოლებათა სისტემას, რომელთა რაოდენობა უდრის სასურველი რეგრესიის განტოლების განსაზღვრული კოეფიციენტების რაოდენობას.

დავუშვათ, ჩვენ უნდა ვიპოვოთ წრფივი განტოლების კოეფიციენტები y - a 0 + ars.კვადრატული გადახრების ჯამი არის:

/=1

ფუნქციის დიფერენცირება უცნობი კოეფიციენტებით a 0და და გაუტოლეთ ნაწილობრივი წარმოებულები ნულს:

გარდაქმნების შემდეგ ვიღებთ:

სადაც P -ორიგინალური ფაქტობრივი მნიშვნელობების რაოდენობა ზემათ (ანალოგების რაოდენობა).

რეგრესიის განტოლების კოეფიციენტების გამოთვლის ზემოაღნიშნული პროცედურა ასევე გამოიყენება არაწრფივი დამოკიდებულებებისთვის, თუ ეს დამოკიდებულებები შეიძლება იყოს წრფივი, ე.ი. ხაზოვან ფორმამდე მიყვანა ცვლადების ცვლილების გამოყენებით. სიმძლავრე და ექსპონენციალური ფუნქციები ლოგარითმის აღების და ცვლადების შესაბამისი ცვლილების შემდეგ იძენს წრფივ ფორმას. მაგალითად, დენის ფუნქცია ლოგარითმის აღების შემდეგ იღებს ფორმას: y \u003d 1n 0-ში +a x 1სთ. ცვლადების შეცვლის შემდეგ Y- In y, L 0 - In და არა X- x-ში ვიღებთ წრფივ ფუნქციას

Y=A0 + cijX,რომლის კოეფიციენტები გვხვდება ზემოთ აღწერილი.

უმცირესი კვადრატების მეთოდი ასევე გამოიყენება მრავალჯერადი რეგრესიის მოდელის კოეფიციენტების გამოსათვლელად. ასე რომ, ნორმალური განტოლების სისტემა წრფივი ფუნქციის გამოსათვლელად ორი ცვლადით Xjდა x 2გარდაქმნების სერიის შემდეგ, ასე გამოიყურება:

როგორც წესი, განტოლებათა ეს სისტემა წყდება წრფივი ალგებრის მეთოდების გამოყენებით. მრავალჯერადი სიმძლავრის ფუნქცია მიიღება წრფივ ფორმაში ლოგარითმების აღებით და ცვლადების შეცვლით ისევე, როგორც დაწყვილებული სიმძლავრის ფუნქცია.

ჰიბრიდული მოდელების გამოყენებისას მრავლობითი რეგრესიის კოეფიციენტები გვხვდება თანმიმდევრული მიახლოებების მეთოდის რიცხვითი პროცედურების გამოყენებით.

რამდენიმე რეგრესიულ განტოლებას შორის საბოლოო არჩევანის გასაკეთებლად აუცილებელია თითოეული განტოლების ტესტირება ურთიერთობის სიმჭიდროვეზე, რომელიც იზომება კორელაციის კოეფიციენტით, დისპერსიით და ვარიაციის კოეფიციენტით. შეფასებისთვის ასევე შეგიძლიათ გამოიყენოთ სტუდენტისა და ფიშერის კრიტერიუმები. რაც უფრო დიდია კავშირის სიმჭიდროვე მრუდი, მით უფრო სასურველია, რომ ყველა სხვა თანაბარი იყოს.

თუ ასეთი კლასის პრობლემა გადაიჭრება, როდესაც საჭიროა დადგინდეს ღირებულების ინდიკატორის დამოკიდებულება ხარჯების ფაქტორებზე, მაშინ სურვილია გავითვალისწინოთ რაც შეიძლება მეტი გავლენის ფაქტორი და ამით ავაშენოთ უფრო ზუსტი მრავალჯერადი რეგრესიის მოდელი. გასაგები. თუმცა, ორი ობიექტური შეზღუდვა აფერხებს ფაქტორების რაოდენობის გაფართოებას. პირველ რიგში, მრავალჯერადი რეგრესიის მოდელის აშენება მოითხოვს ობიექტების ბევრად უფრო დიდ ნიმუშს, ვიდრე დაწყვილებული მოდელის შექმნას. ზოგადად მიღებულია, რომ ნიმუშის ობიექტების რაოდენობა უნდა აღემატებოდეს რაოდენობას ფაქტორები, მინიმუმ 5-10-ჯერ. აქედან გამომდინარეობს, რომ მოდელის ასაგებად სამი გავლენიანი ფაქტორით, საჭიროა შეაგროვოს დაახლოებით 20 ობიექტის ნიმუში სხვადასხვა ფაქტორების მნიშვნელობებით. მეორეც, მოდელისთვის შერჩეული ფაქტორები, რომლებიც გავლენას ახდენენ ღირებულების მაჩვენებელზე, საკმარისად დამოუკიდებელი უნდა იყოს ერთმანეთისგან. ამის უზრუნველყოფა ადვილი არ არის, რადგან ნიმუში ჩვეულებრივ აერთიანებს იმავე ოჯახს მიკუთვნებულ ობიექტებს, რომლებშიც ხდება მრავალი ფაქტორის რეგულარული ცვლილება ობიექტიდან ობიექტზე.

რეგრესიული მოდელების ხარისხი ჩვეულებრივ ტესტირება ხდება შემდეგი სტატისტიკის გამოყენებით.

რეგრესიის განტოლების შეცდომის სტანდარტული გადახრა (შეფასების შეცდომა):

სადაც P -ნიმუშის ზომა (ანალოგების რაოდენობა);

მდე -ფაქტორების რაოდენობა (ღირებულების ფაქტორები);

რეგრესიის განტოლებით აუხსნელი შეცდომა (ნახ. 3.2);

წ. -მიღებული ცვლადის რეალური მნიშვნელობა (მაგალითად, ღირებულება); y t -მიღებული ცვლადის გამოთვლილი მნიშვნელობა.

ეს მაჩვენებელი ასევე ე.წ შეფასების სტანდარტული შეცდომა (RMS შეცდომა). ნახატზე, წერტილები მიუთითებს ნიმუშის კონკრეტულ მნიშვნელობებზე, სიმბოლო მიუთითებს ნიმუშის საშუალო მნიშვნელობების ხაზს, დახრილი ტირე-წერტილების ხაზი არის რეგრესიის ხაზი.


ბრინჯი. 3.2.

შეფასების შეცდომის სტანდარტული გადახრა ზომავს y-ის რეალური მნიშვნელობების გადახრის რაოდენობას შესაბამისი გამოთვლილი მნიშვნელობებისგან. ზე( , მიღებული რეგრესიის მოდელის გამოყენებით. თუ ნიმუში, რომელზეც მოდელი აგებულია, ექვემდებარება ნორმალურ განაწილების კანონს, მაშინ შეიძლება ითქვას, რომ რეალური მნიშვნელობების 68% ზედიაპაზონში არიან ზე ± & ერეგრესიის ხაზიდან, ხოლო 95% - დიაპაზონში ზე ± 2დ ე. ეს მაჩვენებელი მოსახერხებელია, რადგან საზომი ერთეულები სგ?ემთხვევა საზომი ერთეულებს ზე,. ამასთან დაკავშირებით ის შეიძლება გამოვიყენოთ შეფასების პროცესში მიღებული შედეგის სიზუსტის აღსანიშნავად. მაგალითად, ღირებულების სერტიფიკატში შეგიძლიათ მიუთითოთ, რომ საბაზრო ღირებულების ღირებულება მიღებულია რეგრესიის მოდელის გამოყენებით 95%-ის ალბათობით არის დიაპაზონში (V-2d,.)ადრე (ზე + 2დ).

მიღებული ცვლადის ცვალებადობის კოეფიციენტი:

სადაც y -მიღებული ცვლადის საშუალო მნიშვნელობა (სურათი 3.2).

რეგრესიის ანალიზში ვარიაციის კოეფიციენტი var არის შედეგის სტანდარტული გადახრა, გამოხატული შედეგის ცვლადის საშუალო პროცენტულად. ცვალებადობის კოეფიციენტი შეიძლება გახდეს კრიტერიუმი რეგრესიის მოდელის პროგნოზირებადი თვისებებისთვის: რაც უფრო მცირეა მნიშვნელობა. ვარ, რაც უფრო მაღალია მოდელის პროგნოზირებადი თვისებები. ცვალებადობის კოეფიციენტის გამოყენება სასურველია &e მაჩვენებლის მიმართ, რადგან ის ფარდობითი მაჩვენებელია. ამ ინდიკატორის პრაქტიკული გამოყენებისას შეიძლება არ იყოს რეკომენდებული მოდელის გამოყენება, რომლის ცვალებადობის კოეფიციენტი აღემატება 33%-ს, რადგან ამ შემთხვევაში არ შეიძლება ითქვას, რომ ეს ნიმუშები ექვემდებარება ნორმალურ განაწილების კანონს.

განსაზღვრის კოეფიციენტი (მრავლობითი კორელაციის კოეფიციენტი კვადრატში):

ეს მაჩვენებელი გამოიყენება შედეგად მიღებული რეგრესიის მოდელის საერთო ხარისხის გასაანალიზებლად. ის მიუთითებს, თუ რა პროცენტული ცვლადია მიღებული ცვლადში, განპირობებულია მოდელში შეტანილი ყველა ფაქტორის ცვლადის გავლენით. განსაზღვრის კოეფიციენტი ყოველთვის დევს ნულიდან ერთამდე დიაპაზონში. რაც უფრო ახლოსაა განსაზღვრის კოეფიციენტის მნიშვნელობა ერთიანობასთან, მით უკეთესად აღწერს მოდელი მონაცემთა თავდაპირველ სერიას. განსაზღვრის კოეფიციენტი შეიძლება წარმოდგენილი იყოს სხვა გზით:

აქ არის შეცდომა ახსნილი რეგრესიის მოდელით,

- შეცდომა აუხსნელია

რეგრესიის მოდელი. ეკონომიკური თვალსაზრისით, ეს კრიტერიუმი შესაძლებელს ხდის ვიმსჯელოთ ფასების ცვალებადობის რამდენი პროცენტი აიხსნება რეგრესიის განტოლებით.

ინდიკატორის მიღების ზუსტი ზღვარი R2შეუძლებელია ყველა შემთხვევისთვის დაზუსტება. გასათვალისწინებელია როგორც ნიმუშის ზომა, ასევე განტოლების მნიშვნელოვანი ინტერპრეტაცია. როგორც წესი, იგივე ტიპის ობიექტების მონაცემების შესწავლისას, დაახლოებით ერთსა და იმავე დროს მიღებული, მნიშვნელობა R2არ აღემატება 0,6-0,7 დონეს. თუ პროგნოზის ყველა შეცდომა ნულის ტოლია, ე.ი. როდესაც მიღებულ და ფაქტორულ ცვლადებს შორის კავშირი ფუნქციონალურია, მაშინ R2 =1.

განსაზღვრის მორგებული კოეფიციენტი:

განსაზღვრის კორექტირებული კოეფიციენტის შემოღების აუცილებლობა აიხსნება იმით, რომ ფაქტორების რაოდენობის ზრდასთან ერთად რომგანსაზღვრის ჩვეულებრივი კოეფიციენტი თითქმის ყოველთვის იზრდება, მაგრამ თავისუფლების ხარისხების რაოდენობა მცირდება (n - კ- ერთი). შეყვანილი კორექტირება ყოველთვის ამცირებს მნიშვნელობას R2,იმდენად, რამდენადაც (პ - 1) > (n--დან -ერთი). შედეგად, ღირებულება R 2 CKOf)შეიძლება უარყოფითიც კი გახდეს. ეს ნიშნავს, რომ ღირებულება R2კორექტირებამდე ახლოს იყო ნულთან და დისპერსიის პროპორცია აიხსნება ცვლადის რეგრესიის განტოლებით ზეძალიან პატარა.

რეგრესიის მოდელების ორი ვერსიიდან, რომლებიც განსხვავდებიან განსაზღვრის მორგებული კოეფიციენტის მნიშვნელობით, მაგრამ აქვთ თანაბრად კარგი ხარისხის სხვა კრიტერიუმები, სასურველია ვარიანტი, რომელსაც აქვს დარეგულირებული განსაზღვრის კოეფიციენტის დიდი მნიშვნელობა. განსაზღვრის კოეფიციენტი არ არის კორექტირებული თუ (n - k): k> 20.

ფიშერის თანაფარდობა:

ეს კრიტერიუმი გამოიყენება განსაზღვრის კოეფიციენტის მნიშვნელოვნების შესაფასებლად. კვადრატების ნარჩენი ჯამი არის პროგნოზის შეცდომის საზომი ცნობილი დანახარჯების მნიშვნელობების რეგრესიის გამოყენებით ზე..მისი შედარება კვადრატების რეგრესიულ ჯამთან გვიჩვენებს, რამდენჯერ პროგნოზირებს რეგრესიის დამოკიდებულება შედეგს საშუალოზე უკეთ. ზე. არსებობს კრიტიკული მნიშვნელობების ცხრილი ფ რფიშერის კოეფიციენტი მრიცხველის თავისუფლების ხარისხების რაოდენობის მიხედვით - მდე, მნიშვნელი v 2 = პ - კ- 1 და მნიშვნელოვნების დონე ა. თუ ფიშერის კრიტერიუმის გამოთვლილი მნიშვნელობა ფ რმეტია ცხრილის მნიშვნელობაზე, მაშინ განმსაზღვრელი კოეფიციენტის უმნიშვნელოობის ჰიპოთეზა, ე.ი. რეგრესიის განტოლებაში ჩადებულ ურთიერთობებსა და რეალურად არსებულს შორის შეუსაბამობის შესახებ, ალბათობით p = 1 - a უარყოფილია.

საშუალო მიახლოების შეცდომა(საშუალო პროცენტული გადახრა) გამოითვლება, როგორც საშუალო ფარდობითი სხვაობა, გამოხატული პროცენტულად, მიღებული ცვლადის რეალურ და გამოთვლილ მნიშვნელობებს შორის:

რაც უფრო დაბალია ამ ინდიკატორის მნიშვნელობა, მით უკეთესი იქნება მოდელის პროგნოზირებადი ხარისხი. როდესაც ამ ინდიკატორის მნიშვნელობა არ არის 7% -ზე მეტი, ისინი მიუთითებენ მოდელის მაღალ სიზუსტეზე. Თუ 8 > 15%, მიუთითებს მოდელის არადამაკმაყოფილებელ სიზუსტეზე.

რეგრესიის კოეფიციენტის სტანდარტული შეცდომა:

სადაც (/I) -1 .- მატრიცის დიაგონალური ელემენტი (X G X) ~ 1-დან -ფაქტორების რაოდენობა;

X-ფაქტორების ცვლადების მნიშვნელობების მატრიცა:

X7-ფაქტორების ცვლადების მნიშვნელობების ტრანსპონირებული მატრიცა;

(ჯლ) _| არის მატრიცის შებრუნებული მატრიცა.

რაც უფრო მცირეა ეს ქულები თითოეული რეგრესიის კოეფიციენტისთვის, მით უფრო საიმედო იქნება შესაბამისი რეგრესიის კოეფიციენტის შეფასება.

სტუდენტის ტესტი (t-სტატისტიკა):

ეს კრიტერიუმი საშუალებას გაძლევთ გაზომოთ ურთიერთობის სანდოობის (მნიშვნელოვნების) ხარისხი მოცემული რეგრესიის კოეფიციენტის გამო. თუ გამოთვლილი მნიშვნელობა . ცხრილის ღირებულებაზე მეტი

ავ, სადაც v - p - k - 1 არის თავისუფლების გრადუსების რაოდენობა, მაშინ ჰიპოთეზა, რომ ეს კოეფიციენტი სტატისტიკურად უმნიშვნელოა, უარყოფილია ალბათობით (100 - ა)%. არსებობს /-განაწილების სპეციალური ცხრილები, რომლებიც შესაძლებელს ხდის კრიტერიუმის კრიტიკული მნიშვნელობის განსაზღვრას მნიშვნელოვნების მოცემული დონით a და თავისუფლების ხარისხით v. a-ს ყველაზე ხშირად გამოყენებული მნიშვნელობა არის 5%.

მულტიკოლინეარულობა, ე.ი. ფაქტორების ცვლადებს შორის ურთიერთდამოკიდებულების ეფექტი იწვევს მათი შეზღუდული რაოდენობით დაკმაყოფილების აუცილებლობას. თუ ეს არ არის გათვალისწინებული, მაშინ შეიძლება დასრულდეს ალოგიკური რეგრესიის მოდელი. მულტიკოლინეარობის უარყოფითი ეფექტის თავიდან ასაცილებლად, მრავალჯერადი რეგრესიის მოდელის აშენებამდე, გამოითვლება წყვილის კორელაციის კოეფიციენტები. rxjxjშერჩეულ ცვლადებს შორის X.და X

Აქ XjX; -ორი ფაქტორული ცვლადის ნამრავლის საშუალო მნიშვნელობა;

XjXj-ორი ფაქტორის ცვლადის საშუალო მნიშვნელობების ნამრავლი;

x ფაქტორული ცვლადის დისპერსიის შეფასება..

ორი ცვლადი ითვლება რეგრესულად დაკავშირებულად (ანუ კოლინარული), თუ მათი წყვილი კორელაციის კოეფიციენტი მკაცრად აღემატება 0,8-ს აბსოლუტურ მნიშვნელობაში. ამ შემთხვევაში, რომელიმე ამ ცვლადი უნდა გამოირიცხოს განხილვისგან.

შედეგად მიღებული რეგრესიული მოდელების ეკონომიკური ანალიზის შესაძლებლობების გაფართოების მიზნით გამოიყენება საშუალო მაჩვენებლები ელასტიურობის კოეფიციენტები,განისაზღვრება ფორმულით:

სადაც Xj-შესაბამისი ფაქტორის ცვლადის საშუალო მნიშვნელობა;

y -მიღებული ცვლადის საშუალო მნიშვნელობა; მე -რეგრესიის კოეფიციენტი შესაბამისი ფაქტორის ცვლადისთვის.

ელასტიურობის კოეფიციენტი გვიჩვენებს, რამდენი პროცენტით შეიცვლება მიღებული ცვლადის მნიშვნელობა საშუალოდ, როდესაც ფაქტორის ცვლადი იცვლება 1%-ით, ე.ი. როგორ რეაგირებს მიღებული ცვლადი ფაქტორის ცვლადის ცვლილებაზე. მაგალითად, როგორ არის ფასი კვ. ბინის ფართობი ქალაქის ცენტრიდან მოშორებით.

კონკრეტული რეგრესიის კოეფიციენტის მნიშვნელოვნების ანალიზის თვალსაზრისით სასარგებლოა შეფასება განსაზღვრის პირადი კოეფიციენტი:

აქ მოცემულია შედეგის დისპერსიის შეფასება

ცვლადი. ეს კოეფიციენტი გვიჩვენებს, რამდენ პროცენტიანი ცვლადი აიხსნება რეგრესიის განტოლებაში შეტანილი /-th ფაქტორი ცვლადის ვარიაციით.

  • ჰედონური მახასიათებლები არის ობიექტის მახასიათებლები, რომლებიც ასახავს მის სასარგებლო (ღირებულ) თვისებებს მყიდველებისა და გამყიდველების თვალსაზრისით.

რეგრესიული და კორელაციური ანალიზი - სტატისტიკური კვლევის მეთოდები. ეს არის პარამეტრის დამოკიდებულების ჩვენების ყველაზე გავრცელებული გზები ერთ ან რამდენიმე დამოუკიდებელ ცვლადზე.

ქვემოთ, კონკრეტული პრაქტიკული მაგალითების გამოყენებით, განვიხილავთ ამ ორ ძალიან პოპულარულ ანალიზს ეკონომისტებს შორის. ჩვენ ასევე მივცემთ შედეგების მიღების მაგალითს მათი შერწყმისას.

რეგრესიული ანალიზი Excel-ში

აჩვენებს ზოგიერთი მნიშვნელობის (დამოუკიდებელი, დამოუკიდებელი) გავლენას დამოკიდებულ ცვლადზე. მაგალითად, რამდენად არის დამოკიდებული ეკონომიკურად აქტიური მოსახლეობის რაოდენობა საწარმოების რაოდენობაზე, ხელფასებზე და სხვა პარამეტრებზე. ან: როგორ მოქმედებს მშპ-ის დონეზე უცხოური ინვესტიციები, ენერგიის ფასები და ა.შ.

ანალიზის შედეგი იძლევა პრიორიტეტების დადგენის საშუალებას. და ძირითადი ფაქტორებიდან გამომდინარე, პროგნოზირება, პრიორიტეტული სფეროების განვითარების დაგეგმვა, მართვის გადაწყვეტილებების მიღება.

რეგრესია ხდება:

  • წრფივი (y = a + bx);
  • პარაბოლური (y ​​= a + bx + cx 2);
  • ექსპონენციალური (y ​​= a * exp(bx));
  • სიმძლავრე (y = a*x^b);
  • ჰიპერბოლური (y ​​= b/x + a);
  • ლოგარითმული (y = b * 1n(x) + a);
  • ექსპონენციალური (y ​​= a * b^x).

განვიხილოთ Excel-ში რეგრესიის მოდელის აგების და შედეგების ინტერპრეტაციის მაგალითი. ავიღოთ რეგრესიის ხაზოვანი ტიპი.

დავალება. 6 საწარმოში გაანალიზდა საშუალო თვიური ხელფასი და წასული დასაქმებულთა რაოდენობა. აუცილებელია განისაზღვროს პენსიაზე გასული თანამშრომელთა რაოდენობის დამოკიდებულება საშუალო ხელფასზე.

ხაზოვანი რეგრესიის მოდელს აქვს შემდეგი ფორმა:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

სადაც a არის რეგრესიის კოეფიციენტები, x არის გავლენიანი ცვლადები და k არის ფაქტორების რაოდენობა.

ჩვენს მაგალითში, Y არის თანამშრომელთა დატოვების მაჩვენებელი. გავლენის ფაქტორი არის ხელფასი (x).

Excel-ს აქვს ჩაშენებული ფუნქციები, რომლებიც შეიძლება გამოყენებულ იქნას ხაზოვანი რეგრესიის მოდელის პარამეტრების გამოსათვლელად. მაგრამ Analysis ToolPak დანამატი ამას უფრო სწრაფად გააკეთებს.

გააქტიურეთ ძლიერი ანალიტიკური ინსტრუმენტი:

გააქტიურების შემდეგ, დანამატი ხელმისაწვდომი იქნება მონაცემთა ჩანართში.

ახლა ჩვენ უშუალოდ შევეხებით რეგრესიის ანალიზს.



უპირველეს ყოვლისა, ყურადღებას ვაქცევთ R-კვადრატს და კოეფიციენტებს.

R-კვადრატი არის განსაზღვრის კოეფიციენტი. ჩვენს მაგალითში ეს არის 0.755, ანუ 75.5%. ეს ნიშნავს, რომ მოდელის გამოთვლილი პარამეტრები 75,5%-ით ხსნის შესწავლილ პარამეტრებს შორის კავშირს. რაც უფრო მაღალია განსაზღვრის კოეფიციენტი, მით უკეთესია მოდელი. კარგი - 0.8-ზე მეტი. ცუდი - 0,5-ზე ნაკლები (ასეთი ანალიზი ძნელად შეიძლება ჩაითვალოს გონივრულად). ჩვენს მაგალითში - "არა ცუდი".

კოეფიციენტი 64.1428 გვიჩვენებს, რა იქნება Y, თუ განსახილველ მოდელში ყველა ცვლადი 0-ის ტოლია. ანუ სხვა ფაქტორები, რომლებიც არ არის აღწერილი მოდელში ასევე გავლენას ახდენს გაანალიზებული პარამეტრის მნიშვნელობაზე.

კოეფიციენტი -0,16285 გვიჩვენებს X ცვლადის წონას Y-ზე. ანუ, საშუალო თვიური ხელფასი ამ მოდელის ფარგლებში გავლენას ახდენს თანამდებობიდან გათავისუფლების რაოდენობაზე -0,16285 წონით (ეს გავლენის მცირე ხარისხია). ნიშანი "-" მიუთითებს უარყოფით ზემოქმედებაზე: რაც უფრო მაღალია ხელფასი, მით ნაკლებია სამსახურიდან გათავისუფლება. რაც სამართლიანია.



კორელაციური ანალიზი Excel-ში

კორელაციური ანალიზი გვეხმარება იმის დადგენაში, არის თუ არა კავშირი ინდიკატორებს შორის ერთ ან ორ ნიმუშში. მაგალითად, აპარატის მუშაობის დროსა და შეკეთების ღირებულებას შორის, აღჭურვილობის ფასსა და მუშაობის ხანგრძლივობას, ბავშვების სიმაღლესა და წონას და ა.შ.

თუ არსებობს კავშირი, მაშინ ერთი პარამეტრის ზრდა იწვევს თუ არა მეორეს ზრდას (დადებითი კორელაცია) თუ შემცირებას (უარყოფითს). კორელაციური ანალიზი ანალიტიკოსს ეხმარება განსაზღვროს, შეუძლია თუ არა ერთი ინდიკატორის მნიშვნელობა მეორის შესაძლო მნიშვნელობის პროგნოზირება.

კორელაციის კოეფიციენტი აღინიშნება r. მერყეობს +1-დან -1-მდე. სხვადასხვა სფეროსთვის კორელაციების კლასიფიკაცია განსხვავებული იქნება. როდესაც კოეფიციენტის მნიშვნელობა არის 0, ნიმუშებს შორის არ არსებობს წრფივი კავშირი.

განვიხილოთ, თუ როგორ გამოიყენოთ Excel კორელაციის კოეფიციენტის მოსაძებნად.

CORREL ფუნქცია გამოიყენება დაწყვილებული კოეფიციენტების საპოვნელად.

ამოცანა: დაადგინეთ არის თუ არა კავშირი ქარხნის მუშაობის დროსა და მისი მოვლა-პატრონობის ღირებულებას შორის.

ჩადეთ კურსორი ნებისმიერ უჯრედში და დააჭირეთ fx ღილაკს.

  1. "სტატისტიკური" კატეგორიაში აირჩიეთ CORREL ფუნქცია.
  2. არგუმენტი "მასივი 1" - მნიშვნელობების პირველი დიაპაზონი - მანქანის დრო: A2: A14.
  3. არგუმენტი "მასივი 2" - მნიშვნელობების მეორე დიაპაზონი - რემონტის ღირებულება: B2:B14. დააწკაპუნეთ OK.

კავშირის ტიპის დასადგენად, თქვენ უნდა დაათვალიეროთ კოეფიციენტის აბსოლუტური რაოდენობა (საქმიანობის თითოეულ სფეროს აქვს თავისი მასშტაბი).

რამდენიმე პარამეტრის (2-ზე მეტი) კორელაციური ანალიზისთვის უფრო მოსახერხებელია "მონაცემთა ანალიზის" (დამატებითი "ანალიზის პაკეტი") გამოყენება. სიაში თქვენ უნდა აირჩიოთ კორელაცია და დანიშნოთ მასივი. ყველა.

მიღებული კოეფიციენტები ნაჩვენები იქნება კორელაციის მატრიცაში. როგორც ეს:

კორელაცია-რეგრესიული ანალიზი

პრაქტიკაში, ეს ორი ტექნიკა ხშირად გამოიყენება ერთად.

მაგალითი:


ახლა რეგრესიის ანალიზის მონაცემები ჩანს.

რა არის რეგრესია?

განვიხილოთ ორი უწყვეტი ცვლადი x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

დავდოთ წერტილები 2D სკატერის ნაკვეთზე და ვთქვათ გვაქვს ხაზოვანი ურთიერთობათუ მონაცემები მიახლოებულია სწორი ხაზით.

თუ ვივარაუდებთ, რომ დამოკიდებულია xდა ცვლილებები გამოწვეული ცვლილებებით xჩვენ შეგვიძლია განვსაზღვროთ რეგრესიის ხაზი (რეგრესია ზე x), რომელიც საუკეთესოდ აღწერს სწორხაზოვან ურთიერთობას ამ ორ ცვლადს შორის.

სიტყვა "რეგრესიის" სტატისტიკური გამოყენება მომდინარეობს ფენომენიდან, რომელიც ცნობილია როგორც რეგრესია საშუალოზე, რომელიც მიეწერება სერ ფრენსის გალტონს (1889).

მან აჩვენა, რომ მაშინ, როცა მაღალ მამებს მაღალი ვაჟები ჰყავთ, ვაჟების საშუალო სიმაღლე უფრო მცირეა, ვიდრე მაღალი მამების. ვაჟების საშუალო სიმაღლე "რეგრესია" და "უკან გადავიდა" მოსახლეობის ყველა მამის საშუალო სიმაღლეზე. ამრიგად, საშუალოდ, მაღალ მამებს ჰყავთ უფრო დაბალი (მაგრამ მაინც მაღალი) ვაჟები, ხოლო დაბალ მამებს ჰყავთ მაღალი (მაგრამ მაინც საკმაოდ დაბალი) ვაჟები.

რეგრესიის ხაზი

მათემატიკური განტოლება, რომელიც აფასებს მარტივ (წყვილში) წრფივ რეგრესიის ხაზს:

xდამოუკიდებელ ცვლადს ან პროგნოზირს უწოდებენ.

არის დამოკიდებული ან საპასუხო ცვლადი. ეს არის ღირებულება, რომელსაც ჩვენ ველით (საშუალოდ) თუ ვიცით ღირებულება x, ე.ი. არის პროგნოზირებული მნიშვნელობა »

  • - შეფასების ხაზის თავისუფალი წევრი (გადაკვეთა); ამ ღირებულებას , როდესაც x=0(ნახ.1).
  • - სავარაუდო ხაზის დახრილობა ან გრადიენტი; ეს არის თანხა, რომლითაც იზრდება საშუალოდ თუ გავზრდით xერთი ერთეულისთვის.
  • და უწოდებენ სავარაუდო ხაზის რეგრესიის კოეფიციენტებს, თუმცა ეს ტერმინი ხშირად გამოიყენება მხოლოდ .

წყვილი ხაზოვანი რეგრესია შეიძლება გაფართოვდეს ერთზე მეტი დამოუკიდებელი ცვლადის ჩათვლით; ამ შემთხვევაში ცნობილია როგორც მრავალჯერადი რეგრესია.

ნახ.1. წრფივი რეგრესიის ხაზი, რომელიც გვიჩვენებს a-სა და b-ის დახრილობის კვეთას (Y-ის ზრდის ოდენობა, როდესაც x იზრდება ერთი ერთეულით)

მინიმალური კვადრატის მეთოდი

ჩვენ ვასრულებთ რეგრესიულ ანალიზს დაკვირვების ნიმუშის გამოყენებით, სადაც და - ჭეშმარიტი (ზოგადი) პარამეტრების, α და β, ნიმუშები, რომლებიც განსაზღვრავენ პოპულაციაში (ზოგად პოპულაციაში) ხაზოვანი რეგრესიის ხაზს.

კოეფიციენტების განსაზღვრის უმარტივესი მეთოდი და არის მინიმალური კვადრატის მეთოდი(MNK).

მორგება ფასდება ნარჩენების გათვალისწინებით (თითოეული წერტილის ვერტიკალური მანძილი ხაზიდან, მაგ. ნარჩენი = დაკვირვებადი - იწინასწარმეტყველა , ბრინჯი. 2).

საუკეთესო მორგების ხაზი არჩეულია ისე, რომ ნარჩენების კვადრატების ჯამი მინიმალური იყოს.

ბრინჯი. 2. ხაზოვანი რეგრესიის ხაზი გამოსახული ნარჩენებით (ვერტიკალური წერტილოვანი ხაზები) თითოეული წერტილისთვის.

ხაზოვანი რეგრესიის დაშვებები

ასე რომ, თითოეული დაკვირვებული მნიშვნელობისთვის ნარჩენი უდრის განსხვავებას და შესაბამის პროგნოზირებულს.თითოეული ნარჩენი შეიძლება იყოს დადებითი ან უარყოფითი.

თქვენ შეგიძლიათ გამოიყენოთ ნარჩენები ხაზოვანი რეგრესიის მიღმა შემდეგი დაშვებების შესამოწმებლად:

  • ნარჩენები ჩვეულებრივ ნაწილდება ნულოვანი საშუალოთ;

თუ წრფივობის, ნორმალურობის და/ან მუდმივი დისპერსიის დაშვებები საეჭვოა, ჩვენ შეგვიძლია გარდავქმნათ ან და გამოვთვალოთ ახალი რეგრესიის ხაზი, რომლისთვისაც ეს დაშვებები დაკმაყოფილებულია (მაგ. გამოიყენეთ ლოგარითმული ტრანსფორმაცია და ა.შ.).

არანორმალური მნიშვნელობები (აღკვეთილები) და გავლენის წერტილები

"გავლენიანი" დაკვირვება, თუ გამოტოვებულია, ცვლის მოდელის პარამეტრის ერთ ან მეტ შეფასებას (ანუ დახრილობას ან კვეთას).

გამოკვეთი (დაკვირვება, რომელიც ეწინააღმდეგება მონაცემთა ნაკრების მნიშვნელობების უმეტესობას) შეიძლება იყოს "გავლენიანი" დაკვირვება და შეიძლება კარგად იყოს გამოვლენილი ვიზუალურად 2D გაფანტვის ან ნარჩენი ნაკვეთის დათვალიერებისას.

როგორც outliers, ასევე "გავლენიანი" დაკვირვებებისთვის (პუნქტები) გამოიყენება მოდელები, როგორც მათი ჩართვით, ასევე მათ გარეშე, ყურადღება მიაქციეთ შეფასების ცვლილებას (რეგრესიის კოეფიციენტები).

ანალიზის გაკეთებისას ავტომატურად ნუ გადააგდებთ შორეულ წერტილებს ან ზემოქმედების წერტილებს, რადგან მათი უგულებელყოფა შეიძლება გავლენა იქონიოს შედეგებზე. ყოველთვის შეისწავლეთ ამ გამონაყარის მიზეზები და გაანალიზეთ ისინი.

ხაზოვანი რეგრესიის ჰიპოთეზა

წრფივი რეგრესიის აგებისას მოწმდება ნულოვანი ჰიპოთეზა, რომ β რეგრესიის ხაზის ზოგადი დახრილობა ნულის ტოლია.

თუ ხაზის დახრილობა ნულის ტოლია, არ არსებობს წრფივი კავშირი და: ცვლილება არ მოქმედებს

ნულოვანი ჰიპოთეზის შესამოწმებლად, რომ ჭეშმარიტი დახრილობა ნულის ტოლია, შეგიძლიათ გამოიყენოთ შემდეგი ალგორითმი:

გამოთვალეთ ტესტის სტატისტიკის ტოლი თანაფარდობა, რომელიც ემორჩილება განაწილებას თავისუფლების ხარისხით, სადაც არის კოეფიციენტის სტანდარტული შეცდომა


,

- ნარჩენების დისპერსიის შეფასება.

ჩვეულებრივ, თუ მიღწეული მნიშვნელოვნების დონეა, ნულოვანი ჰიპოთეზა უარყოფილია.


სად არის განაწილების პროცენტული წერტილი თავისუფლების ხარისხით, რომელიც იძლევა ორმხრივი ტესტის ალბათობას

ეს არის ინტერვალი, რომელიც შეიცავს ზოგად დახრილობას 95%-ის ალბათობით.

დიდი ნიმუშებისთვის, ვთქვათ, შეგვიძლია მიახლოებით მივაწოდოთ მნიშვნელობა 1.96 (ანუ, ტესტის სტატისტიკა ჩვეულებრივ განაწილდება)

წრფივი რეგრესიის ხარისხის შეფასება: განსაზღვრის კოეფიციენტი R 2

ხაზოვანი ურთიერთობის გამო და ჩვენ ველით, რომ ცვლილებები იცვლება და ჩვენ ამას ვუწოდებთ ვარიაციას, რომელიც გამოწვეულია ან აიხსნება რეგრესიით. ნარჩენი ვარიაცია უნდა იყოს რაც შეიძლება მცირე.

თუ ასეა, მაშინ ვარიაციის უმეტესი ნაწილი აიხსნება რეგრესიით და წერტილები ახლოს იქნება რეგრესიის ხაზთან, ე.ი. ხაზი კარგად ერგება მონაცემებს.

მთლიანი დისპერსიის პროპორცია, რომელიც აიხსნება რეგრესიით, ეწოდება განსაზღვრის კოეფიციენტი, ჩვეულებრივ გამოხატულია პროცენტულად და აღინიშნება R2(დაწყვილებულ ხაზოვან რეგრესიაში ეს არის მნიშვნელობა r2, კორელაციის კოეფიციენტის კვადრატი), საშუალებას გაძლევთ სუბიექტურად შეაფასოთ რეგრესიის განტოლების ხარისხი.

განსხვავება არის დისპერსიის პროცენტი, რომელიც არ შეიძლება აიხსნას რეგრესიით.

შეფასების ოფიციალური ტესტის გარეშე, ჩვენ იძულებულნი ვართ დავეყრდნოთ სუბიექტურ განსჯას, რათა განვსაზღვროთ რეგრესიის ხაზის შესაბამისობის ხარისხი.

რეგრესიის ხაზის გამოყენება პროგნოზზე

თქვენ შეგიძლიათ გამოიყენოთ რეგრესიის ხაზი მნიშვნელობის პროგნოზირებისთვის დაკვირვებულ დიაპაზონში მყოფი მნიშვნელობიდან (არასოდეს გადააჭარბოთ ამ საზღვრებს მიღმა).

ჩვენ ვიწინასწარმეტყველებთ საშუალო მნიშვნელობას დაკვირვებადებისთვის, რომლებსაც აქვთ გარკვეული მნიშვნელობა, ამ მნიშვნელობის ჩანაცვლებით რეგრესიის ხაზის განტოლებაში.

ასე რომ, თუ პროგნოზირება როგორც ჩვენ ვიყენებთ ამ პროგნოზირებულ მნიშვნელობას და მის სტანდარტულ შეცდომას ნამდვილი პოპულაციის საშუალო ნდობის ინტერვალის შესაფასებლად.

ამ პროცედურის გამეორება სხვადასხვა მნიშვნელობებისთვის საშუალებას გაძლევთ შექმნათ ნდობის ლიმიტები ამ ხაზისთვის. ეს არის ჯგუფი ან ტერიტორია, რომელიც შეიცავს ნამდვილ ხაზს, მაგალითად, 95% ნდობის დონით.

მარტივი რეგრესიის გეგმები

მარტივი რეგრესიის დიზაინი შეიცავს ერთ უწყვეტ პროგნოზს. თუ არსებობს 3 შემთხვევა პროგნოზირების მნიშვნელობებით P, როგორიცაა 7, 4 და 9, და დიზაინი მოიცავს პირველი რიგის ეფექტს P, მაშინ დიზაინის მატრიცა X იქნება

და რეგრესიის განტოლება P-ს გამოყენებით X1-ისთვის ჰგავს

Y = b0 + b1 P

თუ მარტივი რეგრესიის დიზაინი შეიცავს P-ზე უფრო მაღალი რიგის ეფექტს, როგორიცაა კვადრატული ეფექტი, მაშინ X1 სვეტის მნიშვნელობები დიზაინის მატრიცაში გაიზრდება მეორე ხარისხზე:

და განტოლება მიიღებს ფორმას

Y = b0 + b1 P2

სიგმა-შეზღუდული და ზედმეტად პარამეტრიზებული კოდირების მეთოდები არ ვრცელდება მარტივი რეგრესიის დიზაინებზე და სხვა დიზაინებზე, რომლებიც შეიცავს მხოლოდ უწყვეტ პროგნოზირებს (რადგან უბრალოდ არ არსებობს კატეგორიული წინასწარმეტყველები). კოდირების არჩეული მეთოდის მიუხედავად, უწყვეტი ცვლადების მნიშვნელობები იზრდება შესაბამისი სიმძლავრით და გამოიყენება X ცვლადების მნიშვნელობებად. ამ შემთხვევაში კონვერტაცია არ ხდება. გარდა ამისა, რეგრესიის გეგმების აღწერისას, შეგიძლიათ გამოტოვოთ გეგმის მატრიცის X განხილვა და იმუშაოთ მხოლოდ რეგრესიის განტოლებით.

მაგალითი: მარტივი რეგრესიული ანალიზი

ეს მაგალითი იყენებს ცხრილში მოცემულ მონაცემებს:

ბრინჯი. 3. საწყისი მონაცემების ცხრილი.

მონაცემები ეფუძნება 1960 და 1970 წლების აღწერების შედარებას 30 შემთხვევით შერჩეულ ოლქში. ოლქების სახელები წარმოდგენილია როგორც დაკვირვების სახელები. ინფორმაცია თითოეული ცვლადის შესახებ წარმოდგენილია ქვემოთ:

ბრინჯი. 4. ცვლადის სპეციფიკაციების ცხრილი.

კვლევის მიზანი

ამ მაგალითისთვის, გაანალიზებული იქნება სიღარიბის მაჩვენებელსა და ძალაუფლებას შორის კორელაცია, რომელიც პროგნოზირებს სიღარიბის ზღვარს ქვემოთ მყოფი ოჯახების პროცენტს. ამიტომ, ჩვენ განვიხილავთ ცვლადს 3 (Pt_Poor ) როგორც დამოკიდებულ ცვლადს.

შეიძლება წამოვაყენოთ ჰიპოთეზა: მოსახლეობის ცვლილება და სიღარიბის ზღვარს ქვემოთ მყოფი ოჯახების პროცენტული მაჩვენებელი დაკავშირებულია. გონივრულია იმის მოლოდინი, რომ სიღარიბე იწვევს მოსახლეობის გადინებას, შესაბამისად, უარყოფითი კორელაცია იქნება სიღარიბის ზღვარს ქვემოთ მყოფი ადამიანების პროცენტულ რაოდენობასა და მოსახლეობის ცვლილებას შორის. აქედან გამომდინარე, ჩვენ განვიხილავთ ცვლად 1-ს (Pop_Chng ), როგორც პროგნოზირებულ ცვლადს.

შედეგების ნახვა

რეგრესიის კოეფიციენტები

ბრინჯი. 5. რეგრესიის კოეფიციენტები Pt_Poor Pop_Chng-ზე.

Pop_Chng რიგისა და პარამის კვეთაზე. Pop_Chng-ზე Pt_Poor-ის რეგრესიის არასტანდარტული კოეფიციენტი არის -0.40374. ეს ნიშნავს, რომ მოსახლეობის ყოველი ერთეული შემცირების შემთხვევაში, სიღარიბის მაჩვენებელი იზრდება .40374-ით. ზედა და ქვედა (ნაგულისხმევი) 95% ნდობის ლიმიტები ამ არასტანდარტიზებული კოეფიციენტისთვის არ შეიცავს ნულს, ამიტომ რეგრესიის კოეფიციენტი მნიშვნელოვანია p დონეზე.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

ცვლადების განაწილება

კორელაციის კოეფიციენტები შეიძლება გახდეს მნიშვნელოვნად გადაჭარბებული ან არასაკმარისად შეფასებული, თუ მონაცემებში არის დიდი outliers. განვიხილოთ დამოკიდებული ცვლადის Pt_Poor განაწილება ქვეყნის მიხედვით. ამისათვის ჩვენ ავაშენებთ Pt_Poor ცვლადის ჰისტოგრამას.

ბრინჯი. 6. Pt_Poor ცვლადის ჰისტოგრამა.

როგორც ხედავთ, ამ ცვლადის განაწილება მკვეთრად განსხვავდება ნორმალური განაწილებისგან. თუმცა, მიუხედავად იმისა, რომ ორ ქვეყანასაც კი (მარჯვენა ორი სვეტი) აქვს სიღარიბის ზღვარს ქვემოთ მყოფი ოჯახების უფრო მაღალი პროცენტი, ვიდრე მოსალოდნელი იყო ნორმალური განაწილებით, ისინი, როგორც ჩანს, "ფარგლებს შიგნით არიან".

ბრინჯი. 7. Pt_Poor ცვლადის ჰისტოგრამა.

ეს გადაწყვეტილება გარკვეულწილად სუბიექტურია. პრაქტიკული წესი არის ის, რომ მხედველობაში უნდა იქნას მიღებული დაკვირვება (ან დაკვირვებები) ინტერვალის ფარგლებში (საშუალოდ ± 3-ჯერ სტანდარტული გადახრა). ამ შემთხვევაში, ღირს ანალიზის გამეორება გარედან და მის გარეშე, რათა დავრწმუნდეთ, რომ მათ არ აქვთ სერიოზული გავლენა პოპულაციის წევრებს შორის კორელაციაზე.

Scatterplot

თუ ერთ-ერთი ჰიპოთეზა აპრიორია მოცემულ ცვლადებს შორის ურთიერთობის შესახებ, მაშინ სასარგებლოა მისი შემოწმება შესაბამისი სკატერპლტის ნაკვეთზე.

ბრინჯი. 8. Scatterplot.

Scatterplot აჩვენებს მკაფიო უარყოფით კორელაციას (-.65) ორ ცვლადს შორის. ის ასევე აჩვენებს 95% ნდობის ინტერვალს რეგრესიის ხაზისთვის, ანუ 95% ალბათობით რეგრესიის ხაზი გადის ორ წყვეტილ მრუდს შორის.

მნიშვნელოვნების კრიტერიუმები

ბრინჯი. 9. მნიშვნელოვნების კრიტერიუმების შემცველი ცხრილი.

Pop_Chng რეგრესიის კოეფიციენტის ტესტი ადასტურებს, რომ Pop_Chng მტკიცედ არის დაკავშირებული Pt_Poor-თან, p.<.001 .

შედეგი

ამ მაგალითმა აჩვენა, თუ როგორ უნდა გავაანალიზოთ მარტივი რეგრესიის გეგმა. ასევე წარმოდგენილი იყო არასტანდარტული და სტანდარტიზებული რეგრესიის კოეფიციენტების ინტერპრეტაცია. განხილულია დამოკიდებული ცვლადის პასუხის განაწილების შესწავლის მნიშვნელობა და ნაჩვენებია პრედიქტორსა და დამოკიდებულ ცვლადს შორის ურთიერთობის მიმართულებისა და სიძლიერის განსაზღვრის ტექნიკა.