მრავალჯერადი წრფივი კორელაცია. კორელაციის კოეფიციენტები

მიზეზობრივი პროგნოზირების მეთოდების არსი არის მათემატიკური კავშირის დამყარება მიღებულ და ფაქტორულ ცვლადებს შორის.

მიზეზობრივი პროგნოზირების მეთოდების გამოყენების აუცილებელი პირობაა დიდი რაოდენობით მონაცემების ხელმისაწვდომობა. თუ ცვლადებს შორის ურთიერთობა შეიძლება მათემატიკურად სწორად იყოს აღწერილი, მაშინ მიზეზობრივი პროგნოზის სიზუსტე საკმაოდ მაღალი იქნება.
მიზეზობრივი პროგნოზირების მეთოდები მოიცავს:


  • მრავალვარიანტული რეგრესიის მოდელები,

  • სიმულაციური მოდელირება.
ყველაზე გავრცელებული მიზეზობრივი პროგნოზირების მეთოდებია მრავალვარიანტული რეგრესიის მოდელები. .

1.4.1 მრავალვარიანტული რეგრესიის მოდელები

მრავალვარიანტული რეგრესიის მოდელი არის განტოლება მრავალი დამოუკიდებელი ცვლადით.

მრავალვარიანტული რეგრესიის მოდელის ასაგებად, შეიძლება გამოყენებულ იქნას სხვადასხვა ფუნქციები, ყველაზე გავრცელებულია ხაზოვანი და სიმძლავრის დამოკიდებულებები:

ხაზოვან მოდელში, პარამეტრები(b 1 , b 2 , … b n) ინტერპრეტირებულია, როგორც თითოეული დამოუკიდებელი ცვლადის ეფექტი პროგნოზირებულ მნიშვნელობაზე, თუ ყველა სხვა დამოუკიდებელი ცვლადი ნულის ტოლია.

AT დენის მოდელიპარამეტრები არის ელასტიურობის კოეფიციენტები. ისინი აჩვენებენ, რამდენი პროცენტით შეიცვლება საშუალოდ შედეგი (y) შესაბამისი ფაქტორის 1%-ით ცვლილებით, ხოლო სხვა ფაქტორების მოქმედება უცვლელი რჩება. ასევე გამოიყენება მრავალჯერადი რეგრესიის განტოლების პარამეტრების გამოსათვლელად მინიმალური კვადრატის მეთოდი.

რეგრესიის მოდელების აგებისას გადამწყვეტ როლს თამაშობს მონაცემთა ხარისხი. მონაცემთა შეგროვება ქმნის პროგნოზების საფუძველს, ამიტომ არსებობს მთელი რიგი მოთხოვნები და წესები, რომლებიც უნდა დაიცვან მონაცემების შეგროვებისას.


  1. Პირველ რიგში, მონაცემები უნდა იყოს დაკვირვებადი, ე.ი. მიღებულია გაზომვის და არა გაანგარიშების შედეგად.

  1. მეორეც, მონაცემთა მასივიდან აუცილებელია გამორიცხეთ დუბლიკატი და ძლიერ განსხვავებული მონაცემები. რაც უფრო მეტია არაგანმეორებადი მონაცემები და რაც უფრო ერთგვაროვანია პოპულაცია, მით უკეთესი იქნება განტოლება.ძლიერ განსხვავებული მნიშვნელობები გაგებულია, როგორც დაკვირვებები, რომლებიც არ ჯდება ზოგად სერიებში. მაგალითად, მუშაკთა ხელფასების მონაცემები ოთხნიშნა და ხუთნიშნაა (7000, 10000, 15000), მაგრამ გვხვდება ერთი ექვსნიშნა რიცხვი (250000). ცხადია, ეს შეცდომაა.

  1. მესამე წესი (მოთხოვნა) არის საკმაოდ დიდი რაოდენობით მონაცემები. სტატისტიკოსები არ ეთანხმებიან იმაზე, თუ რამდენი მონაცემია საჭირო კარგი განტოლების შესაქმნელად. ზოგიერთის აზრით, მონაცემები აუცილებელია 4-6 ჯერ მეტიფაქტორების რაოდენობა. ამას სხვები ამტკიცებენ მინიმუმ 10-ჯერ მეტიფაქტორების რაოდენობა, შემდეგ დიდი რიცხვების კანონი, რომელიც მოქმედებს მთელი ძალით, უზრუნველყოფს შემთხვევითი გადახრების ეფექტურ ანაზღაურებას კავშირის რეგულარული ბუნებიდან.

მრავალვარიანტული რეგრესიის მოდელის აგებაᲥᲐᲚᲑᲐᲢᲝᲜᲘexcel
Excel-ის ცხრილებში შესაძლებელია მხოლოდ აშენება ხაზოვანიმრავალვარიანტული რეგრესიის მოდელი.
, (1.19)
ამისათვის აირჩიეთ "Მონაცემთა ანალიზი",და შემდეგ გამოჩენილ ფანჯარაში - ინსტრუმენტი "რეგრესია"


სურათი 1.45 - "რეგრესიის" ხელსაწყოს დიალოგური ფანჯარა
ფანჯარაში, რომელიც გამოჩნდება, თქვენ უნდა შეავსოთ რამდენიმე ველი, მათ შორის:


  • შეყვანის ინტერვალი - მონაცემთა დიაპაზონი, ერთი სვეტიდან, რომელიც შეიცავს მიღებული ცვლადის Y მნიშვნელობებს.

  • შეყვანის ინტერვალი X არის მონაცემთა დიაპაზონი, რომელიც შეიცავს ფაქტორების ცვლადების მნიშვნელობებს.

თუ შეყვანის ინტერვალის პირველი მწკრივი ან პირველი სვეტი შეიცავს სათაურებს, მაშინ უნდა მონიშნოთ ველი "ტეგები" .

ნაგულისხმევი გამოიყენება 95% საიმედოობის დონე.თუ გსურთ სხვა დონის დაყენება, აირჩიეთ ველი და მის გვერდით ველში შეიყვანეთ საიმედოობის სასურველი დონე.

მოსანიშნი ველი "მუდმივი ნული"უნდა შემოწმდეს მხოლოდ იმ შემთხვევაში, თუ გსურთ მიიღოთ რეგრესიის განტოლება კვეთის გარეშე ისე, რომ რეგრესიის ხაზი გადის საწყისებზე.
გაანგარიშების შედეგების ორგანიზება შესაძლებელია 3 გზით:


  • in ამ სამუშაო ფურცლის უჯრედების დიაპაზონი (ამ სფეროში "გამომავალი დიაპაზონი"განსაზღვრეთ დიაპაზონის ზედა მარცხენა უჯრედი, სადაც ნაჩვენები იქნება გაანგარიშების შედეგები);

  • ზე ახალი სამუშაო ფურცელი (შეგიძლიათ შეიყვანოთ ამ ფურცლის სასურველი სახელი მის გვერდით ველში);

  • in ახალი სამუშაო წიგნი .

მოსანიშნი ველები "რჩება"და "სტანდარტიზებული ნაშთები"ბრძანებს მათი ჩართვას გამომავალი დიაპაზონში.
თითოეული დამოუკიდებელი ცვლადის ნარჩენების გამოსათვლელად, მონიშნეთ ველი ნარჩენი გრაფიკი.რჩებასხვაგვარად ცნობილია როგორც პროგნოზირების შეცდომები. ისინი განისაზღვრება, როგორც განსხვავება რეალურ და პროგნოზირებულ Y მნიშვნელობებს შორის.
ნარჩენი ნაკვეთების ინტერპრეტაცია
ნარჩენების სქემებში არ უნდა იყოს ნიმუში. თუ ნიმუშის მიკვლევა ხდება, მაშინ ეს ნიშნავს, რომ მოდელი არ შეიცავს ჩვენთვის უცნობ, მაგრამ ბუნებრივად მოქმედ ფაქტორს, რომლის შესახებაც არ არსებობს მონაცემები.

ყუთის შემოწმებისას "განრიგის შერჩევა"ნაჩვენები იქნება გრაფიკების სერია, რომელიც აჩვენებს, რამდენად შეესაბამება თეორიული რეგრესიის ხაზი დაკვირვებულებს, ე.ი. ფაქტობრივი მონაცემები.

გრაფიკების კრეფის ინტერპრეტაცია
Excel-ში, შერჩევის სქემებზე, წითელი წერტილები მიუთითებს თეორიულ მნიშვნელობებზე , ლურჯი წერტილები - საწყისი მონაცემები. თუ წითელი წერტილები კარგად ემთხვევა ლურჯ წერტილებს, მაშინ ეს ვიზუალურად მიუთითებს წარმატებულ რეგრესიის განტოლებაზე.
მრავალვარიანტულ რეგრესიულ მოდელებზე დაფუძნებული პროგნოზირების აუცილებელ საფეხურს წარმოადგენს რეგრესიის განტოლების სტატისტიკური მნიშვნელობის შეფასება, ე.ი. აგებული რეგრესიის განტოლების ვარგისიანობა პროგნოზირებაში გამოსაყენებლად. ამ პრობლემის გადასაჭრელად MS Excel ითვლის რამდენიმე კოეფიციენტს. კერძოდ:


  1. მრავალჯერადი კორელაციის კოეფიციენტი

იგი ახასიათებს ურთიერთობის შებოჭილობას და მიმართულებას მიღებულ და რამდენიმეფაქტორების ცვლადები. ორფაქტორიანი დამოკიდებულებით, მრავალჯერადი კორელაციის კოეფიციენტი გამოითვლება ფორმულით:
, (1.20)


  1. მრავალჯერადი განსაზღვრის კოეფიციენტი ( 2 ).

R 2 არის თეორიული მნიშვნელობის ვარიაციის პროპორცია y-ის რეალურ მნიშვნელობებთან მიმართებაში, რაც აიხსნება მოდელში შემავალი ფაქტორებით. დანარჩენი თეორიული მნიშვნელობები დამოკიდებულია სხვა ფაქტორებზე, რომლებიც არ მონაწილეობენ მოდელში. R 2-ს შეუძლია მიიღოს მნიშვნელობები 0-დან 1-მდე. თუ , მაშინ მოდელის ხარისხი მაღალია. ეს მაჩვენებელი განსაკუთრებით სასარგებლოა რამდენიმე მოდელის შედარებისა და საუკეთესოს არჩევისთვის.


  1. განსაზღვრის ნორმალიზებული კოეფიციენტი 2

ინდიკატორ R 2-ს აქვს ნაკლი, რომელიც მდგომარეობს იმაში, რომ განსაზღვრის კოეფიციენტის დიდი მნიშვნელობების მიღწევა შესაძლებელია დაკვირვებების მცირე რაოდენობის გამო. ნორმალიზებული გვაწვდის ინფორმაციას იმის შესახებ, თუ რა მნიშვნელობა შეგიძლიათ მიიღოთ სხვა მონაცემთა ნაკრებიდან, რომელიც გაცილებით დიდია, ვიდრე ამ შემთხვევაში.

ნორმალიზებული გამოითვლება ფორმულით:

, (1.21)

სად არის ნორმალიზებული მრავალჯერადი განსაზღვრის კოეფიციენტი,

მრავალჯერადი განსაზღვრის კოეფიციენტი,

მოსახლეობის მოცულობა,

ფაქტორების ცვლადების რაოდენობა.


  1. რეგრესიის სტანდარტული შეცდომა მიუთითებს წინასწარმეტყველების შეცდომის სავარაუდო რაოდენობაზე. იგი გამოიყენება როგორც ძირითადი რაოდენობა სავარაუდო მოდელის ხარისხის გასაზომად. გამოითვლება ფორმულის მიხედვით:
, (1.22)

სად არის ნარჩენების კვადრატების ჯამი,

ნარჩენების თავისუფლების ხარისხების რაოდენობა.
ანუ, რეგრესიის სტანდარტული შეცდომა აჩვენებს შეცდომის კვადრატის მნიშვნელობას თავისუფლების ერთ ხარისხზე.


შედეგები

რეგრესიის სტატისტიკა

მრავალჯერადი რ

0.973101

R-კვადრატი

0.946926

ნორმალიზებული R-კვადრატი

0.940682

სტანდარტული შეცდომა

0.59867

დაკვირვებები

20

დისპერსიის ანალიზი

დფ

SS

ᲥᲐᲚᲑᲐᲢᲝᲜᲘ



მნიშვნელობა F

რეგრესია

2

108.7071

54.35355

151.6535

1.45E-11

დარჩენილი

17

6.092905

0.358406

სულ

19

114.8

შანსები

სტანდარტული შეცდომა

t-სტატისტიკა

P- მნიშვნელობა

ქვედა 95%

ტოპ 95%

ქვედა 95.0%

ტოპ 95.0%

Y-გადაკვეთა

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

დისპერსიის ანალიზის მეთოდი შედგება ცვლადის კვადრატული გადახრების ჯამის დაშლაში ზესაშუალოდან ორ ნაწილად:


  1. აიხსნება რეგრესიით (ან ფაქტორული),

  2. ნარჩენი.
, (1.2 3)
რეგრესიის მოდელის ვარგისიანობა პროგნოზირებისთვის დამოკიდებულია იმაზე, თუ რამდენს შეადგენს ნიშან-თვისების მთლიანი ვარიაცია ითვალისწინებს რეგრესით ახსნილ ვარიაციას. ცხადია, თუ რეგრესიით ახსნილი კვადრატული გადახრების ჯამი ნარჩენზე მეტია, მაშინ კეთდება დასკვნა რეგრესიის განტოლების სტატისტიკური მნიშვნელობის შესახებ. ეს უდრის იმას, რომ განმსაზღვრელი კოეფიციენტი უახლოვდება ერთიანობას.
აღნიშვნები ცხრილში "დისპერსიის ანალიზი":
ცხრილის მეორე სვეტი ეწოდება და ნიშნავს თავისუფლების გრადუსების რაოდენობას. მთლიანი დისპერსიისთვის, თავისუფლების ხარისხების რაოდენობაა: , ფაქტორების დისპერსიისთვის (ან ვარიანსისთვის ახსნილი რეგრესიით), , ნარჩენი დისპერსიისთვის.

სადაც n არის დაკვირვებების რაოდენობა,

m არის მოდელის ფაქტორული ცვლადების რაოდენობა.
ცხრილის მესამე სვეტს ეწოდება . იგი წარმოადგენს კვადრატული გადახრების ჯამს. კვადრატული გადახრების ჯამი განისაზღვრება ფორმულით:

, (1.24)
კვადრატების ფაქტორების ჯამი:

, (1.26)
მეოთხე სვეტს ეწოდება - კვადრატული გადახრების საშუალო მნიშვნელობა. განისაზღვრება ფორმულით:

ფიშერის F-კრიტერიუმის დახმარებით დგინდება რეგრესიის განტოლების განსაზღვრის კოეფიციენტის სტატისტიკური მნიშვნელობა. ამისათვის წამოყენებულია ნულოვანი ჰიპოთეზა, რომელიც აცხადებს, რომ მიღებულ და ფაქტორულ ცვლადებს შორის არ არის კავშირი. ეს შესაძლებელია მხოლოდ იმ შემთხვევაში, თუ მრავალჯერადი წრფივი რეგრესიის განტოლების ყველა პარამეტრი და კორელაციის კოეფიციენტი ნულის ტოლია.

ამ ჰიპოთეზის შესამოწმებლად აუცილებელია ფიშერის F-ტესტის რეალური მნიშვნელობის გამოთვლა და ცხრილის შედარება. F- კრიტერიუმის რეალური მნიშვნელობა გამოითვლება ფორმულით:

, (1.28)

შერჩეული სპეციალური სტატისტიკური ცხრილებიდან:


  • მოცემული მნიშვნელობის დონე () და

  • თავისუფლების ხარისხების რაოდენობა.

MS Excel-ში F-კრიტერიუმის ტაბულური მნიშვნელობა შეიძლება განისაზღვროს ფუნქციის გამოყენებით: = FINV(ალბათობა; თავისუფლების ხარისხი1; თავისუფლების ხარისხი2)

მაგალითად: =FDISP(0.05;df1;df2)
მნიშვნელოვნების დონე 1 არჩეულია იმავესთვის, რომელზეც გამოითვლება რეგრესიის მოდელის პარამეტრები. ნაგულისხმევი არის 95%.

თუ , მაშინ შემოთავაზებული ჰიპოთეზა უარყოფილია და აღიარებულია რეგრესიის განტოლების სტატისტიკური მნიშვნელობა. განსაკუთრებით მნიშვნელოვანი პროგნოზების შემთხვევაში, რეკომენდებულია F-კრიტერიუმის ცხრილის მნიშვნელობის გაზრდა 4-ჯერ, ანუ შემოწმებულია მდგომარეობა:
=151.65; = 3.59
გამოთვლილი მნიშვნელობა მნიშვნელოვნად აღემატება ცხრილის მნიშვნელობას. ეს ნიშნავს, რომ განსაზღვრის კოეფიციენტი მნიშვნელოვნად განსხვავდება ნულისაგან, ამიტომ რეგრესული დამოკიდებულების არარსებობის ჰიპოთეზა უნდა იქნას უარყოფილი.
ახლა შევაფასოთ რეგრესიის კოეფიციენტების მნიშვნელობა -სტუდენტური კრიტერიუმი.ის საშუალებას გაძლევთ განსაზღვროთ ფაქტორების (x) ცვლადებიდან რომელი აქვს ყველაზე დიდი გავლენა მიღებულ ცვლადზე (y).

სტანდარტული შეცდომები ჩვეულებრივ აღინიშნება. სუბსკრიპტი მიუთითებს რეგრესიის განტოლების პარამეტრს, რომლისთვისაც გამოითვლება ეს შეცდომა.

გამოითვლება ფორმულის მიხედვით:

, (1.29)

სადაც - RMS მიღებული ცვლადი,

RMS ფუნქციისთვის,

მრავალჯერადი განტოლებისთვის განსაზღვრის კოეფიციენტი

რეგრესია,

ფაქტორის დამოკიდებულების განსაზღვრის კოეფიციენტი

ყველა სხვა ფაქტორი განტოლებაში.

თავისუფლების გრადუსების რაოდენობა კვადრატების ნარჩენი ჯამისთვის

გადახრები.
MS Excel-ში სტანდარტული შეცდომები გამოითვლება ავტომატურად (მდებარეობს მე-3 ცხრილის მე-3 სვეტში).
რეალური ღირებულება-სტუდენტური კრიტერიუმი MS Excel-ში მდებარეობს მე-3 ცხრილის მე-4 სვეტში და ე.წ t- სტატისტიკა.
(მე-4 სვეტი) = (მე-2 სვეტი) / (მე-3 სვეტი)

t-statistic = კოეფიციენტები/სტანდარტული შეცდომა
ცხრილის ღირებულება-სტუდენტური კრიტერიუმიდამოკიდებულია მნიშვნელობის მიღებულ დონეზე (ჩვეულებრივ; 0.05; 0.01) და თავისუფლების ხარისხების რაოდენობაზე.

სადაც n არის მოსახლეობის ერთეულების რაოდენობა,

m არის განტოლების ფაქტორების რაოდენობა.
MS Excel-ში სტუდენტის კრიტერიუმის ტაბულური მნიშვნელობა შეიძლება განისაზღვროს ფუნქციის გამოყენებით:

STUDRASP (ალბათობა; თავისუფლების გრადუსების რაოდენობა)
მაგალითად: =STUDISP(0.05,7)
თუ , მაშინ დასკვნა გამოდის, რომ რეგრესიის განტოლების კოეფიციენტი არის სტატისტიკურად მნიშვნელოვანი (სანდო) და შეიძლება შევიდეს მოდელში და გამოყენებული იქნას პროგნოზირებისთვის.

1.4.2 მონტე კარლოს სიმულაციის მეთოდი

სიმულაციის მეთოდმა მიიღო სახელი ქალაქ მონტე კარლოს საპატივსაცემოდ, რომელიც მდებარეობს მონაკოს სამთავროში, მსოფლიოში ერთ-ერთი ყველაზე პატარა ქვეყანა, რომელიც მდებარეობს ხმელთაშუა ზღვის სანაპიროზე, საფრანგეთისა და იტალიის საზღვართან.

მონტე კარლოს სიმულაციის მეთოდი გულისხმობს შემთხვევითი მნიშვნელობების გენერირებას მოცემული შეზღუდვების შესაბამისად. სიმულაციური მოდელირების დაწყებისას, უპირველეს ყოვლისა, აუცილებელია პროგნოზირებული ინდიკატორის ეკონომიკური და მათემატიკური მოდელის (EMM) შემუშავება, რომელიც ასახავს ფაქტორების ცვლადებს შორის ურთიერთობას, აგრეთვე შედეგზე მათი გავლენის ხარისხსა და ბუნებას. ვინაიდან, თანამედროვე საბაზრო პირობების პირობებში, ეკონომიკური ურთიერთობების საგანზე ერთდროულად მოქმედებს სხვადასხვა ხასიათისა და მიმართულების მრავალი ფაქტორი და მათი გავლენის ხარისხი არ არის განმსაზღვრელი, აუცილებელია EMM ცვლადების დაყოფა ორ ჯგუფად: სტოქასტურად. და დეტერმინისტული;

შემდეგი, თქვენ უნდა განსაზღვროთ ალბათობის განაწილების ტიპები თითოეული სტოქასტური ცვლადისთვის და შესაბამისი შეყვანის პარამეტრები, მოახდინოთ სტოქასტური ცვლადების მნიშვნელობების სიმულაცია MS Excel შემთხვევითი რიცხვების გენერატორის ან სხვა პროგრამული ინსტრუმენტების გამოყენებით.

"შემთხვევითი რიცხვების გენერირების" ინსტრუმენტი ხელმისაწვდომია MS Excel 2007-ის მომხმარებლებისთვის დანამატის გააქტიურების შემდეგ. საანალიზო პაკეტი. დანამატის გააქტიურების თანმიმდევრობა აღწერილია ზემოთ (იხ. გვერდი 10, სურ. 1.5-1.8). მენიუში სიმულაციის გასაშვებად DATAელემენტი უნდა იყოს შერჩეული "Მონაცემთა ანალიზი", დიალოგურ ფანჯარაში, რომელიც გამოჩნდება, აირჩიეთ ინსტრუმენტი სიიდან "შემთხვევითი რიცხვების გენერაცია"და დააწკაპუნეთ OK.

სურათი 1.46 - მონაცემთა ანალიზის მენიუს ინტერფეისი
დიალოგურ ფანჯარაში, რომელიც გამოჩნდება, თქვენ უნდა აირჩიოთ ალბათობის განაწილების ტიპი თითოეული სტოქასტური ცვლადისთვის და დააყენოთ შესაბამისი შეყვანის პარამეტრები.

სურათი 1.47 - შემთხვევითი რიცხვების გენერატორის დიალოგური ფანჯარა
ეს ეტაპი ერთ-ერთი ყველაზე რთულია, ამიტომ მისი შესრულებისას აუცილებელია ექსპერტების ცოდნისა და გამოცდილების გამოყენება. ალბათობის განაწილების ტიპის შერჩევაასევე შეიძლება განხორციელდეს არსებული სტატისტიკური ინფორმაციის საფუძველზე. პრაქტიკაში, ყველაზე ხშირად გამოიყენება ალბათობის განაწილების ისეთი ტიპები, როგორიცაა ნორმალური, სამკუთხა და ერთიანი.

ნორმალური განაწილება (ან მოივრე-გაუს-ლაპლასის კანონი)ვარაუდობს, რომ პროგნოზირებული პარამეტრის ვარიანტები მიზიდულობენ საშუალო მნიშვნელობისკენ. ცვლადი მნიშვნელობები, რომლებიც მნიშვნელოვნად განსხვავდება საშუალოდან, ანუ განლაგებულია განაწილების "კუდებში", აქვს დაბალი ალბათობა.

სამკუთხა განაწილებაარის ნორმალური განაწილების წარმოებული და იღებს წრფივად მზარდ განაწილებას საშუალოს მიახლოებისას.

ერთგვაროვანი განაწილებაგამოიყენება იმ შემთხვევაში, როდესაც ცვლადი ინდიკატორის ყველა მნიშვნელობას აქვს რეალიზაციის ერთნაირი ალბათობა.

ცვლადის მნიშვნელობით და განაწილების კანონის არჩევის შეუძლებლობამისი ყურება შესაძლებელია დისკრეტული განაწილება.ზემოთ ჩამოთვლილი ალბათობის განაწილების ტიპები მოითხოვს 1.11 ცხრილში წარმოდგენილი შეყვანის პარამეტრების განსაზღვრას.
ცხრილი 1.11 - ალბათობის განაწილების ძირითადი ტიპების შეყვანის პარამეტრები


ალბათობის ტიპი

განაწილება


შეყვანის პარამეტრები

1 ნორმალური განაწილება

  • ნიშნავს;

  • სტანდარტული გადახრა;

2 სამკუთხა განაწილება

  • ნიშნავს;


3 თანაბარი განაწილება

  • მნიშვნელობების შესაძლო დიაპაზონის საზღვრები;

4 დისკრეტული განაწილება

  • ცვლადის სპეციფიკური მნიშვნელობები;

  • მოცემული ალბათობების შესაბამისი.

ექსპერიმენტების სერიის შედეგად მიიღება სტოქასტური ცვლადების მნიშვნელობების განაწილება, რის საფუძველზეც უნდა გამოითვალოს პროგნოზირებული ინდიკატორის მნიშვნელობა.

შემდეგი აუცილებელი ნაბიჯი არის სიმულაციის შედეგების ეკონომიკური და სტატისტიკური ანალიზის ჩატარება, რომელშიც რეკომენდებულია შემდეგი სტატისტიკური მახასიათებლების გამოთვლა:


  • ნიშნავს;

  • სტანდარტული გადახრა;

  • დისპერსია;

  • მინიმალური და მაქსიმალური მნიშვნელობა;

  • რყევების დიაპაზონი;

  • ასიმეტრიის კოეფიციენტი;

  • ჭარბი.
ზემოაღნიშნული ინდიკატორები შეიძლება გამოყენებულ იქნას ნორმალური განაწილების ჰიპოთეზის შესამოწმებლად. თუ ჰიპოთეზა დადასტურდა, "სამი სიგმის" წესი შეიძლება გამოყენებულ იქნას ინტერვალის პროგნოზის გასაკეთებლად. სამი სიგმის წესი ამბობს, რომ თუ შემთხვევითი ცვლადი Xექვემდებარება ნორმალურ განაწილების კანონს პარამეტრებით და, თითქმის დარწმუნებულია, რომ მისი მნიშვნელობები არის ინტერვალში, ანუ. სიცხადის გასაუმჯობესებლად და ინტერპრეტაციის გასამარტივებლად, მიზანშეწონილია ჰისტოგრამის აგება.


სურათი 1.48 - პროგნოზირებული ინდიკატორის მნიშვნელობების ჰისტოგრამა

ამ ეტაპების განხორციელება შესაძლებელს გახდის სავარაუდო ინდიკატორის მნიშვნელობების სავარაუდო შეფასების მიღებას (ინტერვალის პროგნოზი).

დღეს ყველას, ვინც ცოტათი მაინც არის დაინტერესებული მონაცემთა მოპოვებით, ალბათ სმენია მარტივი ხაზოვანი რეგრესიის შესახებ. ამის შესახებ უკვე დაიწერა ჰაბრეზე და ენდრიუ ნგმა ასევე ისაუბრა თავის ცნობილ მანქანათმცოდნეობის კურსზე. ხაზოვანი რეგრესია მანქანათმცოდნეობის ერთ-ერთი ძირითადი და უმარტივესი მეთოდია, მაგრამ აწყობილი მოდელის ხარისხის შეფასების მეთოდები ძალიან იშვიათად არის ნახსენები. ამ სტატიაში შევეცდები ოდნავ გამოვასწორო ეს შემაშფოთებელი გამოტოვება summary.lm () ფუნქციის შედეგების გაანალიზების მაგალითით R ენაზე. ამით შევეცდები მოგაწოდოთ საჭირო ფორმულები, ამიტომ ყველა გამოთვლა ადვილად შეიძლება დაპროგრამდეს ნებისმიერ სხვა ენაზე. ეს სტატია განკუთვნილია მათთვის, ვისაც სმენია, რომ შესაძლებელია წრფივი რეგრესიის აგება, მაგრამ არ შეხვედრია მისი ხარისხის შეფასების სტატისტიკურ პროცედურებს.

ხაზოვანი რეგრესიის მოდელი

ასე რომ, მოდით იყოს რამდენიმე დამოუკიდებელი შემთხვევითი ცვლადი X1, X2, ..., Xn (წინასწარმეტყველები) და ცვლადი Y მათზე დამოკიდებული (ვარაუდობენ, რომ პროგნოზირების ყველა საჭირო ტრანსფორმაცია უკვე გაკეთებულია). უფრო მეტიც, ჩვენ ვვარაუდობთ, რომ დამოკიდებულება წრფივია და შეცდომები ჩვეულებრივ განაწილებულია, ე.ი.

სადაც I არის n x n კვადრატული იდენტურობის მატრიცა.

ამრიგად, ჩვენ გვაქვს მონაცემები, რომელიც შედგება Y და Xi მნიშვნელობების k დაკვირვებისგან და გვინდა კოეფიციენტების შეფასება. კოეფიციენტების შეფასების სტანდარტული მეთოდი არის უმცირესი კვადრატების მეთოდი. და ანალიტიკური გამოსავალი, რომლის მიღებაც შესაძლებელია ამ მეთოდის გამოყენებით, ასე გამოიყურება:

სადაც ქუდით - კოეფიციენტის ვექტორული შეფასებით, არის დამოკიდებული ცვლადის მნიშვნელობების ვექტორი, ხოლო X არის k x n+1 ზომის მატრიცა (n არის პროგნოზირების რაოდენობა, k არის დაკვირვებების რაოდენობა), რომელშიც პირველი სვეტი შედგება ერთებისგან, მეორე - პირველი პროგნოზირების მნიშვნელობები, მესამე - მეორე და ასე შემდეგ, და რიგები შეესაბამება არსებულ დაკვირვებებს.

შეჯამება.lm() ფუნქცია და შედეგების შეფასება

ახლა განვიხილოთ ხაზოვანი რეგრესიის მოდელის აგების მაგალითი R ენაზე:
> ბიბლიოთეკა (შორს) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >შეჯამება(lm1) გამოძახება: lm(ფორმულა = სახეობა ~ ფართობი + სიმაღლე + უახლოესი + სკრუზი + მიმდებარე, მონაცემები = გალა) ნარჩენები: მინ. 1Q მედიანა 3Q მაქს -111.679 -34.898 -7.862 33.460 182.58 კოეფიციენტები: Esficientstim. Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0.017700 -4.226 0.000297 *** --- ნიშან. კოდები: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0.1 ' ' 1 ნარჩენი სტანდარტული შეცდომა: 60,98 თავისუფლების 24 გრადუსზე მრავალჯერადი R-კვადრატი: 0,7658, მორგებული R-კვადრატი: 0-7171 F სტატისტიკა: 15.7 5-ზე და 24 DF-ზე, p-მნიშვნელობა: 6.838e-07
გალა ცხრილი შეიცავს გარკვეულ მონაცემებს გალაპაგოსის 30 კუნძულზე. ჩვენ განვიხილავთ მოდელს, სადაც სახეობები - სხვადასხვა მცენარეთა სახეობების რაოდენობა კუნძულზე წრფივად არის დამოკიდებული რამდენიმე სხვა ცვლადზე.

განვიხილოთ summary.lm() ფუნქციის გამოსავალი.
პირველი მოდის ხაზი, რომელიც იხსენებს, თუ როგორ აშენდა მოდელი.
შემდეგ მოდის ინფორმაცია ნარჩენების განაწილების შესახებ: მინიმალური, პირველი მეოთხედი, მედიანა, მესამე კვარტლი, მაქსიმალური. ამ ეტაპზე, სასარგებლო იქნება არა მხოლოდ ნარჩენების ზოგიერთი კვანტილის დათვალიერება, არამედ მათი ნორმალურობის შემოწმებაც, მაგალითად, შაპირო-უილკის ტესტის გამოყენებით.
შემდეგი - ყველაზე საინტერესო - ინფორმაცია კოეფიციენტების შესახებ. აქ ცოტა თეორიაა საჭირო.
ჯერ ვწერთ შემდეგ შედეგს:

სადაც სიგმა კვადრატში ქუდით არის მიუკერძოებელი შემფასებელი რეალური სიგმის კვადრატისთვის. Აქ არის კოეფიციენტების რეალური ვექტორი, ხოლო დახურული ეპსილონი არის ნარჩენების ვექტორი, თუ კოეფიციენტებად ავიღებთ უმცირეს კვადრატების შეფასებებს. ანუ, იმ ვარაუდით, რომ შეცდომები ნორმალურად ნაწილდება, კოეფიციენტების ვექტორიც ნორმალურად გადანაწილდება რეალური მნიშვნელობის გარშემო და მისი დისპერსიის შეფასება შეიძლება მიუკერძოებლად. ეს ნიშნავს, რომ თქვენ შეგიძლიათ შეამოწმოთ ჰიპოთეზა კოეფიციენტების ტოლობის ნულამდე და, შესაბამისად, შეამოწმოთ პროგნოზირების მნიშვნელობა, ანუ ნამდვილად მოქმედებს თუ არა Xi-ს მნიშვნელობა აშენებული მოდელის ხარისხზე.
ამ ჰიპოთეზის შესამოწმებლად, ჩვენ გვჭირდება შემდეგი სტატისტიკა, რომელსაც აქვს სტუდენტის განაწილება, თუ კოეფიციენტის bi-ის რეალური მნიშვნელობა არის 0:

სადაც
არის კოეფიციენტის შეფასების სტანდარტული შეცდომა და t(k-n-1) არის სტუდენტის განაწილება k-n-1 თავისუფლების ხარისხით.

ახლა ჩვენ მზად ვართ გავაგრძელოთ summary.lm() ფუნქციის გამოსავლის ანალიზი.
ასე რომ, შემდეგი არის ყველაზე მცირე კვადრატების მეთოდით მიღებული კოეფიციენტების შეფასება, მათი სტანდარტული შეცდომები, t-სტატისტიკის მნიშვნელობები და მისთვის p-მნიშვნელობები. როგორც წესი, p-მნიშვნელობა შედარებულია ზოგიერთ საკმარისად მცირე წინასწარ შერჩეულ ზღურბლთან, როგორიცაა 0.05 ან 0.01. და თუ p-სტატისტიკის მნიშვნელობა ზღურბლზე ნაკლებია, მაშინ ჰიპოთეზა უარყოფილია, თუ მეტი, კონკრეტული არაფერი, სამწუხაროდ, არ შეიძლება ითქვას. შეგახსენებთ, რომ ამ შემთხვევაში, ვინაიდან სტუდენტის განაწილება სიმეტრიულია დაახლოებით 0-ზე, მაშინ p-მნიშვნელობა იქნება 1-F(|t|)+F(-|t|), სადაც F არის სტუდენტის განაწილება. ფუნქცია k-n-1 თავისუფლების ხარისხით. ასევე, R კეთილსინდისიერად აღნიშნავს ვარსკვლავებით მნიშვნელოვან კოეფიციენტებს, რომლებისთვისაც p-მნიშვნელობა საკმარისად მცირეა. ანუ ის კოეფიციენტები, რომლებიც ძალიან საეჭვოა იყოს 0. ხაზში Signif. კოდები უბრალოდ შეიცავს ვარსკვლავის გაშიფვრას: თუ სამია, მაშინ p-მნიშვნელობა არის 0-დან 0,001-მდე, თუ არის ორი, მაშინ ის არის 0,001-დან 0,01-მდე და ა.შ. თუ არ არის ხატები, მაშინ p-მნიშვნელობა 0.1-ზე მეტია.

ჩვენს მაგალითში, შეგვიძლია დიდი დარწმუნებით ვთქვათ, რომ პროგნოზები Elevation და Adjacent ნამდვილად გავლენას მოახდენს სახეობების ღირებულებაზე, მაგრამ სხვა პროგნოზირების შესახებ რაიმეს თქმა არ შეიძლება. ჩვეულებრივ, ასეთ შემთხვევებში, პროგნოზები ამოღებულია სათითაოდ და უყურებენ, თუ როგორ იცვლება სხვა მოდელის ინდიკატორები, მაგალითად, BIC ან Adjusted R-squared, რომელიც მოგვიანებით გაანალიზდება.

ნარჩენი სტანდარტული შეცდომის მნიშვნელობა შეესაბამება სიგმის მარტივ შეფასებას თავსახურით, ხოლო თავისუფლების ხარისხი გამოითვლება როგორც k-n-1.

ახლა კი ყველაზე მნიშვნელოვანი სტატისტიკა, რომლის ნახვაც პირველ რიგში ღირს: R-squared და Adjusted R-squared:

სადაც Yi არის რეალური Y მნიშვნელობები თითოეულ დაკვირვებაში, Yi ქუდით არის მოდელის მიერ პროგნოზირებული მნიშვნელობები, Y ზოლით არის ყველა რეალური Yi მნიშვნელობის საშუალო.

დავიწყოთ R-კვადრატის სტატისტიკით, ან, როგორც მას ზოგჯერ უწოდებენ, განსაზღვრის კოეფიციენტს. ის გვიჩვენებს, თუ როგორ განსხვავდება მოდელის პირობითი ვარიაცია Y-ის რეალური მნიშვნელობების ვარიაციისგან. თუ ეს კოეფიციენტი უახლოვდება 1-ს, მაშინ მოდელის პირობითი ვარიაცია საკმაოდ მცირეა და ძალიან სავარაუდოა, რომ მოდელი ერგება მონაცემები კარგად. თუ R-კვადრატის კოეფიციენტი გაცილებით ნაკლებია, მაგალითად, 0.5-ზე ნაკლები, მაშინ, მაღალი ნდობის ხარისხით, მოდელი არ ასახავს საქმის რეალურ მდგომარეობას.

თუმცა, R-კვადრატის სტატისტიკას აქვს ერთი სერიოზული ნაკლი: როგორც პროგნოზირების რიცხვი იზრდება, ეს სტატისტიკა შეიძლება მხოლოდ გაიზარდოს. აქედან გამომდინარე, შეიძლება ჩანდეს, რომ მოდელი, რომელსაც აქვს მეტი პროგნოზირება, უკეთესია, ვიდრე მოდელი, რომელსაც აქვს ნაკლები, მაშინაც კი, თუ ყველა ახალი პროგნოზირება გავლენას არ მოახდენს დამოკიდებულ ცვლადზე. აქ შეგვიძლია გავიხსენოთ ოკამის საპარსის პრინციპი. ამის შემდეგ, თუ ეს შესაძლებელია, ღირს მოდელში არასაჭირო პროგნოზირების მოშორება, რადგან ის უფრო მარტივი და გასაგები ხდება. ამ მიზნებისათვის გამოიგონეს მორგებული R-კვადრატის სტატისტიკა. ეს არის ჩვეულებრივი R-კვადრატი, მაგრამ პრედიქტორების დიდი რაოდენობით ჯარიმით. მთავარი იდეა: თუ ახალი დამოუკიდებელი ცვლადები დიდ წვლილს შეიტანენ მოდელის ხარისხში, ამ სტატისტიკის მნიშვნელობა იზრდება, თუ არა, მაშინ პირიქით მცირდება.

მაგალითად, განიხილეთ იგივე მოდელი, როგორც ადრე, მაგრამ ახლა ხუთი პროგნოზირების ნაცვლად, ჩვენ დავტოვებთ ორს:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >summary(lm2) გამოძახება: lm(ფორმულა = სახეობა ~ სიმაღლე + მიმდებარე, მონაცემები = გალა) ნარჩენები: მინ 1Q მედიანა 3Q მაქს -103.41 -34.33 -11.43 22.57 203.65 კოეფიციენტები: შეფასება სტდ. შეცდომა t მნიშვნელობა Pr(>|t|) (გადაკვეთა) 1.43287 15.02469 0.095 0.924727 სიმაღლე 0.27657 0.03176 8.707 2.53e-09 *** მიმდებარე -0.061049 *** მიმდებარე -0.06804 . კოდები: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0.1 ' ' 1 ნარჩენი სტანდარტული შეცდომა: 60,86 თავისუფლების 27 გრადუსზე მრავალი R-კვადრატი: 0,7376, მორგებული R-კვადრატი: 0-7181 F სტატისტიკა: 37.94 2-ზე და 27 DF-ზე, p-მნიშვნელობა: 1.434e-08
როგორც ხედავთ, R-კვადრატის სტატისტიკის მნიშვნელობა შემცირდა, მაგრამ მორგებული R-კვადრატის მნიშვნელობა კი ოდნავ გაიზარდა.

ახლა შევამოწმოთ ჰიპოთეზა, რომ პროგნოზირების ყველა კოეფიციენტი ნულის ტოლია. ანუ, ჰიპოთეზა იმის შესახებ, არის თუ არა Y-ის მნიშვნელობა ზოგადად დამოკიდებულია Xi-ს მნიშვნელობებზე ხაზოვანი. ამისათვის შეგიძლიათ გამოიყენოთ შემდეგი სტატისტიკა, რომელიც, თუ ჰიპოთეზა, რომ ყველა კოეფიციენტი ნულის ტოლია, მართალია, აქვს

მრავალჯერადი კორელაციის კოეფიციენტიგამოიყენება, როგორც მიღებულ ინდიკატორს შორის სტატისტიკური ურთიერთობის სიახლოვის ხარისხის საზომი (დამოკიდებული ცვლადი) და ახსნითი (დამოუკიდებელი) ცვლადების ერთობლიობა ან, სხვა სიტყვებით რომ ვთქვათ, აფასებს შედეგზე ფაქტორების ერთობლივი გავლენის სიახლოვეს.

მრავალჯერადი კორელაციის კოეფიციენტი შეიძლება გამოითვალოს მთელი რიგი ფორმულებიდან 5, მათ შორის:

    დაწყვილებული კორელაციის კოეფიციენტების მატრიცის გამოყენებით

, (3.18)

სადაც  - დაწყვილებული კორელაციის კოეფიციენტების მატრიცის განმსაზღვრელი ,
,

11 - ინტერფაქტორული კორელაციის მატრიცის განმსაზღვრელი
;

. (3.19)

მოდელისთვის, რომელშიც არის ორი დამოუკიდებელი ცვლადი, ფორმულა (3.18) გამარტივებულია

. (3.20)

მრავალჯერადი კორელაციის კოეფიციენტის კვადრატი არის განსაზღვრის კოეფიციენტი 2. როგორც წყვილთა რეგრესიის შემთხვევაში, 2 მიუთითებს რეგრესიული მოდელის ხარისხზე და ასახავს მიღებული მახასიათებლის მთლიანი ვარიაციის წილს აიხსნება რეგრესიის ფუნქციის შეცვლით (x) (იხ. 2.4). გარდა ამისა, განსაზღვრის კოეფიციენტი შეიძლება მოიძებნოს ფორმულით

. (3.21)

თუმცა, გამოყენება 2 მრავალჯერადი რეგრესიის შემთხვევაში მთლად სწორი არ არის, ვინაიდან დეტერმინაციის კოეფიციენტი იზრდება, როდესაც მოდელს ემატება რეგრესორები. ეს არის იმის გამო, რომ ნარჩენი ვარიაცია მცირდება დამატებითი ცვლადების შემოტანისას. და თუ ფაქტორების რაოდენობა უახლოვდება დაკვირვებების რაოდენობას, მაშინ ნარჩენი ვარიაცია იქნება ნული, ხოლო მრავალჯერადი კორელაციის კოეფიციენტი და, შესაბამისად, დეტერმინაციის კოეფიციენტი, მიუახლოვდება ერთიანობას, თუმცა სინამდვილეში ფაქტორებსა და შედეგს შორის ურთიერთობა. რეგრესიის განტოლების ახსნის ძალა შეიძლება იყოს გაცილებით დაბალი.

იმისათვის, რომ მიიღოთ ადეკვატური შეფასება იმის შესახებ, თუ რამდენად კარგად არის ახსნილი შედეგის ვარიაცია რამდენიმე ფაქტორის ნიშან-თვისებების ვარიაციით, გამოიყენეთ განსაზღვრის მორგებული კოეფიციენტი

(3.22)

განსაზღვრის მორგებული კოეფიციენტი ყოველთვის ნაკლებია 2. უფრო მეტიც, განსხვავებით 2, რომელიც ყოველთვის დადებითია,
ასევე შეუძლია მიიღოს უარყოფითი მნიშვნელობა.

მაგალითი (მაგალითის 1 გაგრძელება). გამოვთვალოთ მრავალჯერადი კორელაციის კოეფიციენტი ფორმულის მიხედვით (3.20):

მრავალჯერადი კორელაციის კოეფიციენტის მნიშვნელობა, რომელიც უდრის 0,8601-ს, მიუთითებს მჭიდრო კავშირზე ტრანსპორტირების ღირებულებასა და ტვირთის წონასა და მისი ტრანსპორტირების მანძილზე.

განსაზღვრის კოეფიციენტი უდრის: 2 =0,7399.

განსაზღვრის კორექტირებული კოეფიციენტი გამოითვლება ფორმულით (3.22):

=0,7092.

გაითვალისწინეთ, რომ დაზუსტებული კოეფიციენტის მნიშვნელობა განსხვავდება განსაზღვრის კოეფიციენტის მნიშვნელობისაგან.

ამრიგად, დამოკიდებული ცვლადის (სატრანსპორტო ღირებულება) ცვალებადობის 70,9% აიხსნება დამოუკიდებელ ცვლადებში (ტვირთის წონა და ტრანსპორტირების მანძილი) ცვალებადობით. დამოკიდებული ცვლადის ვარიაციის დარჩენილი 29.1% აიხსნება მოდელში გაუთვალისწინებელი ფაქტორებით.

განსაზღვრის მორგებული კოეფიციენტის მნიშვნელობა საკმაოდ დიდია, შესაბამისად, ჩვენ შევძელით მოდელში გავითვალისწინოთ ყველაზე მნიშვნელოვანი ფაქტორები, რომლებიც განსაზღვრავენ ტრანსპორტირების ღირებულებას. 

რეგრესიული ანალიზი არის სტატისტიკური კვლევის მეთოდი, რომელიც საშუალებას გაძლევთ აჩვენოთ პარამეტრის დამოკიდებულება ერთ ან რამდენიმე დამოუკიდებელ ცვლადზე. კომპიუტერამდელ ეპოქაში მისი გამოყენება საკმაოდ რთული იყო, განსაკუთრებით მაშინ, როცა საქმე დიდი მოცულობის მონაცემებს ეხებოდა. დღეს, როდესაც ისწავლეთ თუ როგორ უნდა შექმნათ რეგრესია Excel-ში, შეგიძლიათ გადაჭრათ რთული სტატისტიკური პრობლემები სულ რამდენიმე წუთში. ქვემოთ მოცემულია კონკრეტული მაგალითები ეკონომიკის სფეროდან.

რეგრესიის სახეები

თავად კონცეფცია მათემატიკაში 1886 წელს შევიდა. რეგრესია ხდება:

  • ხაზოვანი;
  • პარაბოლური;
  • ძალა;
  • ექსპონენციალური;
  • ჰიპერბოლური;
  • დემონსტრაციული;
  • ლოგარითმული.

მაგალითი 1

განვიხილოთ პენსიაზე გასული გუნდის წევრების რაოდენობის დამოკიდებულების განსაზღვრის პრობლემა 6 სამრეწველო საწარმოს საშუალო ხელფასზე.

დავალება. ექვს საწარმოში გავაანალიზეთ საშუალო თვიური ხელფასი და საკუთარი ნებით წასული დასაქმებულთა რაოდენობა. ცხრილის სახით გვაქვს:

წასული ხალხის რაოდენობა

ხელფასი

30000 რუბლი

35000 რუბლი

40000 რუბლი

45000 რუბლი

50000 რუბლი

55000 რუბლი

60000 რუბლი

6 საწარმოში პენსიაზე გასული მუშაკების რაოდენობის დამოკიდებულების საშუალო ხელფასზე დამოკიდებულების დასადგენად, რეგრესიის მოდელს აქვს განტოლების ფორმა Y = a 0 + a 1 x 1 +…+a k x k , სადაც x i არის გავლენიანი ცვლადები. , a i არის რეგრესიის კოეფიციენტები, a k არის ფაქტორების რაოდენობა.

ამ ამოცანისთვის Y არის წასული თანამშრომლების მაჩვენებელი, ხოლო გავლენის ფაქტორი არის ხელფასი, რომელსაც X-ით აღვნიშნავთ.

ელცხრილის "Excel" შესაძლებლობების გამოყენება

Excel-ში რეგრესიის ანალიზს წინ უნდა უძღოდეს ჩაშენებული ფუნქციების გამოყენება ხელმისაწვდომი ცხრილის მონაცემებზე. თუმცა, ამ მიზნებისთვის უმჯობესია გამოიყენოთ ძალიან სასარგებლო დანამატი "ანალიზის ინსტრუმენტარიუმი". მის გასააქტიურებლად გჭირდებათ:

  • "ფაილი" ჩანართიდან გადადით "პარამეტრები" განყოფილებაში;
  • ფანჯარაში, რომელიც იხსნება, აირჩიეთ ხაზი "დამატებები";
  • დააჭირეთ ღილაკს "გადასვლა", რომელიც მდებარეობს ბოლოში, "მართვის" ხაზის მარჯვნივ;
  • შეამოწმეთ ყუთი სახელის გვერდით "ანალიზის პაკეტი" და დაადასტურეთ თქვენი ქმედებები "OK" დაწკაპუნებით.

თუ ყველაფერი სწორად გაკეთდა, სასურველი ღილაკი გამოჩნდება მონაცემთა ჩანართის მარჯვენა მხარეს, რომელიც მდებარეობს Excel-ის სამუშაო ფურცლის ზემოთ.

Excel-ში

ახლა, როცა ხელთ გვაქვს ყველა საჭირო ვირტუალური ინსტრუმენტი ეკონომეტრიული გამოთვლების შესასრულებლად, შეგვიძლია დავიწყოთ ჩვენი პრობლემის გადაჭრა. Ამისთვის:

  • დააჭირეთ ღილაკს "მონაცემთა ანალიზი";
  • ფანჯარაში, რომელიც იხსნება, დააჭირეთ ღილაკს "რეგრესია";
  • ჩანართში, რომელიც გამოჩნდება, შეიყვანეთ მნიშვნელობების დიაპაზონი Y-სთვის (თანამშრომლების რაოდენობა, რომლებმაც დატოვეს სამსახური) და X-სთვის (მათი ხელფასები);
  • ჩვენ ვადასტურებთ ჩვენს ქმედებებს ღილაკზე "Ok" დაჭერით.

შედეგად, პროგრამა ავტომატურად შეავსებს ცხრილის ახალ ფურცელს რეგრესიული ანალიზის მონაცემებით. Შენიშვნა! Excel-ს აქვს შესაძლებლობა ხელით დააყენოს თქვენთვის სასურველი მდებარეობა ამ მიზნით. მაგალითად, ეს შეიძლება იყოს იგივე ფურცელი, სადაც არის Y და X მნიშვნელობები, ან თუნდაც ახალი სამუშაო წიგნი, რომელიც სპეციალურად შექმნილია ასეთი მონაცემების შესანახად.

რეგრესიის შედეგების ანალიზი R-კვადრატისთვის

Excel-ში, განხილული მაგალითის მონაცემების დამუშავებისას მიღებული მონაცემები ასე გამოიყურება:

უპირველეს ყოვლისა, ყურადღება უნდა მიაქციოთ R-კვადრატის მნიშვნელობას. ეს არის განსაზღვრის კოეფიციენტი. ამ მაგალითში, R-კვადრატი = 0,755 (75,5%), ანუ მოდელის გამოთვლილი პარამეტრები ხსნის განხილულ პარამეტრებს შორის ურთიერთობას 75,5%-ით. რაც უფრო მაღალია განსაზღვრის კოეფიციენტის მნიშვნელობა, მით უფრო გამოსადეგია არჩეული მოდელი კონკრეტული ამოცანისთვის. ითვლება, რომ ის სწორად აღწერს რეალურ სიტუაციას R-კვადრატის მნიშვნელობით 0.8-ზე მეტი. თუ R-კვადრატი<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

თანაფარდობის ანალიზი

რიცხვი 64.1428 გვიჩვენებს, თუ რა იქნება Y-ის მნიშვნელობა, თუ ჩვენ განხილულ მოდელში ყველა xi ცვლადი დაყენებულია ნულზე. სხვა სიტყვებით რომ ვთქვათ, შეიძლება ითქვას, რომ გაანალიზებული პარამეტრის მნიშვნელობაზე გავლენას ახდენს სხვა ფაქტორებიც, რომლებიც არ არის აღწერილი კონკრეტულ მოდელში.

შემდეგი კოეფიციენტი -0,16285, რომელიც მდებარეობს B18 უჯრედში, აჩვენებს X ცვლადის გავლენის წონას Y-ზე. ეს ნიშნავს, რომ თანამშრომლების საშუალო თვიური ხელფასი განსახილველ მოდელში გავლენას ახდენს თანამშრომელთა რაოდენობაზე, რომელთა წონაა -0,16285, ე.ი. მისი გავლენის ხარისხი სულ მცირე. ნიშანი "-" მიუთითებს, რომ კოეფიციენტს აქვს უარყოფითი მნიშვნელობა. ეს აშკარაა, რადგან ყველამ იცის, რომ რაც უფრო მაღალია ხელფასი საწარმოში, მით უფრო ნაკლები ადამიანი გამოთქვამს სურვილს შეწყვიტოს სამუშაო ხელშეკრულება ან დატოვოს სამსახური.

მრავალჯერადი რეგრესია

ეს ტერმინი ეხება კავშირის განტოლებას ფორმის რამდენიმე დამოუკიდებელი ცვლადით:

y \u003d f (x 1 + x 2 + ... x m) + ε, სადაც y არის ეფექტური მახასიათებელი (დამოკიდებული ცვლადი) და x 1, x 2, ... x m არის ფაქტორების ფაქტორები (დამოუკიდებელი ცვლადები).

პარამეტრის შეფასება

მრავალჯერადი რეგრესიისთვის (MR) იგი ხორციელდება უმცირესი კვადრატების მეთოდით (OLS). Y = a + b 1 x 1 +…+b m x m + ε ფორმის წრფივი განტოლებისთვის, ჩვენ ვაშენებთ ნორმალური განტოლებათა სისტემას (იხ. ქვემოთ)

მეთოდის პრინციპის გასაგებად, განიხილეთ ორფაქტორიანი შემთხვევა. შემდეგ გვაქვს ფორმულით აღწერილი სიტუაცია

აქედან ვიღებთ:

სადაც σ არის ინდექსში ასახული შესაბამისი მახასიათებლის სხვაობა.

LSM გამოიყენება MP განტოლებისთვის სტანდარტიზირებადი მასშტაბით. ამ შემთხვევაში ვიღებთ განტოლებას:

სადაც t y , t x 1, ... t xm არის სტანდარტიზებული ცვლადები, რომლებისთვისაც საშუალო მნიშვნელობები არის 0; β i არის სტანდარტიზებული რეგრესიის კოეფიციენტები და სტანდარტული გადახრა არის 1.

გთხოვთ გაითვალისწინოთ, რომ ყველა β i ამ შემთხვევაში დაყენებულია როგორც ნორმალიზებული და ცენტრალიზებული, ამიტომ მათი ერთმანეთთან შედარება სწორად და დასაშვებად ითვლება. გარდა ამისა, ჩვეულებრივ ხდება ფაქტორების გაფილტვრა, უგულებელყოფთ მათ, ვისაც β-ის ყველაზე მცირე მნიშვნელობები აქვს.

პრობლემა ხაზოვანი რეგრესიის განტოლების გამოყენებით

დავუშვათ, არის მოცემული N პროდუქტის ფასის დინამიკის ცხრილი ბოლო 8 თვის განმავლობაში. აუცილებელია გადაწყვეტილების მიღება მისი პარტია 1850 რუბლი/ტ ფასში შეძენის მიზანშეწონილობის შესახებ.

თვის ნომერი

თვის სახელი

ნივთის ფასი N

1750 რუბლი ტონაზე

1755 რუბლი ტონაზე

1767 რუბლი ტონაზე

1760 რუბლი ტონაზე

1770 რუბლი ტონაზე

1790 რუბლი ტონაზე

1810 რუბლი ტონაზე

1840 რუბლი ტონაზე

Excel-ის ცხრილებში ამ პრობლემის გადასაჭრელად, თქვენ უნდა გამოიყენოთ ზემოთ მოყვანილი მაგალითიდან უკვე ცნობილი მონაცემთა ანალიზის ინსტრუმენტი. შემდეგი, აირჩიეთ "რეგრესია" განყოფილება და დააყენეთ პარამეტრები. უნდა გვახსოვდეს, რომ "შეყვანის Y ინტერვალის" ველში უნდა შეიყვანოთ დამოკიდებული ცვლადის მნიშვნელობების დიაპაზონი (ამ შემთხვევაში, პროდუქტის ფასი წელიწადის კონკრეტულ თვეებში), ხოლო "შეყვანა" X ინტერვალი“ - დამოუკიდებელი ცვლადისთვის (თვე ნომერი). დაადასტურეთ მოქმედება "OK" დაწკაპუნებით. ახალ ფურცელზე (თუ ასე იყო მითითებული), ვიღებთ მონაცემებს რეგრესიისთვის.

მათზე დაყრდნობით ვაშენებთ y=ax+b ფორმის წრფივ განტოლებას, სადაც a და b პარამეტრები არის მწკრივის კოეფიციენტები თვის რიცხვის სახელით და კოეფიციენტები და „Y-გადაკვეთის“ მწკრივი. ფურცელი რეგრესიული ანალიზის შედეგებით. ამრიგად, წრფივი რეგრესიის განტოლება (LE) 3 პრობლემისთვის იწერება როგორც:

პროდუქტის ფასი N = 11.714* თვის ნომერი + 1727.54.

ან ალგებრული აღნიშვნით

y = 11,714 x + 1727,54

შედეგების ანალიზი

იმის გადასაწყვეტად, არის თუ არა მიღებული წრფივი რეგრესიის განტოლება ადეკვატური, გამოიყენება მრავალჯერადი კორელაციის კოეფიციენტები (MCC) და განსაზღვრის კოეფიციენტები, ასევე ფიშერის ტესტი და სტუდენტის ტესტი. Excel-ის ცხრილში რეგრესიის შედეგებით, ისინი გამოჩნდებიან მრავლობითი R, R-კვადრატის, F-სტატისტიკის და t-სტატისტიკის სახელებით, შესაბამისად.

KMC R შესაძლებელს ხდის შეფასდეს დამოუკიდებელ და დამოკიდებულ ცვლადებს შორის ალბათური ურთიერთობის სიმჭიდროვე. მისი მაღალი ღირებულება მიუთითებს საკმაოდ ძლიერ კავშირზე ცვლადებს შორის "თვიანი რაოდენობა" და "საქონლის ფასი N რუბლებში 1 ტონაზე". თუმცა, ამ ურთიერთობის ბუნება უცნობია.

განსაზღვრის კოეფიციენტის კვადრატი R 2 (RI) არის ჯამური გაფანტვის წილის რიცხვითი მახასიათებელი და აჩვენებს ექსპერიმენტული მონაცემების რომელი ნაწილის გაფანტვას, ე.ი. დამოკიდებული ცვლადის მნიშვნელობები შეესაბამება წრფივი რეგრესიის განტოლებას. განსახილველ პრობლემაში ეს მნიშვნელობა უდრის 84,8%-ს, ანუ სტატისტიკური მონაცემები მაღალი სიზუსტით არის აღწერილი მიღებული SD-ით.

F- სტატისტიკა, რომელსაც ასევე უწოდებენ ფიშერის ტესტს, გამოიყენება ხაზოვანი ურთიერთობის მნიშვნელოვნების შესაფასებლად, მისი არსებობის ჰიპოთეზის გასაუქმებლად ან დასადასტურებლად.

(მოსწავლის კრიტერიუმი) ხელს უწყობს კოეფიციენტის მნიშვნელოვნების შეფასებას წრფივი ურთიერთობის უცნობი ან თავისუფალი წევრით. თუ t-კრიტერიუმის მნიშვნელობა > t cr, მაშინ წრფივი განტოლების თავისუფალი წევრის უმნიშვნელოობის ჰიპოთეზა უარყოფილია.

თავისუფალი წევრის განხილულ პრობლემაში, Excel-ის ინსტრუმენტების გამოყენებით, მიიღეს, რომ t = 169.20903 და p = 2.89E-12, ანუ გვაქვს ნულოვანი ალბათობა იმისა, რომ სწორი ჰიპოთეზა თავისუფალი წევრის უმნიშვნელოობის შესახებ იქნება. იყოს უარყოფილი. კოეფიციენტისთვის უცნობი t=5.79405 და p=0.001158. სხვა სიტყვებით რომ ვთქვათ, ალბათობა იმისა, რომ უცნობისთვის კოეფიციენტის უმნიშვნელოობის შესახებ სწორი ჰიპოთეზა უარყოფილი იქნება არის 0,12%.

ამრიგად, შეიძლება ითქვას, რომ მიღებული წრფივი რეგრესიის განტოლება ადეკვატურია.

აქციების ბლოკის ყიდვის მიზანშეწონილობის პრობლემა

Excel-ში მრავალჯერადი რეგრესია ხორციელდება იგივე მონაცემთა ანალიზის ხელსაწყოს გამოყენებით. განიხილეთ კონკრეტული გამოყენებული პრობლემა.

NNN-ის ხელმძღვანელობამ უნდა მიიღოს გადაწყვეტილება MMM SA-ში 20%-იანი წილის შეძენის მიზანშეწონილობის შესახებ. პაკეტის (JV) ღირებულება 70 მილიონი აშშ დოლარია. NNN-ის სპეციალისტებმა შეაგროვეს მონაცემები მსგავსი ტრანზაქციების შესახებ. გადაწყდა აქციების ბლოკის ღირებულების შეფასება ისეთი პარამეტრების მიხედვით, გამოხატული მილიონ აშშ დოლარებში, როგორიცაა:

  • გადასახდელები (VK);
  • წლიური ბრუნვა (VO);
  • დებიტორული ანგარიშები (VD);
  • ძირითადი საშუალებების ღირებულება (SOF).

გარდა ამისა, გამოიყენება საწარმოს სახელფასო დავალიანების პარამეტრი (V3 P) ათასობით აშშ დოლარში.

გამოსავალი Excel-ის ცხრილის გამოყენებით

უპირველეს ყოვლისა, თქვენ უნდა შექმნათ საწყისი მონაცემების ცხრილი. ეს ასე გამოიყურება:

  • დარეკეთ "მონაცემთა ანალიზის" ფანჯარაში;
  • აირჩიეთ განყოფილება "რეგრესია";
  • ველში "შეყვანის ინტერვალი Y" შეიყვანეთ დამოკიდებული ცვლადების მნიშვნელობების დიაპაზონი G სვეტიდან;
  • დააწკაპუნეთ ხატულაზე წითელი ისრით "შეყვანის ინტერვალი X" ფანჯრის მარჯვნივ და აირჩიეთ ყველა მნიშვნელობის დიაპაზონი სვეტებიდან B, C, D, F ფურცელზე.

აირჩიეთ "ახალი სამუშაო ფურცელი" და დააჭირეთ "OK".

მიიღეთ რეგრესიული ანალიზი მოცემული პრობლემისთვის.

შედეგების და დასკვნების შემოწმება

„ჩვენ ვაგროვებთ“ Excel-ის ცხრილების ფურცელზე ზემოთ წარმოდგენილი მომრგვალებული მონაცემებიდან, რეგრესიის განტოლება:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

უფრო ნაცნობი მათემატიკური ფორმით, ის შეიძლება დაიწეროს როგორც:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

სს „მმმ“-ის მონაცემები წარმოდგენილია ცხრილში:

მათი ჩანაცვლებით რეგრესიის განტოლებაში, ისინი იღებენ ციფრს 64,72 მილიონი აშშ დოლარი. ეს ნიშნავს, რომ სს MMM-ის აქციები არ უნდა იყოს შეძენილი, რადგან მათი 70 მილიონი აშშ დოლარის ღირებულება საკმაოდ გადაჭარბებულია.

როგორც ხედავთ, Excel-ის ცხრილების და რეგრესიის განტოლების გამოყენებამ შესაძლებელი გახადა ინფორმირებული გადაწყვეტილების მიღება ძალიან კონკრეტული ტრანზაქციის მიზანშეწონილობის შესახებ.

ახლა თქვენ იცით, რა არის რეგრესია. Excel-ში ზემოთ განხილული მაგალითები დაგეხმარებათ გადაჭრათ პრაქტიკული პრობლემები ეკონომეტრიის სფეროდან.