ემპირიული რეგრესიის კოეფიციენტები. ხაზოვანი რეგრესიის საფუძვლები

ფაქტორსა და შედეგებს შორის კორელაციის არსებობისას, ექიმებს ხშირად უწევთ იმის განსაზღვრა, თუ რა ოდენობით შეიძლება შეიცვალოს ერთი ნიშნის მნიშვნელობა, როდესაც მეორე იცვლება საზომი ერთეულით, რომელიც ზოგადად მიღებული ან დადგენილია თავად მკვლევრის მიერ.

მაგალითად, როგორ შეიცვლება I კლასის მოსწავლეების (გოგონებისა თუ ბიჭების) სხეულის წონა 1 სმ-ით გაზრდის შემთხვევაში, ამ მიზნით გამოიყენება რეგრესიული ანალიზის მეთოდი.

ყველაზე ხშირად, რეგრესიული ანალიზის მეთოდი გამოიყენება ფიზიკური განვითარების ნორმატიული სკალებისა და სტანდარტების შესამუშავებლად.

  1. რეგრესიის განმარტება. რეგრესია არის ფუნქცია, რომელიც საშუალებას იძლევა, ერთი ატრიბუტის საშუალო მნიშვნელობიდან გამომდინარე, განსაზღვროს მეორე ატრიბუტის საშუალო მნიშვნელობა, რომელიც კორელაციაშია პირველთან.

    ამ მიზნით გამოიყენება რეგრესიის კოეფიციენტი და რიგი სხვა პარამეტრები. მაგალითად, შეგიძლიათ გამოთვალოთ გაციების რაოდენობა საშუალოდ შემოდგომა-ზამთრის პერიოდში ჰაერის საშუალო თვიური ტემპერატურის გარკვეულ მნიშვნელობებზე.

  2. რეგრესიის კოეფიციენტის განმარტება. რეგრესიის კოეფიციენტი არის აბსოლუტური მნიშვნელობა, რომლითაც ერთი ატრიბუტის მნიშვნელობა იცვლება საშუალოდ, როდესაც მასთან დაკავშირებული სხვა ატრიბუტი იცვლება განსაზღვრული საზომი ერთეულით.
  3. რეგრესიის კოეფიციენტის ფორმულა. R y / x \u003d r xy x (σ y / σ x)
    სადაც R y / x - რეგრესიის კოეფიციენტი;
    r xy - კორელაციის კოეფიციენტი x და y მახასიათებლებს შორის;
    (σ y და σ x) - x და y მახასიათებლების სტანდარტული გადახრები.

    ჩვენს მაგალითში;
    σ x = 4,6 (ჰაერის ტემპერატურის სტანდარტული გადახრა შემოდგომა-ზამთრის პერიოდში;
    σ y = 8,65 (ინფექციური გაციების რაოდენობის სტანდარტული გადახრა).
    ამრიგად, R y/x არის რეგრესიის კოეფიციენტი.
    R y / x \u003d -0.96 x (4.6 / 8.65) \u003d 1.8, ე.ი. ჰაერის საშუალო თვიური ტემპერატურის (x) 1 გრადუსით შემცირებით, შემოდგომა-ზამთრის პერიოდში ინფექციური გაციების საშუალო რაოდენობა (y) 1,8 შემთხვევით შეიცვლება.

  4. რეგრესიის განტოლება. y \u003d M y + R y / x (x - M x)
    სადაც y არის ატრიბუტის საშუალო მნიშვნელობა, რომელიც უნდა განისაზღვროს, როდესაც იცვლება სხვა ატრიბუტის (x) საშუალო მნიშვნელობა;
    x - სხვა მახასიათებლის ცნობილი საშუალო მნიშვნელობა;
    R y/x - რეგრესიის კოეფიციენტი;
    M x, M y - x და y მახასიათებლების ცნობილი საშუალო მნიშვნელობები.

    მაგალითად, ინფექციური გაციების საშუალო რაოდენობა (y) შეიძლება განისაზღვროს სპეციალური გაზომვების გარეშე ჰაერის საშუალო თვიური ტემპერატურის ნებისმიერ საშუალო მნიშვნელობაზე (x). ასე რომ, თუ x \u003d - 9 °, R y / x \u003d 1.8 დაავადება, M x \u003d -7 °, M y \u003d 20 დაავადება, მაშინ y \u003d 20 + 1.8 x (9-7) \u003d 20 + 3 .6 = 23.6 დაავადება.
    ეს განტოლება გამოიყენება ორ მახასიათებელს (x და y) შორის სწორხაზოვანი ურთიერთობის შემთხვევაში.

  5. რეგრესიის განტოლების დანიშნულება. რეგრესიის განტოლება გამოიყენება რეგრესიის ხაზის გამოსათვლელად. ეს უკანასკნელი საშუალებას იძლევა, სპეციალური გაზომვების გარეშე, განისაზღვროს ერთი ატრიბუტის ნებისმიერი საშუალო მნიშვნელობა (y), თუ იცვლება სხვა ატრიბუტის მნიშვნელობა (x). ამ მონაცემების საფუძველზე აგებულია გრაფიკი - რეგრესიის ხაზი, რომელიც შეიძლება გამოყენებულ იქნას გაციების საშუალო რაოდენობის დასადგენად საშუალო თვიური ტემპერატურის ნებისმიერ მნიშვნელობაზე გაციების რაოდენობის გამოთვლილ მნიშვნელობებს შორის დიაპაზონში.
  6. რეგრესიის სიგმა (ფორმულა).
    სადაც σ Ru/x - რეგრესიის სიგმა (სტანდარტული გადახრა);
    σ y არის y მახასიათებლის სტანდარტული გადახრა;
    r xy - კორელაციის კოეფიციენტი x და y მახასიათებლებს შორის.

    ასე რომ, თუ σ y არის გაციების რაოდენობის სტანდარტული გადახრა = 8,65; r xy - კორელაციის კოეფიციენტი გაციების რაოდენობას (y) და ჰაერის საშუალო თვიურ ტემპერატურას შორის შემოდგომა-ზამთრის პერიოდში (x) არის - 0.96, მაშინ.

  7. სიგმა რეგრესიის მიზანი. იძლევა მიღებული მახასიათებლის (y) მრავალფეროვნების საზომის მახასიათებელს.

    მაგალითად, იგი ახასიათებს გაციების რაოდენობის მრავალფეროვნებას ჰაერის საშუალო თვიური ტემპერატურის გარკვეულ მნიშვნელობაზე შემოდგომა-ზამთრის პერიოდში. ასე რომ, გაციების საშუალო რაოდენობა ჰაერის ტემპერატურაზე x 1 \u003d -6 ° შეიძლება იყოს 15,78 დაავადებიდან 20,62 დაავადებამდე.
    x 2 = -9°-ზე გაციების საშუალო რაოდენობა შეიძლება მერყეობდეს 21,18 დაავადებიდან 26,02 დაავადებამდე და ა.შ.

    რეგრესიის სიგმა გამოიყენება რეგრესიის სკალის აგებაში, რომელიც ასახავს ეფექტური ატრიბუტის მნიშვნელობების გადახრას მისი საშუალო მნიშვნელობიდან, რომელიც გამოსახულია რეგრესიის ხაზზე.

  8. რეგრესიის სკალის გამოსათვლელად და გამოსათვლელად საჭირო მონაცემები
    • რეგრესიის კოეფიციენტი - Ry/x;
    • რეგრესიის განტოლება - y \u003d M y + R y / x (x-M x);
    • რეგრესიული სიგმა - σ Rx/y
  9. გამოთვლების თანმიმდევრობა და რეგრესიის სკალის გრაფიკული წარმოდგენა.
    • განსაზღვრეთ რეგრესიის კოეფიციენტი ფორმულით (იხ. პუნქტი 3). მაგალითად, უნდა განისაზღვროს, რამდენად შეიცვლება სხეულის წონა საშუალოდ (გარკვეულ ასაკში სქესიდან გამომდინარე), თუ საშუალო სიმაღლე იცვლება 1 სმ-ით.
    • რეგრესიის განტოლების ფორმულის მიხედვით (იხ. პუნქტი 4), განსაზღვრეთ რა იქნება საშუალო, მაგალითად, სხეულის წონა (y, y 2, y 3 ...) * გარკვეული ზრდის მნიშვნელობისთვის (x, x 2, x 3 ...).
      ________________
      * "y"-ის მნიშვნელობა უნდა გამოითვალოს "x"-ის მინიმუმ სამი ცნობილი მნიშვნელობისთვის.

      ამავდროულად, ცნობილია სხეულის წონისა და სიმაღლის საშუალო მნიშვნელობები (M x და M y) გარკვეული ასაკისა და სქესისთვის.

    • გამოთვალეთ რეგრესიის სიგმა, იცოდეთ σ y და r xy შესაბამისი მნიშვნელობები და ჩაანაცვლეთ მათი მნიშვნელობები ფორმულაში (იხ. პუნქტი 6).
    • ცნობილი მნიშვნელობების საფუძველზე x 1, x 2, x 3 და მათი შესაბამისი საშუალო მნიშვნელობები y 1, y 2 y 3, ასევე ყველაზე პატარა (y - σ ru / x) და უდიდესი (y + σ ru / x) მნიშვნელობები (y) აყალიბებს რეგრესიის მასშტაბს.

      რეგრესიის სკალის გრაფიკული გამოსახულების მიზნით, გრაფიკზე პირველად აღინიშნება მნიშვნელობები x, x 2, x 3 (y-ღერძი), ე.ი. აგებულია რეგრესიის ხაზი, მაგალითად, სხეულის წონის (y) დამოკიდებულება სიმაღლეზე (x).

      შემდეგ, y 1 , y 2 , y 3 შესაბამის წერტილებში აღინიშნება რეგრესიის სიგმის რიცხვითი მნიშვნელობები, ე.ი. გრაფიკზე იპოვეთ y 1 , y 2 , y 3 უმცირესი და უდიდესი მნიშვნელობები.

  10. რეგრესიის სკალის პრაქტიკული გამოყენება. მუშავდება ნორმატიული სასწორები და სტანდარტები, განსაკუთრებით ფიზიკური განვითარებისთვის. სტანდარტული სკალის მიხედვით შესაძლებელია ბავშვების განვითარების ინდივიდუალური შეფასება. ამავდროულად, ფიზიკური განვითარება ფასდება, როგორც ჰარმონიული, თუ, მაგალითად, გარკვეულ სიმაღლეზე, ბავშვის სხეულის წონა არის ერთი სიგმის რეგრესიის ფარგლებში სხეულის წონის საშუალო გამოთვლილ ერთეულზე - (y) მოცემულ სიმაღლეზე (x) (y ± 1 σ Ry / x).

    ფიზიკური განვითარება განიხილება არაჰარმონიულად სხეულის წონის თვალსაზრისით, თუ ბავშვის სხეულის წონა გარკვეულ სიმაღლეზე არის მეორე რეგრესიული სიგმის ფარგლებში: (y ± 2 σ Ry/x)

    ფიზიკური განვითარება მკვეთრად არაჰარმონიული იქნება როგორც სხეულის ჭარბი, ისე არასაკმარისი წონის გამო, თუ სხეულის წონა გარკვეული სიმაღლისთვის არის რეგრესიის მესამე სიგმის ფარგლებში (y ± 3 σ Ry/x).

5 წლის ბიჭების ფიზიკური განვითარების სტატისტიკური კვლევის შედეგების მიხედვით, ცნობილია, რომ მათი საშუალო სიმაღლე (x) არის 109 სმ, ხოლო სხეულის საშუალო წონა (y) 19 კგ. სიმაღლესა და სხეულის წონას შორის კორელაციის კოეფიციენტი არის +0,9, სტანდარტული გადახრები მოცემულია ცხრილში.

საჭირო:

  • რეგრესიის კოეფიციენტის გამოთვლა;
  • რეგრესიის განტოლების გამოყენებით დაადგინეთ, როგორი იქნება 5 წლის ბიჭების სხეულის მოსალოდნელი წონა სიმაღლით x1 = 100 სმ, x2 = 110 სმ, x3 = 120 სმ;
  • რეგრესიის სიგმის გამოთვლა, რეგრესიის სკალის აგება, მისი ამოხსნის შედეგების გრაფიკულად წარმოდგენა;
  • გამოიტანე შესაბამისი დასკვნები.

პრობლემის მდგომარეობა და მისი გადაჭრის შედეგები წარმოდგენილია შემაჯამებელ ცხრილში.

ცხრილი 1

პრობლემის პირობები პრობლემის გადაჭრის შედეგები
რეგრესიის განტოლება სიგმა რეგრესია რეგრესიის სკალა (სხეულის მოსალოდნელი წონა (კგ))
σ r xy R y/x X ზე σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
სიმაღლე (x) 109 სმ ± 4,4 სმ +0,9 0,16 100 სმ 17,56 კგ ± 0,35 კგ 17,21 კგ 17,91 კგ
სხეულის წონა (y) 19 კგ ± 0,8 კგ 110 სმ 19,16 კგ 18,81 კგ 19,51 კგ
120 სმ 20,76 კგ 20,41 კგ 21,11 კგ

გადაწყვეტილება.

დასკვნა.ამრიგად, რეგრესიის სკალა სხეულის წონის გამოთვლილ მნიშვნელობებში საშუალებას გაძლევთ განსაზღვროთ იგი ზრდის ნებისმიერი სხვა მნიშვნელობისთვის ან შეაფასოთ ბავშვის ინდივიდუალური განვითარება. ამისათვის აღადგინეთ პერპენდიკულარული რეგრესიის ხაზთან.

  1. ვლასოვი V.V. ეპიდემიოლოგია. - M.: GEOTAR-MED, 2004. - 464გვ.
  2. ლისიცინი Yu.P. საზოგადოებრივი ჯანდაცვა და ჯანდაცვა. სახელმძღვანელო უმაღლესი სკოლებისთვის. - M.: GEOTAR-MED, 2007. - 512გვ.
  3. მედიკ ვ.ა., იურიევი ვ.კ. ლექციების კურსი საზოგადოებრივი ჯანმრთელობისა და ჯანდაცვის შესახებ: ნაწილი 1. საზოგადოებრივი ჯანმრთელობა. - მ.: მედიცინა, 2003. - 368გვ.
  4. მინიაევი V.A., ვიშნიაკოვი N.I. სოციალური მედიცინისა და ჯანდაცვის ორგანიზაცია (სახელმძღვანელო 2 ტომად). - პეტერბურგი, 1998. -528გვ.
  5. კუჩერენკო ვ.ზ., აგარკოვი ნ.მ. და სხვა სოციალური ჰიგიენა და ჯანდაცვის ორგანიზაცია (სამეურვეო პროგრამა) - მოსკოვი, 2000. - 432 გვ.
  6. ს.გლანცი. სამედიცინო ბიოლოგიური სტატისტიკა. პერ ინგლისურიდან. - მ., პრაქტიკა, 1998. - 459გვ.

კორელაციური დამოკიდებულებების შესწავლა ემყარება ცვლადებს შორის ისეთი ურთიერთობების შესწავლას, რომლებშიც ერთი ცვლადის მნიშვნელობები შეიძლება იქნას მიღებული, როგორც დამოკიდებული ცვლადი, "საშუალოდ" იცვლება იმისდა მიხედვით, თუ რა მნიშვნელობებს იღებს სხვა ცვლადი. განიხილება როგორც მიზეზი დამოკიდებული ცვლადთან მიმართებაში. ამ მიზეზის მოქმედება ხორციელდება სხვადასხვა ფაქტორების კომპლექსური ურთიერთქმედების პირობებში, რის შედეგადაც შაბლონის გამოვლინება შანსების გავლენით იფარება. მიღებული ატრიბუტის საშუალო მნიშვნელობების გამოთვლა ატრიბუტის ფაქტორის მნიშვნელობების მოცემულ ჯგუფში, შანსების გავლენა ნაწილობრივ აღმოიფხვრება. თეორიული საკომუნიკაციო ხაზის პარამეტრების გაანგარიშებით, ისინი შემდგომში აღმოიფხვრება და მიიღება ცალსახა (ფორმაში) ცვლილება "y" ფაქტორზე "x" ცვლილებით.

სტოქასტური ურთიერთობების შესასწავლად ფართოდ გამოიყენება ორი პარალელური სერიის შედარების მეთოდი, ანალიტიკური დაჯგუფების მეთოდი, კორელაციური ანალიზი, რეგრესიული ანალიზი და ზოგიერთი არაპარამეტრული მეთოდი. ზოგადად, ურთიერთობების შესწავლის სფეროში სტატისტიკის ამოცანაა არა მხოლოდ მათი არსებობის, მიმართულებისა და კავშირის სიძლიერის რაოდენობრივი განსაზღვრა, არამედ ფაქტორების მახასიათებლების გავლენის ფორმის (ანალიტიკური გამოხატვის) დადგენა შედეგზე. მის გადასაჭრელად გამოიყენება კორელაციისა და რეგრესიული ანალიზის მეთოდები.

თავი 1. რეგრესიის განტოლება: თეორიული საფუძვლები

1.1. რეგრესიის განტოლება: ფუნქციების არსი და ტიპები

რეგრესია (ლათ. regressio - საპირისპირო მოძრაობა, განვითარების უფრო რთული ფორმებიდან ნაკლებად რთულზე გადასვლა) არის ალბათობის თეორიისა და მათემატიკური სტატისტიკის ერთ-ერთი ძირითადი ცნება, რომელიც გამოხატავს შემთხვევითი ცვლადის საშუალო მნიშვნელობის დამოკიდებულებას მნიშვნელობებზე. სხვა შემთხვევითი ცვლადის ან რამდენიმე შემთხვევითი ცვლადის. ეს კონცეფცია შემოიღო ფრენსის გალტონმა 1886 წელს.

თეორიული რეგრესიის ხაზი არის ხაზი, რომლის გარშემოც დაჯგუფებულია კორელაციური ველის წერტილები და რომელიც მიუთითებს ურთიერთობის მთავარ მიმართულებაზე, მთავარ ტენდენციაზე.

თეორიული რეგრესიის ხაზი უნდა ასახავდეს "y" ეფექტური ატრიბუტის საშუალო მნიშვნელობების ცვლილებას, რადგან ფაქტორული ატრიბუტის "x" მნიშვნელობები იცვლება, იმ პირობით, რომ ყველა სხვა - შემთხვევითი "x" ფაქტორთან მიმართებაში - მიზეზები ორმხრივად გაუქმებულია. მაშასადამე, ეს ხაზი ისე უნდა გაივლოს, რომ კორელაციური ველის წერტილების გადახრების ჯამი თეორიული რეგრესიის ხაზის შესაბამისი წერტილებიდან ნულის ტოლია, ხოლო ამ გადახრების კვადრატების ჯამი მინიმალური. ღირებულება.

y=f(x) - რეგრესიის განტოლება არის ფორმულა ცვლადებს შორის სტატისტიკური ურთიერთობისთვის.

სიბრტყეზე (ორი განზომილების სივრცეში) სწორი ხაზი მოცემულია y=a+b*x განტოლებით. უფრო დეტალურად: y ცვლადი შეიძლება გამოისახოს მუდმივის (a) და ფერდობის (b) მნიშვნელობით გამრავლებული x ცვლადზე. მუდმივას ზოგჯერ ასევე უწოდებენ კვეთას, ხოლო დახრილობას ასევე უწოდებენ რეგრესიას ან B-ფაქტორს.

რეგრესიული ანალიზის მნიშვნელოვანი ნაბიჯი არის ფუნქციის ტიპის განსაზღვრა, რომელიც ახასიათებს მახასიათებლებს შორის ურთიერთობას. მთავარი საფუძველი უნდა იყოს შესწავლილი დამოკიდებულების ბუნების, მისი მექანიზმის შინაარსიანი ანალიზი. ამავდროულად, ყოველთვის არ არის შესაძლებელი თეორიულად დაასაბუთოს თითოეული ფაქტორის კავშირის ფორმა შესრულების ინდიკატორთან, რადგან შესწავლილი სოციალურ-ეკონომიკური ფენომენები ძალიან რთულია და ფაქტორები, რომლებიც ქმნიან მათ დონეს, მჭიდროდ არის გადაჯაჭვული და ურთიერთქმედებენ. ერთად. ამიტომ, თეორიული ანალიზის საფუძველზე, ხშირად შეიძლება გაკეთდეს ყველაზე ზოგადი დასკვნები ურთიერთობის მიმართულებასთან დაკავშირებით, შესწავლილ პოპულაციაში მისი ცვლილების შესაძლებლობის, წრფივი დამოკიდებულების გამოყენების კანონიერების, უკიდურესი მნიშვნელობების შესაძლო არსებობის შესახებ. და ა.შ. ასეთი დაშვებების აუცილებელი დამატება უნდა იყოს კონკრეტული ფაქტობრივი მონაცემების ანალიზი.

ბმულის ხაზის სავარაუდო იდეა შეიძლება მიღებულ იქნეს ემპირიული რეგრესიის ხაზის საფუძველზე. ემპირიული რეგრესიის ხაზი, როგორც წესი, არის გატეხილი ხაზი, აქვს მეტ-ნაკლებად მნიშვნელოვანი წყვეტა. ეს აიხსნება იმით, რომ სხვა გაუთვალისწინებელი ფაქტორების გავლენა, რომლებიც გავლენას ახდენენ ეფექტური ატრიბუტის ცვალებადობაზე, სრულად არ არის კომპენსირებული საშუალოდ, დაკვირვებების არასაკმარისად დიდი რაოდენობის გამო, შესაბამისად, კომუნიკაციის ემპირიული ხაზის გამოყენება შესაძლებელია. შეარჩიეთ და დაასაბუთეთ თეორიული მრუდის ტიპი, იმ პირობით, რომ დაკვირვებების რაოდენობა საკმარისად დიდია.

კონკრეტული კვლევების ერთ-ერთი ელემენტია სხვადასხვა დამოკიდებულების განტოლებების შედარება, რომელიც ეფუძნება ხარისხის კრიტერიუმების გამოყენებას ემპირიული მონაცემების დაახლოების მიზნით კონკურენტი მოდელებით.ეკონომიკური ინდიკატორების მიმართებების დასახასიათებლად ყველაზე ხშირად გამოიყენება შემდეგი ტიპის ფუნქციები:

1. ხაზოვანი:

2. ჰიპერბოლური:

3. დემონსტრაციული:

4. პარაბოლური:

5. სიმძლავრე:

6. ლოგარითმული:

7. ლოგისტიკა:

მოდელი ერთი ახსნითი და ერთი ახსნითი ცვლადით არის დაწყვილებული რეგრესიის მოდელი. თუ გამოიყენება ორი ან მეტი განმარტებითი (ფაქტორული) ცვლადი, მაშინ საუბარია მრავალჯერადი რეგრესიის მოდელის გამოყენებაზე. ამ შემთხვევაში, ამ ცვლადების დამაკავშირებელი ხაზოვანი, ექსპონენციალური, ჰიპერბოლური, ექსპონენციალური და სხვა ტიპის ფუნქციები შეიძლება აირჩეს ვარიანტებად.

a და b პარამეტრების საპოვნელად, რეგრესიის განტოლებები იყენებენ უმცირეს კვადრატების მეთოდს. უმცირესი კვადრატების მეთოდის გამოყენებისას ისეთი ფუნქციის საპოვნელად, რომელიც საუკეთესოდ ერგება ემპირიულ მონაცემებს, ითვლება, რომ თეორიული რეგრესიის ხაზიდან ემპირიული წერტილების კვადრატული გადახრები უნდა იყოს მინიმალური მნიშვნელობა.

უმცირესი კვადრატების მეთოდის კრიტერიუმი შეიძლება დაიწეროს შემდეგნაირად:

ამიტომ, უმცირესი კვადრატების მეთოდის გამოყენება სწორი ხაზის a და b პარამეტრების დასადგენად, რომელიც საუკეთესოდ ერგება ემპირიულ მონაცემებს, დაყვანილია უკიდურეს პრობლემამდე.

რაც შეეხება რეიტინგებს, შეიძლება გაკეთდეს შემდეგი დასკვნები:

1. უმცირესი კვადრატების შეფასებები არის შერჩევის ფუნქციები, რაც აადვილებს მათ გამოთვლას.

2. უმცირესი კვადრატების შეფასება არის თეორიული რეგრესიის კოეფიციენტების წერტილოვანი შეფასება.

3. რეგრესიის ემპირიული ხაზი აუცილებლად გადის x, y წერტილში.

4. ემპირიული რეგრესიის განტოლება აგებულია ისე, რომ გადახრების ჯამი

.

ემპირიული და თეორიული საკომუნიკაციო ხაზის გრაფიკული გამოსახულება ნაჩვენებია ნახაზ 1-ში.


პარამეტრი b განტოლებაში არის რეგრესიის კოეფიციენტი. თუ არსებობს პირდაპირი კორელაცია, რეგრესიის კოეფიციენტს აქვს დადებითი მნიშვნელობა, ხოლო შებრუნებული ურთიერთობის შემთხვევაში, რეგრესიის კოეფიციენტი უარყოფითია. რეგრესიის კოეფიციენტი გვიჩვენებს, რამდენად იცვლება ეფექტური ატრიბუტის „y“ მნიშვნელობა, როდესაც ფაქტორული ატრიბუტი „x“ იცვლება ერთით. გეომეტრიულად, რეგრესიის კოეფიციენტი არის სწორი ხაზის დახრილობა, რომელიც ასახავს კორელაციის განტოლებას x-ღერძთან მიმართებაში (განტოლებისთვის

).

მრავალვარიანტული სტატისტიკური ანალიზის ფილიალს, რომელიც ეძღვნება დამოკიდებულებების აღდგენას, ეწოდება რეგრესიული ანალიზი. ტერმინი „წრფივი რეგრესიული ანალიზი“ გამოიყენება მაშინ, როდესაც განსახილველი ფუნქცია წრფივად არის დამოკიდებული შეფასებულ პარამეტრებზე (დამოუკიდებელ ცვლადებზე დამოკიდებულება შეიძლება იყოს თვითნებური). შეფასების თეორია

უცნობი პარამეტრები კარგად არის განვითარებული ზუსტად წრფივი რეგრესიული ანალიზის შემთხვევაში. თუ არ არის წრფივობა და შეუძლებელია წრფივ პრობლემაზე გადასვლა, მაშინ, როგორც წესი, შეფასებებისგან კარგ თვისებებს არ უნდა ველოდოთ. მოდით ვაჩვენოთ მიდგომები სხვადასხვა ტიპის დამოკიდებულების შემთხვევაში. თუ დამოკიდებულებას აქვს მრავალწევრის (პოლინომის) ფორმა. თუ კორელაციის გამოთვლა ახასიათებს ორ ცვლადს შორის ურთიერთობის სიძლიერეს, მაშინ რეგრესიული ანალიზი ემსახურება ამ ურთიერთობის ტიპის განსაზღვრას და შესაძლებელს ხდის ერთი (დამოკიდებული) ცვლადის მნიშვნელობის პროგნოზირებას მეორე (დამოუკიდებელი) ცვლადის მნიშვნელობის საფუძველზე. ხაზოვანი რეგრესიის ანალიზის შესასრულებლად დამოკიდებულ ცვლადს უნდა ჰქონდეს ინტერვალის (ან რიგითი) მასშტაბი. ამავდროულად, ბინარული ლოგისტიკური რეგრესია ავლენს დიქოტომიური ცვლადის დამოკიდებულებას რომელიმე სხვა ცვლადზე, რომელიც დაკავშირებულია ნებისმიერ მასშტაბთან. იგივე განაცხადის პირობები მოქმედებს პრობიტის ანალიზისთვის. თუ დამოკიდებული ცვლადი არის კატეგორიული, მაგრამ აქვს ორზე მეტი კატეგორია, მაშინ მულტინომიალური ლოგისტიკური რეგრესია აქ იქნება შესაბამისი მეთოდი და შეიძლება გაანალიზდეს არაწრფივი ურთიერთობები ცვლადებს შორის, რომლებიც მიეკუთვნება ინტერვალის სკალას. ამისთვის განკუთვნილია არაწრფივი რეგრესიის მეთოდი.

რეგრესიის კოეფიციენტი

- ინგლისურიკოეფიციენტი, რეგრესია; გერმანულირეგრესიული ეფექტიანი. დამოკიდებულ y-სა და დამოუკიდებელ x ცვლადს შორის ურთიერთობის ერთ-ერთი მახასიათებელი. კ.რ. გვიჩვენებს რამდენი ერთეულით იზრდება y-ით მიღებული მნიშვნელობა, თუ x ცვლადი იცვლება მისი ცვლილების ერთი ერთეულით. გეომეტრიულად კ.რ. არის y სწორი ხაზის დახრილობა.

ანტინაზი. სოციოლოგიის ენციკლოპედია, 2009

ნახეთ, რა არის „რეგრესიის კოეფიციენტი“ სხვა ლექსიკონებში:

    რეგრესიის კოეფიციენტი- - [ლ.გ. სუმენკო. საინფორმაციო ტექნოლოგიების ინგლისური რუსული ლექსიკონი. M .: GP TsNIIS, 2003.] თემები საინფორმაციო ტექნოლოგიები ზოგადად EN რეგრესიის კოეფიციენტი ... ტექნიკური მთარგმნელის სახელმძღვანელო

    რეგრესიის კოეფიციენტი- 35. რეგრესიის კოეფიციენტი რეგრესიული ანალიზის მოდელის პარამეტრი წყარო: GOST 24026 80: კვლევის ტესტები. ექსპერიმენტის დაგეგმვა. ტერმინები და განმარტებები…

    რეგრესიის კოეფიციენტი- დამოუკიდებელი ცვლადის კოეფიციენტი რეგრესიის განტოლებაში ... სოციოლოგიური სტატისტიკის ლექსიკონი

    რეგრესიის კოეფიციენტი- ინგლისური. კოეფიციენტი, რეგრესია; გერმანული რეგრესიული ეფექტიანი. დამოკიდებულ y-სა და დამოუკიდებელ x ცვლადს შორის ურთიერთობის ერთ-ერთი მახასიათებელი. კ.რ. გვიჩვენებს რამდენი ერთეულით იზრდება y-ით მიღებული მნიშვნელობა, თუ x ცვლადი იცვლება ... ... სოციოლოგიის განმარტებითი ლექსიკონი

    ნიმუშის რეგრესიის კოეფიციენტი- 2.44. ნიმუშის რეგრესიის კოეფიციენტი ცვლადის კოეფიციენტი რეგრესიის მრუდში ან ზედაპირის განტოლებაში წყარო: GOST R 50779.10 2000: სტატისტიკური მეთოდები. სტატისტიკის ალბათობა და საფუძვლები. ტერმინები და განმარტებები… ნორმატიული და ტექნიკური დოკუმენტაციის ტერმინთა ლექსიკონი-საცნობარო წიგნი

    ნაწილობრივი რეგრესიის კოეფიციენტი- სტატისტიკური საზომი, რომელიც მიუთითებს დამოუკიდებელი ცვლადის გავლენის ხარისხზე დამოკიდებულზე იმ სიტუაციაში, როდესაც მოდელის ყველა სხვა ცვლადის ურთიერთგავლენა მკვლევარის კონტროლის ქვეშაა... სოციოლოგიური ლექსიკონი სოციუმი

    რეგრესიები, წონა- რეგრესიის კოეფიციენტის ცნების სინონიმი ... ფსიქოლოგიის განმარტებითი ლექსიკონი

    მემკვიდრეობითობის კოეფიციენტი- გენეტიკური ცვალებადობის ფარდობითი წილის მაჩვენებელი თვისების საერთო ფენოტიპურ ცვალებადობაში. ეკონომიკურად სასარგებლო თვისებების მემკვიდრეობითობის შეფასების ყველაზე გავრცელებული მეთოდებია: სადაც h2 არის მემკვიდრეობის კოეფიციენტი; რ შიდაკლასული…… ტერმინები და განმარტებები, რომლებიც გამოიყენება მეურნეობის ცხოველების მოშენების, გენეტიკასა და რეპროდუქციაში

    - (R კვადრატი) არის დამოკიდებული ცვლადის ვარიაციის პროპორცია, რომელიც აიხსნება განსახილველი დამოკიდებულების მოდელით, ანუ ახსნითი ცვლადებით. უფრო ზუსტად, ეს არის ერთი მინუს აუხსნელი დისპერსიის პროპორცია (მოდელის შემთხვევითი შეცდომის ვარიაცია, ან პირობითი ... ... ვიკიპედია

    დამოუკიდებელი ცვლადის კოეფიციენტი რეგრესიის განტოლებაში. ასე, მაგალითად, წრფივი რეგრესიის განტოლებაში, რომელიც აკავშირებს Y და X შემთხვევით ცვლადებს, R. k. b0 და b1 ტოლია: სადაც r არის X და Y-ის კორელაციის კოეფიციენტი, . შეფასებების გაანგარიშება რ.კ. მათემატიკური ენციკლოპედია

წიგნები

  • შესავალი ეკონომიკაში (CDpc), იანოვსკი ლეონიდ პეტროვიჩი, ბუხოვეცი ალექსეი გეორგიევიჩი. მოცემულია ეკონომეტრიის საფუძვლები და ერთგანზომილებიანი დროის სერიების სტატისტიკური ანალიზი. დიდი ყურადღება ეთმობა კლასიკურ წყვილსა და მრავალჯერადი რეგრესიას, კლასიკურ და განზოგადებულ მეთოდებს…
  • სიჩქარის კითხვა. ეფექტური სიმულატორი (CDpc), . პროგრამა მიმართულია იმ მომხმარებლებისთვის, რომლებსაც სურთ უმოკლეს დროში დაეუფლონ სიჩქარის კითხვის ტექნიკას. კურსი აგებულია „თეორია – პრაქტიკის“ პრინციპზე. თეორიული მასალა და პრაქტიკული...

წინა შენიშვნებში ფოკუსირება ხშირად კეთდებოდა ერთ რიცხვობრივ ცვლადზე, როგორიცაა ერთობლივი სახსრების დაბრუნება, ვებ გვერდის ჩატვირთვის დრო ან გამაგრილებელი სასმელის მოხმარება. ამ და შემდეგ შენიშვნებში განვიხილავთ მეთოდებს რიცხვითი ცვლადის მნიშვნელობების პროგნოზირებისთვის, რაც დამოკიდებულია ერთი ან რამდენიმე სხვა რიცხვითი ცვლადის მნიშვნელობებზე.

მასალა ილუსტრირებული იქნება მაგალითით. ტანსაცმლის მაღაზიაში გაყიდვების მოცულობის პროგნოზირება. Sunflowers-ის ფასდაკლების ტანსაცმლის მაღაზიების ქსელი 25 წელია მუდმივად ფართოვდება. თუმცა კომპანიას ამჟამად არ აქვს სისტემატური მიდგომა ახალი მაღაზიების არჩევის მიმართ. ადგილმდებარეობა, სადაც კომპანია აპირებს ახალი მაღაზიის გახსნას, განისაზღვრება სუბიექტური მოსაზრებებიდან გამომდინარე. შერჩევის კრიტერიუმია ქირავნობის ხელსაყრელი პირობები ან მენეჯერის იდეა მაღაზიის იდეალური ადგილმდებარეობის შესახებ. წარმოიდგინეთ, რომ თქვენ ხართ სპეციალური პროექტებისა და დაგეგმვის დეპარტამენტის ხელმძღვანელი. თქვენ დაევალათ ახალი მაღაზიების გახსნის სტრატეგიული გეგმის შემუშავება. ეს გეგმა უნდა შეიცავდეს წლიური გაყიდვების პროგნოზს ახლად გახსნილ მაღაზიებში. თქვენ გჯერათ, რომ ფართის გაყიდვა პირდაპირ კავშირშია შემოსავალთან და გსურთ ეს ფაქტი თქვენი გადაწყვეტილების მიღების პროცესში ჩართოთ. როგორ შეიმუშავებთ სტატისტიკურ მოდელს, რომელიც პროგნოზირებს წლიურ გაყიდვებს ახალი მაღაზიის ზომის მიხედვით?

როგორც წესი, რეგრესიის ანალიზი გამოიყენება ცვლადის მნიშვნელობების პროგნოზირებისთვის. მისი მიზანია შეიმუშაოს სტატისტიკური მოდელი, რომელიც პროგნოზირებს დამოკიდებული ცვლადის ან პასუხის მნიშვნელობებს მინიმუმ ერთი დამოუკიდებელი, ან ახსნითი ცვლადის მნიშვნელობებიდან. ამ შენიშვნაში განვიხილავთ მარტივ ხაზოვან რეგრესიას - სტატისტიკურ მეთოდს, რომელიც საშუალებას გაძლევთ წინასწარ განსაზღვროთ დამოკიდებული ცვლადის მნიშვნელობები. დამოუკიდებელი ცვლადის მნიშვნელობებით X. შემდეგი შენიშვნები აღწერს მრავალჯერადი რეგრესიის მოდელს, რომელიც შექმნილია დამოუკიდებელი ცვლადის მნიშვნელობების პროგნოზირებისთვის რამდენიმე დამოკიდებული ცვლადის მნიშვნელობებით ( X 1 , X 2 , …, X k).

ჩამოტვირთეთ შენიშვნა ფორმატში ან ფორმატში, მაგალითები ფორმატში

რეგრესიის მოდელების სახეები

სადაც ρ 1 არის ავტოკორელაციის კოეფიციენტი; თუ ρ 1 = 0 (არა ავტოკორელაცია), ≈ 2; თუ ρ 1 ≈ 1 (დადებითი ავტოკორელაცია), ≈ 0; თუ ρ 1 = -1 (უარყოფითი ავტოკორელაცია), ≈ 4.

პრაქტიკაში, დურბინ-უოტსონის კრიტერიუმის გამოყენება ეფუძნება მნიშვნელობის შედარებას კრიტიკული თეორიული ღირებულებებით დლდა დ Uმოცემული რაოდენობის დაკვირვებისთვის , მოდელის დამოუკიდებელი ცვლადების რაოდენობა (მარტივი წრფივი რეგრესიისთვის = 1) და მნიშვნელოვნების დონე α. Თუ დ< d L , შემთხვევითი გადახრების დამოუკიდებლობის ჰიპოთეზა უარყოფილია (აქედან გამომდინარე, არსებობს დადებითი ავტოკორელაცია); თუ D > dU, ჰიპოთეზა არ არის უარყოფილი (ანუ არ არსებობს ავტოკორელაცია); თუ დლ< D < d U არ არის საკმარისი მიზეზი გადაწყვეტილების მისაღებად. როდესაც გამოთვლილი მნიშვნელობა აღემატება 2-ს, მაშინ დლდა დ Uეს არ არის თავად კოეფიციენტის შედარება და გამოთქმა (4 - ).

Excel-ში დურბინ-უოტსონის სტატისტიკის გამოსათვლელად, ჩვენ მივმართავთ ქვედა ცხრილს ნახ. თოთხმეტი ბალანსის ამოღება. მრიცხველი გამოსახულებაში (10) გამოითვლება ფუნქციის გამოყენებით = SUMMQDIFF(მასივი1, მასივი2) და მნიშვნელი = SUMMQ(მაივი) (ნახ. 16).

ბრინჯი. 16. დურბინ-უოტსონის სტატისტიკის გამოთვლის ფორმულები

ჩვენს მაგალითში = 0.883. მთავარი კითხვაა: დურბინ-უოტსონის სტატისტიკის რა მნიშვნელობა უნდა ჩაითვალოს საკმარისად მცირე, რომ დავასკვნათ, რომ არსებობს დადებითი ავტოკორელაცია? აუცილებელია D-ის მნიშვნელობის კორელაცია კრიტიკულ მნიშვნელობებთან ( დლდა დ U) დაკვირვების რაოდენობის მიხედვით და მნიშვნელოვნების დონე α (სურ. 17).

ბრინჯი. 17. დურბინ-უოტსონის სტატისტიკის კრიტიკული მნიშვნელობები (ცხრილის ფრაგმენტი)

ამრიგად, თქვენს სახლში საქონლის მიწოდების მაღაზიაში გაყიდვების მოცულობის პრობლემაში არის ერთი დამოუკიდებელი ცვლადი ( = 1), 15 დაკვირვება ( = 15) და მნიშვნელოვნების დონე α = 0.05. აქედან გამომდინარე, დლ= 1.08 და U= 1.36. Იმდენად, რამდენადაც = 0,883 < დლ= 1.08, ნარჩენებს შორის არის დადებითი ავტოკორელაცია, უმცირესი კვადრატების მეთოდის გამოყენება შეუძლებელია.

დახრილობის და კორელაციის კოეფიციენტის შესახებ ჰიპოთეზების ტესტირება

ზემოაღნიშნული რეგრესია გამოყენებული იყო მხოლოდ პროგნოზირებისთვის. რეგრესიის კოეფიციენტების განსაზღვრა და ცვლადის მნიშვნელობის პროგნოზირება მოცემული ცვლადის მნიშვნელობისთვის Xგამოყენებული იყო უმცირესი კვადრატების მეთოდი. გარდა ამისა, განვიხილეთ შეფასების სტანდარტული შეცდომა და შერეული კორელაციის კოეფიციენტი. თუ ნარჩენი ანალიზი ადასტურებს, რომ უმცირესი კვადრატების მეთოდის გამოყენებადობის პირობები არ არის დარღვეული და მარტივი წრფივი რეგრესიის მოდელი ადეკვატურია, შერჩევის მონაცემებზე დაყრდნობით, შეიძლება ითქვას, რომ არსებობს პოპულაციაში ცვლადებს შორის წრფივი კავშირი.

განაცხადი - დახრის კრიტერიუმები.შემოწმებით არის თუ არა პოპულაციის β 1 დახრილობა ნულის ტოლი, შეიძლება დადგინდეს არის თუ არა სტატისტიკურად მნიშვნელოვანი კავშირი ცვლადებს შორის. Xდა . თუ ეს ჰიპოთეზა უარყოფილია, შეიძლება ითქვას, რომ ცვლადებს შორის Xდა არის წრფივი ურთიერთობა. ნულოვანი და ალტერნატიული ჰიპოთეზები ჩამოყალიბებულია შემდეგნაირად: H 0: β 1 = 0 (წრფივი კავშირი არ არის), H1: β 1 ≠ 0 (არსებობს წრფივი ურთიერთობა). ა-პრიორიტეტი - სტატისტიკა უდრის განსხვავებას ნიმუშის დახრილობასა და პოპულაციის ჰიპოთეტურ ფერდობებს შორის, გაყოფილი დახრილობის შეფასების სტანდარტულ შეცდომაზე:

(11) = ( 1 β 1 ) / სბ 1

სადაც 1 არის პირდაპირი რეგრესიის დახრილობა ნიმუშის მონაცემებზე დაყრდნობით, β1 არის პირდაპირი ზოგადი პოპულაციის ჰიპოთეტური დახრილობა, და ტესტის სტატისტიკა Მას აქვს - განაწილებასთან ერთად n - 2თავისუფლების ხარისხები.

მოდით შევამოწმოთ, არის თუ არა სტატისტიკურად მნიშვნელოვანი კავშირი მაღაზიის ზომასა და წლიურ გაყიდვებს შორის α = 0.05. - კრიტერიუმები ნაჩვენებია სხვა პარამეტრებთან ერთად გამოყენებისას საანალიზო პაკეტი(ვარიანტი რეგრესია). ანალიზის პაკეტის სრული შედეგები ნაჩვენებია ნახ. 4, t- სტატისტიკასთან დაკავშირებული ფრაგმენტი - ნახ. თვრამეტი.

ბრინჯი. 18. განაცხადის შედეგები

რადგან მაღაზიების რაოდენობა = 14 (იხ. ნახ. 3), კრიტიკული მნიშვნელობა - სტატისტიკა მნიშვნელოვნების დონეზე α = 0,05 შეიძლება მოიძებნოს ფორმულით: ტ ლ=STUDENT.INV(0.025;12) = -2.1788 სადაც 0.025 არის მნიშვნელოვნების დონის ნახევარი და 12 = – 2; t U\u003d STUDENT.INV (0.975, 12) \u003d +2.1788.

Იმდენად, რამდენადაც -სტატისტიკა = 10.64 > t U= 2,1788 (ნახ. 19), ნულოვანი ჰიპოთეზა H 0უარყოფილია. Მეორეს მხრივ, - ღირებულება X\u003d 10.6411, გამოითვლება ფორმულით \u003d 1-STUDENT.DIST (D3, 12, TRUE), დაახლოებით ნულის ტოლია, ამიტომ ჰიპოთეზა H 0კვლავ უარყოფილია. Ის ფაქტი, რომ -მნიშვნელობა თითქმის ნულის ტოლია, რაც იმას ნიშნავს, რომ თუ არ არსებობდეს რეალური წრფივი კავშირი მაღაზიის ზომასა და წლიურ გაყიდვებს შორის, მისი აღმოჩენა თითქმის შეუძლებელი იქნებოდა ხაზოვანი რეგრესიის გამოყენებით. აქედან გამომდინარე, არსებობს სტატისტიკურად მნიშვნელოვანი ხაზოვანი კავშირი მაღაზიის საშუალო წლიურ გაყიდვებსა და მაღაზიის ზომას შორის.

ბრინჯი. 19. ზოგადი პოპულაციის დახრილობის შესახებ ჰიპოთეზის ტესტირება 0,05 და 12 გრადუსი თავისუფლების მნიშვნელოვნების დონეზე.

განაცხადი - დახრის კრიტერიუმები.მარტივი წრფივი რეგრესიის დახრილობის შესახებ ჰიპოთეზების შესამოწმებლად ალტერნატიული მიდგომის გამოყენებაა - კრიტერიუმები. გავიხსენოთ რომ -კრიტერიუმი გამოიყენება ორ დისპერსიას შორის კავშირის შესამოწმებლად (იხილეთ დეტალები). დახრილობის ჰიპოთეზის შემოწმებისას, შემთხვევითი შეცდომების საზომია შეცდომის ცვალებადობა (ცდომილების კვადრატის ჯამი გაყოფილი თავისუფლების ხარისხების რაოდენობაზე). -ტესტი იყენებს რეგრესიით ახსნილ დისპერსიის თანაფარდობას (ე.ი. მნიშვნელობებს სსრგაყოფილი დამოუკიდებელი ცვლადების რაოდენობაზე ), შეცდომის დისპერსიამდე ( MSE=S YX 2 ).

ა-პრიორიტეტი - სტატისტიკა უდრის საშუალო კვადრატულ გადახრებს რეგრესიის (MSR) გამო გაყოფილი შეცდომის დისპერსიაზე (MSE): = MSR/ MSE, სად MSR=სსრ / , MSE =SSE/(– კ – 1), კარის დამოუკიდებელი ცვლადების რაოდენობა რეგრესიის მოდელში. ტესტის სტატისტიკა Მას აქვს - განაწილებასთან ერთად და – k – 1თავისუფლების ხარისხები.

მოცემული მნიშვნელოვნების α დონისთვის გადაწყვეტილების წესი ჩამოყალიბებულია შემდეგნაირად: თუ F > FU, ნულოვანი ჰიპოთეზა უარყოფილია; წინააღმდეგ შემთხვევაში, ის არ არის უარყოფილი. შედეგები, წარმოდგენილი დისპერსიის ანალიზის შემაჯამებელი ცხრილის სახით, ნაჩვენებია ნახ. 20.

ბრინჯი. 20. ვარიაციის ანალიზის ცხრილი რეგრესიის კოეფიციენტის სტატისტიკური მნიშვნელოვნების ჰიპოთეზის შესამოწმებლად

ანალოგიურად -კრიტერიუმი - კრიტერიუმები ნაჩვენებია ცხრილში გამოყენებისას საანალიზო პაკეტი(ვარიანტი რეგრესია). სამუშაოს სრული შედეგები საანალიზო პაკეტინაჩვენებია ნახ. 4, ფრაგმენტი დაკავშირებული -სტატისტიკა - ნახ. 21.

ბრინჯი. 21. განაცხადის შედეგები - Excel Analysis ToolPack-ის გამოყენებით მიღებული კრიტერიუმები

F- სტატისტიკა არის 113,23 და - მნიშვნელობა ნულთან ახლოს (უჯრედი მნიშვნელობა). თუ α მნიშვნელოვნების დონე არის 0,05, განსაზღვრეთ კრიტიკული მნიშვნელობა - ფორმულიდან შეიძლება მივიღოთ ერთი და 12 გრადუსიანი თავისუფლების განაწილება F U\u003d F. OBR (1-0.05; 1; 12) \u003d 4.7472 (ნახ. 22). Იმდენად, რამდენადაც = 113,23 > F U= 4.7472 და - მნიშვნელობა 0-სთან ახლოს< 0,05, нулевая гипотеза H 0გადახრის, ე.ი. მაღაზიის ზომა მჭიდროდ არის დაკავშირებული მისი წლიური გაყიდვების მოცულობასთან.

ბრინჯი. 22. ზოგადი პოპულაციის დახრილობის შესახებ ჰიპოთეზის ტესტირება 0,05 მნიშვნელოვნების დონეზე, თავისუფლების ერთი და 12 გრადუსით.

დახრილობის β 1 შემცველი ნდობის ინტერვალი.ჰიპოთეზის შესამოწმებლად ცვლადებს შორის წრფივი ურთიერთობის არსებობის შესახებ, შეგიძლიათ ააწყოთ ნდობის ინტერვალი, რომელიც შეიცავს β 1 დახრილობას და დარწმუნდით, რომ ჰიპოთეტური მნიშვნელობა β 1 = 0 ეკუთვნის ამ ინტერვალს. ნდობის ინტერვალის ცენტრი, რომელიც შეიცავს β 1 დახრილობას, არის ნიმუშის დახრილობა 1 , და მისი საზღვრები არის რაოდენობები b 1 ±t n –2 სბ 1

როგორც ნაჩვენებია ნახ. თვრამეტი, 1 = +1,670, = 14, სბ 1 = 0,157. 12 \u003d STUDENT.OBR (0.975, 12) \u003d 2.1788. აქედან გამომდინარე, b 1 ±t n –2 სბ 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ან + 1,328 ≤ β 1 ≤ +2,012. ამდენად, მოსახლეობის დახრილობა 0,95 ალბათობით არის +1,328-დან +2,012-მდე (ანუ $1,328,000-დან $2,012,000-მდე) დიაპაზონში. იმის გამო, რომ ეს მნიშვნელობები ნულზე მეტია, არსებობს სტატისტიკურად მნიშვნელოვანი ხაზოვანი კავშირი წლიურ გაყიდვებსა და მაღაზიის ფართობს შორის. თუ ნდობის ინტერვალი შეიცავდა ნულს, ცვლადებს შორის კავშირი არ იქნებოდა. გარდა ამისა, ნდობის ინტერვალი ნიშნავს, რომ ყოველი 1000 კვ. ფუტი იწვევს საშუალო გაყიდვების ზრდას $1,328,000-დან $2,012,000-მდე.

გამოყენება -კორელაციის კოეფიციენტის კრიტერიუმები.დაინერგა კორელაციის კოეფიციენტი , რომელიც არის ორი რიცხვითი ცვლადის ურთიერთობის საზომი. ის შეიძლება გამოყენებულ იქნას იმის დასადგენად, არის თუ არა სტატისტიკურად მნიშვნელოვანი კავშირი ორ ცვლადს შორის. ორივე ცვლადის პოპულაციას შორის კორელაციის კოეფიციენტი ავღნიშნოთ სიმბოლოთი ρ. ნულოვანი და ალტერნატიული ჰიპოთეზები ჩამოყალიბებულია შემდეგნაირად: H 0: ρ = 0 (კორელაცია არ არის), H 1: ρ ≠ 0 (არსებობს კორელაცია). კორელაციის არსებობის შემოწმება:

სადაც = + , თუ 1 > 0, = – , თუ 1 < 0. Тестовая статистика Მას აქვს - განაწილებასთან ერთად n - 2თავისუფლების ხარისხები.

Sunflowers მაღაზიათა ქსელის პრობლემაში r2= 0.904 და ბ 1- +1.670 (იხ. სურ. 4). Იმდენად, რამდენადაც ბ 1> 0, კორელაციის კოეფიციენტი წლიურ გაყიდვებსა და მაღაზიის ზომას შორის არის = +√0.904 = +0.951. მოდით შევამოწმოთ ნულოვანი ჰიპოთეზა, რომ ამ ცვლადებს შორის კორელაცია არ არსებობს - სტატისტიკა:

მნიშვნელოვნების დონეზე α = 0.05, ნულოვანი ჰიპოთეზა უნდა იყოს უარყოფილი, რადგან = 10.64 > 2.1788. ამრიგად, შეიძლება ითქვას, რომ არსებობს სტატისტიკურად მნიშვნელოვანი კავშირი წლიურ გაყიდვებსა და მაღაზიის ზომას შორის.

პოპულაციის დახრილობის შესახებ დასკვნების განხილვისას, ნდობის ინტერვალები და ჰიპოთეზების ტესტირების კრიტერიუმები ურთიერთშემცვლელი ინსტრუმენტებია. ამასთან, კორელაციის კოეფიციენტის შემცველი ნდობის ინტერვალის გამოთვლა უფრო რთული აღმოჩნდება, რადგან სტატისტიკის შერჩევის განაწილების ფორმა დამოკიდებულია ჭეშმარიტ კორელაციის კოეფიციენტზე.

მათემატიკური მოლოდინის შეფასება და ინდივიდუალური მნიშვნელობების პროგნოზირება

ეს ნაწილი განიხილავს მოსალოდნელი პასუხის შეფასების მეთოდებს და ინდივიდუალური ღირებულებების პროგნოზები ცვლადის მოცემული მნიშვნელობებისთვის X.

ნდობის ინტერვალის აგება.მაგალითში 2 (იხ. ზემოთ განყოფილება მინიმალური კვადრატის მეთოდი) რეგრესიის განტოლებამ შესაძლებელი გახადა ცვლადის მნიშვნელობის წინასწარმეტყველება X. საცალო ვაჭრობის ადგილის არჩევის პრობლემაში, საშუალო წლიური გაყიდვები მაღაზიაში 4000 კვ. ფუტი 7,644 მლნ დოლარს უდრიდა, თუმცა მოსახლეობის მათემატიკური მოლოდინების ეს შეფასება პუნქტია. ზოგადი მოსახლეობის მათემატიკური მოლოდინების შესაფასებლად შემოთავაზებული იქნა ნდობის ინტერვალის კონცეფცია. ანალოგიურად, შეიძლება შემოგთავაზოთ კონცეფცია ნდობის ინტერვალი პასუხის მათემატიკური მოლოდინისთვისცვლადის მოცემული მნიშვნელობისთვის X:

სადაც , = 0 + 1 X ი- პროგნოზირებული მნიშვნელობის ცვლადი ზე X = X ი, S YXარის საშუალო კვადრატული შეცდომა, არის ნიმუშის ზომა, Xმე- ცვლადის მოცემული მნიშვნელობა X, µ |X = Xმე– ცვლადის მათემატიკური მოლოდინი ზე X = Х ი,SSX=

ფორმულის (13) ანალიზი აჩვენებს, რომ ნდობის ინტერვალის სიგანე დამოკიდებულია რამდენიმე ფაქტორზე. მნიშვნელობის მოცემულ დონეზე, რეგრესიული ხაზის ირგვლივ რყევების ამპლიტუდის ზრდა, რომელიც იზომება საშუალო კვადრატული შეცდომის გამოყენებით, იწვევს ინტერვალის სიგანის ზრდას. მეორე მხრივ, როგორც მოსალოდნელი იყო, ნიმუშის ზომის ზრდას თან ახლავს ინტერვალის შევიწროება. გარდა ამისა, ინტერვალის სიგანე იცვლება მნიშვნელობების მიხედვით Xმე. თუ ცვლადის მნიშვნელობა პროგნოზირებულია რაოდენობებისთვის Xსაშუალო მნიშვნელობასთან ახლოს ნდობის ინტერვალი უფრო ვიწრო აღმოჩნდება, ვიდრე საშუალოდან დაშორებული მნიშვნელობებისთვის პასუხის პროგნოზირებისას.

ვთქვათ, რომ მაღაზიისთვის ადგილის არჩევისას, ჩვენ გვინდა ავაშენოთ 95% ნდობის ინტერვალი საშუალო წლიური გაყიდვებისთვის ყველა მაღაზიაში 4000 კვადრატული მეტრი ფართობით. ფეხები:

ამრიგად, გაყიდვების საშუალო წლიური მოცულობა ყველა მაღაზიაში 4000 კვადრატული მეტრის ფართობით. ფუტი, 95%-იანი ალბათობით 6,971-დან 8,317 მილიონ დოლარამდე მერყეობს.

გამოთვალეთ ნდობის ინტერვალი პროგნოზირებული მნიშვნელობისთვის.გარდა ცვლადის მოცემული მნიშვნელობის პასუხის მათემატიკური მოლოდინის ნდობის ინტერვალისა X, ხშირად საჭიროა ვიცოდეთ ნდობის ინტერვალი პროგნოზირებული მნიშვნელობისთვის. მიუხედავად იმისა, რომ ასეთი სანდო ინტერვალის გამოთვლის ფორმულა ძალიან ჰგავს ფორმულას (13), ეს ინტერვალი შეიცავს პროგნოზირებულ მნიშვნელობას და არა პარამეტრის შეფასებას. ინტერვალი სავარაუდო პასუხისთვის X = Xiცვლადის კონკრეტული მნიშვნელობისთვის Xმეგანისაზღვრება ფორმულით:

დავუშვათ, რომ საცალო მაღაზიისთვის ადგილმდებარეობის არჩევისას, ჩვენ გვინდა ავაშენოთ 95% ნდობის ინტერვალი გაყიდვების სავარაუდო წლიური მოცულობისთვის მაღაზიაში, რომლის ფართობია 4000 კვადრატული მეტრი. ფეხები:

აქედან გამომდინარე, პროგნოზირებული წლიური გაყიდვების მოცულობა 4000 კვ. ფუტი, 95%-იანი ალბათობით, 5,433-დან 9,854 მილიონ დოლარამდე დიაპაზონშია.როგორც ხედავთ, პროგნოზირებული პასუხის მნიშვნელობის ნდობის ინტერვალი გაცილებით ფართოა, ვიდრე მისი მათემატიკური მოლოდინის ნდობის ინტერვალი. ეს იმიტომ ხდება, რომ ინდივიდუალური მნიშვნელობების პროგნოზირების ცვალებადობა გაცილებით დიდია, ვიდრე მოსალოდნელი მნიშვნელობის შეფასებაში.

ხაფანგები და ეთიკური საკითხები, რომლებიც დაკავშირებულია რეგრესიის გამოყენებასთან

რეგრესიის ანალიზთან დაკავშირებული სირთულეები:

  • უმცირესი კვადრატების მეთოდის გამოყენების პირობების იგნორირება.
  • უმცირესი კვადრატების მეთოდის გამოყენების პირობების მცდარი შეფასება.
  • ალტერნატიული მეთოდების არასწორი არჩევანი უმცირესი კვადრატების მეთოდის გამოყენების პირობების დარღვევით.
  • რეგრესიული ანალიზის გამოყენება სასწავლო საგნის სიღრმისეული ცოდნის გარეშე.
  • რეგრესიის ექსტრაპოლაცია განმარტებითი ცვლადის დიაპაზონის მიღმა.
  • სტატისტიკურ და მიზეზობრივ კავშირებს შორის დაბნეულობა.

ცხრილების და სტატისტიკური პროგრამული უზრუნველყოფის ფართო გამოყენებამ აღმოფხვრა გამოთვლითი პრობლემები, რომლებიც ხელს უშლიდა რეგრესიული ანალიზის გამოყენებას. თუმცა, ამან განაპირობა ის, რომ რეგრესიული ანალიზის გამოყენება დაიწყეს მომხმარებლების მიერ, რომლებსაც არ გააჩნიათ საკმარისი კვალიფიკაცია და ცოდნა. როგორ იციან მომხმარებლებმა ალტერნატიული მეთოდების შესახებ, თუ ბევრ მათგანს საერთოდ არ აქვს წარმოდგენა უმცირესი კვადრატების მეთოდის გამოყენების პირობების შესახებ და არ იცის როგორ შეამოწმოს მათი განხორციელება?

მკვლევარი არ უნდა გაიტაცეს რიცხვების დაფქვით - ცვლა, დახრილობა და შერეული კორელაციის კოეფიციენტის გამოთვლა. მას უფრო ღრმა ცოდნა სჭირდება. ამის საილუსტრაციოდ ავხსნათ სახელმძღვანელოებიდან აღებული კლასიკური მაგალითით. ანსკომბმა აჩვენა, რომ ოთხივე მონაცემთა ნაკრები ნაჩვენებია ნახ. 23 აქვს იგივე რეგრესიის პარამეტრები (ნახ. 24).

ბრინჯი. 23. ოთხი ხელოვნური მონაცემთა ნაკრები

ბრინჯი. 24. ოთხი ხელოვნური მონაცემთა ნაკრების რეგრესიული ანალიზი; შესრულებულია საანალიზო პაკეტი(დააწკაპუნეთ სურათზე სურათის გასადიდებლად)

ასე რომ, რეგრესიული ანალიზის თვალსაზრისით, ყველა ეს მონაცემთა ნაკრები სრულიად იდენტურია. ანალიზი რომ დამთავრებულიყო, ბევრ სასარგებლო ინფორმაციას დავკარგავდით. ამას მოწმობს ამ მონაცემთა ნაკრებისთვის აგებული სკატერული ნაკვეთები (ნახ. 25) და ნარჩენი ნაკვეთები (ნახ. 26).

ბრინჯი. 25. ნაკვეთების გაფანტვა ოთხი მონაცემთა ნაკრებისთვის

სკატერ ნაკვეთები და ნარჩენი ნახაზები აჩვენებს, რომ ეს მონაცემები ერთმანეთისგან განსხვავდება. სწორი ხაზის გასწვრივ განაწილებული ერთადერთი ნაკრები არის A. ნარჩენების ნაკვეთი, რომელიც გამოითვლება A ნაკრებიდან, არ აქვს ნიმუში. იგივე არ შეიძლება ითქვას B, C და D სიმრავლეებზე. B სიმრავლისთვის გამოსახული სკატერის დიაგრამა აჩვენებს გამოხატულ კვადრატულ შაბლონს. ამ დასკვნას ადასტურებს ნარჩენების ნაკვეთი, რომელსაც აქვს პარაბოლური ფორმა. სკატერის დიაგრამა და ნარჩენი ნაკვეთი აჩვენებს, რომ მონაცემთა ბაზა B შეიცავს გამოკვეთილ მონაცემს. ამ სიტუაციაში აუცილებელია მონაცემთა ნაკრებიდან გამორიცხვა და ანალიზის გამეორება. დაკვირვებებიდან გამოკვეთილთა გამოვლენისა და აღმოფხვრის ტექნიკას გავლენის ანალიზი ეწოდება. გამორიცხულის აღმოფხვრის შემდეგ, მოდელის ხელახალი შეფასების შედეგი შეიძლება იყოს სრულიად განსხვავებული. D მონაცემთა ნაკრებიდან გამოსახული სკატერპლატი ასახავს უჩვეულო სიტუაციას, რომელშიც ემპირიული მოდელი დიდად არის დამოკიდებული ერთ პასუხზე ( X 8 = 19, 8 = 12.5). ასეთი რეგრესიის მოდელები განსაკუთრებით ფრთხილად უნდა იყოს გათვლილი. ასე რომ, სკატერი და ნარჩენი ნაკვეთები რეგრესიის ანალიზისთვის აუცილებელი ინსტრუმენტია და უნდა იყოს მისი განუყოფელი ნაწილი. მათ გარეშე რეგრესიული ანალიზი არ არის სანდო.

ბრინჯი. 26. ნარჩენების ნაკვეთები ოთხი მონაცემთა ნაკრებისთვის

როგორ ავიცილოთ თავიდან ხარვეზები რეგრესიის ანალიზში:

  • ცვლადებს შორის შესაძლო ურთიერთობის ანალიზი Xდა ყოველთვის იწყებ სკატერპლიტით.
  • რეგრესიული ანალიზის შედეგების ინტერპრეტაციამდე, შეამოწმეთ მისი გამოყენებადობის პირობები.
  • დახაზეთ ნარჩენები დამოუკიდებელი ცვლადის წინააღმდეგ. ეს საშუალებას მოგცემთ განისაზღვროს, თუ როგორ შეესაბამება ემპირიული მოდელი დაკვირვების შედეგებს და გამოავლინოს დისპერსიის მუდმივობის დარღვევა.
  • შეცდომების ნორმალური განაწილების ვარაუდის შესამოწმებლად გამოიყენეთ ჰისტოგრამები, ღეროვანი და ფოთლების ნახაზები, ყუთების დიაგრამები და ნორმალური განაწილების ნახაზები.
  • თუ უმცირესი კვადრატების მეთოდის გამოყენების პირობები არ არის დაცული, გამოიყენეთ ალტერნატიული მეთოდები (მაგალითად, კვადრატული ან მრავალჯერადი რეგრესიის მოდელები).
  • თუ უმცირესი კვადრატების მეთოდის გამოყენებადობის პირობები დაკმაყოფილებულია, საჭიროა შემოწმდეს ჰიპოთეზა რეგრესიის კოეფიციენტების სტატისტიკური მნიშვნელოვნების შესახებ და აშენდეს ნდობის ინტერვალები, რომლებიც შეიცავს მათემატიკურ მოლოდინს და პროგნოზირებულ პასუხს.
  • მოერიდეთ დამოკიდებული ცვლადის მნიშვნელობების პროგნოზირებას დამოუკიდებელი ცვლადის დიაპაზონის გარეთ.
  • გაითვალისწინეთ, რომ სტატისტიკური დამოკიდებულებები ყოველთვის არ არის მიზეზობრივი. გახსოვდეთ, რომ ცვლადებს შორის კორელაცია არ ნიშნავს მათ შორის მიზეზობრივი კავშირის არსებობას.

Შემაჯამებელი.როგორც ნაჩვენებია ბლოკ დიაგრამაზე (ნახ. 27), შენიშვნა აღწერს მარტივ ხაზოვანი რეგრესიის მოდელს, მისი გამოყენების პირობებს და ამ პირობების შესამოწმებლად გზებს. განიხილება -რეგრესიის დახრილობის სტატისტიკური მნიშვნელოვნების ტესტირების კრიტერიუმი. დამოკიდებული ცვლადის მნიშვნელობების პროგნოზირებისთვის გამოყენებული იქნა რეგრესიული მოდელი. განხილულია მაგალითი საცალო ვაჭრობის ადგილის არჩევასთან დაკავშირებით, რომელშიც შესწავლილია გაყიდვების წლიური მოცულობის დამოკიდებულება მაღაზიის ფართობზე. მიღებული ინფორმაცია საშუალებას გაძლევთ უფრო ზუსტად შეარჩიოთ ადგილი მაღაზიისთვის და იწინასწარმეტყველოთ მისი წლიური გაყიდვები. შემდეგ ჩანაწერებში გაგრძელდება რეგრესიის ანალიზის განხილვა, ისევე როგორც მრავალჯერადი რეგრესიის მოდელები.

ბრინჯი. 27. შენიშვნის ბლოკ-სქემა

გამოყენებულია მასალები წიგნიდან Levin et al., სტატისტიკა მენეჯერებისთვის. - M.: Williams, 2004. - გვ. 792–872 წწ

თუ დამოკიდებული ცვლადი კატეგორიულია, უნდა იქნას გამოყენებული ლოგისტიკური რეგრესია.