რეგრესიის ანალიზი ეტაპობრივად. ხაზოვანი რეგრესიის საფუძვლები

რეგრესიული და კორელაციური ანალიზი - სტატისტიკური კვლევის მეთოდები. ეს არის ყველაზე გავრცელებული გზები პარამეტრის დამოკიდებულების ჩვენების ერთ ან რამდენიმე დამოუკიდებელ ცვლადზე.

ქვემოთ, კონკრეტული პრაქტიკული მაგალითების გამოყენებით, განვიხილავთ ამ ორ ძალიან პოპულარულ ანალიზს ეკონომისტებს შორის. ჩვენ ასევე მივცემთ შედეგების მიღების მაგალითს მათი შერწყმისას.

რეგრესიული ანალიზი Excel-ში

აჩვენებს ზოგიერთი მნიშვნელობის (დამოუკიდებელი, დამოუკიდებელი) გავლენას დამოკიდებულ ცვლადზე. მაგალითად, რამდენად არის დამოკიდებული ეკონომიკურად აქტიური მოსახლეობის რაოდენობა საწარმოების რაოდენობაზე, ხელფასებზე და სხვა პარამეტრებზე. ან: როგორ მოქმედებს მშპ-ის დონეზე უცხოური ინვესტიციები, ენერგიის ფასები და ა.შ.

ანალიზის შედეგი იძლევა პრიორიტეტების დადგენის საშუალებას. და ძირითადი ფაქტორებიდან გამომდინარე, პროგნოზირება, პრიორიტეტული სფეროების განვითარების დაგეგმვა, მენეჯმენტის გადაწყვეტილებების მიღება.

რეგრესია ხდება:

  • წრფივი (y = a + bx);
  • პარაბოლური (y ​​= a + bx + cx 2);
  • ექსპონენციალური (y ​​= a * exp(bx));
  • სიმძლავრე (y = a*x^b);
  • ჰიპერბოლური (y ​​= b/x + a);
  • ლოგარითმული (y = b * 1n(x) + a);
  • ექსპონენციალური (y ​​= a * b^x).

განვიხილოთ Excel-ში რეგრესიის მოდელის აგების და შედეგების ინტერპრეტაციის მაგალითი. ავიღოთ რეგრესიის ხაზოვანი ტიპი.

დავალება. 6 საწარმოში გაანალიზდა საშუალო თვიური ხელფასი და წასული დასაქმებულთა რაოდენობა. აუცილებელია განისაზღვროს პენსიაზე გასული თანამშრომელთა რაოდენობის დამოკიდებულება საშუალო ხელფასზე.

ხაზოვანი რეგრესიის მოდელს აქვს შემდეგი ფორმა:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

სადაც a არის რეგრესიის კოეფიციენტები, x არის გავლენიანი ცვლადები და k არის ფაქტორების რაოდენობა.

ჩვენს მაგალითში, Y არის თანამშრომელთა დატოვების მაჩვენებელი. გავლენის ფაქტორი არის ხელფასი (x).

Excel-ს აქვს ჩაშენებული ფუნქციები, რომლებიც შეიძლება გამოყენებულ იქნას ხაზოვანი რეგრესიის მოდელის პარამეტრების გამოსათვლელად. მაგრამ Analysis ToolPak დანამატი ამას უფრო სწრაფად გააკეთებს.

გააქტიურეთ ძლიერი ანალიტიკური ინსტრუმენტი:

გააქტიურების შემდეგ, დანამატი ხელმისაწვდომი იქნება მონაცემთა ჩანართში.

ახლა ჩვენ უშუალოდ შევეხებით რეგრესიის ანალიზს.



უპირველეს ყოვლისა, ყურადღებას ვაქცევთ R-კვადრატს და კოეფიციენტებს.

R-კვადრატი არის განსაზღვრის კოეფიციენტი. ჩვენს მაგალითში ეს არის 0.755, ანუ 75.5%. ეს ნიშნავს, რომ მოდელის გამოთვლილი პარამეტრები 75,5%-ით ხსნის შესწავლილ პარამეტრებს შორის კავშირს. რაც უფრო მაღალია განსაზღვრის კოეფიციენტი, მით უკეთესია მოდელი. კარგი - 0.8-ზე მეტი. ცუდი - 0,5-ზე ნაკლები (ასეთი ანალიზი ძნელად შეიძლება ჩაითვალოს გონივრულად). ჩვენს მაგალითში - "არა ცუდი".

კოეფიციენტი 64.1428 გვიჩვენებს, რა იქნება Y, თუ განსახილველ მოდელში ყველა ცვლადი 0-ის ტოლია. ანუ სხვა ფაქტორები, რომლებიც არ არის აღწერილი მოდელში ასევე გავლენას ახდენს გაანალიზებული პარამეტრის მნიშვნელობაზე.

კოეფიციენტი -0,16285 გვიჩვენებს X ცვლადის წონას Y-ზე. ანუ, საშუალო თვიური ხელფასი ამ მოდელის ფარგლებში გავლენას ახდენს თანამდებობიდან გათავისუფლების რაოდენობაზე -0,16285 წონით (ეს გავლენის მცირე ხარისხია). ნიშანი "-" მიუთითებს უარყოფით ზემოქმედებაზე: რაც უფრო მაღალია ხელფასი, მით ნაკლებია სამსახურიდან გათავისუფლება. რაც სამართლიანია.



კორელაციური ანალიზი Excel-ში

კორელაციური ანალიზი გვეხმარება იმის დადგენაში, არის თუ არა კავშირი ინდიკატორებს შორის ერთ ან ორ ნიმუშში. მაგალითად, აპარატის მუშაობის დროსა და შეკეთების ღირებულებას შორის, აღჭურვილობის ფასსა და მუშაობის ხანგრძლივობას, ბავშვების სიმაღლესა და წონას და ა.შ.

თუ არსებობს კავშირი, მაშინ ერთი პარამეტრის ზრდა იწვევს თუ არა მეორეს ზრდას (დადებითი კორელაცია) თუ შემცირებას (უარყოფითი). კორელაციური ანალიზი ანალიტიკოსს ეხმარება განსაზღვროს, შეუძლია თუ არა ერთი ინდიკატორის მნიშვნელობა მეორის შესაძლო მნიშვნელობის პროგნოზირება.

კორელაციის კოეფიციენტი აღინიშნება r. მერყეობს +1-დან -1-მდე. სხვადასხვა სფეროსთვის კორელაციების კლასიფიკაცია განსხვავებული იქნება. როდესაც კოეფიციენტის მნიშვნელობა არის 0, ნიმუშებს შორის არ არსებობს წრფივი კავშირი.

განვიხილოთ, თუ როგორ გამოიყენოთ Excel კორელაციის კოეფიციენტის მოსაძებნად.

CORREL ფუნქცია გამოიყენება დაწყვილებული კოეფიციენტების საპოვნელად.

ამოცანა: დაადგინეთ არის თუ არა კავშირი ქარხნის მუშაობის დროსა და მისი მოვლა-პატრონობის ღირებულებას შორის.

ჩადეთ კურსორი ნებისმიერ უჯრედში და დააჭირეთ fx ღილაკს.

  1. "სტატისტიკური" კატეგორიაში აირჩიეთ CORREL ფუნქცია.
  2. არგუმენტი "მასივი 1" - მნიშვნელობების პირველი დიაპაზონი - მანქანის დრო: A2: A14.
  3. არგუმენტი "მასივი 2" - მნიშვნელობების მეორე დიაპაზონი - რემონტის ღირებულება: B2:B14. დააწკაპუნეთ OK.

კავშირის ტიპის დასადგენად, თქვენ უნდა დაათვალიეროთ კოეფიციენტის აბსოლუტური რაოდენობა (საქმიანობის თითოეულ სფეროს აქვს თავისი მასშტაბი).

რამდენიმე პარამეტრის (2-ზე მეტი) კორელაციური ანალიზისთვის უფრო მოსახერხებელია "მონაცემთა ანალიზის" (დამატებითი "ანალიზის პაკეტი") გამოყენება. სიაში თქვენ უნდა აირჩიოთ კორელაცია და დანიშნოთ მასივი. ყველა.

მიღებული კოეფიციენტები ნაჩვენები იქნება კორელაციის მატრიცაში. როგორც ეს:

კორელაციულ-რეგრესიული ანალიზი

პრაქტიკაში, ეს ორი ტექნიკა ხშირად გამოიყენება ერთად.

მაგალითი:


ახლა რეგრესიის ანალიზის მონაცემები ჩანს.

სტატისტიკურ მოდელირებაში რეგრესიული ანალიზი არის კვლევა, რომელიც გამოიყენება ცვლადებს შორის ურთიერთობის შესაფასებლად. ეს მათემატიკური მეთოდი მოიცავს მრავალ სხვა მეთოდს მრავალი ცვლადის მოდელირებისა და ანალიზისთვის, როდესაც აქცენტი კეთდება დამოკიდებულ ცვლადსა და ერთ ან მეტ დამოუკიდებელ ცვლადს შორის ურთიერთობაზე. უფრო კონკრეტულად, რეგრესიის ანალიზი დაგეხმარებათ გაიგოთ, თუ როგორ იცვლება დამოკიდებული ცვლადის ტიპიური მნიშვნელობა, თუ ერთ-ერთი დამოუკიდებელი ცვლადი იცვლება, ხოლო დანარჩენი დამოუკიდებელი ცვლადი ფიქსირებული რჩება.

ყველა შემთხვევაში, სამიზნე ქულა დამოუკიდებელი ცვლადების ფუნქციაა და მას რეგრესიული ფუნქცია ეწოდება. რეგრესიის ანალიზში ასევე საინტერესოა დამოკიდებული ცვლადის ცვლილების დახასიათება რეგრესიის ფუნქციის სახით, რომელიც შეიძლება აღწერილი იყოს ალბათობის განაწილების გამოყენებით.

რეგრესიული ანალიზის ამოცანები

სტატისტიკური კვლევის ეს მეთოდი ფართოდ გამოიყენება პროგნოზირებისთვის, სადაც მის გამოყენებას აქვს მნიშვნელოვანი უპირატესობა, მაგრამ ზოგჯერ შეიძლება გამოიწვიოს ილუზია ან ცრუ ურთიერთობები, ამიტომ რეკომენდებულია მისი ფრთხილად გამოყენება ამ კითხვაში, რადგან, მაგალითად, კორელაცია არ ნიშნავს მიზეზობრიობა.

შემუშავებულია მრავალი მეთოდი რეგრესიის ანალიზის შესასრულებლად, როგორიცაა წრფივი და ჩვეულებრივი უმცირესი კვადრატების რეგრესია, რომლებიც პარამეტრულია. მათი არსი იმაში მდგომარეობს, რომ რეგრესიის ფუნქცია განისაზღვრება სასრული რაოდენობის უცნობი პარამეტრების მიხედვით, რომლებიც შეფასებულია მონაცემებიდან. არაპარამეტრული რეგრესია საშუალებას აძლევს მის ფუნქციას მოთავსდეს ფუნქციების გარკვეულ კომპლექტში, რომელიც შეიძლება იყოს უსასრულო-განზომილებიანი.

როგორც სტატისტიკური კვლევის მეთოდი, რეგრესიული ანალიზი პრაქტიკაში დამოკიდებულია მონაცემთა გენერირების პროცესის ფორმაზე და იმაზე, თუ როგორ უკავშირდება ის რეგრესიულ მიდგომას. ვინაიდან მონაცემთა პროცესის გენერირების ნამდვილი ფორმა, როგორც წესი, უცნობი რიცხვია, მონაცემთა რეგრესიის ანალიზი ხშირად გარკვეულწილად დამოკიდებულია პროცესის შესახებ დაშვებებზე. ეს ვარაუდები ზოგჯერ შესამოწმებელია, თუ საკმარისი მონაცემებია ხელმისაწვდომი. რეგრესიის მოდელები ხშირად გამოსადეგია მაშინაც კი, როცა ვარაუდები ზომიერად ირღვევა, თუმცა ისინი შეიძლება არ მუშაობდნენ საუკეთესოდ.

უფრო ვიწრო გაგებით, რეგრესია შეიძლება ეხებოდეს კონკრეტულად უწყვეტი პასუხის ცვლადების შეფასებას, განსხვავებით დისკრეტული პასუხის ცვლადებისგან, რომლებიც გამოიყენება კლასიფიკაციაში. უწყვეტი გამომავალი ცვლადის შემთხვევას ასევე უწოდებენ მეტრულ რეგრესიას, რათა განასხვავოს იგი დაკავშირებული პრობლემებისგან.

ამბავი

რეგრესიის ყველაზე ადრეული ფორმა არის უმცირესი კვადრატების ცნობილი მეთოდი. იგი გამოქვეყნდა ლეჟანდრის მიერ 1805 წელს და გაუსმა 1809 წელს. ლეჟანდრმა და გაუსმა გამოიყენეს მეთოდი ასტრონომიული დაკვირვებებით მზის გარშემო სხეულების ორბიტების (ძირითადად კომეტების, მაგრამ მოგვიანებით ახლად აღმოჩენილი მცირე პლანეტების) განსაზღვრის პრობლემაზე. გაუსმა გამოაქვეყნა უმცირესი კვადრატების თეორიის შემდგომი განვითარება 1821 წელს, მათ შორის გაუს-მარკოვის თეორემის ვარიანტი.

ტერმინი „რეგრესია“ შემოიღო ფრენსის გალტონმა მე-19 საუკუნეში ბიოლოგიური ფენომენის აღსაწერად. დასკვნა ის იყო, რომ შთამომავლების ზრდა წინაპრების ზრდის შედეგად, როგორც წესი, რეგრესია ნორმალურ საშუალომდე. გალტონისთვის რეგრესიას მხოლოდ ეს ბიოლოგიური მნიშვნელობა ჰქონდა, მაგრამ მოგვიანებით მისი ნამუშევარი უდნი იოლიმ და კარლ პირსონმა აითვისეს და უფრო ზოგად სტატისტიკურ კონტექსტში გადაიყვანეს. იულისა და პირსონის ნაშრომში საპასუხო და ახსნითი ცვლადების ერთობლივი განაწილება მიჩნეულია გაუსიანად. ეს ვარაუდი უარყო ფიშერმა 1922 და 1925 წლების ნაშრომებში. ფიშერმა თქვა, რომ პასუხის ცვლადის პირობითი განაწილება არის გაუსიანი, მაგრამ ერთობლივი განაწილება არ არის აუცილებელი. ამ მხრივ, ფიშერის წინადადება უფრო ახლოსაა გაუსის 1821 წლის ფორმულირებასთან. 1970 წლამდე რეგრესიული ანალიზის შედეგის მიღებას ზოგჯერ 24 საათამდე სჭირდებოდა.

რეგრესიული ანალიზის მეთოდები კვლავაც აქტიური კვლევის სფეროა. ბოლო ათწლეულების განმავლობაში შემუშავდა ახალი მეთოდები ძლიერი რეგრესისთვის; რეგრესია, რომელიც მოიცავს კორელაციურ პასუხებს; რეგრესიის მეთოდები, რომლებიც ათავსებენ სხვადასხვა სახის გამოტოვებულ მონაცემებს; არაპარამეტრული რეგრესია; ბაიესის რეგრესიის მეთოდები; რეგრესიები, რომლებშიც პროგნოზირების ცვლადები შეცდომით იზომება; რეგრესია უფრო მეტი პროგნოზირებით, ვიდრე დაკვირვებით და მიზეზობრივი დასკვნები რეგრესით.

რეგრესიის მოდელები

რეგრესიული ანალიზის მოდელები მოიცავს შემდეგ ცვლადებს:

  • უცნობი პარამეტრები, აღინიშნება როგორც ბეტა, რომელიც შეიძლება იყოს სკალარი ან ვექტორი.
  • დამოუკიდებელი ცვლადები, X.
  • დამოკიდებული ცვლადები, Y.

მეცნიერების სხვადასხვა სფეროში, სადაც გამოიყენება რეგრესიული ანალიზი, გამოიყენება სხვადასხვა ტერმინები დამოკიდებული და დამოუკიდებელი ცვლადების ნაცვლად, მაგრამ ყველა შემთხვევაში რეგრესიის მოდელი აკავშირებს Y-ს X და β ფუნქციასთან.

მიახლოება ჩვეულებრივ ჩამოყალიბებულია როგორც E (Y | X) = F (X, β). რეგრესიული ანალიზის ჩასატარებლად უნდა განისაზღვროს f ფუნქციის ფორმა. უფრო იშვიათად, ის ეფუძნება ცოდნას Y-სა და X-ს შორის ურთიერთობის შესახებ, რომელიც არ ეყრდნობა მონაცემებს. თუ ასეთი ცოდნა არ არის ხელმისაწვდომი, მაშინ არჩეულია მოქნილი ან მოსახერხებელი ფორმა F.

დამოკიდებული ცვლადი Y

ახლა დავუშვათ, რომ β უცნობი პარამეტრების ვექტორს აქვს სიგრძე k. რეგრესიის ანალიზის შესასრულებლად მომხმარებელმა უნდა მიაწოდოს ინფორმაცია დამოკიდებული ცვლადის შესახებ:

  • თუ დაფიქსირდა ფორმის N მონაცემთა წერტილი (Y, X), სადაც N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • თუ ზუსტად N = K დაფიქსირდა და F ფუნქცია წრფივია, მაშინ განტოლება Y = F(X, β) შეიძლება ამოხსნას ზუსტად და არა მიახლოებით. ეს ემყარება N-განტოლებათა ნაკრების ამოხსნას N-უცნობებთან (β ელემენტები), რომელსაც აქვს უნიკალური ამონახსნები, სანამ X წრფივი დამოუკიდებელია. თუ F არაწრფივია, გამოსავალი შეიძლება არ არსებობდეს, ან შეიძლება იყოს ბევრი ამონახსნები.
  • ყველაზე გავრცელებული სიტუაციაა, სადაც არის N > პუნქტები მონაცემებზე. ამ შემთხვევაში, არის საკმარისი ინფორმაცია მონაცემებში, რათა შევაფასოთ β-ის უნიკალური მნიშვნელობა, რომელიც საუკეთესოდ ერგება მონაცემებს, ხოლო რეგრესიის მოდელი, როდესაც გამოიყენება მონაცემებზე, შეიძლება ჩაითვალოს β-ში გადაფარულ სისტემად.

ამ უკანასკნელ შემთხვევაში, რეგრესიის ანალიზი იძლევა ინსტრუმენტებს:

  • ამოხსნის პოვნა უცნობი პარამეტრებისთვის β, რომელიც, მაგალითად, შეამცირებს მანძილს Y-ის გაზომილ და პროგნოზირებულ მნიშვნელობას შორის.
  • გარკვეული სტატისტიკური დაშვებებით, რეგრესიის ანალიზი იყენებს ზედმეტ ინფორმაციას, რათა მიაწოდოს სტატისტიკური ინფორმაცია უცნობი პარამეტრების β და დამოკიდებული ცვლადის Y პროგნოზირებული მნიშვნელობების შესახებ.

დამოუკიდებელი გაზომვების საჭირო რაოდენობა

განვიხილოთ რეგრესიის მოდელი, რომელსაც აქვს სამი უცნობი პარამეტრი: β 0 , β 1 და β 2 . დავუშვათ, რომ ექსპერიმენტატორი აკეთებს 10 გაზომვას ვექტორის X-ის დამოუკიდებელი ცვლადის იმავე მნიშვნელობით. ამ შემთხვევაში, რეგრესიის ანალიზი არ იძლევა მნიშვნელობების უნიკალურ კომპლექტს. საუკეთესო, რისი გაკეთებაც შეგიძლიათ, არის დამოკიდებული Y ცვლადის საშუალო და სტანდარტული გადახრის შეფასება. ანალოგიურად, X-ის ორი განსხვავებული მნიშვნელობის გაზომვით, შეგიძლიათ მიიღოთ საკმარისი მონაცემები რეგრესია ორი უცნობით, მაგრამ არა სამი ან მეტი უცნობისთვის. .

თუ ექსპერიმენტატორის გაზომვები იქნა მიღებული დამოუკიდებელი ვექტორული ცვლადის X-ის სამ სხვადასხვა მნიშვნელობებზე, მაშინ რეგრესიული ანალიზი უზრუნველყოფს შეფასებების უნიკალურ კომპლექტს β-ში სამი უცნობი პარამეტრისთვის.

ზოგადი წრფივი რეგრესიის შემთხვევაში, ზემოაღნიშნული დებულება ექვივალენტურია მოთხოვნისა, რომ მატრიცა X T X იყოს შექცევადი.

სტატისტიკური დაშვებები

როდესაც გაზომვების რაოდენობა N მეტია უცნობი პარამეტრების k და გაზომვის შეცდომებზე ε i, მაშინ, როგორც წესი, გაზომვებში შემავალი ჭარბი ინფორმაცია ნაწილდება და გამოიყენება სტატისტიკური პროგნოზებისთვის უცნობი პარამეტრების შესახებ. ინფორმაციის ამ სიჭარბეს რეგრესიის თავისუფლების ხარისხს უწოდებენ.

საფუძვლიანი ვარაუდები

რეგრესიის ანალიზისთვის კლასიკური დაშვებები მოიცავს:

  • შერჩევის აღება არის დასკვნის პროგნოზირების წარმომადგენელი.
  • შეცდომა არის შემთხვევითი ცვლადი, რომლის საშუალო მნიშვნელობა ნულის ტოლია, რომელიც განპირობებულია განმარტებითი ცვლადებით.
  • დამოუკიდებელი ცვლადები იზომება შეცდომების გარეშე.
  • როგორც დამოუკიდებელი ცვლადები (პროდიქტორები), ისინი წრფივად დამოუკიდებელნი არიან, ანუ შეუძლებელია რომელიმე პროგნოზის გამოხატვა, როგორც სხვების წრფივი კომბინაცია.
  • შეცდომები არაკორელირებულია, ანუ დიაგონალების ცდომილების კოვარიანტობის მატრიცა და ყოველი არანულოვანი ელემენტი არის შეცდომის ვარიაცია.
  • შეცდომის ცვალებადობა მუდმივია დაკვირვებებში (ჰომოსკედასტიურობა). თუ არა, მაშინ შეიძლება გამოყენებულ იქნას შეწონილი უმცირესი კვადრატები ან სხვა მეთოდები.

უმცირესი კვადრატების შეფასების ამ საკმარის პირობებს აქვს საჭირო თვისებები, კერძოდ, ეს დაშვებები ნიშნავს, რომ პარამეტრების შეფასებები იქნება ობიექტური, თანმიმდევრული და ეფექტური, განსაკუთრებით მაშინ, როდესაც მხედველობაში მიიღება ხაზოვანი შეფასებების კლასში. მნიშვნელოვანია აღინიშნოს, რომ ფაქტობრივი მონაცემები იშვიათად აკმაყოფილებს პირობებს. ანუ მეთოდი გამოიყენება მაშინაც კი, თუ ვარაუდები არ არის სწორი. ვარაუდებიდან ცვალებადობა ზოგჯერ შეიძლება გამოყენებულ იქნას, როგორც საზომი, თუ რამდენად სასარგებლოა მოდელი. ამ ვარაუდებიდან ბევრი შეიძლება შემსუბუქდეს უფრო მოწინავე მეთოდებში. სტატისტიკური ანალიზის ანგარიშები, როგორც წესი, მოიცავს ტესტების ანალიზს ნიმუშის მონაცემებისა და მოდელის სარგებლიანობის მეთოდოლოგიისთვის.

გარდა ამისა, ცვლადები ზოგიერთ შემთხვევაში ეხება წერტილების ადგილებზე გაზომილ მნიშვნელობებს. შეიძლება არსებობდეს სივრცითი ტენდენციები და სივრცითი ავტოკორელაციები ცვლადებში, რომლებიც არღვევს სტატისტიკურ დაშვებებს. გეოგრაფიული შეწონილი რეგრესია ერთადერთი მეთოდია, რომელიც ეხება ასეთ მონაცემებს.

წრფივი რეგრესიის მახასიათებელია, რომ დამოკიდებული ცვლადი, რომელიც არის Y i, არის პარამეტრების წრფივი კომბინაცია. მაგალითად, მარტივ წრფივ რეგრესიაში, n-პუნქტიანი მოდელირება იყენებს ერთ დამოუკიდებელ ცვლადს, x i და ორ პარამეტრს, β 0 და β 1 .

მრავალჯერადი წრფივი რეგრესიის დროს არსებობს რამდენიმე დამოუკიდებელი ცვლადი ან მათი ფუნქცია.

პოპულაციის შემთხვევითი შერჩევისას, მისი პარამეტრები შესაძლებელს ხდის ხაზოვანი რეგრესიის მოდელის ნიმუშის მიღებას.

ამ ასპექტში ყველაზე პოპულარულია უმცირესი კვადრატების მეთოდი. ის უზრუნველყოფს პარამეტრთა შეფასებებს, რომლებიც ამცირებენ ნარჩენების კვადრატების ჯამს. ამ ფუნქციის ამგვარი მინიმიზაცია (რაც დამახასიათებელია წრფივი რეგრესიისთვის) იწვევს ნორმალური განტოლებების ერთობლიობას და პარამეტრებთან წრფივ განტოლებათა სიმრავლეს, რომლებიც წყდება პარამეტრის შეფასების მისაღებად.

თუ ვივარაუდებთ, რომ პოპულაციის შეცდომა ზოგადად გავრცელდება, მკვლევარს შეუძლია გამოიყენოს სტანდარტული შეცდომების ეს შეფასებები, რათა შექმნას ნდობის ინტერვალები და განახორციელოს ჰიპოთეზების ტესტირება მისი პარამეტრების შესახებ.

არაწრფივი რეგრესიული ანალიზი

მაგალითი, სადაც ფუნქცია არ არის წრფივი პარამეტრებთან მიმართებაში, მიუთითებს იმაზე, რომ კვადრატების ჯამი მინიმუმამდე უნდა შემცირდეს განმეორებითი პროცედურის საშუალებით. ეს იწვევს ბევრ გართულებას, რომელიც განსაზღვრავს განსხვავებებს ხაზოვან და არაწრფივ უმცირეს კვადრატების მეთოდებს შორის. შესაბამისად, რეგრესიული ანალიზის შედეგები არაწრფივი მეთოდის გამოყენებისას ზოგჯერ არაპროგნოზირებადია.

სიმძლავრის და ნიმუშის ზომის გაანგარიშება

აქ, როგორც წესი, არ არსებობს თანმიმდევრული მეთოდები დაკვირვებების რაოდენობასთან შედარებით მოდელის დამოუკიდებელი ცვლადების რაოდენობასთან. პირველი წესი შემოგვთავაზეს დობრამ და ჰარდინმა და ჰგავს N = t^n, სადაც N არის ნიმუშის ზომა, n არის განმარტებითი ცვლადების რაოდენობა და t არის დაკვირვებების რაოდენობა, რომელიც საჭიროა სასურველი სიზუსტის მისაღწევად, თუ მოდელს ჰქონდა მხოლოდ ერთი განმარტებითი ცვლადი. მაგალითად, მკვლევარი აშენებს ხაზოვანი რეგრესიის მოდელს მონაცემთა ნაკრების გამოყენებით, რომელიც შეიცავს 1000 პაციენტს (N). თუ მკვლევარი გადაწყვეტს, რომ წრფის (მ) ზუსტად დასადგენად საჭიროა ხუთი დაკვირვება, მაშინ ახსნა-განმარტებითი ცვლადების მაქსიმალური რაოდენობა, რომლის მხარდაჭერაც მოდელს შეუძლია, არის 4.

სხვა მეთოდები

მიუხედავად იმისა, რომ რეგრესიული მოდელის პარამეტრები ჩვეულებრივ ფასდება უმცირესი კვადრატების მეთოდის გამოყენებით, არის სხვა მეთოდებიც, რომლებიც ნაკლებად ხშირად გამოიყენება. მაგალითად, ეს არის შემდეგი მეთოდები:

  • ბაიესის მეთოდები (მაგალითად, ხაზოვანი რეგრესიის ბაიესის მეთოდი).
  • პროცენტული რეგრესია, რომელიც გამოიყენება სიტუაციებისთვის, სადაც პროცენტული შეცდომების შემცირება უფრო მიზანშეწონილია.
  • უმცირესი აბსოლუტური გადახრები, რომელიც უფრო მძლავრია კვანტილურ რეგრესამდე მიმავალი უკუსვლების არსებობისას.
  • არაპარამეტრული რეგრესია, რომელიც მოითხოვს დაკვირვებებისა და გამოთვლების დიდ რაოდენობას.
  • სასწავლო მეტრიკის მანძილი, რომელიც ისწავლება მოცემულ შეყვანის სივრცეში მნიშვნელოვანი მანძილის მეტრიკის ძიებაში.

პროგრამული უზრუნველყოფა

ყველა ძირითადი სტატისტიკური პროგრამული პაკეტი შესრულებულია უმცირესი კვადრატების რეგრესიის ანალიზის გამოყენებით. მარტივი ხაზოვანი რეგრესია და მრავალჯერადი რეგრესიის ანალიზი შეიძლება გამოყენებულ იქნას ცხრილების ზოგიერთ აპლიკაციაში, ასევე ზოგიერთ კალკულატორში. მიუხედავად იმისა, რომ ბევრ სტატისტიკურ პროგრამულ პაკეტს შეუძლია შეასრულოს სხვადასხვა ტიპის არაპარამეტრული და ძლიერი რეგრესია, ეს მეთოდები ნაკლებად სტანდარტიზებულია; სხვადასხვა პროგრამული პაკეტები ახორციელებენ სხვადასხვა მეთოდებს. სპეციალიზებული რეგრესიის პროგრამული უზრუნველყოფა შემუშავებულია გამოსაყენებლად ისეთ სფეროებში, როგორიცაა კვლევის ანალიზი და ნეიროვიზუალიზაცია.

ფაქტორსა და შედეგებს შორის კორელაციის არსებობისას, ექიმებს ხშირად უწევთ იმის განსაზღვრა, თუ რა ოდენობით შეიძლება შეიცვალოს ერთი ნიშნის მნიშვნელობა, როდესაც მეორე იცვლება საზომი ერთეულით, რომელიც ზოგადად მიღებული ან დადგენილია თავად მკვლევრის მიერ.

მაგალითად, როგორ შეიცვლება I კლასის მოსწავლეების (გოგონებისა თუ ბიჭების) სხეულის წონა 1 სმ-ით გაზრდის შემთხვევაში, ამ მიზნით გამოიყენება რეგრესიული ანალიზის მეთოდი.

ყველაზე ხშირად, რეგრესიული ანალიზის მეთოდი გამოიყენება ფიზიკური განვითარების ნორმატიული სკალებისა და სტანდარტების შესამუშავებლად.

  1. რეგრესიის განმარტება. რეგრესია არის ფუნქცია, რომელიც საშუალებას იძლევა, ერთი ატრიბუტის საშუალო მნიშვნელობიდან გამომდინარე, განსაზღვროს მეორე ატრიბუტის საშუალო მნიშვნელობა, რომელიც კორელაციაშია პირველთან.

    ამ მიზნით გამოიყენება რეგრესიის კოეფიციენტი და რიგი სხვა პარამეტრები. მაგალითად, შეგიძლიათ გამოთვალოთ გაციების რაოდენობა საშუალოდ შემოდგომა-ზამთრის პერიოდში ჰაერის საშუალო თვიური ტემპერატურის გარკვეულ მნიშვნელობებზე.

  2. რეგრესიის კოეფიციენტის განმარტება. რეგრესიის კოეფიციენტი არის აბსოლუტური მნიშვნელობა, რომლითაც ერთი ატრიბუტის მნიშვნელობა იცვლება საშუალოდ, როდესაც მასთან დაკავშირებული სხვა ატრიბუტი იცვლება განსაზღვრული საზომი ერთეულით.
  3. რეგრესიის კოეფიციენტის ფორმულა. R y / x \u003d r xy x (σ y / σ x)
    სადაც R y / x - რეგრესიის კოეფიციენტი;
    r xy - კორელაციის კოეფიციენტი x და y მახასიათებლებს შორის;
    (σ y და σ x) - x და y მახასიათებლების სტანდარტული გადახრები.

    ჩვენს მაგალითში;
    σ x = 4,6 (ჰაერის ტემპერატურის სტანდარტული გადახრა შემოდგომა-ზამთრის პერიოდში;
    σ y = 8,65 (ინფექციური გაციების რაოდენობის სტანდარტული გადახრა).
    ამრიგად, R y/x არის რეგრესიის კოეფიციენტი.
    R y / x \u003d -0.96 x (4.6 / 8.65) \u003d 1.8, ე.ი. ჰაერის საშუალო თვიური ტემპერატურის (x) 1 გრადუსით შემცირებით, შემოდგომა-ზამთრის პერიოდში ინფექციური გაციების საშუალო რაოდენობა (y) 1,8 შემთხვევით შეიცვლება.

  4. რეგრესიის განტოლება. y \u003d M y + R y / x (x - M x)
    სადაც y არის ატრიბუტის საშუალო მნიშვნელობა, რომელიც უნდა განისაზღვროს, როდესაც იცვლება სხვა ატრიბუტის (x) საშუალო მნიშვნელობა;
    x - სხვა მახასიათებლის ცნობილი საშუალო მნიშვნელობა;
    R y/x - რეგრესიის კოეფიციენტი;
    M x, M y - x და y მახასიათებლების ცნობილი საშუალო მნიშვნელობები.

    მაგალითად, ინფექციური გაციების საშუალო რაოდენობა (y) შეიძლება განისაზღვროს სპეციალური გაზომვების გარეშე ჰაერის საშუალო თვიური ტემპერატურის ნებისმიერ საშუალო მნიშვნელობაზე (x). ასე რომ, თუ x \u003d - 9 °, R y / x \u003d 1.8 დაავადება, M x \u003d -7 °, M y \u003d 20 დაავადება, მაშინ y \u003d 20 + 1.8 x (9-7) \u003d 20 + 3 .6 = 23.6 დაავადება.
    ეს განტოლება გამოიყენება ორ მახასიათებელს (x და y) შორის სწორხაზოვანი ურთიერთობის შემთხვევაში.

  5. რეგრესიის განტოლების დანიშნულება. რეგრესიის განტოლება გამოიყენება რეგრესიის ხაზის გამოსათვლელად. ეს უკანასკნელი საშუალებას იძლევა, სპეციალური გაზომვების გარეშე, განისაზღვროს ერთი ატრიბუტის ნებისმიერი საშუალო მნიშვნელობა (y), თუ იცვლება სხვა ატრიბუტის მნიშვნელობა (x). ამ მონაცემების საფუძველზე აგებულია გრაფიკი - რეგრესიის ხაზი, რომელიც შეიძლება გამოყენებულ იქნას გაციების საშუალო რაოდენობის დასადგენად საშუალო თვიური ტემპერატურის ნებისმიერ მნიშვნელობაზე გაციების რაოდენობის გამოთვლილ მნიშვნელობებს შორის დიაპაზონში.
  6. რეგრესიის სიგმა (ფორმულა).
    სადაც σ Ru/x - რეგრესიის სიგმა (სტანდარტული გადახრა);
    σ y არის y მახასიათებლის სტანდარტული გადახრა;
    r xy - კორელაციის კოეფიციენტი x და y მახასიათებლებს შორის.

    ასე რომ, თუ σ y არის გაციების რაოდენობის სტანდარტული გადახრა = 8,65; r xy - კორელაციის კოეფიციენტი გაციების რაოდენობას (y) და ჰაერის საშუალო თვიურ ტემპერატურას შორის შემოდგომა-ზამთრის პერიოდში (x) არის - 0.96, მაშინ.

  7. სიგმა რეგრესიის მიზანი. იძლევა მიღებული მახასიათებლის (y) მრავალფეროვნების საზომის მახასიათებელს.

    მაგალითად, იგი ახასიათებს გაციების რაოდენობის მრავალფეროვნებას ჰაერის საშუალო თვიური ტემპერატურის გარკვეულ მნიშვნელობაზე შემოდგომა-ზამთრის პერიოდში. ასე რომ, გაციების საშუალო რაოდენობა ჰაერის ტემპერატურაზე x 1 \u003d -6 ° შეიძლება იყოს 15,78 დაავადებიდან 20,62 დაავადებამდე.
    x 2 = -9°-ზე გაციების საშუალო რაოდენობა შეიძლება მერყეობდეს 21,18 დაავადებიდან 26,02 დაავადებამდე და ა.შ.

    რეგრესიის სიგმა გამოიყენება რეგრესიის სკალის აგებაში, რომელიც ასახავს ეფექტური ატრიბუტის მნიშვნელობების გადახრას მისი საშუალო მნიშვნელობიდან, რომელიც გამოსახულია რეგრესიის ხაზზე.

  8. რეგრესიის სკალის გამოსათვლელად და გამოსათვლელად საჭირო მონაცემები
    • რეგრესიის კოეფიციენტი - Ry/x;
    • რეგრესიის განტოლება - y \u003d M y + R y / x (x-M x);
    • რეგრესიული სიგმა - σ Rx/y
  9. გამოთვლების თანმიმდევრობა და რეგრესიის სკალის გრაფიკული წარმოდგენა.
    • განსაზღვრეთ რეგრესიის კოეფიციენტი ფორმულით (იხ. პუნქტი 3). მაგალითად, უნდა განისაზღვროს, რამდენად შეიცვლება სხეულის წონა საშუალოდ (გარკვეულ ასაკში სქესიდან გამომდინარე), თუ საშუალო სიმაღლე იცვლება 1 სმ-ით.
    • რეგრესიის განტოლების ფორმულის მიხედვით (იხ. პუნქტი 4), განსაზღვრეთ რა იქნება საშუალო, მაგალითად, სხეულის წონა (y, y 2, y 3 ...) * გარკვეული ზრდის მნიშვნელობისთვის (x, x 2, x 3 ...).
      ________________
      * "y"-ის მნიშვნელობა უნდა გამოითვალოს "x"-ის მინიმუმ სამი ცნობილი მნიშვნელობისთვის.

      ამავდროულად, ცნობილია სხეულის წონისა და სიმაღლის საშუალო მნიშვნელობები (M x და M y) გარკვეული ასაკისა და სქესისთვის.

    • გამოთვალეთ რეგრესიის სიგმა, იცოდეთ σ y და r xy შესაბამისი მნიშვნელობები და ჩაანაცვლეთ მათი მნიშვნელობები ფორმულაში (იხ. პუნქტი 6).
    • ცნობილი მნიშვნელობების საფუძველზე x 1, x 2, x 3 და მათი შესაბამისი საშუალო მნიშვნელობები y 1, y 2 y 3, ასევე ყველაზე პატარა (y - σ ru / x) და უდიდესი (y + σ ru / x) მნიშვნელობები (y) აყალიბებს რეგრესიის მასშტაბს.

      რეგრესიის სკალის გრაფიკული გამოსახულების მიზნით, გრაფიკზე პირველად აღინიშნება მნიშვნელობები x, x 2, x 3 (y-ღერძი), ე.ი. აგებულია რეგრესიის ხაზი, მაგალითად, სხეულის წონის (y) დამოკიდებულება სიმაღლეზე (x).

      შემდეგ, y 1 , y 2 , y 3 შესაბამის წერტილებში აღინიშნება რეგრესიის სიგმის რიცხვითი მნიშვნელობები, ე.ი. გრაფიკზე იპოვეთ y 1 , y 2 , y 3 უმცირესი და უდიდესი მნიშვნელობები.

  10. რეგრესიის სკალის პრაქტიკული გამოყენება. მუშავდება ნორმატიული სასწორები და სტანდარტები, განსაკუთრებით ფიზიკური განვითარებისთვის. სტანდარტული სკალის მიხედვით შესაძლებელია ბავშვების განვითარების ინდივიდუალური შეფასება. ამავდროულად, ფიზიკური განვითარება ფასდება, როგორც ჰარმონიული, თუ, მაგალითად, გარკვეულ სიმაღლეზე, ბავშვის სხეულის წონა არის ერთი სიგმის რეგრესიის ფარგლებში სხეულის წონის საშუალო გამოთვლილ ერთეულზე - (y) მოცემულ სიმაღლეზე (x) (y ± 1 σ Ry / x).

    ფიზიკური განვითარება სხეულის წონის თვალსაზრისით არაჰარმონიულად ითვლება, თუ ბავშვის სხეულის წონა გარკვეულ სიმაღლეზე მეორე რეგრესიული სიგმის ფარგლებშია: (y ± 2 σ Ry/x)

    ფიზიკური განვითარება მკვეთრად არაჰარმონიული იქნება როგორც სხეულის ჭარბი, ისე არასაკმარისი წონის გამო, თუ სხეულის წონა გარკვეული სიმაღლისთვის არის რეგრესიის მესამე სიგმის ფარგლებში (y ± 3 σ Ry/x).

5 წლის ბიჭების ფიზიკური განვითარების სტატისტიკური კვლევის შედეგების მიხედვით, ცნობილია, რომ მათი საშუალო სიმაღლე (x) არის 109 სმ, ხოლო სხეულის საშუალო წონა (y) 19 კგ. სიმაღლესა და სხეულის წონას შორის კორელაციის კოეფიციენტი არის +0,9, სტანდარტული გადახრები მოცემულია ცხრილში.

საჭირო:

  • რეგრესიის კოეფიციენტის გამოთვლა;
  • რეგრესიის განტოლების გამოყენებით დაადგინეთ, როგორი იქნება 5 წლის ბიჭების სხეულის მოსალოდნელი წონა სიმაღლით x1 = 100 სმ, x2 = 110 სმ, x3 = 120 სმ;
  • რეგრესიის სიგმის გამოთვლა, რეგრესიის სკალის აგება, მისი ამოხსნის შედეგების გრაფიკულად წარმოდგენა;
  • გამოიტანე შესაბამისი დასკვნები.

პრობლემის მდგომარეობა და მისი გადაჭრის შედეგები წარმოდგენილია შემაჯამებელ ცხრილში.

ცხრილი 1

პრობლემის პირობები პრობლემის გადაჭრის შედეგები
რეგრესიის განტოლება სიგმა რეგრესია რეგრესიის სკალა (სხეულის მოსალოდნელი წონა (კგ))
σ r xy R y/x X ზე σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
სიმაღლე (x) 109 სმ ± 4,4 სმ +0,9 0,16 100 სმ 17,56 კგ ± 0,35 კგ 17,21 კგ 17,91 კგ
სხეულის წონა (y) 19 კგ ± 0,8 კგ 110 სმ 19,16 კგ 18,81 კგ 19,51 კგ
120 სმ 20,76 კგ 20,41 კგ 21,11 კგ

გადაწყვეტილება.

დასკვნა.ამრიგად, რეგრესიის სკალა სხეულის წონის გამოთვლილ მნიშვნელობებში საშუალებას გაძლევთ განსაზღვროთ იგი ზრდის ნებისმიერი სხვა მნიშვნელობისთვის ან შეაფასოთ ბავშვის ინდივიდუალური განვითარება. ამისათვის აღადგინეთ პერპენდიკულარული რეგრესიის ხაზთან.

  1. ვლასოვი V.V. ეპიდემიოლოგია. - M.: GEOTAR-MED, 2004. - 464გვ.
  2. ლისიცინი Yu.P. საზოგადოებრივი ჯანდაცვა და ჯანდაცვა. სახელმძღვანელო უმაღლესი სკოლებისთვის. - M.: GEOTAR-MED, 2007. - 512გვ.
  3. მედიკ ვ.ა., იურიევი ვ.კ. ლექციების კურსი საზოგადოებრივი ჯანმრთელობისა და ჯანდაცვის შესახებ: ნაწილი 1. საზოგადოებრივი ჯანმრთელობა. - მ.: მედიცინა, 2003. - 368გვ.
  4. მინიაევი V.A., ვიშნიაკოვი N.I. სოციალური მედიცინისა და ჯანდაცვის ორგანიზაცია (სახელმძღვანელო 2 ტომად). - პეტერბურგი, 1998. -528გვ.
  5. კუჩერენკო ვ.ზ., აგარკოვი ნ.მ. და სხვა სოციალური ჰიგიენა და ჯანდაცვის ორგანიზაცია (სამეურვეო პროგრამა) - მოსკოვი, 2000. - 432 გვ.
  6. ს.გლანცი. სამედიცინო ბიოლოგიური სტატისტიკა. პერ ინგლისურიდან. - მ., პრაქტიკა, 1998. - 459გვ.

მას შემდეგ, რაც კორელაციური ანალიზმა გამოავლინა ცვლადებს შორის სტატისტიკური ურთიერთობების არსებობა და შეაფასა მათი შებოჭილობის ხარისხი, ისინი ჩვეულებრივ გადადიან კონკრეტული ტიპის დამოკიდებულების მათემატიკურ აღწერაზე რეგრესული ანალიზის გამოყენებით. ამ მიზნით, არჩეულია ფუნქციების კლასი, რომელიც აკავშირებს y ეფექტურ ინდიკატორს და არგუმენტები x 1, x 2, ..., x არჩეულია ყველაზე ინფორმაციულ არგუმენტებთან, ბმულის პარამეტრების უცნობი მნიშვნელობების შეფასება. გამოითვლება განტოლება და გაანალიზებულია მიღებული განტოლების თვისებები.

ფუნქცია f (x 1, x 2, ..., x k), რომელიც აღწერს y ეფექტური მახასიათებლის საშუალო მნიშვნელობის დამოკიდებულებას არგუმენტების მოცემულ მნიშვნელობებზე, ეწოდება რეგრესიის ფუნქცია (განტოლება). ტერმინი „რეგრესია“ (ლათ. - რეგრესია - უკან დახევა, რაღაცისკენ დაბრუნება) შემოიღო ინგლისელმა ფსიქოლოგმა და ანთროპოლოგმა ფ. გალტონმა და ასოცირდება ექსკლუზიურად ერთ-ერთი პირველი კონკრეტული მაგალითის სპეციფიკასთან, რომელშიც ეს კონცეფცია იქნა გამოყენებული. ასე რომ, სტატისტიკური მონაცემების დამუშავებით ზრდის მემკვიდრეობითობის ანალიზთან დაკავშირებით, ფ. გალტონმა აღმოაჩინა, რომ თუ მამები ყველა მამის საშუალო სიმაღლიდან x ინჩით არიან გადახრილები, მაშინ მათი ვაჟები ყველა ვაჟის საშუალო სიმაღლიდან x-ზე ნაკლებით არიან გადახრილები. ინჩი. გამოვლენილ ტენდენციას ეწოდა "რეგრესია საშუალო მდგომარეობამდე". მას შემდეგ ტერმინი „რეგრესია“ ფართოდ გამოიყენება სტატისტიკურ ლიტერატურაში, თუმცა ხშირ შემთხვევაში ის ზუსტად არ ახასიათებს სტატისტიკური დამოკიდებულების ცნებას.

რეგრესიის განტოლების ზუსტი აღწერისთვის საჭიროა ვიცოდეთ ეფექტური ინდიკატორის y განაწილების კანონი. სტატისტიკურ პრაქტიკაში, ჩვეულებრივ, უნდა შემოიფარგლოთ უცნობი ჭეშმარიტი რეგრესიის ფუნქციისთვის შესაფერისი მიახლოებების ძიებით, რადგან მკვლევარს არ აქვს ზუსტი ცოდნა ანალიზის შედეგის ინდიკატორის y ალბათობის განაწილების პირობითი კანონის შესახებ მოცემულ მნიშვნელობებზე. არგუმენტის x.

განვიხილოთ კავშირი ჭეშმარიტ f(x) = M(y1x), მოდელის რეგრესიას შორის? და რეგრესიის y ქულა. დაე, ეფექტური მაჩვენებელი y იყოს დაკავშირებული x არგუმენტთან თანაფარდობით:

სადაც - e არის შემთხვევითი ცვლადი, რომელსაც აქვს ნორმალური განაწილების კანონი, Me \u003d 0 და D e \u003d y 2. ჭეშმარიტი რეგრესიის ფუნქცია ამ შემთხვევაში არის: f(x) = M(y/x) = 2x 1.5.

დავუშვათ, რომ ჩვენ არ ვიცით ჭეშმარიტი რეგრესიის განტოლების ზუსტი ფორმა, მაგრამ გვაქვს ცხრა დაკვირვება ორგანზომილებიან შემთხვევით ცვლადზე, რომელიც დაკავშირებულია yi = 2x1.5 + e თანაფარდობით და ნაჩვენებია ნახ. ერთი

სურათი 1 - ჭეშმარიტების ურთიერთგანლაგება f (x) და თეორიული? რეგრესიის მოდელები

წერტილების მდებარეობა ნახ. 1 საშუალებას გაძლევთ შემოიფარგლოთ ფორმის ხაზოვანი დამოკიდებულებების კლასში? = 0 + ზე 1 x. უმცირესი კვადრატების მეთოდის გამოყენებით ვპოულობთ რეგრესიის განტოლების შეფასებას y = b 0 +b 1 x. შედარებისთვის, ნახ. 1 გვიჩვენებს ჭეშმარიტი რეგრესიის ფუნქციის გრაფიკებს y \u003d 2x 1.5, თეორიული მიახლოებითი რეგრესიის ფუნქცია? = 0 + ზე 1 x .

ვინაიდან ჩვენ შეცდომა დავუშვით რეგრესიის ფუნქციის კლასის არჩევისას და ეს საკმაოდ ხშირია სტატისტიკური კვლევის პრაქტიკაში, ჩვენი სტატისტიკური დასკვნები და შეფასებები მცდარი აღმოჩნდება. და რაც არ უნდა გავზარდოთ დაკვირვების მოცულობა, y-ის ჩვენი ნიმუშის შეფასება არ იქნება ახლოს ჭეშმარიტი რეგრესიის ფუნქციასთან f(x). თუ სწორად ავირჩიეთ რეგრესიის ფუნქციების კლასი, მაშინ f (x)-ის აღწერაში უზუსტობა? შეიძლება აიხსნას მხოლოდ შეზღუდული ნიმუშის ზომით.

ეფექტური ინდიკატორის y(x) და უცნობი რეგრესიული ფუნქციის f(x) = M(y/x) პირობითი მნიშვნელობის საუკეთესოდ აღდგენის მიზნით საწყისი სტატისტიკური მონაცემებიდან, ყველაზე ხშირად გამოიყენება შემდეგი ადეკვატურობის კრიტერიუმები (ზარალის ფუნქციები). .

მინიმალური კვადრატის მეთოდი. მისი მიხედვით, ეფექტური ინდიკატორის y, (i = 1,2,..., n) დაკვირვებული მნიშვნელობების კვადრატული გადახრა მოდელის მნიშვნელობებისგან მინიმუმამდეა დაყვანილი. = f(x i), სადაც x i არის არგუმენტების ვექტორის მნიშვნელობა i-ე დაკვირვებაში:

მინიმალური მოდულების მეთოდი. მისი მიხედვით, ეფექტური ინდიკატორის დაკვირვებული მნიშვნელობების აბსოლუტური გადახრების ჯამი მოდულური მნიშვნელობებისგან მინიმუმამდეა დაყვანილი. და ვიღებთ = f(x i), ნიშნავს აბსოლუტური მედიანური რეგრესია? |y i - f(х i)| > წთ.

რეგრესიული ანალიზი არის y შემთხვევითი ცვლადის დამოკიდებულების სტატისტიკური ანალიზის მეთოდი x j = (j = 1,2, ..., k) ცვლადებზე, განხილული რეგრესიის ანალიზში, როგორც არა შემთხვევითი ცვლადები, მიუხედავად ჭეშმარიტი განაწილების კანონისა. x j.

ჩვეულებრივ ვარაუდობენ, რომ შემთხვევით ცვლადს y აქვს ნორმალური განაწილების კანონი პირობითი მათემატიკური მოლოდინით y, რომელიც არის x/ (/ = 1, 2, ..., k) არგუმენტების ფუნქცია და მუდმივი, დამოუკიდებელი. არგუმენტები, ვარიაცია y 2 .

ზოგადად, რეგრესიული ანალიზის ხაზოვან მოდელს აქვს ფორმა:

= Y j=0 in (x 1 , x 2 . . .. , x ) + ე

სადაც c j არის მისი ცვლადების ზოგიერთი ფუნქცია - x 1 , x 2 . . .. ,x k , E არის შემთხვევითი ცვლადი ნულოვანი მათემატიკური მოლოდინით და დისპერსიით y 2 .

რეგრესიული ანალიზისას რეგრესიის განტოლების ტიპი შეირჩევა შესასწავლი ფენომენის ფიზიკური ხასიათისა და დაკვირვების შედეგების მიხედვით.

რეგრესიის განტოლების უცნობი პარამეტრების შეფასებები ჩვეულებრივ გვხვდება უმცირესი კვადრატების მეთოდით. ქვემოთ ამ პრობლემაზე უფრო დეტალურად ვისაუბრებთ.

ორგანზომილებიანი წრფივი რეგრესიის განტოლება. მოდით, შესასწავლი ფენომენის ანალიზიდან გამომდინარე, ვივარაუდოთ, რომ "საშუალოში" y-ს აქვს x-ის წრფივი ფუნქცია, ანუ არსებობს რეგრესიის განტოლება.

y \u003d M (y / x) \u003d 0 + ზე 1 x)

სადაც M(y1x) არის y შემთხვევითი ცვლადის პირობითი მათემატიკური მოლოდინი მოცემული x-ისთვის; 0-ზე და 1-ზე - ზოგადი პოპულაციის უცნობი პარამეტრები, რომლებიც უნდა შეფასდეს ნიმუშის დაკვირვების შედეგებით.

დავუშვათ, რომ პარამეტრების 0-ზე და 1-ზე შესაფასებლად, n ზომის ნიმუში აღებულია ორგანზომილებიანი ზოგადი პოპულაციისგან (x, y), სადაც (x, y,) არის i-ე დაკვირვების შედეგი (i. = 1, 2,..., n) . ამ შემთხვევაში, რეგრესიის ანალიზის მოდელს აქვს ფორმა:

y j = 0 + ზე 1 x+e j.

სადაც e j .- დამოუკიდებელი ნორმალურად განაწილებული შემთხვევითი ცვლადები ნულოვანი მათემატიკური მოლოდინით და დისპერსიით y 2 , ანუ M e j . = 0;

D e j .= y 2 ყველა i = 1, 2,..., n.

უმცირესი კვადრატების მეთოდის მიხედვით, უცნობი პარამეტრების შეფასებისას 0 და 1-ზე, უნდა აიღოთ ნიმუშის მახასიათებლების ისეთი მნიშვნელობები b 0 და b 1, რომ მინიმუმამდე დაიყვანოთ მიღებული მნიშვნელობების კვადრატული გადახრების ჯამი. თვისება y i პირობითი მათემატიკური მოლოდინიდან? მე

ჩვენ განვიხილავთ საწარმოს მოგებაზე მარკეტინგული მახასიათებლების გავლენის განსაზღვრის მეთოდოლოგიას ჩვიდმეტი ტიპიური საწარმოს მაგალითის გამოყენებით საშუალო ზომის და ეკონომიკური აქტივობის მაჩვენებლებით.

პრობლემის გადაჭრისას მხედველობაში მიიღეს შემდეგი მახასიათებლები, რომლებიც გამოვლინდა, როგორც ყველაზე მნიშვნელოვანი (მნიშვნელოვანი) კითხვარის გამოკითხვის შედეგად:

* საწარმოს ინოვაციური საქმიანობა;

* პროდუქციის ასორტიმენტის დაგეგმვა;

* საფასო პოლიტიკის ფორმირება;

* საზოგადოებასთან ურთიერთობები;

* მარკეტინგული სისტემა;

* თანამშრომელთა წახალისების სისტემა.

ფაქტორების მიხედვით შედარების სისტემის საფუძველზე აშენდა მიმდებარეობის კვადრატული მატრიცები, რომლებშიც გამოითვლებოდა ფარდობითი პრიორიტეტების მნიშვნელობები თითოეული ფაქტორისთვის: საწარმოს ინოვაციური საქმიანობა, პროდუქციის ასორტიმენტის დაგეგმვა, ფასების პოლიტიკა, რეკლამა, საზოგადოებასთან ურთიერთობა, გაყიდვების სისტემა, თანამშრომელთა წახალისების სისტემა.

ფაქტორთან „საზოგადოებასთან ურთიერთობის“ პრიორიტეტების შეფასება კომპანიის სპეციალისტების გამოკითხვის შედეგად იქნა მიღებული. მიღებულია შემდეგი აღნიშვნები: > (უკეთესი), > (უკეთესი ან იგივე), = (თანაბარი),< (хуже или одинаково), <

შემდეგ მოგვარდა საწარმოს მარკეტინგის დონის ყოვლისმომცველი შეფასების პრობლემა. ინდიკატორის გამოთვლისას განისაზღვრა განხილული ცალკეული ნიშნების მნიშვნელობა (წონა) და გადაიჭრა კონკრეტული ინდიკატორების წრფივი კონვოლუციის პრობლემა. მონაცემთა დამუშავება განხორციელდა სპეციალურად შემუშავებული პროგრამების მიხედვით.

შემდეგ გამოითვლება საწარმოს მარკეტინგის დონის ყოვლისმომცველი შეფასება - მარკეტინგის კოეფიციენტი, რომელიც შეტანილია ცხრილში 1. გარდა ამისა, ზემოაღნიშნული ცხრილი მოიცავს მთლიან საწარმოს დამახასიათებელ ინდიკატორებს. ცხრილში მოცემული მონაცემები გამოყენებული იქნება რეგრესიული ანალიზისთვის. შედეგი არის მოგება. მარკეტინგულ კოეფიციენტთან ერთად ფაქტორების ნიშნად გამოყენებული იქნა შემდეგი ინდიკატორები: მთლიანი პროდუქციის მოცულობა, ძირითადი საშუალებების ღირებულება, დასაქმებულთა რაოდენობა, სპეციალიზაციის კოეფიციენტი.

ცხრილი 1 - საწყისი მონაცემები რეგრესიული ანალიზისთვის


ცხრილის მონაცემებზე დაყრდნობით და კორელაციის კოეფიციენტების ყველაზე მნიშვნელოვანი მნიშვნელობების მქონე ფაქტორების საფუძველზე აშენდა ფაქტორებზე მოგების დამოკიდებულების რეგრესული ფუნქციები.

რეგრესიის განტოლება ჩვენს შემთხვევაში მიიღებს ფორმას:

რეგრესიის განტოლების კოეფიციენტები საუბრობენ ზემოთ განხილული ფაქტორების რაოდენობრივ გავლენას მოგების ოდენობაზე. ისინი აჩვენებენ, რამდენი ათასი რუბლი იცვლება მისი ღირებულება, როდესაც ფაქტორის ნიშანი იცვლება ერთი ერთეულით. როგორც განტოლებიდან ჩანს, მარკეტინგული მიქსის თანაფარდობის ზრდა ერთი ერთეულით იძლევა მოგების ზრდას 1547,7 ათასი რუბლით. ეს იმაზე მეტყველებს, რომ მარკეტინგული აქტივობების გასაუმჯობესებლად საწარმოების ეკონომიკური საქმიანობის გაუმჯობესების უზარმაზარი პოტენციალი არსებობს.

მარკეტინგის ეფექტურობის შესწავლისას ყველაზე საინტერესო და ყველაზე მნიშვნელოვანი ფაქტორის მახასიათებელია X5 ფაქტორი – მარკეტინგული კოეფიციენტი. სტატისტიკის თეორიის შესაბამისად, არსებული მრავალჯერადი რეგრესიის განტოლების უპირატესობა არის თითოეული ფაქტორის, მათ შორის მარკეტინგული ფაქტორის იზოლირებული გავლენის შეფასების შესაძლებლობა.

ჩატარებული რეგრესიული ანალიზის შედეგები ასევე უფრო ფართოდ გამოიყენება, ვიდრე განტოლების პარამეტრების გამოსათვლელად. საწარმოების (კეფ,) შედარებით უკეთესად ან შედარებით უარესად კლასიფიკაციის კრიტერიუმი ემყარება შედეგის შედარებით მაჩვენებელს:

სადაც Y facti არის მე-ე საწარმოს რეალური ღირებულება, ათასი რუბლი;

Y გამოითვლება - მე-ე საწარმოს მოგების ღირებულება, მიღებული რეგრესიის განტოლების მიხედვით გაანგარიშებით.

პრობლემის გადაჭრის თვალსაზრისით, მნიშვნელობას ეწოდება "ეფექტურობის ფაქტორი". საწარმოს საქმიანობა ეფექტური შეიძლება ჩაითვალოს იმ შემთხვევებში, როდესაც კოეფიციენტის ღირებულება ერთზე მეტია. ეს ნიშნავს, რომ ფაქტობრივი მოგება აღემატება ნიმუშის საშუალოდ მიღებულ მოგებას.

მოგების რეალური და გამოთვლილი ღირებულებები მოცემულია ცხრილში. 2.

ცხრილი 2 - ეფექტური მახასიათებლის ანალიზი რეგრესიის მოდელში

ცხრილის ანალიზი აჩვენებს, რომ ჩვენს შემთხვევაში წარმატებულად შეიძლება ჩაითვალოს 3, 5, 7, 9, 12, 14, 15, 17 საწარმოების საქმიანობა განსახილველი პერიოდისთვის.

რეგრესიული ანალიზის მთავარი მიზანიმოიცავს ურთიერთობის ანალიტიკური ფორმის განსაზღვრას, რომელშიც შედეგიანი ატრიბუტის ცვლილება განპირობებულია ერთი ან მეტი ფაქტორის ნიშნის გავლენით, ხოლო ყველა სხვა ფაქტორების ნაკრები, რომლებიც ასევე გავლენას ახდენენ შედეგზე, აღებულია როგორც მუდმივი და საშუალო მნიშვნელობები. .
რეგრესიული ანალიზის ამოცანები:
ა) დამოკიდებულების ფორმის დადგენა. რაც შეეხება ფენომენებს შორის ურთიერთობის ბუნებასა და ფორმას, არსებობს დადებითი წრფივი და არაწრფივი და უარყოფითი წრფივი და არაწრფივი რეგრესია.
ბ) რეგრესიის ფუნქციის განსაზღვრა ამა თუ იმ ტიპის მათემატიკური განტოლების სახით და დამოკიდებულ ცვლადზე განმარტებითი ცვლადების გავლენის დადგენა.
გ) დამოკიდებული ცვლადის უცნობი მნიშვნელობების შეფასება. რეგრესიის ფუნქციის გამოყენებით შეგიძლიათ დამოკიდებული ცვლადის მნიშვნელობების რეპროდუცირება ახსნა ცვლადების მოცემული მნიშვნელობების ინტერვალში (ანუ ინტერპოლაციის პრობლემის გადაჭრა) ან შეაფასოთ პროცესის მიმდინარეობა მითითებული ინტერვალის მიღმა (ე.ი. ექსტრაპოლაციის პრობლემის გადაჭრა). შედეგი არის დამოკიდებული ცვლადის მნიშვნელობის შეფასება.

წყვილთა რეგრესია - ორი ცვლადის y და x ურთიერთობის განტოლება: y=f(x), სადაც y არის დამოკიდებული ცვლადი (შედეგის ნიშანი); x - დამოუკიდებელი, ახსნა-განმარტებითი ცვლადი (მხატვრული ფაქტორი).

არსებობს წრფივი და არაწრფივი რეგრესია.
წრფივი რეგრესია: y = a + bx + ε
არაწრფივი რეგრესია იყოფა ორ კლასად: რეგრესია, რომელიც არის არაწრფივი ანალიზში შემავალი ახსნა-განმარტებითი ცვლადების მიმართ, მაგრამ წრფივი შეფასებული პარამეტრების მიმართ და რეგრესია, რომელიც არაწრფივია შეფასებული პარამეტრების მიმართ.
რეგრესია, რომელიც არაწრფივია განმარტებით ცვლადებში:

რეგრესია, რომელიც არაწრფივია სავარაუდო პარამეტრებში:

  • სიმძლავრე y=a x b ε
  • ექსპონენციალური y=a b x ε
  • ექსპონენციალური y=e a+b x ε
რეგრესიის განტოლების აგება მცირდება მისი პარამეტრების შეფასებამდე. რეგრესიების პარამეტრების შესაფასებლად, რომლებიც წრფივია პარამეტრებში, გამოიყენება უმცირეს კვადრატების მეთოდი (LSM). LSM შესაძლებელს ხდის ისეთი პარამეტრის შეფასებების მიღებას, რომლებისთვისაც y x ეფექტური მახასიათებლის რეალური მნიშვნელობების კვადრატული გადახრების ჯამი მინიმალურია, ე.ი.
.
წრფივი და არაწრფივი განტოლებისთვის, რომლებიც შემცირდება წრფივზე, შემდეგი სისტემა ამოხსნილია a და b-სთვის:

თქვენ შეგიძლიათ გამოიყენოთ მზა ფორმულები, რომლებიც გამომდინარეობს ამ სისტემისგან:

შესწავლილ ფენომენებს შორის კავშირის სიახლოვე შეფასებულია წრფივი წყვილის კორელაციის კოეფიციენტით r xy წრფივი რეგრესისთვის (-1≤r xy ≤1):

და კორელაციის ინდექსი p xy - არაწრფივი რეგრესიისთვის (0≤p xy ≤1):

აგებული მოდელის ხარისხის შეფასება მიენიჭება განსაზღვრის კოეფიციენტით (ინდექსით), ასევე საშუალო მიახლოების შეცდომით.
საშუალო მიახლოების შეცდომა არის გამოთვლილი მნიშვნელობების საშუალო გადახრა რეალურიდან:
.
მნიშვნელობების დასაშვები ზღვარი A - არაუმეტეს 8-10%.
ელასტიურობის E საშუალო კოეფიციენტი გვიჩვენებს, რამდენი პროცენტით შეიცვლება საშუალოდ შედეგი y მისი საშუალო მნიშვნელობიდან, როდესაც x ფაქტორი იცვლება მისი საშუალო მნიშვნელობიდან 1%-ით:
.

დისპერსიის ანალიზის ამოცანაა დამოკიდებული ცვლადის დისპერსიის ანალიზი:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
სადაც ∑(y-y)² არის გადახრების კვადრატული ჯამი;
∑(y x -y)² - კვადრატული გადახრების ჯამი რეგრესიის გამო („ახსნილი“ ან „ფაქტორული“);
∑(y-y x)² - კვადრატული გადახრების ნარჩენი ჯამი.
რეგრესით ახსნილი დისპერსიის წილი ეფექტური y მახასიათებლის მთლიან დისპერსიაში ხასიათდება R2-ის განსაზღვრის კოეფიციენტით (ინდექსით):

განსაზღვრის კოეფიციენტი არის კოეფიციენტის კვადრატი ან კორელაციის ინდექსი.

F-ტესტი - რეგრესიის განტოლების ხარისხის შეფასება - მოიცავს ჰიპოთეზის შემოწმებას, მაგრამ რეგრესიის განტოლების სტატისტიკური უმნიშვნელოობისა და კავშირის სიახლოვის ინდიკატორის შესახებ. ამისთვის შესრულებულია ფაქტობრივი F ფაქტისა და ფიშერის F კრიტერიუმის მნიშვნელობების კრიტიკული (ტაბულური) F ცხრილის შედარება. F ფაქტი განისაზღვრება ფაქტორული და ნარჩენი ვარიაციების მნიშვნელობების თანაფარდობიდან, რომელიც გამოითვლება თავისუფლების ერთი ხარისხით:
,
სადაც n არის მოსახლეობის ერთეულების რაოდენობა; m არის x ცვლადების პარამეტრების რაოდენობა.
F ცხრილი არის კრიტერიუმის მაქსიმალური შესაძლო მნიშვნელობა შემთხვევითი ფაქტორების გავლენის ქვეშ თავისუფლების მოცემული ხარისხებისა და მნიშვნელოვნების დონის a. მნიშვნელოვნების დონე a - სწორი ჰიპოთეზის უარყოფის ალბათობა, იმ პირობით, რომ ის სიმართლეა. ჩვეულებრივ a აღებულია 0,05 ან 0,01-ის ტოლი.
თუ F მაგიდა< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F ფაქტია, მაშინ ჰიპოთეზა H შესახებ არ არის უარყოფილი და აღიარებულია სტატისტიკური უმნიშვნელოობა, რეგრესიის განტოლების არასანდოობა.
რეგრესიისა და კორელაციის კოეფიციენტების სტატისტიკური მნიშვნელოვნების შესაფასებლად გამოითვლება Student-ის t-ტესტი და ნდობის ინტერვალები თითოეული ინდიკატორისთვის. წამოყენებულია ჰიპოთეზა H ინდიკატორების შემთხვევითობის შესახებ, ე.ი. მათი უმნიშვნელო სხვაობის შესახებ ნულიდან. რეგრესიის და კორელაციის კოეფიციენტების მნიშვნელოვნების შეფასება სტუდენტის t-ტესტის გამოყენებით ხორციელდება მათი მნიშვნელობების შედარებით შემთხვევითი შეცდომის სიდიდესთან:
; ; .
წრფივი რეგრესიის პარამეტრების და კორელაციის კოეფიციენტის შემთხვევითი შეცდომები განისაზღვრება ფორმულებით:



t-სტატისტიკის ფაქტობრივი და კრიტიკული (ტაბულური) მნიშვნელობების შედარება - t tabl და t ფაქტი - ჩვენ ვიღებთ ან უარვყოფთ ჰიპოთეზას H o.
ფიშერის F-ტესტსა და სტუდენტის t-სტატისტიკას შორის კავშირი გამოიხატება თანასწორობით

თუ t მაგიდა< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t ის ფაქტი, რომ ჰიპოთეზა H შესახებ არ არის უარყოფილი და აღიარებულია a, b ან r xy-ის წარმოქმნის შემთხვევითი ბუნება.
ნდობის ინტერვალის გამოსათვლელად, ჩვენ განვსაზღვრავთ ზღვრულ შეცდომას D თითოეული ინდიკატორისთვის:
Δ a =t ცხრილი m a, Δ b =t ცხრილი m b.
ნდობის ინტერვალების გამოთვლის ფორმულები შემდეგია:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; γ b = b-Δ b ; γb =b+Δb
თუ ნული ხვდება ნდობის ინტერვალის საზღვრებში, ე.ი. თუ ქვედა ზღვარი უარყოფითია, ხოლო ზედა ზღვარი დადებითი, მაშინ სავარაუდო პარამეტრი ითვლება ნულამდე, რადგან მას არ შეუძლია ერთდროულად მიიღოს როგორც დადებითი, ასევე უარყოფითი მნიშვნელობები.
საპროგნოზო მნიშვნელობა y p განისაზღვრება შესაბამისი (საპროგნოზო) მნიშვნელობის x p ჩანაცვლებით რეგრესიის განტოლებაში y x =a+b·x. m y x პროგნოზის საშუალო სტანდარტული შეცდომა გამოითვლება:
,
სადაც
და აგებულია პროგნოზის ნდობის ინტერვალი:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y p
სადაც Δ y x =t ცხრილი ·m y x.

გადაწყვეტის მაგალითი

დავალება ნომერი 1. ურალის რეგიონის შვიდი ტერიტორიისთვის 199X-სთვის ცნობილია ორი ნიშნის მნიშვნელობა.
ცხრილი 1.

საჭირო: 1. y-ის x-ზე დამოკიდებულების დასახასიათებლად გამოთვალეთ შემდეგი ფუნქციების პარამეტრები:
ა) წრფივი;
ბ) ძალაუფლების კანონი (ადრე საჭირო იყო ცვლადების წრფივიზაციის პროცედურის შესრულება ორივე ნაწილის ლოგარითმის აღებით);
გ) დემონსტრაციული;
დ) ტოლგვერდა ჰიპერბოლა (ასევე უნდა გაარკვიოთ, როგორ მოახდინო ამ მოდელის წინასწარ წრფივება).
2. შეაფასეთ თითოეული მოდელი საშუალო მიახლოების შეცდომით A და ფიშერის F ტესტის საშუალებით.

გამოსავალი (ვარიანტი #1)

y=a+b·x წრფივი რეგრესიის a და b პარამეტრების გამოსათვლელად (გამოთვლა შეიძლება მოხდეს კალკულატორის გამოყენებით).
ამოხსნათ ნორმალური განტოლებების სისტემა და ბ:
საწყის მონაცემებზე დაყრდნობით ვიანგარიშებთ ∑y, ∑x, ∑y x, ∑x², ∑y²:
x yx x2 y2 y xწ-ი xაი
68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
სულ405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ოთხ ღირებულება (სულ/ნ)57,89
54,90
x
3166,05
x წ
3048,34
3383,68
XX8,1
5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

რეგრესიის განტოლება: y= 76,88 - 0,35X.საშუალო დღიური ხელფასის ზრდით 1 რუბლით. საკვები პროდუქტების შესყიდვაზე გაწეული ხარჯების წილი მცირდება საშუალოდ 0,35%-იანი პუნქტით.
გამოთვალეთ წყვილის კორელაციის წრფივი კოეფიციენტი:

კომუნიკაცია არის ზომიერი, საპირისპირო.
განვსაზღვროთ განსაზღვრის კოეფიციენტი: r² xy =(-0.35)=0.127
შედეგის 12.7%-იანი ცვალებადობა აიხსნება x ფაქტორის ცვალებადობით. ფაქტობრივი მნიშვნელობების ჩანაცვლება რეგრესიის განტოლებაში Xჩვენ განვსაზღვრავთ y x-ის თეორიულ (გამოთვლილ) მნიშვნელობებს. მოდით ვიპოვოთ საშუალო მიახლოების შეცდომის მნიშვნელობა A:

საშუალოდ, გამოთვლილი მნიშვნელობები 8,1%-ით გადახრის რეალურს.
მოდით გამოვთვალოთ F- კრიტერიუმი:

მიღებული მნიშვნელობა მიუთითებს H 0 ჰიპოთეზის მიღების აუცილებლობაზე გამოვლენილი დამოკიდებულების შემთხვევითი ხასიათისა და განტოლების პარამეტრების და კავშირის სიმჭიდროვის ინდიკატორის სტატისტიკური არამნიშვნელოვნების შესახებ.
1ბ. y=a x b სიმძლავრის მოდელის კონსტრუქციას წინ უძღვის ცვლადების წრფივიზაციის პროცედურა. მაგალითში, წრფივირება ხდება განტოლების ორივე მხარის ლოგარითმის აღებით:
lg y=lg a + b lg x
Y=C+b Y
სადაც Y=lg(y), X=lg(x), C=lg(a).

გამოთვლებისთვის ვიყენებთ ცხრილის მონაცემებს. 1.3.
ცხრილი 1.3

X YX Y2 x2 y xწ-ი x(y-yx)²აი
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
სულ12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
ნიშნავს1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

გამოთვალეთ C და b:

C=Y -b X = 1.7605+0.298 1.7370 = 2.278126
ვიღებთ წრფივ განტოლებას: Y=2.278-0.298 X
მისი გაძლიერების შემდეგ მივიღებთ: y=10 2.278 x -0.298
ამ განტოლებაში ჩანაცვლება რეალური მნიშვნელობებით X,ჩვენ ვიღებთ შედეგის თეორიულ მნიშვნელობებს. მათზე დაყრდნობით ვიანგარიშებთ ინდიკატორებს: კავშირის სიმჭიდროვე - კორელაციის ინდექსი p xy და საშუალო მიახლოების შეცდომა A .

სიმძლავრის მოდელის მახასიათებლები მიუთითებს იმაზე, რომ ის გარკვეულწილად უკეთ აღწერს ურთიერთობას, ვიდრე ხაზოვანი ფუნქცია.

1c. ექსპონენციური მრუდის y \u003d a b x განტოლების აგებას წინ უძღვის ცვლადების წრფივირების პროცედურა განტოლების ორივე ნაწილის ლოგარითმის აღებისას:
lg y=lg a + x lg b
Y=C+B x
გამოთვლებისთვის ვიყენებთ ცხრილის მონაცემებს.

x Yx Y2 x2y xწ-ი x(y-yx)²აი
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
სულ12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ოთხ zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

რეგრესიის პარამეტრების მნიშვნელობები A და ATშეადგინა:

A=Y -B x = 1.7605+0.0023 54.9 = 1.887
მიღებულია წრფივი განტოლება: Y=1,887-0,0023x. ჩვენ ვაძლიერებთ მიღებულ განტოლებას და ვწერთ მას ჩვეულებრივი ფორმით:
y x =10 1.887 10 -0.0023x = 77.1 0.9947 x
ჩვენ ვაფასებთ ურთიერთობის სიმჭიდროვეს კორელაციის ინდექსის p xy მეშვეობით:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 სულ405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 ნიშნავს57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX