როგორ განვსაზღვროთ პირსონის ტესტში მნიშვნელოვნების დონე. პრობლემების გადაჭრა სტატისტიკური ჰიპოთეზების შესამოწმებლად

χ 2 კრიტერიუმის მიზანი - პირსონის კრიტერიუმი კრიტერიუმი χ 2 გამოიყენება ორი მიზნით: 1) ნიშნის ემპირიული განაწილების შედარება თეორიულთან - ერთგვაროვანი, ნორმალური ან სხვა; 2) ერთი და იგივე მახასიათებლის ორი, სამი ან მეტი ემპირიული განაწილების შედარება. კრიტერიუმის აღწერა χ 2 კრიტერიუმი პასუხობს კითხვას, ხდება თუ არა მახასიათებლის სხვადასხვა მნიშვნელობები იგივე სიხშირით ემპირიულ და თეორიულ განაწილებაში თუ ორ ან მეტ ემპირიულ განაწილებაში. მეთოდის უპირატესობა ის არის, რომ ის საშუალებას იძლევა შევადაროთ მახასიათებლების განაწილება ნებისმიერ მასშტაბში, სახელების სკალიდან დაწყებული. ალტერნატიული განაწილების უმარტივეს შემთხვევაში "დიახ - არა", "დაქორწინებული - არ დაუშვა ქორწინება", "პრობლემა გადაჭრა - პრობლემა არ გადაჭრა" და ა.შ., უკვე შეგვიძლია გამოვიყენოთ χ 2 კრიტერიუმი. რაც უფრო დიდია შეუსაბამობა ორ შესადარებელ განაწილებას შორის, მით მეტია χ 2-ის ემპირიული მნიშვნელობა. χ 2 - პირსონის კრიტერიუმის ავტომატური გამოთვლა χ 2 - პირსონის კრიტერიუმის ავტომატურად გამოსათვლელად აუცილებელია ორი ნაბიჯის შესრულება: Ნაბიჯი 1. მიუთითეთ ემპირიული განაწილების რაოდენობა (1-დან 10-მდე); ნაბიჯი 2. შეიყვანეთ ემპირიული სიხშირეები ცხრილში; ნაბიჯი 3. მიიღეთ პასუხი.

პირსონის კრიტერიუმის უპირატესობა მისი უნივერსალურობაა: მისი გამოყენება შესაძლებელია სხვადასხვა განაწილების კანონების შესახებ ჰიპოთეზების შესამოწმებლად.

1. ნორმალური განაწილების ჰიპოთეზის ტესტირება.

მივიღოთ საკმარისად დიდი ზომის ნიმუში მრავალი განსხვავებული ვარიანტის მნიშვნელობებით. მისი დამუშავების მოხერხებულობისთვის, ჩვენ ვყოფთ ინტერვალს ვარიანტის მნიშვნელობების უმცირესიდან ყველაზე დიდამდე. თანაბარი ნაწილები და ჩვენ ვივარაუდებთ, რომ ოფციონების მნიშვნელობები, რომლებიც შედის თითოეულ ინტერვალში, დაახლოებით ტოლია იმ რიცხვისა, რომელიც განსაზღვრავს შუა ინტერვალის. თითოეულ ინტერვალში მოხვედრილი ვარიანტების რაოდენობის დათვლის შემდეგ, ჩვენ გავაკეთებთ ეგრეთ წოდებულ დაჯგუფებულ ნიმუშს:

პარამეტრები……….. X 1 X 2 … x ს

სიხშირეები …………. 1 2 … ნ ს ,

სადაც x iარის ინტერვალების შუა წერტილების მნიშვნელობები და n iარის მასში შემავალი ვარიანტების რაოდენობა მეე ინტერვალი (ემპირიული სიხშირეები).



მიღებული მონაცემების საფუძველზე შესაძლებელია გამოითვალოს ნიმუშის საშუალო და ნიმუშის სტანდარტული გადახრა σ B. მოდით შევამოწმოთ ვარაუდი, რომ საერთო პოპულაცია განაწილებულია ნორმალური კანონის მიხედვით პარამეტრებით (X) = , (X) = . შემდეგ შეგიძლიათ იპოვოთ რიცხვების რაოდენობა მოცულობის ნიმუშიდან , რომელიც უნდა იყოს თითოეულ ინტერვალში ამ დაშვების მიხედვით (ანუ თეორიული სიხშირეები). ამისათვის, ლაპლასის ფუნქციის მნიშვნელობების ცხრილის გამოყენებით, ვპოულობთ დარტყმის ალბათობას მე- ინტერვალი:

,

სადაც ა იდა ბ ი- საზღვრები მე- ინტერვალი. მიღებული ალბათობების გამრავლებით ნიმუშის ზომაზე n, ვიპოვით თეორიულ სიხშირეებს: p i =n p i.ჩვენი მიზანია შევადაროთ ემპირიული და თეორიული სიხშირეები, რომლებიც, რა თქმა უნდა, განსხვავდებიან ერთმანეთისგან და გავარკვიოთ, არის თუ არა ეს განსხვავებები უმნიშვნელო, არ უარვყოთ შესასწავლი შემთხვევითი ცვლადის ნორმალური განაწილების ჰიპოთეზა. იმდენად დიდი, რომ ისინი ეწინააღმდეგებიან ამ ჰიპოთეზას. ამისათვის გამოიყენება კრიტერიუმი შემთხვევითი ცვლადის სახით

. (20.1)

მისი მნიშვნელობა აშკარაა: შეჯამებულია ნაწილები, რომლებიც წარმოადგენს ემპირიული სიხშირეების გადახრების კვადრატებს თეორიულიდან შესაბამისი თეორიული სიხშირეებიდან. შეიძლება დადასტურდეს, რომ ზოგადი პოპულაციის რეალური განაწილების კანონის მიუხედავად, შემთხვევითი ცვლადის (20.1) განაწილების კანონი მიდრეკილია განაწილების კანონისკენ (იხ. ლექცია 12) თავისუფლების ხარისხით. k = s - 1 – , სად არის სავარაუდო განაწილების პარამეტრების რაოდენობა, რომელიც შეფასებულია ნიმუშის მონაცემებიდან. ნორმალური განაწილება ხასიათდება ორი პარამეტრით, ასე რომ k = s - 3. შერჩეული კრიტერიუმისთვის აგებულია მემარჯვენე კრიტიკული რეგიონი, რომელიც განისაზღვრება პირობით.

(20.2)

სადაც α - მნიშვნელობის დონე. აქედან გამომდინარე, კრიტიკული რეგიონი მოცემულია უთანასწორობით და ჰიპოთეზის მიღების არეა არის .

ასე რომ, ნულოვანი ჰიპოთეზის შესამოწმებლად 0: პოპულაცია ჩვეულებრივ განაწილებულია - თქვენ უნდა გამოთვალოთ კრიტერიუმის დაკვირვებული მნიშვნელობა ნიმუშიდან:

, (20.1`)

და χ 2 განაწილების კრიტიკული წერტილების ცხრილის მიხედვით იპოვეთ კრიტიკული წერტილი α და ცნობილი მნიშვნელობების გამოყენებით k = s - 3. თუ - ნულოვანი ჰიპოთეზა მიღებულია, თუ იგი უარყოფილია.

2. ერთგვაროვანი განაწილების ჰიპოთეზის ტესტირება.

პირსონის ტესტის გამოყენებისას ზოგადი პოპულაციის ერთგვაროვანი განაწილების ჰიპოთეზის შესამოწმებლად სავარაუდო ალბათობის სიმკვრივით

აუცილებელია, რომ გამოვთვალოთ მნიშვნელობა არსებული ნიმუშიდან, შევაფასოთ პარამეტრები და ფორმულების მიხედვით:

სადაც ა*და ბ*- შეფასებით და . მართლაც, ერთიანი განაწილებისთვის (X) = , , საიდანაც შეგიძლიათ მიიღოთ განსაზღვრის სისტემა ა*და *: , რომლის ამოხსნა არის გამონათქვამები (20.3).

მაშინ, იმ ვარაუდით, რომ ფორმულების გამოყენებით შეგიძლიათ იპოვოთ თეორიული სიხშირეები

Აქ არის ინტერვალების რაოდენობა, რომლებშიც იყოფა ნიმუში.

პირსონის კრიტერიუმის დაკვირვებული მნიშვნელობა გამოითვლება ფორმულით (20.1`), ხოლო კრიტიკული მნიშვნელობა გამოითვლება ცხრილიდან, იმის გათვალისწინებით, რომ თავისუფლების გრადუსების რაოდენობა k = s - 3. ამის შემდეგ კრიტიკული რეგიონის საზღვრები დგინდება ისე, როგორც ნორმალური განაწილების ჰიპოთეზის შესამოწმებლად.

3. ჰიპოთეზის შემოწმება ექსპონენციალური განაწილების შესახებ.

ამ შემთხვევაში, არსებული ნიმუშის თანაბარი სიგრძის ინტერვალებად დაყოფით, განვიხილავთ ვარიანტების თანმიმდევრობას ერთმანეთისგან თანაბარ მანძილზე (ვვარაუდობთ, რომ ყველა ვარიანტი, რომელიც ხვდება მე-ე ინტერვალი, აიღეთ მნიშვნელობა, რომელიც ემთხვევა მის შუას) და მათ შესაბამის სიხშირეებს n i(შეტანილი ნიმუშის ვარიანტების რაოდენობა მე– მე-თე ინტერვალი). ჩვენ ვიანგარიშებთ ამ მონაცემებიდან და ვიღებთ პარამეტრის შეფასებას λ ღირებულება . შემდეგ თეორიული სიხშირეები გამოითვლება ფორმულით

შემდეგ ხდება პირსონის კრიტერიუმის დაკვირვებული და კრიტიკული მნიშვნელობების შედარება, იმის გათვალისწინებით, რომ თავისუფლების ხარისხების რაოდენობა k = s - 2.

განიხილეთ განაცხადიᲥᲐᲚᲑᲐᲢᲝᲜᲘEXCELპირსონის ჩი-კვადრატის ტესტი მარტივი ჰიპოთეზების შესამოწმებლად.

ექსპერიმენტული მონაცემების მიღების შემდეგ (ანუ როცა არის გარკვეული ნიმუში) ჩვეულებრივ არჩეულია განაწილების კანონი, რომელიც საუკეთესოდ აღწერს მოცემულით წარმოდგენილ შემთხვევით ცვლადს სინჯის აღება. იმის შემოწმება, თუ რამდენად კარგად არის აღწერილი ექსპერიმენტული მონაცემები არჩეული თეორიული განაწილების კანონით, ხორციელდება გამოყენებით თანხმობის კრიტერიუმები. ნულოვანი ჰიპოთეზა, ჩვეულებრივ, არსებობს ჰიპოთეზა, რომ შემთხვევითი ცვლადის განაწილება უდრის რაღაც თეორიულ კანონს.

ჯერ მოდით შევხედოთ აპლიკაციას პირსონის სიკეთის ტესტი X 2 (chi-კვადრატი)მარტივ ჰიპოთეზებთან მიმართებაში (თეორიული განაწილების პარამეტრები ცნობილი ვარაუდობენ). შემდეგ - , როდესაც მითითებულია მხოლოდ განაწილების ფორმა და ამ განაწილების პარამეტრები და მნიშვნელობა სტატისტიკა X 2 ფასდება/გამოითვლება იმავეს საფუძველზე ნიმუშები.

შენიშვნა: ინგლისურენოვან ლიტერატურაში განაცხადის პროცედურა პირსონის სიკეთის ტესტი X 2 აქვს სახელი მორგების ჩი-კვადრატის სიკეთის ტესტი.

გავიხსენოთ ჰიპოთეზების ტესტირების პროცედურა:

  • დაფუძნებული ნიმუშებიღირებულება გამოითვლება სტატისტიკა, რომელიც შეესაბამება შესამოწმებელი ჰიპოთეზის ტიპს. მაგალითად, გამოსაყენებლად - სტატისტიკა(თუ არ არის ცნობილი);
  • სიმართლეს ექვემდებარება ნულოვანი ჰიპოთეზა, განაწილება ამ სტატისტიკაცნობილია და შეიძლება გამოყენებულ იქნას ალბათობების გამოსათვლელად (მაგალითად, ამისთვის - სტატისტიკაეს არის );
  • გამოითვლება საფუძველზე ნიმუშებიმნიშვნელობა სტატისტიკამოცემული მნიშვნელობის კრიტიკულ მნიშვნელობასთან შედარებით ();
  • ნულოვანი ჰიპოთეზაუარყოფილია თუ მნიშვნელობა სტატისტიკაკრიტიკულზე მეტი (ან თუ ამ მნიშვნელობის მიღების ალბათობა სტატისტიკა() ნაკლები მნიშვნელობის დონე, რაც ექვივალენტური მიდგომაა).

დავხარჯოთ ჰიპოთეზის ტესტირებასხვადასხვა განაწილებისთვის.

დისკრეტული საქმე

დავუშვათ, ორი ადამიანი თამაშობს კამათელს. თითოეულ მოთამაშეს აქვს კამათლების საკუთარი ნაკრები. მოთამაშეები რიგრიგობით აგორებენ 3 კამათელს ერთდროულად. თითოეულ რაუნდს იგებს ის, ვინც ერთდროულად ათამაშებს მეტ ექვსს. შედეგები ჩაწერილია. ერთ-ერთ მოთამაშეს 100 ტურის შემდეგ გაუჩნდა ეჭვი, რომ მეტოქის ძვლები არ იყო სიმეტრიული, რადგან. ის ხშირად იგებს (ხშირად ისვრის ექვსს). მან გადაწყვიტა გაეანალიზებინა, რამდენად სავარაუდოა მოწინააღმდეგის შედეგების ასეთი რაოდენობა.

შენიშვნა: იმიტომ 3 კამათელი, შემდეგ შეგიძლიათ გააგოროთ 0 ერთდროულად; ერთი; 2 ან 3 ექვსიანი, ე.ი. შემთხვევით ცვლადს შეუძლია მიიღოს 4 მნიშვნელობა.

ალბათობის თეორიიდან ვიცით, რომ თუ კუბები სიმეტრიულია, მაშინ ემორჩილება ექვსის ამოვარდნის ალბათობა. ამიტომ, 100 რაუნდის შემდეგ, ექვსის სიხშირე შეიძლება გამოითვალოს ფორმულის გამოყენებით
=BINOM.DIST(A7,3,1/6,FALSE)*100

ფორმულა ვარაუდობს, რომ უჯრედი A7 შეიცავს ერთ რაუნდში ჩავარდნილ ექვსეულების შესაბამის რაოდენობას.

შენიშვნა: გამოთვლები მოცემულია ფაილის მაგალითი ფურცელზე დისკრეტული.

Შესადარებლად დააკვირდა(დაკვირვებული) და თეორიული სიხშირეები(მოსალოდნელი) მოსახერხებელი გამოსაყენებლად.

დაკვირვებული სიხშირეების მნიშვნელოვანი გადახრით თეორიული განაწილებიდან, ნულოვანი ჰიპოთეზაშემთხვევითი ცვლადის განაწილების შესახებ თეორიული კანონის მიხედვით, უარყოფილი უნდა იყოს. ანუ, თუ მოწინააღმდეგის კამათლები არ არის სიმეტრიული, მაშინ დაკვირვებული სიხშირეები "მნიშვნელოვნად განსხვავდება" ბინომალური განაწილება.

ჩვენს შემთხვევაში, ერთი შეხედვით, სიხშირეები საკმაოდ ახლოსაა და გათვლების გარეშე ძნელია ცალსახა დასკვნის გაკეთება. გამოიყენება პირსონის სიკეთის ტესტი X 2, ისე რომ სუბიექტური განცხადების ნაცვლად „მნიშვნელოვნად განსხვავებული“, რომელიც შეიძლება გაკეთდეს შედარების საფუძველზე ჰისტოგრამები, გამოიყენეთ მათემატიკურად სწორი დებულება.

გამოვიყენოთ ის ფაქტი, რომ დიდი რიცხვების კანონიდაკვირვებული სიხშირე (დაკვირვებული) მოცულობის გაზრდით ნიმუშები n მიდრეკილია თეორიული კანონის შესაბამისი ალბათობისკენ (ჩვენს შემთხვევაში, ბინომალური კანონი). ჩვენს შემთხვევაში, ნიმუშის ზომა n არის 100.

წარმოვიდგინოთ ტესტი სტატისტიკა, რომელსაც აღვნიშნავთ X 2-ით:

სადაც O l არის მოვლენების დაკვირვებული სიხშირე, რომლითაც შემთხვევითმა ცვლადმა მიიღო გარკვეული მისაღები მნიშვნელობები, E l არის შესაბამისი თეორიული სიხშირე (მოსალოდნელი). L არის მნიშვნელობების რაოდენობა, რომელიც შეიძლება მიიღოს შემთხვევითმა ცვლადმა (ჩვენს შემთხვევაში ის უდრის 4-ს).

როგორც ფორმულიდან ჩანს, ეს სტატისტიკაარის დაკვირვებული სიხშირეების თეორიულთან სიახლოვის საზომი, ე.ი. ის შეიძლება გამოყენებულ იქნას ამ სიხშირეებს შორის "მანძილების" შესაფასებლად. თუ ამ "მანძილების" ჯამი "ზედმეტად დიდია", მაშინ ეს სიხშირეები "არსებითად განსხვავებულია". ნათელია, რომ თუ ჩვენი კუბი სიმეტრიულია (ე.ი. გამოიყენება ბინომალური კანონი), მაშინ ალბათობა იმისა, რომ "დისტანციების" ჯამი "ძალიან დიდი" იქნება მცირე. ამ ალბათობის გამოსათვლელად, ჩვენ უნდა ვიცოდეთ განაწილება სტატისტიკა X 2 ( სტატისტიკა X 2 გამოითვლება შემთხვევითობის საფუძველზე ნიმუშებიასე რომ, ეს არის შემთხვევითი ცვლადი და, შესაბამისად, აქვს საკუთარი ალბათობის განაწილება).

მრავალგანზომილებიანი ანალოგიდან მოივრე-ლაპლასის ინტეგრალური თეორემაცნობილია, რომ n->∞-ისთვის ჩვენი შემთხვევითი ცვლადი X 2 ასიმპტომურად არის L - 1 გრადუსიანი თავისუფლებით.

ასე რომ, თუ გამოთვლილი მნიშვნელობა სტატისტიკა X 2 (სიხშირეებს შორის „მანძილების“ ჯამი) იქნება გარკვეულ ზღვრულ მნიშვნელობაზე მეტი, მაშინ გვექნება უარის მიზეზი. ნულოვანი ჰიპოთეზა. როგორც შემოწმებაში პარამეტრული ჰიპოთეზები, ზღვრული მნიშვნელობა დაყენებულია მეშვეობით მნიშვნელობის დონე. თუ ალბათობა იმისა, რომ სტატისტიკა X 2 მიიღებს გამოთვლილზე ნაკლები ან ტოლი მნიშვნელობას ( გვ- მნიშვნელობა) ნაკლები იქნება მნიშვნელობის დონე, მაშინ ნულოვანი ჰიპოთეზაშეიძლება უარი თქვას.

ჩვენს შემთხვევაში, სტატისტიკური მნიშვნელობა არის 22.757. ალბათობა იმისა, რომ X 2 სტატისტიკა მიიღებს 22,757-ზე მეტ ან ტოლ მნიშვნელობას, არის ძალიან მცირე (0,000045) და შეიძლება გამოითვალოს ფორმულების გამოყენებით
=XI2.DIST.PX(22757;4-1)ან
=XI2.TEST(დაკვირვებული; მოსალოდნელი)

შენიშვნა: CH2.TEST() ფუნქცია სპეციალურად შექმნილია ორ კატეგორიულ ცვლადს შორის კავშირის შესამოწმებლად (იხ.).

0.000045-ის ალბათობა ჩვეულებრივზე საგრძნობლად ნაკლებია მნიშვნელობის დონე 0.05. ასე რომ, მოთამაშეს აქვს ყველა მიზეზი, რომ ეჭვი შეიტანოს მის მოწინააღმდეგეს არაკეთილსინდისიერებაში ( ნულოვანი ჰიპოთეზამისი პატიოსნების შესახებ უარყოფილია).

როდესაც გამოიყენება კრიტერიუმი X 2ზრუნვა უნდა იქნას მიღებული, რათა უზრუნველყოს მოცულობა ნიმუშები n იყო საკმარისად დიდი, წინააღმდეგ შემთხვევაში განაწილების მიახლოება არასწორი იქნებოდა სტატისტიკა X 2. ჩვეულებრივ მიჩნეულია, რომ ამისათვის საკმარისია დაკვირვებული სიხშირეები (დაკვირვებული) იყოს 5-ზე მეტი. თუ ეს ასე არ არის, მაშინ დაბალი სიხშირეები გაერთიანებულია ერთში ან უერთდება სხვა სიხშირეებს და საერთო ალბათობა ენიჭება კომბინირებული მნიშვნელობა და, შესაბამისად, მცირდება თავისუფლების გრადუსების რაოდენობა X 2 -განაწილება.

განაცხადის ხარისხის გასაუმჯობესებლად კრიტერიუმი X 2(), აუცილებელია დანაყოფის ინტერვალების შემცირება (გაზრდის L და, შესაბამისად, რაოდენობის გაზრდას თავისუფლების ხარისხები), თუმცა, ამას ხელს უშლის დაკვირვების რაოდენობის შეზღუდვა, რომელიც შედის თითოეულ ინტერვალში (d.b.>5).

უწყვეტი შემთხვევა

Pearson-ის სიკეთე-of-fit ტესტი X 2 ანალოგიურად შეიძლება გამოყენებულ იქნას შემთხვევაში.

განვიხილოთ ზოგიერთი სინჯის აღება, რომელიც შედგება 200 მნიშვნელობისაგან. Ნულოვანი ჰიპოთეზააცხადებს, რომ ნიმუშიდამზადებულია.

შენიშვნა: შემთხვევითი ცვლადები in ფაილის ნიმუში ფურცელზე უწყვეტიგენერირებული ფორმულის გამოყენებით =NORM.ST.INV(RAND()). ამიტომ, ახალი ღირებულებები ნიმუშებიგენერირდება ფურცლის ხელახალი გამოთვლის დროს.

არის თუ არა ხელმისაწვდომი მონაცემთა ნაკრები ადეკვატური, შეიძლება ვიზუალურად შეფასდეს.

როგორც დიაგრამიდან ხედავთ, ნიმუშის მნიშვნელობები საკმაოდ კარგად ჯდება სწორი ხაზის გასწვრივ. თუმცა, რაც შეეხება ჰიპოთეზის ტესტირებამოქმედი პირსონის სიკეთის ტესტი X 2.

ამისათვის ჩვენ ვყოფთ შემთხვევითი ცვლადის ვარიაციის დიაპაზონს ინტერვალებად 0,5 ნაბიჯით. გამოვთვალოთ დაკვირვებული და თეორიული სიხშირეები. დაკვირვებულ სიხშირეებს ვიანგარიშებთ FREQUENCY() ფუნქციით, ხოლო თეორიულებს - NORM.ST.DIST() ფუნქციით.

შენიშვნა: რაც შეეხება დისკრეტული საქმე, აუცილებელია იმის უზრუნველყოფა ნიმუშისაკმაოდ დიდი იყო და 5-ზე მეტი მნიშვნელობა დაეცა ინტერვალში.

გამოთვალეთ სტატისტიკა X 2 და შეადარეთ მოცემულის კრიტიკულ მნიშვნელობას მნიშვნელობის დონე(0.05). იმიტომ რომ შემთხვევითი ცვლადის ცვალებადობის დიაპაზონი გავყავით 10 ინტერვალად, შემდეგ თავისუფლების ხარისხი არის 9. კრიტიკული მნიშვნელობა შეიძლება გამოითვალოს ფორმულით.
\u003d XI2.INV.RH (0.05; 9) ან
\u003d XI2.OBR (1-0.05; 9)

ზემოთ მოცემული დიაგრამა აჩვენებს, რომ სტატისტიკური მნიშვნელობა არის 8.19, რაც მნიშვნელოვნად მაღალია კრიტიკულინულოვანი ჰიპოთეზაარ არის უარყოფილი.

ქვემოთ მოცემულია რომელზე ნიმუშიაიღო ნაკლებად სავარაუდო ღირებულება და საფუძველზე კრიტერიუმები პირსონის თანხმობა X 2ნულოვანი ჰიპოთეზა უარყოფილია (მიუხედავად იმისა, რომ შემთხვევითი მნიშვნელობები წარმოიქმნება ფორმულის გამოყენებით =NORM.ST.INV(RAND())უზრუნველყოფს სინჯის აღებადან სტანდარტული ნორმალური განაწილება).

Ნულოვანი ჰიპოთეზაუარყოფილია, თუმცა ვიზუალურად მონაცემები საკმაოდ ახლოსაა სწორ ხაზთან.

მაგალითად, ავიღოთ ასევე სინჯის აღება U-დან (-3; 3). ამ შემთხვევაში, გრაფიკიდანაც კი ირკვევა, რომ ნულოვანი ჰიპოთეზაუარყოფილი უნდა იყოს.

Კრიტერიუმი პირსონის თანხმობა X 2ამასაც ადასტურებს ნულოვანი ჰიპოთეზაუარყოფილი უნდა იყოს.

ზოგიერთ შემთხვევაში, მკვლევარმა წინასწარ არ იცის, რომელი კანონით არის განაწილებული შესასწავლი თვისების დაკვირვებული მნიშვნელობები. მაგრამ მას შეიძლება ჰქონდეს საკმარისად საკმარისად საფუძვლიანი მიზეზი, რომ ივარაუდოს, რომ განაწილება ექვემდებარება ამა თუ იმ კანონს, მაგალითად, ნორმალურ ან ერთგვაროვან. ამ შემთხვევაში, წარმოდგენილია შემდეგი ფორმის ძირითადი და ალტერნატიული სტატისტიკური ჰიპოთეზები:

    0: დაკვირვებული მახასიათებლის განაწილება ექვემდებარება განაწილების კანონს ,

    1: დაკვირვებული მახასიათებლის განაწილება განსხვავდება ;

ხოლო ამა თუ იმ განაწილების კანონს შეუძლია იმოქმედოს: ნორმალური, ერთგვაროვანი, ექსპონენციალური და ა.შ.

შემოთავაზებული განაწილების კანონის შესახებ ჰიპოთეზის ტესტირება ხორციელდება ე.წ. სიკეთის კრიტერიუმების გამოყენებით. არსებობს მიღების რამდენიმე კრიტერიუმი. მათგან ყველაზე უნივერსალური არის პირსონის კრიტერიუმი, რადგან ის გამოიყენება ნებისმიერი სახის განაწილებისთვის.

-პირსონის კრიტერიუმი

როგორც წესი, ემპირიული და თეორიული სიხშირეები განსხვავდება. არის თუ არა შეუსაბამობა შემთხვევითი? პირსონის კრიტერიუმი პასუხობს ამ კითხვას, თუმცა, ისევე როგორც ნებისმიერი სტატისტიკური კრიტერიუმი, იგი არ ადასტურებს ჰიპოთეზის მართებულობას მკაცრად მათემატიკური გაგებით, არამედ მხოლოდ ადგენს მის თანხმობას ან უთანხმოებას დაკვირვების მონაცემებთან მნიშვნელობის გარკვეულ დონეზე.

ასე რომ, მოდით მივიღოთ მახასიათებლების მნიშვნელობების სტატისტიკური განაწილება მოცულობის ნიმუშიდან, სადაც არის დაკვირვებული მახასიათებლების მნიშვნელობები, არის შესაბამისი სიხშირეები:

პირსონის კრიტერიუმის არსი არის კრიტერიუმის გამოთვლა შემდეგი ფორმულის მიხედვით:

სადაც არის დაკვირვებული მნიშვნელობების ციფრების რაოდენობა და არის შესაბამისი მნიშვნელობების თეორიული სიხშირეები.

ცხადია, რაც უფრო მცირეა განსხვავება, მით უფრო ახლოს არის ემპირიული განაწილება ემპირიულთან, შესაბამისად, რაც უფრო მცირეა კრიტერიუმის მნიშვნელობა, მით უფრო საიმედოდ შეიძლება ითქვას, რომ ემპირიული და თეორიული განაწილება ექვემდებარება ერთსა და იმავე კანონს.

პირსონის კრიტერიუმის ალგორითმი

პირსონის კრიტერიუმის ალგორითმი მარტივია და შედგება შემდეგი ნაბიჯებისგან:

ასე რომ, ერთადერთი არატრივიალური მოქმედება ამ ალგორითმში არის თეორიული სიხშირეების განსაზღვრა. ისინი, რა თქმა უნდა, დამოკიდებულნი არიან განაწილების კანონზე, ამიტომ - რადგან სხვადასხვა კანონები განსხვავებულად არის განსაზღვრული.

შეთანხმებული კრიტერიუმი შესამოწმებელი შემთხვევითი ცვლადის განაწილების კანონის შესახებ ჰიპოთეზის შესამოწმებლად. ბევრ პრაქტიკულ პრობლემაში ზუსტი განაწილების კანონი უცნობია, ამიტომ წამოიჭრება ჰიპოთეზა არსებული ემპირიული კანონის შესაბამისობის შესახებ, რომელიც აგებულია დაკვირვების საფუძველზე. ეს ჰიპოთეზა მოითხოვს სტატისტიკურ შემოწმებას, რომლის შედეგები ან დაადასტურებს, ან უარყოფს.

მოდით X იყოს შესწავლილი შემთხვევითი ცვლადი. საჭიროა H 0 ჰიპოთეზის შესამოწმებლად, რომ ეს შემთხვევითი ცვლადი ემორჩილება განაწილების კანონს F(x). ამისათვის თქვენ უნდა გააკეთოთ n დამოუკიდებელი დაკვირვების ნიმუში და გამოიყენოთ იგი F "(x) განაწილების ემპირიული კანონის ასაგებად. ემპირიული და ჰიპოთეტური კანონების შესადარებლად გამოიყენება წესი, რომელსაც ეწოდება სიკეთე. ყველაზე პოპულარულია K. Pearson-ის chi-square good of fit.

ის ითვლის chi-კვადრატის სტატისტიკას:

,

სადაც N არის ინტერვალების რაოდენობა, რომლის მიხედვითაც შეიქმნა ემპირიული განაწილების კანონი (შესაბამისი ჰისტოგრამის სვეტების რაოდენობა), i არის ინტერვალის რიცხვი, p t i არის ალბათობა იმისა, რომ შემთხვევითი ცვლადის მნიშვნელობა მოხვდება i-ში. -თეორიული განაწილების კანონის მე-თე ინტერვალი, p e i არის ალბათობა იმისა, რომ შემთხვევითი ცვლადის მნიშვნელობა მოხვდება ემპირიული განაწილების კანონის I ინტერვალში. ის უნდა დაემორჩილოს ჩი-კვადრატის განაწილებას.

თუ სტატისტიკის გამოთვლილი მნიშვნელობა აღემატება chi-კვადრატის განაწილების კვანტილს k-p-1 თავისუფლების ხარისხით მოცემული მნიშვნელოვნების დონისთვის, მაშინ ჰიპოთეზა H 0 უარყოფილია. წინააღმდეგ შემთხვევაში, იგი მიიღება მოცემულ მნიშვნელოვნების დონეზე. აქ k არის დაკვირვებების რაოდენობა, p არის განაწილების კანონის სავარაუდო პარამეტრების რაოდენობა.

Pearson საშუალებას გაძლევთ შეამოწმოთ ერთი მახასიათებლის ემპირიული და თეორიული (ან სხვა ემპირიული) განაწილება. ეს კრიტერიუმი ძირითადად გამოიყენება ორ შემთხვევაში:

ნიშნის ემპირიული განაწილების შედარება თეორიულ განაწილებასთან (ნორმალური, ექსპონენციალური, ერთგვაროვანი ან სხვა კანონი);

ერთი და იგივე ნიშნის ორი ემპირიული განაწილების შედარება.

მეთოდის იდეაა შესაბამისი სიხშირეების დივერგენციის ხარისხის განსაზღვრა n i და ; რაც უფრო დიდია ეს შეუსაბამობა, მით მეტია მნიშვნელობა

ნიმუშის ზომა უნდა იყოს მინიმუმ 50 და სიხშირეების ჯამი უნდა იყოს თანაბარი

ნულოვანი ჰიპოთეზა H 0 = (ორი განაწილება პრაქტიკულად არ განსხვავდება ერთმანეთისგან); ალტერნატიული ჰიპოთეზა - H 1 = (განაწილებებს შორის შეუსაბამობა მნიშვნელოვანია).

აქ მოცემულია ორი ემპირიული განაწილების შედარების კრიტერიუმის გამოყენების სქემა:

კრიტერიუმი - სტატისტიკური კრიტერიუმი ჰიპოთეზის შესამოწმებლად, რომ დაკვირვებული შემთხვევითი ცვლადი ემორჩილება რაღაც თეორიულ განაწილების კანონს.


კრიტერიუმის მნიშვნელობიდან გამომდინარე, ჰიპოთეზა შეიძლება იქნას მიღებული ან უარყოფილი:

§ , ჰიპოთეზა შესრულებულია.

§ (ჯდება განაწილების მარცხენა „კუდში“). აქედან გამომდინარე, თეორიული და პრაქტიკული ღირებულებები ძალიან ახლოს არის. თუ, მაგალითად, შემთხვევითი რიცხვების გენერატორი შემოწმდება, რომ გენერირდება n რიცხვი სეგმენტიდან და ჰიპოთეზა არის: ნიმუში განაწილებულია ერთნაირად, მაშინ გენერატორს არ შეიძლება ეწოდოს შემთხვევითი (შემთხვევითობის ჰიპოთეზა არ სრულდება), რადგან ნიმუში ძალიან თანაბრად არის განაწილებული, მაგრამ ჰიპოთეზა დაკმაყოფილებულია.

§ (ხვდება განაწილების მარჯვენა „კუდში“) ჰიპოთეზა უარყოფილია.

განმარტება: მიეცეს შემთხვევითი X ცვლადი.

ჰიპოთეზა: თან. in. X ემორჩილება განაწილების კანონს.

ჰიპოთეზის შესამოწმებლად განიხილეთ ნიმუში, რომელიც შედგება n დამოუკიდებელი დაკვირვებისგან r.v. X:. ნიმუშზე დაყრდნობით ვაშენებთ r.v. X-ის ემპირიულ განაწილებას. ემპირიული და თეორიული განაწილების შედარება (ჰიპოთეზაში ვარაუდი) ხორციელდება სპეციალურად შერჩეული ფუნქციის - სიკეთის კრიტერიუმის გამოყენებით. განვიხილოთ პირსონის სიკეთის ტესტი (კრიტერიუმი):

ჰიპოთეზა: X n გენერირდება ფუნქციით .

დაყავით k არა გადახურულ ინტერვალებად ;

მოდით იყოს დაკვირვებების რაოდენობა j-ე ინტერვალში: ;

ჰიპოთეზის შესრულებისას დაკვირვების j-ე ინტერვალში მოხვედრის ალბათობა;

- დარტყმების მოსალოდნელი რაოდენობა j-ე ინტერვალში;

სტატისტიკა: - ხი-კვადრატული განაწილება თავისუფლების k-1 გრადუსით.

კრიტერიუმი არასწორია ნიმუშებზე დაბალი სიხშირის (იშვიათი) მოვლენებით.ამ პრობლემის გადაჭრა შესაძლებელია დაბალი სიხშირის მოვლენების გაუქმებით, ან მათი სხვა მოვლენებთან კომბინაციით.ამ მეთოდს იეიტსის კორექტირება ეწოდება.

პირსონის სიკეთე-ის ტესტი (χ 2) გამოიყენება ჰიპოთეზის შესამოწმებლად, რომ ემპირიული განაწილება შეესაბამება მოსალოდნელ თეორიულ განაწილებას F(x) ნიმუშის დიდი ზომით (n≥ 100). კრიტერიუმი გამოიყენება ნებისმიერი სახის F(x) ფუნქციისთვის, თუნდაც მათი პარამეტრების უცნობი მნიშვნელობებით, რაც ჩვეულებრივ ხდება მექანიკური ტესტების შედეგების გაანალიზებისას. სწორედ აქ მდგომარეობს მისი მრავალფეროვნება.

χ 2 კრიტერიუმის გამოყენება გულისხმობს ნიმუშის ცვალებადობის დიაპაზონის დაყოფას ინტერვალებად და დაკვირვების რაოდენობის (სიხშირე) n j დადგენას თითოეული მათგანისთვის. ინტერვალებით. განაწილების პარამეტრების შეფასების მოხერხებულობისთვის, ინტერვალები არჩეულია იგივე სიგრძის.

ინტერვალების რაოდენობა დამოკიდებულია ნიმუშის ზომაზე. ჩვეულებრივ მიღებულია: n = 100-ზე = 10 ÷ 15, n = 200-ზე = 15 ÷ 20, n = 400-ზე = 25 ÷ 30, n = 1000-ზე = 35 ÷ 40.

ინტერვალები, რომლებიც შეიცავს ხუთზე ნაკლებ დაკვირვებას, გაერთიანებულია მეზობელთან. თუმცა, თუ ასეთი ინტერვალების რაოდენობა მათი საერთო რაოდენობის 20%-ზე ნაკლებია, ნებადართულია ინტერვალები n j ≥ 2 სიხშირით.

პირსონის ტესტის სტატისტიკა არის მნიშვნელობა
, (3.91)
სადაც p j არის ალბათობა იმისა, რომ შესწავლილი შემთხვევითი ცვლადი მოხვდება j-ე ინტერვალში, გამოითვლება F(x) ჰიპოთეტური განაწილების კანონის შესაბამისად. p j ალბათობის გამოთვლისას უნდა გვახსოვდეს, რომ პირველი ინტერვალის მარცხენა და ბოლოს მარჯვენა საზღვარი უნდა ემთხვეოდეს შემთხვევითი ცვლადის შესაძლო მნიშვნელობების რეგიონის საზღვრებს, მაგალითად, ნორმალურს. განაწილება, პირველი ინტერვალი ვრცელდება -∞-მდე, ხოლო ბოლო - +∞-მდე.

ნულოვანი ჰიპოთეზა ნიმუშის განაწილების თეორიულ კანონთან F(x) შესაბამისობის შესახებ შემოწმებულია (3.91) ფორმულით გამოთვლილი მნიშვნელობის შედარებით ცხრილიდან ნაპოვნი χ 2 α კრიტიკულ მნიშვნელობასთან. VI განაცხადი მნიშვნელოვნების α დონისთვის და თავისუფლების გრადუსების რაოდენობა k = 1 - მ - 1. აი 1 - შერწყმის შემდეგ ინტერვალების რაოდენობა; m არის განხილული ნიმუშიდან შეფასებული პარამეტრების რაოდენობა.თუ უტოლობა
χ 2 ≤ χ 2 α (3.92)
მაშინ ნულოვანი ჰიპოთეზა არ არის უარყოფილი, თუ მითითებული უტოლობა არ შეინიშნება, მიიღება ალტერნატიული ჰიპოთეზა, რომ ნიმუში ეკუთვნის უცნობი განაწილებას.

Pearson-ის სიკეთე-of-fit ტესტის მინუსი არის ზოგიერთი საწყისი ინფორმაციის დაკარგვა, რომელიც დაკავშირებულია დაკვირვების შედეგების ინტერვალებად დაჯგუფების და ინდივიდუალური ინტერვალების შერწყმის აუცილებლობასთან დაკვირვებების მცირე რაოდენობასთან. ამასთან დაკავშირებით, რეკომენდებულია შეავსეთ განაწილების შესაბამისობის გადამოწმება χ 2 კრიტერიუმით სხვა კრიტერიუმებთან, ეს განსაკუთრებით საჭიროა შედარებით მცირე მოცულობის ნიმუშების შემთხვევაში (n≈ 100).

ცხრილი გვიჩვენებს chi-კვადრატის განაწილების კრიტიკულ მნიშვნელობებს თავისუფლების გრადუსების მოცემული რაოდენობით.სასურველი მნიშვნელობა არის სვეტის გადაკვეთაზე შესაბამისი ალბათობის მნიშვნელობით და მწკრივი თავისუფლების ხარისხით. მაგალითად, ჩი-კვადრატის განაწილების კრიტიკული მნიშვნელობა თავისუფლების 4 გრადუსით 0,25 ალბათობისთვის არის 5,38527. ეს ნიშნავს, რომ ფართობი სიმკვრივის მრუდის ქვეშ ჩი-კვადრატის განაწილების 4 გრადუსიანი თავისუფლებით მარჯვნივ 5,38527 არის 0,25.

პირსონის კრიტერიუმი შემთხვევითი ცვლადის განაწილების კანონის ფორმის შესახებ ჰიპოთეზის შესამოწმებლად. ჰიპოთეზების ტესტირება ნორმალური, ექსპონენციალური და ერთგვაროვანი განაწილების შესახებ პირსონის კრიტერიუმით. კოლმოგოროვის კრიტერიუმი. განაწილების ნორმალურობის შემოწმების მიახლოებითი მეთოდი, რომელიც დაკავშირებულია დახრილობის და ქურტოზის კოეფიციენტების შეფასებასთან.

წინა ლექციაზე განიხილებოდა ჰიპოთეზები, რომლებშიც ვარაუდობდნენ, რომ ცნობილი იყო ზოგადი პოპულაციის განაწილების კანონი. ახლა შევამოწმოთ ჰიპოთეზები უცნობი განაწილების სავარაუდო კანონის შესახებ, ანუ შევამოწმებთ ნულოვან ჰიპოთეზას იმის შესახებ, რომ პოპულაცია განაწილებულია რომელიმე ცნობილი კანონის მიხედვით. ჩვეულებრივ, სტატისტიკურ ტესტებს ასეთი ჰიპოთეზების შესამოწმებლად უწოდებენ სიკეთის ტესტებს.

პირსონის კრიტერიუმის უპირატესობა მისი უნივერსალურობაა: მისი გამოყენება შესაძლებელია სხვადასხვა განაწილების კანონების შესახებ ჰიპოთეზების შესამოწმებლად.

1. ნორმალური განაწილების ჰიპოთეზის ტესტირება.

მივიღოთ საკმარისად დიდი ზომის ნიმუში მრავალი განსხვავებული მნიშვნელობის ვარიანტით. მისი დამუშავების მოხერხებულობისთვის, ჩვენ ვყოფთ ინტერვალს ვარიანტის მნიშვნელობების უმცირესიდან ყველაზე დიდამდე. თანაბარი ნაწილები და ჩვენ ვივარაუდებთ, რომ varis-ის მნიშვნელობები

ჭიანჭველები, რომლებიც თითოეულ ინტერვალში მოხვდება, დაახლოებით ტოლია იმ რიცხვისა, რომელიც განსაზღვრავს შუა ინტერვალის. თითოეულ ინტერვალში მოხვედრილი ვარიანტების რაოდენობის დათვლის შემდეგ, ჩვენ გავაკეთებთ ეგრეთ წოდებულ დაჯგუფებულ ნიმუშს:

პარამეტრები X 1 X 2 x ს

სიხშირეები 1 2 ნ ს ,

სადაც x iარის ინტერვალების შუა წერტილების მნიშვნელობები და n i-ში შესული ვარიანტების რაოდენობა მეე ინტერვალი (ემპირიული სიხშირეები).

მიღებული მონაცემების საფუძველზე შესაძლებელია გამოითვალოს ნიმუშის საშუალო და ნიმუშის სტანდარტული გადახრა σ B. მოდით შევამოწმოთ ვარაუდი, რომ საერთო პოპულაცია განაწილებულია ნორმალური კანონის მიხედვით პარამეტრებით (X) = , (X) = . შემდეგ შეგიძლიათ იპოვოთ რიცხვების რაოდენობა მოცულობის ნიმუშიდან , რომელიც უნდა იყოს თითოეულ ინტერვალში ამ დაშვების მიხედვით (ანუ თეორიული სიხშირეები). ამისათვის, ლაპლასის ფუნქციის მნიშვნელობების ცხრილის გამოყენებით, ვპოულობთ დარტყმის ალბათობას მე- ინტერვალი:

,

სადაც ა იდა ბ ი- საზღვრები მე- ინტერვალი. მიღებული ალბათობების გამრავლებით ნიმუშის ზომაზე n, ვიპოვით თეორიულ სიხშირეებს: p i \u003d n? p i. ჩვენი მიზანია შევადაროთ ემპირიული და თეორიული სიხშირეები, რომლებიც, რა თქმა უნდა, განსხვავდებიან ერთმანეთისგან და გავარკვიოთ, არის თუ არა ეს განსხვავებები უმნიშვნელო, არ უარვყოთ შესასწავლი შემთხვევითი ცვლადის ნორმალური განაწილების ჰიპოთეზა, თუ ისინი იმდენად დიდია. რომ ისინი ეწინააღმდეგებიან ამ ჰიპოთეზას. ამისათვის გამოიყენება კრიტერიუმი შემთხვევითი ცვლადის სახით

. (20.1)

მისი მნიშვნელობა აშკარაა: შეჯამებულია ნაწილები, რომლებიც წარმოადგენს ემპირიული სიხშირეების გადახრების კვადრატებს თეორიულიდან შესაბამისი თეორიული სიხშირეებიდან. შეიძლება დადასტურდეს, რომ ზოგადი პოპულაციის რეალური განაწილების კანონის მიუხედავად, შემთხვევითი ცვლადის (20.1) განაწილების კანონი მიდრეკილია განაწილების კანონისკენ (იხ. ლექცია 12) თავისუფლების ხარისხით. k = s- 1 - , სად - სავარაუდო განაწილების პარამეტრების რაოდენობა, შეფასებული ნიმუშის მონაცემებიდან. ნორმალური განაწილება ხასიათდება ორი პარამეტრით, ასე რომ k = s- 3. შერჩეული კრიტერიუმისთვის აგებულია მემარჯვენე კრიტიკული რეგიონი, რომელიც განისაზღვრება პირობით.


(20.2)

სადაც α - მნიშვნელობის დონე. აქედან გამომდინარე, კრიტიკული რეგიონი მოცემულია უთანასწორობით და ჰიპოთეზის მიღების არეა არის .

ასე რომ, ნულოვანი ჰიპოთეზის შესამოწმებლად 0: პოპულაცია ჩვეულებრივ განაწილებულია - თქვენ უნდა გამოთვალოთ კრიტერიუმის დაკვირვებული მნიშვნელობა ნიმუშიდან:

, (20.1`)

და χ 2 განაწილების კრიტიკული წერტილების ცხრილის მიხედვით იპოვეთ კრიტიკული წერტილი α და ცნობილი მნიშვნელობების გამოყენებით k = s- 3. თუ - ნულოვანი ჰიპოთეზა მიღებულია, თუ იგი უარყოფილია.

2. ერთგვაროვანი განაწილების ჰიპოთეზის ტესტირება.

პირსონის კრიტერიუმის გამოყენებისას საერთო პოპულაციის ერთიანი განაწილების ჰიპოთეზის შესამოწმებლად სავარაუდო ალბათობის სიმკვრივით

აუცილებელია, რომ გამოვთვალოთ მნიშვნელობა არსებული ნიმუშიდან, შევაფასოთ პარამეტრები და ფორმულების მიხედვით:

სადაც ა*და ბ*- შეფასებით და . მართლაც, ერთიანი განაწილებისთვის (X) = , , საიდანაც შეგიძლიათ მიიღოთ განსაზღვრის სისტემა ა*და *: , რომლის ამოხსნა არის გამონათქვამები (20.3).

მაშინ, იმ ვარაუდით, რომ ფორმულების გამოყენებით შეგიძლიათ იპოვოთ თეორიული სიხშირეები

Აქ არის ინტერვალების რაოდენობა, რომლებშიც იყოფა ნიმუში.

პირსონის კრიტერიუმის დაკვირვებული მნიშვნელობა გამოითვლება ფორმულით (20.1`), ხოლო კრიტიკული მნიშვნელობა გამოითვლება ცხრილიდან, იმის გათვალისწინებით, რომ თავისუფლების გრადუსების რაოდენობა k = s- 3. ამის შემდეგ კრიტიკული რეგიონის საზღვრები დგინდება ისე, როგორც ნორმალური განაწილების ჰიპოთეზის შესამოწმებლად.

3. ჰიპოთეზის შემოწმება ექსპონენციალური განაწილების შესახებ.

ამ შემთხვევაში, არსებული ნიმუშის თანაბარი სიგრძის ინტერვალებად დაყოფით, განვიხილავთ ვარიანტების თანმიმდევრობას ერთმანეთისგან თანაბარ მანძილზე (ვვარაუდობთ, რომ ყველა ვარიანტი, რომელიც ხვდება მე-ე ინტერვალი, აიღეთ მნიშვნელობა, რომელიც ემთხვევა მის შუას) და მათ შესაბამის სიხშირეებს n i(შეტანილი ნიმუშის ვარიანტების რაოდენობა მე-მეე ინტერვალი). ჩვენ ვიანგარიშებთ ამ მონაცემებიდან და ვიღებთ პარამეტრის შეფასებას λ ღირებულება . შემდეგ თეორიული სიხშირეები გამოითვლება ფორმულით

შემდეგ ხდება პირსონის კრიტერიუმის დაკვირვებული და კრიტიკული მნიშვნელობების შედარება, იმის გათვალისწინებით, რომ თავისუფლების ხარისხების რაოდენობა k = s- 2.