რა არის ნიმუშის აღება სტატისტიკაში. პრობლემები საერთო წილის შესახებ

დაკვირვების ობიექტების მთლიანი რაოდენობა (ადამიანები, შინამეურნეობები, საწარმოები, დასახლებები და ა.შ.) მახასიათებლების გარკვეული ნაკრებით (სქესი, ასაკი, შემოსავალი, რაოდენობა, ბრუნვა და ა.შ.), შეზღუდული სივრცეში და დროში. მოსახლეობის მაგალითები

  • მოსკოვის ყველა მცხოვრები (10,6 მილიონი ადამიანი 2002 წლის აღწერის მიხედვით)
  • მოსკოველი კაცები (4,9 მილიონი 2002 წლის აღწერის მიხედვით)
  • რუსული იურიდიული პირები (2.2 მილიონი 2005 წლის დასაწყისში)
  • კვების პროდუქტების გაყიდვის საცალო მაღაზიები (2008 წლის დასაწყისში 20 ათასი) და ა.შ.

ნიმუში (ნიმუშის პოპულაცია)

პოპულაციის ობიექტების ნაწილი შერჩეული იქნა შესასწავლად, რათა დასკვნის გამოტანა მთელი პოპულაციის შესახებ. იმისათვის, რომ ნიმუშის შესწავლით მიღებული დასკვნა გავრცელდეს მთელ პოპულაციაზე, ნიმუშს უნდა ჰქონდეს წარმომადგენლობითი თვისება.

ნიმუშის წარმომადგენლობა

ნიმუშის თვისება, რომ სწორად ასახოს ზოგადი პოპულაცია. ერთი და იგივე ნიმუში შეიძლება იყოს ან არ იყოს სხვადასხვა პოპულაციის წარმომადგენელი.
მაგალითი:

  • ნიმუში, რომელიც შედგება მთლიანად მოსკოველებისგან, რომლებსაც აქვთ მანქანა, არ წარმოადგენს მოსკოვის მთელ მოსახლეობას.
  • 100-მდე თანამშრომელი რუსული საწარმოების ნიმუში არ წარმოადგენს რუსეთის ყველა საწარმოს.
  • მოსკოველთა ნიმუში, რომლებიც ყიდულობენ ბაზარზე, არ წარმოადგენს ყველა მოსკოვის მსყიდველობით ქცევას.

ამავდროულად, ამ ნიმუშებს (სხვა პირობების გათვალისწინებით) შეუძლიათ შესანიშნავად წარმოადგინონ მოსკოვის მანქანების მფლობელები, მცირე და საშუალო ზომის რუსული საწარმოები და მყიდველები, რომლებიც ყიდულობენ ბაზრებზე, შესაბამისად.
მნიშვნელოვანია გვესმოდეს, რომ ნიმუშის წარმომადგენლობა და შერჩევის შეცდომა სხვადასხვა ფენომენია. წარმომადგენლობა, შეცდომისგან განსხვავებით, არ არის დამოკიდებული ნიმუშის ზომაზე.
მაგალითი:
რაც არ უნდა გავზარდოთ გამოკითხულ მოსკოველ-მანქანების მფლობელთა რაოდენობა, ამ ნიმუშით ყველა მოსკოველს ვერ წარმოვაჩენთ.

შერჩევის შეცდომა (დარწმუნების ინტერვალი)

ნიმუშის დაკვირვების დახმარებით მიღებული შედეგების გადახრა ზოგადი პოპულაციის ჭეშმარიტი მონაცემებიდან.
შერჩევის შეცდომის ორი ტიპი არსებობს: სტატისტიკური და სისტემატური. სტატისტიკური შეცდომა დამოკიდებულია ნიმუშის ზომაზე. რაც უფრო დიდია ნიმუშის ზომა, მით უფრო დაბალია ის.
მაგალითი:
400 ერთეული მარტივი შემთხვევითი ნიმუშისთვის, მაქსიმალური სტატისტიკური შეცდომა (95% ნდობით) არის 5%, 600 ერთეულის ნიმუშისთვის - 4%, 1100 ერთეულის ნიმუშისთვის - 3%.
სისტემური შეცდომა დამოკიდებულია სხვადასხვა ფაქტორზე, რომლებიც მუდმივ გავლენას ახდენენ კვლევაზე და მიკერძოებულნი არიან კვლევის შედეგებზე გარკვეული მიმართულებით.
მაგალითი:

  • ნებისმიერი ალბათობის ნიმუშის გამოყენება არ აფასებს მაღალი შემოსავლის მქონე ადამიანების პროპორციას, რომლებიც აქტიურობენ. ეს ხდება იმის გამო, რომ ასეთი ადამიანების პოვნა ბევრად უფრო რთულია რომელიმე კონკრეტულ ადგილას (მაგალითად, სახლში).
  • რესპონდენტთა პრობლემა, რომლებიც უარს ამბობენ კითხვებზე პასუხის გაცემაზე (მოსკოვში „რეფუსნიკების“ წილი, სხვადასხვა გამოკითხვებისთვის, 50%-დან 80%-მდე მერყეობს.

ზოგიერთ შემთხვევაში, როდესაც ცნობილია ჭეშმარიტი განაწილება, მიკერძოება შეიძლება აღმოიფხვრას კვოტების შემოღებით ან მონაცემების გადაწონით, მაგრამ უმეტეს რეალურ კვლევებში, მისი შეფასებაც კი შეიძლება იყოს საკმაოდ პრობლემური.

ნიმუშის ტიპები

ნიმუშები იყოფა ორ ტიპად:

  • სავარაუდო
  • წარმოუდგენლობა

1. ალბათობის ნიმუშები
1.1 შემთხვევითი შერჩევა (მარტივი შემთხვევითი შერჩევა)
ასეთი ნიმუში ითვალისწინებს საერთო პოპულაციის ჰომოგენურობას, ყველა ელემენტის ხელმისაწვდომობის იგივე ალბათობას, ყველა ელემენტის სრული სიის არსებობას. ელემენტების არჩევისას, როგორც წესი, გამოიყენება შემთხვევითი რიცხვების ცხრილი.
1.2 მექანიკური (სისტემური) სინჯის აღება
ერთგვარი შემთხვევითი ნიმუში, დალაგებულია რაიმე ატრიბუტის მიხედვით (ანბანური თანმიმდევრობით, ტელეფონის ნომერი, დაბადების თარიღი და ა.შ.). პირველი ელემენტი არჩეულია შემთხვევით, შემდეგ ყოველი 'k' ელემენტი არჩეულია 'n'-ის ნამატებით. საერთო პოპულაციის ზომა, ხოლო - N=n*k
1.3 სტრატიფიცირებული (ზონირებული)
იგი გამოიყენება ზოგადი პოპულაციის ჰეტეროგენურობის შემთხვევაში. საერთო მოსახლეობა იყოფა ჯგუფებად (ფენებად). თითოეულ ფენაში შერჩევა ხდება შემთხვევით ან მექანიკურად.
1.4 სერიული (დაბუდებული ან კლასტერული) ნიმუშის აღება
სერიული შერჩევისას შერჩევის ერთეულები არის არა თავად ობიექტები, არამედ ჯგუფები (კლასტერები ან ბუდეები). ჯგუფები შეირჩევა შემთხვევით. ობიექტები ჯგუფებში შესწავლილია მთელს მსოფლიოში.

2. წარმოუდგენელი ნიმუშები
ასეთ ნიმუშში შერჩევა ხდება არა შემთხვევითობის პრინციპებით, არამედ სუბიექტური კრიტერიუმებით - ხელმისაწვდომობა, ტიპურობა, თანაბარი წარმომადგენლობა და ა.შ.
2.1. კვოტის შერჩევა
თავდაპირველად გამოიყოფა ობიექტების ჯგუფების გარკვეული რაოდენობა (მაგალითად, 20-30 წლის, 31-45 წლის და 46-60 წლის მამაკაცები; 30 ათას რუბლამდე შემოსავლის მქონე პირები, 30-დან 60-მდე შემოსავლით. ათასი რუბლი და 60 ათას რუბლზე მეტი შემოსავლით) თითოეული ჯგუფისთვის მითითებულია შესასწავლი ობიექტების რაოდენობა. ობიექტების რაოდენობა, რომლებიც უნდა მოხვდეს თითოეულ ჯგუფში, დგინდება, ყველაზე ხშირად, ან ჯგუფის ადრე ცნობილი წილის პროპორციულად ზოგადად პოპულაციაში, ან იგივეა თითოეული ჯგუფისთვის. ჯგუფებში ობიექტები შეირჩევა შემთხვევით. საკმაოდ ხშირად გამოიყენება კვოტის შერჩევა.
2.2. თოვლის ბურთის მეთოდი
ნიმუში აგებულია შემდეგნაირად. თითოეულ რესპონდენტს, დაწყებული პირველიდან, სთხოვენ დაუკავშირდეს თავის მეგობრებს, კოლეგებს, ნაცნობებს, რომლებიც შეესაბამებოდნენ შერჩევის პირობებს და შეუძლიათ მონაწილეობა მიიღონ კვლევაში. ამრიგად, პირველი საფეხურის გარდა, ნიმუში ყალიბდება თავად კვლევის ობიექტების მონაწილეობით. მეთოდი ხშირად გამოიყენება, როდესაც საჭიროა რესპონდენტთა ძნელად მისადგომი ჯგუფების მოძიება და გასაუბრება (მაგალითად, მაღალი შემოსავლის მქონე რესპონდენტები, იმავე პროფესიულ ჯგუფს მიეკუთვნებიან რესპონდენტები, რესპონდენტები, რომლებსაც აქვთ მსგავსი ჰობი/გატაცება და ა.შ. )
2.3 სპონტანური სინჯის აღება
ყველაზე ხელმისაწვდომი რესპონდენტები გამოკითხულნი არიან. სპონტანური ნიმუშების ტიპიური მაგალითები მოცემულია გაზეთებში/ჟურნალებში, რომლებიც რესპონდენტებს გადაეცემათ თვითშესრულებისთვის, უმეტესობა ინტერნეტ გამოკითხვები. სპონტანური ნიმუშების ზომა და შემადგენლობა წინასწარ არ არის ცნობილი და განისაზღვრება მხოლოდ ერთი პარამეტრით - რესპონდენტთა აქტივობით.
2.4 ტიპიური შემთხვევების ნიმუში
შერჩეულია ზოგადი პოპულაციის ერთეულები, რომლებსაც აქვთ ატრიბუტის საშუალო (ტიპიური) მნიშვნელობა. ეს აჩენს ფუნქციის არჩევის პრობლემას და მისი ტიპიური მნიშვნელობის განსაზღვრას.

ლექციების კურსი სტატისტიკის თეორიაზე

უფრო დეტალური ინფორმაცია ნიმუშის დაკვირვების შესახებ შეგიძლიათ მიიღოთ ნახვით.

შერჩევითი კვლევა.

შერჩევის მეთოდის კონცეფცია.

შერჩევითი დაკვირვება- ეს არის ისეთი არა უწყვეტი დაკვირვება, რომლის დროსაც შესასწავლი პოპულაციის ერთეულების შერჩევა ხდება შემთხვევით, შერჩეული ნაწილი ექვემდებარება კვლევას, რის შემდეგაც შედეგები ნაწილდება მთელ პოპულაციაზე.

შერჩევის მეთოდი გამოიყენება როცა

1 როდესაც დაკვირვება თავისთავად ასოცირდება დაკვირვებული ერთეულების დაზიანებასთან ან განადგურებასთან (ნართი სანელებლისთვის, ელექტრო ნათურა წვის პროდუქტისთვის)

2 დიდი მთლიანი მოცულობა

3 მაღალი ხარჯები (ფინანსური და შრომითი).

ჩვეულებრივ, მთლიანი მოსახლეობის 5-10% ექვემდებარება შერჩევის გამოკითხვას, ნაკლებად ხშირად 15-25%.

შერჩევის მიზანია საერთო საშუალო და საერთო პროპორციის (P) მახასიათებლების დადგენა. შერჩევის პოპულაციის მახასიათებლები - შერჩევის საშუალო და ნიმუშის ფრაქცია (w) განსხვავდება ზოგადი მახასიათებლებისგან შერჩევის შეცდომის რაოდენობით ( ). ამიტომ აუცილებელია შერჩევის ცდომილების ან წარმომადგენლობითი ცდომილების გამოთვლა, რომელიც განისაზღვრება ალბათობის თეორიაში შემუშავებული ფორმულებით თითოეული ტიპის ნიმუშისა და შერჩევის მეთოდისთვის.

ერთეულების არჩევის შემდეგი გზები არსებობს:

1 დასაბრუნებელი ბურთის შერჩევა, რომელსაც ჩვეულებრივ უწოდებენ ნიმუშების გადაღება.

განმეორებითი შერჩევით, თითოეული ცალკეული ერთეულის ნიმუშში მოხვედრის ალბათობა მუდმივი რჩება, რადგან ერთეულის შერჩევის შემდეგ ის კვლავ უბრუნდება პოპულაციას და შეიძლება ხელახლა შეირჩეს.

2 შერჩევა დაუბრუნებელი ბურთის სქემის მიხედვით, ე.წ შემთხვევითი შერჩევა.ამ შემთხვევაში, თითოეული არჩეული ერთეული უკან არ ბრუნდება და ნიმუშში ცალკეული ერთეულების მოხვედრის ალბათობა მუდმივად იცვლება (დარჩენილი ერთეულებისთვის ის გაიზრდება) (ლოტი), შემთხვევითი რიცხვების ცხრილები, მაგალითად, 75-დან. 780.

ნიმუშის ტიპები.

1 რეალურად - შემთხვევითი.

ეს არის ის, რომელშიც ერთეულების შერჩევა ხდება უშუალოდ მთლიანი პოპულაციის ერთეულების მთელი მასიდან.

ამ შემთხვევაში, შერჩეული ერთეულების რაოდენობა ჩვეულებრივ განისაზღვრება ნიმუშის მიღებული პროპორციის საფუძველზე.

ნიმუშისთვის არის შეფარდება ერთეულების რაოდენობის შერჩევის პოპულაციაში და ერთეულების რაოდენობას საერთო პოპულაციაში N.

ასე რომ, 2000 ერთეული საქონლის პარტიიდან 5%-იანი ნიმუშით, ნიმუშის ზომა n არის 100 ერთეული. (
), ხოლო 20%-იანი ნიმუშით იქნება 400 ერთეული.

(
)

მნიშვნელოვანი პირობაა სათანადო შემთხვევითი ნიმუშისთვის რომ მოსახლეობის თითოეულ ერთეულს ეძლევა ნიმუშში ჩართვის თანაბარი შესაძლებლობა.

შემთხვევითი შერჩევით, შერჩევის ზღვრული შეცდომა საშუალოსთვის უდრის

- შერჩევის ვარიაცია

n - ნიმუშის ზომა

t არის ნდობის ფაქტორი, რომელიც განისაზღვრება ლაპლასის ინტეგრალური ფუნქციის მნიშვნელობების ცხრილიდან მოცემული ალბათობის P.

განმეორებითი შერჩევისას, შერჩევის ზღვრული შეცდომა განისაზღვრება საშუალოს ფორმულით

სადაც N არის წილის საერთო პოპულაციის ზომა

ნახშირის ნაცრის შემცველობის დასადგენად, შემთხვევით გამოიკვლია ნახშირის 100 ნიმუში. კვლევის შედეგად დადგინდა, რომ ნახშირის ნაცრის შემცველობა ნიმუშში საშუალოდ არის 16%. = 5%. 10 ნიმუშში ნახშირის ნაცრის შემცველობა იყო > 20% 0,954 ალბათობით, რათა განისაზღვროს ლიმიტები, რომლებშიც იქნება ნახშირის ნაცრის საშუალო შემცველობა საბადოში და ნახშირის წილი ნაცრის შემცველობით > 20% იქნება.

ნაცრის საშუალო შემცველობა

შერჩევის ზღვრული შეცდომის დადგენა


2*0.5=1%

p=0.954 t=2-ზე

ნახშირის წილი ნაცრის შემცველობით >20%

ნიმუშის წილი განისაზღვრება

სადაც m არის ერთეულების პროპორცია, რომლებსაც აქვთ მახასიათებელი

შერჩევის შეცდომა გაზიარებისთვის

0,954 ალბათობით, შეიძლება ითქვას, რომ ნახშირის პროპორცია ნაცრის შემცველობით 20%-ზე მეტი საბადოში იქნება ფარგლებში.

P= 10%+(-)6% ან

მექანიკური სინჯის აღება.

ეს არის ერთგვარი რეალურად - შემთხვევითი. ამ შემთხვევაში მთელი პოპულაცია იყოფა n თანაბარ ნაწილად და შემდეგ თითოეული ნაწილიდან ირჩევა ერთი ერთეული.

მოსახლეობის ყველა ერთეული უნდა იყოს მოწყობილი გარკვეული თანმიმდევრობით. ამავდროულად, შესასწავლ ინდიკატორთან მიმართებაში, საერთო პოპულაციის ერთეულების დალაგება შესაძლებელია მნიშვნელოვანი, მეორადი ან ნეიტრალური მახასიათებლის მიხედვით. ამ შემთხვევაში, თითოეული ჯგუფიდან უნდა შეირჩეს ერთეული, რომელიც ყოველი ჯგუფის შუაშია. ეს თავიდან აიცილებს შერჩევის მიკერძოებას.

მიმართვა: მაღაზიებში მყიდველების, კლინიკებში ვიზიტორების შემოწმებისას, ყოველ 5,4,3 და ა.შ.

მექანიკური ნიმუშის მაგალითი

ბანკში მოკლევადიანი სესხით სარგებლობის საშუალო ვადის დასადგენად გაკეთდება 5%-იანი მექანიკური ნიმუში, რომელიც მოიცავს 100 ანგარიშს. გამოკითხვის შედეგად დადგინდა, რომ მოკლევადიანი სესხით სარგებლობის საშუალო ვადა 30 დღეა.
9 დღე 5 ანგარიშზე სესხის ვადა > 60 დღე.

შერჩევის შეცდომა

იმათ. 0,954 ალბათობით შეიძლება ითქვას, რომ სესხით სარგებლობის ვადა მერყეობს

1 30 დღის განმავლობაში +(-) 2 დღეში, ე.ი.

სესხის 2 აქცია 60 დღეზე მეტი ვადით.

ნიმუშის წილი იქნება

განსაზღვრეთ გაზიარების შეცდომა

0,954 ალბათობით, შეიძლება ითქვას, რომ საბანკო სესხების წილი 60 დღეზე მეტი ვადით იქნება ფარგლებში.

ტიპიური ნიმუში.

საერთო მოსახლეობა იყოფა ერთგვაროვან ტიპურ ჯგუფებად. შემდეგ, თითოეული ტიპიური ჯგუფიდან, ნიმუშის ერთეულების ინდივიდუალური შერჩევა ხდება შემთხვევითი ან მექანიკური ნიმუშით.

მაგალითად: pr.tr. კვალიფიკაციის მიხედვით ცალკეული ჯგუფებისაგან შემდგარი მუშები.

მნიშვნელოვანი თვისება- იძლევა უფრო ზუსტ შედეგებს სხვებთან შედარებით, ტკ. ნიმუში მოიცავს ტიპოლოგიურ ერთეულს.

სანიმუშო კომპლექტში დაკვირვების ერთეულების შერჩევა სხვადასხვა მეთოდით ხდება. განვიხილოთ ტიპიური ნიმუში პროპორციული შერჩევით ტიპიურ ჯგუფებში.

ნიმუშის ზომა ტიპიური ჯგუფიდან შერჩევისას ტიპიური ჯგუფების რაოდენობის პროპორციულად განისაზღვრება ფორმულით

სადაც = V ნიმუშები ტიპიური ჯგუფიდან

= ტიპიური ჯგუფის V.

ნიმუშის საშუალო და პროპორციების ზღვრული ცდომილება ტიპიური ჯგუფების შიგნით შემთხვევითი და მექანიკური შერჩევის მეთოდით არ განმეორდება, გამოითვლება ფორმულებით


სადაც = ნიმუშის განსხვავება

მაგალითი: ტიპიური ნიმუში

ქორწინებაში შესული მამაკაცების საშუალო ასაკის დასადგენად რაიონში გაკეთდა 5%-იანი ნიმუში ტიპიური ჯგუფების რაოდენობის პროპორციულად ერთეულების შერჩევით.

ჯგუფებში გამოყენებული იქნა მექანიკური შერჩევა

0,954 ალბათობით დაადგინეთ ზღვრები, რომლებშიც იქნება დაქორწინებული მამაკაცების საშუალო ასაკი და მეორედ დაქორწინებული მამაკაცების პროპორცია.

ქორწინების საშუალო ასაკი მამაკაცებისთვის ნიმუშში

შერჩევის ზღვრული შეცდომა

0,954 ალბათობით შეიძლება ითქვას, რომ ქორწინებაში მყოფი მამაკაცების საშუალო ასაკი იქნება ფარგლებში

მეორე ქორწინებაში შესული მამაკაცებისთვის იყოს შიგნით

ნიმუშის წილი განისაზღვრება

ალტერნატიული მახასიათებლის ნიმუშის ვარიაცია არის

0,954 ალბათობით შეიძლება ითქვას, რომ მეორედ დაქორწინებულთა წილი არის ფარგლებში

სერიული ნიმუშის აღება.

სერიული ნიმუშით პოპულაცია იყოფა იმავე ზომის ჯგუფებად - სერიებად. შერჩევის პოპულაცია არის შერჩეული სერია. სერიაში უწყვეტი დაკვირვება ხდება სერიებში მოხვედრილ ერთეულებზე.

განმეორებითი შერჩევით და განისაზღვრება ფორმულით

სადაც
- სერიების ვარიაცია

სადაც
სერიის საშუალო ნიმუში

სერიული ნიმუშის ნიმუში

R- საერთო პოპულაციის სერიების რაოდენობა

r - შერჩეული სერიების რაოდენობა

მაგალითი: 10 ბრიგადის სახელოსნოში მათი შრომის პროდუქტიულობის შესასწავლად ჩატარდება 20%-იანი სერიული ნიმუში, რომელშიც შედიოდა 2 ბრიგადა. გამოკითხვის შედეგად დადგინდა, რომ

0,997 ალბათობით, რათა დადგინდეს ის ზღვრები, რომლებშიც იქნება მაღაზიის მუშაკების საშუალო გამომუშავება.

სერიული ნიმუშის ნიმუშის საშუალო მაჩვენებელი განისაზღვრება ფორმულით

0,997 ალბათობით შეიძლება ითქვას, რომ მაღაზიის მუშაკების საშუალო გამომუშავება არის ფარგლებში

სახელოსნოს მზა პროდუქციის საწყობში არის ნაწილების 200 ყუთი, თითო კოლოფში 40 ცალი. მზა პროდუქციის ხარისხის შესამოწმებლად ჩატარდება 10%-იანი სერიული სინჯები. სინჯების აღების შედეგად დადგინდა, რომ დეფექტური ნაწილებისთვის არის 15%. სერიული ნიმუშის ვარიაცია არის 0.0049.

0,997 ალბათობით, განსაზღვრეთ ზღვრები, რომლებშიც არის დეფექტური პროდუქტების პროპორცია ყუთების პარტიაში.

დეფექტური ნაწილების პროპორცია იქნება ფარგლებში

ფორმულით განსაზღვრეთ წილის შერჩევის ზღვრული შეცდომა

0,997 ალბათობით შეიძლება ითქვას, რომ დეფექტური ნაწილების პროპორცია

პარტიაში არის შიგნით

ნიმუშზე დაკვირვების შემუშავების პრაქტიკაში საჭიროა ნიმუშის ზომის პოვნა, რაც აუცილებელია ზოგადი მახასიათებლების - საშუალო და პროპორციის - გამოთვლაში გარკვეული სიზუსტის უზრუნველსაყოფად.

შერჩევის ზღვრული შეცდომა, მისი წარმოშობის ალბათობა და მახასიათებლის ცვალებადობა წინასწარ არის ცნობილი.

შემთხვევითობით ხელახალი შერჩევანიმუშის ზომა განისაზღვრება ფორმულით

შემთხვევითი არაგანმეორებადი და მექანიკური შერჩევით, ნიმუშის ზომა

ტიპიური ნიმუშისთვის

სერიული ნიმუშისთვის

მაგალითად, რაიონში 2000 ოჯახი ცხოვრობს.

დაგეგმილია მათი შერჩევითი გამოკითხვის ჩატარება შემთხვევითი არაგანმეორებადი შერჩევის მეთოდით ოჯახის საშუალო ზომის დასადგენად.

განსაზღვრეთ ნიმუშის საჭირო ზომა, იმ პირობით, რომ 0,954 ალბათობით შერჩევის შეცდომა არ აღემატება 1 ადამიანს 3 ადამიანის სტანდარტული გადახრით.

ქალაქში 10 ათასი ადამიანი ცხოვრობს. ოჯახები. მექანიკური შერჩევის გამოყენებით, შემოთავაზებულია განისაზღვროს სამი და მეტი შვილიანი ოჯახების პროპორცია. როგორი უნდა იყოს შერჩევის ზომა 0,02-ზე ნაკლები შეცდომისთვის, ალბათობით P=0,954, თუ ცნობილია, რომ დისპერსია არის 0,02 წინა კვლევებიდან?

Გეგმა:

1. მათემატიკური სტატისტიკის ამოცანები.

2. ნიმუშის ტიპები.

3. შერჩევის მეთოდები.

4. ნიმუშის სტატისტიკური განაწილება.

5. ემპირიული განაწილების ფუნქცია.

6. პოლიგონი და ჰისტოგრამა.

7. ვარიაციების სერიის რიცხვითი მახასიათებლები.

8. განაწილების პარამეტრების სტატისტიკური შეფასებები.

9. განაწილების პარამეტრების ინტერვალური შეფასებები.

1. მათემატიკური სტატისტიკის ამოცანები და მეთოდები

მათემატიკის სტატისტიკა არის მათემატიკის დარგი, რომელიც ეძღვნება სტატისტიკური დაკვირვების მონაცემების შედეგების შეგროვების, ანალიზისა და დამუშავების მეთოდებს სამეცნიერო და პრაქტიკული მიზნებისთვის.

დაე, საჭირო გახდეს ერთგვაროვანი ობიექტების ერთობლიობის შესწავლა რაიმე თვისებრივი ან რაოდენობრივი მახასიათებლის მიმართ, რომელიც ახასიათებს ამ ობიექტებს. მაგალითად, თუ არსებობს ნაწილების პარტია, მაშინ ნაწილის სტანდარტი შეიძლება იყოს ხარისხობრივი ნიშანი, ხოლო ნაწილის კონტროლირებადი ზომა შეიძლება იყოს რაოდენობრივი ნიშანი.

ზოგჯერ ტარდება უწყვეტი შესწავლა, ე.ი. შეამოწმეთ თითოეული ობიექტი სასურველი მახასიათებლის მიხედვით. პრაქტიკაში, ყოვლისმომცველი გამოკითხვა იშვიათად გამოიყენება. მაგალითად, თუ მოსახლეობა შეიცავს ობიექტთა ძალიან დიდ რაოდენობას, მაშინ ფიზიკურად შეუძლებელია სრული გამოკითხვის ჩატარება. თუ ობიექტის გამოკვლევა დაკავშირებულია მის განადგურებასთან ან მოითხოვს დიდ მატერიალურ ხარჯებს, მაშინ სრული გამოკითხვის ჩატარებას აზრი არ აქვს. ასეთ შემთხვევებში, ობიექტების შეზღუდული რაოდენობა (ნიმუშების ნაკრები) შემთხვევით შეირჩევა მთელი პოპულაციისგან და ექვემდებარება მათ შესწავლას.

მათემატიკური სტატისტიკის მთავარი ამოცანაა შესწავლა მთელი პოპულაციის შერჩევის მონაცემების საფუძველზე, მიზნიდან გამომდინარე, ე.ი. პოპულაციის ალბათური თვისებების შესწავლა: განაწილების კანონი, რიცხვითი მახასიათებლები და სხვ. გაურკვევლობის პირობებში მენეჯერული გადაწყვეტილებების მისაღებად.

2. ნიმუშის ტიპები

მოსახლეობა არის ობიექტების ერთობლიობა, საიდანაც მზადდება ნიმუში.

ნიმუშის პოპულაცია (ნიმუში) არის შემთხვევით შერჩეული ობიექტების კოლექცია.

მოსახლეობის ზომა არის ამ კოლექციაში არსებული ობიექტების რაოდენობა. საერთო მოსახლეობის მოცულობა აღინიშნება N, შერჩევითი - n.

მაგალითი:

თუ 1000 ნაწილიდან 100 ნაწილი შეირჩევა შესამოწმებლად, მაშინ საერთო პოპულაციის მოცულობან = 1000 და ნიმუშის ზომა n = 100.

ნიმუშის აღება შეიძლება განხორციელდეს ორი გზით: ობიექტის შერჩევისა და მასზე დაკვირვების შემდეგ, ის შეიძლება დაბრუნდეს ან არ დაუბრუნდეს ზოგად პოპულაციას. რომ. ნიმუშები იყოფა განმეორებად და არაგანმეორებად.

გაიმეორადაურეკა სინჯის აღება, რომელზედაც შერჩეული ობიექტი (შემდეგის არჩევამდე) უბრუნდება ზოგად პოპულაციას.

არ განმეორდებადაურეკა სინჯის აღება, რომლის დროსაც არჩეული ობიექტი არ უბრუნდება ზოგად პოპულაციას.

პრაქტიკაში ჩვეულებრივ გამოიყენება არაგანმეორებადი შემთხვევითი შერჩევა.

იმისათვის, რომ ნიმუშის მონაცემები საკმარისად დარწმუნებული იყოს ფართო პოპულაციის ინტერესის მახასიათებლის შესაფასებლად, აუცილებელია, რომ ნიმუშის ობიექტები სწორად წარმოადგენენ მას. ნიმუში სწორად უნდა წარმოადგენდეს მოსახლეობის პროპორციებს. ნიმუში უნდა იყოს წარმომადგენელი (წარმომადგენელი).

დიდი რიცხვების კანონის მიხედვით, შეიძლება ითქვას, რომ ნიმუში იქნება წარმომადგენლობითი, თუ იგი განხორციელდება შემთხვევით.

თუ საერთო პოპულაციის ზომა საკმარისად დიდია და ნიმუში ამ პოპულაციის მხოლოდ მცირე ნაწილია, მაშინ წაშლილია განსხვავება განმეორებით და განუმეორებელ ნიმუშებს შორის; შეზღუდულ შემთხვევაში, როდესაც განიხილება უსასრულო ზოგადი პოპულაცია და ნიმუშს აქვს სასრული ზომა, ეს განსხვავება ქრება.

მაგალითი:

ამერიკულ ჟურნალში Literary Review, სტატისტიკური მეთოდების გამოყენებით, შესწავლილი იქნა პროგნოზები 1936 წელს აშშ-ს მომავალი საპრეზიდენტო არჩევნების შედეგებთან დაკავშირებით. ამ პოსტზე განმცხადებლები იყვნენ ფ.დ. რუზველტი და A.M. Landon. სატელეფონო აბონენტების საცნობარო წიგნები იქნა მიღებული, როგორც წყარო შესწავლილი ამერიკელების ზოგადი მოსახლეობისთვის. აქედან 4 მილიონი მისამართი შემთხვევით შეირჩა, რომლებსაც ჟურნალის რედაქტორებმა გაუგზავნეს ღია ბარათები და სთხოვდნენ გამოხატონ თავიანთი დამოკიდებულება პრეზიდენტობის კანდიდატების მიმართ. გამოკითხვის შედეგების დამუშავების შემდეგ, ჟურნალმა გამოაქვეყნა სოციოლოგიური პროგნოზი, რომ ლენდონი მომავალ არჩევნებში დიდი სხვაობით გაიმარჯვებს. და... ვცდებოდი: რუზველტმა გაიმარჯვა.
ეს მაგალითი შეიძლება ჩაითვალოს არაწარმომადგენლობითი ნიმუშის მაგალითად. ფაქტია, რომ შეერთებულ შტატებში მეოცე საუკუნის პირველ ნახევარში ტელეფონები ჰქონდა მოსახლეობის მხოლოდ მდიდარ ნაწილს, რომელიც მხარს უჭერდა ლენდონის შეხედულებებს.

3. შერჩევის მეთოდები

პრაქტიკაში გამოიყენება შერჩევის სხვადასხვა მეთოდი, რომლებიც შეიძლება დაიყოს 2 ტიპად:

1. შერჩევა არ საჭიროებს მოსახლეობის ნაწილებად დაყოფას (ა) უბრალო შემთხვევითი გამეორება; ბ) მარტივი შემთხვევითი გამეორება).

2. სელექცია, რომელშიც საერთო მოსახლეობა იყოფა ნაწილებად. (ა) ტიპიური შერჩევა; ბ) მექანიკური შერჩევა; in) სერიალი შერჩევა).

მარტივი შემთხვევითი დაუძახეთ ამას შერჩევა, რომელშიც ობიექტები ამოღებულია სათითაოდ მთელი ზოგადი პოპულაციისგან (შემთხვევით).

Ტიპიურიდაურეკა შერჩევა, რომელშიც ობიექტები შეირჩევა არა მთელი ზოგადი პოპულაციისგან, არამედ მისი თითოეული "ტიპიური" ნაწილისგან. მაგალითად, თუ ნაწილი დამზადებულია რამდენიმე მანქანაზე, მაშინ შერჩევა ხდება არა ყველა დანადგარის მიერ წარმოებული ნაწილების მთელი ნაკრებიდან, არამედ თითოეული აპარატის პროდუქტებიდან ცალკე. ასეთი შერჩევა გამოიყენება მაშინ, როდესაც გამოკვლეული მახასიათებელი შესამჩნევად იცვლება ზოგადი პოპულაციის სხვადასხვა „ტიპიურ“ ნაწილში.

მექანიკურიდაურეკა შერჩევა, რომელშიც ზოგადი პოპულაცია "მექანიკურად" იყოფა იმდენ ჯგუფად, რამდენი ობიექტია შეტანილი ნიმუშში და თითოეული ჯგუფიდან ირჩევა ერთი ობიექტი. მაგალითად, თუ საჭიროა მანქანით დამზადებული ნაწილების 20%-ის შერჩევა, მაშინ ყოველი მე-5 ნაწილი შეირჩევა; თუ საჭიროა ნაწილების 5%-ის შერჩევა - ყოველი მე-20 და ა.შ. ზოგჯერ ასეთმა შერჩევამ შეიძლება ვერ უზრუნველყოს წარმომადგენლობითი ნიმუში (თუ შეირჩევა ყოველი მე-20 ბრუნვის როლიკერი და საჭრელი შეიცვლება შერჩევისთანავე, მაშინ შეირჩევა ბლაგვი საჭრელებით შემობრუნებული ყველა ლილვაკი).

სერიალიდაურეკა შერჩევა, რომელშიც ობიექტები შეირჩევა საერთო პოპულაციისგან არა ერთ ჯერზე, არამედ „სერიებად“, რომლებიც ექვემდებარება უწყვეტ კვლევას. მაგალითად, თუ პროდუქტები იწარმოება ავტომატური მანქანების დიდი ჯგუფის მიერ, მაშინ მხოლოდ რამდენიმე მანქანის პროდუქცია ექვემდებარება უწყვეტ შემოწმებას.

პრაქტიკაში ხშირად გამოიყენება კომბინირებული შერჩევა, რომელშიც გაერთიანებულია ზემოთ ჩამოთვლილი მეთოდები.

4. ნიმუშის სტატისტიკური განაწილება

მოდით აიღოთ ნიმუში ზოგადი პოპულაციისგან და მნიშვნელობა x 1-დაკვირვებული ერთხელ, x 2 -n 2-ჯერ, ... x k - n k-ჯერ. n= n 1 +n 2 +...+n k არის ნიმუშის ზომა. დაკვირვებული ღირებულებებიდაურეკა პარამეტრები, და თანმიმდევრობა არის ვარიანტი, რომელიც დაწერილია ზრდის მიხედვით - ვარიაციული სერია. დაკვირვებების რაოდენობადაურეკა სიხშირეები (აბსოლუტური სიხშირეები)და მათი კავშირი ნიმუშის ზომასთან- შედარებითი სიხშირეებიან სტატისტიკური ალბათობები.

თუ ვარიანტების რაოდენობა დიდია ან ნიმუში მზადდება უწყვეტი ზოგადი პოპულაციისგან, მაშინ ვარიაციების სერია შედგენილია არა ცალკეული წერტილის მნიშვნელობებით, არამედ ზოგადი პოპულაციის მნიშვნელობების ინტერვალებით. ასეთ სერიას ეძახიან ინტერვალი.ინტერვალების სიგრძე უნდა იყოს თანაბარი.

ნიმუშის სტატისტიკური განაწილება ეწოდება ოფციონების სიას და მათ შესაბამის სიხშირეებს ან ფარდობით სიხშირეებს.

სტატისტიკური განაწილება ასევე შეიძლება განისაზღვროს, როგორც ინტერვალების თანმიმდევრობა და მათი შესაბამისი სიხშირეები (სიხშირეების ჯამი, რომელიც შედის მნიშვნელობების ამ ინტერვალში)

სიხშირეების წერტილოვანი ცვალებადობის სერია შეიძლება წარმოდგენილი იყოს ცხრილით:

x i
x 1
x2

x k
n i
n 1
n 2

ნკ

ანალოგიურად, შეიძლება წარმოადგენდეს ფარდობითი სიხშირეების წერტილოვანი ცვალებადობის სერიას.

და:

მაგალითი:

ზოგიერთ X ტექსტში ასოების რაოდენობა 1000-ის ტოლი აღმოჩნდა. პირველი ასო იყო "ი", მეორე - ასო "ი", მესამე - ასო "ა", მეოთხე - "უ". შემდეგ მოვიდა ასოები "o", "e", "y", "e", "s".

ჩამოვწეროთ ის ადგილები, რომლებსაც ისინი იკავებენ ანბანში, შესაბამისად გვაქვს: 33, 10, 1, 32, 16, 6, 21, 31, 29.

ამ რიცხვების ზრდადი მიმდევრობით დალაგების შემდეგ ვიღებთ ვარიაციის სერიას: 1, 6, 10, 16, 21, 29, 31, 32, 33.

ტექსტში ასოების გამოჩენის სიხშირეები: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7," I "- 22.

ჩვენ ვქმნით სიხშირეების წერტილოვან ცვალებად სერიას:

მაგალითი:

მითითებულია მოცულობის სინჯის სიხშირის განაწილება n = 20.

შეადგინეთ ფარდობითი სიხშირეების წერტილის ცვალებადობის სერია.

x i

2

6

12

n i

3

10

7

გამოსავალი:

იპოვნეთ შედარებითი სიხშირეები:


x i

2

6

12

w i

0,15

0,5

0,35

ინტერვალის განაწილების აგებისას, არსებობს ინტერვალების რაოდენობის ან თითოეული ინტერვალის ზომის არჩევის წესები. კრიტერიუმი აქ არის ოპტიმალური თანაფარდობა: ინტერვალების რაოდენობის მატებასთან ერთად უმჯობესდება წარმომადგენლობა, მაგრამ იზრდება მონაცემების რაოდენობა და მათი დამუშავების დრო. განსხვავება x max - x min უდიდეს და უმცირეს მნიშვნელობებს შორის ვარიანტს უწოდებენ დიდი მასშტაბითნიმუშები.

ინტერვალების რაოდენობის დასათვლელადკ ჩვეულებრივ გამოიყენება Sturgess-ის ემპირიული ფორმულა (რაც გულისხმობს დამრგვალებას უახლოეს მოსახერხებელ მთელ რიცხვზე): k = 1 + 3.322 log n.

შესაბამისად, თითოეული ინტერვალის მნიშვნელობათ შეიძლება გამოითვალოს ფორმულის გამოყენებით:

5. ემპირიული განაწილების ფუნქცია

განვიხილოთ ზოგადი პოპულაციის ზოგიერთი ნიმუში. ცნობილი იყოს X რაოდენობრივი ატრიბუტის სიხშირეების სტატისტიკური განაწილება. შემოვიღოთ აღნიშვნა: n x.არის დაკვირვებების რაოდენობა, რომლებშიც დაფიქსირდა x-ზე ნაკლები მახასიათებლის მნიშვნელობა;არის დაკვირვებების საერთო რაოდენობა (ნიმუშის ზომა). მოვლენის შედარებითი სიხშირე X<х равна n x /n . თუ x იცვლება, მაშინ ფარდობითი სიხშირეც იცვლება, ე.ი. შედარებითი სიხშირეn x / nარის x-ის ფუნქცია. რადგან გვხვდება ემპირიულად, მას ემპირიული ჰქვია.

ემპირიული განაწილების ფუნქცია (ნიმუშის განაწილების ფუნქცია) დარეკეთ ფუნქციას, რომელიც განსაზღვრავს თითოეული x-ისთვის X მოვლენის ფარდობით სიხშირეს<х.


სად არის x-ზე ნაკლები ვარიანტების რაოდენობა,

n - ნიმუშის ზომა.

ნიმუშის ემპირიული განაწილების ფუნქციისგან განსხვავებით, პოპულაციის განაწილების ფუნქცია F(x) ეწოდება თეორიული განაწილების ფუნქცია.

განსხვავება ემპირიულ და თეორიულ განაწილების ფუნქციებს შორის არის ის, რომ თეორიული ფუნქცია F (x) განსაზღვრავს X მოვლენის ალბათობას. F*(x)მიდრეკილია ალბათობით ამ მოვლენის F (x) ალბათობამდე. ანუ დიდი ნ F*(x)და F(x) ერთმანეთისგან ცოტათი განსხვავდება.

რომ. მიზანშეწონილია გამოიყენოს ნიმუშის ემპირიული განაწილების ფუნქცია ზოგადი პოპულაციის თეორიული (ინტეგრალური) განაწილების ფუნქციის მიახლოებითი წარმოდგენისთვის.

F*(x)აქვს ყველა თვისება F(x).

1. ღირებულებები F*(x)მიეკუთვნება ინტერვალს.

2. F*(x) არის შეუმცირებელი ფუნქცია.

3. თუ ყველაზე პატარა ვარიანტია, მაშინ F*(x) = 0, x-ზე < x1; თუ x k არის ყველაზე დიდი ვარიანტი, მაშინ F*(x) = 1, x > x k-ისთვის.

იმათ. F*(x)ემსახურება F(x) შეფასებას.

თუ ნიმუში მოცემულია ვარიაციული სერიით, მაშინ ემპირიულ ფუნქციას აქვს ფორმა:

ემპირიული ფუნქციის გრაფიკს კუმულატიური ეწოდება.

მაგალითი:

დახაზეთ ემპირიული ფუნქცია მოცემული ნიმუშის განაწილებაზე.


გამოსავალი:

ნიმუშის ზომა n = 12 + 18 +30 = 60. ყველაზე პატარა ვარიანტია 2, ე.ი. x-ზე < 2. მოვლენა X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0.2 2-ზე < x < 6. მოვლენა X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. რადგან x=10 ყველაზე დიდი ვარიანტია F*(x) = 1 x>10-ზე. სასურველ ემპირიულ ფუნქციას აქვს ფორმა:

კუმულაცია:


კუმულატი შესაძლებელს ხდის გრაფიკულად წარმოდგენილი ინფორმაციის გაგებას, მაგალითად, კითხვებზე პასუხის გაცემას: „განსაზღვრეთ დაკვირვებების რაოდენობა, რომლებშიც მახასიათებლის მნიშვნელობა იყო 6-ზე ნაკლები ან არანაკლებ 6. F*(6) = 0.2. » მაშინ დაკვირვებების რაოდენობა, რომლებშიც დაკვირვებული მახასიათებლის მნიშვნელობა 6-ზე ნაკლები იყო, არის 0,2*\u003d 0.2 * 60 \u003d 12. დაკვირვებების რაოდენობა, რომლებშიც დაკვირვებული მახასიათებლის მნიშვნელობა იყო არანაკლებ 6, არის (1-0.2) * n \u003d 0.8 * 60 \u003d 48.

თუ მოცემულია ინტერვალის ცვალებადობის სერია, მაშინ ემპირიული განაწილების ფუნქციის შესადგენად, გვხვდება ინტერვალების შუა წერტილები და მათგან მიიღება ემპირიული განაწილების ფუნქცია, როგორც წერტილოვანი ვარიაციის სერიის მსგავსად.

6. პოლიგონი და ჰისტოგრამა

სიცხადისთვის აგებულია სტატისტიკური განაწილების სხვადასხვა გრაფიკები: მრავალწევრი და ჰისტოგრამები

სიხშირის პოლიგონი -ეს არის გატეხილი ხაზი, რომლის სეგმენტები აკავშირებს წერტილებს ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), სადაც არის ოფციები, არის მათი შესაბამისი სიხშირეები.

ფარდობითი სიხშირეების პოლიგონი -ეს არის გატეხილი ხაზი, რომლის სეგმენტები აკავშირებს წერტილებს ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), სადაც x i არის ოფციები, w i არის მათ შესაბამისი ფარდობითი სიხშირეები.

მაგალითი:

დახაზეთ ფარდობითი სიხშირის პოლინომი მოცემული ნიმუშის განაწილებაზე:

გამოსავალი:

უწყვეტი მახასიათებლის შემთხვევაში, მიზანშეწონილია ჰისტოგრამის აგება, რომლისთვისაც ინტერვალი, რომელიც შეიცავს მახასიათებლის ყველა დაკვირვებულ მნიშვნელობას, იყოფა h სიგრძის რამდენიმე ნაწილობრივ ინტერვალად და ყოველი ნაწილობრივი ინტერვალისთვის მოიძებნება n i. - ვარიანტის სიხშირეების ჯამი, რომელიც ხვდება i-ე ინტერვალში. (მაგალითად, ადამიანის სიმაღლის ან წონის გაზომვისას საქმე გვაქვს უწყვეტ ნიშანთან).

სიხშირის ჰისტოგრამა -ეს არის საფეხურიანი ფიგურა, რომელიც შედგება მართკუთხედებისგან, რომელთა ფუძეები არის h სიგრძის ნაწილობრივი ინტერვალები, ხოლო სიმაღლეები უდრის თანაფარდობას (სიხშირის სიმკვრივე).

მოედანი i-ე ნაწილობრივი მართკუთხედი უდრის i-ის ინტერვალის ვარიანტის სიხშირეების ჯამს, ე.ი. სიხშირის ჰისტოგრამის ფართობი უდრის ყველა სიხშირის ჯამს, ე.ი. ნიმუშის ზომა.

მაგალითი:

მოცემულია ელექტრულ ქსელში ძაბვის (ვოლტებში) ცვლილების შედეგები. შეადგინეთ ვარიაციის სერია, შექმენით მრავალკუთხედი და სიხშირის ჰისტოგრამა, თუ ძაბვის მნიშვნელობები შემდეგია: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 216, 220, 225, 212, 217, 220.

გამოსავალი:

მოდით შევქმნათ ვარიაციების სერია. გვაქვს n = 20, x min =212, x max =232.

ინტერვალების რაოდენობის გამოსათვლელად გამოვიყენოთ Sturgess-ის ფორმულა.

სიხშირეების ინტერვალის ცვალებად სერიას აქვს ფორმა:


სიხშირის სიმკვრივე

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

მოდით ავაშენოთ სიხშირეების ჰისტოგრამა:

მოდით ავაშენოთ სიხშირეების პოლიგონი ჯერ ინტერვალების შუა წერტილების აღმოჩენით:


ფარდობითი სიხშირეების ჰისტოგრამაეწოდება საფეხურიანი ფიგურა, რომელიც შედგება მართკუთხედებისგან, რომელთა ფუძეები არის h სიგრძის ნაწილობრივი ინტერვალები, ხოლო სიმაღლეები უდრის w შეფარდებას. მე/სთ (ფარდობითი სიხშირის სიმკვრივე).

მოედანი i-ე ნაწილობრივი მართკუთხედი ტოლია იმ ვარიანტის ფარდობითი სიხშირისა, რომელიც მოხვდა i-ე ინტერვალში. იმათ. ფარდობითი სიხშირეების ჰისტოგრამის ფართობი უდრის ყველა ფარდობითი სიხშირის ჯამს, ე.ი. ერთეული.

7. ვარიაციების სერიის რიცხვითი მახასიათებლები

განვიხილოთ ზოგადი და სანიმუშო პოპულაციების ძირითადი მახასიათებლები.

ზოგადი საშუალოეწოდება საერთო პოპულაციის მახასიათებლის მნიშვნელობების საშუალო არითმეტიკული.

სხვადასხვა მნიშვნელობებისთვის x 1 , x 2 , x 3 , ..., x n . N მოცულობის საერთო პოპულაციის ნიშანი გვაქვს:

თუ ატრიბუტის მნიშვნელობებს აქვთ შესაბამისი სიხშირეები N 1 +N 2 +…+N k =N, მაშინ


ნიმუში ნიშნავსეწოდება ნიმუშის პოპულაციის მახასიათებლის მნიშვნელობების საშუალო არითმეტიკული.

თუ ატრიბუტის მნიშვნელობებს აქვთ შესაბამისი სიხშირეები n 1 +n 2 +…+n k = n, მაშინ


მაგალითი:

გამოთვალეთ ნიმუშის საშუალო ნიმუში: x 1 = 51.12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52,93; x 5 \u003d 51,1; x 6 \u003d 52,98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51.07; x10 = 51.04.

გამოსავალი:

ზოგადი ვარიაციაეწოდება საერთო პოპულაციის X მახასიათებლის მნიშვნელობების კვადრატული გადახრების საშუალო არითმეტიკული საშუალო საშუალოდან.

N მოცულობის პოპულაციის ნიშნის სხვადასხვა x 1 , x 2 , x 3 , ..., x N მნიშვნელობებისთვის გვაქვს:

თუ ატრიბუტის მნიშვნელობებს აქვთ შესაბამისი სიხშირეები N 1 +N 2 +…+N k =N, მაშინ

ზოგადი სტანდარტული გადახრა (სტანდარტული)ეწოდება ზოგადი დისპერსიის კვადრატული ფესვი

ნიმუშის განსხვავებაეწოდება მახასიათებლის დაკვირვებული მნიშვნელობების საშუალო მნიშვნელობიდან კვადრატული გადახრების საშუალო არითმეტიკული.

n მოცულობის ნიმუშის პოპულაციის ნიშნის სხვადასხვა მნიშვნელობებისთვის x 1 , x 2 , x 3 , ..., x n გვაქვს:


თუ ატრიბუტის მნიშვნელობებს აქვთ შესაბამისი სიხშირეები n 1 +n 2 +…+n k = n, მაშინ


ნიმუშის სტანდარტული გადახრა (სტანდარტული)ეწოდება ნიმუშის დისპერსიის კვადრატული ფესვი.


მაგალითი:

შერჩევის ნაკრები მოცემულია განაწილების ცხრილით. იპოვეთ ნიმუშის განსხვავება.


გამოსავალი:

თეორემა: დისპერსია უდრის სხვაობას მახასიათებლის მნიშვნელობების კვადრატების საშუალოსა და მთლიანი საშუალოს კვადრატს შორის.

მაგალითი:

იპოვეთ განსხვავება ამ განაწილებისთვის.



გამოსავალი:

8. განაწილების პარამეტრების სტატისტიკური შეფასებები

მოდით, ზოგადი პოპულაცია შეისწავლოს ზოგიერთი ნიმუშით. ამ შემთხვევაში შესაძლებელია მხოლოდ უცნობი პარამეტრის Q მიახლოებითი მნიშვნელობის მიღება, რომელიც ემსახურება მის შეფასებას. აშკარაა, რომ შეფასებები შეიძლება განსხვავდებოდეს ერთი ნიმუშიდან მეორეზე.

სტატისტიკური შეფასებაQ*თეორიული განაწილების უცნობ პარამეტრს ეწოდება ფუნქცია f, რომელიც დამოკიდებულია ნიმუშის დაკვირვებულ მნიშვნელობებზე. ნიმუშიდან უცნობი პარამეტრების სტატისტიკური შეფასების ამოცანაა ისეთი ფუნქციის აგება სტატისტიკური დაკვირვების არსებული მონაცემებიდან, რომელიც მისცემს ამ პარამეტრების რეალური, მკვლევარისთვის უცნობი მნიშვნელობების ყველაზე ზუსტ სავარაუდო მნიშვნელობებს.

სტატისტიკური შეფასებები იყოფა წერტილად და ინტერვალად, მათი მოწოდების (რიცხვი ან ინტერვალი) მიხედვით.

ქულების შეფასებას სტატისტიკური შეფასება ეწოდება. Q *=f (x 1 , x 2 , ..., x n) პარამეტრის ერთი მნიშვნელობით განსაზღვრული თეორიული განაწილების Q პარამეტრი, სადაცx 1, x 2, ..., xn- გარკვეული ნიმუშის X რაოდენობრივ ატრიბუტზე ემპირიული დაკვირვების შედეგები.

სხვადასხვა ნიმუშებიდან მიღებული ასეთი პარამეტრების შეფასებები ყველაზე ხშირად განსხვავდება ერთმანეთისგან. აბსოლუტური სხვაობა /Q *-Q / ეწოდება შერჩევის შეცდომა (შეფასება).

იმისათვის, რომ სტატისტიკურმა შეფასებებმა მისცეს სანდო შედეგები სავარაუდო პარამეტრების შესახებ, აუცილებელია, რომ ისინი იყოს მიუკერძოებელი, ეფექტური და თანმიმდევრული.

ქულების შეფასება, რომლის მათემატიკური მოლოდინი უდრის (არა ტოლია) სავარაუდო პარამეტრს, ე.წ შეუცვლელი (გადატანილი). M(Q *)=Q.

სხვაობა M( ქ *)-ქ ეძახიან მიკერძოება ან სისტემატური შეცდომა. მიუკერძოებელი შეფასებისთვის, სისტემატური შეცდომა არის 0.

ეფექტური შეფასება Q *, რომელსაც მოცემული ნიმუშის n ზომისთვის აქვს ყველაზე მცირე შესაძლო ვარიაცია: D min(n = const). ეფექტურ შემფასებელს აქვს ყველაზე მცირე გავრცელება სხვა მიუკერძოებელ და თანმიმდევრულ შემფასებლებთან შედარებით.

Მდიდარიასეთ სტატისტიკას უწოდებენ შეფასება Q *, რომელიც ნმიდრეკილია სავარაუდო პარამეტრზე, ე.ი. ნიმუშის ზომის ზრდითშეფასება მიდრეკილია პარამეტრის ნამდვილ მნიშვნელობამდექ.

თანმიმდევრულობის მოთხოვნა შეესაბამება დიდი რიცხვების კანონს: რაც უფრო მეტია პირველადი ინფორმაცია შესასწავლი ობიექტის შესახებ, მით უფრო ზუსტი იქნება შედეგი. თუ ნიმუშის ზომა მცირეა, მაშინ პარამეტრის წერტილის შეფასებამ შეიძლება გამოიწვიოს სერიოზული შეცდომები.

ნებისმიერი ნიმუში (მოცულობაო)შეიძლება ჩაითვალოს შეკვეთილ კომპლექტადx 1, x 2, ..., xnდამოუკიდებელი იდენტურად განაწილებული შემთხვევითი ცვლადები.

სანიმუშო საშუალებები სხვადასხვა მოცულობის ნიმუშებისთვისნ ერთი და იგივე პოპულაციისგან განსხვავებული იქნება. ანუ, შერჩევის საშუალო შეიძლება ჩაითვალოს შემთხვევით ცვლადად, რაც ნიშნავს, რომ შეგვიძლია ვისაუბროთ შერჩევის საშუალო განაწილებაზე და მის რიცხვობრივ მახასიათებლებზე.

შერჩევის საშუალო მაჩვენებელი აკმაყოფილებს სტატისტიკურ შეფასებებზე დაწესებულ ყველა მოთხოვნას, ე.ი. იძლევა მოსახლეობის საშუალო ობიექტურ, ეფექტურ და თანმიმდევრულ შეფასებას.

ამის დამტკიცება შეიძლება. ამრიგად, ნიმუშის დისპერსია არის ზოგადი დისპერსიის მიკერძოებული შეფასება, რაც მას დაუფასებელ მნიშვნელობას აძლევს. ანუ მცირე ნიმუშის ზომით ის სისტემატიურ შეცდომას მისცემს. მიუკერძოებელი, თანმიმდევრული შეფასებისთვის საკმარისია რაოდენობის აღება, რომელსაც კორექტირებულ დისპერსიას უწოდებენ. ე.ი.

პრაქტიკაში, ზოგადი დისპერსიის შესაფასებლად გამოიყენება შესწორებული დისპერსია, როდესაცნ < 30. სხვა შემთხვევებში ( n >30) გადახრა ძლივს შესამჩნევი. ამიტომ, დიდი ღირებულებებისთვისმიკერძოების შეცდომის უგულებელყოფა შეიძლება.

ასევე შეიძლება დაამტკიცოს, რომ ფარდობითი სიხშირეn i / n არის მიუკერძოებელი და თანმიმდევრული ალბათობის შეფასება P(X=x i ). ემპირიული განაწილების ფუნქცია F*(x ) არის თეორიული განაწილების ფუნქციის მიუკერძოებელი და თანმიმდევრული შეფასება F(x)=P(X< x ).

მაგალითი:

იპოვეთ საშუალო და დისპერსიის მიუკერძოებელი შეფასებები ნიმუშის ცხრილიდან.

x i
n i

გამოსავალი:

ნიმუშის ზომა n=20.

მათემატიკური მოლოდინის მიუკერძოებელი შეფასება არის შერჩევის საშუალო.


დისპერსიის მიუკერძოებელი შეფასების გამოსათვლელად, ჩვენ ჯერ ვპოულობთ ნიმუშის დისპერსიას:

ახლა ვიპოვოთ მიუკერძოებელი შეფასება:

9. განაწილების პარამეტრების ინტერვალური შეფასებები

ინტერვალი არის სტატისტიკური შეფასება, რომელიც განისაზღვრება ორი რიცხვითი მნიშვნელობით - შესწავლილი ინტერვალის ბოლოები.

ნომერი> 0, სადაც | Q - Q*|< , ახასიათებს ინტერვალის შეფასების სიზუსტეს.

სანდოდაურეკა ინტერვალი , რომელიც მოცემული ალბათობითფარავს უცნობი პარამეტრის მნიშვნელობას. ნდობის ინტერვალის შევსება პარამეტრის ყველა შესაძლო მნიშვნელობის ნაკრებისთვისდაურეკა კრიტიკული ზონა. თუ კრიტიკული რეგიონი მდებარეობს ნდობის ინტერვალის მხოლოდ ერთ მხარეს, მაშინ ნდობის ინტერვალი ეწოდება ცალმხრივი: მარცხენა მხარეს, თუ კრიტიკული რეგიონი არსებობს მხოლოდ მარცხნივ და მემარჯვენეთუ მარჯვნივ. წინააღმდეგ შემთხვევაში, ნდობის ინტერვალი ეწოდება ორმხრივი.

სანდოობა ან ნდობის დონე, Q შეფასებები (Q-ის გამოყენებით *) დაასახელეთ ალბათობა, რომლითაც სრულდება შემდეგი უტოლობა: | Q - Q*|< .

ყველაზე ხშირად, ნდობის ალბათობა წინასწარ დგინდება (0,95; 0,99; 0,999) და მას ეკისრება მოთხოვნა, რომ იყოს ერთთან ახლოს.

ალბათობადაურეკა შეცდომის ალბათობა, ან მნიშვნელოვნების დონე.

მოდით | Q - Q*|< , მაშინ. ეს ნიშნავს, რომ ალბათობითშეიძლება ითქვას, რომ პარამეტრის ნამდვილი მნიშვნელობაინტერვალს ეკუთვნის. რაც უფრო მცირეა გადახრამით უფრო ზუსტია შეფასება.

ნდობის ინტერვალის საზღვრები (ბოლოები) ეწოდება ნდობის საზღვრები, ან კრიტიკული საზღვრები.

ნდობის ინტერვალის საზღვრების მნიშვნელობები დამოკიდებულია პარამეტრის განაწილების კანონზე Q*.

გადახრის მნიშვნელობანდობის ინტერვალის სიგანის ნახევარი ეწოდება შეფასების სიზუსტე.

ნდობის ინტერვალების აგების მეთოდები პირველად ამერიკელმა სტატისტიკოსმა ი.ნეუმანმა შეიმუშავა. შეფასების სიზუსტე, ნდობის ალბათობა და ნიმუშის ზომა n ურთიერთდაკავშირებული. ამიტომ, ორი რაოდენობის კონკრეტული მნიშვნელობების ცოდნით, ყოველთვის შეგიძლიათ გამოთვალოთ მესამე.

ნდობის ინტერვალის პოვნა ნორმალური განაწილების მათემატიკური მოლოდინის შესაფასებლად, თუ ცნობილია სტანდარტული გადახრა.

მოდით, ნიმუში გაკეთდეს ზოგადი პოპულაციისგან, ნორმალური განაწილების კანონის დაცვით. მოდით ცნობილი იყოს ზოგადი სტანდარტული გადახრა, მაგრამ თეორიული განაწილების მათემატიკური მოლოდინი უცნობიაა ().

შემდეგი ფორმულა მოქმედებს:

იმათ. მითითებული გადახრის მნიშვნელობის მიხედვითშესაძლებელია იმის დადგენა, თუ რა ალბათობით მიეკუთვნება უცნობი ზოგადი საშუალო ინტერვალს. და პირიქით. ფორმულიდან ჩანს, რომ ნიმუშის ზომის გაზრდით და ნდობის ალბათობის ფიქსირებული მნიშვნელობით, მნიშვნელობა- იკლებს, ე.ი. გაიზარდა შეფასების სიზუსტე. სანდოობის ზრდით (ნდობის ალბათობა), ღირებულება-იზრდება, ე.ი. შეფასების სიზუსტე მცირდება.

მაგალითი:

ტესტების შედეგად მიიღეს შემდეგი მნიშვნელობები -25, 34, -20, 10, 21. ცნობილია, რომ ისინი ემორჩილებიან ნორმალურ განაწილების კანონს სტანდარტული გადახრით 2. იპოვეთ შეფასება a*-სთვის. მათემატიკური მოლოდინი ა. დახაზეთ მისთვის 90%-იანი ნდობის ინტერვალი.

გამოსავალი:

მოდი ვიპოვოთ მიუკერძოებელი შეფასება

მერე


a-სთვის დამაჯერებლობის ინტერვალს აქვს ფორმა: 4 - 1.47< ა< 4+ 1,47 или 2,53 < a < 5, 47

ნდობის ინტერვალის პოვნა ნორმალური განაწილების მათემატიკური მოლოდინის შესაფასებლად, თუ სტანდარტული გადახრა უცნობია.

ცნობილია, რომ ზოგადი მოსახლეობა ექვემდებარება ნორმალური განაწილების კანონს, სადაც ა და. ნდობის ინტერვალის დაფარვის სიზუსტე საიმედოობითპარამეტრის ჭეშმარიტი მნიშვნელობა, ამ შემთხვევაში, გამოითვლება ფორმულით:

, სადაც n არის ნიმუშის ზომა, , - სტუდენტის კოეფიციენტი (ის უნდა მოიძებნოს მოცემული მნიშვნელობებიდან n და ცხრილიდან „სტუდენტური განაწილების კრიტიკული წერტილები“).

მაგალითი:

ტესტების შედეგად მიღებული იქნა შემდეგი მნიშვნელობები -35, -32, -26, -35, -30, -17. ცნობილია, რომ ისინი ემორჩილებიან ნორმალური განაწილების კანონს. იპოვეთ ნდობის ინტერვალი პოპულაციის საშუალო a-სთვის ნდობის დონით 0,9.

გამოსავალი:

მოდი ვიპოვოთ მიუკერძოებელი შეფასება.

მოდი ვიპოვოთ.

მერე

ნდობის ინტერვალი მიიღებს ფორმას(-29.2 - 5.62; -29.2 + 5.62) ან (-34.82; -23.58).

ნორმალური განაწილების დისპერსიისა და სტანდარტული გადახრის ნდობის ინტერვალის პოვნა

მოდით ავიღოთ მოცულობის შემთხვევითი ნიმუში მნიშვნელობების ზოგიერთი ზოგადი ნაკრებიდან, რომელიც განაწილებულია ნორმალური კანონის მიხედვით < 30, რომლისთვისაც გამოითვლება ნიმუშის დისპერსიები: მიკერძოებულიდა გაასწორა s 2. შემდეგ იპოვონ ინტერვალური შეფასებები მოცემული სანდოობითზოგადი დისპერსიისთვისზოგადი სტანდარტული გადახრაგამოიყენება შემდეგი ფორმულები.


ან,

ღირებულებები- იპოვეთ კრიტიკული წერტილების მნიშვნელობების ცხრილის გამოყენებითპირსონის განაწილებები.

დისპერსიის ნდობის ინტერვალი ამ უტოლობებიდან არის ნაპოვნი უტოლობის ყველა ნაწილის კვადრატში.

მაგალითი:

შემოწმდა 15 ჭანჭიკის ხარისხი. ვივარაუდოთ, რომ მათი წარმოების შეცდომა ექვემდებარება ნორმალურ განაწილების კანონს და ნიმუშის სტანდარტულ გადახრასუდრის 5 მმ, განსაზღვრეთ საიმედოობითნდობის ინტერვალი უცნობი პარამეტრისთვის

ჩვენ წარმოვადგენთ ინტერვალის საზღვრებს ორმაგი უტოლობის სახით:

დისპერსიის ორმხრივი ნდობის ინტერვალის ბოლოები შეიძლება განისაზღვროს არითმეტიკული ოპერაციების შესრულების გარეშე ნდობის მოცემული დონისა და ნიმუშის ზომისთვის შესაბამისი ცხრილის გამოყენებით (სარწმუნოობის ინტერვალების საზღვრები დისპერსიისთვის, დამოკიდებულია თავისუფლებისა და სანდოობის ხარისხზე ). ამისათვის ცხრილიდან მიღებული ინტერვალის ბოლოები მრავლდება შესწორებულ დისპერსიაზე s 2..

მაგალითი:

მოდით, წინა პრობლემა სხვაგვარად გადავჭრათ.

გამოსავალი:

ვიპოვოთ შესწორებული ვარიაცია:

ცხრილის მიხედვით "სარწმუნოობის ინტერვალის საზღვრები დისპერსიისთვის, რაც დამოკიდებულია თავისუფლებისა და სანდოობის ხარისხების რაოდენობაზე", ჩვენ ვპოულობთ ნდობის ინტერვალის საზღვრებს დისპერსიისთვის=14 და: ქვედა ზღვარი 0.513 და ზედა ზღვარი 2.354.

მიღებული საზღვრები გავამრავლოთs 2 და ამოიღეთ ფესვი (რადგან ჩვენ გვჭირდება ნდობის ინტერვალი არა დისპერსიისთვის, არამედ სტანდარტული გადახრისთვის).

როგორც მაგალითებიდან ჩანს, ნდობის ინტერვალის მნიშვნელობა დამოკიდებულია მისი აგების მეთოდზე და იძლევა ახლო, მაგრამ განსხვავებულ შედეგებს.

საკმარისად დიდი ზომის ნიმუშებისთვის (>30) ზოგადი სტანდარტული გადახრის ნდობის ინტერვალის საზღვრები შეიძლება განისაზღვროს ფორმულით: - რომელიღაც რიცხვი, რომელიც ჩამოთვლილია და მოცემულია შესაბამის საცნობარო ცხრილში.

თუ 1- <1, то формула имеет вид:

მაგალითი:

მესამე გზით გადავჭრათ წინა პრობლემა.

გამოსავალი:

ადრე ნაპოვნი= 5,17. (0.95; 15) = 0.46 - ვპოულობთ ცხრილის მიხედვით.

შემდეგ:

მოსახლეობა- ერთეულების ერთობლიობა, რომლებსაც აქვთ მასობრივი ხასიათი, ტიპიურობა, თვისობრივი ერთგვაროვნება და ცვალებადობის არსებობა.

სტატისტიკური პოპულაცია შედგება მატერიალურად არსებული ობიექტებისგან (თანამშრომლები, საწარმოები, ქვეყნები, რეგიონები), არის ობიექტი.

მოსახლეობის ერთეული- სტატისტიკური პოპულაციის თითოეული კონკრეტული ერთეული.

ერთი და იგივე სტატისტიკური პოპულაცია შეიძლება იყოს ერთგვაროვანი ერთ მახასიათებელში და ჰეტეროგენული მეორეში.

ხარისხობრივი ერთგვაროვნება- მოსახლეობის ყველა ერთეულის მსგავსება ნებისმიერი მახასიათებლისთვის და განსხვავებები ყველა დანარჩენისთვის.

სტატისტიკურ პოპულაციაში მოსახლეობის ერთი ერთეულის სხვაობა მეორისგან უფრო ხშირად რაოდენობრივი ხასიათისაა. პოპულაციის სხვადასხვა ერთეულის ატრიბუტის მნიშვნელობებში რაოდენობრივ ცვლილებებს ვარიაცია ეწოდება.

ფუნქციის ვარიაცია- მახასიათებლის რაოდენობრივი ცვლილება (რაოდენობრივი მახასიათებლისთვის) მოსახლეობის ერთი ერთეულიდან მეორეზე გადასვლაში.

ნიშანი- ეს არის ერთეულების, ობიექტებისა და ფენომენების თვისება, დამახასიათებელი თვისება ან სხვა მახასიათებელი, რომლის დაკვირვება ან გაზომვა შესაძლებელია. ნიშნები იყოფა რაოდენობრივად და ხარისხობრივად. პოპულაციის ცალკეულ ერთეულებში მახასიათებლის მნიშვნელობის მრავალფეროვნება და ცვალებადობა ე.წ ვარიაცია.

ატრიბუტული (ხარისხობრივი) ნიშნები არ არის რაოდენობრივი (პოპულაციის შემადგენლობა სქესის მიხედვით). რაოდენობრივ მახასიათებლებს აქვს რიცხვითი გამოხატულება (პოპულაციის შემადგენლობა ასაკის მიხედვით).

ინდექსი- ეს არის განზოგადებული რაოდენობრივი და ხარისხობრივი მახასიათებელი ერთეულების ან აგრეგატების ნებისმიერი საკუთრების მიზნისთვის დროისა და ადგილის კონკრეტულ პირობებში.

ანგარიშის ბარათიწარმოადგენს ინდიკატორთა ერთობლიობას, რომელიც სრულყოფილად ასახავს შესასწავლ ფენომენს.

მაგალითად, განიხილეთ ხელფასი:
  • ნიშანი - ხელფასი
  • სტატისტიკური პოპულაცია - ყველა თანამშრომელი
  • მოსახლეობის ერთეული არის თითოეული მუშა
  • ხარისხობრივი ერთგვაროვნება - დარიცხული ხელფასი
  • მახასიათებლების ვარიაცია - რიცხვების სერია

საერთო პოპულაცია და ნიმუში მისგან

საფუძველი არის ერთი ან რამდენიმე მახასიათებლის გაზომვის შედეგად მიღებული მონაცემების ერთობლიობა. ფაქტობრივად დაკვირვებული ობიექტების ნაკრები, სტატისტიკურად წარმოდგენილია შემთხვევითი ცვლადის დაკვირვებით, არის სინჯის აღებადა ჰიპოთეტურად არსებული (გააზრებული) - საერთო მოსახლეობა. საერთო პოპულაცია შეიძლება იყოს სასრული (დაკვირვებების რაოდენობა N = კონსტ) ან უსასრულო ( N = ∞), ხოლო ზოგადი პოპულაციის ნიმუში ყოველთვის არის შეზღუდული რაოდენობის დაკვირვების შედეგი. დაკვირვებების რაოდენობას, რომლებიც ქმნიან ნიმუშს, ეწოდება ნიმუშის ზომა. თუ ნიმუშის ზომა საკმარისად დიდია n→∞) განიხილება ნიმუში დიდი, თორემ მას სინჯი ჰქვია შეზღუდული მოცულობა. ნიმუში განიხილება პატარა, თუ ერთგანზომილებიანი შემთხვევითი ცვლადის გაზომვისას ნიმუშის ზომა არ აღემატება 30 ( ნ<= 30 ), და რამდენიმეს ერთდროულად გაზომვისას ( ) მახასიათებლები მრავალგანზომილებიანი სივრცის მიმართებაში რომ ნაკლები ვიდრე 10 (ნ/კ< 10) . ნიმუშის ფორმები ვარიაციის სერიათუ მისი წევრები არიან შეკვეთის სტატისტიკა, ანუ შემთხვევითი ცვლადის ნიმუშის მნიშვნელობები Xდალაგებულია ზრდის მიხედვით (რეიტინგული), ატრიბუტის მნიშვნელობები ეწოდება პარამეტრები.

მაგალითი. თითქმის იგივე შემთხვევით შერჩეული ობიექტების ნაკრები - მოსკოვის ერთი ადმინისტრაციული ოლქის კომერციული ბანკები, შეიძლება ჩაითვალოს ნიმუშად ამ რაიონის ყველა კომერციული ბანკის საერთო პოპულაციისა და მოსკოვის ყველა კომერციული ბანკის საერთო პოპულაციის ნიმუშად. , ასევე ქვეყანაში არსებული კომერციული ბანკების ნიმუში და ა.შ.

შერჩევის ძირითადი მეთოდები

სტატისტიკური დასკვნების სანდოობა და შედეგების მნიშვნელოვანი ინტერპრეტაცია დამოკიდებულია წარმომადგენლობანიმუშები, ე.ი. ზოგადი პოპულაციის თვისებების წარმოდგენის სისრულე და ადეკვატურობა, რომელთა მიმართაც ეს ნიმუში შეიძლება ჩაითვალოს წარმომადგენლობით. პოპულაციის სტატისტიკური თვისებების შესწავლა შეიძლება მოეწყოს ორი გზით: გამოყენებით უწყვეტიდა უწყვეტი. უწყვეტი დაკვირვებამოიცავს ყველაფრის შემოწმებას ერთეულებიშეისწავლა აგრეგატები, ა არაუწყვეტი (შერჩევითი) დაკვირვება- მხოლოდ მისი ნაწილები.

შერჩევის ორგანიზების ხუთი ძირითადი გზა არსებობს:

1. მარტივი შემთხვევითი შერჩევა, რომელშიც ობიექტები შემთხვევით არის ამოღებული ობიექტების ზოგადი პოპულაციისგან (მაგალითად, ცხრილის ან შემთხვევითი რიცხვების გენერატორის გამოყენებით) და თითოეულ შესაძლო ნიმუშს აქვს თანაბარი ალბათობა. ასეთ ნიმუშებს ე.წ რეალურად შემთხვევითი;

2. მარტივი შერჩევა რეგულარული პროცედურის მეშვეობითხორციელდება მექანიკური კომპონენტის გამოყენებით (მაგალითად, თარიღები, კვირის დღეები, ბინების ნომრები, ანბანის ასოები და ა.შ.) და ამ გზით მიღებულ ნიმუშებს ე.წ. მექანიკური;

3. სტრატიფიცირებულიშერჩევა შედგება იმაში, რომ მოცულობის ზოგადი პოპულაცია იყოფა მოცულობის ქვეჯგუფებად ან შრეებად (ფენა) ისე, რომ . ფენები სტატისტიკური მახასიათებლების მიხედვით ერთგვაროვანი ობიექტებია (მაგალითად, მოსახლეობა იყოფა ფენებად ასაკობრივი ჯგუფის ან სოციალური კლასის მიხედვით; საწარმოები ინდუსტრიის მიხედვით). ამ შემთხვევაში ნიმუშები ე.წ სტრატიფიცირებული(წინააღმდეგ შემთხვევაში, სტრატიფიცირებული, ტიპიური, ზონირებული);

4. მეთოდები სერიალიშერჩევა გამოიყენება ფორმირებისთვის სერიალიან წყობილი ნიმუშები. ისინი მოსახერხებელია, თუ საჭიროა „ბლოკის“ ან ობიექტების სერიის ერთდროულად შემოწმება (მაგალითად, საქონლის პარტია, გარკვეული სერიის პროდუქტები ან ქვეყნის ტერიტორიულ-ადმინისტრაციულ დაყოფაში მცხოვრები მოსახლეობა). სერიების შერჩევა შეიძლება განხორციელდეს შემთხვევითი ან მექანიკური გზით. ამავდროულად, ტარდება საქონლის გარკვეული პარტიის, ან მთელი ტერიტორიული ერთეულის (საცხოვრებელი შენობა ან კვარტალი) უწყვეტი გამოკვლევა;

5. კომბინირებული(საფეხურიანი) შერჩევას შეუძლია ერთდროულად რამდენიმე შერჩევის მეთოდის გაერთიანება (მაგალითად, სტრატიფიცირებული და შემთხვევითი ან შემთხვევითი და მექანიკური); ასეთ ნიმუშს ე.წ კომბინირებული.

შერჩევის ტიპები

ავტორი გონებაარის ინდივიდუალური, ჯგუფური და კომბინირებული შერჩევა. ზე ინდივიდუალური შერჩევაზოგადი პოპულაციის ცალკეული ერთეულები შერჩეულია ნიმუშების კომპლექტში, თან ჯგუფის შერჩევაარის ხარისხობრივად ერთგვაროვანი ერთეულების ჯგუფები (სერიები) და კომბინირებული შერჩევამოიცავს პირველი და მეორე ტიპის კომბინაციას.

ავტორი მეთოდიშერჩევა განასხვავებენ განმეორებითი და განუმეორებელინიმუში.

განუმეორებელისახელწოდებით შერჩევა, რომელშიც ერთეული, რომელიც მოხვდა ნიმუშში, არ უბრუნდება თავდაპირველ პოპულაციას და არ მონაწილეობს შემდგომ შერჩევაში; ხოლო საერთო მოსახლეობის ერთეულების რაოდენობა შემცირდა შერჩევის პროცესში. ზე გაიმეორაშერჩევა დაიჭირესნიმუშში რეგისტრაციის შემდეგ ერთეული უბრუნდება ზოგად პოპულაციას და ამით ინარჩუნებს თანაბარ შესაძლებლობას სხვა ერთეულებთან ერთად, გამოიყენოს შემდგომი შერჩევის პროცედურაში; ხოლო საერთო მოსახლეობის ერთეულების რაოდენობა უცვლელი რჩება (მეთოდი იშვიათად გამოიყენება სოციალურ-ეკონომიკურ კვლევებში). თუმცა, დიდი N (N → ∞)ფორმულები ამისთვის განუმეორებელიშერჩევა ახლოსაა იმისთვის გაიმეორაშერჩევა და ეს უკანასკნელი გამოიყენება თითქმის უფრო ხშირად ( N = კონსტ).

ზოგადი და სანიმუშო პოპულაციის პარამეტრების ძირითადი მახასიათებლები

კვლევის სტატისტიკური დასკვნების საფუძველია შემთხვევითი ცვლადის განაწილება, ხოლო დაკვირვებული მნიშვნელობები (x 1, x 2, ..., x n)შემთხვევითი ცვლადის რეალიზაციას უწოდებენ X(n არის ნიმუშის ზომა). შემთხვევითი ცვლადის განაწილება ზოგად პოპულაციაში არის თეორიული, ბუნებით იდეალური და მისი ნიმუშის ანალოგი არის ემპირიულიგანაწილება. ზოგიერთი თეორიული განაწილება მოცემულია ანალიტიკურად, ე.ი. მათ პარამეტრებიდაადგინეთ განაწილების ფუნქციის მნიშვნელობა თითოეულ წერტილში შემთხვევითი ცვლადის შესაძლო მნიშვნელობების სივრცეში. ამიტომ, ნიმუშისთვის რთულია და ზოგჯერ შეუძლებელიც განაწილების ფუნქციის დადგენა პარამეტრებიშეფასებულია ემპირიული მონაცემებიდან და შემდეგ ისინი ჩანაცვლებულია ანალიტიკურ გამოხატულებაში, რომელიც აღწერს თეორიულ განაწილებას. ამ შემთხვევაში, ვარაუდი (ან ჰიპოთეზა) განაწილების ტიპის შესახებ შეიძლება იყოს სტატისტიკურად სწორიც და მცდარიც. მაგრამ ნებისმიერ შემთხვევაში, ნიმუშიდან აღდგენილი ემპირიული განაწილება მხოლოდ უხეშად ახასიათებს ჭეშმარიტს. განაწილების ყველაზე მნიშვნელოვანი პარამეტრებია მოსალოდნელი ღირებულებადა დისპერსიას.

მათი ბუნებით, განაწილება არის უწყვეტიდა დისკრეტული. ყველაზე ცნობილი უწყვეტი განაწილებაა ნორმალური. პარამეტრების შერჩევითი ანალოგები და მისთვის არის: საშუალო მნიშვნელობა და ემპირიული ვარიაცია. სოციალურ-ეკონომიკურ კვლევებში დისკრეტებს შორის ყველაზე ხშირად გამოიყენება ალტერნატიული (დიქოტომიური)განაწილება. ამ განაწილების მოლოდინის პარამეტრი გამოხატავს ფარდობით მნიშვნელობას (ან გაზიარება) მოსახლეობის ერთეულები, რომლებსაც აქვთ შესასწავლი მახასიათებელი (ეს ასოებით არის მითითებული); მოსახლეობის წილი, რომელსაც არ გააჩნია ეს თვისება, აღინიშნება ასოებით q (q = 1 - p). ალტერნატიული განაწილების ვარიაციას ასევე აქვს ემპირიული ანალოგი.

განაწილების ტიპისა და მოსახლეობის ერთეულების შერჩევის მეთოდის მიხედვით, განაწილების პარამეტრების მახასიათებლები განსხვავებულად გამოითვლება. ძირითადი თეორიული და ემპირიული განაწილებისთვის მოცემულია ცხრილში. 9.1.

ნიმუში წილი k nარის შერჩევის პოპულაციის ერთეულების რაოდენობის თანაფარდობა საერთო პოპულაციის ერთეულების რაოდენობასთან:

k n = n/N.

ნიმუშის წილი wარის ერთეულების თანაფარდობა, რომლებსაც აქვთ შესასწავლი თვისება xნიმუშის ზომამდე :

w = n n / n.

მაგალითი.საქონლის პარტიაში, რომელიც შეიცავს 1000 ერთეულს, 5%-იანი ნიმუშით ნიმუში წილადი k nაბსოლუტური მნიშვნელობით არის 50 ერთეული. (n = N*0.05); თუ ამ ნიმუშში აღმოჩენილია 2 დეფექტური პროდუქტი, მაშინ ნიმუშის ფრაქცია wიქნება 0.04 (w = 2/50 = 0.04 ან 4%).

ვინაიდან ნიმუშის პოპულაცია განსხვავდება ზოგადი პოპულაციისგან, არსებობს შერჩევის შეცდომები.

ცხრილი 9.1 ზოგადი და ნიმუშის პოპულაციების ძირითადი პარამეტრები

შერჩევის შეცდომები

ნებისმიერი (მყარი და შერჩევითი) შეცდომები შეიძლება მოხდეს ორი ტიპის: რეგისტრაცია და წარმომადგენლობა. შეცდომები რეგისტრაციაშეიძლება ჰქონდეს შემთხვევითიდა სისტემატურიპერსონაჟი. შემთხვევითიშეცდომები შედგება მრავალი განსხვავებული უკონტროლო მიზეზისგან, არის უნებლიე ხასიათის და, როგორც წესი, აწონასწორებს ერთმანეთს (მაგალითად, ინსტრუმენტების წაკითხვის ცვლილებები ოთახში ტემპერატურის მერყეობის გამო).

სისტემატურიშეცდომები მიკერძოებულია, რადგან ისინი არღვევენ ნიმუშში ობიექტების შერჩევის წესებს (მაგალითად, გაზომვების გადახრები საზომი მოწყობილობის პარამეტრების შეცვლისას).

მაგალითი.ქალაქში მოსახლეობის სოციალური მდგომარეობის შესაფასებლად დაგეგმილია ოჯახების 25%-ის გამოკვლევა. თუმცა, თუ ყოველი მეოთხე ბინის შერჩევა ეფუძნება მის რაოდენობას, მაშინ არსებობს საშიშროება, რომ შეირჩეს მხოლოდ ერთი ტიპის ყველა ბინა (მაგალითად, ერთოთახიანი), რაც სისტემატურ შეცდომას დააყენებს და შედეგებს ამახინჯებს; ბინის ნომრის არჩევა წილისყრით უფრო სასურველია, რადგან შეცდომა იქნება შემთხვევითი.

წარმომადგენლობითობის შეცდომებიმხოლოდ შერჩევითი დაკვირვების თანდაყოლილი, მათი თავიდან აცილება შეუძლებელია და წარმოიქმნება იმის გამო, რომ ნიმუში სრულად არ ასახავს ზოგადს. ნიმუშიდან მიღებული ინდიკატორების მნიშვნელობები განსხვავდება საერთო პოპულაციაში იგივე მნიშვნელობების მაჩვენებლებისგან (ან მიღებული უწყვეტი დაკვირვების დროს).

შერჩევის შეცდომაარის განსხვავება პარამეტრის მნიშვნელობას საერთო პოპულაციაში და მის შერჩევის მნიშვნელობას შორის. რაოდენობრივი ატრიბუტის საშუალო მნიშვნელობისთვის ის უდრის: , ხოლო წილს (ალტერნატიული ატრიბუტი) - .

შერჩევის შეცდომები თანდაყოლილია მხოლოდ ნიმუშის დაკვირვებაში. რაც უფრო დიდია ეს შეცდომები, მით უფრო განსხვავდება ემპირიული განაწილება თეორიულისგან. ემპირიული განაწილების პარამეტრები და არის შემთხვევითი ცვლადები, შესაბამისად, შერჩევის შეცდომები ასევე შემთხვევითი ცვლადებია, მათ შეუძლიათ მიიღონ სხვადასხვა მნიშვნელობები სხვადასხვა ნიმუშებისთვის და, შესაბამისად, ჩვეულებრივია გამოთვლა საშუალო შეცდომა.

შერჩევის საშუალო შეცდომაარის მნიშვნელობა, რომელიც გამოხატავს ნიმუშის საშუალო სტანდარტულ გადახრას მათემატიკური მოლოდინიდან. ეს მნიშვნელობა, შემთხვევითი შერჩევის პრინციპის გათვალისწინებით, პირველ რიგში დამოკიდებულია ნიმუშის ზომაზე და ნიშან-თვისების ცვალებადობის ხარისხზე: რაც უფრო დიდი და მცირეა ნიშან-თვისების ვარიაცია (შესაბამისად, მნიშვნელობა ), მით უფრო მცირეა მნიშვნელობა. შერჩევის საშუალო შეცდომა. საერთო და ნიმუშის პოპულაციების დისპერსიებს შორის თანაფარდობა გამოიხატება ფორმულით:

იმათ. საკმარისად დიდისთვის შეგვიძლია ვივარაუდოთ, რომ . შერჩევის საშუალო შეცდომა აჩვენებს შერჩევის პოპულაციის პარამეტრის შესაძლო გადახრებს ზოგადი პოპულაციის პარამეტრისგან. მაგიდაზე. 9.2 აჩვენებს გამონათქვამებს შერჩევის საშუალო ცდომილების გამოსათვლელად დაკვირვების ორგანიზების სხვადასხვა მეთოდისთვის.

ცხრილი 9.2 ნიმუშის საშუალო ცდომილება და პროპორცია სხვადასხვა ტიპის ნიმუშისთვის

სად არის უწყვეტი მახასიათებლისთვის შიდაჯგუფური ნიმუშის ვარიაციების საშუალო მაჩვენებელი;

წილის შიდაჯგუფური დისპერსიების საშუალო მაჩვენებელი;

— არჩეული სერიების რაოდენობა, — სერიების საერთო რაოდენობა;

,

სად არის სერიების საშუალო მაჩვენებელი;

- უწყვეტი მახასიათებლის ზოგადი საშუალო მთლიანი ნიმუშისთვის;

,

სად არის თვისების პროპორცია th სერიაში;

- თვისების მთლიანი წილი მთელ ნიმუშზე.

თუმცა, საშუალო ცდომილების სიდიდე შეიძლება შეფასდეს მხოლოდ გარკვეული ალბათობით Р (Р ≤ 1). ლიაპუნოვი ა.მ. დაამტკიცა, რომ ნიმუშის საშუალო განაწილება და, შესაბამისად, მათი გადახრები ზოგადი საშუალოდან, საკმარისად დიდი რაოდენობით, დაახლოებით ემორჩილება ნორმალურ განაწილების კანონს, იმ პირობით, რომ ზოგად პოპულაციას აქვს სასრული საშუალო და შეზღუდული დისპერსია.

მათემატიკურად, ეს განცხადება საშუალოზე გამოიხატება შემდეგნაირად:

ხოლო წილადისთვის გამოსახულება (1) მიიღებს ფორმას:

სადაც - იქ არის შერჩევის ზღვრული შეცდომა, რომელიც არის შერჩევის საშუალო შეცდომის ჯერადი , და სიმრავლის ფაქტორი არის სტუდენტის კრიტერიუმი („ნდობის ფაქტორი“), შემოთავაზებული W.S. გოსეტი (ფსევდონიმი „სტუდენტი“); სხვადასხვა ნიმუშის ზომის მნიშვნელობები ინახება სპეციალურ ცხრილში.

Ф(t) ფუნქციის მნიშვნელობები t-ის ზოგიერთი მნიშვნელობისთვის არის:

მაშასადამე, გამოთქმა (3) შეიძლება წაიკითხოს შემდეგნაირად: ალბათობით P = 0.683 (68.3%)შეიძლება ითქვას, რომ განსხვავება ნიმუშსა და ზოგად საშუალოს შორის არ აღემატება საშუალო შეცდომის ერთ მნიშვნელობას m(t=1), ალბათობით P = 0.954 (95.4%)- რომ ის არ აღემატება ორი საშუალო შეცდომის მნიშვნელობას მ (t = 2),ალბათობით P = 0.997 (99.7%)- არ აღემატება სამ მნიშვნელობას მ (t = 3) .ამრიგად, ალბათობა იმისა, რომ ეს განსხვავება სამჯერ აღემატება საშუალო შეცდომის მნიშვნელობას, განსაზღვრავს შეცდომის დონედა არ არის მეტი 0,3% .

მაგიდაზე. მოცემულია 9.3 ფორმულები შერჩევის ზღვრული შეცდომის გამოსათვლელად.

ცხრილი 9.3 შერჩევის ზღვრული შეცდომა (D) საშუალო და პროპორციისთვის (p) სხვადასხვა ტიპის შერჩევისთვის

ნიმუშის შედეგების გაფართოება მოსახლეობაზე

ნიმუშის დაკვირვების საბოლოო მიზანია ზოგადი პოპულაციის დახასიათება. მცირე ზომის ნიმუშებისთვის, პარამეტრების ( და ) ემპირიული შეფასებები შეიძლება მნიშვნელოვნად განსხვავდებოდეს მათი ნამდვილი მნიშვნელობებისაგან ( და ). აქედან გამომდინარე, საჭირო ხდება საზღვრების დადგენა, რომლებშიც დევს ჭეშმარიტი მნიშვნელობები ( და ) პარამეტრების ( და ) მნიშვნელობების ნიმუშისთვის.

Ნდობის ინტერვალიზოგადი პოპულაციის ზოგიერთი პარამეტრის θ ეწოდება ამ პარამეტრის მნიშვნელობების შემთხვევითი დიაპაზონი, რომელიც 1-ის მიახლოებით ალბათობით ( საიმედოობა) შეიცავს ამ პარამეტრის ნამდვილ მნიშვნელობას.

ზღვრული შეცდომანიმუშები Δ საშუალებას გაძლევთ განსაზღვროთ ზოგადი პოპულაციის მახასიათებლებისა და მათი ზღვრული მნიშვნელობები ნდობის ინტერვალები, რომლებიც უდრის:

ქვედა ხაზი ნდობის ინტერვალიგამოკლებით მიღებული ზღვრული შეცდომანიმუშიდან ნიშნავს (გაზიარება) და ზევით მისი დამატებით.

Ნდობის ინტერვალისაშუალოდ, ის იყენებს შერჩევის ზღვრულ შეცდომას და მოცემული ნდობის დონისთვის განისაზღვრება ფორმულით:

ეს ნიშნავს, რომ მოცემული ალბათობით , რომელსაც ნდობის დონეს უწოდებენ და ცალსახად განისაზღვრება მნიშვნელობით , შეიძლება ითქვას, რომ საშუალოს ნამდვილი მნიშვნელობა მდგომარეობს დიაპაზონში , და აქციის ნამდვილი ღირებულება არის დიაპაზონში

ნდობის ინტერვალის გაანგარიშებისას სამი სტანდარტული ნდობის დონისთვის P=95%, P=99% და P=99.9%მნიშვნელობა არჩეულია . განაცხადები დამოკიდებულია თავისუფლების ხარისხების რაოდენობაზე. თუ ნიმუშის ზომა საკმარისად დიდია, მაშინ მნიშვნელობები შეესაბამება ამ ალბათობას თანაბარია: 1,96, 2,58 და 3,29 . ამრიგად, შერჩევის ზღვრული შეცდომა საშუალებას გვაძლევს განვსაზღვროთ ზოგადი პოპულაციის მახასიათებლების ზღვრული მნიშვნელობები და მათი ნდობის ინტერვალები:

სოციალურ-ეკონომიკურ კვლევებში შერჩევითი დაკვირვების შედეგების საერთო პოპულაციაზე განაწილებას აქვს საკუთარი მახასიათებლები, რადგან ის მოითხოვს მისი ყველა ტიპისა და ჯგუფის წარმომადგენლობითობის სისრულეს. ასეთი განაწილების შესაძლებლობის საფუძველია გაანგარიშება შედარებითი შეცდომა:

სადაც Δ % - შედარებით ზღვრული შერჩევის შეცდომა; , .

არსებობს ორი ძირითადი მეთოდი ნიმუშის დაკვირვების პოპულაციაზე გაფართოებისთვის: პირდაპირი კონვერტაცია და კოეფიციენტების მეთოდი.

არსი პირდაპირი კონვერტაციაარის შერჩევის საშუალო გამრავლება!!\overline(x) პოპულაციის ზომით.

მაგალითი. მოდით, ქალაქში ჩვილების საშუალო რაოდენობა შეფასდეს შერჩევის მეთოდით და იყოს ადამიანი. თუ ქალაქში 1000 ახალგაზრდა ოჯახია, მაშინ მუნიციპალურ ბაგა-ბაღში საჭირო ადგილების რაოდენობა მიიღება ამ საშუალოს საერთო მოსახლეობის ზომაზე N = 1000-ზე გამრავლებით, ე.ი. იქნება 1200 ადგილი.

კოეფიციენტების მეთოდიმიზანშეწონილია გამოყენება იმ შემთხვევაში, როდესაც ტარდება შერჩევითი დაკვირვება უწყვეტი დაკვირვების მონაცემების გასარკვევად.

ამისათვის გამოიყენება ფორმულა:

სადაც ყველა ცვლადი არის პოპულაციის ზომა:

საჭირო ნიმუშის ზომა

ცხრილი 9.4 ნიმუშის საჭირო ზომა (n) შერჩევის სხვადასხვა ტიპის ორგანიზაციისთვის

შერჩევის დასაშვები შეცდომის წინასწარ განსაზღვრული მნიშვნელობით შერჩევის კვლევის დაგეგმვისას საჭიროა სწორად შეფასდეს საჭირო ნიმუშის ზომა. ეს ოდენობა შეიძლება განისაზღვროს შერჩევითი დაკვირვების დროს დასაშვები შეცდომის საფუძველზე, მოცემული ალბათობის საფუძველზე, რომელიც იძლევა ცდომილების მისაღები დონის გარანტიას (დაკვირვების ორგანიზების გათვალისწინებით). ნიმუშის საჭირო ზომის n განსაზღვრის ფორმულები მარტივად შეიძლება მიღებულ იქნას უშუალოდ შერჩევის ზღვრული შეცდომის ფორმულებიდან. ასე რომ, ზღვრული შეცდომის გამონათქვამიდან:

ნიმუშის ზომა პირდაპირ განისაზღვრება :

ეს ფორმულა აჩვენებს, რომ შერჩევის ზღვრული შეცდომის შემცირებით Δ მნიშვნელოვნად ზრდის საჭირო ნიმუშის ზომას, რომელიც პროპორციულია სტუდენტის t-ტესტის დისპერსიისა და კვადრატის.

დაკვირვების ორგანიზების კონკრეტული მეთოდისთვის, ნიმუშის საჭირო ზომა გამოითვლება ცხრილში მოცემული ფორმულების მიხედვით. 9.4.

პრაქტიკული გაანგარიშების მაგალითები

მაგალითი 1. უწყვეტი რაოდენობრივი მახასიათებლისთვის საშუალო მნიშვნელობისა და ნდობის ინტერვალის გამოთვლა.

ბანკში კრედიტორებთან ანგარიშსწორების სიჩქარის შესაფასებლად განხორციელდა 10 გადახდის დოკუმენტის შემთხვევითი შერჩევა. მათი მნიშვნელობები ტოლი აღმოჩნდა (დღეებში): 10; 3; თხუთმეტი; თხუთმეტი; 22; 7; რვა; ერთი; 19; ოცი.

საჭიროა ალბათობით P = 0.954ზღვრული შეცდომის დადგენა Δ შერჩევის საშუალო და ნდობის ლიმიტები საშუალო გაანგარიშების დროის.

გამოსავალი.საშუალო მნიშვნელობა გამოითვლება ცხრილის ფორმულით. 9.1 შერჩევის პოპულაციისთვის

დისპერსია გამოითვლება ცხრილის ფორმულის მიხედვით. 9.1.

დღის საშუალო კვადრატული შეცდომა.

საშუალოს შეცდომა გამოითვლება ფორმულით:

იმათ. საშუალო მნიშვნელობა არის x ± m = 12.0 ± 2.3 დღე.

საშუალების სანდოობა იყო

შეზღუდვის შეცდომა გამოითვლება ცხრილის ფორმულით. 9.3 ხელახალი არჩევისთვის, რადგან მოსახლეობის რაოდენობა უცნობია და რისთვის P = 0.954თავდაჯერებულობის დონე.

ამრიგად, საშუალო მნიშვნელობა არის `x ± D = `x ± 2m = 12,0 ± 4,6, ე.ი. მისი ნამდვილი მნიშვნელობა 7.4-დან 16.6 დღემდე დიაპაზონშია.

სტუდენტური ცხრილის გამოყენება. აპლიკაცია საშუალებას გვაძლევს დავასკვნათ, რომ n = 10 - 1 = 9 გრადუსი თავისუფლებისთვის, მიღებული მნიშვნელობა სანდოა მნიშვნელოვნების დონით £ 0,001, ე.ი. შედეგად მიღებული საშუალო მნიშვნელობა მნიშვნელოვნად განსხვავდება 0-დან.

მაგალითი 2. ალბათობის შეფასება (საერთო წილი) რ.

1000 ოჯახის სოციალური მდგომარეობის გამოკითხვის მექანიკური შერჩევის მეთოდით დადგინდა, რომ დაბალშემოსავლიანი ოჯახების წილი იყო. w = 0.3 (30%)(ნიმუში იყო 2% , ე.ი. n/N = 0.02). საჭიროა ნდობის დონე p = 0.997ინდიკატორის განსაზღვრა დაბალშემოსავლიანი ოჯახები რეგიონის მასშტაბით.

გამოსავალი.წარმოდგენილი ფუნქციის მნიშვნელობების მიხედვით Ф(t)იპოვეთ ნდობის მოცემული დონისთვის P = 0.997მნიშვნელობა t=3(იხ. ფორმულა 3). ზღვრული გაზიარების შეცდომა განსაზღვრეთ ცხრილის ფორმულით. 9.3 განმეორებითი ნიმუშის აღებისთვის (მექანიკური ნიმუში ყოველთვის არ განმეორდება):

შედარებითი შერჩევის შეცდომის შეზღუდვა % იქნება:

რეგიონში დაბალშემოსავლიანი ოჯახების ალბათობა (ზოგადი წილი) იქნება p=w±Δwდა ნდობის ზღვრები p გამოითვლება ორმაგი უტოლობის საფუძველზე:

w — Δw ≤ p ≤ w — Δw, ე.ი. p-ის ნამდვილი მნიშვნელობა მდგომარეობს შემდეგში:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

ამრიგად, 0,997-ის ალბათობით, შეიძლება ითქვას, რომ რეგიონის ყველა ოჯახს შორის დაბალშემოსავლიანი ოჯახების წილი 28,6%-დან 31,4%-მდე მერყეობს.

მაგალითი 3საშუალო მნიშვნელობისა და ნდობის ინტერვალის გაანგარიშება დისკრეტული მახასიათებლისთვის, რომელიც მითითებულია ინტერვალის სერიით.

მაგიდაზე. 9.5. დადგენილია შეკვეთების წარმოებისთვის განაცხადების განაწილება საწარმოს მიერ მათი განხორციელების დროის მიხედვით.

ცხრილი 9.5 დაკვირვებების განაწილება გაჩენის დროის მიხედვით

გამოსავალი. შეკვეთის დასრულების საშუალო დრო გამოითვლება ფორმულით:

საშუალო დრო იქნება:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23.1 თვე

იგივე პასუხს ვიღებთ, თუ გამოვიყენებთ p i მონაცემებს ცხრილის ბოლო სვეტიდან. 9.5 ფორმულის გამოყენებით:

გაითვალისწინეთ, რომ ბოლო გრადაციის ინტერვალის შუა იპოვება მისი ხელოვნურად შევსებით წინა გრადაციის ინტერვალის სიგანით, რომელიც უდრის 60 - 36 = 24 თვეს.

დისპერსია გამოითვლება ფორმულით

სადაც x i- ინტერვალის სერიის შუა.

ამიტომ!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) და სტანდარტული შეცდომა არის .

საშუალოს ცდომილება გამოითვლება თვეების ფორმულით, ე.ი. საშუალო არის!!\overline(x) ± m = 23.1 ± 13.4.

შეზღუდვის შეცდომა გამოითვლება ცხრილის ფორმულით. 9.3 ხელახალი შერჩევისთვის, რადგან მოსახლეობის ზომა უცნობია, 0.954 ნდობის დონისთვის:

ასე რომ, საშუალო არის:

იმათ. მისი ნამდვილი მნიშვნელობა 0-დან 50 თვემდე დიაპაზონშია.

მაგალითი 4კომერციულ ბანკში კორპორაციის N = 500 საწარმოს კრედიტორებთან ანგარიშსწორების სიჩქარის დასადგენად აუცილებელია შერჩევითი კვლევის ჩატარება შემთხვევითი არაგანმეორებადი შერჩევის მეთოდით. განსაზღვრეთ ნიმუშის საჭირო ზომა n ისე, რომ P = 0,954 ალბათობით, ნიმუშის საშუალო შეცდომა არ აღემატებოდეს 3 დღეს, თუ საცდელმა შეფასებებმა აჩვენა, რომ სტანდარტული გადახრა s იყო 10 დღე.

გამოსავალი. საჭირო კვლევების n რაოდენობის დასადგენად ვიყენებთ ცხრილიდან განმეორებადი შერჩევის ფორმულას. 9.4:

მასში t-ის მნიშვნელობა განისაზღვრება ნდობის დონისთვის P = 0,954. ის უდრის 2-ს. საშუალო კვადრატული მნიშვნელობა s = 10, პოპულაციის ზომა N = 500 და საშუალოს ზღვრული შეცდომა Δ x = 3. ამ მნიშვნელობების ფორმულაში ჩანაცვლებით, მივიღებთ:

იმათ. საკმარისია 41 საწარმოს ნიმუშის გაკეთება, რათა შევაფასოთ საჭირო პარამეტრი - კრედიტორებთან ანგარიშსწორების სიჩქარე.

შერჩევითი დაკვირვებავრცელდება უწყვეტი დაკვირვების გამოყენებისას ფიზიკურად შეუძლებელიადიდი რაოდენობით მონაცემების გამო ან ეკონომიკურად არაპრაქტიკული. ფიზიკური შეუძლებლობა ჩნდება, მაგალითად, მგზავრთა ნაკადების, საბაზრო ფასების, ოჯახის ბიუჯეტის შესწავლისას. ეკონომიკური მიზანშეწონილობა ჩნდება საქონლის ხარისხის შეფასებისას, რომელიც დაკავშირებულია მათ განადგურებასთან, მაგალითად, გასინჯვა, აგურის ტესტირება სიმტკიცეზე და ა.შ.

დაკვირვებისთვის შერჩეული სტატისტიკური ერთეულებია ნიმუშის ჩარჩოან სინჯის აღებადა მათი მთელი მასივი - საერთო მოსახლეობა(GS). სადაც ერთეულების რაოდენობა ნიმუშშიდანიშნოს და მთელ HS-ში - . დამოკიდებულება N/Nდაურეკა შედარებითი ზომაან ნიმუშის წილი.

შერჩევის შედეგების ხარისხი დამოკიდებულია ნიმუშის წარმომადგენლობა, ანუ იმაზე, თუ რამდენად წარმომადგენლობითია იგი სს-ში. ნიმუშის წარმომადგენლობითობის უზრუნველსაყოფად აუცილებელია დაკვირვება ერთეულების შემთხვევითი შერჩევის პრინციპი, რომელიც ვარაუდობს, რომ HS ერთეულის ჩართვა ნიმუშში არ შეიძლება იყოს რაიმე სხვა ფაქტორის გავლენის მოხდენა, გარდა შემთხვევითობისა.

არსებობს შემთხვევითი შერჩევის 4 გზანიმუშის მისაღებად:

  1. ფაქტიურად შემთხვევითიშერჩევა ან „ლოტოს მეთოდი“, როდესაც სერიული ნომრები ენიჭება სტატისტიკურ მნიშვნელობებს, შეყვანილია გარკვეულ ობიექტებზე (მაგალითად, კეგებზე), რომლებიც შემდეგ შერეულია გარკვეულ კონტეინერში (მაგალითად, ჩანთაში) და შემთხვევით შეირჩევა. პრაქტიკაში, ეს მეთოდი ხორციელდება შემთხვევითი რიცხვების გენერატორის ან შემთხვევითი რიცხვების მათემატიკური ცხრილების გამოყენებით.
  2. მექანიკურიშერჩევა, რომლის მიხედვითაც თითოეული ( N/n)- საერთო მოსახლეობის ღირებულება. მაგალითად, თუ ის შეიცავს 100,000 მნიშვნელობას და გსურთ აირჩიოთ 1,000, მაშინ ყოველი 100,000 / 1000 = მე-100 მნიშვნელობა მოხვდება ნიმუშში. უფრო მეტიც, თუ ისინი რეიტინგში არ არიან, მაშინ პირველი ასეულიდან შემთხვევით ირჩევენ პირველს, ხოლო დანარჩენების რიცხვი ასით მეტი იქნება. მაგალითად, თუ ერთეული ნომერი 19 იყო პირველი, შემდეგ უნდა იყოს ნომერი 119, შემდეგ ნომერი 219, შემდეგ ნომერი 319 და ა.შ. თუ მოსახლეობის ერთეულები რანჟირებულია, მაშინ ჯერ არჩეულია #50, შემდეგ #150, შემდეგ #250 და ა.შ.
  3. ჰეტეროგენული მონაცემთა მასივიდან მნიშვნელობების შერჩევა ხორციელდება სტრატიფიცირებული(სტრატიფიცირებული) გზა, როდესაც ზოგადი პოპულაცია ადრე იყოფა ერთგვაროვან ჯგუფებად, რომლებზეც გამოიყენება შემთხვევითი ან მექანიკური შერჩევა.
  4. ნიმუშის აღების სპეციალური მეთოდია სერიალიშერჩევა, რომელშიც არჩეულია არა ცალკეული სიდიდეები შემთხვევით ან მექანიკურად, არამედ მათი სერიები (მიმდევრობა ზოგიერთი რიცხვიდან რომელიმე თანმიმდევრულამდე), რომლის ფარგლებშიც ტარდება უწყვეტი დაკვირვება.

ნიმუშის დაკვირვების ხარისხი ასევე დამოკიდებულია შერჩევის ტიპი: გაიმეორაან არაგანმეორებადი.
ზე ხელახალი შერჩევასტატისტიკური მნიშვნელობები ან მათი სერიები, რომლებიც მოხვდა ნიმუშში, გამოყენების შემდეგ უბრუნდება ზოგად პოპულაციას, აქვს შანსი მოხვდეს ახალ ნიმუშში. ამავდროულად, საერთო პოპულაციის ყველა მნიშვნელობას აქვს იგივე ალბათობა, რომ მოხვდეს ნიმუშში.
არ განმეორებადი შერჩევანიშნავს, რომ ნიმუშში შეტანილი სტატისტიკური მნიშვნელობები ან მათი სერიები გამოყენების შემდეგ არ უბრუნდება ზოგად პოპულაციას და, შესაბამისად, მომდევნო ნიმუშში მოხვედრის ალბათობა იზრდება ამ უკანასკნელის დარჩენილი მნიშვნელობებისთვის.

განმეორებითი შერჩევა უფრო ზუსტ შედეგებს იძლევა, ამიტომ უფრო ხშირად გამოიყენება. მაგრამ არის სიტუაციები, როდესაც მისი გამოყენება შეუძლებელია (მგზავრთა ნაკადის შესწავლა, მომხმარებელთა მოთხოვნა და ა.შ.) და შემდეგ ტარდება ხელახალი შერჩევა.

შერჩევის შეცდომები

შერჩევის ნაკრები შეიძლება ჩამოყალიბდეს როგორც სტატისტიკური მნიშვნელობების რაოდენობრივი ნიშნის, ასევე ალტერნატიული ან ატრიბუტული საფუძველზე. პირველ შემთხვევაში, ნიმუშის განმაზოგადებელი მახასიათებელია მნიშვნელობა აღინიშნება და მეორეში - ნიმუშის წილირაოდენობები, აღინიშნება . ზოგადად მოსახლეობაში, შესაბამისად: ზოგადი საშუალოდა ზოგადი წილი გვ.

განსხვავებები - და დაურეკა შერჩევის შეცდომა, რომელიც იყოფა რეგისტრაციის შეცდომადა წარმომადგენლობითი შეცდომა. შერჩევის შეცდომის პირველი ნაწილი წარმოიქმნება არასწორი ან არაზუსტი ინფორმაციის გამო საკითხის არსის გაუგებრობის გამო, რეგისტრატორის დაუდევრობა კითხვარების, ფორმების შევსებისას და ა.შ. მისი აღმოჩენა და გამოსწორება საკმაოდ მარტივია. შეცდომის მეორე ნაწილი წარმოიქმნება შემთხვევითი შერჩევის პრინციპის მუდმივი ან სპონტანური შეუსრულებლობისგან. მისი აღმოჩენა და აღმოფხვრა ძნელია, ის გაცილებით დიდია ვიდრე პირველი და ამიტომაც მას ეთმობა მთავარი ყურადღება.

შერჩევის შეცდომის მნიშვნელობა შეიძლება განსხვავდებოდეს ერთი და იგივე ზოგადი პოპულაციის სხვადასხვა ნიმუშზე, შესაბამისად, სტატისტიკაში იგი განისაზღვრება ხელახალი შერჩევის საშუალო შეცდომა და განმეორებითი შერჩევისფორმულების მიხედვით:

განმეორებითი;

- არაგანმეორებადი;

სადაც Dv არის ნიმუშის განსხვავება.

მაგალითად, ქარხანაში, სადაც 1000 თანამშრომელია. დასაქმებულთა საშუალო სტაჟის დასადგენად განხორციელდა 5%-იანი შემთხვევითი არაგანმეორებითი შერჩევა. შერჩევის დაკვირვების შედეგები მოცემულია შემდეგი ცხრილის პირველ ორ სვეტში:

X , წლები
(სამუშაო გამოცდილება)

, პერს.
(დასაქმებულთა რაოდენობა ნიმუშში)

X და

X და

მე-3 სვეტში X ინტერვალების შუა წერტილები განისაზღვრება (ინტერვალის ქვედა და ზედა საზღვრების ჯამის ნახევარი), ხოლო მე-4 სვეტში X და f-ის ნამრავლები ნიმუშის საპოვნელად შეწონილი არითმეტიკის გამოყენებით. საშუალო ფორმულა:

143.0/50 = 2.86 (წლები).

გამოთვალეთ შეწონილი ნიმუშის ვარიაცია:
= 105,520/50 = 2,110.

ახლა ვიპოვოთ საშუალო გამოუცდელი შეცდომა:
= 0.200 (წელი).

შერჩევის საშუალო შეცდომების ფორმულებიდან ჩანს, რომ შეცდომა უფრო მცირეა განმეორებადი შერჩევისას და, როგორც დადასტურებულია ალბათობის თეორიაში, ეს ხდება 0,683 ალბათობით (ანუ თუ აიღებთ 1000 ნიმუშს ერთი გენერალიდან. მოსახლეობა, მაშინ მათგან 683-ში შეცდომა არ აღემატება საშუალო შერჩევის შეცდომას). ეს ალბათობა (0,683) არ არის მაღალი, ამიტომ იგი ნაკლებად გამოდგება პრაქტიკული გამოთვლებისთვის, სადაც უფრო მაღალი ალბათობაა საჭირო. 0,683-ზე მაღალი ალბათობით შერჩევის შეცდომის დასადგენად, გამოთვალეთ შერჩევის ზღვრული შეცდომა:

სად – ნდობის კოეფიციენტი, იმის მიხედვით, თუ რა ალბათობით განისაზღვრება შერჩევის ზღვრული შეცდომა.

ნდობის ფაქტორის ღირებულებები გამოითვლება სხვადასხვა ალბათობით და ხელმისაწვდომია სპეციალურ ცხრილებში (ლაპლასის ინტეგრალი), რომელთაგან შემდეგი კომბინაციები ფართოდ გამოიყენება სტატისტიკაში:

ალბათობა 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
1 1,5 1,96 2 2,5 2,58 3 3,5

ალბათობის კონკრეტული დონის გათვალისწინებით, მისი შესაბამისი მნიშვნელობა შეირჩევა ცხრილიდან და განსაზღვრეთ შერჩევის ზღვრული შეცდომა ფორმულით.
ამ შემთხვევაში, = 0.95 და = 1,96, ანუ მათ მიაჩნიათ, რომ 95%-იანი ალბათობით, შერჩევის ზღვრული შეცდომა საშუალოზე 1,96-ჯერ მეტია. ეს ალბათობა (0,95) განიხილება სტანდარტულიდა გამოიყენება ნაგულისხმევად გამოთვლებში.

ჩვენში, ჩვენ განვსაზღვრავთ შერჩევის ზღვრულ შეცდომას სტანდარტული 95% ალბათობით (მიღებიდან = 1,96 95% შანსისთვის): = 1,96*0,200 = 0,392 (წლები).

ზღვრული შეცდომის გამოთვლის შემდეგ, ადამიანი პოულობს ზოგადი პოპულაციის განზოგადების მახასიათებლის ნდობის ინტერვალი. ასეთი ინტერვალი ზოგადი საშუალოსთვის აქვს ფორმა
ანუ, მთელ ქარხანაში მუშების სამსახურის საშუალო ხანგრძლივობა 2,468-დან 3,252 წლამდე მერყეობს.

ნიმუშის ზომის განსაზღვრა

შერჩევითი დაკვირვების პროგრამის შემუშავებისას, ზოგჯერ მათ ენიჭებათ ზღვრული შეცდომის კონკრეტული მნიშვნელობა ალბათობის დონით. ნიმუშის მინიმალური ზომა, რომელიც უზრუნველყოფს მოცემულ სიზუსტეს, უცნობია. მისი მიღება შესაძლებელია საშუალო და ზღვრული შეცდომების ფორმულებიდან, რაც დამოკიდებულია ნიმუშის ტიპზე. ასე რომ, ჩანაცვლებით და შერჩევის ზომის მიხედვით, ვიღებთ შემდეგ ფორმულებს:
ხელახალი შერჩევისთვის =
შერჩევის გარეშე = .

გარდა ამისა, რაოდენობრივი მახასიათებლების მქონე სტატისტიკური მნიშვნელობებისთვის, ასევე უნდა იცოდეთ ნიმუშის ვარიაცია, მაგრამ გამოთვლების დასაწყისში არც ის არის ცნობილი. ამიტომ მიღებულია დაახლოებითერთ-ერთი შემდეგი გზები(პრიორიტეტის მიხედვით):

არარიცხობრივი მახასიათებლების შესწავლისას, მაშინაც კი, თუ არ არის სავარაუდო ინფორმაცია ნიმუშის ფრაქციის შესახებ, იგი მიიღება = 0.5, რომელიც წილის დისპერსიის ფორმულის მიხედვით შეესაბამება ნიმუშის დისპერსიას მაქსიმალურ ზომაში Dv = 0,5*(1-0,5) = 0,25.