დისკრეტული ვარიაციების სერია სტატისტიკის განსაზღვრაში. ვარიაციის სერია

მოცემულ ექსპერიმენტში ან დაკვირვებაში შესწავლილი პარამეტრის მნიშვნელობების ერთობლიობას სიდიდის მიხედვით (გაზრდის ან კლების მიხედვით) ეწოდება ვარიაციის სერია.

დავუშვათ, რომ ათ პაციენტს გავზომეთ არტერიული წნევა, რათა მივიღოთ არტერიული წნევის ზედა ზღვარი: სისტოლური წნევა, ე.ი. მხოლოდ ერთი ნომერი.

წარმოიდგინეთ, რომ არტერიული სისტოლური წნევის დაკვირვებების სერიას (სტატისტიკური პოპულაცია) 10 დაკვირვებაში აქვს შემდეგი ფორმა (ცხრილი 1):

ცხრილი 1

ვარიაციული სერიის კომპონენტებს უწოდებენ ვარიანტებს. ვარიანტები წარმოადგენს შესასწავლი ნიშან-თვისების რიცხვით მნიშვნელობას.

დაკვირვებების სტატისტიკური ნაკრებიდან ვარიაციული სერიის აგება მხოლოდ პირველი ნაბიჯია მთელი ნაკრების მახასიათებლების გასაგებად. შემდეგი, საჭიროა განისაზღვროს შესწავლილი რაოდენობრივი ნიშნის საშუალო დონე (სისხლის ცილის საშუალო დონე, პაციენტების საშუალო წონა, ანესთეზიის დაწყების საშუალო დრო და ა.შ.)

საშუალო დონე იზომება კრიტერიუმების გამოყენებით, რომლებსაც საშუალოდ უწოდებენ. საშუალო მნიშვნელობა არის თვისობრივად ერთგვაროვანი მნიშვნელობების განზოგადებული რიცხვითი მახასიათებელი, რომელიც ახასიათებს ერთი რიცხვით მთელ სტატისტიკურ პოპულაციას ერთი ატრიბუტის მიხედვით. საშუალო მნიშვნელობა გამოხატავს ზოგადს, რომელიც დამახასიათებელია მახასიათებლისთვის მოცემულ დაკვირვებებში.

არსებობს სამი ტიპის საშუალო საერთო გამოყენება: რეჟიმი (), მედიანა () და საშუალო არითმეტიკული ().

ნებისმიერი საშუალო მნიშვნელობის დასადგენად აუცილებელია ინდივიდუალური დაკვირვების შედეგების გამოყენება, მათი ჩაწერა ვარიაციის სერიის სახით (ცხრილი 2).

მოდა- მნიშვნელობა, რომელიც ყველაზე ხშირად გვხვდება დაკვირვებების სერიაში. ჩვენს მაგალითში რეჟიმი = 120. თუ ვარიაციის სერიაში არ არის განმეორებადი მნიშვნელობები, მაშინ ისინი ამბობენ, რომ რეჟიმი არ არის. თუ რამდენიმე მნიშვნელობა მეორდება ერთსა და იმავე რაოდენობაზე, მაშინ მათგან ყველაზე პატარა მიიღება რეჟიმად.

მედიანური- მნიშვნელობა, რომელიც ყოფს განაწილებას ორ თანაბარ ნაწილად, დაკვირვებების სერიის ცენტრალური ან მედიანური მნიშვნელობა, რომლებიც დალაგებულია აღმავალი ან კლებადობით. ასე რომ, თუ ვარიაციულ სერიაში არის 5 მნიშვნელობა, მაშინ მისი მედიანა უდრის ვარიაციული სერიის მესამე წევრს, თუ რიგის წევრების ლუწი რაოდენობაა, მაშინ მედიანა არის მისი ორის არითმეტიკული საშუალო. ცენტრალური დაკვირვებები, ე.ი. თუ სერიაში არის 10 დაკვირვება, მაშინ მედიანა უდრის 5 და 6 დაკვირვების საშუალო არითმეტიკულს. ჩვენს მაგალითში.

გაითვალისწინეთ რეჟიმისა და მედიანის მნიშვნელოვანი მახასიათებელი: მათ მნიშვნელობებზე გავლენას არ ახდენს ექსტრემალური ვარიანტების რიცხვითი მნიშვნელობები.

Საშუალო არითმეტიკულიგამოითვლება ფორმულით:

სად არის დაკვირვებული მნიშვნელობა -ე დაკვირვებაში და არის დაკვირვებების რაოდენობა. ჩვენი საქმისთვის.

საშუალო არითმეტიკას აქვს სამი თვისება:

შუა იკავებს შუა პოზიციას ვარიაციულ სერიაში. მკაცრად სიმეტრიულ რიგში.

საშუალო არის განზოგადებული მნიშვნელობა და შემთხვევითი რყევები, ცალკეულ მონაცემებში განსხვავებები საშუალოს მიღმა არ ჩანს. ის ასახავს იმ ტიპს, რაც დამახასიათებელია მთელი მოსახლეობისთვის.

ყველა ვარიანტის საშუალოდან გადახრების ჯამი ნულის ტოლია: . მითითებულია ვარიანტის გადახრა საშუალოდან.

ვარიაციების სერია შედგება ვარიანტებისა და მათი შესაბამისი სიხშირეებისგან. მიღებული ათი მნიშვნელობიდან რიცხვი 120 შეგვხვდა 6-ჯერ, 115 - 3-ჯერ, 125 - 1-ჯერ. სიხშირე () - ინდივიდუალური ვარიანტების აბსოლუტური რაოდენობა პოპულაციაში, რაც მიუთითებს რამდენჯერ ხდება ეს ვარიანტი ვარიაციის სერიაში.

ვარიაციების სერია შეიძლება იყოს მარტივი (სიხშირე = 1) ან დაჯგუფებული შემცირებული, 3-5 ვარიანტი თითოეული. მარტივი სერია გამოიყენება მცირე რაოდენობის დაკვირვებით (), დაჯგუფებული - დიდი რაოდენობით დაკვირვებით ().

ვარიაციების სერია: განმარტება, ტიპები, ძირითადი მახასიათებლები. გაანგარიშების მეთოდი
მოდა, მედიანა, საშუალო არითმეტიკული სამედიცინო და სტატისტიკურ კვლევებში
(აჩვენე პირობით მაგალითზე).

ვარიაციული სერია არის შესასწავლი ნიშან-თვისების რიცხვითი მნიშვნელობების სერია, რომლებიც განსხვავდებიან ერთმანეთისგან თავიანთი სიდიდით და განლაგებულია გარკვეული თანმიმდევრობით (აღმავალი ან კლებადი თანმიმდევრობით). სერიის თითოეულ რიცხობრივ მნიშვნელობას ეწოდება ვარიანტი (V), ხოლო რიცხვებს, რომლებიც გვიჩვენებს, თუ რამდენად ხშირად ხდება ესა თუ ის ვარიანტი ამ სერიის შემადგენლობაში, სიხშირე (p).

დაკვირვების შემთხვევების საერთო რაოდენობა, რომელთაგან შედგება ვარიაციის სერია, აღინიშნება ასო n-ით. შესწავლილი მახასიათებლების მნიშვნელობის განსხვავებას ვარიაცია ეწოდება. თუ ცვლადის ნიშანს არ აქვს რაოდენობრივი საზომი, ვარიაციას ეწოდება ხარისხობრივი, ხოლო განაწილების სერიას - ატრიბუტი (მაგალითად, განაწილება დაავადების შედეგის მიხედვით, ჯანმრთელობის მდგომარეობა და ა.შ.).

თუ ცვლადის ნიშანს აქვს რაოდენობრივი გამოხატულება, ასეთ ცვალებადობას რაოდენობრივი ეწოდება, ხოლო განაწილების სერიებს ცვალებადობა.

ვარიაციული სერიები იყოფა უწყვეტად და უწყვეტად - რაოდენობრივი ნიშან-თვისების ბუნების მიხედვით, მარტივი და შეწონილი - ვარიანტის გაჩენის სიხშირის მიხედვით.

მარტივ ვარიაციულ სერიაში ყოველი ვარიანტი ხდება მხოლოდ ერთხელ (p=1), შეწონილში ერთი და იგივე ვარიანტი ხდება რამდენჯერმე (p>1). ასეთი სერიის მაგალითები მოგვიანებით იქნება განხილული ტექსტში. თუ რაოდენობრივი ატრიბუტი უწყვეტია, ე.ი. მთელ მნიშვნელობებს შორის არის შუალედური წილადი მნიშვნელობები, ვარიაციულ სერიას ეწოდება უწყვეტი.

მაგალითად: 10.0 - 11.9

14.0 - 15.9 და ა.შ.

თუ რაოდენობრივი ნიშანი შეწყვეტილია, ე.ი. მისი ინდივიდუალური მნიშვნელობები (ოფციები) განსხვავდება ერთმანეთისგან მთელი რიცხვით და არ გააჩნიათ შუალედური წილადი მნიშვნელობები, ვარიაციის სერიას ეწოდება წყვეტილი ან დისკრეტული.

წინა მაგალითის მონაცემების გამოყენება გულისცემის შესახებ

21 მოსწავლისთვის ავაშენებთ ვარიაციების სერიას (ცხრილი 1).

ცხრილი 1

სამედიცინო სტუდენტების განაწილება პულსის სიხშირით (bpm)

ამრიგად, ვარიაციული სერიის აგება ნიშნავს არსებული რიცხვითი მნიშვნელობების (ვარიანტების) სისტემატიზაციას, გამარტივებას, ე.ი. დაალაგეთ გარკვეული თანმიმდევრობით (აღმავალი ან კლებადი მიმდევრობით) მათი შესაბამისი სიხშირეებით. განსახილველ მაგალითში ოფციონები განლაგებულია ზრდის მიხედვით და გამოიხატება როგორც წყვეტილი (დისკრეტული) მთელი რიცხვები, თითოეული ვარიანტი ხდება რამდენჯერმე, ე.ი. საქმე გვაქვს შეწონილ, წყვეტილ ან დისკრეტულ ვარიაციულ სერიასთან.

როგორც წესი, თუ სტატისტიკურ პოპულაციაში დაკვირვებების რაოდენობა, რომელსაც ჩვენ ვსწავლობთ, არ აღემატება 30-ს, მაშინ საკმარისია შესასწავლი ნიშან-თვისების ყველა მნიშვნელობა განვასხვავოთ ცვალებად სერიაში, როგორც ცხრილში. 1, ან კლებადობით.

დაკვირვებების დიდი რაოდენობით (n>30), არსებული ვარიანტების რაოდენობა შეიძლება იყოს ძალიან დიდი, ამ შემთხვევაში შედგენილია ინტერვალი ან დაჯგუფებული ვარიაციული სერია, რომელშიც შემდგომი დამუშავების გასამარტივებლად და განაწილების ბუნების გასარკვევად, ვარიანტები გაერთიანებულია ჯგუფებად.

ჩვეულებრივ, ჯგუფის ვარიანტების რაოდენობა მერყეობს 8-დან 15-მდე.

უნდა იყოს მინიმუმ 5 მათგანი, რადგან. წინააღმდეგ შემთხვევაში, ეს იქნება ძალიან უხეში, გადაჭარბებული გაფართოება, რაც ამახინჯებს ვარიაციის საერთო სურათს და დიდ გავლენას ახდენს საშუალო მნიშვნელობების სიზუსტეზე. როდესაც ჯგუფის ვარიანტების რაოდენობა 20-25-ზე მეტია, საშუალო მნიშვნელობების გამოთვლის სიზუსტე იზრდება, მაგრამ მახასიათებლის ვარიაციის მახასიათებლები მნიშვნელოვნად დამახინჯებულია და მათემატიკური დამუშავება უფრო რთული ხდება.

დაჯგუფებული სერიის შედგენისას აუცილებელია გათვალისწინება

− ვარიანტული ჯგუფები განლაგებული უნდა იყოს კონკრეტული თანმიმდევრობით (აღმავალი ან დაღმავალი);

- ინტერვალები ვარიანტულ ჯგუფებში უნდა იყოს იგივე;

- ინტერვალების საზღვრების მნიშვნელობები არ უნდა ემთხვეოდეს, რადგან გაურკვეველი იქნება, რომელ ჯგუფში უნდა მიეწეროს ინდივიდუალური ვარიანტები;

- ინტერვალების საზღვრების დადგენისას აუცილებელია შეგროვებული მასალის ხარისხობრივი მახასიათებლების გათვალისწინება (მაგალითად, მოზრდილების წონის შესწავლისას მისაღებია 3-4 კგ ინტერვალი, ხოლო ბავშვებისთვის პირველ თვეებში სიცოცხლის განმავლობაში არ უნდა აღემატებოდეს 100 გ.)

მოდით ავაშენოთ დაჯგუფებული (ინტერვალის) სერია, რომელიც ახასიათებს პულსის სიხშირის მონაცემებს (წუთში დარტყმების რაოდენობა) 55 სამედიცინო სტუდენტისთვის გამოცდამდე: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

დაჯგუფებული სერიის შესაქმნელად დაგჭირდებათ:

1. განსაზღვრეთ ინტერვალის მნიშვნელობა;

2. განვსაზღვროთ ვარიაციის სერიის ვარიანტის ჯგუფების შუა, დასაწყისი და დასასრული.

● (i) ინტერვალის მნიშვნელობა განისაზღვრება მოსალოდნელი ჯგუფების რაოდენობით (r), რომელთა რაოდენობა დგინდება დაკვირვებების რაოდენობის მიხედვით (n) სპეციალური ცხრილის მიხედვით.

ჯგუფების რაოდენობა დამოკიდებულია დაკვირვების რაოდენობაზე:

ჩვენს შემთხვევაში 55 მოსწავლისთვის შესაძლებელია 8-დან 10-მდე ჯგუფის შედგენა.

(i) ინტერვალის მნიშვნელობა განისაზღვრება შემდეგი ფორმულით -

i = Vmax-Vmin/r

ჩვენს მაგალითში ინტერვალის მნიშვნელობა არის 82-58/8=3.

თუ ინტერვალის მნიშვნელობა არის წილადი რიცხვი, შედეგი უნდა დამრგვალდეს მთელ რიცხვამდე.

არსებობს რამდენიმე ტიპის საშუალო:

● საშუალო არითმეტიკული,

● გეომეტრიული საშუალო,

● ჰარმონიული საშუალო,

● ფესვი საშუალო კვადრატი,

● საშუალო პროგრესული,

● მედიანა

სამედიცინო სტატისტიკაში ყველაზე ხშირად გამოიყენება საშუალო არითმეტიკული მაჩვენებლები.

საშუალო არითმეტიკული (M) არის განზოგადებული მნიშვნელობა, რომელიც განსაზღვრავს ტიპიურ მნიშვნელობას, რომელიც დამახასიათებელია მთელი პოპულაციისთვის. M-ის გამოთვლის ძირითადი მეთოდებია: საშუალო არითმეტიკული მეთოდი და მომენტების მეთოდი (პირობითი გადახრები).

საშუალო არითმეტიკული მეთოდი გამოიყენება მარტივი არითმეტიკული საშუალო და შეწონილი არითმეტიკული საშუალოს გამოსათვლელად. საშუალო არითმეტიკული მნიშვნელობის გამოთვლის მეთოდის არჩევანი დამოკიდებულია ვარიაციის სერიის ტიპზე. მარტივი ვარიაციული სერიის შემთხვევაში, რომელშიც თითოეული ვარიანტი მხოლოდ ერთხელ ხდება, მარტივი არითმეტიკული საშუალო განისაზღვრება ფორმულით:

სადაც: М – საშუალო არითმეტიკული მნიშვნელობა;

V არის ცვლადი მახასიათებლის მნიშვნელობა (ოფციები);

Σ - მიუთითებს მოქმედება - შეჯამება;

n არის დაკვირვებების საერთო რაოდენობა.

საშუალო არითმეტიკული გამოთვლის მაგალითი მარტივია. სუნთქვის სიხშირე (სუნთქვის რაოდენობა წუთში) 35 წლის 9 მამაკაცში: 20, 22, 19, 15, 16, 21, 17, 23, 18.

35 წლის მამაკაცებში სუნთქვის სიხშირის საშუალო დონის დასადგენად აუცილებელია:

1. შექმენით ვარიაციული სერიები, განათავსეთ ყველა ვარიანტი აღმავალი ან დაღმავალი თანმიმდევრობით. ჩვენ მივიღეთ მარტივი ვარიაციული სერია, რადგან ვარიანტის მნიშვნელობები მხოლოდ ერთხელ ხდება.

M = ∑V/n = 171/9 = 19 ჩასუნთქვა წუთში

დასკვნა. 35 წლის მამაკაცებში სუნთქვის სიხშირე საშუალოდ არის 19 სუნთქვა წუთში.

თუ ვარიანტის ინდივიდუალური მნიშვნელობები მეორდება, არ არის საჭირო თითოეული ვარიანტის სტრიქონში ჩაწერა, საკმარისია ჩამოვთვალოთ ვარიანტის ზომები, რომლებიც ხდება (V) და შემდეგ მიუთითოთ მათი გამეორებების რაოდენობა ( გვ). ასეთ ვარიაციულ სერიას, რომელშიც ვარიანტები, როგორც იქნა, შეწონილია მათ შესაბამისი სიხშირეების რაოდენობის მიხედვით, ეწოდება შეწონილი ვარიაციული სერია, ხოლო გამოთვლილი საშუალო მნიშვნელობა არის არითმეტიკული შეწონილი საშუალო.

არითმეტიკული შეწონილი საშუალო განისაზღვრება ფორმულით: M= ∑Vp/n

სადაც n არის სიხშირეების ჯამის ტოლი დაკვირვებების რაოდენობა - Ср.

არითმეტიკული შეწონილი საშუალოს გამოთვლის მაგალითი.

ადგილობრივი ექიმის მიერ ჩატარებული მწვავე რესპირატორული დაავადებების (ARI) მქონე 35 პაციენტში ინვალიდობის ხანგრძლივობა (დღეებში) მიმდინარე წლის პირველ კვარტალში იყო: 6, 7, 5, 3, 9, 8, 7, 5, 6. , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 დღე.

მწვავე რესპირატორული ინფექციების მქონე პაციენტებში ინვალიდობის საშუალო ხანგრძლივობის განსაზღვრის მეთოდოლოგია შემდეგია:

1. ავაშენოთ შეწონილი ვარიაციული სერია, რადგან ინდივიდუალური ვარიანტების მნიშვნელობები რამდენჯერმე მეორდება. ამისათვის თქვენ შეგიძლიათ დაალაგოთ ყველა ვარიანტი აღმავალი ან კლებადობით მათი შესაბამისი სიხშირეებით.

ჩვენს შემთხვევაში, ვარიანტები აღმავალი თანმიმდევრობითაა.

2. გამოთვალეთ საშუალო შეწონილი არითმეტიკული ფორმულის გამოყენებით: M = ∑Vp/n = 233/35 = 6,7 დღე

მწვავე რესპირატორული ინფექციების მქონე პაციენტების განაწილება ინვალიდობის ხანგრძლივობის მიხედვით:

შრომისუუნარობის ხანგრძლივობა (V) პაციენტების რაოდენობა (p) vp
∑p = n = 35 ∑Vp = 233

დასკვნა. ინვალიდობის ხანგრძლივობა მწვავე რესპირატორული დაავადებების მქონე პაციენტებში საშუალოდ 6,7 დღე იყო.

რეჟიმი (Mo) არის ყველაზე გავრცელებული ვარიანტი ვარიაციების სერიაში. ცხრილში წარმოდგენილი განაწილებისთვის რეჟიმი შეესაბამება 10-ის ტოლ ვარიანტს, ის უფრო ხშირად ხდება ვიდრე სხვები - 6-ჯერ.

პაციენტების განაწილება საავადმყოფოს საწოლში ყოფნის ხანგრძლივობის მიხედვით (დღეებში)

გვ

ზოგჯერ ძნელია რეჟიმის ზუსტი მნიშვნელობის დადგენა, რადგან შესწავლილ მონაცემებში შეიძლება იყოს რამდენიმე დაკვირვება, რომელიც ხდება "ყველაზე ხშირად".

მედიანა (Me) არის არაპარამეტრული ინდიკატორი, რომელიც ყოფს ვარიაციის სერიებს ორ თანაბარ ნაწილად: ერთნაირი რაოდენობის ვარიანტები მდებარეობს მედიანის ორივე მხარეს.

მაგალითად, ცხრილში ნაჩვენები განაწილებისთვის, მედიანა არის 10, რადგან ამ მნიშვნელობის ორივე მხარეს მდებარეობს მე-14 ვარიანტზე, ე.ი. რიცხვი 10 ამ სერიაში ცენტრალურ ადგილს იკავებს და არის მისი მედიანა.

იმის გათვალისწინებით, რომ ამ მაგალითში დაკვირვებების რაოდენობა ლუწია (n=34), მედიანა შეიძლება განისაზღვროს შემდეგნაირად:

მე = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

ეს ნიშნავს, რომ სერიის შუა რიცხვები მოდის მეჩვიდმეტე ვარიანტზე, რომელიც შეესაბამება 10-ის მედიანას. ცხრილში წარმოდგენილი განაწილებისთვის საშუალო არითმეტიკული არის:

M = ∑Vp/n = 334/34 = 10.1

ასე რომ, ცხრილიდან 34 დაკვირვებისთვის. 8, მივიღეთ: Mo=10, Me=10, საშუალო არითმეტიკული (M) არის 10,1. ჩვენს მაგალითში სამივე ინდიკატორი ტოლი ან ერთმანეთთან ახლოს აღმოჩნდა, თუმცა სრულიად განსხვავებულია.

საშუალო არითმეტიკული არის ყველა გავლენის შედეგიანი ჯამი; ყველა ვარიანტი, გამონაკლისის გარეშე, მონაწილეობს მის ფორმირებაში, მათ შორის უკიდურესი, ხშირად ატიპიური მოცემული ფენომენისთვის ან ნაკრებისთვის.

რეჟიმი და მედიანა, არითმეტიკული საშუალოსგან განსხვავებით, არ არის დამოკიდებული ცვლადის ატრიბუტის ყველა ინდივიდუალური მნიშვნელობის მნიშვნელობაზე (ექსტრემალური ვარიანტების მნიშვნელობები და სერიის გაფანტვის ხარისხი). საშუალო არითმეტიკული ახასიათებს დაკვირვების მთელ მასას, რეჟიმი და მედიანა ახასიათებს ნაყარს

დაჯგუფების მეთოდი ასევე საშუალებას გაძლევთ გაზომოთ ვარიაცია(ცვალებადობა, რყევა) ნიშნები. პოპულაციის ერთეულების შედარებით მცირე რაოდენობით, ვარიაცია იზომება ერთეულების რანჟირებული სერიის საფუძველზე, რომლებიც ქმნიან მოსახლეობას. რიგს ეძახიან რეიტინგულითუ ერთეულები განლაგებულია აღმავალ (დაღმავალ) ნიშანში.

თუმცა, რანჟირებული სერიები საკმაოდ საჩვენებელია, როდესაც საჭიროა ვარიაციის შედარებითი მახასიათებელი. გარდა ამისა, ხშირ შემთხვევაში საქმე გვაქვს სტატისტიკურ აგრეგატებთან, რომლებიც შედგება დიდი რაოდენობის ერთეულებისგან, რომელთა წარმოდგენა პრაქტიკულად რთულია კონკრეტული სერიის სახით. ამასთან დაკავშირებით, სტატისტიკური მონაცემების პირველადი ზოგადი გაცნობისთვის და განსაკუთრებით ნიშნების ცვალებადობის შესწავლის გასაადვილებლად, შესწავლილი ფენომენები და პროცესები ჩვეულებრივ გაერთიანებულია ჯგუფებად, ხოლო დაჯგუფების შედეგები შედგენილია ჯგუფური ცხრილების სახით. .

თუ ჯგუფურ ცხრილში მხოლოდ ორი სვეტია - ჯგუფები არჩეული მახასიათებლის (ოფციების) და ჯგუფების რაოდენობის მიხედვით (სიხშირეები ან სიხშირეები), მას ე.წ. განაწილების მახლობლად.

განაწილების დიაპაზონი -სტრუქტურული დაჯგუფების უმარტივესი ტიპი ერთი ატრიბუტის მიხედვით, რომელიც ნაჩვენებია ჯგუფურ ცხრილში ორი სვეტით, რომლებიც შეიცავს ატრიბუტის ვარიანტებსა და სიხშირეს. ხშირ შემთხვევაში, ასეთი სტრუქტურული დაჯგუფებით, ე.ი. განაწილების სერიების შედგენით იწყება საწყისი სტატისტიკური მასალის შესწავლა.

სტრუქტურული დაჯგუფება განაწილების სერიის სახით შეიძლება გადაიქცეს ნამდვილ სტრუქტურულ დაჯგუფებად, თუ შერჩეული ჯგუფები ხასიათდება არა მხოლოდ სიხშირეებით, არამედ სხვა სტატისტიკური მაჩვენებლებითაც. სადისტრიბუციო სერიების მთავარი მიზანია ფუნქციების ცვალებადობის შესწავლა. განაწილების სერიების თეორია დეტალურად არის შემუშავებული მათემატიკური სტატისტიკით.

განაწილების სერიები იყოფა ატრიბუტული(ატრიბუტული მახასიათებლების მიხედვით დაჯგუფება, მაგალითად, მოსახლეობის დაყოფა სქესის, ეროვნების, ოჯახური მდგომარეობის და ა.შ.) და ვარიაციული(რაოდენობრივი მახასიათებლების მიხედვით დაჯგუფება).

ვარიაციების სერიაარის ჯგუფური ცხრილი, რომელიც შეიცავს ორ სვეტს: ერთეულების დაჯგუფებას ერთი რაოდენობრივი ატრიბუტის მიხედვით და ერთეულების რაოდენობა თითოეულ ჯგუფში. ვარიაციების სერიაში ინტერვალები, როგორც წესი, თანაბარი და დახურულია. ვარიაციების სერია არის რუსეთის მოსახლეობის შემდეგი დაჯგუფება ერთ სულ მოსახლეზე ნაღდი ფულის საშუალო შემოსავლის მიხედვით (ცხრილი 3.10).

ცხრილი 3.10

რუსეთის მოსახლეობის განაწილება ერთ სულ მოსახლეზე საშუალო შემოსავლით 2004-2009 წლებში

მოსახლეობის ჯგუფები საშუალოდ ერთ სულ მოსახლეზე ფულადი შემოსავლის მიხედვით, რუბლი/თვეში

მოსახლეობა ჯგუფში, მთლიანი პროცენტით

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

25000.0-ზე მეტი

მთელი მოსახლეობა

ვარიაციური სერიები, თავის მხრივ, იყოფა დისკრეტებად და ინტერვალებად. დისკრეტულივარიაციების სერიები აერთიანებს დისკრეტული მახასიათებლების ვარიანტებს, რომლებიც განსხვავდება ვიწრო საზღვრებში. დისკრეტული ვარიაციის სერიის მაგალითია რუსული ოჯახების განაწილება მათი შვილების რაოდენობის მიხედვით.

ინტერვალივარიაციული სერიები აერთიანებს უწყვეტი მახასიათებლების ან დისკრეტული მახასიათებლების ვარიანტებს, რომლებიც იცვლება ფართო დიაპაზონში. ინტერვალის სერია არის რუსეთის მოსახლეობის განაწილების ვარიაციის სერია ერთ სულ მოსახლეზე ფულადი საშუალო შემოსავლის მიხედვით.

დისკრეტული ვარიაციული სერიები პრაქტიკაში არც თუ ისე ხშირად გამოიყენება. იმავდროულად, მათი შედგენა არ არის რთული, რადგან ჯგუფების შემადგენლობა განისაზღვრება კონკრეტული ვარიანტებით, რომლებსაც რეალურად ფლობენ შესწავლილი დაჯგუფების მახასიათებლები.

ინტერვალური ვარიაციული სერიები უფრო გავრცელებულია. მათი შედგენისას ჩნდება რთული კითხვა როგორც ჯგუფების რაოდენობაზე, ასევე იმ ინტერვალების სიდიდის შესახებ, რომელიც უნდა დადგინდეს.

ამ საკითხის გადაწყვეტის პრინციპები ჩამოყალიბებულია სტატისტიკური დაჯგუფებების აგების მეთოდოლოგიის შესახებ (იხ. პუნქტი 3.3).

ვარიაციების სერიები არის მრავალფეროვანი ინფორმაციის დაშლის ან კომპაქტურ ფორმაში შეკუმშვის საშუალება; ისინი შეიძლება გამოყენებულ იქნას ცვალებადობის ბუნების შესახებ საკმაოდ მკაფიო განსჯის გასაკეთებლად, შესასწავლად ნაკრებში შემავალი ფენომენების ნიშნების განსხვავებების შესასწავლად. მაგრამ ვარიაციული სერიების ყველაზე მნიშვნელოვანი მნიშვნელობა ის არის, რომ მათ საფუძველზე გამოითვლება ვარიაციის სპეციალური განზოგადების მახასიათებლები (იხ. თავი 7).

სტატისტიკურ ანალიზში განსაკუთრებული ადგილი უკავია შესწავლილი მახასიათებლის ან ფენომენის საშუალო დონის განსაზღვრას. მახასიათებლის საშუალო დონე იზომება საშუალო მნიშვნელობებით.

საშუალო მნიშვნელობა ახასიათებს შესწავლილი თვისების ზოგად რაოდენობრივ დონეს და წარმოადგენს სტატისტიკური პოპულაციის ჯგუფურ საკუთრებას. იგი ასუსტებს, ასუსტებს ინდივიდუალური დაკვირვების შემთხვევით გადახრებს ამა თუ იმ მიმართულებით და ხაზს უსვამს შესასწავლი თვისების ძირითად, ტიპურ თვისებას.

საშუალოდ ფართოდ გამოიყენება:

1. მოსახლეობის ჯანმრთელობის მდგომარეობის შეფასება: ფიზიკური განვითარების მახასიათებლები (სიმაღლე, წონა, გულმკერდის გარშემოწერილობა და ა.შ.), სხვადასხვა დაავადების გავრცელების და ხანგრძლივობის განსაზღვრა, დემოგრაფიული მაჩვენებლების ანალიზი (მოსახლეობის ბუნებრივი მოძრაობა, სიცოცხლის საშუალო ხანგრძლივობა, მოსახლეობის რეპროდუქცია. საშუალო მოსახლეობა და ა.შ.).

2. სამედიცინო დაწესებულებების, სამედიცინო პერსონალის საქმიანობის შესწავლა და მათი მუშაობის ხარისხის შეფასება, მოსახლეობის საჭიროებების დაგეგმვა და განსაზღვრა სხვადასხვა სახის სამედიცინო მომსახურებაზე (მოთხოვნების ან ვიზიტების საშუალო რაოდენობა ერთ მოსახლეზე წელიწადში, ყოფნის საშუალო ხანგრძლივობა. საავადმყოფოში მყოფი პაციენტი, პაციენტის გამოკვლევის საშუალო ხანგრძლივობა, ექიმების საშუალო უზრუნველყოფა, საწოლები და ა.შ.).

3. სანიტარული და ეპიდემიოლოგიური მდგომარეობის დახასიათება (საამქროში ჰაერის საშუალო მტვრიანობა, საშუალო ფართობი ერთ ადამიანზე, ცილების, ცხიმებისა და ნახშირწყლების საშუალო მოხმარება და სხვ.).

4. ნორმასა და პათოლოგიაში სამედიცინო და ფიზიოლოგიური პარამეტრების დადგენა, ლაბორატორიული მონაცემების დამუშავებისას, შერჩევითი კვლევის შედეგების სანდოობის დადგენა სოციალურ-ჰიგიენურ, კლინიკურ, ექსპერიმენტულ კვლევებში.

საშუალო მნიშვნელობების გაანგარიშება ხორციელდება ვარიაციის სერიების საფუძველზე. ვარიაციების სერია- ეს არის თვისობრივად ერთგვაროვანი სტატისტიკური ნაკრები, რომლის ცალკეული ერთეულები ახასიათებს შესწავლილი მახასიათებლის ან ფენომენის რაოდენობრივ განსხვავებას.

რაოდენობრივი ცვალებადობა შეიძლება იყოს ორი სახის: წყვეტილი (დისკრეტული) და უწყვეტი.

წყვეტილი (დისკრეტული) ნიშანი გამოიხატება მხოლოდ მთელი რიცხვით და არ შეიძლება ჰქონდეს შუალედური მნიშვნელობები (მაგალითად, ვიზიტების რაოდენობა, საიტის პოპულაცია, ოჯახში ბავშვების რაოდენობა, დაავადების სიმძიმე წერტილებში და ა.შ.).

უწყვეტმა ნიშანმა შეიძლება მიიღოს ნებისმიერი მნიშვნელობა გარკვეული საზღვრებში, მათ შორის წილადი და გამოიხატება მხოლოდ დაახლოებით (მაგალითად, წონა - მოზრდილებისთვის ის შეიძლება შემოიფარგლოს კილოგრამებით, ხოლო ახალშობილებისთვის - გრამებით; სიმაღლე, არტერიული წნევა, დრო. დაიხარჯა პაციენტის ნახვაზე და ა.შ.).



ვარიაციების სერიაში შემავალი თითოეული ინდივიდუალური მახასიათებლის ან ფენომენის ციფრულ მნიშვნელობას ეწოდება ვარიანტი და მითითებულია ასოებით . მათემატიკურ ლიტერატურაში სხვა აღნიშვნებიც არის, მაგალითად x ან წ.

ვარიაციულ სერიას, სადაც თითოეული ვარიანტი ერთხელ არის მითითებული, მარტივი ეწოდება.ასეთი სერიები გამოიყენება უმეტეს სტატისტიკურ ამოცანებში კომპიუტერული მონაცემების დამუშავების შემთხვევაში.

დაკვირვებების რაოდენობის მატებასთან ერთად, როგორც წესი, არსებობს ვარიანტის განმეორებითი მნიშვნელობები. ამ შემთხვევაში ის ქმნის დაჯგუფებული ვარიაციების სერია, სადაც მითითებულია გამეორებების რაოდენობა (სიხშირე, აღინიშნება ასო " »).

რანჟირებული ვარიაციების სერიაშედგება აღმავალი ან კლებადი თანმიმდევრობით დალაგებული ვარიანტებისგან. როგორც მარტივი, ისე დაჯგუფებული სერიების შედგენა შესაძლებელია რეიტინგით.

ინტერვალის ვარიაციის სერიაშედგენილია კომპიუტერის გამოყენების გარეშე შესრულებული შემდგომი გამოთვლების გასამარტივებლად, დაკვირვების ერთეულების ძალიან დიდი რაოდენობით (1000-ზე მეტი).

უწყვეტი ვარიაციის სერიამოიცავს ვარიანტულ მნიშვნელობებს, რომლებიც შეიძლება იყოს ნებისმიერი მნიშვნელობა.

თუ ვარიაციის სერიაში ატრიბუტის (ვარიანტების) მნიშვნელობები მოცემულია ცალკეული კონკრეტული რიცხვების სახით, მაშინ ასეთ სერიას ე.წ. დისკრეტული.

ვარიაციის სერიაში ასახული ატრიბუტის მნიშვნელობების ზოგადი მახასიათებლები საშუალო მნიშვნელობებია. მათ შორის ყველაზე მეტად გამოიყენება: საშუალო არითმეტიკული მ,მოდა მოდა მედიანა მე.თითოეული ეს მახასიათებელი უნიკალურია. ისინი ერთმანეთს ვერ შეცვლიან და მხოლოდ მთლიანობაში, საკმაოდ სრულყოფილად და ლაკონურად, არის ვარიაციის სერიების მახასიათებლები.

მოდა (მო) დაასახელეთ ყველაზე ხშირად არსებული ვარიანტების მნიშვნელობა.

მედიანური (მე) არის ვარიანტის მნიშვნელობა, რომელიც ყოფს დიაპაზონის ვარიაციულ სერიას შუაზე (მედიანას თითოეულ მხარეს არის ვარიანტის ნახევარი). იშვიათ შემთხვევებში, როდესაც არსებობს სიმეტრიული ვარიაციის სერია, რეჟიმი და მედიანა ერთმანეთის ტოლია და ემთხვევა საშუალო არითმეტიკული მნიშვნელობას.

ვარიანტის მნიშვნელობების ყველაზე ტიპიური მახასიათებელია საშუალო არითმეტიკულიღირებულება ( ). მათემატიკურ ლიტერატურაში აღინიშნება .

Საშუალო არითმეტიკული (მ, ) არის შესწავლილი ფენომენების გარკვეული მახასიათებლის ზოგადი რაოდენობრივი მახასიათებელი, რომლებიც ქმნიან თვისობრივად ერთგვაროვან სტატისტიკურ აგრეგატს. განასხვავებენ მარტივ არითმეტიკულ საშუალოსა და შეწონილ საშუალოს. მარტივი არითმეტიკული საშუალო გამოითვლება მარტივი ვარიაციული სერიებისთვის ყველა ვარიანტის შეჯამებით და ამ ჯამის გაყოფით ამ ვარიაციულ სერიაში შემავალი ვარიანტების საერთო რაოდენობაზე. გამოთვლები ხორციელდება ფორმულის მიხედვით:

,

სადაც: - მარტივი არითმეტიკული საშუალო;

Σ - თანხის ვარიანტი;

- დაკვირვებების რაოდენობა.

დაჯგუფებული ვარიაციების სერიაში განისაზღვრება შეწონილი არითმეტიკული საშუალო. მისი გაანგარიშების ფორმულა:

,

სადაც: - საშუალო შეწონილი არითმეტიკული;

Σ vp - ვარიანტის პროდუქტების ჯამი მათ სიხშირეებზე;

- დაკვირვებების რაოდენობა.

ხელით გამოთვლების შემთხვევაში დაკვირვების დიდი რაოდენობით შეიძლება გამოყენებულ იქნას მომენტების მეთოდი.

საშუალო არითმეტიკას აქვს შემდეგი თვისებები:

ვარიანტის გადახრების ჯამი საშუალოდან ( Σ ) უდრის ნულს (იხ. ცხრილი 15);

ყველა ვარიანტის ერთ ფაქტორზე (გამყოფზე) გამრავლების (გაყოფისას) საშუალო არითმეტიკული მრავლდება (იყოფა) იმავე კოეფიციენტზე (გამყოფზე);

თუ ყველა ვარიანტს ერთსა და იმავე რიცხვს დაამატებთ (აკლებთ), საშუალო არითმეტიკული იგივე რიცხვით იზრდება (მცირდება).

არითმეტიკული საშუალო, თავისთავად მიღებული, სერიების ცვალებადობის გათვალისწინების გარეშე, საიდანაც ისინი გამოითვლება, შეიძლება სრულად არ ასახავდეს ვარიაციული სერიის თვისებებს, განსაკუთრებით მაშინ, როდესაც საჭიროა სხვა საშუალო მაჩვენებლებთან შედარება. საშუალო მნიშვნელობებით მიახლოებული მნიშვნელობების მიღება შესაძლებელია სერიებიდან სხვადასხვა ხარისხის დისპერსიით. რაც უფრო ახლოსაა ცალკეული ვარიანტები ერთმანეთთან მათი რაოდენობრივი მახასიათებლებით, მით ნაკლებია გაფანტვა (რყევა, ცვალებადობა)სერია, მით უფრო ტიპიურია მისი საშუალო.

ძირითადი პარამეტრები, რომლებიც საშუალებას იძლევა შეფასდეს ნიშან-თვისების ცვალებადობა, არის:

· ფარგლები;

Დიაპაზონი;

· Სტანდარტული გადახრა;

· ვარიაციის კოეფიციენტი.

დაახლოებით, ნიშან-თვისების მერყეობა შეიძლება ვიმსჯელოთ ვარიაციის სერიის მასშტაბით და ამპლიტუდით. დიაპაზონი მიუთითებს სერიის მაქსიმალურ (V max) და მინიმალურ (V min) ვარიანტებს. ამპლიტუდა (A m) არის განსხვავება ამ ვარიანტებს შორის: A m = V max - V min .

ვარიაციული სერიების რყევების ძირითადი, ზოგადად მიღებული საზომია დისპერსია ( ). მაგრამ ყველაზე მოსახერხებელი პარამეტრი ყველაზე ხშირად გამოიყენება, გამოითვლება დისპერსიის საფუძველზე - სტანდარტული გადახრა ( σ ). იგი ითვალისწინებს გადახრის მნიშვნელობას ( ) ვარიაციის სერიის თითოეული ვარიანტის არითმეტიკული საშუალოდან ( d=V - M ).

ვინაიდან ვარიანტის გადახრები საშუალოდან შეიძლება იყოს დადებითი და უარყოფითი, შეჯამებისას ისინი აძლევენ მნიშვნელობას "0" (S d=0). ამის თავიდან ასაცილებლად, გადახრის მნიშვნელობები ( ) ამაღლებულია მეორე ხარისხზე და საშუალოდ. ამრიგად, ვარიაციული სერიის ვარიაცია არის ვარიანტის გადახრების საშუალო კვადრატი არითმეტიკული საშუალოდან და გამოითვლება ფორმულით:

.

ეს არის ცვალებადობის ყველაზე მნიშვნელოვანი მახასიათებელი და გამოიყენება მრავალი სტატისტიკური ტესტის გამოსათვლელად.

იმის გამო, რომ განსხვავება გამოიხატება როგორც გადახრების კვადრატი, მისი მნიშვნელობა არ შეიძლება გამოყენებულ იქნას საშუალო არითმეტიკასთან შედარებით. ამ მიზნებისათვის იგი გამოიყენება სტანდარტული გადახრა, რომელიც აღინიშნება ნიშნით "სიგმა" ( σ ). იგი ახასიათებს ვარიაციის სერიის ყველა ვარიანტის საშუალო გადახრას არითმეტიკული საშუალოდან იმავე ერთეულებში, როგორც თავად საშუალო, ასე რომ მათი გამოყენება შესაძლებელია ერთად.

სტანდარტული გადახრა განისაზღვრება ფორმულით:

ეს ფორმულა გამოიყენება დაკვირვებების რაოდენობისთვის ( ) მეტია 30. უფრო მცირე რიცხვით სტანდარტული გადახრის მნიშვნელობას ექნება შეცდომა, რომელიც დაკავშირებულია მათემატიკურ მიკერძოებასთან ( - ერთი). ამასთან დაკავშირებით, უფრო ზუსტი შედეგის მიღება შესაძლებელია სტანდარტული გადახრის გამოთვლის ფორმულაში ასეთი მიკერძოების გათვალისწინებით:

სტანდარტული გადახრა ( ) არის შემთხვევითი ცვლადის სტანდარტული გადახრის შეფასება Xმის მათემატიკურ მოლოდინთან შედარებით, მისი დისპერსიის მიუკერძოებელი შეფასებით.

ღირებულებებისთვის > 30 სტანდარტული გადახრა ( σ ) და სტანდარტული გადახრა ( ) იგივე იქნება ( σ=s ). ამიტომ, უმეტეს პრაქტიკულ სახელმძღვანელოებში ეს კრიტერიუმები განიხილება, როგორც განსხვავებული მნიშვნელობის მქონე. Excel-ში სტანდარტული გადახრის გამოთვლა შესაძლებელია ფუნქციით =STDEV(დიაპაზონი). და სტანდარტული გადახრის გამოსათვლელად, თქვენ უნდა შექმნათ შესაბამისი ფორმულა.

ფესვის საშუალო კვადრატი ან სტანდარტული გადახრა საშუალებას გაძლევთ განსაზღვროთ რამდენად შეიძლება განსხვავდებოდეს მახასიათებლის მნიშვნელობები საშუალო მნიშვნელობიდან. დავუშვათ, რომ არსებობს ორი ქალაქი ზაფხულში ერთი და იგივე საშუალო დღიური ტემპერატურის მქონე. ამ ქალაქებიდან ერთი მდებარეობს სანაპიროზე, მეორე კი კონტინენტზე. ცნობილია, რომ სანაპიროზე მდებარე ქალაქებში დღისით ტემპერატურის სხვაობა ნაკლებია, ვიდრე შიდა ქალაქებში. აქედან გამომდინარე, დღის ტემპერატურის სტანდარტული გადახრა ზღვისპირა ქალაქთან შედარებით ნაკლები იქნება, ვიდრე მეორე ქალაქში. პრაქტიკაში, ეს ნიშნავს, რომ ჰაერის საშუალო ტემპერატურა ყოველი დღის განმავლობაში კონტინენტზე მდებარე ქალაქში უფრო განსხვავდება საშუალოდან, ვიდრე სანაპიროზე მდებარე ქალაქში. გარდა ამისა, სტანდარტული გადახრა შესაძლებელს ხდის შეფასდეს შესაძლო ტემპერატურის გადახრები საშუალოდან ალბათობის საჭირო დონით.

ალბათობის თეორიის მიხედვით, ფენომენებში, რომლებიც ემორჩილებიან ნორმალურ განაწილების კანონს, არსებობს მკაცრი კავშირი საშუალო არითმეტიკული მნიშვნელობების, სტანდარტული გადახრისა და ვარიანტებს შორის ( სამი სიგმის წესი). მაგალითად, ცვლადი ატრიბუტის მნიშვნელობების 68.3% არის M ± 1 ფარგლებში σ , 95.5% - M ± 2-ის ფარგლებში σ ხოლო 99,7% - M ± 3-ის ფარგლებში σ .

სტანდარტული გადახრის მნიშვნელობა შესაძლებელს ხდის ვიმსჯელოთ ვარიაციების სერიის და შესწავლილი ჯგუფის ჰომოგენურობის ბუნებაზე. თუ სტანდარტული გადახრის მნიშვნელობა მცირეა, მაშინ ეს მიუთითებს შესასწავლი ფენომენის საკმარისად მაღალ ჰომოგენურობაზე. საშუალო არითმეტიკული ამ შემთხვევაში უნდა იყოს აღიარებული, როგორც საკმაოდ დამახასიათებელი ამ ვარიაციული სერიის. თუმცა, ძალიან მცირე სიგმა ადამიანს აიძულებს იფიქროს დაკვირვებების ხელოვნურ შერჩევაზე. ძალიან დიდი სიგმით, საშუალო არითმეტიკული ახასიათებს ვარიაციის სერიას ნაკლებად, რაც მიუთითებს შესწავლილი ნიშან-თვისების ან ფენომენის მნიშვნელოვან ცვალებადობაზე ან საკვლევ ჯგუფის ჰეტეროგენულობაზე. თუმცა, სტანდარტული გადახრის მნიშვნელობის შედარება შესაძლებელია მხოლოდ იმავე განზომილების ნიშნებისთვის. მართლაც, თუ შევადარებთ ახალშობილთა და მოზრდილთა წონის მრავალფეროვნებას, მოზრდილებში ყოველთვის მივიღებთ უფრო მაღალ სიგმას.

სხვადასხვა განზომილების მახასიათებლების ცვალებადობის შედარება შეიძლება განხორციელდეს გამოყენებით ვარიაციის კოეფიციენტი. იგი გამოხატავს მრავალფეროვნებას საშუალო პროცენტის სახით, რაც იძლევა სხვადასხვა ნიშან-თვისებების შედარების საშუალებას. სამედიცინო ლიტერატურაში ცვალებადობის კოეფიციენტი მითითებულია ნიშნით " თან "და მათემატიკაში" » და გამოითვლება ფორმულით:

.

ვარიაციის კოეფიციენტის მნიშვნელობები 10% -ზე ნაკლები მიუთითებს მცირე გაფანტვაზე, 10-დან 20% -მდე - საშუალოდ, 20% -ზე მეტი - არითმეტიკული საშუალოზე ძლიერი გაფანტვის შესახებ.

საშუალო არითმეტიკული ჩვეულებრივ გამოითვლება ნიმუშის მონაცემების საფუძველზე. შემთხვევითი ფენომენების გავლენის ქვეშ განმეორებითი კვლევებით, საშუალო არითმეტიკული შეიძლება შეიცვალოს. ეს გამოწვეულია იმით, რომ, როგორც წესი, იკვლევს დაკვირვების შესაძლო ერთეულების მხოლოდ ნაწილი, ანუ შერჩევის პოპულაცია. შესწავლილი ფენომენის გამომსახველი ყველა შესაძლო ერთეულის შესახებ ინფორმაციის მიღება შესაძლებელია მთლიანი პოპულაციის შესწავლით, რაც ყოველთვის არ არის შესაძლებელი. ამავდროულად, ექსპერიმენტული მონაცემების განზოგადების მიზნით, საინტერესოა საშუალო სიდიდე ზოგად პოპულაციაში. ამიტომ, შესასწავლი ფენომენის შესახებ ზოგადი დასკვნის ჩამოსაყალიბებლად, შერჩევის პოპულაციის საფუძველზე მიღებული შედეგები სტატისტიკური მეთოდებით უნდა გადავიდეს ზოგად პოპულაციაზე.

იმისათვის, რომ განვსაზღვროთ შეთანხმების ხარისხი სანიმუშო კვლევასა და ზოგად პოპულაციას შორის, საჭიროა შეფასდეს შეცდომის რაოდენობა, რომელიც აუცილებლად წარმოიქმნება ნიმუშის დაკვირვებისას. ასეთ შეცდომას ე.წ წარმომადგენლობითი შეცდომა” ან ”საშუალო არითმეტიკული ცდომილება”. ეს არის, ფაქტობრივად, განსხვავება შერჩევითი სტატისტიკური დაკვირვების შედეგად მიღებულ საშუალებებსა და მსგავს მნიშვნელობებს შორის, რომლებიც მიიღება ერთი და იგივე ობიექტის უწყვეტი შესწავლით, ე.ი. ზოგადი მოსახლეობის შესწავლისას. ვინაიდან შერჩევის საშუალო არის შემთხვევითი ცვლადი, ასეთი პროგნოზი კეთდება მკვლევრისთვის ალბათობის მისაღები დონით. სამედიცინო კვლევებში ეს არის მინიმუმ 95%.

წარმომადგენლობითობის შეცდომა არ უნდა აგვერიოს სარეგისტრაციო შეცდომებთან ან ყურადღების შეცდომებთან (არასწორი ბეჭდვა, არასწორი გამოთვლები, არასწორი ბეჭდვა და ა.შ.), რაც მინიმუმამდე უნდა იქნას დაყვანილი ექსპერიმენტში გამოყენებული ადეკვატური მეთოდოლოგიითა და ხელსაწყოებით.

წარმომადგენლობითობის შეცდომის სიდიდე დამოკიდებულია როგორც ნიმუშის ზომაზე, ასევე მახასიათებლის ცვალებადობაზე. რაც უფრო დიდია დაკვირვებების რაოდენობა, მით უფრო ახლოსაა ნიმუში საერთო პოპულაციასთან და მით უფრო მცირეა შეცდომა. რაც უფრო ცვალებადია ფუნქცია, მით მეტია სტატისტიკური შეცდომა.

პრაქტიკაში, შემდეგი ფორმულა გამოიყენება ვარიაციულ სერიებში წარმომადგენლობითი შეცდომის დასადგენად:

,

სადაც: – წარმომადგენლობითობის შეცდომა;

σ - სტანდარტული გადახრა;

არის ნიმუშში დაკვირვებების რაოდენობა.

ფორმულიდან ჩანს, რომ საშუალო შეცდომის ზომა პირდაპირპროპორციულია სტანდარტული გადახრის, ანუ შესასწავლი ნიშან-თვისების ცვალებადობისა და უკუპროპორციულია დაკვირვების რაოდენობის კვადრატულ ფესვთან.

ფარდობითი მნიშვნელობების გამოთვლის საფუძველზე სტატისტიკური ანალიზის ჩატარებისას, ვარიაციის სერიის აგება სავალდებულო არ არის. ამ შემთხვევაში, შედარებითი ინდიკატორების საშუალო შეცდომის დადგენა შეიძლება განხორციელდეს გამარტივებული ფორმულის გამოყენებით:

,

სადაც: - ფარდობითი ინდიკატორის მნიშვნელობა, გამოხატული პროცენტულად, ppm და ა.შ.;

- P-ის საპასუხო და გამოხატული როგორც (1-P), (100-P), (1000-P) და ა.შ., იმის მიხედვით, თუ რა საფუძველზე გამოითვლება მაჩვენებელი;

არის ნიმუშში დაკვირვებების რაოდენობა.

ამასთან, ფარდობითი მნიშვნელობებისთვის წარმომადგენლობითი შეცდომის გამოსათვლელად მითითებული ფორმულა შეიძლება გამოყენებულ იქნას მხოლოდ მაშინ, როდესაც ინდიკატორის მნიშვნელობა მის საფუძველზე ნაკლებია. ინტენსიური ინდიკატორების გამოთვლის რიგ შემთხვევებში ეს პირობა არ სრულდება და ინდიკატორი შეიძლება გამოისახოს 100% ან 1000%o-ზე მეტი რიცხვით. ასეთ სიტუაციაში აგებულია ვარიაციის სერია და წარმომადგენლობის შეცდომა გამოითვლება საშუალო მნიშვნელობების ფორმულის გამოყენებით, სტანდარტული გადახრის საფუძველზე.

საერთო პოპულაციაში საშუალო არითმეტიკული მნიშვნელობის პროგნოზირება ხორციელდება ორი მნიშვნელობის მითითებით - მინიმალური და მაქსიმალური. შესაძლო გადახრების ამ უკიდურეს მნიშვნელობებს, რომლის ფარგლებშიც შეიძლება მერყეობდეს ზოგადი პოპულაციის სასურველი საშუალო მნიშვნელობა, ეწოდება " ნდობის საზღვრები».

ალბათობის თეორიის პოსტულატებმა დაამტკიცეს, რომ მახასიათებლის ნორმალური განაწილებით 99,7% ალბათობით, საშუალოს გადახრების უკიდურესი მნიშვნელობები არ აღემატება წარმომადგენლობითობის სამმაგი შეცდომის მნიშვნელობას ( ± 3 ); 95.5% -ში - არაუმეტეს საშუალო მნიშვნელობის გაორმაგებული საშუალო ცდომილების მნიშვნელობა ( ±2 ); 68,3%-ში - არაუმეტეს ერთი საშუალო შეცდომის მნიშვნელობა ( ± 1 ) (სურ. 9).

P%

ბრინჯი. 9. ნორმალური განაწილების ალბათობის სიმკვრივე.

გაითვალისწინეთ, რომ ზემოაღნიშნული განცხადება მართალია მხოლოდ იმ მახასიათებლისთვის, რომელიც ემორჩილება გაუსის განაწილების ნორმალურ კანონს.

ექსპერიმენტული კვლევების უმეტესობა, მათ შორის მედიცინის სფეროში, დაკავშირებულია გაზომვებთან, რომელთა შედეგებს შეუძლია მიიღოს თითქმის ნებისმიერი მნიშვნელობა მოცემულ ინტერვალში, ამიტომ, როგორც წესი, ისინი აღწერილია უწყვეტი შემთხვევითი ცვლადების მოდელით. ამასთან დაკავშირებით, სტატისტიკური მეთოდების უმეტესობა ითვალისწინებს უწყვეტ განაწილებას. ერთ-ერთი ასეთი განაწილება, რომელიც ფუნდამენტურ როლს თამაშობს მათემატიკური სტატისტიკაში, არის ნორმალური, ან გაუსიანი განაწილება.

ეს გამოწვეულია მთელი რიგი მიზეზების გამო.

1. უპირველეს ყოვლისა, მრავალი ექსპერიმენტული დაკვირვება წარმატებით შეიძლება აღწერილი იყოს ნორმალური განაწილების გამოყენებით. დაუყოვნებლივ უნდა აღინიშნოს, რომ არ არსებობს ემპირიული მონაცემების განაწილება, რომელიც იქნება ზუსტად ნორმალური, რადგან ნორმალურად განაწილებული შემთხვევითი ცვლადი არის დიაპაზონში დან მდე, რაც პრაქტიკაში არასდროს ხდება. თუმცა, ნორმალური განაწილება ძალიან ხშირად კარგი მიახლოებაა.

ტარდება თუ არა ადამიანის სხეულის წონის, სიმაღლის და სხვა ფიზიოლოგიური პარამეტრების გაზომვები - ყველგან შემთხვევითი ფაქტორების ძალიან დიდი რაოდენობა (ბუნებრივი მიზეზები და გაზომვის შეცდომები) გავლენას ახდენს შედეგებზე. და, როგორც წესი, თითოეული ამ ფაქტორის გავლენა უმნიშვნელოა. გამოცდილება გვიჩვენებს, რომ ასეთ შემთხვევებში შედეგები დაახლოებით ნორმალურად გადანაწილდება.

2. შემთხვევით ნიმუშთან დაკავშირებული მრავალი განაწილება, ამ უკანასკნელის მოცულობის მატებასთან ერთად, ხდება ნორმალური.

3. ნორმალურ განაწილებას კარგად ერგება სხვა უწყვეტი განაწილების (მაგალითად, ასიმეტრიული) მიახლოებითი აღწერა.

4. ნორმალურ განაწილებას აქვს მთელი რიგი ხელსაყრელი მათემატიკური თვისებები, რამაც დიდწილად უზრუნველყო მისი ფართო გამოყენება სტატისტიკაში.

ამავდროულად, უნდა აღინიშნოს, რომ სამედიცინო მონაცემებში არის მრავალი ექსპერიმენტული განაწილება, რომელთა აღწერა შეუძლებელია ნორმალური განაწილების მოდელით. ამისათვის სტატისტიკამ შეიმუშავა მეთოდები, რომლებსაც ჩვეულებრივ უწოდებენ "არაპარამეტრულ".

სტატისტიკური მეთოდის არჩევა, რომელიც შესაფერისია კონკრეტული ექსპერიმენტის მონაცემების დასამუშავებლად, უნდა მოხდეს იმის მიხედვით, მიეკუთვნება თუ არა მიღებული მონაცემები ნორმალურ განაწილების კანონს. ნიშნის ნორმალურ განაწილების კანონთან დაქვემდებარების ჰიპოთეზის ტესტირება ტარდება სიხშირის განაწილების ჰისტოგრამის (გრაფიკის), ასევე რიგი სტატისტიკური კრიტერიუმების გამოყენებით. Მათ შორის:

ასიმეტრიის კრიტერიუმი ( );

ქურტოზის შემოწმების კრიტერიუმები ( );

შაპირო-ვილქსის კრიტერიუმი ( ) .

თითოეული პარამეტრისთვის ტარდება მონაცემთა განაწილების ბუნების ანალიზი (მას ასევე უწოდებენ განაწილების ნორმალურობის ტესტს). იმისათვის, რომ დარწმუნებით ვიმსჯელოთ პარამეტრის განაწილების ნორმალურ კანონთან შესაბამისობაზე, საჭიროა საკმარისად დიდი რაოდენობის სადამკვირვებლო ერთეული (მინიმუმ 30 მნიშვნელობა).

ნორმალური განაწილებისთვის, დახრილობისა და ქურთუსის კრიტერიუმები იღებენ მნიშვნელობას 0. თუ განაწილება გადატანილია მარჯვნივ. > 0 (დადებითი ასიმეტრია), თან < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона =0. ზე > 0 განაწილების მრუდი უფრო მკვეთრია, თუ < 0 пик более сглаженный, чем функция нормального распределения.

ნორმალურობის შესამოწმებლად Shapiro-Wilks ტესტის გამოყენებით, საჭიროა ამ კრიტერიუმის მნიშვნელობის პოვნა სტატისტიკური ცხრილების გამოყენებით მნიშვნელოვნების საჭირო დონეზე და დაკვირვების ერთეულების რაოდენობის მიხედვით (თავისუფლების ხარისხი). დანართი 1. ნორმალურობის ჰიპოთეზა უარყოფილია ამ კრიტერიუმის მცირე მნიშვნელობებისთვის, როგორც წესი, <0,8.

(ვარიაციური სერიის განმარტება; ვარიაციული სერიის კომპონენტები; ვარიაციული სერიის სამი ფორმა; ინტერვალის სერიის აგების მიზანშეწონილობა; დასკვნები, რომლებიც შეიძლება გაკეთდეს აგებული სერიიდან)

ვარიაციული სერია არის ნიმუშის ყველა ელემენტის თანმიმდევრობა, რომლებიც განლაგებულია შეუმცირებელი თანმიმდევრობით. იგივე ელემენტები მეორდება

ვარიაციული - ეს არის რაოდენობრივ საფუძველზე აგებული სერიები.

ვარიაციული განაწილების სერია შედგება ორი ელემენტისგან: ვარიანტები და სიხშირეები:

ვარიანტები არის რაოდენობრივი ნიშნის რიცხვითი მნიშვნელობები განაწილების ვარიაციის სერიაში. ისინი შეიძლება იყოს დადებითი ან უარყოფითი, აბსოლუტური ან ფარდობითი. ასე რომ, ეკონომიკური საქმიანობის შედეგების მიხედვით საწარმოების დაჯგუფებისას, ვარიანტები დადებითია - ეს არის მოგება, ხოლო უარყოფითი რიცხვები - ეს არის ზარალი.

სიხშირეები არის ცალკეული ვარიანტების რიცხვი ან ვარიაციის სერიის თითოეული ჯგუფი, ე.ი. ეს არის რიცხვები, რომლებიც გვიჩვენებს, რამდენად ხშირად ხდება გარკვეული ვარიანტები განაწილების სერიაში. ყველა სიხშირის ჯამს უწოდებენ პოპულაციის მოცულობას და განისაზღვრება მთელი პოპულაციის ელემენტების რაოდენობით.

სიხშირეები არის სიხშირეები, რომლებიც გამოხატულია ფარდობითი მნიშვნელობებით (ერთეულების ფრაქციები ან პროცენტები). სიხშირეების ჯამი უდრის ერთს ან 100%-ს. სიხშირეების ჩანაცვლება სიხშირეებით შესაძლებელს ხდის ვარიაციის სერიების შედარებას დაკვირვებების სხვადასხვა რაოდენობასთან.

ვარიაციის სერიის სამი ფორმა არსებობს:რანჟირებული სერიები, დისკრეტული სერიები და ინტერვალური სერიები.

რანჟირებული სერია არის მოსახლეობის ცალკეული ერთეულების განაწილება შესასწავლი მახასიათებლის აღმავალი ან კლებადობით. რანჟირება აადვილებს რაოდენობრივი მონაცემების ჯგუფებად დაყოფას, მახასიათებლის უმცირესი და უდიდესი მნიშვნელობების დაუყოვნებლივ გამოვლენას, ხაზს უსვამს მნიშვნელობებს, რომლებიც ყველაზე ხშირად მეორდება.

ვარიაციების სერიის სხვა ფორმებია ჯგუფური ცხრილები, რომლებიც შედგენილია შესასწავლი თვისების მნიშვნელობებში ვარიაციის ბუნების მიხედვით. ვარიაციის ბუნებით გამოირჩევა დისკრეტული (შეწყვეტილი) და უწყვეტი ნიშნები.

დისკრეტული სერია არის ისეთი ვარიაციული სერია, რომლის აგება ემყარება უწყვეტი ცვლილების ნიშნებს (დისკრეტული ნიშნები). ეს უკანასკნელი მოიცავს სატარიფო კატეგორიას, ოჯახში შვილების რაოდენობას, საწარმოში დასაქმებულთა რაოდენობას და ა.შ. ამ ნიშნებს შეუძლიათ მიიღონ გარკვეული მნიშვნელობების მხოლოდ სასრული რაოდენობა.

დისკრეტული ვარიაციული სერია არის ცხრილი, რომელიც შედგება ორი სვეტისგან. პირველ სვეტში მითითებულია ატრიბუტის სპეციფიკური მნიშვნელობა, ხოლო მეორე - პოპულაციის ერთეულების რაოდენობა ატრიბუტის კონკრეტული მნიშვნელობით.

თუ ნიშანს აქვს მუდმივი ცვლილება (შემოსავლის ოდენობა, სამუშაო გამოცდილება, საწარმოს ძირითადი საშუალებების ღირებულება და ა.შ., რომელსაც შეუძლია მიიღოს ნებისმიერი მნიშვნელობა გარკვეულ ფარგლებში), მაშინ ამ ნიშნისთვის უნდა აშენდეს ინტერვალის ვარიაციის სერია.



ჯგუფურ ცხრილს აქ ასევე აქვს ორი სვეტი. პირველი მიუთითებს მახასიათებლის მნიშვნელობას ინტერვალში "-დან -მდე" (ოფციები), მეორე - ინტერვალში შემავალი ერთეულების რაოდენობას (სიხშირე).

სიხშირე (განმეორების სიხშირე) - ატრიბუტის მნიშვნელობების კონკრეტული ვარიანტის გამეორებების რაოდენობა, რომელიც აღინიშნება fi, და სიხშირეების ჯამი, რომელიც ტოლია შესწავლილი პოპულაციის მოცულობის, აღსანიშნავი.

სადაც k არის ატრიბუტის მნიშვნელობის ვარიანტების რაოდენობა

ძალიან ხშირად, ცხრილს ავსებს სვეტი, რომელშიც გამოითვლება დაგროვილი S სიხშირეები, რომლებიც გვიჩვენებს მოსახლეობის რამდენ ერთეულს აქვს ამ მნიშვნელობაზე არაუმეტეს მახასიათებლის მნიშვნელობა.

დისკრეტული ვარიაციული განაწილების სერია არის სერია, რომელშიც ჯგუფები შედგენილია მახასიათებლის მიხედვით, რომელიც განსხვავდება დისკრეტულად და იღებს მხოლოდ მთელ რიცხვებს.

განაწილების ინტერვალის ვარიაციის სერია არის სერია, რომელშიც დაჯგუფების ატრიბუტს, რომელიც ქმნის დაჯგუფების საფუძველს, შეუძლია მიიღოს ნებისმიერი მნიშვნელობა გარკვეულ ინტერვალში, მათ შორის წილადის ჩათვლით.

ინტერვალის ვარიაციული სერია არის შემთხვევითი ცვლადის მნიშვნელობების ცვალებადობის ინტერვალების მოწესრიგებული ნაკრები თითოეულ მათგანში მოხვედრილი რაოდენობის მნიშვნელობების შესაბამისი სიხშირეებით ან სიხშირით.

მიზანშეწონილია აშენდეს ინტერვალური განაწილების სერიები, უპირველეს ყოვლისა, ნიშან-თვისების უწყვეტი ვარიაციით და ასევე, თუ დისკრეტული ვარიაცია იჩენს თავს ფართო დიაპაზონში, ე.ი. დისკრეტული ფუნქციის ვარიანტების რაოდენობა საკმაოდ დიდია.

ამ სერიიდან უკვე შეიძლება რამდენიმე დასკვნის გაკეთება. მაგალითად, ვარიაციის სერიის საშუალო ელემენტი (მედიანა) შეიძლება იყოს გაზომვის ყველაზე სავარაუდო შედეგის შეფასება. ვარიაციული სერიის პირველი და ბოლო ელემენტი (ანუ ნიმუშის მინიმალური და მაქსიმალური ელემენტი) აჩვენებს ნიმუშის ელემენტების გავრცელებას. ზოგჯერ, თუ პირველი ან ბოლო ელემენტი ძალიან განსხვავდება დანარჩენი ნიმუშისგან, მაშინ ისინი გამოირიცხება გაზომვის შედეგებიდან, იმის გათვალისწინებით, რომ ეს მნიშვნელობები მიღებულია რაიმე სახის უხეში წარუმატებლობის შედეგად, მაგალითად, ტექნოლოგია.