დისკრეტული სერია ონლაინ. უწყვეტი რაოდენობრივი მონაცემებისთვის ინტერვალის ვარიაციის სერიის აგება

ლაბორატორიული სამუშაო №1. სტატისტიკური მონაცემების პირველადი დამუშავება

სადისტრიბუციო სერიის მშენებლობა

პოპულაციის ერთეულების ჯგუფებად განაწილება რომელიმე ერთი ატრიბუტის მიხედვით ეწოდება განაწილების მახლობლად . ამ შემთხვევაში, ნიშანი შეიძლება იყოს როგორც რაოდენობრივი, მაშინ სერია ეწოდება ვარიაციული , და ხარისხიანი, მაშინ სერია ე.წ ატრიბუტული . ასე, მაგალითად, ქალაქის მოსახლეობა შეიძლება განაწილდეს ასაკობრივი ჯგუფების მიხედვით ვარიაციის სერიებში, ან პროფესიული კუთვნილების მიხედვით ატრიბუტების სერიაში (რა თქმა უნდა, მრავალი სხვა თვისობრივი და რაოდენობრივი მახასიათებელი შეიძლება შემოგვთავაზოს განაწილების სერიების ასაგებად, მახასიათებლის არჩევა განისაზღვრება სტატისტიკური კვლევის დავალებით).

ნებისმიერი განაწილების სერია ხასიათდება ორი ელემენტით:

- ვარიანტი(x i) - ეს არის ნიმუშის პოპულაციის ერთეულების ატრიბუტის ინდივიდუალური მნიშვნელობები. ვარიაციული სერიებისთვის, ვარიანტი იღებს რიცხვით მნიშვნელობებს, ატრიბუტიული სერიებისთვის - თვისებრივი (მაგალითად, x = "საჯარო მოხელე");

- სიხშირე(n მე) არის რიცხვი, რომელიც აჩვენებს რამდენჯერ ხდება ამა თუ იმ ფუნქციის მნიშვნელობა. თუ სიხშირე გამოიხატება როგორც ფარდობითი რიცხვი (ანუ პოპულაციის ელემენტების პროპორცია, რომელიც შეესაბამება ვარიანტების მოცემულ მნიშვნელობას პოპულაციის მთლიან მოცულობაში), მაშინ მას ე.წ. შედარებითი სიხშირეან სიხშირე.

ვარიაციების სერია შეიძლება იყოს:

- დისკრეტულიროდესაც შესასწავლ ნიშანს ახასიათებს გარკვეული რიცხვი (ჩვეულებრივ მთელი რიცხვი).

- ინტერვალიროდესაც საზღვრები "-დან" და "მდე" განისაზღვრება მუდმივად ცვლადი მახასიათებლისთვის. ინტერვალის სერია ასევე აგებულია, თუ დისკრეტულად ცვლადი მახასიათებლის მნიშვნელობების ნაკრები დიდია.

ინტერვალის სერია შეიძლება აშენდეს როგორც თანაბარი სიგრძის ინტერვალებით (თანაბარი ინტერვალის სერია), ასევე არათანაბარი ინტერვალებით, თუ ეს ნაკარნახევია სტატისტიკური კვლევის პირობებით. მაგალითად, შეიძლება ჩაითვალოს მოსახლეობის შემოსავლების განაწილების სერია შემდეგი ინტერვალებით:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



სადაც k არის ინტერვალების რაოდენობა, n არის ნიმუშის ზომა. (რა თქმა უნდა, ფორმულა ჩვეულებრივ იძლევა წილად რიცხვს და მიღებულ რიცხვთან უახლოესი მთელი რიცხვი არჩეულია ინტერვალების რაოდენობად.) ინტერვალის სიგრძე ამ შემთხვევაში განისაზღვრება ფორმულით.

.

გრაფიკულად, ვარიაციული სერიები შეიძლება წარმოდგენილი იყოს როგორც ჰისტოგრამები(სიმაღლის "სვეტი", რომელიც შეესაბამება სიხშირეს ამ ინტერვალში, აგებულია ინტერვალის სერიის ყოველი ინტერვალის ზემოთ), განაწილების არეალი(გატეხილი ხაზის დამაკავშირებელი წერტილები ( x i;n i) ან გროვდება(აშენებულია დაგროვილი სიხშირეების მიხედვით, ანუ ატრიბუტის ყოველი მნიშვნელობისთვის აღებულია ობიექტების სიმრავლე, რომელთა ატრიბუტის მნიშვნელობა მოცემულზე ნაკლებია).

Excel-ში მუშაობისას შესაძლებელია შემდეგი ფუნქციების გამოყენება ვარიაციების სერიების ასაგებად:

ᲩᲔᲙᲘ( მონაცემთა მასივი) – ნიმუშის ზომის დასადგენად. არგუმენტი არის უჯრედების დიაპაზონი, რომელიც შეიცავს ნიმუშის მონაცემებს.

COUNTIF( დიაპაზონი; კრიტერიუმი) - შეიძლება გამოყენებულ იქნას ატრიბუტის ან ვარიაციის სერიის შესაქმნელად. არგუმენტები არის ატრიბუტის ნიმუშის მნიშვნელობების მასივის დიაპაზონი და კრიტერიუმი - ატრიბუტის რიცხვითი ან ტექსტური მნიშვნელობა ან უჯრედის ნომერი, რომელშიც ის მდებარეობს. შედეგი არის ნიმუშში ამ მნიშვნელობის გაჩენის სიხშირე.

სიხშირე ( მონაცემთა მასივი; ინტერვალის მასივი) – ვარიაციული სერიის აგება. არგუმენტები არის მონაცემთა ნიმუშის დიაპაზონი და ინტერვალების სვეტი. თუ საჭიროა დისკრეტული სერიის აგება, მაშინ აქ მითითებულია პარამეტრების მნიშვნელობები, თუ ეს არის ინტერვალი, მაშინ ინტერვალების ზედა საზღვრები (მათ ასევე უწოდებენ "ჯიბეებს"). ვინაიდან შედეგი არის სიხშირეების სვეტი, ფუნქციის დანერგვა უნდა დასრულდეს CTRL+SHIFT+ENTER კლავიშების კომბინაციის დაჭერით. გაითვალისწინეთ, რომ ფუნქციის დანერგვისას ინტერვალების მასივის დაყენებისას, მასში არსებული ბოლო მნიშვნელობა შეიძლება გამოტოვოთ - ყველა მნიშვნელობა, რომელიც არ მოხვდა წინა "ჯიბეებში", განთავსდება შესაბამის "ჯიბეში". ეს ზოგჯერ ხელს უწყობს შეცდომის თავიდან აცილებას, რომ ნიმუშის უდიდესი მნიშვნელობა ავტომატურად არ არის განთავსებული ბოლო "ჯიბეში".

გარდა ამისა, რთული დაჯგუფებისთვის (რამდენიმე კრიტერიუმის მიხედვით) გამოიყენება "pivot tables" ინსტრუმენტი. ისინი ასევე შეიძლება გამოყენებულ იქნას ატრიბუტებისა და ვარიაციების სერიების შესაქმნელად, მაგრამ ეს ზედმეტად ართულებს ამოცანას. ასევე, ვარიაციის სერიის და ჰისტოგრამის ასაგებად, არსებობს „ჰისტოგრამის“ პროცედურა „ანალიზის პაკეტის“ დანამატიდან (ექსელში დანამატების გამოსაყენებლად, ჯერ უნდა ჩამოტვირთოთ ისინი, ისინი არ არის დაინსტალირებული ნაგულისხმევად)

ჩვენ ვასახავთ პირველადი მონაცემთა დამუშავების პროცესს შემდეგი მაგალითებით.

მაგალითი 1.1. არსებობს მონაცემები 60 ოჯახის რაოდენობრივი შემადგენლობის შესახებ.

შექმენით ვარიაციების სერია და განაწილების პოლიგონი

გადაწყვეტილება.

მოდით გავხსნათ Excel-ის ცხრილები. მოდით შევიტანოთ მონაცემთა მასივი A1:L5 დიაპაზონში. თუ თქვენ სწავლობთ დოკუმენტს ელექტრონული ფორმით (მაგალითად, Word ფორმატში), საკმარისია აირჩიოთ ცხრილი მონაცემებით და დააკოპიროთ იგი ბუფერში, შემდეგ აირჩიოთ უჯრედი A1 და ჩასვით მონაცემები - ისინი ავტომატურად დაიკავებენ შესაბამისი დიაპაზონი. მოდით გამოვთვალოთ ნიმუშის ზომა n - ნიმუშის მონაცემების რაოდენობა, ამისათვის B7 უჯრედში შეიყვანეთ ფორმულა = COUNT (A1: L5). გაითვალისწინეთ, რომ სასურველი დიაპაზონის ფორმულაში შესაყვანად არ არის აუცილებელი კლავიატურიდან მისი აღნიშვნის შეყვანა, საკმარისია მისი არჩევა. მოდით განვსაზღვროთ ნიმუშში მინიმალური და მაქსიმალური მნიშვნელობები B8 უჯრედში ფორმულის =MIN(A1:L5) შეყვანით და B9 უჯრედში: =MAX(A1:L5).

ნახ.1.1 მაგალითი 1. სტატისტიკური მონაცემების პირველადი დამუშავება Excel ცხრილებში

შემდეგი, მოდით მოვამზადოთ ცხრილი ვარიაციის სერიის შესაქმნელად, ინტერვალის სვეტის (ვარიანტის მნიშვნელობები) და სიხშირის სვეტის სახელების შეყვანით. ინტერვალების სვეტში შეიყვანეთ ატრიბუტის მნიშვნელობები მინიმალურიდან (1) მაქსიმუმამდე (6), იკავებს დიაპაზონს B12:B17. აირჩიეთ სიხშირის სვეტი, შეიყვანეთ ფორმულა =FREQUENCY(A1:L5;B12:B17) და დააჭირეთ კლავიშთა კომბინაციას CTRL+SHIFT+ENTER

ნახ.1.2 მაგალითი 1. ვარიაციის სერიის აგება

კონტროლისთვის, ჩვენ ვიანგარიშებთ სიხშირეების ჯამს SUM ფუნქციის გამოყენებით (ფუნქციის ხატი S რედაქტირების ჯგუფში მთავარ ჩანართზე), გამოთვლილი ჯამი უნდა ემთხვეოდეს ადრე გამოთვლილ ნიმუშის ზომას B7 უჯრედში.

ახლა მოდით ავაშენოთ პოლიგონი: მიღებული სიხშირის დიაპაზონის არჩევის შემდეგ, აირჩიეთ ბრძანება "გრაფიკი" "ჩასმა" ჩანართზე. სტანდარტულად, ჰორიზონტალურ ღერძზე მნიშვნელობები იქნება რიგითი რიცხვები - ჩვენს შემთხვევაში, 1-დან 6-მდე, რაც ემთხვევა ვარიანტების მნიშვნელობებს (ტარიფის კატეგორიების რაოდენობა).

დიაგრამის „სერიის 1“ სერიის სახელი შეიძლება შეიცვალოს იგივე „მონაცემების შერჩევა“ ჩანართზე „დიზაინერი“ ან უბრალოდ წაშლილი.

სურ.1.3. მაგალითი 1. სიხშირის მრავალკუთხედის აგება

მაგალითი 1.2. დამაბინძურებლების ემისიების შესახებ მონაცემები ხელმისაწვდომია 50 წყაროდან:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

შეადგინეთ თანაბარი ინტერვალის სერია, ააგეთ ჰისტოგრამა

გადაწყვეტილება

მოდით დავამატოთ მონაცემთა მასივი Excel ფურცელზე, ის დაიკავებს A1:J5 დიაპაზონს, როგორც წინა დავალებაში, ჩვენ განვსაზღვრავთ ნიმუშის ზომას n, მინიმალურ და მაქსიმალურ მნიშვნელობებს ნიმუშში. ვინაიდან ახლა ჩვენ გვჭირდება არა დისკრეტული, არამედ ინტერვალის სერია და პრობლემაში ინტერვალების რაოდენობა არ არის მითითებული, ჩვენ ვიანგარიშებთ k ინტერვალების რაოდენობას Sturgess-ის ფორმულით. ამისათვის, უჯრედში B10 შეიყვანეთ ფორმულა =1+3.322*LOG10(B7).

სურ.1.4. მაგალითი 2. ტოლი ინტერვალის სერიის აგება

მიღებული მნიშვნელობა არ არის მთელი რიცხვი, ის არის დაახლოებით 6.64. ვინაიდან k=7-ისთვის ინტერვალების სიგრძე გამოსახული იქნება მთელი რიცხვით (k=6 შემთხვევისგან განსხვავებით), ამ მნიშვნელობის C10 უჯრედში შეყვანით ვირჩევთ k=7. ჩვენ ვიანგარიშებთ d ინტერვალის სიგრძეს B11 უჯრედში ფორმულის შეყვანით = (B9-B8) / C10.

მოდით განვსაზღვროთ ინტერვალების მასივი, დავაზუსტოთ ზედა ზღვარი 7 ინტერვალიდან თითოეულისთვის. ამისათვის E8 უჯრედში გამოთვალეთ პირველი ინტერვალის ზედა ზღვარი ფორმულის შეყვანით =B8+B11; E9 უჯრედში მეორე ინტერვალის ზედა ზღვარი =E8+B11 ფორმულის შეყვანით. ინტერვალების ზედა საზღვრების დარჩენილი მნიშვნელობების გამოსათვლელად, ჩვენ ვაფიქსირებთ B11 უჯრედის რაოდენობას შეყვანილ ფორმულაში $ ნიშნის გამოყენებით, ისე რომ ფორმულა E9 უჯრედში გახდეს =E8+B$11 და დააკოპირეთ შიგთავსი. უჯრედი E9 უჯრედებამდე E10-E14. ბოლო მიღებული მნიშვნელობა უდრის B9 უჯრედში ადრე გამოთვლილ ნიმუშში არსებულ მაქსიმალურ მნიშვნელობას.

სურ.1.5. მაგალითი 2. ტოლი ინტერვალის სერიის აგება


ახლა შევავსოთ "ჯიბეების" მასივი FREQUENCY ფუნქციის გამოყენებით, როგორც ეს გაკეთდა მაგალით 1-ში.

სურ.1.6. მაგალითი 2. ტოლი ინტერვალის სერიის აგება

მიღებული ვარიაციული სერიებიდან გამომდინარე, ჩვენ ავაშენებთ ჰისტოგრამას: აირჩიეთ სიხშირის სვეტი და აირჩიეთ "ჰისტოგრამა" "ჩასმა" ჩანართზე. ჰისტოგრამის მიღების შემდეგ, ჩვენ შევცვლით მასში ჰორიზონტალური ღერძის ეტიკეტებს ინტერვალების დიაპაზონში მნიშვნელობებად, ამისათვის ვირჩევთ "დიზაინერის" ჩანართის "მონაცემების არჩევას". ფანჯარაში, რომელიც გამოჩნდება, აირჩიეთ "Change" ბრძანება "Horizontal Axis Labels" განყოფილებისთვის და შეიყვანეთ მნიშვნელობების დიაპაზონი "მაუსის" არჩევით.

სურ.1.7. მაგალითი 2. ჰისტოგრამის აგება

სურ.1.8. მაგალითი 2. ჰისტოგრამის აგება

დისკრეტული ვარიაციის სერია აგებულია დისკრეტული მახასიათებლებისთვის.

დისკრეტული ვარიაციების სერიის შესაქმნელად, თქვენ უნდა გააკეთოთ შემდეგი: 1) დავალაგოთ დაკვირვების ერთეულები შესწავლილი ატრიბუტის მნიშვნელობის ზრდის მიხედვით,

2) დაადგინეთ x i ატრიბუტის ყველა შესაძლო მნიშვნელობა, დაალაგეთ ისინი ზრდადი თანმიმდევრობით,

ნიშნის ღირებულება, მე .

მახასიათებლის მნიშვნელობის სიხშირე და აღვნიშნავთ მე . სერიის ყველა სიხშირის ჯამი უდრის შესწავლილ პოპულაციაში ელემენტების რაოდენობას.

მაგალითი 1 .

სტუდენტების მიერ გამოცდებზე მიღებული შეფასებების სია: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

აი ნომერი X - კლასიარის დისკრეტული შემთხვევითი ცვლადი და მიღებული შეფასებების სია არისსტატისტიკური (დაკვირვებული) მონაცემები .

    დაალაგეთ დაკვირვების ერთეულები მახასიათებლის შესწავლილი მნიშვნელობის ზრდის მიხედვით:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) დაადგინეთ x i ატრიბუტის ყველა შესაძლო მნიშვნელობა, დაალაგეთ ისინი ზრდადი თანმიმდევრობით:

ამ მაგალითში ყველა ქულა შეიძლება დაიყოს ოთხ ჯგუფად შემდეგი მნიშვნელობებით: 2; 3; 4; 5.

შემთხვევითი ცვლადის მნიშვნელობა, რომელიც შეესაბამება დაკვირვებული მონაცემების ცალკეულ ჯგუფს, ეწოდება ნიშნის ღირებულება, ვარიანტი (ვარიანტი) და დანიშნეთ x მე .

რიცხვს, რომელიც გვიჩვენებს, რამდენჯერ ხდება შესაბამისი მახასიათებლის მნიშვნელობა დაკვირვების სერიაში, ეწოდება მახასიათებლის მნიშვნელობის სიხშირე და აღვნიშნავთ მე .

ჩვენი მაგალითისთვის

ქულა 2 ხდება - 8 ჯერ,

ქულა 3 ხდება - 12 ჯერ,

ქულა 4 ხდება - 23 ჯერ,

ქულა 5 ხდება - 17 ჯერ.

სულ არის 60 რეიტინგი.

4) მიღებული მონაცემები ჩაწერეთ ორი მწკრივის (სვეტის) ცხრილში - x i და f i .

ამ მონაცემების საფუძველზე შესაძლებელია დისკრეტული ვარიაციული სერიის აგება

დისკრეტული ვარიაციის სერია - ეს არის ცხრილი, რომელშიც შესწავლილი ნიშან-თვისების წარმოქმნილი მნიშვნელობები მითითებულია, როგორც ცალკეული მნიშვნელობები ზრდადი თანმიმდევრობით და მათი სიხშირით.

  1. ინტერვალის ვარიაციის სერიის აგება

გარდა დისკრეტული ვარიაციული სერიებისა, ხშირად არსებობს მონაცემების დაჯგუფების ისეთი გზა, როგორიცაა ინტერვალის ვარიაციის სერია.

ინტერვალის სერია იქმნება, თუ:

    ნიშანს აქვს ცვლილების უწყვეტი ბუნება;

    არის ბევრი დისკრეტული მნიშვნელობა (10-ზე მეტი)

    დისკრეტული მნიშვნელობების სიხშირე ძალიან მცირეა (არ აღემატებოდეს 1-3-ს დაკვირვების ერთეულების შედარებით დიდი რაოდენობით);

    ფუნქციის მრავალი დისკრეტული მნიშვნელობა იგივე სიხშირით.

ინტერვალის ვარიაციის სერია არის მონაცემთა დაჯგუფების გზა ცხრილის სახით, რომელსაც აქვს ორი სვეტი (ფუნქციური მნიშვნელობები მნიშვნელობების ინტერვალის სახით და თითოეული ინტერვალის სიხშირე).

დისკრეტული სერიებისგან განსხვავებით, ინტერვალის სერიის ნიშნის მნიშვნელობები არ არის წარმოდგენილი ცალკეული მნიშვნელობებით, არამედ მნიშვნელობების ინტერვალით ("-დან --მდე").

რიცხვს, რომელიც გვიჩვენებს, რამდენი დაკვირვების ერთეული მოხვდა თითოეულ შერჩეულ ინტერვალში, ეწოდება მახასიათებლის მნიშვნელობის სიხშირე და აღვნიშნავთ მე . სერიის ყველა სიხშირის ჯამი უდრის შესწავლილ პოპულაციაში ელემენტების (დაკვირვების ერთეულების) რაოდენობას.

თუ ერთეულს აქვს მახასიათებლის მნიშვნელობა, რომელიც უდრის ინტერვალის ზედა ზღვრის მნიშვნელობას, მაშინ ის უნდა იყოს მითითებული შემდეგ ინტერვალზე.

მაგალითად, 100 სმ სიმაღლის ბავშვი ჩავარდება მე-2 ინტერვალში და არა პირველში; ხოლო 130 სმ სიმაღლის ბავშვი ბოლო ინტერვალში ჩავარდება და არა მესამეში.

ამ მონაცემების საფუძველზე შესაძლებელია ინტერვალის ვარიაციის სერიის აგება.

თითოეულ ინტერვალს აქვს ქვედა ზღვარი (x n), ზედა ზღვარი (x in) და ინტერვალის სიგანე ( მე).

ინტერვალის საზღვარი არის მახასიათებლის მნიშვნელობა, რომელიც მდებარეობს ორი ინტერვალის საზღვარზე.

ბავშვის სიმაღლე (სმ)

ბავშვის სიმაღლე (სმ)

ბავშვების რაოდენობა

130-ზე მეტი

თუ ინტერვალს აქვს ზედა და ქვედა ზღვარი, მაშინ მას უწოდებენ დახურული ინტერვალი. თუ ინტერვალს აქვს მხოლოდ ქვედა ან მხოლოდ ზედა ზღვარი, მაშინ ეს არის - ღია ინტერვალი.მხოლოდ პირველი ან ბოლო ინტერვალი შეიძლება იყოს გახსნილი. ზემოთ მოყვანილ მაგალითში ბოლო ინტერვალი ღიაა.

ინტერვალის სიგანე (მე) არის განსხვავება ზედა და ქვედა საზღვრებს შორის.

მე = x n - x ინ

ღია ინტერვალის სიგანე ითვლება იგივე, რაც მიმდებარე დახურული ინტერვალის სიგანე.

ბავშვის სიმაღლე (სმ)

ბავშვების რაოდენობა

ინტერვალის სიგანე (i)

გამოთვლებისთვის 130+20=150

20 (რადგან მიმდებარე დახურული ინტერვალის სიგანე არის 20)

ყველა ინტერვალის სერია იყოფა ინტერვალურ სერიებად თანაბარი ინტერვალებით და ინტერვალური სერიებად არათანაბარი ინტერვალებით. . თანაბარი ინტერვალებით ინტერვალის რიგებში, ყველა ინტერვალის სიგანე ერთნაირია. არათანაბარი ინტერვალებით ინტერვალის სერიებში, ინტერვალების სიგანე განსხვავებულია.

ამ მაგალითში, ინტერვალის სერია არათანაბარი ინტერვალებით.

უმაღლესი პროფესიული განათლება

„რუსეთის სახალხო ეკონომიკის აკადემია და

პრეზიდენტის დაქვემდებარებული საჯარო სამსახური

ᲠᲣᲡᲔᲗᲘᲡ ᲤᲔᲓᲔᲠᲐᲪᲘᲐ"

(კალუგას ფილიალი)

საბუნებისმეტყველო და მათემატიკური დისციპლინების კათედრა

ტესტი

საგანი "სტატისტიკა"

სტუდენტი ___ მაიბოროდა გალინა იურიევნა ______

კორესპონდენციის დეპარტამენტი ფაკულტეტი სახელმწიფო და მუნიციპალური მართვის ჯგუფი G-12-V

ლექტორი ___________________ Hamer G.V.

დოქტორი, ასოცირებული პროფესორი

კალუგა-2013 წ

დავალება 1.

ამოცანა 1.1. 4

ამოცანა 1.2. თექვსმეტი

ამოცანა 1.3. 24

ამოცანა 1.4. 33

დავალება 2.

ამოცანა 2.1. 43

ამოცანა 2.2. 48

ამოცანა 2.3. 53

ამოცანა 2.4. 58

დავალება 3.

ამოცანა 3.1. 63

ამოცანა 3.2. 68

ამოცანა 3.3. 73

ამოცანა 3.4. 79

დავალება 4.

პრობლემა 4.1. 85

ამოცანა 4.2. 88

ამოცანა 4.3. 90

ამოცანა 4.4. 93

გამოყენებული წყაროების სია. 96

დავალება 1.

ამოცანა 1.1.

რეგიონის საწარმოების მიერ გამომუშავებისა და მოგების ოდენობის შესახებ მოცემულია შემდეგი მონაცემები (ცხრილი 1).

ცხრილი 1

საწარმოების მიერ წარმოების პროდუქციისა და მოგების ოდენობის მონაცემები

კომპანიის ნომერი გამომავალი, მილიონი რუბლი მოგება, მილიონი რუბლი კომპანიის ნომერი გამომავალი, მილიონი რუბლი მოგება, მილიონი რუბლი
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

თავდაპირველი მონაცემებით:

1. შექმენით საწარმოთა განაწილების სტატისტიკური სერია გამომუშავების მიხედვით, თანაბარი ინტერვალებით ხუთი ჯგუფის ჩამოყალიბებით.

განაწილების სერიის გრაფიკების აგება: მრავალკუთხედი, ჰისტოგრამა, კუმულაცია. გრაფიკულად განსაზღვრეთ რეჟიმის მნიშვნელობა და მედიანა.

2. გამოთვალეთ საწარმოთა განაწილების სერიის მახასიათებლები გამომუშავების მიხედვით: საშუალო არითმეტიკული, დისპერსია, სტანდარტული გადახრა, ცვალებადობის კოეფიციენტი.

გააკეთე დასკვნა.

3. ანალიტიკური დაჯგუფების მეთოდის გამოყენებით დაადგინეთ წარმოებული პროდუქციის ღირებულებასა და ერთ საწარმოს მოგების ოდენობას შორის კორელაციის არსებობა და ბუნება.

4. ემპირიული კორელაციით გაზომეთ კორელაციის სიმჭიდროვე წარმოების ღირებულებასა და მოგების ოდენობას შორის.

ზოგადი დასკვნების გამოტანა.

გადაწყვეტილება:

მოდით ავაშენოთ განაწილების სტატისტიკური სერია

ინტერვალის ვარიაციის სერიის ასაგებად, რომელიც ახასიათებს საწარმოების განაწილებას გამომუშავების თვალსაზრისით, აუცილებელია გამოვთვალოთ სერიის ინტერვალების მნიშვნელობა და საზღვრები.

თანაბარი ინტერვალებით სერიის აგებისას, ინტერვალის მნიშვნელობა განისაზღვრება ფორმულით:

x მაქსდა x წთ- საწარმოების შესწავლილ კომპლექტში ატრიბუტის უდიდესი და უმცირესი მნიშვნელობები;

- ინტერვალის სერიების ჯგუფების რაოდენობა.

ჯგუფების რაოდენობა დავალებაში მითითებული. = 5.

x მაქს= 81 მილიონი რუბლი, x წთ= 21 მილიონი რუბლი

ინტერვალის მნიშვნელობის გაანგარიშება:

მილიონი რუბლი

h = 12 მილიონი რუბლის ღირებულების თანმიმდევრული დამატებით. ინტერვალის ქვედა საზღვრამდე ვიღებთ შემდეგ ჯგუფებს:

1 ჯგუფი: 21 - 33 მილიონი რუბლი.

2 ჯგუფი: 33 - 45 მილიონი რუბლი;

ჯგუფი 3: 45 - 57 მილიონი რუბლი.

ჯგუფი 4: 57 - 69 მილიონი რუბლი.

ჯგუფი 5: 69 - 81 მილიონი რუბლი.

ინტერვალის სერიის ასაგებად, აუცილებელია გამოვთვალოთ თითოეულ ჯგუფში შემავალი საწარმოების რაოდენობა ( ჯგუფური სიხშირეები).

საწარმოთა დაჯგუფების პროცესი გამომავალი მოცულობის მიხედვით წარმოდგენილია დამხმარე ცხრილში 2. ამ ცხრილის მე-4 სვეტი აუცილებელია ანალიტიკური დაჯგუფების ასაგებად (დავალების მე-3 პუნქტი).

ცხრილი 2

ცხრილი ინტერვალური განაწილების სერიის ასაგებად და

ანალიტიკური დაჯგუფება

საწარმოთა ჯგუფები გამომუშავების მიხედვით, მილიონი რუბლი კომპანიის ნომერი გამომავალი, მილიონი რუბლი მოგება, მილიონი რუბლი
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
სულ 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
სულ 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
სულ 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
სულ 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
სულ 229,0 26,9
სულ 183,1

ცხრილის "სულ" 3 ჯგუფური შემაჯამებელი სტრიქონების საფუძველზე ყალიბდება საბოლოო ცხრილი 3, რომელიც წარმოადგენს საწარმოთა განაწილების ინტერვალურ სერიას გამომუშავების მიხედვით.

ცხრილი 3

საწარმოთა რიგი განაწილება გამოშვების მოცულობით

დასკვნა.აგებული დაჯგუფება გვიჩვენებს, რომ საწარმოების განაწილება პროდუქციის თვალსაზრისით არაერთგვაროვანია. ყველაზე გავრცელებული საწარმოები, რომელთა წარმოების მოცულობა 45-დან 57 მილიონ რუბლამდეა. (12 საწარმო). ყველაზე ნაკლებად გავრცელებულია საწარმოები, რომელთა გამომუშავება 69-დან 81 მილიონ რუბლამდეა. (3 საწარმო).

მოდით ავაშენოთ განაწილების სერიის გრაფიკები.

მრავალკუთხედი ხშირად გამოიყენება დისკრეტული სერიების წარმოსაჩენად. მართკუთხა კოორდინატულ სისტემაში მრავალკუთხედის ასაგებად, არგუმენტის მნიშვნელობები გამოსახულია აბსცისის ღერძზე, ანუ ვარიანტებზე (ინტერვალის ვარიაციული სერიებისთვის, ინტერვალის შუა არგუმენტად აღებულია) და ორდინატთა ღერძზე - სიხშირე. ღირებულებები. გარდა ამისა, ამ კოორდინატთა სისტემაში შენდება წერტილები, რომელთა კოორდინატები არის შესაბამისი რიცხვების წყვილი ვარიაციის სერიიდან. შედეგად მიღებული წერტილები სერიულად არის დაკავშირებული სწორი ხაზის სეგმენტებით. მრავალკუთხედი ნაჩვენებია სურათზე 1.

ზოლიანი დიაგრამა - სვეტოვანი დიაგრამა. ეს საშუალებას გაძლევთ შეაფასოთ განაწილების სიმეტრია. ჰისტოგრამა ნაჩვენებია სურათზე 2.

სურათი 1 - საწარმოთა მრავალკუთხედის განაწილება მოცულობის მიხედვით

გამომავალი

მოდა

სურათი 2 - საწარმოთა მოცულობის მიხედვით განაწილების ჰისტოგრამა

გამომავალი

მოდა- თვისების მნიშვნელობა, რომელიც ყველაზე ხშირად გვხვდება საკვლევ პოპულაციაში.

ინტერვალის სერიებისთვის, რეჟიმი შეიძლება გრაფიკულად განისაზღვროს ჰისტოგრამიდან (სურათი 2). ამისათვის არჩეულია უმაღლესი მართკუთხედი, რომელიც ამ შემთხვევაში მოდალურია (45–57 მილიონი რუბლი). შემდეგ მოდალური მართკუთხედის მარჯვენა წვერო უკავშირდება წინა მართკუთხედის ზედა მარჯვენა კუთხეს. ხოლო მოდალური მართკუთხედის მარცხენა წვერო არის მომდევნო მართკუთხედის ზედა მარცხენა კუთხესთან. გარდა ამისა, მათი გადაკვეთის წერტილიდან, პერპენდიკულარი იშლება აბსცისის ღერძზე. ამ ხაზების გადაკვეთის წერტილის აბსციზა იქნება განაწილების რეჟიმი.

მილიონი რუბლს შეადგენს.

დასკვნა.საწარმოთა განხილულ კომპლექტში ყველაზე გავრცელებულია საწარმოები 52 მილიონი რუბლის გამომუშავებით.

კუმულაცია - გატეხილი მრუდი. იგი აგებულია დაგროვილ სიხშირეებზე (გამოითვლება მე-4 ცხრილში). კუმულაცია იწყება პირველი ინტერვალის ქვედა საზღვრიდან (21 მილიონი რუბლი), დაგროვილი სიხშირე იდება ინტერვალის ზედა საზღვარზე. კუმულატი ნაჩვენებია სურათზე 3.

მედიანური

დიაგრამა 3 - საწარმოთა კუმულაციური განაწილება მოცულობის მიხედვით

გამომავალი

მედიანური მეარის მახასიათებლის მნიშვნელობა, რომელიც ხვდება რანჟირებული სერიის შუაში. მედიანის ორივე მხარეს არის ერთნაირი რაოდენობის მოსახლეობის ერთეული.

ინტერვალის სერიაში მედიანა გრაფიკულად შეიძლება განისაზღვროს კუმულაციური მრუდით. მედიანას კუმულაციური სიხშირის შკალის წერტილიდან 50%-ის შესაბამისი (30:2 = 15) დასადგენად, აბსცისის ღერძის პარალელურად იხაზება სწორი ხაზი, სანამ არ გადაიკვეთება კუმულატთან. შემდეგ, მითითებული სწორი ხაზის კუმულატთან გადაკვეთის ადგილიდან, პერპენდიკულარი ქვეითდება აბსცისის ღერძზე. გადაკვეთის წერტილის აბსციზა არის მედიანა.

მილიონი რუბლს შეადგენს.

დასკვნა.საწარმოთა განხილულ კომპლექტში, საწარმოთა ნახევარს აქვს წარმოების მოცულობა არაუმეტეს 52 მილიონი რუბლისა, ხოლო მეორე ნახევარს - არანაკლებ 52 მილიონი რუბლისა.


მსგავსი ინფორმაცია.


დიდი მოცულობის ინფორმაციის დამუშავებისას, რაც განსაკუთრებით მნიშვნელოვანია თანამედროვე მეცნიერული განვითარების დროს, მკვლევარის წინაშე დგას საწყისი მონაცემების სწორად დაჯგუფების სერიოზული ამოცანა. თუ მონაცემები დისკრეტულია, მაშინ, როგორც ვნახეთ, არანაირი პრობლემა არ არის - თქვენ უბრალოდ უნდა გამოთვალოთ თითოეული მახასიათებლის სიხშირე. თუ შესასწავლ თვისებას აქვს უწყვეტიხასიათი (რაც პრაქტიკაში უფრო ხშირია), მაშინ ფუნქციის დაჯგუფებისთვის ინტერვალების ოპტიმალური რაოდენობის არჩევა სულაც არ არის ტრივიალური ამოცანა.

უწყვეტი შემთხვევითი ცვლადების დასაჯგუფებლად, ფუნქციის ვარიაციის მთელი დიაპაზონი იყოფა გარკვეული რაოდენობის ინტერვალებად. რომ.

დაჯგუფებული ინტერვალი (უწყვეტი) ვარიაციული სერიაე.წ.

დამახასიათებელი მნიშვნელობის ინტერვალები

mi სიხშირე

ზოლიანი დიაგრამადა კუმულაცია (ოგივა),ჩვენ მიერ უკვე დეტალურად განხილული, არის მონაცემთა ვიზუალიზაციის შესანიშნავი ინსტრუმენტი, რომელიც საშუალებას გაძლევთ მიიღოთ პირველადი გაგება მონაცემთა სტრუქტურის შესახებ. ასეთი გრაფიკები (ნახ. 1.15) აგებულია უწყვეტი მონაცემებისთვის ისევე, როგორც დისკრეტული მონაცემებისთვის, მხოლოდ იმის გათვალისწინებით, რომ უწყვეტი მონაცემები მთლიანად ავსებს მისი შესაძლო მნიშვნელობების არეალს, ნებისმიერი მნიშვნელობის გათვალისწინებით.

ბრინჯი. 1.15.

Ისე სვეტები ჰისტოგრამაზე და კუმულატზე უნდა იყოს კონტაქტში, არ ჰქონდეს არეები, სადაც ატრიბუტების მნიშვნელობები არ მოხვდება ყველა შესაძლო ფარგლებში.(ანუ ჰისტოგრამასა და კუმულატს არ უნდა ჰქონდეს „ხვრელები“ ​​აბსცისის ღერძის გასწვრივ, რომლებშიც შესწავლილი ცვლადის მნიშვნელობები არ დაეცემა, როგორც ნახ. 1.16). ზოლის სიმაღლე შეესაბამება სიხშირეს - დაკვირვებების რაოდენობას, რომლებიც ხვდება მოცემულ ინტერვალში, ან ფარდობითი სიხშირე - დაკვირვებების პროპორციას. ინტერვალები არ უნდა გადაკვეთოსდა, როგორც წესი, იგივე სიგანეა.

ბრინჯი. 1.16.

ჰისტოგრამა და პოლიგონი არის ალბათობის სიმკვრივის მრუდის მიახლოებები (დიფერენციალური ფუნქცია) f(x)თეორიული განაწილება, განხილული ალბათობის თეორიის კურსში. მაშასადამე, მათ კონსტრუქციას ისეთი მნიშვნელობა აქვს რაოდენობრივი უწყვეტი მონაცემების პირველად სტატისტიკურ დამუშავებაში - მათი ფორმის მიხედვით შეიძლება ვიმსჯელოთ ჰიპოთეტური განაწილების კანონის შესახებ.

კუმულაცია - ინტერვალის ვარიაციის სერიის დაგროვილი სიხშირეების (სიხშირეების) მრუდი. ინტეგრალური განაწილების ფუნქციის გრაფიკი შედარებულია კუმულატთან F(x), ასევე განიხილება ალბათობის თეორიის კურსში.

ძირითადად, ჰისტოგრამის და კუმულაციის ცნებები დაკავშირებულია ზუსტად უწყვეტ მონაცემებთან და მათი ინტერვალის ცვალებადობის სერიებთან, რადგან მათი გრაფიკები არის ალბათობის სიმკვრივის ფუნქციისა და განაწილების ფუნქციის ემპირიული შეფასება.

ინტერვალის ვარიაციის სერიის აგება იწყება ინტერვალების რაოდენობის განსაზღვრით კ.და ეს ამოცანა ალბათ ყველაზე რთული, მნიშვნელოვანი და საკამათოა შესწავლილ საკითხში.

ინტერვალების რაოდენობა არ უნდა იყოს ძალიან მცირე, რადგან ჰისტოგრამა ძალიან გლუვი იქნება ( ზედმეტად გათლილი),კარგავს საწყისი მონაცემების ცვალებადობის ყველა მახასიათებელს - ნახ. 1.17 ხედავთ, თუ როგორ არის იგივე მონაცემები, რომლებზეც მოცემულია ნახ. 1.15 გამოიყენება ჰისტოგრამის ასაგებად მცირე რაოდენობის ინტერვალებით (მარცხენა გრაფიკი).

ამავდროულად, ინტერვალების რაოდენობა არ უნდა იყოს ძალიან დიდი - წინააღმდეგ შემთხვევაში ჩვენ ვერ შევძლებთ გამოვთვალოთ შესწავლილი მონაცემების განაწილების სიმკვრივე რიცხვითი ღერძის გასწვრივ: ჰისტოგრამა აღმოჩნდება არასრულფასოვანი. (დასმით)შეუვსებელი ინტერვალებით, არათანაბარი (იხ. სურ. 1.17, მარჯვენა გრაფიკი).

ბრინჯი. 1.17.

როგორ განვსაზღვროთ ინტერვალების ყველაზე სასურველი რაოდენობა?

ჯერ კიდევ 1926 წელს ჰერბერტ სტურგესმა შემოგვთავაზა ფორმულა იმ ინტერვალების რაოდენობის გამოსათვლელად, რომლებშიც აუცილებელია შესწავლილი ატრიბუტის მნიშვნელობების საწყისი ნაკრების დაყოფა. ეს ფორმულა მართლაც გახდა სუპერ პოპულარული - სტატისტიკური სახელმძღვანელოების უმეტესობა გვთავაზობს მას და ბევრი სტატისტიკური პაკეტი იყენებს მას ნაგულისხმევად. არის თუ არა ეს გამართლებული და ყველა შემთხვევაში ძალიან სერიოზული კითხვაა.

მაშ რას ეფუძნება Sturges ფორმულა?

განვიხილოთ ბინომალური განაწილება)