Seriale discrete online. Construirea unei serii de variații de interval pentru date cantitative continue

Lucrări de laborator №1. Prelucrarea primară a datelor statistice

Construcția seriei de distribuție

Distribuția ordonată a unităților de populație în grupuri în funcție de orice atribut este numită aproape de distribuție . În acest caz, semnul poate fi atât cantitativ, apoi se numește seria variațională , și calitativ, atunci seria se numește atributiv . Deci, de exemplu, populația unui oraș poate fi distribuită în funcție de grupele de vârstă într-o serie de variații, sau în funcție de apartenența profesională într-o serie de atribute (desigur, pentru construirea seriei de distribuție pot fi propuse multe mai multe caracteristici calitative și cantitative, alegerea caracteristicii este determinată de sarcina cercetării statistice).

Orice serie de distribuție este caracterizată de două elemente:

- opțiune(x i) - acestea sunt valori individuale ale atributului de unități ale populației eșantionului. Pentru o serie variațională, varianta ia valori numerice, pentru o serie atributivă - calitative (de exemplu, x = „funcționar”);

- frecvență(n i) este un număr care arată de câte ori apare această sau acea valoare a caracteristicii. Dacă frecvența este exprimată ca număr relativ (adică proporția elementelor populației corespunzătoare unei valori date a opțiunilor în volumul total al populației), atunci se numește frecventa relativa sau frecvență.

Serii de variații pot fi:

- discret când trăsătura studiată este caracterizată printr-un anumit număr (de obicei un număr întreg).

- interval când limitele „de la” și „până la” sunt definite pentru o caracteristică continuu variabilă. O serie de intervale este, de asemenea, construită dacă setul de valori ale unei caracteristici discret variabile este mare.

O serie de intervale poate fi construită atât cu intervale de lungime egală (serie de intervale egale), cât și cu intervale inegale, dacă acest lucru este dictat de condițiile studiului statistic. De exemplu, se poate lua în considerare o serie de distribuție a veniturilor populației cu următoarele intervale:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



unde k este numărul de intervale, n este dimensiunea eșantionului. (Desigur, formula dă de obicei un număr fracționar, iar cel mai apropiat număr întreg de numărul rezultat este ales ca număr de intervale.) Lungimea intervalului în acest caz este determinată de formula

.

Grafic, seriile variaționale pot fi reprezentate ca histogramelor(o „coloană” de înălțime corespunzătoare frecvenței din acest interval este construită deasupra fiecărui interval din seria de intervale), zona de distributie(puncte de legătură între linii întrerupte ( x i;n i) sau se cumulează(construit în funcție de frecvențele acumulate, adică pentru fiecare valoare a atributului se ia frecvența de apariție în mulțimea de obiecte cu o valoare a atributului mai mică decât cea dată).

Când lucrați în Excel, următoarele funcții pot fi utilizate pentru a construi serii variaționale:

VERIFICA( matrice de date) – pentru a determina dimensiunea eșantionului. Argumentul este intervalul de celule care conține datele eșantionului.

COUNTIF( gamă; criteriu) - poate fi folosit pentru a construi un atribut sau o serie de variații. Argumentele sunt intervalul matricei de valori ale eșantionului atributului și criteriul - valoarea numerică sau text a atributului sau numărul celulei în care se află. Rezultatul este frecvența de apariție a acelei valori în eșantion.

FRECVENȚĂ( matrice de date; matrice de intervale) – pentru a construi o serie variațională. Argumentele sunt intervalul matricei de date eșantion și coloana de intervale. Dacă este necesară construirea unei serii discrete, atunci valorile opțiunilor sunt indicate aici, dacă este o serie de intervale, atunci limitele superioare ale intervalelor (se mai numesc și „buzunare”). Deoarece rezultatul este o coloană de frecvențe, introducerea funcției trebuie finalizată prin apăsarea combinației de taste CTRL+SHIFT+ENTER. Rețineți că atunci când setați o serie de intervale la introducerea unei funcții, ultima valoare din aceasta poate fi omisă - toate valorile care nu au căzut în „buzunarele” anterioare vor fi plasate în „buzunarul” corespunzător. Acest lucru ajută uneori la evitarea erorii că cea mai mare valoare a eșantionului nu este plasată automat în ultimul „buzunar”.

În plus, pentru grupările complexe (după mai multe criterii), se folosește instrumentul „tabele pivot”. Ele pot fi folosite și pentru a construi serii de atribute și variații, dar acest lucru complică inutil sarcina. De asemenea, pentru a construi o serie de variații și o histogramă, există o procedură de „histogramă” din add-in-ul „Analysis Package” (pentru a folosi add-in-uri în Excel, trebuie mai întâi să le descărcați, nu sunt instalate implicit)

Ilustram procesul de prelucrare a datelor primare cu următoarele exemple.

Exemplul 1.1. există date despre componenţa cantitativă a 60 de familii.

Construiți o serie de variații și un poligon de distribuție

Soluţie.

Să deschidem foile de calcul Excel. Să introducem o serie de date în intervalul A1:L5. Dacă studiați un document în formă electronică (în format Word, de exemplu), tot ce trebuie să faceți este să selectați un tabel cu date și să îl copiați în clipboard, apoi să selectați celula A1 și să lipiți datele - acestea vor ocupa automat interval adecvat. Să calculăm dimensiunea eșantionului n - numărul de date eșantion, pentru aceasta, în celula B7, introduceți formula = COUNT (A1: L5). Rețineți că pentru a introduce intervalul dorit în formulă, nu este necesar să introduceți denumirea acestuia de la tastatură, este suficient să îl selectați. Să determinăm valorile minime și maxime din probă introducând formula =MIN(A1:L5) în celula B8 și în celula B9: =MAX(A1:L5).

Fig.1.1 Exemplul 1. Prelucrarea primară a datelor statistice în tabelele Excel

În continuare, să pregătim un tabel pentru construirea unei serii de variații introducând nume pentru coloana interval (valori variante) și coloana frecvență. În coloana de intervale, introduceți valorile atributului de la minim (1) la maxim (6), ocupând intervalul B12:B17. Selectați coloana de frecvență, introduceți formula =FREQUENCY(A1:L5;B12:B17) și apăsați combinația de taste CTRL+SHIFT+ENTER

Fig.1.2 Exemplul 1. Construcția unei serii de variații

Pentru control, calculăm suma frecvențelor folosind funcția SUM (pictograma funcției S în grupul Editare din fila Acasă), suma calculată trebuie să se potrivească cu dimensiunea eșantionului calculată anterior în celula B7.

Acum să construim un poligon: după ce ați selectat intervalul de frecvență rezultat, selectați comanda „Graph” din fila „Inserare”. În mod implicit, valorile pe axa orizontală vor fi numere ordinale - în cazul nostru, de la 1 la 6, care coincide cu valorile opțiunilor (numerele categoriilor tarifare).

Numele seriei diagramei „seria 1” poate fi fie schimbat folosind aceeași opțiune „selectați date” din fila „Designer”, fie pur și simplu șters.

Fig.1.3. Exemplul 1. Construirea unui poligon de frecvență

Exemplul 1.2. Sunt disponibile date despre emisiile de poluanți din 50 de surse:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Compilați o serie de intervale egale, construiți o histogramă

Soluţie

Să adăugăm o matrice de date pe o foaie Excel, aceasta va ocupa intervalul A1:J5 Ca și în sarcina anterioară, vom determina dimensiunea eșantionului n, valorile minime și maxime din eșantion. Deoarece acum nu avem nevoie de o serie discretă, ci de o serie de intervale, iar numărul de intervale din problemă nu este specificat, calculăm numărul de intervale k folosind formula Sturgess. Pentru a face acest lucru, în celula B10, introduceți formula =1+3.322*LOG10(B7).

Fig.1.4. Exemplul 2. Construcția unei serii de intervale egale

Valoarea rezultată nu este un număr întreg, este de aproximativ 6,64. Întrucât pentru k=7 lungimea intervalelor va fi exprimată ca număr întreg (spre deosebire de cazul lui k=6), vom alege k=7 introducând această valoare în celula C10. Calculăm lungimea intervalului d în celula B11 introducând formula = (B9-B8) / C10.

Să definim o matrice de intervale, specificând limita superioară pentru fiecare dintre cele 7 intervale. Pentru a face acest lucru, în celula E8, calculați limita superioară a primului interval introducând formula =B8+B11; în celula E9 limita superioară a celui de-al doilea interval prin introducerea formulei =E8+B11. Pentru a calcula valorile rămase ale limitelor superioare ale intervalelor, fixăm numărul celulei B11 în formula introdusă folosind semnul $, astfel încât formula din celula E9 să devină =E8+B$11 și copiem conținutul lui celula E9 la celulele E10-E14. Ultima valoare obținută este egală cu valoarea maximă din proba calculată mai devreme în celula B9.

Fig.1.5. Exemplul 2. Construcția unei serii de intervale egale


Acum să umplem matricea de „buzunare” folosind funcția FREQUENCY, așa cum sa făcut în exemplul 1.

Fig.1.6. Exemplul 2. Construcția unei serii de intervale egale

Pe baza seriei variaționale rezultate, vom construi o histogramă: selectați coloana de frecvență și selectați „Histogramă” în fila „Inserare”. După ce a primit histograma, vom schimba etichetele axei orizontale din ea cu valori în intervalul de intervale, pentru aceasta selectăm opțiunea „Selectați datele” din fila „Designer”. În fereastra care apare, selectați comanda „Schimbare” pentru secțiunea „Etichete axei orizontale” și introduceți intervalul de variante de valori selectând-o cu „mouse-ul”.

Fig.1.7. Exemplul 2. Construirea unei histograme

Fig.1.8. Exemplul 2. Construirea unei histograme

O serie variațională discretă este construită pentru caracteristici discrete.

Pentru a construi o serie de variații discrete, trebuie să faceți următoarele: 1) ordonați unitățile de observație în ordine crescătoare a valorii atributului studiat,

2) determinați toate valorile posibile ale atributului x i, sortați-le în ordine crescătoare,

valoarea semnului, i .

frecvența valorii caracteristicii si denota f i . Suma tuturor frecvențelor seriei este egală cu numărul de elemente din populația studiată.

Exemplul 1 .

Lista notelor obţinute de studenţi la examene: 3; patru; 3; 5; patru; 2; 2; patru; patru; 3; 5; 2; patru; 5; patru; 3; patru; 3; 3; patru; patru; 2; 2; 5; 5; patru; 5; 2; 3; patru; patru; 3; patru; 5; 2; 5; 5; patru; 3; 3; patru; 2; patru; patru; 5; patru; 3; 5; 3; 5; patru; patru; 5; patru; patru; 5; patru; 5; 5; 5.

Iată numărul X - notaeste o variabilă aleatoare discretă, iar lista de estimări rezultată estedate statistice (observate). .

    ordonează unitățile de observație în ordinea crescătoare a valorii studiate a caracteristicii:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) determinați toate valorile posibile ale atributului x i, sortați-le în ordine crescătoare:

În acest exemplu, toate scorurile pot fi împărțite în patru grupe cu următoarele valori: 2; 3; patru; 5.

Se numește valoarea unei variabile aleatoare corespunzătoare unui grup separat de date observate valoarea semnului, varianta (opțiune) și desemnați x i .

Se numește numărul care arată de câte ori apare valoarea caracteristică corespunzătoare într-o serie de observații frecvența valorii caracteristicii si denota f i .

Pentru exemplul nostru

apare scorul 2 - de 8 ori,

apare scorul 3 - de 12 ori,

apare scorul 4 - de 23 de ori,

apare scorul 5 - de 17 ori.

Există 60 de evaluări în total.

4) scrieți datele primite într-un tabel de două rânduri (coloane) - x i și f i .

Pe baza acestor date, este posibil să se construiască o serie variațională discretă

Serii de variații discrete - acesta este un tabel în care valorile apărute ale trăsăturii studiate sunt indicate ca valori separate în ordine crescătoare și frecvențele acestora

  1. Construirea unei serii de variații de interval

În plus față de o serie variațională discretă, există adesea o astfel de modalitate de grupare a datelor ca o serie variațională de interval.

O serie de intervale este construită dacă:

    semnul are o natură continuă de schimbare;

    există o mulțime de valori discrete (mai mult de 10)

    frecvențele valorilor discrete sunt foarte mici (nu depășesc 1-3 cu un număr relativ mare de unități de observație);

    multe valori discrete ale unei caracteristici cu aceleași frecvențe.

O serie de variații de interval este o modalitate de grupare a datelor sub forma unui tabel care are două coloane (valori caracteristice sub forma unui interval de valori și frecvența fiecărui interval).

Spre deosebire de o serie discretă, valorile caracteristicii unei serii de interval nu sunt reprezentate de valori individuale, ci de un interval de valori ("de la - la").

Se numește numărul care arată câte unități de observație au căzut în fiecare interval selectat frecvența valorii caracteristicii si denota f i . Suma tuturor frecvențelor seriei este egală cu numărul de elemente (unități de observație) din populația studiată.

Dacă o unitate are o valoare caracteristică egală cu valoarea limitei superioare a intervalului, atunci ar trebui să fie referită la următorul interval.

De exemplu, un copil cu o înălțime de 100 cm va cădea în al 2-lea interval, și nu în primul; iar un copil cu o înălțime de 130 cm va cădea în ultimul interval, și nu în al treilea.

Pe baza acestor date, este posibil să se construiască o serie de variații de interval.

Fiecare interval are o limită inferioară (x n), o limită superioară (x in) și o lățime a intervalului ( i).

O limită de interval este o valoare caracteristică care se află la granița a două intervale.

inaltimea copiilor (cm)

inaltimea copiilor (cm)

cantitatea de copii

peste 130

Dacă un interval are o limită superioară și inferioară, atunci se numește interval închis. Dacă intervalul are doar o limită inferioară sau numai superioară, atunci aceasta este - interval deschis. Numai primul sau ultimul interval poate fi deschis. În exemplul de mai sus, ultimul interval este deschis.

Lățimea intervalului (i) este diferența dintre limitele superioare și inferioare.

i = x n - x in

Se presupune că lățimea unui interval deschis este aceeași cu lățimea unui interval închis adiacent.

inaltimea copiilor (cm)

cantitatea de copii

Lățimea intervalului (i)

pentru calcule 130+20=150

20 (deoarece lățimea intervalului închis adiacent este de 20)

Toate seriile de intervale sunt împărțite în serii de intervale cu intervale egale și serii de intervale cu intervale inegale. . În rândurile de intervale cu intervale egale, lățimea tuturor intervalelor este aceeași. În serii de intervale cu intervale inegale, lățimea intervalelor este diferită.

În acest exemplu, o serie de intervale cu intervale inegale.

Studii profesionale superioare

„ACADEMIA RUSĂ DE ECONOMIA POPORULUI ȘI

FUNCȚIA PUBLICĂ SUB PREȘEDINTE

FEDERAȚIA RUSĂ"

(filiala Kaluga)

Departamentul de Științe ale Naturii și Discipline Matematice

TEST

Subiectul „Statistici”

Student ___ Mayboroda Galina Yurievna ______

Departamentul de corespondență facultate Grupul de management de stat și municipal G-12-V

Lector ____________________ Hamer G.V.

dr., conferențiar

Kaluga-2013

Sarcina 1.

Sarcina 1.1. patru

Sarcina 1.2. 16

Sarcina 1.3. 24

Sarcina 1.4. 33

Sarcina 2.

Sarcina 2.1. 43

Sarcina 2.2. 48

Sarcina 2.3. 53

Sarcina 2.4. 58

Sarcina 3.

Sarcina 3.1. 63

Sarcina 3.2. 68

Sarcina 3.3. 73

Sarcina 3.4. 79

Sarcina 4.

Problema 4.1. 85

Sarcina 4.2. 88

Sarcina 4.3. 90

Sarcina 4.4. 93

Lista surselor folosite. 96

Sarcina 1.

Sarcina 1.1.

Există următoarele date privind producția și valoarea profitului întreprinderilor din regiune (tabelul 1).

tabelul 1

Date despre producția și valoarea profitului de către întreprinderi

numarul companiei Ieșire, milioane de ruble Profit, milioane de ruble numarul companiei Ieșire, milioane de ruble Profit, milioane de ruble
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

Conform datelor originale:

1. Construiți o serie statistică de distribuție a întreprinderilor după producție, formând cinci grupuri la intervale egale.

Construiți grafice de serie de distribuție: poligon, histogramă, cumulat. Determinați grafic valoarea modului și a mediei.

2. Calculați caracteristicile unei serii de distribuție a întreprinderilor după producție: medie aritmetică, dispersie, abatere standard, coeficient de variație.

Faceți o concluzie.

3. Utilizând metoda grupării analitice, stabiliți prezența și natura corelației dintre costul produselor fabricate și valoarea profitului pe întreprindere.

4. Măsurați strânsoarea corelației dintre costul de producție și valoarea profitului prin corelația empirică.

Trageți concluzii generale.

Soluţie:

Să construim o serie statistică de distribuție

Pentru a construi o serie de variații de interval care caracterizează distribuția întreprinderilor în ceea ce privește producția, este necesar să se calculeze valoarea și limitele intervalelor seriei.

La construirea unei serii cu intervale egale, valoarea intervalului h este determinată de formula:

x maxși x min- cele mai mari și cele mai mici valori ale atributului din setul de întreprinderi studiat;

k- numărul de grupuri de serii de intervale.

Numărul de grupuri k specificate în sarcină. k= 5.

x max= 81 de milioane de ruble, x min= 21 de milioane de ruble

Calculul valorii intervalului:

milioane de ruble

Prin adăugarea succesivă a valorii intervalului h = 12 milioane de ruble. la limita inferioară a intervalului, obținem următoarele grupuri:

1 grup: 21 - 33 milioane de ruble.

2 grup: 33 - 45 milioane de ruble;

Grupa 3: 45 - 57 milioane de ruble.

Grupa 4: 57 - 69 milioane de ruble.

Grupa 5: 69 - 81 milioane de ruble.

Pentru a construi o serie de intervale, este necesar să se calculeze numărul de întreprinderi incluse în fiecare grup ( frecvențe de grup).

Procesul de grupare a întreprinderilor după volumul de producție este prezentat în tabelul auxiliar 2. Coloana 4 a acestui tabel este necesară pentru a construi o grupare analitică (paragraful 3 al sarcinii).

masa 2

Tabel pentru construirea unei serii de distribuție a intervalelor și

grupare analitică

Grupuri de întreprinderi după producție, milioane de ruble numarul companiei Ieșire, milioane de ruble Profit, milioane de ruble
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
Total 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
Total 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
Total 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
Total 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
Total 229,0 26,9
Total 183,1

Pe baza rândurilor rezumative de grup ale tabelului „Total” 3, se formează tabelul final 3, reprezentând seria de intervale de distribuție a întreprinderilor pe producție.

Tabelul 3

O serie de distribuție a întreprinderilor după volumul producției

Concluzie. Gruparea construită arată că distribuția întreprinderilor în ceea ce privește producția nu este uniformă. Cele mai comune întreprinderi cu un volum de producție de 45 până la 57 de milioane de ruble. (12 întreprinderi). Cele mai puțin comune sunt întreprinderile cu producție de la 69 la 81 de milioane de ruble. (3 întreprinderi).

Să construim grafice ale seriei de distribuție.

Poligon adesea folosit pentru a reprezenta serii discrete. Pentru a construi un poligon într-un sistem de coordonate dreptunghiular, valorile argumentului sunt trasate pe axa absciselor, adică opțiuni (pentru serii variaționale de interval, mijlocul intervalului este luat ca argument) și pe axa ordonatelor - frecvența valorile. Mai mult, în acest sistem de coordonate sunt construite puncte, ale căror coordonate sunt perechi de numere corespunzătoare din seria de variații. Punctele rezultate sunt legate în serie prin segmente drepte. Poligonul este prezentat în figura 1.

diagramă cu bare - diagramă cu bare. Vă permite să evaluați simetria distribuției. Histograma este prezentată în figura 2.

Figura 1 - Distribuția poligonală a întreprinderilor în funcție de volum

ieșire

Modă

Figura 2 - Histograma distribuţiei întreprinderilor pe volum

ieșire

Modă- valoarea trăsăturii care apare cel mai des în populaţia studiată.

Pentru o serie de intervale, modul poate fi determinat grafic din histogramă (Figura 2). Pentru aceasta, este selectat cel mai înalt dreptunghi, care în acest caz este modal (45-57 milioane de ruble). Apoi vârful din dreapta al dreptunghiului modal este conectat la colțul din dreapta sus al dreptunghiului anterior. Și vârful din stânga dreptunghiului modal este cu colțul din stânga sus al dreptunghiului următor. În plus, din punctul de intersecție a acestora, o perpendiculară este coborâtă pe axa absciselor. Abscisa punctului de intersecție al acestor drepte va fi modul de distribuție.

Milion freca.

Concluzie.În setul considerat de întreprinderi, întreprinderile cu o producție de 52 de milioane de ruble sunt cele mai comune.

Cumula - curba rupta. Este construit pe frecvențele acumulate (calculate în Tabelul 4). Cumulul începe de la limita inferioară a primului interval (21 de milioane de ruble), frecvența acumulată este depusă la limita superioară a intervalului. Cumulul este prezentat în Figura 3.

Median

Figura 3 - Distribuția cumulativă a întreprinderilor după volum

ieșire

Median Eu este valoarea caracteristicii care se încadrează la mijlocul seriei clasate. Există același număr de unități de populație de ambele părți ale medianei.

Într-o serie de intervale, mediana poate fi determinată grafic dintr-o curbă cumulată. Pentru a determina mediana din punctul de pe scara de frecvență cumulativă corespunzător la 50% (30:2 = 15), se trasează o linie dreaptă paralelă cu axa absciselor până se intersectează cu cumulul. Apoi, din punctul de intersecție a dreptei indicate cu cumulul, se coboară o perpendiculară pe axa absciselor. Abscisa punctului de intersecție este mediana.

Milion freca.

Concluzie.În setul considerat de întreprinderi, jumătate dintre întreprinderi au un volum de producție de cel mult 52 de milioane de ruble, iar cealaltă jumătate - nu mai puțin de 52 de milioane de ruble.


Informații similare.


Atunci când procesează cantități mari de informații, ceea ce este deosebit de important atunci când se desfășoară dezvoltări științifice moderne, cercetătorul se confruntă cu sarcina serioasă de a grupa corect datele inițiale. Dacă datele sunt discrete, atunci, după cum am văzut, nu există probleme - trebuie doar să calculați frecvența fiecărei caracteristici. Dacă trăsătura studiată are continuu caracter (ceea ce este mai comun în practică), atunci alegerea numărului optim de intervale pentru gruparea unei caracteristici nu este deloc o sarcină banală.

Pentru a grupa variabile aleatoare continue, întregul interval de variație al caracteristicii este împărțit într-un anumit număr de intervale la.

Interval grupat (continuu) serie variațională numite intervale ordonate după valoarea caracteristicii (), unde este indicat împreună cu frecvențele corespunzătoare () numărul de observații care s-au încadrat în intervalul r "-al-lea sau frecvențele relative ():

Intervalele valorice caracteristice

frecvența mea

diagramă cu bareși cumulate (ogiva), deja discutate în detaliu de noi, sunt un instrument excelent de vizualizare a datelor care vă permite să obțineți o înțelegere primară a structurii datelor. Astfel de grafice (Fig. 1.15) sunt construite pentru date continue în același mod ca și pentru datele discrete, ținând cont doar de faptul că datele continue umple complet zona valorilor posibile, luând orice valoare.

Orez. 1.15.

De aceea coloanele de pe histogramă și cumulul trebuie să fie în contact, să nu aibă zone în care valorile atributelor să nu se încadreze în toate posibilele(adică, histograma și cumulul nu ar trebui să aibă „găuri” de-a lungul axei absciselor, în care valorile variabilei studiate să nu cadă, ca în Fig. 1.16). Înălțimea barei corespunde frecvenței - numărul de observații care se încadrează în intervalul dat, sau frecvenței relative - proporția de observații. Intervale nu trebuie să traversezeși au de obicei aceeași lățime.

Orez. 1.16.

Histograma și poligonul sunt aproximări ale curbei densității probabilității (funcție diferențială) f(x) distribuția teoretică, luată în considerare în cursul teoriei probabilităților. Prin urmare, construcția lor este de o asemenea importanță în prelucrarea statistică primară a datelor cantitative continue - după forma lor se poate judeca legea distribuției ipotetice.

Cumulat - curba frecvențelor (frecvențelor) acumulate ale seriei de variații de interval. Graficul funcției de distribuție integrală este comparat cu cumulul F(x), considerată și în cursul teoriei probabilităților.

Practic, conceptele de histogramă și cumulate sunt asociate tocmai cu datele continue și cu seriile lor de variație pe intervale, deoarece graficele lor sunt estimări empirice ale funcției de densitate a probabilității și, respectiv, funcției de distribuție.

Construcția unei serii de variații de interval începe cu determinarea numărului de intervale k.Și această sarcină este poate cea mai dificilă, importantă și controversată din problema studiată.

Numărul de intervale nu trebuie să fie prea mic, deoarece histograma va fi prea netedă ( exagerat), pierde toate caracteristicile variabilității datelor inițiale - în Fig. 1.17 puteți vedea cum aceleași date pe care graficele din Fig. 1.15 sunt folosite pentru a construi o histogramă cu un număr mai mic de intervale (graficul din stânga).

În același timp, numărul de intervale nu ar trebui să fie prea mare - altfel nu vom putea estima densitatea de distribuție a datelor studiate de-a lungul axei numerice: histograma se va dovedi a fi slab netezită (netezit) cu intervale neumplute, neuniforme (vezi Fig. 1.17, graficul din dreapta).

Orez. 1.17.

Cum să determinați numărul cel mai preferat de intervale?

În 1926, Herbert Sturges a propus o formulă pentru calcularea numărului de intervale în care este necesar să se împartă setul inițial de valori ale atributului studiat. Această formulă a devenit cu adevărat super populară - majoritatea manualelor de statistică o oferă și multe pachete de statistică o folosesc implicit. Dacă acest lucru este justificat și în toate cazurile este o întrebare foarte serioasă.

Deci, pe ce se bazează formula Sturges?

Luați în considerare distribuția binomială)