Trasează o serie de distribuție statistică a intervalului. Gruparea datelor și construirea unei serii de distribuție

Rezultatele grupării datelor statistice colectate sunt prezentate de obicei sub formă de serii de distribuție. O serie de distribuție este o distribuție ordonată a unităților populației în grupuri în funcție de trăsătura studiată.

Seriile de distribuție sunt împărțite în atributive și variaționale, în funcție de caracteristica care stă la baza grupării. Dacă semnul este calitativ, atunci seria de distribuție se numește atributivă. Un exemplu de serie de atribute este distribuția întreprinderilor și organizațiilor după forma de proprietate (a se vedea Tabelul 3.1).

Dacă atributul pe care se construiește seria de distribuție este cantitativ, atunci seria se numește variațională.

Seria de distribuție variațională constă întotdeauna din două părți: o variantă și frecvențele (sau frecvențele) corespunzătoare. O variantă este o valoare care poate lua o caracteristică în unități ale populației, o frecvență este numărul de unități de observație care au o valoare dată a caracteristicii. Suma frecvențelor este întotdeauna egală cu dimensiunea populației. Uneori, în loc de frecvențe, se calculează frecvențele - acestea sunt frecvențe exprimate fie în fracții de unitate (atunci suma tuturor frecvențelor este egală cu 1), fie ca procent din volumul populației (suma frecvențelor va fi egală cu 100%).

Serii variaționale sunt discrete și interval. Pentru seriile discrete (Tabelul 3.7), opțiunile sunt exprimate în numere specifice, cel mai adesea numere întregi.

Tabelul 3.8. Repartizarea salariaților pe timp de lucru în societatea de asigurări
Timp de lucru în companie, ani întregi (opțiuni) Numar de angajati
uman (frecvențe) în % din total (frecvent)
până la un an 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Total 129 100,0

În seria de intervale (a se vedea tabelul 3.2), valorile indicatorului sunt stabilite ca intervale. Intervalele au două limite: inferioară și superioară. Intervalele pot fi deschise sau închise. Cele deschise nu au niciunul dintre margini, deci, în Tabel. 3.2 primul interval nu are o limită inferioară, iar ultimul nu are o limită superioară. La construirea unei serii de intervale, în funcție de natura răspândirii valorilor caracteristice, se folosesc atât intervale egale, cât și inegale (Tabelul 3.2 prezintă o serie de variații cu intervale egale).

Dacă caracteristica ia un număr limitat de valori, de obicei nu mai mult de 10, se construiesc serii de distribuție discretă. Dacă varianta este mai mare, atunci seria discretă își pierde vizibilitatea; în acest caz, este recomandabil să se folosească forma de interval a seriei variaționale. Cu o variație continuă a unei caracteristici, atunci când valorile sale în anumite limite diferă unele de altele printr-o cantitate arbitrar de mică, se construiește și o serie de distribuție a intervalelor.

3.3.1. Construcția unor serii variaționale discrete

Luați în considerare tehnica de construire a unor serii variaționale discrete folosind un exemplu.

Exemplul 3.2. Sunt disponibile următoarele date privind compoziția cantitativă a 60 de familii:

Pentru a ne face o idee despre distribuția familiilor în funcție de numărul membrilor acestora, ar trebui construită o serie variațională. Deoarece atributul ia un număr limitat de valori întregi, construim o serie variațională discretă. Pentru a face acest lucru, se recomandă mai întâi să scrieți toate valorile atributului (numărul de membri ai familiei) în ordine crescătoare (adică, pentru a clasifica datele statistice):

Apoi trebuie să numărați numărul de familii cu aceeași compoziție. Numărul de membri ai familiei (valoarea trăsăturii variabile) sunt opțiuni (le vom nota cu x), numărul de familii cu aceeași compoziție sunt frecvențe (le vom nota cu f). Reprezentăm rezultatele grupării sub forma următoarelor serii de distribuție variațională discretă:

Tabelul 3.11.
Numărul de membri ai familiei (x) Număr de familii (y)
1 8
2 14
3 20
4 9
5 5
6 4
Total 60

3.3.2. Construirea seriei de variații de interval

Să arătăm metoda de construire a serii de distribuție variațională a intervalului folosind următorul exemplu.

Exemplul 3.3. În urma observării statistice, s-au obținut următoarele date privind rata medie a dobânzii a 50 de bănci comerciale (%):

Tabelul 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

După cum puteți vedea, este extrem de incomod să vizualizați o astfel de serie de date, în plus, nu există modele de schimbare în indicator. Să construim o serie de distribuție de intervale.

  1. Să definim numărul de intervale.

    Numărul de intervale în practică este adesea stabilit de către cercetător însuși pe baza obiectivelor fiecărei observații particulare. Cu toate acestea, poate fi calculat și matematic folosind formula Sturgess

    n = 1 + 3,322lgN,

    unde n este numărul de intervale;

    N este volumul populației (numărul de unități de observație).

    Pentru exemplul nostru, obținem: n \u003d 1 + 3.322lgN \u003d 1 + 3.322lg50 \u003d 6.6 "7.

  2. Să determinăm valoarea intervalelor (i) prin formula

    unde x max - valoarea maximă a caracteristicii;

    x min - valoarea minimă a atributului.

    Pentru exemplul nostru

    Intervalele seriei variaționale sunt vizuale dacă limitele lor au valori „rotunde”, deci vom rotunji valoarea intervalului de la 1,9 la 2, iar valoarea minimă a caracteristicii de la 12,3 la 12,0.

  3. Să definim limitele intervalelor.

    Intervalele, de regulă, sunt scrise în așa fel încât limita superioară a unui interval să fie simultan limita inferioară a intervalului următor. Deci, pentru exemplul nostru, obținem: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.

    O astfel de înregistrare înseamnă că caracteristica este continuă. Dacă opțiunile de trăsătură iau valori strict definite, de exemplu, numai numere întregi, dar numărul lor este prea mare pentru a construi o serie discretă, atunci puteți crea o serie de intervale în care limita inferioară a intervalului nu va coincide cu limita superioară a intervalului. intervalul următor (aceasta va însemna că caracteristica este discretă). De exemplu, în distribuția angajaților unei întreprinderi în funcție de vârstă, puteți crea următoarele grupe de intervale de ani: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 și Mai Mult.

    De asemenea, în exemplul nostru, am putea deschide primul și ultimul interval etc. scrie: până la 14,0; 24.0 și mai sus.

  4. Pe baza datelor inițiale, construim o serie clasificată. Pentru a face acest lucru, scriem în ordine crescătoare valorile pe care le ia caracteristica. Rezultatele sunt prezentate în tabel: Tabelul 3.13. Serii clasate de rate ale dobânzilor băncilor comerciale
    Rata bancară % (opțiuni)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Să calculăm frecvențele.

    Când se numără frecvențele, poate apărea o situație când valoarea unei caracteristici se încadrează la limita unui interval. În acest caz, puteți respecta regula: unitatea dată este atribuită intervalului pentru care valoarea sa este limita superioară. Deci, valoarea 16,0 din exemplul nostru se va referi la al doilea interval.

Rezultatele grupării obținute în exemplul nostru vor fi prezentate într-un tabel.

Tabelul 3.14. Repartizarea băncilor comerciale după rata de creditare
Rată scurtă, % Număr de bănci, unități (frecvente) Frecvențe acumulate
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Total 50 -

Ultima coloană a tabelului prezintă frecvențele acumulate, care se obțin prin însumarea succesivă a frecvențelor, începând de la prima (de exemplu, pentru primul interval - 5, pentru al doilea interval 5 + 9 = 14, pentru al treilea interval 5 + 9 + 4 = 18 etc.). Frecvența acumulată, de exemplu, 33, arată că 33 de bănci au o rată a creditului care nu depășește 20% (limita superioară a intervalului corespunzător).

În procesul de grupare a datelor la construirea seriilor variaționale, se folosesc uneori intervale inegale. Acest lucru se aplică acelor cazuri în care valorile caracteristice respectă regula progresiei aritmetice sau geometrice sau când aplicarea formulei Sturgess duce la apariția unor grupuri de intervale „vide” care nu conțin o singură unitate de observație. Apoi, limitele intervalelor sunt stabilite arbitrar de însuși cercetătorul, pe baza bunului simț și a obiectivelor anchetei, sau după formule. Deci, pentru datele care se modifică într-o progresie aritmetică, dimensiunea intervalelor se calculează după cum urmează.

O serie variațională discretă este construită pentru caracteristici discrete.

Pentru a construi o serie de variații discrete, trebuie să faceți următoarele: 1) ordonați unitățile de observație în ordine crescătoare a valorii atributului studiat,

2) determinați toate valorile posibile ale atributului x i, sortați-le în ordine crescătoare,

valoarea semnului, i .

frecvența valorii caracteristicii si denota f i . Suma tuturor frecvențelor seriei este egală cu numărul de elemente din populația studiată.

Exemplul 1 .

Lista notelor obţinute de studenţi la examene: 3; patru; 3; 5; patru; 2; 2; patru; patru; 3; 5; 2; patru; 5; patru; 3; patru; 3; 3; patru; patru; 2; 2; 5; 5; patru; 5; 2; 3; patru; patru; 3; patru; 5; 2; 5; 5; patru; 3; 3; patru; 2; patru; patru; 5; patru; 3; 5; 3; 5; patru; patru; 5; patru; patru; 5; patru; 5; 5; 5.

Iată numărul X - notaeste o variabilă aleatoare discretă, iar lista de estimări rezultată estedate statistice (observate). .

    ordonează unitățile de observație în ordinea crescătoare a valorii studiate a caracteristicii:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) determinați toate valorile posibile ale atributului x i, sortați-le în ordine crescătoare:

În acest exemplu, toate scorurile pot fi împărțite în patru grupe cu următoarele valori: 2; 3; patru; 5.

Se numește valoarea unei variabile aleatoare corespunzătoare unui grup separat de date observate valoarea semnului, varianta (opțiune) și desemnați x i .

Se numește numărul care arată de câte ori apare valoarea caracteristică corespunzătoare într-o serie de observații frecvența valorii caracteristicii si denota f i .

Pentru exemplul nostru

apare scorul 2 - de 8 ori,

apare scorul 3 - de 12 ori,

apare scorul 4 - de 23 de ori,

apare scorul 5 - de 17 ori.

Există 60 de evaluări în total.

4) scrieți datele primite într-un tabel de două rânduri (coloane) - x i și f i .

Pe baza acestor date, este posibil să se construiască o serie variațională discretă

Serii de variații discrete - acesta este un tabel în care valorile apărute ale trăsăturii studiate sunt indicate ca valori separate în ordine crescătoare și frecvențele acestora

  1. Construirea unei serii de variații de interval

În plus față de seria variațională discretă, există adesea o astfel de modalitate de grupare a datelor ca o serie variațională de interval.

O serie de intervale este construită dacă:

    semnul are o natură continuă de schimbare;

    există o mulțime de valori discrete (mai mult de 10)

    frecvențele valorilor discrete sunt foarte mici (nu depășesc 1-3 cu un număr relativ mare de unități de observație);

    multe valori discrete ale unei caracteristici cu aceleași frecvențe.

O serie de variații de interval este o modalitate de grupare a datelor sub forma unui tabel care are două coloane (valori caracteristice sub forma unui interval de valori și frecvența fiecărui interval).

Spre deosebire de o serie discretă, valorile caracteristicii unei serii de interval nu sunt reprezentate de valori individuale, ci de un interval de valori ("de la - la").

Se numește numărul care arată câte unități de observație au căzut în fiecare interval selectat frecvența valorii caracteristicii si denota f i . Suma tuturor frecvențelor seriei este egală cu numărul de elemente (unități de observație) din populația studiată.

Dacă o unitate are o valoare caracteristică egală cu valoarea limitei superioare a intervalului, atunci ar trebui să fie referită la următorul interval.

De exemplu, un copil cu o înălțime de 100 cm va cădea în al 2-lea interval, și nu în primul; iar un copil cu o înălțime de 130 cm va cădea în ultimul interval, și nu în al treilea.

Pe baza acestor date, este posibil să se construiască o serie de variații de interval.

Fiecare interval are o limită inferioară (x n), o limită superioară (x in) și o lățime a intervalului ( i).

O limită de interval este o valoare caracteristică care se află la granița a două intervale.

inaltimea copiilor (cm)

inaltimea copiilor (cm)

cantitatea de copii

peste 130

Dacă un interval are o limită superioară și inferioară, atunci se numește interval închis. Dacă intervalul are doar o limită inferioară sau numai superioară, atunci aceasta este - interval deschis. Numai primul sau ultimul interval poate fi deschis. În exemplul de mai sus, ultimul interval este deschis.

Lățimea intervalului (i) este diferența dintre limitele superioare și inferioare.

i = x n - x in

Se presupune că lățimea unui interval deschis este aceeași cu lățimea unui interval închis adiacent.

inaltimea copiilor (cm)

cantitatea de copii

Lățimea intervalului (i)

pentru calcule 130+20=150

20 (deoarece lățimea intervalului închis adiacent este de 20)

Toate seriile de intervale sunt împărțite în serii de intervale cu intervale egale și serii de intervale cu intervale inegale. . În rândurile de intervale cu intervale egale, lățimea tuturor intervalelor este aceeași. În serii de intervale cu intervale inegale, lățimea intervalelor este diferită.

În acest exemplu, o serie de intervale cu intervale inegale.

Condiție:

Există date despre componența pe vârstă a lucrătorilor (ani): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Construiți o serie de distribuție pe intervale.
    2. Construiți o reprezentare grafică a seriei.
    3. Determinați grafic modul și mediana.

Soluţie:

1) Conform formulei Sturgess, populația trebuie împărțită în 1 + 3.322 lg 30 = 6 grupe.

Vârsta maximă este de 38 de ani, iar cea minimă de 18 ani.

Lățimea intervalului Deoarece capetele intervalelor trebuie să fie numere întregi, vom împărți populația în 5 grupuri. Lățimea intervalului - 4.

Pentru a facilita calculele, să aranjam datele în ordine crescătoare: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Distribuția pe vârstă a lucrătorilor

Grafic, o serie poate fi afișată ca histogramă sau poligon. Histograma - diagramă cu bare. Baza coloanei este lățimea intervalului. Înălțimea barei este egală cu frecvența.

Un poligon (sau poligon de distribuție) este un grafic al frecvențelor. Pentru a-l construi conform histogramei, conectăm punctele medii ale laturilor superioare ale dreptunghiurilor. Închidem poligonul pe axa x la distanțe egale cu jumătate din intervalul de la valorile x extreme.

Modul (Mo) este valoarea trăsăturii studiate, care apare cel mai frecvent într-o anumită populație.

Pentru a determina modul din histogramă, trebuie să selectați cel mai înalt dreptunghi, să trageți o linie de la vârful din dreapta al acestui dreptunghi până la colțul din dreapta sus al dreptunghiului anterior și să trageți o linie de la vârful din stânga al dreptunghiului modal până la vârful stâng al următorului dreptunghi. Din punctul de intersecție al acestor drepte, trageți o perpendiculară pe axa x. Abscisa va fi la modă. Mo ≈ 27,5. Aceasta înseamnă că cea mai frecventă vârstă la această populație este 27-28 de ani.

Mediana (Me) este valoarea trăsăturii studiate, care se află la mijlocul unei serii de variații ordonate.

Găsim mediana prin cumulat. Cumulate - grafic al frecvențelor acumulate. Abscisele sunt variante ale unei serii. Ordonatele sunt frecvențele acumulate.

Pentru a determina mediana pentru cumulat, găsim de-a lungul axei ordonatelor un punct corespunzător la 50% din frecvențele acumulate (în cazul nostru, 15), trasăm o linie dreaptă prin el, paralelă cu axa Ox și trasăm o perpendiculară pe axa x din punctul de intersecție cu cumulul. Abscisa este mediana. Eu ≈ 25,9. Aceasta înseamnă că jumătate dintre lucrătorii acestei populații au sub 26 de ani.

Lucrări de laborator №1. Prelucrarea primară a datelor statistice

Construcția seriei de distribuție

Distribuția ordonată a unităților de populație în grupuri în funcție de orice atribut este numită aproape de distribuție . În acest caz, semnul poate fi atât cantitativ, apoi se numește seria variațională , și calitativ, atunci seria se numește atributiv . Deci, de exemplu, populația unui oraș poate fi distribuită pe grupe de vârstă într-o serie de variații, sau după ocupație într-o serie de atribute (desigur, pentru construirea seriei de distribuție pot fi propuse multe mai multe caracteristici calitative și cantitative, alegerea caracteristicii). este determinată de sarcina cercetării statistice).

Orice serie de distribuție este caracterizată de două elemente:

- opțiune(x i) - acestea sunt valori individuale ale atributului de unități ale populației eșantionului. Pentru o serie variațională, varianta ia valori numerice, pentru o serie atributivă - calitative (de exemplu, x = „funcționar”);

- frecvență(n i) este un număr care arată de câte ori apare această sau acea valoare a caracteristicii. Dacă frecvența este exprimată ca număr relativ (adică proporția elementelor populației corespunzătoare unei valori date a opțiunilor în volumul total al populației), atunci se numește frecventa relativa sau frecvență.

Serii de variații pot fi:

- discret când trăsătura studiată este caracterizată printr-un anumit număr (de obicei un număr întreg).

- interval când limitele „de la” și „până la” sunt definite pentru o caracteristică continuu variabilă. O serie de intervale este, de asemenea, construită dacă setul de valori ale unei caracteristici discret variabile este mare.

O serie de intervale poate fi construită atât cu intervale de lungime egală (serie de intervale egale), cât și cu intervale inegale, dacă acest lucru este dictat de condițiile studiului statistic. De exemplu, se poate lua în considerare o serie de distribuție a veniturilor populației cu următoarele intervale:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



unde k este numărul de intervale, n este dimensiunea eșantionului. (Desigur, formula dă de obicei un număr fracționar, iar cel mai apropiat număr întreg de numărul rezultat este ales ca număr de intervale.) Lungimea intervalului în acest caz este determinată de formula

.

Grafic, seriile variaționale pot fi reprezentate ca histogramelor(o „coloană” de înălțime corespunzătoare frecvenței din acest interval este construită deasupra fiecărui interval din seria de intervale), zona de distributie(puncte de legătură între linii întrerupte ( x i;n i) sau se cumulează(construit în funcție de frecvențele acumulate, adică pentru fiecare valoare a atributului se ia frecvența de apariție în mulțimea de obiecte cu o valoare a atributului mai mică decât cea dată).

Când lucrați în Excel, următoarele funcții pot fi utilizate pentru a construi serii variaționale:

VERIFICA( matrice de date) – pentru a determina dimensiunea eșantionului. Argumentul este intervalul de celule care conține datele eșantionului.

COUNTIF( gamă; criteriu) - poate fi folosit pentru a construi un atribut sau o serie de variații. Argumentele sunt intervalul matricei de valori ale eșantionului de atribut și criteriul - valoarea numerică sau text a atributului sau numărul celulei în care se află. Rezultatul este frecvența de apariție a acelei valori în eșantion.

FRECVENȚĂ( matrice de date; matrice de intervale) – pentru a construi o serie variațională. Argumentele sunt intervalul matricei de date eșantion și coloana interval. Dacă este necesară construirea unei serii discrete, atunci sunt indicate aici valorile opțiunilor, dacă este interval, atunci limitele superioare ale intervalelor (se mai numesc și „buzunare”). Deoarece rezultatul este o coloană de frecvențe, introducerea funcției trebuie finalizată prin apăsarea combinației de taste CTRL+SHIFT+ENTER. Rețineți că atunci când setați o serie de intervale la introducerea unei funcții, ultima valoare din aceasta poate fi omisă - toate valorile care nu au căzut în „buzunarele” anterioare vor fi plasate în „buzunarul” corespunzător. Acest lucru ajută uneori la evitarea erorii că cea mai mare valoare a eșantionului nu este plasată automat în ultimul „buzunar”.

În plus, pentru grupările complexe (după mai multe criterii), se folosește instrumentul „tabele pivot”. Ele pot fi folosite și pentru a construi serii de atribute și variații, dar acest lucru complică inutil sarcina. De asemenea, pentru a construi o serie de variații și o histogramă, există o procedură de „histogramă” din add-in-ul „Analysis Package” (pentru a utiliza programe de completare în Excel, trebuie mai întâi să le descărcați, acestea nu sunt instalate implicit)

Ilustram procesul de prelucrare a datelor primare cu următoarele exemple.

Exemplul 1.1. există date despre componenţa cantitativă a 60 de familii.

Construiți o serie de variații și un poligon de distribuție

Soluţie.

Să deschidem foile de calcul Excel. Să introducem o serie de date în intervalul A1:L5. Dacă studiați un document în formă electronică (în format Word, de exemplu), tot ce trebuie să faceți este să selectați un tabel cu date și să îl copiați în clipboard, apoi să selectați celula A1 și să lipiți datele - acestea vor ocupa automat interval adecvat. Să calculăm dimensiunea eșantionului n - numărul de date eșantion, pentru aceasta, în celula B7, introduceți formula = COUNT (A1: L5). Rețineți că pentru a introduce intervalul dorit în formulă, nu este necesar să introduceți denumirea acestuia de la tastatură, este suficient să îl selectați. Să determinăm valorile minime și maxime din probă introducând formula =MIN(A1:L5) în celula B8 și în celula B9: =MAX(A1:L5).

Fig.1.1 Exemplul 1. Prelucrarea primară a datelor statistice în tabelele Excel

În continuare, să pregătim un tabel pentru construirea unei serii de variații introducând nume pentru coloana interval (valori variante) și coloana frecvență. În coloana de intervale, introduceți valorile atributului de la minim (1) la maxim (6), ocupând intervalul B12:B17. Selectați coloana de frecvență, introduceți formula =FREQUENCY(A1:L5;B12:B17) și apăsați combinația de taste CTRL+SHIFT+ENTER

Fig.1.2 Exemplul 1. Construcția unei serii de variații

Pentru control, calculăm suma frecvențelor folosind funcția SUM (pictograma funcției S în grupul Editare din fila Acasă), suma calculată trebuie să se potrivească cu dimensiunea eșantionului calculată anterior în celula B7.

Acum să construim un poligon: după ce ați selectat intervalul de frecvență rezultat, selectați comanda „Graph” din fila „Inserare”. În mod implicit, valorile pe axa orizontală vor fi numere ordinale - în cazul nostru, de la 1 la 6, care coincide cu valorile opțiunilor (numerele categoriilor tarifare).

Numele seriei diagramei „seria 1” poate fi fie schimbat folosind aceeași opțiune „selectați date” din fila „Designer”, fie pur și simplu șters.

Fig.1.3. Exemplul 1. Construirea unui poligon de frecvență

Exemplul 1.2. Sunt disponibile date despre emisiile de poluanți din 50 de surse:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Compilați o serie de intervale egale, construiți o histogramă

Soluţie

Să adăugăm o matrice de date pe o foaie Excel, aceasta va ocupa intervalul A1:J5 Ca și în sarcina anterioară, vom determina dimensiunea eșantionului n, valorile minime și maxime din eșantion. Deoarece acum nu avem nevoie de o serie discretă, ci de o serie de intervale, iar numărul de intervale din problemă nu este specificat, calculăm numărul de intervale k folosind formula Sturgess. Pentru a face acest lucru, în celula B10, introduceți formula =1+3.322*LOG10(B7).

Fig.1.4. Exemplul 2. Construcția unei serii de intervale egale

Valoarea rezultată nu este un număr întreg, este de aproximativ 6,64. Întrucât pentru k=7 lungimea intervalelor va fi exprimată ca număr întreg (spre deosebire de cazul lui k=6), vom alege k=7 introducând această valoare în celula C10. Calculăm lungimea intervalului d în celula B11 introducând formula = (B9-B8) / C10.

Să definim o matrice de intervale, specificând limita superioară pentru fiecare dintre cele 7 intervale. Pentru a face acest lucru, în celula E8, calculați limita superioară a primului interval introducând formula =B8+B11; în celula E9 limita superioară a celui de-al doilea interval prin introducerea formulei =E8+B11. Pentru a calcula valorile rămase ale limitelor superioare ale intervalelor, fixăm numărul celulei B11 în formula introdusă folosind semnul $, astfel încât formula din celula E9 să devină =E8+B$11 și copiem conținutul lui celula E9 la celulele E10-E14. Ultima valoare obținută este egală cu valoarea maximă din proba calculată mai devreme în celula B9.

Fig.1.5. Exemplul 2. Construcția unei serii de intervale egale


Acum să umplem matricea de „buzunare” folosind funcția FREQUENCY, așa cum sa făcut în exemplul 1.

Fig.1.6. Exemplul 2. Construcția unei serii de intervale egale

Pe baza seriei variaționale rezultate, vom construi o histogramă: selectați coloana de frecvență și selectați „Histogramă” în fila „Inserare”. După ce a primit histograma, vom schimba etichetele axei orizontale din ea cu valori în intervalul de intervale, pentru aceasta selectăm opțiunea „Selectați datele” din fila „Designer”. În fereastra care apare, selectați comanda „Schimbare” pentru secțiunea „Etichete axei orizontale” și introduceți intervalul de variante de valori selectând-o cu „mouse-ul”.

Fig.1.7. Exemplul 2. Construirea unei histograme

Fig.1.8. Exemplul 2. Construirea unei histograme

Laboratorul #1

Conform statisticii matematice

Tema: Prelucrarea primară a datelor experimentale

3. Evaluare în puncte. unu

5. Întrebări de securitate.. 2

6. Metodologia efectuării lucrărilor de laborator .. 3

Obiectiv

Dobândirea deprinderilor de prelucrare primară a datelor empirice prin metode de statistică matematică.

Pe baza unui set de date experimentale, efectuați următoarele sarcini:

Exercitiul 1. Construiți o serie de variații de interval de distribuție.

Sarcina 2. Construiți o histogramă a frecvențelor seriei de variații de interval.

Sarcina 3. Compuneți o funcție de distribuție empirică și reprezentați grafic.

a) mod și mediană;

b) momente inițiale condiționale;

c) media eşantionului;

d) varianța eșantionului, varianța populației corectată, abaterea standard corectată;

e) coeficientul de variaţie;

e) asimetrie;

g) curtoză;

Sarcina 5. Determinați limitele valorilor adevărate ale caracteristicilor numerice ale variabilei aleatoare studiate cu o fiabilitate dată.

Sarcina 6. Interpretarea semnificativă a rezultatelor prelucrării primare în funcție de starea problemei.

Scor în puncte

Sarcinile 1-56 puncte

Sarcina 62 puncte

Protecție de laborator(interviu oral pe întrebări de control și lucrări de laborator) - 2 puncte

Lucrarea se depune în scris pe coli A4 și include:

1) Pagina de titlu (Anexa 1)

2) Date inițiale.

3) Prezentarea lucrării conform eșantionului specificat.

4) Rezultatele calculului (efectuate manual și/sau folosind MS Excel) în ordinea specificată.

5) Concluzii - o interpretare semnificativă a rezultatelor prelucrării primare în funcție de starea problemei.

6) Interviu oral pe întrebări de lucru și de control.



5. Întrebări de securitate


Metodologia efectuării lucrărilor de laborator

Sarcina 1. Construiți o serie de variații de interval de distribuție

Pentru a prezenta datele statistice sub forma unei serii variaționale cu variante egal distanțate, este necesar:

1. În tabelul de date original, găsiți cele mai mici și cele mai mari valori.

2. Determinați gama de variatie :

3. Determinați lungimea intervalului h, dacă există până la 1000 de date în eșantion, utilizați formula: , unde n - dimensiunea eșantionului - cantitatea de date din eșantion; lgn se ia pentru calcule).

Raportul calculat este rotunjit la valoare întreagă convenabilă .

4. Pentru a determina începutul primului interval pentru un număr par de intervale, se recomandă să se ia valoarea ; iar pentru un număr impar de intervale .

5. Înregistrați intervalele de grupare și aranjați-le în ordine crescătoare a limitelor

, ,………., ,

unde este limita inferioară a primului interval. Un număr convenabil este luat pentru cel mult , limita superioară a ultimului interval nu trebuie să fie mai mică de . Se recomandă ca intervalele să conțină valorile inițiale ale variabilei aleatoare și să fie separate de 5 până la 20 intervale.

6. Notați datele inițiale privind intervalele de grupări, adică. calculați din tabelul original numărul de valori ale unei variabile aleatoare care se încadrează în intervalele specificate. Dacă unele valori coincid cu limitele intervalelor, apoi sunt atribuite fie numai intervalului anterior, fie numai intervalului următor.

Observație 1. Nu trebuie luate intervale egale ca lungime. În zonele în care valorile sunt mai dense, este mai convenabil să luați intervale mai mici și scurte, iar unde mai rar - cele mai mari.

Observația 2.Dacă pentru unele valori se obțin valori „zero” sau mici ale frecvențelor, atunci este necesară regruparea datelor, mărind intervalele (mărește pasul).