Muodosta tilastollinen aikavälijakaumasarja. Tietojen ryhmittely ja jakaumasarjan muodostaminen

Kerättyjen tilastotietojen ryhmittelyn tulokset esitetään yleensä jakaumasarjoina. Jakaumasarja on populaatioyksiköiden järjestetty jakauma ryhmiin tutkittavan ominaisuuden mukaan.

Jakaumasarjat jaetaan attribuutio- ja variaatiosarjaan ryhmittelyn perustana olevan ominaisuuden mukaan. Jos attribuutti on kvalitatiivinen, jakaumasarjaa kutsutaan attribuutioksi. Esimerkki attribuuttisarjasta on yritysten ja organisaatioiden jakautuminen omistustyypeittäin (ks. taulukko 3.1).

Jos ominaisuus, jolla jakaumasarja muodostetaan, on kvantitatiivinen, sarjaa kutsutaan variaatioksi.

Jakauman variaatiosarja koostuu aina kahdesta osasta: variantista ja vastaavista taajuuksista (tai taajuuksista). Variantti on arvo, jonka ominaisuus voi saada populaatioyksiköissä, kun taas taajuus on niiden havainnointiyksiköiden lukumäärä, joilla on tietty arvo ominaisuudelle. Taajuuksien summa on aina yhtä suuri kuin väestön tilavuus. Joskus taajuuksien sijasta lasketaan taajuuksia - nämä ovat taajuuksia, jotka ilmaistaan ​​joko yksikön murto-osina (silloin kaikkien taajuuksien summa on 1) tai prosentteina väestön tilavuudesta (taajuuksien summa on olla yhtä suuri kuin 100 %).

Variaatiosarjat ovat diskreettejä ja intervallillisia. Diskreettien sarjojen (Taulukko 3.7) valinnat ilmaistaan ​​määrätyinä numeroina, useimmiten kokonaislukuina.

Taulukko 3.8. Työntekijöiden jakautuminen työaikojen mukaan vakuutusyhtiössä
Työaika yrityksessä, täydet vuodet (optiot) Työntekijöiden määrä
Mies (taajuudet) % kokonaismäärästä (taajuus)
jopa vuosi 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Kaikki yhteensä 129 100,0

Intervallisarjoissa (katso taulukko 3.2) indikaattoriarvot on määritelty intervalleina. Intervalleilla on kaksi rajaa: alempi ja ylempi. Intervallit voivat olla avoimia tai suljettuja. Avoimilla ei ole yhtäkään rajoista, joten taulukossa. 3.2 ensimmäisellä välillä ei ole alarajaa, ja viimeisellä ei ole ylärajaa. Intervallisarjaa muodostettaessa käytetään attribuuttiarvojen hajonnan luonteesta riippuen sekä yhtäläisiä että eriarvoisia intervalleja (Taulukko 3.2 esittää variaatiosarjan yhtäläisin välein).

Jos ominaisuus saa rajoitetun määrän arvoja, yleensä enintään 10, muodostetaan diskreetit jakaumasarjat. Jos vaihtoehto on suurempi, diskreettisarja menettää selkeytensä; tässä tapauksessa on suositeltavaa käyttää vaihtelusarjan intervallimuotoa. Ominaisuuden jatkuvalla vaihtelulla, kun sen arvot tietyissä rajoissa eroavat toisistaan ​​mielivaltaisen vähän, muodostetaan myös intervallijakaumasarja.

3.3.1. Diskreettien variaatiosarjojen rakentaminen

Tarkastellaan menetelmää diskreettien variaatiosarjojen muodostamiseksi esimerkin avulla.

Esimerkki 3.2. Seuraavat tiedot ovat saatavilla 60 perheen määrällisestä koostumuksesta:

Jotta saataisiin käsitys perheiden jakautumisesta niiden jäsenmäärän mukaan, tulisi muodostaa variaatiosarja. Koska etumerkki saa rajoitetun määrän kokonaislukuarvoja, rakennamme diskreetin variaatiosarjan. Tätä varten on suositeltavaa kirjoittaa ensin kaikki attribuutin arvot (perheen jäsenmäärä) nousevassa järjestyksessä (ts. järjestele tilastotiedot):

Sitten sinun on laskettava saman koostumuksen omaavien perheiden lukumäärä. Perheenjäsenten määrä (muuttuvan ominaisuuden arvo) on variantteja (merkitsimme ne x:llä), saman koostumuksen omaavien perheiden lukumäärä on taajuuksia (merkitsimme ne f:llä). Esitämme ryhmittelytulokset seuraavien diskreettien vaihtelujakaumasarjojen muodossa:

Taulukko 3.11.
Perheenjäsenten lukumäärä (x) Perheiden lukumäärä (y)
1 8
2 14
3 20
4 9
5 5
6 4
Kaikki yhteensä 60

3.3.2. Intervallivaihtelusarjan rakentaminen

Havainnollistetaan menetelmää imuodostamiseksi seuraavan esimerkin avulla.

Esimerkki 3.3. Tilastollisen havainnoinnin tuloksena saatiin seuraavat tiedot 50 liikepankin keskikorosta (%):

Taulukko 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Kuten näemme, tällaisen tietojoukon katseleminen on erittäin hankalaa; lisäksi indikaattorissa ei ole näkyvissä muutoksia. Muodostetaan intervallijakaumasarja.

  1. Määritetään välien lukumäärä.

    Käytännössä välien lukumäärän määrittelee usein tutkija itse kunkin havainnon tavoitteiden perusteella. Samalla se voidaan laskea myös matemaattisesti Sturgessin kaavalla

    n = 1 + 3,322lgN,

    missä n on intervallien lukumäärä;

    N on populaation tilavuus (havaintoyksiköiden lukumäärä).

    Esimerkkiämme saamme: n = 1 + 3,322lgN = 1 + 3,322lg50 = 6,6 "7.

  2. Määritetään intervallien (i) koko kaavan avulla

    missä x max on attribuutin maksimiarvo;

    x min - attribuutin vähimmäisarvo.

    Meidän esimerkkiin

    Variaatiosarjan välit ovat selvät, jos niiden rajoilla on "pyöreät" arvot, joten pyöristetään välin arvo 1,9 arvoon 2 ja ominaisuuden minimiarvo 12,3 arvoon 12,0.

  3. Määritetään intervallien rajat.

    Intervallit kirjoitetaan pääsääntöisesti siten, että yhden intervallin yläraja on myös seuraavan intervallin alaraja. Joten esimerkissämme saamme: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.

    Tällainen merkintä tarkoittaa, että attribuutti on jatkuva. Jos ominaisuuden muunnelmat ottavat tiukasti määriteltyjä arvoja, esimerkiksi vain kokonaislukuja, mutta niiden lukumäärä on liian suuri diskreetin sarjan muodostamiseksi, voit luoda intervallisarjan, jossa intervallin alaraja ei ole sama kuin yläraja. seuraavan intervallin raja (tämä tarkoittaa, että ominaisuus on diskreetti ). Esimerkiksi yritysten työntekijöiden ikäjakaumassa voit luoda seuraavat vuosiväliryhmät: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 ja enemmän.

    Lisäksi esimerkissämme voisimme tehdä ensimmäisen ja viimeisen välin auki jne. kirjoitus: 14,0 asti; 24.0 ja uudemmat.

  4. Alustavien tietojen perusteella rakennamme paremmuusjärjestyksen. Tätä varten kirjoitamme ylös nousevassa järjestyksessä merkin saamat arvot. Esitämme tulokset taulukossa: Taulukko 3.13. Sijoitussarja liikepankkien korkotasoa
    Pankkikorko % (valinnat)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Lasketaan taajuudet.

    Taajuuksia laskettaessa voi syntyä tilanne, jossa ominaisuuden arvo putoaa jonkin intervallin rajalle. Tässä tapauksessa voit ohjata sääntöä: annettu yksikkö on määritetty välille, jonka arvo on yläraja. Joten esimerkissämme arvo 16.0 viittaa toiseen väliin.

Esimerkissämme saadut ryhmittelytulokset esitetään taulukossa.

Taulukko 3.14. Liikepankkien jakautuminen lainakorkojen mukaan
Lyhyt korko, % Pankkien lukumäärä, yksiköt (taajuudet) Kertyneet taajuudet
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Kaikki yhteensä 50 -

Taulukon viimeinen sarake esittää kertyneitä taajuuksia, jotka saadaan summaamalla taajuudet peräkkäin ensimmäisestä alkaen (esim. ensimmäisellä aikavälillä - 5, toisella intervallilla 5 + 9 = 14, kolmannella 5 + 9 + 4 = 18 jne.). Kertynyt taajuus, esimerkiksi 33, osoittaa, että 33 pankilla on lainakorko, joka ei ylitä 20 % (vastaavan intervallin yläraja).

Datan ryhmittelyssä variaatiosarjoja muodostettaessa käytetään joskus epäyhtenäisiä intervalleja. Tämä koskee niitä tapauksia, joissa ominaisuuden arvot noudattavat aritmeettisen tai geometrisen progression sääntöä tai kun Sturgessin kaavan soveltaminen johtaa "tyhjien" intervalliryhmien ilmaantuvuuteen, jotka eivät sisällä yhtä havaintoyksikköä. Sitten välien rajat asetetaan mielivaltaisesti tutkijan itsensä toimesta terveen järjen ja tutkimuksen tavoitteiden perusteella tai kaavoja käyttäen. Joten aritmeettisessa etenemisessä muuttuville tiedoille intervallien koko lasketaan seuraavasti.

Diskreetti vaihtelusarja on rakennettu diskreeteille ominaisuuksille.

Diskreetin variaatiosarjan muodostamiseksi sinun on suoritettava seuraavat vaiheet: 1) Järjestä havaintoyksiköt kasvavaan järjestykseen ominaisuuden tutkitun arvon mukaan,

2) määrittää attribuutin x i kaikki mahdolliset arvot, järjestää ne nousevaan järjestykseen,

attribuutin arvo, i .

attribuutin arvon taajuus ja merkitsee f i . Sarjan kaikkien taajuuksien summa on yhtä suuri kuin tutkittavan perusjoukon alkioiden lukumäärä.

Esimerkki 1 .

Luettelo opiskelijoiden kokeissa saamista arvosanoista: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Tässä on numero X - arvosanaon diskreetti satunnaismuuttuja, ja tuloksena oleva estimaattiluettelo ontilastolliset (havaittavissa olevat) tiedot .

    Järjestä havaintoyksiköt tutkitun ominaisarvon nousevaan järjestykseen:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) määritä kaikki mahdolliset attribuutin x i arvot, järjestä ne nousevaan järjestykseen:

Tässä esimerkissä kaikki arviot voidaan jakaa neljään ryhmään seuraavilla arvoilla: 2; 3; 4; 5.

Tiettyä havaittujen tietojen ryhmää vastaavan satunnaismuuttujan arvoa kutsutaan attribuutin arvo, vaihtoehto (optio) ja merkitse x i .

Kutsutaan lukua, joka osoittaa, kuinka monta kertaa ominaisuuden vastaava arvo esiintyy useissa havainnoissa attribuutin arvon taajuus ja merkitsee f i .

Meidän esimerkkiin

pisteet 2 esiintyy - 8 kertaa,

pisteet 3 esiintyvät - 12 kertaa,

pisteet 4 esiintyy - 23 kertaa,

pisteet 5 esiintyy - 17 kertaa.

Arvioita on yhteensä 60.

4) kirjoita vastaanotetut tiedot taulukkoon, jossa on kaksi riviä (saraketta) - x i ja f i.

Näiden tietojen perusteella on mahdollista muodostaa diskreetti variaatiosarja

Diskreetti variaatiosarja – tämä on taulukko, jossa tutkittavan ominaisuuden esiintyvät arvot on ilmoitettu yksittäisinä arvoina nousevassa järjestyksessä ja niiden taajuudet

  1. Intervallivaihtelusarjan rakentaminen

Diskreettien variaatiosarjojen lisäksi kohdataan usein tiedon ryhmittelymenetelmä, kuten intervallivariaatiosarja.

Intervallisarja muodostetaan, jos:

    merkillä on jatkuva muutos;

    Erillisiä arvoja oli paljon (yli 10)

    erillisten arvojen taajuudet ovat hyvin pieniä (älä ylitä 1-3 suhteellisen suurella havaintoyksiköiden määrällä);

    monia erillisiä ominaisuuden arvoja samoilla taajuuksilla.

Intervallivaihtelusarja on tapa ryhmitellä tietoja taulukon muodossa, jossa on kaksi saraketta (ominaisuuden arvot arvovälin muodossa ja kunkin intervallin taajuus).

Toisin kuin diskreetti sarja, intervallisarjan ominaisuuden arvoja ei esitetä yksittäisillä arvoilla, vaan arvovälillä ("alkaen - -").

Kutsutaan numeroa, joka näyttää kuinka monta havaintoyksikköä osui kuhunkin valittuun väliin attribuutin arvon taajuus ja merkitsee f i . Sarjan kaikkien frekvenssien summa on yhtä suuri kuin elementtien (havaintoyksiköiden) lukumäärä tutkittavassa populaatiossa.

Jos yksiköllä on ominaisarvo, joka on yhtä suuri kuin intervallin yläraja, se tulee osoittaa seuraavalle intervallille.

Esimerkiksi lapsi, jonka pituus on 100 cm, putoaa 2. väliin, ei ensimmäiseen; ja 130 cm pitkä lapsi putoaa viimeiseen väliin, ei kolmanteen.

Näiden tietojen perusteella voidaan muodostaa intervallivaihtelusarja.

Jokaisella intervallilla on alaraja (xn), yläraja (xw) ja intervallin leveys ( i).

Intervalliraja on attribuutin arvo, joka sijaitsee kahden intervallin rajalla.

lasten pituus (cm)

lasten pituus (cm)

lasten määrä

yli 130

Jos intervallilla on ylä- ja alaraja, sitä kutsutaan suljettu aikaväli. Jos intervallilla on vain ala- tai vain yläraja, se on - avoin intervalli. Vain ensimmäinen tai viimeinen aikaväli voi olla auki. Yllä olevassa esimerkissä viimeinen aikaväli on auki.

Välileveys (i) – ylä- ja alarajojen välinen ero.

i = x n - x tuumaa

Avoimen välin leveyden oletetaan olevan sama kuin viereisen suljetun välin leveyden.

lasten pituus (cm)

lasten määrä

Välileveys (i)

laskelmiin 130+20=150

20 (koska viereisen suljetun välin leveys on 20)

Kaikki intervallisarjat on jaettu intervallisarjoihin, joissa on yhtäläiset välit, ja intervallisarjoihin, joissa on eri välit . Erillisissä riveissä, joissa on yhtäläiset välit, kaikkien välien leveys on sama. Intervallisarjoissa, joissa on epätasainen väli, välien leveys on erilainen.

Tarkasteltavassa esimerkissä - intervallisarja, jossa on epäyhtenäiset välit.

Kunto:

Työntekijöiden ikäjakaumasta (vuodet) on tietoa: 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Muodosta intervallijakaumasarja.
    2. Rakenna sarjasta graafinen esitys.
    3. Määritä tila ja mediaani graafisesti.

Ratkaisu:

1) Sturgessin kaavan mukaan populaatio on jaettava ryhmiin 1 + 3,322 lg 30 = 6.

Ikäraja - 38 vuotta, vähimmäisikä - 18 vuotta.

Intervallin leveys Koska välien päiden tulee olla kokonaislukuja, jaamme populaation viiteen ryhmään. Välileveys - 4.

Laskelmien helpottamiseksi järjestämme tiedot nousevaan järjestykseen: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30 , 30, 31, 32, 32, 33, 34, 35, 38, 38.

Työntekijöiden ikäjakauma

Graafisesti sarja voidaan kuvata histogrammina tai monikulmiona. Histogrammi - pylväskaavio. Sarakkeen pohja on välin leveys. Pylvään korkeus on yhtä suuri kuin taajuus.

Monikulmio (tai jakautumispolygoni) - taajuuskaavio. Sen rakentamiseksi histogrammin avulla yhdistämme suorakulmioiden yläsivujen keskipisteet. Suljemme monikulmion Ox-akselilla etäisyyksillä, jotka ovat yhtä suuria kuin puolet x:n ääriarvoista.

Mode (Mo) on tutkittavan ominaisuuden arvo, joka esiintyy useimmin tietyssä populaatiossa.

Määrittääksesi tilan histogrammista, sinun on valittava korkein suorakulmio, piirrettävä viiva tämän suorakulmion oikeasta kärjestä edellisen suorakulmion oikeaan yläkulmaan ja piirrettävä modaalisen suorakulmion vasemmasta kärjestä viiva seuraavan suorakulmion vasen kärki. Piirrä näiden viivojen leikkauspisteestä kohtisuora x-akseliin nähden. Abskissa tulee olemaan muotia. Ma ≈ 27.5. Tämä tarkoittaa, että yleisin ikä tässä populaatiossa on 27-28 vuotta.

Mediaani (Me) on tutkittavan ominaisuuden arvo, joka on järjestetyn variaatiosarjan keskellä.

Löydämme mediaanin käyttämällä kumulaatiota. Kumulat - kaavio kumuloituneista taajuuksista. Abskissat ovat sarjan muunnelmia. Ordinaatit ovat kertyneitä taajuuksia.

Kumulaatin mediaanin määrittämiseksi löydämme pisteen ordinaatta-akselilta, joka vastaa 50 % kumuloituneista taajuuksista (tässä tapauksessa 15), vedämme sen läpi suora viiva, yhdensuuntainen Ox-akselin kanssa ja pisteestä sen leikkauspisteen kumulaatin kanssa, piirrä kohtisuora x-akseliin nähden. Abskissa on mediaani. Minä ≈ 25.9. Tämä tarkoittaa, että puolet tämän väestön työntekijöistä on alle 26-vuotiaita.

Laboratoriotyö nro 1. Tilastotietojen ensikäsittely

Jakelusarjan rakentaminen

Väestön yksiköiden järjestettyä jakautumista ryhmiin minkä tahansa ominaisuuden mukaan kutsutaan lähellä jakelua . Tässä tapauksessa ominaisuus voi olla joko kvantitatiivinen, jolloin sarjaa kutsutaan vaihtelevaa , ja laadullinen, niin sarjaa kutsutaan attribuutio . Joten esimerkiksi kaupungin väestö voidaan jakaa ikäryhmittäin variaatiosarjassa tai ammatillisen kuuluvuuden mukaan attribuuttisarjassa (jakaumasarjojen muodostamiseen voidaan tietysti ehdottaa paljon enemmän laadullisia ja määrällisiä ominaisuuksia; ominaisuuden määrää tilastollisen tutkimuksen tehtävä).

Kaikille jakelusarjoille on ominaista kaksi elementtiä:

- vaihtoehto(x i) – nämä ovat näytepopulaatiossa olevien yksiköiden ominaisuuden yksittäisiä arvoja. Muunnelmasarjalle vaihtoehto ottaa numeeriset arvot, attribuutiosarjat – kvalitatiiviset (esim. x = "virkamies");

- taajuus(n i) – luku, joka osoittaa, kuinka monta kertaa tietty attribuutin arvo esiintyy. Jos esiintymistiheys ilmaistaan ​​suhteellisena lukuna (eli tiettyä vaihtoehtojen arvoa vastaavien perusjoukon elementtien osuus perusjoukon kokonaisvolyymista), niin sitä kutsutaan ns. suhteellinen taajuus tai taajuus.

Variaatiosarja voi olla:

- diskreetti, kun tutkittavalle ominaisuudelle on ominaista tietty luku (yleensä kokonaisluku).

- intervalli, kun rajat "alkaen" ja "päähän" määritetään jatkuvasti muuttuvalle ominaisuudelle. Intervallisarja muodostetaan myös, jos diskreetti vaihtelevan ominaisuuden arvojoukko on suuri.

Intervallisarja voidaan muodostaa sekä samanpituisilla aikaväleillä (samanvälisillä sarjalla) että epätasaisilla aikaväleillä, jos tilastollisen tutkimuksen ehdot niin määräävät. Esimerkiksi sarjaa tulonjakoa voidaan harkita seuraavilla aikaväleillä:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



missä k on intervallien lukumäärä, n on otoksen koko. (Tietenkin kaava antaa yleensä murtoluvun, ja välien lukumääräksi valitaan tuloksena olevaa lukua lähinnä oleva kokonaisluku.) Välin pituus määräytyy tässä tapauksessa kaavalla

.

Graafisesti variaatiosarjat voidaan esittää muodossa histogrammit(välisarjan jokaisen intervallin yläpuolelle rakennetaan "sarake", jonka korkeus vastaa tämän intervallin taajuutta), jakelupolygoni(katkoviiva, joka yhdistää pisteitä ( x i;n i) tai kumuloituu(rakennettu kertyneille taajuuksille, eli kullekin attribuuttiarvolle otetaan esiintymistiheys joukossa objekteja, joiden attribuuttiarvo on annettua pienempi).

Excelissä työskennellessäsi muunnelmasarjojen muodostamiseen voidaan käyttää seuraavia toimintoja:

TARKISTAA( tietojoukko) – otoksen koon määrittämiseksi. Argumentti on solualue, jossa näytetiedot sijaitsevat.

COUNTIF( alue; kriteeri) – voidaan käyttää määritteen tai muunnelmasarjan muodostamiseen. Argumentit ovat määritteen näytearvojen joukon alue ja kriteeri - attribuutin numeerinen tai tekstiarvo tai sen solun numero, jossa se sijaitsee. Tuloksena on kyseisen arvon esiintymistiheys näytteessä.

TAAJUUS( tietojoukko; joukko intervalleja) – variaatiosarjan muodostamiseen. Argumentit ovat esimerkkitietotaulukon alue ja välisarake. Jos sinun on rakennettava erillinen sarja, vaihtoehtojen arvot ilmoitetaan tässä; jos se on intervallisarja, niin intervallien ylärajat (niitä kutsutaan myös "taskuiksi"). Koska tulos on taajuuksien sarake, sinun on syötettävä funktio loppuun painamalla CTRL+SHIFT+ENTER. Huomaa, että kun määrität intervallijoukon funktiota esitettäessä, sinun ei tarvitse määrittää sen viimeistä arvoa - kaikki arvot, jotka eivät sisältyneet edellisiin "taskuihin", sijoitetaan vastaavaan "taskuun". Tämä voi joskus auttaa välttämään sen virheen, että suurinta näytearvoa ei aseteta automaattisesti viimeiseen taskuun.

Lisäksi monimutkaisille ryhmittelyille (perustuu useisiin ominaisuuksiin) käytä "pivot tables" -työkalua. Niitä voidaan käyttää myös attribuutti- ja muunnelmasarjojen muodostamiseen, mutta tämä vaikeuttaa tehtävää tarpeettomasti. Lisäksi muunnelmasarjan ja histogrammin rakentamiseen on olemassa "histogrammi"-menettely "Analysis Package" -apuohjelmasta (jos haluat käyttää apuohjelmia Excelissä, sinun on ensin ladattava ne; niitä ei asenneta oletuksena)

Havainnollistetaan ensisijaisen tietojenkäsittelyn prosessia seuraavilla esimerkeillä.

Esimerkki 1.1. Tietoa on 60 perheen määrällisestä koostumuksesta.

Muodosta variaatiosarja ja jakauman polygoni

Ratkaisu.

Avataan Excel-taulukot. Syötetään tietotaulukko alueelle A1:L5. Jos tutkit asiakirjaa sähköisessä muodossa (esimerkiksi Word-muodossa), valitse vain taulukko, jossa on tiedot ja kopioi se leikepöydälle, valitse sitten solu A1 ja liitä tiedot - ne vievät automaattisesti sopiva alue. Lasketaan näytetilavuus n - näytetietojen lukumäärä, syöttämällä kaava =LASKE(A1:L5) soluun B7. Huomaa, että halutun alueen syöttämiseksi kaavaan ei tarvitse syöttää sen nimeä näppäimistöltä, riittää, kun valitset sen. Määritetään näytteen minimi- ja maksimiarvot syöttämällä kaava =MIN(A1:L5) soluun B8 ja =MAX(A1:L5) soluun B9.

Kuva 1.1 Esimerkki 1. Tilastotietojen ensikäsittely Excel-taulukoissa

Seuraavaksi valmistellaan taulukko variaatiosarjan muodostamista varten syöttämällä nimet intervallisarakkeelle (muunnelmalle) ja frekvenssisarakkeelle. Syötä intervallisarakkeeseen ominaisarvot minimistä (1) maksimiarvoon (6), jotka ovat alueella B12:B17. Valitse taajuussarake, kirjoita kaava =TAAJUUS(A1:L5,B12:B17) ja paina näppäinyhdistelmää CTRL+SHIFT+ENTER

Kuva 1.2 Esimerkki 1. Variaatiosarjan rakentaminen

Ohjausta varten lasketaan taajuuksien summa SUM-funktiolla (toimintokuvake S "Editing"-ryhmässä "Koti"-välilehdellä), lasketun summan tulee olla sama kuin solussa B7 aiemmin laskettu näytetilavuus.

Rakennetaan nyt monikulmio: kun olet valinnut tuloksena olevan taajuusalueen, valitse "Insert"-välilehden "Graph"-komento. Oletusarvoisesti vaaka-akselin arvot ovat järjestysnumeroita - tässä tapauksessa 1 - 6, mikä on sama kuin vaihtoehtojen arvot (tariffiluokkien numerot).

Kaaviosarjan nimi "sarja 1" voidaan joko muuttaa käyttämällä samaa "select data" -vaihtoehtoa "Design"-välilehdellä tai yksinkertaisesti poistaa.

Kuva 1.3. Esimerkki 1. Taajuuspolygonin rakentaminen

Esimerkki 1.2. Tietoja epäpuhtauspäästöistä on 50 lähteestä:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Laadi yhtäjaksoinen sarja, rakenna histogrammi

Ratkaisu

Syötetään tietotaulukko Excel-arkkiin, se vie alueen A1:J5 Kuten edellisessä tehtävässä, määritämme otoskoon n, näytteen minimi- ja maksimiarvot. Koska nyt ei tarvita diskreettiä sarjaa, vaan intervallisarjaa, eikä tehtävän intervallien lukumäärää ole määritelty, lasketaan intervallien lukumäärä k Sturgessin kaavalla. Kirjoita soluun B10 kaava =1+3.322*LOG10(B7).

Kuva 1.4. Esimerkki 2. Tasavälisen sarjan rakentaminen

Tuloksena oleva arvo ei ole kokonaisluku, se on noin 6,64. Koska k=7:llä välien pituus ilmaistaan ​​kokonaislukuna (toisin kuin tapauksessa k=6), valitsemme k=7 syöttämällä tämän arvon soluun C10. Laskemme solun B11 välin d pituuden syöttämällä kaava =(B9-B8)/C10.

Määritetään joukko intervalleja, jotka osoittavat ylärajan jokaiselle seitsemästä intervallista. Tätä varten solussa E8 lasketaan ensimmäisen intervallin yläraja syöttämällä kaava =B8+B11; soluun E9 toisen välin yläraja syöttämällä kaava =E8+B11. Välien ylärajojen jäljellä olevien arvojen laskemiseksi kiinnitämme syötetyn kaavan solun B11 lukumäärän $-merkillä siten, että solun E9 kaava on muotoa =E8+B$11 ja kopioi solun E9 sisällöstä soluihin E10-E14. Viimeinen saatu arvo on yhtä suuri kuin aiemmin solussa B9 lasketun näytteen maksimiarvo.

Kuva 1.5. Esimerkki 2. Tasavälisen sarjan rakentaminen


Täytä nyt "taskujen" joukko käyttämällä FREQUENCY-funktiota, kuten tehtiin esimerkissä 1.

Kuva 1.6. Esimerkki 2. Tasavälisen sarjan rakentaminen

Muodostamme histogrammin käyttämällä saatua variaatiosarjaa: valitse taajuussarake ja valitse "Insert"-välilehdeltä "Histogrammi". Kun histogrammi on vastaanotettu, muutetaan siinä olevan vaaka-akselin merkinnät arvoiksi intervallialueella; tehdäksesi tämän, valitse "Valitse tiedot" -vaihtoehto "Suunnittelija" -välilehdeltä. Valitse näkyviin tulevasta ikkunasta "Vaaka-akselin tarrat" -osiosta "Muuta" -komento ja syötä asetusten arvoalue valitsemalla se hiirellä.

Kuva 1.7. Esimerkki 2. Histogrammin rakentaminen

Kuva 1.8. Esimerkki 2. Histogrammin rakentaminen

Laboratoriotyö nro 1

Matemaattisten tilastojen mukaan

Aihe: Kokeellisen datan peruskäsittely

3. Pisteet pisteinä. 1

5. Testikysymykset... 2

6. Laboratoriotöiden suorittamisen menetelmät.. 3

Työn tavoite

Empiiristen tietojen alkukäsittelytaitojen hankkiminen matemaattisten tilastojen menetelmiä käyttäen.

Suorita seuraavat tehtävät kokeellisten tietojen perusteella:

Harjoitus 1. Muodosta intervallivaihtelujakaumasarja.

Tehtävä 2. Muodosta histogrammi intervallivaihtelusarjan taajuuksista.

Tehtävä 3. Luo empiirinen jakaumafunktio ja piirrä kaavio.

a) tila ja mediaani;

b) ehdolliset alkumomentit;

c) otoksen keskiarvo;

d) otosvarianssi, korjattu populaatiovarianssi, korjattu keskihajonta;

e) variaatiokerroin;

f) epäsymmetria;

g) kurtosis;

Tehtävä 5. Määritä tutkittavan satunnaismuuttujan numeeristen ominaisuuksien todellisten arvojen rajat tietyllä luotettavuudella.

Tehtävä 6. Esikäsittelyn tulosten sisältöpohjainen tulkinta tehtävän ehtojen mukaisesti.

Pisteet pisteinä

Tehtävät 1-56 pistettä

Tehtävä 62 pistettä

Laboratoriotyön puolustaminen(suullinen haastattelu testikysymyksistä ja laboratoriotyöstä) - 2 pistettä

Työ tulee toimittaa kirjallisesti A4-arkeille ja sisältää:

1) Nimilehti (Liite 1)

2) Alkutiedot.

3) Työn toimittaminen määritellyn näytteen mukaan.

4) Laskentatulokset (tehty manuaalisesti ja/tai MS Excelillä) määritetyssä järjestyksessä.

5) Johtopäätökset - primaarikäsittelyn tulosten mielekäs tulkinta ongelman ehtojen mukaisesti.

6) Suullinen haastattelu työ- ja kontrollikysymyksistä.



5. Testikysymykset


Laboratoriotöiden suorittamisen menetelmät

Tehtävä 1. Muodosta intervallivaihtelujakaumasarja

Tilastotietojen esittämiseksi vaihtelusarjan muodossa tasaisin välimatkoineen vaihtoehdoin on välttämätöntä:

1. Etsi alkuperäisestä tietotaulukosta pienin ja suurin arvo.

2.Määritä vaihteluväli :

3. Määritä intervallin h pituus, jos näyte sisältää enintään 1000 dataa, käytä kaavaa: , missä n – otoksen koko – otoksessa olevien tietojen määrä; laskelmia varten ota lgn).

Laskettu suhde pyöristetään kätevä kokonaislukuarvo .

4. Ensimmäisen intervallin alun määrittämiseksi parilliselle määrälle intervalleja on suositeltavaa ottaa arvo ; ja parittomille aikaväleille .

5. Kirjoita ryhmittelyvälit muistiin ja järjestä ne rajojen nousevaan järjestykseen

, ,………., ,

missä on ensimmäisen välin alaraja. Otetaan sopiva luku, joka ei ole suurempi kuin , viimeisen intervallin ylärajan tulee olla vähintään . On suositeltavaa, että välit sisältävät satunnaismuuttujan alkuarvot ja ne erotetaan toisistaan 5-20 väliajoin.

6. Kirjoita muistiin alkutiedot ryhmittelyväleistä, ts. käytä lähdetaulukkoa laskeaksesi satunnaismuuttujien arvojen lukumäärän, jotka kuuluvat määritetyille aikaväleille. Jos jotkin arvot ovat samat intervallien rajojen kanssa, silloin ne liitetään joko vain edelliseen tai vain seuraavaan väliin.

Huomautus 1. Välien ei tarvitse olla yhtä pitkiä. Alueilla, joilla arvot ovat tiheämpiä, on helpompi ottaa pienempiä, lyhyitä ja harvemmin esiintyviä suurempia.

Muistio 2.Jos joillekin arvoille saadaan "nolla" tai pieniä taajuusarvoja, tiedot on ryhmiteltävä uudelleen suurentamalla aikavälejä (askeleen suurentamalla).