Variačný rad je tzv. Definujte variačný rad

Variačné rady, ich prvky.

Výskumník, ktorý sa zaujíma o tarifnú kategóriu strojných pracovníkov
obchod, vykonal prieskum medzi 100 pracovníkmi. Nájdite pozorované hodnoty
prize-naka vo vzostupnom poradí. Táto operácia sa nazýva hodnotenie
štatistické údaje. Výsledkom je nasledujúca séria, ktorá volá-
Xia zaradené:

1,1,..1, 2,2..2, 3,3,..3, 4,4,..4, 5,5,..5, 6,6,..6.

Z hodnotenej série vyplýva, že študovaný prvok (tarifa
číslica) nadobudla šesť rôznych hodnôt: 1, 2, 3, 4, 5 a 6.

Ďalej rôzne významy prize-naka sa bude volať možnosť-
mi,
a pod variácia - pochopiť zmenu hodnôt atribútu.

V závislosti od hodnôt prevzatých znakom sú znaky rozdelené
na diskrétne sa meniace a neustále sa meniace.

Kategória taríf sa diskrétne mení. Počet, zobrazenia-
koľkokrát sa variant x vyskytuje v sérii pozorovaní sa nazýva hodina-
totoi
možnosť m x .

Namiesto frekvencie variantu x možno uvažovať o jeho vzťahu k všeobecnému
počet pozorovaní n, ktorá sa volá často variant a jeho vzťah označenie-zač w x .

w x = m x / n = m x /åm x

Nazýva sa tabuľka, ktorá vám umožňuje posúdiť rozdelenie frekvencií (alebo frekvencií) medzi možnosťami diskrétne variačné série.

Spolu s pojmom frekvencia sa používa aj pojem akumulovaná frekvencia,
ktorý sa označuje t x prísl. Nahromadená hodina ukazuje koľko
pozorovaní, znamienko nadobudlo hodnoty menšie ako daná hodnota x. Relatívna
akumulovaná frekvencia do celkový počet n pozorovaní sa nazývajú nahromadený-
frekvencia
a označujú w x nak. To je zrejmé



w x nac =m x nac /n=m x nac /åm x .

Akumulované frekvencie (frekvencie_ pre sériu diskrétnych variácií, vypočítané v nasledujúcej tabuľke:

X mx m x nak w x nak
0+4=4 0,04
4+6=10 0,10
10+12=22 0,22
22+16=38 0,38
38+44=82 0,82
82+18=100 1,00
Nad 6

Nech je potrebné vyšetriť výkon na pracovníka - strojníka strojárskej dielne vo vykazovanom roku v percentách minulý rok. Tu je študovaný znak x výstupom za rok vykazovania ako percento z predchádzajúceho. Toto je neustále sa meniace znamenie. Identifikovať charakteristické znaky Odchýlky v hodnotách atribútu sa skombinujú do skupín pracovníkov, ktorých výkon sa pohybuje v rozmedzí 10 %. Zoskupené údaje uvedieme v tabuľke:

Výskum Funkcia x Počet pracovníkov m Podiel pracovníkov š Nahromadený frekvencia m x príl w x nak
80-90 8/117 8/117
90-100 15/117 8+15=23 23/117
100-110 46/117 23+46=69 69/117
110-120 29/117 69+29=98 98/117
120-130 13/117 98+13=111 111/117
130-140 3/117 111+3=114 114/117
140-150 3/117 114+3=117 117/117
å

V tabuľke frekvencií m ukazuje, koľko pozorovaní objekt nadobudol hodnoty, patriace k tomu alebo iný interval. Táto frekvencia sa nazýva interval, a jeho pomer k celkovému počtu pozorovaní je intervalová frekvencia w. Tabuľka, ktorá vám umožňuje posúdiť rozdelenie frekvencií medzi intervalmi variácií hodnôt funkcie, sa nazýva intervalové variačné série.

Séria intervalových variácií je zostavená podľa pozorovacích údajov pre
diskontinuálne sa meniaci znak, ako aj diskrétne sa meniaci, ak
veľké množstvo sledovaných možností. Vytvorí sa samostatná séria variácií
len pre funkciu diskrétnej premennej

Niekedy je rad intervalových variácií podmienečne nahradený diskrétnym.
Potom sa stredná hodnota intervalu berie ako možnosť x a podľa toho
intervalová frekvencia - pre t x.

Na určenie optimálneho konštantného intervalu sa často používa h Sturgessov vzorec:

h=(x max – x min)/(1+3,322*lg n).

Konštrukcia int.var.series

Frekvencie m ukazujú, koľko pozorovaní znak nadobudol hodnoty patriace do konkrétneho intervalu. Takáto frekvencia sa nazýva intervalová frekvencia a jej pomer k celkovému počtu pozorovaní je intervalová frekvencia w. Tabuľka, ktorá umožňuje posúdiť rozdelenie frekvencií (alebo frekvencií) medzi intervalmi variácií hodnôt funkcie, sa nazýva séria variácií intervalov.

Intervalový variačný rad sa zostavuje podľa pozorovacích údajov pre kontinuálne sa meniaci znak, ako aj pre diskrétne sa meniaci, ak je počet pozorovaných variantov veľký. Samostatná variačná séria je vytvorená len pre diskrétne sa meniacu vlastnosť.

Niekedy je rad intervalových variácií podmienečne nahradený diskrétnym. Potom sa stredná hodnota intervalu berie ako variant x a zodpovedajúca frekvencia intervalu sa berie ako mx

Na zostavenie intervalového variačného radu je potrebné určiť hodnotu intervalu, množiny plná škála intervaloch a v súlade s ním zoskupiť výsledky pozorovaní.

Na určenie optimálneho konštantného intervalu h sa často používa Sturgessov vzorec:

h = (xmax - xmin) /(1+ 3,322 log n) .

kde xmax xmin sú maximálne a minimálne možnosti. Ak sa v dôsledku výpočtov ukáže, že h je zlomkové číslo, potom by sa za hodnotu intervalu malo brať buď najbližšie celé číslo, alebo najbližší jednoduchý zlomok.

Odporúča sa brať hodnotu a1=xmin-h/2 ako začiatok prvého intervalu; začiatok druhého intervalu sa zhoduje s koncom prvého a rovná sa a2=a1 +h; začiatok tretieho intervalu sa zhoduje s koncom druhého a rovná sa a3=a2 + h. Konštrukcia intervalov pokračuje dovtedy, kým začiatok ďalšieho intervalu v poradí nie je väčší ako xmax. Po stanovení stupnice intervalov by sa mali výsledky pozorovaní zoskupiť.

5) Pojem, formy vyjadrenia a druhy štatistických ukazovateľov.

štatistiky je kvantitatívna charakteristika sociálno-ekonomických javov a procesov z hľadiska kvalitatívnej istoty. Kvalitatívna istota ukazovateľa spočíva v tom, že priamo súvisí s interný obsah skúmaný jav alebo proces, jeho podstatu.

Systém štatistických ukazovateľov je súbor vzájomne súvisiacich ukazovateľov, ktorý má jednoúrovňovú alebo viacúrovňovú štruktúru a je zameraný na riešenie konkrétneho štatistického problému.

Na rozdiel od znamienka sa štatistický ukazovateľ získava výpočtom. Môže to byť jednoduchý počet jednotiek populácie, súčet hodnôt ich atribútov, porovnanie 2 alebo viacerých hodnôt alebo zložitejšie výpočty.

Rozlišuje sa medzi špecifickým štatistickým ukazovateľom a kategóriou ukazovateľa.

Špecifická štatistika charakterizuje veľkosť, veľkosť skúmaného javu alebo procesu na danom mieste a v daný čas. Avšak v teoretické práce a v štádiu návrhu štatistického pozorovania pracujú aj s absolútnymi ukazovateľmi alebo kategóriami ukazovateľov.

Ukazovatele kategórií odrážať podstatu, všeobecný charakteristické vlastnostišpecifické štatistické ukazovatele rovnakého typu bez uvedenia miesta, času a číselnej hodnoty. Všetky štatistické ukazovatele sú rozdelené podľa pokrytia jednotiek obyvateľstva na individuálne a voľné a podľa formy - na absolútne, relatívne a priemerné.

Jednotlivé ukazovatele charakterizujú samostatný objekt alebo samostatnú jednotku obyvateľstva - podnik, firmu, banku a pod. Príkladom je počet priemyselných a výrobných pracovníkov podniku. Na základe korelácie dvoch individuálnych absolútnych ukazovateľov charakterizujúcich ten istý objekt alebo jednotku sa získa individuálny relatívny ukazovateľ.

Súhrnné ukazovatele na rozdiel od jednotlivých charakterizujú skupinu jednotiek, ktorá je súčasťou štatistickej populácie alebo celej populácie ako celku. Tieto ukazovatele sú rozdelené na objemové a vypočítané.

Indikátory hlasitosti sa získajú sčítaním hodnôt atribútu jednotlivých jednotiek populácie. Výsledná hodnota, nazývaná objem atribútu, môže pôsobiť ako objemový absolútny ukazovateľ a možno ju porovnať s inou objemovou absolútnou hodnotou alebo objemom populácie. V posledných 2 prípadoch sa získajú objemové relatívne a objemové priemery.

Odhadované ukazovatele, vypočítané podľa rôznych vzorcov, slúžia na riešenie jednotlivých štatistické úlohy analýza - meranie variácie, charakteristiky štrukturálnych zmien, hodnotenie vzťahu a pod. Delia sa tiež na absolútne, relatívne alebo priemerné.

Do tejto skupiny patria indexy, koeficienty podobnosti, výberové chyby a ďalšie ukazovatele.

Pokrytie jednotiek obyvateľstva a forma vyjadrenia sú hlavnými, ale nie jedinými klasifikačnými znakmi štatistických ukazovateľov. Dôležité klasifikačný znak je tiež časový faktor. Sociálno-ekonomické procesy a javy sa odrážajú v štatistických ukazovateľoch alebo ku dňu určitý momentčas, zvyčajne určitý dátum, začiatok alebo koniec mesiaca, roka, príp určité obdobie- deň, týždeň, mesiac, štvrťrok, rok. V prvom prípade sú ukazovatele momentalne, v druhom - interval.

V závislosti od príslušnosti k jednému alebo dvom predmetom štúdia existujú jediný objekt A medziobjektové ukazovatele. Ak prvé charakterizujú iba jeden objekt, potom druhé sa získajú porovnaním dvoch veličín súvisiacich s rôznymi objektmi.

Z hľadiska priestorovej istoty sa štatistické ukazovatele delia na celoúzemný charakterizujúci skúmaný objekt alebo jav v celej krajine, regionálne a miestne týkajúci sa ktorejkoľvek časti územia alebo samostatného objektu.

6) Druhy a vzťah relatívnych ukazovateľov.

Relatívny ukazovateľ je výsledkom delenia jedného absolútneho ukazovateľa druhým a vyjadruje pomer medzi kvantitatívne charakteristiky sociálno-ekonomické procesy a javy. Preto vo vzťahu k absolútne ukazovatele relatívne ukazovatele alebo ukazovatele vo formulári relatívne hodnoty sú deriváty.

Pri výpočte relatívneho ukazovateľa sa volá absolútny ukazovateľ, ktorý je v čitateli výsledného pomeru prúd alebo porovnateľné. Ukazovateľ, s ktorým sa porovnáva a ktorý je v menovateli, sa nazýva báza alebo báza porovnania. Relatívne ukazovatele môžu byť vyjadrené ako percentá, ppm, pomery alebo môžu byť pomenované číslami.

Všetky relatívne ukazovatele používané v praxi sa delia na:

dynamika; plánovať; implementácia plánu; štruktúry; koordinácia; Intenzita a úroveň rozvoja eko-go; prirovnania.

Relatívny ukazovateľ dynamiky pre-je pomer úrovne skúmaného procesu alebo javu za dané časové obdobie k úrovni rovnakého procesu alebo javu v minulosti.

OPD = aktuálny ukazovateľ / predchádzajúci. Alebo základná línia.

Takto vypočítaná hodnota ukazuje koľkokrát súčasná úroveň presahuje predchádzajúci alebo aký je podiel posledného. Ak je tento ukazovateľ vyjadrený ako násobný pomer, ide o tzv rastový faktor, keď tento koeficient vynásobíme 100 %, dostaneme tempo rastu.

Index relatívnej štruktúry predstavuje pomer konštrukčných častí skúmaného objektu a ich celku. Relatívny ukazovateľ štruktúry je vyjadrený v zlomkoch jednotky alebo v percentách. Vypočítané hodnoty (d i), nazývané podiely alebo špecifická hmotnosť, ukazujú, ktorý podiel má alebo ktorý špecifická hmotnosť má i-tu časť z celkového počtu.

Relatívne ukazovatele koordinácie charakterizovať pomer jednotlivých častí celku navzájom. Zároveň sa ako základ pre porovnanie vyberie časť, ktorá má najväčší podiel alebo je prioritná z ekonomického, sociálneho alebo iného hľadiska. Výsledkom je, koľko jednotiek každej konštrukčnej časti pripadá na 1 jednotku základnej konštrukčnej časti.

Indikátor relatívnej intenzity charakterizuje stupeň distribúcie skúmaného procesu alebo javu v jeho inherentnom prostredí. Tento ukazovateľ sa vypočíta, keď absolútna hodnota sa ukazuje ako nedostatočné na formulovanie rozumných záverov o rozsahu javu, jeho veľkosti, saturácii a hustote distribúcie. Môže byť vyjadrená v percentách, ppm alebo môže ísť o pomenovanú hodnotu. Rôzne relatívne ukazovatele intenzity sú relatívne ukazovatele úrovne eko-rozvoja, charakterizujúca produkciu na obyvateľa a hranie dôležitá úloha pri hodnotení vývoja ekonomiky štátu. Z hľadiska formy vyjadrenia sú tieto ukazovatele blízke priemerným ukazovateľom, čo často vedie k ich zámene alebo identifikácii. Rozdiel medzi nimi spočíva len v tom, že pri výpočte priemeru máme do činenia s množinou jednotiek, z ktorých každá je nositeľom priemernej vlastnosti.

Relatívny porovnávací index je pomer rovnomenných absolútnych ukazovateľov charakterizujúcich rôzne predmety(podniky, firmy, regióny, okresy atď.)

Variačné ukazovatele

Štúdium variácie (zmena hodnôt vlastnosti v rámci populácie) má veľký význam v štatistike a sociálnom a ekonomickom výskume všeobecne. Absolútne a relatívne ukazovatele variácie, charakterizujúce kolísanie hodnôt premenlivého atribútu, umožňujú najmä zmerať stupeň prepojenia a vzťahu, posúdiť stupeň homogenity populácie, typickosť a stabilitu priemer a určiť veľkosť možnej chyby pozorovania vzorky.

Absolútne ukazovatele variácie zahŕňajú rozsah variácie, priemer lineárna odchýlka, rozptyl, priemer smerodajná odchýlka a štvrťročná odchýlka.

Rozsah variácií ukazuje, do akej miery sa mení hodnota kvantitatívne premenlivého atribútu

R=xmax-xmin, kde xmax(xmin) je maximálna (minimálna) hodnota atribútu v súhrne (v distribučnom rade).

Stredná lineárna odchýlka d je definovaná ako priemerná hodnota od odchýlok charakteristík od priemeru na prvom stupni, prevzatých modulom:

Stredná lineárna odchýlka sa na posúdenie variácie znaku používa pomerne zriedkavo. Typicky sa vypočíta rozptyl a štandardná odchýlka.

Ak je potrebné porovnať kolísanie viacerých znakov v jednom súbore alebo rovnakého znaku vo viacerých súboroch s rôzne ukazovatele distribučné centrum, potom použite relatívne ukazovatele variácie.

Patria sem nasledujúce metriky:

1. Oscilačný koeficient:

2. Relatívna lineárna odchýlka:

3. Variačný koeficient:

4. Relatívny ukazovateľ kvartilovej variácie:

Najbežnejšie používaným meradlom relatívnej variácie je variačný koeficient. Tento ukazovateľ sa používa nielen na porovnávacie hodnotenie variácie, ale aj ako charakteristika homogenity populácie. Súbor sa považuje za homogénny, ak<0,33.

Formuláre.

1. Stat. výkazníctvo je taká organizačná forma, v ktorej jednotky pozorovateľov poskytujú informácie o svojej činnosti vo forme formulárov, regulačného aparátu.

Zvláštnosťou hlásenia je, že je povinne odôvodnené, povinné pri vykonávaní a právoplatne potvrdené podpisom vedúceho alebo zodpovednej osoby.

2. Špeciálne organizované pozorovanie je najvýraznejším a najjednoduchším príkladom tejto formy pozorovania. sčítanie ľudu. Sčítanie sa zvyčajne vykonáva v pravidelných intervaloch, súčasne na celom študovanom území v rovnakom čase.

Ruské štatistické orgány vykonávajú sčítanie obyvateľstva určitých typov osád a organizácií, materiálnych zdrojov, trvalých plantáží, stavebných objektov NZ atď.

4. Registračná forma pozorovania - založená na vedení štatistického registra. V registri každý jednotka obl-I har-Xia počet ukazovateľov. V domácej štatistickej praxi sú najpoužívanejšie registre us-I a p / p registre.

Evidencia obyvateľstva – vykonáva matričný úrad

Registrácia p / p - USREO lead.org. štatistiky.

Druhy.

možno rozdeliť do skupín podľa nasledujúceho. uvádzané:

a) v čase registrácie

b) z hľadiska pokrytia jednotiek nákladov

Podľa časového reg. oni sú:

Aktuálne (nepretržité)

Diskontinuálne (periodické a jednorazové)

Pri aktuálnom obs. zmeny javov a procesov sa zaznamenávajú tak, ako sa prijímajú (registrácia narodenia, úmrtia, sobáša, rozvodu atď.)

Pravidelné obs. vykonávané prostredníctvom intervaloch (N sčítanie každých 10 rokov)

Raz obs. koná sa buď nepravidelne, alebo len raz (referendum)

Podľa rozsahu cos stat obl. existujú:

pevný

diskontinuálne

Nepretržité pozorovanie. je prehľad všetkých jednotiek cos

Nekontinuálne pozorovanie predpokladá, že iba časť výskumu podlieha údržbe.

Existuje niekoľko typov prerušovaného pozorovania:

Hlavná metóda pole

Selektívny (seba)

monografická

Táto metóda je x-Xia v tom, že sa spravidla vyberie najviac tvorov, zvyčajne najväčšie jednotky. sovy v mačke. stredné prostriedky. súčasťou všetkých pozorovateľných znakov.

Pri monografickom pozorovaní pozorný an. podliehajú Jednotky študovať oh sovy alebo m.b. alebo typické pre tento cov-ti jednotiek. alebo predstavujú nejaké nové druhy javov.

Obs. s cieľom identifikovať alebo vznikajúce trendy vo vývoji tento jav.

Spôsoby

Priame pozorovanie

Dokumentárny observ.

Priamo volané. také pozorovateľné s mačkou registrátori sami priamym meraním, výpočtom, kontajnmentom zistia skutočnosť podliehajúcu evidencii a na základe toho urobia zápis do formulára.

Dokumentárna metóda obl. na základe použitia rôznych dokumentov ako zdrojov informácií, spravidla účtovného röntgenu (t.j. štatistického výkazníctva)

Anketa je metóda presviedčania s mačkou. potrebné informácie sa získavajú zo slov respondenta (t. j. respondenta) (ústne, korešpondentské, dotazníkové, súkromné ​​atď.)

Stanovenie výberových chýb.

V procese pozorovania vzoriek sa rozlišujú dva typy chýb: registrácia a reprezentatívnosť.

Chyby registrácie - odchýlky medzi hodnotou ukazovateľa získanou pri štatistickom sledovaní a jeho skutočnou hodnotou. Tieto chyby sa môžu objaviť počas nepretržitého aj nekontinuálneho pozorovania. Chyby pri registrácii sa vyskytujú v dôsledku nesprávnych alebo nepresných informácií. Zdrojmi tohto druhu chýb môže byť nepochopenie podstaty problému, nepozornosť zapisovateľa, vynechanie alebo opakované započítavanie jednotlivých jednotiek pozorovania. Chyby registrácie sa delia na systematický v dôsledku príčin pôsobiacich jedným smerom a vyhladzujúcich výsledky vyšetrenia (zaokrúhľovanie čísel), a náhodný, ktoré sú výsledkom pôsobenia rôznych náhodných faktorov (preusporiadanie susedných číslic). Náhodné chyby majú rôzne smery a pri dostatočne veľkom objeme skúmanej populácie sa navzájom rušia.

Chyby v reprezentatívnosti - odchýlky hodnôt ukazovateľa skúmanej populácie od jeho hodnoty v počiatočnej populácii. Tieto chyby sa tiež delia na systematický, objavujúce sa v dôsledku porušenia zásad výberu jednotiek, ktoré sa majú pozorovať z počiatočnej populácie, a náhodný ktoré vznikajú, ak vybraná populácia neúplne reprodukuje celú populáciu ako celok. Množstvo náhodných chýb sa dá odhadnúť.

Chyba pri odbere vzoriek- rozdiel medzi hodnotou atribútu v bežnej populácii a jeho hodnotou vypočítanou z výsledkov selektívneho pozorovania. V praxi výberových zisťovaní sa najčastejšie zisťujú priemerné a hraničné výberové chyby.

Priemerná výberová chyba pre rôzne metódy výberu sa vypočítava odlišne. Ak náhodný alebo mechanický výber, potom

Pre priemer: m \u003d s 2 / (n) 1/2

Pre zlomok: m = (w(1-w)/n) 1/2, kde

m - stredná výberová chyba

s 2 - všeobecný rozptyl

n - objem vzorkovací rámec

Ak je súbor vzoriek vytvorený na základe typickej vzorky a výber jednotiek sa vykonáva úmerne k objemu typických skupín, potom sa priemerná chyba rovná:

Pre stred: m = (si2/n) 1/2

Na zdieľanie: m = (wi (1-w i) / n) 1/2 , Kde

s i 2 - priemer vnútroskupinových rozptylov

w i je podiel jednotiek v celej skupine, ktoré majú študovaný znak.

s i 2 = ås 2 n i / ån i

Priemerná chyba sériového vzorkovania sa rovná:

Pre stred: m = (d x 2 / r) 1/2

Na zdieľanie: m = (d2 w/r) 1/2

d 2 w - medziskupinový rozptyl podielu

d x 2 - medziskupinová disperzia kvantitatívneho znaku.

r je počet vybraných sérií/

d 2 x \u003d å (x i -x) 2 / r

d 2 w \u003d å (w i - w) 2 / r

Ak sa výber jednotiek zo všeobecnej populácie vykonáva neopakovateľným spôsobom, upravia sa vzorce pre stredné chyby: (1-n/N) 1/2

Okrajová výberová chyba D sa vypočíta ako súčin faktora spoľahlivosti t a priemernej výberovej chyby: D = t*m. D súvisí s úrovňou pravdepodobnosti, ktorá to zaručuje. Táto úroveň určuje faktor spoľahlivosti t a naopak. Hodnoty t sú uvedené v špeciálnych matematických tabuľkách.

Určenie veľkosti vzorky.

Veľkosť vzorky sa počíta spravidla v štádiu projektovania výberového zisťovania. Vzorce na určenie veľkosti vzorky vyplývajú zo vzorcov pre hraničné výberové chyby.

Objem náhodných a mechanických opakovaných vzoriek sa určuje podľa vzorcov:

Pre priemer n \u003d t 2 s 2 / D 2

Na zdieľanie n \u003d t 2 w (1-w) / D 2

V prípade odberu vzoriek bez opakovaného pokusu:

Pre priemer n \u003d t 2 s 2 N / ND 2 + t 2 s 2

Na zdieľanie n = t2w(1-w)N / ND2+t2w(1-w).

Hodnoty sú 2 a w pred náhodným pozorovaním nie sú známe. Nachádzajú sa približne takto:

1. prevzaté z predchádzajúcich prieskumov;

2. ak sú známe maximálne a minimálne hodnoty atribútu, potom sa štandardná odchýlka určí podľa pravidla „tri sigma“:

s= xmax – xmin / 6

3. pri štúdiu alternatívneho znaku, ak neexistujú informácie o jeho podiele v bežnej populácii, sa berie maximálna možná hodnota w = 0,5

Pri typickom výbere, úmernom veľkosti typických skupín, je veľkosť vzorky pre každú skupinu určená vzorcom : n i = n*Ni / N, Kde

n i - veľkosť vzorky z i-tej skupiny

N i- objem i -tej skupiny v géne-tej cos-ti.

Pri vzorke úmernej variácii znaku sa veľkosť vzorky z každej skupiny zistí takto: n i = nN i s i /åN i s i.

Pri typickom prevzorkovaní úmernom veľkosti skupín sa celková veľkosť vzorky zistí takto:

Pre priemer n \u003d t 2 s 2 i / D 2

Na zdieľanie n \u003d t 2 w (1-w) / D 2

V prípade neopakujúceho sa typického odberu vzoriek:

Pre priemer n = t2s2i N/D2N+t2s2i

Na zdieľanie n = t2w(1-w)N / D2N+t2w(1-w)

Základné pojmy a predpoklady využitia korelačnej a regresnej analýzy.

Korelácia je štatistická závislosť medzi náhodnými premennými, ktoré nemajú striktne funkčný charakter, pri ktorej dochádza k zmene jednej z náhodné premenné vedie k zmene v matematickom očakávaní toho druhého.

Korelačná analýza- má za úlohu kvantitatívne určiť tesnosť spojenia medzi dvoma znakmi a medzi efektívnymi a mnohofaktorovými znakmi. Tesnosť spoja je kvantitatívne vyjadrená hodnotou korelačných koeficientov.

Korelácia-regresia analýza ako všeobecný pojem zahŕňa meranie tesnosti, smer komunikácie a stanovenie analytického vyjadrenia (formy) komunikácie (regresná analýza).

Regresná analýza spočíva v určení analytického vyjadrenia vzťahu, v ktorom je zmena jednej hodnoty (nazývaná závislá alebo efektívna vlastnosť) spôsobená vplyvom jednej alebo viacerých nezávislých hodnôt (faktorov) a súboru všetkých ostatných faktorov, ktoré ovplyvňujú aj závislú hodnotu, drieme pre konštantné a priemerné hodnoty. Regresia môže byť jednofaktorová (párová) a viacfaktorová (viacnásobná).

Účel regresnej analýzy je posúdenie funkčnej závislosti podmienenej priemernej hodnoty efektívneho atribútu (Y) na faktoriálových (x 1, x 2, ... x k) znamienkach.

Hlavná premisa regresnej analýzy je, že iba výsledné znamienko (Y) sa riadi zákonom normálneho rozdelenia a faktorové znaky x 1, x 2, ..., x k môžu mať ľubovoľný zákon rozdelenia. Pri analýze časových radov pôsobí čas t ako faktor faktora. Zároveň je v regresnej analýze vopred implikovaná prítomnosť kauzálnych vzťahov medzi efektívnymi (Y) faktoriálmi (x 1, x 2, ..., x k). Regresná rovnica alebo štatistický model vzťahu sociálno-ekonomických javov, vyjadrený funkciou Y x \u003d f (x 1, x 2, ..., x k), je celkom adekvátny reálnemu simulovanému javu alebo procesu. ak sa dodržia nasledujúce požiadavky na ich konštrukciu.

1. Úhrn počiatočných údajov, ktoré sa skúmajú, je homogénny a matematicky popísaný spojitými funkciami.

2. Možnosť popísať simulovaný jav jednou alebo viacerými rovnicami vzťahov príčina-následok.

3. Všetky znamienka faktorov musia mať kvantitatívne (číselné) vyjadrenie.

4. Prítomnosť dostatočne veľkého objemu skúmanej vzorky.

5. Vzťahy príčina-následok medzi javmi a procesmi by mali byť opísané v lineárnej alebo lineárnej forme závislosti.

6. Absencia kvantitatívnych obmedzení parametrov komunikačného modelu.

7. Stálosť územnej a časovej štruktúry skúmanej populácie.

Teoretická platnosť modelov vzťahov vybudovaných na základe korelačnej a regresnej analýzy je zabezpečená pozorovaním nasledujúcich základné podmienky.

1. Všetky znaky a ich spoločné rozdelenie sa musí riadiť zákonom o normálnom rozdelení;

2. Rozptyl modelovanej vlastnosti (Y) by mal vždy zostať konštantný pri zmene hodnoty (Y) a hodnôt faktorových vlastností.

3. Samostatné pozorovania by mali byť nezávislé, t. j. výsledky získané v i-tom pozorovaní by nemali súvisieť s predchádzajúcimi a mali by obsahovať informácie o následných pozorovaniach, ako aj ich ovplyvňovať.

SÚHRN CIELE A OBSAH

pozorovanie poskytuje informácie o každej jednotke skúmaného objektu. Získané údaje nie sú všeobecnými ukazovateľmi. S ich pomocou nie je možné vyvodiť závery o objekte ako celku bez predbežného spracovania údajov.

Cieľom ďalšej etapy štatistického výskumu je preto systematizovať primárne údaje a na tomto základe získať súhrnnú charakteristiku celého objektu pomocou zovšeobecňujúcich štatistických polí.

Zhrnutie – súbor sekvenčných operácií na zovšeobecnenie konkrétnych jednotlivých faktov, ktoré tvoria súbor, na identifikáciu typických znakov a vzorov, ktoré sú vlastné študovanému javu ako celku.

ak sa počas štatistického pozorovania zhromažďujú údaje o každej jednotke objektu, výsledkom súhrnu sú podrobné údaje, ktoré odrážajú celú populáciu ako celok

Štatistický sumár by sa mal vykonávať na základe predbežného teoretického rozboru javov a procesov tak, aby sa počas súhrnu nestratili informácie o skúmanom jave a všetky štatistické výsledky odrážali najdôležitejšie charakteristické znaky objektu.

Podľa hĺbky spracovania materiálu môže byť zhrnutie jednoduché a zložité.

Jednoduchým zhrnutím je operácia výpočtu súčtu pre rovnaké jednotky pozorovania.

Komplexné zhrnutie je súbor operácií, ktoré zahŕňajú zoskupovanie jednotiek pozorovania, počítanie súčtov za každú skupinu a za celý objekt a prezentáciu výsledkov zoskupovania a súhrnu vo forme štatistických tabuliek.

Súhrnu predchádza vypracovanie jeho programu, ktorý pozostáva z nasledujúcich etáp: výber charakteristík zoskupenia; určenie poradia vytvárania skupín; vývoj systému štatistických pok-lei na charakterizáciu skupín a objektu ako celku; vývoj systému usporiadania štatistických tabuliek, v ktorých by mali byť prezentované výsledky súhrnu.

Podľa formy spracovania materiálu súhrn: decentralizované a centralizované.

Pri decentralizovanom súhrne (používa sa spravidla pri spracovaní štatistického výkazníctva) sa tvorba materiálu uskutočňuje postupne. Správy podnikov sú teda zhrnuté štatistickými úradmi zakladajúcich subjektov Ruskej federácie a výsledky za región sa už posielajú Štátnemu výboru pre štatistiku Ruska a tam sa určuje, či národné hospodárstvo krajiny ako celok je určený.

Pri centralizovanom súhrne sa všetok primárny materiál dostáva do jednej organizácie, kde sa spracováva od začiatku do konca. Centralizovaný sumár sa zvyčajne používa na spracovanie materiálov z jednorazových štatistických zisťovaní.

Podľa techniky vyhotovenia sa štatistický súhrn delí na mechanizovaný a ručný.

Mechanizované zhrnutie - v ktorom sa všetky operácie vykonávajú pomocou elektronických počítačov. Pri manuálnych súhrnoch sa všetky základné operácie (výpočet skupinových a celkových súčtov) vykonávajú manuálne.

Na vykonanie súhrnu sa vypracuje plán, ktorý stanovuje organizačné otázky: kto a kedy vykoná všetky operácie, postup ich vykonania, zloženie informácií, ktoré sa majú uverejniť v periodickej tlači.

Uzatváranie radov din-ki

Pri analýze riadkov din-ki je potrebné ich uzavrieť - spojiť dva alebo viac riadkov do jedného radu. Uzávierka je potrebná v prípadoch, keď sú úrovne radov neporovnateľné z dôvodu územných zmien, z dôvodu zmien cien a z dôvodu zmeny metodiky výpočtu úrovní radov. je potrebné uzavrieť (spojiť) vyššie uvedené dva rady do jedného. Dá sa to urobiť pomocou faktora porovnateľnosti. Vynásobením údajov za rok získaným koeficientom dostaneme uzavretý (porovnateľný) rad dynamiky absolútnych hodnôt a po zmene sa berie ako 100% a zvyšok sa prepočítava v percentách vzhľadom na tieto úrovne, resp.

30. M-dy zarovnanie riadkov din-ki

Akákoľvek séria din-ki môže byť teoreticky reprezentovaná ako tri zložky:

Trend (hlavný trend a vývoj dynamickej série);

Cyklické (periodické) výkyvy vrátane sezónnych;

Náhodné výkyvy.

Jednou z úloh, ktoré vznikajú pri analýze dynamických radov, je zistiť zmeny v úrovniach skúmaného javu. V niektorých prípadoch je vzor zmien v úrovniach série din-ki celkom jasný, napríklad buď systematické znižovanie úrovní série, alebo ich zvyšovanie. niekedy úrovne série prechádzajú rôznymi zmenami (niekedy sa zvyšujú, niekedy sa znižujú). V tomto prípade môžeme hovoriť len o všeobecnom trende a vývoji: buď k rastu, alebo k poklesu.

Identifikácia hlavného trendu a vývoja (trendu) sa nazýva zarovnanie časového radu a m-dy identifikácia hlavného trendu m-dy vyrovnanie.

Priamy výber trendu môžu vykonať tri me-mi.

* Md hrubé intervaly. Toto md je založené na zväčšení časových línií, ktoré zahŕňajú úrovne série. Napríklad rad din-ki

denná produkcia je nahradená sériou mesačných projekcií produkcie atď.

* Md kĺzavý priemer. V tomto m-de sú počiatočné úrovne radu nahradené priemernými hodnotami, ktoré sa získajú z danej úrovne a niekoľkých symetricky obklopujúcich. Celočíselný počet úrovní, na ktorých sa vypočítava priemerná hodnota, sa nazýva interval vyhladzovania. Interval vyhladzovania môže byť nepárny (3, 5, 7 atď. bodov) alebo párny (2, 4, 6 atď. bodov). Výpočet priemerov sa vykonáva kĺzavou metódou, to znamená postupným vylúčením prvej úrovne z akceptovaného kĺzavého obdobia a zahrnutím ďalšej. Pri nepárnom vyhladzovaní sa výsledná aritmetická stredná hodnota priradí k stredu vypočítaného intervalu.

"-" m-dika vyhladzovania kĺzavými priemermi spočíva v konvenčnosti určovania vyhladených úrovní pre body na začiatku a na konci série.

* Analytické zosúladenie – je najefektívnejší spôsob identifikácie hlavného trendu a vývoja. V tomto prípade sú úrovne série dynamiky vyjadrené ako funkcia času: Yt=f(t)

Účelom analytického zoradenia din-tej série je určiť analyzovanú továreň f(t). V praxi sa podľa dostupného časového radu nastaví tvar a zistia parametre funkcie f(t) a následne sa analyzuje správanie odchýlok od trendu.

V ekonómii sa často používa funkcia tvaru: Уi = а0 +∑ ai +ti

Z funkcií formulára (3.12) sa najčastejšie pri vyrovnávaní používa lineárny systém / (*) \u003d ao + a1 * t alebo parabolický f (t) \u003d a0 + att + a2 t2.

Koeficienty ao,a,a2,...,ap nájdeme vo vzorci podľa najmenších štvorcov.

Podľa tejto metódy je na nájdenie parametrov polynómu p-tého stupňa potrebné vyriešiť systém takzvaných normálnych rovníc:

nao+a1∑t=∑Y

ao∑t+ a1∑t*t= ∑Y*t.

Trend ukazuje, ako systematické faktory ovplyvňujú úroveň din-ki. Kolísanie úrovní okolo trendu slúži ako miera vplyvu reziduálnych (náhodných) faktorov. Tento vplyv je možné posúdiť

podľa vzorca štandardnej odchýlky.

Základné pojmy korelačno-regresnej analýzy.

Názov parametra Význam
Predmet článku: Variačné série
Rubrika (tematická kategória) Výroba

Pozorované hodnoty náhodnej premennej X 1 , X 2 , …, x k volal možnosti.

Frekvencia možnosti X volám sa číslo n i (i=1,…,k), ktorý ukazuje, koľkokrát sa tento variant vyskytuje vo vzorke.

Frekvencia(relatívna frekvencia, podiely) opcie x i (i=1,…,k) sa zvyčajne nazýva pomer jeho frekvencie n i na veľkosť vzorky n.

Frekvencie a frekvencie sú tzv váhy.

Akumulovaná frekvencia je zvyčajné nazývať počet opcií, ktorých hodnoty sú menšie ako dané X:

Akumulovaná frekvencia Je obvyklé nazývať pomer akumulovanej frekvencie k veľkosti vzorky:

variačná séria(štatistický rad) - je zvykom nazývať postupnosť opcií zapísaných vo vzostupnom poradí a ich zodpovedajúce váhy.

Séria variácií by mala byť diskrétne(vzorka hodnôt diskrétnej náhodnej premennej) a nepretržitý (interval)(výber hodnôt spojitej náhodnej premennej).

Diskrétny variačný rad má tvar:

Keď je počet možností veľký alebo funkcia je spojitá (náhodná premenná môže mať akúkoľvek hodnotu v určitom intervale), sú interval variačná séria.

Ak chcete vytvoriť rad intervalových variácií, vykonajte zoskupenie možnosť - sú rozdelené do samostatných intervalov:

Počet intervalov sa niekedy určuje pomocou Sturgesove vzorce:

Potom sa vypočíta počet variantov, ktoré spadajú do každého intervalu - frekvencie n i(alebo frekvencia n i/n). Ak je variant na hranici intervalu, potom je pripojený k správnemu intervalu.

Intervalový variačný rad má tvar:

možnosti
Frekvencie

Empirická (štatistická) distribučná funkcia je zvykom volať funkciu, ktorej hodnota v bode X sa rovná relatívnej frekvencii, ktorú variant nadobudne hodnotu menšiu ako X(kumulatívna frekvencia pre X):

Frekvenčný polygón sa nazýva lomená čiara, ktorej segmenty spájajú body so súradnicami ( X 1 ; n 1), (X 2 ; n 2), …, (x k; nk). The frekvenčný polygón, čo je štatistická analógia distribučného polygónu.

Stojí za to povedať, že pre súvislý variačný rad možno vytvoriť polygón, ak sú hodnoty X 1 , X 2 , …, x k vziať stredy intervalov.

Séria intervalových variácií je zvyčajne graficky znázornená pomocou histogramy.

stĺpcový graf- stupňovitý útvar pozostávajúci z obdĺžnikov, ktorých základňami sú čiastočné dĺžkové intervaly h= x i +1 – x i, i= 0,…,k-1 a výšky sa rovnajú frekvenciám (alebo frekvenciám) intervalov n i (w i).

Kumulovať(kumulatívna krivka) - krivka akumulovaných frekvencií (frekvencií). Pre diskrétne série kumulát je prerušovaná čiara spájajúca body alebo , . Pre intervalové série kumulovať začína od bodu, ktorého úsečka sa rovná začiatku prvého intervalu a ordináta je akumulovaná frekvencia (frekvencia) rovná nule. Ostatné body tejto prerušovanej čiary zodpovedajú koncom intervalov.

Variačné série - koncepcia a typy. Klasifikácia a vlastnosti kategórie "Séria variácií" 2017, 2018.

  • - Variačný rad distribúcie

    Rozdelenie maloobchodného obratu v Ruskej federácii v roku 1995 podľa typu vlastníctva, milióny rubľov Typy distribučných sérií Prednáška VIII. Distribučné rady V dôsledku spracovania a systematizácie primárnych štatistických údajov získavajú ....


  • - Séria variácií

    Najjednoduchšou transformáciou štatistických údajov je ich zoradenie podľa veľkosti. Veľkosť vzorky z bežnej populácie, zoradená v neklesajúcom poradí prvkov, t.j. , sa nazýva variačný rad: . V prípade, že objem pozorovaní ... .


  • - Úloha 2. Intervalový variačný rad

    1. Na základe danej vzorky zodpovedajúcej variantu úlohy zostavte intervalový variačný rad; vytvorte histogram a kumulujte ho (použite dve metódy: vloženie grafu Excel a režim "Histogram" balíka "Analýza údajov"). 2. Analyzujte výsledný histogram. ... .


  • - Zostavte sériu variácií variability znaku semien fazule alebo listov ktorejkoľvek rastliny rovnakého veku. Odhaľ vzorce variability vlastností.

    Populácia je štrukturálna jednotka druhu. Počet populácií. Príčiny populačných výkyvov. Vzťah jedincov v populáciách a medzi rôznymi populáciami toho istého a rôznych druhov. 1. Dôležitým znakom druhu je jeho rozšírenie v skupinách, populáciách v ...

  • Variačné série: definícia, typy, hlavné charakteristiky. Spôsob výpočtu
    móda, medián, aritmetický priemer v lekárskych a štatistických štúdiách
    (Ukážte na podmienenom príklade).

    Variačný rad je séria číselných hodnôt študovaného znaku, ktoré sa navzájom líšia svojou veľkosťou a nachádzajú sa v určitú postupnosť(vo vzostupnom alebo zostupnom poradí). Každá číselná hodnota radu sa nazýva variant (V) a čísla, ktoré ukazujú, ako často sa ten alebo ten variant vyskytuje v zložení tohto radu, sa nazývajú frekvencia (p).

    Celkový počet prípadov pozorovaní, z ktorých variačný rad pozostáva, sa označuje písmenom n. Rozdiel vo význame skúmaných charakteristík sa nazýva variácia. Ak premenný znak nemá kvantitatívnu mieru, variácia sa nazýva kvalitatívna a distribučný rad sa nazýva atribút (napríklad rozdelenie podľa výsledku choroby, zdravotného stavu atď.).

    Ak má premenné znamienko kvantitatívne vyjadrenie, takáto variácia sa nazýva kvantitatívna a distribučný rad sa nazýva variačný.

    Variačné rady sa delia na nespojité a spojité – podľa charakteru kvantitatívneho znaku, jednoduché a vážené – podľa frekvencie výskytu variantu.

    V jednoduchom variačnom rade sa každý variant vyskytuje len raz (p=1), vo váženom sa ten istý variant vyskytuje viackrát (p>1). Príklady takýchto sérií budú diskutované ďalej v texte. Ak kvantitatívna vlastnosť je spojitá, t.j. medzi celými číslami sú medziľahlé zlomkové množstvá, variačný rad sa nazýva spojitý.

    Napríklad: 10,0 - 11,9

    14,0 - 15,9 atď.

    Ak je kvantitatívny znak nespojitý, t.j. jeho jednotlivé hodnoty (varianty) sa navzájom líšia o celé číslo a nemajú medziprodukt zlomkové hodnoty, variačný rad sa nazýva nespojitý alebo diskrétny.

    Použitie údajov z predchádzajúceho príkladu o srdcovej frekvencii

    pre 21 žiakov zostavíme variačný rad (tabuľka 1).

    stôl 1

    Rozdelenie študentov medicíny podľa pulzovej frekvencie (bpm)

    Teda zostaviť variačné série znamená dostupné číselné hodnoty(možnosti) systematizovať, zefektívniť, t.j. usporiadať v určitom poradí (vo vzostupnom alebo zostupnom poradí) so zodpovedajúcimi frekvenciami. V uvažovanom príklade sú možnosti usporiadané vzostupne a sú vyjadrené ako nespojité (diskrétne) celé čísla, každá možnosť sa vyskytuje niekoľkokrát, t.j. máme do činenia s váženým, nespojitým alebo diskrétnym variačným radom.

    Spravidla, ak počet pozorovaní v štatistickej populácii, ktorú študujeme, nepresahuje 30, potom stačí usporiadať všetky hodnoty študovaného znaku do variačných radov v rastúcom poradí, ako je uvedené v tabuľke. 1 alebo v zostupnom poradí.

    o vo veľkom počte pozorovaní (n>30), počet vyskytujúcich sa variantov môže byť veľmi veľký, v tomto prípade sa zostavuje intervalový alebo zoskupený variačný rad, v ktorom sa pre zjednodušenie následného spracovania a objasnenie charakteru rozdelenia varianty spájajú do skupín .

    Zvyčajne číslo skupinová možnosť sa pohybuje od 8 do 15.

    Musí ich byť aspoň 5, pretože. v opačnom prípade bude príliš hrubé, nadmerné zväčšenie, ktoré skresľuje celkový obraz variácií a výrazne ovplyvňuje presnosť priemerných hodnôt. Keď je počet skupinových možností viac ako 20-25, presnosť výpočtu priemerných hodnôt sa zvyšuje, ale vlastnosti variácie atribútu sú výrazne skreslené a matematické spracovanie sa stáva komplikovanejším.

    Pri zostavovaní zoskupenej série je potrebné brať do úvahy

    − skupiny variantov musia byť umiestnené v určitom poradí (vzostupne alebo zostupne);

    - intervaly v skupinách variantov by mali byť rovnaké;

    − hodnoty hraníc intervalov by sa nemali zhodovať, pretože nebude jasné, v ktorých skupinách priradiť jednotlivé možnosti;

    - pri stanovovaní limitov intervalov je potrebné brať do úvahy kvalitatívne vlastnosti zozbieraného materiálu (napríklad pri štúdiu hmotnosti dospelých je prijateľný interval 3-4 kg a pre deti v prvých mesiacoch Životnosť by nemala presiahnuť 100 g.)

    Zostavme skupinový (intervalový) rad, ktorý charakterizuje údaje o tepovej frekvencii (počet úderov za minútu) pre 55 študentov medicíny pred skúškou: 64, 66, 60, 62,

    64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

    64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

    79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

    Na vytvorenie zoskupenej série potrebujete:

    1. Určte hodnotu intervalu;

    2. Určte stred, začiatok a koniec skupín variantu variačného radu.

    ● Hodnota intervalu (i) je určená počtom očakávaných skupín (r), ktorých počet je stanovený v závislosti od počtu pozorovaní (n) podľa osobitnej tabuľky

    Počet skupín v závislosti od počtu pozorovaní:

    V našom prípade pre 55 študentov je možné vytvoriť 8 až 10 skupín.

    Hodnota intervalu (i) je určená nasledujúcim vzorcom -

    i = Vmax-Vmin/r

    V našom príklade je hodnota intervalu 82-58/8= 3.

    Ak je hodnota intervalu zlomkové číslo, výsledok by mal byť zaokrúhlený nahor na celé číslo.

    Existuje niekoľko typov priemerov:

    aritmetický priemer,

    geometrický priemer,

    ● harmonický priemer,

    odmocnina stredná štvorec,

    ● stredne progresívny,

    ● medián

    V lekárskej štatistike sa najčastejšie používajú aritmetické priemery.

    Stredná aritmetická hodnota(M) je zovšeobecňujúca hodnota, ktorá určuje typické, ktoré je charakteristické pre celú populáciu. Hlavné metódy výpočtu M sú: metóda aritmetického priemeru a metóda momentov (podmienené odchýlky).

    Metóda aritmetického priemeru sa používa na výpočet jednoduchého aritmetického priemeru a váženého aritmetického priemeru. Výber metódy na výpočet aritmetického priemeru závisí od typu variačného radu. V prípade jednoduchého variačného radu, v ktorom sa každý variant vyskytuje iba raz, sa aritmetický jednoduchý priemer určí podľa vzorca:

    kde: М – aritmetický priemer;

    V je hodnota premennej funkcie (opcií);

    Σ - označuje činnosť - súčet;

    n je celkový počet pozorovaní.

    Príklad výpočtu aritmetického priemeru je jednoduchý. Frekvencia dýchania (počet nádychov a výdychov za minútu) u 9 mužov vo veku 35 rokov: 20, 22, 19, 15, 16, 21, 17, 23, 18.

    Na určenie priemernej úrovne dychovej frekvencie u mužov vo veku 35 rokov je potrebné:

    1. Vytvorte sériu variácií umiestnením všetkých možností vo vzostupnom alebo zostupnom poradí. Získali sme jednoduchú sériu variácií, pretože variantné hodnoty sa vyskytujú iba raz.

    M = ∑V/n = 171/9 = 19 dychov za minútu

    Záver. Frekvencia dýchania u mužov vo veku 35 rokov je v priemere 19 dýchacie pohyby za minútu.

    Ak sa jednotlivé hodnoty variantu opakujú, nie je potrebné vypisovať každý variant do riadku, stačí uviesť veľkosti variantu, ktoré sa vyskytujú (V) a vedľa uviesť počet ich opakovaní (p ). takýto variačný rad, v ktorom sú opcie akoby vážené podľa počtu im zodpovedajúcich frekvencií, sa nazýva vážený variačný rad a vypočítaná priemerná hodnota je aritmetický vážený priemer.

    Aritmetický vážený priemer je určený vzorcom: M= ∑Vp/n

    kde n je počet pozorovaní, rovná súčtu frekvencie - Σr.

    Príklad výpočtu aritmetického váženého priemeru.

    Trvanie invalidity (v dňoch) u 35 pacientov s akútnymi respiračnými ochoreniami (ARI), ktorí boli liečení miestnym lekárom počas prvého štvrťroka aktuálny rok bolo: 6, 7, 5, 3, 9, 8, 7, 5, 6, 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6, 7 dní.

    Metóda na určenie priemerného trvania invalidity u pacientov s akútnymi respiračnými infekciami je nasledovná:

    1. Zostavme vážený variačný rad, pretože hodnoty jednotlivých variantov sa niekoľkokrát opakujú. Ak to chcete urobiť, môžete usporiadať všetky možnosti vo vzostupnom alebo zostupnom poradí s ich zodpovedajúcimi frekvenciami.

    V našom prípade sú možnosti vo vzostupnom poradí.

    2. Vypočítajte aritmetický vážený priemer pomocou vzorca: M = ∑Vp/n = 233/35 = 6,7 dňa

    Rozdelenie pacientov s akútnymi respiračnými infekciami podľa dĺžky invalidity:

    Trvanie práceneschopnosti (V) Počet pacientov (p) vp
    ∑p = n = 35 ∑Vp = 233

    Záver. Dĺžka trvania invalidity u pacientov s akútnymi respiračnými ochoreniami bola v priemere 6,7 dňa.

    Mode (Mo) je najbežnejším variantom v sérii variácií. Pre rozdelenie uvedené v tabuľke režim zodpovedá variantu rovnajúcemu sa 10, vyskytuje sa častejšie ako ostatné - 6-krát.

    Rozdelenie pacientov podľa dĺžky pobytu nemocničné lôžko(v dňoch)

    V
    p

    Niekedy je ťažké určiť presnú hodnotu režimu, pretože v skúmaných údajoch môže byť niekoľko pozorovaní, ktoré sa vyskytujú „najčastejšie“.

    Medián (Me) je neparametrický indikátor, ktorý rozdeľuje sériu variácií na dve rovnaké polovice: na oboch stranách mediánu je rovnaké číslo možnosť.

    Napríklad pre rozdelenie uvedené v tabuľke je medián 10, pretože na oboch stranách tejto hodnoty sa nachádza na 14. možnosti, t.j. zaberá číslo 10 centrálna poloha v tejto sérii je jej medián.

    Vzhľadom na to, že počet pozorovaní v tomto príklade je párny (n=34), medián možno určiť takto:

    Ja = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

    To znamená, že stred série pripadá na sedemnástu možnosť, čo zodpovedá mediánu 10. Pre rozdelenie uvedené v tabuľke je aritmetický priemer:

    M = ∑Vp/n = 334/34 = 10,1

    Takže pre 34 pozorovaní z tabuľky. 8, dostali sme: Mo=10, Me=10, aritmetický priemer (M) je 10,1. V našom príklade sa ukázalo, že všetky tri ukazovatele sú rovnaké alebo blízko seba, hoci sú úplne odlišné.

    Aritmetický priemer je výsledný súčet všetkých vplyvov, na jeho tvorbe sa podieľajú všetky varianty bez výnimky, vrátane extrémnych, často atypických pre daný jav alebo súbor.

    Modus a medián, na rozdiel od aritmetického priemeru, nezávisia od hodnoty všetkých individuálnych hodnôt premenlivé znamienko (hodnoty extrémneho variantu a stupeň rozptylu série). Aritmetický priemer charakterizuje celý objem pozorovaní, modus a medián charakterizuje objem

    Séria variácií – séria, v ktorej sa porovnávajú (vo vzostupnom alebo zostupnom poradí) možnosti a ich príslušné frekvencie

    Varianty sú samostatné kvantitatívne vyjadrenia vlastnosti. Určené latinské písmeno V . klasické chápanie pojem "variant" znamená, že každý jedinečná hodnota funkciu, bez ohľadu na počet opakovaní.

    Napríklad vo variačnej sérii ukazovateľov systol krvný tlak namerané u desiatich pacientov:

    110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

    iba 6 hodnôt je možností:

    110, 120, 130, 140, 160, 170.

    Frekvencia je číslo označujúce, koľkokrát sa možnosť opakuje. Označuje sa latinským písmenom P . Súčet všetkých frekvencií (ktorý sa samozrejme rovná počtu všetkých študovaných) sa označuje ako n.

      V našom príklade budú frekvencie nadobúdať nasledujúce hodnoty:
    • pre variant 110 frekvencia P = 1 (hodnota 110 sa vyskytuje u jedného pacienta),
    • pre variant 120 frekvencia P = 2 (hodnota 120 sa vyskytuje u dvoch pacientov),
    • pre variant 130 frekvencia P = 3 (hodnota 130 sa vyskytuje u troch pacientov),
    • pre variant 140 frekvencia P = 2 (hodnota 140 sa vyskytuje u dvoch pacientov),
    • pre variant 160 frekvencia P = 1 (hodnota 160 sa vyskytuje u jedného pacienta),
    • pre variant 170 frekvencia P = 1 (hodnota 170 sa vyskytuje u jedného pacienta),

    Typy variačných sérií:

    1. jednoduché- ide o sériu, v ktorej sa každá možnosť vyskytuje iba raz (všetky frekvencie sú rovné 1);
    2. pozastavené- séria, v ktorej sa opakovane vyskytuje jedna alebo viac možností.

    Séria variácií sa používa na opis veľkých polí čísel; v tejto forme sú na začiatku prezentované zozbierané údaje väčšiny. zdravotný výskum. Na charakterizáciu variačných radov sa počítajú špeciálne ukazovatele vrátane priemerných hodnôt, ukazovateľov variability (tzv. rozptyl), ukazovateľov reprezentatívnosti výberových údajov.

    Indikátory série variácií

    1) Aritmetický priemer je zovšeobecňujúci ukazovateľ, ktorý charakterizuje veľkosť študovaného znaku. Aritmetický priemer je označený ako M , je najbežnejším typom priemeru. Aritmetický priemer sa vypočíta ako pomer súčtu hodnôt ukazovateľov všetkých jednotiek pozorovania k počtu všetkých skúmaných. Metóda výpočtu aritmetického priemeru sa líši pre jednoduchý a vážený rad variácií.

    Vzorec na výpočet jednoduchý aritmetický priemer:

    Vzorec na výpočet vážený aritmetický priemer:

    M = Σ(V*P)/n

    ​ 2) Režim - ďalšia priemerná hodnota variačného radu, zodpovedajúca najčastejšie opakovanému variantu. Alebo inak povedané, toto je možnosť, ktorá zodpovedá najvyššej frekvencii. Označený ako Mo . Režim sa počíta len pre vážené série, keďže v jednoduché riadkyžiadna z možností sa neopakuje a všetky frekvencie sú rovné jednej.

    Napríklad v sérii variácií hodnôt srdcovej frekvencie:

    80, 84, 84, 86, 86, 86, 90, 94;

    hodnota režimu je 86, keďže tento variant sa vyskytuje 3-krát, preto je jeho frekvencia najvyššia.

    3) Medián - hodnota opcie, deliaca sériu variácií na polovicu: na oboch jej stranách je rovnaký počet možnosť. Medián, ako aj aritmetický priemer a režim sa vzťahujú na priemerné hodnoty. Označený ako ja

    4) Smerodajná odchýlka (synonymá: smerodajná odchýlka, odchýlka sigma, sigma) - miera variability radu variácií. Ide o integrálny ukazovateľ, ktorý kombinuje všetky prípady odchýlky variantu od priemeru. V skutočnosti odpovedá na otázku: ako ďaleko a ako často sa opcie šíria od aritmetického priemeru. Označené Grécke písmeno σ ("sigma").

    Ak je veľkosť populácie väčšia ako 30 jednotiek, štandardná odchýlka sa vypočíta pomocou nasledujúceho vzorca:

    Pre malé populácie – 30 jednotiek pozorovania alebo menej – sa štandardná odchýlka vypočíta pomocou iného vzorca:

    Nazvime rôzne vzorové hodnoty možnosti rad hodnôt a označujú: X 1 , X 2, …. V prvom rade si vyrobme rozsah možnosti, t.j. usporiadajte ich vo vzostupnom alebo zostupnom poradí. Pri každej možnosti je uvedená jej vlastná hmotnosť, t.j. číslo, ktoré charakterizuje prínos tejto možnosti k celkový počet obyvateľov. Frekvencie alebo frekvencie pôsobia ako závažia.

    Frekvencia n i možnosť x i volal číslo, ktoré ukazuje, koľkokrát sa táto možnosť vyskytuje v uvažovanej vzorke populácie.

    Frekvencia alebo relatívna frekvencia w i možnosť x ičíslo sa volá rovný pomeru frekvencia variantu k súčtu frekvencií všetkých variantov. Frekvencia ukazuje, aká časť jednotiek výberovej populácie má daný variant.

    Postupnosť možností s ich zodpovedajúcimi váhami (frekvenciami alebo frekvenciami), zapísaná vo vzostupnom (alebo zostupnom) poradí, sa nazýva variačný rad.

    Variačné rady sú diskrétne a intervalové.

    Pre diskrétne variačné série sú špecifikované bodové hodnoty atribútu, pre intervalové série sú hodnoty atribútov špecifikované vo forme intervalov. Variačné rady môžu zobrazovať rozdelenie frekvencií resp relatívnych frekvencií(frekvencie), v závislosti od toho, ktorá hodnota je uvedená pre každú možnosť - frekvencia alebo frekvencia.

    Diskrétne variačné série frekvenčného rozdelenia vyzerá ako:

    Frekvencie sa nachádzajú podľa vzorca , i = 1, 2, …, m.

    w 1 +w 2 + … + w m = 1.

    Príklad 4.1. Pre danú množinu čísel

    4, 6, 6, 3, 4, 9, 6, 4, 6, 6

    stavať diskrétne variačná séria rozdelenia frekvencií a frekvencií.

    Riešenie . Objem obyvateľstva je n= 10. Diskrétny rad rozdelenia frekvencií má tvar

    Podobnú formu záznamu majú aj intervalové série.

    Intervalový variačný rad frekvenčného rozdelenia sa píše ako:

    Súčet všetkých frekvencií sa rovná celkovému počtu pozorovaní, t.j. celkový objem: n = n 1 +n 2 + … + n m .

    Intervalové variačné série distribúcie relatívnych frekvencií (frekvencií) vyzerá ako:

    Frekvencia sa zistí podľa vzorca , i = 1, 2, …, m.

    Súčet všetkých frekvencií sa rovná jednej: w 1 +w 2 + … + w m = 1.

    V praxi sa najčastejšie používajú intervalové série. Ak existuje veľa štatistických údajov o vzorke a ich hodnoty sa navzájom ľubovoľne líšia malé množstvo, potom bude diskrétny rad pre tieto údaje dosť ťažkopádny a nepohodlný daľší výskum. V tomto prípade sa používa zoskupovanie údajov, t.j. interval obsahujúci všetky hodnoty atribútu je rozdelený do niekoľkých čiastkových intervalov a po vypočítaní frekvencie pre každý interval sa získa intervalový rad. Rozpíšme si podrobnejšie schému zostrojenia intervalového radu za predpokladu, že dĺžky čiastkových intervalov budú rovnaké.

    2.2 Zostavenie intervalového radu

    Na zostavenie intervalovej série potrebujete:

    Určite počet intervalov;

    Určite dĺžku intervalov;

    Určte umiestnenie intervalov na osi.

    Na určenie počet intervalov k Existuje Sturgesov vzorec, podľa ktorého

    ,

    Kde n- objem celku.

    Napríklad, ak existuje 100 charakteristických hodnôt (variant), na vytvorenie série intervalov sa odporúča použiť počet intervalov rovný intervalom.

    V praxi však veľmi často počet intervalov volí sám výskumník, pričom berie do úvahy, že toto číslo by nemalo byť príliš veľké, aby rad nebol ťažkopádny, ale ani veľmi malý, aby sa nestratili niektoré vlastnosti. distribúcia.

    Dĺžka intervalu h sa určuje podľa nasledujúceho vzorca:

    ,

    Kde X max a X min je najväčšia a najviac malá hodnota možnosti.

    hodnota volal vo veľkom meradle riadok.

    Aby sa vytvorili samotné intervaly, postupujú rôznymi spôsobmi. Jeden z najviac jednoduchými spôsobmi je nasledujúca. Hodnota sa berie ako začiatok prvého intervalu
    . Potom sa zvyšok hraníc intervalov nájde podľa vzorca . Je zrejmé, že koniec posledného intervalu a m+1 musí spĺňať podmienku

    Po nájdení všetkých hraníc intervalov sa určia frekvencie (alebo frekvencie) týchto intervalov. Na vyriešenie tohto problému si prezrú všetky možnosti a určia počet možností, ktoré spadajú do konkrétneho intervalu. Kompletná konštrukcia Pozrime sa na intervalový rad na príklade.

    Príklad 4.2. Pre nasledujúcu štatistiku napísanú vo vzostupnom poradí vytvorte intervalový rad s počtom intervalov rovným 5:

    11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

    Riešenie. Celkom n=50 variantných hodnôt.

    Počet intervalov je uvedený v problémovej podmienke, t.j. k=5.

    Dĺžka intervalov je
    .

    Definujme hranice intervalov:

    a 1 = 11 − 8,5 = 2,5; a 2 = 2,5 + 17 = 19,5; a 3 = 19,5 + 17 = 36,5;

    a 4 = 36,5 + 17 = 53,5; a 5 = 53,5 + 17 = 70,5; a 6 = 70,5 + 17 = 87,5;

    a 7 = 87,5 +17 = 104,5.

    Na určenie frekvencie intervalov spočítame počet možností, ktoré spadajú do tohto intervalu. Napríklad možnosti 11, 12, 12, 14, 14, 15 spadajú do prvého intervalu od 2,5 do 19,5. Ich počet je 6, preto je frekvencia prvého intervalu n 1 = 6. Frekvencia prvého intervalu je . Do druhého intervalu od 19,5 do 36,5 spadajú varianty 21, 21, 22, 23, 25, ktorých počet je 5. Preto je frekvencia druhého intervalu n 2 = 5 a frekvenciu . Po podobnom zistení frekvencií a frekvencií pre všetky intervaly dostaneme nasledujúci rad intervalov.

    Intervalový rad frekvenčného rozdelenia má tvar:

    Súčet frekvencií je 6+5+9+11+8+11=50.

    Intervalový rad frekvenčného rozdelenia má tvar:

    Súčet frekvencií je 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

    Pri konštrukcii intervalových radov možno v závislosti od konkrétnych podmienok uvažovaného problému použiť aj iné pravidlá, a to

    1. Séria variácií intervalov môže pozostávať z čiastkových intervalov rôzne dĺžky. Nerovnaké dĺžky intervalov umožňujú vyčleniť vlastnosti štatistickej populácie s nerovnomerným rozložením znaku. Napríklad, ak hranice intervalov určujú počet obyvateľov v mestách, potom je vhodné v tomto probléme použiť intervaly, ktoré nie sú rovnako dlhé. Je zrejmé, že pre veľké mestá záležitosti a nie veľký rozdiel v počte obyvateľov a pre veľké mestá nie je rozdiel v desiatkach a stovkách obyvateľov výrazný. intervalové série s nerovnakými dĺžkami čiastkových intervalov sa študujú najmä v všeobecná teóriaštatistiky a ich zohľadnenie presahuje rámec tohto návodu.

    2. V matematickej štatistiky niekedy sa uvažuje o intervalových radoch, pri ktorých sa predpokladá, že ľavá hranica prvého intervalu sa rovná –∞ a pravá hranica posledného intervalu je +∞. To sa robí s cieľom priniesť štatistické rozdelenie k teoretickému.

    3. Pri konštrukcii intervalových radov sa môže ukázať, že hodnota niektorého variantu sa presne zhoduje s hranicou intervalu. V tomto prípade je najlepšie urobiť nasledovné. Ak existuje len jedna takáto náhoda, potom uvažujte, že uvažovaný variant svojou frekvenciou spadá do intervalu umiestneného bližšie k stredu intervalového radu, ak existuje niekoľko takýchto variantov, potom sa buď všetky priradia k intervalom do vpravo od týchto variantov alebo všetky vľavo.

    4. Po určení počtu intervalov a ich dĺžky je možné umiestnenie intervalov vykonať iným spôsobom. Nájdite aritmetický priemer všetkých uvažovaných hodnôt možností X porov. a zostavte prvý interval takým spôsobom, že tento vzorový priemer by bol vnútri nejakého intervalu. Dostaneme teda interval z X porov. – 0,5 h predtým X priemer + 0,5 h. Potom doľava a doprava, pripočítajúc dĺžku intervalu, postavíme zostávajúce intervaly do X min a X max nebude spadať do prvého a posledného intervalu, resp.

    5. Intervalové série pre veľké čísla Intervaly je vhodné písať vertikálne, t.j. zaznamenajte intervaly nie v prvom riadku, ale v prvom stĺpci a frekvencie (alebo frekvencie) v druhom stĺpci.

    Vzorové údaje možno považovať za hodnoty nejakej náhodnej premennej X. Náhodná premenná má svoj vlastný distribučný zákon. Z teórie pravdepodobnosti je známe, že zákon rozdelenia diskrétnej náhodnej premennej možno špecifikovať ako distribučný rad a pre spojitý pomocou funkcie hustoty rozdelenia. Existuje však univerzálny distribučný zákon, ktorý platí pre diskrétne aj spojité náhodné premenné. Tento distribučný zákon je daný ako distribučná funkcia F(X) = P(X<X). Pre vzorové údaje môžete zadať analóg distribučnej funkcie - empirickú distribučnú funkciu.


    Podobné informácie.