Čo je odber vzoriek v štatistike. Problémy so všeobecným podielom

Celkový počet objektov pozorovania (ľudí, domácností, podnikov, sídiel atď.) s určitým súborom charakteristík (pohlavie, vek, príjem, počet, obrat atď.), obmedzených v priestore a čase. Príklady populácie

  • Všetci obyvatelia Moskvy (10,6 milióna ľudí podľa sčítania ľudu v roku 2002)
  • Moskovskí muži (4,9 milióna podľa sčítania ľudu v roku 2002)
  • Ruské právnické osoby (2,2 milióna na začiatku roku 2005)
  • Maloobchodné predajne potravín (20 tis. na začiatku roka 2008) atď.

Vzorka (vzorka populácie)

Časť objektov z populácie vybraných na štúdium s cieľom vyvodiť záver o celej populácii. Aby sa záver získaný štúdiom vzorky rozšíril na celú populáciu, vzorka musí mať vlastnosť reprezentatívnosti.

Ukážková reprezentatívnosť

Vlastnosť vzorky správne odrážať všeobecnú populáciu. Tá istá vzorka môže, ale nemusí byť reprezentatívna pre rôzne populácie.
Príklad:

  • Vzorka pozostávajúca výlučne z Moskovčanov, ktorí vlastnia auto, nepredstavuje celú populáciu Moskvy.
  • Vzorka ruských podnikov do 100 zamestnancov nepredstavuje všetky podniky v Rusku.
  • Vzorka Moskovčanov, ktorí nakupujú na trhu, nepredstavuje nákupné správanie všetkých Moskovčanov.

Zároveň tieto vzorky (za iných podmienok) môžu dokonale reprezentovať moskovských majiteľov automobilov, malé a stredné ruské podniky a kupujúcich nakupujúcich na trhoch, resp.
Je dôležité pochopiť, že reprezentatívnosť vzorky a výberová chyba sú rozdielne javy. Reprezentatívnosť, na rozdiel od chyby, nezávisí od veľkosti vzorky.
Príklad:
Bez ohľadu na to, ako veľmi zvýšime počet opýtaných Moskovčanov-majiteľov áut, touto vzorkou nebudeme môcť zastupovať všetkých Moskovčanov.

Chyba vzorkovania (interval spoľahlivosti)

Odchýlka výsledkov získaných pomocou pozorovania vzorky od skutočných údajov bežnej populácie.
Existujú dva typy výberových chýb: štatistické a systematické. Štatistická chyba závisí od veľkosti vzorky. Čím väčšia je veľkosť vzorky, tým je nižšia.
Príklad:
Pre jednoduchú náhodnú vzorku 400 jednotiek je maximálna štatistická chyba (s 95% spoľahlivosťou) 5%, pre vzorku 600 jednotiek - 4%, pre vzorku 1100 jednotiek - 3%.
Systematická chyba závisí od rôznych faktorov, ktoré majú neustály vplyv na štúdiu a skresľujú výsledky štúdie určitým smerom.
Príklad:

  • Použitie akejkoľvek pravdepodobnostnej vzorky podhodnocuje podiel ľudí s vysokými príjmami, ktorí sú aktívni. Je to spôsobené tým, že takýchto ľudí je oveľa ťažšie nájsť na akomkoľvek konkrétnom mieste (napríklad doma).
  • Problém respondentov, ktorí odmietajú odpovedať na otázky (podiel „refusenikov“ v Moskve sa v rôznych prieskumoch pohybuje od 50 % do 80 %)

V niektorých prípadoch, keď sú známe skutočné rozdelenia, možno skreslenie vyrovnať zavedením kvót alebo prehodnotením údajov, ale vo väčšine skutočných štúdií môže byť dokonca odhadnutie dosť problematické.

Typy vzoriek

Vzorky sú rozdelené do dvoch typov:

  • pravdepodobnostný
  • nepravdepodobnosť

1. Vzorky pravdepodobnosti
1.1 Náhodný výber (jednoduchý náhodný výber)
Takáto vzorka predpokladá homogenitu všeobecnej populácie, rovnakú pravdepodobnosť dostupnosti všetkých prvkov, prítomnosť úplného zoznamu všetkých prvkov. Pri výbere prvkov sa spravidla používa tabuľka náhodných čísel.
1.2 Mechanický (systematický) odber vzoriek
Druh náhodnej vzorky, zoradený podľa nejakého atribútu (abecedné poradie, telefónne číslo, dátum narodenia atď.). Prvý prvok sa vyberie náhodne, potom sa vyberie každý 'k'-tý prvok v prírastkoch 'n'. Veľkosť všeobecnej populácie, pričom - N=n*k
1.3 Stratifikovaný (zónový)
Používa sa v prípade heterogenity bežnej populácie. Všeobecná populácia sa delí na skupiny (vrstvy). V každej vrstve sa výber uskutočňuje náhodne alebo mechanicky.
1.4 Sériové (vnorené alebo zoskupené) vzorkovanie
Pri sériovom odbere vzoriek nie sú jednotkami výberu samotné objekty, ale skupiny (zhluky alebo hniezda). Skupiny sa vyberajú náhodne. Objekty v rámci skupín sa skúmajú všade.

2. Neuveriteľné vzorky
Výber v takejto vzorke sa neuskutočňuje podľa princípov náhody, ale podľa subjektívnych kritérií - dostupnosť, typickosť, rovnaké zastúpenie atď.
2.1. Vzorkovanie kvóty
Spočiatku sa prideľuje určitý počet skupín predmetov (napríklad muži vo veku 20-30 rokov, 31-45 rokov a 46-60 rokov; osoby s príjmom do 30 000 rubľov, s príjmom 30 až 60 rokov). tisíc rubľov as príjmom viac ako 60 tisíc rubľov ) Pre každú skupinu je špecifikovaný počet objektov, ktoré sa majú skúmať. Počet objektov, ktoré by mali patriť do každej zo skupín, sa nastavuje najčastejšie buď v pomere k predtým známemu podielu skupiny na celkovej populácii, alebo rovnako pre každú skupinu. V rámci skupín sa predmety vyberajú náhodne. Kvótové vzorkovanie sa používa pomerne často.
2.2. Metóda snehovej gule
Vzorka je zostavená nasledovne. Každý respondent, počnúc prvým, je požiadaný, aby kontaktoval svojich priateľov, kolegov, známych, ktorí by vyhovovali podmienkam výberu a mohli by sa štúdie zúčastniť. Vzorka sa teda s výnimkou prvého kroku tvorí za účasti samotných predmetov štúdia. Metóda sa často používa, keď je potrebné nájsť a vypočuť ťažko dostupné skupiny respondentov (napríklad respondenti s vysokým príjmom, respondenti patriaci do rovnakej profesijnej skupiny, respondenti, ktorí majú nejaké podobné záľuby / vášne atď.). )
2.3 Spontánny odber vzoriek
Opýtaní sú najdostupnejší respondenti. Typické príklady spontánnych vzoriek sú v novinách/časopisoch, ktoré sa dávajú respondentom na samovyplnenie, väčšina internetových prieskumov. Veľkosť a zloženie spontánnych vzoriek nie je vopred známe a určuje ich len jeden parameter – aktivita respondentov.
2.4 Ukážka typických prípadov
Vyberajú sa jednotky bežnej populácie, ktoré majú priemernú (typickú) hodnotu atribútu. Vzniká tak problém výberu vlastnosti a určenia jej typickej hodnoty.

Kurz prednášok z teórie štatistiky

Podrobnejšie informácie o vzorových pozorovaniach je možné získať prezeraním.

Selektívny výskum.

Pojem metódy odberu vzoriek.

Selektívne pozorovanie- ide o také nekontinuálne pozorovanie, pri ktorom sa výber jednotiek skúmanej populácie vykonáva náhodne, vybraná časť sa podrobí výskumu, po ktorom sa výsledky rozdelia do celej populácie.

Metóda odberu vzoriek sa používa, keď

1, keď je samotné pozorovanie spojené s poškodením alebo zničením pozorovaných jednotiek (priadza na korenie, elektrická žiarovka na splodiny horenia)

2 veľký celkový objem

3 vysoké náklady (finančné a mzdové).

Zvyčajne sa výberovému prieskumu podrobuje 5 – 10 % z celkovej populácie, menej často 15 – 25 %.

Účelom odberu vzoriek je určiť charakteristiky celkového priemeru a celkového podielu (P). Charakteristika výberovej populácie - výberový priemer a frakcia vzorky (w) sa líši od všeobecných charakteristík veľkosťou chyby výberu ( ). Preto je potrebné vypočítať výberovú chybu alebo chybu reprezentatívnosti, ktorá je určená vzorcami vyvinutými v teórii pravdepodobnosti pre každý typ vzorky a výberovú metódu.

Existujú nasledujúce spôsoby výberu jednotiek:

1 výber vratnej gule, bežne označovaný ako prevzorkovanie.

Pri opakovanom výbere zostáva pravdepodobnosť získania každej jednotlivej jednotky do vzorky konštantná, pretože po zvolení jednotky sa opäť vráti k populácii a dá sa znova vybrať.

2 výber podľa schémy nevrátenej gule, tzv náhodné vzorkovanie. V tomto prípade sa každá vybraná jednotka nevracia späť a pravdepodobnosť získania jednotlivých jednotiek do vzorky sa neustále mení (u zostávajúcich jednotiek sa zvýši) (šarže), tabuľky náhodných čísel, napr. 780.

Typy vzoriek.

1 Vlastne - náhodne.

Toto je taká, v ktorej sa výber jednotiek vo vzorke uskutočňuje priamo z celého množstva jednotiek vo všeobecnej populácii.

V tomto prípade sa počet vybraných jednotiek zvyčajne určuje na základe akceptovaného podielu vzorky.

Pre vzorku existuje pomer počtu jednotiek vo výberovej populácii a počtu jednotiek vo všeobecnej populácii N.

Takže pri 5% vzorke zo série tovaru 2000 jednotiek je veľkosť vzorky n 100 jednotiek. (
) a pri 20 % vzorke to bude 400 jednotiek.

(
)

Dôležitá podmienka pre správnu náhodnú vzorku že každá jednotka populácie má rovnakú príležitosť byť zahrnutá do vzorky.

Pri náhodnom výbere hraničná výberová chyba pre priemer rovná sa

- výberový rozptyl

n - veľkosť vzorky

t je faktor spoľahlivosti, ktorý je určený z tabuľky hodnôt Laplaceovej integrálnej funkcie pre danú pravdepodobnosť P.

Pri neopakovanom odbere vzoriek je hraničná výberová chyba určená vzorcom pre priemer

kde N je veľkosť všeobecnej populácie podielu

Na stanovenie popolnatosti uhlia bolo náhodne preskúmaných 100 vzoriek uhlia. Výsledkom prieskumu bolo zistené, že priemerný obsah popola v uhlí vo vzorke je 16 %, = 5 %. V 10 vzorkách bol obsah popola v uhlí > 20 % s pravdepodobnosťou 0,954 na určenie limitov, v ktorých bude priemerný obsah popola v uhlí na ložisku a podiel uhlia s obsahom popola > 20 %.

Priemerný obsah popola

určiť hraničnú výberovú chybu


2*0.5=1%

pri p=0,954 t=2

podiel uhlia s obsahom popola >20 %

určí sa podiel vzorky

kde m je podiel jednotiek, ktoré majú vlastnosť

vzorkovacia chyba pre podiel

S pravdepodobnosťou 0,954 možno tvrdiť, že podiel uhlia s obsahom popola vyšším ako 20 % v ložisku bude v rámci

P= 10 % + (-) 6 % alebo

mechanický odber vzoriek.

Toto je druh vlastne - náhodné. V tomto prípade sa celá populácia rozdelí na n rovnakých častí a potom sa z každej časti vyberie jedna jednotka.

Všetky jednotky obyvateľstva musia byť usporiadané v určitom poradí. Zároveň vo vzťahu k sledovanému ukazovateľu možno jednotky všeobecnej populácie zoradiť podľa významného, ​​sekundárneho alebo neutrálneho znaku. V tomto prípade by sa mala z každej skupiny vybrať jednotka, ktorá je v strede každej skupiny. Tým sa zabráni skresleniu vzorky.

Použiť: pri skúmaní kupujúcich v obchodoch, návštevníkov na klinikách, každých 5, 4, 3 atď.

Príklad mechanického odberu vzoriek

Na určenie priemernej doby použitia krátkodobého úveru v banke sa urobí 5% mechanická vzorka, ktorá zahŕňa 100 účtov. Výsledkom prieskumu bolo zistené, že priemerná doba využitia krátkodobej pôžičky je 30 dní s
9 dní na 5 účtoch Doba pôžičky > 60 dní.

Chyba pri odbere vzoriek

tie. s pravdepodobnosťou 0,954 možno tvrdiť, že doba čerpania úveru kolíše

1 do 30 dní+(-)2 dní, t.j.

2 akcie pôžičiek s dobou splatnosti > 60 dní.

vzorový podiel bude

určiť chybu zdieľania

s pravdepodobnosťou 0,954 možno tvrdiť, že podiel bankových úverov so splatnosťou >60 dní bude do

Typická vzorka.

Všeobecná populácia je rozdelená do homogénnych typických skupín. Potom sa z každej typickej skupiny uskutoční individuálny výber jednotiek do vzorky náhodnou alebo mechanickou vzorkou.

Napríklad: pr.tr. pracovníkov, pozostávajúcich zo samostatných skupín podľa kvalifikácie.

Dôležitá vlastnosť- dáva presnejšie výsledky v porovnaní s ostatnými, tk. vzorka obsahuje typologickú jednotku.

Výber jednotiek pozorovania v súbore vzoriek sa vykonáva rôznymi metódami. Zvážte typickú vzorku s proporcionálnym výberom v rámci typických skupín.

Veľkosť vzorky z typickej skupiny vo výbere úmerná počtu typických skupín je určená vzorcom

kde =V vzorky z typickej skupiny

= V typickej skupiny.

Hraničná chyba priemeru vzorky a podielu pre neopakujúcu sa metódu náhodného a mechanického výberu v rámci typických skupín sa vypočíta podľa vzorcov


kde = rozptyl vzorky

Príklad: typická vzorka

Na zistenie priemerného veku mužov vstupujúcich do manželstva sa v okrese urobila 5 % vzorka s výberom jednotiek v pomere k počtu typických skupín

V rámci skupín sa použil mechanický výber

S pravdepodobnosťou 0,954 určte hranice, v ktorých sa bude nachádzať priemerný vek mužov, ktorí uzavreli manželstvo, a podiel mužov, ktorí uzavreli manželstvo znovu.

priemerný vek sobáša mužov vo vzorke

hraničná výberová chyba

s pravdepodobnosťou 0,954 možno tvrdiť, že priemerný vek mužov vstupujúcich do manželstva bude v rámci

pre mužov, ktorí vstupujú do druhého manželstva

určí sa podiel vzorky

vzorový rozptyl alternatívneho znaku je

s pravdepodobnosťou 0,954 možno tvrdiť, že podiel tých, ktorí sa druhýkrát vydajú, je v rámci

sériové odbery vzoriek.

Pri sériovej vzorke je populácia rozdelená do rovnako veľkých skupín – sérií. Vzorová populácia je vybraná séria. V rámci série sa vykonáva nepretržité pozorovanie jednotiek, ktoré do série spadali.

S opakovaným výberom a určený vzorcom

kde
- medzisériový rozptyl

kde
vzorový priemer série

vzorový priemer sériovej vzorky

R- počet sérií bežnej populácie

r - počet vybraných sérií

Príklad: v dielni 10 brigád sa za účelom štúdia ich produktivity práce vykoná 20% sériová vzorka, ktorá zahŕňala 2 brigády. Výsledkom prieskumu bolo zistené, že

s pravdepodobnosťou 0,997 určiť hranice, v ktorých sa bude pohybovať priemerný výkon pracovníkov predajne.

priemer vzorky sériovej vzorky je určený vzorcom

s pravdepodobnosťou 0,997 možno tvrdiť, že priemerný výkon pracovníkov obchodu je v rámci

V sklade hotových výrobkov dielne je 200 krabíc dielov, 40 kusov v každej krabici. Na kontrolu kvality hotových výrobkov sa vykoná 10% sériový odber vzoriek. V dôsledku odberu vzoriek sa zistilo, že pre chybné diely je to 15 %. Sériový rozptyl vzorky je 0,0049.

S pravdepodobnosťou 0,997 určte hranice, v ktorých je podiel chybných výrobkov v dávke škatúľ

Podiel chybných dielov bude v rámci

určiť hraničnú výberovú chybu pre podiel podľa vzorca

s pravdepodobnosťou 0,997 možno tvrdiť, že podiel chybných dielov

v strane je vnútri

V praxi navrhovania pozorovania vzorky je potrebné nájsť veľkosť vzorky, ktorá je potrebná na zabezpečenie určitej presnosti pri výpočte všeobecných charakteristík - priemeru a podielu.

Hraničná výberová chyba, pravdepodobnosť jej výskytu a variácia funkcie sú známe vopred.

S náhodnými opätovný výber veľkosť vzorky je určená vzorcom

s náhodným neopakovateľným a mechanickým výberom veľkosť vzorky

pre typickú vzorku

na sériové odbery vzoriek

Napríklad v okrese žije 2000 rodín.

Plánuje sa u nich uskutočniť výberový prieskum metódou náhodného neopakovateľného výberu na zistenie priemernej veľkosti rodiny.

Určte požadovanú veľkosť vzorky za predpokladu, že s pravdepodobnosťou 0,954 výberová chyba nepresiahne 1 osobu so smerodajnou odchýlkou ​​3 osoby.

V meste žije 10 tisíc ľudí. rodiny. Pomocou mechanického odberu vzoriek sa navrhuje určiť podiel rodín s tromi a viac deťmi. Aká by mala byť veľkosť vzorky, aby výberová chyba bola menšia ako 0,02 s pravdepodobnosťou P = 0,954, ak je z predchádzajúcich prieskumov známy rozptyl 0,02?

Plán:

1. Problémy matematickej štatistiky.

2. Typy vzoriek.

3. Spôsoby výberu.

4. Štatistické rozdelenie vzorky.

5. Empirická distribučná funkcia.

6. Polygón a histogram.

7. Číselné charakteristiky variačného radu.

8. Štatistické odhady distribučných parametrov.

9. Intervalové odhady distribučných parametrov.

1. Úlohy a metódy matematickej štatistiky

Matematické štatistiky je odbor matematiky, ktorý sa venuje metódam zberu, analýzy a spracovania výsledkov štatistických pozorovacích údajov na vedecké a praktické účely.

Nech sa vyžaduje študovať súbor homogénnych objektov s ohľadom na nejaký kvalitatívny alebo kvantitatívny znak, ktorý tieto objekty charakterizuje. Napríklad, ak existuje dávka dielov, potom štandard dielu môže slúžiť ako kvalitatívny znak a riadená veľkosť dielu môže slúžiť ako kvantitatívny znak.

Niekedy sa vykonáva súvislé štúdium, t.j. preskúmať každý objekt s ohľadom na požadovanú vlastnosť. V praxi sa komplexný prieskum používa len zriedka. Napríklad, ak populácia obsahuje veľmi veľký počet objektov, potom je fyzicky nemožné vykonať úplný prieskum. Ak je prieskum objektu spojený s jeho zničením alebo vyžaduje veľké náklady na materiál, potom nemá zmysel vykonávať úplný prieskum. V takýchto prípadoch sa z celej populácie náhodne vyberie obmedzený počet objektov (súbor vzoriek) a podrobia sa ich štúdiu.

Hlavnou úlohou matematickej štatistiky je študovať celú populáciu na základe vzorových údajov v závislosti od cieľa, t.j. štúdium pravdepodobnostných vlastností populácie: zákon rozdelenia, číselné charakteristiky atď. pre prijímanie manažérskych rozhodnutí v podmienkach neistoty.

2. Typy vzoriek

Populácia je súbor predmetov, z ktorých je vzorka vyrobená.

Vzorová populácia (vzorka) je zbierka náhodne vybraných predmetov.

Veľkosť populácie je počet predmetov v tejto zbierke. Označuje sa objem bežnej populácie N, selektívne - n.

Príklad:

Ak sa z 1000 častí vyberie na vyšetrenie 100 častí, potom objem bežnej populácie N = 1000 a veľkosť vzorky n = 100.

Odber vzoriek možno vykonať dvoma spôsobmi: po výbere objektu a jeho pozorovaní ho možno vrátiť alebo nevrátiť bežnej populácii. To. Vzorky sú rozdelené na opakované a neopakované.

Opakovanévolal vzorkovanie, pri ktorej sa vybraný objekt (pred výberom ďalšieho) vráti bežnej populácii.

Neopakujúce savolal vzorkovanie, pri ktorej sa vybraný objekt nevracia bežnej populácii.

V praxi sa zvyčajne používa neopakovateľný náhodný výber.

Na to, aby údaje vzorky mohli s dostatočnou istotou posúdiť charakteristiku záujmu v bežnej populácii, je potrebné, aby ju objekty vzorky správne reprezentovali. Vzorka musí správne reprezentovať proporcie populácie. Vzorka musí byť zástupca (zástupca).

Na základe zákona veľkých čísel možno tvrdiť, že vzorka bude reprezentatívna, ak bude vykonaná náhodne.

Ak je veľkosť všeobecnej populácie dostatočne veľká a vzorka je len nevýznamnou časťou tejto populácie, potom sa rozdiel medzi opakovanými a neopakovanými vzorkami vymaže; v limitujúcom prípade, keď sa uvažuje o nekonečnej všeobecnej populácii a vzorka má konečnú veľkosť, tento rozdiel zmizne.

Príklad:

V americkom časopise Literary Review bola pomocou štatistických metód vypracovaná štúdia prognóz týkajúcich sa výsledku nadchádzajúcich prezidentských volieb v USA v roku 1936. Uchádzačmi o tento post boli F.D. Roosevelt a A. M. Landon. Referenčné knihy telefónnych účastníkov boli brané ako zdroj pre všeobecnú populáciu skúmaných Američanov. Z toho boli náhodne vybrané 4 milióny adries, na ktoré redakcia časopisu rozoslala pohľadnice s prosbou o vyjadrenie postoja ku kandidátom na prezidenta. Časopis po spracovaní výsledkov ankety zverejnil sociologickú prognózu, že nadchádzajúce voľby s veľkým náskokom vyhrá Landon. A ... mýlil som sa: Roosevelt vyhral.
Tento príklad možno považovať za príklad nereprezentatívnej vzorky. Faktom je, že v Spojených štátoch mala v prvej polovici dvadsiateho storočia telefóny iba bohatá časť obyvateľstva, ktorá podporovala názory Landona.

3. Spôsoby výberu

V praxi sa používajú rôzne metódy výberu, ktoré možno rozdeliť do 2 typov:

1. Výber nevyžaduje rozdelenie populácie na časti (a) jednoduché náhodné žiadne opakovanie; b) jednoduché náhodné opakovanie).

2. Selekcia, v ktorej je všeobecná populácia rozdelená na časti. (a) typický výber; b) mechanický výber; v) sériový výber).

Jednoduchá náhoda nazvite toto výber, v ktorej sú objekty extrahované jeden po druhom z celej všeobecnej populácie (náhodne).

Typickévolal výber, v ktorom sa predmety nevyberajú z celej bežnej populácie, ale z každej jej „typickej“ časti. Napríklad, ak je diel vyrobený na niekoľkých strojoch, výber sa nevykoná z celej sady dielov vyrábaných všetkými strojmi, ale z produktov každého stroja samostatne. Takáto selekcia sa používa vtedy, keď skúmaná vlastnosť výrazne kolíše v rôznych „typických“ častiach bežnej populácie.

Mechanickývolal výber, v ktorom je všeobecná populácia „mechanicky“ rozdelená do toľkých skupín, koľko objektov má byť zaradených do vzorky a z každej skupiny je vybraný jeden objekt. Napríklad, ak potrebujete vybrať 20 % dielov vyrobených strojom, vyberie sa každý 5. diel; ak je potrebné vybrať 5% dielov - každých 20 atď. Niekedy takýto výber nemusí zabezpečiť reprezentatívnu vzorku (ak sa vyberie každý 20. sústružnícky valec a fréza sa vymení ihneď po výbere, vyberú sa všetky valce otočené tupými frézami).

sériovývolal výber, v ktorej sa objekty z bežnej populácie nevyberajú po jednom, ale v „sériách“, ktoré sa podrobujú priebežnému prieskumu. Napríklad, ak výrobky vyrába veľká skupina automatických strojov, potom sa výrobky len niekoľkých strojov podrobujú nepretržitej kontrole.

V praxi sa často využíva kombinovaný výber, pri ktorom sa kombinujú vyššie uvedené metódy.

4. Štatistické rozdelenie vzorky

Nech sa vyberie vzorka zo všeobecnej populácie a hodnota x 1-pozorované raz, x 2 -n 2 krát, ... x k - n k krát. n= n 1 + n 2 +...+n k je veľkosť vzorky. Pozorované hodnotyvolal možnosti a sekvencia je variant napísaný vo vzostupnom poradí - variačný rad. Počet pozorovanívolal frekvencie (absolútne frekvencie) a ich vzťah k veľkosti vzorky- relatívnych frekvencií alebo štatistické pravdepodobnosti.

Ak je počet možností veľký alebo je vzorka vytvorená z nepretržitej všeobecnej populácie, potom sa séria variácií zostavuje nie podľa jednotlivých bodových hodnôt, ale podľa intervalov hodnôt všeobecnej populácie. Takáto séria je tzv interval. Dĺžky intervalov musia byť rovnaké.

Štatistické rozdelenie vzorky zoznam možností a ich zodpovedajúce frekvencie alebo relatívne frekvencie.

Štatistické rozdelenie môže byť špecifikované aj ako postupnosť intervalov a im zodpovedajúce frekvencie (súčet frekvencií, ktoré spadajú do tohto intervalu hodnôt)

Bodový variačný rad frekvencií môže byť reprezentovaný tabuľkou:

x i
x 1
x2

x k
n i
n 1
n 2

nk

Podobne možno reprezentovať bodový variačný rad relatívnych frekvencií.

a:

Príklad:

Počet písmen v nejakom texte X sa ukázal byť rovný 1 000. Prvé písmeno bolo "i", druhé - písmeno "i", tretie - písmeno "a", štvrté - "u". Potom prišli písmená „o“, „e“, „y“, „e“, „s“.

Zapíšme si miesta, ktoré zaberajú v abecede, respektíve máme: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Po zoradení týchto čísel vo vzostupnom poradí dostaneme sériu variácií: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Frekvencie výskytu písmen v texte: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu" - 7," ja "- 22.

Zostavíme bodový variačný rad frekvencií:

Príklad:

Určené rozdelenie frekvencie vzorkovania objemu n = 20.

Vytvorte bodový variačný rad relatívnych frekvencií.

x i

2

6

12

n i

3

10

7

Riešenie:

Nájdite relatívne frekvencie:


x i

2

6

12

w i

0,15

0,5

0,35

Pri konštrukcii intervalového rozdelenia existujú pravidlá pre výber počtu intervalov alebo veľkosti každého intervalu. Kritériom je tu optimálny pomer: s nárastom počtu intervalov sa zlepšuje reprezentatívnosť, ale zvyšuje sa množstvo údajov a čas na ich spracovanie. Rozdiel x max - x min medzi najväčšou a najmenšou hodnotou sa nazýva variant vo veľkom meradle vzorky.

Na počítanie počtu intervalov k zvyčajne aplikujte empirický vzorec Sturgessa (čo znamená zaokrúhlenie na najbližšie vhodné celé číslo): k = 1 + 3,322 log n.

Podľa toho aj hodnota každého intervalu h možno vypočítať pomocou vzorca:

5. Empirická distribučná funkcia

Zoberme si vzorku z bežnej populácie. Nech je známe štatistické rozdelenie početností kvantitatívneho atribútu X. Zaveďme označenie: n xje počet pozorovaní, pri ktorých bola pozorovaná hodnota znaku menšia ako x; n je celkový počet pozorovaní (veľkosť vzorky). Relatívna frekvencia udalostí X<х равна n x / n . Ak sa zmení x, zmení sa aj relatívna frekvencia, t.j. relatívna frekvencian x / nje funkciou x. Pretože nachádza sa empiricky, nazýva sa empirický.

Empirická distribučná funkcia (funkcia rozdelenia vzorky) zavolajte funkciu, ktorý určuje pre každé x relatívnu frekvenciu udalosti X<х.


kde je počet možností menší ako x,

n - veľkosť vzorky.

Na rozdiel od empirickej distribučnej funkcie vzorky sa nazýva distribučná funkcia F(x) populácie teoretická distribučná funkcia.

Rozdiel medzi empirickými a teoretickými distribučnými funkciami je v tom, že teoretická funkcia F (x) určuje pravdepodobnosť udalosti X F*(x) inklinuje v pravdepodobnosti k pravdepodobnosti F (x) tejto udalosti. To znamená, že pre veľké n F*(x) a F(x) sa navzájom málo líšia.

To. na približnú reprezentáciu teoretickej (integrálnej) distribučnej funkcie všeobecnej populácie je vhodné použiť empirickú distribučnú funkciu vzorky.

F*(x) má všetky vlastnosti F(x).

1. Hodnoty F*(x) patria do intervalu.

2. F*(x) je neklesajúca funkcia.

3. Ak je najmenší variant, potom F*(x) = 0, pri x < x1; ak x k je najväčší variant, potom F*(x) = 1, pre x > x k .

Tie. F*(x) slúži na odhad F(x).

Ak je vzorka daná variačným radom, potom má empirická funkcia tvar:

Graf empirickej funkcie sa nazýva kumulatívny.

Príklad:

Nakreslite empirickú funkciu pre dané rozdelenie vzorky.


Riešenie:

Veľkosť vzorky n = 12 + 18 +30 = 60. Najmenšia možnosť je 2, t.j. pri x < 2. Udalosť X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 o 2 < X < 6. Udalosť X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < X < 10. Pretože x=10 je teda najväčšia možnosť F*(x) = 1 pri x>10. Požadovaná empirická funkcia má tvar:

Kumulovať:


Kumulácia umožňuje pochopiť informácie prezentované graficky, napríklad odpovedať na otázky: „Určite počet pozorovaní, v ktorých hodnota znaku bola menšia ako 6 alebo nie menšia ako 6. F*(6) = 0,2 » Potom počet pozorovaní, pri ktorých bola hodnota pozorovaného znaku menšia ako 6, je 0,2* n \u003d 0,2 * 60 \u003d 12. Počet pozorovaní, pri ktorých hodnota pozorovaného objektu nebola menšia ako 6, je (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Ak je daný intervalový variačný rad, potom na zostavenie empirickej distribučnej funkcie sa nájdu stredy intervalov a empirická distribučná funkcia sa z nich získa podobne ako z bodových variačných radov.

6. Polygón a histogram

Kvôli prehľadnosti sú zostavené rôzne grafy štatistického rozdelenia: polynóm a histogramy

Frekvenčný polygón- ide o prerušovanú čiaru, ktorej úsečky spájajú body ( x 1 ;n 1 ), ( x 2 ;n 2 ),..., ( x k ; n k ), kde sú možnosti, sú im zodpovedajúce frekvencie.

Mnohouholník relatívnych frekvencií - ide o prerušovanú čiaru, ktorej úsečky spájajú body ( x 1 ;w 1 ), (x 2 ;w 2 ),..., ( x k ;w k ), kde x i sú možnosti, w i sú im zodpovedajúce relatívne početnosti.

Príklad:

Nakreslite polynóm relatívnej frekvencie na dané rozdelenie vzorky:

Riešenie:

V prípade súvislého znaku je vhodné zostaviť histogram, pre ktorý sa interval, ktorý obsahuje všetky pozorované hodnoty znaku, rozdelí na niekoľko čiastkových intervalov dĺžky h a pre každý čiastkový interval sa nájde n i - súčet variantných frekvencií, ktoré spadajú do i-tého intervalu. (Napríklad pri meraní výšky alebo hmotnosti človeka máme do činenia so spojitým znakom).

Histogram frekvencie - ide o stupňovitý útvar, ktorý pozostáva z obdĺžnikov, ktorých základňami sú čiastkové intervaly dĺžky h a výšky sa rovnajú pomeru (hustota frekvencie).

Námestie i-tý čiastkový obdĺžnik sa rovná súčtu početností variantu i-tého intervalu, t.j. plocha frekvenčného histogramu sa rovná súčtu všetkých frekvencií, t.j. veľkosť vzorky.

Príklad:

Uvádzajú sa výsledky zmeny napätia (vo voltoch) v elektrickej sieti. Zostavte sériu variácií, vytvorte polygón a frekvenčný histogram, ak sú hodnoty napätia nasledovné: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Riešenie:

Vytvorme sériu variácií. Máme n = 20, x min = 212, x max = 232.

Na výpočet počtu intervalov použijeme Sturgessov vzorec.

Intervalový variačný rad frekvencií má tvar:


Hustota frekvencie

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Zostavme si histogram frekvencií:

Zostavme si mnohouholník frekvencií tak, že najprv nájdeme stredy intervalov:


Histogram relatívnych frekvencií nazývame stupňovitý útvar pozostávajúci z obdĺžnikov, ktorých základňami sú čiastkové intervaly dĺžky h a výšky sa rovnajú pomeru w i/h (relatívna hustota frekvencie).

Námestie I-tý čiastkový obdĺžnik sa rovná relatívnej frekvencii variantu, ktorý spadal do i-tého intervalu. Tie. plocha histogramu relatívnych frekvencií sa rovná súčtu všetkých relatívnych frekvencií, t.j. jednotka.

7. Číselné charakteristiky variačného radu

Zvážte hlavné charakteristiky všeobecnej a vzorovej populácie.

Všeobecný stredoškolský sa nazýva aritmetický priemer hodnôt vlastnosti bežnej populácie.

Pre rôzne hodnoty x 1 , x 2 , x 3 , …, x n . znak všeobecnej populácie objemu N máme:

Ak majú hodnoty atribútu zodpovedajúce frekvencie N 1 + N 2 +…+N k =N , potom


vzorový priemer sa nazýva aritmetický priemer hodnôt vlastnosti vzorky populácie.

Ak hodnoty atribútu majú zodpovedajúce frekvencie n 1 + n 2 +… + n k = n, potom


Príklad:

Vypočítajte priemer vzorky pre vzorku: x 1 = 51,12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52,93; x 5 \u003d 51,1; x 6 \u003d 52,98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Riešenie:

Všeobecný rozptyl sa nazýva aritmetický priemer štvorcových odchýlok hodnôt charakteristiky X všeobecnej populácie od všeobecného priemeru.

Pre rôzne hodnoty x 1 , x 2 , x 3 , …, x N znamienka populácie objemu N máme:

Ak majú hodnoty atribútu zodpovedajúce frekvencie N 1 + N 2 +…+N k =N , potom

Všeobecná štandardná odchýlka (štandard) nazývaná druhá odmocnina zo všeobecného rozptylu

Ukážkový rozptyl sa nazýva aritmetický priemer kvadrátov odchýlok pozorovaných hodnôt znaku od strednej hodnoty.

Pre rôzne hodnoty x 1 , x 2 , x 3 , ..., x n znamienka vzorovej populácie objemu n máme:


Ak hodnoty atribútu majú zodpovedajúce frekvencie n 1 + n 2 +… + n k = n, potom


Vzorová smerodajná odchýlka (štandard) sa nazýva druhá odmocnina výberového rozptylu.


Príklad:

Vzorkovací súbor je daný distribučnou tabuľkou. Nájdite vzorový rozptyl.


Riešenie:

Veta: Rozptyl sa rovná rozdielu medzi priemerom druhých mocnín hodnôt funkcie a druhou mocninou celkového priemeru.

Príklad:

Nájdite rozptyl pre túto distribúciu.



Riešenie:

8. Štatistické odhady distribučných parametrov

Nech sa všeobecná populácia študuje na nejakej vzorke. V tomto prípade je možné získať len približnú hodnotu neznámeho parametra Q, ktorá slúži ako jeho odhad. Je zrejmé, že odhady sa môžu líšiť od jednej vzorky k druhej.

Štatistické vyhodnotenieQ* neznámy parameter teoretického rozdelenia sa nazýva funkcia f, ktorá závisí od pozorovaných hodnôt vzorky. Úlohou štatistického odhadu neznámych parametrov zo vzorky je zostrojiť z dostupných údajov štatistických pozorovaní takú funkciu, ktorá by poskytla čo najpresnejšie približné hodnoty skutočných, výskumníkovi neznámych hodnôt týchto parametrov.

Štatistické odhady sú rozdelené na bodové a intervalové v závislosti od spôsobu ich poskytovania (počet alebo interval).

Bodový odhad sa nazýva štatistický odhad. parameter Q teoretického rozdelenia určený jednou hodnotou parametra Q *=f (x 1 , x 2 , ..., x n), kdex 1 , x 2 , ...,xn- výsledky empirických pozorovaní kvantitatívneho atribútu X určitej vzorky.

Takéto odhady parametrov získané z rôznych vzoriek sa najčastejšie navzájom líšia. Absolútny rozdiel /Q *-Q / sa nazýva výberová chyba (odhad).

Aby štatistické odhady poskytovali spoľahlivé výsledky o odhadovaných parametroch, je potrebné, aby boli nestranné, efektívne a konzistentné.

Bodový odhad, ktorej matematické očakávanie sa rovná (nerovná sa) odhadovanému parametru, sa nazýva neposunutý (posunutý). M(Q*)=Q.

Rozdiel M( Q *)-Q sa volá zaujatosť alebo systematická chyba. Pre nestranné odhady je systematická chyba 0.

efektívne hodnotenie Q *, ktorá má pre danú veľkosť vzorky n najmenší možný rozptyl: D min(n = konštanta). Efektívny odhad má v porovnaní s inými nezaujatými a konzistentnými odhadmi najmenší rozptyl.

Bohatísa nazýva taká štatistika hodnotenie Q *, ktoré pre ninklinuje v pravdepodobnosti k odhadovanému parametru Q , t.j. s nárastom veľkosti vzorky n odhad smeruje v pravdepodobnosti k skutočnej hodnote parametra Q.

Požiadavka konzistencie je v súlade so zákonom veľkých čísel: čím viac počiatočných informácií o skúmanom objekte, tým presnejší je výsledok. Ak je veľkosť vzorky malá, bodový odhad parametra môže viesť k závažným chybám.

akýkoľvek vzorka (objemn) možno si predstaviť ako objednanú sadux 1 , x 2 , ...,xn nezávislé identicky rozdelené náhodné premenné.

Vzorka znamená pre rôzne objemové vzorky n z tej istej populácie sa budú líšiť. To znamená, že výberový priemer možno považovať za náhodnú premennú, čo znamená, že môžeme hovoriť o rozdelení výberového priemeru a jeho numerických charakteristikách.

Výberový priemer spĺňa všetky požiadavky kladené na štatistické odhady, t.j. poskytuje nezaujatý, efektívny a konzistentný odhad priemeru populácie.

Dá sa to dokázať. Vzorový rozptyl je teda skresleným odhadom všeobecného rozptylu, čo mu dáva podhodnotenú hodnotu. To znamená, že pri malej veľkosti vzorky to spôsobí systematickú chybu. Pre nestranný, konzistentný odhad stačí vziať množstvo, ktorý sa nazýva opravený rozptyl. t.j.

V praxi sa na odhad všeobecného rozptylu používa opravený rozptyl, keď n < 30. V ostatných prípadoch ( n >30) odchýlka od sotva znateľné. Preto pre veľké hodnoty n chybu zaujatosti možno zanedbať.

Dá sa tiež dokázať, že relatívna frekvencian i / n je nezaujatý a konzistentný odhad pravdepodobnosti P(X=x i ). Empirická distribučná funkcia F*(x ) je nezaujatý a konzistentný odhad funkcie teoretického rozdelenia F(x)=P(X< x ).

Príklad:

Nájdite neskreslené odhady priemeru a rozptylu z tabuľky vzoriek.

x i
n i

Riešenie:

Veľkosť vzorky n=20.

Nezaujatým odhadom matematického očakávania je výberový priemer.


Na výpočet nezaujatého odhadu rozptylu najprv nájdeme vzorový rozptyl:

Teraz nájdime nezaujatý odhad:

9. Intervalové odhady distribučných parametrov

Interval je štatistický odhad určený dvoma číselnými hodnotami - koncami skúmaného intervalu.

číslo> 0, kde | Q - Q*|< , charakterizuje presnosť intervalového odhadu.

dôveryhodnývolal interval , čo s danou pravdepodobnosťoupokrýva neznámu hodnotu parametra Q . Doplnenie intervalu spoľahlivosti do súboru všetkých možných hodnôt parametrov Q volal kritická oblasť. Ak sa kritická oblasť nachádza iba na jednej strane intervalu spoľahlivosti, potom sa nazýva interval spoľahlivosti jednostranné: ľavostranné, ak kritická oblasť existuje iba vľavo a pravák pokiaľ nie vpravo. V opačnom prípade sa nazýva interval spoľahlivosti bilaterálne.

spoľahlivosť alebo úroveň spoľahlivosti, Odhady Q (pomocou Q *) pomenujte pravdepodobnosť, s ktorou je splnená nasledujúca nerovnosť: | Q - Q*|< .

Najčastejšie je pravdepodobnosť spoľahlivosti nastavená vopred (0,95; 0,99; 0,999) a je na ňu kladená požiadavka, aby sa blížila k jednej.

Pravdepodobnosťvolal pravdepodobnosť chyby alebo úroveň významnosti.

Nechajte | Q - Q*|< , potom. To znamená, že s pravdepodobnosťoumožno tvrdiť, že skutočná hodnota parametra Q patrí do intervalu. Čím je odchýlka menšia, tým je odhad presnejší.

Hranice (konce) intervalu spoľahlivosti sa nazývajú hranice dôvery alebo kritické hranice.

Hodnoty hraníc intervalu spoľahlivosti závisia od distribučného zákona parametra Q*.

Hodnota odchýlkysa nazýva polovica šírky intervalu spoľahlivosti presnosť hodnotenia.

Metódy konštrukcie intervalov spoľahlivosti prvýkrát vyvinul americký štatistik Y. Neumann. Presnosť odhadu, pravdepodobnosť spoľahlivosti a veľkosť vzorky n vzájomne prepojené. Preto, keď poznáte konkrétne hodnoty dvoch veličín, môžete vždy vypočítať tretiu.

Nájdenie intervalu spoľahlivosti pre odhad matematického očakávania normálneho rozdelenia, ak je známa štandardná odchýlka.

Nech sa urobí vzorka zo všeobecnej populácie, ktorá podlieha zákonu normálneho rozdelenia. Nech je známa všeobecná štandardná odchýlka, ale matematické očakávanie teoretického rozdelenia nie je známe a ().

Platí nasledujúci vzorec:

Tie. podľa zadanej hodnoty odchýlkyje možné zistiť, s akou pravdepodobnosťou patrí neznámy všeobecný priemer do intervalu. A naopak. Zo vzorca je vidieť, že s nárastom veľkosti vzorky a fixnou hodnotou pravdepodobnosti spoľahlivosti hodnota- klesá, t.j. zvyšuje sa presnosť odhadu. S nárastom spoľahlivosti (pravdepodobnosti spoľahlivosti) sa hodnota-zvyšuje, t.j. presnosť odhadu klesá.

Príklad:

Ako výsledok testov sa získali nasledujúce hodnoty -25, 34, -20, 10, 21. Je známe, že dodržiavajú zákon normálneho rozdelenia so štandardnou odchýlkou ​​2. Nájdite odhad a* pre matematické očakávanie a. Nakreslite pre ňu 90% interval spoľahlivosti.

Riešenie:

Nájdite nestranný odhad

Potom


Interval spoľahlivosti pre a má tvar: 4 – 1,47< a< 4+ 1,47 или 2,53 < a < 5, 47

Nájdenie intervalu spoľahlivosti pre odhad matematického očakávania normálneho rozdelenia, ak nie je štandardná odchýlka známa.

Nech je známe, že všeobecná populácia podlieha zákonu normálneho rozdelenia, kde a a. Presnosť krytia intervalov spoľahlivosti so spoľahlivosťouskutočná hodnota parametra a sa v tomto prípade vypočíta podľa vzorca:

, kde n je veľkosť vzorky, , - Študentov koeficient (treba ho zistiť z uvedených hodnôt n a z tabuľky "Kritické body študentského rozdelenia").

Príklad:

Ako výsledok testov boli získané nasledujúce hodnoty -35, -32, -26, -35, -30, -17. Je známe, že dodržiavajú zákon normálneho rozdelenia. Nájdite interval spoľahlivosti pre strednú hodnotu populácie a s úrovňou spoľahlivosti 0,9.

Riešenie:

Nájdite nestranný odhad.

Poďme nájsť.

Potom

Interval spoľahlivosti bude mať formu(-29,2 - 5,62; -29,2 + 5,62) alebo (-34,82; -23,58).

Nájdenie intervalu spoľahlivosti pre rozptyl a smerodajnú odchýlku normálneho rozdelenia

Nech sa náhodná vzorka objemu odoberie z nejakého všeobecného súboru hodnôt distribuovaných podľa normálneho zákonan < 30, pre ktoré sa počítajú výberové rozptyly: vychýlenéa opravené s 2. Potom nájsť odhady intervalov s danou spoľahlivosťoupre všeobecný rozptylDvšeobecná štandardná odchýlkapoužívajú sa nasledujúce vzorce.


alebo,

hodnoty- nájdite pomocou tabuľky hodnôt kritických bodovPearsonove distribúcie.

Interval spoľahlivosti pre rozptyl sa zistí z týchto nerovností umocnením všetkých častí nerovnosti.

Príklad:

Bola skontrolovaná kvalita 15 skrutiek. Za predpokladu, že chyba pri ich výrobe podlieha zákonu normálneho rozdelenia a štandardnej odchýlke vzorkyrovná 5 mm, určte spoľahlivointerval spoľahlivosti pre neznámy parameter

Hranice intervalu predstavujeme ako dvojitú nerovnosť:

Konce obojstranného intervalu spoľahlivosti pre rozptyl možno určiť bez vykonania aritmetických operácií pre danú úroveň spoľahlivosti a veľkosti vzorky pomocou zodpovedajúcej tabuľky (Hranice intervalov spoľahlivosti pre rozptyl v závislosti od počtu stupňov voľnosti a spoľahlivosti ). Na tento účel sa konce intervalu získaného z tabuľky vynásobia opraveným rozptylom s 2.

Príklad:

Vyriešme predchádzajúci problém iným spôsobom.

Riešenie:

Poďme nájsť opravený rozptyl:

Podľa tabuľky „Hranice intervalov spoľahlivosti pre rozptyl v závislosti od počtu stupňov voľnosti a spoľahlivosti“ nájdeme hranice intervalu spoľahlivosti pre rozptyl prik= 14 a: dolná hranica 0,513 a horná hranica 2,354.

Vynásobte získané hranice os 2 a extrahujte koreň (pretože potrebujeme interval spoľahlivosti nie pre rozptyl, ale pre štandardnú odchýlku).

Ako vidno z príkladov, hodnota intervalu spoľahlivosti závisí od spôsobu jeho konštrukcie a dáva blízke, ale odlišné výsledky.

Pre vzorky dostatočne veľkých rozmerov (n>30) hranice intervalu spoľahlivosti pre všeobecnú smerodajnú odchýlku možno určiť podľa vzorca: - nejaké číslo, ktoré je uvedené v tabuľke a uvedené v príslušnej referenčnej tabuľke.

Ak 1- q<1, то формула имеет вид:

Príklad:

Vyriešme predchádzajúci problém tretím spôsobom.

Riešenie:

Predtým nájdenés= 5,17. q(0,95; 15) = 0,46 - zistíme podľa tabuľky.

potom:

Populácia- súbor jednotiek, ktoré majú hromadný charakter, typickosť, kvalitatívnu jednotnosť a prítomnosť variácie.

Štatistický súbor pozostáva z vecne existujúcich objektov (zamestnanci, podniky, krajiny, regióny), je objektom.

Populačná jednotka- každá konkrétna jednotka štatistickej populácie.

Jedna a tá istá štatistická populácia môže byť homogénna v jednom znaku a heterogénna v druhom.

Kvalitatívna uniformita- podobnosť všetkých jednotiek populácie pre akúkoľvek vlastnosť a nepodobnosť pre všetky ostatné.

V štatistickej populácii sú rozdiely medzi jednou a druhou jednotkou populácie častejšie kvantitatívneho charakteru. Kvantitatívne zmeny v hodnotách atribútu rôznych jednotiek populácie sa nazývajú variácie.

Variácia funkcií- kvantitatívna zmena znaku (pre kvantitatívny znak) pri prechode z jednej jednotky populácie do druhej.

znamenie- ide o vlastnosť, charakteristickú vlastnosť alebo inú vlastnosť jednotiek, predmetov a javov, ktorú možno pozorovať alebo merať. Znaky sa delia na kvantitatívne a kvalitatívne. Rôznorodosť a variabilita hodnoty znaku v jednotlivých jednotkách populácie je tzv variácia.

Atributívne (kvalitatívne) znaky nie sú kvantifikovateľné (zloženie populácie podľa pohlavia). Kvantitatívne charakteristiky majú číselné vyjadrenie (zloženie obyvateľstva podľa veku).

Index- ide o zovšeobecňujúcu kvantitatívnu a kvalitatívnu charakteristiku akejkoľvek vlastnosti jednotiek alebo agregátov na daný účel v konkrétnych časových a miestnych podmienkach.

Scorecard je súbor ukazovateľov, ktoré komplexne odrážajú skúmaný jav.

Zvážte napríklad plat:
  • Znamenie - mzdy
  • Štatistická populácia - všetci zamestnanci
  • Jednotkou populácie je každý robotník
  • Kvalitatívna homogenita - časovo rozlíšená mzda
  • Variácia funkcie - séria čísel

Všeobecná populácia a vzorka z nej

Základom je súbor údajov získaných ako výsledok merania jedného alebo viacerých znakov. Skutočne pozorovaný súbor objektov, štatisticky reprezentovaný sériou pozorovaní náhodnej premennej, je vzorkovanie a hypoteticky existujúce (premyslené) - všeobecná populácia. Všeobecná populácia môže byť konečná (počet pozorovaní N = konšt) alebo nekonečný ( N = ∞) a vzorka bežnej populácie je vždy výsledkom obmedzeného počtu pozorovaní. Počet pozorovaní, ktoré tvoria vzorku, sa nazývajú veľkosť vzorky. Ak je veľkosť vzorky dostatočne veľká n→∞) vzorka sa berie do úvahy veľký, inak sa nazýva vzorka obmedzený objem. Vzorka sa zvažuje malý, ak pri meraní jednorozmernej náhodnej veličiny veľkosť vzorky nepresiahne 30 ( n<= 30 ), a pri súčasnom meraní niekoľkých ( k) rysy vo vzťahu viacrozmerného priestoru n do k menej ako 10 (n/k< 10) . Vzorové formuláre variačná séria ak sú jej členmi štatistiky objednávok t.j. vzorové hodnoty náhodnej premennej X sú zoradené vzostupne (zoradené), volajú sa hodnoty atribútu možnosti.

Príklad. Takmer rovnaký náhodne vybraný súbor objektov - komerčné banky jedného administratívneho obvodu Moskvy, možno považovať za vzorku zo všeobecnej populácie všetkých komerčných bánk v tomto okrese a za vzorku zo všeobecnej populácie všetkých komerčných bánk v Moskve. , ako aj vzorka komerčných bánk v krajine a pod.

Základné metódy odberu vzoriek

Spoľahlivosť štatistických záverov a zmysluplná interpretácia výsledkov závisí od reprezentatívnosť vzorky, t.j. úplnosť a primeranosť prezentácie vlastností bežnej populácie, vo vzťahu ku ktorej možno túto vzorku považovať za reprezentatívnu. Štúdium štatistických vlastností populácie možno organizovať dvoma spôsobmi: pomocou nepretržitý a diskontinuálne. Nepretržité pozorovanie zahŕňa vyšetrenie všetkých Jednotkyštudoval agregátov, a nekontinuálne (selektívne) pozorovanie- len jeho časti.

Existuje päť hlavných spôsobov, ako organizovať odber vzoriek:

1. jednoduchý náhodný výber, v ktorom sú objekty náhodne extrahované zo všeobecnej populácie objektov (napríklad pomocou tabuľky alebo generátora náhodných čísel) a každá z možných vzoriek má rovnakú pravdepodobnosť. Takéto vzorky sú tzv vlastne náhodné;

2. jednoduchý výber prostredníctvom bežného postupu sa vykonáva pomocou mechanického komponentu (napríklad dátumy, dni v týždni, čísla bytov, písmená abecedy a pod.) a takto získané vzorky sú tzv. mechanický;

3. stratifikované selekcia spočíva v tom, že všeobecná populácia objemu je rozdelená na podmnožiny alebo vrstvy (vrstvy) objemu tak, že . Vrstvy sú homogénne objekty z hľadiska štatistických charakteristík (napríklad obyvateľstvo je rozdelené do vrstiev podľa vekovej skupiny alebo sociálnej vrstvy; podniky podľa odvetvia). V tomto prípade sú vzorky tzv stratifikované(inak, stratifikovaný, typický, zónový);

4. metódy sériový výber sa používa na formovanie sériový alebo vnorené vzorky. Sú vhodné, ak je potrebné preskúmať „blok“ alebo sériu predmetov naraz (napríklad zásielku tovaru, výrobky určitej série alebo obyvateľstvo v územno-správnom členení krajiny). Výber sérií môže byť vykonaný náhodným alebo mechanickým spôsobom. Súčasne sa vykonáva priebežné zisťovanie určitej šarže tovaru, prípadne celého územného celku (bytový dom alebo štvrť);

5. kombinované(stupňovitý) výber môže kombinovať niekoľko metód výberu naraz (napríklad stratifikovaný a náhodný alebo náhodný a mechanický); takáto vzorka sa nazýva kombinované.

Typy výberu

Autor: myseľ existuje individuálny, skupinový a kombinovaný výber. o individuálny výber vo výberovom súbore sú vybrané jednotlivé jednotky bežnej populácie, s skupinový výber sú kvalitatívne homogénne skupiny (rady) jednotiek, a kombinovaný výber zahŕňa kombináciu prvého a druhého typu.

Autor: metóda výber rozlišovať opakované a neopakujúce sa vzorka.

Neopakovateľné nazývaný výber, pri ktorom sa jednotka, ktorá spadla do vzorky, nevracia do pôvodnej populácie a nezúčastňuje sa ďalšieho výberu; kým počet jednotiek bežnej populácie N počas výberového procesu. o opakované výber chytený vo vzorke sa jednotka po registrácii vráti bežnej populácii, a tak si spolu s ostatnými jednotkami zachováva rovnakú príležitosť na použitie v ďalšom výberovom konaní; kým počet jednotiek bežnej populácie N zostáva nezmenená (metóda sa v socioekonomických štúdiách používa zriedka). Avšak s veľkým N (N → ∞) vzorce pre neopakovane výber sa blíži k tým pre opakované výber a druhé sa používajú takmer častejšie ( N = konšt).

Hlavné charakteristiky parametrov všeobecnej a výberovej populácie

Základom štatistických záverov štúdie je rozdelenie náhodnej premennej, pričom pozorované hodnoty (x 1, x 2, ..., x n) sa nazývajú realizácie náhodnej premennej X(n je veľkosť vzorky). Distribúcia náhodnej premennej vo všeobecnej populácii je teoretická, má ideálnu povahu a jej vzorový analóg je empirický distribúcia. Niektoré teoretické rozdelenia sú uvedené analyticky, t.j. ich možnosti určiť hodnotu distribučnej funkcie v každom bode v priestore možných hodnôt náhodnej premennej. Pre vzorku je preto ťažké a niekedy nemožné určiť distribučnú funkciu možnosti sú odhadnuté z empirických údajov a potom sú dosadené do analytického výrazu popisujúceho teoretické rozdelenie. V tomto prípade je predpoklad (resp hypotéza) o type rozdelenia môžu byť štatisticky správne aj chybné. Ale v každom prípade empirická distribúcia rekonštruovaná zo vzorky len zhruba charakterizuje to pravé. Najdôležitejšie distribučné parametre sú očakávaná hodnota a rozptyl.

Distribúcie sú zo svojej podstaty nepretržitý a diskrétne. Najznámejšie spojité rozdelenie je normálne. Selektívne analógy parametrov a pre ne sú: stredná hodnota a empirický rozptyl. Medzi diskrétne v sociálno-ekonomických štúdiách, najčastejšie používané alternatívny (dichotomický) distribúcia. Parameter očakávania tohto rozdelenia vyjadruje relatívnu hodnotu (resp zdieľam) jednotky populácie, ktoré majú skúmanú charakteristiku (označuje sa písmenom ); časť populácie, ktorá túto vlastnosť nemá, je označená písmenom q (q = 1 – p). Rozptyl alternatívneho rozdelenia má tiež empirický analóg.

V závislosti od typu rozdelenia a od spôsobu výberu populačných jednotiek sa charakteristiky distribučných parametrov vypočítavajú rôzne. Hlavné pre teoretické a empirické rozdelenia sú uvedené v tabuľke. 9.1.

Vzorový podiel k n je pomer počtu jednotiek výberovej populácie k počtu jednotiek všeobecnej populácie:

kn = n/N.

Vzorový podiel w je pomer jednotiek, ktoré majú skúmanú vlastnosť X na veľkosť vzorky n:

w = n n / n.

Príklad. V dávke tovaru obsahujúcej 1000 jednotiek s 5% vzorkou frakcia vzorky k n v absolútnej hodnote je 50 jednotiek. (n = N*0,05); ak sa v tejto vzorke nájdu 2 chybné výrobky, potom frakcia vzorky w bude 0,04 (w = 2/50 = 0,04 alebo 4 %).

Keďže vzorová populácia je odlišná od bežnej populácie, existujú vzorkovacie chyby.

Tabuľka 9.1 Hlavné parametre všeobecnej a výberovej populácie

Chyby pri odbere vzoriek

Pri akýchkoľvek (pevných a selektívnych) sa môžu vyskytnúť chyby dvoch typov: registrácia a reprezentatívnosť. Chyby registrácia môže mať náhodný a systematický charakter. Náhodný chyby sú tvorené mnohými rôznymi nekontrolovateľnými príčinami, sú svojou povahou neúmyselné a zvyčajne sa vzájomne vyrovnávajú v kombinácii (napríklad zmeny údajov prístrojov v dôsledku kolísania teploty v miestnosti).

Systematický chyby sú neobjektívne, pretože porušujú pravidlá výberu objektov vo vzorke (napríklad odchýlky v meraniach pri zmene nastavení meracieho zariadenia).

Príklad. Na posúdenie sociálneho postavenia obyvateľstva v meste sa plánuje vyšetrenie 25 % rodín. Ak by sa však pri výbere každého štvrtého bytu vychádzalo z jeho čísla, hrozí nebezpečenstvo výberu všetkých bytov len jedného typu (napr. jednoizbových), čo spôsobí systematickú chybu a skreslí výsledky; uprednostňuje sa výber čísla bytu žrebom, pretože chyba bude náhodná.

Chyby v reprezentatívnosti Sú vlastné iba selektívnemu pozorovaniu, nemožno sa im vyhnúť a vznikajú v dôsledku skutočnosti, že vzorka úplne nereprodukuje všeobecnú. Hodnoty ukazovateľov získané zo vzorky sa líšia od ukazovateľov rovnakých hodnôt vo všeobecnej populácii (alebo získaných počas nepretržitého pozorovania).

Chyba pri odbere vzoriek je rozdiel medzi hodnotou parametra v bežnej populácii a jeho vzorovou hodnotou. Pre priemernú hodnotu kvantitatívneho atribútu sa rovná: , a pre podiel (alternatívny atribút) - .

Výberové chyby sú vlastné iba pozorovaniam vzoriek. Čím väčšie sú tieto chyby, tým viac sa empirické rozdelenie líši od teoretického. Parametre empirického rozdelenia a sú náhodné premenné, preto sú výberové chyby tiež náhodnými premennými, môžu nadobúdať rôzne hodnoty pre rôzne vzorky, a preto je zvykom počítať priemerná chyba.

Priemerná vzorkovacia chyba je hodnota vyjadrujúca štandardnú odchýlku výberového priemeru od matematického očakávania. Táto hodnota, podliehajúca princípu náhodného výberu, závisí predovšetkým od veľkosti vzorky a od stupňa variácie vlastnosti: čím väčšia a menšia variácia vlastnosti (teda hodnota ), tým menšia je hodnota priemerná vzorkovacia chyba. Pomer medzi rozptylmi všeobecnej a výberovej populácie je vyjadrený vzorcom:

tie. pre dostatočne veľké, môžeme predpokladať, že . Priemerná výberová chyba ukazuje možné odchýlky parametra výberovej populácie od parametra bežnej populácie. V tabuľke. 9.2 ukazuje výrazy na výpočet priemernej výberovej chyby pre rôzne metódy organizácie pozorovania.

Tabuľka 9.2 Stredná chyba (m) priemeru vzorky a podielu pre rôzne typy vzoriek

Kde je priemer rozptylov vnútroskupinovej vzorky pre spojitý znak;

Priemer vnútroskupinových rozptylov podielu;

— počet vybraných sérií, — celkový počet sérií;

,

kde je priemer tého radu;

- všeobecný priemer za celú vzorku pre spojitý prvok;

,

kde je podiel znaku v tej sérii;

— celkový podiel znaku na celej vzorke.

Veľkosť priemernej chyby však možno posúdiť len s určitou pravdepodobnosťou Р (Р ≤ 1). Ljapunov A.M. dokázali, že rozdelenie výberových priemerov, a teda ich odchýlky od všeobecného priemeru, s dostatočne veľkým počtom, sa približne riadia zákonom normálneho rozdelenia za predpokladu, že všeobecná populácia má konečný priemer a obmedzený rozptyl.

Matematicky je toto vyjadrenie priemeru vyjadrené ako:

a pre zlomok bude mať výraz (1) tvar:

kde - existuje hraničná výberová chyba, čo je násobok priemernej výberovej chyby , a multiplicitný faktor je Studentovo kritérium ("faktor spoľahlivosti"), navrhnuté W.S. Gosset (pseudonym "Študent"); hodnoty pre rôzne veľkosti vzoriek sú uložené v špeciálnej tabuľke.

Hodnoty funkcie Ф(t) pre niektoré hodnoty t sú:

Preto výraz (3) možno čítať takto: s pravdepodobnosťou P = 0,683 (68,3 %) možno tvrdiť, že rozdiel medzi vzorkou a všeobecným priemerom nepresiahne jednu hodnotu strednej chyby m(t=1), s pravdepodobnosťou P = 0,954 (95,4 %)— že nepresahuje hodnotu dvoch stredných chýb m (t = 2), s pravdepodobnosťou P = 0,997 (99,7 %)- nepresiahne tri hodnoty m (t = 3). Určuje teda pravdepodobnosť, že tento rozdiel prekročí trojnásobok hodnoty strednej chyby chybovosť a nie je viac ako 0,3% .

V tabuľke. 9.3 sú uvedené vzorce na výpočet medznej výberovej chyby.

Tabuľka 9.3 Hraničná výberová chyba (D) pre priemer a podiel (p) pre rôzne typy vzorkovania

Rozšírenie výsledkov vzorky na populáciu

Konečným cieľom pozorovania vzorky je charakterizovať všeobecnú populáciu. Pri malých veľkostiach vzoriek sa empirické odhady parametrov ( a ) môžu výrazne líšiť od ich skutočných hodnôt ( a ). Preto je potrebné stanoviť hranice, v ktorých ležia skutočné hodnoty ( a ) pre vzorové hodnoty parametrov ( a ).

Interval spoľahlivosti niektorého parametra θ bežnej populácie sa nazýva náhodný rozsah hodnôt tohto parametra, ktorý s pravdepodobnosťou blízkou 1 ( spoľahlivosť) obsahuje skutočnú hodnotu tohto parametra.

hraničná chyba vzorky Δ umožňuje určiť limitné hodnoty charakteristík bežnej populácie a ich intervaly spoľahlivosti, ktoré sa rovnajú:

Spodná čiara interval spoľahlivosti získané odčítaním hraničná chyba z priemeru vzorky (podiel) a najvyššieho pridaním.

Interval spoľahlivosti pre priemer sa používa hraničná výberová chyba a pre danú úroveň spoľahlivosti sa určuje podľa vzorca:

To znamená, že s danou pravdepodobnosťou R, ktorá sa nazýva úroveň spoľahlivosti a je jednoznačne určená hodnotou t, možno tvrdiť, že skutočná hodnota priemeru leží v rozmedzí od , pričom skutočná hodnota podielu je v rozmedzí od

Pri výpočte intervalu spoľahlivosti pre tri štandardné úrovne spoľahlivosti P = 95 %, P = 99 % a P = 99,9 % hodnotu vyberá . Aplikácie v závislosti od počtu stupňov voľnosti. Ak je veľkosť vzorky dostatočne veľká, potom hodnoty zodpovedajú týmto pravdepodobnostiam t sú si rovné: 1,96, 2,58 a 3,29 . Hraničná výberová chyba nám teda umožňuje určiť hraničné hodnoty charakteristík všeobecnej populácie a ich intervaly spoľahlivosti:

Distribúcia výsledkov selektívneho pozorovania medzi všeobecnú populáciu v socioekonomických štúdiách má svoje vlastné charakteristiky, pretože si vyžaduje úplnosť reprezentatívnosti všetkých jej typov a skupín. Základom pre možnosť takéhoto rozdelenia je výpočet relatívna chyba:

kde Δ % - relatívna hraničná výberová chyba; , .

Existujú dva hlavné spôsoby rozšírenia pozorovania vzorky na populáciu: priamy prepočet a metóda koeficientov.

Esencia priama konverzia je vynásobiť priemer vzorky!!\overline(x) veľkosťou populácie .

Príklad. Nechajte odhadnúť priemerný počet batoliat v meste metódou odberu vzoriek a buďte osobou. Ak je v meste 1000 mladých rodín, tak potrebný počet miest v obecných jasliach získame vynásobením tohto priemeru veľkosťou bežnej populácie N = 1000, t.j. bude 1200 miest na sedenie.

Metóda koeficientov je vhodné použiť v prípade, keď sa vykonáva selektívne pozorovanie, aby sa objasnili údaje kontinuálneho pozorovania.

Pritom sa používa vzorec:

kde všetky premenné sú veľkosť populácie:

Požadovaná veľkosť vzorky

Tabuľka 9.4 Požadovaná veľkosť vzorky (n) pre rôzne typy organizácie odberu vzoriek

Pri plánovaní výberového prieskumu s vopred stanovenou hodnotou prípustnej výberovej chyby je potrebné správne odhadnúť požadovanú veľkosť vzorky. Toto množstvo možno určiť na základe prípustnej chyby počas selektívneho pozorovania na základe danej pravdepodobnosti, ktorá zaručuje prijateľnú úroveň chyby (berúc do úvahy spôsob organizácie pozorovania). Vzorce na určenie požadovanej veľkosti vzorky n možno jednoducho získať priamo zo vzorcov pre hraničnú výberovú chybu. Takže z výrazu pre okrajovú chybu:

veľkosť vzorky je určená priamo n:

Tento vzorec ukazuje, že s klesajúcou marginálnou chybou výberu Δ výrazne zvyšuje požadovanú veľkosť vzorky, ktorá je úmerná rozptylu a druhej mocnine Studentovho t-testu.

Pre konkrétny spôsob organizácie pozorovania sa požadovaná veľkosť vzorky vypočíta podľa vzorcov uvedených v tabuľke. 9.4.

Praktické príklady výpočtov

Príklad 1. Výpočet strednej hodnoty a intervalu spoľahlivosti pre spojitú kvantitatívnu charakteristiku.

Na posúdenie rýchlosti vyrovnania s veriteľmi v banke bola vykonaná náhodná vzorka 10 platobných dokladov. Ich hodnoty sa ukázali byť rovnaké (v dňoch): 10; 3; pätnásť; pätnásť; 22; 7; osem; jeden; 19; dvadsať.

Vyžaduje sa s pravdepodobnosťou P = 0,954 určiť hraničnú chybu Δ priemer vzorky a medze spoľahlivosti priemerného času výpočtu.

Riešenie. Priemerná hodnota sa vypočíta podľa vzorca z tabuľky. 9.1 pre vzorovú populáciu

Disperzia sa vypočíta podľa vzorca z tabuľky. 9.1.

Priemerná kvadratická chyba dňa.

Chyba priemeru sa vypočíta podľa vzorca:

tie. stredná hodnota je x ± m = 12,0 ± 2,3 dňa.

Spoľahlivosť priemeru bola

Limitná chyba sa vypočíta podľa vzorca z tabuľky. 9.3 na opätovnú selekciu, keďže veľkosť populácie nie je známa, a pre P = 0,954úroveň sebavedomia.

Stredná hodnota je teda `x ± D = `x ± 2m = 12,0 ± 4,6, t.j. jeho skutočná hodnota leží v rozmedzí od 7,4 do 16,6 dňa.

Použitie študentskej tabuľky. Aplikácia nám umožňuje dospieť k záveru, že pre n = 10 - 1 = 9 stupňov voľnosti je získaná hodnota spoľahlivá s hladinou významnosti a £ 0,001, t.j. výsledná stredná hodnota sa výrazne líši od 0.

Príklad 2. Odhad pravdepodobnosti (všeobecný podiel) r.

Mechanickou metódou odberu vzoriek zisťovania sociálneho postavenia 1000 rodín sa zistilo, že podiel rodín s nízkymi príjmami bol w = 0,3 (30 %)(vzorka bola 2% , t.j. n/N = 0,02). Vyžaduje sa s úrovňou spoľahlivosti p = 0,997 definovať indikátor R nízkopríjmové rodiny v celom regióne.

Riešenie. Podľa prezentovaných funkčných hodnôt Ф(t) nájsť pre danú úroveň spoľahlivosti P = 0,997 význam t = 3(pozri vzorec 3). Chyba hraničného podielu w určiť podľa vzorca z tabuľky. 9.3 pre neopakujúce sa vzorkovanie (mechanické vzorkovanie je vždy neopakujúce sa):

Obmedzenie relatívnej vzorkovacej chyby v % bude:

Pravdepodobnosť (všeobecný podiel) nízkopríjmových rodín v kraji bude p=w±Δw a medze spoľahlivosti p sa vypočítajú na základe dvojitej nerovnosti:

w — Δw ≤ p ≤ w — Δw, t.j. skutočná hodnota p leží v rámci:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

S pravdepodobnosťou 0,997 teda možno tvrdiť, že podiel nízkopríjmových rodín medzi všetkými rodinami v kraji sa pohybuje od 28,6 % do 31,4 %.

Príklad 3 Výpočet strednej hodnoty a intervalu spoľahlivosti pre diskrétny prvok špecifikovaný radom intervalov.

V tabuľke. 9.5. je stanovená distribúcia aplikácií na výrobu zákaziek podľa načasovania ich realizácie podnikom.

Tabuľka 9.5 Rozdelenie pozorovaní podľa času výskytu

Riešenie. Priemerný čas dokončenia objednávky sa vypočíta podľa vzorca:

Priemerný čas bude:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 mesiaca

Rovnakú odpoveď dostaneme, ak použijeme údaje o p i z predposledného stĺpca tabuľky. 9.5 pomocou vzorca:

Všimnite si, že stred intervalu pre poslednú gradáciu sa zistí umelým doplnením o šírku intervalu predchádzajúcej gradácie rovnajúcu sa 60 - 36 = 24 mesiacov.

Disperzia sa vypočíta podľa vzorca

kde x i- stred intervalového radu.

Preto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) a štandardná chyba je .

Chyba priemeru sa vypočíta podľa vzorca na mesiace, t.j. priemer je!!\overline(x) ± m = 23,1 ± 13,4.

Limitná chyba sa vypočíta podľa vzorca z tabuľky. 9,3 pre opätovný výber, pretože veľkosť populácie nie je známa, pre úroveň spoľahlivosti 0,954:

Priemer je teda:

tie. jeho skutočná hodnota leží v rozmedzí od 0 do 50 mesiacov.

Príklad 4 Na zistenie rýchlosti vyrovnania s veriteľmi N = 500 podnikov korporácie v komerčnej banke je potrebné vykonať výberovú štúdiu metódou náhodného neopakovateľného výberu. Určte požadovanú veľkosť vzorky n tak, aby s pravdepodobnosťou P = 0,954 chyba priemeru vzorky nepresiahla 3 dni, ak pokusné odhady ukázali, že smerodajná odchýlka s bola 10 dní.

Riešenie. Na určenie počtu potrebných štúdií n použijeme vzorec pre neopakovateľný výber z tabuľky. 9.4:

V ňom je hodnota t určená z pre hladinu spoľahlivosti P = 0,954. Rovná sa 2. Stredná kvadratická hodnota s = 10, veľkosť populácie N = 500 a hraničná chyba priemeru Δ x = 3. Nahradením týchto hodnôt do vzorca dostaneme:

tie. stačí urobiť vzorku 41 podnikov, aby sa odhadol požadovaný parameter - rýchlosť vyrovnania s veriteľmi.

Selektívne pozorovanie platí pri aplikácii nepretržitého pozorovania fyzicky nemožné z dôvodu veľkého množstva dát resp ekonomicky nepraktické. Fyzická nemožnosť nastáva napríklad pri štúdiu tokov cestujúcich, trhových cien, rodinných rozpočtov. Ekonomická neúčelnosť nastáva pri hodnotení kvality tovaru spojeného s jeho zničením, napríklad pri ochutnávaní, skúšaní tehál na pevnosť atď.

Štatistické jednotky vybrané na pozorovanie sú vzorkovací rámec alebo vzorkovanie a celé ich pole - všeobecná populácia(GS). V čom počet jednotiek vo vzorke určiť n a v celom HS - N. Postoj n/n volal relatívna veľkosť alebo vzorový podiel.

Kvalita výsledkov odberu závisí od reprezentatívnosť vzorky, teda na to, aká je reprezentatívnosť v GS. Na zabezpečenie reprezentatívnosti vzorky je potrebné pozorovať princíp náhodného výberu jednotiek, ktorý predpokladá, že zaradenie jednotky HS do vzorky nemôže ovplyvniť žiadny iný faktor ako náhoda.

existuje 4 spôsoby náhodného výberu vzorkovať:

  1. Vlastne náhodne výber alebo „metóda lotto“, kedy sa k štatistickým hodnotám priraďujú sériové čísla, zadávajú sa na určité predmety (napríklad sudy), ktoré sa potom zmiešajú v určitej nádobe (napríklad vo vreci) a náhodne vyberú. V praxi sa táto metóda vykonáva pomocou generátora náhodných čísel alebo matematických tabuliek náhodných čísel.
  2. Mechanický výber, podľa ktorého každý ( N/n)-tá hodnota bežnej populácie. Ak napríklad obsahuje 100 000 hodnôt a chcete vybrať 1 000, do vzorky bude spadať každá 100 000 / 1 000 = 100. hodnota. Navyše, ak nie sú zoradené, tak prvý sa vyberie náhodne z prvej stovky a čísla ostatných budú o sto viac. Napríklad, ak bola jednotka číslo 19 prvá, potom by malo byť ďalšie číslo 119, potom číslo 219, potom číslo 319 atď. Ak sú jednotky populácie zoradené, potom sa najprv vyberie #50, potom #150, potom #250 atď.
  3. Vykoná sa výber hodnôt z heterogénneho dátového poľa stratifikované(stratifikovaný) spôsob, kedy je všeobecná populácia predtým rozdelená do homogénnych skupín, na ktoré sa uplatňuje náhodný alebo mechanický výber.
  4. Špeciálna metóda odberu vzoriek je sériový selekcia, pri ktorej sa náhodne alebo mechanicky nevyberajú jednotlivé veličiny, ale ich série (sekvencie od nejakého čísla po nejaké po sebe idúce), v rámci ktorej sa uskutočňuje nepretržité pozorovanie.

Kvalita pozorovaní vzoriek závisí aj od typ odberu vzoriek: opakované alebo neopakovateľné.
o opätovný výberštatistické hodnoty alebo ich série, ktoré spadli do vzorky, sa po použití vrátia bežnej populácii a majú šancu dostať sa do novej vzorky. Všetky hodnoty bežnej populácie majú zároveň rovnakú pravdepodobnosť, že budú zahrnuté do vzorky.
Neopakujúci sa výber znamená, že štatistické hodnoty alebo ich série zahrnuté vo vzorke sa po použití nevracajú bežnej populácii, a preto sa zvyšuje pravdepodobnosť, že sa dostanú do ďalšej vzorky pre zostávajúce hodnoty druhej vzorky.

Neopakovateľné vzorkovanie poskytuje presnejšie výsledky, preto sa používa častejšie. Sú však situácie, keď sa to nedá použiť (štúdia tokov cestujúcich, dopyt spotrebiteľov atď.) a potom sa vykoná opätovný výber.

Chyby pri odbere vzoriek

Výberový súbor môže byť vytvorený na základe kvantitatívneho znaku štatistických hodnôt, ako aj na alternatívnom alebo atribútovom základe. V prvom prípade je zovšeobecňujúcou charakteristikou vzorky hodnota označená a v druhom - vzorový podiel množstvá, označené w. V bežnej populácii, resp. všeobecný priemer a obecný podiel p.

Rozdiely - a WR volal vzorkovacia chyba, ktorý je rozdelený podľa chyba registrácie a chyba reprezentatívnosti. K prvej časti výberovej chyby dochádza nesprávnym alebo nepresným údajom z dôvodu nepochopenia podstaty problematiky, nepozornosti registrátora pri vypĺňaní dotazníkov, formulárov a pod. Je pomerne ľahké zistiť a opraviť. Druhá časť chyby vzniká neustálym alebo spontánnym nedodržiavaním princípu náhodného výberu. Je ťažké ho odhaliť a odstrániť, je oveľa väčší ako prvý a preto sa mu venuje hlavná pozornosť.

Hodnota výberovej chyby môže byť odlišná pre rôzne vzorky z tej istej všeobecnej populácie, preto je v štatistike určená priemerná chyba prevzorkovania a neopakovaného vzorkovania podľa vzorcov:

Opakované;

- neopakujúce sa;

Kde Dv je výberový rozptyl.

Napríklad vo fabrike s 1000 zamestnancami. Na zistenie priemernej dĺžky služby zamestnancov sa vykonal 5 % náhodný neopakovaný výber vzoriek. Výsledky odberu vzoriek sú uvedené v prvých dvoch stĺpcoch nasledujúcej tabuľky:

X , rokov
(pracovné skúsenosti)

f , os.
(počet zamestnancov vo vzorke)

X a

X a f

V 3. stĺpci sú definované stredné body intervalov X (ako polovica súčtu dolných a horných hraníc intervalu) a v 4. stĺpci súčin X a f na nájdenie priemeru vzorky pomocou váženej aritmetiky. stredný vzorec:

143,0/50 = 2,86 (rokov).

Vypočítajte vážený rozptyl vzorky:
= 105,520/50 = 2,110.

Teraz nájdime priemernú chybu bez opätovného testu:
= 0,200 (rokov).

Zo vzorcov pre priemerné výberové chyby je možné vidieť, že chyba je menšia pri neopakovanom vzorkovaní a ako je dokázané v teórii pravdepodobnosti, vyskytuje sa s pravdepodobnosťou 0,683 (teda ak zoberiete 1000 vzoriek z jedného všeobecného populácie, potom v 683 z nich chyba neprekročí priemernú výberovú chybu ). Táto pravdepodobnosť (0,683) nie je vysoká, preto nie je veľmi vhodná pre praktické výpočty, kde je potrebná vyššia pravdepodobnosť. Ak chcete určiť výberovú chybu s vyššou pravdepodobnosťou ako 0,683, vypočítajte hraničná výberová chyba:

Kde t– koeficient spoľahlivosti v závislosti od pravdepodobnosti, s akou sa určuje medzná výberová chyba.

Hodnoty faktora dôvery t vypočítané pre rôzne pravdepodobnosti a sú dostupné v špeciálnych tabuľkách (Laplaceov integrál), z ktorých sa v štatistike široko používajú tieto kombinácie:

Pravdepodobnosť 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
t 1 1,5 1,96 2 2,5 2,58 3 3,5

Vzhľadom na konkrétnu úroveň pravdepodobnosti sa z tabuľky vyberie hodnota, ktorá jej zodpovedá t a určiť hraničnú výberovú chybu podľa vzorca.
V tomto prípade = 0,95 a t= 1,96, to znamená, že sa domnievajú, že s pravdepodobnosťou 95% je hraničná výberová chyba 1,96-krát väčšia ako priemer. Zohľadňuje sa táto pravdepodobnosť (0,95). štandardná a štandardne sa používa vo výpočtoch.

V našom , definujeme hraničnú výberovú chybu pri štandardnej 95% pravdepodobnosti (od odberu t= 1,96 pre 95% šancu): = 1,96*0,200 = 0,392 (rokov).

Po výpočte hraničnej chyby sa zistí interval spoľahlivosti zovšeobecňujúcej charakteristiky bežnej populácie. Takýto interval pre všeobecný priemer má tvar
To znamená, že priemerná dĺžka služby pracovníkov v celom závode je v rozmedzí od 2,468 do 3,252 rokov.

Určenie veľkosti vzorky

Pri vývoji programu selektívneho pozorovania sa im niekedy pridelí konkrétna hodnota hraničnej chyby s úrovňou pravdepodobnosti. Minimálna veľkosť vzorky, ktorá poskytuje danú presnosť, zostáva neznáma. Dá sa získať zo vzorcov pre priemerné a hraničné chyby v závislosti od typu vzorky. Takže dosadením a do a riešením s ohľadom na veľkosť vzorky získame nasledujúce vzorce:
na prevzorkovanie n =
bez prevzorkovania n = .

Okrem toho pre štatistické hodnoty s kvantitatívnymi charakteristikami je potrebné poznať aj rozptyl vzorky, ale na začiatku výpočtov nie je známy. Preto sa prijíma približne jeden z nasledujúcich spôsoby(v poradí podľa priority):

Pri štúdiu nenumerických charakteristík sa akceptuje, aj keď neexistujú žiadne približné informácie o frakcii vzorky w= 0,5, čo podľa vzorca disperzie podielu zodpovedá disperzii vzorky v maximálnej veľkosti Dv = 0,5*(1-0,5) = 0,25.