Veľkosť vzorky, ako nájsť vzorec. Veľkosť vzorky - selektívna metóda sociologického výskumu

Štatistika vie všetko. A Ilf a E. Petrov, "12 stoličiek"

Predstavte si, že staviate veľké obchodné centrum a chcete zhodnotiť plynulosť vjazdu na parkovaciu plochu. Nie, uveďme ďalší príklad... aj tak to nikdy neurobia. Musíte vyhodnotiť chuťové preferencie návštevníkov vášho portálu, na čo musíte medzi nimi urobiť prieskum. Ako prepojiť množstvo dát a možnú chybu? Nič zložité – čím väčšia vzorka, tým menšia chyba. Aj tu však existujú nuansy.

Teoretické minimum

Osviežiť si pamäť nebude zbytočné, tieto pojmy sa nám budú hodiť neskôr.

  • populácia- Súbor všetkých predmetov, medzi ktorými sa vykonáva výskum.
  • Ukážka– Podmnožina, časť objektov z celej populácie, ktorá je priamo zapojená do štúdie.
  • Chyba typu I- (α) Pravdepodobnosť zamietnutia nulovej hypotézy, pokiaľ je pravdivá.
  • Chyba typu II- (β) Pravdepodobnosť nie zamietnuť nulovú hypotézu, ak je nepravdivá.
  • 1-p- Štatistická sila kritéria.
  • μ 0 A μ 1- Stredné hodnoty podľa nulovej a alternatívnej hypotézy.


Už v samotných definíciách chyby prvého a druhého druhu je priestor na diskusiu a interpretáciu. Ako sa o nich rozhodnúť a ktorý zvoliť ako nulový? Ak skúmate úroveň znečistenia v pôde alebo vo vode, ako by ste sformulovali nulovú hypotézu: existuje znečistenie alebo neexistuje žiadne znečistenie? Ale z tohto veľkosť vzorky závisí z bežnej populácie objektov.



Počiatočné populácia, rovnako ako vzorka môže mať akúkoľvek distribúciu, ale priemer má normálne alebo Gaussovo rozdelenie vďaka Centrálnej limitnej vete.


Čo sa týka distribučných parametrov a najmä priemeru, je možných niekoľko typov záverov. najprv z ktorých je tzv interval spoľahlivosti. Označuje rozsah možných hodnôt parametra so špecifikáciou faktor dôvery. Takže napríklad 100(1-α)% interval spoľahlivosti pre μ bude takto (Lv. 1).




Po druhé z dedukcie testovanie hypotéz. Mohlo by to byť niečo takéto.

  • H0: μ = h
  • H1: u > h
  • H2: μ< h

OD interval spoľahlivosti 100(1-a) pre μ môžete si vybrať v prospech H 1 a H 2:

  • Ak je spodná hranica interval spoľahlivosti 100 (1-α)< h , то тогда odmietnuť H 0 v prospech H2.
  • Ak je horná hranica interval spoľahlivosti 100(1-a) > h, potom odmietnuť H 0 v prospech H 1 .
  • Ak interval spoľahlivosti 100(1-α) zahŕňa h, potom nemôžeme zamietnuť H 0 a takýto výsledok sa považuje za neurčitý.

Ak potrebujeme skontrolovať hodnotu μ pre jedného vzorky z celkovej populácie, potom bude mať kritérium formu



Interval spoľahlivosti, chyba a veľkosť vzorky

Vezmite úplne prvú rovnicu a odtiaľ vyjadrite šírku interval spoľahlivosti(Lv. 2).



V niektorých prípadoch môžeme nahradiť Študentovu t-štatistiku štandardným z normálnym rozdelením. Ďalšie zjednodušenie nahrádza polovicu w na chybe merania E. Potom bude mať naša rovnica tvar (Rov. 3).



Ako vidíme chyba skutočne klesá spolu s rastom počtu vstupných údajov. Odkiaľ je ľahké odvodiť to, čo hľadáte (Rov. 4).


Cvičte - počítajte s R

Otestujme hypotézu, že priemerná hodnota počtu hmyzu v pasci danej vzorky je 1.

  • H0: μ = 1
  • H1: μ > 1
Hmyz 0 1 2 3 4 5 6
Pasce 10 9 5 5 1 2 1

> x<- read.table("/tmp/tcounts.txt") >y = unlist(x, use.names="false") > mean(z);sd(z) 1,636364 1,654883

Všimnite si, že priemer a štandardná odchýlka sú takmer rovnaké, čo je prirodzené pre Poissonovo rozdelenie. 95% interval spoľahlivosti pre Studentovu t-štatistiku a df=32.


> qt(0,975, 32) 2,036933

a nakoniec dostaneme kritický interval pre priemer: 1.05 - 2.22 .


> μ=priemer (z) > st = qt(,975, 32) > μ + st * sd(z)/sqrt(33) 2,223159 > μ - st * sd(z)/sqrt(33) 1,049568

V dôsledku toho by malo byť H 0 odmietnuté a H 1 akceptované, pretože s pravdepodobnosťou 95%, μ > 1.


V tom istom príklade, za predpokladu, že poznáme skutočnú štandardnú odchýlku - σ , a nie jeho odhad získaný pomocou náhodnej vzorky, môžete vypočítať požadované n pre danú chybu. Vypočítajme pre E=0,5 .


> za2 = qnorm(.975) > (za2*sd(z)/.5)^2 42,08144

korekcia vetra

V skutočnosti nie je dôvod veriť, že to budeme vedieť σ (variance), zatiaľ čo μ (menej) musíme ešte odhadnúť. Z tohto dôvodu má rovnica 4 malé praktické využitie, s výnimkou obzvlášť rafinovaných príkladov z oblasti kombinatoriky a realistická rovnica pre n je pre neznáme o niečo komplikovanejšia. σ (Lv. 5).



poznač si to σ v poslednej rovnici nie s čiapočkou (^), ale s vlnovkou (~). Je to dôsledok toho, že na začiatku nemáme ani len odhadnutú smerodajnú odchýlku náhodnej vzorky - a namiesto toho používame plánované- Kde získame najnovšie? Môžeme povedať, že od stropu: odborný posudok, hrubé odhady, minulé skúsenosti atď.


A čo druhý člen na pravej strane 5. rovnice, odkiaľ sa vzal? Od r je potrebná Güntherova oprava.


Okrem rovníc 4 a 5 existuje ešte niekoľko približno-vyhodnocovacích vzorcov, ale to si už zaslúži samostatný príspevok.

Nižšie uvedený vzorec na výpočet veľkosť vzorky sa používa v prípadoch, keď je respondentom (respondentom) položená len jedna otázka, na ktorú sú len dve možné odpovede. Napríklad „Áno“ a „Nie“; „Používam“ a „Nepoužívam“. Samozrejme, tento vzorec možno použiť iba pri vykonávaní najjednoduchších štúdií. Ak potrebujete určiť veľkosť vzorky pri vykonávaní väčších štúdií, ako sú dotazníky, mali by sa použiť iné vzorce.

Jednoduchý vzorec na výpočet veľkosti vzorky

kde: n- veľkosť vzorky;

z je normalizovaná odchýlka určená na základe zvolenej úrovne spoľahlivosti. Tento ukazovateľ charakterizuje možnosť, pravdepodobnosť získania odpovedí v špeciálnom intervale spoľahlivosti. V praxi sa úroveň spoľahlivosti často považuje za 95 % alebo 99 %. Potom hodnoty z budú 1,96 a 2,58;

p– zmena vzorky v podieloch. V podstate p je pravdepodobnosť, že si respondenti vyberú jednu alebo druhú možnosť odpovede. Predpokladajme, že ak veríme, že štvrtina respondentov zvolí odpoveď „Áno“, potom p sa bude rovnať 25 %, teda p = 0,25;

q= (1 – p);

e– prípustná chyba v zlomkoch.

Príklad výpočtu veľkosti vzorky

Spoločnosť plánuje vykonať sociologickú štúdiu na zistenie podielu fajčiarov v populácii mesta. Za týmto účelom budú zamestnanci spoločnosti klásť okoloidúcim jednu otázku: „Fajčíte?“. Existujú teda iba dve možné odpovede: „Áno“ a „Nie“.

Veľkosť vzorky sa v tomto prípade vypočíta nasledovne. Úroveň spoľahlivosti sa považuje za 95 %, potom za normalizovanú odchýlku z = 1,96. Akceptujeme odchýlku ako 50%, to znamená, že podmienečne veríme, že polovica respondentov môže odpovedať na otázku, či fajčí - „Áno“. Potom p = 0,5. Odtiaľto nájdeme q = 1 – p = 1 – 0,5 = 0,5 . Prijateľná vzorkovacia chyba sa berie ako 10 %, tj e = 0,1.

Tieto údaje dosadíme do vzorca a vypočítame:

Získanie veľkosti vzorky n = 96 ľudí.

Rozsah tohto vzorca

Pri vykonávaní jednoduchého výskumu, keď potrebujete získať odpoveď len na jednu jednoduchú otázku. V tomto prípade má rozsah odpovedí spravidla dichotomický charakter. To znamená, že sú ponúkané (alebo implikované) odpovede typu „Áno“ – „Nie“, „Čierna“ – „Biela“ atď.

Vlastnosti tohto vzorca na výpočet veľkosti vzorky

Galyautdinov R.R.


© Kopírovanie materiálu je povolené len vtedy, ak zadáte priamy hypertextový odkaz na

Populácie sa často nachádzajú medzi veľkými skupinami ľudí. Často je mylné si myslieť, že spoľahlivosť výsledkov bude vyššia, ak na otázky odpovie každý člen spoločnosti. Vzhľadom na obrovské časové, finančné a mzdové náklady je takéto vyšetrenie neprijateľné. S nárastom počtu respondentov sa zvýšia nielen náklady, ale aj riziko získania nesprávnych údajov. Z praktického hľadiska mnohé dotazníky a kódovače znížia pravdepodobnosť spoľahlivej kontroly ich konania. Takýto prieskum sa nazýva kontinuálny.

V sociológii sa najčastejšie využíva diskontinuálne štúdium, prípadne selektívna metóda. Jeho výsledky možno rozšíriť na veľkú skupinu ľudí, ktorá sa nazýva generál.

Definícia a význam metódy odberu vzoriek

Metóda odberu vzoriek je kvantitatívny spôsob výberu časti skúmaných jednotiek z celkovej hmoty, pričom výsledky prieskumu sa budú vzťahovať aj na každého jednotlivca, ktorý sa tohto nezúčastnil.

Metóda odberu vzoriek je predmetom vedeckého výskumu aj akademickej disciplíny. Pôsobí ako prostriedok na získanie spoľahlivých informácií o bežnej populácii a pomáha vyhodnotiť všetky jej parametre. Podmienky výberu jednotiek následne ovplyvňujú štatistickú analýzu výsledkov. Ak sú postupy odberu vzoriek zle implementované, používanie aj tých najspoľahlivejších metód spracovania zozbieraných informácií bude zbytočné.

Kľúčové pojmy teórie voľby

Nazývajú vzťah jednotiek, vo vzťahu ku ktorým sú formulované závery výberovej štúdie. Môže ísť o obyvateľov jednej krajiny, konkrétnej lokality, pracovného tímu podniku atď.

Vzorka (alebo vzorka) je súčasťou generálky, ktorá bola vybraná pomocou špeciálnych metód a kritérií. Napríklad pri procese tvorby sa berú do úvahy štatistické kritériá.

Počet jedincov zahrnutých v danom súbore sa nazýva jeho objem. Ale dá sa to vyjadriť nielen počtom ľudí, ale aj volebnými miestnosťami, sídlami, teda určite veľkými celkami, ktoré zahŕňajú pozorovacie jednotky. Ale toto je už viacstupňová vzorka.

Jednotkou výberu sú zložky bežnej populácie, môžu to byť buď priamo pozorovacie jednotky (jednostupňový odber vzoriek), alebo väčšie útvary.

Dôležitou úlohou pri získavaní spoľahlivých výsledkov výskumu pomocou metódy výberu vzoriek je taká vlastnosť, ako je reprezentatívnosť výberu. To znamená, že časť bežnej populácie, ktorá sa stala respondentmi, musí plne reprodukovať všetky jej charakteristiky. Akákoľvek odchýlka sa považuje za chybu.

Kroky na aplikáciu metódy odberu vzoriek

Každá empirická časť pozostáva z etáp. Ak sa použije metóda odberu vzoriek, ich poradie bude usporiadané takto:

  1. Vytvorenie návrhu vzorky: zisťuje sa všeobecná populácia, charakterizujú sa výberové konania, objemy.
  2. Realizácia projektu: v rámci zberu sociologických informácií dotazníky plnia úlohy s uvedením spôsobu výberu respondentov.
  3. Identifikácia a oprava chýb reprezentatívnosti.

Typy vzoriek v sociológii

Po určení všeobecnej populácie výskumník pristúpi k selektívnym postupom. Možno ich rozdeliť na dva typy (kritériá):

  1. Úloha pravdepodobnostných zákonov v priebehu vzorkovania.
  2. Počet fáz výberu.

Ak sa použije prvé kritérium, potom sa rozlišuje metóda náhodného výberu a nenáhodného výberu. Na základe posledného možno tvrdiť, že vzorka môže byť jednostupňová a viacstupňová.

Typy vzoriek sa priamo odrážajú nielen v etapách prípravy a vedenia štúdie, ale aj v jej výsledkoch. Pred uprednostnením jedného z nich by ste mali pochopiť obsah pojmov.

Definícia „náhodného“ v každodennom používaní dostala úplne opačný význam ako v matematike. Takýto výber sa vykonáva podľa prísnych pravidiel, nie je povolená žiadna odchýlka od nich, pretože je dôležité zabezpečiť, aby každá jednotka všeobecnej populácie mala rovnaké šance na zaradenie do vzorky. Ak tieto podmienky nie sú splnené, táto pravdepodobnosť bude iná.

Na druhej strane je náhodná vzorka rozdelená na:

  • jednoduchý;
  • mechanické (systematické);
  • hniezdenie (sériové, klastrové);
  • stratifikované (typické alebo zónové).

Jednoduchá metóda odberu vzoriek sa vykonáva pomocou tabuľky náhodných čísel. Na začiatku sa určí veľkosť vzorky; je vytvorený kompletný zoznam očíslovaných respondentov zaradených do bežnej populácie. Na výber sa používajú špeciálne tabuľky obsiahnuté v matematických a štatistických publikáciách. Akékoľvek iné okrem nich sú zakázané. Ak je veľkosť vzorky trojmiestne číslo, potom číslo každej vzorkovacej jednotky musí byť trojmiestne, a to od 001 do 790. Posledné číslo udáva celkový počet osôb. Štúdia bude zahŕňať tých ľudí, ktorí majú pridelené číslo v špecifikovanom rozsahu, ktorý nájdete v tabuľke.

Systematický výber je založený na výpočtoch. Predbežne sa zostaví abecedný zoznam všetkých prvkov všeobecnej populácie, nastaví sa krok a až potom - veľkosť vzorky. Vzorec krokov je nasledujúci:

N: n, kde N je populácia a n je vzorka.

Napríklad 150 000 : 5 000 = 30. Do prieskumu sa teda vyberie každý tridsiaty človek.

Entita typu hniezdo

Zhluková vzorka sa používa, keď populáciu skúmaných ľudí tvoria malé prirodzené skupiny. V tomto prípade je potrebné poznamenať, že zoznam takýchto hniezd sa určuje v prvom kroku. Pomocou tabuľky náhodných čísel sa robí výber a priebežný prieskum všetkých respondentov v každom vybranom hniezde. Navyše, čím viac z nich sa štúdie zúčastnilo, tým menšia bola priemerná výberová chyba. Je však možné použiť takúto techniku ​​za predpokladu, že študované hniezda majú podobnú vlastnosť.

Podstata stratifikovanej voľby

Stratifikovaná vzorka sa líši od predchádzajúcich v tom, že v predvečer výberu je všeobecná populácia rozdelená na vrstvy, to znamená na homogénne časti, ktoré majú spoločnú črtu. Napríklad úroveň vzdelania, volebné preferencie, miera spokojnosti s rôznymi stránkami života. Najjednoduchšou možnosťou je rozdeliť subjekty podľa pohlavia a veku. V zásade je potrebné vykonať výber tak, aby sa z každej vrstvy vyčlenil počet osôb úmerný celkovému počtu.

Veľkosť vzorky v tomto prípade môže byť menšia ako v situácii s náhodným výberom, ale reprezentatívnosť bude vyššia. Malo by sa uznať, že stratifikované vzorkovanie bude z finančného a informačného hľadiska najnákladnejšie a vnorené vzorkovanie bude v tomto smere najprínosnejšie.

Nenáhodný kvótny výber vzoriek

Existuje aj kvótna vzorka. Je to jediný typ nenáhodného výberu, ktorý má matematické opodstatnenie. Kvótna vzorka sa skladá z jednotiek, ktoré musia byť zastúpené proporciami a musia zodpovedať celkovej populácii. V tejto forme sa uskutočňuje účelná distribúcia funkcií. Ak sú medzi skúmanými znakmi názory a hodnotenia ľudí, potom sú často kvótami pohlavie, vek a vzdelanie respondentov.

V sociologickej štúdii sa rozlišujú aj dve metódy výberu: opakovaná a neopakovaná. V prvom prípade je vybraná jednotka po prieskume vrátená bežnej populácii, aby sa mohla naďalej zúčastňovať na výbere. Pri druhej možnosti sú respondenti zoradení, čím sa zvyšuje šanca pre zvyšných členov populácie na výber.

Sociológ G. A. Churchill vypracoval nasledujúce pravidlo: veľkosť vzorky by sa mala snažiť poskytnúť aspoň 100 pozorovaní pre primárnu a 20-50 pre sekundárnu klasifikačnú zložku. Treba mať na pamäti, že niektorí respondenti zaradení do vzorky sa z rôznych dôvodov nemusia zúčastniť prieskumu alebo ho úplne odmietnuť.

Metódy na určenie veľkosti vzorky

V sociologickom výskume sa používajú tieto metódy:

1. Ľubovoľné, to znamená, že veľkosť vzorky je určená v rámci 5 – 10 % zloženia bežnej populácie.

2. Tradičná metóda výpočtu je založená na uskutočňovaní pravidelných prieskumov, napríklad raz ročne, ktoré zahŕňajú 600, 2 000 alebo 2 500 respondentov.

3. Štatistické – slúži na stanovenie spoľahlivosti informácií. Štatistika ako veda sa nevyvíja izolovane. Predmety a oblasti jej výskumu sa aktívne zapájajú do ďalších príbuzných odborov: technických, ekonomických a humanitných. Jeho metódy sa teda využívajú v sociológii, pri príprave na prieskumy a najmä pri určovaní veľkosti vzorky. Štatistika ako veda má rozsiahlu metodologickú základňu.

4. Drahé, v ktorých je stanovená prípustná výška výdavkov na výskum.

5. Veľkosť vzorky sa môže rovnať počtu jednotiek bežnej populácie, potom bude štúdia kontinuálna. Tento prístup je použiteľný v malých skupinách. Napríklad pracovná sila, študenti atď.

Predtým bolo možné stanoviť, že vzorka sa bude považovať za reprezentatívnu, keď jej charakteristiky popisujú vlastnosti všeobecnej populácie s minimálnou chybou.

Odhad veľkosti vzorky predchádza konečným výpočtom počtu jednotiek, ktoré sa vyberú zo všeobecnej populácie:

n \u003d Npqt 2: N∆ 2 p + pqt 2, kde N je počet jednotiek všeobecnej populácie, p je podiel študovaného znaku (q \u003d 1 - p), t je koeficient korešpondencie pravdepodobnosti spoľahlivosti P (určenej špeciálnou tabuľkou), ∆ p - povolená chyba.

Toto je len jedna variácia spôsobu výpočtu veľkosti vzorky. Vzorec sa môže meniť v závislosti od podmienok a zvolených kritérií štúdie (napríklad opätovné vzorkovanie alebo nereplikovanie vzorkovania).

Chyby pri odbere vzoriek

Sociologické prieskumy populácie sú založené na použití jedného z typov odberov, ktoré sme uvažovali vyššie. V každom prípade by však úlohou každého výskumníka malo byť posúdiť mieru presnosti získaných ukazovateľov, to znamená, že je potrebné určiť, do akej miery odrážajú charakteristiky bežnej populácie.

Výberové chyby môžeme rozdeliť na náhodné a nenáhodné. Prvý typ implikuje odchýlku výberového ukazovateľa od všeobecného, ​​ktorá môže byť vyjadrená rozdielom v ich podieloch (priemere) a ktorá je spôsobená len nekontinuálnym typom zisťovania. A je celkom prirodzené, ak sa tento ukazovateľ znižuje na pozadí nárastu počtu opýtaných respondentov.

Systematická chyba je odchýlka od všeobecného ukazovateľa, zistená aj v dôsledku odpočítania výberového súboru a všeobecných podielov a vyplývajúca z nesúladu metodiky výberu vzoriek so stanovenými pravidlami.

Tieto typy chýb sú zahrnuté v celkovej vzorkovacej chybe. V štúdii možno z populácie odobrať iba jednu vzorku. Výpočet maximálnej možnej odchýlky ukazovateľa vzorky je možné vykonať pomocou špeciálneho vzorca. Nazýva sa to hraničná výberová chyba. Existuje aj taká vec ako stredná vzorkovacia chyba. Toto je štandardná odchýlka vzorky od všeobecného podielu.

Existuje aj aposteriórny (postexperimentálny) typ chyby. Znamená odchýlku ukazovateľov vzorky od všeobecného podielu (priemeru). Vypočítava sa porovnaním všeobecného ukazovateľa, o ktorom informácie pochádzajú zo spoľahlivých zdrojov, a vzorky, ktorá bola stanovená počas prieskumu. Ako spoľahlivé zdroje informácií často vystupujú personálne útvary podnikov, štátne štatistické orgány.

Existuje aj apriórna chyba, ktorá je zároveň odchýlkou ​​výberových a všeobecných ukazovateľov, ktorá môže byť vyjadrená ako rozdiel medzi ich podielmi a môže byť vypočítaná pomocou špeciálneho vzorca.

V pedagogickom výskume sa pri výbere respondentov do prieskumu najčastejšie dopúšťajú týchto chýb:

1. Vzorové súbory skupín patriacich do rôznych všeobecných populácií. Keď sa použijú, vytvoria sa štatistické závery, ktoré sa vzťahujú na celú vzorku. Je celkom zrejmé, že to nemôže byť prijateľné.

2. Pri posudzovaní typov vzoriek sa neberú do úvahy organizačné a finančné možnosti výskumníka a uprednostňuje sa jeden z nich.

3. Štatistické kritériá pre štruktúru všeobecnej populácie sa nepoužívajú v plnom rozsahu, aby sa predišlo výberovým chybám.

4. Požiadavky na reprezentatívnosť výberu respondentov v priebehu komparatívnych štúdií sa neberú do úvahy.

5. Pokyny pre anketára by sa mali prispôsobiť konkrétnemu typu prijatého výberu.

Povaha účasti respondentov v štúdii môže byť otvorená alebo anonymná. Toto by sa malo vziať do úvahy pri vytváraní vzorky, pretože v prípade nesúhlasu s podmienkami môžu účastníci odísť.

Pri navrhovaní výberového pozorovania vzniká otázka požadovanej veľkosti vzorky. Toto číslo je možné určiť na základe prípustnej chyby pri vzorkovaní, na základe pravdepodobnosti, na základe ktorej je možné zaručiť veľkosť chyby, ktorú treba nastaviť, a napokon na základe metódy výberu.

Vzorce pre požadovanú veľkosť vzorky pre rôzne metódy odberu vzoriek možno odvodiť zo zodpovedajúcich pomerov používaných pri výpočte hraničných výberových chýb. Tu sú najčastejšie používané výrazy v praxi pre požadovanú veľkosť vzorky:

správne náhodné a mechanické vzorkovanie:

(opätovný výber)

(neopakovaný výber)

typická vzorka:

(opätovný výber)

(neopakovaný výber)

sériové odbery vzoriek:

(opätovný výber)

(neopakovaný výber)

V tomto prípade, v závislosti od cieľov štúdie, možno odchýlky a výberové chyby vypočítať pre priemernú hodnotu alebo podiel znaku.

Uvažujme o príkladoch určenia požadovanej veľkosti vzorky pre rôzne metódy tvorby výberovej populácie.

Príklad 5 V 100 cestovných kanceláriách mesta sa plánuje vykonať prieskum priemerného mesačného počtu predaných poukážok metódou mechanického výberu. Aká by mala byť veľkosť vzorky, aby s pravdepodobnosťou 0,683 chyba nepresiahla 3 poukážky, ak je podľa pilotného prieskumu rozptyl 225.

Riešenie. Vypočítajte požadovanú veľkosť vzorky:

agentúry.

Príklad 6 Na zistenie podielu zamestnancov komerčných bánk v kraji nad 40 rokov sa plánuje zorganizovať typickú vzorku úmernú počtu zamestnancov a zamestnankýň s mechanickým výberom v rámci skupín. Celkový počet zamestnancov banky je 12 tisíc ľudí, z toho 7 tisíc mužov a 5 tisíc žien.

Na základe predchádzajúcich prieskumov je známy priemer rozptylov v rámci skupiny 1 600. Požadovanú veľkosť vzorky určte s pravdepodobnosťou 0,997 a chybou 5 %.

Riešenie. Vypočítajte celkovú veľkosť typickej vzorky:

ľudí

Vypočítajme teraz objem jednotlivých typických skupín:

ľudí

ľudí

Požadovaná veľkosť vzorky zamestnancov banky je teda 550 osôb vrátane. 319 mužov a 231 žien.

Príklad 7 Akciová spoločnosť má 200 tímov pracovníkov. Plánuje sa vykonať výberové zisťovanie s cieľom zistiť podiel pracovníkov s chorobami z povolania. Je známe, že medzisériový rozptyl podielu je 225. S pravdepodobnosťou 0,954 vypočítajte požadovaný počet tímov na prieskumných pracovníkov, ak by výberová chyba nemala presiahnuť 5 %.

Riešenie. Požadovaný počet brigád sa vypočíta na základe vzorca pre objem sériového neopakovateľného odberu vzoriek:

brigády.

3. Určenie požadovanej veľkosti vzorky

Je veľmi dôležité určiť optimálnu veľkosť vzorky, ktorá s určitou pravdepodobnosťou poskytne špecifikovanú presnosť výsledkov pozorovania. Keď sa veľkosť vzorky zväčší, vzorkovacia chyba sa zníži. Ale keďže jednotky vo vzorke pre prieskum sú často zničené, frekvencia vzorkovania jednotiek vo vzorke musí byť optimálna. Optimálnu veľkosť vzorky možno získať zo vzorcov vzorkovacích chýb.

Tabuľka 8.4

Vzorce na určenie optimálnej veľkosti vzorky

Spôsob výberu

Pre stredné

Náhodné opakovanie

Náhodné a mechanické neopakovateľné

Typologické neopakovateľné

Sériové neopakujúce sa s rovnakými sériami

Vzorce ukazujú, že ako sa odhadovaná vzorkovacia chyba zvyšuje, požadovaná veľkosť vzorky výrazne klesá.

Na výpočet veľkosti vzorky potrebujete poznať rozptyl. Možno si ho vypožičať z predchádzajúcich prieskumov rovnakej alebo podobnej populácie alebo sa môže vykonať ad hoc výberový prieskum malého rozsahu.

Príklad 2 : V podniku sa uskutočnili rozhovory so 100 pracovníkmi z 1000 v poradí náhodnej neopakujúcej sa vzorky a získali sa nasledujúce údaje o ich príjmoch za október (tabuľka 8.5).

Tabuľka 8.5

Rozdelenie pracovníkov podľa priemerného mesačného príjmu

Definuj:

1) priemerný mesačný príjem zamestnancov tohto podniku, zaručujúci výsledok s pravdepodobnosťou 0,997;

2) podiel pracovníkov podniku s mesačným príjmom 19 000 rubľov. a vyššie, zaručujúce výsledok s pravdepodobnosťou 0,954;

3) požadovaná veľkosť vzorky pri určovaní priemerného mesačného príjmu zamestnancov podniku tak, aby s pravdepodobnosťou 0,954 hraničná výberová chyba nepresiahla 200 rubľov.

Riešenie:

1) Určme priemerný mesačný príjem zamestnancov tohto podniku, ktorý zaručuje výsledok s pravdepodobnosťou 0,997.

n= 100 ľudí

N= 1000 ľudí

Riešenie: na určenie intervalu priemerného mesačného príjmu zamestnancov daného podniku v bežnej populácii je potrebné poznať hodnotu hraničnej výberovej chyby. a veľkosť priemerného mesačného príjmu pracovníkov podľa výberového zisťovania .


t a stredná vzorkovacia chyba .

Od P \u003d 0,997, potom (podľa tabuľky 8.2) t= 3.

Uskutočnil sa náhodný neopakovateľný výber podľa tabuľky. 8.3 vyberieme vzorec na výpočet priemernej vzorkovacej chyby pre priemer:

, kde
je vzorový rozptyl.

Veľkosť priemerného mesačného príjmu pracovníkov podľa výberového zisťovania sa určí podľa vzorca aritmetického váženého priemeru:
.

Ďalšie výpočty sa vykonajú v nasledujúcej tabuľke:

mesačný príjem,

Počet pracovníkov, os.

Stred intervalu

tisíc rubľov.

tisíc rubľov.

Vedieť t A
Určme hodnotu hraničnej výberovej chyby:

Tisíc trieť.

Potom bude interval priemerného mesačného príjmu pracovníkov tohto podniku takýto:

;

.

Odpoveď: Priemerný mesačný príjem zamestnancov tohto podniku s pravdepodobnosťou 0,997 je v rozmedzí 18,08 tisíc rubľov. až 18,92 tisíc rubľov.

2) Určme podiel pracovníkov podniku s mesačným príjmom 19 000 rubľov. a vyššie, čo zaručuje výsledok s pravdepodobnosťou 0,954.

n= 100 ľudí

N= 1000 ľudí

Riešenie: určiť interval podielu pracovníkov s mesačným príjmom 19 000 rubľov. a vyššie je potrebné poznať hodnotu hraničnej výberovej chyby podielu
a podiel pracovníkov s týmto priemerným mesačným príjmom podľa vzorky W.

Hraničná výberová chyba je určená vzorcom
. Závisí to od hodnoty faktora spoľahlivosti t a stredná vzorkovacia chyba.

Od P \u003d 0,954, potom (podľa tabuľky 8.2) t= 2.

Uskutočnil sa náhodný neopakovateľný výber podľa tabuľky. 8.3 vyberte vzorec na výpočet priemernej vzorkovacej chyby pre podiel:

, kde W- podiel pracovníkov podniku s priemerným mesačným príjmom 19 000 rubľov. a vyššie vo vzorke.

Podiel vzorky je určený pomerom počtu jednotiek, ktoré majú študovaný znak m k celkovému počtu odberných jednotiek n, alebo
.

Potom je priemerná chyba podielu

Vedieť t a určiť hodnotu hraničnej výberovej chyby pre podiel:

Potom interval podielu pracovníkov s mesačným príjmom 19 000 rubľov. a vyššie v bežnej populácii budú nasledovné:

.

Odpoveď: podiel pracovníkov podniku s mesačným príjmom 19 000 rubľov. a vyššie, s pravdepodobnosťou 0,954 je v rozmedzí od 19,4 % do 36,6 %.

    Pri určovaní priemerného mesačného príjmu zamestnancov podniku určme požadovanú veľkosť vzorky tak, aby s pravdepodobnosťou 0,954 hraničná výberová chyba nepresiahla 200 rubľov.

N= 1000 ľudí

Riešenie: požadovaná veľkosť vzorky na určenie priemerného mesačného príjmu je určená vzorcom (podľa tabuľky 8.4):

Podľa stavu úlohy je známe: s pravdepodobnosťou P = 0,954 t\u003d 2 (pozri tabuľku 8.2);

0,2 tisíc rubľov;
(podľa predchádzajúcej vzorky).

ľudí

Odpoveď: aby s pravdepodobnosťou 0,954 hraničná chyba výberu nepresiahla 200 rubľov, musí byť vyšetrených 189 ľudí.

4.5. Stanovenie veľkosti vzorky

Vzorový návrhový postup zahŕňa postupné riešenie nasledujúcich troch úloh:

Definícia predmetu štúdia;

Stanovenie štruktúry vzorky;

Určenie veľkosti vzorky.

zvyčajne objekt marketingového výskumu je súbor objektov pozorovania, ktorými môžu byť spotrebitelia, zamestnanci firmy, sprostredkovatelia a pod. Ak je táto populácia taká malá, že výskumný tím má potrebné pracovné, finančné a časové možnosti na nadviazanie kontaktu s každým z jej prvkov, potom je celkom realistické vykonávať nepretržitú štúdiu celej populácie. V tomto prípade, po určení predmetu výskumu, môžete pristúpiť k ďalšiemu postupu (výber metódy zberu údajov, výskumného nástroja a spôsobu komunikácie s publikom).

V praxi však veľmi často nie je možné alebo vhodné vykonávať súvislé štúdium celej populácie. Môžu to mať nasledujúce dôvody:

Nemožnosť nadviazania kontaktu s niektorými zložkami obyvateľstva;

Neprimerane vysoké náklady na vykonanie kompletnej štúdie alebo prítomnosť finančných obmedzení, ktoré neumožňujú vykonanie kompletnej štúdie;

Krátky čas vyčlenený na štúdiu z dôvodu straty relevantnosti informácií v priebehu času alebo z iných dôvodov a neumožňujúci zber, systematizáciu a analýzu rozsiahlych údajov pre celú populáciu.

Preto sa veľké a rozptýlené populácie často študujú pomocou vzorky, ktorá, ako viete, sa chápe ako časť populácie, ktorá predstavuje populáciu ako celok.

Presnosť, s akou vzorka odráža populáciu ako celok, závisí od štruktúra a veľkosť vzorky.

Existujú dva prístupy k štruktúre vzorky- pravdepodobnostný a deterministický.

Pravdepodobný prístup k štruktúre vzorky predpokladá, že s určitou (nie nulovou) pravdepodobnosťou možno vybrať ktorýkoľvek prvok populácie. Existujú rôzne typy vzoriek založených na teórii pravdepodobnosti (typické, vnorené atď.). Najjednoduchšia a v praxi najbežnejšia je jednoduchá náhodná vzorka, v ktorej má každý prvok populácie rovnakú pravdepodobnosť, že bude vybraný na výskum.

Pravdepodobné vzorkovanie je presnejšie, čo umožňuje výskumníkovi posúdiť stupeň spoľahlivosti údajov, ktoré zozbieral, aj keď je to komplikovanejšie a drahšie ako deterministické vzorkovanie.

Deterministický prístup na vzorovú štruktúru predpokladá, že výber populačných prvkov sa uskutočňuje metódami založenými buď na úvahách o vhodnosti, alebo na rozhodnutí výskumníka, prípadne na podmienených skupinách.

z dôvodu pohodlia, spočíva vo výbere ľubovoľných prvkov populácie na základe jednoduchosti nadviazania kontaktu s nimi. Nedokonalosť tejto metódy je pravdepodobne spôsobená nízkou reprezentatívnosťou získanej vzorky, od r prvky populácie, ktoré sú pre výskumníka vhodné, nemusia byť dostatočne charakteristickými predstaviteľmi populácie z dôvodu ich nenáhodného a nerozumného výberu.

Na druhej strane však jednoduchosť, nákladová efektívnosť a efektívnosť štúdie realizovanej touto metódou jej vyniesla pomerne široké rozšírenie v praxi a predovšetkým pri vykonávaní predbežných štúdií zameraných na objasnenie hlavných problémov.

Metóda odberu vzoriek založená na základe rozhodnutia výskumníka, spočíva vo výbere prvkov obyvateľstva, ktoré sú podľa neho jeho charakteristickými predstaviteľmi. Táto metóda je dokonalejšia ako predchádzajúca, pretože je založená na orientácii na charakteristických predstaviteľov skúmanej populácie, hoci sú vyberaní na základe subjektívnych predstáv výskumníkov o nej.

Metóda odberu vzoriek založená na podmienené normy, spočíva vo výbere charakteristických prvkov populácie v súlade s predtým získanými charakteristikami populácie ako celku. Tieto charakteristiky možno získať vykonaním predbežných štúdií a na rozdiel od predchádzajúcej metódy nie sú subjektívne. Preto je táto metóda pokročilejšia, umožňuje získať výberové populácie, ktoré nie sú menej reprezentatívne ako pravdepodobnostné vzorky pri výrazne nižších nákladoch na uskutočnenie prieskumu.

Po výbere štruktúry vzorky (prístup k jej tvorbe, typ pravdepodobnostného alebo vrhacieho formovania deterministickej vzorky) bude musieť výskumník určiť objem, t.j. počet prvkov vzorky.

Veľkosť vzorky určuje spoľahlivosť informácií získané v dôsledku jeho štúdia, ako aj náklady potrebné na štúdium. Veľkosť vzorky závisí na úrovni homogenity alebo rôznorodosti skúmaných objektov.

Čím väčšia je veľkosť vzorky, tým vyššia je jej presnosť a tým vyššie sú náklady na uskutočnenie jej prieskumu. Pravdepodobnostným prístupom k štruktúre vzorky je možné určiť jej objem pomocou známych štatistických vzorcov, na základe špecifikovaných požiadaviek na jej presnosť.

V praxi sa na určenie veľkosti vzorky používa niekoľko prístupov:

1. Svojvoľný prístup na základe uplatňovania „pravidla palca“. Bez dôkazov sa napríklad predpokladá, že na získanie presných výsledkov musí vzorka tvoriť 5 % populácie. Tento prístup je jednoduchý a ľahko realizovateľný, ale nie je možné stanoviť presnosť získaných výsledkov. Pri dostatočne veľkom počte obyvateľov to môže byť aj poriadne drahé.

Veľkosť vzorky je možné nastaviť na základe určitých vopred stanovených podmienok. Napríklad zákazník prieskumu trhu vie, že pri skúmaní verejnej mienky je vzorka zvyčajne 1000 – 1200 ľudí, preto odporúča, aby sa výskumník držal tohto čísla. V prípade, že sa na konkrétnom trhu vykonávajú ročné prieskumy, každý rok sa používa vzorka rovnakej veľkosti. Na rozdiel od prvého prístupu sa tu pri určovaní veľkosti vzorky používa známa logika, ktorá je však veľmi zraniteľná.

Napríklad pri vykonávaní určitých štúdií môže byť presnosť menšia ako pri skúmaní verejnej mienky a veľkosť populácie môže byť mnohonásobne menšia ako pri skúmaní verejnej mienky. Tento prístup teda nezohľadňuje súčasné okolnosti a môže byť dosť drahý.

V niektorých prípadoch sa náklady na uskutočnenie prieskumu používajú ako hlavný argument pri určovaní veľkosti vzorky. Rozpočet na marketingový výskum teda počíta s nákladmi na uskutočnenie určitých prieskumov, ktoré nemožno prekročiť. Je zrejmé, že hodnota prijatých informácií sa neberie do úvahy. V niektorých prípadoch však aj malá vzorka môže poskytnúť pomerne presné výsledky.

Zdá sa byť rozumné posudzovať náklady nie absolútne, ale vo vzťahu k užitočnosti informácií získaných ako výsledok prieskumov. Klient a výskumník by mali zvážiť rôzne veľkosti vzoriek a metódy zberu údajov, náklady a iné faktory

2. Veľkosť vzorky z úrovne intervalu spoľahlivosti dovolenej chyby, ktorá, ako už bolo spomenuté, je daná účelnou presnosťou konečných zovšeobecnení: od zvýšenej po približnú. Tu však máme na mysli takzvané náhodné chyby spojené s povahou akýchkoľvek štatistických chýb. Práve tie sú vypočítané ako chyby reprezentatívnosti pravdepodobnostných vzoriek.

V. I. Paniotto uvádza nasledujúce výpočty reprezentatívnej vzorky s predpokladom 5-percentnej chyby (tabuľka 4.2).

Tabuľka 4.2

Odhadovaná vzorová tabuľka

Pre populáciu viac ako 100 000 je vzorka 400 jednotiek. Ak však máme na mysli bežné populácie 5 000 a viac, potom podľa výpočtov toho istého autora je možné uviesť veľkosť skutočnej výberovej chyby v závislosti od jej objemu, čo je pre nás veľmi dôležité. berúc do úvahy, že veľkosť dovolenej chyby závisí od účelu výskumu a nemusí sa nevyhnutne priblížiť k úrovni 5 percent.

Tabuľka 4.3

Tabuľka výpočtov

Spolu s náhodnými chybami sú možné aj systematické chyby. Závisia od organizácie výberového zisťovania. Ide o rôzne odchýlky vzorky smerom k jednému z pólov parametra vzorky.

3. Veľkosť vzorky na základe štatistickej analýzy . Tento prístup je založený na určení minimálnej veľkosti vzorky na základe určitých požiadaviek na spoľahlivosť a spoľahlivosť výsledkov. Používa sa aj pri analýze výsledkov získaných za jednotlivé podskupiny tvorené ako súčasť vzorky podľa pohlavia, veku, stupňa vzdelania a pod. Požiadavky na spoľahlivosť a presnosť výsledkov pre jednotlivé podskupiny diktujú určité požiadavky na veľkosť vzorky ako celku.

Teoreticky najviac opodstatnený a správny prístup k určovaniu veľkosti vzorky je založený na výpočte spoľahlivých intervalov. Pojem variácie charakterizuje mieru odlišnosti (podobnosti) odpovedí respondentov na určitú otázku. V prísnejšom zmysle je variácia hodnôt ktoréhokoľvek atribútu v súhrne rozdielom v jeho hodnotách medzi rôznymi jednotkami daného súhrnu v rovnakom období alebo časovom bode. Výsledky odpovedí na otázky prieskumu sú zvyčajne prezentované vo forme distribučnej krivky (obr. 4.1). Pri vysokej podobnosti odpovedí hovoria o malej variácii (úzka distribučná krivka) a pri nízkej podobnosti odpovedí o vysokej variácii (široká distribučná krivka).

Ako miera variácie sa zvyčajne berie štandardná odchýlka, ktorá charakterizuje priemernú vzdialenosť od priemerného skóre odpovedí každého respondenta na konkrétnu otázku.

Malá variácia

vysoká variácia

Ryža. 4.1. Variačné a distribučné krivky

Keďže všetky marketingové rozhodnutia sa prijímajú v podmienkach neistoty, odporúča sa zohľadniť túto okolnosť pri určovaní veľkosti vzorky. Keďže definícia študovaných hodnôt pre úzku populáciu sa vykonáva na základe štatistických údajov vzorky, je potrebné stanoviť rozsah (interval spoľahlivosti), v ktorom sa očakávajú odhady pre populáciu ako celok. pád a chyba v ich určovaní.

Interval spoľahlivosti je rozsah, ktorého extrémne body zodpovedajú určitému percentu určitých odpovedí na otázku. Interval spoľahlivosti úzko súvisí so štandardnou odchýlkou ​​študovaného znaku vo všeobecnej populácii: čím je väčší, tým širší by mal byť interval spoľahlivosti, aby bolo možné zahrnúť určité percento odpovedí.

Interval spoľahlivosti buď 95 % alebo 99 % je štandardom v marketingovom výskume. Žiadna firma nevykonáva prieskum trhu s viacerými vzorkami. A matematická štatistika umožňuje získať určité informácie o distribúcii vzorky, pričom má len údaje o variácii jedinej vzorky.

Ukazovateľom toho, do akej miery sa odhad, ktorý je pravdivý pre populáciu ako celok, líši od odhadu, ktorý sa očakáva pre typickú vzorku, je štandardná chyba. Navyše, čím väčšia je veľkosť vzorky, tým menšia je chyba. Vysoká hodnota odchýlky spôsobuje vysokú hodnotu chyby a naopak.

Ak má daná otázka iba dve odpovede vyjadrené v percentách (použije sa percentuálna miera), veľkosť vzorky sa určí podľa nasledujúceho vzorca:

kde n je veľkosť vzorky; z je normalizovaná odchýlka určená na základe zvolenej úrovne spoľahlivosti; p je nájdená variácia pre vzorku; g - (100-p); e je prijateľná chyba.

Pri určovaní ukazovateľa variácie pre určitú populáciu sa v prvom rade odporúča vykonať predbežnú kvalitatívnu analýzu skúmanej populácie, aby sa v prvom rade zistila podobnosť jednotiek populácie v demografických, sociálnych a iných ohľadoch. pre výskumníka zaujímavé. Je možné vykonať pilotnú štúdiu s využitím výsledkov podobných štúdií vykonaných v minulosti. Pri použití percentuálnej miery variability sa berie do úvahy okolnosť, že maximálna variabilita sa dosiahne pre p = 50 %, čo je najhorší prípad. Okrem toho tento ukazovateľ radikálne neovplyvňuje veľkosť vzorky. Do úvahy sa berie aj názor objednávateľa štúdie na veľkosť vzorky.

Veľkosť vzorky je možné určiť skôr na základe priemerov ako percent.

kde s je štandardná odchýlka.

V praxi, ak sa vzorka vytvorí nanovo a podobné prieskumy sa neuskutočnia, potom s nie je známe. V tomto prípade je vhodné špecifikovať chybu e v zlomkoch štandardnej odchýlky. Výpočtový vzorec sa prevedie a má nasledujúci tvar:

kde .

Vyššie sme hovorili o agregátoch veľmi veľkých rozmerov. V niektorých prípadoch však populácie nie sú veľké. Zvyčajne, ak je vzorka menšia ako päť percent populácie, potom sa populácia považuje za veľkú a výpočty sa vykonávajú podľa vyššie uvedených pravidiel. Ak veľkosť vzorky presiahne 5 % populácie, potom sa táto považuje za malú a do vyššie uvedených vzorcov sa zavedie korekčný faktor.

Veľkosť vzorky sa v tomto prípade určuje takto:

,

Praktická práca č. 8. "Určenie požadovanej veľkosti vzorky"

"Určenie požadovanej veľkosti vzorky"

Najrozšírenejším typom diskontinuálneho pozorovania je selektívne pozorovanie, pri ktorom sa neskúmajú všetky jednotky skúmanej populácie, ale vyberá sa len určitá časť z nich.

Celý súbor objektov (pozorovaní), ktoré sa majú študovať, sa nazývajú všeobecná populácia. Populácia vzorky alebo vzorka nazývaná časť bežnej populácie, vybraná na štúdium vlastností poskytujúcich reprezentatívnosť.

Výber zo všeobecnej populácie sa vykonáva tak, že na základe vzorky možno získať pomerne presnú predstavu o hlavných parametroch populácie ako celku. V tomto prípade hovoríme jednak o bodovom odhade, ktorý sa berie ako zodpovedajúca hodnota priemeru, podielu a pod., získanej ako výsledok vzorky, jednak o intervalovom odhade, t.j. o hraniciach, v ktorých sa s určitou pravdepodobnosťou môže nachádzať hodnota želaného parametra v bežnej populácii. Hlavnou požiadavkou, ktorú musí vzorka spĺňať, je požiadavka jej reprezentatívnosti, t.j. reprezentatívnosť.

V štatistike sa výsledky kontinuálneho pozorovania niekedy hodnotia ako selektívne charakteristiky. Takáto interpretácia získaných údajov sa uskutočňuje v prípadoch, keď je počet skúmaných jednotiek malý a neexistuje pevné presvedčenie, že skúmané charakteristiky nemôžu nadobudnúť iné hodnoty ako tie, ktoré boli identifikované ako výsledok pozorovania. Pri vykonávaní experimentov môže byť počet hodnôt nekonečne veľký, preto pri formulovaní záverov na základe ich obmedzeného počtu je potrebné považovať získané údaje za selektívne charakteristiky.

Pri rozšírení výsledkov výberového zisťovania na všeobecnú populáciu je potrebné mať na pamäti, že medzi charakteristikami všeobecnej a výberovej populácie môže byť nesúlad, a to z dôvodu, že sa nezisťuje celá populácia, ale len časť populácie. z toho.

Chyba štatistického pozorovania berie sa do úvahy hodnota odchýlky medzi vypočítanými a skutočnými hodnotami charakteristík skúmaných objektov.

Metóda odberu vzoriek poskytuje výraznú úsporu materiálových a finančných zdrojov pri vykonávaní štatistického pozorovania, čo umožňuje rozšírenie programu zisťovania a zvýšenie jeho efektívnosti. Druhou výhodou je vysoká spoľahlivosť získaných údajov, keďže s relatívne malou veľkosťou vzorky je možné organizovať efektívnu kontrolu kvality zozbieraných informácií. Znižuje sa tak pravdepodobnosť výskytu chýb v registrácii a ich neodhalenia v štádiu overovania primárnych informácií. A nakoniec, v mnohých prípadoch, keď je nepretržité pozorovanie spojené so zničením alebo znehodnotením skúmaných jednotiek (napríklad pri kontrole kvality potravinárskych výrobkov vstupujúcich na trh), je možný iba selektívny prieskum.

Presnosť odhadov získaných na základe výberovej metódy nezávisí od podielu skúmaných jednotiek, ale od ich počtu.

Hlavné fázy selektívneho pozorovania;

1) určenie cieľa, úloh a zostavenie programu pozorovania;

2) odber vzoriek;

3) zber údajov na základe vyvinutého programu;

4) analýza získaných výsledkov a výpočet hlavných charakteristík vzorky;

5) výpočet výberovej chyby a distribúcia jej výsledkov do bežnej populácie.

Rozlišovať typy vzoriek:

1) náhodný(v skutočnosti náhodné);

2) mechanický(napríklad každých 10, 20 atď.);

3) typický (stratifikované), keď je všeobecná populácia rozdelená do skupín a v každej skupine sa skúma niekoľko objektov));

4) sériový (hniezdenie), keď sú náhodne vybrané celé série.

Najjednoduchší spôsob vytvorenia vzorky populácie je správny náhodný výber. Teoretické základy metódy výberu vzoriek, pôvodne vyvinuté vo vzťahu k skutočnému náhodnému výberu, sa používajú aj na určenie chýb výberu pri iných metódach pozorovania.

V skutočnosti sa náhodný výber môže opakovať a neopakovať. o opakované Pri selekcii môže byť každá jednotka vybraná náhodne zo všeobecnej populácie po vrátení pozorovania tejto populácii znovu preskúmaná. V praxi je tento spôsob výberu zriedkavý. Oveľa bežnejšie je v skutočnosti náhodné neopakovateľné výber, pri ktorom sa skúmané jednotky nevracajú populácii a nie je možné ich opätovne zisťovať. Pri opakovanom výbere zostáva pravdepodobnosť zaradenia do vzorky pre každú jednotku všeobecnej populácie nezmenená. Pri neopakovacom výbere sa mení, ale pre všetky jednotky zostávajúce vo všeobecnej populácii po výbere niekoľkých jednotiek z nej je pravdepodobnosť zaradenia do vzorky rovnaká.

Presnosť – miera chyby vo výsledkoch prieskumu alebo veľkosť intervalu spoľahlivosti.

Absolútna presnosť je daná určitým intervalom, v ktorom by sa mala nachádzať odhadovaná hodnota.

Relatívna presnosť je definovaná vo vzťahu k úrovni odhadu parametrov.

Spoľahlivosť je miera spoľahlivosti, že odhad je blízko skutočnej hodnoty.

Pri určovaní veľkosti vzorky by sa malo brať do úvahy niekoľko kvalitatívnych faktorov: dôležitosť rozhodnutia, ktoré sa má urobiť, povaha štúdie, počet premenných, povaha analýzy, veľkosti vzoriek použité v takýchto štúdiách, pokrytie rýchlosť, rýchlosť dokončenia a obmedzenia zdrojov. Štatisticky určená veľkosť vzorky je čistá, čiže konečná veľkosť vzorky, t.j. zostávajúce jednotky populácie po vylúčení potenciálnych respondentov, ktorí nespĺňajú dané kritériá alebo rozhovor nedokončili. V závislosti od miery pokrytia a úplnosti môže byť potrebná oveľa väčšia počiatočná veľkosť vzorky. V komerčnom marketingovom výskume môže byť nedostatok času, peňazí a dobrých ľudí rozhodujúci pri určovaní veľkosti vzorky. V Projekte štúdie lojality obchodného domu bola veľkosť vzorky určená práve z týchto dôvodov.

Metóda intervalu spoľahlivosti:

Určenie veľkosti vzorky metódou intervalov spoľahlivosti je založené na ich vytvorení okolo priemeru vzorky alebo frakcie vzorky pomocou vzorca pre štandardnú chybu. Predpokladajme napríklad, že výskumník použije jednoduchý náhodný výber na výber vzorky 300 domácností na odhad mesačných výdavkov domácnosti na nákupy v obchodnom dome a určí, že priemerné mesačné výdavky domácnosti vo vzorke sú 182 USD. Predchádzajúce štúdie ukázali, že RMS odchýlka výdavkov v skúmanej populácii je 55 USD.

Chceme nájsť interval, do ktorého by spadlo určité percento priemeru vzorky. Predpokladajme, že chceme definovať interval okolo priemeru populácie, ktorý by zahŕňal 95 % priemeru vzorky na základe vzorky 300 rodín; 95 % priemeru vzorky možno rozdeliť na dve rovnaké časti, o polovicu menej a o polovicu viac ako je priemer, ako je znázornené na obr. 1. Výpočet intervalu spoľahlivosti zahŕňa určenie plochy menšej ako (XL) a väčšej ako (XU) priemernej hodnoty (X) nákladov.

Hodnoty z-faktora zodpovedajúce XL a XU možno vypočítať takto:

Preto je minimálna hodnota X definovaná ako

a maximálnu hodnotu

Teraz nastavme 95 % interval spoľahlivosti okolo priemeru vzorky 182 USD. Najprv vypočítame štandardnú chybu priemeru:

Centrálnych 95 % normálnej distribúcie je v rámci -1,96 z-hodnôt; 95 % interval spoľahlivosti je definovaný ako

95% interval spoľahlivosti teda siaha od 175,77 do 188,23 USD. Existuje 95% šanca, že skutočný priemer pozorovanej populácie je medzi 175,77 a 188,23 USD.

Priemerná metóda:

Metóda použitá na vytvorenie intervalu spoľahlivosti môže byť upravená tak, aby sa určila veľkosť vzorky pri požadovanom intervale spoľahlivosti. Predpokladajme, že chcete presnejšie vypočítať mesačné výdavky rodiny v obchodnom dome, aby bol výsledok v rozmedzí 5,0 USD od skutočného priemeru skúmanej populácie. Aká by mala byť veľkosť vzorky? Tabuľka obsahuje potrebný zoznam akcií, ktoré musíte vykonať.


  • 1. Určte stupeň presnosti. Toto je maximálny povolený rozdiel (D) medzi priemerom vzorky a priemerom populácie. V našom príklade D = +5,0 USD
  • 2. Zadajte úroveň spoľahlivosti. Predpokladajme, že požadovaná úroveň spoľahlivosti je 95 %.
  • 3. Určte hodnotu normalizovanej odchýlky z spojenej s danou úrovňou spoľahlivosti. Pri 95 % hladine spoľahlivosti je pravdepodobnosť, že priemer populácie bude mimo jednostranného intervalu, 0,025 (0,05/2). Zodpovedajúca hodnota z je 1,96.
  • 4. Určite smerodajnú odchýlku priemeru populácie. Dá sa získať zo sekundárnych zdrojov alebo vypočítať z pilotnej štúdie. Okrem toho môže byť štandardná odchýlka stanovená na základe názoru výskumníka. Napríklad rozsah normálne rozloženej premennej je približne šesť štandardných odchýlok (tri vľavo a tri vpravo od priemeru).

5. Určite veľkosť vzorky pomocou vzorca pre štandardnú chybu priemeru

V našom príklade

(zaokrúhlené nahor na najbližšie celé číslo).

Zo vzorca pre veľkosť vzorky je zrejmé, že rastie so zvyšujúcou sa variabilitou (rozptylovaním) všeobecnej populácie, ako aj so zvyšujúcou sa úrovňou spoľahlivosti a stupňom presnosti, s ktorou sa musia výpočty vykonávať. . Veľkosť vzorky je priamo úmerná Q2, takže čím väčší je rozptyl populácie, tým väčšia je veľkosť vzorky. Podobne vyššia úroveň spoľahlivosti znamená väčšiu hodnotu z, a teda väčšiu veľkosť vzorky. Premenné Q2 a z sú v čitateli. Zvýšenie stupňa presnosti sa dosiahne znížením hodnoty D, a preto sa zväčší veľkosť vzorky, pretože D je v menovateli.

6. Ak je veľkosť vzorky 10 % alebo viac veľkosti populácie, použije sa konečná úprava populácie (fpc). Potom sa podľa vzorca vypočíta požadovaná veľkosť vzorky

7. Ak štandardná odchýlka populácie o nie je známa a použije sa jej odhadovaná hodnota, potom by sa mala po získaní vzorky prepočítať. Vzorová štandardná odchýlka s sa používa ako odhad pre Q. Potom by sa mal vypočítať opravený interval spoľahlivosti, aby sa určil stupeň skutočne získanej presnosti.

Predpokladajme, že hodnota 55,00 bola použitá ako odhad pre a, pretože skutočná hodnota bola neznáma. Bola získaná vzorka, v ktorej n = 465. Na základe údajov štúdie sa vypočíta stredná hodnota X, ktorá sa rovná 180,00, a štandardná odchýlka vzorky s sa rovná 50,00. Potom bude opravený interval spoľahlivosti:

Upozorňujeme, že výsledný interval spoľahlivosti je už odhadnutý. Je to preto, že štandardná odchýlka populácie je nadhodnotená na základe charakteristík vzorky.

8. Niekedy je presnosť definovaná skôr v relatívnom než absolútnom vyjadrení. Inými slovami, môže byť známe, že výsledok výpočtu by mal byť plus alebo mínus R % priemeru. V tomto prípade môže byť veľkosť vzorky definovaná ako

Veľkosť populácie N neovplyvňuje priamo veľkosť vzorky, okrem prípadov, keď sa použije konečný faktor úpravy populácie. Môže sa to zdať neuveriteľné, ale ak sa nad tým zamyslíte, toto tvrdenie dáva zmysel. Napríklad, ak sú študované charakteristiky všetkých prvkov populácie identické, potom na výpočet priemeru stačí vzorka pozostávajúca z jedného prvku. To je tiež správne, ak populácia pozostáva z 50, 500, 5 000 alebo 50 000 položiek. Zároveň variabilita charakteristík populácie priamo ovplyvňuje veľkosť vzorky. Táto variabilita sa berie do úvahy pri výpočte veľkosti vzorky pomocou všeobecného rozptylu Q2 alebo rozptylu vzorky s2.

Spôsob zdieľania:

Ak študovanú štatistiku nepredstavuje priemer, ale podiel, potom obchodník určí veľkosť vzorky rovnakým spôsobom. Predpokladajme, že výskumník má záujem určiť podiel domácností, ktoré vlastnia kreditnú kartu obchodného domu. Postup bude nasledovný.

1. Zadajte stupeň presnosti. Predpokladajme, že požadovaný stupeň presnosti je taký, že je nastavený tolerančný interval

D \u003d p - l \u003d ± 0,05.

  • 2. Zadajte úroveň spoľahlivosti. Predpokladajme, že je požadovaná úroveň spoľahlivosti 95 %.
  • 3. Určite hodnotu z spojenú s danou úrovňou spoľahlivosti. Ako bolo vysvetlené pri výpočte priemeru, bude to 1,96.
  • 4. Určte celkový zlomok n. Ako sme už naznačili, možno ho získať zo sekundárnych zdrojov, v priebehu experimentálnej štúdie alebo na základe názoru výskumníka. Predpokladajme, že na základe sekundárnych údajov výskumník vychádza z predpokladu, že 64 % rodín v skúmanej populácii má kreditnú kartu obchodného domu. Preto l = 0,64.
  • 5. Určite veľkosť vzorky pomocou vzorca pomernej štandardnej chyby:

V našom príklade

  • (zaokrúhlené nahor na najbližšie celé číslo).
  • 6. Ak je konečná veľkosť vzorky 10 % alebo viac veľkosti populácie, použije sa konečná úprava populácie (fpc). Potom sa podľa vzorca vypočíta požadovaná veľkosť vzorky

kde n je veľkosť vzorky pred aplikáciou konečnej korekcie; nc je veľkosť vzorky po aplikácii konečnej korekcie.

7. Ak bol výpočet TC nesprávny, potom bude interval spoľahlivosti viac alebo menej presný, ako je potrebné. Predpokladajme, že na konci vzorky sa vypočíta hodnota podielu p rovná 0,55. Interval spoľahlivosti sa potom prepočíta, pričom sp sa použije na výpočet neznámeho Qp takto:

V našom príklade

Interval spoľahlivosti je potom 0,55 ± 1,96 (0,0264) = 0,55 + 0,052, čo znamená, že je širší, ako bolo špecifikované. Vysvetľuje to skutočnosť, že smerodajná odchýlka vzorky p = 0,55 sa ukázala byť väčšia ako odhadovaná hodnota smerodajnej odchýlky všeobecnej populácie pri n = 0,64.

Ak je interval väčší ako špecifikovaný interval neprijateľný, veľkosť vzorky možno upraviť tak, aby odrážala maximálnu možnú odchýlku v populácii. Takáto odchýlka nastáva, keď súčin l (1 - l) dosiahne svoju maximálnu hodnotu, pre ktorú sa l musí rovnať 0,5. K tomuto záveru možno dospieť aj bez výpočtov. Keďže jedna polovica populácie má jednu charakteristickú hodnotu a druhá polovica má inú, na vyvodenie správneho záveru bude potrebných viac údajov, ako keď je situácia jasnejšie definovaná a väčšina prvkov má rovnakú charakteristickú hodnotu. V našom príklade to bude mať za následok veľkosť vzorky

  • (zaokrúhlené nahor na najbližšie celé číslo).
  • 8. Presnosť sa niekedy definuje skôr v relatívnom než absolútnom vyjadrení. Inými slovami, môže byť známe, že výsledok výpočtu by mal byť plus alebo mínus R % podielu populácie. To znamená, že D = Rl. V tomto prípade môže byť veľkosť vzorky definovaná ako