Reprezentatívna vzorka. Ukážka

vzdelávacie ciele

Je zrejmé, že sa rozlišuje medzi pojmami cenzus (kvalifikácia) a odber vzoriek.
Poznať podstatu a postupnosť šiestich etáp implementovaných výskumníkmi na získanie vzorky populácie.
Definujte pojem „rámec odberu vzoriek“.
Vysvetlite rozdiel medzi pravdepodobnostným a deterministickým výberom.
Rozlišujte medzi vzorkovaním s pevnou veľkosťou a viacstupňovým (konzekutívnym) vzorkovaním.
Vysvetlite, čo je to zámerné vzorkovanie, a popíšte jeho silné a slabé stránky.
Definujte pojem kvótny odber vzoriek.
Vysvetlite, čo je parameter vo výberovom konaní.
Vysvetlite, čo je odvodená množina.
Vysvetlite, prečo je pojem distribúcia vzoriek najdôležitejším pojmom štatistiky.

Výskumník teda presne definoval problém a zabezpečil vhodný návrh výskumu a nástroje na zber údajov na jeho riešenie. Ďalším krokom v procese výskumu by mal byť výber tých prvkov, ktoré sa majú preskúmať. Je možné preskúmať každý prvok danej populácie vykonaním úplného sčítania tejto populácie. Kompletný prieskum obyvateľstva sa nazýva sčítanie (kvalifikácia). Je tu ešte jedna možnosť. Určitá časť populácie, vzorka prvkov veľkej skupiny, je podrobená štatistickému skúmaniu a podľa údajov získaných o tejto podskupine sa vyvodzujú určité závery týkajúce sa celej skupiny. Schopnosť zovšeobecniť výsledky získané z údajov vzorky na veľkú skupinu závisí od metódy, ktorou bola vzorka odobratá. Veľká časť tejto kapitoly bude venovaná tomu, ako by mala byť vzorka zostavená a prečo.

Sčítanie ľudu (kvalifikácia)
Kompletné sčítanie obyvateľstva (obyvateľov).
Ukážka
Súbor prvkov podmnožiny väčšej skupiny objektov.

Pojem „populácia“ alebo „zbierka“ sa môže vzťahovať nielen na ľudí, ale aj na firmy pôsobiace vo výrobnom priemysle, na maloobchodníkov alebo veľkoobchodníkov, alebo dokonca na úplne neživé predmety, ako sú časti vyrobené podnikom; tento pojem je definovaný ako celý súbor prvkov, ktoré spĺňajú určité dané podmienky. Tieto podmienky jednoznačne definujú tak prvky, ktoré patria do cieľovej skupiny, ako aj prvky, ktoré by mali byť vylúčené z úvahy.

Štúdia, ktorej cieľom je určiť demografický profil konzumentov mrazenej pizze, by mala začať identifikáciou toho, kto by mal byť a kto by nemal byť takto klasifikovaný. Patria do tejto kategórie ľudia, ktorí takúto pizzu aspoň raz ochutnali? Jednotlivci, ktorí si kúpia aspoň jednu pizzu za mesiac? V týždni? Jednotlivci, ktorí zjedia viac ako určité minimálne množstvo pizze za mesiac? Výskumník musí byť veľmi presný pri určovaní cieľovej skupiny. Je tiež potrebné dbať na to, aby sa vzorka odoberala z cieľovej populácie a nie z „nejakej“ populácie, čo je prípad, keď je výberový rámec neadekvátny alebo neúplný. Ten je zoznamom prvkov, z ktorých sa vytvorí skutočná vzorka.

Výskumník môže uprednostniť výberový prístup pred prieskumom celej populácie z niekoľkých dôvodov. Po prvé, úplné preskúmanie populácie, dokonca aj relatívne malej veľkosti, si vyžaduje veľmi veľké materiálne a časové náklady. Často v čase, keď je sčítanie ukončené a údaje sú spracované, sú už informácie neaktuálne. V niektorých prípadoch je kvalifikácia jednoducho nemožná. Povedzme, že výskumníci sa pustili do kontroly súladu skutočnej životnosti elektrických žiaroviek s vypočítanou životnosťou, na ktorú ich musia nechať svietiť, kým sa nepokazia. Ak takto preskúmate celú zásobu svietidiel, získajú sa spoľahlivé údaje, ale nebude čo obchodovať.

Nakoniec, k veľkému údivu začiatočníkov, výskumník môže uprednostniť odber vzoriek pred sčítaním, snažiac sa o presnosť výsledkov. Sčítania vyžadujú veľký počet zamestnancov, čo zvyšuje pravdepodobnosť zaujatosti (nevýberových) chýb. Táto okolnosť je jedným z dôvodov, prečo americký Census Bureau používa výberové prieskumy na testovanie presnosti rôznych typov sčítania. Čítate správne: na testovanie presnosti kvalifikačných údajov je možné vykonať vzorové prieskumy.

Vzorové kroky návrhu

Na obr. Obrázok 15.1 zobrazuje šesťkrokovú sekvenciu, ktorú môže výskumník sledovať pri navrhovaní vzorky. V prvom rade je potrebné určiť cieľovú populáciu alebo súbor prvkov, o ktorých chce výskumník niečo vedieť.

Napríklad pri skúmaní preferencií detí sa výskumníci musia rozhodnúť, či cieľovú populáciu budú tvoriť iba deti, iba rodičia alebo obaja.

Agregát (populácia)
Súbor prvkov, ktoré spĺňajú určité dané podmienky.
Rám na odber vzoriek (základňa)
Zoznam prvkov, z ktorých sa uskutoční výber; môže pozostávať z územných jednotiek, organizácií, osôb a iných prvkov.

Istá firma testovala svoje elektrické „preteky“ len na deťoch. Deti boli úplne očarené. Rodičia na novinku reagovali rôzne. Mamám sa nepáčilo, že jazda nenaučila deti, aby boli priateľské k autu, a oteckom sa nepáčilo, že výrobok bol vyrobený ako hračka.
Je možná aj opačná situácia. Firma uviedla na trh nový potravinársky výrobok a spustila celoštátnu reklamnú kampaň zameranú na predčasne vyspelé dieťa, pričom účinnosť reklám testovala len na nadšených mamičkách. Deťom sa toto „zrýchľovanie“ a s ním aj samotný propagovaný produkt naopak zdalo hnusné. Produkt skončil 1.

Výskumník sa musí rozhodnúť, kto alebo z čoho bude príslušná populácia pozostávať: jednotlivci, rodiny, firmy, iné organizácie, transakcie kreditnými kartami atď. Pri takýchto rozhodnutiach je potrebné určiť prvky, ktoré by mali byť z populácie vylúčené. Mali by sa uviesť časové aj geografické referencie prvkov, ktoré môžu v niektorých prípadoch podliehať dodatočným podmienkam alebo obmedzeniam. Napríklad, ak hovoríme o jednotlivcoch, želanú populáciu môžu tvoriť len osoby staršie ako 18 rokov, alebo len ženy, alebo len osoby s minimálne stredoškolským vzdelaním.

Úloha určiť geografické hranice pre cieľovú populáciu v medzinárodnom marketingovom výskume môže byť osobitným problémom, pretože to zvyšuje heterogenitu posudzovaného systému. Napríklad relatívny pomer mestských a vidieckych oblastí sa môže v jednotlivých krajinách výrazne líšiť. Územný aspekt má vážny vplyv na zloženie obyvateľstva a v rámci tej istej krajiny. Napríklad na severe Čile žije kompaktne prevažne indické obyvateľstvo, zatiaľ čo v južných oblastiach krajiny žijú najmä potomkovia Európanov.

Pokrytie (incident)
Percento členov populácie alebo skupiny, ktorí spĺňajú podmienky na zaradenie do vzorky.

Vo všeobecnosti platí, že čím jednoduchšie je cieľová populácia definovaná, tým vyššie je jej pokrytie (incidencia) a tým je postup odberu vzoriek jednoduchší a lacnejší. Pokrytie (incident) zodpovedá podielu prvkov populácie alebo skupiny vyjadrenej v percentách, ktoré spĺňajú podmienky na zaradenie do vzorky. Pokrytie priamo ovplyvňuje čas a materiálové náklady potrebné na vykonanie prieskumu. Ak je pokrytie veľké (t. j. väčšina prvkov populácie spĺňa jedno alebo viacero jednoduchých kritérií používaných na identifikáciu potenciálnych respondentov), čas a náklady potrebné na zber údajov sa minimalizujú. Naopak, s nárastom počtu kritérií, ktoré musia potenciálni respondenti spĺňať, rastú materiálne aj časové náklady.

Na obr. 15.2 ukazuje podiel dospelej populácie venujúcej sa určitým športom. Údaje na obrázku naznačujú, že je oveľa náročnejšie a nákladnejšie vyšetriť ľudí, ktorí sa venujú jazde na motorke (len 3,6 % z celkového počtu dospelých), ako ľudí, ktorí pravidelne rekreačne chodia na prechádzky (27,4 % z celkového počtu dospelí). Hlavná vec je, že výskumník presne určí, ktoré prvky by mali byť zahrnuté do skúmanej populácie a ktoré prvky by z nej mali byť vylúčené. Jasné vyjadrenie účelu štúdie výrazne uľahčuje riešenie tohto problému. Druhým krokom v procese vzorkovania je určenie vzorkovacieho rámca, ktorý, ako už viete, je zoznam prvkov, z ktorých sa vzorka bude čerpať. Nech sú cieľovou populáciou určitej štúdie všetky rodiny žijúce v oblasti Dallasu. Na prvý pohľad môže byť telefónny zoznam Dallas dobrým a ľahko dostupným rámcom vzorkovania. Pri bližšom skúmaní je však zrejmé, že zoznam rodín obsiahnutý v adresári nie je úplne správny, pretože sú v ňom vynechané čísla niektorých rodín (samozrejme, nezahŕňa rodiny, ktoré nemajú telefóny), pričom niektoré rodiny majú niekoľko telefónnych čísel. V zozname sa nenachádzajú ani osoby, ktoré nedávno zmenili svoje bydlisko, a teda aj telefónne číslo.

Skúsení výskumníci dospeli k záveru, že presná zhoda medzi vzorkovacím rámcom a cieľovou populáciou záujmu je veľmi zriedkavá. Jedným z najkreatívnejších krokov pri navrhovaní vzorky je určenie vhodného rámca vzorkovania v prípadoch, keď je ťažké zostaviť zoznam členov populácie. To si môže vyžadovať vzorkovanie z pracovných blokov a prefixov, keď sa napríklad používa náhodné vytáčanie z dôvodu nedostatkov v telefónnych zoznamoch. Výrazný nárast pracovných jednotiek za posledných 10 rokov však túto úlohu sťažil. Podobné situácie môžu nastať aj v prípade selektívneho pozorovania územných zón alebo organizácií s následným odberom čiastkových vzoriek, keď povedzme cieľovou populáciou sú jednotlivci, ktorých presný aktuálny zoznam neexistuje.

Zdroj: na základe údajov obsiahnutých v SSI- LITe TM: L ow Incidence T cielené S ampling" (Fairfield, Conn.: Survey Sampling, Inc., 1994).

Tretí krok v postupe vzorkovania úzko súvisí s určením rámca vzorkovania. Výber metódy alebo postupu odberu vzoriek závisí vo veľkej miere od rámca odberu vzoriek, ktorý výskumník prijal. Rôzne typy vzoriek vyžadujú rôzne typy rámcov vzorkovania. Táto a nasledujúca kapitola poskytnú prehľad hlavných typov vzoriek používaných v marketingovom výskume. Pri ich popise by mala byť zrejmá súvislosť medzi vzorkovacím rámcom a spôsobom jeho vzniku.

Štvrtým krokom v postupe odberu vzoriek je určenie veľkosti vzorky. Tento problém je diskutovaný v kap. 17. V piatej fáze musí výskumník skutočne vybrať prvky, ktoré budú predmetom prieskumu. Metóda použitá na tento účel je určená zvoleným typom vzorky; pri diskusii o metódach vzorkovania si povieme aj o výbere jeho prvkov. A nakoniec, výskumník musí skutočne preskúmať identifikovaných respondentov. V tejto fáze je vysoká pravdepodobnosť, že sa dopustíte množstva chýb.
Tieto problémy a niektoré metódy ich riešenia sú popísané v kap. osemnásť.

Typy plánov odberu vzoriek (vzorkovanie)

Všetky metódy vzorkovania možno rozdeliť do dvoch kategórií: pozorovanie pravdepodobnostných vzoriek a pozorovanie deterministických vzoriek. V pravdepodobnostnej vzorke môže byť každý člen populácie zahrnutý s určitou špecifikovanou nenulovou pravdepodobnosťou. Pravdepodobnosť zahrnutia určitých členov populácie do vzorky môže byť rôzna, ale pravdepodobnosť zahrnutia každého prvku do vzorky je známa. Táto pravdepodobnosť je určená špeciálnym mechanickým postupom používaným na výber členov vzorky.

Pre deterministické vzorky je odhad pravdepodobnosti zahrnutia akéhokoľvek prvku do vzorky nemožný. Reprezentatívnosť takejto vzorky nemožno zaručiť. Napríklad, Allstate Corporation vyvíjala systém na spracovanie údajov o škodách 14 miliónov domácností (svojich klientov). Spoločnosť plánuje použiť tieto údaje na určenie vzorcov dopytu po jej službách, ako je napríklad pravdepodobnosť, že domácnosť, ktorá vlastní Mercedes Benz, bude vlastniť aj dovolenkový dom (čo si bude vyžadovať poistenie). Hoci je databáza veľmi rozsiahla, spoločnosť nemá prostriedky na odhad pravdepodobnosti, že si nejaký konkrétny zákazník uplatní nárok. Spoločnosť si tak nemôže byť istá, že údaje o zákazníkoch, ktoré si uplatňujú nárok, reprezentujú všetkých zákazníkov spoločnosti; a ešte v menšej miere – vo vzťahu k potenciálnym zákazníkom.

Všetky deterministické vzorky sú založené na osobnej pozícii, úsudku alebo preferenciách výskumníka, a nie na mechanickom výberovom postupe členov vzorky. Takéto preferencie môžu niekedy poskytnúť dobré odhady charakteristík populácie, ale neexistuje spôsob, ako objektívne určiť vhodnosť vzorky pre danú úlohu. Posúdenie presnosti výsledkov vzorky je možné vykonať len vtedy, ak bola známa pravdepodobnosť výberu určitých prvkov. Z tohto dôvodu sa práca s pravdepodobnostným výberom vo všeobecnosti považuje za lepšiu metódu na odhad veľkosti výberovej chyby. Vzorky môžu byť tiež rozdelené na vzorky s pevnou veľkosťou a sekvenčné vzorky. Pri práci so vzorkami s pevnou veľkosťou sa veľkosť vzorky určuje pred začiatkom prieskumu a rozboru výsledkov predchádza zber všetkých potrebných údajov. Nás budú zaujímať hlavne vzorky pevnej veľkosti, keďže tento typ sa bežne používa v marketingových prieskumoch.

Vzorkovanie pravdepodobnosti
Vzorka, do ktorej možno zahrnúť každý prvok populácie s určitou známou nenulovou pravdepodobnosťou.
Deterministický odber vzoriek
odber vzoriek založený na určitých preferenciách alebo úsudkoch, ktoré určujú výber určitých prvkov; zároveň sa stáva nemožným odhadnúť pravdepodobnosť zahrnutia ľubovoľného prvku populácie do vzorky.

Netreba však zabúdať, že existujú aj sekvenčné vzorky, ktoré možno použiť s každým zo základných vzorkovacích návrhov, o ktorých sa hovorí nižšie.

V sekvenčnej vzorke nie je počet vybraných prvkov vopred známy, určuje sa na základe série sekvenčných rozhodnutí. Ak prieskum na malej vzorke nevedie k spoľahlivému výsledku, rozsah skúmaných prvkov sa rozširuje. Ak potom výsledok zostane nepresvedčivý, veľkosť vzorky sa opäť zväčší. V každej fáze sa rozhoduje, či získaný výsledok považovať za dostatočne presvedčivý, alebo či pokračovať v zbere údajov. Práca so sekvenčným vzorkovaním umožňuje posúdiť trend (trend) údajov pri ich zbere, čo znižuje náklady spojené s dodatočnými pozorovaniami v prípadoch, keď sa ich účelnosť stráca.

Pravdepodobné aj deterministické plány odberu vzoriek spadajú do niekoľkých typov. Napríklad deterministické vzorky môžu byť nereprezentatívne (vhodné), zámerné alebo kvótne; pravdepodobnostné vzorky sa delia na jednoduché náhodné, stratifikované alebo skupinové (zhluky), možno ich zase rozdeliť na podtypy. Na obr. Obrázok 15.3 zobrazuje typy vzoriek, o ktorých sa bude diskutovať v tejto a nasledujúcej kapitole.

Pevná vzorka (pevná vzorka)
Vzorka, ktorej veľkosť je určená a priori; požadované informácie sú určené vybranými prvkami.
Sekvenčné vzorkovanie
Vzorka vytvorená na základe série postupných rozhodnutí. Ak je po zvážení malej vzorky výsledok nepresvedčivý, berie sa do úvahy väčšia vzorka; ak tento krok nevedie k výsledku, veľkosť vzorky sa opäť zväčší atď. V každej fáze sa teda rozhodne, či možno získaný výsledok považovať za dostatočne presvedčivý.

Malo by sa pamätať na to, že základné typy vzoriek je možné kombinovať a vytvárať komplexnejšie plány odberu vzoriek. Ak si osvojíte ich základné počiatočné typy, ľahšie si poradíte so zložitejšími kombináciami.

Deterministické výbery

Ako už bolo spomenuté, pri výbere prvkov deterministickej vzorky zohrávajú rozhodujúcu úlohu súkromné odhady alebo rozhodnutia. Niekedy tieto hodnotenia pochádzajú od výskumníka, zatiaľ čo v iných prípadoch je výber prvkov populácie zverený terénnym pracovníkom. Pretože prvky nie sú vyberané mechanicky, je nemožné určiť pravdepodobnosť zahrnutia ľubovoľného prvku do vzorky, a teda aj výberovú chybu. Neznalosť chyby v dôsledku zvoleného postupu odberu vzoriek bráni výskumníkom posúdiť presnosť ich odhadov.

Nereprezentatívne (pohodlné) vzorky

Nereprezentatívne (pohodlné) vzorky niekedy označovaný ako náhodný, keďže výber prvkov vzorky sa vykonáva „náhodným“ spôsobom – vyberú sa tie prvky, ktoré sú alebo sa javia ako najdostupnejšie počas obdobia výberu.

Náš každodenný život je plný príkladov takýchto výberov. Rozprávame sa s priateľmi a na základe ich reakcií a postojov vyvodzujeme závery o politických záľubách prevládajúcich v spoločnosti; miestna rozhlasová stanica vyzýva ľudí, aby vyjadrili svoj názor na nejakú kontroverznú otázku, ich názor je interpretovaný ako prevládajúci; vyzývame na spoluprácu dobrovoľníkov a spoluprácu s tými, ktorí nám dobrovoľne pomáhajú. Problém s praktickými vzorkami je zrejmý – nemôžeme si byť istí, že vzorky tohto druhu skutočne predstavujú cieľovú populáciu. Stále môžeme pochybovať o tom, že názory našich priateľov správne odrážajú politické názory prevládajúce v spoločnosti, ale často veľmi túžime uveriť, že takto vybrané väčšie vzorky sú reprezentatívne. Ukážme mylnosť takéhoto predpokladu na príklade.
Pred niekoľkými rokmi jedna z miestnych televízií v meste, kde žije autor tejto knihy, uskutočnila každodenný prieskum verejnej mienky na témy, ktoré zaujímajú miestnu komunitu. Prieskumy s názvom „The Madison Pulse“ sa uskutočnili nasledovne. Každý večer počas správ o šiestej kládla stanica divákom otázku týkajúcu sa konkrétneho kontroverzného problému, na ktorý bolo potrebné odpovedať kladne alebo záporne.

V prípade kladnej odpovede bolo potrebné volať jednému, v prípade zápornej odpovede na iné telefónne číslo. Počet hlasov „za“ a „proti“ sa spočítaval automaticky. Spravodajská relácia o desiatej hodine priniesla výsledky telefonického prieskumu. Každý večer zavolalo do štúdia 500 až 1000 ľudí, aby vyjadrili svoj postoj k tej či onej otázke; televízny komentátor interpretoval výsledky prieskumu ako prevládajúci názor v spoločnosti.

Nereprezentatívna (pohodlná) vzorka
Niekedy sa nazýva náhodný, pretože výber prvkov vzorky sa vykonáva „náhodným“ spôsobom – vyberajú sa prvky, ktoré sú alebo sa javia ako najdostupnejšie počas obdobia výberu.

V jednej zo šesťhodinových epizód bola divákom položená nasledujúca otázka: "Nemyslíte si, že by sa vek pitia alkoholu v Madisone mal znížiť na 18?" Doterajšia právna kvalifikácia zodpovedala 21 rokom. Publikum na túto otázku reagovalo mimoriadne činorodo – do štúdia v ten večer zavolalo takmer 4000 ľudí, z toho 78 % bolo za zníženie vekovej hranice. Zdá sa jasné, že vzorka 4 000 „by mala byť reprezentatívna“ pre komunitu 180 000. Nič také. Ako ste možno uhádli, určité vekové skupiny sa viac zaujímali o známy výsledok ako iné. Preto neprekvapilo, že v diskusii o tejto problematike, ktorá prebehla o niekoľko týždňov neskôr, sa ukázalo, že študenti v čase vyhradenom na prieskum konali v zhode. Do televízie volali postupne, každý niekoľkokrát. Veľkosť vzorky ani percento zástancov liberalizácie zákona teda neprekvapilo. Vzorka nebola reprezentatívna.

Jednoduché zvýšenie veľkosti vzorky ju nerobí reprezentatívnou. Reprezentatívnosť vzorky nie je zabezpečená veľkosťou, ale správnym postupom výberu prvkov. Keď sú účastníci prieskumu vybraní dobrovoľne alebo sú vybrané položky vzorky na základe ich dostupnosti, plán výberu vzorky nezaručuje reprezentatívnosť vzorky. Empirické dôkazy naznačujú, že vzorky vybrané pre pohodlie sú zriedkavo reprezentatívne (bez ohľadu na ich veľkosť). Telefonické prieskumy, ktoré berú do úvahy 800 – 900 hlasov, sú najbežnejšou formou veľkých, ale nereprezentatívnych vzoriek.

Zámerný odber vzoriek
Deterministické (cielené) vzorkovanie, ktorého prvky sa vyberajú ručne; vyberú sa tie prvky, ktoré podľa názoru výskumníka spĺňajú ciele prieskumu.
Zámerný výber v závislosti od schopnosti výskumníka nastaviť počiatočný súbor respondentov s požadovanými charakteristikami; potom sú títo respondenti využívaní ako informátori, ktorí určujú ďalší výber jednotlivcov.

Bohužiaľ, veľa ľudí zaobchádza s výsledkami takýchto prieskumov s dôverou. Jedným z najtypickejších príkladov využitia nereprezentatívnych vzoriek v medzinárodnom marketingovom výskume je prieskum určitých krajín na základe vzorky pozostávajúcej z cudzincov v súčasnosti žijúcich na území krajiny, ktorá prieskum iniciovala (napríklad Škandinávci žijúci v Spojené štáty Americké). Aj keď takéto vzorky môžu osvetliť určité aspekty uvažovanej populácie, treba mať na pamäti, že títo jedinci zvyčajne predstavujú „amerikanizovanú“ elitu, ktorej spojenie s vlastnou krajinou môže byť skôr svojvoľné. Použitie nereprezentatívnych vzoriek sa neodporúča pre deskriptívne alebo kauzálne prieskumy. Sú akceptovateľné iba pri prieskumnom výskume zameranom na testovanie určitých nápadov alebo nápadov, ale aj v tomto prípade je vhodnejšie použiť zámerné vzorky.

Zámerné výbery

Zámerné vzorky sa niekedy označujú ako nesústredený; ich prvky, ktoré podľa názoru výskumníka spĺňajú ciele štúdie, sa vyberajú ručne. Procter & Gamble použil túto metódu pri zobrazovaní reklám ľuďom vo veku 13 až 17 rokov, ktorí žijú v blízkosti svojho sídla v Cincinnati. Divízia potravín a nápojov spoločnosti najala túto skupinu tínedžerov, aby slúžili ako akási vzorka spotrebiteľov. Pracovali 10 hodín týždenne výmenou za 1 000 dolárov a išli na koncert, pozerali televízne reklamy, navštevovali supermarkety s manažérmi spoločností, aby si prezreli produkty, testovali nové produkty a diskutovali o nákupnom správaní. Výberom zástupcov do vzorky prostredníctvom procesu „náboru“, a nie náhodným výberom, by sa spoločnosť mohla zamerať na vlastnosti, ktoré považovala za užitočné, ako je schopnosť tínedžerov jasne sa vyjadrovať, s rizikom, že ich názory nemusia byť reprezentatívne pre ich vekovú skupinu. .

Ako už bolo spomenuté, charakteristickým znakom zámerného vzorkovania je smerový výber jeho prvkov. V niektorých prípadoch sa vzorky nevyberajú preto, že sú reprezentatívne, ale preto, že môžu poskytnúť výskumníkom informácie, ktoré ich zaujímajú. Keď sa súd riadi výpoveďou znalca, v určitom zmysle sa uchyľuje k zámernému výberu. Podobná pozícia môže prevládať aj pri vývoji výskumných projektov. Pri počiatočnom štúdiu problematiky sa výskumník zaujíma predovšetkým o určenie perspektívy štúdie, ktorá určuje výber prvkov vzorky.

Vzorkovanie snehovej gule je typ zámerného vzorkovania, ktorý sa používa pri práci so špecifickými typmi populácií. Táto vzorka závisí od schopnosti výskumníka špecifikovať počiatočný súbor respondentov s požadovanými charakteristikami. Títo respondenti sa potom použijú ako informátori na určenie ďalšieho výberu jednotlivcov.

Predstavte si napríklad, že firma chce vyhodnotiť potrebu produktu, ktorý by umožnil nepočujúcim komunikovať cez telefón. Výskumníci môžu začať tento problém rozvíjať identifikáciou kľúčových postáv v komunite nepočujúcich; ten mohol menovať ďalších členov skupiny, ktorí by súhlasili s účasťou v prieskume. S touto taktikou vzorka rastie ako snehová guľa.

Zatiaľ čo sa výskumník nachádza v počiatočných fázach riešenia problému, keď sa zisťujú vyhliadky a možné obmedzenia plánovaného prieskumu, použitie zámerného výberu vzoriek môže byť veľmi efektívne. V žiadnom prípade by sme však nemali zabúdať na slabé stránky tohto typu vzorky, pretože ju môže výskumník použiť aj v deskriptívnych alebo kauzálnych štúdiách, ktoré nebudú pomaly ovplyvňovať kvalitu ich výsledkov. Klasickým príkladom tejto zábudlivosti je index spotrebiteľských cien („CPI“). Ako zdôrazňuje Südman ( Sudman): „CPI sa určuje len pre 56 miest a metropolitných oblastí, ktorých výber ovplyvňuje aj politický faktor. V skutočnosti môžu tieto mestá reprezentovať iba seba, zatiaľ čo index sa nazýva index spotrebiteľských cien pre obyvateľov miest, ktorí zarábajú hodinovú mzdu* a zamestnancov a väčšine ľudí sa javí ako index odrážajúci cenovú hladinu v ktorejkoľvek oblasti Spojených štátov. Výber maloobchodných predajní je tiež nenáhodný, v dôsledku čoho odhad možnej výberovej chyby sa stáva nemožným» (naša kurzíva) 2 .

* Teda robotníci. - Poznámka. za.

Vzorky kvóty

Tretí typ deterministického vzorkovania − kvótne vzorky; jeho známa reprezentatívnosť sa dosiahne tak, že sa doň zahrnie rovnaký podiel prvkov, ktoré majú určité charakteristiky ako v skúmanej populácii (pozri „Výskumné okno 15.1“). Ako príklad zvážte pokus o vytvorenie reprezentatívnej vzorky študentov žijúcich na akademickej pôde. Ak sa v určitej vzorke 500 jedincov nenachádza ani jeden starší študent, budeme mať právo pochybovať o jej reprezentatívnosti a opodstatnenosti aplikácie výsledkov získaných na tejto vzorke na skúmanú populáciu. Pri práci s proporcionálnym výberom môže výskumník zabezpečiť, aby podiel vysokoškolákov vo vzorke zodpovedal ich podielu na celkovom počte študentov.

Predpokladajme, že výskumník vykonáva výberové štúdium vysokoškolákov, pričom ho zaujíma, aby vzorka odrážala nielen ich príslušnosť k jednému alebo druhému pohlaviu, ale aj ich rozdelenie podľa kurzov. Nech je celkový počet študentov 10 000: 3 200 prvákov, 2 600 druhákov, 2 200 študentov tretieho ročníka a 2 000 študentov štvrtého ročníka; z toho 7000 chlapcov a 3000 dievčat. Pri veľkosti vzorky 1 000 vyžaduje pomerný plán odberu 320 prvákov, 260 druhákov, 220 tretiakov a 200 absolventov, 700 chlapcov a 300 dievčat. Výskumník môže tento plán realizovať tak, že každému anketárovi pridelí určitú kvótu, ktorá určí, ktorých študentov by mal kontaktovať.

Vzorkovanie kvóty deterministická vzorka vybraná tak, že podiel prvkov vzorky s určitými charakteristikami približne zodpovedá podielu rovnakých prvkov v skúmanej populácii; každému terénnemu pracovníkovi je pridelená kvóta, ktorá určuje charakteristiky populácie, s ktorou sa musí skontaktovať.

Osoba, ktorá vedie pohovor, môže dostať 20 pohovorov, aby sa spýtala:

šesť žiakov prvého ročníka - päť chlapcov a jedno dievča;
šiesti druháci - štyria chlapci a dve dievčatá;
štyria žiaci tretieho ročníka - traja chlapci a jedno dievča;
štyria žiaci štvrtého ročníka – dvaja chlapci a dve dievčatá.

Upozorňujeme, že výber konkrétnych prvkov vzorky nie je určený výskumným plánom, ale výberom anketára, ktorý je vyzvaný, aby dodržal len podmienky, ktoré boli stanovené kvótou: rozhovor s piatimi prvákmi, jedným prvákom atď.

Všimnite si tiež, že táto kvóta presne odzrkadľuje rodové rozdelenie študentskej populácie, ale do istej miery skresľuje rozdelenie študentov v rámci kurzov; 70 % (14 z 20) rozhovorov je s chlapcami, ale len 30 % (6 z 20) s prvákmi, pričom tvoria 32 % z celkového počtu žiakov. Kvóta pridelená každému jednotlivému anketárovi nemusí a zvyčajne ani neodráža distribúciu kontrolných charakteristík v populácii – iba konečná vzorka by mala byť proporcionálna.

Malo by sa pamätať na to, že proporcionálny výber závisí viac od osobných, subjektívnych postojov alebo úsudkov ako od objektívneho postupu výberu vzorky. Navyše, na rozdiel od zámerného výberu vzoriek, osobný úsudok tu nepatrí vývojárovi projektu, ale anketárovi. Vzniká otázka, či proporcionálne vzorky možno považovať za reprezentatívne, aj keď reprodukujú pomer zložiek, ktoré sú vlastné populácii a ktoré majú určité kontrolné charakteristiky. V tejto súvislosti je potrebné uviesť tri poznámky.

Po prvé, vzorka sa môže nápadne líšiť od populácie v niektorých ďalších dôležitých charakteristikách, ktoré môžu mať vážny vplyv na výsledok. Ak sa napríklad štúdia venuje problému rasových predsudkov medzi študentmi, nemusí byť ľahostajné, odkiaľ respondenti pochádzajú: z mesta alebo z vidieka. Keďže kvóta pre charakteristiku „z mesta/vidieka“ nebola určená, presné znázornenie tejto charakteristiky sa stáva nepravdepodobným. Samozrejme, existuje aj taká alternatíva: definovať kvóty pre všetky potenciálne významné charakteristiky. Nárast počtu riadiacich charakteristík však vedie ku komplikácii špecifikácie. To následne sťažuje – ba niekedy aj znemožňuje – výber prvkov vzorky a v každom prípade vedie k jeho zdražovaniu. Ak je pre štúdium relevantná napríklad aj príslušnosť k miestu alebo vidieku a socioekonomický status, potom bude možno musieť anketár hľadať študenta prvého ročníka, ktorý je mestský a vyššej alebo strednej triedy. Súhlasím, že nájsť len mužského prváka je oveľa jednoduchšie.

Po druhé, je veľmi ťažké uistiť sa, že táto vzorka je skutočne reprezentatívna. Samozrejme, môžete skontrolovať vzorku, či je rozdelenie charakteristík, ktoré nie sú zahrnuté v kontrole, ich rozloženie v populácii. Takýto test však môže viesť iba k negatívnym záverom. Je možné odhaliť iba divergenciu distribúcií. Ak sa distribúcie vzorky a populácie pre každú z týchto charakteristík navzájom opakujú, existuje možnosť, že vzorka sa líši od populácie v niektorom inom, nie explicitne špecifikovanom znaku.

A nakoniec do tretice. Anketári, ktorí sú ponechaní sami na seba, sú náchylní na určité akcie. Aj oni sa často uchyľujú k výsluchu svojich kamarátov. Keďže sa často ukáže, že sú ako samotní anketári, existuje nebezpečenstvo omylu. Dôkazy z Anglicka naznačujú, že vzorky kvót majú tendenciu:

zveličovanie úlohy najdostupnejších prvkov;
bagatelizovanie úlohy malých rodín;
zveličovanie úlohy rodín s deťmi;
bagatelizovanie úlohy priemyselných robotníkov;
bagatelizovanie úlohy ľudí s najvyššími a najnižšími príjmami;
bagatelizovanie úlohy nedostatočne vzdelaných občanov;
bagatelizovanie úlohy osôb zastávajúcich nízke sociálne postavenie.

Anketári, ktorí volia vopred stanovené kvóty zastavovaním náhodných okoloidúcich, sa pravdepodobne zamerajú na oblasti s veľkým počtom potenciálnych respondentov, ako sú nákupné centrá, železničné stanice a letiská, vchody do veľkých supermarketov a podobne. Táto prax vedie k nadmernému zastúpeniu tých skupín ľudí, ktoré takéto miesta navštevujú najčastejšie. Keď sú potrebné domáce návštevy, anketári sa často riadia pohodlnosťou.
Napríklad môžu robiť prieskumy len počas dňa, čo vedie k podceňovaniu názoru pracovníkov. Okrem iného nevstupujú do schátraných budov a spravidla nevystupujú na vyššie poschodia budov, ktoré nemajú výťahy.

V závislosti od špecifík skúmaného problému môžu tieto tendencie viesť k rôznym druhom chýb, pričom ich oprava v štádiu analýzy údajov sa zdá byť veľmi, veľmi náročná. Na druhej strane pri objektívnom výbere prvkov vzorky majú výskumníci k dispozícii určité nástroje, ktoré umožňujú zjednodušiť postup hodnotenia reprezentatívnosti danej vzorky. Pri analýze problému reprezentatívnosti takýchto vzoriek sa výskumník nezaoberá ani tak zložením vzorky, ako skôr postupom výberu jej prvkov.

Prieskumné okno: Brilantné! Ale kto to bude čítať?

Každý rok inzerenti minú milióny dolárov na reklamy, ktoré sa objavujú na stránkach nespočetných publikácií od reklamného veku až po Yankee. Určité posúdenie textu a obrazu je možné urobiť pred jeho zverejnením, ako sa hovorí, doma, v reklamnej agentúre; naozaj sa testuje a posudzuje až po zverejnení inzerátu, obklopený desiatkami rovnako starostlivo vytvorených inzerátov, ktoré sa uchádzajú o pozornosť čitateľa.

Spoločnosť Roper Starch Worldwide hodnotí čitateľnosť inzerátov umiestnených v spotrebiteľských, obchodných, obchodných a odborných časopisoch a novinách. Výsledky výskumu sú oboznámené s inzerentmi a agentúrami – samozrejme, za príslušný poplatok. Pretože inzerenti každý deň vynakladajú veľké úsilie, aby dostali svoje reklamy k spotrebiteľovi, spoločnosti škrob rozhodla vytvoriť vzorku, ktorá by predplatiteľom poskytla včasné a presné informácie o účinnosti reklamy. Každý rok spoločnosť škrob robil rozhovory s viac ako 50 000 ľuďmi, pričom zvažoval asi 20 000 inzerátov. Ročne sa preštudovalo okolo 500 jednotlivých publikácií.

Škrob použil proporcionálny výber, pričom minimálne 100 čitateľov jedného pohlavia a 100 čitateľov druhého pohlavia. Škrob dospel k záveru, že pri tejto veľkosti vzorky sa hlavné odchýlky v úrovni čitateľnosti ustálili. S čitateľmi staršími ako 18 rokov sa robili rozhovory osobne a zvažovali sa všetky publikácie, s výnimkou tých, ktoré sú určené pre špeciálne skupiny obyvateľstva (povedzme dievčatá v príslušnom veku, aby zhodnotili publikácie z časopisu Seventeen).

Pri vykonávaní prieskumov sa brala do úvahy distribučná oblasť konkrétnej publikácie. Povedzme, že štúdia časopisu Los Angeles sa zamerala na čitateľov žijúcich v južnej Kalifornii. „Čas“ sa študoval na celoštátnej úrovni. Anketa bola venovaná jednotlivým číslam časopisu a súčasne prebiehala v 20-30 mestách.

Každý anketár dostal malú kvótu rozhovorov, čo slúžilo na minimalizáciu rozptylu výsledkov prieskumu. Dotazníky boli distribuované medzi ľudí rôznych profesií a veku s rôznymi príjmami. Každá takáto štúdia umožnila prezentovať pozície pomerne širokej čitateľskej verejnosti. Pri zvažovaní množstva odborných, obchodných a priemyselných publikácií sa prihliadalo aj na špecifiká ich odberu a distribúcie. Zoznamy predplatiteľov venované publikáciám s pomerne úzkym nákladom umožnili vybrať prijateľných respondentov.

V každom prieskume anketári požiadali respondentov, aby si prezreli publikáciu, a pýtali sa, či si všimli nejakú reklamu. Ak bola odpoveď áno, registrátor položil sériu otázok na posúdenie miery prijatia inzerátu.

Toto hodnotenie môže byť trojaké:

Venujte pozornosť: tí, ktorí už venovali pozornosť samotnej skutočnosti vzhľadu takéhoto oznámenia.
Oboznámení: tí, ktorí si pamätali akúkoľvek časť inzerátu, ktorá sa týkala inzerovanej ochrannej známky alebo inzerenta.
Čítajte: ľudia, ktorí si prečítajú aspoň polovicu inzerátu.

Po preskúmaní všetkých inzerátov anketári zaznamenali kľúčové klasifikačné informácie: pohlavie, vek, povolanie, rodinný stav, národnosť, príjem, veľkosť rodiny a zloženie rodiny, čo umožnilo krížové porovnanie stupňa záujmu čitateľov.

Pri správnom používaní firemné údaje škrob umožňujú inzerentom a agentúram identifikovať neúspešné aj úspešné typy reklamných schém, ktoré priťahujú a udržujú pozornosť čitateľa. Informácie tohto druhu sú mimoriadne cenné pre inzerentov, ktorých zaujíma predovšetkým efektivita ich reklamnej kampane.

Zdroj: Roper Starch Worldwide, Mamaronek, NY 10543.

Vzorky pravdepodobnosti

Výskumník môže určiť pravdepodobnosť zahrnutia akéhokoľvek prvku populácie do pravdepodobnostnej vzorky, pretože výber jeho prvkov sa vykonáva na základe nejakého objektívneho procesu a nezávisí od rozmarov a záľub výskumníka alebo terénneho pracovníka. Keďže postup výberu prvkov je objektívny, výskumník môže vyhodnotiť spoľahlivosť získaných výsledkov, čo v prípade deterministických vzoriek nebolo možné, bez ohľadu na to, ako starostlivý bol výber prvkov deterministických vzoriek.

Netreba si myslieť, že pravdepodobnostné vzorky sú vždy reprezentatívnejšie ako deterministické. V skutočnosti môže byť deterministická vzorka tiež reprezentatívnejšia. Výhodou pravdepodobnostných vzoriek je, že umožňujú odhad potenciálnej chyby výberu. Ak výskumník pracuje s deterministickou vzorkou, nemá objektívnu metódu na posúdenie jej primeranosti k cieľom štúdie.

Jednoduchý náhodný výber vzoriek

Väčšina ľudí sa tak či onak stretáva s jednoduchými náhodnými vzorkami, buď ako súčasť kurzu štatistiky v inštitúte, alebo čítaním o výsledkoch relevantných štúdií v novinách alebo časopisoch. V jednoduchej náhodnej vzorke má každý prvok zahrnutý vo vzorke rovnakú danú pravdepodobnosť, že bude medzi skúmanými prvkami a vzorkou sa potenciálne môže stať akákoľvek kombinácia prvkov v pôvodnej populácii. Napríklad, ak chceme vytvoriť jednoduchú náhodnú vzorku všetkých študentov zapísaných na konkrétnej vysokej škole, stačí vytvoriť zoznam všetkých študentov, priradiť číslo ku každému menu v ňom a pomocou počítača náhodne vybrať dané počet prvkov.

Populácia

Populácia
Súbor prvkov, ktoré spĺňajú určité špecifikované podmienky; nazývaná aj študijná (cieľová) populácia.
Parameter
Určitá charakteristika alebo ukazovateľ všeobecnej alebo študovanej populácie.

Všeobecný alebo študovaný súbor je kolekcia, z ktorej sa robí výber. Túto populáciu (populáciu) možno opísať množstvom špecifických parametrov, ktoré sú charakteristikami všeobecnej populácie, pričom každý z nich je určitým kvantitatívnym ukazovateľom, ktorý odlišuje jednu populáciu od druhej.

Predstavte si, že skúmaná populácia je celá dospelá populácia Cincinnati. Na opis tejto populácie možno použiť množstvo parametrov: stredný vek, podiel populácie s vysokoškolským vzdelaním, úroveň príjmu atď. Upozorňujeme, že všetky tieto ukazovatele majú určitú pevnú hodnotu. Samozrejme, vieme ich vypočítať vykonaním kompletného sčítania skúmaného obyvateľstva. Zvyčajne sa nespoliehame na kvalifikáciu, ale na vzorke vyberieme a použijeme hodnoty získané počas selektívneho pozorovania na určenie požadovaných parametrov populácie.

To, čo bolo povedané, ilustrujeme v tabuľke. 15.1 príklad hypotetickej populácie 20 ľudí. Takáto práca s malou hypotetickou populáciou má množstvo výhod. Po prvé, malá veľkosť vzorky uľahčuje výpočet parametrov populácie, ktoré možno použiť na jej opis. Po druhé, tento objem vám umožňuje pochopiť, čo sa môže stať, keď sa prijme konkrétny plán odberu vzoriek. Obe tieto vlastnosti uľahčujú porovnanie výsledkov vzorky so „skutočnou“ a v tomto prípade známou hodnotou populácie, čo nie je prípad typickej situácie, v ktorej je skutočná hodnota populácie neznáma. Porovnanie hodnotenia so „skutočnou“ hodnotou v tomto prípade nadobúda osobitnú jasnosť.

Predpokladajme, že chceme z dvoch náhodne vybraných položiek odhadnúť priemerný príjem jednotlivcov v pôvodnej populácii. Jeho parametrom bude priemerný príjem. Aby sme odhadli túto priemernú hodnotu, ktorú označujeme ako μ, musíme súčet všetkých hodnôt vydeliť ich počtom:

Priemerná populácia μ = Súčet prvkov populácie / Počet prvkov.

V našom prípade výpočty dávajú:

Odvodená populácia

Odvodená populácia pozostáva zo všetkých možných vzoriek, ktoré je možné vybrať z bežnej populácie podľa daného plánu odberu vzoriek (plán odberu vzoriek). Štatistiky je charakteristika alebo indikátor vzorky. Štatistická hodnota vzorky sa používa na odhad konkrétneho parametra populácie. Rôzne vzorky poskytujú rôzne štatistiky alebo odhady pre rovnaký parameter populácie.

Odvodená populácia
Súbor všetkých možných rozlíšiteľných vzoriek, ktoré možno vybrať zo všeobecnej populácie podľa daného plánu odberu vzoriek. Štatistika Charakteristika alebo miera vzorky.

Zvážte odvodenú množinu všetkých možných vzoriek, ktoré možno vybrať z našej hypotetickej populácie 20 jedincov pomocou plánu odberu vzoriek, ktorý predpokladá, že veľkosť vzorky je n=2 možno získať náhodným neopakujúcim sa výberom.

Predpokladajme na chvíľu, že údaje pre každú jednotku obyvateľstva - v našom prípade meno a príjem jednotlivca - sú napísané na kruhoch, potom sa spustia do džbánu a zmiešajú. Výskumník vyberie jeden kruh z džbánu, odpíše z neho informácie a odloží ho. To isté urobí s druhým hrnčekom vybratým z džbánu. Potom výskumník vráti oba hrnčeky do džbánu, premieša jeho obsah a zopakuje rovnakú postupnosť akcií. V tabuľke. 15.2 ukazuje možné výsledky uvedeného postupu. Pre 20 kruhov je možných 190 takýchto párových kombinácií.

Pre každú kombináciu si môžete vypočítať priemerný príjem. Povedzme na odber vzoriek AB (k= 1)

k-e Priemer vzorky = súčet vzoriek / počet vzoriek =

Na obr. 15.4 ukazuje odhad priemerného príjmu pre celú populáciu a množstvo chýb pre každý odhad pre vzorky k = 25 62 108 147 a 189 .

Predtým, ako pristúpime k zváženiu vzťahu medzi priemerným príjmom vzorky (štatistika) a priemerným príjmom populácie (parameter, ktorý je potrebné odhadnúť), povedzme si pár slov o odvodenej populácii. Po prvé, v praxi nezostavujeme agregáty tohto druhu. Vyžiadalo by si to príliš veľa času a úsilia. Odborník je obmedzený na zostavenie iba jednej vzorky požadovanej veľkosti. Výskumník používa koncepcia odvodenej populácie a s tým spojenej koncepcie rozdelenia vzoriek pri formulovaní konečných záverov.

Ako bude uvedené nižšie. Po druhé, malo by sa pamätať na to, že odvodená populácia je definovaná ako súhrn všetkých možných rôznych vzoriek, ktoré možno vybrať zo všeobecnej populácie podľa daného plánu odberu vzoriek. Keď sa zmení ktorákoľvek časť plánu odberu vzoriek, zmení sa aj odvodená populácia. Takže, ak pri výbere kruhov výskumník vráti prvý z odstránených diskov do džbánu pred odstránením druhého, odvodená sada bude zahŕňať.

vzorky AA, BB a pod. Ak je počet neopakovaných vzoriek 3 namiesto 2, budú vzorky typu ABC a bude ich 1140, nie 190, ako tomu bolo v predchádzajúcom prípade. Keď sa jednoduchý náhodný výber zmení na akúkoľvek inú metódu určovania prvkov vzorky, zmení sa aj odvodená populácia.

Malo by sa tiež pamätať na to, že výber vzorky danej veľkosti zo všeobecnej populácie je ekvivalentný výberu jedného prvku (1 zo 190) z odvodenej populácie. Táto skutočnosť nám umožňuje vyvodiť mnohé štatistické závery.

Vzorový priemer a všeobecný priemer

Môžeme porovnať priemer vzorky so skutočným priemerom populácie? V každom prípade vychádzame z toho, že sú navzájom prepojené. Aj my však veríme, že dôjde k chybe. Dá sa napríklad predpokladať, že získané informácie od používateľov internetu sa budú výrazne líšiť od výsledkov prieskumu medzi „bežnou“ populáciou. V ostatných prípadoch môžeme predpokladať pomerne presnú zhodu, inak by sme nemohli použiť hodnotu vzorky na odhad hodnoty tej všeobecnej. Ale aká veľká môže byť chyba, ktorú pri tom robíme?

Spočítajme všetky vzorové priemery obsiahnuté v tabuľke. 15.2 a výsledný súčet vydelíme počtom vzoriek, t.j. spriemerujme priemery.
Dostaneme nasledujúci výsledok:

Zhoduje sa s priemernou hodnotou bežnej populácie. Hovoria, že v tomto prípade máme čo do činenia nestranná štatistika.

Štatistika sa nazýva nestranná, ak sa jej priemer zo všetkých možných vzoriek rovná odhadovanému parametru populácie. Všimnite si, že tu nehovoríme o konkrétnej hodnote.Čiastočný odhad môže byť veľmi vzdialený od skutočnej hodnoty – vezmite si napríklad vzorky AB alebo ST. V niektorých prípadoch nemusí byť skutočná hodnota populácie dosiahnuteľná pri zvažovaní akejkoľvek možnej vzorky, aj keď sú štatistiky nezaujaté. V našom prípade to tak nie je: množstvo možných vzoriek – napríklad AT – dáva vzorový priemer rovný skutočnému priemeru populácie.

Má zmysel zvážiť distribúciu týchto vzorových odhadov, a najmä vzťah medzi týmto rozptylom odhadov a odchýlkami v úrovni príjmov v populácii. Ako miera variácie sa používa rozptyl všeobecnej populácie. Aby sme určili rozptyl všeobecnej populácie, musíme vypočítať odchýlku každej hodnoty od priemeru, pridať druhé mocniny všetkých odchýlok a výsledný súčet vydeliť počtom členov. Označme a^ rozptyl bežnej populácie. potom:

Rozptyl populácie σ 2 = súčet druhých mocnín rozdielov každého prvku
počet obyvateľov a priemer počtu obyvateľov / Počet prvkov obyvateľstva =

Disperzia stredná hodnotaúroveň príjmu možno definovať rovnakým spôsobom. To znamená, že ho môžeme nájsť tak, že určíme odchýlky každého priemeru od ich celkového priemeru, sčítame druhé mocniny odchýlok a výsledný súčet vydelíme počtom členov.

Rozptyl priemernej úrovne príjmu môžeme definovať aj iným spôsobom, pomocou rozptylu úrovní príjmu vo všeobecnej populácii, keďže medzi nimi existuje priamy vzťah. Presnejšie povedané, v prípadoch, keď vzorka predstavuje iba malú časť populácie, rozptyl priemeru vzorky sa rovná rozptylu populácie vydelenej veľkosťou vzorky:

kde σ x 2 je rozptyl priemernej výberovej hodnoty úrovne príjmu, σ 2 je rozptyl úrovne príjmu vo všeobecnej populácii, n- veľkosť vzorky.

Teraz porovnajme distribúciu výsledkov s distribúciou kvantitatívneho znaku v bežnej populácii. Obrázok 15.5 ukazuje, že distribúcia populačnej črty zobrazenej v rámčeku A je multivertexová (každá z 20 hodnôt sa objaví iba raz) a je symetrická so skutočným priemerom populácie 9400.

Distribúcia vzoriek
Rozdelenie hodnôt určitej štatistiky vypočítané pre všetky možné rozlíšiteľné vzorky, ktoré možno extrahovať z populácie v rámci daného plánu odberu vzoriek.

Rozdelenie známok uvedené v poli B je založené na údajoch v tabuľke. 15.3, ktorý bol zostavený priradením hodnôt z tabuľky. 15.2 jednej alebo druhej skupine v závislosti od ich veľkosti s následným výpočtom ich počtu v skupine. Pole B je tradičný histogram, uvažovaný na samom začiatku štúdia kurzu štatistiky, ktorý predstavuje distribúcia vzoriekštatistiky. Poznamenávame, že koncept distribúcie vzoriek je najdôležitejším konceptom štatistiky, je základným kameňom konštrukcie štatistických záverov. Podľa známeho rozloženia vzorky študovaných štatistík môžeme usudzovať na zodpovedajúci parameter všeobecnej populácie. Ak je známe len to, že odhad vzorky sa mení od vzorky k vzorke, ale povaha tejto zmeny nie je známa, nie je možné určiť výberovú chybu spojenú s týmto odhadom. Keďže výberové rozdelenie odhadu popisuje, ako sa mení od vzorky k vzorke, poskytuje základ pre určenie platnosti vzorového odhadu. Z tohto dôvodu je návrh vzorkovania pravdepodobnosti taký dôležitý pre štatistické odvodenie.

Vzhľadom na známe pravdepodobnosti zahrnutia každého člena populácie do vzorky môžu anketári nájsť vzorové rozdelenie rôznych štatistík. Práve na tieto distribúcie sa výskumníci spoliehajú – či už ide o priemer vzorky, zlomok vzorky, rozptyl vzorky alebo inú štatistiku – pri rozšírení výsledku pozorovania vzorky na všeobecnú populáciu. Všimnite si tiež, že pre vzorky veľkosti 2 je distribúcia priemeru vzorky unimodálna a symetrická vzhľadom na skutočný priemer.

Takže sme ukázali, že:

Priemer všetkých možných priemerov vzorky sa rovná všeobecnému priemeru.
Rozptyl priemeru vzorky nejakým spôsobom súvisí so všeobecným rozptylom.
Distribúcia priemeru vzorky je unimodálna, zatiaľ čo distribúcia hodnôt kvantitatívneho atribútu vo všeobecnej populácii je multimodálna.

Centrálna limitná veta

Veta hovorí, že pre jednoduché náhodné vzorky veľkosti n, izolovaný od všeobecnej populácie so všeobecným priemerom μ a rozptylom σ 2 , vo všeobecnosti n distribúcia priemeru vzorky x sa približuje k normálu so stredom rovným μ a rozptylom σ 2 . Presnosť tejto aproximácie sa zvyšuje so zvyšujúcou sa hodnotou n.

Centrálna limitná veta. Unimodálne rozdelenie odhadov možno považovať za prejav centrálnej limitnej vety, ktorá hovorí, že pre jednoduché náhodné vzorky obj. n, vybrané zo všeobecnej populácie so skutočným priemerom μ a rozptylom σ 2, pre veľké n distribúcia priemeru vzorky sa blíži k normálu so stredom rovným skutočnému priemeru a rozptylom rovným pomeru rozptylu populácie k veľkosti vzorky, t.j.:

Táto aproximácia sa stáva čoraz presnejšou n. Zapamätaj si to. Bez ohľadu na typ populácie bude distribúcia priemerov vzoriek normálne pre vzorky dostatočne veľkej veľkosti. Čo znamená dostatočne veľký objem? Ak je distribúcia hodnôt kvantitatívneho atribútu bežnej populácie normálna, potom distribúcia priemeru vzorky pre vzorky s objemom n=1. Ak je distribúcia premennej (kvantitatívny atribút) v populácii symetrická, ale nie normálna, vzorky veľmi malej veľkosti poskytnú normálne rozdelenie priemerov vzorky. Ak má distribúcia kvantitatívneho atribútu všeobecnej populácie výraznú asymetriu, sú potrebné väčšie vzorky. A predsa, distribúciu priemeru vzorky možno považovať za normálne len vtedy, ak máme do činenia so vzorkou dostatočnej veľkosti.

Aby bolo možné vyvodiť závery pomocou normálnej krivky, nie je vôbec potrebné vychádzať z podmienky normality rozloženia hodnôt kvantitatívneho atribútu všeobecnej populácie. Skôr sa spoliehame na centrálnu limitnú vetu a v závislosti od rozloženia populácie určíme takú veľkosť vzorky, ktorá by nám umožnila pracovať s normálnou krivkou. Normálne rozdelenie štatistík našťastie poskytujú vzorky relatívne malej veľkosti – obr. 15.6 túto okolnosť jasne preukazuje. Odhady intervalu spoľahlivosti. Môže nám vyššie uvedené pomôcť urobiť určité závery o všeobecnom priemere? V praxi totiž vyberáme len jednu, nie všetky možné vzorky danej veľkosti a na základe získaných údajov vyvodzujeme určité závery ohľadom cieľovej skupiny.

ako sa to stane? Ako viete, pri normálnom rozdelení má určité percento všetkých pozorovaní určitú smerodajnú odchýlku; povedzme, že 95 % pozorovaní sa zmestí do ±1,96 štandardných odchýlok od priemeru. Výnimkou v tomto zmysle nie je ani normálne rozdelenie výberových prostriedkov, na ktoré možno aplikovať centrálnu limitnú vetu. Priemer takéhoto rozdelenia vzorky sa rovná všeobecnému priemeru μ a jeho štandardná odchýlka sa nazýva štandardná chyba priemeru:

Ukazuje sa, že:

68,26 % priemeru vzorky sa odchyľuje od všeobecného priemeru nie viac ako ± σ x ;
95,45 % priemeru vzorky sa odchyľuje od všeobecného priemeru nie viac ako ±σ x;
99,73 % priemeru vzorky sa odchyľuje od všeobecného priemeru nie viac ako ± σ x ,

t.j. určitý podiel vzorky znamená v závislosti od zvolenej hodnoty z budú uzavreté v intervale určenom hodnotou z. Tento výraz možno prepísať ako nerovnosť:

Všeobecný priemer - z < Среднее по выборке < Генеральное среднее + z(Štandardná chyba priemeru)

výberový priemer sa teda s určitou pravdepodobnosťou nachádza v intervale, ktorého hranice sú súčtom a rozdielom strednej hodnoty rozdelenia a určitého počtu smerodajných odchýlok. Túto nerovnosť je možné previesť do tvaru:

Vzorový priemer - z(Štandardná chyba priemeru)< Генеральное среднее < Среднее по выборке + z(Štandardná chyba priemeru)

Pri dodržaní pomeru 15,1 napr. v 95 % prípadov ( z= 1,96), potom je v 95 % prípadov dodržaný aj pomer 15,2. V prípadoch, keď je záver založený na priemernej hodnote jednej vzorky, použijeme výraz 15.2.

Je dôležité mať na pamäti, že výraz 15.2 neznamená, že interval zodpovedajúci danej vzorke musí nevyhnutne zahŕňať všeobecný priemer. Interval súvisí skôr s výberovým konaním. Interval vytvorený okolo tohto priemeru môže alebo nemusí zahŕňať skutočný priemer populácie. Naša dôvera v správnosť urobených záverov je založená na skutočnosti, že 95 % všetkých intervalov zostrojených podľa zvoleného plánu odberu vzoriek bude obsahovať skutočný priemer. Veríme, že naša vzorka patrí do týchto 95 %.

Na ilustráciu tohto dôležitého bodu si na chvíľu predstavte, že distribúcia vzorky znamená vzorky veľkosti n= 2 v našom hypotetickom príklade je normálne. Tabuľka 15.4 graficky znázorňuje výsledok pre prvých 10 z možných 190 vzoriek, ktoré je možné vybrať podľa daného dizajnu. Upozorňujeme, že iba 7 z 10 intervalov obsahuje všeobecný alebo skutočný priemer. Dôvera v správnosť záveru nie je daná nejakým súkromným hodnotením, ale práve postup odhady. Tento postup je taký, že pre 100 vzoriek, pre ktoré sa vypočíta priemer vzorky a interval spoľahlivosti, bude v 95 prípadoch tento interval zahŕňať skutočnú všeobecnú hodnotu. Presnosť tejto vzorky je určená postupom, ktorým bola vzorka vytvorená. Reprezentatívny dizajn vzoriek nezaručuje reprezentatívnosť všetkých vzoriek. Postupy štatistickej inferencie sú založené na reprezentatívnosti plánu odberu vzoriek, a preto je tento postup pre pravdepodobnostné vzorky taký kritický.

Pravdepodobné vzorkovanie nám umožňuje vyhodnotiť presnosť výsledkov ako blízkosť vytvorených odhadov k skutočnej hodnote. Čím väčšia je štandardná chyba štatistiky, tým vyšší je stupeň rozptylu odhadov a tým nižšia je presnosť postupu.

Niekoho môže zmiasť skutočnosť, že úroveň spoľahlivosti súvisí s postupom a nie s konkrétnou hodnotou vzorky, ale treba pamätať na to, že hodnotu úrovne spoľahlivosti odhadu všeobecnej hodnoty môže výskumník upraviť. Ak nechcete riskovať a bojíte sa, že by ste mohli naraziť na jeden z piatich zvolených vzorkových intervalov, ktorý nezahŕňa priemer populácie, môžete si zvoliť 99 % interval spoľahlivosti, kde iba jeden zo sto vzorových intervalov nezahŕňa zahrnúť priemer populácie. Ďalej, ak môžete zväčšiť veľkosť vzorky, zvýšite mieru spoľahlivosti výsledku, čím získate požadovanú presnosť odhadu hodnoty populácie. Bližšie si o tom povieme v kap. 17.

Postup, ktorý popisujeme, má ešte jednu zložku, ktorá môže vyvolať určité rozpaky. Pri odhadovaní intervalu spoľahlivosti sa používajú tri veličiny: x , z a σ x. Priemer vzorky x sa vypočíta z údajov vzorky, z sa vyberá na základe požadovanej úrovne spoľahlivosti. Ale čo stredná kvadratická chyba priemeru σ x? Rovná sa:

a preto sa na jej určenie musíme pýtať na smerodajnú odchýlku kvantitatívneho atribútu všeobecnej populácie, t.j. 5. Čo robiť v prípadoch, keď smerodajná odchýlka s neznámy? Tento problém nevzniká z dvoch dôvodov. Po prvé, pre väčšinu kvantitatívnych charakteristík používaných v marketingovom výskume sa variácie zvyčajne menia oveľa pomalšie ako úroveň väčšiny premenných, ktoré marketingového pracovníka zaujímajú. V súlade s tým, ak sa štúdia opakuje, môžeme vo výpočtoch použiť predchádzajúcu, predtým získanú hodnotu s. Po druhé, po výbere vzorky a získaní údajov môžeme odhadnúť rozptyl populácie určením rozptylu vzorky. Nezaujatý rozptyl vzorky je definovaný ako:

Ukážkový rozptyl ŝ 2 = súčet štvorcových odchýlok od priemeru vzorky / (počet položiek vo vzorke -1). Aby sme určili výberový rozptyl, musíme najprv nájsť výberový priemer. Potom sa zistia rozdiely medzi každou z hodnôt vzorky a priemerom vzorky; tieto rozdiely sa umocnia na druhú, spočítajú sa a vydelia číslom, ktoré sa rovná počtu pozorovaní vzorky mínus jedna. Výberový rozptyl poskytuje nielen odhad celkového rozptylu, ale môže sa použiť aj na odhad štandardnej chyby priemeru. Keď je známy všeobecný rozptyl σ 2, je známa aj stredná kvadratická chyba σ x, pretože:

Keď nie je známy všeobecný rozptyl, štandardnú chybu priemeru možno len odhadnúť. Tento odhad je uvedený ŝ x , čo sa rovná štandardnej odchýlke vzorky vydelenej druhou odmocninou veľkosti vzorky, t.j. Odhad sa určuje rovnakým spôsobom, ako bol stanovený odhad skutočnej hodnoty, ale namiesto všeobecnej smerodajnej odchýlky sa do výpočtového vzorca dosadí smerodajná odchýlka vzorky. Povedzme teda pre vzorku AB s priemerom vzorky 5800:

V súlade s tým ŝ = 283 a

a 95% medzera je teraz

čo je menej ako predchádzajúca hodnota.

V tabuľke. 15.5 sú zhrnuté výpočtové vzorce pre rôzne priemery a rozptyly, o ktorých sa hovorilo v tejto kapitole. Vytvorenie jednoduchej náhodnej vzorky. V našom príklade sa výber prvkov vzorky uskutočnil pomocou džbánu, ktorý obsahoval všetky prvky pôvodnej populácie. To nám umožnilo vizualizovať koncepty odvodenej populácie a distribúcie vzoriek. Neodporúčame používať takúto metódu v praxi, pretože to zvyšuje pravdepodobnosť chyby. Hrnčeky sa môžu líšiť veľkosťou aj textúrou, čo môže v určitých prípadoch viesť k uprednostňovaniu jedného pred druhým. Ako príklad omylu tohto druhu môže poslúžiť výber účastníkov vietnamskej kampane uskutočnený prostredníctvom lotérie.

Výber prebiehal ťahaním kotúčov s dátumami narodenia z veľkého bubna. Televízia tento postup vysielala po celej krajine. Žiaľ, disky sa do bubna vkladali systematicky, pričom najskôr prišli januárové dátumy a naposledy decembrové. Hoci bol bubon vystavený intenzívnemu pradeniu, decembrové dátumy padali oveľa častejšie ako januárové. Následne bol tento postup revidovaný tak, aby sa výrazne znížila pravdepodobnosť takýchto systematických chýb. Uprednostňovaná metóda na generovanie jednoduchej náhodnej vzorky je založená na použití tabuľky náhodných čísel.

Použitie takejto tabuľky zahŕňa nasledujúcu postupnosť krokov. Po prvé, prvkom populácie musia byť priradené po sebe idúce čísla od 1 do N; v našej hypotetickej populácii k živlu ALEčíslo 1 bude priradené prvku B- číslo 2 atď. Po druhé, počet číslic v tabuľke náhodných čísel musí byť rovnaký ako počet číslic N. Pre N= použije sa 20 dvojciferných čísel; pre N medzi 100 a 999 - trojciferné čísla atď. Po tretie, počiatočná pozícia musí byť určená náhodne. Môžeme otvoriť zodpovedajúcu tabuľku náhodných čísel a zavrieť oči, ako sa hovorí, do nej strčiť prst. Keďže čísla v tabuľke náhodných čísel sú v náhodnom poradí, na počiatočnej pozícii v skutočnosti nezáleží.

A nakoniec sa môžeme pohybovať ľubovoľným smerom - hore, dole alebo naprieč, pričom vyberieme tie prvky, ktorých čísla budú zodpovedať náhodným číslam z tabuľky. Na ilustráciu toho, čo bolo povedané, zvážte skrátenú tabuľku náhodných čísel (tabuľka 15.6). Pokiaľ ide o N= 20, mali by sme pracovať iba s dvojcifernými číslami. V tomto zmysle Tab. 15.6 nám úplne vyhovuje. Predpokladajme, že sme sa vopred rozhodli presunúť stĺpec nadol, počiatočná pozícia je na priesečníku jedenásteho riadku a štvrtého stĺpca, kde sa nachádza číslo 77. Toto číslo je príliš veľké, a preto by sa malo zahodiť. Ďalšie dve čísla budú tiež vyradené, zatiaľ čo štvrtá hodnota 02 sa použije, pretože 2 je číslo prvku AT.

Nasledujúcich päť čísel bude tiež vyradených ako príliš veľkých, zatiaľ čo číslo 05 bude označovať prvok E. Takže prvky AT a E sa stane našou dvojprvkovou vzorkou, podľa ktorej budeme posudzovať výšku príjmov tejto populácie. Možná je aj alternatívna stratégia, pri ktorej sa ako základ výberu použije počítačový program generujúci náhodné čísla. Najnovšie publikácie naznačujú, že čísla generované takýmito programami nie sú úplne náhodné, čo sa môže určitým spôsobom prejaviť pri budovaní zložitých matematických modelov, ale dajú sa použiť pre väčšinu aplikovaných marketingových výskumov. Znova si všimnite, že jednoduchá náhodná vzorka vyžaduje zostavenie sekvenčne očíslovaného zoznamu prvkov všeobecnej populácie.

Inými slovami, každý člen pôvodnej populácie musí byť identifikovaný. Pre niektoré populácie to nie je ťažké urobiť, napríklad v štúdii 500 najväčších amerických korporácií, ktorých zoznam je uvedený v časopise Fortune. Tento zoznam už bol zostavený, takže vytvorenie jednoduchej náhodnej vzorky v tomto prípade nebude ťažké. Pre ostatné počiatočné populácie (napríklad pre všetky rodiny žijúce v konkrétnom meste) je zostavenie všeobecného zoznamu mimoriadne zložité, čo núti výskumníkov uchýliť sa k iným schémam výberového prieskumu.

Zhrnutie

Vzdelávací cieľ 1
Jasne rozlišujte medzi pojmami cenzus (kvalifikácia) a odber vzoriek

Vyvoláva sa kompletné sčítanie obyvateľstva (obyvateľstva). kvalifikovaní. Ukážka súbor, vytvorený z vybraných prvkov.

Vzdelávací cieľ 2
Poznať podstatu a postupnosť šiestich etáp implementovaných výskumníkmi na získanie vzorky populácie

Proces odberu vzoriek je rozdelený do šiestich krokov:

pridelenie populácie;
určenie rámca odberu vzoriek;
výber výberového konania;
určenie veľkosti vzorky;
výber prvkov vzorky;
preskúmanie vybraných prvkov.

Vzdelávací cieľ 3
Definujte pojem „rámec odberu vzoriek“

Rámec vzorkovania je zoznam položiek, z ktorých sa vzorka odoberie.

Vzdelávací cieľ 4
Vysvetlite rozdiel medzi pravdepodobnostným a deterministickým výberom

V pravdepodobnostnej vzorke môže byť každý člen populácie zaradený s určitým daná nenulová pravdepodobnosť. Pravdepodobnosti zaradenia určitých členov populácie do vzorky sa môžu navzájom líšiť, ale pravdepodobnosť zaradenia každého prvku do vzorky je známa. Pre deterministické vzorky je odhad pravdepodobnosti zahrnutia akéhokoľvek prvku do vzorky nemožný. Reprezentatívnosť takejto vzorky nemožno zaručiť. Všetky deterministické výbery sú založené skôr na osobnej pozícii, úsudku alebo preferencii. Takéto preferencie môžu niekedy poskytnúť dobré odhady charakteristík populácie, ale neexistuje spôsob, ako objektívne určiť vhodnosť vzorky pre danú úlohu.

Vzdelávací cieľ 5
Rozlišujte medzi vzorkovaním s pevnou veľkosťou a viacstupňovým (po sebe idúcim) vzorkovaním

Pri práci so vzorkami s pevnou veľkosťou sa veľkosť vzorky určuje pred začiatkom prieskumu a analýze výsledkov predchádza zber všetkých požadovaných údajov. V sekvenčnej vzorke nie je počet vybraných prvkov vopred známy, určuje sa na základe série sekvenčných rozhodnutí.

Vzdelávací cieľ 6
Vysvetlite, čo je to zámerné vzorkovanie, a popíšte jeho silné a slabé stránky

Položky zámerného odberu vzoriek sa ručne vyberú a predložia výskumníkovi podľa potreby na účely prieskumu. Predpokladá sa, že vybrané prvky môžu poskytnúť úplný obraz o skúmanej populácii. Pokiaľ je výskumník v počiatočných štádiách riešenia problému, keď sa zisťujú vyhliadky a možné obmedzenia plánovaného prieskumu, môže byť použitie zámerného výberu vzoriek veľmi efektívne. V žiadnom prípade by sme však nemali zabúdať na slabé stránky tohto typu vzorky, pretože ju môže výskumník použiť aj v deskriptívnych alebo kauzálnych štúdiách, ktoré nebudú pomaly ovplyvňovať kvalitu ich výsledkov.

Vzdelávací cieľ 7
Definujte pojem kvótny odber vzoriek

Proporcionálny odber vzoriek sa vyberá tak, aby podiel prvkov vzorky s určitými charakteristikami približne zodpovedal podielu rovnakých prvkov v skúmanej populácii; na tento účel je každému počítadlu pridelená kvóta, ktorá určuje charakteristiky populácie, s ktorou sa musí kontaktovať.

Cieľ vzdelávania 8
Vysvetlite, čo je parameter vo výberovom konaní

Parameter - určitá charakteristika alebo ukazovateľ všeobecnej alebo študovanej populácie; určitý kvantitatívny ukazovateľ, ktorý odlišuje jeden súbor od druhého.

Cieľ vzdelávania 9
Vysvetlite, čo je odvodená množina

Odvodená populácia pozostáva zo všetkých možných vzoriek, ktoré možno vybrať zo všeobecnej populácie podľa daného plánu odberu vzoriek.

Vzdelávací cieľ 10
Vysvetlite, prečo je pojem distribúcia vzoriek najdôležitejším pojmom štatistiky.

Koncept distribúcie vzoriek je základným kameňom štatistickej inferencie. Podľa známeho rozloženia vzorky študovaných štatistík môžeme usudzovať na zodpovedajúci parameter všeobecnej populácie. Ak je známe len to, že odhad vzorky sa mení od vzorky k vzorke, ale povaha tejto zmeny nie je známa, nie je možné určiť výberovú chybu spojenú s týmto odhadom. Keďže výberové rozdelenie odhadu popisuje, ako sa mení od vzorky k vzorke, poskytuje základ pre určenie platnosti vzorového odhadu.

Empirické sú považované za jeden z hlavných prostriedkov štúdia sociálnych vzťahov a procesov. Poskytujú spoľahlivé, úplné a reprezentatívne informácie.

Špecifickosť techník

Empirické poskytujú získavanie poznatkov na upevnenie faktov. Prispievajú k vytváraniu a zovšeobecňovaniu okolností prostredníctvom nepriamej alebo priamej registrácie udalostí, ktoré sú vlastné skúmaným vzťahom, objektom, javom. Empirické metódy sa líšia od teoretických v tom, že predmetom analýzy je:

Správanie jednotlivcov a ich skupín.
Produkty ľudskej činnosti.
Verbálne činy jednotlivcov, ich úsudky, pohľady, názory.

Ukážkové štúdie

Empirické štúdium je vždy zamerané na získanie objektívnych a presných informácií, kvantitatívnych údajov. V tejto súvislosti je pri vykonávaní potrebné zabezpečiť reprezentatívnosť informácií. V súlade s tým správne odberová súprava. Toto je To znamená, že výber je potrebné uskutočniť tak, aby údaje získané z úzkej skupiny odrážali trendy, ktoré sa odohrávajú vo všeobecnej mase respondentov. Napríklad pri prieskume 200 – 300 ľudí možno získané údaje extrapolovať na celú mestskú populáciu. Ukazovatele výberového súboru umožňujú odlišný prístup k štúdiu sociálno-ekonomických procesov v regióne, v krajine ako celku.

Terminológia

Aby sme lepšie porozumeli problémom súvisiacim s výberovými prieskumami, je potrebné objasniť niektoré definície. Jednotka pozorovania je priamym zdrojom informácií. Môže to byť jednotlivec, skupina, dokument, organizácia atď. Bežná populácia je súbor pozorovacích jednotiek. Všetky by mali byť relevantné pre skúmaný problém. podlieha priamej analýze. Štúdia sa uskutočňuje v súlade s vyvinutými metódami zberu informácií. Na určenie tohto podielu z celého poľa respondentov použite pojem „vzorka“. Jeho vlastnosť odrážať kľúčové parametre celkovej masy ľudí sa nazýva reprezentatívnosť. V niektorých prípadoch neexistujú žiadne zhody. Potom sa hovorí o chybe reprezentatívnosti.

Zabezpečenie reprezentatívnosti

Otázky s tým súvisiace sú podrobne posúdené v rámci štatistiky. Problémy sú zložité, pretože na jednej strane hovoríme o poskytovaní kvantitatívneho vyjadrenia, ktoré dáva všeobecná populácia. Toto je znamená najmä to, že skupiny respondentov by mali byť zastúpené v optimálnom počte. Množstvo musí byť dostatočné na normálnu reprezentáciu. Na druhej strane to znamená aj kvalitatívne zastúpenie. Predpokladá určitú sujetovú skladbu, ktorá tvorí odberová súprava. Toto je znamená, že napríklad o reprezentatívnosti sa nemôže diskutovať, ak sú pohovory len s mužmi alebo len so ženami, so staršími alebo mladými ľuďmi. Štúdia by sa mala uskutočniť v rámci všetkých zastúpených skupín.

Ukážková charakteristika

Tento pojem sa posudzuje v dvoch aspektoch. V prvom rade je definovaný ako komplex prvkov zo všeobecného poľa ľudí, ktorých názor sa študuje – to jest odberová súprava. Toto je aj proces vytvárania určitej kategórie respondentov s požadovanou reprezentatívnosťou. V praxi existuje niekoľko typov a typov výberu. Zvážme ich.

Typy

Sú tri z nich:

spontánna odberová súprava. Toto je súbor respondentov vybraných na dobrovoľnom základe. Zároveň je zabezpečená prístupnosť vstupu jednotiek z celkovej masy ľudí do konkrétnej študijnej skupiny. Spontánny výber sa v praxi využíva pomerne často. Napríklad v prieskumoch v tlači, poštou. Tento prístup má však významnú nevýhodu. Nie je možné kvalitatívne znázorniť celý objem všeobecnej vzorky. Táto technika sa používa s ohľadom na hospodárnosť. V niektorých prieskumoch je táto možnosť jediná možná.
spontánna odberová súprava. Toto je jedna z hlavných metód používaných v štúdii. Kľúčovým princípom takéhoto výberu je poskytnutie možnosti pre každú jednotku pozorovania dostať sa zo všeobecnej masy jednotlivcov do úzkej skupiny. Na tento účel sa používajú rôzne metódy. Môže to byť napríklad lotéria, mechanický výber, tabuľka náhodných čísel.
Stratifikovaný (kvótovaný) odber vzoriek. Je založená na vytvorení kvalitatívneho modelu celkovej masy respondentov. Potom sa uskutoční výber jednotiek v populácii vzorky. Vykonáva sa napríklad podľa veku alebo pohlavia, podľa skupín obyvateľstva a pod.

Druhy

K dispozícii sú nasledujúce možnosti:

Okrem toho

Vzorky môžu byť tiež závislé a nezávislé. V prvom prípade má postup experimentu a výsledky, ktoré sa počas neho získajú u jednej skupiny respondentov, určitý vplyv na druhú. Nezávislé vzorky teda neimplikujú takýto vplyv. Tu si však treba uvedomiť jeden dôležitý bod. Za závislú sa bude štandardne považovať jedna skupina predmetov, u ktorých sa psychologické vyšetrenie vykonalo dvakrát (aj keď bolo zamerané na štúdium rôznych vlastností, vlastností, znakov).

Pravdepodobné výbery

Zvážte niektoré typy vzoriek:

Náhodný. Predpokladá homogenitu celkovej populácie, jednu pravdepodobnosť dostupnosti všetkých komponentov, ako aj prítomnosť úplného zoznamu prvkov. Pri výbere sa spravidla používa tabuľka s náhodnými číslami.
Mechanický. Tento druh náhodného výberu vzoriek zahŕňa zoradenie podľa určitého atribútu. Napríklad podľa telefónneho čísla, podľa abecedy, podľa dátumu narodenia a podobne. Prvý komponent je vybraný náhodne. Ďalej sa každý k prvok vyberie krokom n. Hodnota celkovej populácie bude N=k*n.
Stratifikovaný. Táto vzorka sa používa, keď je celková populácia heterogénna. Ten je rozdelený do vrstiev (skupín). V každom z nich sa výber uskutočňuje mechanicky alebo náhodne.
sériový. Skupiny sa vyberajú náhodne. V ich vnútri sa študujú predmety.

Neuveriteľné výbery

Zahŕňajú odber vzoriek nie na základe náhodnosti, ale na subjektívnych dôvodoch: typickosť, dostupnosť, rovnaké zastúpenie atď. Výber v tejto kategórii zahŕňa:

Nuance

Na zabezpečenie reprezentatívnosti je potrebný presný a úplný zoznam jednotiek obyvateľstva. Objektmi pozorovania je spravidla jedna osoba. Výber zo zoznamu je najlepšie vykonať číslovaním jednotiek a použitím tabuľky s náhodnými číslami. Často sa však používa aj kvázi náhodná metóda. Predpokladá výber zo zoznamu každého n prvku.

Ovplyvňujúce faktory

Objem populácie je počet jej jednotiek. Podľa odborníkov nemusí byť veľká. Nepochybne platí, že čím väčší počet respondentov, tým je výsledok presnejší. Zároveň však veľký objem nie vždy zaručuje úspech. Stáva sa to napríklad vtedy, keď je celkový počet respondentov heterogénny. Za homogénny sa bude považovať taký súbor, v ktorom je kontrolovaný parameter, napríklad úroveň gramotnosti, rozdelený rovnomerne, to znamená, že neexistujú žiadne dutiny alebo kondenzácie. V tomto prípade bude stačiť rozhovor s niekoľkými ľuďmi. Na základe výsledkov prieskumu bude možné konštatovať, že väčšina ľudí má normálnu úroveň gramotnosti. Z toho vyplýva, že reprezentatívnosť informácií nie je ovplyvnená kvantitatívnymi charakteristikami, ale kvalitatívnymi charakteristikami populácie - najmä úrovňou jej homogenity.

Chyby

Predstavujú odchýlku priemerných parametrov výberovej populácie od hodnôt celkovej hmotnosti respondentov. V praxi sa chyby určujú párovaním. Pri zisťovaní dospelých sa zvyčajne využívajú údaje zo sčítania ľudu, štatistické záznamy a výsledky minulých prieskumov. Kontrolnými parametrami sú zvyčajne porovnanie priemerných hodnôt populácií (všeobecných a výberových), určenie chyby v súlade s tým a zníženie tejto odchýlky sa nazýva kontrola reprezentatívnosti.

zistenia

Výberový výskum je spôsob zberu údajov o postojoch a správaní ľudí prostredníctvom prieskumu na špeciálne vybraných skupinách respondentov. Táto technika sa považuje za spoľahlivú a ekonomickú, hoci si vyžaduje určitú techniku. Vzorka je základ. Pôsobí ako určitý podiel z celkovej masy ľudí. Výber sa uskutočňuje pomocou špeciálnych techník a je zameraný na získanie informácií o celej populácii. Ten je zas reprezentovaný všetkými možnými sociálnymi objektmi alebo skupinou, ktorá bude skúmaná. Populácia je často taká veľká, že by bolo dosť nákladné a ťažkopádne vykonávať prieskum u každého z jej členov. Preto sa používa zmenšený model. Vzorka zahŕňa všetkých, ktorí dostávajú dotazníky, ktorí sa nazývajú respondenti, ktorí v skutočnosti vystupujú ako objekt skúmania. Jednoducho povedané, skladá sa z mnohých ľudí, ktorí sú na pohovore.

Záver

Ciele prieskumu sú určené konkrétnymi kategóriami obsiahnutými v populácii. Čo sa týka konkrétneho podielu z celkovej masy ľudí, tvoria ho subjekty zaradené do skupín pomocou matematických výpočtov. Pre výber jednotiek je potrebný popis objektu počiatočnej populácie. Po určení počtu subjektov sa určí recepcia alebo spôsob vytvárania skupín. Výsledky prieskumu nám umožnia opísať skúmanú vlastnosť vo vzťahu ku všetkým predstaviteľom všeobecnej masy ľudí. Ako ukazuje prax, uskutočňujú sa najmä selektívne štúdie, a nie kontinuálne.

Štatistické štúdie sú časovo a finančne veľmi náročné, preto vznikla myšlienka nahradiť kontinuálne pozorovanie selektívnym.

Hlavným účelom nekontinuálneho pozorovania je získať charakteristiky skúmanej štatistickej populácie pre jej skúmanú časť.

Selektívne pozorovanie- ide o metódu štatistického výskumu, pri ktorej sa zovšeobecňujúce ukazovatele populácie stanovujú len pre jedinú časť na základe ustanovení o náhodnom výbere.

Pri metóde výberu vzoriek sa študuje iba určitá časť skúmanej populácie, zatiaľ čo štatistická populácia, ktorá sa má študovať, sa nazýva všeobecná populácia.

Vzorkou alebo jednoducho vzorkou možno nazvať časť jednotiek vybraných zo všeobecnej populácie, ktorá bude podrobená štatistickému výskumu.

Hodnota výberovej metódy: pri minimálnom počte skúmaných jednotiek bude štatistický výskum realizovaný v kratších časových úsekoch a s najnižšími nákladmi na finančné prostriedky a prácu.

Vo všeobecnej populácii sa podiel jednotiek, ktoré majú študovaný znak, nazýva všeobecný podiel (označený R), a priemerná hodnota študovaného variabilného znaku je všeobecný priemer (označený X).

Vo výberovej populácii sa podiel študovaného znaku nazýva podiel vzorky alebo časť (označuje sa w), priemerná hodnota vo vzorke je vzorový priemer.

Ak sa počas obdobia prieskumu dodržia všetky pravidlá jeho vedeckej organizácie, metóda odberu vzoriek poskytne pomerne presné výsledky, a preto je vhodné použiť túto metódu na overenie údajov nepretržitého pozorovania.

Táto metóda sa rozšírila v štátnej a mimorezortnej štatistike, pretože pri štúdiu minimálneho počtu študovaných jednotiek umožňuje dôkladné a presné štúdium.

Študovaný štatistický súbor pozostáva z jednotiek s rôznymi charakteristikami. Zloženie vzorky sa môže líšiť od zloženia všeobecnej populácie, tento nesúlad medzi charakteristikami vzorky a všeobecnej populácie predstavuje výberovú chybu.

Chyby vlastné selektívnemu pozorovaniu charakterizujú veľkosť nesúladu medzi údajmi selektívneho pozorovania a celou populáciou. Chyby, ktoré sa vyskytujú pri odbere vzoriek, sa nazývajú chyby reprezentatívnosti a delia sa na náhodné a systematické.

Ak vzorová populácia presne nereprodukuje celú populáciu kvôli nekontinuálnej povahe pozorovania, potom sa to nazýva náhodné chyby a ich veľkosti sú určené s dostatočnou presnosťou na základe zákona veľkých čísel a teórie pravdepodobnosti.

Systematické chyby vznikajú v dôsledku porušenia zásady náhodného výberu jednotiek populácie na pozorovanie.

2. Typy a schémy výberu

Veľkosť výberovej chyby a metódy jej určenia závisia od typu a schémy výberu.

Existujú štyri typy výberu súboru jednotiek pozorovania:

1) náhodný;

2) mechanické;

3) typický;

4) sériový (vnorený).

náhodný výber- najbežnejší spôsob výberu v náhodnom výbere, nazýva sa aj metóda lotérie, pri ktorej sa pre každú jednotku štatistickej populácie pripraví tiket s poradovým číslom.

Potom sa náhodne vyberie požadovaný počet jednotiek štatistickej populácie. Za týchto podmienok má každý z nich rovnakú pravdepodobnosť dostať sa do vzorky, napríklad pri žrebovaní výhier, keď sa z celkového počtu vydaných tiketov náhodne vyberie určitá časť čísel tvoriacich výhry. V tomto prípade majú všetky čísla rovnakú príležitosť dostať sa do vzorky.

Mechanický výber- ide o metódu, kedy sa celá populácia náhodne rozdelí do skupín homogénnej veľkosti, následne sa z každej skupiny vyberie iba jedna jednotka Všetky jednotky skúmanej štatistickej populácie sú vopred usporiadané v určitom poradí, ale v závislosti od veľkosť vzorky, požadovaný počet jednotiek je mechanicky vybraný v určitom intervale.

Typický výber - ide o metódu, pri ktorej sa študovaná štatistická populácia rozdelí podľa podstatného, typického znaku do kvalitatívne homogénnych, podobných skupín, následne sa z každej z tejto skupiny náhodne vyberie určitý počet jednotiek, úmerný podielu skupiny v celé obyvateľstvo.

Typický výber poskytuje presnejšie výsledky, pretože zahŕňa zástupcov všetkých typických skupín vo vzorke.

Sériový (vnorený) výber. Celé skupiny (série, hniezda), vybrané náhodne alebo mechanicky, podliehajú výberu. Pre každú takúto skupinu, sériu sa vykonáva nepretržité pozorovanie a výsledky sa prenášajú na celú populáciu.

Presnosť odberu vzoriek závisí aj od schémy výberu. Odber vzoriek je možné vykonávať podľa schémy opakovaného a neopakovaného výberu.

Opätovný výber. Každá vybraná jednotka alebo séria je vrátená celej populácii a môže byť prevzorkovaná. Ide o takzvanú schému vrátenej gule.

Opakovaný výber. Každá skúmaná jednotka je stiahnutá a nie vrátená populácii, takže nie je znovu zisťovaná. Táto schéma sa nazýva nevrátená lopta.

Neopakovateľný výber poskytuje presnejšie výsledky, pretože pri rovnakej veľkosti vzorky pozorovanie pokrýva viac jednotiek skúmanej populácie.

Kombinovaný výber môže prejsť jedným alebo viacerými krokmi. Vzorka sa nazýva jednostupňová, ak sa skúmaniu podrobia raz vybrané jednotky populácie.

Vzorka sa nazýva viacstupňová, ak výber populácie prechádza fázami, postupnými fázami a každá fáza, fáza výberu má svoju vlastnú jednotku výberu.

Viacfázový odber vzoriek - na všetkých stupňoch odberu je zachovaná rovnaká výberová jednotka, ale vykonáva sa niekoľko etáp, fáz výberových zisťovaní, ktoré sa navzájom líšia šírkou programu zisťovania a veľkosťou vzorky.

Charakteristiky parametrov všeobecnej a vzorovej populácie sú označené nasledujúcimi symbolmi:

N- objem bežnej populácie;

n- veľkosť vzorky;

X– všeobecný priemer;

X je priemer vzorky;

R– všeobecný podiel;

w - podiel vzorky;

2 - všeobecný rozptyl (rozptyl znaku vo všeobecnej populácii);

2 - výberový rozptyl toho istého znaku;

a - štandardná odchýlka vo všeobecnej populácii;

a je štandardná odchýlka vo vzorke.

3. Chyby pri odbere vzoriek

Každá jednotka vo vzorovom pozorovaní by mala mať rovnakú príležitosť byť vybraná s ostatnými – to je základ náhodnej vzorky.

Vlastné náhodné vzorkovanie - ide o výber jednotiek z celej bežnej populácie lotériou alebo iným podobným spôsobom.

Princíp náhodnosti spočíva v tom, že zaradenie alebo vylúčenie objektu zo vzorky nemôže ovplyvniť žiadny iný faktor ako náhoda.

Vzorový podiel je pomer počtu jednotiek vo vzorke k počtu jednotiek vo všeobecnej populácii:

Vlastný náhodný výber vo svojej čistej forme je počiatočný medzi všetkými ostatnými typmi výberu, obsahuje a implementuje základné princípy selektívneho štatistického pozorovania.

Dva hlavné typy zovšeobecňujúcich ukazovateľov, ktoré sa používajú v metóde výberu vzoriek, sú priemerná hodnota kvantitatívneho atribútu a relatívna hodnota alternatívneho atribútu.

Podiel vzorky (w) alebo špecifickosť je určená pomerom počtu jednotiek, ktoré majú študovaný znak m, na celkový počet jednotiek odberu vzoriek (n):

Na charakterizáciu spoľahlivosti výberových ukazovateľov sa rozlišujú priemerné a hraničné chyby výberového súboru.

Výberová chyba, nazývaná aj chyba reprezentatívnosti, je rozdiel medzi zodpovedajúcou vzorkou a všeobecnými charakteristikami:

?x = | x - x |;

?w =|х – p|.

Iba vzorkované pozorovania majú výberovú chybu

Priemer vzorky a podiel vzorky- sú to náhodné premenné, ktoré nadobúdajú rôzne hodnoty v závislosti od jednotiek študovanej štatistickej populácie, ktoré boli zahrnuté do vzorky. V súlade s tým sú výberové chyby tiež náhodné premenné a môžu tiež nadobúdať rôzne hodnoty. Preto sa určí priemer možných chýb – priemerná výberová chyba.

Priemerná výberová chyba je určená veľkosťou vzorky: čím väčšia je populácia a všetky ostatné veci sú rovnaké, tým menšia je priemerná výberová chyba. Pokrytím výberového zisťovania s narastajúcim počtom jednotiek bežnej populácie čoraz presnejšie charakterizujeme celú populáciu.

Priemerná výberová chyba závisí od stupňa variácie študovaného znaku, naopak, stupeň variácie je charakterizovaný rozptylom? 2 alebo w(d - w)- pre alternatívne znamenie. Čím menšia je variácia a rozptyl funkcie, tým menšia je stredná vzorkovacia chyba a naopak.

Pre náhodné prevzorkovanie sa priemerné chyby teoreticky vypočítajú pomocou nasledujúcich vzorcov:

1) pre priemerný kvantitatívny znak:

kde? 2 - priemerná hodnota rozptylu kvantitatívneho znaku.

2) na akciu (alternatívny znak):

Aký je teda rozptyl vlastnosti v populácii? 2 nie je presne známa, v praxi používajú hodnotu rozptylu S 2 vypočítanú pre výberovú populáciu na základe zákona veľkých čísel, podľa ktorej výberová populácia s dostatočne veľkou veľkosťou vzorky presne reprodukuje charakteristiky výberového súboru. všeobecná populácia.

Vzorce pre priemernú výberovú chybu pre náhodné prevzorkovanie sú nasledovné. Pre priemernú hodnotu kvantitatívneho atribútu: všeobecný rozptyl je vyjadrený cez voliteľný nasledujúcim pomerom:

kde S2 je hodnota disperzie.

Mechanický odber vzoriek- ide o výber jednotiek vo výberovom súbore zo všeobecného, ktorý je rozdelený do rovnakých skupín podľa neutrálneho kritéria; sa robí tak, že z každej takejto skupiny vo vzorke sa vyberie len jedna jednotka.

Pri mechanickom výbere sú jednotky študovanej štatistickej populácie predbežne usporiadané v určitom poradí, po ktorom sa v určitom intervale mechanicky vyberie daný počet jednotiek. V tomto prípade sa veľkosť intervalu vo všeobecnej populácii rovná recipročnej hodnote podielu vzorky.

Pri dostatočne veľkej populácii je mechanický výber z hľadiska presnosti výsledkov blízky náhodnému, preto sa na určenie priemernej chyby mechanického vzorkovania používajú vzorce náhodného neopakovaného vzorkovania.

Na výber jednotiek z heterogénnej populácie sa používa takzvaná typická vzorka, používa sa vtedy, keď všetky jednotky všeobecnej populácie možno rozdeliť do niekoľkých kvalitatívne homogénnych, podobných skupín podľa charakteristík, od ktorých závisia skúmané ukazovatele.

Potom sa z každej typickej skupiny uskutoční individuálny výber jednotiek do vzorky náhodnou alebo mechanickou vzorkou.

Typický odber vzoriek sa zvyčajne používa pri štúdiu komplexných štatistických populácií.

Typický odber vzoriek poskytuje presnejšie výsledky. Typizácia všeobecnej populácie zabezpečuje reprezentatívnosť takejto vzorky, zastúpenie každej typologickej skupiny v nej, čo umožňuje vylúčiť vplyv medziskupinového rozptylu na priemernú výberovú chybu. Preto pri určovaní priemernej chyby typickej vzorky pôsobí priemer vnútroskupinových rozptylov ako indikátor variácie.

Sériové vzorkovanie zahŕňa náhodný výber zo všeobecnej populácie rovnako veľkých skupín, aby sa všetky jednotky bez výnimky podrobili pozorovaniu v takýchto skupinách.

Keďže všetky jednotky bez výnimky sa skúmajú v rámci skupín (sérií), priemerná výberová chyba (pri výbere rovnakých sérií) závisí len od medziskupinového (medzisériového) rozptylu.

4. Spôsoby rozšírenia výsledkov vzorky na populáciu

Charakterizácia všeobecnej populácie na základe výsledkov vzorky je konečným cieľom pozorovania vzorky.

Metóda výberu vzoriek sa používa na získanie charakteristík všeobecnej populácie pre určité ukazovatele vzorky. V závislosti od cieľov štúdie sa to vykonáva priamym prepočtom ukazovateľov vzorky pre všeobecnú populáciu alebo metódou výpočtu korekčných faktorov.

Metóda priameho prepočtu spočíva v tom, že s ňou sa podielajú ukazovatele vzorky w alebo stredná X sa rozšíria na všeobecnú populáciu, pričom sa zohľadní výberová chyba.

Metóda korekčných faktorov sa používa vtedy, keď je účelom metódy výberu vzorky spresniť výsledky úplného účtovania. Táto metóda sa používa na spresnenie údajov ročných sčítaní hospodárskych zvierat obyvateľstva.

Pojem „reprezentatívnosť“ vo vzťahu k sociologickým prieskumom – prieskumom verejnej mienky – pôsobí na ľudí takmer magicky. Samotný pojem „reprezentácia“ má okrem vedeckého aj jednoznačne politický význam.

Aky je dôvod? Ide o to, že sa predpokladá, že vzorka (skupina ľudí vybraných do prieskumu) môže reprezentovať (reprezentovať) celú populáciu. Všeobecnou populáciou v prípade celoruských prieskumov je celá populácia krajiny. Teraz si predstavme, že hovoríme o politickom rozhodnutí – podpore návrhu zákona alebo hlasovaní vo voľbách. Pomocou výberového prieskumu dostaneme výborný mechanizmus politickej reprezentácie – mechanizmus, v ktorom môže malá skupina ľudí reprezentovať názor alebo postoj celej populácie krajiny. Preto je reprezentatívnosti štúdie venované také dôležité miesto.

Pojem reprezentatívnosť sa používa, samozrejme, nielen v politických štúdiách. Tento výraz sa takmer vždy používa, keď sa hovorí o veľkých štúdiách, či už v oblasti marketingu, ekonomického správania alebo vzdelávania.

Metodika reprezentatívnych prieskumov

Ako možno po opýtaní 1500 ľudí vyvodiť závery o všetkých Rusoch, ktorých je viac ako 140 miliónov (a dokonca viac ako 110 miliónov voličov)? Technológia reprezentatívnych prieskumov verejnej mienky je založená na štatistických zákonoch. Najbližším dôvodom je zákon veľkých čísel alebo Bernoulliho veta.

Zjednodušene možno jeho význam vyjadriť nasledovne. Predpokladajme, že máme nejakú vlastnosť, napríklad množstvo zrážok za deň v Jekaterinburgu počas 20. storočia. Ak zapíšeme všetky jeho hodnoty spolu s ich frekvenciou (toto sa nazýva rozdelenie) a potom náhodne vezmeme dostatočne veľký počet prípadov (teda nie všetky dni v dvadsiatom storočí, ale pomerne veľa), potom uvidíme, že rozdelenie v našej vzorke bude veľmi podobné rozdeleniu za celé dvadsiate storočie. Ak teda z populácie vyberieme nejaké jednotky, môžu skutočne predstavovať celú populáciu a nie je skutočne potrebné zbierať údaje pre všetky prípady.

Je tu však kľúčová podmienka: platí to iba vtedy, ak je výber prísne náhodný. Jediným problémom tu môže byť odchýlka od náhodnosti. Ak teda vezmeme len údaje o zrážkach za posledné roky (napríklad preto, že tieto údaje sa dajú ľahšie nájsť) alebo opýtame 1500 našich známych (pretože je ľahšie ich kontaktovať), a nie náhodných ľudí, tak vzorka určite nebude byť reprezentatívny.

Predstavte si, že zo 143,5 milióna Rusov náhodne vyberiete 1500 ľudí, ktorých potrebujete. Potom sa napríklad podiel stredných manažérov medzi nimi bude približne rovnať podielu stredných manažérov v populácii, čo ukazuje, že vaša vzorka môže predstavovať celú populáciu. Môže sa stať, že tieto dva ukazovatele budú veľmi odlišné? Napríklad medzi Rusmi je to 14 %, ale vo vzorke to bude len 1 %? Teoreticky je to možné, ale pravdepodobnosť je taká malá, že sa to dá zanedbať (ako keď stretnete draka na ulici).

Navyše, najpríjemnejšie na tejto pravdepodobnosti nie je ani to, že je malá, ale to, že pre náhodné procesy možno túto pravdepodobnosť vypočítať. Môžeme povedať, s akou pravdepodobnosťou sa bude naša vzorová hodnota odchyľovať od hodnoty vo všeobecnej populácii o 13 % (ako v príklade vyššie) a s akou povedzme o 2,5 %. Väčšinou to však robia opačne: najprv určia, s akou pravdepodobnosťou chceme, aby sa naša hodnota neodchyľovala od hodnoty v bežnej populácii (najčastejšie je zafixovaná na úrovni 95 %), a potom sa pozrú na tzv. veľkosť odchýlky pre vzorky určitej veľkosti. Táto odchýlka sa nazýva interval spoľahlivosti, niekedy označovaná ako výberová chyba alebo štatistická chyba, a často sa uvádza spolu s výsledkami prieskumu.

Pravdepodobnosť odchýlky, veľkosť odchýlky (interval spoľahlivosti) a veľkosť vzorky teda spolu súvisia. Na základe toho je vzorec na výpočet veľkosti vzorky nasledujúci:

kde n je veľkosť vzorky, Δ je interval spoľahlivosti, z je hodnota funkcie normálneho rozdelenia pre danú pravdepodobnosť odmietnutia (pre pravdepodobnosť 5 % je táto hodnota 1,96).

Toto je zjednodušený vzorec, skutočné prieskumy používajú o niečo zložitejšie vzorce. Tento vzorec môže zlyhať aj vtedy, ak je hodnota ukazovateľa veľmi odlišná od 50 % (takže tento vzorec napríklad nie je vhodný na odhad podielu pacientov so zriedkavým ochorením v krajine).

Čo sa stane, ak do tohto vzorca nahradíte niektoré hodnoty:

Inými slovami, ak by sme zobrali náhodnú vzorku Rusov s veľkosťou 1600 ľudí a odhadli nejaký ukazovateľ, napríklad ochotu voliť určitého politika, tak s pravdepodobnosťou 95% sa náš odhad nebude líšiť od ochoty hlasovať za neho spomedzi všetkých Rusov o viac ako 2,45 %.

Veľkosť vzorky

Takže čím väčšia je veľkosť vzorky, tým je pravdepodobnejšie, že budeme bližšie k podielu v populácii. Zdalo by sa, že to znamená, že sa musíme pokúsiť priblížiť vzorku k číslu 143,5 mil.. V skutočnosti, ako môžete vidieť z tabuľky, charakter náhodných procesov je taký, že od určitého momentu je pravdepodobnosť pádu do intervalu sa začína zvyšovať veľmi pomaly (a tento moment prichádza dosť rýchlo). Po vzorkovaní 1 500 jednotiek, bez ohľadu na to, o koľko zväčšíme veľkosť vzorky, pravdepodobnosť, že hodnota našej vzorky spadne do hodnoty populácie, sa bude zvyšovať veľmi, veľmi pomaly.

V skutočnosti nie je takmer žiadny rozdiel medzi 1 500 a 10 000 respondentmi. Niekde k roku 1500 už môžeme povedať, že naše odhady sa budú líšiť od podielu v bežnej populácii o 2-3%. Ak vzorku ešte zväčšíme, potom sa táto možná chyba zníži, ale veľmi mierne. Inými slovami, vzorka 100 000 je lepšia ako vzorka 2500, ale rozdiel je taký malý, že nedáva zmysel a v prípade sociálnych prieskumov nie je ekonomicky opodstatnený. Zväčšenie vzorky je väčšinou drahé, a preto nemá zmysel ju nafukovať s cieľom získať jeden percentuálny bod v hodnote intervalu spoľahlivosti.

Je dôležité, aby sa veľkosť bežnej populácie vo vzorci vôbec neobjavila. Faktom je, že keď je populácia veľká (viac ako 20 000), nemá to žiadny vplyv na veľkosť vzorky. Na vytvorenie reprezentatívnej vzorky teda nepotrebujeme vedieť, koľko ľudí žije v Rusku. Je jasné, že výber 1500 z 2000 s najväčšou pravdepodobnosťou nedáva zmysel - je jednoduchšie preskúmať 2000 a získať presný odhad. Ale ak je to potrebné, vytvorením vzorky dostaneme príležitosť zovšeobecniť jej výsledky pre všeobecnú populáciu. A z rovnakého dôvodu sa veľkosť vzorky nebude líšiť pre veľké a malé krajiny.

Reprezentatívnosť a presnosť

Aby sme pochopili význam pojmu „reprezentatívnosť“, zoberme si vzorku 15 ľudí. Napodiv, ak ste ho vyrobili náhodou, je tiež reprezentatívny. Okrem toho môžete vytvoriť vzorku jednej jednotky. Predstavte si krabicu loptičiek, z ktorej náhodne vytiahnete jednu loptičku. Ak ide o náhodne vybratú loptičku, potom bude reprezentovať aj všetky loptičky, ktoré sú v tomto poli. Bude ich len zastupovať. nie práve. prečo? Pretože existuje veľmi vysoká pravdepodobnosť, že sa mýlite. Nabudúce môžeme nakresliť ďalšiu loptičku a získať inú predstavu o loptičkách v krabici. Nepresne reprezentovať znamená mať široký rozsah odhadov.

Rovnakým spôsobom 15 ľudí predstavuje akúkoľvek všeobecnú populáciu, ale predstavujú ju nepresne, pretože chyba, interval spoľahlivosti, je veľmi veľká. Budeme musieť pridať +/- 33%, aby sme dostali 95% šancu, že spadneme do intervalu. Ak sme pripravení to priznať, tak vezmeme 15 ľudí, zistíme, že 7 z nich sú strední manažéri a potom dostaneme odhad, že 7/15 z celkového počtu, teda 47 % +/- 33 %, je odhad podielu manažérov v celkovej populácii, a to je absolútne správny záver. Len to nemá žiadnu hodnotu. To by sme mohli povedať bez vyšetrenia. Preto pri plánovaní vzorky má zmysel dosiahnuť veľkosť, ktorá bude primeraná z hľadiska nákladovej efektívnosti.

Všetko vyššie uvedené je určené na vyjadrenie jednej jednoduchej myšlienky, ktorá sa často nerealizuje: veľkosť vzorky nesúvisí s jej reprezentatívnosťou.

Malá vzorka je nepresná, ale stále môže byť reprezentatívna. Veľkosti vzoriek, ktoré sa dnes používajú v masových prieskumoch v Rusku, majú takmer vždy pomerne vysokú presnosť.

Reprezentatívnosť vzorky nie je ohrozená jej veľkosťou, ale zaujatosťou, teda odchýlkou od princípu náhodnosti.

Porušenie princípu náhodnosti

Ak začneme vyberať jednotky nenáhodne, vzorka sa stane nereprezentatívnou. Napríklad, ak nám niečo bráni v ich náhodnom výbere. Predstavte si, že chceme náhodne vybrať loptičky z našej krabice, no potom sa ukáže, že niektoré loptičky hryzie. Mechanizmus, ktorým budeme brať len tie guľôčky, ktoré nám budú dané, je mechanizmus, ktorý porušuje náhodnosť, a preto porušuje reprezentatívnosť. V tomto prípade, bez ohľadu na to, koľko guličiek vyberieme z krabice (aj keď vezmeme všetky guľôčky, ktoré nehryzú), budeme mať nereprezentatívnu vzorku, pretože nebudeme brať do úvahy žiadne z tých, ktoré hryzú - oni jednoducho obíďte našu vzorku.

Najväčším problémom loptičiek na hryzenie je to, že sa môžu líšiť od tých, ktoré sa nám dostanú do rúk, a môžu sa líšiť presne tak, ako nás to zaujíma. Táto situácia sa nazýva skreslenie vzorky.

Je potrebné odlíšiť situáciu nepresného znázornenia, ktorú sme popísali vyššie, od situácie nezastúpenia. Sú to rôzne problémy a majú rôzne riešenia. Nemôžete vyriešiť jeden z nich vyriešením druhého. Ak vzorke chýba reprezentatívnosť, je zbytočné ju zvyšovať. Navyše, veľké vzorky v sociálnych prieskumoch majú tendenciu hromadiť chyby, takže problém zastúpenia sa môže len zhoršiť veľkým nárastom vzorky.

Prečo je reprezentatívnosť nemožná?

V poznámkach k tabuľkám s výsledkami prieskumov je často vidieť, že „veľkosť vzorky je 1600 ľudí, vzorka je reprezentatívna pre pohlavie a vek“. Z toho, čo bolo povedané vyššie, je zrejmé, že ide o dva rôzne parametre: údaj o reprezentatívnosti nesúvisí s veľkosťou vzorky. V skutočnosti sa tu myslí, že boli dodržané určité postupy, aby sa zabezpečila zhoda medzi vzorkou a populáciou. Napríklad, aby sa zabezpečila reprezentatívnosť podľa pohlavia, muži a ženy sú regrutovaní do vzorky v rovnakých pomeroch, aké existujú medzi Rusmi podľa údajov zo sčítania ľudu. Ale reprezentatívnosť podľa pohlavia neznamená reprezentatívnosť napríklad podľa politických názorov.

Prečo je potrebné porovnávať vzorku podľa pohlavia a iných sociodemografických kategórií? Pretože iba náhodná vzorka môže poskytnúť skutočnú reprezentatívnosť a z mnohých dôvodov je nemožné ju v praxi implementovať. Len čo sa o to pokúsite, narazíte na množstvo problémov – bez ohľadu na to, ktorú metódu sa rozhodnete použiť. Niektorí respondenti nebudú vašej metóde vôbec k dispozícii (napríklad pri osobných rozhovoroch sú veľkým problémom domy s interkomom a ochrankou), iná časť bude chýbať, neodpovedá, alebo sa radšej bude venovať svojej práci. Sú ľudia, ktorí majú jazykové problémy a nevedia sa s nami rozprávať. Sú ľudia, ktorí nechápu, prečo je to potrebné, a nechcú sa s nami rozprávať. To všetko sú vážne porušenia náhodnosti, ktoré znemožňujú jej realizáciu.

Tí, ktorí redukujú problém zastúpenia v masových prieskumoch na štatistiky, zabúdajú, že ľudia sú veľmi špecifické guľôčky. Existujú lopty, ktoré bežia a skrývajú sa. Sú loptičky, ktoré hryzú. Nie sú to pasívne objekty, údery vracajú. Hovoria: „Nechcem sa zúčastniť vášho prieskumu“, čím porušujú náhodnosť. Preto je reprezentatívnosť v masových prieskumoch v užšom zmysle slova samozrejme nemožná v akejkoľvek forme.

Bol vyvinutý mechanizmus, ktorým je zvyčajne zabezpečený vzhľad reprezentatívnosti: vzorku zarovnáme v niektorých kategóriách a tvárime sa, že je zarovnaná aj vo všetkých ostatných možných kategóriách. V skutočnosti nemáme dôvod to tvrdiť. Problém je však v tom, že sa to nedá nijako skontrolovať – opäť kvôli tomu, že niektoré loptičky hryzie. Aby skúšajúci skontroloval zaujatosť, musel by ísť za tými, s ktorými sme nevypočúvali, a vypočuť ich. Ale oni, ako si pamätáme, vôbec nechcú byť vypočúvaní. Nie je možné vypočúvať tých, ktorí kategoricky neodpovedajú. Preto každý pracuje s predpokladom, že ak by sme vzorku zarovnali na dvoch alebo troch parametroch, predstavuje celú populáciu, hoci pre tento predpoklad neexistuje seriózny základ.

Reprezentatívny výber je technológia, ktorú si sociológovia požičali zo štatistík. Preto nevyhnutne nesie prvky matematického a štatistického obrazu sveta. Asi najsilnejším predpokladom je, že samotné výberové zisťovanie je politicky a sociologicky neutrálne: účasť a neúčasť v prieskume nemá politický význam a nesúvisí s inými sociologicky dôležitými parametrami. Dnes sa však prieskumy verejnej mienky stali jednou z hlavných politických inštitúcií a stali sa kľúčovým sprostredkovateľom medzi veľkými korporáciami a spotrebiteľmi. Za týchto podmienok už nie je možné veriť v ich politickú sterilitu. Stále však vieme málo o tom, ako sa prieskumy v súčasných spoločnostiach chápu a čo vlastne predstavujú.

Jednou z hlavných súčastí dobre navrhnutej štúdie je definícia vzorky a toho, čo je reprezentatívna vzorka. Je to ako v príklade koláča. Nie je predsa potrebné zjesť celý dezert, aby ste pochopili jeho chuť? Stačí malá časť.

Takže torta je populácia (teda všetci respondenti, ktorí sa kvalifikujú do prieskumu). Môže byť vyjadrený územne, napríklad iba obyvatelia Moskovskej oblasti. Pohlavie - iba ženy. Alebo mať vekové obmedzenia – Rusi majú nad 65 rokov.

Je ťažké vypočítať počet obyvateľov: potrebujete mať údaje zo sčítania obyvateľstva alebo predbežných hodnotiacich prieskumov. Preto sa obyčajne všeobecná populácia „odhaduje“ a z výsledného čísla sa počíta vzorkovací rámec alebo vzorkovanie.

Čo je reprezentatívna vzorka?

Ukážka je presne definovaný počet respondentov. Jeho štruktúra by sa mala čo najviac zhodovať so štruktúrou bežnej populácie, pokiaľ ide o hlavné charakteristiky výberu.

Napríklad, ak potenciálnymi respondentmi je celá populácia Ruska, kde 54 % tvoria ženy a 46 % muži, potom by vzorka mala obsahovať presne rovnaké percento. Ak sa parametre zhodujú, vzorku možno nazvať reprezentatívnou. To znamená, že nepresnosti a chyby v štúdii sú minimalizované.

Veľkosť vzorky sa určuje s prihliadnutím na požiadavky na presnosť a hospodárnosť. Tieto požiadavky sú navzájom nepriamo úmerné: čím väčšia je veľkosť vzorky, tým presnejší je výsledok. Okrem toho, čím vyššia je presnosť, tým sú náklady na štúdiu potrebné. A naopak, čím menšia vzorka, tým menej nákladov, tým menej presne a náhodnejšie sa reprodukujú vlastnosti bežnej populácie.

Preto na výpočet množstva výberu sociológovia vynašli vzorec a vytvorili ho špeciálna kalkulačka:

Pravdepodobnosť spoľahlivosti a chyba dôvery

Čo znamenajú podmienky" úroveň sebavedomia" a " chyba dôvery"? Úroveň spoľahlivosti je mierou presnosti meraní. Chyba spoľahlivosti je možná chyba vo výsledkoch štúdie. Napríklad pri všeobecnej populácii viac ako 500 000 ľudí (napríklad žijúcich v Novokuznecku) bude vzorka 384 ľudí s úrovňou spoľahlivosti 95 % a chybou 5 % ALEBO (s intervalom spoľahlivosti 95 ± 5 %).

Čo z toho vyplýva? Pri vykonaní 100 štúdií s takouto vzorkou (384 ľudí) budú v 95 percentách prípadov prijaté odpovede podľa zákonov štatistiky v rozmedzí ± 5 % od originálu. A dostaneme reprezentatívnu vzorku s minimálnou pravdepodobnosťou štatistickej chyby.

Po vykonaní výpočtu veľkosti vzorky môžete v demo verzii panela dotazníka zistiť, či je dostatok respondentov. Môžete sa dozvedieť viac o tom, ako vykonať panelový prieskum.

Portál pre študenta. Sebatréning