Vzorka je reprezentatívna. Reprezentatívnosť - čo to je? Systematický náhodný odber vzoriek

V skutočnosti začneme nie jednou, ale tromi otázkami: čo je to vzorka? kedy je reprezentatívna? čo predstavuje?

Agregátne- je to akákoľvek skupina ľudí, organizácie, udalosti, ktoré nás zaujímajú, o ktorých chceme vyvodiť závery a deje, alebo predmet, - akýkoľvek prvok takejto zbierky.

Ukážka- akákoľvek podskupina súboru prípadov (objektov) vybraných na analýzu.

Ak by sme chceli študovať rozhodovaciu činnosť štátnych zákonodarcov, mohli by sme takúto činnosť skúmať v zákonodarných zboroch štátov Virgínia, Severná Karolína a Južná Karolína, a nie vo všetkých päťdesiatich štátoch, a na základe toho distribuovať dostali údaje o populácii, z ktorej boli tieto tri štáty vybrané. Ak chceme preskúmať systém preferencií voličov v Pensylvánii, mohli by sme tak urobiť rozhovorom s 50 americkými pracovníkmi. S. Steele v Pittsburghu a distribuovať výsledky prieskumu všetkým voličom v štáte.

Podobne Ak by sme chceli zmerať inteligenciu vysokoškolákov, mohli by sme otestovať všetkých defenzívnych hráčov registrovaných v štáte Ohio v danej futbalovej sezóne a následne výsledky rozšíriť na populáciu, ktorej sú súčasťou. V každom príklade postupujeme takto: vytvoríme podskupinu v rámci populácie, preštudujeme túto podskupinu alebo vzorku do určitej miery a rozšírime naše výsledky na celú populáciu. Toto sú hlavné fázy odberu vzoriek.

Avšak zdá sa Je celkom zrejmé, že každá z týchto vzoriek má významnú nevýhodu. Napríklad, hoci zákonodarné zbory Virgínie, Severnej Karolíny a Južnej Karolíny sú súčasťou konštelácie štátnych zákonodarných zborov, z historických, geografických a politických dôvodov pravdepodobne fungujú veľmi podobným spôsobom a veľmi odlišne od takýchto odlišných zákonodarných zborov. štáty ako New York, Nebraska a Aljaška. Aj keď päťdesiatich oceliarov v Pittsburghu môže byť skutočne voličmi v Pensylvánii, môžu mať na základe svojho sociálno-ekonomického postavenia, vzdelania a životných skúseností názory odlišné od názorov mnohých iných ľudí, ktorí sú voličmi rovnakým spôsobom.

Podobne, aj keď sú futbalisti z Ohio State vysokoškoláci, môžu sa z rôznych dôvodov líšiť od ostatných študentov. Inými slovami, hoci každá z týchto podskupín je skutočne vzorkou, členovia každej z nich sa systematicky líšia od väčšiny ostatných členov populácie, z ktorej sú vybraní. Ako samostatná skupina nie je žiadna z nich typická z hľadiska rozloženia znakov názorov, motívov správania a vlastností v bežnej populácii, s ktorou sa spája. Politológovia by teda povedali, že žiadna z týchto vzoriek nie je reprezentatívna.


Reprezentatívna vzorka- ide o takú vzorku, v ktorej sú všetky hlavné znaky všeobecnej populácie, z ktorej je daná vzorka odobratá, prezentované približne v rovnakom pomere alebo s rovnakou frekvenciou, s akou sa tento znak objavuje v tejto všeobecnej populácii. Ak teda 50 % všetkých zákonodarných zborov štátu zasadá len raz za dva roky, z reprezentatívnej vzorky štátnych zákonodarných zborov by mala byť približne polovica tohto typu. Ak 30 % voličov v Pensylvánii tvoria robotníci, asi 30 % reprezentatívnej vzorky týchto voličov (a nie 100 % ako v príklade vyššie) by mali byť robotníci.

A ak sú 2 % všetkých vysokoškolákov športovci, približne rovnaký podiel reprezentatívnej vzorky vysokoškolákov by mali tvoriť športovci. Inými slovami, reprezentatívna vzorka je mikrokozmos, menší, ale presný model populácie, ktorú má reprezentovať. V rozsahu, v akom je vzorka reprezentatívna, možno závery založené na štúdiu tejto vzorky bezpečne považovať za aplikovateľné na pôvodnú populáciu. Toto rozloženie výsledkov nazývame zovšeobecňovateľnosť.

Možno to pomôže objasniť grafická ilustrácia. Predpokladajme, že chceme študovať vzorce členstva v politických skupinách medzi dospelými v USA. Obrázok 5.1 zobrazuje tri kruhy rozdelené do šiestich rovnakých sektorov. Obrázok 5.1a predstavuje celú uvažovanú populáciu. Členovia populácie sú klasifikovaní podľa politických skupín (ako sú strany a záujmové skupiny), ku ktorým patria.

V tomto príklade každý dospelý je členom najmenej jednej a nie viac ako šiestich politických skupín; a týchto šesť úrovní členstva je v súhrne rovnako bežných (teda rovnaké sektory). Predpokladajme, že chceme preskúmať motívy ľudí pre vstup do skupiny, skupinový výber a vzorce participácie, ale kvôli obmedzeným zdrojom sme schopní preskúmať len jedného zo šiestich členov populácie. Kto by mal byť vybraný na analýzu?

Ryža. 5.1. Vytvorenie vzorky z bežnej populácie

Jedna z možných vzoriek danej veľkosti je znázornená tieňovanou oblasťou na obr. 5.1b však jednoznačne neodráža štruktúru obyvateľstva.

Ak by sme na základe tejto vzorky urobili zovšeobecnenia, dospeli by sme k záveru:

1) že všetci dospelí Američania patria do piatich politických skupín a

2) že celé skupinové správanie Američanov sa zhoduje so správaním tých, ktorí patria presne do týchto piatich skupín.

Vieme však, že prvý záver nie je pravdivý, a preto môžeme pochybovať o platnosti druhého.

Vzorka zobrazená na obrázku 5.1b teda nie je reprezentatívna, pretože neodráža rozdelenie danej vlastnosti populácie (často nazývanej parameter) podľa jej skutočného rozloženia. Takáto vzorka vraj je posunutý smerom kčlenovia piatich skupín resp sa posunul od všetky ostatné modely členstva v skupine. Na základe takéhoto neobjektívneho výberu vzoriek zvyčajne dospejeme k chybným záverom o populácii.

Najzreteľnejšie to možno demonštrovať na príklade katastrofy, ktorá postihla v 30. rokoch časopis Literary Digest, ktorý zorganizoval prieskum verejnej mienky o výsledkoch volieb. “ Literárny súhrn” bolo periodikum, ktoré pretláčalo úvodníky z novín a iné materiály odrážajúce verejnú mienku; tento časopis bol na začiatku storočia veľmi populárny.

Od roku 1920. Časopis uskutočnil rozsiahlu celoštátnu anketu, v ktorej viac ako miliónu ľudí poslali poštou hlasovacie lístky so žiadosťou, aby označili svojho preferovaného kandidáta pre nadchádzajúce prezidentské voľby. Niekoľko rokov boli výsledky prieskumov v časopise také presné, že septembrový prieskum akoby urobil novembrové voľby irelevantnými.

A ako mohlo dôjsť k chybe pri takej veľkej vzorke? V roku 1936 sa však stalo presne toto: s veľkou väčšinou hlasov (60:40) víťazstvo predpovedal republikánsky kandidát Alf Landon. Vo voľbách Landon prehral s postihnutou osobou - Franklin D. Roosevelt- prakticky s rovnakým výsledkom, s akým mal vyhrať. Dôveryhodnosť Literary Digest bola tak vážne podkopaná, že časopis čoskoro nato vyšiel z tlače. Čo sa stalo? Je to veľmi jednoduché: v prieskume Digest sa použila neobjektívna vzorka. Pohľadnice boli odoslané ľuďom, ktorých mená boli získané z dvoch zdrojov: telefónnych zoznamov a registračných zoznamov áut.

Aj keď sa tento spôsob výberu veľmi nelíšil od iných metód predtým, celkom iný bol teraz, počas Veľkej hospodárskej krízy v roku 1936, keď si menej bohatí voliči, Rooseveltova najpravdepodobnejšia opora, nemohli dovoliť telefón, nieto ešte auto. V skutočnosti bola vzorka použitá v prieskume Digest zaujatá voči tým, ktorí s najväčšou pravdepodobnosťou kandidovali za republikánov, a stále je prekvapujúce, že Roosevelt mal taký dobrý výsledok.

Ako tento problém vyriešiť? Vráťme sa k nášmu príkladu, porovnajme vzorku na obr. 5.1b s výberom na obr. 5.1c. V druhom prípade bola na analýzu vybratá aj šestina populácie, ale každý z hlavných typov populácie je vo vzorke zastúpený v pomere, v akom je zastúpený v celej populácii. Takáto vzorka ukazuje, že každý šiesty dospelý Američan patrí k jednej politickej skupine, každý šiesty až druhý atď. Takáto vzorka by odhalila aj ďalšie rozdiely medzi jej členmi, ktoré by mohli súvisieť s účasťou v rôznom počte skupín. Vzorka uvedená na obrázku 5.1c je teda reprezentatívnou vzorkou pre uvažovanú populáciu.

Samozrejme, tento príklad je zjednodušené minimálne z dvoch mimoriadne dôležitých hľadísk. Po prvé, väčšina populácií, ktoré zaujímajú politológov, je rôznorodejšia ako tá v príklade. Ľudia, dokumenty, vlády, organizácie, rozhodnutia atď. sa od seba líšia nie jednou, ale oveľa väčším počtom vlastností. Preto by reprezentatívna vzorka mala byť taká, každý jadra bolo zastúpené vyhranené územie v pomere k jeho podielu na obyvateľstve.

Po druhé, situácia, keď nie je vopred známa skutočná distribúcia premenných alebo charakteristík, ktoré chceme merať, je oveľa bežnejšia ako opačná – možno nebola meraná pri predchádzajúcom sčítaní obyvateľstva. Reprezentatívna vzorka teda musí byť navrhnutá tak, aby mohla presne odrážať existujúce rozdelenie aj vtedy, keď nemôžeme priamo posúdiť jej validitu. Postup odberu vzoriek musí mať vnútornú logiku schopnú presvedčiť nás, že ak by sme boli schopní porovnať vzorku so sčítaním, bolo by skutočne reprezentatívne.

Poskytnúť príležitosť presným odrazom komplexnej organizácie danej populácie a istou mierou istoty, že navrhované postupy to dokážu, sa výskumníci obracajú na štatistické metódy. Pritom pôsobia v dvoch smeroch. Po prvé, pomocou určitých pravidiel (vnútorná logika) sa výskumníci rozhodnú, ktoré konkrétne objekty študovať, čo presne zahrnúť do konkrétnej vzorky. Po druhé, pomocou veľmi odlišných pravidiel rozhodujú, koľko objektov vyberú. Tieto početné pravidlá nebudeme podrobne študovať, budeme sa zaoberať len ich úlohou v politologickom výskume. Začnime stratégiami výberu objektov, ktoré tvoria reprezentatívnu vzorku.

Konečným cieľom štúdia vzorky populácie je vždy získať informácie o populácii. Na to musí vzorová štúdia spĺňať určité podmienky. Jedna z hlavných podmienok reprezentatívnosť (reprezentatívnosť) vzorky. Ako už bolo uvedené, rozlišuje sa kvalitatívna a kvantitatívna reprezentatívnosť.

Náhodnosť, ktorá zaručuje kvalitatívnu (štrukturálnu) reprezentatívnosť štatistických štúdií, sa dosahuje splnením množstva podmienok na vytvorenie výberových skupín (súborov):

1. Každý člen populácie musí mať rovnakú pravdepodobnosť, že bude zahrnutý do vzorky.

2. Výber jednotiek pozorovania zo všeobecnej populácie sa musí vykonať bez ohľadu na študovaný znak. Ak sa výber uskutočňuje účelovo, potom je potrebné dodržať aj podmienky nezávislosti distribúcie skúmaného znaku.

3. Výber by sa mal vykonávať z homogénnych skupín.

Dodržiavanie podmienok, ktoré zaručujú maximálnu blízkosť vzorky a bežnej populácie, zabezpečujú špeciálne metódy výberu. V závislosti od spôsobu formovania sa rozlišujú tieto vzorky:

1. Vzorky, ktoré si nevyžadujú rozdelenie všeobecnej populácie na časti (v skutočnosti náhodný opakovaný alebo neopakovaný výber).

2. Vzorky, ktoré si vyžadujú rozdelenie všeobecnej populácie na časti (mechanické, typické alebo typologické vzorky, kohorta, vzorky s párovým konjugátom).

V skutočnosti sa náhodná vzorka tvorí náhodným výberom - náhodne. Náhodný výber je založený na miešaní. Napríklad: výber loptičky v športovom lotéri po zmiešaní všetkých loptičiek, výber výherných čísel v lotérii, náhodný výber kariet pacientov na výskum atď. Niekedy sa používajú náhodné čísla získané z tabuliek náhodných čísel alebo pomocou generátorov náhodných čísel. Podľa týchto čísel sa z vopred očíslovaného poľa bežnej populácie vyberú pozorovacie jednotky s číslami zodpovedajúcimi náhodným číslam, ktoré vypadli.

Pri zostavovaní náhodnej vzorky po výbere objektu a zaregistrovaní všetkých potrebných údajov o ňom môžete urobiť dve veci: objekt možno vrátiť alebo nevrátiť bežnej populácii. Čo sa týka tohto vzorka sa nazýva opakovaná(objekt sa vracia obyvateľom) príp neopakovateľné(objekt sa nevracia obyvateľom). Keďže vo väčšine štatistických štúdií nie je prakticky žiadny rozdiel medzi opakovanými a neopakovanými vzorkami, je a priori akceptovaná podmienka, že vzorka sa opakuje.

Odhad požadovanej veľkosti vzorky

Aby bola vzorka kvantitatívne reprezentatívna pre všeobecnú populáciu, je potrebné najskôr odhadnúť množstvo údajov, ktoré majú byť do vzorky zahrnuté.

S neznámou veľkosťou bežnej populácie množstvo prevzorkovania, ktoré zaručuje reprezentatívne výsledky, ak sa výsledok premietne do ukazovateľa ako relatívna hodnota (podiel), určené podľa vzorca:

kde p je hodnota ukazovateľa študovaného znaku v %; q = (100- p) ;

t je koeficient spoľahlivosti, ktorý ukazuje, aká je pravdepodobnosť, že veľkosť ukazovateľa neprekročí hranice hraničnej chyby (zvyčajne sa berie t = 2, čo poskytuje 95 % pravdepodobnosť bezchybnej predpovede);

 - hraničná chyba ukazovateľa.

Napríklad: jedným z ukazovateľov charakterizujúcich zdravotný stav pracovníkov v priemyselných podnikoch je percento pracovníkov, ktorí v roku neboli chorí. Predpokladajme, že za priemyselný sektor, do ktorého skúmaný podnik patrí, je tento ukazovateľ 25 %. Hraničná chyba, ktorá môže byť povolená, aby rozptyl hodnôt ukazovateľa neprekročil rozumné hranice, je 5 %. V tomto prípade môže indikátor nadobudnúť hodnoty 25% ± 5%, t.j. od 20 % do 30 %. Za predpokladu, že t = 2, dostaneme

V tom prípade, ak je ukazovateľ priemernou hodnotou, potom počet pozorovaní možno určiť podľa vzorca:

kde σ je smerodajná odchýlka, ktorú možno získať z predchádzajúcich štúdií alebo na základe skúšobných (pilotných) štúdií.

S opakovaným výberom a v podmienkach známej všeobecnej populácie na určenie požadovanej veľkosti náhodnej vzorky v prípade použitia relatívne hodnoty (podiely) použije sa vzorec:

pre priemerné hodnoty používa sa vzorec:

kde N je veľkosť bežnej populácie.

Na základe podmienok uvedeného príkladu a za predpokladu veľkosti bežnej populácie N=500 pracovníci, dostaneme:

Je ľahké vidieť, že požadovaná veľkosť vzorky pre neopakované odbery je menšia ako pre opakované odbery (v tomto poradí 188 a 300 pracovníkov).

Vo všeobecnosti sa počet pozorovaní potrebných na získanie reprezentatívnych údajov mení nepriamo úmerne so štvorcom povolenej chyby.

Mechanický odber vzoriek- odber vzoriek, keď sa jednotky pozorovania vyberajú mechanicky zo skúmanej populácie. Napríklad: výber každého piateho alebo každého desiateho pracovníka podľa kariet personálneho oddelenia podniku alebo podľa kariet ambulancie polikliniky lekárskej jednotky.

typické, typologické alebo pásmový odber vzoriek zahŕňa rozdelenie všeobecnej populácie na množstvo kvalitatívne homogénnych skupín. Napríklad: pri skúmaní výskytu vysokoškolákov na hĺbkové vyšetrenie v každom kurze sa vyberajú skupiny študentov, ktoré sú typické svojim zložením. Často sa táto metóda výberu kombinuje s inými metódami. Napríklad: územie mesta je rozdelené na typické oblasti v závislosti od stupňa znečistenia, v týchto oblastiach sa náhodným výberom vytvárajú pozorovacie skupiny.

výber kohorty odkazuje na cielený výber. Touto metódou sa z bežnej populácie vyberajú jednotlivci (distribúcia do podskupín nie je náhodná), ktorých spája moment objavenia sa akéhokoľvek znaku alebo skúmaného efektu, ktorý hrá významnú úlohu v štúdii (rok narodenia, začiatok choroby, užívanie lieku atď.).

Prípadová kontrolná štúdia(SC) je typ epidemiologickej štúdie, v ktorej sa porovnáva distribúcia rizikového faktora medzi skupinou pacientov s ochorením a kontrolnou skupinou. Štúdia (SC) odkazuje na retrospektívnu, keďže výskumník, ktorý rozdeľuje pacientov do skupín podľa toho, či majú alebo nemajú nejaké ochorenie, od nich zisťuje informácie z minulosti.

Samostatne by sme sa mali pozastaviť nad používaním metódy odberu vzoriek v sanitárnej štatistike pri skúmaní všeobecnej chorobnosti obyvateľstva. Teoretické východiská metódy odberu vzoriek boli testované v priebehu špeciálnych štúdií. Takže V.S. Bykhovsky a kol. v roku 1928 paralelne spracovali 132,8 tisíc kariet s údajmi o chorobách kontinuálnou metódou a metódou mechanického výberu každej piatej karty. Analýza výsledkov tohto spracovania ukázala vysokú reprezentatívnosť údajov zo selektívnej štúdie chorobnosti. Dodnes však neexistujú jednotné metodické prístupy k vykonávaniu selektívnych sanitárno-štatistických štúdií v širokej praxi.

Ukážková reprezentatívnosť

Názov parametra Význam
Predmet článku: Ukážková reprezentatívnosť
Rubrika (tematická kategória) Psychológia

Vzorové požiadavky

Na vzorku sa vzťahuje množstvo povinných požiadaviek, ktoré sú určené predovšetkým cieľmi a zámermi štúdie. Plánovanie experimentu by malo zahŕňať zohľadnenie veľkosti vzorky a množstva jej funkcií. V psychologickom výskume teda požiadavka homogénnosť vzorky. Znamená to, že psychológ, ktorý študuje napríklad dospievajúcich, nemôže zaradiť dospelých do jednej vzorky. Naopak, štúdia vykonaná metódou vekových škrtov v zásade predpokladá prítomnosť subjektov rôzneho veku. Zároveň by sa v tomto prípade mala dodržať homogenita vzorky, ale podľa iných kritérií, predovšetkým veku a pohlavia. Základom pre vytvorenie homogénnej vzorky môžu byť rôzne charakteristiky, ako je úroveň inteligencie, národnosť, absencia niektorých chorôb atď., Na základe cieľov štúdie.

Vo všeobecnej štatistike existuje pojem opakované a neopakovateľné výbery, alebo inými slovami výbery s návratom a bez návratu. Ako príklad sa spravidla uvádza výber lopty vybratej z nádoby. V prípade remízy s návratom sa každá vybraná loptička opäť vráti do nádoby, a preto sa musí vybrať znova. Pri neopakovateľnom výbere sa raz vybratá loptička odloží a už sa nemôže zúčastniť výberu. V psychologickom výskume možno nájsť analógy tohto druhu metód organizácie selektívneho výskumu, pretože psychológ musí často niekoľkokrát testovať rovnaké subjekty pomocou rovnakej metodológie. Zároveň sa v tomto prípade, prísne vzaté, postup testovania opakuje. Vzorka subjektov s úplnou identitou zloženia v prípade opakovaných štúdií bude mať vždy určité rozdiely v dôsledku funkčnej a vekovej variability, ktorá je vlastná všetkým ľuďom. Takáto selekcia podľa povahy postupu sa opakuje, aj keď význam tohto pojmu je tu zjavne iný ako v prípade loptičiek.

Je dôležité zdôrazniť, že všetky požiadavky na akúkoľvek vzorku sa scvrkávajú na skutočnosť, že na jej základe musí psychológ získať čo najkompletnejšie, neskreslené informácie o charakteristikách všeobecnej populácie, z ktorej je táto vzorka odobratá. Inými slovami, vzorka by mala čo najúplnejšie odrážať charakteristiky všeobecnej populácie, ktorá sa skúma.

Zloženie experimentálnej vzorky by malo reprezentovať (model) všeobecnú populáciu, keďže sa predpokladá, že závery získané v experimente sa v budúcnosti prenesú na celú všeobecnú populáciu. Z tohto dôvodu musí mať vzorka špeciálnu kvalitu - reprezentatívnosť, čo umožňuje rozšíriť závery o nej získané na celú všeobecnú populáciu.

Reprezentatívnosť vzorky je veľmi dôležitá, no z objektívnych príčin je mimoriadne náročné ju udržať. Je teda dobre známy fakt, že 70 % až 90 % všetkých psychologických štúdií ľudského správania sa v 60. rokoch 20. storočia uskutočnilo v USA s vysokoškolákmi, z ktorých väčšina boli študenti psychológie. V laboratórnych štúdiách vykonávaných na zvieratách sú najčastejším predmetom štúdie potkany. Z tohto dôvodu nie je náhoda, že psychológiu kedysi nazývali „veda o druhákoch a bielych potkanoch“. Vysokoškolskí študenti psychológie tvoria len 3 % celkovej populácie USA. Je zrejmé, že vzorka študentov nie je reprezentatívna ako model, ktorý tvrdí, že reprezentuje celú populáciu krajiny.

Reprezentatívny vzorka, alebo, ako sa hovorí, reprezentatívny vzorka je taká vzorka, v ktorej sú všetky hlavné znaky bežnej populácie zastúpené približne v rovnakom pomere a s rovnakou frekvenciou, s akou sa tento znak objavuje v tejto všeobecnej populácii. Inými slovami, reprezentatívna vzorka je menší, ale presný model populácie, ktorú má reprezentovať. V rozsahu, v akom je vzorka reprezentatívna, možno závery založené na štúdiu tejto vzorky považovať s vysokou mierou istoty za použiteľné pre celú populáciu. Toto šírenie výsledkov sa nazýva zovšeobecniteľnosť.

V ideálnom prípade by reprezentatívna vzorka mala byť taká, že každá zo základných charakteristík skúmaných psychológom, črty, osobnostné črty atď. by v nej boli zastúpené v pomere k rovnakým znakom v bežnej populácii. Podľa týchto požiadaviek musí mať postup odberu vzoriek vnútornú logiku, ktorá dokáže výskumníka presvedčiť, že v porovnaní s bežnou populáciou sa skutočne ukáže ako reprezentatívny, reprezentatívny.

Psychológ vo svojej špecifickej činnosti postupuje nasledovne: v rámci bežnej populácie založí podskupinu (vzorku), túto vzorku podrobne preštuduje (vykonáva s ňou experimentálne práce) a potom, ak to výsledky štatistickej analýzy dovolia, rozširuje zistenia pre celú populáciu. Toto sú hlavné etapy práce psychológa so vzorkou.

Začínajúci psychológ musí mať na pamäti často sa opakujúcu chybu: zakaždým, keď zbiera akékoľvek údaje akoukoľvek metódou a z akéhokoľvek zdroja, je vždy v pokušení rozšíriť svoje závery na celú populáciu. Aby sa človek takejto chybe vyhol, musí mať nielen zdravý rozum, ale predovšetkým dobre ovládať základné pojmy matematickej štatistiky.

Ukážková reprezentatívnosť - koncept a typy. Klasifikácia a vlastnosti kategórie „Reprezentatívnosť vzorky“ 2017, 2018.

Koncept reprezentatívnosti sa často vyskytuje v štatistických výkazoch a pri príprave prejavov a správ. Možno je bez nej ťažké predstaviť si akýkoľvek typ prezentácie informácií na preskúmanie.

Reprezentatívnosť - čo to je?

Reprezentatívnosť vyjadruje, ako vybrané objekty alebo časti zodpovedajú obsahu a významu súboru údajov, z ktorého boli vybrané.

Iné definície

Koncept reprezentatívnosti sa môže rozvíjať v rôznych kontextoch. Ale vo svojom zmysle reprezentatívnosť je zhoda znakov a vlastností vybraných jednotiek zo všeobecnej populácie, ktoré presne odrážajú charakteristiky celej všeobecnej databázy ako celku.

Taktiež reprezentatívnosť informácií je definovaná ako schopnosť vzorových údajov reprezentovať parametre a vlastnosti populácie, ktoré sú dôležité z pohľadu prebiehajúcej štúdie.

Reprezentatívna vzorka

Princípom vzorkovania je vybrať to najdôležitejšie a presne odrážať vlastnosti celkového súboru údajov. Na tento účel sa používajú rôzne metódy, ktoré umožňujú získať presné výsledky a všeobecnú predstavu o použití iba selektívnych materiálov, ktoré popisujú kvalitu všetkých údajov.

Nie je teda potrebné študovať celý materiál, ale stačí zvážiť reprezentatívnosť vzorky. Čo je to? Ide o výber jednotlivých údajov, aby ste mali predstavu o celkovom množstve informácií.

V závislosti od metódy sa rozlišujú na pravdepodobnostné a nepravdepodobné. Pravdepodobnostná je vzorka, ktorá vzniká výpočtom najdôležitejších a najzaujímavejších údajov, ktoré sú ďalšími reprezentantmi bežnej populácie. Ide o úmyselný výber alebo náhodný výber, ktorý je však odôvodnený svojim obsahom.

Neuveriteľné - toto je jedna z odrôd náhodného výberu vzoriek, zostavená podľa princípu bežnej lotérie. V tomto prípade sa neberie do úvahy názor toho, kto takúto vzorku tvorí. Používa sa len slepý pozemok.

Vzorkovanie pravdepodobnosti

Vzorky pravdepodobnosti možno tiež rozdeliť do niekoľkých typov:

  • Jedným z najjednoduchších a najzrozumiteľnejších princípov je nereprezentatívne vzorkovanie. Táto metóda sa často používa napríklad v sociálnych prieskumoch. Účastníci prieskumu sa zároveň nevyberajú z davu na základe žiadneho konkrétneho dôvodu a informácie sa získavajú od prvých 50 ľudí, ktorí sa ho zúčastnili.
  • Zámerné vzorky sa líšia tým, že majú množstvo požiadaviek a podmienok pri výbere, no stále sa spoliehajú na náhodnú zhodu, nesledujúcu cieľ dosiahnuť dobré štatistiky.
  • Vzorkovanie založené na kvótach je ďalšou variáciou nepravdepodobnostného vzorkovania, ktoré sa často používa na skúmanie veľkých súborov údajov. Používa veľa zmluvných podmienok. Vyberú sa objekty, ktoré by im mali zodpovedať. To znamená, že na príklade sociálneho prieskumu možno predpokladať, že opýtaných bude 100 ľudí, ale pri zostavovaní štatistického výkazu sa bude brať do úvahy len názor určitého počtu ľudí, ktorí spĺňajú stanovené požiadavky.

Vzorky pravdepodobnosti

Pre pravdepodobnostné vzorky sa počíta množstvo parametrov, ktorým budú objekty vo vzorke zodpovedať, a spomedzi nich možno rôznymi spôsobmi vybrať práve tie fakty a údaje, ktoré budú prezentované ako reprezentatívnosť údajov vzorky. Takéto spôsoby výpočtu potrebných údajov môžu byť:

  • Jednoduchá náhodná vzorka. Spočíva v tom, že spomedzi vybraných segmentov sa úplne náhodnou lotériovou metódou vyberie požadované množstvo údajov, ktoré budú reprezentatívnou vzorkou.
  • Systematický a náhodný výber vzoriek umožňuje zostaviť systém na výpočet potrebných údajov na základe náhodne vybraného segmentu. Ak je teda prvé náhodné číslo, ktoré udáva poradové číslo dát vybraných z celkovej populácie, 5, potom nasledujúce dáta, ktoré sa majú vybrať, môžu byť napríklad 15, 25, 35 atď. Tento príklad jasne vysvetľuje, že aj náhodný výber môže byť založený na systematických výpočtoch potrebných vstupných údajov.

Ukážka spotrebiteľov

Zámerný výber je metóda, ktorá spočíva v zvážení každého jednotlivého segmentu a na základe jeho hodnotenia sa zostaví populácia, ktorá odráža charakteristiky a vlastnosti celkovej databázy. Týmto spôsobom sa zhromaždí viac údajov, ktoré spĺňajú požiadavky reprezentatívnej vzorky. Je jednoduché vybrať množstvo možností, ktoré nebudú zahrnuté do celkového počtu, bez straty kvality vybraných údajov reprezentujúcich celkovú populáciu. Týmto spôsobom sa určuje reprezentatívnosť výsledkov štúdie.

Veľkosť vzorky

Nie posledným problémom, ktorý treba riešiť, je veľkosť vzorky pre reprezentatívne zastúpenie populácie. Veľkosť vzorky nie vždy závisí od počtu zdrojov vo všeobecnej populácii. Reprezentatívnosť vzorky populácie však priamo závisí od toho, na koľko segmentov by mal byť výsledok rozdelený. Čím viac takýchto segmentov, tým viac údajov sa dostane do výslednej vzorky. Ak výsledky vyžadujú všeobecnú notáciu a nevyžadujú špecifiká, potom sa vzorka zmenšuje, pretože bez toho, aby sme zachádzali do podrobností, sú informácie prezentované povrchnejšie, čo znamená, že ich čítanie bude všeobecné.

Koncept chyby reprezentatívnosti

Chyba reprezentatívnosti je špecifický nesúlad medzi charakteristikami populácie a vzorovými údajmi. Pri vykonávaní akejkoľvek vzorovej štúdie nie je možné získať absolútne presné údaje, ako pri kompletnej štúdii všeobecných populácií a vzorke poskytnutej len s časťou informácií a parametrov, zatiaľ čo podrobnejšia štúdia je možná len pri štúdiu celej populácie. Niektoré chyby a chyby sú teda nevyhnutné.

Typy chýb

Pri zostavovaní reprezentatívnej vzorky sa vyskytujú niektoré chyby:

  • Systematický.
  • Náhodný.
  • Úmyselne.
  • Neúmyselné.
  • Štandardné.
  • Limit.

Príčinou výskytu náhodných chýb môže byť nesúvislý charakter štúdie bežnej populácie. Náhodná chyba reprezentatívnosti má zvyčajne zanedbateľnú veľkosť a povahu.

Systematické chyby medzitým vznikajú, keď sa porušia pravidlá výberu údajov z celkovej populácie.

Stredná chyba je rozdiel medzi priemerom vzorky a základnou populáciou. Nezáleží na počte jednotiek vo vzorke. Je nepriamo úmerná.Potom čím väčší objem, tým menšia hodnota priemernej chyby.

Hraničná chyba je najväčší možný rozdiel medzi priemernými hodnotami vykonanej vzorky a celkovou populáciou. Takáto chyba je charakterizovaná ako maximum pravdepodobných chýb za daných podmienok ich vzniku.

Úmyselné a neúmyselné chyby reprezentatívnosti

Chyby posunu údajov môžu byť úmyselné alebo neúmyselné.

Príčinou výskytu úmyselných chýb je potom prístup k výberu údajov metódou určovania trendov. K neúmyselným chybám dochádza už v štádiu prípravy výberového pozorovania, ktoré tvorí reprezentatívnu vzorku. Aby sa predišlo takýmto chybám, je potrebné vytvoriť dobrý rámec vzorkovania na zoznam jednotiek vzorkovania. Musí plne vyhovovať cieľom odberu vzoriek, byť spoľahlivý a pokrývať všetky aspekty štúdie.

Platnosť, spoľahlivosť, reprezentatívnosť. Výpočet chýb

Výpočet chyby reprezentatívnosti (Mm) aritmetického priemeru (M).

Smerodajná odchýlka: veľkosť vzorky (>30).

Reprezentatívna chyba (Mr) a (R): veľkosť vzorky (n>30).

V prípade, že musíte študovať populáciu, kde je počet vzoriek malý a je menší ako 30 jednotiek, potom sa počet pozorovaní zníži o jednu jednotku.

Veľkosť chyby je priamo úmerná veľkosti vzorky. Reprezentatívnosť informácií a výpočet miery možnosti presnej prognózy odráža určitú hraničnú chybu.

Reprezentačné systémy

V procese hodnotenia prezentácie informácií sa používa nielen reprezentatívna vzorka, ale aj samotný prijímateľ informácií využíva reprezentatívne systémy. Mozog teda niektoré spracuje tak, že z celého toku informácií vytvorí reprezentatívnu vzorku, aby kvalitatívne a rýchlo vyhodnotil zaslané dáta a pochopil podstatu problematiky. Odpovedzte na otázku: "Reprezentatívnosť - čo to je?" - na stupnici ľudského vedomia je celkom jednoduché. Na to mozog využíva všetky subjekty v závislosti od toho, aký druh informácií je potrebné izolovať od všeobecného toku. Rozlišujú teda:

  • Vizuálny reprezentačný systém, kde sú zapojené orgány zrakového vnímania oka. Ľudia, ktorí často používajú takýto systém, sa nazývajú vizuáli. Pomocou tohto systému človek spracováva informácie prichádzajúce vo forme obrázkov.
  • sluchový reprezentačný systém. Hlavným orgánom, ktorý sa používa, je sluch. Informácie dodávané vo forme zvukových súborov alebo reči spracováva tento konkrétny systém. Ľudia, ktorí lepšie vnímajú informácie sluchom, sa nazývajú sluchoví.
  • Kinestetický reprezentačný systém je spracovanie toku informácií vnímaním cez čuchové a hmatové kanály.
  • Digitálny reprezentačný systém sa používa spolu s inými ako prostriedok na získavanie informácií zvonku. vnímanie a pochopenie prijatých údajov.

Takže reprezentatívnosť - čo to je? Jednoduchý výber z množstva alebo ucelený postup pri spracovaní informácií? S určitosťou môžeme povedať, že reprezentatívnosť do značnej miery určuje naše vnímanie dátových tokov a pomáha z nich izolovať tie najvýznamnejšie a najvýznamnejšie.

Populácia- súbor jednotiek, ktoré majú hromadný charakter, typickosť, kvalitatívnu jednotnosť a prítomnosť variácie.

Štatistický súbor pozostáva z vecne existujúcich objektov (zamestnanci, podniky, krajiny, regióny), je objektom.

Populačná jednotka- každá konkrétna jednotka štatistickej populácie.

Jedna a tá istá štatistická populácia môže byť homogénna v jednom znaku a heterogénna v druhom.

Kvalitatívna uniformita- podobnosť všetkých jednotiek populácie pre akúkoľvek vlastnosť a nepodobnosť pre všetky ostatné.

V štatistickej populácii sú rozdiely medzi jednou a druhou jednotkou populácie častejšie kvantitatívneho charakteru. Kvantitatívne zmeny v hodnotách atribútu rôznych jednotiek populácie sa nazývajú variácie.

Variácia funkcií- kvantitatívna zmena znaku (pre kvantitatívny znak) pri prechode z jednej jednotky populácie do druhej.

znamenie- ide o vlastnosť, charakteristiku alebo inú vlastnosť jednotiek, predmetov a javov, ktorú možno pozorovať alebo merať. Znaky sa delia na kvantitatívne a kvalitatívne. Rôznorodosť a variabilita hodnoty znaku v jednotlivých jednotkách populácie je tzv variácia.

Atributívne (kvalitatívne) znaky nie sú kvantifikovateľné (zloženie populácie podľa pohlavia). Kvantitatívne charakteristiky majú číselné vyjadrenie (zloženie obyvateľstva podľa veku).

Indikátor- ide o zovšeobecňujúcu kvantitatívnu a kvalitatívnu charakteristiku akejkoľvek vlastnosti jednotiek alebo agregátov na daný účel v konkrétnych časových a miestnych podmienkach.

Scorecard je súbor ukazovateľov, ktoré komplexne odrážajú skúmaný jav.

Zvážte napríklad plat:
  • Znamenie - mzdy
  • Štatistická populácia - všetci zamestnanci
  • Jednotkou populácie je každý robotník
  • Kvalitatívna homogenita - časovo rozlíšená mzda
  • Variácia funkcie - séria čísel

Všeobecná populácia a vzorka z nej

Základom je súbor údajov získaných ako výsledok merania jedného alebo viacerých znakov. Skutočne pozorovaný súbor objektov, štatisticky reprezentovaný sériou pozorovaní náhodnej premennej, je vzorkovanie a hypoteticky existujúce (premyslené) - všeobecná populácia. Všeobecná populácia môže byť konečná (počet pozorovaní N = konšt) alebo nekonečný ( N = ∞) a vzorka bežnej populácie je vždy výsledkom obmedzeného počtu pozorovaní. Počet pozorovaní, ktoré tvoria vzorku, sa nazývajú veľkosť vzorky. Ak je veľkosť vzorky dostatočne veľká n→∞) vzorka sa berie do úvahy veľký, inak sa nazýva vzorka obmedzený objem. Vzorka sa zvažuje malý, ak pri meraní jednorozmernej náhodnej veličiny veľkosť vzorky nepresiahne 30 ( n<= 30 ), a pri súčasnom meraní niekoľkých ( k) rysy vo vzťahu viacrozmerného priestoru n do k menej ako 10 (n/k< 10) . Vzorové formuláre variačná séria ak sú jej členmi štatistiky objednávok t.j. vzorové hodnoty náhodnej premennej X sú zoradené vzostupne (zoradené), volajú sa hodnoty atribútu možnosti.

Príklad. Takmer rovnaký náhodne vybraný súbor objektov - komerčné banky jedného administratívneho obvodu Moskvy, možno považovať za vzorku zo všeobecnej populácie všetkých komerčných bánk v tomto okrese a za vzorku zo všeobecnej populácie všetkých komerčných bánk v Moskve. , ako aj vzorka komerčných bánk v krajine a pod.

Základné metódy odberu vzoriek

Spoľahlivosť štatistických záverov a zmysluplná interpretácia výsledkov závisí od reprezentatívnosť vzorky, t.j. úplnosť a primeranosť prezentácie vlastností bežnej populácie, vo vzťahu ku ktorej možno túto vzorku považovať za reprezentatívnu. Štúdium štatistických vlastností populácie možno organizovať dvoma spôsobmi: pomocou nepretržitý a diskontinuálne. Nepretržité pozorovanie zahŕňa vyšetrenie všetkých Jednotkyštudoval agregátov, a nekontinuálne (selektívne) pozorovanie- len jeho časti.

Existuje päť hlavných spôsobov, ako organizovať odber vzoriek:

1. jednoduchý náhodný výber, v ktorom sú objekty náhodne extrahované zo všeobecnej populácie objektov (napríklad pomocou tabuľky alebo generátora náhodných čísel) a každá z možných vzoriek má rovnakú pravdepodobnosť. Takéto vzorky sú tzv vlastne náhodné;

2. jednoduchý výber prostredníctvom bežného postupu sa vykonáva pomocou mechanického komponentu (napríklad dátumy, dni v týždni, čísla bytov, písmená abecedy a pod.) a takto získané vzorky sú tzv. mechanický;

3. stratifikované selekcia spočíva v tom, že všeobecná populácia objemu je rozdelená na podmnožiny alebo vrstvy (vrstvy) objemu tak, že . Vrstvy sú homogénne objekty z hľadiska štatistických charakteristík (napríklad obyvateľstvo je rozdelené do vrstiev podľa vekovej skupiny alebo sociálnej vrstvy; podniky podľa odvetvia). V tomto prípade sú vzorky tzv stratifikované(inak, stratifikovaný, typický, zónový);

4. metódy sériový výber sa používa na formovanie sériový alebo vnorené vzorky. Sú vhodné, ak je potrebné preskúmať „blok“ alebo sériu predmetov naraz (napríklad zásielku tovaru, výrobky určitej série alebo obyvateľstvo v územno-správnom členení krajiny). Výber sérií môže byť vykonaný náhodným alebo mechanickým spôsobom. Súčasne sa vykonáva priebežné zisťovanie určitej šarže tovaru, prípadne celého územného celku (bytový dom alebo štvrť);

5. kombinované(stupňovitý) výber môže kombinovať niekoľko metód výberu naraz (napríklad stratifikovaný a náhodný alebo náhodný a mechanický); takáto vzorka sa nazýva kombinované.

Typy výberu

Autor: myseľ existuje individuálny, skupinový a kombinovaný výber. o individuálny výber vo výberovom súbore sú vybrané jednotlivé jednotky bežnej populácie, s skupinový výber sú kvalitatívne homogénne skupiny (rady) jednotiek, a kombinovaný výber zahŕňa kombináciu prvého a druhého typu.

Autor: metóda výber rozlišovať opakované a neopakujúce sa vzorka.

Neopakovateľné nazývaný výber, pri ktorom sa jednotka, ktorá spadla do vzorky, nevracia do pôvodnej populácie a nezúčastňuje sa ďalšieho výberu; kým počet jednotiek bežnej populácie N počas výberového procesu. o opakované výber chytený vo vzorke sa jednotka po registrácii vráti bežnej populácii, a tak si spolu s ostatnými jednotkami zachováva rovnakú príležitosť na použitie v ďalšom výberovom konaní; kým počet jednotiek bežnej populácie N zostáva nezmenená (metóda sa v socioekonomických štúdiách používa zriedka). Avšak s veľkým N (N → ∞) vzorce pre neopakovane výber sa blíži k tým pre opakované výber a druhé sa používajú takmer častejšie ( N = konšt).

Hlavné charakteristiky parametrov všeobecnej a výberovej populácie

Základom štatistických záverov štúdie je rozdelenie náhodnej premennej, pričom pozorované hodnoty (x 1, x 2, ..., x n) sa nazývajú realizácie náhodnej premennej X(n je veľkosť vzorky). Distribúcia náhodnej premennej vo všeobecnej populácii je teoretická, má ideálnu povahu a jej vzorový analóg je empirický distribúcia. Niektoré teoretické rozdelenia sú uvedené analyticky, t.j. ich možnosti určiť hodnotu distribučnej funkcie v každom bode v priestore možných hodnôt náhodnej premennej. Pre vzorku je preto ťažké a niekedy nemožné určiť distribučnú funkciu možnosti sú odhadnuté z empirických údajov a potom sú dosadené do analytického výrazu popisujúceho teoretické rozdelenie. V tomto prípade je predpoklad (resp hypotéza) o type rozdelenia môžu byť štatisticky správne aj chybné. Ale v každom prípade empirická distribúcia rekonštruovaná zo vzorky len zhruba charakterizuje to pravé. Najdôležitejšie distribučné parametre sú očakávaná hodnota a rozptyl.

Distribúcie sú zo svojej podstaty nepretržitý a diskrétne. Najznámejšie spojité rozdelenie je normálne. Selektívne analógy parametrov a pre ne sú: stredná hodnota a empirický rozptyl. Medzi diskrétne v sociálno-ekonomických štúdiách, najčastejšie používané alternatívny (dichotomický) distribúcia. Parameter očakávania tohto rozdelenia vyjadruje relatívnu hodnotu (resp zdieľam) jednotky populácie, ktoré majú skúmanú charakteristiku (označuje sa písmenom ); časť populácie, ktorá túto vlastnosť nemá, je označená písmenom q (q = 1 – p). Rozptyl alternatívneho rozdelenia má tiež empirický analóg.

V závislosti od typu distribúcie a od spôsobu výberu jednotiek populácie sa charakteristiky distribučných parametrov vypočítavajú rôzne. Hlavné pre teoretické a empirické rozdelenia sú uvedené v tabuľke. 9.1.

Vzorový podiel k n je pomer počtu jednotiek výberovej populácie k počtu jednotiek všeobecnej populácie:

kn = n/N.

Vzorový podiel w je pomer jednotiek, ktoré majú skúmanú vlastnosť X na veľkosť vzorky n:

w = n n / n.

Príklad. V dávke tovaru obsahujúcej 1000 jednotiek s 5% vzorkou frakcia vzorky k n v absolútnej hodnote je 50 jednotiek. (n = N*0,05); ak sa v tejto vzorke nájdu 2 chybné výrobky, potom frakcia vzorky w bude 0,04 (w = 2/50 = 0,04 alebo 4 %).

Keďže vzorová populácia je odlišná od bežnej populácie, existujú vzorkovacie chyby.

Tabuľka 9.1 Hlavné parametre všeobecnej a výberovej populácie

Chyby pri odbere vzoriek

Pri akýchkoľvek (pevných a selektívnych) sa môžu vyskytnúť chyby dvoch typov: registrácia a reprezentatívnosť. Chyby registrácia môže mať náhodný a systematický charakter. Náhodný chyby sú tvorené mnohými rôznymi nekontrolovateľnými príčinami, sú svojou povahou neúmyselné a zvyčajne sa vzájomne vyrovnávajú v kombinácii (napríklad zmeny údajov prístrojov v dôsledku kolísania teploty v miestnosti).

Systematický chyby sú neobjektívne, pretože porušujú pravidlá výberu objektov vo vzorke (napríklad odchýlky v meraniach pri zmene nastavení meracieho zariadenia).

Príklad. Na posúdenie sociálneho postavenia obyvateľstva v meste sa plánuje vyšetrenie 25 % rodín. Ak by sa však pri výbere každého štvrtého bytu vychádzalo z jeho čísla, hrozí nebezpečenstvo výberu všetkých bytov len jedného typu (napr. jednoizbových), čo spôsobí systematickú chybu a skreslí výsledky; uprednostňuje sa výber čísla bytu žrebom, pretože chyba bude náhodná.

Chyby v reprezentatívnosti Sú vlastné iba selektívnemu pozorovaniu, nemožno sa im vyhnúť a vznikajú v dôsledku skutočnosti, že vzorka úplne nereprodukuje všeobecnú. Hodnoty ukazovateľov získané zo vzorky sa líšia od ukazovateľov rovnakých hodnôt vo všeobecnej populácii (alebo získaných počas nepretržitého pozorovania).

Chyba pri odbere vzoriek je rozdiel medzi hodnotou parametra v bežnej populácii a jeho vzorovou hodnotou. Pre priemernú hodnotu kvantitatívneho atribútu sa rovná: , a pre podiel (alternatívny atribút) - .

Výberové chyby sú vlastné iba pozorovaniam vzoriek. Čím väčšie sú tieto chyby, tým viac sa empirické rozdelenie líši od teoretického. Parametre empirického rozdelenia a sú náhodné premenné, preto sú výberové chyby tiež náhodnými premennými, môžu nadobúdať rôzne hodnoty pre rôzne vzorky, a preto je zvykom počítať priemerná chyba.

Priemerná vzorkovacia chyba je hodnota vyjadrujúca štandardnú odchýlku výberového priemeru od matematického očakávania. Táto hodnota, podliehajúca princípu náhodného výberu, závisí predovšetkým od veľkosti vzorky a od stupňa variácie vlastnosti: čím väčšia a menšia variácia vlastnosti (teda hodnota ), tým menšia je hodnota priemerná vzorkovacia chyba. Pomer medzi rozptylmi všeobecnej a výberovej populácie je vyjadrený vzorcom:

tie. pre dostatočne veľké, môžeme predpokladať, že . Priemerná výberová chyba ukazuje možné odchýlky parametra výberovej populácie od parametra bežnej populácie. V tabuľke. 9.2 ukazuje výrazy na výpočet priemernej výberovej chyby pre rôzne metódy organizácie pozorovania.

Tabuľka 9.2 Stredná chyba (m) priemeru vzorky a podielu pre rôzne typy vzoriek

Kde je priemer rozptylov vnútroskupinovej vzorky pre spojitý znak;

Priemer vnútroskupinových rozptylov podielu;

— počet vybraných sérií, — celkový počet sérií;

,

kde je priemer tého radu;

- všeobecný priemer za celú vzorku pre spojitý prvok;

,

kde je podiel znaku v tej sérii;

— celkový podiel znaku na celej vzorke.

Veľkosť priemernej chyby však možno posúdiť len s určitou pravdepodobnosťou Р (Р ≤ 1). Ljapunov A.M. dokázali, že rozdelenie výberových priemerov, a teda ich odchýlky od všeobecného priemeru, s dostatočne veľkým počtom, sa približne riadia zákonom normálneho rozdelenia za predpokladu, že všeobecná populácia má konečný priemer a obmedzený rozptyl.

Matematicky je toto vyjadrenie priemeru vyjadrené ako:

a pre zlomok bude mať výraz (1) tvar:

kde - existuje hraničná výberová chyba, čo je násobok priemernej výberovej chyby , a multiplicitný faktor je Studentovo kritérium ("faktor spoľahlivosti"), navrhnuté W.S. Gosset (pseudonym "Študent"); hodnoty pre rôzne veľkosti vzoriek sú uložené v špeciálnej tabuľke.

Hodnoty funkcie Ф(t) pre niektoré hodnoty t sú:

Preto výraz (3) možno čítať takto: s pravdepodobnosťou P = 0,683 (68,3 %) možno tvrdiť, že rozdiel medzi vzorkou a všeobecným priemerom nepresiahne jednu hodnotu strednej chyby m(t=1), s pravdepodobnosťou P = 0,954 (95,4 %)— že nepresahuje hodnotu dvoch stredných chýb m (t = 2), s pravdepodobnosťou P = 0,997 (99,7 %)- nepresiahne tri hodnoty m (t = 3). Určuje teda pravdepodobnosť, že tento rozdiel prekročí trojnásobok hodnoty strednej chyby chybovosť a nie je viac ako 0,3% .

V tabuľke. 9.3 sú uvedené vzorce na výpočet medznej výberovej chyby.

Tabuľka 9.3 Hraničná výberová chyba (D) pre priemer a podiel (p) pre rôzne typy vzorkovania

Rozšírenie výsledkov vzorky na populáciu

Konečným cieľom pozorovania vzorky je charakterizovať všeobecnú populáciu. Pri malých veľkostiach vzoriek sa empirické odhady parametrov ( a ) môžu výrazne líšiť od ich skutočných hodnôt ( a ). Preto je potrebné stanoviť hranice, v ktorých ležia skutočné hodnoty ( a ) pre vzorové hodnoty parametrov ( a ).

Interval spoľahlivosti niektorého parametra θ bežnej populácie sa nazýva náhodný rozsah hodnôt tohto parametra, ktorý s pravdepodobnosťou blízkou 1 ( spoľahlivosť) obsahuje skutočnú hodnotu tohto parametra.

hraničná chyba vzorky Δ umožňuje určiť limitné hodnoty charakteristík bežnej populácie a ich intervaly spoľahlivosti, ktoré sa rovnajú:

Spodná čiara interval spoľahlivosti získané odčítaním hraničná chyba z priemeru vzorky (podiel) a najvyššieho pridaním.

Interval spoľahlivosti pre priemer sa používa hraničná výberová chyba a pre danú úroveň spoľahlivosti sa určuje podľa vzorca:

To znamená, že s danou pravdepodobnosťou R, ktorá sa nazýva úroveň spoľahlivosti a je jednoznačne určená hodnotou t, možno tvrdiť, že skutočná hodnota priemeru leží v rozmedzí od , pričom skutočná hodnota podielu je v rozmedzí od

Pri výpočte intervalu spoľahlivosti pre tri štandardné úrovne spoľahlivosti P = 95 %, P = 99 % a P = 99,9 % hodnotu vyberá . Aplikácie v závislosti od počtu stupňov voľnosti. Ak je veľkosť vzorky dostatočne veľká, potom hodnoty zodpovedajú týmto pravdepodobnostiam t sú si rovné: 1,96, 2,58 a 3,29 . Hraničná výberová chyba nám teda umožňuje určiť hraničné hodnoty charakteristík všeobecnej populácie a ich intervaly spoľahlivosti:

Distribúcia výsledkov selektívneho pozorovania medzi všeobecnú populáciu v socioekonomických štúdiách má svoje vlastné charakteristiky, pretože si vyžaduje úplnosť reprezentatívnosti všetkých jej typov a skupín. Základom pre možnosť takéhoto rozdelenia je výpočet relatívna chyba:

kde Δ % - relatívna hraničná výberová chyba; , .

Existujú dva hlavné spôsoby rozšírenia pozorovania vzorky na populáciu: priamy prepočet a metóda koeficientov.

Esencia priama konverzia je vynásobiť priemer vzorky!!\overline(x) veľkosťou populácie .

Príklad. Priemerný počet batoliat v meste nech sa odhadne metódou odberu vzoriek na osobu. Ak je v meste 1000 mladých rodín, tak potrebný počet miest v obecných jasliach získame vynásobením tohto priemeru veľkosťou bežnej populácie N = 1000, t.j. bude 1200 miest na sedenie.

Metóda koeficientov je vhodné použiť v prípade, keď sa vykonáva selektívne pozorovanie, aby sa objasnili údaje kontinuálneho pozorovania.

Pritom sa používa vzorec:

kde všetky premenné sú veľkosť populácie:

Požadovaná veľkosť vzorky

Tabuľka 9.4 Požadovaná veľkosť vzorky (n) pre rôzne typy organizácie odberu vzoriek

Pri plánovaní výberového prieskumu s vopred stanovenou hodnotou prípustnej výberovej chyby je potrebné správne odhadnúť požadovanú veľkosť vzorky. Toto množstvo možno určiť na základe prípustnej chyby počas selektívneho pozorovania na základe danej pravdepodobnosti, ktorá zaručuje prijateľnú úroveň chyby (berúc do úvahy spôsob organizácie pozorovania). Vzorce na určenie požadovanej veľkosti vzorky n možno jednoducho získať priamo zo vzorcov pre hraničnú výberovú chybu. Takže z výrazu pre okrajovú chybu:

veľkosť vzorky je určená priamo n:

Tento vzorec ukazuje, že s klesajúcou marginálnou chybou výberu Δ výrazne zvyšuje požadovanú veľkosť vzorky, ktorá je úmerná rozptylu a druhej mocnine Studentovho t-testu.

Pre konkrétny spôsob organizácie pozorovania sa požadovaná veľkosť vzorky vypočíta podľa vzorcov uvedených v tabuľke. 9.4.

Praktické príklady výpočtov

Príklad 1. Výpočet strednej hodnoty a intervalu spoľahlivosti pre spojitú kvantitatívnu charakteristiku.

Na posúdenie rýchlosti vyrovnania s veriteľmi v banke bola vykonaná náhodná vzorka 10 platobných dokladov. Ich hodnoty sa ukázali byť rovnaké (v dňoch): 10; 3; pätnásť; pätnásť; 22; 7; osem; jeden; devätnásť; 20.

Vyžaduje sa s pravdepodobnosťou P = 0,954 určiť hraničnú chybu Δ priemer vzorky a medze spoľahlivosti priemerného času výpočtu.

rozhodnutie. Priemerná hodnota sa vypočíta podľa vzorca z tabuľky. 9.1 pre vzorovú populáciu

Disperzia sa vypočíta podľa vzorca z tabuľky. 9.1.

Priemerná kvadratická chyba dňa.

Chyba priemeru sa vypočíta podľa vzorca:

tie. stredná hodnota je x ± m = 12,0 ± 2,3 dňa.

Spoľahlivosť priemeru bola

Limitná chyba sa vypočíta podľa vzorca z tabuľky. 9.3 na opätovnú selekciu, keďže veľkosť populácie nie je známa, a pre P = 0,954úroveň sebavedomia.

Stredná hodnota je teda `x ± D = `x ± 2m = 12,0 ± 4,6, t.j. jeho skutočná hodnota leží v rozmedzí od 7,4 do 16,6 dňa.

Použitie študentskej tabuľky. Aplikácia nám umožňuje dospieť k záveru, že pre n = 10 - 1 = 9 stupňov voľnosti je získaná hodnota spoľahlivá s hladinou významnosti a £ 0,001, t.j. výsledná stredná hodnota sa výrazne líši od 0.

Príklad 2. Odhad pravdepodobnosti (všeobecný podiel) r.

Mechanickou metódou odberu vzoriek zisťovania sociálneho postavenia 1000 rodín sa zistilo, že podiel rodín s nízkymi príjmami bol w = 0,3 (30 %)(vzorka bola 2% , t.j. n/N = 0,02). Vyžaduje sa s úrovňou spoľahlivosti p = 0,997 definovať indikátor R nízkopríjmové rodiny v celom regióne.

rozhodnutie. Podľa prezentovaných funkčných hodnôt Ф(t) nájsť pre danú úroveň spoľahlivosti P = 0,997 význam t = 3(pozri vzorec 3). Chyba hraničného podielu w určiť podľa vzorca z tabuľky. 9.3 pre neopakujúce sa vzorkovanie (mechanické vzorkovanie je vždy neopakujúce sa):

Obmedzenie relatívnej vzorkovacej chyby v % bude:

Pravdepodobnosť (všeobecný podiel) nízkopríjmových rodín v kraji bude p=w±Δw a medze spoľahlivosti p sa vypočítajú na základe dvojitej nerovnosti:

w — Δw ≤ p ≤ w — Δw, t.j. skutočná hodnota p leží v rámci:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

S pravdepodobnosťou 0,997 teda možno tvrdiť, že podiel nízkopríjmových rodín medzi všetkými rodinami v kraji sa pohybuje od 28,6 % do 31,4 %.

Príklad 3 Výpočet strednej hodnoty a intervalu spoľahlivosti pre diskrétny prvok špecifikovaný radom intervalov.

V tabuľke. 9.5. je stanovená distribúcia aplikácií na výrobu zákaziek podľa načasovania ich realizácie podnikom.

Tabuľka 9.5 Rozdelenie pozorovaní podľa času výskytu

rozhodnutie. Priemerný čas dokončenia objednávky sa vypočíta podľa vzorca:

Priemerný čas bude:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 mesiaca

Rovnakú odpoveď dostaneme, ak použijeme údaje o p i z predposledného stĺpca tabuľky. 9.5 pomocou vzorca:

Všimnite si, že stred intervalu pre poslednú gradáciu sa zistí umelým doplnením o šírku intervalu predchádzajúcej gradácie rovnajúcu sa 60 - 36 = 24 mesiacov.

Disperzia sa vypočíta podľa vzorca

kde x i- stred intervalového radu.

Preto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) a štandardná chyba je .

Chyba priemeru sa vypočíta podľa vzorca na mesiace, t.j. priemer je!!\overline(x) ± m = 23,1 ± 13,4.

Limitná chyba sa vypočíta podľa vzorca z tabuľky. 9,3 pre opätovný výber, pretože veľkosť populácie nie je známa, pre úroveň spoľahlivosti 0,954:

Priemer je teda:

tie. jeho skutočná hodnota leží v rozmedzí od 0 do 50 mesiacov.

Príklad 4 Na zistenie rýchlosti vyrovnania s veriteľmi N = 500 podnikov korporácie v komerčnej banke je potrebné vykonať výberovú štúdiu metódou náhodného neopakovateľného výberu. Určte požadovanú veľkosť vzorky n tak, aby s pravdepodobnosťou P = 0,954 chyba priemeru vzorky nepresiahla 3 dni, ak pokusné odhady ukázali, že smerodajná odchýlka s bola 10 dní.

rozhodnutie. Na určenie počtu potrebných štúdií n použijeme vzorec pre neopakovateľný výber z tabuľky. 9.4:

V ňom je hodnota t určená z pre hladinu spoľahlivosti Р = 0,954. Rovná sa 2. Stredná kvadratická hodnota s = 10, veľkosť populácie N = 500 a hraničná chyba priemeru Δ x = 3. Nahradením týchto hodnôt do vzorca dostaneme:

tie. stačí urobiť vzorku 41 podnikov, aby sa odhadol požadovaný parameter - rýchlosť vyrovnania s veriteľmi.