Vzorka môže byť. Príklad nereprezentatívnej vzorky

Intervalový odhad pravdepodobnosti udalosti. Vzorce na výpočet počtu vzoriek v prípade metódy náhodného výberu.

Na určenie pravdepodobnosti udalostí, ktoré nás zaujímajú, používame metódu vzorkovania: vykonávame n nezávislé experimenty, v každom z nich môže nastať (alebo nenastať) udalosť A (pravdepodobnosť R výskyt udalosti A v každom experimente je konštantný). Potom relatívna frekvencia p* výskytov udalostí ALE v sérii n testy sa berú ako bodový odhad pravdepodobnosti p výskyt udalosti ALE v samostatnom teste. V tomto prípade sa nazýva hodnota p* vzorový podiel výskytov udalostí ALE, a r - všeobecný podiel .

Na základe následku centrálnej limitnej vety (Moivre-Laplaceova veta) možno relatívnu frekvenciu udalosti s veľkou veľkosťou vzorky považovať za normálne rozloženú s parametrami M(p*)=p a

Preto pre n>30 možno interval spoľahlivosti pre všeobecný zlomok zostaviť pomocou vzorcov:


kde u cr sa zistí podľa tabuliek Laplaceovej funkcie, berúc do úvahy danú pravdepodobnosť spoľahlivosti γ: 2Ф(u cr)=γ.

Pri malej veľkosti vzorky n≤30 sa hraničná chyba ε určí zo študentskej distribučnej tabuľky:
kde t cr =t(k; α) a počet stupňov voľnosti k=n-1 pravdepodobnosť α=1-γ (obojstranná oblasť).

Vzorce platia, ak bol výber uskutočnený náhodne opakovaným spôsobom (všeobecná populácia je nekonečná), v opačnom prípade je potrebné vykonať opravu pre neopakujúci sa výber (tabuľka).

Priemerná výberová chyba pre všeobecný podiel

PopuláciaNekonečnékonečný objem N
Typ výberuOpakovanéneopakujúce sa
Priemerná vzorkovacia chyba

Vzorce na výpočet veľkosti vzorky pomocou vhodnej metódy náhodného výberu

Spôsob výberuVzorce veľkosti vzorky
pre stredna zdieľanie
Opakované
neopakujúce sa
Podiel jednotiek w = . Presnosť ε = . Pravdepodobnosť γ =

Problémy so všeobecným podielom

Na otázku "Pokrýva daná hodnota p 0 interval spoľahlivosti?" - dá sa odpovedať testovaním štatistickej hypotézy H 0:p=p 0 . Predpokladá sa, že experimenty sa uskutočňujú podľa Bernoulliho testovacej schémy (nezávislá, pravdepodobnosť p výskyt udalosti ALE konštantný). Podľa objemovej vzorky n určiť relatívnu frekvenciu p * výskytu deja A: kde m- počet výskytov udalosti ALE v sérii n testy. Na testovanie hypotézy H 0 sa používajú štatistiky, ktoré pri dostatočne veľkej veľkosti vzorky majú štandardné normálne rozdelenie (tabuľka 1).
Tabuľka 1 - Hypotézy o všeobecnom podiele

Hypotéza

H0:p=p0H 0:p 1 \u003d p 2
PredpokladyBernoulliho testovacia schémaBernoulliho testovacia schéma
Vzorové odhady
Štatistiky K
Rozdelenie štatistík K Štandardné normálne N(0,1)

Príklad č. 1. Vedenie spoločnosti náhodným výberom vykonalo náhodný prieskum u 900 svojich zamestnancov. Medzi respondentmi bolo 270 žien. Nakreslite interval spoľahlivosti, ktorý s pravdepodobnosťou 0,95 pokrýva skutočný podiel žien v celom tíme firmy.
Riešenie. Podľa podmienok je podiel žien vo vzorke (relatívna frekvencia žien medzi všetkými respondentmi). Keďže výber sa opakuje a veľkosť vzorky je veľká (n=900), hraničná výberová chyba je určená vzorcom

Hodnotu u cr zistíme z tabuľky Laplaceovej funkcie zo vzťahu 2Ф(u cr)=γ, t.j. Laplaceova funkcia (príloha 1) nadobúda hodnotu 0,475 pri u cr =1,96. Preto hraničná chyba a požadovaný interval spoľahlivosti
(p – ε, p + ε) = (0,3 – 0,18; 0,3 + 0,18) = (0,12; 0,48)
Takže s pravdepodobnosťou 0,95 je možné zaručiť, že podiel žien v celom tíme firmy je v rozmedzí od 0,12 do 0,48.

Príklad č. 2. Vlastník parkoviska považuje deň za „šťastný“, ak je parkovisko zaplnené na viac ako 80 %. V priebehu roka bolo vykonaných 40 kontrol parkovísk, z toho 24 „úspešných“. S pravdepodobnosťou 0,98 nájdite interval spoľahlivosti pre odhad skutočného percenta „šťastných“ dní počas roka.
Riešenie. Vzorový zlomok „dobrých“ dní je
Podľa tabuľky Laplaceovej funkcie zistíme hodnotu u cr pre danú
úroveň sebavedomia
Ф(2,23) = 0,49, u cr = 2,33.
Vzhľadom na to, že výber sa neopakuje (t. j. dve kontroly neboli vykonané v ten istý deň), nájdeme hraničnú chybu:
kde n = 40, N = 365 (dní). Odtiaľ
a interval spoľahlivosti pre všeobecný zlomok: (p – ε, p + ε) = (0,6 – 0,17; 0,6 + 0,17) = (0,43; 0,77)
S pravdepodobnosťou 0,98 možno očakávať, že podiel „dobrých“ dní počas roka je v rozmedzí od 0,43 do 0,77.

Príklad č. 3. Po kontrole 2500 položiek v dávke zistili, že 400 položiek bolo najvyššej triedy, ale n–m nie. Koľko produktov potrebujete skontrolovať, aby ste určili podiel prémiového stupňa s presnosťou 0,01 s istotou 95 %?
Hľadáme riešenie podľa vzorca na určenie veľkosti vzorky na opätovný výber.

Ф(t) = γ/2 = 0,95/2 = 0,475 a podľa Laplaceovej tabuľky táto hodnota zodpovedá t=1,96
Frakcia vzorky w = 0,16; výberová chyba ε = 0,01

Príklad č. 4. Šarža produktov je akceptovaná, ak pravdepodobnosť, že produkt bude spĺňať normu, je aspoň 0,97. Spomedzi náhodne vybraných 200 produktov testovanej série bolo zistených 193 produktov, ktoré spĺňajú normu. Je možné prijať dávku na hladine významnosti α=0,02?
Riešenie. Formulujeme hlavné a alternatívne hypotézy.
H 0: p \u003d p 0 \u003d 0,97 - neznámy všeobecný podiel p rovná špecifikovanej hodnote p 0 =0,97. Vo vzťahu k podmienke - pravdepodobnosť, že dielec z testovanej šarže bude v súlade s normou je 0,97; tie. môže byť prijatá šarža produktov.
H1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Pozorovaná štatistická hodnota K(tabuľka) vypočítajte pre dané hodnoty p 0 =0,97, n=200, m=193


Kritická hodnota sa zistí z tabuľky Laplaceovej funkcie z rovnosti


Podľa podmienky α=0,02, teda F(Kcr)=0,48 a Kcr=2,05. Kritická oblasť je ľavostranná, t.j. je interval (-∞;-K kp)= (-∞;-2,05). Pozorovaná hodnota Kobs = -0,415 nepatrí do kritickej oblasti, preto na tejto hladine významnosti nie je dôvod zamietnuť hlavnú hypotézu. Môže byť prijatá dávka produktov.

Príklad číslo 5. Dve továrne vyrábajú rovnaký typ dielov. Na posúdenie ich kvality sa odobrali vzorky z produktov týchto tovární a získali sa nasledujúce výsledky. Spomedzi 200 vybraných výrobkov prvej továrne bolo 20 chybných a spomedzi 300 výrobkov druhej továrne 15 chybných.
Na hladine významnosti 0,025 zistite, či existuje významný rozdiel v kvalite dielov vyrábaných týmito fabrikami.

Podľa podmienky α=0,025, teda F(Kcr)=0,4875 a Kcr=2,24. Pri obojstrannej alternatíve má oblasť prípustných hodnôt tvar (-2,24; 2,24). Do tohto intervalu spadá pozorovaná hodnota Kobs =2,15, t.j. na tejto hladine významnosti nie je dôvod zamietnuť hlavnú hypotézu. Továrne vyrábajú výrobky rovnakej kvality.

Plán:

1. Problémy matematickej štatistiky.

2. Typy vzoriek.

3. Spôsoby výberu.

4. Štatistické rozdelenie vzorky.

5. Empirická distribučná funkcia.

6. Polygón a histogram.

7. Číselné charakteristiky variačného radu.

8. Štatistické odhady distribučných parametrov.

9. Intervalové odhady distribučných parametrov.

1. Úlohy a metódy matematickej štatistiky

Matematické štatistiky je odbor matematiky, ktorý sa venuje metódam zberu, analýzy a spracovania výsledkov štatistických pozorovacích údajov na vedecké a praktické účely.

Nech sa vyžaduje študovať súbor homogénnych objektov s ohľadom na nejaký kvalitatívny alebo kvantitatívny znak, ktorý tieto objekty charakterizuje. Napríklad, ak existuje dávka dielov, potom štandard dielu môže slúžiť ako kvalitatívny znak a riadená veľkosť dielu môže slúžiť ako kvantitatívny znak.

Niekedy sa vykonáva súvislé štúdium, t.j. preskúmať každý objekt s ohľadom na požadovanú vlastnosť. V praxi sa komplexný prieskum používa len zriedka. Napríklad, ak populácia obsahuje veľmi veľký počet objektov, potom je fyzicky nemožné vykonať úplný prieskum. Ak je prieskum objektu spojený s jeho zničením alebo vyžaduje veľké náklady na materiál, potom nemá zmysel vykonávať úplný prieskum. V takýchto prípadoch sa z celej populácie náhodne vyberie obmedzený počet objektov (súbor vzoriek) a podrobia sa ich štúdiu.

Hlavnou úlohou matematickej štatistiky je študovať celú populáciu na základe vzorových údajov v závislosti od cieľa, t.j. štúdium pravdepodobnostných vlastností populácie: zákon rozdelenia, číselné charakteristiky atď. pre prijímanie manažérskych rozhodnutí v podmienkach neistoty.

2. Typy vzoriek

Populácia je súbor predmetov, z ktorých je vzorka vyrobená.

Vzorová populácia (vzorka) je zbierka náhodne vybraných predmetov.

Veľkosť populácie je počet predmetov v tejto zbierke. Označuje sa objem bežnej populácie N, selektívne - n.

Príklad:

Ak sa z 1000 častí vyberie na vyšetrenie 100 častí, potom objem bežnej populácie N = 1000 a veľkosť vzorky n = 100.

Odber vzoriek možno vykonať dvoma spôsobmi: po výbere objektu a jeho pozorovaní ho možno vrátiť alebo nevrátiť bežnej populácii. To. Vzorky sú rozdelené na opakované a neopakované.

Opakovanévolal vzorkovanie, pri ktorej sa vybraný objekt (pred výberom ďalšieho) vráti bežnej populácii.

Neopakujúce savolal vzorkovanie, pri ktorej sa vybraný objekt nevracia bežnej populácii.

V praxi sa zvyčajne používa neopakovateľný náhodný výber.

Na to, aby údaje vzorky mohli s dostatočnou istotou posúdiť charakteristiku záujmu v bežnej populácii, je potrebné, aby ju objekty vzorky správne reprezentovali. Vzorka musí správne reprezentovať proporcie populácie. Vzorka musí byť zástupca (zástupca).

Na základe zákona veľkých čísel možno tvrdiť, že vzorka bude reprezentatívna, ak bude vykonaná náhodne.

Ak je veľkosť všeobecnej populácie dostatočne veľká a vzorka je len nevýznamnou časťou tejto populácie, potom sa rozdiel medzi opakovanými a neopakovanými vzorkami vymaže; v limitujúcom prípade, keď sa uvažuje o nekonečnej všeobecnej populácii a vzorka má konečnú veľkosť, tento rozdiel zmizne.

Príklad:

V americkom časopise Literary Review bola pomocou štatistických metód vypracovaná štúdia prognóz týkajúcich sa výsledku nadchádzajúcich prezidentských volieb v USA v roku 1936. Uchádzačmi o tento post boli F.D. Roosevelt a A. M. Landon. Referenčné knihy telefónnych účastníkov boli brané ako zdroj pre všeobecnú populáciu skúmaných Američanov. Z toho boli náhodne vybrané 4 milióny adries, na ktoré redakcia časopisu rozoslala pohľadnice s prosbou o vyjadrenie postoja ku kandidátom na prezidenta. Časopis po spracovaní výsledkov ankety zverejnil sociologickú prognózu, že nadchádzajúce voľby s veľkým náskokom vyhrá Landon. A ... mýlil som sa: Roosevelt vyhral.
Tento príklad možno považovať za príklad nereprezentatívnej vzorky. Faktom je, že v Spojených štátoch mala v prvej polovici dvadsiateho storočia telefóny iba bohatá časť obyvateľstva, ktorá podporovala názory Landona.

3. Spôsoby výberu

V praxi sa používajú rôzne metódy výberu, ktoré možno rozdeliť do 2 typov:

1. Výber nevyžaduje rozdelenie populácie na časti (a) jednoduchá náhoda bez opakovania; b) jednoduché náhodné opakovanie).

2. Selekcia, v ktorej je všeobecná populácia rozdelená na časti. (a) typický výber; b) mechanický výber; v) sériový výber).

Jednoduchá náhoda nazvite toto výber, v ktorom sú objekty extrahované jeden po druhom z celej všeobecnej populácie (náhodne).

Typickévolal výber, v ktorej sa predmety nevyberajú z celej bežnej populácie, ale z každej jej „typickej“ časti. Napríklad, ak je diel vyrobený na niekoľkých strojoch, výber sa nevykoná z celej sady dielov vyrábaných všetkými strojmi, ale z produktov každého stroja samostatne. Takáto selekcia sa používa, keď skúmaná vlastnosť výrazne kolíše v rôznych „typických“ častiach bežnej populácie.

Mechanickývolal výber, v ktorom je všeobecná populácia „mechanicky“ rozdelená do toľkých skupín, koľko objektov má byť zaradených do vzorky a z každej skupiny je vybraný jeden objekt. Napríklad, ak potrebujete vybrať 20 % dielov vyrobených strojom, vyberie sa každý 5. diel; ak je potrebné vybrať 5% dielov - každých 20 atď. Niekedy takýto výber nemusí zabezpečiť reprezentatívnu vzorku (ak sa vyberie každý 20. sústružnícky valec a fréza sa ihneď po výbere vymení, vyberú sa všetky valce otočené tupými frézami).

Serialvolal výber, v ktorej sa objekty z bežnej populácie nevyberajú po jednom, ale v „sériách“, ktoré sa podrobujú priebežnému prieskumu. Napríklad, ak výrobky vyrába veľká skupina automatických strojov, potom sa výrobky len niekoľkých strojov podrobujú nepretržitej kontrole.

V praxi sa často používa kombinovaný výber, pri ktorom sa kombinujú vyššie uvedené metódy.

4. Štatistické rozdelenie vzorky

Nech sa vyberie vzorka zo všeobecnej populácie a hodnota x 1-pozorované raz, x 2 -n 2 krát, ... x k - n k krát. n= n 1 + n 2 +...+n k je veľkosť vzorky. Pozorované hodnotyvolal možnosti a sekvencia je variant napísaný vo vzostupnom poradí - variačný rad. Počet pozorovanívolal frekvencie (absolútne frekvencie) a ich vzťah k veľkosti vzorky- relatívnych frekvencií alebo štatistické pravdepodobnosti.

Ak je počet možností veľký alebo je vzorka vytvorená z nepretržitej všeobecnej populácie, potom sa séria variácií zostavuje nie podľa jednotlivých bodových hodnôt, ale podľa intervalov hodnôt všeobecnej populácie. Takáto séria je tzv interval. Dĺžky intervalov musia byť rovnaké.

Štatistické rozdelenie vzorky zoznam možností a im zodpovedajúce frekvencie alebo relatívne frekvencie.

Štatistické rozdelenie môže byť špecifikované aj ako postupnosť intervalov a im zodpovedajúce frekvencie (súčet frekvencií, ktoré spadajú do tohto intervalu hodnôt)

Bodový variačný rad frekvencií môže byť reprezentovaný tabuľkou:

x i
x 1
x2

x k
n i
n 1
n 2

nk

Podobne možno reprezentovať bodový variačný rad relatívnych frekvencií.

a:

Príklad:

Počet písmen v nejakom texte X sa ukázal byť rovný 1 000. Prvé písmeno bolo "i", druhé - písmeno "i", tretie - písmeno "a", štvrté - "u". Potom prišli písmená „o“, „e“, „y“, „e“, „s“.

Zapíšme si miesta, ktoré zaberajú v abecede, respektíve máme: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Po zoradení týchto čísel vo vzostupnom poradí dostaneme sériu variácií: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Frekvencie výskytu písmen v texte: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, „yu“- 7, „i“- 22.

Zostavíme bodový variačný rad frekvencií:

Príklad:

Určené rozdelenie frekvencie vzorkovania objemu n = 20.

Vytvorte bodový variačný rad relatívnych frekvencií.

x i

2

6

12

n i

3

10

7

Riešenie:

Nájdite relatívne frekvencie:


x i

2

6

12

w i

0,15

0,5

0,35

Pri konštrukcii intervalového rozdelenia existujú pravidlá pre výber počtu intervalov alebo veľkosti každého intervalu. Kritériom je tu optimálny pomer: s nárastom počtu intervalov sa zlepšuje reprezentatívnosť, ale zvyšuje sa množstvo údajov a čas na ich spracovanie. Rozdiel x max - x min medzi najväčšou a najmenšou hodnotou sa nazýva variant vo veľkom meradle vzorky.

Na počítanie počtu intervalov k zvyčajne aplikujte empirický vzorec Sturgessa (čo znamená zaokrúhlenie na najbližšie vhodné celé číslo): k = 1 + 3,322 log n.

Podľa toho aj hodnota každého intervalu h možno vypočítať pomocou vzorca:

5. Empirická distribučná funkcia

Zoberme si vzorku z bežnej populácie. Nech je známe štatistické rozdelenie početností kvantitatívneho atribútu X. Zaveďme označenie: n xje počet pozorovaní, pri ktorých bola pozorovaná hodnota znaku menšia ako x; n je celkový počet pozorovaní (veľkosť vzorky). Relatívna frekvencia udalostí X<х равна n x /n. Ak sa x zmení, tak sa zmení aj relatívna frekvencia, t.j. relatívna frekvencian x /nje funkcia x. Pretože nachádza sa empiricky, nazýva sa empirický.

Empirická distribučná funkcia (funkcia rozdelenia vzorky) zavolajte funkciu, ktorý určuje pre každé x relatívnu frekvenciu udalosti X<х.


kde je počet možností menší ako x,

n - veľkosť vzorky.

Na rozdiel od empirickej distribučnej funkcie vzorky sa nazýva distribučná funkcia F(x) populácie teoretická distribučná funkcia.

Rozdiel medzi empirickými a teoretickými distribučnými funkciami je v tom, že teoretická funkcia F (x) určuje pravdepodobnosť udalosti X F*(x) inklinuje v pravdepodobnosti k pravdepodobnosti F (x) tejto udalosti. To znamená pre veľké n F*(x) a F(x) sa navzájom málo líšia.

To. na približnú reprezentáciu teoretickej (integrálnej) distribučnej funkcie všeobecnej populácie je vhodné použiť empirickú distribučnú funkciu vzorky.

F*(x) má všetky vlastnosti F(x).

1. Hodnoty F*(x) patria do intervalu.

2. F*(x) je neklesajúca funkcia.

3. Ak je najmenší variant, potom F*(x) = 0, pri x < x1; ak x k je najväčší variant, potom F*(x) = 1, pre x > x k .

Tie. F*(x) slúži na odhad F(x).

Ak je vzorka daná variačným radom, potom má empirická funkcia tvar:

Graf empirickej funkcie sa nazýva kumulatívny.

Príklad:

Nakreslite empirickú funkciu pre dané rozdelenie vzorky.


Riešenie:

Veľkosť vzorky n = 12 + 18 +30 = 60. Najmenšia možnosť je 2, t.j. pri x < 2. Udalosť X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 o 2 < X < 6. Udalosť X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < X < 10. Pretože x=10 je teda najväčšia možnosť F*(x) = 1 pri x>10. Požadovaná empirická funkcia má tvar:

Kumulovať:


Kumulácia umožňuje pochopiť informácie prezentované graficky, napríklad odpovedať na otázky: „Určite počet pozorovaní, v ktorých hodnota atribútu bola menšia ako 6 alebo nie menšia ako 6. F*(6) = 0,2 » Potom počet pozorovaní, v ktorých bola hodnota pozorovaného znaku menšia ako 6, je 0,2* n \u003d 0,2 * 60 \u003d 12. Počet pozorovaní, pri ktorých hodnota pozorovaného objektu nebola menšia ako 6, je (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Ak je daný intervalový variačný rad, potom na zostavenie empirickej distribučnej funkcie sa nájdu stredy intervalov a empirická distribučná funkcia sa z nich získa podobne ako z bodových variačných radov.

6. Polygón a histogram

Kvôli prehľadnosti sú zostavené rôzne grafy štatistického rozdelenia: polynóm a histogramy

Frekvenčný polygón- ide o prerušovanú čiaru, ktorej úsečky spájajú body ( x 1 ;n 1 ), ( x 2 ; n 2 ),..., ( x k ; n k ), kde sú možnosti, sú im zodpovedajúce frekvencie.

Mnohouholník relatívnych frekvencií - ide o prerušovanú čiaru, ktorej úsečky spájajú body ( x 1 ;w 1 ), (x 2 ;w 2 ),..., ( x k ;w k ), kde x i sú možnosti, w i sú im zodpovedajúce relatívne početnosti.

Príklad:

Nakreslite polynóm relatívnej frekvencie na dané rozdelenie vzorky:

Riešenie:

V prípade súvislého znaku je vhodné zostaviť histogram, pre ktorý sa interval, ktorý obsahuje všetky pozorované hodnoty znaku, rozdelí na niekoľko čiastkových intervalov dĺžky h a pre každý čiastkový interval sa nájde n i - súčet variantných frekvencií, ktoré spadajú do i-tého intervalu. (Napríklad pri meraní výšky alebo hmotnosti človeka máme do činenia so spojitým znakom).

Histogram frekvencie - toto je stupňovitý útvar, ktorý pozostáva z obdĺžnikov, ktorých základňami sú čiastkové intervaly dĺžky h a výšky sa rovnajú pomeru (hustota frekvencie).

Námestie i-tý čiastkový obdĺžnik sa rovná súčtu frekvencií variantu i-tého intervalu, t.j. plocha frekvenčného histogramu sa rovná súčtu všetkých frekvencií, t.j. veľkosť vzorky.

Príklad:

Uvádzajú sa výsledky zmeny napätia (vo voltoch) v elektrickej sieti. Zostavte sériu variácií, vytvorte mnohouholník a frekvenčný histogram, ak sú hodnoty napätia nasledovné: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Riešenie:

Vytvorme sériu variácií. Máme n = 20, x min = 212, x max = 232.

Na výpočet počtu intervalov použijeme Sturgessov vzorec.

Intervalový variačný rad frekvencií má tvar:


Hustota frekvencie

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Zostavme si histogram frekvencií:

Zostavme mnohouholník frekvencií tak, že najprv nájdeme stredy intervalov:


Histogram relatívnych frekvencií nazývame stupňovitý útvar pozostávajúci z obdĺžnikov, ktorých základňami sú čiastkové intervaly dĺžky h a výšky sa rovnajú pomeru w i/h (relatívna hustota frekvencie).

Námestie I-tý čiastkový obdĺžnik sa rovná relatívnej frekvencii variantu, ktorý spadal do i-tého intervalu. Tie. plocha histogramu relatívnych frekvencií sa rovná súčtu všetkých relatívnych frekvencií, t.j. jednotka.

7. Číselné charakteristiky variačného radu

Zvážte hlavné charakteristiky všeobecnej a vzorovej populácie.

Všeobecný stredoškolský sa nazýva aritmetický priemer hodnôt vlastnosti bežnej populácie.

Pre rôzne hodnoty x 1 , x 2 , x 3 , …, x n . znak všeobecnej populácie objemu N máme:

Ak majú hodnoty atribútu zodpovedajúce frekvencie N 1 + N 2 +…+N k =N , potom


vzorový priemer sa nazýva aritmetický priemer hodnôt vlastnosti vzorky populácie.

Ak hodnoty atribútu majú zodpovedajúce frekvencie n 1 + n 2 +… + n k = n, potom


Príklad:

Vypočítajte priemer vzorky pre vzorku: x 1 = 51,12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52,93; x 5 \u003d 51,1; x 6 \u003d 52,98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Riešenie:

Všeobecný rozptyl sa nazýva aritmetický priemer štvorcových odchýlok hodnôt charakteristiky X všeobecnej populácie od všeobecného priemeru.

Pre rôzne hodnoty x 1 , x 2 , x 3 , …, x N znamienka populácie objemu N máme:

Ak majú hodnoty atribútu zodpovedajúce frekvencie N 1 + N 2 +…+N k =N , potom

Všeobecná štandardná odchýlka (štandard) nazývaná druhá odmocnina zo všeobecného rozptylu

Rozptyl vzorky sa nazýva aritmetický priemer kvadrátov odchýlok pozorovaných hodnôt znaku od strednej hodnoty.

Pre rôzne hodnoty x 1 , x 2 , x 3 , ..., x n znamienka vzorovej populácie objemu n máme:


Ak hodnoty atribútu majú zodpovedajúce frekvencie n 1 + n 2 +… + n k = n, potom


Vzorová štandardná odchýlka (štandard) sa nazýva druhá odmocnina výberového rozptylu.


Príklad:

Vzorkovací súbor je daný distribučnou tabuľkou. Nájdite vzorový rozptyl.


Riešenie:

Veta: Rozptyl sa rovná rozdielu medzi priemerom druhých mocnín hodnôt funkcie a druhou mocninou celkového priemeru.

Príklad:

Nájdite rozptyl pre túto distribúciu.



Riešenie:

8. Štatistické odhady distribučných parametrov

Nech sa všeobecná populácia študuje na nejakej vzorke. V tomto prípade je možné získať len približnú hodnotu neznámeho parametra Q, ktorá slúži ako jeho odhad. Je zrejmé, že odhady sa môžu líšiť od jednej vzorky k druhej.

Štatistické vyhodnotenieQ* neznámy parameter teoretického rozdelenia sa nazýva funkcia f, ktorá závisí od pozorovaných hodnôt vzorky. Úlohou štatistického odhadu neznámych parametrov zo vzorky je zostrojiť z dostupných údajov štatistických pozorovaní takú funkciu, ktorá by poskytla čo najpresnejšie približné hodnoty skutočných, výskumníkovi neznámych hodnôt týchto parametrov.

Štatistické odhady sú rozdelené na bodové a intervalové v závislosti od spôsobu ich poskytovania (počet alebo interval).

Bodový odhad sa nazýva štatistický odhad. parameter Q teoretického rozdelenia určený jednou hodnotou parametra Q *=f (x 1 , x 2 , ..., x n), kdex 1 , x 2 , ...,xn- výsledky empirických pozorovaní kvantitatívneho atribútu X určitej vzorky.

Takéto odhady parametrov získané z rôznych vzoriek sa najčastejšie navzájom líšia. Absolútny rozdiel /Q *-Q / sa nazýva výberová chyba (odhad).

Aby štatistické odhady poskytovali spoľahlivé výsledky o odhadovaných parametroch, je potrebné, aby boli nestranné, efektívne a konzistentné.

Bodový odhad, ktorého matematické očakávanie sa rovná (nerovná sa) odhadovanému parametru, sa nazýva neposunutý (posunutý). M(Q*)=Q.

Rozdiel M( Q *)-Q sa nazýva zaujatosť alebo systematická chyba. Pri neskreslených odhadoch je systematická chyba 0.

efektívne hodnotenie Q *, ktorá má pre danú veľkosť vzorky n najmenší možný rozptyl: D min(n = konštanta). Efektívny odhad má v porovnaní s inými nezaujatými a konzistentnými odhadmi najmenší rozptyl.

Bohatísa nazýva taká štatistika hodnotenie Q *, ktoré pre ninklinuje v pravdepodobnosti k odhadovanému parametru Q , t.j. s nárastom veľkosti vzorky n odhad smeruje v pravdepodobnosti k skutočnej hodnote parametra Q.

Požiadavka konzistencie je v súlade so zákonom veľkých čísel: čím viac počiatočných informácií o skúmanom objekte, tým presnejší je výsledok. Ak je veľkosť vzorky malá, bodový odhad parametra môže viesť k závažným chybám.

akýkoľvek vzorka (objemn) možno si predstaviť ako objednanú sadux 1 , x 2 , ...,xn nezávislé identicky rozdelené náhodné premenné.

Vzorka znamená pre rôzne objemové vzorky n z tej istej populácie sa budú líšiť. To znamená, že výberový priemer možno považovať za náhodnú premennú, čo znamená, že môžeme hovoriť o rozdelení výberového priemeru a jeho numerických charakteristikách.

Výberový priemer spĺňa všetky požiadavky kladené na štatistické odhady, t.j. poskytuje nezaujatý, efektívny a konzistentný odhad priemeru populácie.

Dá sa to dokázať. Vzorový rozptyl je teda skreslený odhad všeobecného rozptylu, ktorý mu dáva podhodnotenú hodnotu. To znamená, že pri malej veľkosti vzorky to spôsobí systematickú chybu. Pre nestranný, konzistentný odhad stačí vziať množstvo, ktorý sa nazýva opravený rozptyl. t.j.

V praxi sa na odhad všeobecného rozptylu používa opravený rozptyl, keď n < 30. V ostatných prípadoch ( n >30) odchýlka od sotva znateľné. Preto pre veľké hodnoty n chybu zaujatosti možno zanedbať.

Dá sa tiež dokázať, že relatívna frekvencian i / n je nezaujatý a konzistentný odhad pravdepodobnosti P(X=x i ). Empirická distribučná funkcia F*(x ) je nezaujatý a konzistentný odhad teoretickej distribučnej funkcie F(x)=P(X< x ).

Príklad:

Nájdite neskreslené odhady priemeru a rozptylu z tabuľky vzoriek.

x i
n i

Riešenie:

Veľkosť vzorky n=20.

Nezaujatým odhadom matematického očakávania je výberový priemer.


Na výpočet nezaujatého odhadu rozptylu najskôr nájdeme vzorový rozptyl:

Teraz nájdime nestranný odhad:

9. Intervalové odhady distribučných parametrov

Interval je štatistický odhad určený dvoma číselnými hodnotami - koncami skúmaného intervalu.

číslo> 0, kde | Q - Q*|< , charakterizuje presnosť intervalového odhadu.

dôveryhodnývolal interval , čo s danou pravdepodobnosťoupokrýva neznámu hodnotu parametra Q . Doplnenie intervalu spoľahlivosti do súboru všetkých možných hodnôt parametrov Q volal kritická oblasť. Ak sa kritická oblasť nachádza iba na jednej strane intervalu spoľahlivosti, potom sa nazýva interval spoľahlivosti jednostranné: ľavostranné, ak kritická oblasť existuje iba vľavo a pravák pokiaľ nie vpravo. V opačnom prípade sa nazýva interval spoľahlivosti bilaterálne.

spoľahlivosť alebo úroveň spoľahlivosti, Odhady Q (pomocou Q *) pomenujte pravdepodobnosť, s ktorou je splnená nasledujúca nerovnosť: | Q - Q*|< .

Najčastejšie je pravdepodobnosť spoľahlivosti nastavená vopred (0,95; 0,99; 0,999) a je na ňu kladená požiadavka, aby sa blížila k jednej.

Pravdepodobnosťvolal pravdepodobnosť chyby alebo úroveň významnosti.

Nechajte | Q - Q*|< , potom. To znamená, že s pravdepodobnosťoumožno tvrdiť, že skutočná hodnota parametra Q patrí do intervalu. Čím je odchýlka menšia, tým je odhad presnejší.

Hranice (konce) intervalu spoľahlivosti sa nazývajú hranice dôvery alebo kritické hranice.

Hodnoty hraníc intervalu spoľahlivosti závisia od distribučného zákona parametra Q*.

Hodnota odchýlkysa nazýva polovica šírky intervalu spoľahlivosti presnosť hodnotenia.

Metódy konštrukcie intervalov spoľahlivosti prvýkrát vyvinul americký štatistik Y. Neumann. Presnosť odhadu, pravdepodobnosť spoľahlivosti a veľkosť vzorky n vzájomne prepojené. Preto, keď poznáte konkrétne hodnoty dvoch veličín, môžete vždy vypočítať tretiu.

Nájdenie intervalu spoľahlivosti pre odhad matematického očakávania normálneho rozdelenia, ak je známa štandardná odchýlka.

Nech sa urobí vzorka zo všeobecnej populácie, ktorá podlieha zákonu normálneho rozdelenia. Nech je známa všeobecná štandardná odchýlka, ale matematické očakávanie teoretického rozdelenia nie je známe a ().

Platí nasledujúci vzorec:

Tie. podľa zadanej hodnoty odchýlkyje možné zistiť, s akou pravdepodobnosťou patrí neznámy všeobecný priemer do intervalu. A naopak. Zo vzorca je vidieť, že s nárastom veľkosti vzorky a fixnou hodnotou pravdepodobnosti spoľahlivosti sa hodnota- klesá, t.j. zvyšuje sa presnosť odhadu. S nárastom spoľahlivosti (pravdepodobnosti spoľahlivosti) sa hodnota-zvyšuje, t.j. presnosť odhadu klesá.

Príklad:

Ako výsledok testov sa získali nasledujúce hodnoty -25, 34, -20, 10, 21. Je známe, že dodržiavajú zákon normálneho rozdelenia so štandardnou odchýlkou ​​2. Nájdite odhad a* pre matematické očakávania a. Nakreslite pre ňu 90% interval spoľahlivosti.

Riešenie:

Nájdite nestranný odhad

Potom


Interval spoľahlivosti pre a má tvar: 4 – 1,47< a< 4+ 1,47 или 2,53 < a < 5, 47

Nájdenie intervalu spoľahlivosti pre odhad matematického očakávania normálneho rozdelenia, ak nie je štandardná odchýlka známa.

Nech je známe, že všeobecná populácia podlieha zákonu normálneho rozdelenia, kde a a. Presnosť krytia intervalov spoľahlivosti so spoľahlivosťouskutočná hodnota parametra a sa v tomto prípade vypočíta podľa vzorca:

, kde n je veľkosť vzorky, , - Študentov koeficient (treba ho zistiť z uvedených hodnôt n a z tabuľky "Kritické body študentského rozdelenia").

Príklad:

Ako výsledok testov boli získané nasledujúce hodnoty -35, -32, -26, -35, -30, -17. Je známe, že dodržiavajú zákon normálneho rozdelenia. Nájdite interval spoľahlivosti pre strednú hodnotu populácie a s úrovňou spoľahlivosti 0,9.

Riešenie:

Nájdite nestranný odhad.

Poďme nájsť.

Potom

Interval spoľahlivosti bude mať formu(-29,2 - 5,62; -29,2 + 5,62) alebo (-34,82; -23,58).

Nájdenie intervalu spoľahlivosti pre rozptyl a smerodajnú odchýlku normálneho rozdelenia

Nech sa náhodná vzorka objemu odoberie z nejakého všeobecného súboru hodnôt distribuovaných podľa normálneho zákonan < 30, pre ktoré sa počítajú výberové rozptyly: vychýlenéa opravené s 2. Potom nájsť odhady intervalov s danou spoľahlivosťoupre všeobecný rozptylDvšeobecná štandardná odchýlkapoužívajú sa nasledujúce vzorce.


alebo,

hodnoty- nájdite pomocou tabuľky hodnôt kritických bodovPearsonove distribúcie.

Interval spoľahlivosti pre rozptyl sa zistí z týchto nerovností umocnením všetkých častí nerovnosti.

Príklad:

Bola skontrolovaná kvalita 15 skrutiek. Za predpokladu, že chyba pri ich výrobe podlieha zákonu normálneho rozdelenia a štandardnej odchýlke vzorkyrovná 5 mm, určte spoľahlivointerval spoľahlivosti pre neznámy parameter

Hranice intervalu predstavujeme ako dvojitú nerovnosť:

Konce obojstranného intervalu spoľahlivosti pre rozptyl možno určiť bez vykonania aritmetiky pre danú úroveň spoľahlivosti a veľkosti vzorky pomocou zodpovedajúcej tabuľky (Hranice intervalov spoľahlivosti pre rozptyl v závislosti od počtu stupňov voľnosti a spoľahlivosti) . Na tento účel sa konce intervalu získaného z tabuľky vynásobia opraveným rozptylom s 2.

Príklad:

Vyriešme predchádzajúci problém iným spôsobom.

Riešenie:

Poďme nájsť opravený rozptyl:

Podľa tabuľky „Hranice intervalu spoľahlivosti pre rozptyl v závislosti od počtu stupňov voľnosti a spoľahlivosti“ nájdeme hranice intervalu spoľahlivosti pre rozptyl prik= 14 a: dolná hranica 0,513 a horná hranica 2,354.

Vynásobte získané hranice os 2 a extrahujte koreň (pretože potrebujeme interval spoľahlivosti nie pre rozptyl, ale pre štandardnú odchýlku).

Ako vidno z príkladov, hodnota intervalu spoľahlivosti závisí od spôsobu jeho konštrukcie a dáva blízke, ale odlišné výsledky.

Pre vzorky dostatočne veľkých rozmerov (n>30) hranice intervalu spoľahlivosti pre všeobecnú smerodajnú odchýlku možno určiť podľa vzorca: - nejaké číslo, ktoré je uvedené v tabuľke a uvedené v príslušnej referenčnej tabuľke.

Ak 1- q<1, то формула имеет вид:

Príklad:

Vyriešme predchádzajúci problém tretím spôsobom.

Riešenie:

Predtým nájdenés= 5,17. q(0,95; 15) = 0,46 - zistíme podľa tabuľky.

potom:

Často sa stáva, že je potrebné analyzovať konkrétny spoločenský jav a získať o ňom informácie. Takéto úlohy často vznikajú v štatistike a štatistickom výskume. Overenie plne definovaného sociálneho javu je často nemožné. Ako napríklad zistiť názor obyvateľov alebo všetkých obyvateľov určitého mesta na akúkoľvek otázku? Spýtať sa úplne každého je takmer nemožné a veľmi pracné. V takýchto prípadoch potrebujeme vzorku. To je presne koncept, na ktorom sú založené takmer všetky výskumy a analýzy.

Čo je vzorka

Pri analýze konkrétneho sociálneho javu je potrebné získať o ňom informácie. Ak vezmeme akúkoľvek štúdiu, vidíme, že nie každá jednotka celku predmetu štúdia je predmetom výskumu a analýzy. Do úvahy sa berie len určitá časť tohto celku. Tento proces je vzorkovanie: keď sa skúmajú len určité jednotky zo súboru.

Samozrejme, veľa závisí od typu vzorky. Existujú však aj základné pravidlá. Ten hlavný hovorí, že výber z populácie musí byť absolútne náhodný. Jednotky populácie, ktoré sa majú použiť, by sa nemali vyberať na základe žiadneho kritéria. Zhruba povedané, ak je potrebné zhromaždiť populáciu z populácie určitého mesta a vybrať iba mužov, potom bude chyba v štúdii, pretože výber nebol vykonaný náhodne, ale bol vybraný podľa pohlavia. Takmer všetky metódy odberu vzoriek sú založené na tomto pravidle.

Pravidlá odberu vzoriek

Aby vybraný súbor odrážal hlavné kvality celého fenoménu, musí byť postavený podľa špecifických zákonitostí, kde hlavnú pozornosť treba venovať nasledujúcim kategóriám:

  • vzorka (vzorková populácia);
  • všeobecná populácia;
  • reprezentatívnosť;
  • chyba reprezentatívnosti;
  • populačná jednotka;
  • metódy odberu vzoriek.

Vlastnosti selektívneho pozorovania a odberu vzoriek sú nasledujúce:

  1. Všetky získané výsledky sú založené na matematických zákonoch a pravidlách, to znamená, že pri správnom vedení štúdie a správnych výpočtoch nebudú výsledky subjektívne skreslené.
  2. Umožňuje získať výsledok oveľa rýchlejšie as menším množstvom času a zdrojov, pričom neštuduje celú škálu udalostí, ale iba ich časť.
  3. Dá sa použiť na štúdium rôznych objektov: od špecifických problémov, napríklad veku, pohlavia skupiny, o ktorú sa zaujímame, až po štúdium verejnej mienky alebo úrovne materiálneho zabezpečenia obyvateľstva.

Selektívne pozorovanie

Selektívne - ide o také štatistické pozorovanie, pri ktorom nie je podrobená výskumu celá populácia skúmanej populácie, ale len jej časť, vybraná určitým spôsobom a výsledky skúmania tejto časti platia pre celú populáciu. Táto časť sa nazýva vzorkovací rámec. Toto je jediný spôsob, ako študovať veľké množstvo predmetov štúdie.

Ale selektívne pozorovanie sa môže použiť iba v prípadoch, keď je potrebné študovať iba malú skupinu jednotiek. Napríklad pri štúdiu pomeru mužov k ženám na svete sa použije selektívne pozorovanie. Z zrejmých dôvodov nie je možné vziať do úvahy každého obyvateľa našej planéty.

Ale pri rovnakom štúdiu, ale nie všetkých obyvateľov zeme, ale určitej 2 triedy „A“ v konkrétnej škole, konkrétnom meste, konkrétnej krajine, možno upustiť od selektívneho pozorovania. Koniec koncov, je celkom možné analyzovať celú škálu predmetu štúdie. Je potrebné počítať chlapcov a dievčatá tejto triedy - to bude pomer.

Vzorka a populácia

V skutočnosti to nie je také ťažké, ako to znie. V každom študijnom predmete existujú dva systémy: všeobecná a vzorová populácia. Čo je to? Všetky jednotky patria generálovi. A do vzorky - tie jednotky celkovej populácie, ktoré boli odobraté pre vzorku. Ak sa všetko robí správne, vybraná časť bude zníženým usporiadaním celej (všeobecnej) populácie.

Ak hovoríme o všeobecnej populácii, potom môžeme rozlíšiť iba dve jej odrody: určitú a neurčitú všeobecnú populáciu. Závisí od toho, či je známy celkový počet jednotiek daného systému alebo nie. Ak ide o určitú populáciu, potom bude odber vzoriek jednoduchší vďaka tomu, že je známe, aké percento z celkového počtu jednotiek bude vzorkované.

Tento moment je vo výskume veľmi potrebný. Napríklad, ak je potrebné vyšetriť percento nekvalitných cukrárskych výrobkov v konkrétnom závode. Predpokladajme, že populácia už bola definovaná. Je s istotou známe, že tento podnik vyrába 1000 cukrárskych výrobkov ročne. Ak z tejto tisícky vyrobíme vzorku 100 náhodných cukrárskych výrobkov a pošleme ich na preskúmanie, tak chyba bude minimálna. Zhruba povedané, 10% všetkých produktov bolo predmetom výskumu a na základe výsledkov, s prihliadnutím na chybu reprezentatívnosti, môžeme hovoriť o zlej kvalite všetkých produktov.

A ak zoberiete vzorku 100 cukrárskych výrobkov z neurčitej všeobecnej populácie, kde v skutočnosti bolo povedzme 1 milión jednotiek, potom výsledok vzorky a samotná štúdia budú kriticky nepravdepodobné a nepresné. Cítiť rozdiel? Preto je istota bežnej populácie vo väčšine prípadov mimoriadne dôležitá a výrazne ovplyvňuje výsledok štúdie.

Reprezentatívnosť obyvateľstva

Takže teraz jedna z najdôležitejších otázok – aká by mala byť vzorka? Toto je najdôležitejší bod štúdie. V tejto fáze je potrebné vypočítať vzorku a vybrať do nej jednotky z celkového počtu. Populácia bola vybraná správne, ak určité znaky a charakteristiky všeobecnej populácie zostali vo vzorke. Tomu sa hovorí reprezentatívnosť.

Inými slovami, ak si časť po výbere zachová rovnaké tendencie a charakteristiky ako celá skúmaná veličina, potom sa takáto populácia nazýva reprezentatívna. Nie každú konkrétnu vzorku však možno vybrať z reprezentatívnej populácie. Existujú aj také objekty výskumu, ktorých vzorka jednoducho nemôže byť reprezentatívna. Odtiaľ pochádza koncept chyby reprezentatívnosti. Ale povedzme si o tom trochu viac.

Ako urobiť vzorku

Aby sa teda maximalizovala reprezentatívnosť, existujú tri základné pravidlá výberu vzoriek:


Chyba (chyba) reprezentatívnosti

Hlavnou charakteristikou kvality vybranej vzorky je pojem „chyba reprezentatívnosti“. Čo je to? Ide o určité nezrovnalosti medzi ukazovateľmi selektívneho a kontinuálneho pozorovania. Podľa indikátorov chýb sa reprezentatívnosť delí na spoľahlivú, bežnú a približnú. Inými slovami, odchýlky do 3 %, od 3 do 10 % a od 10 do 20 %, v tomto poradí, sú prijateľné. Hoci v štatistike je žiaduce, aby chyba nepresiahla 5-6%. V opačnom prípade je dôvod hovoriť o nedostatočnej reprezentatívnosti vzorky. Na výpočet chyby reprezentatívnosti a jej vplyvu na vzorku alebo populáciu sa berie do úvahy mnoho faktorov:

  1. Pravdepodobnosť, s akou sa má dosiahnuť presný výsledok.
  2. Počet vzorkovacích jednotiek. Ako už bolo spomenuté, čím menší je počet jednotiek vo vzorke, tým väčšia bude chyba reprezentatívnosti a naopak.
  3. Homogenita študovanej populácie. Čím je populácia heterogénnejšia, tým väčšia bude chyba reprezentatívnosti. Schopnosť populácie byť reprezentatívna závisí od homogenity všetkých jej základných jednotiek.
  4. Metóda výberu jednotiek vo vzorke populácie.

V konkrétnych štúdiách si percentuálnu chybu priemeru zvyčajne nastavuje sám vyšetrovateľ na základe pozorovacieho programu a podľa údajov z predchádzajúcich štúdií. Za prijateľnú sa spravidla považuje maximálna výberová chyba (chyba reprezentatívnosti) v rozmedzí 3 – 5 %.

Viac nie je vždy lepšie

Je tiež potrebné pripomenúť, že hlavnou vecou pri organizovaní selektívneho pozorovania je znížiť jeho objem na prijateľné minimum. Zároveň by sme sa nemali usilovať o nadmerné znižovanie limitov výberových chýb, pretože to môže viesť k neodôvodnenému zvýšeniu množstva údajov vzorky a následne k zvýšeniu nákladov na výber vzoriek.

Zároveň by sa nemala nadmerne zvyšovať veľkosť chyby reprezentatívnosti. Koniec koncov, v tomto prípade, hoci dôjde k zníženiu veľkosti vzorky, povedie to k zhoršeniu spoľahlivosti získaných výsledkov.

Aké otázky zvyčajne kladie výskumník?

Akýkoľvek výskum, ak sa vykonáva, má nejaký účel a má získať nejaké výsledky. Pri vykonávaní výberového prieskumu sú spravidla počiatočné otázky:


Metódy výberu výskumných jednotiek vo vzorke

Nie každá vzorka je reprezentatívna. Niekedy je jedno a to isté znamenie inak vyjadrené v celku a v jeho časti. Na dosiahnutie požiadaviek reprezentatívnosti je vhodné použiť rôzne techniky odberu vzoriek. Okrem toho použitie jednej alebo druhej metódy závisí od konkrétnych okolností. Niektoré z týchto metód odberu vzoriek zahŕňajú:

  • náhodný výber;
  • mechanický výber;
  • typický výber;
  • sériový (vnorený) výber.

Náhodný výber je systém činností zameraných na náhodný výber jednotiek populácie, pričom pravdepodobnosť zaradenia do vzorky je rovnaká pre všetky jednotky všeobecnej populácie. Túto techniku ​​je vhodné použiť iba v prípade homogenity a malého počtu jej inherentných vlastností. V opačnom prípade hrozí, že niektoré charakteristické znaky sa vo vzorke neodrazia. Vlastnosti náhodného výberu sú základom všetkých ostatných metód odberu vzoriek.

S mechanickým výberom jednotiek sa vykonáva v určitom intervale. V prípade potreby vytvorenia vzorky konkrétnych trestných činov je možné zo všetkých štatistických záznamov evidovaných trestných činov odobrať každú 5., 10. alebo 15. kartu v závislosti od ich celkového počtu a dostupnej veľkosti vzorky. Nevýhodou tejto metódy je, že pred výberom je potrebné mať kompletný prehľad o jednotkách populácie, potom je potrebné vykonať ranking a až potom je možné v určitom intervale vzorkovať. Táto metóda trvá veľa času, takže sa často nepoužíva.

Typický (regionalizovaný) výber je typ vzorky, v ktorej je všeobecná populácia rozdelená do homogénnych skupín podľa určitého atribútu. Niekedy výskumníci namiesto „skupiny“ používajú iné výrazy: „okresy“ a „zóny“. Potom sa z každej skupiny náhodne vyberie určitý počet jednotiek v pomere k podielu skupiny na celkovej populácii. Typický výber sa často vykonáva v niekoľkých fázach.

Sériový odber vzoriek je metóda, pri ktorej sa výber jednotiek vykonáva v skupinách (sériách) a všetky jednotky vybranej skupiny (sérií) sú predmetom skúmania. Výhodou tejto metódy je, že niekedy je ťažšie vybrať jednotlivé jednotky ako série, napríklad pri štúdiu osoby, ktorá je vo výkone trestu. V rámci vybraných oblastí, zón sa uplatňuje štúdium všetkých útvarov bez výnimky, napríklad štúdium všetkých osôb vo výkone trestu v konkrétnom ústave.

Časť objektov z populácie vybraných na štúdium s cieľom vyvodiť záver o celej populácii. Aby sa záver získaný štúdiom vzorky rozšíril na celú populáciu, vzorka musí mať vlastnosť reprezentatívnosti.

Ukážková reprezentatívnosť

Vlastnosť vzorky správne odrážať všeobecnú populáciu. Tá istá vzorka môže, ale nemusí byť reprezentatívna pre rôzne populácie.
Príklad:

Vzorka pozostávajúca výlučne z Moskovčanov, ktorí vlastnia auto, nepredstavuje celú populáciu Moskvy.

Vzorka ruských podnikov do 100 zamestnancov nepredstavuje všetky podniky v Rusku.

Vzorka Moskovčanov, ktorí nakupujú na trhu, nepredstavuje nákupné správanie všetkých Moskovčanov.

Zároveň tieto vzorky (za iných podmienok) môžu dokonale reprezentovať moskovských majiteľov automobilov, malé a stredné ruské podniky a kupujúcich nakupujúcich na trhoch, resp.

Je dôležité pochopiť, že reprezentatívnosť vzorky a výberová chyba sú rozdielne javy. Reprezentatívnosť, na rozdiel od chyby, nezávisí od veľkosti vzorky.

Bez ohľadu na to, ako veľmi zvýšime počet opýtaných Moskovčanov-majiteľov áut, touto vzorkou nebudeme môcť zastupovať všetkých Moskovčanov.

Chyba vzorkovania (interval spoľahlivosti)

Odchýlka výsledkov získaných pomocou pozorovania vzorky od skutočných údajov bežnej populácie.

Existujú dva typy výberových chýb: štatistické a systematické. Štatistická chyba závisí od veľkosti vzorky. Čím väčšia je veľkosť vzorky, tým je nižšia.

Príklad:
Pre jednoduchú náhodnú vzorku 400 jednotiek je maximálna štatistická chyba (s 95% spoľahlivosťou) 5%, pre vzorku 600 jednotiek - 4%, pre vzorku 1100 jednotiek - 3%.

Systematická chyba závisí od rôznych faktorov, ktoré majú neustály vplyv na štúdiu a skresľujú výsledky štúdie určitým smerom.

Príklad:
- Použitie akejkoľvek pravdepodobnostnej vzorky podhodnocuje podiel ľudí s vysokými príjmami, ktorí vedú aktívny životný štýl. Je to spôsobené tým, že takýchto ľudí je oveľa ťažšie nájsť na akomkoľvek konkrétnom mieste (napríklad doma).

Problém respondentov, ktorí odmietajú odpovedať na otázky dotazníka (podiel „refusenikov“ v Moskve sa v rôznych prieskumoch pohybuje od 50 % do 80 %)

V niektorých prípadoch, keď sú známe skutočné rozdelenia, možno skreslenie vyrovnať zavedením kvót alebo prehodnotením údajov, ale vo väčšine skutočných štúdií môže byť dokonca odhadnutie dosť problematické.

Typy vzoriek

Vzorky sú rozdelené do dvoch typov:

pravdepodobnostný

nepravdepodobnosť

Vzorky pravdepodobnosti

1.1 Náhodný výber (jednoduchý náhodný výber)

Takáto vzorka predpokladá homogenitu všeobecnej populácie, rovnakú pravdepodobnosť dostupnosti všetkých prvkov, prítomnosť úplného zoznamu všetkých prvkov. Pri výbere prvkov sa spravidla používa tabuľka náhodných čísel.
1.2 Mechanický (systematický) odber vzoriek

Druh náhodnej vzorky, zoradený podľa nejakého atribútu (abecedné poradie, telefónne číslo, dátum narodenia atď.). Prvý prvok sa vyberie náhodne, potom sa vyberie každý 'k'-tý prvok v prírastkoch 'n'. Veľkosť všeobecnej populácie, pričom - N=n*k

1.3 Stratifikovaný (zónový)

Používa sa v prípade heterogenity bežnej populácie. Všeobecná populácia sa delí na skupiny (vrstvy). V každej vrstve sa výber uskutočňuje náhodne alebo mechanicky.

1.4 Sériové (vnorené alebo zoskupené) vzorkovanie

Pri sériovom vzorkovaní nie sú jednotkami výberu samotné objekty, ale skupiny (zhluky alebo hniezda). Skupiny sa vyberajú náhodne. Objekty v rámci skupín sa skúmajú všade.

Neuveriteľné vzorky

Výber v takejto vzorke sa neuskutočňuje podľa princípov náhody, ale podľa subjektívnych kritérií - dostupnosť, typickosť, rovnaké zastúpenie atď.

Vzorkovanie kvóty

Spočiatku sa prideľuje určitý počet skupín predmetov (napríklad muži vo veku 20-30 rokov, 31-45 rokov a 46-60 rokov; osoby s príjmom do 30 000 rubľov, s príjmom 30 až 60 rokov tisíc rubľov as príjmom viac ako 60 tisíc rubľov ) Pre každú skupinu je špecifikovaný počet objektov, ktoré sa majú skúmať. Počet objektov, ktoré by mali patriť do každej zo skupín, sa nastavuje najčastejšie buď v pomere k predtým známemu podielu skupiny na celkovej populácii, alebo rovnako pre každú skupinu. V rámci skupín sa predmety vyberajú náhodne. Vzorky kvót sa v marketingovom výskume používajú pomerne často.

Metóda snehovej gule

Vzorka je zostavená nasledovne. Každý respondent, počnúc prvým, je požiadaný, aby kontaktoval svojich priateľov, kolegov, známych, ktorí by vyhovovali podmienkam výberu a mohli by sa štúdie zúčastniť. Vzorka sa teda s výnimkou prvého kroku tvorí za účasti samotných predmetov štúdia. Metóda sa často používa, keď je potrebné nájsť a vypočuť ťažko dostupné skupiny respondentov (napríklad respondenti s vysokým príjmom, respondenti patriaci do rovnakej profesijnej skupiny, respondenti, ktorí majú nejaké podobné záľuby / vášne atď.). )
2.3 Spontánny odber vzoriek

Opýtaní sú najdostupnejší respondenti. Typickými príkladmi spontánneho odberu vzoriek sú prieskumy v novinách/časopisoch, dotazníky poskytnuté respondentom na samovyplnenie, väčšina internetových prieskumov. Veľkosť a zloženie spontánnych vzoriek nie je vopred známe a určuje ich len jeden parameter – aktivita respondentov.
2.4 Ukážka typických prípadov

Vyberajú sa jednotky bežnej populácie, ktoré majú priemernú (typickú) hodnotu atribútu. Vzniká tak problém výberu vlastnosti a určenia jej typickej hodnoty.

Realizácia výskumného plánu

Pripomíname, že táto fáza zahŕňa zber informácií a ich analýzu. Proces implementácie plánu marketingového výskumu si zvyčajne vyžaduje najviac výskumu a je zdrojom najväčších chýb.

Pri zbere štatistických údajov vzniká množstvo nedostatkov a problémov:

po prvé, niektorí respondenti nemusia byť na dohodnutom mieste a je potrebné ich znova kontaktovať alebo nahradiť;

po druhé, niektorí respondenti môžu nespolupracovať alebo dávať zaujaté, vedome nesprávne odpovede.

Vďaka moderným výpočtovým a telekomunikačným technológiám sa metódy zberu dát rozvíjajú a zdokonaľujú.

Niektoré firmy vykonávajú prieskumy z jedného centra. V tomto prípade profesionálni anketári sedia v kanceláriách a vytáčajú náhodné telefónne čísla. Ak počujú odpoveď volajúcich, anketár požiada osobu, ktorá odpovedala na telefón, aby odpovedala na niekoľko otázok. Tie sa čítajú z obrazovky monitora počítača a odpovede respondentov sa píšu na klávesnici. Táto metóda eliminuje potrebu formátovania a kódovania údajov, znižuje počet chýb.