Eșantionul poate fi. Un exemplu de eșantion nereprezentativ

Estimarea pe intervale a probabilității evenimentului. Formule de calcul al numărului de probe în cazul unei metode de selecție aleatorie.

Pentru a determina probabilitățile evenimentelor care ne interesează, folosim metoda de eșantionare: efectuăm n experimente independente, în fiecare eveniment A poate apărea (sau nu) (probabilitate R apariția evenimentului A în fiecare experiment este constantă). Apoi frecvența relativă p* a apariției evenimentelor DARîntr-o serie de n teste este luată ca o estimare punctuală a probabilității p producerea unui eveniment DARîntr-un test separat. În acest caz, se numește valoarea p* cota de eșantion aparițiile evenimentelor DAR, și r - cota generală .

În virtutea corolarului teoremei limitei centrale (teorema Moivre-Laplace), frecvența relativă a unui eveniment cu o dimensiune mare a eșantionului poate fi considerată normal distribuită cu parametrii M(p*)=p și

Prin urmare, pentru n>30, intervalul de încredere pentru fracția generală poate fi construit folosind formulele:


unde u cr se găsește conform tabelelor funcției Laplace, ținând cont de probabilitatea de încredere dată γ: 2Ф(u cr)=γ.

Cu o dimensiune mică a eșantionului n≤30, eroarea marginală ε este determinată din tabelul de distribuție Student:
unde t cr =t(k; α) și numărul de grade de libertate k=n-1 probabilitate α=1-γ (zonă cu două fețe).

Formulele sunt valabile dacă selecția a fost efectuată aleatoriu în mod repetat (populația generală este infinită), în caz contrar este necesar să se facă o corecție pentru selecția nerepetată (tabel).

Eroarea medie de eșantionare pentru proporția generală

PopulațiaFără sfârşitvolumul suprem N
Tip de selecțieSe repetănerepetată
Eroare medie de eșantionare

Formule pentru calcularea mărimii eșantionului cu o metodă adecvată de selecție aleatorie

Metoda de selecțieFormule pentru mărimea eșantionului
pentru mijlocpentru împărțire
Se repetă
nerepetată
Ponderea unităților w = . Precizia ε = . Probabilitatea γ =

Probleme legate de cota generală

La întrebarea „Valoarea dată a lui p 0 acoperă intervalul de încredere?” - se poate răspunde prin testarea ipotezei statistice H 0:p=p 0 . Se presupune că experimentele sunt efectuate conform schemei de testare Bernoulli (independent, probabilitate p producerea unui eveniment DAR constant). După volum de probă n determinaţi frecvenţa relativă p * de apariţie a evenimentului A: unde m- numărul de apariții ale evenimentului DARîntr-o serie de n teste. Pentru a testa ipoteza H 0, se folosesc statistici care, cu o dimensiune a eșantionului suficient de mare, au o distribuție normală standard (Tabelul 1).
Tabelul 1 - Ipoteze despre cota generală

Ipoteză

H0:p=p0H 0:p 1 \u003d p 2
IpotezeSchema de testare BernoulliSchema de testare Bernoulli
Estimări de probă
Statistici K
Distribuția statisticilor K Normal standard N(0,1)

Exemplul #1. Folosind reeșantionarea aleatorie, conducerea companiei a efectuat un sondaj aleatoriu asupra a 900 dintre angajații săi. Printre respondenți au fost 270 de femei. Trasează un interval de încredere care, cu o probabilitate de 0,95, acoperă proporția reală a femeilor din întreaga echipă a firmei.
Decizie. După condiție, proporția eșantionului de femei este (frecvența relativă a femeilor dintre toți respondenții). Deoarece selecția se repetă și dimensiunea eșantionului este mare (n=900), eroarea marginală de eșantionare este determinată de formula

Valoarea lui u cr se găsește din tabelul funcției Laplace din relația 2Ф(u cr)=γ, i.e. Funcția Laplace (Anexa 1) ia valoarea 0,475 la u cr =1,96. Prin urmare, eroarea marginală și intervalul de încredere dorit
(p – ε, p + ε) = (0,3 – 0,18; 0,3 + 0,18) = (0,12; 0,48)
Deci, cu o probabilitate de 0,95, se poate garanta că proporția femeilor în întreaga echipă a firmei este în intervalul de la 0,12 la 0,48.

Exemplul #2. Proprietarul parcării consideră ziua „norocoasă” dacă parcarea este plină mai mult de 80%. Pe parcursul anului au fost efectuate 40 de inspecții de parcare, dintre care 24 au fost „reușite”. Cu o probabilitate de 0,98, găsiți intervalul de încredere pentru estimarea procentului real de zile „norocoase” din timpul anului.
Decizie. Fracția eșantion de zile „bune” este
Conform tabelului funcției Laplace, găsim valoarea u cr pentru un dat
nivel de încredere
Ф(2,23) = 0,49, u cr = 2,33.
Considerând că selecția este nerepetitivă (adică două verificări nu au fost efectuate în aceeași zi), găsim eroarea marginală:
unde n=40, N=365 (zile). De aici
și interval de încredere pentru fracția generală: (p – ε, p + ε) = (0,6 – 0,17; 0,6 + 0,17) = (0,43; 0,77)
Cu o probabilitate de 0,98, se poate aștepta ca proporția zilelor „bune” din timpul anului să fie în intervalul de la 0,43 la 0,77.

Exemplul #3. După ce au verificat 2500 de articole din lot, ei au descoperit că 400 de articole au fost de cel mai înalt grad, dar n-m nu au fost. Câte produse trebuie să verificați pentru a determina ponderea gradului premium cu o precizie de 0,01 cu o certitudine de 95%?
Cautam o solutie dupa formula de determinare a marimii probei pentru reselectare.

Ф(t) = γ/2 = 0,95/2 = 0,475 și conform tabelului Laplace această valoare corespunde lui t=1,96
Fracția eșantionului w = 0,16; eroare de eșantionare ε = 0,01

Exemplul #4. Un lot de produse este acceptat dacă probabilitatea ca produsul să îndeplinească standardul este de cel puțin 0,97. Dintre cele 200 de produse alese aleatoriu din lotul testat, s-a constatat că 193 de produse îndeplinesc standardul. Este posibil să acceptăm lotul la nivelul de semnificație α=0,02?
Decizie. Formulăm ipotezele principale și alternative.
H 0: p \u003d p 0 \u003d 0,97 - cotă generală necunoscută p egală cu valoarea specificată p 0 =0,97. În raport cu condiția - probabilitatea ca piesa din lotul testat să fie conformă cu standardul este de 0,97; acestea. poate fi acceptat lot de produse.
H1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Valoare statistică observată K(tabel) calculați pentru valorile date p 0 =0,97, n=200, m=193


Valoarea critică se găsește din tabelul funcției Laplace din egalitate


Conform condiției α=0,02, deci F(Kcr)=0,48 și Kcr=2,05. Regiunea critică este stângaci, adică. este intervalul (-∞;-K kp)= (-∞;-2,05). Valoarea observată Kobs = -0,415 nu aparține regiunii critice, prin urmare, la acest nivel de semnificație, nu există niciun motiv pentru a respinge ipoteza principală. Se poate accepta un lot de produse.

Exemplul numărul 5. Două fabrici produc același tip de piese. Pentru evaluarea calității acestora s-au prelevat probe din produsele acestor fabrici și s-au obținut următoarele rezultate. Dintre cele 200 de produse selectate ale primei fabrici, 20 erau defecte, iar dintre cele 300 de produse ale celei de-a doua fabrici, 15 erau defecte.
La un nivel de semnificație de 0,025, aflați dacă există o diferență semnificativă în calitatea pieselor fabricate de aceste fabrici.

Conform condiției α=0,025, deci F(Kcr)=0,4875 și Kcr=2,24. Cu o alternativă cu două fețe, aria valorilor admisibile are forma (-2,24; 2,24). Valoarea observată Kobs =2,15 se încadrează în acest interval, adică. la acest nivel de semnificație, nu există niciun motiv pentru a respinge ipoteza principală. Fabricile produc produse de aceeași calitate.

Plan:

1. Probleme de statistică matematică.

2. Tipuri de mostre.

3. Metode de selecție.

4. Distribuția statistică a eșantionului.

5. Funcția de distribuție empirică.

6. Poligon și histogramă.

7. Caracteristicile numerice ale seriei de variații.

8. Estimări statistice ale parametrilor de distribuție.

9. Estimări de intervale ale parametrilor de distribuție.

1. Sarcini și metode de statistică matematică

Statistici matematice este o ramură a matematicii dedicată metodelor de colectare, analiză și prelucrare a rezultatelor datelor observaționale statistice în scopuri științifice și practice.

Să fie necesar să se studieze un set de obiecte omogene în raport cu o trăsătură calitativă sau cantitativă care caracterizează aceste obiecte. De exemplu, dacă există un lot de piese, atunci standardul piesei poate servi ca semn calitativ, iar dimensiunea controlată a piesei poate servi ca semn cantitativ.

Uneori se efectuează un studiu continuu, de ex. examinați fiecare obiect în raport cu caracteristica dorită. În practică, un sondaj cuprinzător este rar utilizat. De exemplu, dacă populația conține un număr foarte mare de obiecte, atunci este imposibil din punct de vedere fizic să se efectueze un sondaj continuu. Dacă examinarea obiectului este asociată cu distrugerea acestuia sau necesită costuri materiale mari, atunci nu are sens să efectuați un sondaj complet. În astfel de cazuri, un număr limitat de obiecte (set de mostre) sunt selectate aleatoriu din întreaga populație și supuse studiului lor.

Sarcina principală a statisticii matematice este de a studia întreaga populație pe baza datelor eșantionate, în funcție de obiectiv, i.e. studiul proprietăților probabilistice ale populației: legea distribuției, caracteristicile numerice etc. pentru luarea deciziilor manageriale în condiţii de incertitudine.

2. Tipuri de mostre

Populația este ansamblul de obiecte din care este realizată proba.

Populație eșantion (eșantion) este o colecție de obiecte selectate aleatoriu.

Dimensiunea populației este numărul de obiecte din această colecție. Se notează volumul populației generale N, selectiv - n.

Exemplu:

Dacă din 1000 de părți sunt selectate 100 de părți pentru examinare, atunci volumul populației generale N = 1000 și dimensiunea eșantionului n = 100.

Eșantionarea se poate face în două moduri: după ce obiectul este selectat și observat peste el, acesta poate fi returnat sau nu în rândul populației generale. Acea. Probele sunt împărțite în repetate și nerepetate.

Se repetănumit prelevarea de probe, la care obiectul selectat (înainte de a-l selecta pe următorul) este returnat populației generale.

Nerepetănumit prelevarea de probe, la care obiectul selectat nu este returnat populației generale.

În practică, de obicei se utilizează selecția aleatorie nerepetitivă.

Pentru ca datele eșantionului să fie suficient de sigure în aprecierea trăsăturii de interes în populația generală, este necesar ca obiectele eșantionului să o reprezinte corect. Eșantionul trebuie să reprezinte corect proporțiile populației. Eșantionul trebuie să fie reprezentant (reprezentant).

În virtutea legii numerelor mari, se poate susține că eșantionul va fi reprezentativ dacă se realizează aleatoriu.

Dacă dimensiunea populației generale este suficient de mare, iar eșantionul este doar o mică parte din această populație, atunci distincția dintre eșantioanele repetate și cele nerepetate este ștearsă; în cazul limitativ, când se consideră o populație generală infinită, iar eșantionul are o dimensiune finită, această diferență dispare.

Exemplu:

În jurnalul american Literary Review, folosind metode statistice, a fost realizat un studiu al previziunilor privind rezultatul viitoarelor alegeri prezidențiale din SUA din 1936. Candidații pentru acest post au fost F.D. Roosevelt și A. M. Landon. Cărțile de referință ale abonaților la telefonie au fost luate ca sursă pentru populația generală a americanilor studiați. Dintre acestea, au fost alese aleatoriu 4 milioane de adrese, cărora redactorii revistei au trimis cărți poștale în care le-au rugat să-și exprime atitudinea față de candidații la președinție. După procesarea rezultatelor sondajului, revista a publicat o prognoză sociologică conform căreia Landon va câștiga viitoarele alegeri cu o marjă mare. Și... m-am înșelat: Roosevelt a câștigat.
Acest exemplu poate fi văzut ca un exemplu de eșantion nereprezentativ. Cert este că în Statele Unite, în prima jumătate a secolului al XX-lea, doar partea bogată a populației, care susținea părerile lui Landon, avea telefoane.

3. Metode de selecție

În practică, se folosesc diverse metode de selecție, care pot fi împărțite în 2 tipuri:

1. Selecția nu necesită împărțirea populației în părți (a) simplu aleatoriu fără repetare; b) repetare simplă aleatorie).

2. Selecția, în care populația generală este împărțită în părți. (A) selecție tipică; b) selecție mecanică; în) serial selecţie).

Simplu aleatoriu numi asta selecţie, în care obiectele sunt extrase unul câte unul din întreaga populație generală (aleatoriu).

Tipicnumit selecţie, în care obiectele sunt selectate nu din întreaga populație generală, ci din fiecare dintre părțile sale „tipice”. De exemplu, dacă o piesă este fabricată pe mai multe mașini, atunci selecția se face nu din întregul set de piese produse de toate mașinile, ci din produsele fiecărei mașini separat. O astfel de selecție este utilizată atunci când trăsătura examinată fluctuează semnificativ în diferite părți „tipice” ale populației generale.

Mecanicnumit selecţie, în care populația generală este împărțită „mecanic” în atâtea grupuri câte obiecte sunt incluse în eșantion și se selectează câte un obiect din fiecare grup. De exemplu, dacă trebuie să selectați 20% din piesele realizate de mașină, atunci fiecare a 5-a parte este selectată; dacă este necesar să selectați 5% din piese - la fiecare 20 etc. Uneori, o astfel de selecție poate să nu asigure un eșantion reprezentativ (dacă este selectată fiecare a 20-a rolă de răsucire, iar tăietorul este înlocuit imediat după selecție, atunci vor fi selectate toate rolele rotite cu freze contondente).

Serialnumit selecţie, în care obiectele sunt selectate din populația generală nu pe rând, ci în „serie”, care sunt supuse unui sondaj continuu. De exemplu, dacă produsele sunt fabricate de un grup mare de mașini automate, atunci produsele doar a câtorva mașini sunt supuse unei examinări continue.

În practică, este adesea folosită selecția combinată, în care metodele de mai sus sunt combinate.

4. Distribuția statistică a eșantionului

Să fie luat un eșantion din populația generală, iar valoarea x 1-observat o dată, x 2 -n de 2 ori, ... x k - n k ori. n= n 1 +n 2 +...+n k este dimensiunea eșantionului. Valori observatenumit Opțiuni, iar secvența este o variantă scrisă în ordine crescătoare - serie variațională. Numărul de observațiinumit frecvențe (frecvențe absolute), și relația lor cu dimensiunea eșantionului- frecvențe relative sau probabilități statistice.

Dacă numărul de opțiuni este mare sau eșantionul este realizat dintr-o populație generală continuă, atunci seria de variații este compilată nu prin valori individuale de puncte, ci pe intervale de valori ale populației generale. O astfel de serie se numește interval. Lungimile intervalelor trebuie să fie egale.

Distribuția statistică a eșantionului numită listă de opțiuni și frecvențele corespunzătoare sau frecvențele relative.

Distribuția statistică poate fi specificată și ca o succesiune de intervale și frecvențele corespunzătoare acestora (suma frecvențelor care se încadrează în acest interval de valori)

Seria de variație punctuală a frecvențelor poate fi reprezentată printr-un tabel:

x i
x 1
x2

x k
n i
n 1
n 2

nk

În mod similar, se poate reprezenta o serie variațională punctuală de frecvențe relative.

Și:

Exemplu:

Numărul de litere din textul X s-a dovedit a fi egal cu 1000. Prima literă a fost „i”, a doua - litera „i”, a treia - litera „a”, a patra - „u”. Apoi au venit literele „o”, „e”, „y”, „e”, „s”.

Să notăm locurile pe care le ocupă în alfabet, respectiv, avem: 33, 10, 1, 32, 16, 6, 21, 31, 29.

După ordonarea acestor numere în ordine crescătoare, obținem o serie de variații: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Frecvențele de apariție a literelor în text: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7," I "- 22.

Compunem o serie de variații punctuale de frecvențe:

Exemplu:

Distribuția de frecvență de eșantionare a volumului specificată n = 20.

Faceți o serie de variații punctuale de frecvențe relative.

x i

2

6

12

n i

3

10

7

Decizie:

Aflați frecvențele relative:


x i

2

6

12

w i

0,15

0,5

0,35

La construirea unei distribuții de intervale, există reguli pentru alegerea numărului de intervale sau a mărimii fiecărui interval. Criteriul aici este raportul optim: cu creșterea numărului de intervale, reprezentativitatea se îmbunătățește, dar cantitatea de date și timpul de prelucrare a acestora crește. Diferență x max - x min între cea mai mare și cea mai mică variantă se numește la scară mare mostre.

Pentru a număra numărul de intervale k de obicei aplicați formula empirică a lui Sturgess (implicând rotunjirea la cel mai apropiat număr întreg convenabil): k = 1 + 3,322 log n .

În consecință, valoarea fiecărui interval h poate fi calculat folosind formula:

5. Funcția de distribuție empirică

Luați în considerare un eșantion din populația generală. Să fie cunoscută distribuția statistică a frecvențelor atributului cantitativ X. Să introducem notația: n xeste numărul de observații în care a fost observată o valoare a caracteristicii mai mică decât x; n este numărul total de observații (mărimea eșantionului). Frecvența relativă a evenimentelor X<х равна n x /n . Dacă x se modifică, atunci se modifică și frecvența relativă, adică. frecventa relativan x /neste o funcție a lui x. pentru că se găsește empiric, se numește empiric.

Funcția de distribuție empirică (funcția de distribuție a eșantionului) apelați funcția, care determină pentru fiecare x frecvența relativă a evenimentului X<х.


unde este numărul de opțiuni mai mic decât x,

n - dimensiunea eșantionului.

Spre deosebire de funcția de distribuție empirică a eșantionului, se numește funcția de distribuție F(x) a populației funcţia de distribuţie teoretică.

Diferența dintre funcțiile de distribuție empiric și teoretic este că funcția teoretică F (x) determină probabilitatea unui eveniment X F*(x) tinde în probabilitate la probabilitatea F (x) a acestui eveniment. Adică pentru n mare F*(x)și F(x) diferă puțin unul de celălalt.

Acea. este recomandabil să se utilizeze funcția de distribuție empirică a eșantionului pentru o reprezentare aproximativă a funcției de distribuție teoretică (integrală) a populației generale.

F*(x) are toate proprietatile F(x).

1. Valori F*(x) aparțin intervalului.

2. F*(x) este o funcție nedescrescătoare.

3. Dacă este varianta cea mai mică, atunci F*(x) = 0, la x < x1; dacă x k este cea mai mare variantă, atunci F*(x) = 1, pentru x > x k .

Acestea. F*(x) servește la estimarea F(x).

Dacă eșantionul este dat de o serie variațională, atunci funcția empirică are forma:

Graficul funcției empirice se numește cumulativ.

Exemplu:

Trasează o funcție empirică peste distribuția eșantionului dată.


Decizie:

Dimensiunea eșantionului n = 12 + 18 +30 = 60. Cea mai mică opțiune este 2, adică. la x < 2. Evenimentul X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 la 2 < X < 6. Evenimentul X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < X < 10. Pentru că x=10 este cea mai mare opțiune, atunci F*(x) = 1 la x>10. Funcția empirică dorită are forma:

Cumula:


Cumulul face posibilă înțelegerea informațiilor prezentate grafic, de exemplu, pentru a răspunde la întrebările: „Determină numărul de observații în care valoarea caracteristicii a fost mai mică de 6 sau nu mai mică de 6. F*(6) = 0,2 » Atunci numărul de observații în care valoarea caracteristicii observate a fost mai mică de 6 este 0,2* n \u003d 0,2 * 60 \u003d 12. Numărul de observații în care valoarea caracteristicii observate nu a fost mai mică de 6 este (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Dacă este dată o serie de variații de interval, atunci pentru a compila funcția de distribuție empirică, se găsesc punctele medii ale intervalelor și se obține din ele funcția de distribuție empirică în mod similar cu seria de variație de puncte.

6. Poligon și histogramă

Pentru claritate, sunt construite diverse grafice ale distribuției statistice: polinom și histograme

poligon de frecventa- aceasta este o linie întreruptă, ale cărei segmente leagă punctele ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), unde sunt opțiunile, sunt frecvențele corespunzătoare acestora.

Poligon de frecvențe relative - aceasta este o linie întreruptă, ale cărei segmente leagă punctele ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), unde x i sunt opțiuni, w i sunt frecvențele relative corespunzătoare acestora.

Exemplu:

Trasează polinomul de frecvență relativă pe distribuția eșantionului dată:

Decizie:

În cazul unei caracteristici continue, este recomandabil să se construiască o histogramă, pentru care intervalul, care conține toate valorile observate ale caracteristicii, este împărțit în mai multe intervale parțiale de lungime h și pentru fiecare interval parțial se găsește n i - suma frecventelor variante care se incadreaza in intervalul i-lea. (De exemplu, atunci când măsuram înălțimea sau greutatea unei persoane, avem de-a face cu un semn continuu).

Histograma de frecventa - aceasta este o figură în trepte, constând din dreptunghiuri, ale căror baze sunt intervale parțiale de lungime h, iar înălțimile sunt egale cu raportul (densitatea de frecvență).

Pătrat i-lea dreptunghi parțial este egal cu suma frecvențelor variantei intervalului i-lea, adică. zona histogramei de frecvență este egală cu suma tuturor frecvențelor, adică marime de mostra.

Exemplu:

Sunt date rezultatele modificării tensiunii (în volți) în rețeaua electrică. Compuneți o serie de variații, construiți un poligon și o histogramă de frecvență dacă valorile tensiunii sunt următoarele: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220 216, 220, 225, 212, 217, 220.

Decizie:

Să creăm o serie de variații. Avem n = 20, x min =212, x max =232.

Să folosim formula Sturgess pentru a calcula numărul de intervale.

Seria variațională a intervalului de frecvențe are forma:


Densitatea de frecventa

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Să construim o histogramă de frecvențe:

Să construim un poligon de frecvențe găsind mai întâi punctele medii ale intervalelor:


Histograma frecvențelor relative numiți o figură în trepte constând din dreptunghiuri, ale căror baze sunt intervale parțiale de lungime h, iar înălțimile sunt egale cu raportul w i/h (densitatea de frecvență relativă).

Pătrat I-lea dreptunghi parțial este egal cu frecvența relativă a variantei care a intrat în intervalul i-lea. Acestea. aria histogramei frecvențelor relative este egală cu suma tuturor frecvențelor relative, adică unitate.

7. Caracteristicile numerice ale seriei de variații

Luați în considerare principalele caracteristici ale populației generale și eșantionului.

Secundar general se numește media aritmetică a valorilor caracteristicii populației generale.

Pentru valori diferite x 1 , x 2 , x 3 , …, x n . semn al populației generale de volum N avem:

Dacă valorile atributelor au frecvențe corespunzătoare N 1 +N 2 +…+N k =N , atunci


eșantion mediu se numește media aritmetică a valorilor caracteristicii populației eșantionului.

Dacă valorile atributelor au frecvențe corespunzătoare n 1 +n 2 +…+n k = n, atunci


Exemplu:

Calculați media eșantionului pentru eșantion: x 1 = 51,12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52,93; x 5 \u003d 51,1; x 6 \u003d 52,98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Decizie:

Varianta generala se numește media aritmetică a abaterilor pătrate ale valorilor caracteristicii X a populației generale față de media generală.

Pentru diferite valori x 1 , x 2 , x 3 , …, x N ale semnului populației de volum N avem:

Dacă valorile atributelor au frecvențe corespunzătoare N 1 +N 2 +…+N k =N , atunci

Abatere standard generală (standard) numită rădăcina pătrată a varianței generale

Varianta eșantionului se numește media aritmetică a abaterilor pătrate ale valorilor observate ale caracteristicii față de valoarea medie.

Pentru diferite valori x 1 , x 2 , x 3 , ..., x n ale semnului populației eșantionului de volum n avem:


Dacă valorile atributelor au frecvențe corespunzătoare n 1 +n 2 +…+n k = n, atunci


Abatere standard eșantion (standard) se numește rădăcina pătrată a varianței eșantionului.


Exemplu:

Setul de eșantionare este dat de tabelul de distribuție. Găsiți varianța eșantionului.


Decizie:

Teorema: Varianta este egală cu diferența dintre media pătratelor valorilor caracteristicilor și pătratul mediei totale.

Exemplu:

Găsiți varianța pentru această distribuție.



Decizie:

8. Estimări statistice ale parametrilor de distribuție

Să fie studiată populația generală de un eșantion. În acest caz, este posibil să se obțină doar o valoare aproximativă a parametrului necunoscut Q, care servește drept estimare a acestuia. Este evident că estimările pot varia de la un eșantion la altul.

Evaluare statisticăQ* parametrul necunoscut al distribuției teoretice se numește funcția f, care depinde de valorile observate ale eșantionului. Sarcina estimării statistice a parametrilor necunoscuți dintr-un eșantion este de a construi o astfel de funcție din datele disponibile de observații statistice, care ar da cele mai precise valori aproximative ale valorilor reale, necunoscute cercetătorului, ale acestor parametri.

Estimările statistice sunt împărțite în punct și interval, în funcție de modul în care sunt furnizate (număr sau interval).

O estimare punctuală se numește estimare statistică. parametrul Q al distribuției teoretice determinat de o valoare a parametrului Q *=f (x 1 , x 2 , ..., x n), undex 1 , x 2 , ...,xn- rezultatele observaţiilor empirice asupra atributului cantitativ X al unui anumit eşantion.

Astfel de estimări ale parametrilor obținute din probe diferite diferă cel mai adesea una de alta. Se numește diferența absolută /Q *-Q / eroare de eșantionare (estimare).

Pentru ca estimările statistice să dea rezultate fiabile cu privire la parametrii estimați, este necesar ca aceștia să fie imparțiali, eficienți și consecvenți.

Estimarea punctului, a cărui așteptare matematică este egală (nu egală) cu parametrul estimat, se numește neschimbat (deplasat). M(Q*)=Q.

Diferența M( Q *)-Q este numit părtinire sau eroare sistematică. Pentru estimările imparțiale, eroarea sistematică este 0.

eficient evaluare Q *, care, pentru o dimensiune dată de eșantion n, are cea mai mică varianță posibilă: D min(n = const). Estimatorul efectiv are cea mai mică diferență în comparație cu alți estimatori imparțiali și consecvenți.

Bogatse numește un astfel de statistic evaluare Q*, care pentru ntinde în probabilitate spre parametrul estimat Q , adică cu o creștere a dimensiunii eșantionului n estimarea tinde în probabilitate la valoarea adevărată a parametrului Q.

Cerința de consistență este în concordanță cu legea numerelor mari: cu cât mai multe informații inițiale despre obiectul studiat, cu atât rezultatul este mai precis. Dacă dimensiunea eșantionului este mică, atunci estimarea punctuală a parametrului poate duce la erori grave.

Orice proba (volumn) poate fi gândit ca un set ordonatx 1 , x 2 , ...,xn variabile aleatoare independente distribuite identic.

Mijloace de probă pentru probe de volum diferit n din aceeași populație vor fi diferite. Adică media eșantionului poate fi considerată ca o variabilă aleatoare, ceea ce înseamnă că putem vorbi despre distribuția mediei eșantionului și caracteristicile sale numerice.

Media eșantionului satisface toate cerințele impuse estimărilor statistice, i.e. oferă o estimare imparțială, eficientă și consecventă a mediei populației.

Se poate dovedi că. Astfel, varianța eșantionului este o estimare părtinitoare a varianței generale, dându-i o valoare subestimată. Adică, cu o dimensiune mică a eșantionului, va da o eroare sistematică. Pentru o estimare imparțială, consecventă, este suficient să luăm cantitatea, care se numește varianță corectată. adică

În practică, pentru a estima varianța generală, se folosește varianța corectată când n < 30. În alte cazuri ( n >30) abatere de la greu de observat. Prin urmare, pentru valori mari n eroarea de părtinire poate fi neglijată.

Se mai poate demonstra că frecvența relativăn i / n este o estimare de probabilitate imparțială și consecventă P(X=x i ). Funcția de distribuție empirică F*(x ) este o estimare imparțială și consecventă a funcției de distribuție teoretică F(x)=P(X< x ).

Exemplu:

Găsiți estimările nepărtinitoare ale mediei și varianței din tabelul eșantionului.

x i
n i

Decizie:

Dimensiunea eșantionului n=20.

Estimarea imparțială a așteptărilor matematice este media eșantionului.


Pentru a calcula estimarea imparțială a varianței, găsim mai întâi varianța eșantionului:

Acum să găsim estimarea imparțială:

9. Estimări de intervale ale parametrilor de distribuție

Un interval este o estimare statistică determinată de două valori numerice - capetele intervalului studiat.

Număr> 0, unde | Q - Q*|< , caracterizează acuratețea estimării intervalului.

De încrederenumit interval , care cu o probabilitate datăacoperă valoarea necunoscută a parametrului Q . Complementarea intervalului de încredere cu setul tuturor valorilor posibile ale parametrilor Q numit zona critica. Dacă regiunea critică este situată doar pe o parte a intervalului de încredere, atunci se numește intervalul de încredere unilateral: stânga, dacă regiunea critică există doar în stânga, și dreptaci decât dacă în dreapta. În caz contrar, se numește intervalul de încredere bilateral.

Fiabilitatea sau nivelul de încredere, Estimări Q (folosind Q *) numiți probabilitatea cu care se îndeplinește următoarea inegalitate: | Q - Q*|< .

Cel mai adesea, probabilitatea de încredere este stabilită în avans (0,95; 0,99; 0,999) și i se impune cerința de a fi aproape de unu.

Probabilitatenumit probabilitatea de eroare sau nivelul de semnificație.

Să | Q - Q*|< , apoi. Aceasta înseamnă că cu o probabilitatese poate argumenta că adevărata valoare a parametrului Q aparține intervalului. Cu cât abaterea este mai mică, cu atât estimarea este mai precisă.

Se numesc limitele (capetele) intervalului de încredere limite de încredere sau granițe critice.

Valorile limitelor intervalului de încredere depind de legea de distribuție a parametrului Q*.

Valoarea abateriijumătate din lățimea intervalului de încredere se numește acuratețea evaluării.

Metodele de construire a intervalelor de încredere au fost dezvoltate pentru prima dată de statisticianul american Y. Neumann. Precizia estimării, probabilitatea de încredere și dimensiunea eșantionului n interconectate. Prin urmare, cunoscând valorile specifice a două cantități, o puteți calcula oricând pe a treia.

Găsirea intervalului de încredere pentru estimarea așteptării matematice a unei distribuții normale dacă abaterea standard este cunoscută.

Să fie făcut un eșantion din populația generală, supus legii distribuției normale. Fie cunoscută abaterea standard generală, dar așteptarea matematică a distribuției teoretice este necunoscută A ().

Următoarea formulă este valabilă:

Acestea. conform valorii abaterii specificatese poate afla cu ce probabilitate media generală necunoscută aparține intervalului. Si invers. Din formula se poate observa că, odată cu creșterea dimensiunii eșantionului și o valoare fixă ​​a probabilității de încredere, valoarea- scade, i.e. acuratețea estimării este crescută. Cu o creștere a fiabilității (probabilitatea de încredere), valoarea-creste, i.e. acuratețea estimării scade.

Exemplu:

În urma testelor, s-au obținut următoarele valori -25, 34, -20, 10, 21. Se știe că respectă legea distribuției normale cu o abatere standard de 2. Aflați estimarea a * pentru așteptări matematice a. Trasează un interval de încredere de 90% pentru acesta.

Decizie:

Să găsim estimarea imparțială

Apoi


Intervalul de încredere pentru a are forma: 4 - 1,47< A< 4+ 1,47 или 2,53 < a < 5, 47

Găsirea intervalului de încredere pentru estimarea așteptării matematice a unei distribuții normale dacă abaterea standard este necunoscută.

Să se știe că populația generală este supusă legii distribuției normale, unde a și. Acuratețea acoperirii intervalului de încredere cu fiabilitatevaloarea adevărată a parametrului a, în acest caz, se calculează prin formula:

, unde n este dimensiunea eșantionului, , - Coeficientul studentului (trebuie găsit din valorile date n și din tabelul „Puncte critice ale distribuției Studentului”).

Exemplu:

În urma testelor, s-au obținut următoarele valori -35, -32, -26, -35, -30, -17. Se știe că respectă legea distribuției normale. Aflați intervalul de încredere pentru media populației a cu un nivel de încredere de 0,9.

Decizie:

Să găsim estimarea imparțială.

Sa gasim.

Apoi

Intervalul de încredere va lua forma(-29,2 - 5,62; -29,2 + 5,62) sau (-34,82; -23,58).

Găsirea intervalului de încredere pentru varianța și abaterea standard a unei distribuții normale

Să fie luată o mostră aleatorie de volum dintr-un set general de valori distribuite conform legii normalen < 30 pentru care se calculează variațiile eșantionului: părtinitoareși corectat s 2. Apoi pentru a găsi estimări de interval cu o fiabilitate datăpentru dispersie generalăDabaterea standard generalăse folosesc următoarele formule.


sau,

Valori- găsiți folosind tabelul de valori ale punctelor criticeDistribuții Pearson.

Intervalul de încredere pentru varianță este găsit din aceste inegalități prin pătrarea tuturor părților inegalității.

Exemplu:

S-a verificat calitatea celor 15 șuruburi. Presupunând că eroarea în fabricarea lor este supusă legii distribuției normale și abaterii standard a eșantionuluiegal cu 5 mm, determinați cu fiabilitateinterval de încredere pentru parametrul necunoscut

Reprezentăm limitele intervalului ca o dublă inegalitate:

Capetele intervalului de încredere cu două fețe pentru varianță pot fi determinate fără a efectua operații aritmetice pentru un anumit nivel de încredere și dimensiunea eșantionului folosind tabelul corespunzător (Margini ale intervalelor de încredere pentru varianță în funcție de numărul de grade de libertate și fiabilitate ). Pentru a face acest lucru, capetele intervalului obținut din tabel sunt înmulțite cu varianța corectată s 2.

Exemplu:

Să rezolvăm problema anterioară într-un mod diferit.

Decizie:

Să găsim varianța corectată:

Conform tabelului „Margini ale intervalelor de încredere pentru varianță în funcție de numărul de grade de libertate și fiabilitate”, găsim limitele intervalului de încredere pentru varianță lak=14 și: limita inferioara 0,513 si limita superioara 2,354.

Înmulțiți limitele obținute cus 2 și extrageți rădăcina (pentru că avem nevoie de un interval de încredere nu pentru varianță, ci pentru abaterea standard).

După cum se poate observa din exemple, valoarea intervalului de încredere depinde de metoda de construcție a acestuia și dă rezultate apropiate, dar diferite.

Pentru mostre de dimensiuni suficient de mari (n>30) limitele intervalului de încredere pentru abaterea standard generală pot fi determinate prin formula: - un număr, care este tabelat și dat în tabelul de referință corespunzător.

Daca 1- q<1, то формула имеет вид:

Exemplu:

Să rezolvăm problema anterioară în al treilea mod.

Decizie:

Găsit anteriors= 5,17. q(0,95; 15) = 0,46 - găsim conform tabelului.

Apoi:

Se întâmplă adesea să fie necesar să se analizeze un anumit fenomen social și să se obțină informații despre acesta. Asemenea sarcini apar adesea în statistică și în cercetarea statistică. Verificarea unui fenomen social complet definit este adesea imposibilă. De exemplu, cum să aflați părerea populației sau a tuturor locuitorilor unui anumit oraș cu privire la orice problemă? A cere absolut toată lumea este aproape imposibil și foarte laborios. În astfel de cazuri, avem nevoie de o probă. Acesta este exact conceptul pe care se bazează aproape toate cercetările și analizele.

Ce este o mostră

Atunci când se analizează un anumit fenomen social, este necesar să se obțină informații despre acesta. Dacă luăm orice studiu, putem observa că nu fiecare unitate din totalitatea obiectului de studiu este supusă cercetării și analizei. Doar o anumită parte din această totalitate este luată în considerare. Acest proces este eșantionarea: atunci când sunt examinate doar anumite unități din set.

Desigur, mult depinde de tipul eșantionului. Dar există și reguli de bază. Principalul spune că selecția din populație trebuie să fie absolut aleatorie. Unitățile de populație care urmează să fie utilizate nu trebuie selectate din cauza niciunui criteriu. În linii mari, dacă este necesar să se colecteze o populație din populația unui anumit oraș și să se selecteze numai bărbați, atunci va exista o eroare în studiu, deoarece selecția nu a fost efectuată aleatoriu, ci a fost selectată în funcție de sex. Aproape toate metodele de eșantionare se bazează pe această regulă.

Reguli de eșantionare

Pentru ca setul selectat să reflecte principalele calități ale întregului fenomen, acesta trebuie să fie construit conform unor legi specifice, unde atenția principală trebuie acordată următoarelor categorii:

  • eșantion (populație eșantion);
  • populația generală;
  • reprezentativitate;
  • eroare de reprezentativitate;
  • unitate de populație;
  • metode de eșantionare.

Caracteristicile observației selective și ale prelevării de probe sunt următoarele:

  1. Toate rezultatele obținute se bazează pe legi și reguli matematice, adică cu desfășurarea corectă a studiului și cu calculele corecte, rezultatele nu vor fi distorsionate pe o bază subiectivă
  2. Face posibilă obținerea unui rezultat mult mai rapid și cu mai puțin timp și resurse, studiind nu întreaga gamă de evenimente, ci doar o parte a acestora.
  3. Poate fi folosit pentru a studia diverse obiecte: de la probleme specifice, de exemplu, vârsta, sexul grupului de interes pentru noi, până la studiul opiniei publice sau nivelul de sprijin material al populației.

Observație selectivă

Selectiv - aceasta este o astfel de observație statistică în care nu întreaga populație a studiului este supusă cercetării, ci doar o parte a acesteia, selectată într-un anumit mod, iar rezultatele studiului acestei părți se aplică întregii populații. Această parte se numește cadrul de eșantionare. Acesta este singurul mod de a studia o gamă largă de obiecte de studiu.

Dar observația selectivă poate fi folosită numai în cazurile în care este necesar să se studieze doar un grup mic de unități. De exemplu, atunci când se studiază raportul dintre bărbați și femei din lume, se va folosi observația selectivă. Din motive evidente, este imposibil să ținem cont de fiecare locuitor al planetei noastre.

Dar cu același studiu, dar nu al tuturor locuitorilor pământului, ci al unei anumite clase 2 „A” dintr-o anumită școală, un anumit oraș, o anumită țară, se poate renunța la observarea selectivă. La urma urmei, este foarte posibil să se analizeze întreaga gamă a obiectului de studiu. Este necesar să numărați băieții și fetele din această clasă - acesta va fi raportul.

Eșantion și populație

De fapt, nu este atât de dificil pe cât pare. În orice obiect de studiu există două sisteme: populație generală și populație eșantion. Ce este? Toate unitățile aparțin generalului. Și la eșantion - acele unități din populația totală care au fost luate pentru eșantion. Dacă totul este făcut corect, atunci partea selectată va fi un aspect redus al întregii populații (generale).

Dacă vorbim despre populația generală, atunci putem distinge doar două dintre soiurile sale: populația generală definită și nedefinită. Depinde dacă numărul total de unități ale unui sistem dat este cunoscut sau nu. Dacă este vorba de o anumită populație, atunci eșantionarea va fi mai ușoară datorită faptului că se știe ce procent din numărul total de unități va fi eșantionat.

Acest moment este foarte necesar în cercetare. De exemplu, dacă este necesar să se investigheze procentul de produse de cofetărie de calitate scăzută la o anumită fabrică. Să presupunem că populația a fost deja definită. Se știe cu siguranță că această întreprindere produce 1000 de produse de cofetărie pe an. Dacă facem o probă de 100 de produse de cofetărie aleatorii din această mie și le trimitem spre examinare, atunci eroarea va fi minimă. Aproximativ, 10% din toate produsele au fost supuse cercetării, iar pe baza rezultatelor, ținând cont de eroarea de reprezentativitate, putem vorbi de calitatea proastă a tuturor produselor.

Și dacă faceți un eșantion de 100 de produse de cofetărie dintr-o populație generală nedeterminată, unde au existat de fapt, să zicem, 1 milion de unități, atunci rezultatul eșantionului și studiul în sine vor fi critic de neplauzibil și inexact. Simte diferenta? Prin urmare, certitudinea populației generale în majoritatea cazurilor este extrem de importantă și afectează foarte mult rezultatul studiului.

Reprezentativitatea populației

Deci, acum una dintre cele mai importante întrebări - care ar trebui să fie eșantionul? Acesta este cel mai important punct al studiului. În această etapă, este necesar să se calculeze eșantionul și să se selecteze unități din numărul total în el. Populația a fost selectată corect dacă în eșantion rămân anumite trăsături și caracteristici ale populației generale. Aceasta se numește reprezentativitate.

Cu alte cuvinte, dacă, după selecție, o parte păstrează aceleași tendințe și caracteristici ca întreaga cantitate de examinat, atunci o astfel de populație se numește reprezentativă. Dar nu fiecare eșantion specific poate fi selectat dintr-o populație reprezentativă. Există și astfel de obiecte de cercetare, al căror eșantion pur și simplu nu poate fi reprezentativ. De aici vine conceptul de eroare de reprezentativitate. Dar să mai vorbim puțin despre asta.

Cum se face o selecție

Deci, pentru a maximiza reprezentativitatea, există trei reguli de bază de eșantionare:


Eroare (eroare) de reprezentativitate

Principala caracteristică a calității eșantionului selectat este conceptul de „eroare de reprezentativitate”. Ce este? Acestea sunt anumite discrepanțe între indicatorii de observație selectivă și continuă. Conform indicatorilor de eroare, reprezentativitatea este împărțită în fiabil, obișnuit și aproximativ. Cu alte cuvinte, sunt acceptabile abateri de până la 3%, de la 3 la 10% și, respectiv, de la 10 la 20%. Deși în statistică este de dorit ca eroarea să nu depășească 5-6%. În caz contrar, există motive să vorbim despre reprezentativitatea insuficientă a eșantionului. Pentru a calcula eroarea de reprezentativitate și modul în care aceasta afectează un eșantion sau o populație, sunt luați în considerare mulți factori:

  1. Probabilitatea cu care se obține un rezultat precis.
  2. Numărul de unități de prelevare. După cum sa menționat mai devreme, cu cât numărul de unități din eșantion este mai mic, cu atât eroarea de reprezentativitate va fi mai mare și invers.
  3. Omogenitatea populației studiate. Cu cât populația este mai eterogenă, cu atât eroarea de reprezentativitate va fi mai mare. Capacitatea unei populații de a fi reprezentativă depinde de omogenitatea tuturor unităților sale constitutive.
  4. O metodă de selectare a unităților dintr-o populație eșantion.

În studiile specifice, eroarea procentuală a mediei este stabilită de obicei de către investigator însuși, pe baza programului de observație și în funcție de datele din studiile anterioare. De regulă, eroarea maximă de eșantionare (eroarea de reprezentativitate) în intervalul 3-5% este considerată acceptabilă.

Mai mult nu este întotdeauna mai bine

De asemenea, merită să ne amintim că principalul lucru în organizarea observației selective este să-și aducă volumul la un minim acceptabil. În același timp, nu trebuie să ne străduim să reducem excesiv limitele de eroare de eșantionare, deoarece acest lucru poate duce la o creștere nejustificată a cantității de date de eșantionare și, în consecință, la o creștere a costului eșantionării.

În același timp, dimensiunea erorii de reprezentativitate nu trebuie crescută excesiv. La urma urmei, în acest caz, deși va exista o scădere a dimensiunii eșantionului, aceasta va duce la o deteriorare a fiabilității rezultatelor obținute.

Ce întrebări sunt puse de obicei de către cercetător?

Orice cercetare, dacă este efectuată, are un anumit scop și pentru a obține unele rezultate. Atunci când se efectuează un sondaj eșantion, de regulă, întrebările inițiale sunt:


Metode de selectare a unităților de cercetare din eșantion

Nu fiecare eșantion este reprezentativ. Uneori, unul și același semn este exprimat diferit în întreg și în partea sa. Pentru a atinge cerințele de reprezentativitate, se recomandă utilizarea diferitelor tehnici de eșantionare. Mai mult, utilizarea unei metode sau alteia depinde de circumstanțele specifice. Unele dintre aceste metode de eșantionare includ:

  • selectie aleatorie;
  • selecție mecanică;
  • selecție tipică;
  • selecție în serie (imbricate).

Selecția aleatorie este un sistem de activități care vizează selecția aleatorie a unităților populației, atunci când probabilitatea de a fi incluse în eșantion este egală pentru toate unitățile populației generale. Această tehnică este recomandabilă să se aplice numai în cazul omogenității și a unui număr mic de caracteristicile sale inerente. În caz contrar, unele trăsături caracteristice riscă să nu fie reflectate în eșantion. Caracteristicile selecției aleatorii stau la baza tuturor celorlalte metode de eșantionare.

Cu selecția mecanică a unităților se efectuează la un anumit interval. În cazul în care este necesară formarea unui eșantion de infracțiuni specifice, se poate scoate fiecare a 5-a, a 10-a sau a 15-a fișă din toate evidențele statistice ale infracțiunilor înregistrate, în funcție de numărul lor total și de mărimea eșantionului disponibil. Dezavantajul acestei metode este că înainte de selecție este necesar să se aibă o evidență completă a unităților populației, apoi este necesar să se efectueze o clasare și numai după aceea este posibilă eșantionarea cu un anumit interval. Această metodă necesită mult timp, așa că nu este folosită des.

Selecția tipică (regionalizată) este un tip de eșantion în care populația generală este împărțită în grupuri omogene în funcție de un anumit atribut. Uneori, cercetătorii folosesc alți termeni în loc de „grupuri”: „districte” și „zone”. Apoi, din fiecare grup, un anumit număr de unități este selectat aleatoriu proporțional cu ponderea grupului în populația totală. O selecție tipică este adesea efectuată în mai multe etape.

Eșantionarea în serie este o metodă în care selecția unităților se efectuează în grupuri (serie) și toate unitățile din grupul (seriele) selectate sunt supuse examinării. Avantajul acestei metode este că uneori este mai dificil să selectați unități individuale decât serii, de exemplu, atunci când studiați o persoană care ispășește o pedeapsă. În zonele, zonele selectate, se aplică studiul tuturor unităților fără excepție, de exemplu, studiul tuturor persoanelor care execută pedepse într-o anumită instituție.

O parte din obiectele din populația selectate pentru studiu pentru a trage o concluzie despre întreaga populație. Pentru ca concluzia obținută prin studierea eșantionului să fie extinsă la întreaga populație, eșantionul trebuie să aibă proprietatea de a fi reprezentativ.

Reprezentativitatea eșantionului

Proprietatea eșantionului de a reflecta corect populația generală. Același eșantion poate fi sau nu reprezentativ pentru populații diferite.
Exemplu:

Un eșantion format în întregime din moscoviți care dețin o mașină nu reprezintă întreaga populație a Moscovei.

Eșantionul de întreprinderi rusești cu până la 100 de angajați nu reprezintă toate întreprinderile din Rusia.

Eșantionul de moscoviți care fac achiziții în piață nu reprezintă comportamentul de cumpărare al tuturor moscoviților.

În același timp, aceste mostre (sub rezerva altor condiții) pot reprezenta perfect proprietarii de mașini moscoviți, întreprinderi mici și mijlocii rusești și, respectiv, cumpărători care fac achiziții de pe piețe.

Este important să înțelegem că reprezentativitatea eșantionului și eroarea de eșantionare sunt fenomene diferite. Reprezentativitatea, spre deosebire de eroare, nu depinde de dimensiunea eșantionului.

Indiferent cât de mult am crește numărul moscoviților chestionați-proprietari de mașini, nu vom putea reprezenta toți moscoviții cu acest eșantion.

Eroare de eșantionare (interval de încredere)

Abaterea rezultatelor obținute cu ajutorul observării eșantionului de la datele adevărate ale populației generale.

Există două tipuri de eroare de eșantionare: statistică și sistematică. Eroarea statistică depinde de dimensiunea eșantionului. Cu cât dimensiunea eșantionului este mai mare, cu atât este mai mică.

Exemplu:
Pentru un eșantion aleator simplu de 400 de unități, eroarea statistică maximă (cu 95% de încredere) este de 5%, pentru un eșantion de 600 de unități - 4%, pentru un eșantion de 1100 de unități - 3% .

Eroarea sistematică depinde de diverși factori care au un impact constant asupra studiului și influențează rezultatele studiului într-o anumită direcție.

Exemplu:
- Utilizarea oricărui eșantion probabil subestimează proporția persoanelor cu venituri mari care duc un stil de viață activ. Acest lucru se întâmplă din cauza faptului că astfel de oameni sunt mult mai greu de găsit în orice loc anume (de exemplu, acasă).

Problema respondenților care refuză să răspundă la întrebările chestionarului (ponderea „refusenikilor” la Moscova, pentru diferite sondaje, variază de la 50% la 80%)

În unele cazuri, când se cunosc distribuțiile adevărate, părtinirea poate fi nivelată prin introducerea de cote sau reponderarea datelor, dar în majoritatea studiilor reale, chiar și estimarea acesteia poate fi destul de problematică.

Tipuri de mostre

Probele sunt împărțite în două tipuri:

probabilistică

improbabilitate

Probe probabilistice

1.1 Eșantionare aleatorie (selecție aleatorie simplă)

Un astfel de eșantion presupune omogenitatea populației generale, aceeași probabilitate de disponibilitate a tuturor elementelor, prezența unei liste complete a tuturor elementelor. La selectarea elementelor, de regulă, se utilizează un tabel cu numere aleatorii.
1.2 Prelevare mecanică (sistematică).

Un fel de eșantion aleatoriu, sortat după un anumit atribut (ordine alfabetică, număr de telefon, data nașterii etc.). Primul element este selectat aleatoriu, apoi fiecare „k’-al-lea element este selectat în trepte de „n”. Mărimea populației generale, în timp ce - N=n*k

1.3 Stratificat (zonat)

Se utilizează în caz de eterogenitate a populației generale. Populația generală este împărțită în grupuri (straturi). În fiecare strat, selecția se realizează aleatoriu sau mecanic.

1.4 Eșantionare în serie (imbricate sau grupate).

La eșantionarea în serie, unitățile de selecție nu sunt obiectele în sine, ci grupuri (clustere sau cuiburi). Grupurile sunt selectate aleatoriu. Obiectele din cadrul grupurilor sunt cercetate peste tot.

Mostre incredibile

Selecția într-un astfel de eșantion se realizează nu după principiile hazardului, ci după criterii subiective - accesibilitate, tipicitate, reprezentare egală etc.

Eșantionarea cotelor

Inițial, sunt alocate un anumit număr de grupuri de obiecte (de exemplu, bărbați cu vârsta cuprinsă între 20-30 de ani, 31-45 de ani și 46-60 de ani; persoane cu un venit de până la 30 de mii de ruble, cu un venit de 30-60 de ani; mii de ruble și cu un venit de peste 60 de mii de ruble ) Pentru fiecare grup, este specificat numărul de obiecte care urmează să fie cercetate. Numărul de obiecte care ar trebui să se încadreze în fiecare dintre grupuri este stabilit, cel mai adesea, fie proporțional cu ponderea cunoscută anterior a grupului în populația generală, fie la fel pentru fiecare grup. În cadrul grupurilor, obiectele sunt selectate aleatoriu. Mostrele de cote sunt folosite destul de des în cercetările de marketing.

Metoda bulgărelui de zăpadă

Eșantionul este construit după cum urmează. Fiecare respondent, începând cu primul, este rugat să-și contacteze prietenii, colegii, cunoscuții care s-ar încadra în condițiile de selecție și ar putea lua parte la studiu. Astfel, cu excepția primului pas, eșantionul este format cu participarea obiectelor de studiu în sine. Metoda este adesea folosită atunci când este necesară găsirea și intervievarea unor grupuri de respondenți greu accesibile (de exemplu, respondenți cu venituri mari, respondenți care aparțin aceluiași grup profesional, respondenți care au unele hobby-uri/pasiuni similare etc. )
2.3 Eșantionarea spontană

Cei mai accesibili respondenți sunt chestionați. Exemple tipice de eșantionare spontană sunt anchetele din ziare/reviste, chestionarele date respondenților pentru autocompletare, majoritatea anchetelor pe internet. Mărimea și compoziția eșantioanelor spontane nu este cunoscută dinainte și este determinată de un singur parametru - activitatea respondenților.
2.4 Exemplu de cazuri tipice

Sunt selectate unități ale populației generale care au o valoare medie (tipică) a atributului. Acest lucru ridică problema alegerii unei caracteristici și determinării valorii sale tipice.

Implementarea planului de cercetare

Această etapă, reamintim, include colectarea informațiilor și analiza acesteia. Procesul de implementare a unui plan de cercetare de marketing necesită de obicei cea mai mare cercetare și este sursa celei mai mari erori.

La colectarea datelor statistice, apar o serie de deficiențe și probleme:

în primul rând, este posibil ca unii respondenți să nu fie în locul convenit și trebuie să fie contactați din nou sau înlocuiți;

în al doilea rând, unii respondenți pot fi necooperanți sau pot oferi răspunsuri părtinitoare, cu bună știință, false.

Datorită tehnologiilor moderne de calcul și telecomunicații, metodele de colectare a datelor se dezvoltă și se îmbunătățesc.

Unele firme efectuează sondaje dintr-un singur centru. În acest caz, intervievatorii profesioniști stau în birouri și formează numere de telefon aleatorii. Dacă aud răspunsul apelanților, intervievatorul îi cere persoanei care a răspuns la telefon să răspundă la câteva întrebări. Acestea din urmă sunt citite de pe ecranul monitorului computerului, iar răspunsurile respondenților sunt tastate pe tastatură. Această metodă elimină necesitatea formatării și codificării datelor, reduce numărul de erori.