Ce este eșantionarea în statistică. Probleme legate de cota generală

Numărul total de obiecte de observație (persoane, gospodării, întreprinderi, așezări etc.) care au un anumit set de caracteristici (sex, vârstă, venit, număr, cifra de afaceri etc.), limitat în spațiu și timp. Exemple de populație

  • Toți locuitorii Moscovei (10,6 milioane de oameni conform recensământului din 2002)
  • Bărbați moscoviți (4,9 milioane conform recensământului din 2002)
  • Persoane juridice ruse (2,2 milioane la începutul anului 2005)
  • Puncte de vânzare cu amănuntul de produse alimentare (20 mii la începutul anului 2008), etc.

Eșantion (populație eșantion)

O parte din obiectele din populația selectate pentru studiu pentru a trage o concluzie despre întreaga populație. Pentru ca concluzia obținută prin studierea eșantionului să fie extinsă la întreaga populație, eșantionul trebuie să aibă proprietatea de a fi reprezentativ.

Reprezentativitatea eșantionului

Proprietatea eșantionului de a reflecta corect populația generală. Același eșantion poate fi sau nu reprezentativ pentru populații diferite.
Exemplu:

  • Un eșantion format în întregime din moscoviți care dețin o mașină nu reprezintă întreaga populație a Moscovei.
  • Eșantionul de întreprinderi rusești cu până la 100 de angajați nu reprezintă toate întreprinderile din Rusia.
  • Eșantionul de moscoviți care fac achiziții în piață nu reprezintă comportamentul de cumpărare al tuturor moscoviților.

În același timp, aceste mostre (sub rezerva altor condiții) pot reprezenta perfect proprietarii de mașini moscoviți, întreprinderile rusești mici și mijlocii și, respectiv, cumpărătorii care fac achiziții de pe piețe.
Este important să înțelegem că reprezentativitatea eșantionului și eroarea de eșantionare sunt fenomene diferite. Reprezentativitatea, spre deosebire de eroare, nu depinde de dimensiunea eșantionului.
Exemplu:
Indiferent cât de mult am crește numărul moscoviților chestionați-proprietari de mașini, nu vom putea reprezenta toți moscoviții cu acest eșantion.

Eroare de eșantionare (interval de încredere)

Abaterea rezultatelor obținute cu ajutorul observării eșantionului de la datele adevărate ale populației generale.
Există două tipuri de eroare de eșantionare: statistică și sistematică. Eroarea statistică depinde de dimensiunea eșantionului. Cu cât dimensiunea eșantionului este mai mare, cu atât este mai mică.
Exemplu:
Pentru un eșantion aleator simplu de 400 de unități, eroarea statistică maximă (cu 95% de încredere) este de 5%, pentru un eșantion de 600 de unități - 4%, pentru un eșantion de 1100 de unități - 3%.
Eroarea sistematică depinde de diverși factori care au un impact constant asupra studiului și influențează rezultatele studiului într-o anumită direcție.
Exemplu:

  • Utilizarea oricărui eșantion probabil subestimează proporția persoanelor cu venituri mari care sunt active. Acest lucru se întâmplă din cauza faptului că astfel de oameni sunt mult mai greu de găsit în orice loc anume (de exemplu, acasă).
  • Problema respondenților care refuză să răspundă la întrebări (ponderea „refusenikilor” la Moscova, pentru diferite sondaje, variază de la 50% la 80%)

În unele cazuri, când se cunosc distribuțiile adevărate, părtinirea poate fi nivelată prin introducerea de cote sau reponderarea datelor, dar în majoritatea studiilor reale, chiar și estimarea acesteia poate fi destul de problematică.

Tipuri de mostre

Probele sunt împărțite în două tipuri:

  • probabilistică
  • improbabilitate

1. Probe probabilistice
1.1 Eșantionare aleatorie (selecție aleatorie simplă)
Un astfel de eșantion presupune omogenitatea populației generale, aceeași probabilitate de disponibilitate a tuturor elementelor, prezența unei liste complete a tuturor elementelor. La selectarea elementelor, de regulă, se utilizează un tabel cu numere aleatorii.
1.2 Prelevare mecanică (sistematică).
Un fel de eșantion aleatoriu, sortat după un anumit atribut (ordine alfabetică, număr de telefon, data nașterii etc.). Primul element este selectat aleatoriu, apoi fiecare „k’-al-lea element este selectat în trepte de „n”. Mărimea populației generale, în timp ce - N=n*k
1.3 Stratificat (zonat)
Se folosește în caz de eterogenitate a populației generale. Populația generală este împărțită în grupuri (straturi). În fiecare strat, selecția se realizează aleatoriu sau mecanic.
1.4 Eșantionare în serie (imbricate sau grupate).
La eșantionarea în serie, unitățile de selecție nu sunt obiectele în sine, ci grupuri (clustere sau cuiburi). Grupurile sunt selectate aleatoriu. Obiectele din cadrul grupurilor sunt cercetate peste tot.

2. Mostre incredibile
Selecția într-un astfel de eșantion se efectuează nu după principiile hazardului, ci după criterii subiective - accesibilitate, tipicitate, reprezentare egală etc.
2.1. Eșantionarea cotelor
Inițial, sunt alocate un anumit număr de grupuri de obiecte (de exemplu, bărbați cu vârsta cuprinsă între 20-30 de ani, 31-45 de ani și 46-60 de ani; persoane cu un venit de până la 30 de mii de ruble, cu un venit de 30 până la 60 de ani; mii de ruble și cu un venit de peste 60 de mii de ruble ) Pentru fiecare grup, este specificat numărul de obiecte care urmează să fie cercetate. Numărul de obiecte care ar trebui să se încadreze în fiecare dintre grupuri este stabilit, cel mai adesea, fie proporțional cu ponderea cunoscută anterior a grupului în populația generală, fie la fel pentru fiecare grup. În cadrul grupurilor, obiectele sunt selectate aleatoriu. Eșantionarea cotelor este folosită destul de des.
2.2. Metoda bulgărelui de zăpadă
Eșantionul este construit după cum urmează. Fiecare respondent, începând cu primul, este rugat să-și contacteze prietenii, colegii, cunoscuții care s-ar încadra în condițiile de selecție și ar putea lua parte la studiu. Astfel, cu excepția primului pas, eșantionul este format cu participarea obiectelor de studiu în sine. Metoda este adesea folosită atunci când este necesară găsirea și intervievarea unor grupuri de respondenți greu accesibile (de exemplu, respondenți cu venituri mari, respondenți care aparțin aceluiași grup profesional, respondenți care au unele hobby-uri/pasiuni similare etc. )
2.3 Eșantionarea spontană
Cei mai accesibili respondenți sunt chestionați. Exemple tipice de eșantioane spontane sunt în ziare/reviste date respondenților pentru autocompletare, majoritatea anchetelor pe internet. Mărimea și compoziția eșantioanelor spontane nu este cunoscută dinainte și este determinată de un singur parametru - activitatea respondenților.
2.4 Exemplu de cazuri tipice
Sunt selectate unități ale populației generale care au o valoare medie (tipică) a atributului. Acest lucru ridică problema alegerii unei caracteristici și determinării valorii sale tipice.

Curs de prelegeri despre teoria statisticii

Informații mai detaliate despre observațiile eșantionului pot fi obținute prin vizualizare.

Cercetare selectivă.

Conceptul metodei de eșantionare.

Observație selectivă- aceasta este o astfel de observație necontinuă în care selecția unităților populației de studiat se face aleatoriu, partea selectată este supusă cercetării, după care rezultatele sunt distribuite întregii populații.

Metoda de eşantionare este utilizată când

1 atunci când observația în sine este asociată cu deteriorarea sau distrugerea unităților observate (fire pentru condimente, bec electric pentru produs de ardere)

2 volum mare agregat

3 costuri mari (financiare și forță de muncă).

De obicei, 5-10% din populația totală este supusă unui sondaj prin sondaj, mai rar 15-25%.

Scopul eșantionării este de a determina caracteristicile mediei generale și proporției globale (P). Caracteristicile populației eșantionului – medie eșantionului iar fracția de eșantion (w) diferă de caracteristicile generale prin valoarea erorii de eșantionare ( ). Prin urmare, este necesar să se calculeze eroarea de eșantionare sau eroarea de reprezentativitate, care este determinată de formule dezvoltate în teoria probabilității pentru fiecare tip de eșantion și metodă de selecție.

Există următoarele moduri de a selecta unitățile:

1 selecție de minge de întoarcere, denumită în mod obișnuit ca reeșantionarea.

Cu selecția repetată, probabilitatea de a introduce fiecare unitate individuală în eșantion rămâne constantă, deoarece după selectarea unei unități, aceasta este returnată din nou populației și poate fi selectată din nou.

2 selecție conform schemei mingii nereturnate, numită eșantionare aleatorie.În acest caz, fiecare unitate selectată nu este returnată înapoi, iar probabilitatea de a introduce unități individuale în eșantion se modifică tot timpul (pentru unitățile rămase va crește) (lot), tabele cu numere aleatorii, de exemplu, 75 din 780.

Tipuri de mostre.

1 De fapt - aleatoriu.

Acesta este unul în care selecția unităților din eșantion se face direct din întreaga masă de unități din populația generală.

În acest caz, numărul de unități selectate este de obicei determinat pe baza proporției acceptate din eșantion.

Pentru un eșantion, există raportul dintre numărul de unități din populația eșantion și numărul de unități din populația generală N.

Deci, cu un eșantion de 5% dintr-un lot de mărfuri de 2000 de unități, dimensiunea eșantionului n este de 100 de unități. (
), iar cu o probă de 20% vor fi 400 de unități.

(
)

O condiție importantă pentru un eșantion aleatoriu adecvat că fiecărei unități a populației i se oferă șanse egale de a fi inclusă în eșantion.

Cu selecție aleatorie, eroarea marginală de eșantionare pentru medie este egal cu

- varianţa de eşantionare

n - dimensiunea eșantionului

t este factorul de încredere, care este determinat din tabelul de valori al funcției integrale Laplace pentru o probabilitate dată P.

În cazul eșantionării nerepetitive, eroarea marginală de eșantionare este determinată de formula pentru medie

unde N este dimensiunea populației generale a cotei

Pentru a determina conținutul de cenușă al cărbunelui, 100 de mostre de cărbune au fost examinate aleatoriu. În urma sondajului, s-a constatat că conținutul mediu de cenușă al cărbunelui din eșantion este de 16%, = 5%. În 10 probe, conținutul de cenușă al cărbunelui a fost > 20% cu o probabilitate de 0,954 pentru a determina limitele în care conținutul mediu de cenușă al cărbunelui din zăcământ și proporția de cărbune cu un conținut de cenușă > 20% va fi

Conținut mediu de cenușă

determina eroarea marginală de eșantionare


2*0.5=1%

la p=0,954 t=2

ponderea cărbunelui cu conținut de cenușă >20%

se determină cota de probă

unde m este proporția unităților care au o caracteristică

eroare de eșantionare pentru distribuire

Cu o probabilitate de 0,954, se poate susține că proporția de cărbune cu un conținut de cenușă de peste 20% în zăcământ va fi în

P= 10%+(-)6% sau

prelevare mecanică.

Acesta este un fel de fapt - aleatoriu. În acest caz, întreaga populație este împărțită în n părți egale, apoi este selectată o unitate din fiecare parte.

Toate unitățile populației trebuie aranjate într-o anumită ordine. Totodată, în raport cu indicatorul studiat, unitățile populației generale pot fi ordonate după o trăsătură semnificativă, secundară sau neutră. În acest caz, unitatea care se află în mijlocul fiecărui grup ar trebui să fie selectată din fiecare grup. Acest lucru evită părtinirea eșantionării.

Aplicați: la examinarea cumpărătorilor din magazine, vizitatorilor din clinici, la fiecare 5,4,3 etc.

Exemplu de eșantionare mecanică

Pentru a determina termenul mediu de utilizare a unui împrumut pe termen scurt într-o bancă, se va face un eșantion mecanic de 5%, care include 100 de conturi. În urma sondajului, s-a constatat că termenul mediu de utilizare a unui împrumut pe termen scurt este de 30 de zile cu
9 zile în 5 conturi Termen de împrumut > 60 de zile.

Eroare de eșantionare

acestea. cu o probabilitate de 0,954 se poate argumenta că termenul de utilizare a creditului fluctuează

1 în 30 de zile+(-)2 zile, adică

2 cote de credite cu termen > 60 de zile.

cota de eșantion va fi

determina eroarea de partajare

cu o probabilitate de 0,954, se poate susține că ponderea împrumuturilor bancare cu scadență >60 de zile va fi în

Probă tipică.

Populația generală este împărțită în grupuri tipice omogene. Apoi, din fiecare grup tipic, o selecție individuală a unităților din eșantion este făcută printr-un eșantion aleatoriu sau mecanic.

De exemplu: pr. tr. lucrători, formați din grupuri separate după calificare.

Caracteristică importantă- dă rezultate mai precise în comparație cu altele, tk. eşantionul include o unitate tipologică.

Selectarea unităților de observație din setul de eșantion se realizează prin diferite metode. Luați în considerare un eșantion tipic cu selecție proporțională în cadrul grupurilor tipice.

Mărimea eșantionului dintr-un grup tipic în selecție proporțională cu numărul de grupuri tipice este determinată de formulă

Unde =V mostre din grupul tipic

= V al grupului tipic.

Eroarea marginală a mediei și proporției eșantionului pentru o metodă de selecție mecanică și aleatorie nerepetitivă în cadrul grupurilor tipice este calculată prin formule


Unde = varianța eșantionului

Exemplu: eșantion tipic

Pentru a determina vârsta medie a bărbaților care se căsătoresc, s-a realizat un eșantion de 5% în raion cu selecția unităților proporțional cu numărul de grupuri tipice.

Selecția mecanică a fost utilizată în cadrul grupelor

Cu o probabilitate de 0,954, determinați limitele în care se va afla vârsta medie a bărbaților care s-au căsătorit și proporția bărbaților care s-au recăsătorit.

vârsta medie a căsătoriei pentru bărbații din eșantion

eroare marginală de eșantionare

cu o probabilitate de 0,954 se poate argumenta că vârsta medie a bărbaților care se căsătoresc va fi în

pentru bărbații care intră într-o a doua căsătorie fi în interior

se determină cota de probă

varianţa eşantionului a caracteristicii alternative este

cu o probabilitate de 0,954 se poate susține că proporția celor care se căsătoresc a doua oară este în

eșantionare în serie.

Cu eșantionarea în serie, populația este împărțită în grupuri de aceeași dimensiune - serie. Populația eșantionului este serie selectată. În cadrul seriei se efectuează o observare continuă a unităților care au căzut în serie.

Cu selecție repetitivă și determinat de formula

Unde
- varianta interseriala

Unde
media eșantionului din serie

media eșantionului de eșantion de serie

R- numărul de serie al populaţiei generale

r - numărul de serie selectate

Exemplu: în atelierul de 10 brigăzi, în vederea studierii productivității muncii acestora, se va efectua o probă în serie de 20%, care a cuprins 2 brigăzi. În urma sondajului s-a constatat că

cu o probabilitate de 0,997 pentru a determina limitele în care se va afla producția medie a lucrătorilor din magazin.

media eșantionului unui eșantion în serie este determinată de formula

cu o probabilitate de 0,997 se poate argumenta că producția medie a lucrătorilor din magazin este în

În depozitul de produse finite al atelierului sunt 200 de cutii de piese, câte 40 de bucăți în fiecare cutie. Se va face eșantionare în serie de 10% pentru a verifica calitatea produselor finite. În urma prelevării de probe, s-a constatat că pentru piesele defecte este de 15%. Varianța eșantionului în serie este 0,0049.

Cu o probabilitate de 0,997, determinați limitele în care proporția de produse defecte dintr-un lot de cutii este

Proporția pieselor defecte va fi în limita

determina eroarea marginală de eșantionare pentru pondere prin formulă

cu o probabilitate de 0,997 se poate susține că proporția pieselor defecte

în partid este înăuntru

În practica de proiectare a observației eșantionului, este necesar să se găsească dimensiunea eșantionului, care este necesară pentru a asigura o anumită acuratețe în calculul caracteristicilor generale - media și proporția.

Eroarea marginală de eșantionare, probabilitatea de apariție a acesteia și variația caracteristicii sunt cunoscute dinainte.

Cu aleatoriu re-selectare dimensiunea eșantionului este determinată de formulă

cu selecție aleatorie nerepetitivă și mecanică, dimensiunea eșantionului

pentru o mostră tipică

pentru eșantionare în serie

De exemplu, în raion locuiesc 2000 de familii.

Este planificat să se efectueze un sondaj prin eșantion al acestora prin metoda selecției aleatorii nerepetitive pentru a găsi dimensiunea medie a familiei.

Determinați dimensiunea eșantionului necesară, cu condiția ca, cu o probabilitate de 0,954, eroarea de eșantionare să nu depășească 1 persoană cu o abatere standard de 3 persoane.

10 mii de oameni locuiesc în oraș. familii. Folosind eșantionarea mecanică, se propune să se determine proporția familiilor cu trei sau mai mulți copii. Care ar trebui să fie dimensiunea eșantionului pentru ca eroarea de eșantionare să fie mai mică de 0,02 cu o probabilitate P=0,954 dacă se știe că varianța este de 0,02 din anchetele anterioare?

Plan:

1. Probleme de statistică matematică.

2. Tipuri de mostre.

3. Metode de selecție.

4. Distribuția statistică a eșantionului.

5. Funcția de distribuție empirică.

6. Poligon și histogramă.

7. Caracteristicile numerice ale seriei de variații.

8. Estimări statistice ale parametrilor de distribuție.

9. Estimări de intervale ale parametrilor de distribuție.

1. Sarcini și metode de statistică matematică

Statistici matematice este o ramură a matematicii dedicată metodelor de colectare, analiză și prelucrare a rezultatelor datelor observaționale statistice în scopuri științifice și practice.

Să fie necesar să se studieze un set de obiecte omogene în raport cu o trăsătură calitativă sau cantitativă care caracterizează aceste obiecte. De exemplu, dacă există un lot de piese, atunci standardul piesei poate servi ca semn calitativ, iar dimensiunea controlată a piesei poate servi ca semn cantitativ.

Uneori se efectuează un studiu continuu, de ex. examinați fiecare obiect în raport cu caracteristica dorită. În practică, un sondaj cuprinzător este rar utilizat. De exemplu, dacă populația conține un număr foarte mare de obiecte, atunci este imposibil din punct de vedere fizic să se efectueze un sondaj complet. Dacă examinarea obiectului este asociată cu distrugerea acestuia sau necesită costuri materiale mari, atunci nu are sens să efectuați un sondaj complet. În astfel de cazuri, un număr limitat de obiecte (set de mostre) sunt selectate aleatoriu din întreaga populație și supuse studiului lor.

Sarcina principală a statisticii matematice este de a studia întreaga populație pe baza datelor eșantionate, în funcție de obiectiv, i.e. studiul proprietăților probabilistice ale populației: legea distribuției, caracteristicile numerice etc. pentru luarea deciziilor manageriale în condiţii de incertitudine.

2. Tipuri de mostre

Populația este ansamblul de obiecte din care este realizată proba.

Populație eșantion (eșantion) este o colecție de obiecte selectate aleatoriu.

Dimensiunea populației este numărul de obiecte din această colecție. Se notează volumul populației generale N, selectiv - n.

Exemplu:

Dacă din 1000 de părți sunt selectate 100 de părți pentru examinare, atunci volumul populației generale N = 1000 și dimensiunea eșantionului n = 100.

Eșantionarea se poate face în două moduri: după ce obiectul este selectat și observat peste el, acesta poate fi returnat sau nu în rândul populației generale. Acea. Probele sunt împărțite în repetate și nerepetate.

Repetatnumit prelevarea de probe, la care obiectul selectat (înainte de a-l selecta pe următorul) este returnat populației generale.

Nerepetănumit prelevarea de probe, la care obiectul selectat nu este returnat populației generale.

În practică, de obicei se utilizează selecția aleatorie nerepetitivă.

Pentru ca datele eșantionului să fie suficient de sigure în aprecierea trăsăturii de interes în populația generală, este necesar ca obiectele eșantionului să o reprezinte corect. Eșantionul trebuie să reprezinte corect proporțiile populației. Eșantionul trebuie să fie reprezentant (reprezentant).

În virtutea legii numerelor mari, se poate susține că eșantionul va fi reprezentativ dacă se realizează aleatoriu.

Dacă dimensiunea populației generale este suficient de mare, iar eșantionul este doar o mică parte din această populație, atunci distincția dintre eșantioanele repetate și cele nerepetate este ștearsă; în cazul limitativ, când se consideră o populație generală infinită, iar eșantionul are o dimensiune finită, această diferență dispare.

Exemplu:

În jurnalul american Literary Review, folosind metode statistice, a fost realizat un studiu al previziunilor privind rezultatul viitoarelor alegeri prezidențiale din SUA din 1936. Candidații pentru acest post au fost F.D. Roosevelt și A. M. Landon. Cărțile de referință ale abonaților la telefonie au fost luate ca sursă pentru populația generală a americanilor studiați. Dintre acestea, 4 milioane de adrese au fost alese aleatoriu, cărora redactorii revistei au trimis cărți poștale în care le ceru să-și exprime atitudinea față de candidații la președinție. După procesarea rezultatelor sondajului, revista a publicat o prognoză sociologică conform căreia Landon va câștiga viitoarele alegeri cu o marjă mare. Și... m-am înșelat: Roosevelt a câștigat.
Acest exemplu poate fi văzut ca un exemplu de eșantion nereprezentativ. Cert este că în Statele Unite, în prima jumătate a secolului al XX-lea, doar partea bogată a populației, care susținea părerile lui Landon, avea telefoane.

3. Metode de selecție

În practică, se folosesc diverse metode de selecție, care pot fi împărțite în 2 tipuri:

1. Selecția nu necesită împărțirea populației în părți (a) simplu aleatoriu fără repetare; b) repetare aleatorie simplă).

2. Selecția, în care populația generală este împărțită în părți. (A) selecție tipică; b) selecție mecanică; în) serial selecţie).

Aleatoriu simplu numi asta selecţie, în care obiectele sunt extrase unul câte unul din întreaga populație generală (aleatoriu).

Tipicnumit selecţie, în care obiectele sunt selectate nu din întreaga populație generală, ci din fiecare dintre părțile sale „tipice”. De exemplu, dacă o piesă este fabricată pe mai multe mașini, atunci selecția se face nu din întregul set de piese produse de toate mașinile, ci din produsele fiecărei mașini separat. O astfel de selecție este utilizată atunci când trăsătura examinată fluctuează considerabil în diferite părți „tipice” ale populației generale.

Mecanicnumit selecţie, în care populația generală este împărțită „mecanic” în atâtea grupuri câte obiecte sunt incluse în eșantion și se selectează câte un obiect din fiecare grup. De exemplu, dacă trebuie să selectați 20% din piesele realizate de mașină, atunci fiecare a 5-a parte este selectată; dacă este necesar să selectați 5% din piese - la fiecare 20 etc. Uneori, o astfel de selecție poate să nu asigure un eșantion reprezentativ (dacă este selectată fiecare a 20-a rolă de răsucire, iar tăietorul este înlocuit imediat după selecție, atunci vor fi selectate toate rolele rotite cu tăietoare contondente).

Serialnumit selecţie, în care obiectele sunt selectate din populația generală nu pe rând, ci în „serie”, care sunt supuse unui sondaj continuu. De exemplu, dacă produsele sunt fabricate de un grup mare de mașini automate, atunci produsele doar a câtorva mașini sunt supuse unei examinări continue.

În practică, este adesea folosită selecția combinată, în care metodele de mai sus sunt combinate.

4. Distribuția statistică a eșantionului

Să fie luat un eșantion din populația generală, iar valoarea x 1-observat o dată, x 2 -n de 2 ori, ... x k - n k ori. n= n 1 +n 2 +...+n k este dimensiunea eșantionului. Valori observatenumit Opțiuni, iar secvența este o variantă scrisă în ordine crescătoare - serie variațională. Numărul de observațiinumit frecvențe (frecvențe absolute), și relația lor cu dimensiunea eșantionului- frecvențe relative sau probabilități statistice.

Dacă numărul de opțiuni este mare sau eșantionul este realizat dintr-o populație generală continuă, atunci seria de variații este compilată nu prin valori individuale de puncte, ci pe intervale de valori ale populației generale. O astfel de serie se numește interval. Lungimile intervalelor trebuie să fie egale.

Distribuția statistică a eșantionului numită listă de opțiuni și frecvențele corespunzătoare sau frecvențele relative.

Distribuția statistică poate fi specificată și ca o succesiune de intervale și frecvențele corespunzătoare acestora (suma frecvențelor care se încadrează în acest interval de valori)

Seria de variație punctuală a frecvențelor poate fi reprezentată printr-un tabel:

x i
x 1
x2

x k
n i
n 1
n 2

nk

În mod similar, se poate reprezenta o serie variațională punctuală de frecvențe relative.

Și:

Exemplu:

Numărul de litere din textul X s-a dovedit a fi egal cu 1000. Prima literă a fost „i”, a doua - litera „i”, a treia - litera „a”, a patra - „u”. Apoi au venit literele „o”, „e”, „y”, „e”, „s”.

Să notăm locurile pe care le ocupă în alfabet, respectiv, avem: 33, 10, 1, 32, 16, 6, 21, 31, 29.

După ordonarea acestor numere în ordine crescătoare, obținem o serie de variații: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Frecvențele de apariție a literelor în text: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7," I "- 22.

Compunem o serie variațională punctuală de frecvențe:

Exemplu:

Distribuția de frecvență de eșantionare a volumului specificată n = 20.

Faceți o serie de variații punctuale de frecvențe relative.

x i

2

6

12

n i

3

10

7

Soluţie:

Aflați frecvențele relative:


x i

2

6

12

w i

0,15

0,5

0,35

La construirea unei distribuții de intervale, există reguli pentru alegerea numărului de intervale sau a mărimii fiecărui interval. Criteriul aici este raportul optim: cu creșterea numărului de intervale, reprezentativitatea se îmbunătățește, dar cantitatea de date și timpul de prelucrare a acestora crește. Diferență x max - x min între cea mai mare și cea mai mică variantă se numește la scară mare mostre.

Pentru a număra numărul de intervale k de obicei aplicați formula empirică a lui Sturgess (implicând rotunjirea la cel mai apropiat număr întreg convenabil): k = 1 + 3,322 log n .

În consecință, valoarea fiecărui interval h poate fi calculat folosind formula:

5. Funcția de distribuție empirică

Luați în considerare un eșantion din populația generală. Să fie cunoscută distribuția statistică a frecvențelor atributului cantitativ X. Să introducem notația: n xeste numărul de observații în care a fost observată o valoare a caracteristicii mai mică decât x; n este numărul total de observații (mărimea eșantionului). Frecvența relativă a evenimentelor X<х равна n x /n . Dacă x se modifică, atunci se schimbă și frecvența relativă, adică. frecventa relativan x /neste o funcție a lui x. pentru că se găsește empiric, se numește empiric.

Funcția de distribuție empirică (funcția de distribuție a eșantionului) apelați funcția, care determină pentru fiecare x frecvența relativă a evenimentului X<х.


unde este numărul de opțiuni mai mic decât x,

n - dimensiunea eșantionului.

Spre deosebire de funcția de distribuție empirică a eșantionului, se numește funcția de distribuție F(x) a populației funcţia de distribuţie teoretică.

Diferența dintre funcțiile de distribuție empiric și teoretic este că funcția teoretică F (x) determină probabilitatea unui eveniment X F*(x) tinde în probabilitate la probabilitatea F (x) a acestui eveniment. Adică pentru n mare F*(x)și F(x) diferă puțin unul de celălalt.

Acea. este recomandabil să se utilizeze funcția de distribuție empirică a eșantionului pentru o reprezentare aproximativă a funcției de distribuție teoretică (integrală) a populației generale.

F*(x) are toate proprietatile F(x).

1. Valori F*(x) aparțin intervalului.

2. F*(x) este o funcție nedescrescătoare.

3. Dacă este varianta cea mai mică, atunci F*(x) = 0, la x < x1; dacă x k este cea mai mare variantă, atunci F*(x) = 1, pentru x > x k .

Acestea. F*(x) servește la estimarea F(x).

Dacă eșantionul este dat de o serie variațională, atunci funcția empirică are forma:

Graficul funcției empirice se numește cumulativ.

Exemplu:

Trasează o funcție empirică peste distribuția eșantionului dată.


Soluţie:

Dimensiunea eșantionului n = 12 + 18 +30 = 60. Cea mai mică opțiune este 2, adică. la x < 2. Evenimentul X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 la 2 < X < 6. Evenimentul X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < X < 10. Pentru că x=10 este cea mai mare opțiune, atunci F*(x) = 1 la x>10. Funcția empirică dorită are forma:

Cumula:


Cumulul face posibilă înțelegerea informațiilor prezentate grafic, de exemplu, pentru a răspunde la întrebările: „Determină numărul de observații în care valoarea caracteristicii a fost mai mică de 6 sau nu mai mică de 6. F*(6) = 0,2 » Atunci numărul de observații în care valoarea caracteristicii observate a fost mai mică de 6 este 0,2* n \u003d 0,2 * 60 \u003d 12. Numărul de observații în care valoarea caracteristicii observate nu a fost mai mică de 6 este (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Dacă este dată o serie de variații de interval, atunci pentru a compila funcția de distribuție empirică, se găsesc punctele medii ale intervalelor și se obține din ele funcția de distribuție empirică în mod similar cu seria de variație de puncte.

6. Poligon și histogramă

Pentru claritate, sunt construite diverse grafice ale distribuției statistice: polinom și histograme

poligon de frecvență- aceasta este o linie întreruptă, ale cărei segmente leagă punctele ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), unde sunt opțiunile, sunt frecvențele corespunzătoare acestora.

Poligon de frecvențe relative - aceasta este o linie întreruptă, ale cărei segmente leagă punctele ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), unde x i sunt opțiuni, w i sunt frecvențele relative corespunzătoare acestora.

Exemplu:

Trasează polinomul de frecvență relativă pe distribuția eșantionului dată:

Soluţie:

În cazul unei caracteristici continue, este recomandabil să construiți o histogramă, pentru care intervalul, care conține toate valorile observate ale caracteristicii, este împărțit în mai multe intervale parțiale de lungime h și pentru fiecare interval parțial se găsește n i - suma frecventelor variante care se incadreaza in intervalul i-lea. (De exemplu, atunci când măsuram înălțimea sau greutatea unei persoane, avem de-a face cu un semn continuu).

Histograma de frecventa - aceasta este o figură în trepte, constând din dreptunghiuri, ale căror baze sunt intervale parțiale de lungime h, iar înălțimile sunt egale cu raportul (densitatea de frecvență).

Pătrat i-lea dreptunghi parțial este egal cu suma frecvențelor variantei intervalului i-lea, adică. zona histogramei de frecvență este egală cu suma tuturor frecvențelor, adică marime de mostra.

Exemplu:

Sunt prezentate rezultatele modificării tensiunii (în volți) în rețeaua electrică. Compuneți o serie de variații, construiți un poligon și o histogramă de frecvență dacă valorile tensiunii sunt următoarele: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220 216, 220, 225, 212, 217, 220.

Soluţie:

Să creăm o serie de variații. Avem n = 20, x min =212, x max =232.

Să folosim formula Sturgess pentru a calcula numărul de intervale.

Seria variațională a intervalului de frecvențe are forma:


Densitatea de frecvență

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Să construim o histogramă de frecvențe:

Să construim un poligon de frecvențe găsind mai întâi punctele medii ale intervalelor:


Histograma frecvențelor relative numiți o figură în trepte constând din dreptunghiuri, ale căror baze sunt intervale parțiale de lungime h, iar înălțimile sunt egale cu raportul w i/h (densitatea de frecvență relativă).

Pătrat I-lea dreptunghi parțial este egal cu frecvența relativă a variantei care a intrat în intervalul i-lea. Acestea. aria histogramei frecvențelor relative este egală cu suma tuturor frecvențelor relative, adică unitate.

7. Caracteristicile numerice ale seriei de variații

Luați în considerare principalele caracteristici ale populației generale și eșantionului.

Secundar general se numește media aritmetică a valorilor caracteristicii populației generale.

Pentru valori diferite x 1 , x 2 , x 3 , …, x n . semn al populației generale de volum N avem:

Dacă valorile atributelor au frecvențe corespunzătoare N 1 +N 2 +…+N k =N , atunci


eșantion mediu se numește media aritmetică a valorilor caracteristicii populației eșantionului.

Dacă valorile atributelor au frecvențe corespunzătoare n 1 +n 2 +…+n k = n, atunci


Exemplu:

Calculați media eșantionului pentru eșantion: x 1 = 51,12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52,93; x 5 \u003d 51,1; x 6 \u003d 52,98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Soluţie:

Varianta generala se numește media aritmetică a abaterilor pătrate ale valorilor caracteristicii X a populației generale față de media generală.

Pentru diferite valori x 1 , x 2 , x 3 , …, x N ale semnului populației de volum N avem:

Dacă valorile atributelor au frecvențe corespunzătoare N 1 +N 2 +…+N k =N , atunci

Abatere standard generală (standard) numită rădăcina pătrată a varianței generale

Varianta eșantionului se numește media aritmetică a abaterilor pătrate ale valorilor observate ale caracteristicii față de valoarea medie.

Pentru diferite valori x 1 , x 2 , x 3 , ..., x n ale semnului populației eșantionului de volum n avem:


Dacă valorile atributelor au frecvențe corespunzătoare n 1 +n 2 +…+n k = n, atunci


Abatere standard eșantion (standard) se numește rădăcina pătrată a varianței eșantionului.


Exemplu:

Setul de eșantionare este dat de tabelul de distribuție. Găsiți varianța eșantionului.


Soluţie:

Teorema: Varianta este egală cu diferența dintre media pătratelor valorilor caracteristicilor și pătratul mediei totale.

Exemplu:

Găsiți varianța pentru această distribuție.



Soluţie:

8. Estimări statistice ale parametrilor de distribuție

Să fie studiată populația generală de un eșantion. În acest caz, este posibil să se obțină doar o valoare aproximativă a parametrului necunoscut Q, care servește drept estimare a acestuia. Este evident că estimările pot varia de la un eșantion la altul.

Evaluare statisticăQ* parametrul necunoscut al distribuției teoretice se numește funcția f, care depinde de valorile observate ale eșantionului. Sarcina estimării statistice a parametrilor necunoscuți dintr-un eșantion este de a construi o astfel de funcție din datele disponibile de observații statistice, care ar oferi cele mai precise valori aproximative ale valorilor reale, necunoscute cercetătorului, ale acestor parametri.

Estimările statistice sunt împărțite în punct și interval, în funcție de modul în care sunt furnizate (număr sau interval).

O estimare punctuală se numește estimare statistică. parametrul Q al distribuției teoretice determinat de o valoare a parametrului Q *=f (x 1 , x 2 , ..., x n), undex 1 , x 2 , ...,xn- rezultatele observaţiilor empirice asupra atributului cantitativ X al unui anumit eşantion.

Astfel de estimări ale parametrilor obținute din eșantioane diferite diferă cel mai adesea unele de altele. Se numește diferența absolută /Q *-Q / eroare de eșantionare (estimare).

Pentru ca estimările statistice să dea rezultate fiabile cu privire la parametrii estimați, este necesar ca aceștia să fie imparțiali, eficienți și consecvenți.

Estimarea punctului, a cărui așteptare matematică este egală (nu egală) cu parametrul estimat, se numește neschimbat (deplasat). M(Q*)=Q.

Diferența M( Q *)-Q este numit părtinire sau eroare sistematică. Pentru estimări nepărtinitoare, eroarea sistematică este 0.

eficient evaluare Q *, care, pentru o dimensiune n eșantion dată, are cea mai mică varianță posibilă: D min(n = const). Estimatorul efectiv are cea mai mică diferență în comparație cu alți estimatori imparțiali și consecvenți.

Bogatse numește astfel de statistică evaluare Q*, care pentru ntinde probabil spre parametrul estimat Q , adică cu o creștere a dimensiunii eșantionului n estimarea tinde probabil către valoarea adevărată a parametrului Q.

Cerința de consistență este în concordanță cu legea numerelor mari: cu cât mai multe informații inițiale despre obiectul studiat, cu atât rezultatul este mai precis. Dacă dimensiunea eșantionului este mică, atunci estimarea punctuală a parametrului poate duce la erori grave.

Orice proba (volumn) poate fi gândit ca un set ordonatx 1 , x 2 , ...,xn variabile aleatoare independente distribuite identic.

Mijloace de probă pentru probe de volum diferit n din aceeași populație vor fi diferite. Adică media eșantionului poate fi considerată ca o variabilă aleatoare, ceea ce înseamnă că putem vorbi despre distribuția mediei eșantionului și caracteristicile sale numerice.

Media eșantionului satisface toate cerințele impuse estimărilor statistice, i.e. oferă o estimare imparțială, eficientă și consecventă a mediei populației.

Se poate dovedi că. Astfel, varianța eșantionului este o estimare părtinitoare a varianței generale, dându-i o valoare subestimată. Adică, cu o dimensiune mică a eșantionului, va da o eroare sistematică. Pentru o estimare imparțială, consecventă, este suficient să luăm cantitatea, care se numește varianță corectată. adică

În practică, pentru a estima varianța generală, se folosește varianța corectată când n < 30. În alte cazuri ( n >30) abatere de la greu de observat. Prin urmare, pentru valori mari n eroarea de părtinire poate fi neglijată.

De asemenea, se poate demonstra că frecvența relativăn i / n este o estimare de probabilitate imparțială și consecventă P(X=x i ). Funcția de distribuție empirică F*(x ) este o estimare imparțială și consecventă a funcției de distribuție teoretică F(x)=P(X< x ).

Exemplu:

Găsiți estimările imparțiale ale mediei și varianței din tabelul eșantionului.

x i
n i

Soluţie:

Dimensiunea eșantionului n=20.

Estimarea imparțială a așteptărilor matematice este media eșantionului.


Pentru a calcula estimarea imparțială a varianței, găsim mai întâi varianța eșantionului:

Acum să găsim estimarea imparțială:

9. Estimări de intervale ale parametrilor de distribuție

Un interval este o estimare statistică determinată de două valori numerice - capetele intervalului studiat.

Număr> 0, unde | Q - Q*|< , caracterizează acuratețea estimării intervalului.

De încrederenumit interval , care cu o probabilitate datăacoperă valoarea necunoscută a parametrului Q . Complementarea intervalului de încredere cu setul tuturor valorilor posibile ale parametrilor Q numit zona critica. Dacă regiunea critică este situată doar pe o parte a intervalului de încredere, atunci se numește intervalul de încredere unilateral: stânga, dacă regiunea critică există doar în stânga, și dreptaci decât dacă în dreapta. În caz contrar, se numește intervalul de încredere bilateral.

Fiabilitatea sau nivelul de încredere, Estimări Q (folosind Q *) numiți probabilitatea cu care se îndeplinește următoarea inegalitate: | Q - Q*|< .

Cel mai adesea, probabilitatea de încredere este stabilită în avans (0,95; 0,99; 0,999) și i se impune cerința de a fi aproape de unu.

Probabilitatenumit probabilitatea de eroare sau nivelul de semnificație.

Să | Q - Q*|< , apoi. Asta înseamnă că cu o probabilitatese poate argumenta că adevărata valoare a parametrului Q aparține intervalului. Cu cât abaterea este mai mică, cu atât estimarea este mai precisă.

Se numesc limitele (capetele) intervalului de încredere limite de încredere sau granițe critice.

Valorile limitelor intervalului de încredere depind de legea de distribuție a parametrului Q*.

Valoarea abateriijumătate din lățimea intervalului de încredere se numește acuratețea evaluării.

Metodele de construire a intervalelor de încredere au fost dezvoltate pentru prima dată de statisticianul american Y. Neumann. Precizia estimării, probabilitatea de încredere și dimensiunea eșantionului n interconectate. Prin urmare, cunoscând valorile specifice a două cantități, o puteți calcula oricând pe a treia.

Găsirea intervalului de încredere pentru estimarea așteptării matematice a unei distribuții normale dacă abaterea standard este cunoscută.

Să fie făcut un eșantion din populația generală, supus legii distribuției normale. Fie cunoscută abaterea standard generală, dar așteptarea matematică a distribuției teoretice este necunoscută A ().

Următoarea formulă este valabilă:

Acestea. conform valorii abaterii specificatese poate afla cu ce probabilitate media generală necunoscută aparține intervalului. Si invers. Din formula se poate observa că, odată cu creșterea dimensiunii eșantionului și o valoare fixă ​​a probabilității de încredere, valoarea- scade, i.e. acuratețea estimării este crescută. Cu o creștere a fiabilității (probabilitatea de încredere), valoarea-creste, i.e. acuratețea estimării scade.

Exemplu:

În urma testelor, s-au obținut următoarele valori -25, 34, -20, 10, 21. Se știe că respectă legea distribuției normale cu o abatere standard de 2. Aflați estimarea a * pentru așteptări matematice a. Trasează un interval de încredere de 90% pentru el.

Soluţie:

Să găsim estimarea imparțială

Apoi


Intervalul de încredere pentru a are forma: 4 - 1,47< A< 4+ 1,47 или 2,53 < a < 5, 47

Găsirea intervalului de încredere pentru estimarea așteptării matematice a unei distribuții normale dacă abaterea standard este necunoscută.

Să se știe că populația generală este supusă legii distribuției normale, unde a și. Acuratețea acoperirii intervalului de încredere cu fiabilitatevaloarea adevărată a parametrului a, în acest caz, se calculează prin formula:

, unde n este dimensiunea eșantionului, , - Coeficientul studentului (trebuie găsit din valorile date n și din tabelul „Puncte critice ale distribuției Studentului”).

Exemplu:

În urma testelor, s-au obținut următoarele valori -35, -32, -26, -35, -30, -17. Se știe că respectă legea distribuției normale. Aflați intervalul de încredere pentru media populației a cu un nivel de încredere de 0,9.

Soluţie:

Să găsim estimarea imparțială.

Sa gasim.

Apoi

Intervalul de încredere va lua forma(-29,2 - 5,62; -29,2 + 5,62) sau (-34,82; -23,58).

Găsirea intervalului de încredere pentru varianța și abaterea standard a unei distribuții normale

Să fie luată o mostră aleatorie de volum dintr-un set general de valori distribuite conform legii normalen < 30 pentru care se calculează variațiile eșantionului: părtinitoareși corectat s 2. Apoi pentru a găsi estimări de interval cu o fiabilitate datăpentru dispersie generalăDabaterea standard generalăse folosesc următoarele formule.


sau,

Valori- găsiți folosind tabelul de valori ale punctelor criticeDistribuții Pearson.

Intervalul de încredere pentru varianță este găsit din aceste inegalități prin pătrarea tuturor părților inegalității.

Exemplu:

S-a verificat calitatea celor 15 șuruburi. Presupunând că eroarea în fabricarea lor este supusă legii de distribuție normală și abaterii standard a eșantionuluiegal cu 5 mm, determinați cu fiabilitateinterval de încredere pentru parametrul necunoscut

Reprezentăm limitele intervalului ca o dublă inegalitate:

Capetele intervalului de încredere cu două fețe pentru varianță pot fi determinate fără a efectua operații aritmetice pentru un anumit nivel de încredere și dimensiunea eșantionului folosind tabelul corespunzător (Margini ale intervalelor de încredere pentru varianță în funcție de numărul de grade de libertate și fiabilitate ). Pentru a face acest lucru, capetele intervalului obținut din tabel sunt înmulțite cu varianța corectată s 2.

Exemplu:

Să rezolvăm problema anterioară într-un mod diferit.

Soluţie:

Să găsim varianța corectată:

Conform tabelului „Margini ale intervalelor de încredere pentru varianță în funcție de numărul de grade de libertate și fiabilitate”, găsim limitele intervalului de încredere pentru varianță lak=14 și: limita inferioara 0,513 si limita superioara 2,354.

Înmulțiți limitele obținute cus 2 și extrageți rădăcina (pentru că avem nevoie de un interval de încredere nu pentru varianță, ci pentru abaterea standard).

După cum se poate observa din exemple, valoarea intervalului de încredere depinde de metoda de construcție a acestuia și dă rezultate apropiate, dar diferite.

Pentru mostre de dimensiuni suficient de mari (n>30) limitele intervalului de încredere pentru abaterea standard generală pot fi determinate prin formula: - un număr, care este tabulat și dat în tabelul de referință corespunzător.

Daca 1- q<1, то формула имеет вид:

Exemplu:

Să rezolvăm problema anterioară în al treilea mod.

Soluţie:

Găsit anteriors= 5,17. q(0,95; 15) = 0,46 - găsim conform tabelului.

Apoi:

Populația- un set de unitati care au caracter de masa, tipicitate, uniformitate calitativa si prezenta variatiei.

Populația statistică este formată din obiecte existente material (Angajați, întreprinderi, țări, regiuni), este un obiect.

Unitatea de populație- fiecare unitate specifică a populaţiei statistice.

Una și aceeași populație statistică poate fi omogenă într-o trăsătură și eterogenă în alta.

Uniformitate calitativă- asemănarea tuturor unităților populației pentru orice caracteristică și neasemănarea pentru toate celelalte.

Într-o populație statistică, diferențele dintre o unitate a populației și alta sunt mai adesea de natură cantitativă. Modificările cantitative ale valorilor atributului diferitelor unități ale populației se numesc variație.

Variație caracteristică- modificarea cantitativă a unui semn (pentru un semn cantitativ) în timpul trecerii de la o unitate a populației la alta.

semn- aceasta este o proprietate, caracteristică sau altă trăsătură a unităților, obiectelor și fenomenelor care pot fi observate sau măsurate. Semnele sunt împărțite în cantitative și calitative. Diversitatea și variabilitatea valorii unei caracteristici în unități individuale ale populației se numesc variație.

Caracteristicile atributive (calitative) nu sunt cuantificabile (compunerea populației pe sex). Caracteristicile cantitative au o expresie numerică (compunerea populației pe vârstă).

Index- aceasta este o caracteristică cantitativă și calitativă generalizantă a oricărei proprietăți a unităților sau agregatelor în acest scop în condiții specifice de timp și loc.

Tabloul de punctaj este un set de indicatori care reflectă cuprinzător fenomenul studiat.

De exemplu, luați în considerare salariul:
  • Semn - salarii
  • Populația statistică - toți angajații
  • Unitatea populației este fiecare muncitor
  • Omogenitate calitativă - salariu acumulat
  • Variație caracteristică - o serie de numere

Populația generală și eșantionul din ea

Baza este un set de date obținute ca urmare a măsurării uneia sau mai multor caracteristici. Setul de obiecte observat efectiv, reprezentat statistic printr-o serie de observații ale unei variabile aleatorii, este prelevarea de probe, și existentul ipotetic (gândit) - populația generală. Populația generală poate fi finită (număr de observații N = const) sau infinit ( N = ∞), iar un eșantion din populația generală este întotdeauna rezultatul unui număr limitat de observații. Se numește numărul de observații care alcătuiesc un eșantion marime de mostra. Dacă dimensiunea eșantionului este suficient de mare n→∞) se ia în considerare eșantionul mare, altfel se numește probă volum limitat. Se ia în considerare eșantionul mic, dacă, la măsurarea unei variabile aleatoare unidimensionale, dimensiunea eșantionului nu depășește 30 ( n<= 30 ), iar când se măsoară simultan mai multe ( k) caracteristici într-o relație spațială multidimensională n la k mai puțin decât 10 (n/k< 10) . Formele eșantionului serie de variații dacă membrii săi sunt statisticile comenzilor, adică valorile eșantionului ale variabilei aleatoare X sunt sortate în ordine crescătoare (clasate), valorile atributului sunt numite Opțiuni.

Exemplu. Aproape același set de obiecte selectat aleatoriu - băncile comerciale dintr-un district administrativ al Moscovei, poate fi considerat ca un eșantion din populația generală a tuturor băncilor comerciale din acest district și ca un eșantion din populația generală a tuturor băncilor comerciale din Moscova , precum si un esantion de banci comerciale din tara si etc.

Metode de bază de eșantionare

De fiabilitatea concluziilor statistice și interpretarea semnificativă a rezultatelor depinde reprezentativitate mostre, adică completitudinea și adecvarea prezentării proprietăților populației generale, în raport cu care acest eșantion poate fi considerat reprezentativ. Studiul proprietăţilor statistice ale populaţiei poate fi organizat în două moduri: utilizând continuuși discontinuu. Observație continuă include examinarea tuturor unitati studiat agregate, A observație necontinuă (selectivă).- doar părți din ea.

Există cinci moduri principale de organizare a eșantionării:

1. selecție aleatorie simplă, în care obiectele sunt extrase aleatoriu din populația generală de obiecte (de exemplu, folosind un tabel sau un generator de numere aleatoare), iar fiecare dintre eșantioanele posibile are o probabilitate egală. Se numesc astfel de mostre de fapt aleatoriu;

2. selecție simplă printr-o procedură obișnuită se realizează folosind o componentă mecanică (de exemplu, datele, zilele săptămânii, numerele apartamentelor, literele alfabetului etc.) iar eșantioanele obținute în acest fel se numesc mecanic;

3. stratificat selecţia constă în faptul că populaţia generală de volum este subdivizată în submulţimi sau straturi (straturi) de volum astfel încât . Straturile sunt obiecte omogene din punct de vedere al caracteristicilor statistice (de exemplu, populația este împărțită în straturi pe grupe de vârstă sau clasă socială; întreprinderi pe industrie). În acest caz, eșantioanele sunt numite stratificat(in caz contrar, stratificat, tipic, zonat);

4. metode serial selecția sunt folosite pentru a forma serial sau mostre imbricate. Sunt convenabile dacă este necesar să se examineze simultan un „bloc” sau o serie de obiecte (de exemplu, un lot de mărfuri, produse dintr-o anumită serie sau populația din diviziunea administrativă teritorială a țării). Selectarea serii poate fi efectuată în mod aleatoriu sau mecanic. În același timp, se efectuează o cercetare continuă a unui anumit lot de mărfuri sau a unei întregi unități teritoriale (o clădire de locuit sau un sfert);

5. combinate selecția (în trepte) poate combina mai multe metode de selecție simultan (de exemplu, stratificată și aleatorie sau aleatorie și mecanică); se numeste un astfel de esantion combinate.

Tipuri de selecție

De minte există selecție individuală, de grup și combinată. La selecție individuală unități individuale ale populației generale sunt selectate în setul de eșantion, cu selecția grupului sunt grupuri (serii) de unități calitativ omogene și selecție combinată implică o combinație între primul și al doilea tip.

De metodă selectie distinge repetate și nerepetitive probă.

irepetabil numită selecție, în care unitatea care a intrat în eșantion nu revine la populația inițială și nu participă la selecția ulterioară; în timp ce numărul de unităţi ale populaţiei generale N redus în timpul procesului de selecție. La repetate selecţie prinsîn eșantion, unitatea după înregistrare este returnată populației generale și, astfel, își păstrează o șansă egală, alături de alte unități, de a fi utilizată în continuarea procedurii de selecție; în timp ce numărul de unităţi ale populaţiei generale N rămâne neschimbată (metoda este rar folosită în studiile socio-economice). Cu toate acestea, cu un mare N (N → ∞) formule pentru nerepetat selecția sunt apropiate de cele pentru repetate selecția și acestea din urmă sunt folosite aproape mai des ( N = const).

Principalele caracteristici ale parametrilor populației generale și eșantionului

La baza concluziilor statistice ale studiului se află distribuția unei variabile aleatoare, în timp ce valorile observate (x 1, x 2, ..., x n) se numesc realizări ale variabilei aleatoare X(n este dimensiunea eșantionului). Distribuția unei variabile aleatoare în populația generală este teoretică, de natură ideală, iar analogul eșantionului este empiric distributie. Unele distribuții teoretice sunt date analitic, i.e. lor Opțiuni determinați valoarea funcției de distribuție în fiecare punct din spațiul valorilor posibile ale variabilei aleatoare. Pentru un eșantion, este dificil, și uneori imposibil, să se determine funcția de distribuție, prin urmare Opțiuni sunt estimate din date empirice și apoi sunt substituite într-o expresie analitică care descrie distribuția teoretică. În acest caz, ipoteza (sau ipoteză) despre tipul de distribuție poate fi atât corectă statistic, cât și eronată. Dar, în orice caz, distribuția empirică reconstruită din eșantion o caracterizează doar aproximativ pe cea adevărată. Cei mai importanți parametri de distribuție sunt valorea estimatași dispersie.

Prin însăși natura lor, distribuțiile sunt continuuși discret. Cea mai cunoscută distribuție continuă este normal. Analogi selectivi ai parametrilor și pentru ei sunt: ​​valoarea medie și varianța empirică. Dintre cele discrete în studiile socio-economice, cele mai frecvent utilizate alternativă (dihotomică) distributie. Parametrul de așteptare al acestei distribuții exprimă valoarea relativă (sau acțiune) unități ale populației care au caracteristica studiată (se indică prin litera ); proporţia populaţiei care nu are această caracteristică se notează cu literă q (q = 1 - p). Varianta distribuției alternative are și un analog empiric.

În funcție de tipul de distribuție și de metoda de selectare a unităților de populație, caracteristicile parametrilor de distribuție se calculează diferit. Principalele distribuții teoretice și empirice sunt date în tabel. 9.1.

Cota de probă k n este raportul dintre numărul de unități ale populației eșantionului și numărul de unități ale populației generale:

k n = n/N.

Cotă de probă w este raportul dintre unitățile care au trăsătura în studiu X la dimensiunea eșantionului n:

w = n n / n.

Exemplu.Într-un lot de mărfuri ce conține 1000 de unități, cu o probă de 5%. fracția de probă k nîn valoare absolută este de 50 de unități. (n = N*0,05); dacă în această probă se găsesc 2 produse defecte, atunci fracția de probă w va fi 0,04 (w = 2/50 = 0,04 sau 4%).

Deoarece populația eșantion este diferită de populația generală, există erori de eșantionare.

Tabelul 9.1 Principalii parametri ai populației generale și eșantionului

Erori de eșantionare

Cu orice (solide și selective) pot apărea erori de două tipuri: înregistrare și reprezentativitate. Greșeli înregistrare poate avea Aleatoriuși sistematic caracter. Aleatoriu erorile sunt alcătuite din multe cauze diferite de necontrolat, sunt de natură neintenționată și, de obicei, se echilibrează între ele în combinație (de exemplu, modificări ale citirilor instrumentului din cauza fluctuațiilor de temperatură din cameră).

Sistematic erorile sunt părtinitoare, deoarece încalcă regulile de selectare a obiectelor din eșantion (de exemplu, abateri ale măsurătorilor la modificarea setărilor dispozitivului de măsurare).

Exemplu. Pentru a evalua statutul social al populației din oraș, se preconizează examinarea a 25% dintre familii. Dacă, totuși, selecția fiecărui al patrulea apartament se bazează pe numărul său, atunci există pericolul de a selecta toate apartamentele de un singur tip (de exemplu, apartamente cu o cameră), ceea ce va introduce o eroare sistematică și va distorsiona rezultatele; alegerea numărului apartamentului după lot este mai de preferat, deoarece eroarea va fi aleatorie.

Erori de reprezentativitate inerente doar observarii selective, ele nu pot fi evitate si apar ca urmare a faptului ca proba nu o reproduce integral pe cea generala. Valorile indicatorilor obținuți din eșantion diferă de indicatorii acelorași valori în populația generală (sau obținuți în timpul observației continue).

Eroare de eșantionare este diferența dintre valoarea parametrului în populația generală și valoarea eșantionului acestuia. Pentru valoarea medie a unui atribut cantitativ, aceasta este egală cu: , iar pentru cota (atribut alternativ) - .

Erorile de eșantionare sunt inerente numai în observațiile eșantionului. Cu cât aceste erori sunt mai mari, cu atât distribuția empirică diferă de cea teoretică. Parametrii distribuției empirice și sunt variabile aleatoare, prin urmare, erorile de eșantionare sunt, de asemenea, variabile aleatoare, pot lua valori diferite pentru diferite eșantioane și, prin urmare, este obișnuit să se calculeze eroare medie.

Eroare medie de eșantionare este o valoare care exprimă abaterea standard a mediei eșantionului de la așteptările matematice. Această valoare, supusă principiului selecției aleatoare, depinde în primul rând de mărimea eșantionului și de gradul de variație al trăsăturii: cu cât variația trăsăturii este mai mare și mai mică (deci, valoarea lui ), cu atât valoarea lui este mai mică. eroarea medie de eșantionare . Raportul dintre variațiile populației generale și eșantionului este exprimat prin formula:

acestea. pentru suficient de mare, putem presupune că . Eroarea medie de eșantionare arată posibilele abateri ale parametrului populației eșantionului față de parametrul populației generale. În tabel. 9.2 prezintă expresii pentru calcularea erorii medii de eșantionare pentru diferite metode de organizare a observației.

Tabelul 9.2 Eroarea medie (m) a mediei și proporția eșantionului pentru diferite tipuri de eșantion

Unde este media variațiilor eșantionului intragrup pentru o caracteristică continuă;

Media dispersiunilor intragrup ale cotei;

— numărul de serii selectate; — numărul total de serii;

,

unde este media seriei a-lea;

- media generală pe întregul eșantion pentru o caracteristică continuă;

,

unde este proporția trăsăturii din seria a III-a;

— ponderea totală a trăsăturii pe întregul eșantion.

Cu toate acestea, mărimea erorii medii poate fi apreciată doar cu o anumită probabilitate Р (Р ≤ 1). Lyapunov A.M. a demonstrat că distribuția mediilor eșantionului, și deci abaterile acestora de la media generală, cu un număr suficient de mare, respectă aproximativ legea distribuției normale, cu condiția ca populația generală să aibă o medie finită și o varianță limitată.

Matematic, această afirmație pentru medie este exprimată astfel:

iar pentru fracție, expresia (1) va lua forma:

Unde - există eroare marginală de eșantionare, care este un multiplu al erorii medii de eșantionare , iar factorul de multiplicitate este criteriul lui Student („factor de încredere”), propus de W.S. Gosset (pseudonim „Student”); valorile pentru diferite dimensiuni ale eșantionului sunt stocate într-un tabel special.

Valorile funcției Ф(t) pentru unele valori ale lui t sunt:

Prin urmare, expresia (3) poate fi citită astfel: cu probabilitate P = 0,683 (68,3%) se poate susține că diferența dintre eșantion și media generală nu va depăși o valoare a erorii medii m(t=1), cu probabilitate P = 0,954 (95,4%)— că nu depășește valoarea a două erori medii m (t = 2), cu probabilitate P = 0,997 (99,7%)- nu va depăși trei valori m (t = 3) . Astfel, determină probabilitatea ca această diferență să depășească de trei ori valoarea erorii medii nivelul de eroareși nu este mai mult decât 0,3% .

În tabel. Sunt date 9.3 formule de calcul al erorii marginale de eșantionare.

Tabelul 9.3 Eroarea marginală de eșantionare (D) pentru medie și proporție (p) pentru diferite tipuri de eșantionare

Extinderea rezultatelor eșantionului la populație

Scopul final al observării eșantionului este de a caracteriza populația generală. Pentru dimensiunile mici ale eșantionului, estimările empirice ale parametrilor ( și ) se pot abate semnificativ de la valorile lor adevărate ( și ). Prin urmare, devine necesar să se stabilească limitele în care se află adevăratele valori ( și ) pentru valorile eșantion ale parametrilor ( și ).

Interval de încredere al oricărui parametru θ al populației generale se numește un interval aleatoriu de valori ale acestui parametru, care cu o probabilitate apropiată de 1 ( fiabilitate) conține valoarea adevărată a acestui parametru.

eroare marginală mostre Δ vă permite să determinați valorile limită ale caracteristicilor populației generale și ale acestora intervale de încredere, care sunt egale cu:

Concluzie interval de încredere obtinut prin scadere eroare marginală din eșantion înseamnă (cota), iar cea de sus prin adăugarea acesteia.

Interval de încredere pentru medie, folosește eroarea marginală de eșantionare și pentru un anumit nivel de încredere este determinat de formula:

Aceasta înseamnă că cu o probabilitate dată R, care se numește nivelul de încredere și este determinat în mod unic de valoare t, se poate argumenta că adevărata valoare a mediei se află în intervalul de la , iar valoarea reală a acțiunii este în intervalul de la

La calcularea intervalului de încredere pentru cele trei niveluri de încredere standard P=95%, P=99% și P=99,9% valoarea este selectată de . Aplicații în funcție de numărul de grade de libertate. Dacă dimensiunea eșantionului este suficient de mare, atunci valorile corespunzătoare acestor probabilități t sunt egale: 1,96, 2,58 și 3,29 . Astfel, eroarea marginală de eșantionare ne permite să determinăm valorile marginale ale caracteristicilor populației generale și intervalele de încredere ale acestora:

Distribuția rezultatelor observației selective către populația generală în studiile socio-economice are propriile sale caracteristici, deoarece necesită caracterul complet al reprezentativității tuturor tipurilor și grupurilor sale. Baza pentru posibilitatea unei astfel de distribuții este calculul eroare relativă:

Unde Δ % - eroare relativă marginală de eșantionare; , .

Există două metode principale pentru extinderea unei observații prin eșantion la populație: conversie directă și metoda coeficienților.

Esență conversie directă este de a înmulți media eșantionului!!\overline(x) cu dimensiunea populației.

Exemplu. Să fie estimat numărul mediu de copii mici din oraș printr-o metodă de eșantionare și valoarea unei persoane. Dacă în oraș sunt 1000 de familii tinere, atunci numărul de locuri necesare în creșa municipală se obține prin înmulțirea acestei medii cu mărimea populației generale N = 1000, adică. va fi de 1200 de locuri.

Metoda coeficienților se recomanda folosirea in cazul in care se efectueaza observatia selectiva pentru a clarifica datele de observatie continua.

În acest sens, se utilizează formula:

unde toate variabilele sunt mărimea populației:

Mărimea eșantionului necesară

Tabelul 9.4 Mărimea eșantionului necesară (n) pentru diferite tipuri de organizații de eșantionare

Atunci când se planifica o anchetă de eșantionare cu o valoare predeterminată a erorii de eșantionare admisibile, este necesar să se estimeze corect valoarea necesară marime de mostra. Această sumă poate fi determinată pe baza erorii admisibile în timpul observației selective pe baza unei probabilități date care garantează un nivel de eroare acceptabil (ținând cont de modul în care este organizată observația). Formulele pentru determinarea dimensiunii necesare a eșantionului n pot fi obținute cu ușurință direct din formulele pentru eroarea marginală de eșantionare. Deci, din expresia pentru eroarea marginală:

dimensiunea eșantionului este direct determinată n:

Această formulă arată că odată cu descreșterea erorii marginale de eșantionare Δ crește semnificativ dimensiunea eșantionului necesară, care este proporțională cu varianța și pătratul testului t Student.

Pentru o metodă specifică de organizare a observației, dimensiunea necesară a eșantionului este calculată conform formulelor date în tabel. 9.4.

Exemple practice de calcul

Exemplul 1. Calculul valorii medii și al intervalului de încredere pentru o caracteristică cantitativă continuă.

Pentru a evalua viteza de decontare cu creditorii din bancă, a fost efectuat un eșantion aleatoriu de 10 documente de plată. Valorile lor s-au dovedit a fi egale (în zile): 10; 3; cincisprezece; cincisprezece; 22; 7; opt; unu; 19; douăzeci.

Obligatoriu cu probabilitate P = 0,954 determina eroarea marginală Δ media eșantionului și limitele de încredere ale timpului mediu de calcul.

Soluţie. Valoarea medie este calculată prin formula din tabel. 9.1 pentru populația eșantion

Dispersia este calculată conform formulei din tabel. 9.1.

Eroarea pătratică medie a zilei.

Eroarea mediei se calculează cu formula:

acestea. valoarea medie este x ± m = 12,0 ± 2,3 zile.

Fiabilitatea mediei a fost

Eroarea limită este calculată prin formula din tabel. 9.3 pentru reselecție, deoarece dimensiunea populației este necunoscută, și pt P = 0,954 nivel de încredere.

Astfel, valoarea medie este `x ± D = `x ± 2m = 12,0 ± 4,6, i.e. valoarea sa reală se află în intervalul de la 7,4 la 16,6 zile.

Utilizarea tabelului Studentului. Aplicația ne permite să concluzionăm că pentru n = 10 - 1 = 9 grade de libertate valoarea obținută este fiabilă cu un nivel de semnificație a £ 0,001, i.e. valoarea medie rezultată este semnificativ diferită de 0.

Exemplul 2. Estimarea probabilității (cota generală) r.

Cu o metodă de eșantionare mecanică de anchetă a statutului social a 1000 de familii, a fost relevat că proporția familiilor cu venituri mici a fost w = 0,3 (30%)(eșantionul a fost 2% , adică n/N = 0,02). Necesar cu nivel de încredere p = 0,997 definiți un indicator R familii cu venituri mici din întreaga regiune.

Soluţie. Conform valorilor funcţiei prezentate Ф(t) găsiți pentru un anumit nivel de încredere P = 0,997 sens t=3(vezi formula 3). Eroare de cotă marginală w determinați prin formula din tabel. 9.3 pentru eșantionarea nerepetată (prelevarea mecanică este întotdeauna nerepetată):

Limitarea erorii relative de eșantionare în % va fi:

Probabilitatea (ponderea generală) a familiilor cu venituri mici din regiune va fi p=w±Δw, iar limitele de încredere p sunt calculate pe baza inegalității duble:

w — Δw ≤ p ≤ w — Δw, adică adevărata valoare a lui p se află în:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Astfel, cu o probabilitate de 0,997, se poate argumenta că proporția familiilor cu venituri mici în rândul tuturor familiilor din regiune variază de la 28,6% la 31,4%.

Exemplul 3 Calculul valorii medii și al intervalului de încredere pentru o caracteristică discretă specificată de o serie de intervale.

În tabel. 9.5. se stabileşte repartizarea aplicaţiilor pentru producerea comenzilor în funcţie de momentul implementării lor de către întreprindere.

Tabelul 9.5 Distribuția observațiilor în funcție de momentul apariției

Soluţie. Timpul mediu de finalizare a comenzii este calculat prin formula:

Timpul mediu va fi:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 luni

Primim același răspuns dacă folosim datele de pe p i din penultima coloană a tabelului. 9.5 folosind formula:

Rețineți că mijlocul intervalului pentru ultima gradație se găsește prin completarea artificială a acestuia cu lățimea intervalului gradației anterioare egală cu 60 - 36 = 24 luni.

Dispersia se calculează prin formula

Unde x i- mijlocul seriei de intervale.

Prin urmare!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) iar eroarea standard este .

Eroarea mediei este calculată prin formula pentru luni, adică media este!!\overline(x) ± m = 23,1 ± 13,4.

Eroarea limită este calculată prin formula din tabel. 9,3 pentru reselecție deoarece dimensiunea populației este necunoscută, pentru un nivel de încredere de 0,954:

Deci media este:

acestea. adevărata sa valoare se află în intervalul de la 0 la 50 de luni.

Exemplul 4 Pentru a determina viteza decontărilor cu creditorii ai N = 500 de întreprinderi ale corporației într-o bancă comercială, este necesar să se efectueze un studiu selectiv folosind metoda selecției aleatorii nerepetitive. Determinați dimensiunea eșantionului necesar n astfel încât, cu o probabilitate P = 0,954, eroarea mediei eșantionului să nu depășească 3 zile, dacă estimările testului au arătat că abaterea standard s a fost de 10 zile.

Soluţie. Pentru a determina numărul de studii necesare n, folosim formula pentru selecția nerepetitivă din tabel. 9.4:

În ea, valoarea lui t este determinată de la nivelul de încredere Р = 0,954. Este egal cu 2. Valoarea pătrată medie s = 10, dimensiunea populației N = 500 și eroarea marginală a mediei Δ x = 3. Înlocuind aceste valori în formulă, obținem:

acestea. este suficient să se facă un eșantion de 41 de întreprinderi pentru a estima parametrul necesar – viteza decontărilor cu creditorii.

Observație selectivă se aplică atunci când se aplică observarea continuă imposibil fizic datorită cantităţii mari de date sau nepractic din punct de vedere economic. Imposibilitatea fizică apare, de exemplu, atunci când se studiază fluxurile de pasageri, prețurile pieței, bugetele familiei. Inutilitatea economică apare atunci când se evaluează calitatea mărfurilor asociate cu distrugerea lor, de exemplu, degustarea, testarea cărămizilor pentru rezistență etc.

Unitățile statistice selectate pentru observare sunt cadru de prelevare sau prelevarea de probe, și întreaga lor matrice - populația generală(GS). în care numărul de unități din eșantion desemna n, și în întregul HS - N. Atitudine n/N numit mărime relativă sau cota de eșantion.

Calitatea rezultatelor prelevării depinde de reprezentativitatea probei, adică despre cât de reprezentativ este în SG. Pentru a asigura reprezentativitatea probei, este necesar să se respecte principiul selecției aleatorii a unităților, care presupune că includerea unei unități HS în eșantion nu poate fi influențată de niciun alt factor decât hazardul.

Există 4 moduri de selecție aleatorie a eșantiona:

  1. De fapt aleatoriu selecție sau „metoda loto”, când numerele de serie sunt atribuite unor valori statistice, introduse pe anumite obiecte (de exemplu, butoaie), care sunt apoi amestecate într-un recipient (de exemplu, într-o pungă) și selectate la întâmplare. În practică, această metodă este realizată folosind un generator de numere aleatoare sau tabele matematice de numere aleatoare.
  2. Mecanic selecție, în funcție de care fiecare ( N/n)-a valoare a populației generale. De exemplu, dacă conține 100.000 de valori și doriți să selectați 1.000, atunci fiecare 100.000 / 1000 = a 100-a valoare va intra în eșantion. Mai mult, dacă nu sunt clasați, atunci primul este ales la întâmplare din prima sută, iar numerele celorlalți vor fi cu o sută în plus. De exemplu, dacă unitatea numărul 19 a fost prima, atunci numărul 119 ar trebui să fie următorul, apoi numărul 219, apoi numărul 319 și așa mai departe. Dacă unitățile de populație sunt clasate, atunci este selectat primul #50, apoi #150, apoi #250 și așa mai departe.
  3. Se efectuează selecția valorilor dintr-o matrice de date eterogenă stratificat cale (stratificată), când populația generală este în prealabil împărțită în grupuri omogene, cărora li se aplică selecția aleatorie sau mecanică.
  4. O metodă specială de eșantionare este serial selecție, în care nu cantitățile individuale sunt alese aleatoriu sau mecanic, ci seriile lor (secvențe de la un număr la unele consecutive), în cadrul cărora se efectuează observarea continuă.

Calitatea observațiilor eșantionului depinde și de tipul de eșantionare: repetate sau nerepetitive.
La re-selectare valorile statistice sau seriile acestora care au intrat în eșantion sunt returnate populației generale după utilizare, având șansa de a intra într-un eșantion nou. În același timp, toate valorile populației generale au aceeași probabilitate de a fi incluse în eșantion.
Selecție care nu se repetăînseamnă că valorile statistice sau seriile lor incluse în eșantion nu sunt returnate populației generale după utilizare și, prin urmare, probabilitatea de a intra în următorul eșantion crește pentru valorile rămase ale acestuia din urmă.

Eșantionarea nerepetitivă oferă rezultate mai precise, deci este folosită mai des. Există însă situații în care nu poate fi aplicată (studiul fluxurilor de pasageri, cererea consumatorilor etc.) și apoi se realizează o reselecție.

Erori de eșantionare

Setul de eșantionare poate fi format pe baza unui semn cantitativ al valorilor statistice, precum și pe o bază alternativă sau atributivă. În primul caz, caracteristica generalizantă a probei este valoarea notată cu , iar în al doilea - cota de eșantion cantități, notate w. În populația generală, respectiv: media generalăși cota generală p.

Diferențele - și WR numit Eroare de eșantionare, care se împarte la eroare de înregistrareși eroare de reprezentativitate. Prima parte a erorii de eșantionare apare din cauza informațiilor incorecte sau inexacte din cauza neînțelegerii esenței problemei, a neglijenței registratorului la completarea chestionarelor, formularelor etc. Este destul de ușor de detectat și reparat. A doua parte a erorii provine din nerespectarea constantă sau spontană a principiului selecției aleatorii. Este greu de detectat și eliminat, este mult mai mare decât primul și de aceea i se acordă atenția principală.

Valoarea erorii de eșantionare poate fi diferită pentru diferite eșantioane din aceeași populație generală, prin urmare, în statistică se determină eroare medie de reeșantionare și neeșantionare dupa formulele:

Repetat;

- nerepetitiv;

Unde Dv este varianța eșantionului.

De exemplu, într-o fabrică cu 1000 de angajați. S-a efectuat o eșantionare aleatorie nerepetitivă de 5% pentru a determina vechimea medie a angajaților. Rezultatele observației prin eșantionare sunt prezentate în primele două coloane din următorul tabel:

X , ani
(experiență de muncă)

f , pers.
(numărul de angajați din eșantion)

X și

X și f

În coloana a 3-a, punctele medii ale intervalelor X sunt definite (ca jumătate din suma limitelor inferioare și superioare ale intervalului), iar în coloana a 4-a, produsele lui X și f pentru a găsi media eșantionului folosind aritmetica ponderată. formula medie:

143,0/50 = 2,86 (ani).

Calculați varianța ponderată a eșantionului:
= 105,520/50 = 2,110.

Acum să găsim eroarea medie de non-retestare:
= 0,200 (ani).

Din formulele pentru erorile medii de eșantionare, se poate observa că eroarea este mai mică în cazul eșantionării nerepetitive și, așa cum se dovedește în teoria probabilității, apare cu o probabilitate de 0,683 (adică dacă luați 1000 de eșantioane dintr-un singur general). populație, atunci în 683 dintre ele eroarea nu va depăși eroarea medie de eșantionare). Această probabilitate (0,683) nu este mare, deci nu este foarte potrivită pentru calcule practice, unde este nevoie de o probabilitate mai mare. Pentru a determina eroarea de eșantionare cu o probabilitate mai mare decât 0,683, calculați eroare marginală de eșantionare:

Unde t– coeficient de încredere, în funcție de probabilitatea cu care se determină eroarea marginală de eșantionare.

Valorile factorului de încredere t calculate pentru diferite probabilități și sunt disponibile în tabele speciale (integrala Laplace), dintre care următoarele combinații sunt utilizate pe scară largă în statistică:

Probabilitate 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
t 1 1,5 1,96 2 2,5 2,58 3 3,5

Având în vedere un anumit nivel de probabilitate, valoarea corespunzătoare acestuia este selectată din tabel tși determinați eroarea marginală de eșantionare prin formula.
În acest caz, = 0,95 și t= 1,96, adică ei cred că, cu o probabilitate de 95%, eroarea marginală de eșantionare este de 1,96 ori mai mare decât media. Se consideră această probabilitate (0,95). standardși se aplică implicit în calcule.

În , definim eroarea marginală de eșantionare la probabilitatea standard de 95% (de la prelevarea t= 1,96 pentru 95% șansă): = 1,96*0,200 = 0,392 (ani).

După calcularea erorii marginale, se găsește intervalul de încredere a caracteristicii generalizatoare a populaţiei generale. Un astfel de interval pentru media generală are forma
Adică, vechimea medie în muncă a lucrătorilor la întreaga fabrică se află în intervalul de la 2.468 la 3.252 de ani.

Determinarea dimensiunii eșantionului

La elaborarea unui program de observare selectivă, uneori li se atribuie o valoare specifică a erorii marginale cu un nivel de probabilitate. Mărimea minimă a eșantionului care oferă precizia dată rămâne necunoscută. Se poate obține din formulele pentru erorile medii și marginale, în funcție de tipul eșantionului. Deci, înlocuind și în și, rezolvându-l în raport cu dimensiunea eșantionului, obținem următoarele formule:
pentru reeșantionare n =
pentru nicio reeșantionare n = .

În plus, pentru valorile statistice cu caracteristici cantitative, trebuie să se cunoască și varianța eșantionului, dar nici la începutul calculelor nu se știe. Prin urmare, este acceptat aproximativ una dintre următoarele moduri(în ordinea priorităților):

Când se studiază caracteristicile nenumerice, chiar dacă nu există informații aproximative despre fracția eșantionului, se acceptă w= 0,5, care, conform formulei de dispersie a cotei, corespunde dispersiei probei în dimensiunea maximă Dv = 0,5*(1-0,5) = 0,25.