Interval de încredere standard. Interval de încredere

Ţintă– să predea elevilor algoritmi pentru calcularea intervalelor de încredere a parametrilor statistici.

În timpul procesării statistice a datelor, media aritmetică calculată, coeficientul de variație, coeficientul de corelație, criteriile de diferență și alte statistici punctuale ar trebui să primească limite cantitative de încredere, care indică posibile fluctuații ale indicatorului în sus și în jos în intervalul de încredere.

Exemplul 3.1 . Distribuția calciului în serul sanguin al maimuțelor, așa cum a fost stabilită anterior, se caracterizează prin următorii indicatori selectivi: = 11,94 mg%; = 0,127 mg%; n= 100. Este necesar să se determine intervalul de încredere pentru media generală ( ) cu probabilitate de încredere P = 0,95.

Media generală este cu o anumită probabilitate în intervalul:

, Unde – medie aritmetică eșantionului; t- Criteriul elevului; este eroarea mediei aritmetice.

Conform tabelului „Valorile criteriului Studentului” găsim valoarea cu un nivel de încredere de 0,95 și numărul de grade de libertate k\u003d 100-1 \u003d 99. Este egal cu 1,982. Împreună cu valorile mediei aritmetice și ale erorii statistice, o înlocuim în formula:

sau 11,69
12,19

Astfel, cu o probabilitate de 95%, se poate susține că media generală a acestei distribuții normale este între 11,69 și 12,19 mg%.

Exemplul 3.2 . Determinați limitele intervalului de încredere de 95% pentru varianța generală ( ) distribuția calciului în sângele maimuțelor, dacă se știe că
= 1,60, cu n = 100.

Pentru a rezolva problema, puteți folosi următoarea formulă:

Unde este eroarea statistică a varianței.

Găsiți eroarea varianței eșantionului folosind formula:
. Este egal cu 0,11. Sens t- criteriu cu o probabilitate de încredere de 0,95 și numărul de grade de libertate k= 100–1 = 99 este cunoscut din exemplul anterior.

Să folosim formula și să obținem:

sau 1,38
1,82

Un interval de încredere mai precis pentru varianța generală poate fi construit folosind (chi-pătrat) - testul lui Pearson. Punctele critice pentru acest criteriu sunt date într-un tabel special. La folosirea criteriului un nivel de semnificație cu două laturi este utilizat pentru a construi un interval de încredere. Pentru limita inferioară, nivelul de semnificație este calculat prin formulă
, pentru partea superioară
. De exemplu, pentru un nivel de încredere = 0,99= 0,010,= 0,990. În consecință, conform tabelului de distribuție a valorilor critice , cu nivelurile de încredere calculate și numărul de grade de libertate k= 100 – 1= 99, găsiți valorile
și
. Primim
este egal cu 135,80 și
este egal cu 70,06.

Pentru a găsi limitele de încredere ale varianței generale folosind folosim formulele: pentru limita inferioară
, pentru limita superioară
. Înlocuiți datele sarcinii cu valorile găsite în formule:
= 1,17;
= 2,26. Astfel, cu un nivel de încredere P= 0,99 sau 99%, varianța generală va fi în intervalul de la 1,17 la 2,26 mg% inclusiv.

Exemplul 3.3 . Dintre cele 1000 de semințe de grâu din lotul ajuns la lift au fost găsite 120 de semințe infectate cu ergot. Este necesar să se determine limitele probabile ale proporției totale de semințe infectate într-un anumit lot de grâu.

Limitele de încredere pentru cota generală pentru toate valorile sale posibile ar trebui determinate de formula:

,

Unde n este numărul de observații; m este numărul absolut al unuia dintre grupuri; t este abaterea normalizată.

Fracția eșantionului de semințe infectate este egală cu
sau 12%. Cu un nivel de încredere R= abatere normalizată de 95% ( t-Criteriul elevului pentru k =
)t = 1,960.

Înlocuim datele disponibile în formula:

Prin urmare, limitele intervalului de încredere sunt = 0,122–0,041 = 0,081 sau 8,1%; = 0,122 + 0,041 = 0,163 sau 16,3%.

Astfel, cu un nivel de încredere de 95%, se poate afirma că proporția totală a semințelor infectate este între 8,1 și 16,3%.

Exemplul 3.4 . Coeficientul de variație, care caracterizează variația calciului (mg%) în serul sanguin al maimuțelor, a fost egal cu 10,6%. Marime de mostra n= 100. Este necesar să se determine limitele intervalului de încredere de 95% pentru parametrul general CV.

Limite de încredere pentru coeficientul general de variație CV sunt determinate de următoarele formule:

și
, Unde K valoare intermediară calculată prin formula
.

Știind asta cu un nivel de încredere R= abatere normalizată de 95% (testul t al studentului pentru k =
)t = 1,960, precalculați valoarea LA:

.

sau 9,3%

sau 12,3%

Astfel, coeficientul general de variație cu o probabilitate de încredere de 95% se află în intervalul de la 9,3 la 12,3%. Cu probe repetate, coeficientul de variație nu va depăși 12,3% și nu va scădea sub 9,3% în 95 de cazuri din 100.

Întrebări pentru autocontrol:

Sarcini pentru soluție independentă.

1. Procentul mediu de grăsime din lapte pentru alăptarea vacilor din încrucișările Kholmogory a fost următorul: 3,4; 3,6; 3,2; 3.1; 2,9; 3,7; 3,2; 3,6; 4,0; 3,4; 4.1; 3,8; 3,4; 4,0; 3,3; 3,7; 3,5; 3,6; 3,4; 3.8. Setați intervale de încredere pentru media generală la un nivel de încredere de 95% (20 de puncte).

2. Pe 400 de plante de secară hibridă, primele flori au apărut în medie la 70,5 zile de la semănat. Abaterea standard a fost de 6,9 ​​zile. Determinați eroarea mediei și a intervalelor de încredere pentru media populației și varianța la un nivel de semnificație W= 0,05 și W= 0,01 (25 puncte).

3. La studierea lungimii frunzelor a 502 exemplare de căpșuni de grădină s-au obținut următoarele date: = 7,86 cm; σ = 1,32 cm, \u003d ± 0,06 cm. Determinați intervalele de încredere pentru media aritmetică a populației cu niveluri de semnificație de 0,01; 0,02; 0,05. (25 de puncte).

4. La examinarea a 150 de bărbați adulți, înălțimea medie a fost de 167 cm și σ \u003d 6 cm. Care sunt limitele mediei generale și ale variației generale cu o probabilitate de încredere de 0,99 și 0,95? (25 de puncte).

5. Distribuția calciului în serul sanguin al maimuțelor este caracterizată de următorii indicatori selectivi: = 11,94 mg%, σ = 1,27, n = 100. Grafic un interval de încredere de 95% pentru media populației acestei distribuții. Calculați coeficientul de variație (25 de puncte).

6. A fost studiat conținutul total de azot din plasma sanguină a șobolanilor albinoși la vârsta de 37 și 180 de zile. Rezultatele sunt exprimate în grame la 100 cm3 de plasmă. La vârsta de 37 de zile, 9 șobolani aveau: 0,98; 0,83; 0,99; 0,86; 0,90; 0,81; 0,94; 0,92; 0,87. La vârsta de 180 de zile, 8 șobolani aveau: 1,20; 1,18; 1,33; 1,21; 1,20; 1,07; 1,13; 1.12. Setați intervale de încredere pentru diferență cu un nivel de încredere de 0,95 (50 de puncte).

7. Determinați limitele intervalului de încredere de 95% pentru variația generală a distribuției calciului (mg%) în serul sanguin al maimuțelor, dacă pentru această distribuție dimensiunea eșantionului n = 100, eroarea statistică a varianței eșantionului s σ 2 = 1,60 (40 de puncte).

8. Determinați limitele intervalului de încredere de 95% pentru varianța generală a distribuției a 40 de spiculeți de grâu de-a lungul lungimii (σ 2 = 40,87 mm 2). (25 de puncte).

9. Fumatul este considerat principalul factor predispozitiv la boala pulmonară obstructivă. Fumatul pasiv nu este considerat un astfel de factor. Oamenii de știință au pus sub semnul întrebării siguranța fumatului pasiv și au examinat căile respiratorii la nefumătorii, fumătorii pasivi și activi. Pentru a caracteriza starea tractului respirator, am luat unul dintre indicatorii funcției respirației externe - viteza volumetrică maximă a mijlocului expirației. O scădere a acestui indicator este un semn al permeabilității afectate a căilor respiratorii. Datele sondajului sunt prezentate în tabel.

Numărul de examinați

Debitul maxim mediu expirator, l/s

Deviație standard

nefumători

lucrează într-o zonă de nefumători

lucrează într-o cameră plină de fum

fumători

fumând un număr mic de țigări

numărul mediu de fumători de țigări

fumând un număr mare de țigări

Din tabel, găsiți intervalele de încredere de 95% pentru media generală și varianța generală pentru fiecare dintre grupuri. Care sunt diferențele dintre grupuri? Prezentați rezultatele grafic (25 de puncte).

10. Determinați limitele intervalelor de încredere de 95% și 99% pentru varianța generală a numărului de purcei în 64 de fătări, dacă eroarea statistică a varianței eșantionului s σ 2 = 8,25 (30 puncte).

11. Se știe că greutatea medie a iepurilor este de 2,1 kg. Determinați limitele intervalelor de încredere de 95% și 99% pentru media generală și varianța atunci când n= 30, σ = 0,56 kg (25 puncte).

12. La 100 de spice s-a măsurat conținutul de boabe al spicului ( X), lungimea vârfului ( Y) și masa de cereale în spic ( Z). Găsiți intervale de încredere pentru media generală și varianța pentru P 1 = 0,95, P 2 = 0,99, P 3 = 0,999 dacă = 19, = 6,766 cm, = 0,554 g; σ x 2 = 29,153, σ y 2 = 2,111, σ z 2 = 0,064 (25 puncte).

13. În 100 de spice alese aleatoriu de grâu de iarnă s-a numărat numărul de spiculete. Setul de eșantion a fost caracterizat de următorii indicatori: = 15 spiculete și σ = 2,28 buc. Determinați acuratețea cu care se obține rezultatul mediu ( ) și reprezentați grafic intervalul de încredere pentru media generală și varianța la niveluri de semnificație de 95% și 99% (30 de puncte).

14. Numărul de coaste de pe cochiliile unei moluște fosile Orthamboniții calligramma:

Se știe că n = 19, σ = 4,25. Determinați limitele intervalului de încredere pentru media generală și varianța generală la un nivel de semnificație W = 0,01 (25 puncte).

15. Pentru a determina producția de lapte într-o fermă comercială de lapte, s-a determinat zilnic productivitatea a 15 vaci. Conform datelor anului, fiecare vacă a dat în medie următoarea cantitate de lapte pe zi (l): 22; nouăsprezece; 25; 20; 27; 17; treizeci; 21; optsprezece; 24; 26; 23; 25; 20; 24. Grafic intervalele de încredere pentru varianța generală și media aritmetică. Ne putem aștepta ca producția medie anuală de lapte per vaca să fie de 10.000 de litri? (50 de puncte).

16. Pentru determinarea randamentului mediu de grâu pentru fermă, s-a cosit pe parcele de probă de 1, 3, 2, 5, 2, 6, 1, 3, 2, 11 și 2 ha. Randamentul (c/ha) din parcele a fost de 39,4; 38; 35,8; 40; 35; 42,7; 39,3; 41,6; 33; 42; 29 respectiv. Graficul intervalelor de încredere pentru varianța generală și media aritmetică. Este posibil să ne așteptăm ca randamentul mediu pentru întreprinderea agricolă să fie de 42 c/ha? (50 de puncte).

În statistică, există două tipuri de estimări: punct și interval. Estimarea punctului este un singur eșantion statistic care este utilizat pentru a estima un parametru de populație. De exemplu, media eșantionului este o estimare punctuală a mediei populației și a varianței eșantionului S2- estimarea punctuală a varianței populației σ2. sa arătat că media eșantionului este o estimare imparțială a așteptărilor populației. Media eșantionului se numește imparțial deoarece media tuturor mediilor eșantionului (cu aceeași dimensiune a eșantionului n) este egală cu așteptarea matematică a populației generale.

Pentru variația eșantionului S2 a devenit un estimator imparțial al varianței populației σ2, numitorul varianței eșantionului trebuie setat egal cu n – 1 , dar nu n. Cu alte cuvinte, varianța populației este media tuturor variațiilor posibile ale eșantionului.

La estimarea parametrilor populației, ar trebui să se țină cont de faptul că statisticile eșantionului precum , depind de mostre specifice. A ține cont de acest fapt, a obține estimarea intervalului așteptările matematice ale populației generale analizează distribuția mediilor eșantionului (pentru mai multe detalii, vezi). Intervalul construit este caracterizat de un anumit nivel de încredere, care este probabilitatea ca parametrul adevărat al populației generale să fie estimat corect. Intervale similare de încredere pot fi utilizate pentru a estima proporția unei caracteristici Rși principala masă distribuită a populației generale.

Descărcați nota în sau format, exemple în format

Construirea unui interval de încredere pentru așteptarea matematică a populației generale cu o abatere standard cunoscută

Construirea unui interval de încredere pentru proporția unei trăsături în populația generală

În această secțiune, conceptul de interval de încredere este extins la datele categorice. Acest lucru vă permite să estimați ponderea trăsăturii în populația generală R cu o cotă de probă RS= X/n. După cum sa menționat, dacă valorile nRși n(1 - p) depășește numărul 5, distribuția binomială poate fi aproximată cu cea normală. Prin urmare, pentru a estima ponderea unei trăsături în populația generală R se poate construi un interval al cărui nivel de încredere este egal cu (1 - α)x100%.


Unde pS- cota de eșantion a funcției, egală cu X/n, adică numărul de succese împărțit la dimensiunea eșantionului, R- ponderea trăsăturii în populația generală, Z este valoarea critică a distribuției normale standardizate, n- marime de mostra.

Exemplul 3 Sa presupunem ca din sistemul informatic se extrage o mostra, formata din 100 de facturi completate in ultima luna. Să presupunem că 10 dintre aceste facturi sunt incorecte. Prin urmare, R= 10/100 = 0,1. Nivelul de încredere de 95% corespunde valorii critice Z = 1,96.

Astfel, există o șansă de 95% ca între 4,12% și 15,88% din facturi să conțină erori.

Pentru o anumită dimensiune a eșantionului, intervalul de încredere care conține proporția trăsăturii în populația generală pare a fi mai larg decât pentru o variabilă aleatoare continuă. Acest lucru se datorează faptului că măsurătorile unei variabile aleatoare continue conțin mai multe informații decât măsurătorile datelor categorice. Cu alte cuvinte, datele categorice care iau doar două valori conțin informații insuficiente pentru a estima parametrii distribuției lor.

LAcalculul estimărilor extrase dintr-o populație finită

Estimarea așteptărilor matematice. Factorul de corecție pentru populația finală ( fpc) a fost folosit pentru a reduce eroarea standard cu un factor de . La calcularea intervalelor de încredere pentru estimările parametrilor populației, se aplică un factor de corecție în situațiile în care probele sunt extrase fără înlocuire. Astfel, intervalul de încredere pentru așteptarea matematică, având un nivel de încredere egal cu (1 - α)x100%, se calculează prin formula:

Exemplul 4 Pentru a ilustra aplicarea unui factor de corecție pentru o populație finită, să revenim la problema calculării intervalului de încredere pentru suma medie a facturilor discutată în exemplul 3 de mai sus. Să presupunem că o companie emite 5.000 de facturi pe lună și X= 110,27 USD, S= 28,95 USD N = 5000, n = 100, α = 0,05, t99 = 1,9842. Conform formulei (6) obținem:

Estimarea ponderii caracteristicii. Atunci când alegeți fără întoarcere, intervalul de încredere pentru proporția caracteristicii care are un nivel de încredere egal cu (1 - α)x100%, se calculează prin formula:

Intervale de încredere și probleme etice

Atunci când se eșantionează o populație și se formulează inferențe statistice, apar adesea probleme etice. Principalul este modul în care intervalele de încredere și estimările punctuale ale statisticilor eșantionului sunt de acord. Publicarea estimărilor punctuale fără a specifica intervalele de încredere adecvate (de obicei la niveluri de încredere de 95%) și dimensiunea eșantionului din care sunt derivate pot fi înșelătoare. Acest lucru poate da utilizatorului impresia că o estimare punctuală este exact ceea ce are nevoie pentru a prezice proprietățile întregii populații. Astfel, este necesar să înțelegem că în orice cercetare, nu estimările punctuale, ci pe intervale ar trebui puse în prim plan. În plus, trebuie acordată o atenție deosebită alegerii corecte a dimensiunilor eșantionului.

Cel mai adesea, obiectele manipulărilor statistice sunt rezultatele anchetelor sociologice ale populației pe diverse probleme politice. În același timp, rezultatele sondajului sunt plasate pe primele pagini ale ziarelor, iar eroarea de eșantionare și metodologia analizei statistice sunt tipărite undeva la mijloc. Pentru a demonstra validitatea estimărilor punctuale obţinute este necesar să se indice mărimea eşantionului pe baza căruia au fost obţinute, limitele intervalului de încredere şi nivelul de semnificaţie al acestuia.

Următoarea notă

Sunt folosite materiale din cartea Levin et al. Statistici pentru manageri. - M.: Williams, 2004. - p. 448–462

Teorema limitei centrale afirmă că, având în vedere o dimensiune a eșantionului suficient de mare, distribuția eșantionului de medii poate fi aproximată printr-o distribuție normală. Această proprietate nu depinde de tipul de distribuție a populației.

În subsecțiunile anterioare, am luat în considerare problema estimării parametrului necunoscut A un numar. O astfel de evaluare se numește „punct”. Într-o serie de sarcini, este necesar nu numai să găsiți parametrul A valoare numerică adecvată, dar și evaluează acuratețea și fiabilitatea acesteia. Este necesar să se cunoască la ce erori poate duce înlocuirea parametrilor A estimarea sa punctuală Ași cu ce grad de încredere ne putem aștepta ca aceste erori să nu depășească limitele cunoscute?

Problemele de acest fel sunt deosebit de relevante pentru un număr mic de observații, atunci când estimarea punctuală si in este în mare parte aleatorie și o înlocuire aproximativă a lui a cu a poate duce la erori grave.

Pentru a da o idee despre acuratețea și fiabilitatea estimării A,

în statistica matematică se folosesc așa-numitele intervale de încredere și probabilități de încredere.

Lăsați pentru parametru A derivată din estimarea imparțială a experienței A. Dorim să estimăm eroarea posibilă în acest caz. Să atribuim o probabilitate p suficient de mare (de exemplu, p = 0,9, 0,95 sau 0,99) astfel încât un eveniment cu probabilitatea p poate fi considerat practic sigur și să găsim o valoare a lui s pentru care

Apoi, intervalul de valori practic posibile ale erorii care apare la înlocuire A pe A, va fi ± s; erori absolute mari vor apărea numai cu o probabilitate mică a = 1 - p. Să rescriem (14.3.1) ca:

Egalitatea (14.3.2) înseamnă că cu probabilitatea p valoarea necunoscută a parametrului A se încadrează în interval

În acest caz, trebuie reținută o circumstanță. Anterior, am luat în considerare în mod repetat probabilitatea ca o variabilă aleatoare să se încadreze într-un interval non-aleatoriu dat. Aici situația este diferită: A nu întâmplător, ci interval aleator / r. În mod aleatoriu, poziția sa pe axa x, determinată de centrul său A; în general, lungimea intervalului 2s este de asemenea aleatorie, deoarece valoarea lui s se calculează, de regulă, din date experimentale. Prin urmare, în acest caz, ar fi mai bine să interpretăm valoarea lui p nu ca probabilitatea de a „lovi” punctul Aîn intervalul / p, ci ca probabilitatea ca un interval aleator / p să acopere punctul A(Fig. 14.3.1).

Orez. 14.3.1

Probabilitatea p se numește nivel de încredere, iar intervalul / p - interval de încredere. Limite de interval dacă. a x \u003d a- s și a 2 = a +și sunt chemați limitele de încredere.

Să mai dăm o interpretare conceptului de interval de încredere: acesta poate fi considerat ca un interval de valori ale parametrilor A, compatibile cu datele experimentale și necontrazicându-le. Într-adevăr, dacă suntem de acord să considerăm un eveniment cu o probabilitate a = 1-p practic imposibil, atunci acele valori ale parametrului a pentru care a - a> s trebuie recunoscute ca fiind în contradicție cu datele experimentale, iar cele pentru care |a - A a t na 2 .

Lăsați pentru parametru A există o estimare imparțială A. Dacă am cunoaște legea distribuției cantității A, problema găsirii intervalului de încredere ar fi destul de simplă: ar fi suficient să găsim o valoare a lui s pentru care

Dificultatea constă în faptul că legea de distribuție a devizului A depinde de legea distribuţiei cantităţii Xși, în consecință, asupra parametrilor săi necunoscuți (în special, asupra parametrului în sine A).

Pentru a ocoli această dificultate, se poate aplica următorul truc aproximativ aproximativ: înlocuiți parametrii necunoscuți din expresia pentru s cu estimările lor punctuale. Cu un număr relativ mare de experimente P(aproximativ 20 ... 30) această tehnică dă de obicei rezultate satisfăcătoare din punct de vedere al preciziei.

Ca exemplu, luați în considerare problema intervalului de încredere pentru așteptarea matematică.

Lăsați produs P X, ale căror caracteristici sunt așteptarea matematică t si varianta D- necunoscut. Pentru acești parametri s-au obținut următoarele estimări:

Este necesar să se construiască un interval de încredere / р, corespunzător probabilității de încredere р, pentru așteptarea matematică t cantități X.

În rezolvarea acestei probleme, folosim faptul că cantitatea t este suma P variabile aleatoare independente distribuite identic X h iar conform teoremei limitei centrale pentru suficient de mare P legea sa de distribuție este aproape de normal. În practică, chiar și cu un număr relativ mic de termeni (de ordinul a 10 ... 20), legea de distribuție a sumei poate fi considerată aproximativ normală. Vom presupune că valoarea t distribuite conform legii normale. Caracteristicile acestei legi - așteptarea și, respectiv, varianța matematică - sunt egale tși

(a se vedea capitolul 13 subsecțiunea 13.3). Să presupunem că valoarea D ne este cunoscută şi vom găsi o asemenea valoare Ep pentru care

Aplicând formula (6.3.5) din capitolul 6, exprimăm probabilitatea din partea stângă a (14.3.5) în termenii funcției de distribuție normală

unde este abaterea standard a estimării t.

Din ecuație

găsiți valoarea Sp:

unde arg Ф* (x) este funcția inversă a lui Ф* (X), acestea. o astfel de valoare a argumentului pentru care funcția de distribuție normală este egală cu X.

Dispersia D, prin care se exprimă valoarea A 1P, nu știm exact; ca valoare aproximativă, puteți utiliza estimarea D(14.3.4) și puneți aproximativ:

Astfel, problema construirii unui interval de încredere este aproximativ rezolvată, care este egal cu:

unde gp este definit prin formula (14.3.7).

Pentru a evita interpolarea inversă în tabelele funcției Ф * (l) atunci când se calculează s p, este convenabil să se întocmească un tabel special (Tabelul 14.3.1), care listează valorile cantității

in functie de r. Valoarea (p determină pentru legea normală numărul de abateri standard care trebuie puse deoparte la dreapta și la stânga centrului de dispersie, astfel încât probabilitatea de a cădea în zona rezultată să fie egală cu p.

Prin valoarea lui 7 p, intervalul de încredere se exprimă astfel:

Tabelul 14.3.1

Exemplul 1. Au fost efectuate 20 de experimente asupra valorii X; rezultatele sunt prezentate în tabel. 14.3.2.

Tabelul 14.3.2

Este necesar să se găsească o estimare pentru așteptarea matematică a cantității Xși construiți un interval de încredere corespunzător unui nivel de încredere p = 0,8.

Decizie. Noi avem:

Alegând pentru originea n: = 10, conform celei de-a treia formule (14.2.14) găsim estimarea nepărtinitoare D :

Conform tabelului 14.3.1 găsim

Limite de încredere:

Interval de încredere:

Valorile parametrilor t, situate în acest interval sunt compatibile cu datele experimentale date în tabel. 14.3.2.

Într-un mod similar, se poate construi un interval de încredere pentru varianță.

Lăsați produs P experimente independente pe o variabilă aleatoare X cu parametri necunoscuți de la și A și pentru varianță D estimarea imparțială se obține:

Este necesar să se construiască aproximativ un interval de încredere pentru varianță.

Din formula (14.3.11) se poate observa că valoarea D reprezintă

Cantitate P variabile aleatorii de forma . Aceste valori nu sunt

independent, deoarece oricare dintre ele include cantitatea t, dependent de toți ceilalți. Cu toate acestea, se poate demonstra că ca P legea de distribuție a sumei lor este, de asemenea, apropiată de normal. Aproape la P= 20...30 poate fi deja considerat normal.

Să presupunem că așa este și să găsim caracteristicile acestei legi: așteptarea și varianța matematică. De la scor D- nepărtinitoare, atunci M[D] = D.

Calculul variației D D este asociat cu calcule relativ complexe, deci îi dăm expresia fără derivare:

unde c 4 - al patrulea moment central al mărimii X.

Pentru a utiliza această expresie, trebuie să înlocuiți în ea valorile lui 4 și D(cel putin aproximativ). În loc de D puteți folosi evaluarea D.În principiu, al patrulea moment central poate fi înlocuit și cu estimarea sa, de exemplu, cu o valoare de forma:

dar o astfel de înlocuire va oferi o precizie extrem de scăzută, deoarece, în general, cu un număr limitat de experimente, momentele de ordin înalt sunt determinate cu erori mari. Cu toate acestea, în practică se întâmplă adesea ca forma legii de distribuție a cantității X cunoscut dinainte: doar parametrii săi sunt necunoscuți. Apoi putem încerca să exprimăm u4 în termeni de D.

Să luăm cel mai frecvent caz, când valoarea X distribuite conform legii normale. Apoi, al patrulea moment central al său este exprimat în termeni de varianță (vezi Capitolul 6 Subsecțiunea 6.2);

iar formula (14.3.12) dă sau

Înlocuind în (14.3.14) necunoscutul D evaluarea lui D, obținem: de unde

Momentul u 4 poate fi exprimat în termeni de D de asemenea, în alte cazuri, când distribuția cantității X nu este normal, dar aspectul ei este cunoscut. De exemplu, pentru legea densității uniforme (vezi capitolul 5) avem:

unde (a, P) este intervalul pe care este dată legea.

Prin urmare,

Conform formulei (14.3.12) obținem: de unde găsim aproximativ

În cazurile în care forma legii de repartizare a valorii 26 este necunoscută, la estimarea valorii lui a /) se recomandă totuși utilizarea formulei (14.3.16), dacă nu există temeiuri speciale pentru a crede că această lege este foarte diferită de cea normală (are o curtoză pozitivă sau negativă vizibilă) .

Dacă valoarea aproximativă a lui a /) este obținută într-un fel sau altul, atunci este posibil să construim un interval de încredere pentru varianță în același mod în care l-am construit pentru așteptarea matematică:

unde valoarea în funcție de probabilitatea dată p se găsește în tabel. 14.3.1.

Exemplul 2. Găsiți un interval de încredere de aproximativ 80% pentru varianța unei variabile aleatorii Xîn condiţiile exemplului 1, dacă se ştie că valoarea X distribuite după o lege apropiată de normal.

Decizie. Valoarea rămâne aceeași ca în tabel. 14.3.1:

Conform formulei (14.3.16)

Conform formulei (14.3.18) găsim intervalul de încredere:

Intervalul corespunzător de valori ale abaterii standard: (0,21; 0,29).

14.4. Metode exacte de construire a intervalelor de încredere pentru parametrii unei variabile aleatoare distribuite conform legii normale

În subsecțiunea anterioară, am luat în considerare metode aproximative aproximative pentru construirea intervalelor de încredere pentru medie și varianță. Aici vă oferim o idee despre metodele exacte de rezolvare a aceleiași probleme. Subliniem că pentru a găsi cu exactitate intervalele de încredere este absolut necesar să se cunoască în prealabil forma legii de distribuție a cantității. X,întrucât acest lucru nu este necesar pentru aplicarea metodelor aproximative.

Ideea metodelor exacte pentru construirea intervalelor de încredere este următoarea. Orice interval de încredere se găsește dintr-o condiție care exprimă probabilitatea îndeplinirii anumitor inegalități, care includ estimarea care ne interesează A. Legea distribuirii gradelor Aîn cazul general depinde de parametrii necunoscuți ai cantității X. Cu toate acestea, uneori este posibil să treci inegalități dintr-o variabilă aleatoare A la o altă funcție a valorilor observate X p X 2, ..., X p. a cărui lege de distribuție nu depinde de parametri necunoscuți, ci depinde doar de numărul de experimente și de forma legii de distribuție a cantității X. Variabile aleatoare de acest fel joacă un rol important în statistica matematică; acestea au fost studiate în cel mai detaliu pentru cazul unei distribuţii normale a cantităţii X.

De exemplu, s-a dovedit că sub o distribuție normală a cantității X valoare aleatorie

supuse așa-numitului Legea distribuirii elevilor cu P- 1 grad de libertate; densitatea acestei legi are forma

unde G(x) este funcția gamma cunoscută:

De asemenea, se demonstrează că variabila aleatoare

are „distribuție % 2” cu P- 1 grad de libertate (vezi capitolul 7), a cărui densitate este exprimată prin formula

Fără să ne oprim asupra derivărilor distribuțiilor (14.4.2) și (14.4.4), vom arăta cum acestea pot fi aplicate la construirea intervalelor de încredere pentru parametri. Ty D.

Lăsați produs P experimente independente pe o variabilă aleatoare X, distribuite conform legii normale cu parametri necunoscuți TIO. Pentru acești parametri, estimări

Este necesar să se construiască intervale de încredere pentru ambii parametri corespunzători probabilității de încredere p.

Să construim mai întâi un interval de încredere pentru așteptarea matematică. Este firesc să luăm acest interval simetric în raport cu t; notăm cu s p jumătate din lungimea intervalului. Valoarea lui sp trebuie aleasă astfel încât condiția

Să încercăm să trecem pe partea stângă a egalității (14.4.5) dintr-o variabilă aleatoare t la o variabilă aleatoare T, distribuite conform legii Studentului. Pentru a face acest lucru, înmulțim ambele părți ale inegalității |m-w?|

la o valoare pozitivă: sau, folosind notația (14.4.1),

Să găsim un număr / p astfel încât valoarea / p poate fi găsită din condiție

Din formula (14.4.2) se poate observa că (1) este o funcție pară, deci (14.4.8) dă

Egalitatea (14.4.9) determină valoarea / p în funcție de p. Daca aveti la dispozitie un tabel de valori integrale

atunci valoarea / p poate fi găsită prin interpolare inversă în tabel. Cu toate acestea, este mai convenabil să compilați un tabel de valori / p în avans. Un astfel de tabel este prezentat în Anexă (Tabelul 5). Acest tabel prezintă valorile în funcție de probabilitatea de încredere p și de numărul de grade de libertate P- 1. După ce a determinat / p conform tabelului. 5 și presupunând

găsim jumătate din lățimea intervalului de încredere / p și intervalul în sine

Exemplul 1. S-au efectuat 5 experimente independente pe o variabilă aleatorie X, distribuite în mod normal cu parametri necunoscuți tși despre. Rezultatele experimentelor sunt prezentate în tabel. 14.4.1.

Tabelul 14.4.1

Găsiți o estimare t pentru așteptarea matematică și construiți un interval de încredere de 90% / p pentru aceasta (adică intervalul corespunzător probabilității de încredere p = 0,9).

Decizie. Noi avem:

Conform tabelului 5 al cererii pentru P - 1 = 4 și p = 0,9 găsim Unde

Intervalul de încredere va fi

Exemplul 2. Pentru condițiile exemplului 1 al subsecțiunii 14.3, presupunând valoarea X distribuite în mod normal, găsiți intervalul de încredere exact.

Decizie. Conform tabelului 5 al cererii, găsim la P - 1 = 19ir =

0,8/p = 1,328; de aici

Comparând cu soluția exemplului 1 din subsecțiunea 14.3 (e p \u003d 0,072), vedem că discrepanța este foarte mică. Dacă păstrăm acuratețea la a doua zecimală, atunci intervalele de încredere găsite prin metodele exacte și aproximative sunt aceleași:

Să trecem la construirea unui interval de încredere pentru varianță. Luați în considerare estimarea varianței imparțiale

și exprimă variabila aleatoare D prin valoare V(14.4.3) având distribuția x 2 (14.4.4):

Cunoașterea legii de distribuție a cantității V, se poate găsi intervalul / (1 ) în care se încadrează cu o probabilitate dată p.

legea distributiei k n _ x (v) valoarea lui I 7 are forma prezentată în fig. 14.4.1.

Orez. 14.4.1

Apare întrebarea: cum să alegeți intervalul / p? Dacă legea de distribuţie a cantităţii V era simetric (ca o lege normală sau distribuția lui Student), ar fi firesc să luăm intervalul /p simetric în raport cu așteptarea matematică. În acest caz, legea k n _ x (v) asimetric. Să fim de acord să alegem intervalul /p astfel încât probabilitățile de ieșire a cantității Vîn afara intervalului la dreapta și la stânga (zonele umbrite din Fig. 14.4.1) au fost aceleași și egale

Pentru a construi un interval / p cu această proprietate, folosim Table. 4 aplicații: conține numere y) astfel încât

pentru cantitate V, având x 2 -distribuţie cu r grade de libertate. În cazul nostru r = n- 1. Fix r = n- 1 și găsiți în linia corespunzătoare a tabelului. 4 două valori x 2 - unul corespunzând unei probabilităţi celălalt - probabilităţi Să le desemnăm pe acestea

valorile la 2și xl? Intervalul are y 2 , cu stânga și y~ capătul drept.

Acum găsim intervalul de încredere necesar /| pentru varianța cu granițele D și D2, care acoperă punctul D cu probabilitatea p:

Să construim un astfel de interval / (, = (?> b A), care acoperă punctul D dacă și numai dacă valoarea V se încadrează în intervalul / r. Să arătăm că intervalul

indeplineste aceasta conditie. Într-adevăr, inegalitățile sunt echivalente cu inegalitățile

iar aceste inegalități sunt valabile cu probabilitatea p. Astfel, intervalul de încredere pentru dispersie este găsit și este exprimat prin formula (14.4.13).

Exemplul 3. Găsiți intervalul de încredere pentru varianță în condițiile exemplului 2 din subsecțiunea 14.3, dacă se știe că valoarea X distribuite normal.

Decizie. Noi avem . Conform tabelului 4 al cererii

găsim la r = n - 1 = 19

Conform formulei (14.4.13) găsim intervalul de încredere pentru dispersie

Intervalul corespunzător pentru abaterea standard: (0,21; 0,32). Acest interval depășește doar puțin intervalul (0,21; 0,29) obținut în Exemplul 2 din Subsecțiunea 14.3 prin metoda aproximativă.

  • Figura 14.3.1 consideră un interval de încredere care este simetric în raport cu a. În general, așa cum vom vedea mai târziu, acest lucru nu este necesar.

Estimarea intervalelor de încredere

Obiective de invatare

Statisticile iau în considerare următoarele două sarcini principale:

    Avem o estimare bazată pe date din eșantion și dorim să facem o declarație probabilistică despre unde se află valoarea adevărată a parametrului estimat.

    Avem o ipoteză specifică care trebuie testată pe baza datelor eșantionului.

În acest subiect, luăm în considerare prima problemă. Introducem și definiția unui interval de încredere.

Un interval de încredere este un interval care este construit în jurul valorii estimate a unui parametru și arată unde se află valoarea adevărată a parametrului estimat cu o probabilitate dată a priori.

După ce ai studiat materialul pe această temă, tu:

    afla care este intervalul de încredere al estimării;

    invata sa clasifice problemele statistice;

    stăpânește tehnica construirii intervalelor de încredere, atât folosind formule statistice, cât și cu instrumente software;

    învață să determine dimensiunile eșantionului necesare pentru a realiza anumiți parametri de acuratețe a estimărilor statistice.

Distribuția caracteristicilor eșantionului

distribuție T

După cum sa discutat mai sus, distribuția variabilei aleatoare este aproape de o distribuție normală standardizată cu parametrii 0 și 1. Deoarece nu cunoaștem valoarea lui σ, o înlocuim cu o estimare s . Cantitatea are deja o distribuție diferită și anume sau Distribuția elevilor, care este determinat de parametrul n -1 (numărul de grade de libertate). Această distribuție este apropiată de distribuția normală (cu cât n este mai mare, cu atât distribuțiile sunt mai apropiate).

Pe fig. 95
Este prezentată distribuția elevului cu 30 de grade de libertate. După cum puteți vedea, este foarte aproape de distribuția normală.

Similar cu funcțiile pentru lucrul cu distribuția normală NORMDIST și NORMINV, există funcții pentru lucrul cu distribuția t - STUDIST (TDIST) și STUDRASPBR (TINV). Un exemplu de utilizare a acestor funcții poate fi găsit în fișierul STUDRIST.XLS (șablon și soluție) și în fig. 96
.

Distribuții ale altor caracteristici

După cum știm deja, pentru a determina acuratețea estimării așteptărilor, avem nevoie de o distribuție t. Pentru a estima alți parametri, cum ar fi varianța, sunt necesare alte distribuții. Două dintre ele sunt distribuția F și x 2 -distributie.

Interval de încredere pentru medie

Interval de încredere este un interval care este construit în jurul valorii estimate a parametrului și arată unde se află valoarea adevărată a parametrului estimat cu probabilitatea dată a priori.

Are loc construirea unui interval de încredere pentru valoarea medie în felul următor:

Exemplu

Restaurantul fast-food plănuiește să-și extindă sortimentul cu un nou tip de sandviș. Pentru a estima cererea pentru acesta, managerul plănuiește să selecteze aleatoriu 40 de vizitatori dintre cei care l-au încercat deja și să le solicite să își evalueze atitudinea față de noul produs pe o scară de la 1 la 10. Managerul dorește să estimeze numărul așteptat de puncte pe care noul produs le va primi și construiți un interval de încredere de 95% pentru această estimare. Cum să o facă? (vezi fișierul SANDWICH1.XLS (șablon și soluție).

Decizie

Pentru a rezolva această problemă, puteți utiliza . Rezultatele sunt prezentate în fig. 97
.

Interval de încredere pentru valoarea totală

Uneori, conform datelor eșantionului, este necesar să se estimeze nu așteptările matematice, ci suma totală a valorilor. De exemplu, într-o situație cu un auditor, poate fi interesant să se estimeze nu valoarea medie a unei facturi, ci suma tuturor facturilor.

Fie N numărul total de elemente, n dimensiunea eșantionului, T 3 să fie suma valorilor din eșantion, T" să fie estimarea pentru suma pentru întreaga populație, apoi , iar intervalul de încredere este calculat prin formula , unde s este estimarea abaterii standard pentru eșantion, este estimarea mediei pentru eșantion.

Exemplu

Să presupunem că un birou fiscal dorește să estimeze suma totală a rambursărilor de taxe pentru 10.000 de contribuabili. Contribuabilul fie primește o rambursare, fie plătește taxe suplimentare. Găsiți intervalul de încredere de 95% pentru suma de rambursare, presupunând o dimensiune a eșantionului de 500 de persoane (a se vedea fișierul SUMA REFUND.XLS (șablon și soluție).

Decizie

Nu există o procedură specială în StatPro pentru acest caz, cu toate acestea, puteți vedea că limitele pot fi obținute din limitele pentru medie folosind formulele de mai sus (Fig. 98).
).

Interval de încredere pentru proporție

Fie p așteptarea unei cote de clienți și pv o estimare a acestei cote, obținută dintr-un eșantion de mărimea n. Se poate demonstra că pentru suficient de mare distribuția estimată va fi apropiată de normal cu media p și abaterea standard . Eroarea standard a estimării în acest caz este exprimată ca , iar intervalul de încredere ca .

Exemplu

Restaurantul fast-food plănuiește să-și extindă sortimentul cu un nou tip de sandviș. Pentru a estima cererea pentru acesta, managerul a selectat aleatoriu 40 de vizitatori dintre cei care l-au încercat deja și le-a cerut să își evalueze atitudinea față de noul produs pe o scară de la 1 la 10. Managerul dorește să estimeze proporția așteptată. de clienți care evaluează noul produs cu cel puțin 6 puncte (se așteaptă ca acești clienți să fie consumatorii noului produs).

Decizie

Inițial, creăm o nouă coloană pe baza 1 dacă scorul clientului a fost mai mare de 6 puncte și 0 în caz contrar (vezi fișierul SANDWICH2.XLS (șablon și soluție).

Metoda 1

Numărând suma de 1, estimăm cota, apoi folosim formulele.

Valoarea lui z cr este luată din tabele speciale de distribuție normală (de exemplu, 1,96 pentru un interval de încredere de 95%).

Folosind această abordare și date specifice pentru a construi un interval de 95%, obținem următoarele rezultate (Fig. 99
). Valoarea critică a parametrului z cr este 1,96. Eroarea standard a estimării este 0,077. Limita inferioară a intervalului de încredere este 0,475. Limita superioară a intervalului de încredere este 0,775. Astfel, un manager poate presupune cu o certitudine de 95% că procentul de clienți care evaluează un produs nou cu 6 puncte sau mai mult va fi între 47,5 și 77,5.

Metoda 2

Această problemă poate fi rezolvată folosind instrumentele standard StatPro. Pentru a face acest lucru, este suficient să rețineți că cota în acest caz coincide cu valoarea medie a coloanei Tip. Apoi aplicați StatPro/Inferență statistică/Analiza unui eșantion pentru a construi un interval de încredere pentru valoarea medie (estimarea așteptărilor) pentru coloana Tip. Rezultatele obţinute în acest caz vor fi foarte apropiate de rezultatul primei metode (Fig. 99).

Interval de încredere pentru abaterea standard

s este utilizat ca estimare a abaterii standard (formula este dată în secțiunea 1). Funcția de densitate a estimării s este funcția chi pătrat, care, ca și distribuția t, are n-1 grade de libertate. Există funcții speciale pentru lucrul cu această distribuție CHI2DIST (CHIDIST) și CHI2OBR (CHIINV) .

Intervalul de încredere în acest caz nu va mai fi simetric. Schema condiționată a limitelor este prezentată în fig. 100 .

Exemplu

Mașina ar trebui să producă piese cu un diametru de 10 cm. Cu toate acestea, din cauza diferitelor circumstanțe, apar erori. Controlorul de calitate este preocupat de două lucruri: în primul rând, valoarea medie ar trebui să fie de 10 cm; în al doilea rând, chiar și în acest caz, dacă abaterile sunt mari, atunci multe detalii vor fi respinse. Zilnic face un esantion de 50 de piese (vezi fisierul CONTROL DE CALITATE.XLS (model si solutie). Ce concluzii poate da un astfel de esantion?

Decizie

Construim intervale de încredere de 95% pentru medie și pentru abaterea standard folosind StatPro/Inferență statistică/ Analiză cu un eșantion(Fig. 101
).

În plus, utilizând ipoteza unei distribuții normale a diametrelor, calculăm proporția de produse defecte, stabilind o abatere maximă de 0,065. Folosind capacitățile tabelului de căutare (cazul a doi parametri), construim dependența procentului de respingeri de valoarea medie și abaterea standard (Fig. 102).
).

Interval de încredere pentru diferența a două medii

Aceasta este una dintre cele mai importante aplicații ale metodelor statistice. Exemple de situații.

    Un manager de magazin de îmbrăcăminte ar dori să știe cât cheltuiește mai mult sau mai puțin o femeie medie cumpărător în magazin decât un bărbat.

    Cele două companii aeriene zboară pe rute similare. O organizație de consumatori ar dori să compare diferența dintre timpii medii de întârziere a zborului estimați pentru ambele companii aeriene.

    Compania trimite cupoane pentru anumite tipuri de mărfuri într-un oraș și nu trimite în altul. Managerii doresc să compare cumpărările medii ale acestor articole în următoarele două luni.

    Un dealer auto se ocupă adesea de cupluri căsătorite la prezentări. Pentru a înțelege reacțiile lor personale la prezentare, cuplurile sunt adesea intervievate separat. Managerul vrea să evalueze diferența de evaluări acordate de bărbați și femei.

Cazul probelor independente

Diferența de medie va avea o distribuție t cu n 1 + n 2 - 2 grade de libertate. Intervalul de încredere pentru μ 1 - μ 2 este exprimat prin raportul:

Această problemă poate fi rezolvată nu numai prin formulele de mai sus, ci și prin instrumentele standard StatPro. Pentru a face acest lucru, este suficient să aplicați

Interval de încredere pentru diferența dintre proporții

Să fie așteptarea matematică a acțiunilor. Fie estimările lor eșantionului construite pe eșantioane de dimensiunea n 1 și, respectiv, n 2. Atunci este o estimare a diferenței. Prin urmare, intervalul de încredere pentru această diferență este exprimat astfel:

Aici z cr este valoarea obținută din distribuția normală a tabelelor speciale (de exemplu, 1,96 pentru un interval de încredere de 95%).

Eroarea standard a estimării este exprimată în acest caz prin relația:

.

Exemplu

Magazinul, în pregătirea pentru marea vânzare, a întreprins următoarele cercetări de marketing. Primii 300 de cumpărători au fost selectați și împărțiți aleatoriu în două grupuri a câte 150 de membri fiecare. Tuturor cumpărătorilor selectați li s-a trimis invitații pentru a participa la vânzare, dar numai pentru membrii primului grup a fost atașat un cupon care dă dreptul la o reducere de 5%. În timpul vânzării, au fost înregistrate achizițiile tuturor celor 300 de cumpărători selectați. Cum poate un manager să interpreteze rezultatele și să emită o judecată cu privire la eficacitatea cuponării? (A se vedea fișierul COUPONS.XLS (șablon și soluție)).

Decizie

Pentru cazul nostru particular, din 150 de clienți care au primit un cupon de reducere, 55 au făcut o achiziție la vânzare, iar dintre 150 care nu au primit un cupon, doar 35 au făcut o achiziție (Fig. 103).
). Apoi, valorile proporțiilor eșantionului sunt 0,3667 și, respectiv, 0,2333. Și diferența de eșantion dintre ele este egală cu 0,1333, respectiv. Presupunând un interval de încredere de 95%, găsim din tabelul de distribuție normală z cr = 1,96. Calculul erorii standard a diferenței de eșantion este 0,0524. În cele din urmă, obținem că limita inferioară a intervalului de încredere de 95% este 0,0307, ​​​​iar limita superioară este 0,2359, respectiv. Rezultatele obținute pot fi interpretate în așa fel încât pentru fiecare 100 de clienți care au primit un cupon de reducere să ne așteptăm de la 3 până la 23 de clienți noi. Totuși, trebuie reținut că această concluzie în sine nu înseamnă eficiența utilizării cupoanelor (pentru că prin acordarea unei reduceri pierdem profit!). Să demonstrăm acest lucru pe date specifice. Să presupunem că suma medie de achiziție este de 400 de ruble, din care 50 de ruble. există un profit de magazin. Atunci profitul așteptat pentru 100 de clienți care nu au primit un cupon este egal cu:

50 0,2333 100 \u003d 1166,50 ruble.

Calcule similare pentru 100 de cumpărători care au primit un cupon oferă:

30 0,3667 100 \u003d 1100,10 ruble.

Scăderea profitului mediu la 30 se explică prin faptul că, folosind reducerea, cumpărătorii care au primit un cupon vor face, în medie, o achiziție pentru 380 de ruble.

Astfel, concluzia finală indică ineficiența utilizării unor astfel de cupoane în această situație particulară.

Cometariu. Această problemă poate fi rezolvată folosind instrumentele standard StatPro. Pentru a face acest lucru, este suficient să reducem această problemă la problema estimării diferenței a două medii prin metodă și apoi să aplici StatPro/Inferență statistică/Analiza cu două eșantioane pentru a construi un interval de încredere pentru diferența dintre două valori medii.

Controlul intervalului de încredere

Lungimea intervalului de încredere depinde de urmatoarele conditii:

    direct date (abatere standard);

    nivelul de semnificație;

    marime de mostra.

Dimensiunea eșantionului pentru estimarea mediei

Să luăm în considerare mai întâi problema în cazul general. Să notăm valoarea jumătății din lungimea intervalului de încredere dat nouă ca B (Fig. 104).
). Știm că intervalul de încredere pentru valoarea medie a unei variabile aleatoare X este exprimat ca , Unde . Presupunând:

și exprimând n , obținem .

Din păcate, nu știm valoarea exactă a varianței variabilei aleatoare X. În plus, nu cunoaștem valoarea lui t cr deoarece depinde de n prin numărul de grade de libertate. În această situație, putem face următoarele. În locul varianței s, folosim o estimare a varianței pentru unele realizări disponibile ale variabilei aleatoare studiate. În loc de valoarea t cr, folosim valoarea z cr pentru distribuția normală. Acest lucru este destul de acceptabil, deoarece funcțiile de densitate pentru distribuțiile normale și t sunt foarte apropiate (cu excepția cazului n mic). Astfel, formula dorită ia forma:

.

Deoarece formula oferă, în general, rezultate non-întregi, rotunjirea cu un exces din rezultat este considerată dimensiunea eșantionului dorită.

Exemplu

Restaurantul fast-food plănuiește să-și extindă sortimentul cu un nou tip de sandviș. Pentru a estima cererea pentru acesta, managerul plănuiește să selecteze aleatoriu un număr de vizitatori dintre cei care l-au încercat deja și să le solicite să își evalueze atitudinea față de noul produs pe o scară de la 1 la 10. Managerul dorește pentru a estima numărul așteptat de puncte pe care noul produs le va primi.produs și reprezentați grafic intervalul de încredere de 95% al ​​respectivei estimări. Cu toate acestea, el vrea ca jumătate din lățimea intervalului de încredere să nu depășească 0,3. Câți vizitatori are nevoie pentru a sonda?

după cum urmează:

Aici r ots este o estimare a fracției p, iar B este o jumătate dată din lungimea intervalului de încredere. O valoare umflată pentru n poate fi obținută folosind valoarea r ots= 0,5. În acest caz, lungimea intervalului de încredere nu va depăși valoarea dată B pentru orice valoare adevărată a lui p.

Exemplu

Lăsați managerul din exemplul anterior să planifice să estimeze proporția de clienți care preferă un nou tip de produs. El vrea să construiască un interval de încredere de 90% a cărui jumătate de lungime este mai mică sau egală cu 0,05. Câți clienți ar trebui să fie eșantionați aleatoriu?

Decizie

În cazul nostru, valoarea lui z cr = 1,645. Prin urmare, cantitatea necesară este calculată ca .

Dacă managerul ar avea motive să creadă că valoarea dorită a lui p este, de exemplu, aproximativ 0,3, atunci prin înlocuirea acestei valori în formula de mai sus, am obține o valoare mai mică a eșantionului aleatoriu, și anume 228.

Formula de determinare dimensiuni aleatorii ale eșantionului în cazul diferenței dintre două medii scris ca:

.

Exemplu

O companie de calculatoare are un centru de servicii pentru clienți. Recent, a crescut numărul de plângeri ale clienților cu privire la calitatea slabă a serviciilor. Centrul de servicii angajează în principal două tipuri de angajați: cei cu puțină experiență, dar care au urmat cursuri speciale de pregătire, și cei cu o vastă experiență practică, dar care nu au urmat cursuri speciale. Compania dorește să analizeze reclamațiile clienților din ultimele șase luni și să compare numărul mediu al acestora pentru fiecare dintre cele două grupuri de angajați. Se presupune că numerele din eșantioane pentru ambele grupuri vor fi aceleași. Câți angajați trebuie să fie incluși în eșantion pentru a obține un interval de 95% cu o jumătate de lungime de cel mult 2?

Decizie

Aici σ ots este o estimare a abaterii standard a ambelor variabile aleatoare în ipoteza că acestea sunt apropiate. Astfel, în sarcina noastră, trebuie să obținem cumva această estimare. Acest lucru se poate face, de exemplu, după cum urmează. Analizând datele privind reclamațiile clienților din ultimele șase luni, un manager poate observa că, în general, există între 6 și 36 de reclamații per angajat. Știind că pentru o distribuție normală, practic toate valorile nu sunt mai mult de trei abateri standard de la medie, el poate crede în mod rezonabil că:

, de unde σ ots = 5.

Înlocuind această valoare în formulă, obținem .

Formula de determinare mărimea unui eşantion aleatoriu în cazul estimării diferenţei dintre acţiuni se pare ca:

Exemplu

O anumită companie are două fabrici pentru producția de produse similare. Managerul unei companii dorește să compare ratele de defecte ale ambelor fabrici. Conform informațiilor disponibile, rata de respingere la ambele fabrici este de la 3 la 5%. Se presupune că va construi un interval de încredere de 99% cu o jumătate de lungime de cel mult 0,005 (sau 0,5%). Câte produse ar trebui selectate din fiecare fabrică?

Decizie

Aici p 1ot și p 2ot sunt estimări ale a două fracții necunoscute ale refuzurilor la prima și a doua fabrică. Dacă punem p 1ots \u003d p 2ots \u003d 0,5, atunci vom obține o valoare supraestimată pentru n. Dar din moment ce în cazul nostru avem câteva informații a priori despre aceste acțiuni, luăm estimarea superioară a acestor acțiuni și anume 0,05. Primim

Când se estimează unii parametri ai populației din datele eșantionului, este util să se furnizeze nu numai o estimare punctuală a parametrului, ci și un interval de încredere care arată unde se poate afla valoarea exactă a parametrului estimat.

În acest capitol, ne-am familiarizat și cu relații cantitative care ne permit să construim astfel de intervale pentru diverși parametri; a învățat modalități de a controla durata intervalului de încredere.

De asemenea, menționăm că problema estimării dimensiunii eșantionului (problema de planificare a experimentului) poate fi rezolvată folosind instrumente standard StatPro, și anume StatPro/Inferență statistică/Selectare dimensiune eșantion.

Mintea nu este doar în cunoaștere, ci și în capacitatea de a aplica cunoștințele în practică. (Aristotel)

Intervale de încredere

revizuire generală

Luând un eșantion din populație, vom obține o estimare punctuală a parametrului care ne interesează și vom calcula eroarea standard pentru a indica acuratețea estimării.

Cu toate acestea, pentru majoritatea cazurilor, eroarea standard ca atare nu este acceptabilă. Este mult mai util să combinați această măsură de precizie cu o estimare de interval pentru parametrul populației.

Acest lucru se poate realiza prin utilizarea cunoștințelor distribuției teoretice de probabilitate a statisticii (parametrului) eșantionului pentru a calcula un interval de încredere (CI - Intervalul de încredere, CI - Intervalul de încredere) pentru parametru.

În general, intervalul de încredere extinde estimările în ambele direcții cu un multiplu al erorii standard (a unui parametru dat); cele două valori (limitele de încredere) care definesc intervalul sunt de obicei separate prin virgulă și cuprinse între paranteze.

Interval de încredere pentru medie

Folosind distribuția normală

Media eșantionului are o distribuție normală dacă dimensiunea eșantionului este mare, astfel încât cunoașterea distribuției normale poate fi aplicată atunci când se ia în considerare media eșantionului.

În special, 95% din distribuția mediei eșantionului se află în 1,96 deviații standard (SD) ale mediei populației.

Când avem un singur eșantion, numim aceasta eroare standard a mediei (SEM) și calculăm intervalul de încredere de 95% pentru medie după cum urmează:

Dacă acest experiment este repetat de mai multe ori, intervalul va conține media reală a populației în 95% din timp.

Acesta este de obicei un interval de încredere, cum ar fi intervalul de valori în care se află media reală a populației (media generală) cu un nivel de încredere de 95%.

Deși nu este destul de strict (media populației este o valoare fixă ​​și, prin urmare, nu poate avea o probabilitate legată de aceasta) să interpretăm intervalul de încredere în acest fel, este conceptual mai ușor de înțeles.

Utilizare t- distributie

Puteți utiliza distribuția normală dacă cunoașteți valoarea varianței în populație. De asemenea, atunci când dimensiunea eșantionului este mică, media eșantionului urmează o distribuție normală dacă datele care stau la baza populației sunt distribuite normal.

Dacă datele care stau la baza populației nu sunt distribuite în mod normal și/sau varianța generală (varianța populației) este necunoscută, media eșantionului se supune Distribuția t a studentului.

Calculați intervalul de încredere de 95% pentru media populației după cum urmează:

Unde - punct procentual (percentilă) t- Distribuție student cu (n-1) grade de libertate, care dă o probabilitate cu două cozi de 0,05.

În general, oferă un interval mai larg decât atunci când se utilizează o distribuție normală, deoarece ține cont de incertitudinea suplimentară care este introdusă prin estimarea abaterii standard a populației și/sau datorită dimensiunii reduse a eșantionului.

Când dimensiunea eșantionului este mare (de ordinul a 100 sau mai mult), diferența dintre cele două distribuții ( t-studentși normal) este neglijabilă. Cu toate acestea, folosiți întotdeauna t- distribuția la calcularea intervalelor de încredere, chiar dacă dimensiunea eșantionului este mare.

De obicei se acordă 95% CI. Alte intervale de încredere pot fi calculate, cum ar fi 99% CI pentru medie.

În loc de produsul erorii standard și valoarea tabelului t- distribuția care corespunde unei probabilități cu două cozi de 0,05 înmulțiți-o (eroare standard) cu o valoare care corespunde unei probabilități cu două cozi de 0,01. Acesta este un interval de încredere mai larg decât în ​​cazul 95%, deoarece reflectă o încredere crescută că intervalul include într-adevăr media populației.

Interval de încredere pentru proporție

Distribuția de eșantionare a proporțiilor are o distribuție binomială. Cu toate acestea, dacă dimensiunea eșantionului n relativ mare, atunci distribuția eșantionului proporțional este aproximativ normală cu media .

Estimare prin raport de eșantionare p=r/n(Unde r- numărul de indivizi din eșantion cu caracteristicile care ne interesează), iar eroarea standard este estimată:

Intervalul de încredere de 95% pentru proporție este estimat:

Dacă dimensiunea eșantionului este mică (de obicei când np sau n(1-p) mai mici 5 ), atunci distribuția binomială trebuie utilizată pentru a calcula intervalele exacte de încredere.

Rețineți că dacă p exprimat ca procent, atunci (1-p) inlocuit de (100p).

Interpretarea intervalelor de încredere

Când interpretăm intervalul de încredere, ne interesează următoarele întrebări:

Cât de larg este intervalul de încredere?

Un interval larg de încredere indică faptul că estimarea este imprecisă; îngust indică o estimare bună.

Lățimea intervalului de încredere depinde de mărimea erorii standard, care, la rândul său, depinde de dimensiunea eșantionului și, atunci când se ia în considerare o variabilă numerică din variabilitatea datelor, se oferă intervale de încredere mai largi decât studiile unui set mare de date de puține. variabile.

CI include valori de interes deosebit?

Puteți verifica dacă valoarea probabilă pentru un parametru de populație se încadrează într-un interval de încredere. Dacă da, atunci rezultatele sunt în concordanță cu această valoare probabilă. Dacă nu, atunci este puțin probabil (pentru un interval de încredere de 95%, șansa este de aproape 5%) ca parametrul să aibă această valoare.