Calculați intervalul de încredere. Metode de analiză cantitativă: Estimarea intervalelor de încredere

Intervalul de încredere ne-a venit din domeniul statisticii. Aceasta este interval specific, care servește la estimarea parametrului necunoscut cu un grad înalt fiabilitate. Cel mai simplu mod de a explica acest lucru este cu un exemplu.

Să presupunem că trebuie să investigați o variabilă aleatoare, de exemplu, viteza de răspuns a serverului la o solicitare a clientului. De fiecare dată când un utilizator introduce adresa unui anumit site, serverul răspunde la o rată diferită. Astfel, timpul de răspuns investigat are un caracter aleatoriu. Deci aici este interval de încredere vă permite să determinați limitele acestui parametru și apoi va fi posibil să afirmați că, cu o probabilitate de 95%, serverul va fi în intervalul calculat de noi.

Sau trebuie să aflați despre câți oameni știu marcă firmelor. Când se calculează intervalul de încredere, se va putea spune, de exemplu, că cu o probabilitate de 95% ponderea consumatorilor care știu despre acest lucru este în intervalul de la 27% la 34%.

Strâns legat de acest termen este nivel de încredere. Reprezintă probabilitatea ca parametrul dorit să fie inclus în intervalul de încredere. Această valoare determină cât de mare va fi intervalul dorit. Cum valoare mai mare acceptă, cu cât intervalul de încredere devine mai îngust și invers. De obicei este setat la 90%, 95% sau 99%. Valoarea de 95% este cea mai populară.

Acest indicator este influențat și de varianța observațiilor și definiția sa se bazează pe presupunerea că caracteristica studiată se supune.Această afirmație este cunoscută și sub numele de Legea lui Gauss. Potrivit lui, o astfel de distribuție a tuturor probabilităților unui continuu variabilă aleatorie, care poate fi descris prin densitatea de probabilitate. Dacă presupunerea despre distributie normala s-a dovedit a fi eronat, atunci estimarea poate fi incorectă.

Mai întâi, să ne dăm seama cum să calculăm intervalul de încredere pentru Aici, două cazuri sunt posibile. Dispersia (gradul de răspândire a unei variabile aleatoare) poate fi cunoscută sau nu. Dacă este cunoscut, atunci intervalul nostru de încredere este calculat folosind următoarea formulă:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - semn,

t este un parametru din tabelul de distribuție Laplace,

σ este rădăcina pătrată a dispersiei.

Dacă varianța este necunoscută, atunci poate fi calculată dacă cunoaștem toate valorile caracteristicii dorite. Pentru aceasta, se folosește următoarea formulă:

σ2 = х2ср - (хр)2, unde

х2ср - valoarea medie a pătratelor trăsăturii studiate,

(xsr)2 este pătratul acestui atribut.

Formula prin care se calculează intervalul de încredere în acest caz se modifică ușor:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - medie eșantion,

α - semn,

t este un parametru care se găsește folosind tabelul de distribuție al lui Student t \u003d t (ɣ; n-1),

sqrt(n) este rădăcina pătrată a dimensiunii totale a eșantionului,

s este rădăcina pătrată a varianței.

Luați în considerare acest exemplu. Să presupunem că, pe baza rezultatelor a 7 măsurători, trăsătura studiată a fost determinată a fi 30 și varianța eșantionului egală cu 36. Este necesar să se găsească, cu o probabilitate de 99%, un interval de încredere care să conțină adevărata valoare a parametrul măsurat.

Mai întâi, să determinăm cu ce t este egal: t \u003d t (0,99; 7-1) \u003d 3,71. Folosind formula de mai sus, obținem:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Intervalul de încredere pentru varianță se calculează atât în cazul unei medii cunoscute, cât și atunci când nu există date despre așteptarea matematică și se cunoaște doar valoarea estimării punctuale imparțiale a varianței. Nu vom da aici formulele de calcul a acestuia, deoarece acestea sunt destul de complexe și, dacă se dorește, se găsesc oricând pe net.

Menționăm doar că este convenabil să determinați intervalul de încredere folosind programul Excel sau un serviciu de rețea, care se numește așa.

Una dintre metodele de rezolvare a problemelor statistice este calculul intervalului de încredere. Este utilizat ca alternativă preferată la estimarea punctuală atunci când dimensiunea eșantionului este mică. Trebuie remarcat faptul că procesul de calcul al intervalului de încredere este destul de complicat. Dar instrumentele programului Excel vă permit să îl simplificați oarecum. Să aflăm cum se face acest lucru în practică.

Această metodă este utilizată în estimarea pe intervale a diferitelor mărimi statistice. Sarcina principală a acestui calcul este de a scăpa de incertitudinile estimării punctuale.

În Excel, există două opțiuni principale pentru a calcula folosind această metodă: când varianța este cunoscută și când este necunoscută. În primul caz, funcția este utilizată pentru calcule NORMA DE ÎNCREDERE, iar în al doilea ÎNCREDERE.STUDENT.

Metoda 1: Funcția NORM DE ÎNCREDERE

Operator NORMA DE ÎNCREDERE, care se referă la grupul statistic de funcții, a apărut pentru prima dată în Excel 2010. Versiunile anterioare ale acestui program folosesc omologul său ÎNCREDERE. Sarcina acestui operator este de a calcula un interval de încredere cu o distribuție normală pentru media populației.

Sintaxa sa este următoarea:

NORMĂ DE ÎNCREDERE(alpha, standard_dev, size)

"Alfa" este un argument care indică nivelul de semnificație care este utilizat pentru a calcula nivelul de încredere. Nivelul de încredere este egal cu următoarea expresie:

(1-"Alfa")*100

"Deviație standard" este un argument, a cărui esență este clară din nume. Aceasta este abaterea standard a eșantionului propus.

"Marimea" este un argument care determină mărimea eșantionului.

Sunt necesare toate argumentele acestui operator.

Funcţie ÎNCREDERE are exact aceleași argumente și posibilități ca și precedentul. Sintaxa sa este:

TRUST(alpha, standard_dev, size)

După cum puteți vedea, diferențele sunt doar în numele operatorului. Această caracteristică a fost păstrată în Excel 2010 și versiunile mai noi într-o categorie specială din motive de compatibilitate. "Compatibilitate". În versiunile de Excel 2007 și anterioare, acesta este prezent în grupul principal de operatori statistici.

Limita intervalului de încredere este determinată folosind formula următoarei forme:

X+(-)INCREDEREA NORMA

Unde X este media eșantionului, care se află la mijlocul intervalului selectat.

Acum să ne uităm la cum să calculăm intervalul de încredere folosind un exemplu specific. Au fost efectuate 12 teste, rezultând rezultate diferite, care sunt enumerate în tabel. Aceasta este totalitatea noastră. Abaterea standard este 8. Trebuie să calculăm intervalul de încredere la nivelul de încredere de 97%.

Selectați celula în care va fi afișat rezultatul prelucrării datelor. Făcând clic pe butonul „Inserare funcție”.

Apare Expertul de funcții. Mergi la categorie "Statistic"și evidențiați numele „ÎNCREDERE.NORMĂ”. După aceea faceți clic pe butonul Bine.

Se deschide fereastra de argumente. Câmpurile sale corespund în mod firesc cu numele argumentelor.
Setați cursorul pe primul câmp - "Alfa". Aici ar trebui să precizăm nivelul de semnificație. După cum ne amintim, nivelul nostru de încredere este de 97%. În același timp, am spus că se calculează astfel:
(1-nivel de încredere)/100

Adică, înlocuind valoarea, obținem:

Prin calcule simple, aflăm că argumentul "Alfa" egală 0,03 . Introduceți această valoare în câmp.

După cum știți, abaterea standard este egală cu 8 . Prin urmare, pe teren "Deviație standard" notează doar acel număr.

În câmp "Marimea" trebuie să introduceți numărul de elemente ale testelor efectuate. După cum ne amintim, ei 12 . Dar pentru a automatiza formula și a nu o edita de fiecare dată când se efectuează un nou test, să setăm această valoare nu la un număr obișnuit, ci folosind operatorul VERIFICA. Deci, punem cursorul în câmp "Marimea", apoi faceți clic pe triunghi, care se află în stânga barei de formule.

Apare o listă cu funcțiile utilizate recent. Dacă operatorul VERIFICA folosit recent de tine, ar trebui să fie pe această listă. În acest caz, trebuie doar să faceți clic pe numele acestuia. În caz contrar, dacă nu îl găsești, atunci mergi la subiect "Mai multe trăsături...".

Ne pare deja familiar Expertul de funcții. Trecând înapoi la grup "Statistic". Selectăm numele acolo "VERIFICA". Faceți clic pe butonul Bine.

Apare fereastra de argumente pentru operatorul de mai sus. Această funcție este concepută pentru a calcula numărul de celule din intervalul specificat care conțin valori numerice. Sintaxa sa este următoarea:
COUNT(valoare1, valoare2,...)

Grupul de argumentare „Valori” este o referință la intervalul în care doriți să calculați numărul de celule umplute cu date numerice. În total, pot exista până la 255 de astfel de argumente, dar în cazul nostru avem nevoie doar de unul.

Setați cursorul în câmp „Valoare 1”și, ținând apăsat butonul stâng al mouse-ului, selectați intervalul de pe foaia care conține populația noastră. Apoi adresa sa va fi afișată în câmp. Faceți clic pe butonul Bine.

După aceea, aplicația va efectua calculul și va afișa rezultatul în celula în care se află ea însăși. În cazul nostru particular, formula s-a dovedit astfel:
NORMĂ DE ÎNCREDERE(0,03,8,NUMĂR (B2:B13))

Rezultatul general al calculelor a fost 5,011609 .

Dar asta nu este tot. După cum ne amintim, limita intervalului de încredere este calculată prin adăugarea și scăderea din valoarea medie a eșantionului a rezultatului calculului NORMA DE ÎNCREDERE. În acest fel, se calculează limitele din dreapta și respectiv din stânga intervalului de încredere. Media eșantionului în sine poate fi calculată folosind operatorul IN MEDIE.
Acest operator este conceput pentru a calcula media aritmetică a intervalului de numere selectat. Are următoarea sintaxă destul de simplă:

MEDIE (număr1, număr2,...)

Argument "Număr" poate fi fie o singură valoare numerică, fie o referință la celule sau chiar intervale întregi care le conțin.

Deci, selectați celula în care va fi afișat calculul valorii medii și faceți clic pe butonul „Inserare funcție”.

se deschide Expertul de funcții. Înapoi la categorie "Statistic"și selectați un nume din listă "IN MEDIE". Ca întotdeauna, faceți clic pe butonul Bine.

Fereastra de argumente este lansată. Setați cursorul în câmp "Numărul 1"și cu butonul stâng al mouse-ului apăsat, selectați întregul interval de valori. După ce coordonatele sunt afișate în câmp, faceți clic pe butonul Bine.

Dupa aceea IN MEDIE redă rezultatul calculului către un element de foaie.

Calculăm limita dreaptă a intervalului de încredere. Pentru a face acest lucru, selectați o celulă separată, puneți semnul «=» si se adauga continutul elementelor fisei in care se afla rezultatele calculului functiilor IN MEDIEși NORMA DE ÎNCREDERE. Pentru a efectua calculul, apăsați butonul introduce. În cazul nostru, avem următoarea formulă:
Rezultatul calculului: 6,953276

În același mod, calculăm limita din stânga a intervalului de încredere, doar că de data aceasta din rezultatul calculului IN MEDIE scade rezultatul calculului operatorului NORMA DE ÎNCREDERE. Rezultă formula pentru exemplul nostru de următorul tip:
Rezultatul calculului: -3,06994

Am încercat să descriem în detaliu toți pașii pentru calcularea intervalului de încredere, așa că am descris în detaliu fiecare formulă. Dar puteți combina toate acțiunile într-o singură formulă. Calculul limitei drepte a intervalului de încredere poate fi scris după cum urmează:
MEDIE(B2:B13)+INCREDERE(0,03,8,NUMĂRĂ(B2:B13))

Un calcul similar al marginii din stânga ar arăta astfel:
MEDIE(B2:B13)-CONFIDENCE.NORM(0,03,8,NUMĂR (B2:B13))

Metoda 2: Funcția TRUST.STUDENT

În plus, există o altă funcție în Excel care este legată de calcularea intervalului de încredere - ÎNCREDERE.STUDENT. A apărut abia din Excel 2010. Acest operator efectuează calculul intervalului de încredere a populației folosind distribuția t a lui Student. Este foarte convenabil să îl utilizați în cazul în care varianța și, în consecință, abaterea standard sunt necunoscute. Sintaxa operatorului este:

TRUST.STUDENT(alpha,standard_dev,size)

După cum puteți vedea, numele operatorilor în acest caz au rămas neschimbate.

Să vedem cum se calculează limitele intervalului de încredere cu o abatere standard necunoscută folosind exemplul aceleiași populații pe care am considerat-o în metoda anterioară. Nivelul de încredere, ca și data trecută, vom lua 97%.

Selectați celula în care se va face calculul. Faceți clic pe butonul „Inserare funcție”.

În deschis Expertul de funcții mergi la categorie "Statistic". Alegeți un nume „ÎNCREDERE.STUDENT”. Faceți clic pe butonul Bine.

Fereastra de argumente pentru operatorul specificat este lansată.
În câmp "Alfa", având în vedere că nivelul de încredere este de 97%, notăm numărul 0,03 . A doua oară nu ne vom opri asupra principiilor calculării acestui parametru.

După aceea, setați cursorul în câmp "Deviație standard". De data aceasta, acest indicator ne este necunoscut și trebuie calculat. Acest lucru se face folosind o funcție specială - STDEV.B. Pentru a apela fereastra acestui operator, faceți clic pe triunghiul din stânga barei de formule. Dacă nu găsim numele dorit în lista care se deschide, atunci mergeți la articol "Mai multe trăsături...".

rulează Expertul de funcții. Trecerea la categorie "Statistic"și marcați numele „STDEV.B”. Apoi faceți clic pe butonul Bine.

Se deschide fereastra de argumente. sarcina operatorului STDEV.B este definiția abaterii standard în eșantionare. Sintaxa sa arată astfel:
STDEV.V(număr1,număr2,…)

Este ușor de ghicit că argumentul "Număr" este adresa elementului de selecție. Dacă selecția este plasată într-o singură matrice, atunci folosind un singur argument, puteți da un link către acest interval.

Setați cursorul în câmp "Numărul 1"și, ca întotdeauna, ținând apăsat butonul stâng al mouse-ului, selectați setul. După ce coordonatele sunt în câmp, nu vă grăbiți să apăsați butonul Bine deoarece rezultatul va fi incorect. Mai întâi trebuie să revenim la fereastra cu argumente operator ÎNCREDERE.STUDENT pentru a face argumentul final. Pentru a face acest lucru, faceți clic pe numele corespunzător din bara de formule.

Fereastra de argumente a funcției deja familiare se deschide din nou. Setați cursorul în câmp "Marimea". Din nou, faceți clic pe triunghiul deja familiar pentru a merge la alegerea operatorilor. După cum înțelegeți, avem nevoie de un nume "VERIFICA". Deoarece am folosit această funcție în calculele din metoda anterioară, este prezentă în această listă, așa că faceți clic pe ea. Dacă nu îl găsiți, atunci urmați algoritmul descris în prima metodă.

Intrarea în fereastra de argumente VERIFICA, plasați cursorul în câmp "Numărul 1"și cu butonul mouse-ului ținut apăsat, selectați colecția. Apoi faceți clic pe butonul Bine.

După aceea, programul calculează și afișează valoarea intervalului de încredere.

Pentru a determina limitele, va trebui din nou să calculăm media eșantionului. Dar, având în vedere că algoritmul de calcul folosind formula IN MEDIE la fel ca în metoda anterioară și chiar și rezultatul nu s-a schimbat, nu ne vom opri asupra acestui lucru în detaliu a doua oară.

Însumarea rezultatelor calculului IN MEDIEși ÎNCREDERE.STUDENT, obținem limita dreaptă a intervalului de încredere.

Scăzând din rezultatele de calcul ale operatorului IN MEDIE rezultatul calculului ÎNCREDERE.STUDENT, avem limita stângă a intervalului de încredere.

Dacă calculul este scris într-o singură formulă, atunci calculul marginii din dreapta în cazul nostru va arăta astfel:
MEDIE(B2:B13)+ÎNCREDEREA STUDENTULUI(0,03,STDV(B2:B13),NUMĂR (B2:B13))

În consecință, formula de calcul a marginii din stânga va arăta astfel:
MEDIE(B2:B13)-INCREDEREA STUDENTULUI(0,03,STDV(B2:B13),NUMĂR (B2:B13))

După cum puteți vedea, instrumentele programului Excel fac posibilă facilitarea semnificativă a calculului intervalului de încredere și a limitelor acestuia. În aceste scopuri, se folosesc operatori separați pentru eșantioanele a căror varianță este cunoscută și necunoscută.

Și altele.Toate sunt estimări ale omologilor lor teoretici, care ar putea fi obținute dacă nu ar exista un eșantion, ci populația generală. Dar, din păcate, populația generală este foarte scumpă și adesea indisponibilă.

Conceptul de estimare a intervalului

Orice estimare de eșantion are o oarecare împrăștiere, deoarece este o variabilă aleatorie în funcție de valorile dintr-un anumit eșantion. Prin urmare, pentru inferențe statistice mai fiabile, ar trebui să se cunoască nu numai estimarea punctuală, ci și intervalul, care cu o probabilitate mare γ (gama) acoperă indicatorul estimat θ (theta).

Formal, acestea sunt două astfel de valori (statistici) T1(X)și T2(X), ce T1< T 2 , pentru care la un nivel dat de probabilitate γ condiția este îndeplinită:

Pe scurt, este probabil γ sau mai mult valoarea adevărată este între puncte T1(X)și T2(X), care sunt numite limite inferioare și superioare interval de încredere.

Una dintre condițiile pentru construirea intervalelor de încredere este îngustimea maximă a acestuia, adică. ar trebui să fie cât mai scurt posibil. Dorința este destul de firească, pentru că. cercetătorul încearcă să localizeze mai precis constatarea parametrului dorit.

Rezultă că intervalul de încredere ar trebui să acopere probabilitățile maxime ale distribuției. iar scorul în sine să fie în centru.

Adică, probabilitatea de abatere (a indicatorului adevărat de la estimare) în sus este egală cu probabilitatea de abatere în jos. De asemenea, trebuie remarcat faptul că, pentru distribuțiile înclinate, intervalul din dreapta nu este egal cu intervalul din stânga.

Figura de mai sus arată clar că cu cât nivelul de încredere este mai mare, cu atât intervalul este mai larg - o relație directă.

Aceasta a fost o mică introducere în teoria estimării pe intervale a parametrilor necunoscuți. Să trecem la găsirea limitelor de încredere pentru așteptarea matematică.

Interval de încredere pentru așteptările matematice

Dacă datele originale sunt distribuite peste , atunci media va fi o valoare normală. Aceasta rezultă din regula că o combinație liniară de valori normale are și o distribuție normală. Prin urmare, pentru a calcula probabilitățile, am putea folosi aparatul matematic al legii distribuției normale.

Cu toate acestea, acest lucru va necesita cunoașterea a doi parametri - valoarea așteptată și varianța, care de obicei nu sunt cunoscute. Desigur, puteți utiliza estimări în loc de parametri (media aritmetică și ), dar atunci distribuția mediei nu va fi destul de normală, va fi ușor aplatizată. Cetățeanul irlandez William Gosset a remarcat cu pricepere acest fapt când și-a publicat descoperirea în numărul din martie 1908 al revistei Biometrica. Din motive de secret, Gosset a semnat cu Student. Așa a apărut distribuția t a Studentului.

Cu toate acestea, distribuția normală a datelor, folosită de K. Gauss în analiza erorilor în observațiile astronomice, este extrem de rară în viața terestră și este destul de greu de stabilit acest lucru (pentru o acuratețe ridicată sunt necesare aproximativ 2 mii de observații). Prin urmare, cel mai bine este să renunțați la ipoteza de normalitate și să utilizați metode care nu depind de distribuția datelor originale.

Se pune întrebarea: care este distribuția mediei aritmetice dacă este calculată din datele unei distribuții necunoscute? Răspunsul este dat de binecunoscuta teoria probabilității Teorema limitei centrale(CPT). În matematică, există mai multe versiuni ale acesteia (formulările au fost rafinate de-a lungul anilor), dar toate, grosier vorbind, se reduc la afirmația că suma unui număr mare de variabile aleatoare independente se supune legii distribuției normale.

La calcularea mediei aritmetice se folosește suma variabilelor aleatoare. Din aceasta rezultă că media aritmetică are o distribuție normală, în care valoarea așteptată este valoarea așteptată a datelor originale, iar varianța este .

Oamenii inteligenți știu să demonstreze CLT, dar vom verifica acest lucru cu ajutorul unui experiment realizat în Excel. Să simulăm un eșantion de 50 de variabile aleatoare distribuite uniform (folosind funcția Excel RANDOMBETWEEN). Apoi vom face 1000 de astfel de mostre și vom calcula media aritmetică pentru fiecare. Să ne uităm la distribuția lor.

Se poate observa că distribuția mediei este apropiată de legea normală. Dacă volumul probelor și numărul lor sunt și mai mari, atunci asemănarea va fi și mai bună.

Acum că am văzut singuri validitatea CLT, putem, folosind , calcula intervalele de încredere pentru media aritmetică, care acoperă media adevărată sau așteptarea matematică cu o probabilitate dată.

Pentru a stabili limitele superioare și inferioare, este necesară cunoașterea parametrilor distribuției normale. De regulă, acestea nu sunt, prin urmare, se utilizează estimări: medie aritmeticăși varianța eșantionului. Din nou, această metodă oferă o aproximare bună numai pentru eșantioane mari. Când eșantioanele sunt mici, se recomandă adesea să folosiți distribuția Student. Nu crede! Distribuția lui Student pentru medie apare numai atunci când datele originale au o distribuție normală, adică aproape niciodată. Prin urmare, este mai bine să setați imediat bara minimă pentru cantitatea de date necesare și să utilizați metode corecte asimptotic. Se spune că 30 de observații sunt suficiente. Luați 50 - nu puteți greși.

T 1.2 sunt limitele inferioare și superioare ale intervalului de încredere

– medie aritmetică eșantionului

s0– abaterea standard a eșantionului (nepărtinitoare)

n - marime de mostra

γ – nivelul de încredere (de obicei egal cu 0,9, 0,95 sau 0,99)

c γ =Φ -1 ((1+γ)/2) este reciproca funcției de distribuție normală standard. În termeni simpli, acesta este numărul de erori standard de la media aritmetică la limita inferioară sau superioară (cele trei probabilități indicate corespund valorilor 1,64, 1,96 și 2,58).

Esența formulei este că se ia media aritmetică și apoi se pune deoparte o anumită sumă ( cu γ) erori standard ( s 0 /√n). Totul se știe, ia-l și numără.

Înainte de utilizarea în masă a PC-urilor, pentru a obține valorile funcției de distribuție normală și inversul acesteia, au folosit . Sunt încă folosite, dar este mai eficient să apelezi la formule Excel gata făcute. Toate elementele din formula de mai sus ( , și ) pot fi calculate cu ușurință în Excel. Dar există și o formulă gata făcută pentru calcularea intervalului de încredere - NORMA DE ÎNCREDERE. Sintaxa sa este următoarea.

NORMĂ DE ÎNCREDERE(alpha, standard_dev, size)

alfa– nivelul de semnificație sau nivelul de încredere, care în notația de mai sus este egal cu 1-γ, i.e. probabilitatea ca matematicaașteptarea va fi în afara intervalului de încredere. Cu un nivel de încredere de 0,95, alfa este 0,05 și așa mai departe.

standard_off este abaterea standard a datelor eșantionului. Nu trebuie să calculați eroarea standard, Excel va împărți la rădăcina lui n.

marimea– dimensiunea eșantionului (n).

Rezultatul functiei CONFIDENCE.NORM este al doilea termen din formula de calcul a intervalului de incredere, i.e. jumătate de interval. În consecință, punctele inferior și superior sunt media ± valoarea obținută.

Astfel, este posibil să se construiască un algoritm universal pentru calcularea intervalelor de încredere pentru media aritmetică, care nu depinde de distribuția datelor inițiale. Prețul pentru universalitate este natura sa asimptotică, adică. necesitatea folosirii de mostre relativ mari. Cu toate acestea, în era tehnologiei moderne, colectarea cantității potrivite de date nu este de obicei dificilă.

Testarea ipotezelor statistice folosind un interval de încredere

(modulul 111)

Una dintre principalele probleme rezolvate în statistică este. Pe scurt, esența sa este aceasta. Se presupune, de exemplu, că așteptările populației generale sunt egale cu o anumită valoare. Apoi se construiește distribuția mediilor eșantionului, care poate fi observată cu o așteptare dată. În continuare, ne uităm la unde în această distribuție condiționată se află media reală. Dacă depășește limitele admise, atunci apariția unei astfel de medii este foarte puțin probabilă, iar cu o singură repetare a experimentului este aproape imposibil, ceea ce contrazice ipoteza propusă, care este respinsă cu succes. Dacă media nu depășește nivelul critic, atunci ipoteza nu este respinsă (dar nici nu se dovedește!).

Deci, cu ajutorul intervalelor de încredere, în cazul nostru pentru așteptare, puteți testa și unele ipoteze. Este foarte ușor de făcut. Să presupunem că media aritmetică pentru un eșantion este 100. Se testează ipoteza că valoarea așteptată este, să zicem, 90. Adică, dacă punem întrebarea în mod primitiv, sună astfel: poate fi aceasta, cu adevărata valoare a medie egală cu 90, media observată a fost 100?

Pentru a răspunde la această întrebare, vor fi necesare informații suplimentare despre abaterea standard și dimensiunea eșantionului. Să presupunem că abaterea standard este 30, iar numărul de observații este 64 (pentru a extrage cu ușurință rădăcina). Atunci eroarea standard a mediei este 30/8 sau 3,75. Pentru a calcula intervalul de încredere de 95%, va trebui să lăsați deoparte două erori standard de ambele părți ale mediei (mai precis, 1,96). Intervalul de încredere va fi de aproximativ 100 ± 7,5 sau de la 92,5 la 107,5.

Raționamentul suplimentar este următorul. Dacă valoarea testată se încadrează în intervalul de încredere, atunci nu contrazice ipoteza, deoarece se încadrează în limitele fluctuațiilor aleatorii (cu o probabilitate de 95%). Dacă punctul testat se află în afara intervalului de încredere, atunci probabilitatea unui astfel de eveniment este foarte mică, în orice caz sub nivelul acceptabil. Prin urmare, ipoteza este respinsă ca fiind în contradicție cu datele observate. În cazul nostru, ipoteza așteptărilor se află în afara intervalului de încredere (valoarea testată de 90 nu este inclusă în intervalul de 100±7,5), deci ar trebui respinsă. Răspunzând la întrebarea primitivă de mai sus, ar trebui să spunem: nu, nu se poate, în niciun caz, acest lucru se întâmplă extrem de rar. Adesea, aceasta indică o probabilitate specifică de respingere eronată a ipotezei (nivelul p), și nu un nivel dat, conform căruia a fost construit intervalul de încredere, ci mai mult de altă dată.

După cum puteți vedea, nu este dificil să construiți un interval de încredere pentru medie (sau așteptări matematice). Principalul lucru este să prindeți esența și apoi lucrurile vor merge. În practică, cei mai mulți folosesc intervalul de încredere de 95%, care este aproximativ două erori standard de fiecare parte a mediei.

Asta este tot pentru acum. Toate cele bune!

Din acest articol veți învăța:

Ce interval de încredere?

Care este scopul regulile 3 sigma?

Cum pot fi puse în practică aceste cunoștințe?

În prezent, datorită unei supraabundențe de informații asociate cu o gamă largă de produse, direcții de vânzare, angajați, activități etc., este greu să alegi principalul, care, în primul rând, merită să-i acordăm atenție și să depunem eforturi pentru a-l gestiona. Definiție interval de încredereși analiza depășirii limitelor valorilor reale - o tehnică care vă ajută să identificați situațiile, influențarea tendințelor. Veți putea dezvolta factori pozitivi și reduce influența celor negativi. Această tehnologie este utilizată în multe companii mondiale binecunoscute.

Există așa-zise alerte", care informează managerii afirmând că următoarea valoare într-o anumită direcție a trecut dincolo interval de încredere. Ce inseamna asta? Acesta este un semnal că a avut loc un eveniment nestandard, care poate schimba tendința existentă în această direcție. Acesta este semnalul la asta pentru a o rezolvaîn situație și înțelegeți ce a influențat-o.

De exemplu, luați în considerare mai multe situații. Am calculat prognoza vânzărilor cu limitele prognozate pentru 100 de articole de mărfuri pentru 2011 pe luni și vânzările reale în martie:

Pentru „Uleiul de floarea soarelui” au depășit limita superioară a prognozei și nu au intrat în intervalul de încredere.
Pentru „Drojdie uscată” a depășit limita inferioară a prognozei.
Pe „Teci de ovăz” a depășit limita superioară.

Pentru restul mărfurilor, vânzările efective s-au încadrat în limitele prognozate specificate. Acestea. vânzările lor au fost în conformitate cu așteptările. Așadar, am identificat 3 produse care au depășit granițele și am început să ne dăm seama ce a influențat trecerea dincolo de granițe:

Cu uleiul de floarea soarelui, am intrat într-o nouă rețea de tranzacționare, care ne-a oferit un volum suplimentar de vânzări, ceea ce a dus la depășirea limitei superioare. Pentru acest produs, merită să recalculăm prognoza până la sfârșitul anului, ținând cont de prognoza de vânzări către acest lanț.
Pentru Dry Yeast, mașina a rămas blocată la vamă, iar în 5 zile a existat un deficit, ceea ce a afectat scăderea vânzărilor și depășirea frontierei inferioare. Ar putea fi util să vă dați seama ce a cauzat-o și să încercați să nu repetați această situație.
Pentru Oatmeal a fost lansată o promoție de vânzări, care a avut ca rezultat o creștere semnificativă a vânzărilor și a dus la o depășire a prognozei.

Am identificat 3 factori care au influențat depășirea prognozei. Pot fi mult mai multe în viață.Pentru a îmbunătăți acuratețea prognozei și a planificării, factorii care duc la faptul că vânzările efective pot depăși prognoza, merită să evidențiem și să construim previziuni și planuri pentru ele separat. Și apoi luați în considerare impactul lor asupra prognozei principale de vânzări. De asemenea, puteți evalua în mod regulat impactul acestor factori și puteți schimba situația în bine prin reducerea influenței factorilor negativi și creșterea influenței factorilor pozitivi.

Cu un interval de încredere, putem:

Evidențiați destinațiile, cărora merită să le acordați atenție, pentru că în aceste zone au avut loc evenimente care pot afecta schimbare de tendință.
Determinați factorii care chiar fac diferența.
A accepta decizie ponderată(de exemplu, despre achiziții, când planificați etc.).

Acum să ne uităm la ce este un interval de încredere și cum să-l calculăm în Excel folosind un exemplu.

Ce este un interval de încredere?

Intervalul de încredere reprezintă limitele de prognoză (superioare și inferioare), în cadrul cărora cu o probabilitate dată (sigma) obțineți valorile reale.

Acestea. calculăm prognoza - acesta este principalul nostru reper, dar înțelegem că este puțin probabil ca valorile reale să fie 100% egale cu prognoza noastră. Și se pune întrebarea în ce măsură poate obține valori reale, dacă tendința actuală continuă? Și această întrebare ne va ajuta să răspundem calculul intervalului de încredere, adică - limitele superioare și inferioare ale prognozei.

Ce este o probabilitate sigma dată?

La calcul interval de încredere putem probabilitate stabilită lovituri valori reale în limitele de prognoză date. Cum să o facă? Pentru a face acest lucru, setăm valoarea lui sigma și, dacă sigma este egal cu:

3 sigma- atunci, probabilitatea de a atinge următoarea valoare reală în intervalul de încredere va fi de 99,7%, sau 300 la 1, sau există o probabilitate de 0,3% de a depăși limitele.

2 sigma- atunci, probabilitatea de a atinge următoarea valoare în limite este ≈ 95,5%, adică. șansele sunt de aproximativ 20 la 1 sau există o șansă de 4,5% să ieși din limite.

1 sigma- atunci, probabilitatea este ≈ 68,3%, i.e. șansele sunt de aproximativ 2 la 1, sau există o șansă de 31,7% ca următoarea valoare să cadă în afara intervalului de încredere.

Noi am formulat Regula 3 Sigma,care spune că probabilitatea de lovire o altă valoare aleatorie în intervalul de încredere cu o valoare dată trei sigma este 99,7%.

Marele matematician rus Cebyshev a demonstrat o teoremă conform căreia există o șansă de 10% de a depăși granițele unei prognoze cu o valoare dată de trei sigma. Acestea. probabilitatea de a se încadra în intervalul de încredere de 3 sigma va fi de cel puțin 90%, în timp ce o încercare de a calcula prognoza și limitele acesteia „cu ochi” este plină de erori mult mai semnificative.

Cum se calculează independent intervalul de încredere în Excel?

Să luăm în considerare calculul intervalului de încredere în Excel (adică limitele superioare și inferioare ale prognozei) folosind un exemplu. Avem o serie de timp - vânzări pe luni timp de 5 ani. Vezi fisierul atasat.

Pentru a calcula limitele prognozei, calculăm:

Prognoza de vânzări().
Sigma - abatere standard modele de prognoză din valori reale.
Trei sigma.
Interval de încredere.

1. Prognoza vânzărilor.

=(RC[-14] (date în serii de timp)-RC[-1] (valoarea modelului))^2(pătrat)

3. Însumați pentru fiecare lună valorile abaterii de la etapa 8 Sum((Xi-Ximod)^2), adică. Să însumăm ianuarie, februarie... pentru fiecare an.

Pentru a face acest lucru, utilizați formula =SUMIF()

SUMIF(matrice cu numere de perioade din interiorul ciclului (pentru luni de la 1 la 12); referință la numărul perioadei din ciclu; referință la o matrice cu pătrate ale diferenței dintre datele inițiale și valorile perioade)

4. Calculați abaterea standard pentru fiecare perioadă din ciclu de la 1 la 12 (etapa 10 in fisierul atasat).

Pentru a face acest lucru, din valoarea calculată la etapa 9, extragem rădăcina și împărțim la numărul de perioade din acest ciclu minus 1 = ROOT((Suma(Xi-Ximod)^2/(n-1))

Să folosim formule în Excel =ROOT(R8 (referire la (Suma(Xi-Ximod)^2)/(COUNTIF($O$8:$O$67 (referință la o matrice cu numere de ciclu); O8 (referință la un anumit număr de ciclu, pe care îl considerăm în matrice))-1))

Folosind formula Excel = COUNTIF numărăm numărul n

Prin calcularea abaterii standard a datelor reale de la modelul de prognoză, am obținut valoarea sigma pentru fiecare lună - etapa 10 in fisierul atasat.

3. Calculați 3 sigma.

La etapa 11, setăm numărul de sigma - în exemplul nostru, „3” (etapa 11 in fisierul atasat):

De asemenea, valori practice sigma:

1,64 sigma - 10% sanse de a depasi limita (1 sansa din 10);

1,96 sigma - 5% șanse de a ieși din limite (1 șansă din 20);

2,6 sigma - 1% șansă de a ieși din limite (1 șansă din 100).

5) Calculăm trei sigma, pentru aceasta înmulțim valorile „sigma” pentru fiecare lună cu „3”.

3. Determinați intervalul de încredere.

Limită superioară de prognoză- previziunea vanzarilor tinand cont de crestere si sezonalitate + (plus) 3 sigma;
Limită inferioară de prognoză- prognoza vânzărilor ținând cont de creștere și sezonalitate - (minus) 3 sigma;

Pentru comoditatea calculării intervalului de încredere pentru o perioadă lungă (vezi fișierul atașat), folosim formula Excel =Y8+CĂUTAREV(W8;8$U$:19$V$;2;0), Unde

Y8- Prognoza de vânzări;

W8- numarul lunii pentru care vom lua valoarea de 3 sigma;

Acestea. Limită superioară de prognoză= „prognoza vânzărilor” + „3 sigma” (în exemplu, CĂUTARE V (numărul lunii; tabel cu valori 3 sigma; coloană din care extragem valoarea sigma egală cu numărul lunii din rândul corespunzător; 0)).

Limită inferioară de prognoză= „prognoza vânzărilor” minus „3 sigma”.

Deci, am calculat intervalul de încredere în Excel.

Acum avem o prognoză și un interval cu limite în care valorile reale vor cădea cu o anumită probabilitate sigma.

În acest articol, am analizat ce sunt sigma și regula trei sigma, cum să determinați un interval de încredere și pentru ce puteți folosi această tehnică în practică.

Prognoze precise și succes pentru tine!

Cum Forecast4AC PRO vă poate ajutala calcularea intervalului de încredere?:

Forecast4AC PRO va calcula automat limitele superioare sau inferioare de prognoză pentru mai mult de 1000 de serii temporale în același timp;

Capacitatea de a analiza limitele prognozei în comparație cu prognoza, tendința și vânzările reale pe diagramă cu o singură apăsare de tastă;

În programul Forcast4AC PRO, este posibil să setați valoarea sigma de la 1 la 3.

Alăturaţi-ne!

Descărcați aplicații gratuite de prognoză și Business Intelligence:

Novo Forecast Lite- automată calculul prognozeiîn excela.
4analitica- Analiza ABC-XYZși analiza emisiilor în Excela.
Qlik Sense Desktop și Qlik ViewPersonal Edition - sisteme BI pentru analiza și vizualizarea datelor.

Testați caracteristicile soluțiilor plătite:

Novo Forecast PRO- prognoza in Excel pentru matrice mari de date.

De multe ori evaluatorul trebuie să analizeze piața imobiliară a segmentului în care se află obiectul de evaluare. Dacă piața este dezvoltată, poate fi dificil să se analizeze întregul set de obiecte prezentate, prin urmare, pentru analiză se folosește un eșantion de obiecte. Acest eșantion nu este întotdeauna omogen, uneori este necesar să îl curățați de extreme - oferte de piață prea mari sau prea scăzute. În acest scop se aplică interval de încredere. Scopul acestui studiu este de a efectua o analiză comparativă a două metode de calculare a intervalului de încredere și de a alege cea mai bună opțiune de calcul atunci când se lucrează cu diferite eșantioane în sistemul estimatica.pro.

Interval de încredere - calculat pe baza eșantionului, intervalul de valori ale caracteristicii, care, cu o probabilitate cunoscută, conține parametrul estimat al populației generale.

Sensul calculării intervalului de încredere este de a construi un astfel de interval pe baza datelor eșantionului, astfel încât să se poată afirma cu o probabilitate dată că valoarea parametrului estimat se află în acest interval. Cu alte cuvinte, intervalul de încredere cu o anumită probabilitate conține valoarea necunoscută a cantității estimate. Cu cât intervalul este mai larg, cu atât inexactitatea este mai mare.

Există diferite metode pentru determinarea intervalului de încredere. În acest articol, vom lua în considerare 2 moduri:

prin abaterea mediană și standard;
prin valoarea critică a statisticii t (coeficientul Student).

Etapele unei analize comparative a diferitelor metode de calcul al CI:

1. formați un eșantion de date;

2. o procesăm cu metode statistice: calculăm valoarea medie, mediana, varianța etc.;

3. calculăm intervalul de încredere în două moduri;

4. Analizați probele curățate și intervalele de încredere obținute.

Etapa 1. Eșantionarea datelor

Eșantionul a fost format folosind sistemul estimatica.pro. Eșantionul a inclus 91 de oferte pentru vânzarea de apartamente cu 1 cameră în zona a 3-a de preț cu tipul de planificare „Hrușciov”.

Tabelul 1. Proba inițială

	Pretul de 1 mp, c.u.

Fig.1. Proba inițială

Etapa 2. Prelucrarea probei initiale

Prelucrarea probelor prin metode statistice necesită calcularea următoarelor valori:

1. Media aritmetică

2. Mediană - un număr care caracterizează eșantionul: exact jumătate dintre elementele eșantionului sunt mai mari decât mediana, cealaltă jumătate este mai mică decât mediana

(pentru un eșantion cu un număr impar de valori)

3. Interval - diferența dintre valorile maxime și minime din eșantion

4. Varianta - folosită pentru a estima mai precis variația datelor

5. Abaterea standard pentru eșantion (denumită în continuare RMS) este cel mai comun indicator al dispersării valorilor de ajustare în jurul mediei aritmetice.

6. Coeficient de variație – reflectă gradul de dispersie a valorilor de ajustare

7. coeficient de oscilație - reflectă fluctuația relativă a valorilor extreme ale prețurilor din eșantion în jurul mediei

Tabelul 2. Indicatori statistici ai eșantionului inițial

Coeficientul de variație, care caracterizează omogenitatea datelor, este de 12,29%, dar coeficientul de oscilație este prea mare. Astfel, putem afirma că eșantionul original nu este omogen, deci să trecem la calcularea intervalului de încredere.

Etapa 3. Calculul intervalului de încredere

Metoda 1. Calculul prin mediană și abaterea standard.

Intervalul de încredere se determină astfel: valoarea minimă - abaterea standard se scade din mediană; valoarea maximă - la mediană se adaugă abaterea standard.

Astfel, intervalul de încredere (47179 CU; 60689 CU)

Orez. 2. Valori în intervalul de încredere 1.

Metoda 2. Construirea unui interval de încredere prin valoarea critică a statisticilor t (coeficientul studentului)

S.V. Gribovsky în cartea „Metode matematice pentru evaluarea valorii proprietății” descrie o metodă de calcul a intervalului de încredere prin coeficientul Student. La calcularea prin această metodă, estimatorul însuși trebuie să stabilească nivelul de semnificație ∝, care determină probabilitatea cu care se va construi intervalul de încredere. Nivelurile de semnificație de 0,1 sunt utilizate în mod obișnuit; 0,05 și 0,01. Ele corespund unor probabilități de încredere de 0,9; 0,95 și 0,99. Cu această metodă, adevăratele valori ale așteptării și varianței matematice sunt considerate practic necunoscute (ceea ce este aproape întotdeauna adevărat atunci când se rezolvă probleme practice de evaluare).

Formula intervalului de încredere:

n - dimensiunea eșantionului;

Valoarea critică a t-statisticilor (distribuții Student) cu un nivel de semnificație ∝, numărul de grade de libertate n-1, care este determinat de tabele statistice speciale sau folosind MS Excel (→„Statistice”→ STUDRASPOBR);

∝ - nivelul de semnificație, luăm ∝=0,01.

Orez. 2. Valori în intervalul de încredere 2.

Pasul 4. Analiza diferitelor moduri de calculare a intervalului de încredere

Două metode de calcul a intervalului de încredere - prin mediană și coeficientul Student - au condus la valori diferite ale intervalelor. În consecință, au fost obținute două probe purificate diferite.

Tabelul 3. Indicatori statistici pentru trei eșantioane.

Indicator	Proba inițială	1 opțiune	Opțiunea 2
Rău


Dispersia

Coef. variatii
Coef. oscilații
Număr de obiecte retrase, buc.

Pe baza calculelor efectuate, putem spune că valorile intervalelor de încredere obținute prin diferite metode se intersectează, astfel încât puteți utiliza oricare dintre metodele de calcul la discreția evaluatorului.

Considerăm însă că atunci când lucrăm în sistemul estimatica.pro, este indicat să alegeți o metodă de calcul a intervalului de încredere, în funcție de gradul de dezvoltare a pieței:

dacă piața nu este dezvoltată, aplicați metoda de calcul prin mediană și abatere standard, deoarece numărul de obiecte retrase în acest caz este mic;
dacă piața este dezvoltată, aplicați calculul prin valoarea critică a t-statisticilor (coeficientul Student), deoarece este posibil să se formeze un eșantion inițial mare.

La pregătirea articolului s-au folosit:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Metode matematice de apreciere a valorii proprietatii. Moscova, 2014

2. Date din sistemul estimatica.pro

Portal pentru student. Autoinstruire