Calculați intervalul de încredere. Calcularea unui interval de încredere în Microsoft Excel

„Katren-Style” continuă să publice un ciclu al lui Konstantin Kravchik despre statisticile medicale. În două articole anterioare, autorul a atins explicația unor concepte precum și.

Constantin Kravcik

Matematician-analist. Specialist în domeniul cercetării statistice în medicină și științe umaniste

Orașul Moscova

Foarte des în articolele despre studiile clinice poți găsi o frază misterioasă: „interval de încredere” (IC 95% sau IC 95% - interval de încredere). De exemplu, un articol ar putea spune: „Testul studentului a fost folosit pentru a evalua semnificația diferențelor, cu un interval de încredere de 95% calculat”.

Care este valoarea „intervalului de încredere 95%” și de ce să-l calculăm?

Ce este un interval de încredere? - Acesta este intervalul în care se încadrează adevăratele valori medii în populație. Și ce, există medii „neadevărate”? Într-un fel, da, o fac. Am explicat că este imposibil să se măsoare parametrul de interes în întreaga populație, așa că cercetătorii se mulțumesc cu un eșantion limitat. În această probă (de exemplu, după greutatea corporală) există o valoare medie (o anumită greutate), după care judecăm valoarea medie în întreaga populație generală. Cu toate acestea, este puțin probabil ca ponderea medie din eșantion (în special una mică) să coincidă cu ponderea medie în populația generală. Prin urmare, este mai corect să se calculeze și să se utilizeze intervalul de valori medii ale populației generale.

De exemplu, să presupunem că intervalul de încredere de 95% (IC 95%) pentru hemoglobină este între 110 și 122 g/L. Aceasta înseamnă că, cu o probabilitate de 95 %, adevărata valoare medie a hemoglobinei în populația generală va fi în intervalul de la 110 la 122 g/l. Cu alte cuvinte, nu cunoaștem hemoglobina medie în populația generală, dar putem indica intervalul de valori pentru această caracteristică cu o probabilitate de 95%.

Intervalele de încredere sunt deosebit de relevante pentru diferența de medii între grupuri sau ceea ce se numește mărimea efectului.

Să presupunem că am comparat eficacitatea a două preparate de fier: unul care este pe piață de mult timp și unul care tocmai a fost înregistrat. După cursul terapiei, a fost evaluată concentrația de hemoglobină în grupurile studiate de pacienți, iar programul statistic a calculat pentru noi că diferența dintre valorile medii ale celor două grupuri cu o probabilitate de 95% este în intervalul de la 1,72 până la 14,36 g/l (Tabelul 1).

Tab. 1. Criteriu pentru probe independente
(grupurile sunt comparate în funcție de nivelul hemoglobinei)

Acest lucru ar trebui interpretat după cum urmează: la o parte a pacienților din populația generală care iau un medicament nou, hemoglobina va fi mai mare în medie cu 1,72-14,36 g/l decât la cei care au luat un medicament deja cunoscut.

Cu alte cuvinte, în populația generală, diferența dintre valorile medii ale hemoglobinei în grupuri cu o probabilitate de 95% se află în aceste limite. Va rămâne la latitudinea cercetătorului să judece dacă este mult sau puțin. Ideea tuturor acestor lucruri este că nu lucrăm cu o valoare medie, ci cu o gamă de valori, prin urmare, estimăm mai fiabil diferența unui parametru între grupuri.

În pachetele statistice, la discreția cercetătorului, se pot îngusta sau extinde în mod independent granițele intervalului de încredere. Prin scăderea probabilităților intervalului de încredere, restrângem intervalul de medii. De exemplu, la 90% IC, intervalul de medii (sau diferențele medii) va fi mai restrâns decât la 95% IC.

În schimb, creșterea probabilității la 99% mărește gama de valori. Când se compară grupuri, limita inferioară a CI poate depăși marcajul zero. De exemplu, dacă am extins limitele intervalului de încredere la 99 %, atunci limitele intervalului au variat între –1 și 16 g/L. Aceasta înseamnă că în populația generală există grupuri, diferența dintre mediile dintre care pentru trăsătura studiată este 0 (M=0).

Intervalele de încredere pot fi folosite pentru a testa ipotezele statistice. Dacă intervalul de încredere trece de zero, atunci ipoteza nulă, care presupune că grupurile nu diferă în parametrul studiat, este adevărată. Un exemplu este descris mai sus, când am extins limitele la 99%. Undeva în populația generală, am găsit grupuri care nu diferă în niciun fel.

Interval de încredere de 95% al ​​diferenței de hemoglobină, (g/l)


Figura arată intervalul de încredere de 95% al ​​diferenței medii de hemoglobină dintre cele două grupuri ca o linie. Linia trece de marcajul zero, prin urmare, există o diferență între medii egală cu zero, ceea ce confirmă ipoteza nulă că grupurile nu diferă. Diferența dintre grupuri variază de la -2 la 5 g/l, ceea ce înseamnă că hemoglobina poate fie să scadă cu 2 g/l, fie să crească cu 5 g/l.

Intervalul de încredere este un indicator foarte important. Datorită acesteia, puteți vedea dacă diferențele dintre grupuri s-au datorat într-adevăr diferenței de medii sau datorită unui eșantion mare, deoarece la un eșantion mare, șansele de a găsi diferențe sunt mai mari decât la unul mic.

În practică, ar putea arăta așa. Am luat un eșantion de 1000 de persoane, am măsurat nivelul hemoglobinei și am constatat că intervalul de încredere pentru diferența de medii este de la 1,2 la 1,5 g/L. Nivelul semnificației statistice în acest caz p

Vedem că concentrația de hemoglobină a crescut, dar aproape imperceptibil, prin urmare, semnificația statistică a apărut tocmai datorită dimensiunii eșantionului.

Intervalele de încredere pot fi calculate nu numai pentru medii, ci și pentru proporții (și rapoarte de risc). De exemplu, ne interesează intervalul de încredere al proporțiilor de pacienți care au obținut remisie în timp ce luau medicamentul dezvoltat. Să presupunem că IC de 95% pentru proporții, adică pentru proporția de astfel de pacienți, este în intervalul 0,60-0,80. Astfel, putem spune că medicamentul nostru are un efect terapeutic în 60 până la 80% din cazuri.

Mintea nu este doar în cunoaștere, ci și în capacitatea de a aplica cunoștințele în practică. (Aristotel)

Intervale de încredere

revizuire generală

Luând un eșantion din populație, vom obține o estimare punctuală a parametrului care ne interesează și vom calcula eroarea standard pentru a indica acuratețea estimării.

Cu toate acestea, pentru majoritatea cazurilor, eroarea standard ca atare nu este acceptabilă. Este mult mai util să combinați această măsură de precizie cu o estimare de interval pentru parametrul populației.

Acest lucru se poate realiza prin utilizarea cunoștințelor distribuției teoretice de probabilitate a statisticii (parametrului) eșantionului pentru a calcula un interval de încredere (CI - Intervalul de încredere, CI - Intervalul de încredere) pentru parametru.

În general, intervalul de încredere extinde estimările în ambele direcții cu un multiplu al erorii standard (a unui parametru dat); cele două valori (limitele de încredere) care definesc intervalul sunt de obicei separate prin virgulă și cuprinse între paranteze.

Interval de încredere pentru medie

Folosind distribuția normală

Media eșantionului are o distribuție normală dacă dimensiunea eșantionului este mare, astfel încât cunoașterea distribuției normale poate fi aplicată atunci când se ia în considerare media eșantionului.

În special, 95% din distribuția mediei eșantionului se află în 1,96 deviații standard (SD) ale mediei populației.

Când avem un singur eșantion, numim aceasta eroare standard a mediei (SEM) și calculăm intervalul de încredere de 95% pentru medie după cum urmează:

Dacă acest experiment este repetat de mai multe ori, atunci intervalul va conține media reală a populației în 95% din timp.

Acesta este de obicei un interval de încredere, cum ar fi intervalul de valori în care se află media reală a populației (media generală) cu un nivel de încredere de 95%.

Deși nu este destul de strict (media populației este o valoare fixă ​​și, prin urmare, nu poate avea o probabilitate legată de aceasta) să interpretăm intervalul de încredere în acest fel, este conceptual mai ușor de înțeles.

Utilizare t- distributie

Puteți folosi distribuția normală dacă cunoașteți valoarea varianței în populație. De asemenea, atunci când dimensiunea eșantionului este mică, media eșantionului urmează o distribuție normală dacă datele care stau la baza populației sunt distribuite normal.

Dacă datele care stau la baza populației nu sunt distribuite în mod normal și/sau varianța generală (varianța populației) este necunoscută, media eșantionului se supune Distribuția t a studentului.

Calculați intervalul de încredere de 95% pentru media populației după cum urmează:

Unde - punct procentual (percentilă) t- Distribuție student cu (n-1) grade de libertate, care dă o probabilitate cu două cozi de 0,05.

În general, oferă un interval mai larg decât atunci când se utilizează o distribuție normală, deoarece ține cont de incertitudinea suplimentară care este introdusă prin estimarea abaterii standard a populației și/sau datorită dimensiunii reduse a eșantionului.

Când dimensiunea eșantionului este mare (de ordinul a 100 sau mai mult), diferența dintre cele două distribuții ( t-studentși normal) este neglijabilă. Cu toate acestea, folosiți întotdeauna t- distribuția la calcularea intervalelor de încredere, chiar dacă dimensiunea eșantionului este mare.

De obicei este indicat 95% CI. Alte intervale de încredere pot fi calculate, cum ar fi 99% CI pentru medie.

În loc de produsul erorii standard și valoarea tabelului t- distribuția care corespunde unei probabilități cu două cozi de 0,05 înmulțiți-o (eroare standard) cu o valoare care corespunde unei probabilități cu două cozi de 0,01. Acesta este un interval de încredere mai larg decât în ​​cazul 95%, deoarece reflectă o încredere crescută că intervalul include într-adevăr media populației.

Interval de încredere pentru proporție

Distribuția de eșantionare a proporțiilor are o distribuție binomială. Cu toate acestea, dacă dimensiunea eșantionului n relativ mare, atunci distribuția eșantionului proporțional este aproximativ normală cu media .

Estimare prin raport de eșantionare p=r/n(Unde r- numărul de indivizi din eșantion cu caracteristicile care ne interesează), iar eroarea standard este estimată:

Intervalul de încredere de 95% pentru proporție este estimat:

Dacă dimensiunea eșantionului este mică (de obicei când np sau n(1-p) mai mici 5 ), atunci distribuția binomială trebuie utilizată pentru a calcula intervalele exacte de încredere.

Rețineți că dacă p exprimat ca procent, atunci (1-p) inlocuit de (100p).

Interpretarea intervalelor de încredere

Când interpretăm intervalul de încredere, ne interesează următoarele întrebări:

Cât de larg este intervalul de încredere?

Un interval larg de încredere indică faptul că estimarea este imprecisă; îngust indică o estimare bună.

Lățimea intervalului de încredere depinde de mărimea erorii standard, care, la rândul său, depinde de dimensiunea eșantionului, și atunci când se ia în considerare o variabilă numerică din variabilitatea datelor, se oferă intervale de încredere mai largi decât studiile unui set mare de date de puține. variabile.

CI include valori de interes deosebit?

Puteți verifica dacă valoarea probabilă pentru un parametru de populație se încadrează într-un interval de încredere. Dacă da, atunci rezultatele sunt în concordanță cu această valoare probabilă. Dacă nu, atunci este puțin probabil (pentru un interval de încredere de 95%, șansa este de aproape 5%) ca parametrul să aibă această valoare.

Să presupunem că avem un număr mare de articole cu o distribuție normală a unor caracteristici (de exemplu, un depozit complet de legume de același tip, a căror dimensiune și greutate variază). Vrei să cunoști caracteristicile medii ale întregului lot de mărfuri, dar nu ai nici timpul și nici înclinația de a măsura și cântări fiecare legumă. Înțelegi că acest lucru nu este necesar. Dar câte piese ar trebui să luați pentru o inspecție aleatorie?

Înainte de a da câteva formule utile pentru această situație, amintim câteva notații.

În primul rând, dacă am măsura întregul depozit de legume (acest set de elemente se numește populația generală), atunci am cunoaște cu toată exactitatea disponibilă valoarea medie a greutății întregului lot. Să numim această medie X cf .g en . - media generală. Știm deja ce este complet determinat dacă valoarea medie și abaterea s sunt cunoscute . Adevărat, până acum nu suntem nici media X, nici s nu cunoaștem populația generală. Nu putem decât să luăm o probă, să măsurăm valorile de care avem nevoie și să calculăm pentru această probă atât valoarea medie X sr. în probă, cât și abaterea standard S sb.

Se știe că, dacă verificarea noastră personalizată conține un număr mare de elemente (de obicei n este mai mare de 30), și acestea sunt luate într-adevăr aleatoriu, apoi s populația generală aproape că nu va diferi de S ..

În plus, pentru cazul unei distribuții normale, putem folosi următoarele formule:

Cu o probabilitate de 95%


Cu o probabilitate de 99%



În general, cu probabilitatea Р (t)


Relația dintre valoarea lui t și valoarea probabilității P (t), cu care dorim să cunoaștem intervalul de încredere, poate fi luată din următorul tabel:


Astfel, am determinat în ce interval se află valoarea medie pentru populația generală (cu o probabilitate dată).

Dacă nu avem un eșantion suficient de mare, nu putem pretinde că populația are s = S sel. În plus, în acest caz, apropierea eșantionului de distribuția normală este problematică. În acest caz, folosiți și S sb s în formula:




dar valoarea lui t pentru o probabilitate fixă ​​P(t) va depinde de numărul de elemente din eșantionul n. Cu cât n este mai mare, cu atât intervalul de încredere rezultat va fi mai apropiat de valoarea dată de formula (1). Valorile t în acest caz sunt preluate dintr-un alt tabel (testul t al studentului), pe care îl oferim mai jos:

Valorile testului t al lui Student pentru probabilitatea 0,95 și 0,99


Exemplul 3 30 de persoane au fost alese aleatoriu dintre angajații companiei. Potrivit eșantionului, s-a dovedit că salariul mediu (pe lună) este de 30 de mii de ruble, cu o abatere medie pătrată de 5 mii de ruble. Cu o probabilitate de 0,99 determinați salariul mediu în firmă.

Decizie: Prin condiție, avem n = 30, X cf. =30000, S=5000, P=0,99. Pentru a afla intervalul de încredere, folosim formula corespunzătoare criteriului Studentului. Conform tabelului pentru n \u003d 30 și P \u003d 0,99, găsim t \u003d 2,756, prin urmare,


acestea. încrederea dorită interval 27484< Х ср.ген < 32516.

Deci, cu o probabilitate de 0,99, se poate susține că intervalul (27484; 32516) conține salariul mediu în companie.

Sperăm că veți folosi această metodă fără a avea neapărat o foaie de calcul cu dvs. de fiecare dată. Calculele pot fi efectuate automat în Excel. În timp ce vă aflați într-un fișier Excel, faceți clic pe butonul fx din meniul de sus. Apoi, selectați dintre funcții tipul „statistic”, iar din lista propusă în casetă - STEUDRASP. Apoi, la prompt, plasând cursorul în câmpul „probabilitate”, tastați valoarea probabilității reciproce (adică, în cazul nostru, în loc de probabilitatea de 0,95, trebuie să introduceți probabilitatea de 0,05). Aparent, foaia de calcul este concepută astfel încât rezultatul să răspundă la întrebarea cât de probabil putem greși. În mod similar, în câmpul „grad de libertate”, introduceți valoarea (n-1) pentru eșantionul dvs.

Una dintre metodele de rezolvare a problemelor statistice este calculul intervalului de încredere. Este utilizat ca alternativă preferată la estimarea punctuală atunci când dimensiunea eșantionului este mică. Trebuie remarcat faptul că procesul de calcul al intervalului de încredere este destul de complicat. Dar instrumentele programului Excel vă permit să îl simplificați oarecum. Să aflăm cum se face acest lucru în practică.

Această metodă este utilizată în estimarea pe intervale a diferitelor mărimi statistice. Sarcina principală a acestui calcul este de a scăpa de incertitudinile estimării punctuale.

În Excel, există două opțiuni principale pentru a calcula folosind această metodă: când varianța este cunoscută și când este necunoscută. În primul caz, funcția este utilizată pentru calcule NORMA DE ÎNCREDERE, iar în al doilea ÎNCREDERE.STUDENT.

Metoda 1: Funcția NORM DE ÎNCREDERE

Operator NORMA DE ÎNCREDERE, care se referă la grupul statistic de funcții, a apărut pentru prima dată în Excel 2010. Versiunile anterioare ale acestui program folosesc omologul său ÎNCREDERE. Sarcina acestui operator este de a calcula un interval de încredere cu o distribuție normală pentru media populației.

Sintaxa sa este următoarea:

NORMĂ DE ÎNCREDERE(alpha, standard_dev, size)

"Alfa" este un argument care indică nivelul de semnificație care este utilizat pentru a calcula nivelul de încredere. Nivelul de încredere este egal cu următoarea expresie:

(1-"Alfa")*100

"Deviație standard" este un argument, a cărui esență este clară din nume. Aceasta este abaterea standard a eșantionului propus.

"Marimea" este un argument care determină mărimea eșantionului.

Sunt necesare toate argumentele acestui operator.

Funcţie ÎNCREDERE are exact aceleași argumente și posibilități ca și precedentul. Sintaxa sa este:

TRUST(alpha, standard_dev, size)

După cum puteți vedea, diferențele sunt doar în numele operatorului. Această caracteristică a fost păstrată în Excel 2010 și versiunile mai noi într-o categorie specială din motive de compatibilitate. "Compatibilitate". În versiunile de Excel 2007 și anterioare, acesta este prezent în grupul principal de operatori statistici.

Limita intervalului de încredere este determinată folosind formula următoarei forme:

X+(-)INCREDEREA NORMA

Unde X este media eșantionului, care se află la mijlocul intervalului selectat.

Acum să ne uităm la cum să calculăm intervalul de încredere folosind un exemplu specific. Au fost efectuate 12 teste, rezultând rezultate diferite, care sunt enumerate în tabel. Aceasta este totalitatea noastră. Abaterea standard este 8. Trebuie să calculăm intervalul de încredere la nivelul de încredere de 97%.

  1. Selectați celula în care va fi afișat rezultatul prelucrării datelor. Făcând clic pe butonul „Inserare funcție”.
  2. Apare Expertul de funcții. Mergi la categorie "Statistic"și evidențiați numele „ÎNCREDERE.NORMĂ”. După aceea faceți clic pe butonul Bine.
  3. Se deschide fereastra de argumente. Câmpurile sale corespund în mod firesc cu numele argumentelor.
    Setați cursorul pe primul câmp - "Alfa". Aici ar trebui să precizăm nivelul de semnificație. După cum ne amintim, nivelul nostru de încredere este de 97%. În același timp, am spus că se calculează astfel:

    (1-nivel de încredere)/100

    Adică, înlocuind valoarea, obținem:

    Prin calcule simple, aflăm că argumentul "Alfa" egală 0,03 . Introduceți această valoare în câmp.

    După cum știți, abaterea standard este egală cu 8 . Prin urmare, pe teren "Deviație standard" notează doar acel număr.

    În câmp "Marimea" trebuie să introduceți numărul de elemente ale testelor efectuate. După cum ne amintim, ei 12 . Dar pentru a automatiza formula și a nu o edita de fiecare dată când se efectuează un nou test, să setăm această valoare nu la un număr obișnuit, ci folosind operatorul VERIFICA. Deci, punem cursorul în câmp "Marimea", apoi faceți clic pe triunghi, care se află în stânga barei de formule.

    Apare o listă cu funcțiile utilizate recent. Dacă operatorul VERIFICA folosit recent de tine, ar trebui să fie pe această listă. În acest caz, trebuie doar să faceți clic pe numele acestuia. În caz contrar, dacă nu îl găsești, atunci mergi la subiect "Mai multe trăsături...".

  4. Ne pare deja familiar Expertul de funcții. Trecând înapoi la grup "Statistic". Selectăm numele acolo "VERIFICA". Faceți clic pe butonul Bine.
  5. Apare fereastra de argumente pentru operatorul de mai sus. Această funcție este concepută pentru a calcula numărul de celule din intervalul specificat care conțin valori numerice. Sintaxa sa este următoarea:

    COUNT(valoare1, valoare2,...)

    Grupul de argumentare „Valori” este o referință la intervalul în care doriți să calculați numărul de celule umplute cu date numerice. În total, pot exista până la 255 de astfel de argumente, dar în cazul nostru avem nevoie doar de unul.

    Setați cursorul în câmp „Valoare 1”și, ținând apăsat butonul stâng al mouse-ului, selectați intervalul de pe foaia care conține populația noastră. Apoi adresa sa va fi afișată în câmp. Faceți clic pe butonul Bine.

  6. După aceea, aplicația va efectua calculul și va afișa rezultatul în celula în care se află ea însăși. În cazul nostru particular, formula s-a dovedit astfel:

    NORMĂ DE ÎNCREDERE(0,03,8,NUMĂR (B2:B13))

    Rezultatul general al calculelor a fost 5,011609 .

  7. Dar asta nu este tot. După cum ne amintim, limita intervalului de încredere este calculată prin adăugarea și scăderea din valoarea medie a eșantionului a rezultatului calculului NORMA DE ÎNCREDERE. În acest fel, se calculează limitele din dreapta și respectiv din stânga intervalului de încredere. Media eșantionului în sine poate fi calculată folosind operatorul IN MEDIE.

    Acest operator este conceput pentru a calcula media aritmetică a intervalului de numere selectat. Are următoarea sintaxă destul de simplă:

    MEDIE (număr1, număr2,...)

    Argument "Număr" poate fi fie o singură valoare numerică, fie o referință la celule sau chiar intervale întregi care le conțin.

    Deci, selectați celula în care va fi afișat calculul valorii medii și faceți clic pe butonul „Inserare funcție”.

  8. se deschide Expertul de funcții. Înapoi la categorie "Statistic"și selectați un nume din listă "IN MEDIE". Ca întotdeauna, faceți clic pe butonul Bine.
  9. Fereastra de argumente este lansată. Setați cursorul în câmp "Numărul 1"și cu butonul stâng al mouse-ului apăsat, selectați întregul interval de valori. După ce coordonatele sunt afișate în câmp, faceți clic pe butonul Bine.
  10. Dupa aceea IN MEDIE redă rezultatul calculului către un element de foaie.
  11. Calculăm limita dreaptă a intervalului de încredere. Pentru a face acest lucru, selectați o celulă separată, puneți semnul «=» si se adauga continutul elementelor fisei in care se afla rezultatele calculului functiilor IN MEDIEși NORMA DE ÎNCREDERE. Pentru a efectua calculul, apăsați butonul introduce. În cazul nostru, avem următoarea formulă:

    Rezultatul calculului: 6,953276

  12. În același mod, calculăm limita din stânga a intervalului de încredere, doar că de această dată din rezultatul calculului IN MEDIE scade rezultatul calculului operatorului NORMA DE ÎNCREDERE. Rezultă formula pentru exemplul nostru de următorul tip:

    Rezultatul calculului: -3,06994

  13. Am încercat să descriem în detaliu toți pașii pentru calcularea intervalului de încredere, așa că am descris în detaliu fiecare formulă. Dar puteți combina toate acțiunile într-o singură formulă. Calculul limitei drepte a intervalului de încredere poate fi scris după cum urmează:

    MEDIE(B2:B13)+INCREDERE(0,03,8,NUMĂRĂ(B2:B13))

  14. Un calcul similar al marginii din stânga ar arăta astfel:

    MEDIE(B2:B13)-CONFIDENCE.NORM(0,03,8,NUMĂR (B2:B13))

Metoda 2: Funcția TRUST.STUDENT

În plus, există o altă funcție în Excel care este legată de calcularea intervalului de încredere - ÎNCREDERE.STUDENT. A apărut abia din Excel 2010. Acest operator efectuează calculul intervalului de încredere a populației folosind distribuția Student. Este foarte convenabil să îl utilizați în cazul în care varianța și, în consecință, abaterea standard sunt necunoscute. Sintaxa operatorului este:

TRUST.STUDENT(alpha,standard_dev,size)

După cum puteți vedea, numele operatorilor în acest caz au rămas neschimbate.

Să vedem cum se calculează limitele intervalului de încredere cu o abatere standard necunoscută folosind exemplul aceleiași populații pe care am considerat-o în metoda anterioară. Nivelul de încredere, ca și data trecută, vom lua 97%.

  1. Selectați celula în care se va face calculul. Faceți clic pe butonul „Inserare funcție”.
  2. În deschis Expertul de funcții mergi la categorie "Statistic". Alegeți un nume „ÎNCREDERE.STUDENT”. Faceți clic pe butonul Bine.
  3. Fereastra de argumente pentru operatorul specificat este lansată.

    În câmp "Alfa", având în vedere că nivelul de încredere este de 97%, notăm numărul 0,03 . A doua oară nu ne vom opri asupra principiilor calculării acestui parametru.

    După aceea, setați cursorul în câmp "Deviație standard". De data aceasta, acest indicator ne este necunoscut și trebuie calculat. Acest lucru se face folosind o funcție specială - STDEV.V. Pentru a apela fereastra acestui operator, faceți clic pe triunghiul din stânga barei de formule. Dacă nu găsim numele dorit în lista care se deschide, atunci mergeți la articol "Mai multe trăsături...".

  4. rulează Expertul de funcții. Trecerea la categorie "Statistic"și marcați numele „STDEV.B”. Apoi faceți clic pe butonul Bine.
  5. Se deschide fereastra de argumente. sarcina operatorului STDEV.V este definiția abaterii standard în eșantionare. Sintaxa sa arată astfel:

    STDEV.V(număr1,număr2,…)

    Este ușor de ghicit că argumentul "Număr" este adresa elementului de selecție. Dacă selecția este plasată într-o singură matrice, atunci folosind un singur argument, puteți da un link către acest interval.

    Setați cursorul în câmp "Numărul 1"și, ca întotdeauna, ținând apăsat butonul stâng al mouse-ului, selectați setul. După ce coordonatele sunt în câmp, nu vă grăbiți să apăsați butonul Bine deoarece rezultatul va fi incorect. Mai întâi trebuie să revenim la fereastra cu argumente operator ÎNCREDERE.STUDENT pentru a face argumentul final. Pentru a face acest lucru, faceți clic pe numele corespunzător din bara de formule.

  6. Fereastra de argumente a funcției deja familiare se deschide din nou. Setați cursorul în câmp "Marimea". Din nou, faceți clic pe triunghiul deja familiar pentru a merge la alegerea operatorilor. După cum înțelegeți, avem nevoie de un nume "VERIFICA". Deoarece am folosit această funcție în calculele din metoda anterioară, este prezentă în această listă, așa că faceți clic pe ea. Dacă nu îl găsiți, atunci urmați algoritmul descris în prima metodă.
  7. Intrarea în fereastra de argumente VERIFICA, plasați cursorul în câmp "Numărul 1"și cu butonul mouse-ului ținut apăsat, selectați colecția. Apoi faceți clic pe butonul Bine.
  8. După aceea, programul calculează și afișează valoarea intervalului de încredere.
  9. Pentru a determina limitele, va trebui din nou să calculăm media eșantionului. Dar, având în vedere că algoritmul de calcul folosind formula IN MEDIE la fel ca în metoda anterioară și chiar și rezultatul nu s-a schimbat, nu ne vom opri asupra acestui lucru în detaliu a doua oară.
  10. Însumarea rezultatelor calculului IN MEDIEși ÎNCREDERE.STUDENT, obținem limita dreaptă a intervalului de încredere.
  11. Scăzând din rezultatele de calcul ale operatorului IN MEDIE rezultatul calculului ÎNCREDERE.STUDENT, avem limita stângă a intervalului de încredere.
  12. Dacă calculul este scris într-o singură formulă, atunci calculul marginii din dreapta în cazul nostru va arăta astfel:

    MEDIE(B2:B13)+ÎNCREDEREA STUDENTULUI(0,03,STDV(B2:B13),NUMĂR (B2:B13))

  13. În consecință, formula de calcul a marginii din stânga va arăta astfel:

    MEDIE(B2:B13)-INCREDEREA STUDENTULUI(0,03,STDV(B2:B13),NUMĂR (B2:B13))

După cum puteți vedea, instrumentele programului Excel fac posibilă facilitarea semnificativă a calculului intervalului de încredere și a limitelor acestuia. În aceste scopuri, se folosesc operatori separați pentru eșantioanele a căror varianță este cunoscută și necunoscută.

Și altele.Toate sunt estimări ale omologilor lor teoretici, care ar putea fi obținute dacă nu ar exista un eșantion, ci populația generală. Dar, din păcate, populația generală este foarte scumpă și adesea indisponibilă.

Conceptul de estimare a intervalului

Orice estimare a eșantionului are o oarecare împrăștiere, deoarece este o variabilă aleatorie în funcție de valorile dintr-un anumit eșantion. Prin urmare, pentru inferențe statistice mai fiabile, ar trebui să se cunoască nu numai estimarea punctuală, ci și intervalul, care cu o probabilitate mare γ (gama) acoperă indicatorul estimat θ (theta).

Formal, acestea sunt două astfel de valori (statistici) T1(X)și T2(X), ce T1< T 2 , pentru care la un nivel dat de probabilitate γ condiția este îndeplinită:

Pe scurt, este probabil γ sau mai mult valoarea adevărată este între puncte T1(X)și T2(X), care se numesc limite inferioare și superioare interval de încredere.

Una dintre condițiile pentru construirea intervalelor de încredere este îngustimea maximă a acestuia, adică. ar trebui să fie cât mai scurt posibil. Dorința este destul de firească, pentru că. cercetătorul încearcă să localizeze mai precis constatarea parametrului dorit.

Rezultă că intervalul de încredere ar trebui să acopere probabilitățile maxime ale distribuției. iar scorul în sine să fie în centru.

Adică, probabilitatea de abatere (a indicatorului adevărat de la estimare) în sus este egală cu probabilitatea de abatere în jos. De asemenea, trebuie remarcat faptul că, pentru distribuțiile înclinate, intervalul din dreapta nu este egal cu intervalul din stânga.

Figura de mai sus arată clar că cu cât nivelul de încredere este mai mare, cu atât intervalul este mai larg - o relație directă.

Aceasta a fost o mică introducere în teoria estimării pe intervale a parametrilor necunoscuți. Să trecem la găsirea limitelor de încredere pentru așteptarea matematică.

Interval de încredere pentru așteptările matematice

Dacă datele originale sunt distribuite peste , atunci media va fi o valoare normală. Aceasta rezultă din regula că o combinație liniară de valori normale are și o distribuție normală. Prin urmare, pentru a calcula probabilitățile, am putea folosi aparatul matematic al legii distribuției normale.

Cu toate acestea, acest lucru va necesita cunoașterea a doi parametri - valoarea așteptată și varianța, care de obicei nu sunt cunoscute. Desigur, puteți utiliza estimări în loc de parametri (media aritmetică și ), dar atunci distribuția mediei nu va fi destul de normală, va fi ușor aplatizată. Cetățeanul irlandez William Gosset a remarcat cu pricepere acest fapt când și-a publicat descoperirea în numărul din martie 1908 al revistei Biometrica. Din motive de secret, Gosset a semnat cu Student. Așa a apărut distribuția t a Studentului.

Cu toate acestea, distribuția normală a datelor, folosită de K. Gauss în analiza erorilor în observațiile astronomice, este extrem de rară în viața terestră și este destul de greu de stabilit acest lucru (pentru o acuratețe ridicată sunt necesare aproximativ 2 mii de observații). Prin urmare, cel mai bine este să renunțați la ipoteza normalității și să utilizați metode care nu depind de distribuția datelor originale.

Se pune întrebarea: care este distribuția mediei aritmetice dacă este calculată din datele unei distribuții necunoscute? Răspunsul este dat de binecunoscuta teoria probabilității Teorema limitei centrale(CPT). În matematică, există mai multe versiuni ale acesteia (formulările s-au rafinat de-a lungul anilor), dar toate, aproximativ vorbind, se reduc la afirmația că suma unui număr mare de variabile aleatoare independente se supune legii distribuției normale.

La calcularea mediei aritmetice se folosește suma variabilelor aleatoare. Din aceasta rezultă că media aritmetică are o distribuție normală, în care valoarea așteptată este valoarea așteptată a datelor originale, iar varianța este .

Oamenii inteligenți știu să demonstreze CLT, dar vom verifica acest lucru cu ajutorul unui experiment realizat în Excel. Să simulăm un eșantion de 50 de variabile aleatoare distribuite uniform (folosind funcția Excel RANDOMBETWEEN). Apoi vom face 1000 de astfel de mostre și vom calcula media aritmetică pentru fiecare. Să ne uităm la distribuția lor.

Se poate observa că distribuția mediei este apropiată de legea normală. Dacă volumul probelor și numărul lor sunt și mai mari, atunci asemănarea va fi și mai bună.

Acum că am văzut singuri validitatea CLT, putem, folosind , calcula intervalele de încredere pentru media aritmetică, care acoperă media adevărată sau așteptarea matematică cu o probabilitate dată.

Pentru a stabili limitele superioare și inferioare, este necesară cunoașterea parametrilor distribuției normale. De regulă, acestea nu sunt, prin urmare, sunt utilizate estimări: medie aritmeticăși varianța eșantionului. Din nou, această metodă oferă o aproximare bună numai pentru mostre mari. Când eșantioanele sunt mici, se recomandă adesea să folosiți distribuția Student. Nu crede! Distribuția lui Student pentru medie apare numai atunci când datele originale au o distribuție normală, adică aproape niciodată. Prin urmare, este mai bine să setați imediat bara minimă pentru cantitatea de date necesare și să utilizați metode corecte asimptotic. Se spune că 30 de observații sunt suficiente. Luați 50 - nu puteți greși.

T 1.2 sunt limitele inferioare și superioare ale intervalului de încredere

– medie aritmetică eșantionului

s0– abaterea standard a eșantionului (nepărtinitoare)

n - marime de mostra

γ – nivelul de încredere (de obicei egal cu 0,9, 0,95 sau 0,99)

c γ =Φ -1 ((1+γ)/2) este reciproca funcției de distribuție normală standard. În termeni simpli, acesta este numărul de erori standard de la media aritmetică la limita inferioară sau superioară (cele trei probabilități indicate corespund valorilor 1,64, 1,96 și 2,58).

Esența formulei este că se ia media aritmetică și apoi se pune deoparte o anumită sumă ( cu γ) erori standard ( s 0 /√n). Totul se știe, ia-l și numără.

Înainte de utilizarea în masă a PC-urilor, pentru a obține valorile funcției de distribuție normală și inversul acesteia, au folosit . Sunt încă folosite, dar este mai eficient să apelezi la formule Excel gata făcute. Toate elementele din formula de mai sus ( , și ) pot fi calculate cu ușurință în Excel. Dar există și o formulă gata făcută pentru calcularea intervalului de încredere - NORMA DE ÎNCREDERE. Sintaxa sa este următoarea.

NORMĂ DE ÎNCREDERE(alpha, standard_dev, size)

alfa– nivelul de semnificație sau nivelul de încredere, care în notația de mai sus este egal cu 1-γ, i.e. probabilitatea ca matematicaașteptarea va fi în afara intervalului de încredere. Cu un nivel de încredere de 0,95, alfa este 0,05 și așa mai departe.

standard_off este abaterea standard a datelor eșantionului. Nu trebuie să calculați eroarea standard, Excel va împărți la rădăcina lui n.

marimea– dimensiunea eșantionului (n).

Rezultatul functiei CONFIDENCE.NORM este al doilea termen din formula de calcul a intervalului de incredere, i.e. jumătate de interval. În consecință, punctele inferior și superior sunt media ± valoarea obținută.

Astfel, este posibil să se construiască un algoritm universal pentru calcularea intervalelor de încredere pentru media aritmetică, care nu depinde de distribuția datelor inițiale. Prețul pentru universalitate este natura sa asimptotică, adică. necesitatea folosirii de mostre relativ mari. Cu toate acestea, în era tehnologiei moderne, colectarea cantității potrivite de date nu este de obicei dificilă.

Testarea ipotezelor statistice folosind un interval de încredere

(modulul 111)

Una dintre principalele probleme rezolvate în statistică este. Pe scurt, esența sa este aceasta. Se presupune, de exemplu, că așteptările populației generale sunt egale cu o anumită valoare. Apoi se construiește distribuția mediilor eșantionului, care poate fi observată cu o așteptare dată. În continuare, ne uităm la unde în această distribuție condiționată se află media reală. Dacă depășește limitele admise, atunci apariția unei astfel de medii este foarte puțin probabilă, iar cu o singură repetare a experimentului este aproape imposibil, ceea ce contrazice ipoteza propusă, care este respinsă cu succes. Dacă media nu depășește nivelul critic, atunci ipoteza nu este respinsă (dar nici nu se dovedește!).

Deci, cu ajutorul intervalelor de încredere, în cazul nostru pentru așteptare, puteți testa și unele ipoteze. Este foarte ușor de făcut. Să presupunem că media aritmetică pentru un eșantion este 100. Se testează ipoteza că valoarea așteptată este, să zicem, 90. Adică, dacă punem întrebarea în mod primitiv, sună astfel: poate fi aceasta, cu adevărata valoare a medie egală cu 90, media observată a fost 100?

Pentru a răspunde la această întrebare, vor fi necesare informații suplimentare despre abaterea standard și dimensiunea eșantionului. Să presupunem că abaterea standard este 30, iar numărul de observații este 64 (pentru a extrage cu ușurință rădăcina). Atunci eroarea standard a mediei este 30/8 sau 3,75. Pentru a calcula intervalul de încredere de 95%, va trebui să lăsați deoparte două erori standard de ambele părți ale mediei (mai precis, 1,96). Intervalul de încredere va fi de aproximativ 100 ± 7,5 sau de la 92,5 la 107,5.

Raționamentul suplimentar este următorul. Dacă valoarea testată se încadrează în intervalul de încredere, atunci nu contrazice ipoteza, deoarece se încadrează în limitele fluctuațiilor aleatorii (cu o probabilitate de 95%). Dacă punctul testat se află în afara intervalului de încredere, atunci probabilitatea unui astfel de eveniment este foarte mică, în orice caz sub nivelul acceptabil. Prin urmare, ipoteza este respinsă ca fiind în contradicție cu datele observate. În cazul nostru, ipoteza așteptărilor se află în afara intervalului de încredere (valoarea testată de 90 nu este inclusă în intervalul de 100±7,5), deci ar trebui respinsă. Răspunzând la întrebarea primitivă de mai sus, ar trebui să spunem: nu, nu se poate, în niciun caz, acest lucru se întâmplă extrem de rar. Adesea, aceasta indică o probabilitate specifică de respingere eronată a ipotezei (p-level), și nu un nivel dat, conform căruia a fost construit intervalul de încredere, ci mai mult de altă dată.

După cum puteți vedea, nu este dificil să construiți un interval de încredere pentru medie (sau așteptări matematice). Principalul lucru este să prindeți esența și apoi lucrurile vor merge. În practică, cei mai mulți folosesc intervalul de încredere de 95%, care are aproximativ două erori standard de fiecare parte a mediei.

Asta este tot pentru acum. Toate cele bune!