Cum se determină nivelul de semnificație în testul Pearson. Rezolvarea problemelor pentru testarea ipotezelor statistice

Scopul criteriului χ 2 - Criteriul lui Pearson Criteriul χ 2 este utilizat în două scopuri: 1) pentru a compara distribuția empirică a unei trăsături cu cea teoretică - uniformă, normală sau alta; 2) pentru a compara două, trei sau mai multe distribuții empirice ale aceleiași caracteristici. Descrierea criteriului Criteriul χ 2 răspunde la întrebarea dacă valori diferite ale unei caracteristici apar cu aceeași frecvență în distribuțiile empirice și teoretice sau în două sau mai multe distribuții empirice. Avantajul metodei este că permite compararea distribuțiilor de caracteristici prezentate la orice scară, pornind de la scara numelor. În cel mai simplu caz al distribuției alternative „da – nu”, „căsătorit – nu a permis căsătoria”, „a rezolvat problema – nu a rezolvat problema”, etc., putem aplica deja criteriul χ 2 . Cu cât discrepanța dintre două distribuții comparabile este mai mare, cu atât valoarea empirică a lui χ 2 este mai mare. Calculul automat al χ 2 - criteriul lui Pearson Pentru a calcula automat χ 2 - criteriul lui Pearson, este necesar să se efectueze doi pași: Pasul 1. Precizați numărul de distribuții empirice (de la 1 la 10); Pasul 2. Introduceți frecvențele empirice în tabel; Pasul 3. Obțineți un răspuns.

Avantajul criteriului Pearson este universalitatea acestuia: poate fi folosit pentru a testa ipoteze despre diverse legi de distribuție.

1. Testarea ipotezei unei distribuții normale.

Să se obțină o probă de o dimensiune suficient de mare P cu o mulțime de valori de variante diferite. Pentru comoditatea procesării sale, împărțim intervalul de la cea mai mică la cea mai mare dintre valorile variantei prin s părți egale și vom presupune că valorile opțiunilor care se încadrează în fiecare interval sunt aproximativ egale cu numărul care specifică mijlocul intervalului. După ce am numărat numărul de opțiuni care au intrat în fiecare interval, vom face așa-numitul eșantion grupat:

Opțiuni……….. X 1 X 2 … x s

frecvențe…………. P 1 P 2 … n s ,

Unde x i sunt valorile punctelor medii ale intervalelor și n i este numărul de opțiuni incluse în i al-lea interval (frecvențe empirice).



Pe baza datelor obținute, este posibil să se calculeze media eșantionului și abaterea standard a eșantionului σ B. Să verificăm ipoteza că populația generală este distribuită conform legii normale cu parametri M(X) = , D(X) = . Apoi puteți găsi numărul de numere din eșantionul de volum P, care ar trebui să fie în fiecare interval sub această ipoteză (adică frecvențe teoretice). Pentru a face acest lucru, folosind tabelul de valori al funcției Laplace, găsim probabilitatea de a lovi i- al-lea interval:

,

Unde un iși b i- granițe i- al-lea interval. Înmulțind probabilitățile rezultate cu dimensiunea eșantionului n, găsim frecvențele teoretice: p i = n p i.Scopul nostru este să comparăm frecvențele empirice și teoretice, care, desigur, diferă între ele, și să aflăm dacă aceste diferențe sunt nesemnificative, nu infirmă ipoteza distribuției normale a variabilei aleatoare studiate sau sunt atât de mari încât contrazic această ipoteză. Pentru aceasta se folosește un criteriu sub forma unei variabile aleatorii

. (20.1)

Semnificația lui este evidentă: se însumează părțile, care sunt pătratele abaterilor frecvențelor empirice de la cele teoretice de la frecvențele teoretice corespunzătoare. Se poate demonstra că, indiferent de legea distribuției reale a populației generale, legea distribuției variabilei aleatoare (20.1) la tinde către legea distribuției (vezi prelegerea 12) cu numărul de grade de libertate. k = s - 1 – r, Unde r este numărul de parametri ai distribuției estimate estimați din datele eșantionului. Distribuția normală este caracterizată de doi parametri, deci k = s - 3. Pentru criteriul selectat se construiește o regiune critică de dreapta, determinată de condiție

(20.2)

Unde α - nivelul de semnificație. Prin urmare, regiunea critică este dată de inegalitate iar zona de acceptare a ipotezei este .

Deci, pentru a testa ipoteza nulă H 0: populația este distribuită în mod normal - trebuie să calculați valoarea observată a criteriului din eșantion:

, (20.1`)

iar conform tabelului punctelor critice ale distribuției χ 2 găsiți punctul critic folosind valorile cunoscute ale lui α și k = s - 3. Dacă - se acceptă ipoteza nulă, dacă se respinge.

2. Testarea ipotezei distribuţiei uniforme.

Când se utilizează testul Pearson pentru a testa ipoteza unei distribuții uniforme a populației generale cu o densitate de probabilitate presupusă

este necesar, după calcularea valorii din eșantionul disponibil, estimarea parametrilor Ași b dupa formulele:

Unde A*și b*- estimări Ași b. Într-adevăr, pentru o distribuție uniformă M(X) = , , de unde puteți obține un sistem de determinare A*și b*: , a cărui soluție este expresiile (20.3).

Apoi, presupunând că , puteți găsi frecvențele teoretice folosind formulele

Aici s este numărul de intervale în care este împărțit eșantionul.

Valoarea observată a criteriului Pearson se calculează prin formula (20,1`), iar valoarea critică se calculează din tabel, ținând cont de faptul că numărul de grade de libertate k = s - 3. După aceea, limitele regiunii critice se determină în același mod ca și pentru testarea ipotezei unei distribuții normale.

3. Testarea ipotezei despre distribuția exponențială.

În acest caz, împărțind eșantionul existent în intervale de lungime egală, considerăm o secvență de opțiuni echidistantă între ele (presupunem că toate opțiunile care se încadrează în i--lea interval, ia o valoare care coincide cu mijlocul său) și frecvențele corespunzătoare n i(numărul de opțiuni de eșantion incluse în i– al-lea interval). Calculăm din aceste date și luăm ca estimare a parametrului λ valoare . Apoi frecvențele teoretice sunt calculate prin formula

Apoi, se compară valorile observate și critice ale criteriului Pearson, ținând cont de faptul că numărul de grade de libertate k = s - 2.

Luați în considerare aplicația înDOMNIȘOARĂEXCELATestul chi-pătrat al lui Pearson pentru testarea ipotezelor simple.

După primirea datelor experimentale (adică când există unele probă) de obicei se alege o lege de distribuție care descrie cel mai bine variabila aleatoare reprezentată de dat prelevarea de probe. Verificarea cât de bine sunt descrise datele experimentale de legea de distribuție teoretică aleasă se realizează folosind criteriile de consimțământ. ipoteza nulă, există de obicei o ipoteză că distribuția unei variabile aleatoare este egală cu o lege teoretică.

Să ne uităm mai întâi la aplicație Testul de bunăstare a potrivirii lui Pearson X 2 (chi pătrat)în raport cu ipotezele simple (se presupune că parametrii distribuţiei teoretice sunt cunoscuţi). Apoi - , când este specificată doar forma de distribuție, și parametrii acestei distribuții și valoarea statistici X 2 sunt estimate/calculate pe baza acestora mostre.

Notă: În literatura de limba engleză, procedura de aplicare Testul de bunăstare a potrivirii lui Pearson X 2 are un nume Testul de bunătate a potrivirii chi-pătrat.

Amintiți-vă procedura de testare a ipotezelor:

  • bazat mostre valoarea este calculată statistici, care corespunde tipului de ipoteză testată. De exemplu, pentru a folosi t-statistici(dacă nu se cunoaște);
  • supus adevărului ipoteza nulă, distribuția acestuia statistici cunoscut și poate fi folosit pentru a calcula probabilități (de exemplu, pentru t- statistici Acest );
  • calculat pe baza mostre sens statistici comparat cu valoarea critică pentru valoarea dată ();
  • ipoteza nulă respins dacă valoarea statistici mai mare decât critică (sau dacă probabilitatea de a obține această valoare statistici() mai mici nivelul de semnificație, care este abordarea echivalentă).

Să cheltuim testarea ipotezelor pentru diferite distribuții.

Caz discret

Să presupunem că doi oameni joacă zaruri. Fiecare jucător are propriul set de zaruri. Jucătorii aruncă pe rând 3 zaruri deodată. Fiecare rundă este câștigată de cel care aruncă mai multe șase la un moment dat. Rezultatele sunt înregistrate. Unul dintre jucători, după 100 de runde, a avut bănuiala că oasele adversarului său nu erau simetrice, pentru că. el câștigă adesea (de multe ori aruncă șase). El a decis să analizeze cât de probabil este un astfel de număr de rezultate ale adversarului.

Notă: Pentru că 3 zaruri, apoi poți arunca 0 o dată; unu; 2 sau 3 șase, adică variabila aleatoare poate lua 4 valori.

Din teoria probabilității, știm că dacă cuburile sunt simetrice, atunci probabilitatea ca șase să cadă se supune. Prin urmare, după 100 de runde, frecvențele de șase pot fi calculate folosind formula
=BINOM.DIST(A7,3,1/6,FALSE)*100

Formula presupune că celula A7 conține numărul corespunzător de șase renunțate într-o rundă.

Notă: Calculele sunt date în fișier exemplu pe foaie Discret.

Pentru comparație observat(Observat) și frecvențe teoretice(De așteptat) convenabil de utilizat.

Cu o abatere semnificativă a frecvențelor observate de la distribuția teoretică, ipoteza nulă despre distribuția unei variabile aleatoare conform unei legi teoretice, ar trebui respinsă. Adică, dacă zarurile adversarului nu sunt simetrice, atunci frecvențele observate vor fi „semnificativ diferite” de distribuție binomială.

În cazul nostru, la prima vedere, frecvențele sunt destul de apropiate și este dificil să tragem o concluzie fără ambiguitate fără calcule. Aplicabil Testul de bunăstare a potrivirii lui Pearson X 2, astfel încât în ​​locul afirmației subiective „semnificativ diferit”, care poate fi făcută pe bază de comparație histogramelor, folosiți o afirmație corectă din punct de vedere matematic.

Să folosim faptul că legea numerelor mari frecvența observată (Observată) cu creșterea volumului mostre n tinde către probabilitatea corespunzătoare legii teoretice (în cazul nostru, legea binomială). În cazul nostru, dimensiunea eșantionului n este 100.

Să vă prezentăm Test statistici, pe care o notăm cu X 2:

unde O l este frecvența observată a evenimentelor pe care variabila aleatoare a luat anumite valori acceptabile, E l este frecvența teoretică corespunzătoare (Așteptată). L este numărul de valori pe care le poate lua o variabilă aleatoare (în cazul nostru este egal cu 4).

După cum se poate vedea din formulă, aceasta statistici este o măsură a apropierii frecvențelor observate de cele teoretice, adică. poate fi folosit pentru a estima „distanțele” dintre aceste frecvențe. Dacă suma acestor „distanțe” este „prea mare”, atunci aceste frecvențe sunt „substanțial diferite”. Este clar că dacă cubul nostru este simetric (adică aplicabil legea binomială), atunci probabilitatea ca suma „distanțelor” să fie „prea mare” va fi mică. Pentru a calcula această probabilitate, trebuie să cunoaștem distribuția statistici X 2 ( statistici X 2 calculat pe baza aleatoriei mostre, deci este o variabilă aleatoare și, prin urmare, are propria sa distribuția probabilității).

Dintr-un analog multidimensional Teorema integrală Moivre-Laplace se ştie că pentru n->∞ variabila noastră aleatoare X 2 este asimptotic cu L - 1 grade de libertate.

Deci, dacă valoarea calculată statistici X 2 (suma „distanțelor” dintre frecvențe) va fi mai mare decât o anumită valoare limită, atunci vom avea motive să respingem ipoteza nulă. Ca la verificare ipoteze parametrice, valoarea limită este setată prin nivelul de semnificație. Dacă probabilitatea ca statistica X 2 să ia o valoare mai mică sau egală cu valoarea calculată ( p-sens) va fi mai puțin nivelul de semnificație, apoi ipoteza nulă poate fi respins.

În cazul nostru, valoarea statistică este 22.757. Probabilitatea ca statistica X 2 să ia o valoare mai mare sau egală cu 22,757 este foarte mică (0,000045) și poate fi calculată folosind formulele
=XI2.DIST.PX(22.757;4-1) sau
=XI2.TEST(Observat; Așteptat)

Notă: Funcția CH2.TEST() este concepută special pentru a testa relația dintre două variabile categoriale (vezi ).

Probabilitatea de 0,000045 este semnificativ mai mică decât de obicei nivelul de semnificație 0,05. Deci, jucătorul are toate motivele să-și suspecteze adversarul de necinste ( ipoteza nulă despre onestitatea lui este negata).

Când se aplică criteriul X 2 trebuie avut grijă să se asigure că volumul mostre n a fost suficient de mare, altfel aproximarea distribuției ar fi invalidă statistica X 2. De obicei, se consideră că pentru aceasta este suficient ca frecvențele observate (Observate) să fie mai mari decât 5. Dacă nu este cazul, atunci frecvențele joase sunt combinate într-una sau unite cu alte frecvențe, iar probabilitatea totală este atribuită valoarea combinată și, în consecință, numărul de grade de libertate scade X 2 -distributie.

Pentru a îmbunătăți calitatea aplicării criteriul X 2(), este necesar să se reducă intervalele de partiție (mărește L și, în consecință, crește numărul grade de libertate), totuși, acest lucru este împiedicat de o restricție a numărului de observații care se încadrează în fiecare interval (d.b.>5).

caz continuu

Testul Pearson de bunăstare a potrivirii X 2 se poate aplica în acelaşi mod în cazul .

Luați în considerare câteva prelevarea de probe, format din 200 de valori. Ipoteza nulă afirmă că probă făcut din .

Notă: variabile aleatorii în dosar eșantion pe foaie Continuă generate folosind formula =NORM.ST.INV(RAND()). Prin urmare, noi valori mostre sunt generate de fiecare dată când foaia este recalculată.

Dacă setul de date disponibil este adecvat, poate fi evaluat vizual.

După cum puteți vedea din diagramă, valorile eșantionului se potrivesc destul de bine de-a lungul liniei drepte. Cu toate acestea, ca și pentru testarea ipotezelor aplicabil Testul de bunăstare a potrivirii lui Pearson X 2 .

Pentru a face acest lucru, împărțim intervalul de variație al unei variabile aleatoare în intervale cu un pas de 0,5. Să calculăm frecvențele observate și teoretice. Calculăm frecvențele observate folosind funcția FREQUENCY(), iar cele teoretice - folosind funcția NORM.ST.DIST().

Notă: Cât despre caz discret, este necesar să se asigure că probă a fost destul de mare și mai mult de 5 valori au căzut în interval.

Calculați statistica X 2 și comparați-o cu valoarea critică pentru un anumit nivelul de semnificație(0,05). pentru că am împărțit intervalul de variație al unei variabile aleatoare în 10 intervale, apoi numărul de grade de libertate este 9. Valoarea critică poate fi calculată prin formula
\u003d XI2.INV.RH (0,05; 9) sau
\u003d XI2.OBR (1-0,05; 9)

Graficul de mai sus arată că valoarea statistică este 8,19, care este semnificativ mai mare criticipoteza nulă nu este respins.

Mai jos este pe care probă a asumat o valoare improbabilă, iar pe baza de criterii Consimțământul lui Pearson X 2 ipoteza nulă a fost respinsă (în ciuda faptului că valorile aleatorii au fost generate folosind formula =NORM.ST.INV(RAND()) furnizarea prelevarea de probe din distribuție normală standard).

Ipoteza nulă respins, deși vizual datele sunt destul de aproape de o linie dreaptă.

Ca exemplu, să luăm și noi prelevarea de probe de la U(-3; 3). În acest caz, chiar și din grafic este clar că ipoteza nulă trebuie respins.

Criteriu Consimțământul lui Pearson X 2 confirmă de asemenea că ipoteza nulă trebuie respins.

În unele cazuri, cercetătorul nu știe dinainte după ce lege sunt distribuite valorile observate ale trăsăturii studiate. Dar poate avea motive suficient de întemeiate să presupună că distribuția este supusă uneia sau alteia legi, de exemplu, normală sau uniformă. În acest caz, sunt prezentate ipotezele statistice principale și alternative de următoarea formă:

    H 0: distribuția caracteristicii observate este supusă legii distribuției A,

    H 1: distribuția caracteristicii observate diferă de A;

unde ca A poate actiona una sau alta lege de distributie: normala, uniforma, exponentiala etc.

Testarea ipotezei despre legea de distribuție propusă se realizează folosind așa-numitele criterii de bunătate a potrivirii. Există mai multe criterii de acceptare. Cel mai universal dintre ele este criteriul lui Pearson, deoarece este aplicabil oricărui tip de distribuție.

- Criteriul lui Pearson

De obicei, frecvențele empirice și teoretice diferă. Este discrepanța aleatorie? Criteriul Pearson răspunde la această întrebare, însă, ca orice criteriu statistic, nu dovedește validitatea ipotezei în sens strict matematic, ci doar stabilește acordul sau dezacordul acesteia cu datele observaționale la un anumit nivel de semnificație.

Deci, să se obțină distribuția statistică a valorilor caracteristicilor din eșantionul de volum, unde sunt valorile caracteristicilor observate, sunt frecvențele corespunzătoare:

Esența criteriului Pearson este de a calcula criteriul conform următoarei formule:

unde este numărul de cifre ale valorilor observate și sunt frecvențele teoretice ale valorilor corespunzătoare.

Este clar că cu cât diferența este mai mică, cu atât distribuția empirică este mai apropiată de cea empirică, prin urmare, cu cât valoarea criteriului este mai mică, cu atât se poate susține cu mai multă încredere că distribuțiile empirice și teoretice sunt supuse aceleiași legi.

Algoritmul criteriului Pearson

Algoritmul criteriului Pearson este simplu și constă din următorii pași:

Deci, singura acțiune non-trivială din acest algoritm este determinarea frecvențelor teoretice. Ele, desigur, depind de legea distribuției, prin urmare - pentru diferite legi sunt definite diferit.

Criteriul acordului pentru testarea ipotezei despre legea de distribuție a variabilei aleatoare studiate.În multe probleme practice, legea distribuției exacte este necunoscută.De aceea, se propune o ipoteză despre corespondența legii empirice existente, construită din observații, la unele teoretice.Această ipoteză necesită o verificare statistică, ale cărei rezultate fie vor confirma, fie vor infirma.

Fie X variabila aleatoare studiată. Este necesar să se testeze ipoteza H 0 că această variabilă aleatoare respectă legea de distribuție F(x). Pentru a face acest lucru, trebuie să faceți un eșantion de n observații independente și să îl utilizați pentru a construi o lege de distribuție empirică F "(x). Pentru a compara legile empirice și ipotetice, se folosește o regulă numită bunătatea potrivirii. Una dintre cele cea mai populară este bunătatea potrivirii chi-pătrat a lui K. Pearson.

Acesta calculează statistica chi-pătrat:

,

unde N este numărul de intervale conform cărora a fost construită legea distribuției empirice (numărul de coloane ale histogramei corespunzătoare), i este numărul intervalului, p t i este probabilitatea ca valoarea unei variabile aleatoare să cadă în i -al-lea interval pentru legea distribuției teoretice, p e i este probabilitatea ca valoarea unei variabile aleatoare să se încadreze în al i-lea interval pentru legea distribuției empirică. Trebuie să respecte distribuția chi-pătrat.

Dacă valoarea calculată a statisticii depășește cuantila distribuției chi-pătrat cu k-p-1 grade de libertate pentru un nivel de semnificație dat, atunci ipoteza H 0 este respinsă. În caz contrar, este acceptată la un nivel de semnificație dat. Aici k este valoarea numărul de observații, p este numărul de parametri estimați ai legii distribuției.

Pearson vă permite să testați distribuțiile empirice și teoretice (sau alte empirice) ale unei caracteristici. Acest criteriu se aplică în principal în două cazuri:

Pentru a compara distribuția empirică a unei trăsături cu o distribuție teoretică (normală, exponențială, uniformă sau altă lege);

Pentru a compara două distribuții empirice ale aceleiași trăsături.

Ideea metodei este de a determina gradul de divergență al frecvențelor corespunzătoare n i și; cu cât această discrepanță este mai mare, cu atât valoarea este mai mare

Dimensiunile eșantionului trebuie să fie de cel puțin 50, iar sumele frecvențelor trebuie să fie egale

Ipoteza nulă H 0 = (două distribuții practic nu diferă una de cealaltă); ipoteza alternativă - H 1 = (discrepanța dintre distribuții este semnificativă).

Iată o schemă de aplicare a criteriului de comparare a două distribuții empirice:

Criteriu - un criteriu statistic pentru testarea ipotezei că variabila aleatoare observată se supune unei legi teoretice de distribuție.


În funcție de valoarea criteriului , ipoteza poate fi acceptată sau respinsă:

§ , ipoteza este îndeplinită.

§ (cade în „coada” stângă a distribuţiei). Prin urmare, valorile teoretice și practice sunt foarte apropiate. Dacă, de exemplu, se verifică un generator de numere aleatorii care a generat n numere dintr-un segment și ipoteza este: eșantionul este distribuit uniform pe , atunci generatorul nu poate fi numit aleatoriu (ipoteza aleatoriei nu este îndeplinită), deoarece eșantionul este distribuit prea uniform, dar ipoteza este satisfăcută.

§ (cade in „coada” dreapta a distributiei) ipoteza este respinsa.

Definiție: Fie dată o variabilă aleatoare X.

Ipoteză: cu. în. X respectă legea distribuției.

Pentru a testa ipoteza, luați în considerare un eșantion format din n observații independente ale r.v. X: . Pe baza eșantionului, construim o distribuție empirică a r.v.X. Comparația distribuțiilor empirice și teoretice (presupusă în ipoteză) se realizează folosind o funcție special selectată - criteriul de bunătate a potrivirii. Luați în considerare testul de bunăstare a potrivirii lui Pearson (criteriul):

Ipoteză: X n este generat de funcţia .

Împărțiți în k intervale care nu se suprapun ;

Fie numărul de observații în al-lea interval: ;

Probabilitatea ca o observație să cadă în intervalul j-lea când ipoteza este îndeplinită;

- numărul aşteptat de accesări în intervalul j-lea;

Statistici: - Distribuție chi-pătrat cu k-1 grade de libertate.

Criteriul este greșit la probele cu evenimente de joasă frecvență (rare). Această problemă poate fi rezolvată prin eliminarea evenimentelor de joasă frecvență sau prin combinarea lor cu alte evenimente. Această metodă se numește corecția lui Yates.

Testul de bunătate a potrivirii lui Pearson (χ 2) este utilizat pentru a testa ipoteza conform căreia distribuția empirică corespunde distribuției teoretice așteptate F(x) cu o dimensiune mare a eșantionului (n ≥ 100). Criteriul este aplicabil pentru orice fel de funcție F(x), chiar și cu valori necunoscute ale parametrilor acestora, care de obicei are loc la analizarea rezultatelor testelor mecanice. Aici se află versatilitatea sa.

Utilizarea criteriului χ 2 presupune împărțirea intervalului de variație a eșantionului în intervale și determinarea numărului de observații (frecvență) n j pentru fiecare dintre e intervale. Pentru comoditatea estimării parametrilor de distribuție, intervalele sunt alese să fie de aceeași lungime.

Numărul de intervale depinde de dimensiunea eșantionului. De obicei acceptat: la n = 100 e= 10 ÷ 15, la n = 200 e= 15 ÷ 20, la n = 400 e= 25 ÷ 30, la n = 1000 e= 35 ÷ 40.

Intervalele care conțin mai puțin de cinci observații sunt combinate cu cele învecinate. Cu toate acestea, dacă numărul acestor intervale este mai mic de 20% din numărul lor total, sunt permise intervale cu o frecvență de n j ≥ 2.

Statistica testului Pearson este valoarea
, (3.91)
unde p j este probabilitatea ca variabila aleatoare studiată să se încadreze în intervalul j-lea, calculată în conformitate cu legea distribuției ipotetice F(x). Când se calculează probabilitatea p j, trebuie să se țină seama de faptul că marginea din stânga a primului interval și marginea dreaptă a ultimului trebuie să coincidă cu marginile regiunii de valori posibile ale variabilei aleatoare. De exemplu, cu o normală distribuția, primul interval se extinde la -∞, iar ultimul - la +∞.

Ipoteza nulă despre conformitatea distribuției eșantionului cu legea teoretică F(x) se verifică prin compararea valorii calculate prin formula (3.91) cu valoarea critică χ 2 α găsită din Tabel. Aplicația VI pentru nivelul de semnificație α și numărul de grade de libertate k = e 1 - m - 1. Aici e 1 - numărul de intervale după îmbinare; m este numărul de parametri estimaţi din eşantionul considerat.Dacă inegalitatea
χ 2 ≤ χ 2 α (3,92)
atunci ipoteza nulă nu este respinsă.Dacă nu se respectă inegalitatea specificată, se acceptă o ipoteză alternativă că eșantionul aparține unei distribuții necunoscute.

Dezavantajul testului Pearson de bunătate a potrivirii este pierderea unora dintre informațiile inițiale asociate cu nevoia de a grupa rezultatele observației în intervale și de a combina intervale individuale cu un număr mic de observații.În acest sens, se recomandă ca completați verificarea corespondenței distribuțiilor prin criteriul χ 2 cu alte criterii.Acest lucru este necesar mai ales în cazul probelor de volum relativ mic (n ≈ 100).

Tabelul prezintă valorile critice ale distribuției chi-pătrat cu un număr dat de grade de libertate.Valoarea dorită se află la intersecția coloanei cu valoarea probabilității corespunzătoare și a rândului cu numărul de grade de libertate. De exemplu, valoarea critică a distribuției chi-pătrat cu 4 grade de libertate pentru o probabilitate de 0,25 este 5,38527. Aceasta înseamnă că aria de sub curba de densitate a distribuției chi-pătrat cu 4 grade de libertate la dreapta valorii de 5,38527 este 0,25.

Criteriul lui Pearson pentru testarea ipotezei despre forma legii de distribuție a unei variabile aleatoare. Testarea ipotezelor despre distribuțiile normale, exponențiale și uniforme prin criteriul Pearson. criteriul lui Kolmogorov. Metodă aproximativă de verificare a normalității distribuției, asociată cu estimări ale coeficienților de asimetrie și curtoză.

În prelegerea anterioară s-au luat în considerare ipoteze în care se presupune că legea de distribuție a populației generale este cunoscută. Acum să testăm ipotezele despre presupusa lege a distribuției necunoscute, adică vom testa ipoteza nulă că populația este distribuită după o lege cunoscută. De obicei, testele statistice pentru testarea unor astfel de ipoteze se numesc teste de bunăstare a potrivirii.

Avantajul criteriului Pearson este universalitatea acestuia: poate fi folosit pentru a testa ipoteze despre diverse legi de distribuție.

1. Testarea ipotezei unei distribuții normale.

Să se obțină o probă de o dimensiune suficient de mare P cu o mulțime de opțiuni de semnificații diferite. Pentru confortul procesării sale, împărțim intervalul de la cea mai mică la cea mai mare dintre valorile variantei la s părți egale și vom presupune că valorile lui vari

furnicile care se încadrează în fiecare interval sunt aproximativ egale cu numărul care specifică mijlocul intervalului. După ce am numărat numărul de opțiuni care au intrat în fiecare interval, vom face așa-numitul eșantion grupat:

Opțiuni X 1 X 2 x s

frecvente P 1 P 2 n s ,

Unde x i sunt valorile punctelor medii ale intervalelor și n i- numărul de opțiuni incluse în i al-lea interval (frecvențe empirice).

Pe baza datelor obținute, este posibil să se calculeze media eșantionului și abaterea standard a eșantionului σ B. Să verificăm ipoteza că populația generală este distribuită conform legii normale cu parametri M(X) = , D(X) = . Apoi puteți găsi numărul de numere din eșantionul de volum P, care ar trebui să fie în fiecare interval sub această ipoteză (adică frecvențe teoretice). Pentru a face acest lucru, folosind tabelul de valori al funcției Laplace, găsim probabilitatea de a lovi i- al-lea interval:

,

Unde un iși b i- granițe i- al-lea interval. Înmulțind probabilitățile rezultate cu dimensiunea eșantionului n, găsim frecvențele teoretice: p i \u003d n? p i. Scopul nostru este să comparăm frecvențele empirice și teoretice, care, desigur, diferă unele de altele și să aflăm dacă aceste diferențe sunt nesemnificative, nu infirmă ipoteza distribuției normale a variabilei aleatoare studiate sau sunt atât de mari. că contrazic această ipoteză. Pentru aceasta se folosește un criteriu sub forma unei variabile aleatorii

. (20.1)

Semnificația lui este evidentă: se însumează părțile, care sunt pătratele abaterilor frecvențelor empirice de la cele teoretice de la frecvențele teoretice corespunzătoare. Se poate demonstra că, indiferent de legea distribuției reale a populației generale, legea distribuției variabilei aleatoare (20.1) la tinde către legea distribuției (vezi prelegerea 12) cu numărul de grade de libertate. k = s- 1 - r, Unde r- numărul de parametri ai distribuţiei estimate, estimat din datele eşantionului. Distribuția normală este caracterizată de doi parametri, deci k = s- 3. Pentru criteriul selectat se construiește o regiune critică de dreapta, determinată de condiție


(20.2)

Unde α - nivelul de semnificație. Prin urmare, regiunea critică este dată de inegalitate iar zona de acceptare a ipotezei este .

Deci, pentru a testa ipoteza nulă H 0: populația este distribuită în mod normal - trebuie să calculați valoarea observată a criteriului din eșantion:

, (20.1`)

iar conform tabelului punctelor critice ale distribuției χ 2 găsiți punctul critic folosind valorile cunoscute ale lui α și k = s- 3. Dacă - se acceptă ipoteza nulă, dacă se respinge.

2. Testarea ipotezei distribuţiei uniforme.

Când se folosește criteriul Pearson pentru a testa ipoteza unei distribuții uniforme a populației generale cu densitatea de probabilitate așteptată

este necesar, după calcularea valorii din eșantionul disponibil, estimarea parametrilor Ași b dupa formulele:

Unde A*și b*- estimări Ași b. Într-adevăr, pentru o distribuție uniformă M(X) = , , de unde puteți obține un sistem de determinare A*și b*: , a cărui soluție este expresiile (20.3).

Apoi, presupunând că , puteți găsi frecvențele teoretice folosind formulele

Aici s este numărul de intervale în care este împărțit eșantionul.

Valoarea observată a criteriului Pearson se calculează prin formula (20,1`), iar valoarea critică se calculează din tabel, ținând cont de faptul că numărul de grade de libertate k = s- 3. După aceea, limitele regiunii critice se determină în același mod ca și pentru testarea ipotezei unei distribuții normale.

3. Testarea ipotezei despre distribuția exponențială.

În acest caz, împărțind eșantionul existent în intervale de lungime egală, considerăm o secvență de opțiuni echidistantă între ele (presupunem că toate opțiunile care se încadrează în i--lea interval, ia o valoare care coincide cu mijlocul său) și frecvențele corespunzătoare n i(numărul de opțiuni de eșantion incluse în i--lea interval). Calculăm din aceste date și luăm ca estimare a parametrului λ valoare . Apoi frecvențele teoretice sunt calculate prin formula

Apoi, se compară valorile observate și critice ale criteriului Pearson, ținând cont de faptul că numărul de grade de libertate k = s- 2.