Criterii de compatibilitate în tehnologiile de inovare statistică. Testul Pearson de bunăstare a potrivirii

În această secțiune, vom lua în considerare una dintre problemele legate de testarea probabilității ipotezelor, și anume problema coerenței dintre distribuțiile teoretice și cele statistice.

Să presupunem că o distribuție statistică dată este aplatizată de o curbă teoretică f(x)(Fig. 7.6.1). Indiferent cât de bine este aleasă curba teoretică, unele discrepanțe sunt inevitabile între aceasta și distribuția statistică. Se pune firesc întrebarea: aceste discrepanțe se datorează doar unor circumstanțe aleatorii asociate cu un număr limitat de observații, sau sunt semnificative și sunt legate de faptul că curba pe care am ales-o nu egalizează în mod corespunzător această distribuție statistică. Pentru a răspunde la această întrebare, sunt folosite așa-numitele „criterii de consimțământ”.

LEGILE DISTRIBUȚIEI VARIABILLOR ALEATORII



Ideea din spatele aplicării criteriilor de bunăstare a potrivirii este următoarea.

Pe baza acestui material statistic, trebuie să testăm ipoteza H, constând în faptul că variabila aleatoare X respectă o anumită lege de distribuție. Această lege poate fi dată într-o formă sau alta: de exemplu, sub forma unei funcții de distribuție F(x) sau sub formă de densitate de distribuţie f(x), sau sub forma unui set de probabilităţi p t , Unde pct- probabilitatea ca valoarea X va cădea înăuntru eu ceva deversare.

Deoarece din aceste forme funcţia de distribuţie F(x) este cea mai generală și determină oricare alta, vom formula ipoteza H, ca constând în faptul că valoarea X are o funcție de distribuție ^(d:).

A accepta sau a respinge o ipoteză H, luați în considerare o cantitate tu, caracterizarea gradului de discrepanţă dintre distribuţiile teoretice şi cele statistice. Valoare U poate fi selectat în diferite moduri; de exemplu, ca U se poate lua suma abaterilor pătrate ale probabilităţilor teoretice pct din frecvențele corespunzătoare R* sau suma acelorași pătrate cu niște coeficienți („greutăți”), sau abaterea maximă a funcției de distribuție statistică F*(x) din teoretic F(x) etc. Să presupunem că cantitatea U ales într-un fel sau altul. Evident, există unele valoare aleatorie. Legea de distribuție a acestei variabile aleatoare depinde de legea de distribuție a variabilei aleatoare X, pe care s-au efectuat experimentele și din numărul de experimente P. Dacă ipoteza H este adevărată, atunci legea de distribuție a mărimii U determinată de legea distribuţiei cantităţii X(funcţie F(x)) si numarul P.

Să presupunem că această lege de distribuție ne este cunoscută. În urma acestei serii de experimente, s-a constatat că măsura pe care am ales-o



CRITERII DE CONSENȚIMENT


discrepanțe U a luat o oarecare valoare A.Întrebarea este dacă acest lucru poate fi explicat prin cauze aleatorii sau dacă această discrepanță este prea mare și indică prezența unei diferențe semnificative între distribuțiile teoretice și statistice și, prin urmare, neadecvarea ipotezei. H? Pentru a răspunde la această întrebare, să presupunem că ipoteza H este corectă, iar în această ipoteză calculăm probabilitatea ca, din cauza unor cauze aleatoare asociate cu o cantitate insuficientă de material experimental, măsura discrepanței U nu va fi mai mică decât valoarea observată de noi în experiment și, adică, calculăm probabilitatea unui eveniment:

Dacă această probabilitate este foarte mică, atunci ipoteza H ar trebui respins ca nu foarte plauzibil; dacă această probabilitate este semnificativă, trebuie recunoscut că datele experimentale nu contrazic ipoteza N.

Se pune întrebarea, în ce mod ar trebui să fie aleasă măsura discrepanței £/? Rezultă că pentru unele moduri de a-l alege, legea distribuției cantității U are proprietăți foarte simple și, pentru suficient de mare P practic independent de funcţie F(x). Tocmai astfel de măsuri de discrepanță sunt folosite în statisticile matematice ca criterii de acord.

Să luăm în considerare unul dintre criteriile de acord cel mai frecvent utilizate - așa-numitul „criteriu la?" Pearson.

Să presupunem că există ha experimente independente, în fiecare dintre ele variabila aleatoare X a căpătat o anumită valoare. Rezultatele experimentelor sunt rezumate în k cifre și sunt prezentate sub forma unei serii statistice.

Nul(de bază) numiți ipoteza propusă despre forma distribuției necunoscute sau despre parametrii distribuțiilor cunoscute. concurând (alternativă) numită ipoteza care contrazice nulul.

De exemplu, dacă ipoteza nulă este să presupunem că variabila aleatoare X este distribuit conform legii, atunci ipoteza concurentă poate consta în presupunerea că variabila aleatoare X distribuite după o lege diferită.

Criteriu statistic(sau pur și simplu criteriu) se numește o variabilă aleatoare La, care servește la testarea ipotezei nule.

După alegerea unui anumit criteriu, de exemplu criteriul , setul tuturor valorilor sale posibile este împărțit în două subseturi care nu se suprapun: unul dintre ele conține valorile criteriului în baza cărora este respinsă ipoteza nulă, iar celălalt - sub care este acceptat.

Zona critică este setul de valori de test pentru care se respinge ipoteza nulă. Zona de acceptare a ipotezei numită mulțimea de valori a criteriului în baza căruia este acceptată ipoteza. puncte critice se numesc punctele care separă regiunea critică de zona de acceptare a ipotezei nule.

Pentru exemplul nostru, cu o valoare de , valoarea calculată din eșantion corespunde zonei de acceptare a ipotezei: variabila aleatoare este distribuită conform legii. Dacă valoarea calculată , atunci se încadrează în regiunea critică, adică ipoteza despre distribuția unei variabile aleatoare conform legii este respinsă.

În cazul unei distribuții, regiunea critică este determinată de inegalitate, aria de acceptare a ipotezei nule este determinată de inegalitatea.

2.6.3. Criterii de bunătate Pearson.

Una dintre sarcinile zootehnicii și geneticii veterinare este creșterea de noi rase și specii cu caracteristicile necesare. De exemplu, imunitatea crescută, rezistența la boli sau o schimbare a culorii blănii.

În practică, atunci când se analizează rezultatele, de multe ori se dovedește că rezultatele efective corespund mai mult sau mai puțin unei legi teoretice de distribuție. Este necesar să se evalueze gradul de corespondență dintre datele reale (empirice) și datele teoretice (ipotetice). Pentru a face acest lucru, prezentați o ipoteză nulă: populația rezultată este distribuită conform legii „A”. Verificarea ipotezei despre legea de distribuție propusă se realizează folosind o variabilă aleatoare special selectată - criteriul de bunătate a potrivirii.

Criteriul de concordanță numit criteriul de testare a ipotezei pretinsei legi a distribuţiei necunoscute.

Există mai multe criterii de bunătate: Pearson, Kolmogorov, Smirnov etc. Testul de bunătate a potrivirii lui Pearson este cel mai des folosit.

Luați în considerare aplicarea criteriului Pearson pe exemplul testării ipotezei legii normale de distribuție a populației generale. În acest scop, vom compara frecvențele empirice și teoretice (calculate în continuarea distribuției normale).

Există de obicei o diferență între frecvențele teoretice și cele empirice. De exemplu:

Frecvențe empirice 7 15 41 93 113 84 25 13 5

Frecvențe teoretice 5 13 36 89 114 91 29 14 6

Luați în considerare două cazuri:

Discrepanța dintre frecvențele teoretice și cele empirice este aleatorie (nesemnificativă), adică. se poate face o propunere despre distributia frecventelor empirice conform legii normale;

Discrepanța dintre frecvențele teoretice și cele empirice nu este întâmplătoare (semnificativă), adică. frecvențele teoretice se calculează pe baza ipotezei greșite despre distribuția normală a populației generale.

Cu ajutorul criteriului de bunătate a potrivirii lui Pearson, este posibil să se determine întâmplător sau nu discrepanța dintre frecvențele teoretice și cele empirice, i.e. cu o probabilitate de încredere dată pentru a determina dacă populația generală este distribuită conform legii normale sau nu.

Deci, să fie obținută distribuția empirică pentru un eșantion de dimensiunea n:

Opțiuni……

Frecvențele empirice…….

Să presupunem că, în ipoteza unei distribuții normale, se calculează frecvențele teoretice. La nivel de semnificație, se cere testarea ipotezei nule: populația este distribuită normal.

Ca criteriu de testare a ipotezei nule, luăm o variabilă aleatorie

(*)

Această valoare este aleatorie, deoarece în diferite experimente ia valori diferite, necunoscute anterior. Este clar că cu cât frecvențele empirice și teoretice diferă mai puțin, cu atât valoarea criteriului este mai mică și, în consecință, caracterizează într-o anumită măsură apropierea distribuțiilor empirice și teoretice.

Se dovedește că la , legea de distribuție a variabilei aleatoare (*), indiferent de care lege de distribuție este supusă populația generală, tinde către legea de distribuție cu grade de libertate. Prin urmare, variabila aleatoare (*) este notată cu , iar criteriul în sine se numește testul de bunătate a potrivirii „chi-pătrat”.

Să notăm valoarea criteriului calculată din datele observaționale ca . Valorile critice tabulate ale criteriului pentru un anumit nivel de semnificație și numărul de grade de libertate denotă. În acest caz, numărul de grade de libertate este determinat din egalitate, unde numărul de grupuri (intervale parțiale) ale eșantionului sau claselor; - numărul de parametri ai distribuţiei propuse. Distribuția normală are doi parametri - așteptarea matematică și abaterea standard. Prin urmare, numărul de grade de libertate pentru o distribuție normală se găsește din egalitate

Dacă valoarea calculată și valoarea tabelului satisfac inegalitatea , se acceptă ipoteza nulă despre distribuția normală a populației generale. Dacă , se respinge ipoteza nulă și se acceptă ipoteza alternativă la aceasta (populația generală nu este distribuită conform legii normale).

Cometariu. Când se utilizează testul de bunăstare a potrivirii lui Pearson, dimensiunea eșantionului trebuie să fie de cel puțin 30. Fiecare grup trebuie să conțină cel puțin 5 opțiuni. Dacă există mai puțin de 5 frecvențe în grupuri, acestea sunt combinate cu grupurile învecinate.

În general, numărul de grade de libertate pentru o distribuție chi-pătrat este definit ca numărul total de valori din care se calculează măsurile corespunzătoare, minus numărul acelor condiții care leagă aceste valori, adică reduce posibilitatea de variație între ele. În cele mai simple cazuri, la calcul, numărul de grade de libertate va fi egal cu numărul de clase, redus cu unu. Deci, de exemplu, cu divizarea dihibridă, se obțin 4 clase, dar numai prima clasă se obține fără legătură, cele ulterioare sunt deja asociate cu cele anterioare. Prin urmare, pentru scindarea dihibridă, numărul de grade de libertate este .

Exemplul 1 Determinați gradul de corespondență dintre distribuția efectivă a grupelor în ceea ce privește numărul de vaci cu tuberculoză și cea teoretic așteptată, care a fost calculată luând în considerare distribuția normală. Datele inițiale sunt rezumate în tabel:

Soluţie.

După nivelul de semnificație și numărul de grade de libertate din tabelul punctelor critice de distribuție (vezi Anexa 4), găsim valoarea . Pentru că , putem concluziona că diferența dintre frecvențele teoretice și cele reale este aleatorie. Astfel, distribuția efectivă a grupelor în funcție de numărul de vaci cu tuberculoză corespunde cu cea așteptată teoretic.

Exemplul 2 Distribuția teoretică după fenotip a indivizilor obținute în a doua generație prin încrucișarea dihibridă a iepurilor conform legii lui Mendel este 9: 3: 3: 1. Se cere să se calculeze corespondența distribuției empirice a iepurilor din încrucișarea indivizilor negre cu păr normal. cu animale pufoase - albinos. La încrucișarea în a doua generație s-au obținut 120 de pui, dintre care 45 negri cu păr scurt, 30 negru pufos, 25 albi cu păr scurt, 20 iepuri pufos albi.

Soluţie. Segregarea așteptată teoretic la descendenți ar trebui să corespundă unui raport de patru fenotipuri (9:3:3:1). Calculați frecvențele teoretice (numărul de obiective) pentru fiecare clasă:

9+3+3+1=16, deci ne putem aștepta să fie negri cu păr scurt ; pufos negru - ; cu păr scurt alb ; pufos alb -.

Distribuția fenotipică empirică (actuală) a fost următoarea 45; treizeci; 25; douăzeci.

Să rezumam toate aceste date în următorul tabel:

Folosind testul de bunăstare a potrivirii lui Pearson, calculăm valoarea:

Numărul de grade de libertate într-o cruce dihibridă. Pentru nivelul de semnificație găsi valoare . Pentru că , putem concluziona că diferența dintre frecvențele teoretice și cele reale nu este întâmplătoare. În consecință, grupul de iepuri rezultat deviază în ceea ce privește distribuția fenotipurilor de la legea lui Mendel în timpul încrucișării dihibride și reflectă influența anumitor factori care modifică tipul de scindare în fenotip la a doua generație de hibrizi.

Testul de bunătate a potrivirii chi-pătrat al lui Pearson poate fi, de asemenea, utilizat pentru a compara două distribuții empirice omogene între ele, i.e. cele care au aceleași limite de clasă. Ipoteza nulă este ipoteza că două funcții de distribuție necunoscute sunt egale. Testul chi-pătrat în astfel de cazuri este determinat de formulă

(**)

unde și sunt volumele distribuțiilor comparate; și sunt frecvențele claselor corespunzătoare.

Luați în considerare o comparație a două distribuții empirice folosind următorul exemplu.

Exemplul 3 Lungimea ouălor de cuc a fost măsurată în două zone teritoriale. În prima zonă a fost examinat un eșantion de 76 de ouă (), în a doua din 54 (). Se obtin urmatoarele rezultate:

Lungime (mm)
Frecvențele
Frecvențele - - -

La nivel de semnificație, se cere testarea ipotezei nule că ambele probe de ouă aparțin aceleiași populații de cuci.

Introducere

Relevanța acestui subiect este că, în timpul studiului bazelor biostatisticii, am presupus că legea de distribuție a populației generale este cunoscută. Dar dacă legea distribuției este necunoscută, dar există motive să presupunem că are o anumită formă (să o numim A), atunci se verifică ipoteza nulă: populația generală este distribuită conform legii A. Această ipoteză este testată folosind o variabilă aleatoare special selectată – criteriul acordului.

Testele de bunătate sunt criterii pentru testarea ipotezelor despre corespondența distribuției empirice cu distribuția probabilității teoretice. Aceste criterii se împart în două categorii:

  • III Criteriile generale de bunăstare a potrivirii se aplică celei mai generale formulări a unei ipoteze, și anume ipoteza conform căreia rezultatele observate sunt de acord cu orice distribuție de probabilitate presupusă a priori.
  • III Testele speciale de bunătate de potrivire implică ipoteze nule speciale care formulează acord cu o anumită formă de distribuție a probabilității.

Criterii de bunătate

Cele mai comune teste de bunătate de potrivire sunt omega-pătrat, chi-pătrat, Kolmogorov și Kolmogorov-Smirnov.

Testele neparametrice de acord Kolmogorov, Smirnov, omega pătrat sunt utilizate pe scară largă. Cu toate acestea, ele sunt asociate și cu erori larg răspândite în aplicarea metodelor statistice.

Cert este că criteriile enumerate au fost dezvoltate pentru a testa acordul cu o distribuție teoretică pe deplin cunoscută. Formulele de calcul, tabelele de distribuții și valorile critice sunt utilizate pe scară largă. Ideea principală a criteriilor Kolmogorov, omega pătrat și similare este de a măsura distanța dintre funcția de distribuție empirică și funcția de distribuție teoretică. Aceste criterii diferă sub forma distanțelor în spațiul funcțiilor de distribuție.

Testele de bunătate de potrivire ale lui Pearson p2 pentru o ipoteză simplă

Teorema lui K. Pearson se referă la încercări independente cu un număr finit de rezultate, i.e. la procesele Bernoulli (într-un sens oarecum extins). Acesta permite să se judece dacă observațiile dintr-un număr mare de studii ale frecvenței acestor rezultate sunt în concordanță cu probabilitățile lor estimate.

În multe probleme practice, legea exactă a distribuției este necunoscută. Așadar, se propune o ipoteză cu privire la corespondența legii empirice existente, construită pe baza observațiilor, cu una teoretică. Această ipoteză necesită testare statistică, ale căror rezultate vor fi fie confirmate, fie infirmate.

Fie X variabila aleatoare studiată. Este necesar să se testeze ipoteza H0 că această variabilă aleatoare respectă legea distribuției F(x). Pentru a face acest lucru, este necesar să faceți un eșantion de n observații independente și să construiți o lege de distribuție empirică F "(x) din aceasta. Pentru a compara legile empirice și ipotetice, se folosește o regulă numită bunătatea potrivirii. Una dintre cele cea mai populară este bunătatea de potrivire a chi-pătratului lui K. Pearson. În ea se calculează statistica chi-pătrat:

unde N este numărul de intervale după care a fost construită legea distribuției empirice (numărul de coloane ale histogramei corespunzătoare), i este numărul intervalului, pt i este probabilitatea ca valoarea variabilei aleatoare să cadă în intervalul i pentru legea distribuției teoretice, pe i este probabilitatea ca valoarea variabilei aleatoare să cadă în intervalul i pentru legea distribuției empirică. Trebuie să respecte distribuția chi-pătrat.

Dacă valoarea calculată a statisticii depășește cuantila distribuției chi-pătrat cu k-p-1 grade de libertate pentru un nivel de semnificație dat, atunci ipoteza H0 este respinsă. În caz contrar, este acceptat la nivelul dat de semnificație. Aici k este numărul de observații, p este numărul de parametri estimați ai legii distribuției.

Să ne uităm la statistici:

Statistica p2 se numește statistica chi-pătrat a lui Pearson pentru ipoteza simplă.

Este clar că p2 este pătratul unei anumite distanțe dintre doi vectori r-dimensionali: vectorul de frecvență relativă (mi /n, …, mr /n) și vectorul de probabilitate (pi , …, pr). Această distanță diferă de distanța euclidiană doar prin faptul că diferite coordonate intră în ea cu greutăți diferite.

Să discutăm despre comportamentul statisticii h2 în cazul în care ipoteza H este adevărată și în cazul în care H este falsă. Dacă H este adevărată, atunci comportamentul asimptotic al lui ch2 pentru n > ? indică teorema lui K. Pearson. Pentru a înțelege ce se întâmplă cu (2.2) când H este fals, rețineți că, conform legii numerelor mari, mi /n > pi pentru n > ?, pentru i = 1, …, r. Prin urmare, pentru n > ?:

Această valoare este egală cu 0. Prin urmare, dacă H este incorectă, atunci h2 >? (când n > ?).

Din cele spuse rezultă că H ar trebui respins dacă valoarea lui h2 obţinută în experiment este prea mare. Aici, ca întotdeauna, cuvintele „prea mare” înseamnă că valoarea observată a lui n2 depășește valoarea critică, care în acest caz poate fi luată din tabelele de distribuție chi-pătrat. Cu alte cuvinte, probabilitatea P(p2 npi p2) este o valoare mică și, prin urmare, este puțin probabil să obțină accidental aceeași ca în experiment sau o discrepanță și mai mare între vectorul de frecvență și vectorul probabilității.

Natura asimptotică a teoremei lui K. Pearson, care stă la baza acestei reguli, necesită prudență în utilizarea sa practică. Nu se poate baza decât pentru n mare. Pentru a judeca dacă n este suficient de mare, este necesar să se țină cont de probabilitățile pi , …, pr . Prin urmare, nu se poate spune, de exemplu, că o sută de observații vor fi suficiente, deoarece nu numai n trebuie să fie mare, dar nici produsele npi , …, npr (frecvențele așteptate) nu trebuie să fie mici. Prin urmare, problema aproximării ch2 (distribuție continuă) de statistica ch2, a cărei distribuție este discretă, s-a dovedit a fi dificilă. O combinație de argumente teoretice și experimentale a condus la credința că această aproximare este aplicabilă dacă toate frecvențele așteptate sunt npi>10. dacă numărul r (numărul de rezultate diferite) crește, limita pentru este coborâtă (la 5 sau chiar la 3 dacă r este de ordinul mai multor zeci). Pentru a îndeplini aceste cerințe, în practică este uneori necesară combinarea mai multor rezultate, de ex. mergeți la schema Bernoulli cu r mai mic.

Metoda descrisă pentru verificarea acordului poate fi aplicată nu numai testelor Bernoulli, ci și probelor aleatorii. Observațiile lor trebuie mai întâi convertite în teste Bernoulli prin grupare. Ei procedează astfel: spațiul de observație este împărțit într-un număr finit de regiuni care nu se suprapun, iar apoi se calculează frecvența observată și probabilitatea ipotetică pentru fiecare regiune.

În acest caz, la dificultățile de aproximare enumerate anterior, se adaugă încă una - alegerea unei partiții rezonabile a spațiului original. În același timp, trebuie avut grijă ca, în general, regula de testare a ipotezei despre distribuția inițială a eșantionului să fie suficient de sensibilă la posibilele alternative. În sfârșit, observ că criteriile statistice bazate pe reducerea la schema Bernoulli, de regulă, nu sunt valabile împotriva tuturor alternativelor. Deci această metodă de verificare a consimțământului are o valoare limitată.

Testul de bunăstare a potrivirii Kolmogorov-Smirnov în forma sa clasică este mai puternic decât testul h2 și poate fi folosit pentru a testa ipoteza că distribuția empirică corespunde oricărei distribuții continue teoretice F(x) cu parametri cunoscuți. Această din urmă împrejurare impune restricții cu privire la posibilitatea unei aplicări practice ample a acestui criteriu în analiza rezultatelor încercărilor mecanice, deoarece parametrii funcției de distribuție a caracteristicilor proprietăților mecanice, de regulă, sunt estimați din datele de proba în sine.

Criteriul Kolmogorov-Smirnov este utilizat pentru date negrupate sau pentru date grupate în cazul unei lățimi a intervalului mic (de exemplu, egală cu diviziunea pe scară a unui contor de forță, contor de ciclu de sarcină etc.). Fie rezultatul testului unei serii de n eșantioane o serie de variații a caracteristicilor proprietăților mecanice

x1? x2? ... ? xi? ... ? xn. (3,93)

Este necesar să se testeze ipoteza nulă că distribuția eșantionului (3.93) aparține legii teoretice F(x).

Criteriul Kolmogorov-Smirnov se bazează pe distribuția abaterii maxime a particularului acumulat de la valoarea funcției de distribuție. Când îl utilizați, statisticile sunt calculate

care este o statistică a testului Kolmogorov. Dacă inegalitatea

Dnvn? frunte (3,97)

pentru dimensiuni mari ale eșantionului (n > 35) sau

Dn(vn + 0,12 + 0,11/vn) ? frunte (3,98)

pentru n? 35, ipoteza nulă nu este respinsă.

Dacă inegalitățile (3.97) și (3.98) nu sunt satisfăcute, atunci se acceptă ipoteza alternativă că eșantionul (3.93) aparține unei distribuții necunoscute.

Valorile critice ale lui lb sunt: ​​л0.1 = 1.22; l0,05 = 1,36; l0,01 = 1,63.

Dacă parametrii funcției F(x) nu sunt cunoscuți în prealabil, dar sunt estimați din datele eșantionului, criteriul Kolmogorov-Smirnov își pierde universalitatea și poate fi folosit doar pentru a verifica conformitatea datelor experimentale doar cu o anumită distribuție specifică. funcții.

Când sunt utilizate ca ipoteză nulă, indiferent dacă datele experimentale aparțin unei distribuții normale sau log-normale, statisticile sunt calculate:

unde Ц(zi) este valoarea funcției Laplace pentru

Ц(zi) = (xi - xср)/s Criteriul Kolmogorov-Smirnov pentru orice dimensiune a eșantionului n se scrie ca

Valorile critice ale lb în acest caz sunt: ​​л0.1 = 0.82; l0,05 = 0,89; l0,01 = 1,04.

Dacă se verifică ipoteza cu privire la conformitatea eșantionului cu distribuția exponențială ***, al cărei parametru este estimat din date experimentale, se calculează statistici similare:

criteriul probabilităţii empirice

şi alcătuiesc criteriul Kolmogorov-Smirnov.

Valorile critice ale lb pentru acest caz sunt: ​​λ0.1 = 0.99; l0,05 = 1,09; l0,01 = 1,31.

Pentru a testa ipoteza despre corespondența distribuției empirice cu legea teoretică a distribuției, se folosesc indicatori statistici speciali - criterii de bunăstare a potrivirii (sau criterii de conformitate). Acestea includ criteriile lui Pearson, Kolmogorov, Romanovsky, Yastremsky etc. Cele mai multe dintre criteriile de bunătate a potrivirii se bazează pe utilizarea abaterilor frecvențelor empirice de la cele teoretice. Evident, cu cât aceste abateri sunt mai mici, cu atât distribuția teoretică se potrivește (sau descrie) mai bine cu cea empirică.

Criterii de consimțământ- acestea sunt criteriile de testare a ipotezelor despre corespondența distribuției empirice cu distribuția probabilității teoretice. Astfel de criterii sunt împărțite în două clase: generale și speciale. Criteriile generale de bunătate de potrivire se aplică celei mai generale formulări a unei ipoteze, și anume, ipotezei conform căreia rezultatele observate sunt în acord cu orice distribuție de probabilitate a priori presupusă. Testele speciale de bunătate de potrivire implică ipoteze nule speciale care formulează acord cu o anumită formă de distribuție a probabilității.

Criteriile de acord, bazate pe legea de distribuție stabilită, permit stabilirea momentului în care discrepanțele dintre frecvențele teoretice și cele empirice trebuie recunoscute ca nesemnificative (aleatoare), și când - semnificative (nealeatoare). Rezultă de aici că criteriile de bunătate fac posibilă respingerea sau confirmarea corectitudinii ipotezei prezentate la nivelarea seriei cu privire la natura distribuției în seria empirică și să se răspundă dacă este posibil să se accepte o model exprimat printr-o lege de distribuție teoretică pentru o distribuție empirică dată.

Testul Pearson de bunăstare a potrivirii c 2 (chi-pătrat) este unul dintre principalele criterii de bunăstare a potrivirii. Propus de matematicianul englez Karl Pearson (1857-1936) pentru a evalua aleatoritatea (semnificația) discrepanțelor dintre frecvențele distribuțiilor empirice și teoretice:

Schema de aplicare a criteriului c 2 la evaluarea consistenței distribuțiilor teoretice și empirice este următoarea:

1. Se determină măsura calculată a discrepanței.

2. Se determină numărul de grade de libertate.

3. Numărul de grade de libertate n se determină cu ajutorul unui tabel special.

4. Dacă , atunci pentru un nivel de semnificație dat α și numărul de grade de libertate n, ipoteza discrepanțelor nesemnificative (aleatoare) este respinsă. În caz contrar, ipoteza poate fi recunoscută ca nu contrazice datele experimentale obținute, iar cu o probabilitate (1 – α) se poate argumenta că discrepanțe între frecvențele teoretice și cele empirice sunt aleatorii.

Nivel de semnificație este probabilitatea respingerii eronate a ipotezei propuse, i.e. probabilitatea ca ipoteza corectă să fie respinsă. În studiile statistice, în funcție de importanța și responsabilitatea sarcinilor de rezolvat, se folosesc următoarele trei niveluri de semnificație:

1) a = 0,1, atunci R = 0,9;

2) a = 0,05, atunci R = 0,95;

3) a = 0,01, atunci R = 0,99.

Folosind criteriul de compatibilitate c 2 , trebuie respectate următoarele condiții:

1. Volumul populației studiate ar trebui să fie suficient de mare ( N≥ 50), în timp ce frecvența sau dimensiunea grupului trebuie să fie de cel puțin 5. Dacă această condiție este încălcată, este necesar să fuzionați mai întâi frecvențele mici (mai puțin de 5).

2. Distribuția empirică ar trebui să fie formată din date obținute ca rezultat al selecției aleatorii, i.e. trebuie să fie independenți.

Dezavantajul criteriului de bunăstare a potrivirii lui Pearson este pierderea unora dintre informațiile inițiale asociate cu necesitatea de a grupa rezultatele observației în intervale și de a combina intervale individuale cu un număr mic de observații. În acest sens, se recomandă completarea verificării corespondenței repartizărilor după criteriu cu alte 2 criterii. Acest lucru este necesar în special atunci când dimensiunea eșantionului este relativ mică ( n ≈ 100).

În statistici Testul de bunătate a lui Kolmogorov(cunoscut și sub denumirea de testul de bunătate a potrivirii Kolmogorov-Smirnov) este utilizat pentru a determina dacă două distribuții empirice respectă aceeași lege sau pentru a determina dacă distribuția rezultată respectă modelul propus. Criteriul Kolmogorov se bazează pe determinarea diferenței maxime dintre frecvențele acumulate sau frecvențele distribuțiilor empirice sau teoretice. Criteriul Kolmogorov este calculat conform următoarelor formule:

Unde Dși d- respectiv, diferența maximă dintre frecvențele acumulate ( ff¢) și între frecvențele acumulate ( pp¢) serii empirice și teoretice de distribuții; N- numarul de unitati din populatie.

După ce s-a calculat valoarea lui λ, un tabel special determină probabilitatea cu care se poate argumenta că abaterile frecvențelor empirice de la cele teoretice sunt aleatorii. Dacă semnul ia valori de până la 0,3, atunci aceasta înseamnă că există o coincidență completă a frecvențelor. Cu un număr mare de observații, testul Kolmogorov este capabil să detecteze orice abatere de la ipoteză. Aceasta înseamnă că orice diferență între distribuția eșantionului și cea teoretică va fi detectată cu ajutorul acesteia dacă există o mulțime de observații. Semnificația practică a acestei proprietăți nu este semnificativă, deoarece în majoritatea cazurilor este dificil să se bazeze pe obținerea unui număr mare de observații în condiții constante, ideea teoretică a legii de distribuție la care trebuie să se supună eșantionul este întotdeauna aproximativă și acuratețea verificărilor statistice nu trebuie să depășească acuratețea modelului ales.

Criteriul de potrivire al lui Romanovsky bazat pe utilizarea criteriului Pearson, i.e. valorile deja găsite c 2 și numărul de grade de libertate:

unde n este numărul de grade de libertate de variație.

Criteriul Romanovsky este convenabil în absența tabelelor pentru . În cazul în care un< 3, то расхождения распределений случайны, если же >3, atunci ele nu sunt aleatoare și distribuția teoretică nu poate servi ca model pentru distribuția empirică studiată.

B. S. Yastremsky a folosit în criteriul de bunătate a potrivirii nu numărul de grade de libertate, ci numărul de grupuri ( k), o valoare specială q în funcție de numărul de grupuri și o valoare chi-pătrat. criteriul acordului lui Yastremsky are acelaşi sens ca şi criteriul Romanovsky şi se exprimă prin formula

unde c 2 - criteriul de acord al lui Pearson; - numărul de grupuri; q - coeficient, pentru numărul de grupuri mai mici de 20 egal cu 0,6.

În cazul în care un L fapt > 3, discrepanțele dintre distribuțiile teoretice și cele empirice nu sunt aleatorii, i.e. distribuția empirică nu îndeplinește cerințele unei distribuții normale. În cazul în care un L fapt< 3, расхождения между эмпирическим и теоретическим распределениями считаются случайными.

Prin prelucrarea măsurătorilor independente ale variabilei aleatoare ξ, putem construi o funcție de distribuție statistică F*(x). Prin forma acestei funcții, se poate accepta ipoteza că adevărata funcție de distribuție teoretică este F(x). Măsurătorile independente în sine (x 1 , x 2 ,…,x n) care formează eșantionul pot fi considerate ca variabile aleatoare distribuite identic cu o funcție de distribuție ipotetică F(x).

Evident, vor exista unele discrepanțe între funcțiile F * (x) și F (x). Se pune întrebarea dacă aceste discrepanțe sunt o consecință a dimensiunii limitate a eșantionului sau sunt legate de faptul că ipoteza noastră nu este corectă, i.e. funcția de distribuție reală nu este F(x), ci alta. Pentru a rezolva această problemă, se folosesc criteriile de consimțământ, a căror esență este următoarea. Se alege o anumită valoare Δ(F, F *), care caracterizează gradul de discrepanță între funcțiile F * (x) și F(x). De exemplu, Δ(F, F *)=Sup|F(x)-F * (x)|, adică. limita superioară în x a modulului diferenței.

Presupunând că ipoteza este corectă, i.e. cunoscând funcția de distribuție F(x), se poate găsi legea de distribuție a variabilei aleatoare Δ(F, F *) (nu vom atinge întrebarea cum să facem acest lucru). Să setăm numărul p 0 atât de mic încât realizarea evenimentului (Δ(F, F *)>Δ 0 ) cu această probabilitate să fie considerată practic imposibilă. Din condiție

găsiți valoarea Δ 0 . Aici f(x) este densitatea distribuției Δ(F,F *).

Să calculăm acum valoarea Δ(F, F *)= Δ 1 din rezultate

mostre, adică găsiți una dintre valorile posibile ale variabilei aleatoare Δ(F, F *). Dacă Δ 1 ≥Δ 0 , atunci aceasta înseamnă că a avut loc un eveniment aproape imposibil. Acest lucru poate fi explicat prin faptul că ipoteza noastră nu este corectă. Deci, dacă Δ 1 ≥Δ 0, atunci ipoteza este respinsă, iar când Δ 1<Δ 0 , гипотеза может оказаться неверной, но вероятность этого мала.

Ca măsură a discrepanței Δ(F, F *) se pot lua diferite valori. În funcție de aceasta, se obțin diferite criterii de acord. De exemplu, testul Kolmogorov, Mises, Pearson de bună potrivire sau testul chi-pătrat.

Fie ca rezultatele n măsurători să fie prezentate ca o serie statistică grupată cu k cifre.

DESCARCARE (x 0 ,x 1) (de fapt, presupunem că erorile de măsurare sunt distribuite uniform pe un anumit segment). Atunci probabilitatea de a lovi fiecare dintre cele șapte cifre va fi egală cu . Folosind seria grupată din §11, calculăm Δ(F, F *)= Δ 1 =prin formula (1). În acest caz .

Deoarece legea distribuției ipotetice include doi parametri necunoscuți, α și β - începutul și sfârșitul segmentului, numărul de grade de libertate va fi 7-1-2=4. Conform tabelului de distribuție chi-pătrat cu probabilitatea selectată p 0 =10 -3 găsim Δ 0 =18. pentru că Δ 1 >Δ 0 , atunci ipoteza unei distribuții uniforme a erorii de măsurare va trebui să fie eliminată.