Sopivuuskriteerit tilastoinnovaatioteknologioissa. Pearsonin sopivuustesti

Tässä osiossa tarkastellaan yhtä hypoteesien todennäköisyyden testaamiseen liittyvää kysymystä, nimittäin kysymystä teoreettisten ja tilastollisten jakaumien johdonmukaisuudesta.

Oletetaan, että tiettyä tilastollista jakaumaa tasoittaa jokin teoreettinen käyrä f(x)(Kuva 7.6.1). Riippumatta siitä, kuinka hyvin teoreettinen käyrä valitaan, sen ja tilastollisen jakauman välillä on väistämättä eroja. Herää luonnollisesti kysymys: johtuvatko nämä erot vain satunnaisista olosuhteista, jotka liittyvät rajoitettuun määrään havaintoja, vai ovatko ne merkittäviä ja liittyvät siihen, että valitsemamme käyrä ei tasoi kunnolla tätä tilastollista jakaumaa. Tähän kysymykseen vastaamiseksi käytetään niin kutsuttuja "suostumuskriteereitä".

SATUNNAISMUUTTAJIEN JAKELULAIT



Sopivuuskriteerien soveltamisen idea on seuraava.

Tämän tilastollisen materiaalin perusteella meidän on testattava hypoteesi H, koostuu siitä, että satunnaismuuttuja X noudattaa tiettyä jakelulakia. Tämä laki voidaan antaa muodossa tai toisessa: esimerkiksi jakaumafunktion muodossa F(x) tai jakautumistiheyden muodossa f(x), tai todennäköisyysjoukon muodossa p t , missä pt- todennäköisyys, että arvo X putoaa sisään jotain purkaa.

Koska näistä muodostuu jakelufunktio F(x) on yleisin ja määrittää minkä tahansa muun, muotoilemme hypoteesin H, koska se koostuu siitä, että arvo X on jakaumafunktio ^(d :).

Hypoteesin hyväksyminen tai hylkääminen H, harkitse tiettyä määrää sinä, kuvaamaan teoreettisen ja tilastollisen jakauman välisen eron astetta. Arvo U voidaan valita eri tavoin; esimerkiksi as U voidaan ottaa teoreettisten todennäköisyyksien neliöityjen poikkeamien summa pt vastaavilta taajuuksilta R* tai samojen neliöiden summa joillakin kertoimilla ("painoilla"), tai tilastollisen jakaumafunktion suurin poikkeama F*(x) teoreettisesta F(x) jne. Oletetaan, että määrä U valittu tavalla tai toisella. Ilmeisesti niitä on satunnainen arvo. Tämän satunnaismuuttujan jakautumislaki riippuu satunnaismuuttujan jakautumislaista x, millä kokeita tehtiin ja kokeiden lukumäärästä P. Jos hypoteesi H on totta, niin suuren jakautumislaki U määräytyy suuren jakautumislain mukaan X(toiminto F(x)) ja numero P.

Oletetaan, että tämä jakautumislaki on meille tiedossa. Tämän koesarjan tuloksena havaittiin, että valitsemamme mitta



SUOSTUMUSKRITEERIT


eroja U sai jonkin verran arvoa a. Kysymys kuuluu, voidaanko tämä selittää satunnaisilla syillä vai onko tämä ero liian suuri ja osoittaa, että teoreettisen ja tilastollisen jakauman välillä on merkittävä ero ja siten hypoteesin sopimattomuus. H? Vastataksesi tähän kysymykseen oletetaan, että hypoteesi H on oikea, ja tällä oletuksella laskemme todennäköisyyden, että riittämättömään koemateriaalimäärään liittyvistä satunnaisista syistä poikkeaman mitta U ei ole pienempi kuin kokeessa havaitsemamme arvo ja, eli laskemme tapahtuman todennäköisyyden:

Jos tämä todennäköisyys on hyvin pieni, niin hypoteesi H olisi hylättävä epätodennäköisenä; jos tämä todennäköisyys on merkittävä, on tunnustettava, että kokeelliset tiedot eivät ole ristiriidassa hypoteesin kanssa N.

Herää kysymys, millä tavalla poikkeaman mitta £/ pitäisi valita? Osoittautuu, että joillakin tavoilla valita se, määrän jakautumislaki U on hyvin yksinkertaisia ​​ominaisuuksia ja riittävän suuria P käytännössä riippumaton toiminnosta F(x). Juuri tällaisia ​​ristiriitamittauksia käytetään matemaattisissa tilastoissa sopimuskriteereinä.

Tarkastellaanpa yhtä yleisimmin käytetyistä sopimuskriteereistä - niin sanottua "kriteeriä". klo?" Pearson.

Oletetaan, että on ha riippumattomia kokeita, joissa jokaisessa on satunnaismuuttuja X sai tietyn arvon. Kokeiden tulokset on koottu julkaisuun k numeroita ja ne esitetään tilastollisena sarjana.

Tyhjä(perus) kutsua esitettyä hypoteesia tuntemattoman jakauman muodosta tai tunnettujen jakaumien parametreista. kilpailevat (vaihtoehto) kutsutaan hypoteesiksi, joka on ristiriidassa nollan kanssa.

Esimerkiksi, jos nollahypoteesi on olettaa, että satunnaismuuttuja X on lain mukaan jakautunut, niin kilpaileva hypoteesi voi koostua oletuksesta, että satunnaismuuttuja X jaetaan eri lain mukaan.

Tilastollinen kriteeri(tai yksinkertaisesti kriteeri) kutsutaan joksikin satunnaismuuttujaksi Vastaanottaja, joka testaa nollahypoteesia.

Kun olet valinnut tietyn kriteerin, esimerkiksi kriteerin, sen kaikkien mahdollisten arvojen joukko jaetaan kahteen ei-päällekkäiseen osajoukkoon: yksi niistä sisältää kriteeriarvot, joiden perusteella nollahypoteesi hylätään, ja toinen - alle. jonka se hyväksytään.

Kriittinen alue on testiarvojen joukko, jonka nollahypoteesi hylätään. Hypoteesin hyväksymisalue kutsutaan kriteerin arvojoukoksi, jonka perusteella hypoteesi hyväksytään. kriittiset kohdat kutsutaan pisteitä, jotka erottavat kriittisen alueen nollahypoteesin hyväksymisalueesta.

Esimerkissämme arvolla otoksesta laskettu arvo vastaa hypoteesin hyväksymisaluetta: satunnaismuuttuja jakautuu lain mukaan. Jos laskettu arvo , niin se osuu kriittiseen alueeseen, eli hypoteesi satunnaismuuttujan lain mukaisesta jakautumisesta hylätään.

Jakauman tapauksessa kriittisen alueen määrää epäyhtälö, nollahypoteesin hyväksyntäalueen määrää epäyhtälö.

2.6.3. Hyvyyskriteerit Pearson.

Yksi kotieläinjalostuksen ja eläingenetiikan tehtävistä on uusien rotujen ja lajien jalostus, joilla on tarvittavat ominaisuudet. Esimerkiksi lisääntynyt immuniteetti, taudin vastustuskyky tai turkin värin muutos.

Käytännössä tuloksia analysoitaessa usein käy ilmi, että todelliset tulokset vastaavat enemmän tai vähemmän jotain teoreettista jakautumislakia. On tarpeen arvioida todellisen (empiirisen) tiedon ja teoreettisen (hypoteettisen) tiedon vastaavuusaste. Tätä varten esitä nollahypoteesi: tuloksena oleva populaatio jaetaan lain "A" mukaan. Ehdotettua jakautumislakia koskevan hypoteesin varmennus suoritetaan käyttämällä erityisesti valittua satunnaismuuttujaa - sopivuuskriteeriä.

Yhteensopivuuskriteeri kutsutaan kriteeriksi tuntemattoman jakauman väitetyn lain hypoteesin testaamiseksi.

Sopivuuskriteereitä on useita: Pearson, Kolmogorov, Smirnov jne. Pearsonin sopivuustesti on yleisimmin käytetty.

Harkitse Pearson-kriteerin soveltamista yleisen populaation normaalijakauman hypoteesin testaamisen esimerkissä. Tätä varten verrataan empiirisiä ja teoreettisia (normaalijakauman jatkossa laskettuja) taajuuksia.

Teoreettisten ja empiiristen taajuuksien välillä on yleensä jonkin verran eroa. Esimerkiksi:

Empiiriset taajuudet 7 15 41 93 113 84 25 13 5

Teoreettiset taajuudet 5 13 36 89 114 91 29 14 6

Harkitse kahta tapausta:

Teoreettisten ja empiiristen taajuuksien välinen ero on satunnainen (merkittämätön), ts. on mahdollista tehdä ehdotus empiiristen taajuuksien jakautumisesta normaalin lain mukaisesti;

Teoreettisten ja empiiristen taajuuksien välinen ero ei ole sattumanvarainen (merkittävä), ts. teoreettiset taajuudet lasketaan väärän hypoteesin perusteella yleisen väestön normaalijakaumasta.

Pearsonin sopivuuskriteerin avulla on mahdollista määrittää sattumalta tai ei teoreettisten ja empiiristen taajuuksien välinen ristiriita, ts. annetulla luottamustodennäköisyydellä määrittääkseen, jakautuuko yleinen populaatio normaalin lain mukaan vai ei.

Hankitaan siis empiirinen jakauma n-koon otokselle:

Vaihtoehdot……

Empiiriset taajuudet…….

Oletetaan, että teoreettiset taajuudet lasketaan normaalijakauman oletuksena. Merkittävyystasolla on testattava nollahypoteesi: populaatio on normaalijakautumassa.

Nollahypoteesin testaamisen kriteeriksi otamme satunnaismuuttujan

(*)

Tämä arvo on satunnainen, koska se saa eri kokeissa erilaisia, aiemmin tuntemattomia arvoja. On selvää, että mitä vähemmän empiiriset ja teoreettiset taajuudet eroavat, sitä pienempi on kriteerin arvo ja siten se luonnehtii jossain määrin empiirisen ja teoreettisen jakauman läheisyyttä.

On todistettu, että kohdassa , satunnaismuuttujan (*) jakautumislaki pyrkii vapausasteittaiseen jakautumislakiin riippumatta siitä, minkä jakautumislain alainen yleinen populaatio on. Siksi satunnaismuuttuja (*) merkitään ja itse kriteeriä kutsutaan "khin-neliön" sopivuustestiksi.

Merkitään havaintotiedoista lasketun kriteerin arvoksi . Kriteerin taulukoidut kriittiset arvot tietylle merkitsevyystasolle ja vapausasteiden lukumäärälle tarkoittavat . Tässä tapauksessa vapausasteiden lukumäärä määritetään yhtälöstä , jossa otoksen tai luokkien ryhmien (osittaisvälien) lukumäärä; - ehdotetun jakauman parametrien lukumäärä. Normaalijakaumalla on kaksi parametria - matemaattinen odotusarvo ja keskihajonta. Näin ollen yhtälöstä saadaan normaalijakauman vapausasteiden lukumäärä

Jos laskettu arvo ja taulukon arvo täyttävät epäyhtälön , nollahypoteesi yleisen populaation normaalijakaumasta hyväksytään. Jos , nollahypoteesi hylätään ja sille vaihtoehtoinen hypoteesi hyväksytään (yleinen populaatio ei ole jakautunut normaalilain mukaan).

Kommentti. Pearsonin sopivuustestiä käytettäessä otoskoon tulee olla vähintään 30. Jokaisessa ryhmässä tulee olla vähintään 5 vaihtoehtoa. Jos ryhmissä on alle 5 taajuutta, ne yhdistetään naapuriryhmiin.

Yleensä khin neliöjakauman vapausasteiden lukumäärä määritellään arvojen kokonaismääräksi, josta vastaavat mittasuhteet lasketaan, vähennettynä niiden ehtojen lukumäärällä, jotka yhdistävät nämä arvot, ts. vähentää niiden välisen vaihtelun mahdollisuutta. Yksinkertaisimmissa tapauksissa laskettaessa vapausasteiden lukumäärä on yhtä suuri kuin luokkien lukumäärä, vähennettynä yhdellä. Joten esimerkiksi dihybridihajotuksella saadaan 4 luokkaa, mutta vain ensimmäinen luokka saadaan riippumattomana, seuraavat liitetään jo aikaisempiin. Siksi dihybridihalkaisussa vapausasteiden lukumäärä on .

Esimerkki 1 Selvitä ryhmien todellisen tuberkuloosin lehmien lukumäärän ja teoriassa odotetun jakauman vastaavuusaste, joka laskettiin normaalijakaumaa huomioiden. Alkutiedot on koottu taulukkoon:

Ratkaisu.

Merkitystason ja vapausasteiden lukumäärän mukaan kriittisten jakautumispisteiden taulukosta (katso liite 4) saadaan arvo . Koska , voimme päätellä, että ero teoreettisten ja todellisten taajuuksien välillä on satunnainen. Siten todellinen ryhmien jakautuminen tuberkuloosia sairastavien lehmien lukumäärän mukaan vastaa teoreettisesti odotettua.

Esimerkki 2 Toisessa sukupolvessa kanien dihybridiristeyttämisellä Mendelin lain mukaan saatu teoreettinen jakauma fenotyyppien mukaan on 9: 3: 3: 1. On laskettava kaniinien empiirisen jakauman vastaavuus risteyttämällä mustia yksilöitä, joilla on normaali karva. untuvaisten eläinten kanssa - albiino. Toisen sukupolven risteytyksen yhteydessä saatiin 120 jälkeläistä, joista 45 mustaa lyhytkarvaista, 30 mustaa untuvaa, 25 valkoista lyhytkarvaista, 20 valkoista untuvaa.

Ratkaisu. Teoreettisesti odotettavissa olevan jälkeläisten erottelun tulisi vastata neljän fenotyypin suhdetta (9:3:3:1). Laske teoreettiset taajuudet (maalien määrä) kullekin luokalle:

9+3+3+1=16, joten voimme olettaa, että mustat lyhytkarvat ovat ; musta untuva - ; valkoinen lyhytkarva ; valkoinen untuvainen -.

Empiirinen (todellinen) fenotyyppinen jakauma oli seuraava 45; kolmekymmentä; 25; kaksikymmentä.

Tehdään yhteenveto kaikista näistä tiedoista seuraavassa taulukossa:

Pearsonin sopivuustestin avulla laskemme arvon:

Vapausasteiden lukumäärä dihybridiristeyksessä. Merkitystasolle löytää arvoa . Koska , voimme päätellä, että ero teoreettisten ja todellisten taajuuksien välillä ei ole sattumaa. Näin ollen tuloksena oleva kaniryhmä poikkeaa fenotyyppien jakautumisen suhteen Mendelin laista dihybridiristeytyksen aikana ja heijastaa tiettyjen tekijöiden vaikutusta, jotka muuttavat fenotyypin jakautumisen tyyppiä hybridien toisessa sukupolvessa.

Pearsonin khin-neliön sopivuustestillä voidaan myös verrata kahta homogeenista empiiristä jakaumaa keskenään, ts. joilla on samat luokkarajat. Nollahypoteesi on hypoteesi, että kaksi tuntematonta jakautumisfunktiota ovat yhtä suuret. Khin-neliötesti tällaisissa tapauksissa määritetään kaavalla

(**)

missä ja ovat verrattujen jakaumien tilavuudet; ja ovat vastaavien luokkien taajuudet.

Harkitse kahden empiirisen jakauman vertailua seuraavan esimerkin avulla.

Esimerkki 3 Känmunien pituus mitattiin kahdella alueellisella vyöhykkeellä. Ensimmäisellä vyöhykkeellä tutkittiin 76 munan näyte () ja toisella 54 (). Saadaan seuraavat tulokset:

Pituus (mm)
Taajuudet
Taajuudet - - -

Merkitsevyystasolla on testattava nollahypoteesi, että molemmat munanäytteet kuuluvat samaan käkipopulaatioon.

Johdanto

Tämän aiheen relevanssi on se, että biostatistiikan perusteita tutkittaessa oletimme, että yleisen populaation jakautumislaki tunnetaan. Mutta entä jos jakautumislakia ei tunneta, mutta on syytä olettaa, että sillä on tietty muoto (kutsutaanko sitä A:ksi), niin nollahypoteesi tarkistetaan: yleinen populaatio jakautuu lain A mukaan. Tämä hypoteesi testataan käyttämällä erityisesti valittua satunnaismuuttujaa - sopimuskriteeriä.

Sopivuustestit ovat kriteereitä hypoteesien testaamiseksi empiirisen jakauman ja teoreettisen todennäköisyysjakauman vastaavuudesta. Nämä kriteerit jakautuvat kahteen luokkaan:

  • III Yleiset sopivuuskriteerit koskevat hypoteesin yleisintä muotoilua, nimittäin hypoteesia, että havaitut tulokset ovat yhtäpitäviä minkä tahansa a priori oletetun todennäköisyysjakauman kanssa.
  • III Erityiset sopivuustestit edellyttävät erityisiä nollahypoteesia, jotka muodostavat yhdenmukaisuuden tietyn muodon todennäköisyysjakauman kanssa.

Hyvyyskriteerit

Yleisimmät sopivuustestit ovat omega-neliö, chi-neliö, Kolmogorov ja Kolmogorov-Smirnov.

Ei-parametriset sopimustestit Kolmogorov, Smirnov, omega square ovat laajalti käytössä. Niihin liittyy kuitenkin myös laajalle levinneitä virheitä tilastollisten menetelmien soveltamisessa.

Tosiasia on, että luetellut kriteerit on kehitetty testaamaan sopimusta täysin tunnetulla teoreettisella jakaumalla. Laskentakaavoja, jakaumien taulukoita ja kriittisiä arvoja käytetään laajalti. Kolmogorov-, omega-neliö- ja vastaavien kriteerien pääideana on mitata etäisyyttä empiirisen jakaumafunktion ja teoreettisen jakaumafunktion välillä. Nämä kriteerit eroavat etäisyyksien muodossa jakautumisfunktioiden avaruudessa.

Pearsonin p2-sovitustestit yksinkertaiselle hypoteesille

K. Pearsonin lause viittaa itsenäisiin kokeisiin, joissa on äärellinen määrä tuloksia, ts. Bernoullin oikeudenkäynteihin (jossain määrin laajennetussa merkityksessä). Sen avulla voidaan arvioida, ovatko havainnot useissa kokeissa näiden tulosten esiintymistiheydestä yhdenmukaisia ​​niiden arvioitujen todennäköisyyksien kanssa.

Monissa käytännön ongelmissa tarkkaa jakautumislakia ei tunneta. Siksi esitetään hypoteesi olemassa olevan havaintojen perusteella rakennetun empiirisen lain vastaavuudesta johonkin teoreettiseen. Tämä hypoteesi vaatii tilastollista testausta, jonka tulokset joko vahvistetaan tai kumotaan.

Olkoon X tutkittava satunnaismuuttuja. On testattava hypoteesi H0, että tämä satunnaismuuttuja noudattaa jakautumislakia F(x). Tätä varten on tarpeen tehdä näyte n itsenäisestä havainnosta ja rakentaa siitä empiirinen jakautumislaki F "(x). Empiiristen ja hypoteettisten lakien vertaamiseen käytetään sääntöä, jota kutsutaan sovituksen hyvyydeksi. Yksi suosituin on K. Pearsonin chi-neliön sovitushyvyys. Siinä lasketaan khin-neliötilasto:

missä N on niiden intervallien lukumäärä, joiden mukaan empiirinen jakautumislaki rakennettiin (vastaavan histogrammin sarakkeiden lukumäärä), i on välin numero, pt i on todennäköisyys, että satunnaismuuttujan arvo putoaa teoreettisen jakaumalain i. intervalli, pe i on todennäköisyys, että satunnaismuuttujan arvo putoaa empiirisen jakaumalain i:nnelle välille. Sen on noudatettava khin neliöjakaumaa.

Jos tilaston laskettu arvo ylittää k-p-1 vapausasteen khiin neliöjakauman kvantiilin tietyllä merkitsevyystasolla, niin H0-hypoteesi hylätään. Muuten se hyväksytään annetulla merkitystasolla. Tässä k on havaintojen lukumäärä, p on jakautumislain arvioitujen parametrien lukumäärä.

Katsotaanpa tilastoja:

P2-tilastoa kutsutaan Pearsonin khin-neliötilastoksi yksinkertaiselle hypoteesille.

On selvää, että p2 on jonkin etäisyyden neliö kahden r-ulotteisen vektorin välillä: suhteellinen taajuusvektori (mi /n, …, mr /n) ja todennäköisyysvektori (pi , …, pr). Tämä etäisyys eroaa euklidisesta etäisyydestä vain siinä, että siihen syötetään eri koordinaatit eri painoilla.

Tarkastellaanpa h2-tilaston käyttäytymistä siinä tapauksessa, että hypoteesi H on tosi ja kun H on epätosi. Jos H on tosi, niin ch2:n asymptoottinen käyttäytyminen n > ? osoittaa K. Pearsonin lauseen. Ymmärtääksesi mitä tapahtuu (2.2):lle, kun H on epätosi, huomaa, että suurten lukujen lain mukaan mi /n > pi kun n > ?, jos i = 1, …, r. Siksi n > ?:

Tämä arvo on yhtä suuri kuin 0. Jos H on siis väärä, niin h2 >? (kun n >?).

Sanomasta seuraa, että H tulee hylätä, jos kokeessa saatu h2:n arvo on liian suuri. Tässä, kuten aina, sanat "liian suuri" tarkoittavat, että havaittu arvo n2 ylittää kriittisen arvon, joka tässä tapauksessa voidaan ottaa khin-neliöjakaumataulukoista. Toisin sanoen todennäköisyys P(p2 npi p2) on pieni arvo, ja siksi se ei todennäköisesti saa vahingossa samaa kuin kokeessa tai vielä suurempaa eroa taajuusvektorin ja todennäköisyysvektorin välillä.

Tämän säännön taustalla olevan K. Pearsonin lauseen asymptoottisuus vaatii varovaisuutta sen käytännön käytössä. Siihen voidaan luottaa vain suurille n. Sen arvioimiseksi, onko n tarpeeksi suuri, on otettava huomioon todennäköisyydet pi , …, pr . Ei siis voida sanoa, että esimerkiksi sata havaintoa riittää, koska n:n lisäksi ei tarvitse olla suuri, vaan myös tulot npi , …, npr (odotetut taajuudet) eivät saa olla pieniä. Siksi ongelma ch2:n (jatkuvan jakauman) lähentämisestä tilastoon ch2, jonka jakauma on diskreetti, osoittautui vaikeaksi. Teoreettisten ja kokeellisten argumenttien yhdistelmä johti uskoon, että tätä approksimaatiota voidaan soveltaa, jos kaikki odotetut taajuudet ovat npi>10. jos luku r (eri tulosten lukumäärä) kasvaa, lasketaan rajaa (5:een tai jopa 3:een, jos r on useiden kymmenien luokkaa). Näiden vaatimusten täyttämiseksi käytännössä on joskus tarpeen yhdistää useita tuloksia, ts. Siirry Bernoulli-kaavioon pienemmällä r:llä.

Kuvattua menetelmää sopivuuden tarkistamiseksi voidaan soveltaa paitsi Bernoulli-testeihin myös satunnaisnäytteisiin. Heidän havainnot on ensin muutettava Bernoulli-testeiksi ryhmittelemällä. He tekevät sen näin: havaintoavaruus jaetaan äärelliseen määrään ei-päällekkäisiä alueita, ja sitten kullekin alueelle lasketaan havaittu taajuus ja hypoteettinen todennäköisyys.

Tässä tapauksessa aiemmin lueteltuihin lähentämisvaikeuksiin lisätään vielä yksi - alkuperäisen tilan kohtuullisen osion valinta. Samalla on huolehdittava siitä, että yleisesti ottaen näytteen alkujakauman hypoteesin testaussääntö on riittävän herkkä mahdollisille vaihtoehdoille. Lopuksi huomautan, että tilastolliset kriteerit, jotka perustuvat vähentämiseen Bernoullin malliin, eivät yleensä päde kaikkia vaihtoehtoja vastaan. Tämän suostumuksen varmistusmenetelmän arvo on siis rajallinen.

Kolmogorov-Smirnovin sopivuustesti klassisessa muodossaan on tehokkaampi kuin h2-testi ja sillä voidaan testata hypoteesia, että empiirinen jakauma vastaa mitä tahansa teoreettista jatkuvaa jakaumaa F(x), jolla on tunnetut parametrit. Jälkimmäinen seikka asettaa rajoituksia tämän kriteerin laajalle käytännön soveltamiselle mekaanisten testien tulosten analysoinnissa, koska mekaanisten ominaisuuksien ominaisuuksien jakautumisfunktion parametrit arvioidaan pääsääntöisesti itse näyte.

Kolmogorov-Smirnov-kriteeriä käytetään ryhmittämättömille tiedoille tai ryhmitellyille tiedoille, jos väli on pieni (esim. yhtä suuri kuin voimamittarin, kuormitusjaksolaskurin asteikkojako). Olkoon n näytteen sarjan testitulos mekaanisten ominaisuuksien ominaisuuksien variaatiosarja

x1? x2? ... ? xi? ... ? xn. (3,93)

On testattava nollahypoteesi, että otosjakauma (3.93) kuuluu teoreettiseen lakiin F(x).

Kolmogorov-Smirnov-kriteeri perustuu kumuloituneen partikulaarin maksimipoikkeaman jakaumaan jakautumisfunktion arvosta. Sitä käytettäessä tilastot lasketaan

joka on Kolmogorov-testin tilasto. Jos epätasa-arvo

Dnvn? otsa (3,97)

suurille näytekokoille (n > 35) tai

Dn(vn + 0,12 + 0,11/vn)? otsa (3,98)

n:lle? 35, nollahypoteesia ei hylätä.

Jos epäyhtälöt (3.97) ja (3.98) eivät täyty, hyväksytään vaihtoehtoinen hypoteesi, että otos (3.93) kuuluu tuntemattomaan jakaumaan.

Lb:n kriittiset arvot ovat: л0.1 = 1.22; 10,05 = 1,36; l0,01 = 1,63.

Jos funktion F(x) parametreja ei tiedetä etukäteen, vaan ne on estimoitu näytetiedoista, Kolmogorov-Smirnov-kriteeri menettää universaalisuutensa ja sillä voidaan tarkistaa vain kokeellisen datan yhteensopivuus vain tietyn jakauman kanssa. toimintoja.

Käytettäessä nollahypoteesia, kuuluuko kokeellinen data normaali- vai log-normaalijakaumaan, tilastot lasketaan:

missä Ц(zi) on Laplace-funktion arvo for

Ц(zi) = (xi - xср)/s Kolmogorov-Smirnov-kriteeri mille tahansa otoskoolle n kirjoitetaan seuraavasti

Lb:n kriittiset arvot tässä tapauksessa ovat: л0,1 = 0,82; 10,05 = 0,89; l0,01 = 1,04.

Jos hypoteesi tarkistetaan otoksen yhteensopivuudesta *** eksponentiaalisen jakauman kanssa, jonka parametri on arvioitu kokeellisista tiedoista, lasketaan vastaavat tilastot:

kriteeri empiirinen todennäköisyys

ja muodostavat Kolmogorov-Smirnov-kriteerin.

lb:n kriittiset arvot tässä tapauksessa ovat: λ0,1 = 0,99; l0,05 = 1,09; l0,01 = 1,31.

Empiirisen jakauman ja jakauman teoreettisen lain vastaavuuden hypoteesin testaamiseen käytetään erityisiä tilastollisia indikaattoreita - sopivuuskriteereitä (tai vaatimustenmukaisuuskriteerejä). Näitä ovat Pearsonin, Kolmogorovin, Romanovskin, Yastremskyn jne. kriteerit. Suurin osa sopivuuskriteereistä perustuu empiiristen taajuuksien poikkeamien käyttöön teoreettisista. Ilmeisesti mitä pienemmät nämä poikkeamat, sitä paremmin teoreettinen jakauma vastaa (tai kuvaa) empiiristä.

Suostumuskriteerit- näillä kriteereillä testataan hypoteeseja empiirisen jakauman ja teoreettisen todennäköisyysjakauman vastaavuudesta. Tällaiset kriteerit on jaettu kahteen luokkaan: yleisiin ja erityisiin. Yleiset sopivuuskriteerit pätevät hypoteesin yleisimpään muotoiluun, nimittäin hypoteesiin, että havaitut tulokset ovat yhtäpitäviä minkä tahansa a priori oletetun todennäköisyysjakauman kanssa. Erityiset sopivuustestit sisältävät erityisiä nollahypoteesia, jotka muodostavat yhdenmukaisuuden tietyn todennäköisyysjakauman muodon kanssa.

Sopimuskriteerit, jotka perustuvat vakiintuneeseen jakelulakiin, mahdollistavat sen selvittämisen, milloin teoreettisten ja empiiristen taajuuksien väliset erot on tunnustettava merkityksettömiksi (satunnaisiksi) ja milloin - merkittäviksi (ei-satunnaisiksi). Tästä seuraa, että sopivuuskriteerit mahdollistavat sen hypoteesin oikeellisuuden hylkäämisen tai vahvistamisen, joka on esitetty tasoitaessa sarjaa empiirisen sarjan jakauman luonteesta ja vastata, onko mahdollista hyväksyä jollakin teoreettisella jakauman lailla tietylle empiiriselle jakaumalle ilmaistu malli.

Pearsonin sopivuustesti c 2 (chi-neliö) on yksi tärkeimmistä sopivuuskriteereistä. Englantilainen matemaatikko Karl Pearson (1857-1936) ehdotti empiiristen ja teoreettisten jakaumien frekvenssien välisten erojen satunnaisuuden (merkittävyyden) arvioimiseksi:

Kaava kriteerin c 2 soveltamiseksi teoreettisten ja empiiristen jakaumien johdonmukaisuuden arvioimiseen on seuraava:

1. Laskettu poikkeaman mitta määritetään.

2. Vapausasteiden lukumäärä määritetään.

3. Vapausasteiden lukumäärä n määritetään käyttämällä erityistä taulukkoa.

4. Jos , niin tietylle merkitsevyystasolle α ja vapausasteiden lukumäärälle n hypoteesi merkityksettömistä (satunnaisista) eroista hylätään. Muuten hypoteesi voidaan todeta olevan ristiriidassa saadun kokeellisen tiedon kanssa ja todennäköisyydellä (1 – α) voidaan väittää, että teoreettisen ja empiirisen frekvenssin väliset erot ovat satunnaisia.

Merkitsevyystaso on esitetyn hypoteesin virheellisen hylkäämisen todennäköisyys, ts. todennäköisyys, että oikea hypoteesi hylätään. Tilastollisissa tutkimuksissa käytetään ratkaistavien tehtävien tärkeydestä ja vastuullisuudesta riippuen seuraavaa kolmea merkitsevyystasoa:

1) a = 0,1, niin R = 0,9;

2) a = 0,05, niin R = 0,95;

3) a = 0,01, niin R = 0,99.

Sopivuuskriteeriä c 2 käytettäessä on noudatettava seuraavia ehtoja:

1. Tutkittavan populaation määrän tulee olla riittävän suuri ( N≥ 50), kun taas ryhmän tiheyden tai koon on oltava vähintään 5. Jos tämä ehto rikotaan, on ensin yhdistettävä pienet taajuudet (alle 5).

2. Empiirisen jakauman tulee koostua satunnaisvalinnan tuloksena saadusta tiedosta, ts. niiden on oltava itsenäisiä.

Pearsonin sopivuuskriteerin haittana on osan alkuinformaation menetys, joka liittyy tarpeeseen ryhmitellä havainnointitulokset intervalleiksi ja yhdistää yksittäisiä intervalleja pieneen havaintojen määrään. Tältä osin on suositeltavaa täydentää kriteerin mukaisten jakaumien vastaavuuden varmentamista kahdella muulla kriteerillä. Tämä on erityisen tarpeen, kun otoskoko on suhteellisen pieni ( n ≈ 100).

Tilastoissa Kolmogorovin sopivuustesti(tunnetaan myös nimellä Kolmogorov-Smirnovin sopivuustesti) käytetään määrittämään, noudattavatko kaksi empiiristä jakaumaa samaa lakia, vai onko tuloksena oleva jakauma ehdotetun mallin mukainen. Kolmogorov-kriteeri perustuu kumuloituneiden taajuuksien tai empiiristen tai teoreettisten jakaumien taajuuksien välisen maksimieron määrittämiseen. Kolmogorov-kriteeri lasketaan seuraavien kaavojen mukaan:

missä D ja d- vastaavasti suurin ero kumuloituneiden taajuuksien välillä ( ff¢) ja kertyneiden taajuuksien välillä ( pp¢) jakaumien empiiriset ja teoreettiset sarjat; N- yksiköiden lukumäärä väestössä.

Laskettuaan λ:n arvon erikoistaulukko määrittää todennäköisyyden, jolla voidaan väittää, että empiiristen taajuuksien poikkeamat teoreettisista ovat satunnaisia. Jos etumerkki saa arvot 0,3:een asti, tämä tarkoittaa, että taajuudet ovat täysin samat. Suurella määrällä havaintoja Kolmogorov-testi pystyy havaitsemaan kaikki poikkeamat hypoteesista. Tämä tarkoittaa, että mahdollinen ero näytejakauman ja teoreettisen jakauman välillä havaitaan sen avulla, jos havaintoja on paljon. Tämän ominaisuuden käytännön merkitys ei ole merkittävä, koska useimmissa tapauksissa on vaikea luottaa siihen, että saadaan suuri määrä havaintoja vakioolosuhteissa, teoreettinen ajatus jakautumislaista, jota näytteen on noudatettava, on aina likimääräinen, ja tilastollisten tarkastusten tarkkuus ei saa ylittää valitun mallin tarkkuutta.

Romanovskin sopivuuskriteeri Pearson-kriteerin käytön perusteella, ts. jo löydetyt arvot c 2 ja vapausasteiden lukumäärä:

missä n on vaihtelun vapausasteiden lukumäärä.

Romanovsky-kriteeri on kätevä, jos taulukoita ei ole. Jos< 3, то расхождения распределений случайны, если же >3, silloin ne eivät ole satunnaisia ​​eivätkä teoreettinen jakauma voi toimia mallina tutkittavalle empiiriselle jakaumalle.

B. S. Yastremsky ei käyttänyt sopivuuden hyvyyskriteerissä vapausasteiden määrää, vaan ryhmien määrää ( k), erityinen arvo q ryhmien lukumäärästä riippuen ja khin neliön arvo. Yastremskyn suostumuskriteeri sillä on sama merkitys kuin Romanovskin kriteerillä ja se ilmaistaan ​​kaavalla

missä c 2 - Pearsonin hyväksymiskriteeri; - ryhmien lukumäärä; q - kerroin, alle 20 ryhmien lukumäärälle on 0,6.

Jos L tosiasia > 3, erot teoreettisen ja empiirisen jakauman välillä eivät ole satunnaisia, ts. empiirinen jakauma ei täytä normaalijakauman vaatimuksia. Jos L tosiasia< 3, расхождения между эмпирическим и теоретическим распределениями считаются случайными.

Käsittelemällä satunnaismuuttujan ξ riippumattomia mittauksia voidaan rakentaa tilastollinen jakaumafunktio F*(x). Tämän funktion muodon perusteella voidaan hyväksyä hypoteesi, että todellinen teoreettinen jakaumafunktio on F(x). Itse otoksen muodostavia riippumattomia mittauksia (x 1 , x 2 ,…,x n) voidaan pitää identtisesti jakautuneina satunnaismuuttujina hypoteettisella jakaumafunktiolla F(x).

On selvää, että funktioiden F * (x) ja F (x) välillä on eroja. Herää kysymys, ovatko nämä eroavaisuudet seurausta rajallisesta otoskoosta vai liittyvätkö siihen, ettei hypoteesimme pidä paikkaansa, ts. varsinainen jakaumafunktio ei ole F(x), vaan jokin muu. Tämän ongelman ratkaisemiseksi käytetään suostumuskriteerejä, joiden ydin on seuraava. Valitaan tietty arvo Δ(F, F *), joka kuvaa funktioiden F * (x) ja F(x) välisen eron astetta. Esimerkiksi Δ(F, F *)=Sup|F(x)-F * (x)|, ts. erotuksen moduulin yläraja x:ssä.

Olettaen, että hypoteesi on oikea, ts. jakaumafunktion F(x) tuntemalla voidaan löytää satunnaismuuttujan Δ(F, F *) jakautumislaki (emme käsittele sitä, miten tämä tehdään). Asetetaan luku p 0 niin pieneksi, että tapahtuman (Δ(F, F *)>Δ 0 ) toteutumista tällä todennäköisyydellä pidetään käytännössä mahdottomana. Tilanteesta

etsi arvo Δ 0 . Tässä f(x) on jakautumistiheys Δ(F,F *).

Lasketaan nyt tuloksista arvo Δ(F, F *)= Δ 1

näytteitä, ts. Etsi yksi satunnaismuuttujan Δ(F, F *) mahdollisista arvoista. Jos Δ 1 ≥Δ 0, tämä tarkoittaa, että on tapahtunut lähes mahdoton tapahtuma. Tämä voidaan selittää sillä, että hypoteesimme ei pidä paikkaansa. Joten jos Δ 1 ≥ Δ 0, hypoteesi hylätään ja kun Δ 1<Δ 0 , гипотеза может оказаться неверной, но вероятность этого мала.

Eron Δ(F, F *) mittana voidaan ottaa erilaisia ​​arvoja. Tästä riippuen saadaan erilaiset sopimuskriteerit. Esimerkiksi Kolmogorov, Mises, Pearson sopivuustesti tai chi-neliötesti.

Esitetään n mittauksen tulokset ryhmiteltynä tilastosarjana, jossa on k numeroa.

DISCHARGE (x 0 ,x 1) (itse asiassa oletetaan, että mittausvirheet jakautuvat tasaisesti tietylle segmentille). Silloin todennäköisyys osua jokaiseen seitsemään numeroon on yhtä suuri kuin . Käyttämällä §11 ryhmiteltyä sarjaa laskemme Δ(F, F *)= Δ 1 =kaavalla (1). Tässä tapauksessa .

Koska hypoteettinen jakautumislaki sisältää kaksi tuntematonta parametria, α ja β - segmentin alun ja lopun, vapausasteiden lukumäärä on 7-1-2=4. Khin-neliöjakaumataulukon mukaan valitulla todennäköisyydellä p 0 =10 -3 saadaan Δ 0 =18. Koska Δ 1 >Δ 0 , niin hypoteesi mittausvirheen tasaisesta jakautumisesta on hylättävä.