Goodness-of-fit na pamantayan sa mga teknolohiyang innovation sa istatistika. Pearson goodness-of-fit test

Sa seksyong ito, isasaalang-alang namin ang isa sa mga isyu na nauugnay sa pagsubok sa posibilidad ng mga hypotheses, ibig sabihin, ang isyu ng pagkakapare-pareho sa pagitan ng teoretikal at istatistikal na distribusyon.

Ipagpalagay na ang isang ibinigay na distribusyon ng istatistika ay pinatag ng ilang teoretikal na kurba f(x)(Larawan 7.6.1). Hindi mahalaga kung gaano kahusay ang teoretikal na kurba ay pinili, ang ilang mga pagkakaiba ay hindi maiiwasan sa pagitan nito at ng istatistikal na pamamahagi. Ang tanong ay natural na lumilitaw: ang mga pagkakaiba ba na ito ay dahil lamang sa mga random na pangyayari na nauugnay sa isang limitadong bilang ng mga obserbasyon, o ang mga ito ay makabuluhan at nauugnay sa katotohanan na ang kurba na aming pinili ay hindi wastong nagpapapantay sa istatistikal na distribusyon na ito. Para masagot ang tanong na ito, ginagamit ang tinatawag na "consent criteria".

MGA BATAS NG DISTRIBUTION OF RANDOM VARIABLES



Ang ideya sa likod ng paglalapat ng goodness-of-fit na pamantayan ay ang mga sumusunod.

Batay sa istatistikal na materyal na ito, kailangan nating subukan ang hypothesis H, na binubuo sa katotohanan na ang random variable X sumusunod sa ilang tiyak na batas sa pamamahagi. Ang batas na ito ay maaaring ibigay sa isang anyo o iba pa: halimbawa, sa anyo ng isang function ng pamamahagi F(x) o sa anyo ng density ng pamamahagi f(x), o sa anyo ng isang hanay ng mga probabilidad p t , saan pt- ang posibilidad na ang halaga X ay mahuhulog sa loob isang bagay discharge.

Dahil mula sa mga form na ito ang distribution function F(x) ay ang pinaka-pangkalahatan at tinutukoy ang anumang iba pa, bubuo kami ng hypothesis H, bilang binubuo sa katotohanan na ang halaga X ay may function ng pamamahagi ^(d:).

Upang tanggapin o tanggihan ang isang hypothesis H, isaalang-alang ang ilang dami ikaw, nailalarawan ang antas ng pagkakaiba sa pagitan ng teoretikal at istatistikal na distribusyon. Halaga U maaaring mapili sa iba't ibang paraan; halimbawa, bilang U maaaring kunin ng isa ang kabuuan ng mga squared deviations ng theoretical probabilities pt mula sa kaukulang mga frequency R* o ang kabuuan ng parehong mga parisukat na may ilang mga coefficient ("mga timbang"), o ang maximum na paglihis ng statistical distribution function F*(x) mula sa teoretikal F(x) atbp. Ipagpalagay natin na ang dami U pinili sa isang paraan o iba pa. Obviously, meron random na halaga. Ang batas ng pamamahagi ng random variable na ito ay nakasalalay sa batas ng pamamahagi ng random variable x, kung saan isinagawa ang mga eksperimento, at mula sa bilang ng mga eksperimento P. Kung ang hypothesis H ay totoo, kung gayon ang batas ng pamamahagi ng dami U tinutukoy ng batas ng pamamahagi ng dami X(function F(x)) at numero P.

Ipagpalagay natin na ang batas sa pamamahagi na ito ay alam natin. Bilang resulta ng seryeng ito ng mga eksperimento, nalaman na ang sukat na aming napili



PAMANTAYAN NG PAGPAPAHAYAG


mga pagkakaiba U kinuha ang ilang halaga a. Ang tanong ay kung ito ay maaaring ipaliwanag sa pamamagitan ng mga random na dahilan, o kung ang pagkakaibang ito ay masyadong malaki at nagpapahiwatig ng pagkakaroon ng isang makabuluhang pagkakaiba sa pagitan ng teoretikal at istatistikal na distribusyon at, samakatuwid, ang hindi kaangkupan ng hypothesis H? Upang masagot ang tanong na ito, ipagpalagay na ang hypothesis H ay tama, at sa ilalim ng pagpapalagay na ito ay kinakalkula namin ang posibilidad na, dahil sa mga random na sanhi na nauugnay sa isang hindi sapat na dami ng pang-eksperimentong materyal, ang sukatan ng pagkakaiba U ay hindi bababa sa halagang naobserbahan namin sa eksperimento at, ibig sabihin, kinakalkula namin ang posibilidad ng isang kaganapan:

Kung ang posibilidad na ito ay napakaliit, pagkatapos ay ang hypothesis H dapat tanggihan bilang hindi masyadong makatwiran; kung ang posibilidad na ito ay makabuluhan, dapat itong kilalanin na ang pang-eksperimentong data ay hindi sumasalungat sa hypothesis N.

Ang tanong ay lumitaw, sa anong paraan dapat piliin ang sukat ng pagkakaiba £/? Ito ay lumalabas na para sa ilang mga paraan ng pagpili nito, ang batas ng pamamahagi ng dami U ay may napakasimpleng katangian at, para sa sapat na malaki P halos independyente sa pag-andar F(x). Ito ay tiyak na mga sukat ng pagkakaiba na ginagamit sa mga istatistika ng matematika bilang pamantayan para sa kasunduan.

Isaalang-alang natin ang isa sa mga karaniwang ginagamit na pamantayan ng kasunduan - ang tinatawag na "criterion sa?" Pearson.

Ipagpalagay na mayroong ha independiyenteng mga eksperimento, sa bawat isa kung saan ang random variable X kinuha sa isang tiyak na halaga. Ang mga resulta ng mga eksperimento ay buod sa k digit at ipinakita sa anyo ng isang serye ng istatistika.

Wala(basic) tawagan ang iniharap na hypothesis tungkol sa anyo ng hindi kilalang distribusyon, o tungkol sa mga parameter ng mga kilalang distribusyon. nakikipagkumpitensya (alternatibo) tinatawag na hypothesis na sumasalungat sa null.

Halimbawa, kung ang null hypothesis ay ipagpalagay na ang random variable X ay ipinamamahagi ayon sa batas , kung gayon ang nakikipagkumpitensyang hypothesis ay maaaring binubuo sa pagpapalagay na ang random variable X ipinamahagi ayon sa ibang batas.

Pamantayan sa istatistika(o kaya lang pamantayan) ay tinatawag na ilang random variable Upang, na nagsisilbing pagsubok sa null hypothesis.

Pagkatapos pumili ng isang tiyak na pamantayan, halimbawa criterion , ang hanay ng lahat ng posibleng mga halaga nito ay nahahati sa dalawang hindi magkakapatong na subset: ang isa sa mga ito ay naglalaman ng mga halaga ng criterion kung saan tinanggihan ang null hypothesis, at ang isa pa - sa ilalim na ito ay tinatanggap.

Kritikal na lugar ay ang hanay ng mga halaga ng pagsubok kung saan ang null hypothesis ay tinanggihan. Lugar ng pagtanggap ng hypothesis tinatawag na set ng mga halaga ng criterion kung saan tinatanggap ang hypothesis. kritikal na mga punto ang mga puntos na naghihiwalay sa kritikal na rehiyon mula sa lugar ng pagtanggap ng null hypothesis ay tinatawag.

Para sa aming halimbawa, na may halaga na , ang halaga na kinakalkula mula sa sample ay tumutugma sa lugar ng pagtanggap ng hypothesis: ang random na variable ay ibinahagi ayon sa batas . Kung ang kinakalkula na halaga , pagkatapos ito ay bumagsak sa kritikal na rehiyon, iyon ay, ang hypothesis tungkol sa pamamahagi ng isang random na variable ayon sa batas ay tinanggihan.

Sa kaso ng isang pamamahagi, ang kritikal na rehiyon ay tinutukoy ng hindi pagkakapantay-pantay, ang lugar ng pagtanggap ng null hypothesis ay tinutukoy ng hindi pagkakapantay-pantay.

2.6.3. Pamantayan sa Kabutihan Pearson.

Ang isa sa mga gawain ng zootechnics at veterinary genetics ay ang pagpaparami ng mga bagong lahi at species na may mga kinakailangang katangian. Halimbawa, nadagdagan ang kaligtasan sa sakit, panlaban sa sakit, o pagbabago sa kulay ng balahibo.

Sa pagsasagawa, kapag sinusuri ang mga resulta, madalas na lumalabas na ang aktwal na mga resulta ay higit pa o mas kaunti ay tumutugma sa ilang teoretikal na batas sa pamamahagi. May pangangailangang tasahin ang antas ng pagsusulatan sa pagitan ng aktwal (empirical) na data at theoretical (hypothetical) na data. Upang gawin ito, ilagay ang isang null hypothesis: ang nagresultang populasyon ay ipinamamahagi ayon sa batas "A". Ang pagpapatunay ng hypothesis tungkol sa iminungkahing batas sa pamamahagi ay isinasagawa gamit ang isang espesyal na napiling random na variable - ang goodness-of-fit criterion.

Concordance criterion tinatawag na criterion para sa pagsubok sa hypothesis ng di-umano'y batas ng hindi kilalang pamamahagi.

Mayroong ilang mga pamantayan ng goodness-of-fit: Pearson, Kolmogorov, Smirnov, atbp. Ang goodness-of-fit test ni Pearson ang pinakakaraniwang ginagamit.

Isaalang-alang ang aplikasyon ng pamantayan ng Pearson sa halimbawa ng pagsubok sa hypothesis ng normal na batas ng distribusyon ng pangkalahatang populasyon. Sa layuning ito, ihahambing natin ang empirical at theoretical (kinakalkula sa pagpapatuloy ng normal na distribusyon) na mga frequency.

Karaniwang may ilang pagkakaiba sa pagitan ng teoretikal at empirical na mga frequency. Halimbawa:

Empirical frequency 7 15 41 93 113 84 25 13 5

Theoretical frequency 5 13 36 89 114 91 29 14 6

Isaalang-alang ang dalawang kaso:

Ang pagkakaiba sa pagitan ng theoretical at empirical frequency ay random (hindi gaanong mahalaga), i.e. posibleng gumawa ng panukala tungkol sa pamamahagi ng mga empirical frequency ayon sa normal na batas;

Ang pagkakaiba sa pagitan ng teoretikal at empirical na mga frequency ay hindi sinasadya (makabuluhan), i.e. Ang mga theoretical frequency ay kinakalkula batay sa maling hypothesis tungkol sa normal na distribusyon ng pangkalahatang populasyon.

Sa tulong ng goodness-of-fit criterion ni Pearson, posibleng matukoy ng pagkakataon o hindi ang pagkakaiba sa pagitan ng theoretical at empirical frequency, i.e. na may ibinigay na posibilidad ng kumpiyansa upang matukoy kung ang pangkalahatang populasyon ay ipinamamahagi ayon sa normal na batas o hindi.

Kaya, hayaan ang empirical distribution na makuha para sa isang sample ng laki n:

Mga Pagpipilian……

Mga empirical na frequency…….

Ipagpalagay natin na, sa ilalim ng pagpapalagay ng isang normal na pamamahagi, ang mga teoretikal na frequency ay kinakalkula. Sa antas ng kabuluhan, kinakailangan na subukan ang null hypothesis: ang populasyon ay karaniwang ipinamamahagi.

Bilang criterion para sa pagsubok sa null hypothesis, kumukuha kami ng random variable

(*)

Ang halagang ito ay random, dahil sa iba't ibang mga eksperimento ay tumatagal ito sa iba't ibang mga hindi kilalang halaga. Malinaw na mas kaunti ang pagkakaiba ng empirical at theoretical frequency, mas maliit ang halaga ng criterion at, dahil dito, nailalarawan nito sa isang tiyak na lawak ang pagiging malapit ng empirical at theoretical distribution.

Pinatunayan na sa , ang batas sa pamamahagi ng random variable (*), anuman ang batas sa pamamahagi ay napapailalim sa pangkalahatang populasyon, ay may kaugaliang batas sa pamamahagi na may mga antas ng kalayaan. Samakatuwid, ang random variable (*) ay tinutukoy ng , at ang criterion mismo ay tinatawag na "chi-square" goodness-of-fit test.

Tukuyin natin ang halaga ng criterion na kinakalkula mula sa data ng pagmamasid bilang . Ang naka-tabulate na mga kritikal na halaga ng pamantayan para sa isang naibigay na antas ng kahalagahan at ang bilang ng mga antas ng kalayaan ay tumutukoy. Sa kasong ito, ang bilang ng mga antas ng kalayaan ay tinutukoy mula sa pagkakapantay-pantay , kung saan ang bilang ng mga grupo (mga bahagyang agwat) ng sample o mga klase; - ang bilang ng mga parameter ng iminungkahing pamamahagi. Ang normal na distribution ay may dalawang parameter - ang mathematical expectation at ang standard deviation. Samakatuwid, ang bilang ng mga antas ng kalayaan para sa isang normal na pamamahagi ay matatagpuan mula sa pagkakapantay-pantay

Kung ang kinakalkula na halaga at ang halaga ng talahanayan ay nakakatugon sa hindi pagkakapantay-pantay , tinatanggap ang null hypothesis tungkol sa normal na distribusyon ng pangkalahatang populasyon. Kung , ang null hypothesis ay tinanggihan at ang hypothesis na alternatibo dito ay tinatanggap (ang pangkalahatang populasyon ay hindi ipinamahagi ayon sa normal na batas).

Magkomento. Kapag gumagamit ng pagsubok sa goodness-of-fit ng Pearson, ang laki ng sample ay dapat na hindi bababa sa 30. Ang bawat pangkat ay dapat maglaman ng hindi bababa sa 5 mga opsyon. Kung mayroong mas mababa sa 5 mga frequency sa mga grupo, sila ay pinagsama sa mga kalapit na grupo.

Sa pangkalahatan, ang bilang ng mga antas ng kalayaan para sa isang pamamahagi ng chi-square ay tinukoy bilang ang kabuuang bilang ng mga halaga kung saan kinakalkula ang mga kaukulang sukat, binawasan ang bilang ng mga kundisyong iyon na nag-uugnay sa mga halagang ito, i.e. bawasan ang posibilidad ng pagkakaiba-iba sa pagitan nila. Sa pinakasimpleng mga kaso, kapag nagkalkula, ang bilang ng mga antas ng kalayaan ay magiging katumbas ng bilang ng mga klase, na mababawasan ng isa. Kaya, halimbawa, sa paghahati ng dihybrid, 4 na mga klase ang nakuha, ngunit ang unang klase lamang ang nakuha na hindi nauugnay, ang mga kasunod ay nauugnay na sa mga nauna. Samakatuwid, para sa dihybrid splitting, ang bilang ng mga antas ng kalayaan ay .

Halimbawa 1 Tukuyin ang antas ng pagsusulatan sa pagitan ng aktwal na pamamahagi ng mga grupo sa mga tuntunin ng bilang ng mga baka na may tuberculosis at ang inaasahang teoretikal, na kinakalkula kapag isinasaalang-alang ang normal na pamamahagi. Ang paunang data ay ibinubuod sa talahanayan:

Solusyon.

Sa pamamagitan ng antas ng kahalagahan at bilang ng mga antas ng kalayaan mula sa talahanayan ng mga kritikal na punto ng pamamahagi (tingnan ang Appendix 4), makikita natin ang halaga . Dahil ang , maaari nating tapusin na ang pagkakaiba sa pagitan ng teoretikal at aktwal na mga frequency ay random. Kaya, ang aktwal na pamamahagi ng mga grupo ayon sa bilang ng mga baka na may tuberculosis ay tumutugma sa theoretically inaasahan.

Halimbawa 2 Ang teoretikal na pamamahagi sa pamamagitan ng phenotype ng mga indibidwal na nakuha sa ikalawang henerasyon sa pamamagitan ng dihybrid crossing ng mga kuneho ayon sa batas ni Mendel ay 9: 3: 3: 1. Kinakailangang kalkulahin ang sulat ng empirical distribution ng mga kuneho mula sa pagtawid sa mga itim na indibidwal na may normal na buhok na may makapal na hayop - albino. Sa pagtawid sa ikalawang henerasyon, 120 supling ang nakuha, kabilang ang 45 itim na may maikling buhok, 30 itim na downy, 25 puti na may maikling buhok, 20 puting downy rabbit.

Solusyon. Ang teoretikal na inaasahang paghihiwalay sa mga supling ay dapat tumugma sa isang ratio ng apat na phenotypes (9:3:3:1). Kalkulahin ang theoretical frequency (bilang ng mga layunin) para sa bawat klase:

9+3+3+1=16, kaya maaari nating asahan ang mga itim na shorthair ; itim na malabo - ; puting shorthair ; maputing maputi -.

Ang empirical (aktwal) phenotypic distribution ay ang mga sumusunod 45; tatlumpu; 25; dalawampu.

Ibuod natin ang lahat ng data na ito sa sumusunod na talahanayan:

Gamit ang goodness-of-fit test ni Pearson, kinakalkula namin ang halaga ng :

Ang bilang ng mga antas ng kalayaan sa isang dihybrid cross. Para sa antas ng kahalagahan maghanap ng halaga . Dahil ang , maaari nating tapusin na ang pagkakaiba sa pagitan ng teoretikal at aktwal na mga frequency ay hindi sinasadya. Dahil dito, ang nagreresultang pangkat ng mga kuneho ay lumilihis sa mga tuntunin ng pamamahagi ng mga phenotype mula sa batas ni Mendel sa panahon ng dihybrid crossing at sumasalamin sa impluwensya ng ilang mga kadahilanan na nagbabago sa uri ng paghahati sa phenotype sa ikalawang henerasyon ng mga hybrid.

Ang chi-squared goodness-of-fit test ni Pearson ay maaari ding gamitin upang ihambing ang dalawang homogenous na empirical distribution sa isa't isa, i.e. yaong may parehong mga hangganan ng klase. Ang null hypothesis ay ang hypothesis na ang dalawang hindi kilalang mga function ng pamamahagi ay pantay. Ang chi-square test sa mga ganitong kaso ay tinutukoy ng formula

(**)

kung saan at ang mga volume ng inihambing na mga pamamahagi; at ang mga frequency ng kaukulang mga klase.

Isaalang-alang ang paghahambing ng dalawang empirical distribution gamit ang sumusunod na halimbawa.

Halimbawa 3 Ang haba ng mga itlog ng cuckoo ay sinusukat sa dalawang teritoryal na zone. Sa unang zone, isang sample ng 76 na itlog () ang napagmasdan, sa pangalawa ng 54 (). Ang mga sumusunod na resulta ay nakuha:

Haba (mm)
Mga frequency
Mga frequency - - -

Sa antas ng kahalagahan, kinakailangan na subukan ang null hypothesis na ang parehong mga sample ng mga itlog ay nabibilang sa parehong populasyon ng cuckoo.

Panimula

Ang kaugnayan ng paksang ito ay na sa panahon ng pag-aaral ng mga pangunahing kaalaman ng biostatistics, ipinapalagay namin na ang batas ng pamamahagi ng pangkalahatang populasyon ay kilala. Ngunit paano kung ang batas sa pamamahagi ay hindi alam, ngunit may dahilan upang ipagpalagay na mayroon itong isang tiyak na anyo (tawagin natin itong A), pagkatapos ay susuriin ang null hypothesis: ang pangkalahatang populasyon ay ipinamamahagi ayon sa batas A. Ang hypothesis na ito ay nasubok gamit ang isang espesyal na napiling random variable - ang criterion ng kasunduan.

Ang goodness-of-fit na mga pagsusulit ay pamantayan para sa pagsubok ng mga hypotheses tungkol sa pagkakatugma ng empirical distribution sa theoretical probability distribution. Ang mga pamantayang ito ay nahahati sa dalawang kategorya:

  • III Ang pangkalahatang goodness-of-fit na pamantayan ay nalalapat sa pinaka-pangkalahatang pagbabalangkas ng isang hypothesis, katulad ng hypothesis na ang mga naobserbahang resulta ay sumasang-ayon sa anumang a priori na ipinapalagay na pamamahagi ng posibilidad.
  • III Ang mga espesyal na pagsubok sa goodness-of-fit ay nagpapahiwatig ng mga espesyal na null hypotheses na bumubuo ng kasunduan sa isang tiyak na anyo ng pamamahagi ng posibilidad.

Pamantayan sa Kabutihan

Ang pinakakaraniwang goodness-of-fit na mga pagsusulit ay omega-square, chi-square, Kolmogorov at Kolmogorov-Smirnov.

Ang mga non-parametric na pagsubok ng kasunduan Kolmogorov, Smirnov, omega square ay malawakang ginagamit. Gayunpaman, nauugnay din ang mga ito sa malawakang mga pagkakamali sa paggamit ng mga pamamaraan ng istatistika.

Ang katotohanan ay ang nakalistang pamantayan ay binuo upang subukan ang kasunduan na may ganap na kilalang teoretikal na pamamahagi. Ang mga formula ng pagkalkula, mga talahanayan ng mga pamamahagi at mga kritikal na halaga ay malawakang ginagamit. Ang pangunahing ideya ng Kolmogorov, omega square at mga katulad na pamantayan ay upang masukat ang distansya sa pagitan ng empirical distribution function at theoretical distribution function. Ang mga pamantayang ito ay naiiba sa anyo ng mga distansya sa espasyo ng mga function ng pamamahagi.

Pearson's p2 goodness-of-fit na mga pagsubok para sa isang simpleng hypothesis

Ang teorama ni K. Pearson ay tumutukoy sa mga independiyenteng pagsubok na may limitadong bilang ng mga kinalabasan, i.e. sa mga pagsubok sa Bernoulli (sa medyo pinalawig na kahulugan). Pinapayagan nito ang isa na hatulan kung ang mga obserbasyon sa isang malaking bilang ng mga pagsubok ng dalas ng mga kinalabasan na ito ay pare-pareho sa kanilang mga tinantyang probabilidad.

Sa maraming praktikal na problema, ang eksaktong batas sa pamamahagi ay hindi alam. Samakatuwid, ang isang hypothesis ay iniharap tungkol sa pagsusulatan ng umiiral na empirical na batas, na binuo batay sa mga obserbasyon, sa ilang teoretikal. Ang hypothesis na ito ay nangangailangan ng istatistikal na pagsubok, ang mga resulta nito ay maaaring makumpirma o mapabulaanan.

Hayaang X ang random na variable na pinag-aaralan. Kinakailangang subukan ang hypothesis H0 na ang random variable na ito ay sumusunod sa distribution law F(x). Upang gawin ito, kinakailangan na gumawa ng isang sample ng n independiyenteng mga obserbasyon at bumuo ng isang empirical distribution law F "(x) mula dito. Upang ihambing ang empirical at hypothetical na mga batas, isang panuntunan na tinatawag na goodness of fit ang ginagamit. Isa sa mga pinakasikat ay ang chi-square goodness of fit ni K. Pearson. Dito kinakalkula ang chi-square statistic:

kung saan ang N ay ang bilang ng mga pagitan ayon sa kung saan ang empirical distribution law ay binuo (ang bilang ng mga column ng kaukulang histogram), i ay ang bilang ng interval, pt i ay ang posibilidad na ang halaga ng random variable ay mahuhulog sa ang i-th interval para sa theoretical distribution law, ang pe i ay ang posibilidad na ang halaga ng random variable ay mahuhulog sa i-th interval para sa empirical distribution law. Dapat itong sumunod sa pamamahagi ng chi-square.

Kung ang kinakalkula na halaga ng istatistika ay lumampas sa chi-square distribution quantile na may k-p-1 degrees ng kalayaan para sa isang partikular na antas ng kabuluhan, ang H0 hypothesis ay tatanggihan. Kung hindi, ito ay tinatanggap sa ibinigay na antas ng kahalagahan. Narito ang k ay ang bilang ng mga obserbasyon, ang p ay ang bilang ng mga tinantyang parameter ng batas sa pamamahagi.

Tingnan natin ang mga istatistika:

Ang p2 statistic ay tinatawag na Pearson's chi-squared statistic para sa simpleng hypothesis.

Malinaw na ang p2 ay ang parisukat ng ilang distansya sa pagitan ng dalawang r-dimensional na vector: ang relative frequency vector (mi /n, …, mr /n) at ang probability vector (pi , …, pr). Ang distansya na ito ay naiiba sa Euclidean na distansya lamang sa iba't ibang mga coordinate na pumasok dito na may iba't ibang mga timbang.

Talakayin natin ang pag-uugali ng h2 statistic sa kaso kapag ang hypothesis H ay totoo at sa kaso kapag ang H ay mali. Kung totoo ang H, kung gayon ang asymptotic na pag-uugali ng ch2 para sa n > ? ay nagpapahiwatig ng teorama ni K. Pearson. Upang maunawaan kung ano ang mangyayari sa (2.2) kapag ang H ay mali, tandaan na, ayon sa batas ng malalaking numero, mi /n > pi para sa n > ?, para sa i = 1, …, r. Samakatuwid, para sa n > ?:

Ang halagang ito ay katumbas ng 0. Samakatuwid, kung ang H ay mali, kung gayon ang h2 >? (kailan n > ?).

Ito ay sumusunod sa sinabi na ang H ay dapat tanggihan kung ang halaga ng h2 na nakuha sa eksperimento ay masyadong malaki. Dito, gaya ng dati, ang mga salitang "masyadong malaki" ay nangangahulugan na ang naobserbahang halaga ng n2 ay lumampas sa kritikal na halaga, na sa kasong ito ay maaaring makuha mula sa mga talahanayan ng pamamahagi ng chi-squared. Sa madaling salita, ang posibilidad na P(p2 npi p2) ay isang maliit na halaga at, samakatuwid, ito ay malamang na hindi sinasadyang makakuha ng katulad ng sa eksperimento, o isang mas malaking pagkakaiba sa pagitan ng frequency vector at ng probability vector.

Ang asymptotic na katangian ng K. Pearson's theorem, na sumasailalim sa panuntunang ito, ay nangangailangan ng pag-iingat sa praktikal na paggamit nito. Maaasahan lamang ito para sa malalaking n. Upang hatulan kung ang n ay sapat na malaki, kinakailangang isaalang-alang ang mga probabilidad pi , …, pr. Samakatuwid, hindi masasabi, halimbawa, na ang isang daang obserbasyon ay magiging sapat, dahil hindi lamang n dapat malaki, kundi pati na rin ang mga produkto npi , …, npr (inaasahang mga frequency) ay hindi rin dapat maliit. Samakatuwid, ang problema sa pagtatantya ng ch2 (tuloy-tuloy na pamamahagi) sa istatistika ng ch2, na ang pamamahagi ay discrete, ay naging mahirap. Ang kumbinasyon ng mga teoretikal at pang-eksperimentong argumento ay humantong sa paniniwalang ang pagtatantya na ito ay naaangkop kung ang lahat ng inaasahang frequency ay npi>10. kung tumaas ang bilang r (ang bilang ng iba't ibang resulta), ang limitasyon para sa ay ibababa (sa 5 o maging 3 kung ang r ay nasa pagkakasunud-sunod ng ilang sampu). Upang matugunan ang mga kinakailangang ito, sa pagsasagawa kung minsan ay kinakailangan upang pagsamahin ang ilang mga resulta, i.e. pumunta sa Bernoulli scheme na may mas maliit na r.

Ang inilarawan na paraan para sa pagsuri ng kasunduan ay maaaring ilapat hindi lamang sa mga pagsubok sa Bernoulli, kundi pati na rin sa mga random na sample. Ang kanilang mga obserbasyon ay dapat munang i-convert sa Bernoulli test sa pamamagitan ng pagpapangkat. Ginagawa nila ito sa ganitong paraan: ang espasyo ng pagmamasid ay nahahati sa isang may hangganang bilang ng mga hindi magkakapatong na rehiyon, at pagkatapos ay kinakalkula ang naobserbahang dalas at hypothetical na posibilidad para sa bawat rehiyon.

Sa kasong ito, sa naunang nakalistang mga paghihirap ng pagtatantya, isa pa ang idinagdag - ang pagpili ng isang makatwirang partisyon ng orihinal na espasyo. Kasabay nito, kailangang mag-ingat na, sa pangkalahatan, ang panuntunan para sa pagsubok ng hypothesis tungkol sa paunang pamamahagi ng sample ay sapat na sensitibo sa mga posibleng alternatibo. Sa wakas, tandaan ko na ang istatistikal na pamantayan batay sa pagbawas sa Bernoulli scheme, bilang panuntunan, ay hindi wasto laban sa lahat ng mga alternatibo. Kaya ang paraan ng pag-verify ng pahintulot ay limitado ang halaga.

Ang Kolmogorov-Smirnov goodness-of-fit test sa klasikal na anyo nito ay mas makapangyarihan kaysa sa h2 test at maaaring gamitin upang subukan ang hypothesis na ang empirical distribution ay tumutugma sa anumang theoretical continuous distribution F(x) na may mga alam na parameter. Ang huling pangyayari ay nagpapataw ng mga paghihigpit sa posibilidad ng isang malawak na praktikal na aplikasyon ng kriterya na ito sa pagsusuri ng mga resulta ng mga mekanikal na pagsubok, dahil ang mga parameter ng pamamahagi ng function ng mga katangian ng mga mekanikal na katangian, bilang panuntunan, ay tinatantya mula sa data ng ang sample mismo.

Ang Kolmogorov-Smirnov criterion ay ginagamit para sa ungrouped data o para sa grouped data sa kaso ng isang maliit na lapad ng pagitan (halimbawa, katumbas ng scale division ng isang force meter, load cycle counter, atbp.). Hayaang ang resulta ng pagsubok ng isang serye ng mga n sample ay isang serye ng pagkakaiba-iba ng mga katangian ng mekanikal na katangian

x1? x2? ... ? xi? ... ? xn. (3.93)

Kinakailangang subukan ang null hypothesis na ang sample distribution (3.93) ay kabilang sa theoretical law F(x).

Ang pamantayan ng Kolmogorov-Smirnov ay batay sa pamamahagi ng maximum na paglihis ng naipon na partikular mula sa halaga ng function ng pamamahagi. Kapag ginagamit ito, ang mga istatistika ay kinakalkula

na isang istatistika ng pagsubok ng Kolmogorov. Kung ang hindi pagkakapantay-pantay

Dnvn? noo (3.97)

para sa malalaking sukat ng sample (n > 35) o

Dn(vn + 0.12 + 0.11/vn) ? noo (3.98)

para sa n? 35, ang null hypothesis ay hindi tinatanggihan.

Kung ang mga hindi pagkakapantay-pantay (3.97) at (3.98) ay hindi nasiyahan, ang alternatibong hypothesis ay tinatanggap na ang sample (3.93) ay kabilang sa isang hindi kilalang distribusyon.

Ang mga kritikal na halaga ng lb ay: л0.1 = 1.22; l0.05 = 1.36; l0.01 = 1.63.

Kung ang mga parameter ng function na F(x) ay hindi alam nang maaga, ngunit tinatantya mula sa sample na data, ang Kolmogorov-Smirnov criterion ay nawawala ang pagiging pangkalahatan nito at magagamit lamang upang suriin ang pagsunod ng pang-eksperimentong data na may ilang partikular na pamamahagi lamang. mga function.

Kapag ginamit bilang null hypothesis, kung ang pang-eksperimentong data ay kabilang sa isang normal o log-normal na distribusyon, ang mga istatistika ay kinakalkula:

kung saan ang Ц(zi) ay ang halaga ng Laplace function para sa

Ц(zi) = (xi - xср)/s Ang Kolmogorov-Smirnov criterion para sa anumang sample size n ay isinusulat bilang

Ang mga kritikal na halaga ng lb sa kasong ito ay: л0.1 = 0.82; l0.05 = 0.89; l0.01 = 1.04.

Kung susuriin ang hypothesis tungkol sa pagsunod ng sample sa *** exponential distribution, ang parameter kung saan ay tinatantya mula sa pang-eksperimentong data, ang mga katulad na istatistika ay kinakalkula:

criterion empirical probability

at bumubuo sa Kolmogorov-Smirnov criterion.

Ang mga kritikal na halaga ng lb para sa kasong ito ay: λ0.1 = 0.99; l0.05 = 1.09; l0.01 = 1.31.

Upang subukan ang hypothesis tungkol sa pagsusulatan ng empirical distribution sa theoretical law of distribution, ginagamit ang mga espesyal na istatistikal na tagapagpahiwatig - goodness-of-fit na pamantayan (o pamantayan sa pagsunod). Kabilang dito ang mga pamantayan ng Pearson, Kolmogorov, Romanovsky, Yastremsky, atbp. Karamihan sa goodness of fit na pamantayan ay batay sa paggamit ng mga deviations ng empirical frequency mula sa mga teoretikal. Malinaw, mas maliit ang mga paglihis na ito, mas mahusay ang teoretikal na pamamahagi ay tumutugma (o naglalarawan) sa empirical.

Pamantayan ng Pahintulot- ito ang mga pamantayan para sa pagsubok ng mga hypotheses tungkol sa pagkakatugma ng empirical distribution sa theoretical probability distribution. Ang nasabing pamantayan ay nahahati sa dalawang klase: pangkalahatan at espesyal. Ang pangkalahatang goodness-of-fit na pamantayan ay nalalapat sa pinaka-pangkalahatang pagbabalangkas ng isang hypothesis, ibig sabihin, sa hypothesis na ang mga naobserbahang resulta ay sumasang-ayon sa anumang a priori na ipinapalagay na probability distribution. Ang mga espesyal na pagsubok sa goodness-of-fit ay nagpapahiwatig ng mga espesyal na null hypotheses na bumubuo ng kasunduan sa isang tiyak na anyo ng pamamahagi ng posibilidad.

Ang pamantayan ng kasunduan, batay sa itinatag na batas sa pamamahagi, ay ginagawang posible na maitaguyod kung kailan dapat kilalanin ang mga pagkakaiba sa pagitan ng teoretikal at empirical na mga frequency bilang hindi gaanong mahalaga (random), at kapag - makabuluhan (hindi random). Ito ay sumusunod mula dito na ang goodness-of-fit na pamantayan ay ginagawang posible na tanggihan o kumpirmahin ang kawastuhan ng hypothesis na iniharap kapag ni-level ang serye tungkol sa katangian ng distribusyon sa empirical series at upang masagot kung posible bang tanggapin ang isang modelong ipinahayag ng ilang teoretikal na batas sa pamamahagi para sa isang naibigay na empirikal na pamamahagi.

Pearson goodness-of-fit test Ang c 2 (chi-square) ay isa sa mga pangunahing pamantayan ng goodness-of-fit. Iminungkahi ng English mathematician na si Karl Pearson (1857-1936) upang masuri ang randomness (significance) ng mga pagkakaiba sa pagitan ng mga frequency ng empirical at theoretical distribution:

Ang pamamaraan para sa paglalapat ng criterion c 2 sa pagtatasa ng pagkakapare-pareho ng teoretikal at empirikal na distribusyon ay ang mga sumusunod:

1. Natutukoy ang nakalkulang sukat ng pagkakaiba.

2. Natutukoy ang bilang ng mga antas ng kalayaan.

3. Natutukoy ang bilang ng mga antas ng kalayaan n gamit ang isang espesyal na talahanayan.

4. Kung , pagkatapos ay para sa isang naibigay na antas ng kahalagahan α at ang bilang ng mga antas ng kalayaan n, ang hypothesis ng hindi gaanong (random) na mga pagkakaiba ay tinanggihan. Kung hindi man, ang hypothesis ay maaaring kilalanin bilang hindi sumasalungat sa nakuha na pang-eksperimentong data, at may probabilidad (1 – α) maaari itong pagtalunan na ang mga pagkakaiba sa pagitan ng teoretikal at empirical na mga frequency ay random.

Lebel ng kahalagahan ay ang posibilidad ng maling pagtanggi sa iniharap na hypothesis, i.e. ang posibilidad na ang tamang hypothesis ay tatanggihan. Sa mga pag-aaral sa istatistika, depende sa kahalagahan at responsibilidad ng mga gawaing nilulutas, ang sumusunod na tatlong antas ng kahalagahan ay ginagamit:

1) a = 0.1, pagkatapos R = 0,9;

2) a = 0.05, pagkatapos R = 0,95;

3) a = 0.01, pagkatapos R = 0,99.

Gamit ang goodness-of-fit criterion c 2 , ang mga sumusunod na kondisyon ay dapat sundin:

1. Ang dami ng pinag-aralan na populasyon ay dapat sapat na malaki ( N≥ 50), habang ang dalas o laki ng grupo ay dapat na hindi bababa sa 5. Kung ang kundisyong ito ay nilabag, kinakailangan munang pagsamahin ang maliliit na frequency (mas mababa sa 5).

2. Ang empirical distribution ay dapat na binubuo ng data na nakuha bilang resulta ng random selection, i.e. dapat maging independent sila.

Ang kawalan ng goodness-of-fit criterion ni Pearson ay ang pagkawala ng ilan sa mga paunang impormasyong nauugnay sa pangangailangang pangkatin ang mga resulta ng obserbasyon sa mga pagitan at pagsamahin ang mga indibidwal na agwat na may maliit na bilang ng mga obserbasyon. Kaugnay nito, inirerekumenda na dagdagan ang pag-verify ng pagsusulatan ng mga pamamahagi ayon sa pamantayan na may 2 iba pang pamantayan. Ito ay kinakailangan lalo na kapag ang laki ng sample ay medyo maliit ( n ≈ 100).

Sa statistics Kolmogorov's goodness-of-fit test(kilala rin bilang Kolmogorov-Smirnov goodness-of-fit test) ay ginagamit upang matukoy kung ang dalawang empirikal na distribusyon ay sumusunod sa parehong batas, o upang matukoy kung ang resultang pamamahagi ay sumusunod sa iminungkahing modelo. Ang Kolmogorov criterion ay batay sa pagtukoy sa pinakamataas na pagkakaiba sa pagitan ng mga naipon na frequency o ang mga frequency ng empirical o theoretical distribution. Ang Kolmogorov criterion ay kinakalkula ayon sa mga sumusunod na formula:

saan D at d- ayon sa pagkakabanggit, ang maximum na pagkakaiba sa pagitan ng mga naipon na frequency ( ff¢) at sa pagitan ng mga naipon na frequency ( pp¢) empirical at teoretikal na serye ng mga pamamahagi; N- ang bilang ng mga yunit sa populasyon.

Ang pagkakaroon ng pagkalkula ng halaga ng λ, tinutukoy ng isang espesyal na talahanayan ang posibilidad kung saan maaari itong mapagtatalunan na ang mga paglihis ng mga empirical na frequency mula sa mga teoretikal ay random. Kung ang pag-sign ay tumatagal ng mga halaga hanggang sa 0.3, nangangahulugan ito na mayroong isang kumpletong pagkakaisa ng mga frequency. Sa isang malaking bilang ng mga obserbasyon, ang pagsubok ng Kolmogorov ay nakakakita ng anumang paglihis mula sa hypothesis. Nangangahulugan ito na ang anumang pagkakaiba sa pagitan ng pamamahagi ng sample at ang teoretikal ay makikita sa tulong nito kung mayroong maraming mga obserbasyon. Ang praktikal na kahalagahan ng ari-arian na ito ay hindi makabuluhan, dahil sa karamihan ng mga kaso mahirap umasa sa pagkuha ng isang malaking bilang ng mga obserbasyon sa ilalim ng pare-parehong mga kondisyon, ang teoretikal na ideya ng batas sa pamamahagi kung saan ang sample ay dapat sundin ay palaging tinatayang, at ang katumpakan ng mga istatistikal na pagsusuri ay hindi dapat lumampas sa katumpakan ng napiling modelo.

Romanovsky's goodness-of-fit criterion batay sa paggamit ng pamantayan ng Pearson, i.e. natagpuan na ang mga halaga c 2 , at ang bilang ng mga antas ng kalayaan:

kung saan ang n ay ang bilang ng mga antas ng kalayaan ng pagkakaiba-iba.

Ang Romanovsky criterion ay maginhawa sa kawalan ng mga talahanayan para sa . Kung ang< 3, то расхождения распределений случайны, если же >3, kung gayon ang mga ito ay hindi random at ang teoretikal na pamamahagi ay hindi maaaring magsilbi bilang isang modelo para sa empirical na pamamahagi sa ilalim ng pag-aaral.

B. S. Yastremsky ginamit sa goodness of fit criterion hindi ang bilang ng mga antas ng kalayaan, ngunit ang bilang ng mga grupo ( k), isang espesyal na halaga q depende sa bilang ng mga pangkat, at isang chi-square na halaga. Ang pamantayan ng kasunduan ni Yastremsky ay may parehong kahulugan tulad ng Romanovsky criterion at ipinahayag ng formula

kung saan c 2 - criterion ng kasunduan ni Pearson; - bilang ng mga pangkat; q - koepisyent, para sa bilang ng mga pangkat na mas mababa sa 20 katumbas ng 0.6.

Kung ang L katotohanan > 3, ang mga pagkakaiba sa pagitan ng teoretikal at empirikal na distribusyon ay hindi basta-basta, i.e. ang empirical distribution ay hindi nakakatugon sa mga kinakailangan ng isang normal na distribution. Kung ang L katotohanan< 3, расхождения между эмпирическим и теоретическим распределениями считаются случайными.

Sa pamamagitan ng pagpoproseso ng mga independiyenteng sukat ng random variable ξ, makakagawa tayo ng statistical distribution function F*(x). Sa pamamagitan ng anyo ng function na ito, maaaring tanggapin ng isa ang hypothesis na ang tunay na theoretical distribution function ay F(x). Ang mga independiyenteng sukat mismo (x 1 , x 2 ,…,x n) na bumubuo sa sample ay maaaring ituring na magkaparehong distributed na mga random na variable na may hypothetical distribution function na F(x).

Malinaw, magkakaroon ng ilang mga pagkakaiba sa pagitan ng mga function F * (x) at F (x). Lumilitaw ang tanong kung ang mga pagkakaibang ito ay bunga ng limitadong laki ng sample o nauugnay sa katotohanang hindi tama ang aming hypothesis, ibig sabihin. ang aktwal na function ng pamamahagi ay hindi F(x), ngunit iba pa. Upang malutas ang isyung ito, ginagamit ang pamantayan ng pagpayag, ang kakanyahan nito ay ang mga sumusunod. Ang isang tiyak na halaga Δ(F, F *) ay pinili, na nagpapakilala sa antas ng pagkakaiba sa pagitan ng mga function F * (x) at F(x). Halimbawa, Δ(F, F *)=Sup|F(x)-F * (x)|, i.e. ang upper bound sa x ng modulus ng difference.

Ipagpalagay na tama ang hypothesis, i.e. alam ang distribution function F(x), mahahanap ng isa ang distribution law ng random variable Δ(F, F *) (hindi namin hipuin ang tanong kung paano ito gagawin). Itakda natin ang bilang na p 0 na napakaliit na ang pagsasakatuparan ng kaganapan (Δ(F, F *)>Δ 0 ) na may ganitong posibilidad ay maituturing na halos imposible. Mula sa kondisyon

hanapin ang halaga Δ 0 . Dito ang f(x) ay ang distribution density Δ(F,F *).

Kalkulahin natin ngayon ang halaga Δ(F, F *)= Δ 1 mula sa mga resulta

mga sample, i.e. hanapin ang isa sa mga posibleng halaga ng random variable Δ(F, F *). Kung Δ 1 ≥Δ 0 , nangangahulugan ito na isang halos imposibleng kaganapan ang naganap. Ito ay maaaring ipaliwanag sa pamamagitan ng katotohanan na ang aming hypothesis ay hindi tama. Kaya, kung Δ 1 ≥Δ 0, kung gayon ang hypothesis ay tinanggihan, at kapag Δ 1<Δ 0 , гипотеза может оказаться неверной, но вероятность этого мала.

Bilang sukatan ng pagkakaiba Δ(F, F *) ang isa ay maaaring kumuha ng iba't ibang halaga. Depende dito, iba't ibang pamantayan ng kasunduan ang nakuha. Halimbawa, ang Kolmogorov, Mises, Pearson goodness-of-fit test, o ang chi-square test.

Hayaang ipakita ang mga resulta ng n mga sukat bilang isang pinagsama-samang serye ng istatistika na may mga k digit.

DISCHARGE (x 0 ,x 1) (sa katunayan, ipinapalagay namin na ang mga error sa pagsukat ay ibinahagi nang pantay-pantay sa isang partikular na segment). Kung gayon ang posibilidad na matamaan ang bawat isa sa pitong numero ay magiging katumbas ng . Gamit ang pinagsama-samang serye mula sa §11, kinakalkula namin ang Δ(F, F *)= Δ 1 =sa pamamagitan ng formula (1). Sa kasong ito.

Dahil ang hypothetical distribution law ay may kasamang dalawang hindi kilalang parameter, α at β - ang simula at dulo ng segment, ang bilang ng mga degree ng kalayaan ay magiging 7-1-2=4. Ayon sa talahanayan ng pamamahagi ng chi-square na may napiling probabilidad p 0 =10 -3 makikita natin ang Δ 0 =18. kasi Δ 1 >Δ 0 , kung gayon ang hypothesis ng isang pare-parehong pamamahagi ng error sa pagsukat ay kailangang itapon.