Normal na batas ng pamamahagi ng posibilidad. Pagsusuri ng istatistika ng mga numerong halaga (hindi parametric na istatistika)

    Paano maayos na pamahalaan ang pananalapi ng iyong negosyo kung hindi ka eksperto sa larangan ng pagsusuri sa pananalapi - Ang pagsusuri sa pananalapi

    Pamamahala sa pananalapi - mga relasyon sa pananalapi sa pagitan ng mga paksa, pamamahala sa pananalapi sa iba't ibang antas, pamamahala ng portfolio, mga pamamaraan ng pamamahala ng paggalaw ng mga mapagkukunang pinansyal - hindi ito isang kumpletong listahan ng paksa " Pamamahala sa pananalapi"

    Pag-usapan natin kung ano pagtuturo? Ang ilan ay naniniwala na ito ay isang burges na tatak, ang iba ay isang pambihirang tagumpay sa modernong negosyo. Ang coaching ay isang hanay ng mga panuntunan para sa matagumpay na negosyo, pati na rin ang kakayahang maayos na pamahalaan ang mga panuntunang ito.

4.1. Kadalasan ba ay normal ang pamamahagi ng mga obserbasyon?

Sa mga modelong pang-ekonomiya at pang-ekonomiya-matematika na ginamit, sa partikular, sa pag-aaral at pag-optimize ng mga proseso ng marketing at pamamahala, pamamahala ng negosyo at rehiyon, katumpakan at katatagan ng mga prosesong teknolohikal, sa mga problema sa pagiging maaasahan, kaligtasan, kabilang ang kaligtasan sa kapaligiran, ang paggana ng teknikal. mga device at bagay , ang pagbuo ng mga organizational chart ay madalas na naglalapat ng mga konsepto at resulta ng probability theory at mathematical statistics. Sa kasong ito, kadalasang ginagamit ang ilang parametric na pamilya ng mga pamamahagi ng posibilidad. Ang pinakasikat ay ang normal na pamamahagi. Ginagamit din ang log-normal distribution, exponential distribution, gamma distribution, Weibull-Gnedenko distribution, atbp.

Malinaw, palaging kinakailangan upang suriin ang pagkakaayon ng mga modelo sa katotohanan. May dalawang tanong. Naiiba ba ang aktwal na mga distribusyon sa mga ginamit sa modelo? Gaano kalawak ang epekto ng pagkakaibang ito sa mga konklusyon?

Sa ibaba, gamit ang halimbawa ng normal na distribusyon at ang mga pamamaraan para sa pagtanggi sa iba't ibang mga obserbasyon (outlier) batay dito, ipinapakita na ang mga tunay na distribusyon ay halos palaging naiiba sa mga kasama sa mga klasikal na parametric na pamilya, at ang umiiral na mga paglihis mula sa mga ibinigay na pamilya. gumawa ng mga maling konklusyon, sa kasong isinasaalang-alang, tungkol sa pagtanggi batay sa paggamit ng mga pamilyang ito.

Mayroon bang anumang dahilan upang ipagpalagay na priori ang normalidad ng mga resulta ng pagsukat?

Minsan ay pinagtatalunan na sa kaso kapag ang error sa pagsukat (o iba pang random na variable) ay tinutukoy bilang resulta ng pinagsama-samang pagkilos ng maraming maliliit na salik, kung gayon, dahil sa Central Limit Theorem (CLT) ng probability theory, ang halagang ito ay mahusay na tinantiya (sa pamamagitan ng pamamahagi) ng isang normal na random na variable. Ang pahayag na ito ay totoo kung ang maliliit na salik ay kumikilos nang magkakasama at independiyente sa isa't isa. Kung kumikilos sila nang multiplicative, kung gayon, dahil sa parehong CLT, kinakailangan na tantiyahin sa pamamagitan ng isang log-normal na pamamahagi. Sa mga inilapat na problema, kadalasan ay hindi posible na patunayan ang additivity kaysa sa multiplicativity ng pagkilos ng maliliit na salik. Kung ang pag-asa ay isang pangkalahatang kalikasan, ay hindi nabawasan sa isang additive o multiplicative form, at walang mga batayan upang tanggapin ang mga modelo na nagbibigay ng exponential, Weibull-Gnedenko, gamma o iba pang mga distribusyon, kung gayon halos walang nalalaman tungkol sa pamamahagi ng panghuling random na variable, maliban sa mga intra-mathematical na katangian tulad ng regularity .

Kapag nagpoproseso ng partikular na data, minsan ay pinaniniwalaan na ang mga error sa pagsukat ay may normal na distribusyon. Sa pag-aakala ng normalidad, ang mga klasikal na modelo ng regression, dispersion, factor analysis, metrological na mga modelo ay itinayo, na patuloy pa ring matatagpuan kapwa sa lokal na regulasyon at teknikal na dokumentasyon at sa mga internasyonal na pamantayan. Ang mga modelo para sa pagkalkula ng pinakamataas na maaabot na antas ng ilang mga katangian na ginagamit sa disenyo ng mga sistema para sa pagtiyak ng kaligtasan ng paggana ng mga istrukturang pang-ekonomiya, mga teknikal na kagamitan at mga bagay ay batay sa parehong palagay. Gayunpaman, walang teoretikal na batayan para sa naturang pagpapalagay. Kinakailangang eksperimento na pag-aralan ang pamamahagi ng mga pagkakamali.

Ano ang ipinapakita ng mga eksperimentong resulta? Ang buod na ibinigay sa monograph ay nagbibigay-daan sa amin na sabihin na sa karamihan ng mga kaso ang pamamahagi ng mga error sa pagsukat ay naiiba mula sa normal. Kaya, sa Machine-Electrotechnical Institute (Varna, Bulgaria), ang pamamahagi ng mga error sa pagkakalibrate para sa mga kaliskis ng mga analog na instrumento sa pagsukat ng elektrikal ay pinag-aralan. Ang mga aparatong ginawa sa Czechoslovakia, USSR at Bulgaria ay pinag-aralan. Ang batas sa pamamahagi ng error ay naging pareho. Ito ay may density

Sinuri namin ang data sa mga parameter ng 219 aktwal na distribusyon ng mga error, na pinag-aralan ng iba't ibang mga may-akda, kapag sinusukat ang parehong mga de-koryente at hindi de-kuryenteng dami na may malawak na uri ng (electrical) na mga aparato. Bilang resulta ng pag-aaral na ito, lumabas na 111 distribusyon, i.e. humigit-kumulang 50% ang nabibilang sa klase ng mga distribusyon na may density

nasaan ang degree na parameter; b - shift parameter; - parameter ng sukat; - gamma function ng argumento ;

(cm. ); 63 distribusyon, i.e. 30% ay may flat-top density na may mahaba, banayad na slope at hindi maaaring ilarawan bilang normal o, halimbawa, exponential. Ang natitirang 45 na pamamahagi ay naging bimodal.

Sa libro ng sikat na metroologist na si prof. Inilalahad ni PV Novitsky ang mga resulta ng isang pag-aaral ng mga batas ng pamamahagi ng iba't ibang uri ng mga error sa pagsukat. Pinag-aralan niya ang pamamahagi ng mga error ng mga electromechanical na instrumento sa mga core, mga elektronikong instrumento para sa pagsukat ng mga temperatura at pwersa, mga digital na instrumento na may manu-manong pagbabalanse. Ang dami ng mga sample ng pang-eksperimentong data para sa bawat ispesimen ay 100–400 na pagbabasa. Lumalabas na 46 sa 47 na mga distribusyon ay makabuluhang naiiba sa normal. Ang hugis ng pamamahagi ng mga error sa 25 na kopya ng Shch-1411 digital voltmeters sa 10 puntos ng saklaw ay pinag-aralan. Ang mga resulta ay magkatulad. Ang karagdagang impormasyon ay nakapaloob sa monograph.

Sinuri ng Applied Mathematics Laboratory ng Tartu State University ang 2,500 sample mula sa archive ng totoong istatistikal na data. Sa 92%, ang normality hypothesis ay kailangang tanggihan.

Ang mga paglalarawan sa itaas ng pang-eksperimentong data ay nagpapakita na ang mga error sa pagsukat sa karamihan ng mga kaso ay may mga distribusyon na naiiba sa mga normal. Nangangahulugan ito, sa partikular, na karamihan sa mga aplikasyon ng t-test ng Estudyante, pagsusuri ng klasikal na regression, at iba pang mga istatistikal na pamamaraan batay sa normal na teorya ay, mahigpit na pagsasalita, ay hindi makatwiran, dahil ang pinagbabatayan na axiom ng normalidad ng mga distribusyon ng kaukulang random ang mga variable ay hindi tama.

Malinaw, upang bigyang-katwiran o makatwirang baguhin ang umiiral na kasanayan sa pagsusuri ng istatistikal na data, kinakailangang pag-aralan ang mga katangian ng mga pamamaraan ng pagsusuri ng data sa mga "ilegal" na aplikasyon. Ang pag-aaral ng mga pamamaraan ng pagtanggi ay nagpakita na ang mga ito ay lubhang hindi matatag sa mga paglihis mula sa normalidad, at samakatuwid ay hindi ipinapayong gamitin ang mga ito para sa pagproseso ng totoong data (tingnan sa ibaba); samakatuwid, hindi maaaring igiit ng isang tao na ang isang arbitraryong ginawang pamamaraan ay matatag laban sa mga paglihis mula sa normalidad.

Minsan iminumungkahi na bago mag-apply, halimbawa, ang pagsusulit ng Mag-aaral para sa homogeneity ng dalawang sample, suriin ang normalidad. Bagama't mayroong maraming pamantayan para dito, ang pagsubok para sa normalidad ay isang mas kumplikado at nakakaubos ng oras na istatistikal na pamamaraan kaysa sa pagsubok para sa homogeneity (parehong may mga istatistika ng uri ng Mag-aaral at may mga pagsubok na hindi parametric). Ang isang medyo malaking bilang ng mga obserbasyon ay kinakailangan upang maitaguyod ang normalidad na sapat na mapagkakatiwalaan. Kaya, upang masiguro na ang distribution function ng mga resulta ng mga obserbasyon ay naiiba sa ilang normal ng hindi hihigit sa 0.01 (para sa anumang halaga ng argumento), humigit-kumulang 2500 obserbasyon ang kinakailangan. Sa karamihan ng pang-ekonomiya, teknikal, biomedical at iba pang inilapat na pag-aaral, ang bilang ng mga obserbasyon ay makabuluhang mas kaunti. Ito ay totoo lalo na para sa data na ginamit sa pag-aaral ng mga problema na nauugnay sa pagtiyak ng kaligtasan ng paggana ng mga istrukturang pang-ekonomiya at mga teknikal na bagay.

Minsan sinusubukan nilang gamitin ang CCT upang tantiyahin ang pamamahagi ng error sa normal, kabilang ang mga espesyal na adder sa teknolohikal na pamamaraan ng pagsukat na aparato. Suriin natin ang pagiging kapaki-pakinabang ng panukalang ito. Hayaang ang Z1 , Z2 ,…, Zk ay independiyenteng magkaparehong ibinahagi sa mga random na variable na may function ng pamamahagi H = H(x) tulad na Isaalang-alang

Ang indicator ng proximity sa normality na ibinigay ng adder ay

Ang tamang hindi pagkakapantay-pantay sa huling kaugnayan ay sumusunod mula sa mga pagtatantya ng pare-pareho sa hindi pagkakapantay-pantay ng Berry-Esseen na nakuha sa aklat, at ang kaliwa, mula sa halimbawa sa monograph. Para sa isang normal na batas = 1.6, para sa isang pare-parehong batas = 1.3, para sa dalawang-puntong batas = 1 (ito ang lower bound para sa ). Samakatuwid, upang matiyak na ang distansya (sa sukatan ng Kolmogorov) sa normal na distribusyon ay hindi hihigit sa 0.01 para sa "hindi matagumpay" na mga pamamahagi, kailangan ng hindi bababa sa k0 na mga termino, kung saan

Sa karaniwang ginagamit na mga adder, ang mga termino ay mas maliit. Sa pamamagitan ng pagpapaliit sa klase ng mga posibleng distribusyon ng H, maaaring makuha ng isa, tulad ng ipinapakita sa monograph, ang mas mabilis na convergence, ngunit dito ang teorya ay hindi pa sumasanib sa pagsasanay. Bilang karagdagan, hindi malinaw kung ang lapit ng distribusyon sa normal (sa isang tiyak na sukatan) ay nagsisiguro din sa kalapitan ng distribusyon ng mga istatistika na binuo mula sa mga random na variable na may ganitong distribusyon sa distribusyon ng mga istatistika na naaayon sa mga normal na obserbasyon. Tila, para sa bawat tiyak na istatistika, kailangan ang mga espesyal na teoretikal na pag-aaral. Sa mga outlier na problema sa pagtanggi, ang sagot ay: "Hindi nagbibigay" (tingnan sa ibaba).

Tandaan na ang resulta ng anumang tunay na pagsukat ay naitala gamit ang isang may hangganang bilang ng mga decimal na lugar, kadalasang maliit (2-5), kaya ipinapayong imodelo ang anumang tunay na data gamit lamang ang mga discrete random variable na kumukuha ng limitadong bilang ng mga value. Ang normal na distribusyon ay isang pagtatantya lamang ng tunay na distribusyon. Kaya, halimbawa, ang data ng isang tiyak na pag-aaral, na ibinigay sa trabaho, ay kumukuha ng mga halaga mula 1.0 hanggang 2.2, i.e. mayroong 13 posibleng mga halaga sa kabuuan. Ito ay sumusunod mula sa Dirichlet na prinsipyo na sa ilang mga punto ang distribution function na binuo ayon sa work data ay naiiba mula sa pinakamalapit na normal distribution function sa pamamagitan ng hindi bababa sa 1/26, i.e. sa pamamagitan ng 0.04. Bilang karagdagan, malinaw na para sa isang normal na distribusyon ng isang random na variable, ang posibilidad na mahulog sa isang discrete set ng mga decimal na numero na may ibinigay na bilang ng mga decimal na lugar ay 0.

Ito ay sumusunod mula sa itaas na ang mga resulta ng mga sukat at, sa pangkalahatan, ang istatistikal na data ay may mga katangian na humahantong sa katotohanan na dapat silang i-modelo ng mga random na variable na may mga distribusyon na mas marami o mas kaunting naiiba sa mga normal. Sa karamihan ng mga kaso, malaki ang pagkakaiba ng mga distribusyon mula sa mga normal na distribusyon; sa iba, ang mga normal na distribusyon ay maaaring maituring na ilang uri ng pagtatantya, ngunit hindi kailanman isang kumpletong pagkakataon. Ipinahihiwatig nito ang parehong pangangailangang pag-aralan ang mga katangian ng mga klasikal na pamamaraan sa istatistika sa mga di-klasikal na probabilistikong modelo (katulad ng ginagawa sa ibaba para sa pamantayan ng Estudyante), at ang pangangailangang bumuo ng matatag (isinasaalang-alang ang pagkakaroon ng mga paglihis mula sa normalidad) at nonparametric, kabilang ang mga pamamaraan na walang distribusyon, ang kanilang malawak na pagpapakilala sa pagsasanay ng pagpoproseso ng istatistikal na data.

Ang mga pagsasaalang-alang na tinanggal dito para sa iba pang mga parametric na pamilya ay humantong sa mga katulad na konklusyon. Ang resulta ay maaaring formulated bilang mga sumusunod. Ang mga tunay na pamamahagi ng data ay halos hindi nabibilang sa anumang partikular na pamilya ng parametric. Ang mga tunay na pamamahagi ay palaging naiiba sa mga kasama sa mga pamilyang parametric. Ang mga pagkakaiba ay maaaring malaki o maliit, ngunit palagi silang umiiral. Subukan nating unawain kung gaano kahalaga ang mga pagkakaibang ito para sa pagsusuri sa ekonomiya.

Lahat ng karapatan ay nakalaan. Ang mga materyal sa site na ito ay maaari lamang gamitin sa isang link sa site na ito.

Orlov A.I. Kadalasan ba ay normal ang pamamahagi ng mga obserbasyon? - Magazine na "Factory Laboratory". 1991 T.57. No.7 P.64-66.

Kadalasan ba ay normal ang pamamahagi ng mga obserbasyon?

A.I.Orlov

Ang mga resulta ng mga sukat at, sa pangkalahatan, ang istatistikal na data ay may mga katangian na humahantong sa katotohanan na dapat silang i-modelo ng mga random na variable na may mga distribusyon na higit pa o mas kaunting naiiba sa normal. Sa karamihan ng mga kaso, ang mga pamamahagi ay makabuluhang naiiba mula sa normal. Sa iba, ang mga normal na distribusyon ay maaaring ituring na isang uri ng pagtatantya. Ngunit walang perpektong tugma. Ipinahihiwatig nito ang parehong pangangailangang pag-aralan ang mga katangian ng mga klasikal na istatistikal na pamamaraan sa mga di-klasikal na probabilistikong modelo, at ang pangangailangang bumuo ng matatag (isinasaalang-alang ang pagkakaroon ng mga paglihis mula sa normalidad) at hindi parametric, kabilang ang mga pamamaraang walang pamamahagi, ang kanilang malawak panimula sa pagsasagawa ng pagpoproseso ng istatistikal na data.

Sa mga modelong pang-ekonomiya at pang-ekonomiya-matematika na ginamit, sa partikular, sa pag-aaral at pag-optimize ng mga proseso ng marketing at pamamahala, pamamahala ng negosyo at rehiyon, katumpakan at katatagan ng mga prosesong teknolohikal, sa mga problema sa pagiging maaasahan, kaligtasan, kabilang ang kaligtasan sa kapaligiran, ang paggana ng teknikal. mga device at bagay , ang pagbuo ng mga organizational chart ay madalas na naglalapat ng mga konsepto at resulta ng probability theory at mathematical statistics. Sa kasong ito, kadalasang ginagamit ang ilang parametric na pamilya ng mga pamamahagi ng posibilidad. Ang pinakasikat ay ang normal na pamamahagi. Ginagamit din ang log-normal distribution, exponential distribution, gamma distribution, Weibull-Gnedenko distribution, atbp.

Malinaw, palaging kinakailangan upang suriin ang pagkakaayon ng mga modelo sa katotohanan. May dalawang tanong. Naiiba ba ang aktwal na mga distribusyon sa mga ginamit sa modelo? Gaano kalawak ang epekto ng pagkakaibang ito sa mga konklusyon?

Sa ibaba, gamit ang halimbawa ng normal na distribusyon at ang mga pamamaraan para sa pagtanggi sa iba't ibang mga obserbasyon (outlier) batay dito, ipinapakita na ang mga tunay na distribusyon ay halos palaging naiiba sa mga kasama sa mga klasikal na parametric na pamilya, at ang umiiral na mga paglihis mula sa mga ibinigay na pamilya. gumawa ng mga maling konklusyon, sa kasong isinasaalang-alang, tungkol sa pagtanggi batay sa paggamit ng mga pamilyang ito.

Mayroon bang anumang dahilan upang ipagpalagay na priori ang normalidad ng mga resulta ng pagsukat?

Minsan ay pinagtatalunan na sa kaso kapag ang error sa pagsukat (o iba pang random na variable) ay tinutukoy bilang resulta ng pinagsama-samang pagkilos ng maraming maliliit na salik, kung gayon, dahil sa Central Limit Theorem (CLT) ng probability theory, ang halagang ito ay mahusay na tinantiya (sa pamamagitan ng pamamahagi) ng isang normal na random na variable. Ang pahayag na ito ay totoo kung ang maliliit na salik ay kumikilos nang magkakasama at independiyente sa isa't isa. Kung kumikilos sila nang multiplicative, kung gayon, dahil sa parehong CLT, kinakailangan na tantiyahin sa pamamagitan ng isang log-normal na distribusyon. Sa mga inilapat na problema, kadalasan ay hindi posible na patunayan ang additivity kaysa sa multiplicativity ng pagkilos ng maliliit na salik. Kung ang pag-asa ay isang pangkalahatang kalikasan, ay hindi nabawasan sa isang additive o multiplicative form, at walang mga batayan upang tanggapin ang mga modelo na nagbibigay ng exponential, Weibull-Gnedenko, gamma o iba pang mga distribusyon, kung gayon halos walang nalalaman tungkol sa pamamahagi ng panghuling random na variable, maliban sa mga intra-mathematical na katangian tulad ng regularity .

Kapag nagpoproseso ng partikular na data, minsan ay pinaniniwalaan na ang mga error sa pagsukat ay may normal na distribusyon. Sa pagpapalagay ng normalidad, ang mga klasikal na modelo ng regression, dispersion, factor analysis, metrological na mga modelo ay itinayo, na patuloy pa ring matatagpuan sa domestic na regulasyon at teknikal na dokumentasyon at sa mga internasyonal na pamantayan. Ang mga modelo para sa pagkalkula ng pinakamataas na maaabot na antas ng ilang mga katangian na ginagamit sa disenyo ng mga sistema para sa pagtiyak ng kaligtasan ng paggana ng mga istrukturang pang-ekonomiya, mga teknikal na kagamitan at mga bagay ay batay sa parehong palagay. Gayunpaman, walang teoretikal na batayan para sa naturang pagpapalagay. Kinakailangang eksperimento na pag-aralan ang pamamahagi ng mga pagkakamali.

Ano ang ipinapakita ng mga eksperimentong resulta? Ang buod na ibinigay sa monograph ay nagbibigay-daan sa amin na sabihin na sa karamihan ng mga kaso ang distribusyon ng mga error sa pagsukat ay naiiba mula sa normal. Kaya, sa Machine-Electrotechnical Institute (Varna, Bulgaria), ang pamamahagi ng mga error sa pagkakalibrate para sa mga kaliskis ng mga analog na instrumento sa pagsukat ng elektrikal ay pinag-aralan. Ang mga aparatong ginawa sa Czechoslovakia, USSR at Bulgaria ay pinag-aralan. Ang batas sa pamamahagi ng error ay naging pareho. Ito ay may density

Sinuri namin ang data sa mga parameter ng 219 aktwal na distribusyon ng mga error, na pinag-aralan ng iba't ibang mga may-akda, kapag sinusukat ang parehong mga de-koryente at hindi elektrikal na dami na may malawak na iba't ibang (electrical) na mga aparato. Bilang resulta ng pag-aaral na ito, lumabas na 111 distribusyon, i.e. humigit-kumulang 50% ang nabibilang sa klase ng mga distribusyon na may density

nasaan ang degree na parameter; b- shift parameter; - parameter ng sukat; - gamma function ng argument;

(cm. ); 63 distribusyon, i.e. 30% ay may flat-top density na may mahaba, banayad na slope at hindi maaaring ilarawan bilang normal o, halimbawa, exponential. Ang natitirang 45 na pamamahagi ay naging bimodal.

Sa libro ng sikat na metroologist na si prof. Inilalahad ni PV Novitsky ang mga resulta ng isang pag-aaral ng mga batas ng pamamahagi ng iba't ibang uri ng mga error sa pagsukat. Pinag-aralan niya ang pamamahagi ng mga error ng mga electromechanical na instrumento sa mga core, mga elektronikong instrumento para sa pagsukat ng mga temperatura at pwersa, mga digital na instrumento na may manu-manong pagbabalanse. Ang dami ng mga sample ng pang-eksperimentong data para sa bawat ispesimen ay 100–400 na pagbabasa. Lumalabas na 46 sa 47 na mga distribusyon ay makabuluhang naiiba sa normal. Ang hugis ng pamamahagi ng mga error sa 25 na kopya ng Shch-1411 digital voltmeters sa 10 puntos ng saklaw ay pinag-aralan. Ang mga resulta ay magkatulad. Ang karagdagang impormasyon ay nakapaloob sa monograp.

Sinuri ng Applied Mathematics Laboratory ng Tartu State University ang 2,500 sample mula sa archive ng totoong istatistikal na data. Sa 92%, ang normality hypothesis ay kailangang tanggihan.

Ang mga paglalarawan sa itaas ng pang-eksperimentong data ay nagpapakita na ang mga error sa pagsukat sa karamihan ng mga kaso ay may mga distribusyon na naiiba sa mga normal. Nangangahulugan ito, sa partikular, na karamihan sa mga aplikasyon ng t-test ng Estudyante, pagsusuri ng klasikal na regression, at iba pang mga istatistikal na pamamaraan batay sa normal na teorya ay, mahigpit na pagsasalita, ay hindi makatwiran, dahil ang pinagbabatayan na axiom ng normalidad ng mga distribusyon ng kaukulang random ang mga variable ay hindi tama.

Malinaw, upang bigyang-katwiran o makatwirang baguhin ang umiiral na kasanayan sa pagsusuri ng istatistikal na data, kinakailangang pag-aralan ang mga katangian ng mga pamamaraan ng pagsusuri ng data sa mga "ilegal" na aplikasyon. Ang pag-aaral ng mga pamamaraan ng pagtanggi ay nagpakita na ang mga ito ay lubhang hindi matatag sa mga paglihis mula sa normalidad, at samakatuwid ay hindi ipinapayong gamitin ang mga ito para sa pagproseso ng totoong data (tingnan sa ibaba); samakatuwid, hindi maaaring igiit ng isang tao na ang isang arbitraryong ginawang pamamaraan ay matatag laban sa mga paglihis mula sa normalidad.

Minsan iminumungkahi na bago mag-apply, halimbawa, ang pagsusulit ng Mag-aaral para sa homogeneity ng dalawang sample, suriin ang normalidad. Bagama't maraming pamantayan para dito, ang pagsubok para sa normalidad ay isang mas kumplikado at nakakaubos ng oras na istatistikal na pamamaraan kaysa sa pagsubok para sa homogeneity (parehong may mga istatistika ng uri ng Mag-aaral at may mga pagsubok na hindi parametric). Ang isang medyo malaking bilang ng mga obserbasyon ay kinakailangan upang maitatag ang normalidad na sapat na mapagkakatiwalaan. Kaya, upang matiyak na ang distribution function ng mga resulta ng mga obserbasyon ay naiiba mula sa ilang normal na hindi hihigit sa 0.01 (para sa anumang halaga ng argumento), humigit-kumulang 2500 obserbasyon ang kinakailangan. Sa karamihan ng pang-ekonomiya, teknikal, biomedical at iba pang inilapat na pag-aaral, ang bilang ng mga obserbasyon ay makabuluhang mas kaunti. Ito ay totoo lalo na para sa data na ginamit sa pag-aaral ng mga problema na may kaugnayan sa pagtiyak ng kaligtasan ng paggana ng mga istrukturang pang-ekonomiya at mga teknikal na bagay.

Minsan sinusubukan nilang gamitin ang CCT upang tantiyahin ang pamamahagi ng error sa normal, kabilang ang mga espesyal na adder sa teknolohikal na pamamaraan ng pagsukat ng aparato. Suriin natin ang pagiging kapaki-pakinabang ng panukalang ito. Hayaan Z 1 , Z 2 ,…, Z k- independiyenteng magkaparehong ipinamahagi na mga random na variable na may function ng pamamahagi H=H(x) tulad na isaalang-alang

Ang indicator ng proximity sa normality na ibinigay ng adder ay

Ang tamang hindi pagkakapantay-pantay sa huling kaugnayan ay sumusunod mula sa mga pagtatantya ng pare-pareho sa hindi pagkakapantay-pantay ng Berry-Esseen na nakuha sa aklat, at ang kaliwa, mula sa halimbawa sa monograph. Para sa isang normal na batas = 1.6, para sa isang pare-parehong batas = 1.3, para sa isang dalawang-puntong batas = 1 (ito ang lower bound para sa). Samakatuwid, upang matiyak ang distansya (sa sukatan ng Kolmogorov) sa normal na distribusyon na hindi hihigit sa 0.01 para sa "hindi matagumpay" na mga pamamahagi, hindi bababa sa k 0 mga tuntunin, kung saan

Sa karaniwang ginagamit na mga adder, ang mga termino ay mas maliit. Pagpapaliit sa klase ng mga posibleng pamamahagi H, posibleng makuha, tulad ng ipinapakita sa monograph, ang mas mabilis na convergence, ngunit dito ang teorya ay hindi pa sumasanib sa pagsasanay. Bilang karagdagan, hindi malinaw kung ang lapit ng distribusyon sa normal (sa isang tiyak na sukatan) ay nagsisiguro din sa kalapitan ng distribusyon ng mga istatistika na binuo mula sa mga random na variable na may ganitong distribusyon sa distribusyon ng mga istatistika na naaayon sa mga normal na obserbasyon. Tila, para sa bawat tiyak na istatistika, kailangan ang mga espesyal na teoretikal na pag-aaral. Sa mga outlier na problema sa pagtanggi, ang sagot ay: "Hindi nagbibigay" (tingnan sa ibaba).

Tandaan na ang resulta ng anumang tunay na pagsukat ay naitala gamit ang isang may hangganang bilang ng mga decimal na lugar, kadalasang maliit (2-5), kaya ipinapayong imodelo ang anumang tunay na data gamit lamang ang mga discrete random variable na kumukuha ng limitadong bilang ng mga value. Ang normal na distribusyon ay isang pagtatantya lamang ng tunay na distribusyon. Kaya, halimbawa, ang data ng isang tiyak na pag-aaral, na ibinigay sa trabaho, ay kumukuha ng mga halaga mula 1.0 hanggang 2.2, i.e. mayroong 13 posibleng mga halaga sa kabuuan. Ito ay sumusunod mula sa Dirichlet na prinsipyo na sa ilang mga punto ang distribution function na binuo ayon sa work data ay naiiba mula sa pinakamalapit na normal distribution function sa pamamagitan ng hindi bababa sa 1/26, i.e. sa pamamagitan ng 0.04. Bilang karagdagan, malinaw na para sa isang normal na distribusyon ng isang random na variable, ang posibilidad na mahulog sa isang discrete set ng mga decimal na numero na may ibinigay na bilang ng mga decimal na lugar ay 0.

Ito ay sumusunod mula sa itaas na ang mga resulta ng mga sukat at, sa pangkalahatan, ang istatistikal na data ay may mga katangian na humahantong sa katotohanan na dapat silang i-modelo ng mga random na variable na may mga distribusyon na mas marami o mas kaunting naiiba sa mga normal. Sa karamihan ng mga kaso, malaki ang pagkakaiba ng mga distribusyon mula sa mga normal na distribusyon; sa iba, ang mga normal na distribusyon ay maaaring maituring na ilang uri ng pagtatantya, ngunit hindi kailanman isang kumpletong pagkakataon. Ipinahihiwatig nito ang parehong pangangailangang pag-aralan ang mga katangian ng mga klasikal na pamamaraan sa istatistika sa mga di-klasikal na probabilistikong modelo (katulad ng ginagawa sa ibaba para sa pamantayan ng Estudyante), at ang pangangailangang bumuo ng matatag (isinasaalang-alang ang pagkakaroon ng mga paglihis mula sa normalidad) at nonparametric, kabilang ang mga pamamaraan na walang distribusyon, ang kanilang malawak na pagpapakilala sa pagsasanay ng pagpoproseso ng istatistikal na data.

Panitikan

1. Novitsky P.V., Zograf I.A. Pagtatantya ng mga pagkakamali sa mga resulta ng pagsukat. - L.: Energoatomizdat, 1985. - 248 p.

2. Novitsky P.V. Mga batayan ng teorya ng impormasyon ng mga aparato sa pagsukat. - L .: enerhiya, 1968. - 248 p.

3. Borovkov A.A. Teorya ng Probability. - M.: Nauka, 1976. - 352 p.

4. Petrov V.V. Mga kabuuan ng mga independiyenteng random na variable. - M.: Nauka, 1972. - 416 p.

5. Zolotarev V.M. Modernong teorya ng pagsusuma ng mga independiyenteng random na variable. - M.: Nauka, 1986. - 416 p.

6. Egorova L.A., Kharitonov Yu.S., Sokolovskaya L.V. // Laboratory ng pabrika. - 1976. V.42. No. 10. S. 1237.

Isaalang-alang ang dalawang independiyenteng random na variable at , napapailalim sa mga normal na batas:

, (12.6.1)

. (12.6.2)

Kinakailangang gumawa ng komposisyon ng mga batas na ito, ibig sabihin, upang mahanap ang batas ng pamamahagi ng dami:

Inilapat namin ang pangkalahatang formula (12.5.3) para sa komposisyon ng mga batas sa pamamahagi:

. (12.6.3)

Kung bubuksan natin ang mga bracket sa exponent ng integrand at magdadala ng mga katulad na termino, makukuha natin ang:

,

;

;

.

Ang pagpapalit ng mga expression na ito sa formula (9.1.3) na nakilala na natin:

, (12.6.4)

pagkatapos ng mga pagbabagong-anyo nakukuha natin:

, (12.6.5)

at ito ay walang iba kundi isang normal na batas na may dispersion center

at karaniwang paglihis

. (12.6.7)

Ang parehong konklusyon ay maaaring maabot nang mas madali sa tulong ng sumusunod na husay na pangangatwiran.

Nang hindi binubuksan ang mga bracket at nang hindi gumagawa ng mga pagbabago sa integrand (12.6.3), agad nating naiisip na ang exponent ay isang square trinomial na may kinalaman sa form.

,

kung saan ang halaga ay hindi kasama sa koepisyent sa lahat, ito ay kasama sa koepisyent sa unang antas, at sa koepisyent - sa parisukat. Sa pag-iisip na ito at paglalapat ng formula (12.6.4), dumating tayo sa konklusyon na mayroong exponential function, ang exponent nito ay isang square trinomial na may paggalang sa , at ang distribution density ng ganitong uri ay tumutugma sa normal na batas. Kaya, kami ay dumating sa isang puro husay na konklusyon: ang batas ng pamamahagi ng dami ay dapat na normal.

Upang mahanap ang mga parameter ng batas na ito - at - ginagamit namin ang theorem ng pagdaragdag ng mga inaasahan sa matematika at ang theorem ng pagdaragdag ng mga pagkakaiba. Ayon sa pagdaragdag ng teorama ng mga inaasahan sa matematika

Ayon sa variance addition theorem

kung saan sumusunod ang formula (12.6.7).

Ang pagpasa mula sa karaniwang mga paglihis sa malamang na mga paglihis na proporsyonal sa kanila, nakuha namin ang:

Kaya, nakarating tayo sa sumusunod na panuntunan: kapag ang mga normal na batas ay binubuo, ang isang normal na batas ay muling nakuha, at ang matematikal na mga inaasahan at pagkakaiba-iba (o mga parisukat na posibleng paglihis) ay nabubuod.

Ang panuntunan sa komposisyon para sa mga normal na batas ay maaaring gawing pangkalahatan sa kaso ng isang arbitrary na bilang ng mga independiyenteng random na variable.

Kung mayroong mga independiyenteng random na variable:

napapailalim sa mga normal na batas na may mga scattering center

at mga karaniwang paglihis

,

pagkatapos ay ang halaga

sumusunod din sa normal na batas na may mga parameter

Sa halip na formula (12.6.12), maaari mong gamitin ang katumbas na formula:

Kung ang sistema ng mga random na variable ay ipinamamahagi ayon sa normal na batas, ngunit ang mga dami ay nakasalalay, kung gayon ito ay madaling patunayan, tulad ng dati, batay sa pangkalahatang formula (12.5.1), na ang batas ng pamamahagi ng dami

mayroon ding normal na batas. Ang mga scattering center ay idinaragdag pa rin sa algebraically, ngunit para sa standard deviations ang panuntunan ay nagiging mas kumplikado:

, (12.6.14)

nasaan ang koepisyent ng ugnayan ng mga halaga at .

Kapag nagdadagdag ng ilang dependent random variable, na sa kabuuan ng mga ito ay sumusunod sa normal na batas, ang batas ng pamamahagi ng kabuuan ay lumalabas na normal din sa mga parameter.

, (12.6.16)

o posibleng mga paglihis

, (12.6.17)

kung saan ang koepisyent ng ugnayan ng mga halaga, at ang pagsusuma ay umaabot sa lahat ng magkakaibang magkakapares na kumbinasyon ng mga halaga.

Nakita natin ang isang napakahalagang pag-aari ng normal na batas: kapag pinagsama-sama ang mga normal na batas, ang isa ay muling makakakuha ng isang normal na batas. Ito ang tinatawag na "stability property". Ang isang batas sa pamamahagi ay sinasabing matatag kung, sa pamamagitan ng pagbuo ng dalawang batas ng ganitong uri, ang isang batas ng parehong uri ay muling nakuha. Ipinakita namin sa itaas na ang normal na batas ay matatag. Napakakaunting mga batas sa pamamahagi ang may pag-aari ng katatagan. Sa nauna (Halimbawa 2), tiniyak namin na, halimbawa, ang batas ng pare-parehong density ay hindi matatag: kapag binubuo ang dalawang batas ng pare-parehong density sa mga seksyon mula 0 hanggang 1, nakuha namin ang batas ni Simpson.

Ang katatagan ng isang normal na batas ay isa sa mga mahahalagang kondisyon para sa malawak na aplikasyon nito sa pagsasagawa. Gayunpaman, ang pag-aari ng katatagan, bilang karagdagan sa normal, ay taglay din ng ilang iba pang mga batas sa pamamahagi. Ang isang tampok ng normal na batas ay kapag ang isang sapat na malaking bilang ng mga praktikal na arbitrary na batas sa pamamahagi ay binubuo, ang kabuuang batas ay lumalabas na arbitraryong malapit sa normal, anuman ang mga batas sa pamamahagi ng mga termino. Ito ay maaaring ilarawan, halimbawa, sa pamamagitan ng pagbubuo ng tatlong batas ng pare-parehong density sa mga seksyon mula 0 hanggang 1. Ang resultang batas sa pamamahagi ay ipinapakita sa fig. 12.6.1. Tulad ng makikita mula sa pagguhit, ang graph ng function ay halos kapareho sa graph ng normal na batas.

4.1. Kadalasan ba ay normal ang pamamahagi ng mga obserbasyon?

Sa mga modelong pang-ekonomiya at pang-ekonomiya-matematika na ginamit, sa partikular, sa pag-aaral at pag-optimize ng mga proseso ng marketing at pamamahala, pamamahala ng negosyo at rehiyon, katumpakan at katatagan ng mga prosesong teknolohikal, sa mga problema sa pagiging maaasahan, kaligtasan, kabilang ang kaligtasan sa kapaligiran, ang paggana ng teknikal. mga device at bagay , ang pagbuo ng mga organizational chart ay madalas na naglalapat ng mga konsepto at resulta ng probability theory at mathematical statistics. Sa kasong ito, kadalasang ginagamit ang ilang parametric na pamilya ng mga pamamahagi ng posibilidad. Ang pinakasikat ay ang normal na pamamahagi. Ginagamit din ang log-normal distribution, exponential distribution, gamma distribution, Weibull-Gnedenko distribution, atbp.

Malinaw, palaging kinakailangan upang suriin ang pagkakaayon ng mga modelo sa katotohanan. May dalawang tanong. Naiiba ba ang aktwal na mga distribusyon sa mga ginamit sa modelo? Gaano kalawak ang epekto ng pagkakaibang ito sa mga konklusyon?

Sa ibaba, gamit ang halimbawa ng normal na distribusyon at ang mga pamamaraan para sa pagtanggi sa iba't ibang mga obserbasyon (outlier) batay dito, ipinapakita na ang mga tunay na distribusyon ay halos palaging naiiba sa mga kasama sa mga klasikal na parametric na pamilya, at ang umiiral na mga paglihis mula sa mga ibinigay na pamilya. gumawa ng mga maling konklusyon, sa kasong isinasaalang-alang, tungkol sa pagtanggi batay sa paggamit ng mga pamilyang ito.

Mayroon bang anumang dahilan upang ipagpalagay na priori ang normalidad ng mga resulta ng pagsukat?

Minsan ay pinagtatalunan na sa kaso kapag ang error sa pagsukat (o iba pang random na variable) ay tinutukoy bilang resulta ng pinagsama-samang pagkilos ng maraming maliliit na salik, kung gayon, dahil sa Central Limit Theorem (CLT) ng probability theory, ang halagang ito ay mahusay na tinantiya (sa pamamagitan ng pamamahagi) ng isang normal na random na variable. Ang pahayag na ito ay totoo kung ang maliliit na salik ay kumikilos nang magkakasama at independiyente sa isa't isa. Kung kumikilos sila nang multiplicative, kung gayon, dahil sa parehong CLT, kinakailangan na tantiyahin sa pamamagitan ng isang log-normal na pamamahagi. Sa mga inilapat na problema, kadalasan ay hindi posible na patunayan ang additivity kaysa sa multiplicativity ng pagkilos ng maliliit na salik. Kung ang pag-asa ay isang pangkalahatang kalikasan, ay hindi nabawasan sa isang additive o multiplicative form, at walang mga batayan upang tanggapin ang mga modelo na nagbibigay ng exponential, Weibull-Gnedenko, gamma o iba pang mga distribusyon, kung gayon halos walang nalalaman tungkol sa pamamahagi ng panghuling random na variable, maliban sa mga intra-mathematical na katangian tulad ng regularity .

Kapag nagpoproseso ng partikular na data, minsan ay pinaniniwalaan na ang mga error sa pagsukat ay may normal na distribusyon. Sa pag-aakala ng normalidad, ang mga klasikal na modelo ng regression, dispersion, factor analysis, metrological na mga modelo ay itinayo, na patuloy pa ring matatagpuan kapwa sa lokal na regulasyon at teknikal na dokumentasyon at sa mga internasyonal na pamantayan. Ang mga modelo para sa pagkalkula ng pinakamataas na maaabot na antas ng ilang mga katangian na ginagamit sa disenyo ng mga sistema para sa pagtiyak ng kaligtasan ng paggana ng mga istrukturang pang-ekonomiya, mga teknikal na kagamitan at mga bagay ay batay sa parehong palagay. Gayunpaman, walang teoretikal na batayan para sa naturang pagpapalagay. Kinakailangang eksperimento na pag-aralan ang pamamahagi ng mga pagkakamali.

Ano ang ipinapakita ng mga eksperimentong resulta? Ang buod na ibinigay sa monograph ay nagbibigay-daan sa amin na sabihin na sa karamihan ng mga kaso ang pamamahagi ng mga error sa pagsukat ay naiiba mula sa normal. Kaya, sa Machine-Electrotechnical Institute (Varna, Bulgaria), ang pamamahagi ng mga error sa pagkakalibrate para sa mga kaliskis ng mga analog na instrumento sa pagsukat ng elektrikal ay pinag-aralan. Ang mga aparatong ginawa sa Czechoslovakia, USSR at Bulgaria ay pinag-aralan. Ang batas sa pamamahagi ng error ay naging pareho. Ito ay may density

Sinuri namin ang data sa mga parameter ng 219 aktwal na distribusyon ng mga error, na pinag-aralan ng iba't ibang mga may-akda, kapag sinusukat ang parehong mga de-koryente at hindi de-kuryenteng dami na may malawak na uri ng (electrical) na mga aparato. Bilang resulta ng pag-aaral na ito, lumabas na 111 distribusyon, i.e. humigit-kumulang 50% ang nabibilang sa klase ng mga distribusyon na may density

nasaan ang degree na parameter; b- shift parameter; - parameter ng sukat; - gamma function ng argumento ;

(cm. ); 63 distribusyon, i.e. 30% ay may flat-top density na may mahaba, banayad na slope at hindi maaaring ilarawan bilang normal o, halimbawa, exponential. Ang natitirang 45 na pamamahagi ay naging bimodal.

Sa libro ng sikat na metroologist na si prof. Inilalahad ni PV Novitsky ang mga resulta ng isang pag-aaral ng mga batas ng pamamahagi ng iba't ibang uri ng mga error sa pagsukat. Pinag-aralan niya ang pamamahagi ng mga error ng mga electromechanical na instrumento sa mga core, mga elektronikong instrumento para sa pagsukat ng mga temperatura at pwersa, mga digital na instrumento na may manu-manong pagbabalanse. Ang dami ng mga sample ng pang-eksperimentong data para sa bawat ispesimen ay 100–400 na pagbabasa. Lumalabas na 46 sa 47 na mga distribusyon ay makabuluhang naiiba sa normal. Ang hugis ng pamamahagi ng mga error sa 25 na kopya ng Shch-1411 digital voltmeters sa 10 puntos ng saklaw ay pinag-aralan. Ang mga resulta ay magkatulad. Ang karagdagang impormasyon ay nakapaloob sa monograph.

Sinuri ng Applied Mathematics Laboratory ng Tartu State University ang 2,500 sample mula sa archive ng totoong istatistikal na data. Sa 92%, ang normality hypothesis ay kailangang tanggihan.

Ang mga paglalarawan sa itaas ng pang-eksperimentong data ay nagpapakita na ang mga error sa pagsukat sa karamihan ng mga kaso ay may mga distribusyon na naiiba sa mga normal. Nangangahulugan ito, sa partikular, na karamihan sa mga aplikasyon ng t-test ng Estudyante, pagsusuri ng klasikal na regression, at iba pang mga istatistikal na pamamaraan batay sa normal na teorya ay, mahigpit na pagsasalita, ay hindi makatwiran, dahil ang pinagbabatayan na axiom ng normalidad ng mga distribusyon ng kaukulang random ang mga variable ay hindi tama.

Malinaw, upang bigyang-katwiran o makatwirang baguhin ang kasalukuyang kasanayan sa pagsusuri ng istatistikal na data, kinakailangan na pag-aralan ang mga katangian ng mga pamamaraan ng pagsusuri ng data sa mga "ilegal" na aplikasyon. Ang pag-aaral ng mga pamamaraan ng pagtanggi ay nagpakita na ang mga ito ay lubhang hindi matatag sa mga paglihis mula sa normalidad, at samakatuwid ay hindi ipinapayong gamitin ang mga ito para sa pagproseso ng totoong data (tingnan sa ibaba); samakatuwid, hindi maaaring igiit ng isang tao na ang isang arbitraryong ginawang pamamaraan ay matatag laban sa mga paglihis mula sa normalidad.

Minsan iminumungkahi na bago mag-apply, halimbawa, ang pagsusulit ng Mag-aaral para sa homogeneity ng dalawang sample, suriin ang normalidad. Bagama't maraming pamantayan para dito, ang pagsubok para sa normalidad ay isang mas kumplikado at nakakaubos ng oras na istatistikal na pamamaraan kaysa sa pagsubok para sa homogeneity (parehong may mga istatistika ng uri ng Mag-aaral at may mga pagsubok na hindi parametric). Ang isang medyo malaking bilang ng mga obserbasyon ay kinakailangan upang maitatag ang normalidad na sapat na mapagkakatiwalaan. Kaya, upang matiyak na ang distribution function ng mga resulta ng mga obserbasyon ay naiiba mula sa ilang normal na hindi hihigit sa 0.01 (para sa anumang halaga ng argumento), humigit-kumulang 2500 obserbasyon ang kinakailangan. Sa karamihan ng pang-ekonomiya, teknikal, biomedical at iba pang inilapat na pag-aaral, ang bilang ng mga obserbasyon ay makabuluhang mas kaunti. Ito ay totoo lalo na para sa data na ginamit sa pag-aaral ng mga problema na may kaugnayan sa pagtiyak ng kaligtasan ng paggana ng mga istrukturang pang-ekonomiya at mga teknikal na bagay.

Minsan sinusubukan nilang gamitin ang CCT upang tantiyahin ang pamamahagi ng error sa normal, kabilang ang mga espesyal na adder sa teknolohikal na pamamaraan ng pagsukat ng aparato. Suriin natin ang pagiging kapaki-pakinabang ng panukalang ito. Hayaan Z 1 , Z 2 ,…, Z k- independiyenteng magkaparehong ipinamahagi na mga random na variable na may function ng pamamahagi H = H(x) tulad na isaalang-alang

Ang indicator ng proximity sa normality na ibinigay ng adder ay

Ang hindi pagkakapantay-pantay sa kanang kamay sa huling kaugnayan ay sumusunod sa mga pagtatantya ng pare-pareho sa hindi pagkakapantay-pantay ng Berry-Esseen na nakuha sa aklat, at ang kaliwang kamay mula sa halimbawa sa monograph. Para sa isang normal na batas = 1.6, para sa isang pare-parehong batas = 1.3, para sa dalawang-puntong batas = 1 (ito ang lower bound para sa ). Samakatuwid, upang matiyak ang distansya (sa sukatan ng Kolmogorov) sa normal na distribusyon na hindi hihigit sa 0.01 para sa "hindi matagumpay" na mga pamamahagi, hindi bababa sa k 0 mga tuntunin, kung saan

Sa karaniwang ginagamit na mga adder, ang mga termino ay mas maliit. Pagpapaliit sa klase ng mga posibleng pamamahagi H, posibleng makuha, tulad ng ipinapakita sa monograph, ang mas mabilis na convergence, ngunit dito ang teorya ay hindi pa sumasanib sa pagsasanay. Bilang karagdagan, hindi malinaw kung ang lapit ng distribusyon sa normal (sa isang tiyak na sukatan) ay nagsisiguro din sa kalapitan ng distribusyon ng mga istatistika na binuo mula sa mga random na variable na may ganitong distribusyon sa distribusyon ng mga istatistika na naaayon sa mga normal na obserbasyon. Tila, para sa bawat tiyak na istatistika, kailangan ang mga espesyal na teoretikal na pag-aaral. Sa mga outlier na problema sa pagtanggi, ang sagot ay: "Hindi nagbibigay" (tingnan sa ibaba).

Tandaan na ang resulta ng anumang tunay na pagsukat ay naitala gamit ang isang may hangganang bilang ng mga decimal na lugar, kadalasang maliit (2-5), kaya ipinapayong imodelo ang anumang tunay na data gamit lamang ang mga discrete random variable na kumukuha ng limitadong bilang ng mga value. Ang normal na distribusyon ay isang pagtatantya lamang ng tunay na distribusyon. Kaya, halimbawa, ang data ng isang tiyak na pag-aaral, na ibinigay sa trabaho, ay kumukuha ng mga halaga mula 1.0 hanggang 2.2, i.e. mayroong 13 posibleng mga halaga sa kabuuan. Ito ay sumusunod mula sa Dirichlet na prinsipyo na sa ilang mga punto ang distribution function na binuo ayon sa work data ay naiiba mula sa pinakamalapit na normal distribution function sa pamamagitan ng hindi bababa sa 1/26, i.e. sa pamamagitan ng 0.04. Bilang karagdagan, malinaw na para sa isang normal na distribusyon ng isang random na variable, ang posibilidad na mahulog sa isang discrete set ng mga decimal na numero na may ibinigay na bilang ng mga decimal na lugar ay 0.

Ito ay sumusunod mula sa itaas na ang mga resulta ng mga sukat at, sa pangkalahatan, ang istatistikal na data ay may mga katangian na humahantong sa katotohanan na dapat silang i-modelo ng mga random na variable na may mga distribusyon na mas marami o mas kaunting naiiba sa mga normal. Sa karamihan ng mga kaso, malaki ang pagkakaiba ng mga distribusyon mula sa mga normal na distribusyon; sa iba, ang mga normal na distribusyon ay maaaring maituring na ilang uri ng pagtatantya, ngunit hindi kailanman isang kumpletong pagkakataon. Ipinahihiwatig nito ang parehong pangangailangang pag-aralan ang mga katangian ng mga klasikal na pamamaraan sa istatistika sa mga di-klasikal na probabilistikong modelo (katulad ng ginagawa sa ibaba para sa pamantayan ng Estudyante), at ang pangangailangang bumuo ng matatag (isinasaalang-alang ang pagkakaroon ng mga paglihis mula sa normalidad) at nonparametric, kabilang ang mga pamamaraan na walang distribusyon, ang kanilang malawak na pagpapakilala sa pagsasanay ng pagpoproseso ng istatistikal na data.

Ang mga pagsasaalang-alang na tinanggal dito para sa iba pang mga parametric na pamilya ay humantong sa mga katulad na konklusyon. Ang resulta ay maaaring formulated bilang mga sumusunod. Ang mga tunay na pamamahagi ng data ay halos hindi nabibilang sa anumang partikular na pamilya ng parametric. Ang mga tunay na pamamahagi ay palaging naiiba sa mga kasama sa mga pamilyang parametric. Ang mga pagkakaiba ay maaaring malaki o maliit, ngunit palagi silang umiiral. Subukan nating unawain kung gaano kahalaga ang mga pagkakaibang ito para sa pagsusuri sa ekonomiya.

sa probability theory at mathematical statistics, ang iba't ibang parametric na pamilya ng mga distribusyon ng mga numerical random variable ay isinasaalang-alang. Ibig sabihin, pinag-aaralan ang mga pamilya ng normal na distribusyon, logarithmically normal, exponential, gamma distribution, Weibull-Gnedenko distribution, atbp. Lahat ng mga ito ay nakasalalay sa isa, dalawa o tatlong parameter. Samakatuwid, upang ganap na mailarawan ang pamamahagi, sapat na malaman o tantiyahin ang isa, dalawa o tatlong numero. Napaka komportable. Samakatuwid, ang teorya ng parametric ng mga istatistika ng matematika ay malawak na binuo, kung saan ipinapalagay na ang mga pamamahagi ng mga resulta ng mga obserbasyon ay nabibilang sa isa o ibang parametric na pamilya.

Sa kasamaang palad, ang mga pamilyang parametric ay umiiral lamang sa isipan ng mga may-akda ng mga aklat-aralin sa teorya ng probabilidad at mga istatistika ng matematika. Wala sila sa totoong buhay. Samakatuwid, ang econometrics ay pangunahing gumagamit ng mga non-parametric na pamamaraan, kung saan ang mga distribusyon ng mga resulta ng mga obserbasyon ay maaaring magkaroon ng isang arbitraryong anyo.

Una, gamit ang halimbawa ng isang normal na distribusyon, tatalakayin natin nang mas detalyado ang imposibilidad ng praktikal na paggamit ng mga pamilyang parametric upang ilarawan ang mga distribusyon ng partikular na data ng ekonomiya. Pagkatapos ay susuriin namin ang mga parametric na pamamaraan para sa pagtanggi sa mga outlier na obserbasyon at ipakita ang imposibilidad ng praktikal na paggamit ng isang bilang ng mga pamamaraan ng parametric statistics, ang kamalian ng mga konklusyon na hahantong sa kanila. Pagkatapos ay susuriin namin ang mga non-parametric na pamamaraan ng pagtatantya ng kumpiyansa ng mga pangunahing katangian ng mga numerical random variable - pag-asa sa matematika, median, pagkakaiba-iba, karaniwang paglihis, koepisyent ng pagkakaiba-iba. Ang lecture ay magtatapos sa mga pamamaraan para sa pagsuri sa homogeneity ng dalawang sample, independyente o nauugnay.

Kadalasan ba ay normal ang pamamahagi ng mga obserbasyon?

Sa mga modelong pang-ekonomiya at pang-ekonomiya-matematika na ginamit, sa partikular, sa pag-aaral at pag-optimize ng mga proseso ng marketing at pamamahala, pamamahala ng negosyo at rehiyon, katumpakan at katatagan ng mga prosesong teknolohikal, sa mga problema sa pagiging maaasahan, kaligtasan, kabilang ang kaligtasan sa kapaligiran, ang paggana ng teknikal. mga device at bagay , ang pagbuo ng mga organizational chart ay madalas na naglalapat ng mga konsepto at resulta ng probability theory at mathematical statistics. Sa kasong ito, kadalasang ginagamit ang ilang parametric na pamilya ng mga pamamahagi ng posibilidad. Pinaka sikat normal na pamamahagi. Ginagamit din ang logarithmically normal na pamamahagi, exponential distribution, gamma distribution, Weibull-Gnedenko distribution, atbp.

Malinaw, palaging kinakailangan upang suriin ang pagkakaayon ng mga modelo sa katotohanan. May dalawang tanong. Naiiba ba ang aktwal na mga distribusyon sa mga ginamit sa modelo? Gaano kalawak ang epekto ng pagkakaibang ito sa mga konklusyon?

Sa ibaba, gamit ang halimbawa ng normal na distribusyon at ang mga pamamaraan para sa pagtanggi sa iba't ibang mga obserbasyon (outlier) batay dito, ipinapakita na ang mga tunay na distribusyon ay halos palaging naiiba sa mga kasama sa mga klasikal na parametric na pamilya, at ang umiiral na mga paglihis mula sa mga ibinigay na pamilya. gumawa ng mga maling konklusyon, sa kasong isinasaalang-alang, tungkol sa pagtanggi batay sa paggamit ng mga pamilyang ito.

Mayroon bang anumang dahilan upang ipagpalagay na priori ang normalidad ng mga resulta ng pagsukat?

Minsan pinagtatalunan na sa kaso kung saan ang error sa pagsukat (o iba pa random na halaga) ay natutukoy bilang resulta ng pinagsamang pagkilos ng maraming maliliit na salik, pagkatapos, sa bisa ng Central Limit Theorem (CLT) ng probability theory, ang halagang ito ay tinatayang mabuti (sa pamamagitan ng distribution) ng isang normal na random variable. Ang pahayag na ito ay totoo kung ang maliliit na salik ay kumikilos nang magkakasama at independiyente sa isa't isa. Kung kumikilos sila nang multiplicative, kung gayon, dahil sa parehong CLT, kinakailangan na tantiyahin sa pamamagitan ng isang log-normal na pamamahagi. Sa mga inilapat na problema, kadalasan ay hindi posible na patunayan ang additivity kaysa sa multiplicativity ng pagkilos ng maliliit na salik. Kung ang pag-asa ay isang pangkalahatang kalikasan, ay hindi nabawasan sa isang additive o multiplicative form, at walang mga batayan upang tanggapin ang mga modelo na nagbibigay ng exponential, Weibull-Gnedenko, gamma o iba pang mga distribusyon, kung gayon halos walang nalalaman tungkol sa pamamahagi ng panghuling random na variable, maliban sa mga intra-mathematical na katangian tulad ng regularity .

Kapag nagpoproseso ng partikular na data, minsan ay pinaniniwalaan na may mga error sa pagsukat normal na pamamahagi. Sa pagpapalagay ng normalidad, ang mga klasikal na modelo ng regression, dispersion, pagsusuri ng salik, metrological na mga modelo, na patuloy pa ring matatagpuan sa domestic normative at teknikal na dokumentasyon at sa mga internasyonal na pamantayan. Ang mga modelo para sa pagkalkula ng pinakamataas na maaabot na antas ng ilang mga katangian na ginagamit sa disenyo ng mga sistema para sa pagtiyak ng kaligtasan ng paggana ng mga istrukturang pang-ekonomiya, mga teknikal na kagamitan at mga bagay ay batay sa parehong palagay. Gayunpaman, walang teoretikal na batayan para sa naturang pagpapalagay. Kinakailangang eksperimento na pag-aralan ang pamamahagi ng mga pagkakamali.

Ano ang ipinapakita ng mga eksperimentong resulta? Ang buod na ibinigay sa monograph ay nagbibigay-daan sa amin na sabihin na sa karamihan ng mga kaso ang pamamahagi ng mga error sa pagsukat ay naiiba mula sa normal. Kaya, sa Machine-Electrotechnical Institute (Varna, Bulgaria), ang pamamahagi ng mga error sa pagkakalibrate para sa mga kaliskis ng mga analog na instrumento sa pagsukat ng elektrikal ay pinag-aralan. Ang mga aparatong ginawa sa Czechoslovakia, USSR at Bulgaria ay pinag-aralan. Ang batas sa pamamahagi ng error ay naging pareho. Ito ay may density

Sinuri namin ang data sa mga parameter ng 219 aktwal na distribusyon ng mga error, na pinag-aralan ng iba't ibang mga may-akda, kapag sinusukat ang parehong mga de-koryente at hindi de-kuryenteng dami na may malawak na uri ng (electrical) na mga aparato. Bilang resulta ng pag-aaral na ito, lumabas na 111 distribusyon, i.e. humigit-kumulang 50% ang nabibilang sa klase ng mga distribusyon na may density

nasaan ang degree na parameter; - shift parameter; - parameter ng sukat; - gamma function ng argumento ;

Sinuri ng Applied Mathematics Laboratory ng Tartu State University ang 2,500 sample mula sa archive ng totoong istatistikal na data. Sa 92%, ang normality hypothesis ay kailangang tanggihan.

Ang mga paglalarawan sa itaas ng pang-eksperimentong data ay nagpapakita na ang mga error sa pagsukat sa karamihan ng mga kaso ay may mga distribusyon na naiiba sa mga normal. Nangangahulugan ito, sa partikular, na karamihan sa mga aplikasyon ng t-test ng Estudyante, ang klasikal pagsusuri ng regression at iba pang mga istatistikal na pamamaraan batay sa normal na teorya, sa mahigpit na pagsasalita, ay hindi makatwiran, dahil ang axiom ng normalidad ng mga distribusyon ng kaukulang mga random na variable na pinagbabatayan ng mga ito ay hindi tama.

Malinaw, upang bigyang-katwiran o makatwirang baguhin ang umiiral na kasanayan sa pagsusuri ng istatistikal na data, kinakailangang pag-aralan ang mga katangian ng mga pamamaraan ng pagsusuri ng data sa mga "ilegal" na aplikasyon. Ang pag-aaral ng mga pamamaraan ng pagtanggi ay nagpakita na ang mga ito ay lubhang hindi matatag sa mga paglihis mula sa normalidad, at samakatuwid ay hindi ipinapayong gamitin ang mga ito para sa pagproseso ng totoong data (tingnan sa ibaba); samakatuwid, hindi maaaring igiit ng isang tao na ang isang arbitraryong ginawang pamamaraan ay matatag laban sa mga paglihis mula sa normalidad.

Minsan iminumungkahi na bago mag-apply, halimbawa, ang pagsusulit ng Mag-aaral para sa homogeneity ng dalawang sample, suriin ang normalidad. Bagama't maraming pamantayan para dito, ang pagsubok para sa normalidad ay isang mas kumplikado at nakakaubos ng oras na istatistikal na pamamaraan kaysa sa pagsubok para sa homogeneity (parehong may mga istatistika ng uri ng Mag-aaral at may mga pagsubok na hindi parametric). Ang isang medyo malaking bilang ng mga obserbasyon ay kinakailangan upang maitatag ang normalidad na sapat na mapagkakatiwalaan. Kaya, upang matiyak na ang distribution function ng mga resulta ng mga obserbasyon ay naiiba mula sa ilang normal na hindi hihigit sa 0.01 (para sa anumang halaga ng argumento), humigit-kumulang 2500 obserbasyon ang kinakailangan. Sa karamihan ng pang-ekonomiya, teknikal, biomedical at iba pang inilapat na pag-aaral, ang bilang ng mga obserbasyon ay makabuluhang mas kaunti. Ito ay totoo lalo na para sa data na ginamit sa pag-aaral ng mga problema na may kaugnayan sa pagtiyak ng kaligtasan ng paggana ng mga istrukturang pang-ekonomiya at mga teknikal na bagay.

Minsan sinusubukan nilang gamitin ang CCT upang tantiyahin ang pamamahagi ng error sa normal, kabilang ang mga espesyal na adder sa teknolohikal na pamamaraan ng pagsukat ng aparato. Suriin natin ang pagiging kapaki-pakinabang ng panukalang ito. Hayaang maging independiyenteng magkaparehong ibinahagi ang mga random na variable na may function ng pamamahagi tulad na isaalang-alang

Ang indicator ng proximity sa normality na ibinigay ng adder ay

Ang tamang hindi pagkakapantay-pantay sa huling kaugnayan ay sumusunod mula sa mga pagtatantya ng pare-pareho sa hindi pagkakapantay-pantay ng Berry-Esseen na nakuha sa aklat, at ang kaliwa, mula sa halimbawa sa monograph. Para sa normal na batas, para sa uniporme , para sa two-point (ito ang lower bound para sa ). Samakatuwid, upang matiyak ang distansya (sa sukatan ng Kolmogorov) sa normal na distribusyon na hindi hihigit sa 0.01 para sa "hindi matagumpay" na mga pamamahagi, hindi bababa sa mga termino ang kailangan, kung saan ang posibilidad na mahulog sa isang discrete set ng mga decimal na numero na may ibinigay na bilang ng Ang mga decimal na lugar ay katumbas ng 0.

Ito ay sumusunod mula sa itaas na ang mga resulta ng mga sukat at, sa pangkalahatan, ang istatistikal na data ay may mga katangian na humahantong sa katotohanan na dapat silang i-modelo ng mga random na variable na may mga distribusyon na mas marami o mas kaunting naiiba sa mga normal. Sa karamihan ng mga kaso, malaki ang pagkakaiba ng mga distribusyon mula sa mga normal na distribusyon, sa iba, ang mga normal na distribusyon ay maaaring maituring na ilang uri ng pagtatantya, ngunit walang ganap na pagkakataon. Ipinahihiwatig nito ang parehong pangangailangang pag-aralan ang mga katangian ng mga klasikal na pamamaraang istatistikal sa hindi klasikal probabilistikong mga modelo(katulad ng ginagawa sa ibaba para sa t-test ng Mag-aaral), at ang pangangailangang bumuo ng matatag (isinasaalang-alang ang pagkakaroon ng mga paglihis mula sa normalidad) at hindi parametric, kabilang ang mga pamamaraan na walang distribusyon, ang kanilang malawak na pagpapakilala sa pagsasanay ng istatistika pagproseso ng datos.

Ang mga pagsasaalang-alang na tinanggal dito para sa iba pang mga parametric na pamilya ay humantong sa mga katulad na konklusyon. Ang resulta ay maaaring formulated bilang mga sumusunod. Ang mga tunay na pamamahagi ng data ay halos hindi nabibilang sa anumang partikular na pamilya ng parametric. Ang mga tunay na pamamahagi ay palaging naiiba sa mga kasama sa mga pamilyang parametric. Ang mga pagkakaiba ay maaaring malaki o maliit, ngunit palagi silang umiiral. Subukan nating unawain kung gaano kahalaga ang mga pagkakaibang ito para sa pagsusuri sa ekonomiya.