Normaalijakauma. Miksi kaikki ei ole normaalia normaalijakaumassa?

    Kuinka hallita yrityksesi taloutta oikein, jos et ole talousanalyysin asiantuntija - Taloudellinen analyysi

    Taloushallinto - oppiaineiden väliset taloudelliset suhteet, taloushallinto eri tasoilla, salkunhoito, taloudellisten resurssien hallinnan menetelmät - tämä ei ole täydellinen luettelo aiheesta " Varainhoito"

    Puhutaan siitä mikä on valmennus? Jotkut uskovat, että tämä on porvarillinen brändi, toisten mielestä se on läpimurto nykyaikaisessa liiketoiminnassa. Valmennus on joukko menestyvän liiketoiminnan sääntöjä sekä kykyä hallita näitä sääntöjä oikein.

4.1. Onko havaintojen jakautuminen usein normaalia?

Ekonometrisissa ja talousmatemaattisissa malleissa, joita käytetään erityisesti markkinointi- ja johtamisprosessien, yritys- ja aluejohtamisen, teknisten prosessien tarkkuuden ja vakauden tutkimuksessa ja optimoinnissa, luotettavuusongelmissa, turvallisuuteen, mukaan lukien ympäristöturvallisuus, teknisten prosessien toimivuus. laitteet ja esineet , organisaatiokaavioiden kehittämisessä sovelletaan usein todennäköisyysteorian ja matemaattisten tilastojen käsitteitä ja tuloksia. Tässä tapauksessa käytetään usein yhtä tai toista parametrista todennäköisyysjakaumien perhettä. Suosituin on normaalijakauma. Käytetään myös log-normaalijakaumaa, eksponentiaalista jakaumaa, gamma-jakaumaa, Weibull-Gnedenko-jakaumaa jne.

On selvää, että mallien vastaavuus todellisuutta on aina tarpeen tarkistaa. On kaksi kysymystä. Eroavatko todelliset jakaumat mallissa käytetyistä? Missä määrin tämä ero vaikuttaa johtopäätöksiin?

Alla on esimerkkinä normaalijakaumasta ja siihen perustuvien jyrkästi erilaisten havaintojen (outliers) hylkäämismenetelmien avulla, että todelliset jakaumat poikkeavat lähes aina klassisten parametriperheiden sisältämistä ja olemassa olevat poikkeamat annetuista perheistä. tehdä tässä tapauksessa vääriä johtopäätöksiä hylkäämisestä näiden perheiden käyttöön perustuen.

Onko syytä olettaa a priori mittaustulosten normaaleja?

Joskus väitetään, että jos mittausvirhe (tai muu satunnaismuuttuja) määräytyy monien pienten tekijöiden kumulatiivisen vaikutuksen tuloksena, tämä arvo on todennäköisyysteorian keskirajalauseen (CLT) vuoksi. hyvin approksimoitu (jakauman mukaan) normaalilla satunnaismuuttujalla. Tämä väite pitää paikkansa, jos pienet tekijät toimivat additiivisesti ja toisistaan ​​riippumatta. Jos ne toimivat moninkertaisesti, niin saman CLT:n vuoksi on tarpeen tehdä likiarvo log-normaalijakauman mukaan. Sovelletuissa ongelmissa ei yleensä ole mahdollista perustella pienten tekijöiden toiminnan additiivisuutta eikä moninkertaisuutta. Jos riippuvuus on luonteeltaan yleinen, sitä ei ole pelkistetty additiiviseen tai multiplikatiiviseen muotoon, eikä ole perusteita hyväksyä malleja, jotka antavat eksponentiaalisia, Weibull-Gnedenko-, gamma- tai muita jakaumia, niin jakauman jakautumisesta ei tiedetä käytännössä mitään. lopullinen satunnaismuuttuja, paitsi sisäiset matemaattiset ominaisuudet, kuten säännöllisyys .

Tiettyä dataa käsiteltäessä joskus uskotaan, että mittausvirheillä on normaalijakauma. Normaaliuden olettamuksella rakennetaan klassisia regressio-, dispersio-, tekijäanalyysi-, metrologisia malleja, joita edelleen löytyy sekä kotimaisesta sääntely- ja teknisestä dokumentaatiosta että kansainvälisistä standardeista. Taloudellisten rakenteiden, teknisten laitteiden ja esineiden toiminnan turvallisuuden varmistavien järjestelmien suunnittelussa käytetyt tiettyjen ominaisuuksien maksimi saavutettavissa olevien tasojen laskentamallit perustuvat samaan olettamukseen. Tälle oletukselle ei kuitenkaan ole olemassa teoreettista perustaa. On tarpeen tutkia kokeellisesti virheiden jakautumista.

Mitä kokeelliset tulokset osoittavat? Monografiassa esitetyn yhteenvedon perusteella voidaan todeta, että useimmissa tapauksissa mittausvirheiden jakauma poikkeaa normaalista. Siten konesähkötekniikan instituutissa (Varna, Bulgaria) tutkittiin analogisten sähköisten mittauslaitteiden vaakojen kalibrointivirheiden jakautumista. Tutkittiin Tšekkoslovakiassa, Neuvostoliitossa ja Bulgariassa valmistettuja laitteita. Virheen jakautumislaki osoittautui samaksi. Sillä on tiheys

Analysoimme tietoja 219 todellisen virhejakauman parametreista, joita eri kirjoittajat ovat tutkineet mitattaessa sekä sähköisiä että ei-sähköisiä suureita monilla erilaisilla (sähkö)laitteilla. Tämän tutkimuksen tuloksena kävi ilmi, että 111 jakaumaa, ts. noin 50 % kuuluu tiheysjakaumien luokkaan

missä on asteparametri; b - siirtoparametri; - mittakaavaparametri; - argumentin gammafunktio;

(cm.); 63 jakelua, ts. 30 %:lla on litteät tiheydet, joissa on pitkät, loivat rinteet, eikä niitä voida kuvata normaaliksi tai esimerkiksi eksponentiaaliseksi. Loput 45 jakaumaa osoittautuivat bimodaaliseksi.

Kuuluisan metrologin kirjassa prof. PV Novitsky esittelee erilaisten mittausvirheiden jakautumislakeja koskevan tutkimuksen tulokset. Hän tutki sähkömekaanisten instrumenttien virheiden jakautumista ytimille, elektronisia lämpötiloja ja voimia mittaavia laitteita, digitaalisia laitteita, joissa on manuaalinen tasapainotus. Jokaisen näytteen koeaineistonäytteiden määrä oli 100–400 lukemaa. Kävi ilmi, että 46 jakaumasta 47:stä poikkesi merkittävästi normaalista. Virhejakauman muotoa 25 kopiossa Shch-1411 digitaalisista volttimittareista tutkittiin alueen 10 pisteessä. Tulokset ovat samanlaisia. Lisätietoja on monografiassa.

Tarton valtionyliopiston sovelletun matematiikan laboratorio analysoi 2500 näytettä todellisten tilastotietojen arkistosta. 92 prosentissa normaalihypoteesi jouduttiin hylkäämään.

Yllä olevat koetietojen kuvaukset osoittavat, että mittausvirheillä on useimmiten normaalista poikkeavia jakaumia. Tämä tarkoittaa erityisesti sitä, että useimmat Studentin t-testin, klassisen regressioanalyysin ja muiden normaaliteoriaan perustuvien tilastollisten menetelmien sovellukset eivät ole tiukasti ottaen perusteltuja, koska taustalla on vastaavan satunnaisjakaumien normaaliaksiooma. muuttujat ovat virheellisiä.

On selvää, että nykyisen tilastotietojen analysointikäytännön perustelemiseksi tai järkeväksi muuttamiseksi on tarpeen tutkia "laittomien" sovellusten tietojen analysointimenettelyjen ominaisuuksia. Hylkäämismenettelyjen tutkimus on osoittanut, että ne ovat erittäin epävakaita normaalista poikkeamille, joten niitä ei ole suositeltavaa käyttää todellisen tiedon käsittelyyn (katso alla); siksi ei voida väittää, että mielivaltaisesti valittu menettely olisi vakaa normaalista poikkeamista vastaan.

Joskus ehdotetaan normaaliuden tarkistamista ennen esimerkiksi Studentin testin soveltamista kahden näytteen homogeenisuudesta. Vaikka tälle on monia kriteerejä, normaaliuden testaus on monimutkaisempi ja aikaa vievä tilastollinen menettely kuin homogeenisuuden testaus (sekä Student-tyyppisillä tilastoilla että ei-parametrisilla testeillä). Normaalin riittävän luotettavaksi toteamiseksi tarvitaan melko suuri määrä havaintoja. Joten sen takaamiseksi, että havaintojen tulosten jakaumafunktio eroaa jostain normaalista enintään 0,01 (millä tahansa argumentin arvolla), tarvitaan noin 2500 havaintoa. Useimmissa taloudellisissa, teknisissä, biolääketieteellisissä ja muissa sovellettavissa tutkimuksissa havaintoja on huomattavasti vähemmän. Tämä koskee erityisesti taloudellisten rakenteiden ja teknisten kohteiden toimintavarmuuden varmistamiseen liittyvien ongelmien selvittämiseen käytettyä dataa.

Joskus he yrittävät käyttää CCT:tä lähentääkseen virheen jakautumista normaaliin, mukaan lukien erityiset summaimet mittauslaitteen teknologisessa kaaviossa. Arvioidaan tämän toimenpiteen hyödyllisyyttä. Olkoot Z1 , Z2 ,…, Zk riippumattomia identtisesti jakautuneita satunnaismuuttujia jakaumafunktiolla H = H(x) siten, että harkitaan

Summainin tarjoama normaaliläheisyyden osoitin on

Oikeanpuoleinen epäyhtälö viimeisessä suhteessa seuraa kirjassa saaduista Berry-Esseen-epäyhtälön vakion estimaateista ja vasemmanpuoleinen monografian esimerkistä. Normaalille laille = 1,6, yhtenäiselle laille = 1,3, kahden pisteen laille = 1 (tämä on :n alaraja). Siksi, jotta varmistetaan, että etäisyys (Kolmogorov-metriikassa) normaalijakaumaan on enintään 0,01 "epäonnistuneet" jakaumat, tarvitaan vähintään k0 termiä, jossa

Yleisesti käytetyissä summaimissa termit ovat paljon pienempiä. Kaventamalla mahdollisten jakaumien luokkaa H saadaan, kuten monografiassa esitetään, nopeampi konvergenssi, mutta tässä teoria ei vielä sulaudu käytäntöön. Lisäksi ei ole selvää, varmistaako jakauman normaalin läheisyys (tietyssä metriikassa) myös tämän jakauman satunnaismuuttujista konstruoidun tilaston jakauman läheisyyden normaaleja havaintoja vastaavan tilaston jakaumaan. Ilmeisesti jokaista yksittäistä tilastoa varten tarvitaan erityisiä teoreettisia tutkimuksia, tähän johtopäätökseen monografian kirjoittaja tulee. Outlier-hylkäysongelmissa vastaus on: "Ei tarjoa" (katso alla).

Huomaa, että minkä tahansa todellisen mittauksen tulos tallennetaan äärellisellä määrällä desimaalipaikkoja, yleensä pieniä (2-5), joten on suositeltavaa mallintaa mikä tahansa todellinen data vain diskreeteillä satunnaismuuttujilla, jotka ottavat äärellisen määrän arvoja. Normaalijakauma on vain todellisen jakauman approksimaatio. Joten esimerkiksi tietyn tutkimuksen tiedot, jotka on annettu työssä, saavat arvot välillä 1,0 - 2,2, ts. kaikkiaan 13 mahdollista arvoa. Dirichlet-periaatteesta seuraa, että jossain vaiheessa työtietojen mukaan muodostettu jakaumafunktio eroaa lähimmästä normaalijakaumafunktiosta vähintään 1/26, ts. 0.04 mennessä. Lisäksi on selvää, että satunnaismuuttujan normaalijakaumalla todennäköisyys putoaa diskreettiin desimaalilukujen joukkoon tietyllä määrällä desimaalipaikkoja on 0.

Edellä esitetystä seuraa, että mittaustuloksilla ja yleensä tilastotiedoilla on ominaisuuksia, jotka johtavat siihen, että ne tulisi mallintaa satunnaismuuttujilla, joiden jakaumat poikkeavat enemmän tai vähemmän normaaleista. Useimmissa tapauksissa jakaumat poikkeavat merkittävästi normaalijakaumista, toisissa normaalijakaumia voidaan ilmeisesti pitää jonkinlaisena approksimaationa, mutta täydellistä sattumaa ei koskaan ole. Tämä merkitsee sekä tarvetta tutkia klassisten tilastollisten menetelmien ominaisuuksia ei-klassisissa todennäköisyysmalleissa (samalla tavalla kuin jäljempänä Studentin kriteerille) että tarvetta kehittää stabiileja (ottaen huomioon normaalista poikkeamat) ja ei-parametriset, mukaan lukien jakeluvapaat menettelyt, niiden laaja käyttöönotto tilastotietojen käsittelyssä.

Muiden parametristen perheiden osalta tässä jätetyt huomiot johtavat samanlaisiin johtopäätöksiin. Tulos voidaan muotoilla seuraavasti. Todelliset datajakaumat eivät juuri koskaan kuulu mihinkään tiettyyn parametriperheeseen. Todelliset jakaumat ovat aina erilaisia ​​kuin parametriperheisiin sisältyvät. Erot voivat olla suuria tai pieniä, mutta ne ovat aina olemassa. Yritetään ymmärtää, kuinka tärkeitä nämä erot ovat ekonometriselle analyysille.

Kaikki oikeudet pidätetään. Tämän sivuston materiaalia saa käyttää vain linkin kanssa tälle sivustolle.

Normaalijakauma (Gaussin jakauma) on aina ollut keskeinen rooli todennäköisyysteoriassa, koska se syntyy hyvin usein useiden tekijöiden vaikutuksesta, joista yhden vaikutus on mitätön. Central Limit Theorem (CLT) löytää sovelluksen käytännöllisesti katsoen kaikissa soveltavissa tieteissä, mikä tekee tilastolaitteistosta universaalin. On kuitenkin hyvin usein tapauksia, joissa sen soveltaminen on mahdotonta, ja tutkijat yrittävät kaikin mahdollisin tavoin järjestää tulosten sovituksen Gaussiseen. Se on vaihtoehtoinen lähestymistapa, kun kyseessä on vaikutus monien tekijöiden jakautumiseen, kerron sinulle nyt.

CPT:n lyhyt historia. Newtonin ollessa vielä elossa Abraham de Moivre osoitti lauseen tapahtuman keskitetyn ja normalisoidun havaintojen lukumäärän konvergenssista riippumattomien kokeiden sarjassa normaalijakaumaan. Tämä lause toimi 1800-luvun ja 1900-luvun alun tieteellisenä mallina yleistyksille. Laplace osoitti tasaisen jakauman tapauksen, Poisson - paikallisen lauseen tapaukselle eri todennäköisyyksillä. Poincaré, Legendre ja Gauss kehittivät rikkaan havaintovirheteorian ja pienimmän neliösumman menetelmän, joka perustuu virheiden konvergenssiin normaalijakaumaan. Chebyshev osoitti vielä vahvemman lauseen satunnaismuuttujien summalle kehittämällä momenttimenetelmän. Ljapunov vuonna 1900, tukeutuen Tšebyševiin ja Markoviin, todisti CLT:n nykyisessä muodossaan, mutta vain kolmannen asteen momenttien olemassaololla. Ja vasta vuonna 1934 Feller lopetti sen osoittaen, että toisen luokan hetkien olemassaolo on sekä välttämätön että riittävä ehto.

CLT voidaan muotoilla seuraavasti: jos satunnaismuuttujat ovat riippumattomia, tasaisesti jakautuneita ja niillä on muu äärellinen varianssi kuin nolla, niin näiden muuttujien summat (keskitetty ja normalisoitu) konvergoivat normaalilakiin. Juuri tässä muodossa tätä lausetta opetetaan yliopistoissa, ja sitä käyttävät niin usein tarkkailijat ja tutkijat, jotka eivät ole matematiikan ammattilaisia. Mikä häntä vaivaa? Lauseella on todellakin erinomaisia ​​sovelluksia aloilla, joilla Gauss, Poincare, Chebyshev ja muut 1800-luvun nerot työskentelivät, nimittäin: havaintovirheiden teoria, tilastollinen fysiikka, pienimmän neliösumman laskenta, väestötutkimukset ja ehkä jotain muuta. Mutta tiedemiehet, joilla ei ole omaperäisyyttä löytää, yleistää ja haluavat soveltaa tätä lausetta kaikkeen tai vain vetää normaalijakaumaa korvista, missä se ei yksinkertaisesti voi olla. Jos haluat esimerkkejä, minulla on ne.

Älykkyysosamäärä IQ. Aluksi se tarkoittaa, että ihmisten älykkyys on normaalisti jakautunut. He tekevät testin, joka on valmiiksi koottu tavalla, jossa ei huomioida erinomaisia ​​kykyjä, vaan se otetaan erikseen huomioon samoilla murto-tekijöillä: looginen ajattelu, henkinen suunnittelu, laskennalliset kyvyt, abstrakti ajattelu ja jotain muuta. Kykyä ratkaista ongelmia useimpien ulottumattomissa tai kokeen läpäisyä huippunopeassa ajassa ei huomioida millään tavalla, ja testin aikaisemmin läpäiseminen lisää tulosta (mutta ei älykkyyttä) tulevaisuudessa. Ja sitten filistealaiset uskovat, että "kukaan ei voi olla kaksi kertaa niin älykäs kuin he ovat", "otetaan se pois viisailta ja jaetaan se".

Toinen esimerkki: muutokset taloudellisissa indikaattoreissa. Osakekurssien muutosten, valuuttakurssien, hyödykeoptioiden tutkiminen edellyttää matemaattisen tilaston laitteiston käyttöä, ja erityisesti tässä on tärkeää olla tekemättä virhettä jakauman tyypin kanssa. Esimerkki: Vuonna 1997 taloustieteen Nobel-palkinto maksettiin Black-Scholes-mallin ehdotuksesta, joka perustui oletukseen osakeindikaattoreiden normaalista kasvun jakautumisesta (ns. valkoinen kohina). Samalla kirjoittajat totesivat nimenomaisesti, että tätä mallia on jalostettava, mutta suurin osa lisätutkijoista päätti vain lisätä Poisson-jakauman normaalijakaumaan. Tässä tulee ilmeisesti olemaan epätarkkuuksia pitkien aikasarjojen tutkimuksessa, koska Poisson-jakauma tyydyttää CLT:n liian hyvin, ja se on 20 termilläkin mahdoton erottaa normaalijakaumasta. Katso alla olevaa kuvaa (ja se on erittäin vakavasta talouslehdestä), se osoittaa, että huolimatta melko suuresta määrästä havaintoja ja ilmeisiä vääristymiä, jakauman oletetaan olevan normaali.


On aivan ilmeistä, että palkkojen jakautuminen kaupungin väestön kesken, levyllä olevien tiedostojen koko, kaupunkien ja maiden väestö ei ole normaalia.

Näiden esimerkkien jakaumille on yhteistä ns. "heavy tail" eli kaukana keskiarvosta olevat arvot ja havaittava epäsymmetria, yleensä oikea. Pohditaan, mitä muuta, normaalien lisäksi, tällaiset jakaumat voisivat olla. Aloitetaan aiemmin mainitusta Poissonista: sillä on häntä, mutta haluamme, että laki toistetaan joukolle ryhmiä, joissa jokaisessa sitä noudatetaan (laske yrityksen tiedostokoko, useiden kaupunkien palkka) tai skaalataan (lisää tai pienennä mielivaltaisesti Black-Scholes-mallin intervallia), kuten havainnot osoittavat, hännän ja epäsymmetria ei katoa, mutta Poisson-jakauman CLT:n mukaan pitäisi tulla normaaliksi. Samoista syistä Erlang-jakelu, beetaversio, logonormal ja kaikki muut dispersiota sisältävät eivät toimi. Jäljelle jää vain Pareton jakauman katkaiseminen, mutta se ei sovi muodin yhteensopivuuden vuoksi minimiarvon kanssa, jota ei juuri koskaan esiinny näytetietojen analysoinnissa.

Jakaumia, joilla on tarvittavat ominaisuudet, on olemassa, ja niitä kutsutaan stabiileiksi jakautumiksi. Niiden historia on myös erittäin mielenkiintoinen, ja päälause todistettiin vuosi Fellerin työn jälkeen, vuonna 1935, ranskalaisen matemaatikon Paul Levyn ja neuvostomatemaatikon A.Yan yhteisillä ponnisteluilla. Khinchin. CLT yleistettiin, siitä poistettiin ehto dispersion olemassaololle. Toisin kuin normaali, stabiilien satunnaismuuttujien tiheys- eikä jakaumafunktiota ei ilmaista (harvinaista poikkeusta lukuun ottamatta, jota käsitellään alla), niistä tiedetään vain karakteristinen funktio (jakautumatiheyden käänteinen Fourier-muunnos, mutta Ymmärtää ydin, tätä ei voi tietää).
Joten, lause: jos satunnaismuuttujat ovat riippumattomia, tasaisesti jakautuneita, niin näiden muuttujien summat konvergoivat stabiiliin lakiin.

Nyt määritelmä. Satunnainen arvo X on stabiili, jos ja vain jos sen ominaisfunktion logaritmi voidaan esittää seuraavasti:

missä .

Itse asiassa tässä ei ole mitään kovin monimutkaista, sinun tarvitsee vain selittää neljän parametrin merkitys. Parametrit sigma ja mu ovat tavallinen asteikko ja offset, kuten normaalijakaumassa, mu on yhtä suuri kuin odotus, jos se on, ja se on, kun alfa on suurempi kuin yksi. Beta-parametri on epäsymmetria; jos se on nolla, jakauma on symmetrinen. Mutta alfa on ominaisparametri, joka kertoo missä järjestyksessä suuren hetket ovat olemassa, mitä lähempänä kahta se on, sitä enemmän jakauma näyttää normaalilta, jos se on yhtä kuin kaksi, jakaumasta tulee normaali, ja vain tässä tapauksessa sillä on suuria kertalukuja, myös normaalijakauman tapauksessa vinous degeneroituu. Tapauksessa, jossa alfa on yksi ja beeta nolla, saadaan Cauchyn jakauma, ja jos alfa on puolet ja beeta yksi, Levy-jakauma, muissa tapauksissa ei ole esitystä kvadratuurissa tällaisten määrien jakautumistiheys.
1900-luvulla kehitettiin rikas teoria stabiileista suureista ja prosesseista (kutsuttiin Levy-prosesseiksi), esiteltiin niiden yhteys murto-integraaleihin, otettiin käyttöön erilaisia ​​parametrointi- ja mallintamismenetelmiä, parametreja arvioitiin useilla tavoilla sekä konsistenssi ja stabiilius. arvioista näytettiin. Katso kuvaa, se näyttää Levy-prosessin simuloidun liikeradan fragmentilla, joka on suurennettu 15 kertaa.


Tällaisia ​​prosesseja ja niiden soveltamista rahoituksessa käsitellessään Benoit Mandelbrot keksi fraktaaleja. Kaikkialla ei kuitenkaan ollut niin hyvää. 1900-luvun jälkipuolisko sujui soveltavien ja kyberneettisten tieteiden yleisen suuntauksen alla, mikä merkitsi puhtaan matematiikan kriisiä, kaikki halusivat tuottaa, mutta eivät halunneet ajatella, humanistiset tieteet miehittivät matematiikan alat journalismillaan. Esimerkki: amerikkalaisen Mostellerin kirja "Viisikymmentä viihdyttävää todennäköisyysongelmaa ratkaisuilla", ongelma numero 11:


Kirjoittajan ratkaisu tähän ongelmaan on yksinkertaisesti terveen järjen tappio:

Sama tilanne on 25. tehtävässä, jossa annetaan KOLME ristiriitaista vastausta.

Mutta takaisin vakaaseen jakeluun. Artikkelin loppuosassa yritän osoittaa, että heidän kanssaan työskentelyssä ei pitäisi olla ylimääräisiä vaikeuksia. On nimittäin olemassa numeerisia ja tilastollisia menetelmiä, joiden avulla voit arvioida parametreja, laskea jakaumafunktion ja simuloida niitä, eli toimia samalla tavalla kuin minkä tahansa muun jakauman kanssa.

Stabiilien satunnaismuuttujien mallintaminen. Koska kaikki on vertailussa tiedossa, muistan ensin laskelmien kannalta kätevimmän menetelmän normaaliarvon muodostamiseksi (Box-Muller-menetelmä): ovatko perussatunnaismuuttujat (tasaisesti jakautuneet )