Normálne rozdelenie. Prečo nie je všetko normálne s normálnym rozdelením?

    Ako správne riadiť financie svojho podnikania, ak nie ste odborníkom v oblasti finančnej analýzy - Finančná analýza

    Finančné riadenie - finančné vzťahy medzi subjektmi, finančné riadenie na rôznych úrovniach, správa portfólia, spôsoby riadenia pohybu finančných zdrojov - toto nie je úplný zoznam predmetu " Finančné riadenie"

    Poďme sa rozprávať o tom, čo je koučovanie? Niektorí veria, že ide o buržoáznu značku, iní, že ide o prelom v modernom biznise. Koučing je súbor pravidiel pre úspešné podnikanie, ako aj schopnosť tieto pravidlá správne riadiť.

4.1. Je rozdelenie pozorovaní často normálne?

V ekonometrických a ekonomicko-matematických modeloch využívaných najmä pri štúdiu a optimalizácii procesov marketingu a riadenia, podnikového a regionálneho manažmentu, presnosti a stability technologických procesov, v problémoch spoľahlivosti, bezpečnosti vrátane environmentálnej bezpečnosti, fungovania technických zariadenia a objekty , vývoj organizačných schém často používajú pojmy a výsledky teórie pravdepodobnosti a matematickej štatistiky. V tomto prípade sa často používajú určité parametrické rodiny rozdelenia pravdepodobnosti. Najpopulárnejšie je normálne rozdelenie. Používa sa tiež log-normálne rozdelenie, exponenciálne rozdelenie, gama rozdelenie, Weibullovo-Gnedenkovo ​​rozdelenie atď.

Je samozrejmé, že vždy je potrebné kontrolovať zhodu modelov s realitou. Sú dve otázky. Líšia sa skutočné distribúcie od tých, ktoré sú použité v modeli? Do akej miery tento rozdiel ovplyvňuje závery?

Nižšie na príklade normálneho rozdelenia a metód na odmietnutie výrazne odlišných pozorovaní (odľahlých hodnôt) na ňom založených sa ukazuje, že reálne rozdelenia sa takmer vždy líšia od tých, ktoré sú zahrnuté v klasických parametrických rodinách, a existujúce odchýlky od daných rodín vyvodiť v posudzovanom prípade nesprávne závery o odmietnutí na základe využívania týchto rodín.

Existuje nejaký dôvod a priori predpokladať normalitu výsledkov merania?

Niekedy sa argumentuje, že v prípade, keď je chyba merania (alebo iná náhodná premenná) určená ako výsledok kumulatívneho pôsobenia mnohých malých faktorov, potom v dôsledku centrálnej limitnej vety (CLT) teórie pravdepodobnosti je táto hodnota dobre aproximované (distribúciou) normálnou náhodnou premennou. Toto tvrdenie je pravdivé, ak malé faktory pôsobia aditívne a nezávisle od seba. Ak pôsobia multiplikatívne, potom je v dôsledku rovnakého CLT potrebné aproximovať pomocou log-normálneho rozdelenia. V aplikovaných problémoch väčšinou nie je možné zdôvodniť skôr aditivitu ako multiplikatívnosť pôsobenia malých faktorov. Ak má závislosť všeobecnú povahu, nie je redukovaná na aditívnu alebo multiplikatívnu formu a neexistujú žiadne dôvody na prijatie modelov, ktoré dávajú exponenciálne, Weibullov-Gnedenkove, gama alebo iné distribúcie, potom o distribúcii nie je známe prakticky nič. konečná náhodná premenná, s výnimkou vnútromatematických vlastností, ako je pravidelnosť .

Pri spracovaní špecifických údajov sa niekedy verí, že chyby merania majú normálne rozdelenie. Za predpokladu normality sú postavené klasické modely regresie, disperzie, faktorovej analýzy, metrologické modely, ktoré sa stále nachádzajú ako v domácej regulačnej a technickej dokumentácii, tak aj v medzinárodných normách. Z rovnakého predpokladu vychádzajú aj modely na výpočet maximálne dosiahnuteľných úrovní určitých charakteristík používaných pri projektovaní systémov na zaistenie bezpečnosti fungovania hospodárskych štruktúr, technických zariadení a objektov. Pre takýto predpoklad však neexistuje žiadny teoretický základ. Je potrebné experimentálne študovať rozdelenie chýb.

Čo ukazujú výsledky experimentov? Zhrnutie uvedené v monografii umožňuje konštatovať, že vo väčšine prípadov sa rozdelenie chýb merania líši od bežného. V Strojno-elektrotechnickom inštitúte (Varna, Bulharsko) sa teda študovalo rozdelenie chýb kalibrácie pre stupnice analógových elektrických meracích prístrojov. Študované boli zariadenia vyrobené v Československu, ZSSR a Bulharsku. Zákon o distribúcii chýb sa ukázal byť rovnaký. Má hustotu

Analyzovali sme údaje o parametroch 219 skutočných rozdelení chýb, študovaných rôznymi autormi, pri meraní elektrických aj neelektrických veličín širokou škálou (elektrických) zariadení. Výsledkom tejto štúdie sa ukázalo, že 111 distribúcií, t.j. približne 50 % patrí do triedy distribúcií s hustotou

kde je parameter stupňa; b - parameter posunu; - parameter mierky; - gama funkcia argumentu;

(cm); 63 rozvodov, t.j. 30 % má hustotu plochého vrcholu s dlhými, miernymi sklonmi a nemožno ich označiť za normálne alebo napríklad exponenciálne. Zvyšných 45 distribúcií sa ukázalo ako bimodálnych.

V knihe známeho metrológa prof. PV Novitsky prezentuje výsledky štúdie zákonov distribúcie rôznych druhov chýb merania. Študoval rozdelenie chýb elektromechanických prístrojov na jadrách, elektronických prístrojov na meranie teplôt a síl, digitálnych prístrojov s ručným vyvažovaním. Objem vzoriek experimentálnych údajov pre každú vzorku bol 100–400 meraní. Ukázalo sa, že 46 zo 47 distribúcií sa výrazne líšilo od normálneho. Študoval sa tvar distribúcie chýb v 25 kópiách digitálnych voltmetrov Shch-1411 v 10 bodoch rozsahu. Výsledky sú podobné. Ďalšie informácie sú uvedené v monografii.

Laboratórium aplikovanej matematiky Štátnej univerzity v Tartu analyzovalo 2 500 vzoriek z archívu skutočných štatistických údajov. V 92 % musela byť hypotéza normality zamietnutá.

Vyššie uvedené opisy experimentálnych údajov ukazujú, že chyby merania majú vo väčšine prípadov distribúcie, ktoré sa líšia od normálnych. To konkrétne znamená, že väčšina aplikácií Studentovho t-testu, klasickej regresnej analýzy a iných štatistických metód založených na normálnej teórii nie je, prísne vzaté, opodstatnená, pretože základná axióma normality rozdelenia zodpovedajúcich náhodných premenné sú nesprávne.

Je zrejmé, že na zdôvodnenie alebo primeranú zmenu súčasnej praxe analýzy štatistických údajov je potrebné preštudovať vlastnosti postupov analýzy údajov v „nelegálnych“ aplikáciách. Štúdium zamietacích procedúr ukázalo, že sú extrémne nestabilné voči odchýlkam od normálnosti, a preto nie je vhodné ich používať na spracovanie reálnych údajov (pozri nižšie); preto nemožno tvrdiť, že svojvoľne prijatý postup je stabilný voči odchýlkam od normálnosti.

Niekedy sa navrhuje, aby ste pred aplikáciou napríklad Studentovho testu na homogenitu dvoch vzoriek skontrolovali normalitu. Aj keď na to existuje veľa kritérií, testovanie normality je zložitejší a časovo náročnejší štatistický postup ako testovanie homogenity (ako pri štatistike študentského typu, tak aj pri neparametrických testoch). Na dostatočne spoľahlivé stanovenie normality je potrebný pomerne veľký počet pozorovaní. Aby sa teda zaručilo, že distribučná funkcia výsledkov pozorovaní sa nebude líšiť od normálnej hodnoty o viac ako 0,01 (pre akúkoľvek hodnotu argumentu), je potrebných asi 2500 pozorovaní. Vo väčšine ekonomických, technických, biomedicínskych a iných aplikovaných štúdií je počet pozorovaní výrazne nižší. To platí najmä pre údaje používané pri štúdiu problémov súvisiacich so zaistením bezpečnosti fungovania hospodárskych štruktúr a technických objektov.

Niekedy sa pokúšajú pomocou CCT priblížiť rozdelenie chyby k normálnemu, vrátane špeciálnych sčítačiek v technologickej schéme meracieho zariadenia. Poďme zhodnotiť užitočnosť tohto opatrenia. Nech Z1 , Z2 ,…, Zk sú nezávislé identicky rozdelené náhodné premenné s distribučnou funkciou H = H(x) také, že Uvažujme

Indikátor blízkosti normality poskytovaný sčítačkou je

Pravá nerovnosť v poslednom vzťahu vyplýva z odhadov konštanty Berry-Esseenovej nerovnosti získaných v knihe a ľavá z príkladu v monografii. Pre normálny zákon = 1,6, pre jednotný zákon = 1,3, pre dvojbodový zákon = 1 (toto je dolná hranica pre ). Preto na zabezpečenie vzdialenosti (v Kolmogorovovej metrike) od normálneho rozdelenia nie viac ako 0,01 pre „neúspešné“ rozdelenia je potrebných aspoň k0 členov, kde

V bežne používaných sčítačkách sú výrazy oveľa menšie. Zúžením triedy možných distribúcií H možno dosiahnuť, ako je uvedené v monografii, rýchlejšiu konvergenciu, tu však teória ešte nesplýva s praxou. Okrem toho nie je jasné, či blízkosť rozdelenia k normálu (v určitej metrike) zabezpečuje aj blízkosť rozdelenia štatistík konštruovaných z náhodných premenných s týmto rozdelením k rozdeleniu štatistík zodpovedajúcich normálnym pozorovaniam. Pre každú špecifickú štatistiku sú zrejme potrebné špeciálne teoretické štúdie, k čomu dospel autor monografie. Pri problémoch s odľahlým odmietnutím je odpoveď: „Neposkytuje“ (pozri nižšie).

Všimnite si, že výsledok akéhokoľvek skutočného merania sa zaznamenáva s použitím konečného počtu desatinných miest, zvyčajne malých (2-5), takže je vhodné modelovať akékoľvek reálne údaje iba pomocou diskrétnych náhodných premenných, ktoré nadobúdajú konečný počet hodnôt. Normálne rozdelenie je len aproximáciou skutočného rozdelenia. Takže napríklad údaje konkrétnej štúdie uvedené v práci nadobúdajú hodnoty od 1,0 do 2,2, t.j. celkovo je k dispozícii 13 možných hodnôt. Z Dirichletovho princípu vyplýva, že v určitom bode sa distribučná funkcia zostrojená podľa údajov práce líši od najbližšej normálnej distribučnej funkcie aspoň o 1/26, t.j. do 0.04. Okrem toho je zrejmé, že pre normálne rozdelenie náhodnej premennej je pravdepodobnosť pádu do diskrétnej množiny desatinných čísel s daným počtom desatinných miest 0.

Z uvedeného vyplýva, že výsledky meraní a vo všeobecnosti štatistické údaje majú vlastnosti, ktoré vedú k tomu, že by mali byť modelované náhodnými veličinami s rozdeleniami, ktoré sú viac-menej odlišné od normálnych. Vo väčšine prípadov sa rozdelenia výrazne líšia od normálnych rozdelení, v iných možno normálne rozdelenia zrejme považovať za určitý druh aproximácie, nikdy však nejde o úplnú zhodu okolností. Z toho vyplýva jednak potreba študovať vlastnosti klasických štatistických postupov v neklasických pravdepodobnostných modeloch (podobne ako sa to robí nižšie pre Študentovo kritérium), jednak potreba vyvinúť stabilné (berúc do úvahy prítomnosť odchýlok od normality) a neparametrické, vrátane bezdistribučných postupov, ich široké zavedenie do praxe štatistického spracovania údajov.

Úvahy tu vynechané pre iné parametrické rodiny vedú k podobným záverom. Výsledok možno formulovať nasledovne. Reálne distribúcie údajov takmer nikdy nepatria do žiadnej konkrétnej parametrickej rodiny. Reálne distribúcie sa vždy líšia od tých, ktoré sú zahrnuté v parametrických rodinách. Rozdiely môžu byť veľké alebo malé, ale vždy existujú. Pokúsme sa pochopiť, aké dôležité sú tieto rozdiely pre ekonometrickú analýzu.

Všetky práva vyhradené. Materiály na tejto stránke môžu byť použité iba s odkazom na túto stránku.

Normálne rozdelenie (Gaussovo rozdelenie) vždy zohrávalo ústrednú úlohu v teórii pravdepodobnosti, pretože vzniká veľmi často ako výsledok vplyvu mnohých faktorov, z ktorých príspevok ktoréhokoľvek z nich je zanedbateľný. Centrálna limitná veta (CLT) nachádza uplatnenie prakticky vo všetkých aplikovaných vedách, vďaka čomu je štatistický aparát univerzálny. Existujú však veľmi časté prípady, keď je jeho aplikácia nemožná a výskumníci sa snažia všetkými možnými spôsobmi organizovať prispôsobenie výsledkov Gaussovu. To je o alternatívnom prístupe v prípade vplyvu na rozloženie mnohých faktorov, to vám teraz prezradím.

Stručná história CPT. Kým bol Newton ešte nažive, Abraham de Moivre dokázal teorém o konvergencii centrovaného a normalizovaného počtu pozorovaní udalosti v sérii nezávislých pokusov k normálnemu rozdeleniu. Počas 19. a začiatku 20. storočia slúžila táto veta ako vedecký model pre zovšeobecnenia. Laplace dokázal prípad rovnomerného rozdelenia, Poisson - lokálna veta pre prípad s rôznymi pravdepodobnosťami. Poincaré, Legendre a Gauss vyvinuli bohatú teóriu pozorovacích chýb a metódu najmenších štvorcov založenú na konvergencii chýb k normálnemu rozdeleniu. Chebyshev dokázal ešte silnejšiu vetu pre súčet náhodných veličín vyvinutím metódy momentov. Ljapunov v roku 1900, opierajúc sa o Čebyševa a Markova, dokázal CLT v súčasnej podobe, ale len s existenciou momentov tretieho rádu. A až v roku 1934 to Feller ukončil a ukázal, že existencia momentov druhého rádu je nevyhnutnou aj dostatočnou podmienkou.

CLT možno formulovať nasledovne: ak sú náhodné premenné nezávislé, rovnomerne rozdelené a majú konečný rozptyl iný ako nula, potom súčty (centrované a normalizované) týchto premenných konvergujú k normálnemu zákonu. Práve v tejto forme sa táto veta vyučuje na univerzitách a je tak často používaná pozorovateľmi a výskumníkmi, ktorí nie sú profesionálmi v matematike. čo je s ňou? Veta má skutočne vynikajúce aplikácie v oblastiach, na ktorých pracovali Gauss, Poincare, Čebyšev a iní géniovia 19. storočia, menovite: teória pozorovacích chýb, štatistická fyzika, najmenšie štvorce, demografické štúdie a možno aj niečo iné. Ale vedci, ktorým chýba originalita, aby objavili, zovšeobecnili a chcú túto vetu aplikovať na všetko, alebo len ťahať normálne rozdelenie za uši tam, kde to jednoducho nemôže byť. Ak chcete príklady, mám ich.

Inteligenčný kvocient IQ. Spočiatku to znamená, že inteligencia ľudí je normálne rozložená. Vykonávajú test, ktorý je vopred zostavený spôsobom, ktorý nezohľadňuje vynikajúce schopnosti, ale berie sa do úvahy oddelene s rovnakými zlomkovými faktormi: logické myslenie, mentálny dizajn, výpočtové schopnosti, abstraktné myslenie a niečo iné. Schopnosť riešiť problémy mimo dosahu väčšiny, či absolvovanie testu v ultrarýchlom čase sa nijako neberie do úvahy a skoršie absolvovanie testu zvyšuje výsledok (nie však inteligenciu) v budúcnosti. A potom filištíni veria, že „nikto nemôže byť dvakrát múdrejší ako oni“, „zoberme to múdrym a podeľme sa o to“.

Druhý príklad: zmeny finančných ukazovateľov. Štúdium zmien ceny akcií, kotácií mien, komoditných opcií si vyžaduje použitie aparátu matematickej štatistiky a najmä tu je dôležité nepomýliť sa s typom distribúcie. Príklad: v roku 1997 bola udelená Nobelova cena za ekonómiu za návrh Black-Scholesovho modelu, ktorý vychádzal z predpokladu normálneho rozdelenia rastu akciových ukazovateľov (tzv. biely šum). Autori zároveň výslovne uviedli, že tento model je potrebné vylepšiť, ale všetko, pre čo sa väčšina ďalších výskumníkov rozhodla, bolo jednoducho pridať Poissonovo rozdelenie k normálnemu rozdeleniu. Tu sa očividne vyskytnú nepresnosti v štúdiu dlhých časových radov, keďže Poissonovo rozdelenie až príliš vyhovuje CLT a ani pri 20 členoch je na nerozoznanie od normálneho rozdelenia. Pozrite sa na obrázok nižšie (a je z veľmi seriózneho ekonomického časopisu), ukazuje, že napriek pomerne veľkému počtu pozorovaní a zjavným skresleniam sa rozdelenie považuje za normálne.


Je celkom zrejmé, že rozdelenie miezd medzi obyvateľstvo mesta, veľkosť súborov na disku, počet obyvateľov miest a krajín nebude normálne.

Distribúcie z týchto príkladov majú spoločnú prítomnosť takzvaného „ťažkého chvosta“, to znamená hodnôt vzdialených od priemeru, a výraznú asymetriu, zvyčajne správnu. Zamyslime sa nad tým, aké iné, okrem normálneho, takéto rozdelenia môžu byť. Začnime už spomenutým Poissonom: má chvost, ale chceme, aby sa zákon opakoval pre množinu skupín, v každej z nich sa dodržiava (vypočítajte veľkosť súborov pre podnik, plat pre niekoľko miest) alebo škáluje (ľubovoľne zvýšiť alebo znížiť interval modelu Black-Scholes), ako ukazujú pozorovania, chvosty a asymetria nezmiznú, ale Poissonovo rozdelenie by sa podľa CLT malo stať normálnym. Z rovnakých dôvodov nebude fungovať distribúcia Erlang, beta, logonormal a všetky ostatné s disperziou. Zostáva len odrezať Paretovu distribúciu, ktorá sa však nehodí kvôli zhode módy s minimálnou hodnotou, ktorá sa pri analýze vzorových údajov takmer nikdy nevyskytuje.

Existujú distribúcie s potrebnými vlastnosťami a nazývajú sa stabilné distribúcie. Ich história je tiež veľmi zaujímavá a hlavná veta bola dokázaná rok po Fellerovej práci, v roku 1935, spoločným úsilím francúzskeho matematika Paula Levyho a sovietskeho matematika A.Ya. Khinchin. CLT bol zovšeobecnený, bola z neho odstránená podmienka existencie disperzie. Na rozdiel od normálu nie je vyjadrená ani hustota, ani distribučná funkcia stabilných náhodných premenných (až na vzácnu výnimku, o ktorej je popísané nižšie), je o nich známa iba charakteristická funkcia (inverzná Fourierova transformácia hustoty rozdelenia, ale pochopiť podstatu, to sa nedá vedieť).
Takže veta: ak sú náhodné premenné nezávislé, rovnomerne rozdelené, potom súčty týchto premenných konvergujú k stabilnému zákonu.

Teraz definícia. Náhodná hodnota X bude stabilný vtedy a len vtedy, ak logaritmus jeho charakteristickej funkcie môže byť reprezentovaný ako:

kde .

V skutočnosti tu nie je nič zložité, stačí si vysvetliť význam štyroch parametrov. Parametre sigma a mu sú zvyčajnou mierkou a posunom, ako pri normálnom rozdelení, mu sa bude rovnať očakávanému, ak je, a je to vtedy, keď je alfa väčšie ako jedna. Parameter beta je asymetria, ak sa rovná nule, rozdelenie je symetrické. Ale alfa je charakteristický parameter, ktorý udáva, v akom poradí existujú momenty veličiny, čím je bližšie k dvom, tým viac vyzerá rozdelenie ako normálne, ak sa rovná dvom, rozdelenie sa stáva normálnym a až v r. v tomto prípade má momenty veľkých objednávok, aj v prípade normálnej distribúcie dochádza k degenerácii šikmosti. V prípade, že alfa sa rovná jednej a beta sa rovná nule, získa sa Cauchyho rozdelenie a v prípade, že sa alfa rovná polovici a beta sa rovná jednej, Levyho rozdelenie, v ostatných prípadoch neexistuje žiadne zastúpenie v kvadratúre pre hustota distribúcie takýchto veličín.
V 20. storočí sa vypracovala bohatá teória stabilných veličín a procesov (nazývaných Levyho procesy), ukázala sa ich súvislosť s zlomkovými integrálmi, zaviedli sa rôzne metódy parametrizácie a modelovania, parametre sa odhadovali viacerými spôsobmi a konzistentnosť a stabilita. odhadov. Pozrite sa na obrázok, ukazuje simulovanú trajektóriu Levyho procesu s 15-krát zväčšeným fragmentom.


Práve pri riešení takýchto procesov a ich aplikácie vo financiách prišiel Benoit Mandelbrot s fraktálmi. Nie všade však bolo tak dobre. Druhá polovica 20. storočia prešla pod všeobecný trend aplikovaných a kybernetických vied, čo znamenalo krízu čistej matematiky, každý chcel produkovať, ale nechcel myslieť, humanitné vedy obsadili svojou publicistikou matematické sféry. Príklad: kniha „Päťdesiat zábavných pravdepodobnostných problémov s riešeniami“ od amerického Mostellera, problém číslo 11:


Autorovo riešenie tohto problému je jednoducho porážka zdravého rozumu:

Rovnaká situácia je aj pri 25. úlohe, kde sú uvedené TRI protichodné odpovede.

Ale späť k stabilným distribúciám. Vo zvyšku článku sa pokúsim ukázať, že pri práci s nimi by nemali byť žiadne ďalšie ťažkosti. Totiž, existujú numerické a štatistické metódy, ktoré umožňujú odhadnúť parametre, vypočítať distribučnú funkciu a simulovať ich, čiže fungujú rovnako ako pri akomkoľvek inom rozdelení.

Modelovanie stabilných náhodných premenných. Keďže v porovnaní je známe všetko, dovoľte mi najskôr pripomenúť z hľadiska výpočtov najpohodlnejšiu metódu generovania normálnej hodnoty (Box-Mullerova metóda): ak sú základné náhodné premenné (rovnomerne rozdelené na )