Normálny zákon rozdelenia pravdepodobnosti. Štatistická analýza číselných hodnôt (neparametrické štatistiky)

    Ako správne riadiť financie svojho podnikania, ak nie ste odborníkom v oblasti finančnej analýzy - Finančná analýza

    Finančné riadenie - finančné vzťahy medzi subjektmi, finančné riadenie na rôznych úrovniach, správa portfólia, spôsoby riadenia pohybu finančných zdrojov - toto nie je úplný zoznam predmetu " Finančné riadenie"

    Poďme sa rozprávať o tom, čo je koučovanie? Niektorí veria, že ide o buržoáznu značku, iní, že ide o prelom v modernom biznise. Koučing je súbor pravidiel pre úspešné podnikanie, ako aj schopnosť tieto pravidlá správne riadiť.

4.1. Je rozdelenie pozorovaní často normálne?

V ekonometrických a ekonomicko-matematických modeloch využívaných najmä pri štúdiu a optimalizácii procesov marketingu a riadenia, podnikového a regionálneho manažmentu, presnosti a stability technologických procesov, v problémoch spoľahlivosti, bezpečnosti vrátane environmentálnej bezpečnosti, fungovania technických zariadenia a objekty , vývoj organizačných schém často používajú pojmy a výsledky teórie pravdepodobnosti a matematickej štatistiky. V tomto prípade sa často používa jedna alebo druhá parametrická rodina rozdelení pravdepodobnosti. Najpopulárnejšie je normálne rozdelenie. Používa sa tiež log-normálne rozdelenie, exponenciálne rozdelenie, gama rozdelenie, Weibullovo-Gnedenkovo ​​rozdelenie atď.

Je samozrejmé, že vždy je potrebné kontrolovať zhodu modelov s realitou. Sú dve otázky. Líšia sa skutočné distribúcie od tých, ktoré sú použité v modeli? Do akej miery tento rozdiel ovplyvňuje závery?

Nižšie na príklade normálneho rozdelenia a metód na odmietnutie výrazne odlišných pozorovaní (odľahlých hodnôt) na ňom založených sa ukazuje, že reálne rozdelenia sa takmer vždy líšia od tých, ktoré sú zahrnuté v klasických parametrických rodinách, a existujúce odchýlky od daných rodín vyvodiť v posudzovanom prípade nesprávne závery o odmietnutí na základe využívania týchto rodín.

Existuje nejaký dôvod a priori predpokladať normalitu výsledkov merania?

Niekedy sa argumentuje, že v prípade, keď je chyba merania (alebo iná náhodná premenná) určená ako výsledok kumulatívneho pôsobenia mnohých malých faktorov, potom v dôsledku centrálnej limitnej vety (CLT) teórie pravdepodobnosti je táto hodnota dobre aproximované (distribúciou) normálnou náhodnou premennou. Toto tvrdenie je pravdivé, ak malé faktory pôsobia aditívne a nezávisle od seba. Ak pôsobia multiplikatívne, potom je v dôsledku rovnakého CLT potrebné aproximovať pomocou log-normálneho rozdelenia. V aplikovaných problémoch väčšinou nie je možné zdôvodniť skôr aditívnosť ako multiplikatívnosť pôsobenia malých faktorov. Ak má závislosť všeobecnú povahu, nie je redukovaná na aditívnu alebo multiplikatívnu formu a neexistujú žiadne dôvody na prijatie modelov, ktoré dávajú exponenciálne, Weibullov-Gnedenkove, gama alebo iné distribúcie, potom o distribúcii nie je známe prakticky nič. konečná náhodná premenná, s výnimkou vnútromatematických vlastností, ako je pravidelnosť .

Pri spracovaní špecifických údajov sa niekedy verí, že chyby merania majú normálne rozdelenie. Za predpokladu normality sú postavené klasické modely regresie, disperzie, faktorovej analýzy, metrologické modely, ktoré sa stále nachádzajú ako v domácej regulačnej a technickej dokumentácii, tak aj v medzinárodných normách. Z rovnakého predpokladu vychádzajú aj modely na výpočet maximálne dosiahnuteľných úrovní určitých charakteristík používaných pri projektovaní systémov na zaistenie bezpečnosti fungovania hospodárskych štruktúr, technických zariadení a objektov. Pre takýto predpoklad však neexistuje žiadny teoretický základ. Je potrebné experimentálne študovať rozdelenie chýb.

Čo ukazujú výsledky experimentov? Zhrnutie uvedené v monografii umožňuje konštatovať, že vo väčšine prípadov sa rozdelenie chýb merania líši od bežného. V Strojovom a elektrotechnickom inštitúte (Varna, Bulharsko) sa teda študovalo rozdelenie chýb kalibrácie pre stupnice analógových elektrických meracích prístrojov. Študované boli zariadenia vyrobené v Československu, ZSSR a Bulharsku. Zákon o distribúcii chýb sa ukázal byť rovnaký. Má hustotu

Analyzovali sme údaje o parametroch 219 skutočných rozdelení chýb, študovaných rôznymi autormi, pri meraní elektrických aj neelektrických veličín širokou škálou (elektrických) zariadení. Výsledkom tejto štúdie sa ukázalo, že 111 distribúcií, t.j. približne 50 % patrí do triedy distribúcií s hustotou

kde je parameter stupňa; b - parameter posunu; - parameter mierky; - gama funkcia argumentu;

(cm); 63 rozvodov, t.j. 30 %, majú hustotu plochého vrcholu s dlhými, miernymi sklonmi a nemožno ich opísať ako normálne alebo napríklad exponenciálne. Zvyšných 45 distribúcií sa ukázalo ako bimodálnych.

V knihe známeho metrológa prof. PV Novitsky prezentuje výsledky štúdie zákonov distribúcie rôznych druhov chýb merania. Študoval rozdelenie chýb elektromechanických prístrojov na jadrách, elektronických prístrojov na meranie teplôt a síl, digitálnych prístrojov s ručným vyvažovaním. Objem vzoriek experimentálnych údajov pre každú vzorku bol 100–400 meraní. Ukázalo sa, že 46 zo 47 distribúcií sa výrazne líšilo od normálneho. Študoval sa tvar distribúcie chýb v 25 kópiách digitálnych voltmetrov Shch-1411 v 10 bodoch rozsahu. Výsledky sú podobné. Ďalšie informácie sú uvedené v monografii.

Laboratórium aplikovanej matematiky Štátnej univerzity v Tartu analyzovalo 2 500 vzoriek z archívu skutočných štatistických údajov. V 92 % musela byť hypotéza normality zamietnutá.

Vyššie uvedené opisy experimentálnych údajov ukazujú, že chyby merania majú vo väčšine prípadov distribúcie, ktoré sa líšia od normálnych. To konkrétne znamená, že väčšina aplikácií Studentovho t-testu, klasickej regresnej analýzy a iných štatistických metód založených na normálnej teórii nie je, prísne vzaté, opodstatnená, pretože základná axióma normality rozdelenia zodpovedajúcich náhodných premenné sú nesprávne.

Je zrejmé, že na zdôvodnenie alebo primeranú zmenu existujúcej praxe analýzy štatistických údajov je potrebné preštudovať vlastnosti postupov analýzy údajov v „nelegálnych“ aplikáciách. Štúdium zamietacích procedúr ukázalo, že sú extrémne nestabilné voči odchýlkam od normálnosti, a preto nie je vhodné ich používať na spracovanie reálnych údajov (pozri nižšie); preto nemožno tvrdiť, že svojvoľne prijatý postup je stabilný voči odchýlkam od normálnosti.

Niekedy sa navrhuje, aby ste pred aplikáciou napríklad Studentovho testu na homogenitu dvoch vzoriek skontrolovali normalitu. Aj keď na to existuje veľa kritérií, testovanie normality je zložitejší a časovo náročnejší štatistický postup ako testovanie homogenity (ako pri štatistike študentského typu, tak aj pri neparametrických testoch). Na dostatočne spoľahlivé stanovenie normality je potrebný pomerne veľký počet pozorovaní. Aby sa teda zaručilo, že distribučná funkcia výsledkov pozorovaní sa nebude líšiť od normálnej hodnoty o viac ako 0,01 (pre akúkoľvek hodnotu argumentu), je potrebných asi 2500 pozorovaní. Vo väčšine ekonomických, technických, biomedicínskych a iných aplikovaných štúdií je počet pozorovaní výrazne nižší. To platí najmä pre údaje používané pri štúdiu problémov súvisiacich so zaistením bezpečnosti fungovania hospodárskych štruktúr a technických objektov.

Niekedy sa pokúšajú pomocou CCT priblížiť rozdelenie chyby k normálnemu, vrátane špeciálnych sčítačiek v technologickej schéme meracieho zariadenia. Poďme zhodnotiť užitočnosť tohto opatrenia. Nech Z1 , Z2 ,…, Zk sú nezávislé identicky rozdelené náhodné premenné s distribučnou funkciou H = H(x) také, že Uvažujme

Indikátor blízkosti normality poskytovaný sčítačkou je

Pravá nerovnosť v poslednom vzťahu vyplýva z odhadov konštanty Berry-Esseenovej nerovnosti získaných v knihe a ľavá z príkladu v monografii. Pre normálny zákon = 1,6, pre jednotný zákon = 1,3, pre dvojbodový zákon = 1 (toto je dolná hranica pre ). Preto na zabezpečenie vzdialenosti (v Kolmogorovovej metrike) od normálneho rozdelenia nie viac ako 0,01 pre „neúspešné“ rozdelenia je potrebných aspoň k0 členov, kde

V bežne používaných sčítačkách sú výrazy oveľa menšie. Zúžením triedy možných distribúcií H možno dosiahnuť, ako je uvedené v monografii, rýchlejšiu konvergenciu, tu však teória ešte nesplýva s praxou. Okrem toho nie je jasné, či blízkosť rozdelenia k normálu (v určitej metrike) zabezpečuje aj blízkosť rozdelenia štatistík konštruovaných z náhodných premenných s týmto rozdelením k rozdeleniu štatistík zodpovedajúcich normálnym pozorovaniam. Pre každú špecifickú štatistiku sú zrejme potrebné špeciálne teoretické štúdie, k čomu dospel autor monografie. Pri problémoch s odľahlým odmietnutím je odpoveď: „Neposkytuje“ (pozri nižšie).

Všimnite si, že výsledok akéhokoľvek skutočného merania sa zaznamenáva s použitím konečného počtu desatinných miest, zvyčajne malých (2-5), takže je vhodné modelovať akékoľvek reálne údaje iba pomocou diskrétnych náhodných premenných, ktoré nadobúdajú konečný počet hodnôt. Normálne rozdelenie je len aproximáciou skutočného rozdelenia. Takže napríklad údaje konkrétnej štúdie uvedené v práci nadobúdajú hodnoty od 1,0 do 2,2, t.j. celkovo je k dispozícii 13 možných hodnôt. Z Dirichletovho princípu vyplýva, že v určitom bode sa distribučná funkcia zostrojená podľa údajov práce líši od najbližšej normálnej distribučnej funkcie aspoň o 1/26, t.j. do 0.04. Okrem toho je zrejmé, že pre normálne rozdelenie náhodnej premennej je pravdepodobnosť pádu do diskrétnej množiny desatinných čísel s daným počtom desatinných miest 0.

Z uvedeného vyplýva, že výsledky meraní a vo všeobecnosti štatistické údaje majú vlastnosti, ktoré vedú k tomu, že by mali byť modelované náhodnými veličinami s rozdeleniami, ktoré sú viac-menej odlišné od normálnych. Vo väčšine prípadov sa rozdelenia výrazne líšia od normálnych rozdelení, v iných možno normálne rozdelenia zrejme považovať za určitý druh aproximácie, nikdy však nejde o úplnú zhodu okolností. Z toho vyplýva jednak potreba študovať vlastnosti klasických štatistických postupov v neklasických pravdepodobnostných modeloch (podobne ako sa to robí nižšie pre Študentovo kritérium), jednak potreba vyvinúť stabilné (berúc do úvahy prítomnosť odchýlok od normality) a neparametrické, vrátane bezdistribučných postupov, ich široké zavedenie do praxe štatistického spracovania údajov.

Úvahy tu vynechané pre iné parametrické rodiny vedú k podobným záverom. Výsledok možno formulovať nasledovne. Reálne distribúcie údajov takmer nikdy nepatria do žiadnej konkrétnej parametrickej rodiny. Reálne distribúcie sa vždy líšia od tých, ktoré sú zahrnuté v parametrických rodinách. Rozdiely môžu byť veľké alebo malé, ale vždy existujú. Pokúsme sa pochopiť, aké dôležité sú tieto rozdiely pre ekonometrickú analýzu.

Všetky práva vyhradené. Materiály na tejto stránke môžu byť použité iba s odkazom na túto stránku.

Orlov A.I. Je rozdelenie pozorovaní často normálne? - Časopis "Továrenské laboratórium". 1991 T.57. č.7 S.64-66.

Je rozdelenie pozorovaní často normálne?

A.I.Orlov

Výsledky meraní a vo všeobecnosti štatistické údaje majú vlastnosti, ktoré vedú k tomu, že by mali byť modelované náhodnými veličinami s rozdeleniami, ktoré sú viac-menej odlišné od normálneho. Vo väčšine prípadov sa distribúcie výrazne líšia od bežných. V iných možno normálne rozdelenia zjavne považovať za určitý druh aproximácie. Dokonalá zhoda však nikdy neexistuje. Z toho vyplýva jednak potreba študovať vlastnosti klasických štatistických postupov v neklasických pravdepodobnostných modeloch, jednak potreba vyvinúť stabilné (s prihliadnutím na prítomnosť odchýlok od normality) a neparametrické, vrátane bezdistribučných postupov, ich široké úvod do praxe štatistického spracovania údajov.

V ekonometrických a ekonomicko-matematických modeloch využívaných najmä pri štúdiu a optimalizácii procesov marketingu a riadenia, podnikového a regionálneho manažmentu, presnosti a stability technologických procesov, v problémoch spoľahlivosti, bezpečnosti vrátane environmentálnej bezpečnosti, fungovania technických zariadenia a objekty , vývoj organizačných schém často používajú pojmy a výsledky teórie pravdepodobnosti a matematickej štatistiky. V tomto prípade sa často používajú určité parametrické rodiny rozdelenia pravdepodobnosti. Najpopulárnejšie je normálne rozdelenie. Používa sa tiež log-normálne rozdelenie, exponenciálne rozdelenie, gama rozdelenie, Weibullovo-Gnedenkovo ​​rozdelenie atď.

Je samozrejmé, že vždy je potrebné kontrolovať zhodu modelov s realitou. Sú dve otázky. Líšia sa skutočné distribúcie od tých, ktoré sú použité v modeli? Do akej miery tento rozdiel ovplyvňuje závery?

Nižšie na príklade normálneho rozdelenia a metód na odmietnutie výrazne odlišných pozorovaní (odľahlých hodnôt) na ňom založených sa ukazuje, že reálne rozdelenia sa takmer vždy líšia od tých, ktoré sú zahrnuté v klasických parametrických rodinách, a existujúce odchýlky od daných rodín vyvodiť v posudzovanom prípade nesprávne závery o odmietnutí na základe využívania týchto rodín.

Existuje nejaký dôvod a priori predpokladať normalitu výsledkov merania?

Niekedy sa argumentuje, že v prípade, keď je chyba merania (alebo iná náhodná premenná) určená ako výsledok kumulatívneho pôsobenia mnohých malých faktorov, potom v dôsledku centrálnej limitnej vety (CLT) teórie pravdepodobnosti je táto hodnota dobre aproximované (distribúciou) normálnou náhodnou premennou. Toto tvrdenie je pravdivé, ak malé faktory pôsobia aditívne a nezávisle od seba. Ak pôsobia multiplikatívne, potom je v dôsledku rovnakého CLT potrebné aproximovať pomocou log-normálneho rozdelenia. V aplikovaných problémoch väčšinou nie je možné zdôvodniť skôr aditivitu ako multiplikatívnosť pôsobenia malých faktorov. Ak má závislosť všeobecnú povahu, nie je redukovaná na aditívnu alebo multiplikatívnu formu a neexistujú žiadne dôvody na prijatie modelov, ktoré dávajú exponenciálne, Weibullov-Gnedenkove, gama alebo iné distribúcie, potom o distribúcii nie je známe prakticky nič. konečná náhodná premenná, s výnimkou vnútromatematických vlastností, ako je pravidelnosť .

Pri spracovaní špecifických údajov sa niekedy verí, že chyby merania majú normálne rozdelenie. Za predpokladu normality sú postavené klasické modely regresie, disperzie, faktorovej analýzy, metrologické modely, ktoré sa stále nachádzajú ako v domácej regulačnej a technickej dokumentácii, tak aj v medzinárodných normách. Z rovnakého predpokladu vychádzajú aj modely na výpočet maximálne dosiahnuteľných úrovní určitých charakteristík používaných pri projektovaní systémov na zaistenie bezpečnosti fungovania hospodárskych štruktúr, technických zariadení a objektov. Pre takýto predpoklad však neexistuje žiadny teoretický základ. Je potrebné experimentálne študovať rozdelenie chýb.

Čo ukazujú výsledky experimentov? Zhrnutie uvedené v monografii umožňuje konštatovať, že vo väčšine prípadov sa rozdelenie chýb merania líši od bežného. V Strojno-elektrotechnickom inštitúte (Varna, Bulharsko) sa teda študovalo rozdelenie chýb kalibrácie pre stupnice analógových elektrických meracích prístrojov. Študované boli zariadenia vyrobené v Československu, ZSSR a Bulharsku. Zákon o distribúcii chýb sa ukázal byť rovnaký. Má hustotu

Analyzovali sme údaje o parametroch 219 skutočných rozdelení chýb, študovaných rôznymi autormi, pri meraní elektrických aj neelektrických veličín širokou škálou (elektrických) zariadení. Výsledkom tejto štúdie sa ukázalo, že 111 distribúcií, t.j. približne 50 % patrí do triedy distribúcií s hustotou

kde je parameter stupňa; b- parameter posunu; - parameter mierky - gama funkcia argumentu;

(cm); 63 rozvodov, t.j. 30 % má hustotu plochého vrcholu s dlhými, miernymi sklonmi a nemožno ich označiť za normálne alebo napríklad exponenciálne. Zvyšných 45 distribúcií sa ukázalo ako bimodálnych.

V knihe známeho metrológa prof. PV Novitsky prezentuje výsledky štúdie zákonov distribúcie rôznych druhov chýb merania. Študoval rozdelenie chýb elektromechanických prístrojov na jadrách, elektronických prístrojov na meranie teplôt a síl, digitálnych prístrojov s ručným vyvažovaním. Objem vzoriek experimentálnych údajov pre každú vzorku bol 100–400 meraní. Ukázalo sa, že 46 zo 47 distribúcií sa výrazne líšilo od normálneho. Študoval sa tvar distribúcie chýb v 25 kópiách digitálnych voltmetrov Shch-1411 v 10 bodoch rozsahu. Výsledky sú podobné. Ďalšie informácie sú uvedené v monografii.

Laboratórium aplikovanej matematiky Štátnej univerzity v Tartu analyzovalo 2 500 vzoriek z archívu skutočných štatistických údajov. V 92 % musela byť hypotéza normality zamietnutá.

Vyššie uvedené opisy experimentálnych údajov ukazujú, že chyby merania majú vo väčšine prípadov distribúcie, ktoré sa líšia od normálnych. To konkrétne znamená, že väčšina aplikácií Studentovho t-testu, klasickej regresnej analýzy a iných štatistických metód založených na normálnej teórii nie je, prísne vzaté, opodstatnená, pretože základná axióma normality rozdelenia zodpovedajúcich náhodných premenné sú nesprávne.

Je zrejmé, že na zdôvodnenie alebo primeranú zmenu existujúcej praxe analýzy štatistických údajov je potrebné preštudovať vlastnosti postupov analýzy údajov v „nelegálnych“ aplikáciách. Štúdium zamietacích procedúr ukázalo, že sú extrémne nestabilné voči odchýlkam od normálnosti, a preto nie je vhodné ich používať na spracovanie reálnych údajov (pozri nižšie); preto nemožno tvrdiť, že svojvoľne prijatý postup je stabilný voči odchýlkam od normálnosti.

Niekedy sa navrhuje, aby ste pred aplikáciou napríklad Studentovho testu na homogenitu dvoch vzoriek skontrolovali normalitu. Aj keď na to existuje veľa kritérií, testovanie normality je zložitejší a časovo náročnejší štatistický postup ako testovanie homogenity (ako pri štatistike študentského typu, tak aj pri neparametrických testoch). Na dostatočne spoľahlivé stanovenie normality je potrebný pomerne veľký počet pozorovaní. Aby sa teda zaručilo, že distribučná funkcia výsledkov pozorovaní sa nebude líšiť od normálnej hodnoty o viac ako 0,01 (pre akúkoľvek hodnotu argumentu), je potrebných asi 2500 pozorovaní. Vo väčšine ekonomických, technických, biomedicínskych a iných aplikovaných štúdií je počet pozorovaní výrazne nižší. To platí najmä pre údaje používané pri štúdiu problémov súvisiacich so zaistením bezpečnosti fungovania hospodárskych štruktúr a technických objektov.

Niekedy sa pokúšajú pomocou CCT priblížiť rozdelenie chyby k normálnemu, vrátane špeciálnych sčítačiek v technologickej schéme meracieho zariadenia. Poďme zhodnotiť užitočnosť tohto opatrenia. Nechať byť Z 1 , Z 2 ,…, Z k- nezávislé identicky rozdelené náhodné veličiny s distribučnou funkciou H=H(X) také, ktoré uvažujú

Indikátor blízkosti normality poskytovaný sčítačkou je

Pravá nerovnosť v poslednom vzťahu vyplýva z odhadov konštanty Berry-Esseenovej nerovnosti získaných v knihe a ľavá z príkladu v monografii. Pre normálny zákon = 1,6, pre jednotný zákon = 1,3, pre dvojbodový zákon = 1 (toto je spodná hranica). Preto zabezpečiť vzdialenosť (v Kolmogorovovej metrike) od normálneho rozdelenia nie väčšiu ako 0,01 pre „neúspešné“ rozdelenia, aspoň k 0 podmienky, kde

V bežne používaných sčítačkách sú výrazy oveľa menšie. Zúženie triedy možných distribúcií H, je možné získať, ako je uvedené v monografii, rýchlejšie zbližovanie, ale tu ešte teória nesplýva s praxou. Okrem toho nie je jasné, či blízkosť rozdelenia k normálu (v určitej metrike) zabezpečuje aj blízkosť rozdelenia štatistík konštruovaných z náhodných premenných s týmto rozdelením k rozdeleniu štatistík zodpovedajúcich normálnym pozorovaniam. Pre každú špecifickú štatistiku sú zrejme potrebné špeciálne teoretické štúdie, k čomu dospel autor monografie. Pri problémoch s odľahlým odmietnutím je odpoveď: „Neposkytuje“ (pozri nižšie).

Všimnite si, že výsledok akéhokoľvek skutočného merania sa zaznamenáva s použitím konečného počtu desatinných miest, zvyčajne malých (2-5), takže je vhodné modelovať akékoľvek reálne údaje iba pomocou diskrétnych náhodných premenných, ktoré nadobúdajú konečný počet hodnôt. Normálne rozdelenie je len aproximáciou skutočného rozdelenia. Takže napríklad údaje konkrétnej štúdie uvedené v práci nadobúdajú hodnoty od 1,0 do 2,2, t.j. celkovo je k dispozícii 13 možných hodnôt. Z Dirichletovho princípu vyplýva, že v určitom bode sa distribučná funkcia zostrojená podľa údajov práce líši od najbližšej normálnej distribučnej funkcie aspoň o 1/26, t.j. do 0.04. Okrem toho je zrejmé, že pre normálne rozdelenie náhodnej premennej je pravdepodobnosť pádu do diskrétnej množiny desatinných čísel s daným počtom desatinných miest 0.

Z uvedeného vyplýva, že výsledky meraní a vo všeobecnosti štatistické údaje majú vlastnosti, ktoré vedú k tomu, že by mali byť modelované náhodnými veličinami s rozdeleniami, ktoré sú viac-menej odlišné od normálnych. Vo väčšine prípadov sa rozdelenia výrazne líšia od normálnych rozdelení, v iných možno normálne rozdelenia zrejme považovať za určitý druh aproximácie, nikdy však nejde o úplnú zhodu okolností. Z toho vyplýva jednak potreba študovať vlastnosti klasických štatistických postupov v neklasických pravdepodobnostných modeloch (podobne ako sa to robí nižšie pre Študentovo kritérium), jednak potreba vyvinúť stabilné (berúc do úvahy prítomnosť odchýlok od normality) a neparametrické, vrátane bezdistribučných postupov, ich široké zavedenie do praxe štatistického spracovania údajov.

Literatúra

1. Novitsky P.V., Zograf I.A. Odhad chýb vo výsledkoch merania. - L.: Energoatomizdat, 1985. - 248 s.

2. Novitsky P.V. Základy teórie informácie meracích zariadení. - L .: energia, 1968. - 248 s.

3. Borovkov A.A. Teória pravdepodobnosti. - M.: Nauka, 1976. - 352 s.

4. Petrov V.V. Súčty nezávislých náhodných premenných. - M.: Nauka, 1972. - 416 s.

5. Zolotarev V.M. Moderná teória sčítania nezávislých náhodných premenných. - M.: Nauka, 1986. - 416 s.

6. Egorova L.A., Kharitonov Yu.S., Sokolovskaya L.V. // Továrenské laboratórium. - 1976. V.42. č. 10. S. 1237.

Zvážte dve nezávislé náhodné premenné a , s výhradou normálnych zákonov:

, (12.6.1)

. (12.6.2)

Je potrebné zostaviť tieto zákony, t. j. nájsť zákon o rozdelení množstva:

Na zloženie distribučných zákonov použijeme všeobecný vzorec (12.5.3):

. (12.6.3)

Ak otvoríme zátvorky v exponente integrandu a prinesieme podobné výrazy, dostaneme:

,

;

;

.

Dosadením týchto výrazov do vzorca (9.1.3) sme sa už stretli:

, (12.6.4)

po transformáciách dostaneme:

, (12.6.5)

a to nie je nič iné ako normálny zákon s disperzným centrom

a štandardná odchýlka

. (12.6.7)

K rovnakému záveru možno oveľa jednoduchšie dospieť pomocou nasledujúcej kvalitatívnej úvahy.

Bez otvárania zátvoriek a bez vykonávania transformácií v integrande (12.6.3) okamžite dospejeme k záveru, že exponent je štvorcová trojčlenka vzhľadom na tvar

,

ak hodnota nie je vôbec zahrnutá v koeficiente, je zahrnutá v koeficiente v prvom stupni a v koeficiente - v štvorci. S ohľadom na to a použitím vzorca (12.6.4) dospejeme k záveru, že existuje exponenciálna funkcia, ktorej exponent je štvorcová trojčlenka vzhľadom na , a hustota rozdelenia tohto typu zodpovedá normálnemu zákonu. Dostávame sa teda k čisto kvalitatívnemu záveru: distribučný zákon množstva musí byť normálny.

Na nájdenie parametrov tohto zákona – a – používame vetu o sčítaní matematických očakávaní a vetu o sčítaní rozptylov. Podľa vety o sčítaní matematických očakávaní

Podľa vety o sčítaní rozptylu

odkiaľ nasleduje vzorec (12.6.7).

Prechodom od štandardných odchýlok k pravdepodobným odchýlkam, ktoré sú im úmerné, dostaneme:

Dospeli sme teda k nasledujúcemu pravidlu: keď sa skladajú normálne zákony, získa sa opäť normálny zákon a matematické očakávania a rozptyly (alebo druhá mocnina pravdepodobných odchýlok) sa spočítajú.

Pravidlo zloženia pre normálne zákony možno zovšeobecniť na prípad ľubovoľného počtu nezávislých náhodných premenných.

Ak existujú nezávislé náhodné premenné:

podliehajú normálnym zákonom s rozptylovými centrami

a štandardné odchýlky

,

potom hodnotu

tiež dodržiava normálny zákon s parametrami

Namiesto vzorca (12.6.12) môžete použiť ekvivalentný vzorec:

Ak je sústava náhodných veličín rozložená podľa normálneho zákona, ale veličiny sú závislé, potom je ľahké dokázať, rovnako ako predtým, na základe všeobecného vzorca (12.5.1), že zákon rozdelenia veličiny

existuje aj normálny zákon. Stredy rozptylu sa stále pridávajú algebraicky, ale pre štandardné odchýlky sa pravidlo stáva komplikovanejším:

, (12.6.14)

kde je korelačný koeficient hodnôt a .

Pri pridaní niekoľkých závislých náhodných premenných, ktoré sa ako celok riadia normálnym zákonom, sa zákon rozdelenia súčtu ukáže ako normálny aj s parametrami

, (12.6.16)

alebo pravdepodobné odchýlky

, (12.6.17)

kde je korelačný koeficient hodnôt a súčet sa vzťahuje na všetky rôzne párové kombinácie hodnôt.

Videli sme veľmi dôležitú vlastnosť normálneho zákona: keď sa normálne zákony skombinujú, opäť dostaneme normálny zákon. Ide o takzvanú „vlastnosť stability“. O distribučnom zákone sa hovorí, že je stabilný, ak sa zložením dvoch zákonov tohto typu opäť získa zákon rovnakého typu. Vyššie sme ukázali, že normálny zákon je stabilný. Len veľmi málo distribučných zákonov má vlastnosť stability. V predchádzajúcom (príklad 2) sme sa presvedčili, že napríklad zákon rovnomernej hustoty je nestabilný: pri skladaní dvoch zákonov rovnomernej hustoty v rezoch od 0 do 1 sme dostali Simpsonov zákon.

Stabilita bežného zákona je jednou z podstatných podmienok jeho širokého uplatnenia v praxi. Vlastnosť stability však okrem normálnej majú aj niektoré ďalšie distribučné zákony. Charakteristickým rysom normálneho zákona je, že keď sa vytvorí dostatočne veľký počet prakticky ľubovoľných distribučných zákonov, celkový zákon sa ukáže byť ľubovoľne blízky normálnemu, bez ohľadu na to, aké boli distribučné zákony pojmov. Dá sa to znázorniť napríklad zložením troch zákonov rovnomernej hustoty v úsekoch od 0 do 1. Výsledný zákon rozdelenia je znázornený na obr. 12.6.1. Ako vidno z nákresu, graf funkcie je veľmi podobný grafu normálneho zákona.

4.1. Je rozdelenie pozorovaní často normálne?

V ekonometrických a ekonomicko-matematických modeloch využívaných najmä pri štúdiu a optimalizácii procesov marketingu a riadenia, podnikového a regionálneho manažmentu, presnosti a stability technologických procesov, v problémoch spoľahlivosti, bezpečnosti vrátane environmentálnej bezpečnosti, fungovania technických zariadenia a objekty , vývoj organizačných schém často používajú pojmy a výsledky teórie pravdepodobnosti a matematickej štatistiky. V tomto prípade sa často používajú určité parametrické rodiny rozdelenia pravdepodobnosti. Najpopulárnejšie je normálne rozdelenie. Používa sa tiež log-normálne rozdelenie, exponenciálne rozdelenie, gama rozdelenie, Weibullovo-Gnedenkovo ​​rozdelenie atď.

Je samozrejmé, že vždy je potrebné kontrolovať zhodu modelov s realitou. Sú dve otázky. Líšia sa skutočné distribúcie od tých, ktoré sú použité v modeli? Do akej miery tento rozdiel ovplyvňuje závery?

Nižšie na príklade normálneho rozdelenia a metód na odmietnutie výrazne odlišných pozorovaní (odľahlých hodnôt) na ňom založených sa ukazuje, že reálne rozdelenia sa takmer vždy líšia od tých, ktoré sú zahrnuté v klasických parametrických rodinách, a existujúce odchýlky od daných rodín vyvodiť v posudzovanom prípade nesprávne závery o odmietnutí na základe využívania týchto rodín.

Existuje nejaký dôvod a priori predpokladať normalitu výsledkov merania?

Niekedy sa argumentuje, že v prípade, keď je chyba merania (alebo iná náhodná premenná) určená ako výsledok kumulatívneho pôsobenia mnohých malých faktorov, potom v dôsledku centrálnej limitnej vety (CLT) teórie pravdepodobnosti je táto hodnota dobre aproximované (distribúciou) normálnou náhodnou premennou. Toto tvrdenie je pravdivé, ak malé faktory pôsobia aditívne a nezávisle od seba. Ak pôsobia multiplikatívne, potom je v dôsledku rovnakého CLT potrebné aproximovať pomocou log-normálneho rozdelenia. V aplikovaných problémoch väčšinou nie je možné zdôvodniť skôr aditivitu ako multiplikatívnosť pôsobenia malých faktorov. Ak má závislosť všeobecnú povahu, nie je redukovaná na aditívnu alebo multiplikatívnu formu a neexistujú žiadne dôvody na prijatie modelov, ktoré dávajú exponenciálne, Weibullov-Gnedenkove, gama alebo iné distribúcie, potom o distribúcii nie je známe prakticky nič. konečná náhodná premenná, s výnimkou vnútromatematických vlastností, ako je pravidelnosť .

Pri spracovaní špecifických údajov sa niekedy verí, že chyby merania majú normálne rozdelenie. Za predpokladu normality sú postavené klasické modely regresie, disperzie, faktorovej analýzy, metrologické modely, ktoré sa stále nachádzajú ako v domácej regulačnej a technickej dokumentácii, tak aj v medzinárodných normách. Z rovnakého predpokladu vychádzajú aj modely na výpočet maximálne dosiahnuteľných úrovní určitých charakteristík používaných pri projektovaní systémov na zaistenie bezpečnosti fungovania hospodárskych štruktúr, technických zariadení a objektov. Pre takýto predpoklad však neexistuje žiadny teoretický základ. Je potrebné experimentálne študovať rozdelenie chýb.

Čo ukazujú výsledky experimentov? Zhrnutie uvedené v monografii umožňuje konštatovať, že vo väčšine prípadov sa rozdelenie chýb merania líši od bežného. V Strojno-elektrotechnickom inštitúte (Varna, Bulharsko) sa teda študovalo rozdelenie chýb kalibrácie pre stupnice analógových elektrických meracích prístrojov. Študované boli zariadenia vyrobené v Československu, ZSSR a Bulharsku. Zákon o distribúcii chýb sa ukázal byť rovnaký. Má hustotu

Analyzovali sme údaje o parametroch 219 skutočných rozdelení chýb, študovaných rôznymi autormi, pri meraní elektrických aj neelektrických veličín širokou škálou (elektrických) zariadení. Výsledkom tejto štúdie sa ukázalo, že 111 distribúcií, t.j. približne 50 % patrí do triedy distribúcií s hustotou

kde je parameter stupňa; b- parameter posunu; - parameter mierky; - gama funkcia argumentu;

(cm); 63 rozvodov, t.j. 30 % má hustotu plochého vrcholu s dlhými, miernymi sklonmi a nemožno ich označiť za normálne alebo napríklad exponenciálne. Zvyšných 45 distribúcií sa ukázalo ako bimodálnych.

V knihe známeho metrológa prof. PV Novitsky prezentuje výsledky štúdie zákonov distribúcie rôznych druhov chýb merania. Študoval rozdelenie chýb elektromechanických prístrojov na jadrách, elektronických prístrojov na meranie teplôt a síl, digitálnych prístrojov s ručným vyvažovaním. Objem vzoriek experimentálnych údajov pre každú vzorku bol 100–400 meraní. Ukázalo sa, že 46 zo 47 distribúcií sa výrazne líšilo od normálneho. Študoval sa tvar distribúcie chýb v 25 kópiách digitálnych voltmetrov Shch-1411 v 10 bodoch rozsahu. Výsledky sú podobné. Ďalšie informácie sú uvedené v monografii.

Laboratórium aplikovanej matematiky Štátnej univerzity v Tartu analyzovalo 2 500 vzoriek z archívu skutočných štatistických údajov. V 92 % musela byť hypotéza normality zamietnutá.

Vyššie uvedené opisy experimentálnych údajov ukazujú, že chyby merania majú vo väčšine prípadov distribúcie, ktoré sa líšia od normálnych. To konkrétne znamená, že väčšina aplikácií Studentovho t-testu, klasickej regresnej analýzy a iných štatistických metód založených na normálnej teórii nie je, prísne vzaté, opodstatnená, pretože základná axióma normality rozdelenia zodpovedajúcich náhodných premenné sú nesprávne.

Je zrejmé, že na zdôvodnenie alebo primeranú zmenu súčasnej praxe analýzy štatistických údajov je potrebné preštudovať vlastnosti postupov analýzy údajov v „nelegálnych“ aplikáciách. Štúdium zamietacích procedúr ukázalo, že sú extrémne nestabilné voči odchýlkam od normálnosti, a preto nie je vhodné ich používať na spracovanie reálnych údajov (pozri nižšie); preto nemožno tvrdiť, že svojvoľne prijatý postup je stabilný voči odchýlkam od normálnosti.

Niekedy sa navrhuje, aby ste pred aplikáciou napríklad Studentovho testu na homogenitu dvoch vzoriek skontrolovali normalitu. Aj keď na to existuje veľa kritérií, testovanie normality je zložitejší a časovo náročnejší štatistický postup ako testovanie homogenity (ako pri štatistike študentského typu, tak aj pri neparametrických testoch). Na dostatočne spoľahlivé stanovenie normality je potrebný pomerne veľký počet pozorovaní. Takže, aby sa zaručilo, že distribučná funkcia výsledkov pozorovaní sa bude líšiť od normálnej nie o viac ako 0,01 (pre akúkoľvek hodnotu argumentu), je potrebných asi 2500 pozorovaní. Vo väčšine ekonomických, technických, biomedicínskych a iných aplikovaných výskumoch je počet pozorovaní podstatne nižší. To platí najmä pre údaje používané pri štúdiu problémov súvisiacich so zaistením bezpečnosti fungovania hospodárskych štruktúr a technických objektov.

Niekedy sa pokúšajú pomocou DCT priblížiť rozdelenie chyby k normálnemu, vrátane špeciálnych sčítačiek v technologickej schéme meracieho zariadenia. Poďme zhodnotiť užitočnosť tohto opatrenia. Nechať byť Z1, Z2,…, Z k- nezávislé identicky rozdelené náhodné veličiny s distribučnou funkciou H = H(x) také, ktoré uvažujú

Indikátor blízkosti normality poskytovaný sčítačkou je

Pravá nerovnosť v poslednom vzťahu vyplýva z odhadov konštanty Berry-Esseenovej nerovnosti získaných v knihe a ľavá z príkladu v monografii. Pre normálny zákon = 1,6, pre jednotný zákon = 1,3, pre dvojbodový zákon = 1 (toto je dolná hranica pre ). Preto zabezpečiť vzdialenosť (v Kolmogorovovej metrike) od normálneho rozdelenia nie väčšiu ako 0,01 pre „neúspešné“ rozdelenia, aspoň k 0 podmienky, kde

V bežne používaných sčítačkách sú výrazy oveľa menšie. Zúženie triedy možných distribúcií H, je možné získať, ako je uvedené v monografii, rýchlejšie zbližovanie, ale tu ešte teória nesplýva s praxou. Okrem toho nie je jasné, či blízkosť rozdelenia k normálu (v určitej metrike) zabezpečuje aj blízkosť rozdelenia štatistík konštruovaných z náhodných premenných s týmto rozdelením k rozdeleniu štatistík zodpovedajúcich normálnym pozorovaniam. Pre každú špecifickú štatistiku sú zrejme potrebné špeciálne teoretické štúdie, k čomu dospel autor monografie. Pri problémoch s odľahlým odmietnutím je odpoveď: „Neposkytuje“ (pozri nižšie).

Všimnite si, že výsledok akéhokoľvek skutočného merania sa zaznamenáva s použitím konečného počtu desatinných miest, zvyčajne malých (2-5), takže je vhodné modelovať akékoľvek reálne údaje iba pomocou diskrétnych náhodných premenných, ktoré nadobúdajú konečný počet hodnôt. Normálne rozdelenie je len aproximáciou skutočného rozdelenia. Takže napríklad údaje konkrétnej štúdie uvedené v práci nadobúdajú hodnoty od 1,0 do 2,2, t.j. celkovo je k dispozícii 13 možných hodnôt. Z Dirichletovho princípu vyplýva, že v určitom bode sa distribučná funkcia zostrojená podľa údajov práce líši od najbližšej normálnej distribučnej funkcie aspoň o 1/26, t.j. do 0.04. Okrem toho je zrejmé, že pre normálne rozdelenie náhodnej premennej je pravdepodobnosť pádu do diskrétnej množiny desatinných čísel s daným počtom desatinných miest 0.

Z uvedeného vyplýva, že výsledky meraní a vo všeobecnosti štatistické údaje majú vlastnosti, ktoré vedú k tomu, že by mali byť modelované náhodnými veličinami s rozdeleniami, ktoré sú viac-menej odlišné od normálnych. Vo väčšine prípadov sa rozdelenia výrazne líšia od normálnych rozdelení, v iných možno normálne rozdelenia zrejme považovať za určitý druh aproximácie, nikdy však nejde o úplnú zhodu okolností. Z toho vyplýva jednak potreba študovať vlastnosti klasických štatistických postupov v neklasických pravdepodobnostných modeloch (podobne ako sa to robí nižšie pre Študentovo kritérium), jednak potreba vyvinúť stabilné (berúc do úvahy prítomnosť odchýlok od normality) a neparametrické, vrátane bezdistribučných postupov, ich široké zavedenie do praxe štatistického spracovania údajov.

Úvahy tu vynechané pre iné parametrické rodiny vedú k podobným záverom. Výsledok možno formulovať nasledovne. Reálne distribúcie údajov takmer nikdy nepatria do žiadnej konkrétnej parametrickej rodiny. Reálne distribúcie sa vždy líšia od tých, ktoré sú zahrnuté v parametrických rodinách. Rozdiely môžu byť veľké alebo malé, ale vždy existujú. Pokúsme sa pochopiť, aké dôležité sú tieto rozdiely pre ekonometrickú analýzu.

v teórii pravdepodobnosti a matematickej štatistike sa berú do úvahy rôzne parametrické rodiny rozdelení číselných náhodných premenných. Konkrétne sú študované rodiny normálnych rozdelení, logaritmicky normálne, exponenciálne, gama rozdelenia, Weibull-Gnedenkove rozdelenia atď.. Všetky závisia od jedného, ​​dvoch alebo troch parametrov. Preto na úplný popis rozdelenia stačí poznať alebo odhadnúť jedno, dve alebo tri čísla. Veľmi pohodlne. Preto je široko rozvinutá parametrická teória matematickej štatistiky, v ktorej sa predpokladá, že distribúcie výsledkov pozorovaní patria do jednej alebo druhej parametrickej rodiny.

Žiaľ, parametrické rodiny existujú len v hlavách autorov učebníc o teórii pravdepodobnosti a matematickej štatistike. V skutočnom živote neexistujú. Ekonometria preto využíva najmä neparametrické metódy, pri ktorých môžu mať rozdelenia výsledkov pozorovaní ľubovoľnú podobu.

Najprv si na príklade normálneho rozdelenia podrobnejšie rozoberieme nemožnosť praktického využitia parametrických rodín na popis rozdelení konkrétnych ekonomických údajov. Potom analyzujeme parametrické metódy na odmietnutie odľahlých pozorovaní a demonštrujeme nemožnosť praktického využitia viacerých metód parametrickej štatistiky, mylnosť záverov, ku ktorým vedú. Potom budeme analyzovať neparametrické metódy odhadu spoľahlivosti hlavných charakteristík numerických náhodných premenných - matematické očakávanie, medián, rozptyl, smerodajná odchýlka, koeficient variácie. Prednáška bude ukončená metódami kontroly homogenity dvoch vzoriek, nezávislých alebo súvisiacich.

Je rozdelenie pozorovaní často normálne?

V ekonometrických a ekonomicko-matematických modeloch využívaných najmä pri štúdiu a optimalizácii procesov marketingu a riadenia, podnikového a regionálneho manažmentu, presnosti a stability technologických procesov, v problémoch spoľahlivosti, bezpečnosti vrátane environmentálnej bezpečnosti, fungovania technických zariadenia a objekty , vývoj organizačných schém často používajú pojmy a výsledky teórie pravdepodobnosti a matematickej štatistiky. V tomto prípade sa často používajú určité parametrické rodiny rozdelenia pravdepodobnosti. Najpopulárnejší normálne rozdelenie. Používa sa aj logaritmicky normálne rozdelenie, exponenciálne rozdelenie, gama rozdelenie, Weibullovo-Gnedenkovo ​​rozdelenie atď.

Je samozrejmé, že vždy je potrebné kontrolovať zhodu modelov s realitou. Sú dve otázky. Líšia sa skutočné distribúcie od tých, ktoré sú použité v modeli? Do akej miery tento rozdiel ovplyvňuje závery?

Nižšie na príklade normálneho rozdelenia a metód na odmietnutie výrazne odlišných pozorovaní (odľahlých hodnôt) na ňom založených sa ukazuje, že reálne rozdelenia sa takmer vždy líšia od tých, ktoré sú zahrnuté v klasických parametrických rodinách, a existujúce odchýlky od daných rodín vyvodiť v posudzovanom prípade nesprávne závery o odmietnutí na základe využívania týchto rodín.

Existuje nejaký dôvod a priori predpokladať normalitu výsledkov merania?

Niekedy sa argumentuje, že v prípade chyby merania (alebo inej náhodná hodnota) je určený ako výsledok kombinovaného pôsobenia mnohých malých faktorov, potom na základe Centrálnej limitnej vety (CLT) teórie pravdepodobnosti je táto hodnota dobre aproximovaná (distribúciou) normálnou náhodnou premennou. Toto tvrdenie je pravdivé, ak malé faktory pôsobia aditívne a nezávisle od seba. Ak pôsobia multiplikatívne, potom je v dôsledku rovnakého CLT potrebné aproximovať pomocou log-normálneho rozdelenia. V aplikovaných problémoch väčšinou nie je možné zdôvodniť skôr aditivitu ako multiplikatívnosť pôsobenia malých faktorov. Ak má závislosť všeobecnú povahu, nie je redukovaná na aditívnu alebo multiplikatívnu formu a neexistujú žiadne dôvody na prijatie modelov, ktoré dávajú exponenciálne, Weibullov-Gnedenkove, gama alebo iné distribúcie, potom o distribúcii nie je známe prakticky nič. konečná náhodná premenná, s výnimkou vnútromatematických vlastností, ako je pravidelnosť .

Pri spracovaní konkrétnych údajov sa niekedy verí, že chyby merania majú normálne rozdelenie. Za predpokladu normality, klasické modely regresie, disperzie, faktorové analýzy, metrologické modely, ktoré sa stále nachádzajú tak v domácej normatívnej a technickej dokumentácii, ako aj v medzinárodných normách. Z rovnakého predpokladu vychádzajú aj modely na výpočet maximálne dosiahnuteľných úrovní určitých charakteristík používaných pri projektovaní systémov na zaistenie bezpečnosti fungovania hospodárskych štruktúr, technických zariadení a objektov. Pre takýto predpoklad však neexistuje žiadny teoretický základ. Je potrebné experimentálne študovať rozdelenie chýb.

Čo ukazujú výsledky experimentov? Zhrnutie uvedené v monografii umožňuje konštatovať, že vo väčšine prípadov sa rozdelenie chýb merania líši od bežného. V Strojno-elektrotechnickom inštitúte (Varna, Bulharsko) sa teda študovalo rozdelenie chýb kalibrácie pre stupnice analógových elektrických meracích prístrojov. Študované boli zariadenia vyrobené v Československu, ZSSR a Bulharsku. Zákon o distribúcii chýb sa ukázal byť rovnaký. Má hustotu

Analyzovali sme údaje o parametroch 219 skutočných rozdelení chýb, študovaných rôznymi autormi, pri meraní elektrických aj neelektrických veličín širokou škálou (elektrických) zariadení. Výsledkom tejto štúdie sa ukázalo, že 111 distribúcií, t.j. približne 50 % patrí do triedy distribúcií s hustotou

kde je parameter stupňa; - parameter posunu; - parameter mierky; - gama funkcia argumentu;

Laboratórium aplikovanej matematiky Štátnej univerzity v Tartu analyzovalo 2 500 vzoriek z archívu skutočných štatistických údajov. V 92 % musela byť hypotéza normality zamietnutá.

Vyššie uvedené opisy experimentálnych údajov ukazujú, že chyby merania majú vo väčšine prípadov distribúcie, ktoré sa líšia od normálnych. To znamená najmä, že väčšina aplikácií Studentovho t-testu je klasický regresná analýza a iné štatistické metódy založené na normálnej teórii, prísne vzaté, nie je opodstatnené, pretože axióma normality distribúcií zodpovedajúcich náhodných premenných, ktoré sú ich základom, je nesprávna.

Je zrejmé, že na zdôvodnenie alebo primeranú zmenu existujúcej praxe analýzy štatistických údajov je potrebné preštudovať vlastnosti postupov analýzy údajov v „nelegálnych“ aplikáciách. Štúdium zamietacích procedúr ukázalo, že sú extrémne nestabilné voči odchýlkam od normálnosti, a preto nie je vhodné ich používať na spracovanie reálnych údajov (pozri nižšie); preto nemožno tvrdiť, že svojvoľne prijatý postup je stabilný voči odchýlkam od normálnosti.

Niekedy sa navrhuje, aby ste pred aplikáciou napríklad Studentovho testu na homogenitu dvoch vzoriek skontrolovali normalitu. Aj keď na to existuje veľa kritérií, testovanie normality je zložitejší a časovo náročnejší štatistický postup ako testovanie homogenity (ako pri štatistike študentského typu, tak aj pri neparametrických testoch). Na dostatočne spoľahlivé stanovenie normality je potrebný pomerne veľký počet pozorovaní. Aby sa teda zaručilo, že distribučná funkcia výsledkov pozorovaní sa nebude líšiť od normálnej hodnoty o viac ako 0,01 (pre akúkoľvek hodnotu argumentu), je potrebných asi 2500 pozorovaní. Vo väčšine ekonomických, technických, biomedicínskych a iných aplikovaných štúdií je počet pozorovaní výrazne nižší. To platí najmä pre údaje používané pri štúdiu problémov súvisiacich so zaistením bezpečnosti fungovania hospodárskych štruktúr a technických objektov.

Niekedy sa pokúšajú pomocou CCT priblížiť rozdelenie chyby k normálnemu, vrátane špeciálnych sčítačiek v technologickej schéme meracieho zariadenia. Poďme zhodnotiť užitočnosť tohto opatrenia. Nech sú nezávislé identicky rozdelené náhodné premenné s distribučnou funkciou také, ktoré uvažujú

Indikátor blízkosti normality poskytovaný sčítačkou je

Pravá nerovnosť v poslednom vzťahu vyplýva z odhadov konštanty Berry-Esseenovej nerovnosti získaných v knihe a ľavá z príkladu v monografii. Pre normálny zákon, pre jednotné , pre dvojbodové (toto je spodná hranica pre ). Preto, aby sa zabezpečila vzdialenosť (v Kolmogorovovej metrike) od normálneho rozdelenia nie väčšia ako 0,01 pre „neúspešné“ rozdelenia, sú potrebné aspoň členy, kde je pravdepodobnosť pádu do diskrétnej množiny desatinných čísel s daným počtom desatinné miesta sú rovné 0.

Z uvedeného vyplýva, že výsledky meraní a vo všeobecnosti štatistické údaje majú vlastnosti, ktoré vedú k tomu, že by mali byť modelované náhodnými veličinami s rozdeleniami, ktoré sú viac-menej odlišné od normálnych. Vo väčšine prípadov sa rozdelenia výrazne líšia od normálnych rozdelení, v iných možno normálne rozdelenia zrejme považovať za aproximáciu, ale úplná náhoda nikdy neexistuje. Z toho vyplýva jednak potreba študovať vlastnosti klasických štatistických postupov v neklasických pravdepodobnostné modely(podobne ako sa to robí nižšie pri Studentovom t-teste), a potrebe vyvinúť stabilné (s prihliadnutím na prítomnosť odchýlok od normality) a neparametrické, vrátane distribučných postupov, ich široké zavedenie do praxe štatistických spracovanie dát.

Úvahy tu vynechané pre iné parametrické rodiny vedú k podobným záverom. Výsledok možno formulovať nasledovne. Reálne distribúcie údajov takmer nikdy nepatria do žiadnej konkrétnej parametrickej rodiny. Reálne distribúcie sa vždy líšia od tých, ktoré sú zahrnuté v parametrických rodinách. Rozdiely môžu byť veľké alebo malé, ale vždy existujú. Pokúsme sa pochopiť, aké dôležité sú tieto rozdiely pre ekonometrickú analýzu.