Distributie normala. De ce nu este totul normal cu o distribuție normală?

    Cum să gestionezi corect finanțele afacerii tale dacă nu ești expert în domeniul analizei financiare - Analiza financiară

    Management financiar - relații financiare între subiecți, management financiar la diferite niveluri, management de portofoliu, metode de gestionare a mișcării resurselor financiare - aceasta nu este o listă completă a subiectului " Management financiar"

    Să vorbim despre ce este antrenament? Unii cred că acesta este un brand burghez, alții că este o descoperire în afacerile moderne. Coaching-ul este un set de reguli pentru afaceri de succes, precum și capacitatea de a gestiona corect aceste reguli.

4.1. Distribuția observațiilor este adesea normală?

În modelele econometrice și economico-matematice utilizate, în special, în studiul și optimizarea proceselor de marketing și management, managementul întreprinderii și regionale, acuratețea și stabilitatea proceselor tehnologice, în probleme de fiabilitate, siguranță, inclusiv siguranța mediului, funcționarea sistemelor tehnice; dispozitive și obiecte , dezvoltarea organigramelor aplică adesea conceptele și rezultatele teoriei probabilităților și statisticii matematice. În acest caz, se folosesc adesea anumite familii parametrice de distribuții de probabilitate. Cea mai populară este distribuția normală. De asemenea, sunt utilizate distribuția log-normală, distribuția exponențială, distribuția gamma, distribuția Weibull-Gnedenko etc.

Evident, este întotdeauna necesar să se verifice conformitatea modelelor cu realitatea. Sunt două întrebări. Diferă distribuțiile reale de cele utilizate în model? În ce măsură această diferență afectează concluziile?

Mai jos, folosind exemplul distribuției normale și metodele de respingere a observațiilor (outliers) puternic diferite bazate pe aceasta, se arată că distribuțiile reale diferă aproape întotdeauna de cele incluse în familiile parametrice clasice și abaterile existente de la familiile date. să tragă concluzii incorecte, în cazul în cauză, cu privire la respingerea pe baza utilizării acestor familii.

Există vreun motiv să presupunem a priori normalitatea rezultatelor măsurătorilor?

Se susține uneori că, în cazul în care eroarea de măsurare (sau altă variabilă aleatorie) este determinată ca urmare a acțiunii cumulate a multor factori mici, atunci, datorită Teoremei Limitei Centrale (CLT) a teoriei probabilităților, această valoare este bine aproximat (prin distribuție) printr-o variabilă aleatorie normală. Această afirmație este adevărată dacă factorii mici acționează în mod aditiv și independent unul de celălalt. Dacă acţionează multiplicativ, atunci, datorită aceluiaşi CLT, este necesar să se aproximeze printr-o distribuţie log-normală. În problemele aplicate, de obicei nu este posibilă fundamentarea aditivității mai degrabă decât a multiplicativității acțiunii factorilor mici. Dacă dependența este de natură generală, nu se reduce la o formă aditivă sau multiplicativă și nu există motive pentru a accepta modele care oferă distribuții exponențiale, Weibull-Gnedenko, gamma sau alte distribuții, atunci practic nu se știe nimic despre distribuția variabilă aleatorie finală, cu excepția proprietăților intra-matematice, cum ar fi regularitatea.

Când se prelucrează date specifice, uneori se crede că erorile de măsurare au o distribuție normală. Pe ipoteza normalității se construiesc modele clasice de regresie, dispersie, analiză factorială, modele metrologice, care continuă să se regăsească atât în ​​documentația de reglementare și tehnică națională, cât și în standardele internaționale. Modelele de calcul a nivelurilor maxime atinse ale anumitor caracteristici utilizate în proiectarea sistemelor de asigurare a siguranței funcționării structurilor economice, dispozitivelor tehnice și obiectelor se bazează pe aceeași ipoteză. Cu toate acestea, nu există o bază teoretică pentru o astfel de presupunere. Este necesar să se studieze experimental distribuția erorilor.

Ce arată rezultatele experimentale? Rezumatul prezentat în monografie ne permite să afirmăm că în majoritatea cazurilor distribuția erorilor de măsurare diferă de cea normală. Astfel, la Institutul de Mașini-Electrotehnice (Varna, Bulgaria) a fost studiată distribuția erorilor de calibrare pentru cântarele instrumentelor de măsură electrice analogice. Au fost studiate dispozitivele fabricate în Cehoslovacia, URSS și Bulgaria. Legea distribuției erorilor s-a dovedit a fi aceeași. Are o densitate

Am analizat datele privind parametrii a 219 distribuții efective de erori, studiate de diferiți autori, la măsurarea mărimilor atât electrice, cât și neelectrice cu o mare varietate de dispozitive (electrice). În urma acestui studiu, s-a dovedit că 111 distribuții, i.e. aproximativ 50% aparţin clasei distribuţiilor cu densitate

unde este parametrul gradului; b - parametru de schimbare; - parametrul de scară; - funcţia gamma a argumentului ;

(cm. ); 63 de distribuții, i.e. 30% au densități de vârf plat cu pante lungi și blânde și nu pot fi descrise ca normale sau, de exemplu, exponențiale. Restul de 45 de distribuții s-au dovedit a fi bimodale.

În cartea celebrului metrolog prof. PV Novitsky prezintă rezultatele unui studiu al legilor de distribuție a diferitelor tipuri de erori de măsurare. A studiat distribuția erorilor instrumentelor electromecanice pe miezuri, instrumente electronice de măsurare a temperaturilor și forțelor, instrumente digitale cu echilibrare manuală. Volumul probelor de date experimentale pentru fiecare specimen a fost de 100-400 de citiri. S-a dovedit că 46 din 47 de distribuții au fost semnificativ diferite de cele normale. A fost studiată forma distribuției erorilor în 25 de copii ale voltmetrelor digitale Shch-1411 în 10 puncte ale intervalului. Rezultatele sunt similare. Informații suplimentare sunt conținute în monografie.

Laboratorul de Matematică Aplicată al Universității de Stat din Tartu a analizat 2.500 de mostre din arhiva de date statistice reale. În 92%, ipoteza normalității a trebuit să fie respinsă.

Descrierile de mai sus ale datelor experimentale arată că erorile de măsurare în majoritatea cazurilor au distribuții care diferă de cele normale. Aceasta înseamnă, în special, că cele mai multe aplicații ale testului t al lui Student, ale analizei de regresie clasică și ale altor metode statistice bazate pe teoria normală nu sunt, strict vorbind, nejustificate, deoarece axioma de bază a normalității distribuțiilor aleatoarelor corespunzătoare. variabile este incorectă.

Evident, pentru a justifica sau a modifica în mod rezonabil practica curentă de analiză a datelor statistice, este necesar să se studieze proprietățile procedurilor de analiză a datelor în aplicații „ilegale”. Studiul procedurilor de respingere a arătat că acestea sunt extrem de instabile la abaterile de la normalitate și, prin urmare, nu este recomandabil să le folosești pentru prelucrarea datelor reale (vezi mai jos); prin urmare, nu se poate afirma că o procedură luată în mod arbitrar este stabilă împotriva abaterilor de la normalitate.

Uneori se sugerează ca înainte de a aplica, de exemplu, testul Student pentru omogenitatea a două probe, să se verifice normalitatea. Deși există multe criterii pentru aceasta, testarea normalității este o procedură statistică mai complexă și mai consumatoare de timp decât testarea omogenității (atât cu statistici de tip Student, cât și cu teste neparametrice). Este necesar un număr destul de mare de observații pentru a stabili normalitatea în mod suficient de fiabil. Deci, pentru a garanta că funcția de distribuție a rezultatelor observațiilor diferă de unele normale cu cel mult 0,01 (pentru orice valoare a argumentului), sunt necesare aproximativ 2500 de observații. În majoritatea studiilor economice, tehnice, biomedicale și alte studii aplicate, numărul de observații este semnificativ mai mic. Acest lucru este valabil mai ales pentru datele utilizate în studiul problemelor legate de asigurarea siguranței funcționării structurilor economice și a obiectelor tehnice.

Uneori încearcă să folosească CCT pentru a aproxima distribuția erorii la cea normală, incluzând sumatori speciali în schema tehnologică a dispozitivului de măsurare. Să evaluăm utilitatea acestei măsuri. Fie Z1 , Z2 ,…, Zk variabile aleatoare independente distribuite identic cu funcție de distribuție H = H(x) astfel încât Considerăm

Indicatorul apropierii de normalitate oferit de sumator este

Inegalitatea dreaptă din ultima relație rezultă din estimările constantei din inegalitatea Berry-Esseen obținute în carte, iar cea stângă, din exemplul din monografie. Pentru o lege normală = 1,6, pentru o lege uniformă = 1,3, pentru o lege în două puncte = 1 (aceasta este limita inferioară pentru ). Prin urmare, pentru a asigura distanța (în metrica Kolmogorov) față de distribuția normală nu mai mult de 0,01 pentru distribuțiile „nereușite”, sunt necesari cel puțin k0 termeni, unde

În viperele utilizate în mod obișnuit, termenii sunt mult mai mici. Prin restrângerea clasei de distribuții posibile H, se poate obține, așa cum se arată în monografie, o convergență mai rapidă, dar aici teoria nu se contopește încă cu practica. În plus, nu este clar dacă apropierea distribuției față de normal (într-o anumită metrică) asigură și apropierea distribuției statisticilor construite din variabile aleatoare cu această distribuție față de distribuția statisticilor corespunzătoare observațiilor normale. Aparent, pentru fiecare statistică specifică sunt necesare studii teoretice speciale, aceasta este concluzia la care ajunge autorul monografiei. În problemele de respingere anormale, răspunsul este: „Nu oferă” (vezi mai jos).

Rețineți că rezultatul oricărei măsurători reale este înregistrat folosind un număr finit de zecimale, de obicei mic (2-5), deci este recomandabil să modelați orice date reale numai folosind variabile aleatoare discrete care iau un număr finit de valori. Distribuția normală este doar o aproximare a distribuției reale. Deci, de exemplu, datele unui studiu specific, date în lucrare, iau valori de la 1,0 la 2,2, adică există 13 valori posibile în total. Din principiul Dirichlet rezultă că la un moment dat funcția de distribuție construită în funcție de datele de lucru diferă de cea mai apropiată funcție de distribuție normală cu cel puțin 1/26, i.e. cu 0,04. În plus, este evident că pentru o distribuție normală a unei variabile aleatoare, probabilitatea de a cădea într-un set discret de numere zecimale cu un anumit număr de zecimale este 0.

Din cele spuse mai sus, rezultă că rezultatele măsurătorilor și, în general, datele statistice au proprietăți care duc la faptul că ar trebui modelate prin variabile aleatoare cu distribuții mai mult sau mai puțin diferite de cele normale. În cele mai multe cazuri, distribuțiile diferă semnificativ de distribuțiile normale; în altele, distribuțiile normale pot fi considerate aparent ca un fel de aproximare, dar nu există niciodată o coincidență completă. Aceasta implică atât necesitatea studierii proprietăților procedeelor ​​statistice clasice în modele probabilistice neclasice (în mod similar cu ceea ce se face mai jos pentru criteriul Student), cât și necesitatea dezvoltării stabile (ținând cont de prezența abaterilor de la normalitate) și neparametrice, inclusiv procedurile fără distribuție, introducerea lor largă în practica prelucrării datelor statistice.

Considerațiile omise aici pentru alte familii parametrice conduc la concluzii similare. Rezultatul poate fi formulat după cum urmează. Distribuțiile de date reale nu aparțin aproape niciodată unei anumite familii parametrice. Distribuțiile reale sunt întotdeauna diferite de cele incluse în familiile parametrice. Diferențele pot fi mari sau mici, dar există întotdeauna. Să încercăm să înțelegem cât de importante sunt aceste diferențe pentru analiza econometrică.

Toate drepturile rezervate. Materialele de pe acest site pot fi utilizate numai cu un link către acest site.

Distribuția normală (distribuția Gauss) a jucat întotdeauna un rol central în teoria probabilității, deoarece apare foarte des ca urmare a influenței mai multor factori, contribuția oricăruia dintre acestea fiind neglijabilă. Teorema limită centrală (CLT) își găsește aplicație în aproape toate științele aplicate, făcând aparatul statisticii universal. Cu toate acestea, există cazuri foarte frecvente când aplicarea sa este imposibilă, iar cercetătorii încearcă în toate modurile posibile să organizeze potrivirea rezultatelor la Gaussian. Este vorba despre o abordare alternativă în cazul influenței asupra distribuției multor factori, vă spun acum.

Scurt istoric al CPT.În timp ce Newton era încă în viață, Abraham de Moivre a demonstrat o teoremă privind convergența unui număr centrat și normalizat de observații ale unui eveniment într-o serie de încercări independente la o distribuție normală. De-a lungul secolului al XIX-lea și începutul secolului al XX-lea, această teoremă a servit ca model științific pentru generalizări. Laplace a demonstrat cazul distribuției uniforme, Poisson - teorema locală pentru cazul cu probabilități diferite. Poincaré, Legendre și Gauss au dezvoltat o teorie bogată a erorilor de observație și metoda celor mai mici pătrate bazată pe convergența erorilor la o distribuție normală. Cebyshev a demonstrat o teoremă și mai puternică pentru suma variabilelor aleatoare prin dezvoltarea metodei momentelor. Lyapunov în 1900, bazându-se pe Cebyshev și Markov, a demonstrat CLT în forma sa actuală, dar numai cu existența momentelor de ordinul trei. Și abia în 1934 Feller i-a pus capăt, arătând că existența momentelor de ordinul doi este atât o condiție necesară, cât și suficientă.

CLT poate fi formulat astfel: dacă variabilele aleatoare sunt independente, distribuite egal și au o varianță finită, alta decât zero, atunci sumele (centrate și normalizate) ale acestor variabile converg către legea normală. În această formă, această teoremă este predată în universități și este atât de des folosită de observatori și cercetători care nu sunt profesioniști în matematică. Ce e in neregula cu ea? Într-adevăr, teorema are aplicații excelente în domeniile la care au lucrat Gauss, Poincare, Cebyshev și alte genii ale secolului al XIX-lea și anume: teoria erorilor de observație, fizica statistică, cele mai mici pătrate, studii demografice și poate și altceva. Dar oamenii de știință cărora le lipsește originalitatea de a descoperi, generaliza și doresc să aplice această teoremă la orice, sau pur și simplu trage distribuția normală de urechi, acolo unde pur și simplu nu poate fi. Dacă vrei exemple, le am.

IQ-ul coeficientului de inteligență. Inițial, înseamnă că inteligența oamenilor este distribuită în mod normal. Ei efectuează un test care este precompilat într-un mod care nu ia în considerare abilitățile remarcabile, dar este luat în considerare separat cu aceiași factori fracționari: gândire logică, design mental, abilități de calcul, gândire abstractă și altceva. Capacitatea de a rezolva probleme dincolo de îndemâna celor mai mulți, sau trecerea unui test în timp ultra-rapid nu este luată în considerare în niciun fel, iar trecerea testului mai devreme crește rezultatul (dar nu și inteligența) în viitor. Și atunci filistenii cred că „nimeni nu poate fi de două ori mai deștept decât ei”, „să o luăm de la înțelepți și să o împărtășim”.

Al doilea exemplu: modificări ale indicatorilor financiari. Studiul modificărilor prețului acțiunilor, cotațiilor valutare, opțiunilor de mărfuri necesită utilizarea aparatului de statistică matematică și mai ales aici este important să nu greșim cu tipul de distribuție. Caz concret: în 1997, Premiul Nobel pentru Economie a fost plătit pentru propunerea modelului Black-Scholes, bazat pe ipoteza unei distribuții normale a creșterii indicatorilor de stoc (așa-numitul zgomot alb). În același timp, autorii au declarat în mod explicit că acest model trebuie rafinat, dar tot ceea ce majoritatea cercetătorilor ulterioare au decis a fost pur și simplu să adauge distribuția Poisson la distribuția normală. Aici, evident, vor exista inexactități în studiul seriilor de timp lungi, deoarece distribuția Poisson satisface prea bine CLT și chiar și cu 20 de termeni nu se poate distinge de distribuția normală. Priviți imaginea de mai jos (și este dintr-un jurnal economic foarte serios), aceasta arată că, în ciuda unui număr destul de mare de observații și de distorsiuni evidente, distribuția este presupusă a fi normală.


Este destul de evident că distribuția salariilor în rândul populației orașului, dimensiunea fișierelor de pe disc, populația orașelor și țărilor nu va fi normală.

Distribuțiile din aceste exemple au în comun prezența așa-numitei „cozi grele”, adică valori departe de medie și o asimetrie vizibilă, de obicei corectă. Să luăm în considerare ce altceva, în afară de normal, ar putea fi asemenea distribuții. Să începem cu Poisson menționat mai devreme: are coadă, dar ne dorim ca legea să fie repetată pentru un set de grupuri, în fiecare dintre ele să fie respectată (calculați dimensiunea dosarelor pentru o întreprindere, salariul pentru mai multe orașe) sau scalată. (mărește sau micșorează în mod arbitrar intervalul modelului Black-Scholes), după cum arată observațiile, cozile și asimetria nu dispar, dar distribuția Poisson, conform CLT, ar trebui să devină normală. Din aceleași motive, distribuția Erlang, beta, logonormal și toate celelalte cu dispersie nu vor funcționa. Rămâne doar tăiat distribuția Pareto, dar nu se potrivește din cauza coincidenței modei cu valoarea minimă, ceea ce nu apare aproape niciodată în analiza datelor eșantionului.

Distribuțiile cu proprietățile necesare există și se numesc distribuții stabile. Foarte interesantă este și istoria lor, iar teorema principală a fost dovedită la un an după lucrarea lui Feller, în 1935, prin eforturile comune ale matematicianului francez Paul Levy și ale matematicianului sovietic A.Ya. Khinchin. CLT a fost generalizat, din el a fost eliminată condiția existenței dispersiei. Spre deosebire de normal, nici densitatea, nici funcția de distribuție a variabilelor aleatoare stabile nu sunt exprimate (cu o rară excepție, care este discutată mai jos), tot ceea ce se știe despre ele este funcția caracteristică (transformata Fourier inversă a densității distribuției, dar la înțelegeți esența, acest lucru nu poate fi știut).
Deci, teorema: dacă variabilele aleatoare sunt independente, distribuite egal, atunci sumele acestor variabile converg către o lege stabilă.

Acum definiția. Valoare aleatoare X va fi stabil dacă și numai dacă logaritmul funcției sale caracteristice poate fi reprezentat ca:

Unde .

De fapt, nu este nimic foarte complicat aici, trebuie doar să explici semnificația celor patru parametri. Parametrii sigma și mu sunt scara și decalajul obișnuit, ca în distribuția normală, mu va fi egal cu așteptarea dacă este și este atunci când alfa este mai mare de unu. Parametrul beta este asimetria; dacă este egal cu zero, distribuția este simetrică. Dar alfa este un parametru caracteristic, care indică în ce ordine există momentele unei mărimi, cu cât este mai aproape de două, cu atât distribuția arată mai mult ca una normală, dacă este egală cu două, distribuția devine normală și numai în acest caz are momente de ordine mari, tot in cazul distributiei normale, asimetria degenereaza. În cazul în care alfa este egal cu unu și beta cu zero, se obține distribuția Cauchy, iar în cazul în care alfa este egal cu jumătate și beta cu unu, distribuția Levy, în alte cazuri nu există reprezentare în cuadraturi pentru densitatea de distribuție a acestor cantități.
În secolul al XX-lea, a fost dezvoltată o bogată teorie a cantităților și proceselor stabile (numite procese Levy), a fost demonstrată legătura lor cu integralele fracționale, au fost introduse diverse metode de parametrizare și modelare, parametrii au fost estimați în mai multe moduri, iar consistența și stabilitatea dintre estimări au fost prezentate. Privește imaginea, arată traiectoria simulată a procesului Levy cu un fragment mărit de 15 ori.


În timp ce se ocupa de astfel de procese și de aplicarea lor în finanțe, Benoit Mandelbrot a inventat fractali. Cu toate acestea, nu peste tot a fost atât de bun. A doua jumătate a secolului XX a trecut sub tendința generală a științelor aplicate și cibernetice, ceea ce a însemnat o criză a matematicii pure, toată lumea a vrut să producă, dar nu a vrut să gândească, științele umaniste au ocupat sferele matematice cu jurnalismul lor. Exemplu: cartea „Fifty entertaining probabilistic problems with solutions” a americanului Mosteller, problema numărul 11:


Soluția autorului la această problemă este pur și simplu o înfrângere a bunului simț:

Aceeași situație este și cu sarcina a 25-a, unde sunt date TREI răspunsuri contradictorii.

Dar să revenim la distribuții stabile. În restul articolului, voi încerca să arăt că nu ar trebui să existe dificultăți suplimentare atunci când lucrezi cu ei. Și anume, există metode numerice și statistice care vă permit să estimați parametrii, să calculați funcția de distribuție și să le simulați, adică să funcționeze în același mod ca și cu orice altă distribuție.

Modelarea variabilelor aleatoare stabile. Deoarece totul este cunoscut prin comparație, permiteți-mi mai întâi să reamintesc cea mai convenabilă, din punct de vedere al calculelor, metodă de generare a unei valori normale (metoda Box-Muller): dacă sunt variabile aleatoare de bază (distribuite uniform pe )