Legea normală a distribuției probabilităților. Analiza statistică a valorilor numerice (statistici neparametrice)

    Cum să gestionezi corect finanțele afacerii tale dacă nu ești expert în domeniul analizei financiare - Analiza financiară

    Management financiar - relații financiare între subiecți, management financiar la diferite niveluri, management de portofoliu, metode de gestionare a mișcării resurselor financiare - aceasta nu este o listă completă a subiectului " Management financiar"

    Să vorbim despre ce este antrenament? Unii cred că acesta este un brand burghez, alții că este o descoperire în afacerile moderne. Coaching-ul este un set de reguli pentru afaceri de succes, precum și capacitatea de a gestiona corect aceste reguli.

4.1. Distribuția observațiilor este adesea normală?

În modelele econometrice și economico-matematice utilizate, în special, în studiul și optimizarea proceselor de marketing și management, managementul întreprinderii și regionale, acuratețea și stabilitatea proceselor tehnologice, în probleme de fiabilitate, siguranță, inclusiv siguranța mediului, funcționarea sistemelor tehnice; dispozitive și obiecte , dezvoltarea organigramelor aplică adesea conceptele și rezultatele teoriei probabilităților și statisticii matematice. În acest caz, se folosesc adesea anumite familii parametrice de distribuții de probabilitate. Cea mai populară este distribuția normală. De asemenea, sunt utilizate distribuția log-normală, distribuția exponențială, distribuția gamma, distribuția Weibull-Gnedenko etc.

Evident, este întotdeauna necesar să se verifice conformitatea modelelor cu realitatea. Sunt două întrebări. Diferă distribuțiile reale de cele utilizate în model? În ce măsură această diferență afectează concluziile?

Mai jos, folosind exemplul distribuției normale și metodele de respingere a observațiilor (outliers) puternic diferite bazate pe aceasta, se arată că distribuțiile reale diferă aproape întotdeauna de cele incluse în familiile parametrice clasice și abaterile existente de la familiile date. să tragă concluzii incorecte, în cazul în cauză, cu privire la respingerea pe baza utilizării acestor familii.

Există vreun motiv să presupunem a priori normalitatea rezultatelor măsurătorilor?

Uneori se susține că, în cazul în care eroarea de măsurare (sau altă variabilă aleatorie) este determinată ca urmare a acțiunii cumulate a multor factori mici, atunci, datorită Teoremei Limitei Centrale (CLT) a teoriei probabilităților, această valoare este bine aproximat (prin distribuție) printr-o variabilă aleatorie normală. Această afirmație este adevărată dacă factorii mici acționează aditiv și independent unul de celălalt. Dacă acţionează multiplicativ, atunci, datorită aceluiaşi CLT, este necesar să se aproximeze printr-o distribuţie log-normală. În problemele aplicate, de obicei nu este posibilă fundamentarea aditivității mai degrabă decât a multiplicativității acțiunii factorilor mici. Dacă dependența este de natură generală, nu se reduce la o formă aditivă sau multiplicativă și nu există motive pentru a accepta modele care oferă distribuții exponențiale, Weibull-Gnedenko, gamma sau alte distribuții, atunci practic nu se știe nimic despre distribuția variabilă aleatorie finală, cu excepția proprietăților intra-matematice, cum ar fi regularitatea.

Când se prelucrează date specifice, uneori se crede că erorile de măsurare au o distribuție normală. Pe ipoteza normalității se construiesc modele clasice de regresie, dispersie, analiză factorială, modele metrologice, care continuă să se regăsească atât în ​​documentația de reglementare și tehnică națională, cât și în standardele internaționale. Modelele de calcul a nivelurilor maxime atinse ale anumitor caracteristici utilizate în proiectarea sistemelor de asigurare a siguranței funcționării structurilor economice, dispozitivelor tehnice și obiectelor se bazează pe aceeași ipoteză. Cu toate acestea, nu există o bază teoretică pentru o astfel de presupunere. Este necesar să se studieze experimental distribuția erorilor.

Ce arată rezultatele experimentale? Rezumatul prezentat în monografie ne permite să afirmăm că în majoritatea cazurilor distribuția erorilor de măsurare diferă de cea normală. Astfel, la Institutul de Mașini-Electrotehnice (Varna, Bulgaria) a fost studiată distribuția erorilor de calibrare pentru cântarele instrumentelor de măsură electrice analogice. Au fost studiate dispozitivele fabricate în Cehoslovacia, URSS și Bulgaria. Legea distribuției erorilor s-a dovedit a fi aceeași. Are o densitate

Am analizat datele privind parametrii a 219 distribuții efective de erori, studiate de diferiți autori, la măsurarea mărimilor atât electrice, cât și neelectrice cu o mare varietate de dispozitive (electrice). În urma acestui studiu, s-a dovedit că 111 distribuții, i.e. aproximativ 50% aparţin clasei distribuţiilor cu densitate

unde este parametrul gradului; b - parametru de schimbare; - parametrul de scară; - funcţia gamma a argumentului ;

(cm. ); 63 de distribuții, i.e. 30% au densități de vârf plat cu pante lungi și blânde și nu pot fi descrise ca normale sau, de exemplu, exponențiale. Restul de 45 de distribuții s-au dovedit a fi bimodale.

În cartea celebrului metrolog prof. PV Novitsky prezintă rezultatele unui studiu al legilor de distribuție a diferitelor tipuri de erori de măsurare. A studiat distribuția erorilor instrumentelor electromecanice pe miezuri, instrumentelor electronice de măsurare a temperaturilor și forțelor, instrumentelor digitale cu echilibrare manuală. Volumul probelor de date experimentale pentru fiecare specimen a fost de 100-400 de citiri. S-a dovedit că 46 din 47 de distribuții au fost semnificativ diferite de cele normale. A fost studiată forma distribuției erorilor în 25 de copii ale voltmetrelor digitale Shch-1411 în 10 puncte ale intervalului. Rezultatele sunt similare. Informații suplimentare sunt conținute în monografie.

Laboratorul de Matematică Aplicată al Universității de Stat din Tartu a analizat 2.500 de mostre din arhiva de date statistice reale. În 92%, ipoteza normalității a trebuit să fie respinsă.

Descrierile de mai sus ale datelor experimentale arată că erorile de măsurare în majoritatea cazurilor au distribuții care diferă de cele normale. Aceasta înseamnă, în special, că cele mai multe aplicații ale testului t al lui Student, ale analizei de regresie clasică și ale altor metode statistice bazate pe teoria normală nu sunt, strict vorbind, nejustificate, deoarece axioma de bază a normalității distribuțiilor aleatoarelor corespunzătoare. variabile este incorectă.

Evident, pentru a justifica sau a modifica în mod rezonabil practica actuală de analiză a datelor statistice, este necesar să se studieze proprietățile procedurilor de analiză a datelor în aplicații „ilegale”. Studiul procedurilor de respingere a arătat că acestea sunt extrem de instabile la abaterile de la normalitate și, prin urmare, nu este recomandabil să le folosești pentru prelucrarea datelor reale (vezi mai jos); prin urmare, nu se poate afirma că o procedură luată în mod arbitrar este stabilă împotriva abaterilor de la normalitate.

Uneori se sugerează ca înainte de a aplica, de exemplu, testul Student pentru omogenitatea a două probe, să se verifice normalitatea. Deși există multe criterii pentru aceasta, testarea normalității este o procedură statistică mai complexă și mai consumatoare de timp decât testarea omogenității (atât cu statistici de tip Student, cât și cu teste neparametrice). Este necesar un număr destul de mare de observații pentru a stabili normalitatea în mod suficient de fiabil. Deci, pentru a garanta că funcția de distribuție a rezultatelor observațiilor diferă de unele normale cu cel mult 0,01 (pentru orice valoare a argumentului), sunt necesare aproximativ 2500 de observații. În majoritatea studiilor economice, tehnice, biomedicale și alte studii aplicate, numărul de observații este semnificativ mai mic. Acest lucru este valabil mai ales pentru datele utilizate în studiul problemelor legate de asigurarea siguranței funcționării structurilor economice și a obiectelor tehnice.

Uneori încearcă să folosească CCT pentru a aproxima distribuția erorii la cea normală, incluzând sumatori speciali în schema tehnologică a aparatului de măsură. Să evaluăm utilitatea acestei măsuri. Fie Z1 , Z2 ,…, Zk variabile aleatoare independente distribuite identic cu funcție de distribuție H = H(x) astfel încât Considerăm

Indicatorul apropierii de normalitate oferit de sumator este

Inegalitatea dreaptă din ultima relație rezultă din estimările constantei din inegalitatea Berry-Esseen obținute în carte, iar cea stângă, din exemplul din monografie. Pentru o lege normală = 1,6, pentru o lege uniformă = 1,3, pentru o lege în două puncte = 1 (aceasta este limita inferioară pentru ). Prin urmare, pentru a asigura distanța (în metrica Kolmogorov) față de distribuția normală nu mai mult de 0,01 pentru distribuțiile „nereușite”, sunt necesari cel puțin k0 termeni, unde

În viperele utilizate în mod obișnuit, termenii sunt mult mai mici. Prin restrângerea clasei de distribuții posibile H se poate obține, așa cum se arată în monografie, o convergență mai rapidă, dar aici teoria nu se contopește încă cu practica. În plus, nu este clar dacă apropierea distribuției față de normal (într-o anumită metrică) asigură și apropierea distribuției statisticilor construite din variabile aleatoare cu această distribuție față de distribuția statisticilor corespunzătoare observațiilor normale. Aparent, pentru fiecare statistică specifică sunt necesare studii teoretice speciale, aceasta este concluzia la care ajunge autorul monografiei. În problemele de respingere anormale, răspunsul este: „Nu oferă” (vezi mai jos).

Rețineți că rezultatul oricărei măsurători reale este înregistrat folosind un număr finit de zecimale, de obicei mic (2-5), deci este recomandabil să modelați orice date reale numai folosind variabile aleatoare discrete care iau un număr finit de valori. Distribuția normală este doar o aproximare a distribuției reale. Deci, de exemplu, datele unui studiu specific, date în lucrare, iau valori de la 1,0 la 2,2, adică există 13 valori posibile în total. Din principiul Dirichlet rezultă că la un moment dat funcția de distribuție construită în funcție de datele de lucru diferă de cea mai apropiată funcție de distribuție normală cu cel puțin 1/26, i.e. cu 0,04. În plus, este evident că pentru o distribuție normală a unei variabile aleatoare, probabilitatea de a cădea într-un set discret de numere zecimale cu un anumit număr de zecimale este 0.

Din cele de mai sus rezultă că rezultatele măsurătorilor și, în general, datele statistice au proprietăți care duc la faptul că ar trebui modelate prin variabile aleatoare cu distribuții mai mult sau mai puțin diferite de cele normale. În cele mai multe cazuri, distribuțiile diferă semnificativ de distribuțiile normale; în altele, distribuțiile normale pot fi considerate aparent ca un fel de aproximare, dar nu există niciodată o coincidență completă. Aceasta implică atât necesitatea studierii proprietăților procedeelor ​​statistice clasice în modele probabilistice neclasice (în mod similar cu ceea ce se face mai jos pentru criteriul Student), cât și necesitatea dezvoltării stabile (ținând cont de prezența abaterilor de la normalitate) și neparametrice, inclusiv procedurile fără distribuție, introducerea lor largă în practica prelucrării datelor statistice.

Considerațiile omise aici pentru alte familii parametrice conduc la concluzii similare. Rezultatul poate fi formulat după cum urmează. Distribuțiile de date reale nu aparțin aproape niciodată unei anumite familii parametrice. Distribuțiile reale sunt întotdeauna diferite de cele incluse în familiile parametrice. Diferențele pot fi mari sau mici, dar există întotdeauna. Să încercăm să înțelegem cât de importante sunt aceste diferențe pentru analiza econometrică.

Toate drepturile rezervate. Materialele de pe acest site pot fi utilizate numai cu un link către acest site.

Orlov A.I. Distribuția observațiilor este adesea normală? - Revista „Laboratorul fabricii”. 1991 T.57. Nr.7 P.64-66.

Distribuția observațiilor este adesea normală?

A.I.Orlov

Rezultatele măsurătorilor și, în general, datele statistice au proprietăți care duc la faptul că ar trebui modelate prin variabile aleatoare cu distribuții mai mult sau mai puțin diferite de cele normale. În cele mai multe cazuri, distribuțiile sunt semnificativ diferite de cele normale. În altele, distribuțiile normale pot fi considerate aparent ca un fel de aproximare. Dar nu există niciodată o potrivire perfectă. Aceasta implică atât necesitatea studierii proprietăților procedeelor ​​statistice clasice în modele probabilistice neclasice, cât și necesitatea dezvoltării stabile (ținând cont de prezența abaterilor de la normalitate) și neparametrice, inclusiv a procedurilor fără distribuție, cu largimea lor. introducerea în practica prelucrării datelor statistice.

În modelele econometrice și economico-matematice utilizate, în special, în studiul și optimizarea proceselor de marketing și management, managementul întreprinderii și regionale, acuratețea și stabilitatea proceselor tehnologice, în probleme de fiabilitate, siguranță, inclusiv siguranța mediului, funcționarea sistemelor tehnice; dispozitive și obiecte , dezvoltarea organigramelor aplică adesea conceptele și rezultatele teoriei probabilităților și statisticii matematice. În acest caz, se folosesc adesea anumite familii parametrice de distribuții de probabilitate. Cea mai populară este distribuția normală. De asemenea, sunt utilizate distribuția log-normală, distribuția exponențială, distribuția gamma, distribuția Weibull-Gnedenko etc.

Evident, este întotdeauna necesar să se verifice conformitatea modelelor cu realitatea. Sunt două întrebări. Diferă distribuțiile reale de cele utilizate în model? În ce măsură această diferență afectează concluziile?

Mai jos, folosind exemplul distribuției normale și metodele de respingere a observațiilor (outliers) puternic diferite bazate pe aceasta, se arată că distribuțiile reale diferă aproape întotdeauna de cele incluse în familiile parametrice clasice și abaterile existente de la familiile date. să tragă concluzii incorecte, în cazul în cauză, cu privire la respingerea pe baza utilizării acestor familii.

Există vreun motiv să presupunem a priori normalitatea rezultatelor măsurătorilor?

Uneori se susține că, în cazul în care eroarea de măsurare (sau altă variabilă aleatorie) este determinată ca urmare a acțiunii cumulate a multor factori mici, atunci, datorită Teoremei Limitei Centrale (CLT) a teoriei probabilităților, această valoare este bine aproximat (prin distribuție) printr-o variabilă aleatorie normală. Această afirmație este adevărată dacă factorii mici acționează aditiv și independent unul de celălalt. Dacă acţionează multiplicativ, atunci, datorită aceluiaşi CLT, este necesar să se aproximeze printr-o distribuţie log-normală. În problemele aplicate, de obicei nu este posibilă fundamentarea aditivității mai degrabă decât a multiplicativității acțiunii factorilor mici. Dacă dependența este de natură generală, nu se reduce la o formă aditivă sau multiplicativă și nu există motive pentru a accepta modele care oferă distribuții exponențiale, Weibull-Gnedenko, gamma sau alte distribuții, atunci practic nu se știe nimic despre distribuția variabilă aleatorie finală, cu excepția proprietăților intra-matematice, cum ar fi regularitatea.

Când se prelucrează date specifice, uneori se crede că erorile de măsurare au o distribuție normală. Pe ipoteza normalității se construiesc modele clasice de regresie, dispersie, analiză factorială, modele metrologice, care continuă să se regăsească atât în ​​documentația de reglementare și tehnică națională, cât și în standardele internaționale. Modelele de calcul a nivelurilor maxime atinse ale anumitor caracteristici utilizate în proiectarea sistemelor de asigurare a siguranței funcționării structurilor economice, dispozitivelor tehnice și obiectelor se bazează pe aceeași ipoteză. Cu toate acestea, nu există o bază teoretică pentru o astfel de presupunere. Este necesar să se studieze experimental distribuția erorilor.

Ce arată rezultatele experimentale? Rezumatul prezentat în monografie ne permite să afirmăm că în majoritatea cazurilor distribuția erorilor de măsurare diferă de cea normală. Astfel, la Institutul de Mașini-Electrotehnice (Varna, Bulgaria) a fost studiată distribuția erorilor de calibrare pentru cântarele instrumentelor de măsură electrice analogice. Au fost studiate dispozitivele fabricate în Cehoslovacia, URSS și Bulgaria. Legea distribuției erorilor s-a dovedit a fi aceeași. Are o densitate

Am analizat datele privind parametrii a 219 distribuții efective de erori, studiate de diferiți autori, la măsurarea mărimilor atât electrice, cât și neelectrice cu o mare varietate de dispozitive (electrice). În urma acestui studiu, s-a dovedit că 111 distribuții, i.e. aproximativ 50% aparţin clasei distribuţiilor cu densitate

unde este parametrul gradului; b- parametru de schimbare; - parametrul de scară - funcția gamma a argumentului;

(cm. ); 63 de distribuții, i.e. 30%, au densități de vârf plat, cu pante lungi și ușoare și nu pot fi descrise ca normale sau, de exemplu, exponențiale. Restul de 45 de distribuții s-au dovedit a fi bimodale.

În cartea celebrului metrolog prof. PV Novitsky prezintă rezultatele unui studiu al legilor de distribuție a diferitelor tipuri de erori de măsurare. A studiat distribuția erorilor instrumentelor electromecanice pe miezuri, instrumentelor electronice de măsurare a temperaturilor și forțelor, instrumentelor digitale cu echilibrare manuală. Volumul probelor de date experimentale pentru fiecare specimen a fost de 100-400 de citiri. S-a dovedit că 46 din 47 de distribuții au fost semnificativ diferite de cele normale. A fost studiată forma distribuției erorilor în 25 de copii ale voltmetrelor digitale Shch-1411 în 10 puncte ale intervalului. Rezultatele sunt similare. Informații suplimentare sunt conținute în monografie.

Laboratorul de Matematică Aplicată al Universității de Stat din Tartu a analizat 2.500 de mostre din arhiva de date statistice reale. În 92%, ipoteza normalității a trebuit să fie respinsă.

Descrierile de mai sus ale datelor experimentale arată că erorile de măsurare în majoritatea cazurilor au distribuții care diferă de cele normale. Aceasta înseamnă, în special, că cele mai multe aplicații ale testului t al lui Student, ale analizei de regresie clasică și ale altor metode statistice bazate pe teoria normală nu sunt, strict vorbind, nejustificate, deoarece axioma de bază a normalității distribuțiilor aleatoarelor corespunzătoare. variabile este incorectă.

Evident, pentru a justifica sau a modifica în mod rezonabil practica existentă de analiză a datelor statistice, este necesar să se studieze proprietățile procedurilor de analiză a datelor în aplicații „ilegale”. Studiul procedurilor de respingere a arătat că acestea sunt extrem de instabile la abaterile de la normalitate și, prin urmare, nu este recomandabil să le folosești pentru prelucrarea datelor reale (vezi mai jos); prin urmare, nu se poate afirma că o procedură luată în mod arbitrar este stabilă împotriva abaterilor de la normalitate.

Uneori se sugerează ca înainte de a aplica, de exemplu, testul Student pentru omogenitatea a două probe, să se verifice normalitatea. Deși există multe criterii pentru aceasta, testarea normalității este o procedură statistică mai complexă și mai consumatoare de timp decât testarea omogenității (atât cu statistici de tip Student, cât și cu teste neparametrice). Este necesar un număr destul de mare de observații pentru a stabili normalitatea în mod suficient de fiabil. Deci, pentru a garanta că funcția de distribuție a rezultatelor observațiilor diferă de unele normale cu cel mult 0,01 (pentru orice valoare a argumentului), sunt necesare aproximativ 2500 de observații. În majoritatea studiilor economice, tehnice, biomedicale și alte studii aplicate, numărul de observații este semnificativ mai mic. Acest lucru este valabil mai ales pentru datele utilizate în studiul problemelor legate de asigurarea siguranței funcționării structurilor economice și a obiectelor tehnice.

Uneori încearcă să folosească CCT pentru a aproxima distribuția erorii la cea normală, incluzând sumatori speciali în schema tehnologică a aparatului de măsură. Să evaluăm utilitatea acestei măsuri. Lasa Z 1 , Z 2 ,…, Z k- variabile aleatoare independente distribuite identic cu o funcție de distribuție H=H(X) astfel încât să ia în considerare

Indicatorul apropierii de normalitate oferit de sumator este

Inegalitatea dreaptă din ultima relație rezultă din estimările constantei din inegalitatea Berry-Esseen obținute în carte, iar cea stângă, din exemplul din monografie. Pentru o lege normală = 1,6, pentru o lege uniformă = 1,3, pentru o lege în două puncte = 1 (aceasta este limita inferioară pentru). Prin urmare, pentru a asigura distanța (în metrica Kolmogorov) față de distribuția normală nu mai mult de 0,01 pentru distribuțiile „nereușite”, cel puțin k 0 termeni, unde

În viperele utilizate în mod obișnuit, termenii sunt mult mai mici. Restrângerea clasei de distribuții posibile H, se poate obține, așa cum se arată în monografie, o convergență mai rapidă, dar aici teoria nu se contopește încă cu practica. În plus, nu este clar dacă apropierea distribuției față de normal (într-o anumită metrică) asigură și apropierea distribuției statisticilor construite din variabile aleatoare cu această distribuție față de distribuția statisticilor corespunzătoare observațiilor normale. Aparent, pentru fiecare statistică specifică sunt necesare studii teoretice speciale, aceasta este concluzia la care ajunge autorul monografiei. În problemele de respingere anormale, răspunsul este: „Nu oferă” (vezi mai jos).

Rețineți că rezultatul oricărei măsurători reale este înregistrat folosind un număr finit de zecimale, de obicei mic (2-5), deci este recomandabil să modelați orice date reale numai folosind variabile aleatoare discrete care iau un număr finit de valori. Distribuția normală este doar o aproximare a distribuției reale. Deci, de exemplu, datele unui studiu specific, date în lucrare, iau valori de la 1,0 la 2,2, adică există 13 valori posibile în total. Din principiul Dirichlet rezultă că la un moment dat funcția de distribuție construită în funcție de datele de lucru diferă de cea mai apropiată funcție de distribuție normală cu cel puțin 1/26, i.e. cu 0,04. În plus, este evident că pentru o distribuție normală a unei variabile aleatoare, probabilitatea de a cădea într-un set discret de numere zecimale cu un anumit număr de zecimale este 0.

Din cele de mai sus rezultă că rezultatele măsurătorilor și, în general, datele statistice au proprietăți care duc la faptul că ar trebui modelate prin variabile aleatoare cu distribuții mai mult sau mai puțin diferite de cele normale. În cele mai multe cazuri, distribuțiile diferă semnificativ de distribuțiile normale; în altele, distribuțiile normale pot fi considerate aparent ca un fel de aproximare, dar nu există niciodată o coincidență completă. Aceasta implică atât necesitatea studierii proprietăților procedeelor ​​statistice clasice în modele probabilistice neclasice (în mod similar cu ceea ce se face mai jos pentru criteriul Student), cât și necesitatea dezvoltării stabile (ținând cont de prezența abaterilor de la normalitate) și neparametrice, inclusiv procedurile fără distribuție, introducerea lor largă în practica prelucrării datelor statistice.

Literatură

1. Novitsky P.V., Zograf I.A. Estimarea erorilor în rezultatele măsurătorilor. - L.: Energoatomizdat, 1985. - 248 p.

2. Novitsky P.V. Fundamentele teoriei informației a aparatelor de măsură. - L .: energie, 1968. - 248 p.

3. Borovkov A.A. Teoria probabilității. - M.: Nauka, 1976. - 352 p.

4. Petrov V.V. Sume ale variabilelor aleatoare independente. - M.: Nauka, 1972. - 416 p.

5. Zolotarev V.M. Teoria modernă a însumării variabilelor aleatoare independente. - M.: Nauka, 1986. - 416 p.

6. Egorova L.A., Kharitonov Yu.S., Sokolovskaya L.V. // Laboratorul fabricii. - 1976. V.42. nr. 10. S. 1237.

Luați în considerare două variabile aleatoare independente și , supuse legilor normale:

, (12.6.1)

. (12.6.2)

Este necesar să se facă o alcătuire a acestor legi, adică să se găsească legea de distribuție a cantității:

Aplicam formula generala (12.5.3) pentru alcatuirea legilor de distributie:

. (12.6.3)

Dacă deschidem parantezele din exponentul integrandului și aducem termeni similari, obținem:

,

;

;

.

Înlocuind aceste expresii în formula (9.1.3), am întâlnit deja:

, (12.6.4)

dupa transformari obtinem:

, (12.6.5)

iar aceasta nu este altceva decât o lege normală cu un centru de dispersie

și abaterea standard

. (12.6.7)

La aceeași concluzie se poate ajunge mult mai ușor cu ajutorul următorului raționament calitativ.

Fără a deschide parantezele și fără a face transformări în integrandul (12.6.3), ajungem imediat la concluzia că exponentul este un trinom pătrat față de forma

,

unde valoarea nu este inclusă deloc în coeficient, este inclusă în coeficientul de gradul I, iar în coeficient - în pătrat. Având în vedere acest lucru și aplicând formula (12.6.4), ajungem la concluzia că există o funcție exponențială, al cărei exponent este un trinom pătrat în raport cu , iar densitatea distribuției de acest tip corespunde legii normale. Astfel, ajungem la o concluzie pur calitativă: legea de distribuție a mărimii trebuie să fie normală.

Pentru a afla parametrii acestei legi - și - folosim teorema adunării așteptărilor matematice și teorema adunării varianțelor. Conform teoremei de adunare a așteptărilor matematice

Conform teoremei adunării varianței

de unde urmează formula (12.6.7).

Trecând de la abaterile standard la abaterile probabile proporționale cu acestea, obținem:

Astfel, am ajuns la următoarea regulă: atunci când sunt compuse legile normale, se obține din nou o lege normală și se însumează așteptările și variațiile matematice (sau abaterile probabile la pătrat).

Regula de compoziție pentru legile normale poate fi generalizată în cazul unui număr arbitrar de variabile aleatoare independente.

Dacă există variabile aleatoare independente:

supuse legilor normale cu centre de dispersie

și abaterile standard

,

apoi valoarea

respectă și legea normală cu parametrii

În loc de formula (12.6.12), puteți folosi formula echivalentă:

Dacă sistemul de variabile aleatoare este distribuit conform legii normale, dar mărimile sunt dependente, atunci este ușor de demonstrat, la fel ca mai înainte, pe baza formulei generale (12.5.1), că legea de distribuție a mărimii

exista si o lege normala. Centrele de dispersie sunt încă adăugate algebric, dar pentru abaterile standard regula devine mai complicată:

, (12.6.14)

unde este coeficientul de corelație al valorilor și .

Când se adună mai multe variabile aleatoare dependente care în totalitatea lor respectă legea normală, legea de distribuție a sumei se dovedește a fi și ea normală cu parametrii

, (12.6.16)

sau abateri probabile

, (12.6.17)

unde este coeficientul de corelație al valorilor, iar însumarea se extinde la toate combinațiile diferite de valori în perechi.

Am văzut o proprietate foarte importantă a legii normale: atunci când legile normale sunt combinate, se obține din nou o lege normală. Aceasta este așa-numita „proprietate de stabilitate”. Se spune că o lege de distribuție este stabilă dacă, prin alcătuirea a două legi de acest tip, se obține din nou o lege de același tip. Am arătat mai sus că legea normală este stabilă. Foarte puține legi de distribuție au proprietatea de stabilitate. În cel precedent (Exemplul 2), ne-am asigurat că, de exemplu, legea densității uniforme este instabilă: la alcătuirea a două legi ale densității uniforme în secțiuni de la 0 la 1, am obținut legea lui Simpson.

Stabilitatea unei legi normale este una dintre condițiile esențiale pentru aplicarea sa largă în practică. Cu toate acestea, proprietatea de stabilitate, pe lângă cea normală, este deținută și de alte legi de distribuție. O caracteristică a legii normale este că atunci când este compus un număr suficient de mare de legi de distribuție practic arbitrare, legea totală se dovedește a fi arbitrar apropiată de cea normală, indiferent de care au fost legile de distribuție a termenilor. Acest lucru poate fi ilustrat, de exemplu, prin alcătuirea a trei legi ale densității uniforme în secțiuni de la 0 la 1. Legea de distribuție rezultată este prezentată în fig. 12.6.1. După cum se poate observa din desen, graficul funcției este foarte asemănător cu graficul legii normale.

4.1. Distribuția observațiilor este adesea normală?

În modelele econometrice și economico-matematice utilizate, în special, în studiul și optimizarea proceselor de marketing și management, managementul întreprinderii și regionale, acuratețea și stabilitatea proceselor tehnologice, în probleme de fiabilitate, siguranță, inclusiv siguranța mediului, funcționarea sistemelor tehnice; dispozitive și obiecte , dezvoltarea organigramelor aplică adesea conceptele și rezultatele teoriei probabilităților și statisticii matematice. În acest caz, se folosesc adesea anumite familii parametrice de distribuții de probabilitate. Cea mai populară este distribuția normală. De asemenea, sunt utilizate distribuția log-normală, distribuția exponențială, distribuția gamma, distribuția Weibull-Gnedenko etc.

Evident, este întotdeauna necesar să se verifice conformitatea modelelor cu realitatea. Sunt două întrebări. Diferă distribuțiile reale de cele utilizate în model? În ce măsură această diferență afectează concluziile?

Mai jos, folosind exemplul distribuției normale și metodele de respingere a observațiilor (outliers) puternic diferite bazate pe aceasta, se arată că distribuțiile reale diferă aproape întotdeauna de cele incluse în familiile parametrice clasice și abaterile existente de la familiile date. să tragă concluzii incorecte, în cazul în cauză, cu privire la respingerea pe baza utilizării acestor familii.

Există vreun motiv să presupunem a priori normalitatea rezultatelor măsurătorilor?

Uneori se susține că, în cazul în care eroarea de măsurare (sau altă variabilă aleatorie) este determinată ca urmare a acțiunii cumulate a multor factori mici, atunci, datorită Teoremei Limitei Centrale (CLT) a teoriei probabilităților, această valoare este bine aproximat (prin distribuție) printr-o variabilă aleatorie normală. Această afirmație este adevărată dacă factorii mici acționează aditiv și independent unul de celălalt. Dacă acţionează multiplicativ, atunci, datorită aceluiaşi CLT, este necesar să se aproximeze printr-o distribuţie log-normală. În problemele aplicate, de obicei nu este posibilă fundamentarea aditivității mai degrabă decât a multiplicativității acțiunii factorilor mici. Dacă dependența este de natură generală, nu se reduce la o formă aditivă sau multiplicativă și nu există motive pentru a accepta modele care oferă distribuții exponențiale, Weibull-Gnedenko, gamma sau alte distribuții, atunci practic nu se știe nimic despre distribuția variabilă aleatorie finală, cu excepția proprietăților intra-matematice, cum ar fi regularitatea.

Când se prelucrează date specifice, uneori se crede că erorile de măsurare au o distribuție normală. Pe ipoteza normalității se construiesc modele clasice de regresie, dispersie, analiză factorială, modele metrologice, care continuă să se regăsească atât în ​​documentația de reglementare și tehnică națională, cât și în standardele internaționale. Modelele de calcul a nivelurilor maxime atinse ale anumitor caracteristici utilizate în proiectarea sistemelor de asigurare a siguranței funcționării structurilor economice, dispozitivelor tehnice și obiectelor se bazează pe aceeași ipoteză. Cu toate acestea, nu există o bază teoretică pentru o astfel de presupunere. Este necesar să se studieze experimental distribuția erorilor.

Ce arată rezultatele experimentale? Rezumatul prezentat în monografie ne permite să afirmăm că în majoritatea cazurilor distribuția erorilor de măsurare diferă de cea normală. Astfel, la Institutul de Mașini și Electrotehnice (Varna, Bulgaria) a fost studiată distribuția erorilor de calibrare pentru cântarele instrumentelor de măsură electrice analogice. Au fost studiate dispozitivele fabricate în Cehoslovacia, URSS și Bulgaria. Legea distribuției erorilor s-a dovedit a fi aceeași. Are o densitate

Am analizat datele privind parametrii a 219 distribuții efective de erori, studiate de diferiți autori, la măsurarea mărimilor atât electrice, cât și neelectrice cu o mare varietate de dispozitive (electrice). În urma acestui studiu, s-a dovedit că 111 distribuții, i.e. aproximativ 50% aparţin clasei distribuţiilor cu densitate

unde este parametrul gradului; b- parametru de schimbare; - parametrul de scară; - funcţia gamma a argumentului ;

(cm. ); 63 de distribuții, i.e. 30%, au densități de vârf plat, cu pante lungi și ușoare și nu pot fi descrise ca normale sau, de exemplu, exponențiale. Restul de 45 de distribuții s-au dovedit a fi bimodale.

În cartea celebrului metrolog prof. PV Novitsky prezintă rezultatele unui studiu al legilor de distribuție a diferitelor tipuri de erori de măsurare. A studiat distribuția erorilor instrumentelor electromecanice pe miezuri, instrumentelor electronice de măsurare a temperaturilor și forțelor, instrumentelor digitale cu echilibrare manuală. Volumul probelor de date experimentale pentru fiecare specimen a fost de 100-400 de citiri. S-a dovedit că 46 din 47 de distribuții au fost semnificativ diferite de cele normale. A fost studiată forma distribuției erorilor în 25 de copii ale voltmetrelor digitale Shch-1411 în 10 puncte ale intervalului. Rezultatele sunt similare. Informații suplimentare sunt conținute în monografie.

Laboratorul de Matematică Aplicată al Universității de Stat din Tartu a analizat 2.500 de mostre din arhiva de date statistice reale. În 92%, ipoteza normalității a trebuit să fie respinsă.

Descrierile de mai sus ale datelor experimentale arată că erorile de măsurare în majoritatea cazurilor au distribuții care diferă de cele normale. Aceasta înseamnă, în special, că cele mai multe aplicații ale testului t al lui Student, ale analizei de regresie clasică și ale altor metode statistice bazate pe teoria normală nu sunt, strict vorbind, nejustificate, deoarece axioma de bază a normalității distribuțiilor aleatoarelor corespunzătoare. variabile este incorectă.

Evident, pentru a justifica sau a modifica în mod rezonabil practica existentă de analiză a datelor statistice, este necesar să se studieze proprietățile procedurilor de analiză a datelor în aplicații „ilegale”. Studiul procedurilor de respingere a arătat că acestea sunt extrem de instabile la abaterile de la normalitate și, prin urmare, nu este recomandabil să le folosești pentru prelucrarea datelor reale (vezi mai jos); prin urmare, nu se poate afirma că o procedură luată în mod arbitrar este stabilă împotriva abaterilor de la normalitate.

Uneori se sugerează ca înainte de a aplica, de exemplu, testul Student pentru omogenitatea a două probe, să se verifice normalitatea. Deși există multe criterii pentru aceasta, testarea normalității este o procedură statistică mai complexă și mai consumatoare de timp decât testarea omogenității (atât cu statistici de tip Student, cât și cu teste neparametrice). Este necesar un număr destul de mare de observații pentru a stabili normalitatea în mod suficient de fiabil. Deci, pentru a garanta că funcția de distribuție a rezultatelor observațiilor diferă de unele normale cu cel mult 0,01 (pentru orice valoare a argumentului), sunt necesare aproximativ 2500 de observații. În majoritatea cercetărilor economice, tehnice, biomedicale și de altă natură aplicată, numărul de observații este semnificativ mai mic. Acest lucru este valabil mai ales pentru datele utilizate în studiul problemelor legate de asigurarea siguranței funcționării structurilor economice și a obiectelor tehnice.

Uneori încearcă să folosească DCT pentru a aproxima distribuția erorii la cea normală, incluzând sumatori speciali în schema tehnologică a dispozitivului de măsurare. Să evaluăm utilitatea acestei măsuri. Lasa Z 1 , Z 2 ,…, Z k- variabile aleatoare independente distribuite identic cu o funcție de distribuție H = H(x) astfel încât să ia în considerare

Indicatorul apropierii de normalitate oferit de sumator este

Inegalitatea dreaptă din ultima relație rezultă din estimările constantei din inegalitatea Berry-Esseen obținute în carte, iar cea stângă, din exemplul din monografie. Pentru o lege normală = 1,6, pentru o lege uniformă = 1,3, pentru o lege în două puncte = 1 (aceasta este limita inferioară pentru ). Prin urmare, pentru a asigura distanța (în metrica Kolmogorov) față de distribuția normală nu mai mult de 0,01 pentru distribuțiile „nereușite”, cel puțin k 0 termeni, unde

În viperele utilizate în mod obișnuit, termenii sunt mult mai mici. Restrângerea clasei de distribuții posibile H, se poate obține, așa cum se arată în monografie, o convergență mai rapidă, dar aici teoria nu se contopește încă cu practica. În plus, nu este clar dacă apropierea distribuției față de normal (într-o anumită metrică) asigură și apropierea distribuției statisticilor construite din variabile aleatoare cu această distribuție față de distribuția statisticilor corespunzătoare observațiilor normale. Aparent, pentru fiecare statistică specifică sunt necesare studii teoretice speciale, aceasta este concluzia la care ajunge autorul monografiei. În problemele de respingere anormale, răspunsul este: „Nu oferă” (vezi mai jos).

Rețineți că rezultatul oricărei măsurători reale este înregistrat folosind un număr finit de zecimale, de obicei mic (2-5), deci este recomandabil să modelați orice date reale numai folosind variabile aleatoare discrete care iau un număr finit de valori. Distribuția normală este doar o aproximare a distribuției reale. Deci, de exemplu, datele unui studiu specific, date în lucrare, iau valori de la 1,0 la 2,2, adică există 13 valori posibile în total. Din principiul Dirichlet rezultă că la un moment dat funcția de distribuție construită în funcție de datele de lucru diferă de cea mai apropiată funcție de distribuție normală cu cel puțin 1/26, i.e. cu 0,04. În plus, este evident că pentru o distribuție normală a unei variabile aleatoare, probabilitatea de a cădea într-un set discret de numere zecimale cu un anumit număr de zecimale este 0.

Din cele de mai sus rezultă că rezultatele măsurătorilor și, în general, datele statistice au proprietăți care duc la faptul că ar trebui modelate prin variabile aleatoare cu distribuții mai mult sau mai puțin diferite de cele normale. În cele mai multe cazuri, distribuțiile diferă semnificativ de distribuțiile normale; în altele, distribuțiile normale pot fi considerate aparent ca un fel de aproximare, dar nu există niciodată o coincidență completă. Aceasta implică atât necesitatea studierii proprietăților procedeelor ​​statistice clasice în modele probabilistice neclasice (în mod similar cu ceea ce se face mai jos pentru criteriul Student), cât și necesitatea dezvoltării stabile (ținând cont de prezența abaterilor de la normalitate) și neparametrice, inclusiv procedurile fără distribuție, introducerea lor largă în practica prelucrării datelor statistice.

Considerațiile omise aici pentru alte familii parametrice conduc la concluzii similare. Rezultatul poate fi formulat după cum urmează. Distribuțiile de date reale nu aparțin aproape niciodată unei anumite familii parametrice. Distribuțiile reale sunt întotdeauna diferite de cele incluse în familiile parametrice. Diferențele pot fi mari sau mici, dar există întotdeauna. Să încercăm să înțelegem cât de importante sunt aceste diferențe pentru analiza econometrică.

în teoria probabilităților și statistica matematică sunt luate în considerare diferite familii parametrice de distribuții ale variabilelor numerice aleatorii. Și anume sunt studiate familii de distribuții normale, logaritmic normale, exponențiale, distribuții gamma, distribuții Weibull-Gnedenko etc.. Toate depind de unul, doi sau trei parametri. Prin urmare, pentru a descrie pe deplin distribuția, este suficient să cunoașteți sau să estimați unul, două sau trei numere. Foarte confortabil. Prin urmare, este larg dezvoltată teoria parametrică a statisticii matematice, în care se presupune că distribuțiile rezultatelor observațiilor aparțin uneia sau alteia familii parametrice.

Din păcate, familiile parametrice există doar în mintea autorilor de manuale de teoria probabilităților și de statistică matematică. Ele nu există în viața reală. Prin urmare, econometria folosește în principal metode neparametrice, în care distribuțiile rezultatelor observațiilor pot avea o formă arbitrară.

În primul rând, folosind exemplul unei distribuții normale, vom discuta mai detaliat imposibilitatea utilizării practice a familiilor parametrice pentru a descrie distribuțiile datelor economice specifice. Apoi vom analiza metodele parametrice de respingere a observațiilor aberante și vom demonstra imposibilitatea utilizării practice a unui număr de metode de statistică parametrică, eroarea concluziilor la care conduc. Apoi vom analiza metode neparametrice de estimare a încrederii principalelor caracteristici ale variabilelor aleatoare numerice - așteptare matematică, mediană, varianță, abatere standard, coeficient de variație. Prelegerea se va încheia cu metode de verificare a omogenității a două mostre, independente sau înrudite.

Distribuția observațiilor este adesea normală?

În modelele econometrice și economico-matematice utilizate, în special, în studiul și optimizarea proceselor de marketing și management, managementul întreprinderii și regionale, acuratețea și stabilitatea proceselor tehnologice, în probleme de fiabilitate, siguranță, inclusiv siguranța mediului, funcționarea sistemelor tehnice; dispozitive și obiecte , dezvoltarea organigramelor aplică adesea conceptele și rezultatele teoriei probabilităților și statisticii matematice. În acest caz, se folosesc adesea anumite familii parametrice de distribuții de probabilitate. Cel mai popular distributie normala. Folosit și logaritmic distributie normala, distribuție exponențială, distribuție gamma, distribuție Weibull-Gnedenko etc.

Evident, este întotdeauna necesar să se verifice conformitatea modelelor cu realitatea. Sunt două întrebări. Diferă distribuțiile reale de cele utilizate în model? În ce măsură această diferență afectează concluziile?

Mai jos, folosind exemplul distribuției normale și metodele de respingere a observațiilor (outliers) puternic diferite bazate pe aceasta, se arată că distribuțiile reale diferă aproape întotdeauna de cele incluse în familiile parametrice clasice și abaterile existente de la familiile date. să tragă concluzii incorecte, în cazul în cauză, cu privire la respingerea pe baza utilizării acestor familii.

Există vreun motiv să presupunem a priori normalitatea rezultatelor măsurătorilor?

Uneori se susține că, în cazul în care eroarea de măsurare (sau altele valoare aleatorie) este determinată ca urmare a acțiunii combinate a multor factori mici, apoi, în virtutea Teoremei Limite Centrale (CLT) a teoriei probabilităților, această valoare este bine aproximată (prin distribuție) printr-o variabilă aleatorie normală. Această afirmație este adevărată dacă factorii mici acționează aditiv și independent unul de celălalt. Dacă acţionează multiplicativ, atunci, datorită aceluiaşi CLT, este necesar să se aproximeze printr-o distribuţie log-normală. În problemele aplicate, de obicei nu este posibilă fundamentarea aditivității mai degrabă decât a multiplicativității acțiunii factorilor mici. Dacă dependența este de natură generală, nu se reduce la o formă aditivă sau multiplicativă și nu există motive pentru a accepta modele care oferă distribuții exponențiale, Weibull-Gnedenko, gamma sau alte distribuții, atunci practic nu se știe nimic despre distribuția variabilă aleatorie finală, cu excepția proprietăților intra-matematice, cum ar fi regularitatea.

Atunci când se prelucrează date specifice, uneori se crede că au erori de măsurare distributie normala. Pe ipoteza normalității, modelele clasice de regresie, dispersie, analize factoriale, modele metrologice, care continuă să se regăsească atât în ​​documentația normativă și tehnică națională, cât și în standardele internaționale. Modelele de calcul a nivelurilor maxime atinse ale anumitor caracteristici utilizate în proiectarea sistemelor de asigurare a siguranței funcționării structurilor economice, dispozitivelor tehnice și obiectelor se bazează pe aceeași ipoteză. Cu toate acestea, nu există o bază teoretică pentru o astfel de presupunere. Este necesar să se studieze experimental distribuția erorilor.

Ce arată rezultatele experimentale? Rezumatul prezentat în monografie ne permite să afirmăm că în majoritatea cazurilor distribuția erorilor de măsurare diferă de cea normală. Astfel, la Institutul de Mașini-Electrotehnice (Varna, Bulgaria) a fost studiată distribuția erorilor de calibrare pentru cântarele instrumentelor de măsură electrice analogice. Au fost studiate dispozitivele fabricate în Cehoslovacia, URSS și Bulgaria. Legea distribuției erorilor s-a dovedit a fi aceeași. Are o densitate

Am analizat datele privind parametrii a 219 distribuții efective de erori, studiate de diferiți autori, la măsurarea mărimilor atât electrice, cât și neelectrice cu o mare varietate de dispozitive (electrice). În urma acestui studiu, s-a dovedit că 111 distribuții, i.e. aproximativ 50% aparţin clasei distribuţiilor cu densitate

unde este parametrul gradului; - parametru de schimbare; - parametrul de scară; - funcţia gamma a argumentului ;

Laboratorul de Matematică Aplicată al Universității de Stat din Tartu a analizat 2.500 de mostre din arhiva de date statistice reale. În 92%, ipoteza normalității a trebuit să fie respinsă.

Descrierile de mai sus ale datelor experimentale arată că erorile de măsurare în majoritatea cazurilor au distribuții care diferă de cele normale. Aceasta înseamnă, în special, că cele mai multe aplicații ale testului t Student, clasic analiza regresieiși alte metode statistice bazate pe teoria normală, strict vorbind, nu este justificată, deoarece axioma de normalitate a distribuțiilor variabilelor aleatoare corespunzătoare care stau la baza acestora este incorectă.

Evident, pentru a justifica sau a modifica în mod rezonabil practica actuală de analiză a datelor statistice, este necesar să se studieze proprietățile procedurilor de analiză a datelor în aplicații „ilegale”. Studiul procedurilor de respingere a arătat că acestea sunt extrem de instabile la abaterile de la normalitate și, prin urmare, nu este recomandabil să le folosești pentru prelucrarea datelor reale (vezi mai jos); prin urmare, nu se poate afirma că o procedură luată în mod arbitrar este stabilă împotriva abaterilor de la normalitate.

Uneori se sugerează ca înainte de a aplica, de exemplu, testul Student pentru omogenitatea a două probe, să se verifice normalitatea. Deși există multe criterii pentru aceasta, testarea normalității este o procedură statistică mai complexă și mai consumatoare de timp decât testarea omogenității (atât cu statistici de tip Student, cât și cu teste neparametrice). Este necesar un număr destul de mare de observații pentru a stabili normalitatea în mod suficient de fiabil. Deci, pentru a garanta că funcția de distribuție a rezultatelor observațiilor diferă de unele normale cu cel mult 0,01 (pentru orice valoare a argumentului), sunt necesare aproximativ 2500 de observații. În majoritatea studiilor economice, tehnice, biomedicale și alte studii aplicate, numărul de observații este semnificativ mai mic. Acest lucru este valabil mai ales pentru datele utilizate în studiul problemelor legate de asigurarea siguranței funcționării structurilor economice și a obiectelor tehnice.

Uneori încearcă să folosească CCT pentru a aproxima distribuția erorii la cea normală, incluzând sumatori speciali în schema tehnologică a aparatului de măsură. Să evaluăm utilitatea acestei măsuri. Fie variabile aleatoare independente distribuite identic cu funcția de distribuție astfel încât să ia în considerare

Indicatorul apropierii de normalitate oferit de sumator este

Inegalitatea din partea dreaptă din ultima relație rezultă din estimări ale constantei din inegalitatea Berry-Esseen obținute în carte, iar cea din stânga din exemplul din monografie. Pentru legea normală, pentru uniformă , pentru două puncte (aceasta este limita inferioară pentru ). Prin urmare, pentru a asigura distanța (în metrica Kolmogorov) până la distribuția normală de cel mult 0,01 pentru distribuțiile „nereușite”, sunt necesari cel puțin termeni, în care probabilitatea de a cădea într-un set discret de numere zecimale cu un număr dat de zecimale este egală cu 0.

Din cele de mai sus rezultă că rezultatele măsurătorilor și, în general, datele statistice au proprietăți care duc la faptul că ar trebui modelate prin variabile aleatoare cu distribuții mai mult sau mai puțin diferite de cele normale. În cele mai multe cazuri, distribuțiile diferă semnificativ de distribuțiile normale, în altele, distribuțiile normale pot fi considerate aparent ca un fel de aproximare, dar nu există niciodată o coincidență completă. Aceasta implică atât necesitatea studierii proprietăților procedeelor ​​statistice clasice în cele neclasice modele probabilistice(similar cu ceea ce se face mai jos pentru testul t al lui Student) și necesitatea dezvoltării stabile (ținând cont de prezența abaterilor de la normalitate) și neparametrice, inclusiv a procedurilor fără distribuție, introducerea lor largă în practica statistică. procesarea datelor.

Considerațiile omise aici pentru alte familii parametrice conduc la concluzii similare. Rezultatul poate fi formulat după cum urmează. Distribuțiile de date reale nu aparțin aproape niciodată unei anumite familii parametrice. Distribuțiile reale sunt întotdeauna diferite de cele incluse în familiile parametrice. Diferențele pot fi mari sau mici, dar există întotdeauna. Să încercăm să înțelegem cât de importante sunt aceste diferențe pentru analiza econometrică.