Cum se calculează media aritmetică. Cum se calculează media

Cea mai comună formă de indicatori statistici utilizată în cercetarea socio-economică este valoarea medie, care este o caracteristică cantitativă generalizată a unui semn al unei populații statistice. Valorile medii sunt, parcă, „reprezentanți” întregii serii de observații. În multe cazuri, media poate fi determinată prin raportul inițial al mediei (ISS) sau prin formula sa logică: . Deci, de exemplu, pentru a calcula salariul mediu al angajaților unei întreprinderi, este necesar să se împartă fondul total de salarii la numărul de angajați: numărătorul raportului inițial al mediei este indicatorul definitoriu al acestuia. Pentru salariul mediu, un astfel de indicator determinant este fondul de salarii. Pentru fiecare indicator utilizat în analiza socio-economică, poate fi compilat un singur raport de referință adevărat pentru a calcula media. De asemenea, trebuie adăugat că pentru a estima mai precis abaterea standard pentru eșantioane mici (cu numărul de elemente mai mic de 30), numitorul expresiei de sub rădăcină nu trebuie să folosească n, A n- 1.

Conceptul și tipurile de medii

Valoarea medie- acesta este un indicator generalizator al populației statistice, care stinge diferențele individuale în valorile cantităților statistice, permițându-vă să comparați diferite populații între ele. Există 2 clase valori medii: putere şi structurală. Mediile structurale sunt Modă și median , dar cel mai des folosit medii de putere tipuri variate.

Medii de putere

Mediile de putere pot fi simpluși ponderat.

O medie simplă se calculează atunci când există două sau mai multe valori statistice negrupate, dispuse într-o ordine arbitrară conform următoarei formule generale a legii puterii medii (pentru diferite valori ale lui k (m)):

Media ponderată este calculată din statisticile grupate folosind următoarea formulă generală:

Unde x - valoarea medie a fenomenului studiat; x i – varianta a i-a a caracteristicii medii;

f i este ponderea opțiunii i-a.

Unde X sunt valorile valorilor statistice individuale sau punctele de mijloc ale intervalelor de grupare;
m - exponent, de a cărui valoare depind următoarele tipuri de medii de putere:
la m = -1 medie armonică;
pentru m = 0, media geometrică;
pentru m = 1, media aritmetică;
la m = 2, rădăcina medie pătrată;
la m = 3, cubic mediu.

Folosind formulele generale pentru medii simple și ponderate la diferiți exponenți m, obținem formule particulare de fiecare tip, care vor fi discutate în detaliu mai jos.

Media aritmetică

Media aritmetică - momentul inițial de ordinul întâi, așteptarea matematică a valorilor unei variabile aleatoare cu un număr mare de încercări;

Media aritmetică este valoarea medie cel mai frecvent utilizată, care se obține prin înlocuirea m = 1 în formula generală. Media aritmetică simplu are următoarea formă:

sau

Unde X sunt valorile cantităților pentru care este necesar să se calculeze valoarea medie; N este numărul total de valori X (numărul de unități din populația studiată).

De exemplu, un elev a promovat 4 examene și a primit următoarele note: 3, 4, 4 și 5. Să calculăm scorul mediu folosind formula medie aritmetică simplă: (3+4+4+5)/4 = 16/4 = 4. Media aritmetică ponderat are următoarea formă:

Unde f este numărul de valori cu aceeași valoare X (frecvență). >De exemplu, un student a promovat 4 examene și a primit următoarele note: 3, 4, 4 și 5. Calculați scorul mediu folosind formula medie ponderată aritmetică: (3*1 + 4*2 + 5*1)/4 = 16/4 = 4 . Dacă valorile X sunt date ca intervale, atunci punctele medii ale intervalelor X sunt utilizate pentru calcule, care sunt definite ca jumătate din suma limitelor superioare și inferioare ale intervalului. Și dacă intervalul X nu are o limită inferioară sau superioară (interval deschis), atunci pentru a-l găsi, se folosește intervalul (diferența dintre limitele superioare și inferioare) a intervalului adiacent X. De exemplu, la întreprindere sunt 10 angajați cu experiență de lucru de până la 3 ani, 20 - cu experiență de lucru de la 3 la 5 ani, 5 angajați - cu o experiență de muncă de peste 5 ani. Apoi calculăm vechimea medie a angajaților folosind formula medie ponderată aritmetică, luând ca X mijlocul intervalelor de vechime în muncă (2, 4 și 6 ani): (2*10+4*20+6*5)/(10+20+5) = 3,71 ani.

Funcția AVERAGE

Această funcție calculează media (aritmetica) argumentelor sale.

MEDIE(număr1, număr2, ...)

Number1, number2, ... sunt de la 1 la 30 de argumente pentru care se calculează media.

Argumentele trebuie să fie numere sau nume, matrice sau referințe care conțin numere. Dacă argumentul, care este o matrice sau o legătură, conține texte, valori booleene sau celule goale, atunci acele valori sunt ignorate; cu toate acestea, celulele care conțin valori nule sunt numărate.

Funcția AVERAGE

Calculează media aritmetică a valorilor date în lista de argumente. Pe lângă numere, textul și valorile logice, cum ar fi TRUE și FALSE, pot participa la calcul.

MEDIE(valoare1, valoare2,...)

Valoarea1, valoarea2,... sunt de la 1 la 30 de celule, intervale de celule sau valori pentru care se calculează media.

Argumentele trebuie să fie numere, nume, matrice sau referințe. Matricele și legăturile care conțin text sunt interpretate ca 0 (zero). Textul gol ("") este interpretat ca 0 (zero). Argumentele care conțin valoarea TRUE sunt interpretate ca 1, Argumentele care conțin valoarea FALSE sunt interpretate ca 0 (zero).

Media aritmetică este folosită cel mai des, dar există momente când sunt necesare alte tipuri de medii. Să luăm în considerare astfel de cazuri în continuare.

Armonică medie

Medie armonică pentru determinarea sumei medii a reciprocelor;

Armonică medie este utilizat atunci când datele originale nu conțin frecvențe f pentru valorile individuale ale lui X, ci sunt prezentate ca produsul lor Xf. Notând Xf=w, exprimăm f=w/X, iar substituind aceste denumiri în formula medie aritmetică ponderată, obținem formula medie armonică ponderată:

Astfel, media ponderată armonică este utilizată atunci când frecvențele f sunt necunoscute, dar w=Xf este cunoscut. În cazurile în care toate w=1, adică valorile individuale ale lui X apar de o dată, se aplică formula medie armonică simplă: sau De exemplu, o mașină se deplasa de la punctul A la punctul B cu o viteză de 90 km/h și înapoi cu o viteză de 110 km/h. Pentru a determina viteza medie, aplicăm formula simplă armonică, deoarece exemplul oferă distanța w 1 \u003d w 2 (distanța de la punctul A la punctul B este aceeași ca de la B la A), care este egală cu produsul a vitezei (X) și a timpului (f). Viteza medie = (1+1)/(1/90+1/110) = 99 km/h.

Funcția SRHARM

Returnează media armonică a setului de date. Media armonică este reciproca mediei aritmetice a reciprocelor.

SGARM(număr1, număr2, ...)

Number1, number2, ... sunt de la 1 la 30 de argumente pentru care se calculează media. Puteți utiliza o matrice sau o referință de matrice în loc de argumente separate prin punct și virgulă.

Media armonică este întotdeauna mai mică decât media geometrică, care este întotdeauna mai mică decât media aritmetică.

Medie geometrică

Medie geometrică pentru estimarea ratei medii de creștere a variabilelor aleatoare, găsirea valorii unei trăsături echidistante de valorile minime și maxime;

Medie geometrică utilizate la determinarea modificărilor relative medii. Valoarea medie geometrică oferă cel mai precis rezultat de mediere dacă sarcina este de a găsi o astfel de valoare a lui X, care ar fi echidistantă atât de valorile maxime, cât și de cele minime ale lui X. De exemplu, între 2005 și 2008indicele de inflatie în Rusia a fost: în 2005 - 1.109; în 2006 - 1.090; în 2007 - 1.119; în 2008 - 1.133. Deoarece indicele de inflație este o modificare relativă (indice dinamic), atunci trebuie să calculați valoarea medie folosind media geometrică: (1,109 * 1,090 * 1,119 * 1,133) ^ (1/4) = 1,1126, adică pentru perioada din 2005 până în 2008 anual preţurile au crescut cu o medie de 11,26%. Un calcul eronat asupra mediei aritmetice ar da un rezultat incorect de 11,28%.

Funcția SRGEOM

Returnează media geometrică a unei matrice sau a unui interval de numere pozitive. De exemplu, funcția CAGEOM poate fi utilizată pentru a calcula rata medie de creștere dacă este dat venitul compus cu rate variabile.

SRGEOM(număr1; număr2; ...)

Number1, number2, ... sunt de la 1 la 30 de argumente pentru care se calculează media geometrică. Puteți utiliza o matrice sau o referință de matrice în loc de argumente separate prin punct și virgulă.

rădăcină medie pătrată

Pătratul mediu este momentul inițial de ordinul doi.

rădăcină medie pătrată este utilizat atunci când valorile inițiale ale lui X pot fi atât pozitive, cât și negative, de exemplu, la calcularea abaterilor medii. Principala utilizare a mediei patratice este de a măsura variația valorilor X.

Cubic mediu

Cubicul mediu este momentul inițial de ordinul trei.

Cubic mediu este folosit extrem de rar, de exemplu, la calcularea indicilor de sărăcie pentru țările în curs de dezvoltare (HPI-1) și pentru țările dezvoltate (HPI-2), propuși și calculați de ONU.

În cele mai multe cazuri, datele sunt concentrate în jurul unui punct central. Astfel, pentru a descrie orice set de date, este suficient să indicați valoarea medie. Luați în considerare succesiv trei caracteristici numerice care sunt utilizate pentru estimarea valorii medii a distribuției: media aritmetică, mediana și modul.

In medie

Media aritmetică (denumită adesea pur și simplu medie) este cea mai comună estimare a mediei unei distribuții. Este rezultatul împărțirii sumei tuturor valorilor numerice observate la numărul lor. Pentru un eșantion de numere X 1, X 2, ..., Xn, media eșantionului (notat cu simbolul ) egal \u003d (X 1 + X 2 + ... + Xn) / n, sau

unde este media eșantionului, n- marime de mostra, Xi– al-lea element al probei.

Descărcați nota în sau format, exemple în format

Luați în considerare calcularea mediei aritmetice a randamentelor medii anuale pe cinci ani a 15 fonduri mutuale cu risc foarte ridicat (Figura 1).

Orez. 1. Rentabilitatea medie anuală a 15 fonduri mutuale cu risc foarte ridicat

Media eșantionului se calculează după cum urmează:

Acesta este un randament bun, mai ales în comparație cu randamentul de 3-4% pe care l-au primit deponenții băncii sau uniunii de credit în aceeași perioadă de timp. Dacă sortați valorile randamentului, este ușor de observat că opt fonduri au un randament peste medie și șapte sub medie. Media aritmetică acționează ca un punct de echilibru, astfel încât fondurile cu venituri mici echilibrează fondurile cu venituri mari. Toate elementele eșantionului sunt implicate în calculul mediei. Niciunul dintre ceilalți estimatori ai mediei de distribuție nu are această proprietate.

Când se calculează media aritmetică. Deoarece media aritmetică depinde de toate elementele eșantionului, prezența valorilor extreme afectează în mod semnificativ rezultatul. În astfel de situații, media aritmetică poate distorsiona sensul datelor numerice. Prin urmare, atunci când se descrie un set de date care conține valori extreme, este necesar să se indice mediana sau media aritmetică și mediana. De exemplu, dacă rentabilitatea fondului RS Emerging Growth este eliminată din eșantion, media eșantionului a randamentului celor 14 fonduri scade cu aproape 1% până la 5,19%.

Median

Mediana este valoarea de mijloc a unui tablou ordonat de numere. Dacă matricea nu conține numere care se repetă, atunci jumătate din elementele sale vor fi mai mici și jumătate mai mult decât mediana. Dacă eșantionul conține valori extreme, este mai bine să folosiți mediana mai degrabă decât media aritmetică pentru a estima media. Pentru a calcula mediana unui eșantion, acesta trebuie mai întâi sortat.

Această formulă este ambiguă. Rezultatul depinde dacă numărul este par sau impar. n:

  • Dacă eșantionul conține un număr impar de articole, mediana este (n+1)/2-al-lea element.
  • Dacă eșantionul conține un număr par de elemente, mediana se află între cele două elemente din mijloc ale eșantionului și este egală cu media aritmetică calculată pentru aceste două elemente.

Pentru a calcula mediana pentru un eșantion de 15 fonduri mutuale cu risc foarte ridicat, trebuie mai întâi să sortăm datele brute (Figura 2). Atunci mediana va fi opusă numărului elementului mijlociu al probei; în exemplul nostru numărul 8. Excel are o funcție specială =MEDIAN() care funcționează și cu tablouri neordonate.

Orez. 2. Median 15 fonduri

Astfel, mediana este 6,5. Aceasta înseamnă că jumătate din fondurile cu risc foarte mare nu depășesc 6,5, în timp ce cealaltă jumătate o fac. Rețineți că mediana de 6,5 este puțin mai mare decât mediana de 6,08.

Dacă eliminăm profitabilitatea fondului RS Emerging Growth din eșantion, atunci mediana celor 14 fonduri rămase va scădea la 6,2%, adică nu la fel de semnificativ ca media aritmetică (Fig. 3).

Orez. 3. Median 14 fonduri

Modă

Termenul a fost introdus pentru prima dată de Pearson în 1894. Moda este numărul care apare cel mai des în eșantion (cel mai la modă). Moda descrie bine, de exemplu, reacția tipică a șoferilor la un semnal de circulație pentru a opri traficul. Un exemplu clasic de utilizare a modei este alegerea mărimii lotului de pantofi produs sau a culorii tapetului. Dacă o distribuție are mai multe moduri, atunci se spune că este multimodală sau multimodală (are două sau mai multe „vârfuri”). Distribuția multimodală oferă informații importante despre natura variabilei studiate. De exemplu, în anchetele sociologice, dacă o variabilă reprezintă o preferință sau atitudine față de ceva, atunci multimodalitatea ar putea însemna că există mai multe opinii distinct diferite. Multimodalitatea este, de asemenea, un indicator că eșantionul nu este omogen și că observațiile pot fi generate de două sau mai multe distribuții „suprapuse”. Spre deosebire de media aritmetică, valorile aberante nu afectează modul. Pentru variabile aleatoare distribuite continuu, cum ar fi randamentul mediu anual al fondurilor mutuale, modul uneori nu există deloc (sau nu are sens). Deoarece acești indicatori pot lua o varietate de valori, valorile repetate sunt extrem de rare.

Quartiles

Quartilele sunt măsuri care sunt utilizate cel mai frecvent pentru a evalua distribuția datelor atunci când descriu proprietățile eșantioanelor numerice mari. În timp ce mediana împarte matricea ordonată în jumătate (50% din elementele matricei sunt mai mici decât mediana și 50% sunt mai mari), quartilele împart setul de date ordonat în patru părți. Valorile Q 1 , mediana și Q 3 sunt percentilele 25, 50 și, respectiv, 75. Prima cuartilă Q 1 este un număr care împarte eșantionul în două părți: 25% dintre elemente sunt mai mici decât și 75% sunt mai mult decât prima cuartilă.

A treia cuartilă Q 3 este un număr care împarte eșantionul în două părți: 75% dintre elemente sunt mai mici decât și 25% sunt mai mult decât a treia cuartilă.

Pentru a calcula quartile în versiunile de Excel anterioare anului 2007, a fost folosită funcția =QUARTILE(array, part). Începând cu Excel 2010, se aplică două funcții:

  • =QUARTILE.ON(matrice, parte)
  • =QUARTILE.EXC(matrice, parte)

Aceste două funcții dau valori ușor diferite (Figura 4). De exemplu, atunci când se calculează quartilele pentru un eșantion care conține date privind randamentul anual mediu a 15 fonduri mutuale cu risc foarte ridicat, Q 1 = 1,8 sau -0,7 pentru QUARTILE.INC și, respectiv, QUARTILE.EXC. Apropo, funcția QUARTILE folosită mai devreme corespunde funcției moderne QUARTILE.ON. Pentru a calcula quartile în Excel folosind formulele de mai sus, matricea de date poate fi lăsată neordonată.

Orez. 4. Calculați quartile în Excel

Să subliniem din nou. Excel poate calcula quartile pentru univariat serie discretă, care conține valorile unei variabile aleatoare. Calculul quartilelor pentru o distribuție bazată pe frecvență este prezentat în secțiunea de mai jos.

medie geometrică

Spre deosebire de media aritmetică, media geometrică măsoară cât de mult s-a schimbat o variabilă în timp. Media geometrică este rădăcina n gradul de la produs n valori (în Excel se folosește funcția = CUGEOM):

G= (X 1 * X 2 * ... * X n) 1/n

Un parametru similar - media geometrică a ratei de rentabilitate - este determinat de formula:

G \u003d [(1 + R 1) * (1 + R 2) * ... * (1 + R n)] 1 / n - 1,

Unde R i- rata de rentabilitate i-a-a perioadă de timp.

De exemplu, să presupunem că investiția inițială este de 100 000 USD. Până la sfârșitul primului an, scade la 50 000 USD și, la sfârșitul celui de-al doilea an, se recuperează la 100 000 USD inițial. Rata de rentabilitate a acestei investiții peste un perioada anului este egală cu 0, deoarece suma inițială și finală a fondurilor sunt egale între ele. Cu toate acestea, media aritmetică a ratelor anuale de rentabilitate este = (-0,5 + 1) / 2 = 0,25 sau 25%, deoarece rata rentabilității în primul an R 1 = (50.000 - 100.000) / 100.000 = -0,5 și în al doilea R 2 = (100.000 - 50.000) / 50.000 = 1. În același timp, media geometrică a ratei rentabilității pe doi ani este: G = [(1–0,5) * (1 + 1 )] 1 /2 – 1 = ½ – 1 = 1 – 1 = 0. Astfel, media geometrică reflectă mai exact modificarea (mai precis, absența modificării) a volumului investițiilor pe parcursul bienului decât media aritmetică.

Fapte interesante.În primul rând, media geometrică va fi întotdeauna mai mică decât media aritmetică a acelorași numere. Cu excepția cazului în care toate numerele luate sunt egale între ele. În al doilea rând, luând în considerare proprietățile unui triunghi dreptunghic, se poate înțelege de ce media se numește geometrică. Înălțimea unui triunghi dreptunghic, coborât la ipotenuză, este media proporțională dintre proiecțiile catetelor pe ipotenuză, iar fiecare catete este media proporțională dintre ipotenuză și proiecția acesteia pe ipotenuză (Fig. 5). Aceasta oferă o modalitate geometrică de a construi media geometrică a două (lungimi) segmente: trebuie să construiți un cerc pe suma acestor două segmente ca diametru, apoi înălțimea, restabilită de la punctul de conectare la intersecția cu cerc, va da valoarea dorită:

Orez. 5. Natura geometrică a mediei geometrice (figura de pe Wikipedia)

A doua proprietate importantă a datelor numerice este lor variație caracterizarea gradului de dispersie a datelor. Două mostre diferite pot diferi atât în ​​ceea ce privește valorile medii, cât și în variații. Totuși, așa cum se arată în fig. 6 și 7, două eșantioane pot avea aceeași variație, dar medii diferite, sau aceeași medie și variație complet diferită. Datele corespunzătoare poligonului B din Fig. 7 se schimbă mult mai puțin decât datele din care a fost construit poligonul A.

Orez. 6. Două distribuții simetrice în formă de clopot cu aceeași răspândire și valori medii diferite

Orez. 7. Două distribuții simetrice în formă de clopot cu aceleași valori medii și dispersie diferită

Există cinci estimări ale variației datelor:

  • span,
  • intervalul intercuartil,
  • dispersie,
  • deviație standard,
  • coeficientul de variație.

domeniul de aplicare

Intervalul este diferența dintre cele mai mari și cele mai mici elemente ale eșantionului:

Glisați = XMax-XMin

Intervalul unui eșantion care conține date privind randamentele medii anuale a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat utilizând o matrice ordonată (vezi Figura 4): interval = 18,5 - (-6,1) = 24,6. Aceasta înseamnă că diferența dintre rentabilitatea medie anuală cea mai mare și cea mai scăzută pentru fondurile cu risc foarte ridicat este de 24,6%.

Intervalul măsoară răspândirea globală a datelor. Deși intervalul de eșantion este o estimare foarte simplă a răspândirii totale a datelor, slăbiciunea sa este că nu ia în considerare exact modul în care datele sunt distribuite între elementele minime și maxime. Acest efect este bine văzut în fig. 8 care ilustrează mostre având același interval. Scala B arată că, dacă eșantionul conține cel puțin o valoare extremă, intervalul de eșantion este o estimare foarte inexactă a dispersării datelor.

Orez. 8. Comparația a trei probe cu același interval; triunghiul simbolizează suportul balanței, iar amplasarea acesteia corespunde valorii medii a probei

Intervalul intercuartil

Intervalul intercuartil, sau media, este diferența dintre a treia și prima cuartilă a eșantionului:

Interval intercuartil \u003d Q 3 - Q 1

Această valoare face posibilă estimarea răspândirii a 50% din elemente și să nu se țină cont de influența elementelor extreme. Intervalul interquartil pentru un eșantion care conține date privind randamentele medii anuale a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat folosind datele din Fig. 4 (de exemplu, pentru funcția QUARTILE.EXC): Interval interquartil = 9,8 - (-0,7) = 10,5. Intervalul dintre 9,8 și -0,7 este adesea denumit jumătatea mijlocie.

Trebuie remarcat faptul că valorile Q 1 și Q 3 și, prin urmare, intervalul intercuartil, nu depind de prezența valorilor aberante, deoarece calculul lor nu ia în considerare nicio valoare care ar fi mai mică decât Q 1 sau mai mare decât Q 3 . Caracteristicile cantitative totale, cum ar fi mediana, primul și al treilea quartile și intervalul intercuartil, care nu sunt afectate de valori aberante, se numesc indicatori robusti.

În timp ce intervalul și intervalul intercuartil oferă o estimare a dispersiei totale și, respectiv, medie a eșantionului, niciuna dintre estimări nu ia în considerare modul în care sunt distribuite datele. Varianta si abaterea standard liber de acest neajuns. Acești indicatori vă permit să evaluați gradul de fluctuație a datelor în jurul mediei. Varianta eșantionului este o aproximare a mediei aritmetice calculată din diferențele pătrate dintre fiecare element eșantion și media eșantionului. Pentru un eșantion de X 1 , X 2 , ... X n varianța eșantionului (notat cu simbolul S 2 este dată de următoarea formulă:

În general, varianța eșantionului este suma diferențelor pătrate dintre elementele eșantionului și media eșantionului, împărțită la o valoare egală cu dimensiunea eșantionului minus unu:

Unde - medie aritmetică, n- marime de mostra, X i - i-al-lea element de probă X. În Excel înainte de versiunea 2007, funcția =VAR() a fost folosită pentru a calcula varianța eșantionului, din versiunea 2010, este folosită funcția =VAR.V().

Cea mai practică și larg acceptată estimare a împrăștierii datelor este deviație standard. Acest indicator este notat cu simbolul S și este egal cu rădăcina pătrată a varianței eșantionului:

În Excel înainte de versiunea 2007, se folosea funcția =STDEV() pentru a calcula abaterea standard, din versiunea 2010 se folosește funcția =STDEV.V(). Pentru a calcula aceste funcții, matricea de date poate fi neordonată.

Nici varianța eșantionului, nici abaterea standard a eșantionului nu pot fi negative. Singura situație în care indicatorii S 2 și S pot fi zero este dacă toate elementele eșantionului sunt egale. În acest caz complet improbabil, intervalul și intervalul intercuartil sunt, de asemenea, zero.

Datele numerice sunt în mod inerent volatile. Orice variabilă poate lua multe valori diferite. De exemplu, diferite fonduri mutuale au rate diferite de rentabilitate și pierdere. Datorită variabilității datelor numerice, este foarte important să se studieze nu numai estimări ale mediei, care sunt de natură sumativă, ci și estimări ale varianței, care caracterizează împrăștierea datelor.

Varianța și abaterea standard ne permit să estimăm răspândirea datelor în jurul mediei, cu alte cuvinte, să determinăm câte elemente ale eșantionului sunt mai mici decât media și câte sunt mai mari. Dispersia are unele proprietăți matematice valoroase. Cu toate acestea, valoarea sa este pătratul unei unități de măsură - un procent pătrat, un dolar pătrat, un inch pătrat etc. Prin urmare, o estimare naturală a varianței este abaterea standard, care este exprimată în unitățile obișnuite de măsură - procente din venit, dolari sau inci.

Abaterea standard vă permite să estimați cantitatea de fluctuație a elementelor eșantionului în jurul valorii medii. În aproape toate situațiile, majoritatea valorilor observate se află în plus sau minus o abatere standard de la medie. Prin urmare, cunoscând media aritmetică a elementelor eșantionului și abaterea standard a eșantionului, este posibil să se determine intervalul căruia îi aparține cea mai mare parte a datelor.

Abaterea standard a randamentelor a 15 fonduri mutuale cu risc foarte ridicat este de 6,6 (Figura 9). Aceasta înseamnă că profitabilitatea majorității fondurilor diferă de valoarea medie cu cel mult 6,6% (adică fluctuează în intervalul de la – S= 6,2 – 6,6 = –0,4 la +S= 12,8). De fapt, acest interval conține o rentabilitate anuală medie pe cinci ani de 53,3% (8 din 15) din fonduri.

Orez. 9. Abaterea standard

Rețineți că în procesul de însumare a diferențelor pătrate, articolele care sunt mai îndepărtate de medie câștigă mai multă greutate decât articolele care sunt mai apropiate. Această proprietate este principalul motiv pentru care media aritmetică este cel mai des folosită pentru a estima media unei distribuții.

Coeficientul de variație

Spre deosebire de estimările anterioare de dispersie, coeficientul de variație este o estimare relativă. Este întotdeauna măsurat ca procent, nu în unitățile de date originale. Coeficientul de variație, notat cu simbolurile CV, măsoară împrăștierea datelor în jurul mediei. Coeficientul de variație este egal cu abaterea standard împărțită la media aritmetică și înmulțită cu 100%:

Unde S- abaterea standard a probei, - medie eșantionului.

Coeficientul de variație vă permite să comparați două eșantioane, ale căror elemente sunt exprimate în unități de măsură diferite. De exemplu, managerul unui serviciu de livrare poștă intenționează să modernizeze flota de camioane. La încărcarea pachetelor, există două tipuri de restricții de luat în considerare: greutatea (în lire sterline) și volumul (în picioare cubi) ale fiecărui pachet. Să presupunem că, într-un eșantion de 200 de saci, greutatea medie este de 26,0 lire sterline, abaterea standard a greutății este de 3,9 lire sterline, volumul mediu al pachetului este de 8,8 picioare cubi, iar abaterea standard a volumului este de 2,2 picioare cubi. Cum să comparăm răspândirea greutății și volumului pachetelor?

Deoarece unitățile de măsură pentru greutate și volum diferă între ele, managerul trebuie să compare răspândirea relativă a acestor valori. Coeficientul de variație a greutății este CV W = 3,9 / 26,0 * 100% = 15%, iar coeficientul de variație a volumului CV V = 2,2 / 8,8 * 100% = 25%. Astfel, împrăștierea relativă a volumelor de pachete este mult mai mare decât împrăștierea relativă a greutăților lor.

Formular de distribuire

A treia proprietate importantă a eșantionului este forma distribuției sale. Această distribuție poate fi simetrică sau asimetrică. Pentru a descrie forma unei distribuții, este necesar să se calculeze media și mediana acesteia. Dacă aceste două măsuri sunt aceleași, se spune că variabila este distribuită simetric. Dacă valoarea medie a unei variabile este mai mare decât mediana, distribuția ei are o asimetrie pozitivă (Fig. 10). Dacă mediana este mai mare decât media, distribuția variabilei este denaturată negativ. Deformarea pozitivă apare atunci când media crește la valori neobișnuit de ridicate. Deformarea negativă apare atunci când media scade la valori neobișnuit de mici. O variabilă este distribuită simetric dacă nu ia valori extreme în nicio direcție, astfel încât valorile mari și mici ale variabilei se anulează reciproc.

Orez. 10. Trei tipuri de distribuții

Datele prezentate pe scara A au o asimetrie negativă. Această figură arată o coadă lungă și o oblică la stânga cauzate de valori neobișnuit de mici. Aceste valori extrem de mici modifică valoarea medie spre stânga și devine mai mică decât mediana. Datele prezentate pe scara B sunt distribuite simetric. Jumătățile stânga și dreapta ale distribuției sunt imaginile lor în oglindă. Valorile mari și mici se echilibrează reciproc, iar media și mediana sunt egale. Datele afișate pe scara B au o asimetrie pozitivă. Această figură arată o coadă lungă și înclinată spre dreapta, cauzată de prezența unor valori neobișnuit de ridicate. Aceste valori prea mari mută media spre dreapta și devine mai mare decât mediana.

În Excel, statisticile descriptive pot fi obținute folosind programul de completare Pachet de analize. Treceți prin meniu DateAnaliza datelor, în fereastra care se deschide, selectați linia Statisticile descriptiveși faceți clic O.K. La fereastră Statisticile descriptive asigurați-vă că indicați interval de intrare(Fig. 11). Dacă doriți să vedeți statistici descriptive pe aceeași foaie cu datele originale, selectați butonul radio interval de ieșireși specificați celula în care doriți să plasați colțul din stânga sus al statisticilor afișate (în exemplul nostru, $C$1). Dacă doriți să trimiteți date într-o foaie nouă sau într-un registru de lucru nou, pur și simplu selectați butonul radio corespunzător. Bifați caseta de lângă Statistici finale. Opțional, puteți alege Nivel de dificultate,k-a cel mai mic șik-a cea mai mare.

Dacă în depozit Dateîn zona Analiză nu vezi pictograma Analiza datelor, mai întâi trebuie să instalați suplimentul Pachet de analize(vezi, de exemplu,).

Orez. 11. Statistici descriptive ale randamentelor medii anuale pe cinci ani ale fondurilor cu niveluri foarte ridicate de risc, calculate folosind add-on-ul Analiza datelor programe Excel

Excel calculează un număr de statistici discutate mai sus: medie, mediană, mod, abatere standard, varianță, interval ( interval), minim, maxim și dimensiunea eșantionului ( Verifica). În plus, Excel calculează câteva statistici noi pentru noi: eroare standard, curtoză și asimetrie. eroare standard este egal cu abaterea standard împărțită la rădăcina pătrată a dimensiunii eșantionului. Asimetrie caracterizează abaterea de la simetria distribuţiei şi este o funcţie care depinde de cubul de diferenţe dintre elementele probei şi valoarea medie. Kurtosis este o măsură a concentrației relative a datelor în jurul mediei față de cozile distribuției și depinde de diferențele dintre eșantion și media ridicată la a patra putere.

Calculul statisticilor descriptive pentru populația generală

Media, împrăștierea și forma distribuției discutate mai sus sunt caracteristici bazate pe eșantion. Cu toate acestea, dacă setul de date conține măsurători numerice ale întregii populații, atunci parametrii acestuia pot fi calculați. Acești parametri includ media, varianța și abaterea standard a populației.

Valorea estimata este egală cu suma tuturor valorilor populației generale împărțită la volumul populației generale:

Unde µ - valorea estimata, Xi- i-a-a observație variabilă X, N- volumul populaţiei generale. În Excel, pentru a calcula așteptările matematice, se folosește aceeași funcție ca și pentru media aritmetică: =AVERAGE().

Varianta populatiei egal cu suma diferenţelor pătrate dintre elementele populaţiei generale şi mat. așteptări împărțite la dimensiunea populației:

Unde σ2 este varianța populației generale. Excel înainte de versiunea 2007 folosește funcția =VAR() pentru a calcula varianța populației, începând cu versiunea 2010 =VAR.G().

abaterea standard a populației este egală cu rădăcina pătrată a varianței populației:

Excel înainte de versiunea 2007 folosește =STDEV() pentru a calcula abaterea standard a populației, începând cu versiunea 2010 =STDEV.Y(). Rețineți că formulele pentru varianța populației și abaterea standard sunt diferite de formulele pentru varianța eșantionului și abaterea standard. La calcularea statisticilor eșantionului S2și S numitorul fracției este n - 1, iar la calcularea parametrilor σ2și σ - volumul populaţiei generale N.

regula generală

În majoritatea situațiilor, o mare parte a observațiilor sunt concentrate în jurul mediei, formând un cluster. În seturile de date cu asimetrie pozitivă, acest cluster este situat la stânga (adică, dedesubt) așteptării matematice, iar în seturile cu asimetrie negativă, acest cluster este situat la dreapta (adică, deasupra) așteptării matematice. Datele simetrice au aceeași medie și aceeași mediană, iar observațiile se grupează în jurul mediei, formând o distribuție în formă de clopot. Dacă distribuția nu are o asimetrie pronunțată, iar datele sunt concentrate în jurul unui anumit centru de greutate, se poate folosi o regulă generală pentru a estima variabilitatea, care spune: dacă datele au o distribuție în formă de clopot, atunci aproximativ 68% dintre observații se află la o abatere standard a așteptărilor matematice, Aproximativ 95% dintre observații sunt la două abateri standard ale valorii așteptate și 99,7% dintre observații sunt în trei deviații standard ale valorii așteptate.

Astfel, abaterea standard, care este o estimare a fluctuației medii în jurul așteptărilor matematice, ajută la înțelegerea modului în care sunt distribuite observațiile și la identificarea valorii aberante. Din regula generală rezultă că, pentru distribuțiile în formă de clopot, doar o valoare din douăzeci diferă de așteptarea matematică cu mai mult de două abateri standard. Prin urmare, valorile în afara intervalului µ ± 2σ, pot fi considerate valori aberante. În plus, doar trei din 1000 de observații diferă de așteptările matematice cu mai mult de trei abateri standard. Astfel, valorile în afara intervalului µ ± 3σ sunt aproape întotdeauna valori aberante. Pentru distribuțiile care sunt foarte denaturate sau nu au formă de clopot, se poate aplica regula generală Biename-Chebyshev.

În urmă cu mai bine de o sută de ani, matematicienii Bienamay și Chebyshev au descoperit în mod independent o proprietate utilă a deviației standard. Ei au descoperit că pentru orice set de date, indiferent de forma distribuției, procentul de observații care se află la o distanță care nu depășește k abateri standard de la așteptările matematice, nu mai puțin (1 – 1/ 2)*100%.

De exemplu, dacă k= 2, regula Biename-Chebyshev prevede că cel puțin (1 - (1/2) 2) x 100% = 75% din observații trebuie să se afle în interval µ ± 2σ. Această regulă este valabilă pentru orice k depășind unul. Regula Biename-Chebyshev este de natură foarte generală și este valabilă pentru distribuții de orice fel. Indică numărul minim de observații, distanța de la care până la așteptarea matematică nu depășește o valoare dată. Cu toate acestea, dacă distribuția este în formă de clopot, regula generală estimează mai precis concentrația datelor în jurul mediei.

Calcularea statisticilor descriptive pentru o distribuție bazată pe frecvență

Dacă datele originale nu sunt disponibile, distribuția de frecvență devine singura sursă de informații. În astfel de situații, puteți calcula valorile aproximative ale indicatorilor cantitativi ai distribuției, cum ar fi media aritmetică, abaterea standard, quartilele.

Dacă datele eșantionului sunt prezentate ca o distribuție de frecvență, se poate calcula o valoare aproximativă a mediei aritmetice, presupunând că toate valorile din fiecare clasă sunt concentrate la mijlocul clasei:

Unde - medie eșantion, n- numărul de observații sau dimensiunea eșantionului, Cu- numărul de clase din distribuția de frecvență, mj- punctul de mijloc j- clasa a-a, fj- frecventa corespunzatoare j- clasa a-a.

Pentru a calcula abaterea standard de la distribuția frecvenței, se presupune, de asemenea, că toate valorile din cadrul fiecărei clase sunt concentrate la mijlocul clasei.

Pentru a înțelege cum sunt determinate quartilele seriei pe baza frecvențelor, să luăm în considerare calculul quartilei inferioare pe baza datelor pentru anul 2013 privind distribuția populației ruse în funcție de venitul în numerar mediu pe cap de locuitor (Fig. 12).

Orez. 12. Ponderea populației Rusiei cu venit monetar pe cap de locuitor în medie pe lună, ruble

Pentru a calcula prima quartila a seriei de variații de interval, puteți folosi formula:

unde Q1 este valoarea primului cuartil, xQ1 este limita inferioară a intervalului care conține primul cuartil (intervalul este determinat de frecvența acumulată, prima depășind 25%); i este valoarea intervalului; Σf este suma frecvențelor întregului eșantion; probabil întotdeauna egal cu 100%; SQ1–1 este frecvența cumulativă a intervalului care precede intervalul care conține quartila inferioară; fQ1 este frecvența intervalului care conține quartila inferioară. Formula pentru a treia cuartilă diferă prin aceea că în toate locurile, în loc de Q1, trebuie să utilizați Q3 și să înlocuiți ¾ în loc de ¼.

În exemplul nostru (Fig. 12), quartila inferioară se află în intervalul 7000,1 - 10.000, a cărei frecvență cumulată este de 26,4%. Limita inferioară a acestui interval este de 7000 de ruble, valoarea intervalului este de 3000 de ruble, frecvența acumulată a intervalului care precede intervalul care conține quartila inferioară este de 13,4%, frecvența intervalului care conține quartila inferioară este de 13,0%. Astfel: Q1 \u003d 7000 + 3000 * (¼ * 100 - 13,4) / 13 \u003d 9677 ruble.

Capcanele asociate cu statisticile descriptive

În această notă, am analizat cum să descriem un set de date folosind diverse statistici care estimează media, dispersia și distribuția acestuia. Următorul pas este analiza și interpretarea datelor. Până acum, am studiat proprietățile obiective ale datelor, iar acum ne întoarcem la interpretarea subiectivă a acestora. Două greșeli îl așteaptă pe cercetător: un subiect de analiză ales incorect și o interpretare incorectă a rezultatelor.

O analiză a performanței a 15 fonduri mutuale cu risc foarte ridicat este destul de imparțială. El a condus la concluzii complet obiective: toate fondurile mutuale au randamente diferite, spread-ul randamentelor fondurilor variază de la -6,1 la 18,5, iar randamentul mediu este de 6,08. Obiectivitatea analizei datelor este asigurată de alegerea corectă a indicatorilor cantitativi totali ai distribuţiei. Au fost luate în considerare mai multe metode de estimare a mediei și dispersării datelor și au fost indicate avantajele și dezavantajele acestora. Cum să alegi statisticile potrivite care să ofere o analiză obiectivă și imparțială? Dacă distribuția datelor este ușor denaturată, ar trebui să fie aleasă mediana față de media aritmetică? Care indicator caracterizează mai exact răspândirea datelor: abaterea standard sau intervalul? Ar trebui indicată asimetria pozitivă a distribuției?

Pe de altă parte, interpretarea datelor este un proces subiectiv. Oameni diferiți ajung la concluzii diferite, interpretând aceleași rezultate. Fiecare are punctul lui de vedere. Cineva consideră că randamentele totale medii anuale a 15 fonduri cu un nivel de risc foarte ridicat sunt bune și este destul de mulțumit de veniturile primite. Alții pot crede că aceste fonduri au randamente prea mici. Astfel, subiectivitatea ar trebui compensată de onestitate, neutralitate și claritatea concluziilor.

Probleme etice

Analiza datelor este indisolubil legată de problemele etice. Ar trebui să fim critici cu privire la informațiile difuzate de ziare, radio, televiziune și internet. De-a lungul timpului, vei învăța să fii sceptic nu numai în ceea ce privește rezultatele, ci și în ceea ce privește obiectivele, subiectul și obiectivitatea cercetării. Celebrul politician britanic Benjamin Disraeli a spus-o cel mai bine: „Există trei feluri de minciuni: minciuni, minciuni blestemate și statistici”.

După cum se menționează în notă, la alegerea rezultatelor care ar trebui prezentate în raport apar probleme etice. Ar trebui publicate atât rezultatele pozitive, cât și cele negative. În plus, la realizarea unui raport sau raport scris, rezultatele trebuie prezentate onest, neutru și obiectiv. Distingeți între prezentările proaste și necinstite. Pentru a face acest lucru, este necesar să se determine care au fost intențiile vorbitorului. Uneori, vorbitorul omite informații importante din ignoranță și alteori în mod deliberat (de exemplu, dacă folosește media aritmetică pentru a estima media datelor clar denaturate pentru a obține rezultatul dorit). De asemenea, este necinstit să suprimi rezultate care nu corespund punctului de vedere al cercetătorului.

Sunt folosite materiale din cartea Levin et al. Statistici pentru manageri. - M.: Williams, 2004. - p. 178–209

Funcția QUARTILE reținută pentru a se alinia cu versiunile anterioare de Excel

Valoarea medie este cea mai valoroasă din punct de vedere analitic și forma universală de exprimare a indicatorilor statistici. Cea mai comună medie - media aritmetică - are o serie de proprietăți matematice care pot fi utilizate în calculul ei. În același timp, atunci când se calculează o medie specifică, este întotdeauna recomandabil să se bazeze pe formula sa logică, care este raportul dintre volumul atributului și volumul populației. Pentru fiecare medie, există un singur raport de referință adevărat, care, în funcție de datele disponibile, poate necesita diferite forme de medii. Cu toate acestea, în toate cazurile în care natura valorii medii implică prezența ponderilor, este imposibil să se utilizeze formulele lor neponderate în locul formulelor medii ponderate.

Valoarea medie este valoarea cea mai caracteristică a atributului pentru populație și mărimea atributului populației distribuite în părți egale între unitățile populației.

Se numește caracteristica pentru care se calculează valoarea medie mediat .

Valoarea medie este un indicator calculat prin compararea valorilor absolute sau relative. Valoarea medie este

Valoarea medie reflectă influența tuturor factorilor care influențează fenomenul studiat și este rezultatul acestora. Cu alte cuvinte, rambursând abaterile individuale și eliminând influența cazurilor, valoarea medie, reflectând măsura generală a rezultatelor acestei acțiuni, acționează ca un model general al fenomenului studiat.

Condiții de utilizare a mediilor:

Ø omogenitatea populatiei studiate. Dacă unele elemente ale populației supuse influenței unui factor aleatoriu au valori semnificativ diferite ale trăsăturii studiate față de restul, atunci aceste elemente vor afecta mărimea mediei pentru această populație. În acest caz, media nu va exprima valoarea cea mai tipică a caracteristicii pentru populație. Dacă fenomenul studiat este eterogen, se impune defalcarea lui în grupuri care conțin elemente omogene. În acest caz, se calculează mediile de grup - medii de grup care exprimă valoarea cea mai caracteristică a fenomenului din fiecare grup, iar apoi se calculează valoarea medie generală pentru toate elementele, caracterizând fenomenul în ansamblu. Se calculează ca medie a mediilor grupului, ponderată cu numărul de elemente ale populației incluse în fiecare grupă;

Ø un numar suficient de unitati in agregat;

Ø valorile maxime si minime ale trasaturii in populatia studiata.

Valoarea medie (indicator)- aceasta este o caracteristică cantitativă generalizată a unei trăsături într-o populație sistematică în condiții specifice de loc și timp.

În statistică, sunt utilizate următoarele forme (tipuri) de medii, numite putere și structurală:

Ø medie aritmetică(simplu și ponderat);

simplu

Acest termen are alte semnificații, vezi sensul mediu.

In medie(în matematică și statistică) seturi de numere - suma tuturor numerelor împărțită la numărul lor. Este una dintre cele mai comune măsuri de tendință centrală.

A fost propusă (împreună cu media geometrică și media armonică) de către pitagoreici.

Cazuri speciale ale mediei aritmetice sunt media (a populației generale) și media eșantionului (a eșantioanelor).

Introducere

Indicați setul de date X = (X 1 , X 2 , …, X n), atunci media eșantionului este de obicei notat cu o bară orizontală deasupra variabilei (x ¯ (\displaystyle (\bar (x))) , pronunțată " X cu liniuță").

Litera greacă μ este folosită pentru a desemna media aritmetică a întregii populații. Pentru o variabilă aleatoare pentru care este definită o valoare medie, μ este probabilitate medie sau așteptarea matematică a unei variabile aleatoare. Dacă setul X este o colecție de numere aleatoare cu o medie a probabilității μ, apoi pentru orice probă X i din această colecție μ = E( X i) este așteptarea acestui eșantion.

În practică, diferența dintre μ și x ¯ (\displaystyle (\bar (x))) este că μ este o variabilă tipică, deoarece puteți vedea eșantionul mai degrabă decât întreaga populație. Prin urmare, dacă eșantionul este reprezentat aleatoriu (în termeni de teoria probabilității), atunci x ¯ (\displaystyle (\bar (x))) (dar nu μ) poate fi tratată ca o variabilă aleatoare având o distribuție de probabilitate pe eșantion ( distribuția de probabilitate a mediei).

Ambele cantități sunt calculate în același mod:

X ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + ⋯ + x n) . (\displaystyle (\bar (x))=(\frac (1)(n))\sum _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\cdots +x_(n)).)

În cazul în care un X este o variabilă aleatorie, apoi așteptarea matematică X poate fi considerată ca medie aritmetică a valorilor în măsurători repetate ale mărimii X. Aceasta este o manifestare a legii numerelor mari. Prin urmare, media eșantionului este utilizată pentru a estima așteptările matematice necunoscute.

În algebra elementară, se demonstrează că media n+ 1 numere peste medie n numere dacă și numai dacă noul număr este mai mare decât vechea medie, mai puțin dacă și numai dacă noul număr este mai mic decât media și nu se modifică dacă și numai dacă noul număr este egal cu media. Cu atât mai mult n, cu atât este mai mică diferența dintre mediile noi și cele vechi.

Rețineți că există mai multe alte „mijloace” disponibile, inclusiv media legii puterii, media Kolmogorov, medie armonică, medie aritmetică-geometrică și diverse medii ponderate (de exemplu, medie ponderată aritmetică, medie ponderată geometrică, medie ponderată armonică) .

Exemple

  • Pentru trei numere, trebuie să le adunați și să le împărțiți la 3:
x 1 + x 2 + x 3 3 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3))(3)).)
  • Pentru patru numere, trebuie să le adunați și să împărțiți la 4:
x 1 + x 2 + x 3 + x 4 4 . (\displaystyle (\frac (x_(1)+x_(2))+x_(3)+x_(4))(4)).)

Sau mai ușor 5+5=10, 10:2. Pentru că am adăugat 2 numere, ceea ce înseamnă că câte numere adunăm, împărțim la atât.

Variabilă aleatoare continuă

Pentru o valoare distribuită continuu f (x) (\displaystyle f(x)) media aritmetică pe intervalul [ a ; b ] (\displaystyle ) este definit printr-o integrală definită:

F (x) ¯ [ a ; b ] = 1 b - a ∫ a b f (x) d x (\displaystyle (\overline (f(x)))_()=(\frac (1)(b-a))\int _(a)^(b) f(x)dx)

Câteva probleme de utilizare a mediei

Lipsa robusteței

Articolul principal: Robustețe în statistică

Deși media aritmetică este adesea folosită ca medie sau tendințe centrale, acest concept nu se aplică statisticilor robuste, ceea ce înseamnă că media aritmetică este puternic influențată de „abateri mari”. Este de remarcat faptul că pentru distribuțiile cu o asimetrie mare, media aritmetică poate să nu corespundă conceptului de „medie”, iar valorile mediei din statistici robuste (de exemplu, mediana) pot descrie mai bine tendința centrală.

Exemplul clasic este calculul venitului mediu. Media aritmetică poate fi interpretată greșit ca mediană, ceea ce poate duce la concluzia că există mai mulți oameni cu venituri mai mari decât sunt în realitate. Venitul „mediu” este interpretat în așa fel încât veniturile majorității oamenilor să fie apropiate de acest număr. Acest venit „mediu” (în sensul mediei aritmetice) este mai mare decât venitul majorității oamenilor, deoarece un venit mare cu o abatere mare de la medie face ca media aritmetică să fie puternic denaturată (dimpotrivă, venitul median „rezistă” o astfel de înclinare). Cu toate acestea, acest venit „mediu” nu spune nimic despre numărul de persoane aflate în apropierea venitului median (și nu spune nimic despre numărul de persoane din apropierea venitului modal). Cu toate acestea, dacă conceptele de „medie” și „majoritate” sunt luate cu ușurință, atunci se poate concluziona greșit că majoritatea oamenilor au venituri mai mari decât sunt în realitate. De exemplu, un raport privind venitul net „mediu” din Medina, Washington, calculat ca media aritmetică a tuturor veniturilor nete anuale ale rezidenților, va oferi un număr surprinzător de mare datorită lui Bill Gates. Luați în considerare eșantionul (1, 2, 2, 2, 3, 9). Media aritmetică este 3,17, dar cinci dintre cele șase valori sunt sub această medie.

Interes compus

Articolul principal: ROI

Dacă numerele multiplica, dar nu pliază, trebuie să utilizați media geometrică, nu media aritmetică. Cel mai adesea, acest incident se întâmplă atunci când se calculează rentabilitatea investiției în finanțe.

De exemplu, dacă stocurile au scăzut cu 10% în primul an și au crescut cu 30% în al doilea an, atunci este incorect să se calculeze creșterea „medie” în acești doi ani ca medie aritmetică (−10% + 30%) / 2 = 10%; media corectă în acest caz este dată de rata de creștere anuală compusă, din care creșterea anuală este de numai aproximativ 8,16653826392% ≈ 8,2%.

Motivul pentru aceasta este că procentele au un nou punct de plecare de fiecare dată: 30% este 30% dintr-un număr mai mic decât prețul de la începutul primului an: dacă stocul a început de la 30 USD și a scăzut cu 10%, valorează 27 USD la începutul celui de-al doilea an. Dacă stocul crește cu 30%, valorează 35,1 USD la sfârșitul celui de-al doilea an. Media aritmetică a acestei creșteri este de 10%, dar din moment ce stocul a crescut doar cu 5,1 USD în 2 ani, o creștere medie de 8,2% dă un rezultat final de 35,1 USD:

[30 USD (1 - 0,1) (1 + 0,3) = 30 USD (1 + 0,082) (1 + 0,082) = 35,1 USD]. Dacă folosim media aritmetică a 10% în același mod, nu vom obține valoarea reală: [$30 (1 + 0.1) (1 + 0.1) = $36.3].

Dobânda compusă la sfârșitul anului 2: 90% * 130% = 117% , adică o creștere totală de 17%, iar dobânda compusă medie anuală este de 117% ≈ 108,2% (\displaystyle (\sqrt (117\%)) \aproximativ 108,2\%) , adică o creștere medie anuală de 8,2%.

Directii

Articolul principal: Statistici despre destinație

Când se calculează media aritmetică a unei variabile care se modifică ciclic (de exemplu, fază sau unghi), trebuie avută o atenție deosebită. De exemplu, media 1° și 359° ar fi 1 ∘ + 359 ∘ 2 = (\displaystyle (\frac (1^(\circ )+359^(\circ ))(2))=) 180°. Acest număr este incorect din două motive.

  • În primul rând, măsurile unghiulare sunt definite doar pentru intervalul de la 0° la 360° (sau de la 0 la 2π când sunt măsurate în radiani). Astfel, aceeași pereche de numere ar putea fi scrisă ca (1° și -1°) sau ca (1° și 719°). Mediile fiecărei perechi vor fi diferite: 1 ∘ + (− 1 ∘) 2 = 0 ∘ (\displaystyle (\frac (1^(\circ )+(-1^(\circ )))(2))= 0 ^(\circ )) , 1 ∘ + 719 ∘ 2 = 360 ∘ (\displaystyle (\frac (1^(\circ )+719^(\circ ))(2))=360^(\circ )) .
  • În al doilea rând, în acest caz, o valoare de 0° (echivalent cu 360°) ar fi cea mai bună medie din punct de vedere geometric, deoarece numerele se abat mai puțin de la 0° decât de la orice altă valoare (valoarea 0° are cea mai mică variație). Comparaţie:
    • numărul 1° se abate de la 0° cu doar 1°;
    • numărul 1° se abate de la media calculată de 180° cu 179°.

Valoarea medie pentru o variabilă ciclică, calculată conform formulei de mai sus, va fi deplasată artificial în raport cu media reală la mijlocul intervalului numeric. Din această cauză, media se calculează într-un mod diferit, și anume, ca valoare medie se alege numărul cu cea mai mică varianță (punctul central). De asemenea, în loc de scădere, se folosește distanța modulo (adică distanța circumferențială). De exemplu, distanța modulară între 1° și 359° este 2°, nu 358° (pe un cerc între 359° și 360°==0° - un grad, între 0° și 1° - tot 1°, în total - 2 °).

4.3. Valori medii. Esența și semnificația mediilor

Valoarea medieîn statistică se numește un indicator de generalizare, care caracterizează nivelul tipic al unui fenomen în condiții specifice de loc și timp, reflectând amploarea unui atribut variabil pe unitatea unei populații omogene calitativ. În practica economică se utilizează o gamă largă de indicatori, calculați ca medii.

De exemplu, un indicator generalizator al veniturilor lucrătorilor dintr-o societate pe acțiuni (SA) este venitul mediu al unui lucrător, determinat de raportul dintre fondul de salarii și plățile sociale pentru perioada analizată (an, trimestru, lună). ) la numărul de lucrători din SA.

Calcularea mediei este o tehnică comună de generalizare; indicatorul mediu reflectă generalul care este tipic (tipic) pentru toate unitățile populației studiate, în timp ce, în același timp, ignoră diferențele dintre unitățile individuale. În fiecare fenomen și în dezvoltarea lui există o combinație şansăși nevoie. La calcularea mediilor, datorită funcționării legii numerelor mari, aleatorietatea se anulează reciproc, se echilibrează, astfel încât să puteți face abstracție de la trăsăturile nesemnificative ale fenomenului, de la valorile cantitative ale atributului în fiecare caz specific. În capacitatea de a face abstracție de la aleatorietatea valorilor individuale, fluctuațiile se află valoarea științifică a mediilor ca rezumând caracteristici agregate.

Acolo unde este nevoie de generalizare, calculul unor astfel de caracteristici duce la înlocuirea multor valori individuale diferite ale atributului mediu un indicator care caracterizează totalitatea fenomenelor, ceea ce face posibilă identificarea tiparelor inerente fenomenelor sociale de masă, insesizabile în fenomene singulare.

Media reflectă nivelul caracteristic, tipic, real al fenomenelor studiate, caracterizează aceste niveluri și modificările lor în timp și spațiu.

Media este o caracteristică sumară a regularităților procesului în condițiile în care se desfășoară.

4.4. Tipuri de medii și metode de calculare a acestora

Alegerea tipului de medie este determinată de conținutul economic al unui anumit indicator și de datele inițiale. În fiecare caz, se aplică una dintre valorile medii: aritmetică, garmonic, geometric, pătratic, cubic etc. Mediile enumerate aparțin clasei putere mediu.

Pe lângă mediile legii puterii, în practica statistică se folosesc medii structurale, care sunt considerate a fi modul și mediana.

Să ne oprim mai în detaliu asupra mijloacelor de putere.

Media aritmetică

Cel mai comun tip de medie este in medie aritmetic. Este utilizat în cazurile în care volumul unui atribut variabil pentru întreaga populație este suma valorilor atributelor unităților sale individuale. Fenomenele sociale se caracterizează prin aditivitatea (sumarea) volumelor unui atribut variabil, aceasta determină sfera mediei aritmetice și explică prevalența acesteia ca indicator generalizator, de exemplu: fondul total de salarii este suma salariilor tuturor. muncitori, recolta bruta este suma produselor manufacturate din intreaga suprafata de semanat.

Pentru a calcula media aritmetică, trebuie să împărțiți suma tuturor valorilor caracteristicilor la numărul lor.

Media aritmetică se aplică sub formă medie simplă și medie ponderată. Media simplă servește ca formă inițială, definitorie.

medie aritmetică simplă este egală cu suma simplă a valorilor individuale ale caracteristicii medii, împărțită la numărul total al acestor valori (este utilizat în cazurile în care există valori individuale negrupate ale caracteristicii):

Unde
- valorile individuale ale variabilei (opțiuni); m - numărul de unităţi de populaţie.

Alte limite de însumare în formule nu vor fi indicate. De exemplu, este necesar să se afle producția medie a unui muncitor (lăcătuș), dacă se știe câte piese a produs fiecare din 15 muncitori, adică. dat un număr de valori individuale ale trăsăturii, buc.:

21; 20; 20; 19; 21; 19; 18; 22; 19; 20; 21; 20; 18; 19; 20.

Media aritmetică simplă se calculează prin formula (4.1), 1 buc.:

Se numește media opțiunilor care se repetă de un număr diferit de ori sau despre care se spune că au ponderi diferite ponderat. Ponderile sunt numărul de unități din diferite grupuri de populație (grupul combină aceleași opțiuni).

Media ponderată aritmetică- valori medii grupate, - se calculează prin formula:

, (4.2)

Unde
- greutăți (frecvența de repetare a acelorași caracteristici);

- suma produselor mărimii caracteristicilor după frecvențele lor;

- numărul total de unități de populație.

Vom ilustra tehnica de calcul a mediei ponderate aritmetice folosind exemplul discutat mai sus. Pentru a face acest lucru, grupăm datele inițiale și le plasăm în tabel. 4.1.

Tabelul 4.1

Repartizarea muncitorilor pentru dezvoltarea pieselor

Conform formulei (4.2), media ponderată aritmetică este egală, bucăți:

În unele cazuri, ponderile pot fi reprezentate nu prin valori absolute, ci prin valori relative (în procente sau fracții de unitate). Apoi formula pentru media ponderată aritmetică va arăta astfel:

Unde
- special, adică ponderea fiecărei frecvențe în suma totală a tuturor

Dacă frecvențele sunt numărate în fracții (coeficienți), atunci
= 1, iar formula pentru media ponderată aritmetic este:

Calculul mediei ponderate aritmetice din mediile grupului se efectuează după formula:

,

Unde f-numar de unitati din fiecare grupa.

Rezultatele calculării mediei aritmetice a mediilor de grup sunt prezentate în tabel. 4.2.

Tabelul 4.2

Distribuția lucrătorilor după vechimea medie în muncă

În acest exemplu, opțiunile nu sunt date individuale privind vechimea în muncă a lucrătorilor individuali, ci medii pentru fiecare atelier. cântare f sunt numărul muncitorilor din magazine. Prin urmare, experiența medie de muncă a lucrătorilor din întreaga întreprindere va fi de ani:

.

Calculul mediei aritmetice în seria de distribuție

Dacă valorile atributului mediu sunt date ca intervale („de la - la”), de exemplu. serie de distribuție a intervalelor, atunci când se calculează valoarea medie aritmetică, punctele medii ale acestor intervale sunt luate ca valori ale caracteristicilor în grupuri, în urma cărora se formează o serie discretă. Luați în considerare următorul exemplu (Tabelul 4.3).

Să trecem de la o serie de intervale la una discretă prin înlocuirea valorilor intervalului cu valorile lor medii / (medie simplă

Tabelul 4.3

Distribuția lucrătorilor AO după nivelul salariilor lunare

Grupuri de muncitori pentru

Numărul de muncitori

Mijlocul intervalului

salarii, frecare.

pers., f

freca., X

900 și peste

valorile intervalelor deschise (primul și ultimul) sunt echivalate condiționat cu intervalele adiacente acestora (al doilea și penultimul).

Cu un astfel de calcul al mediei, este permisă o anumită inexactitate, deoarece se face o ipoteză despre distribuția uniformă a unităților atributului în cadrul grupului. Totuși, eroarea va fi cu cât mai mică, cu atât intervalul este mai îngust și cu atât mai multe unități în interval.

După ce se găsesc punctele de mijloc ale intervalelor, calculele se fac în același mod ca într-o serie discretă - opțiunile sunt înmulțite cu frecvențele (greutățile) iar suma produselor este împărțită la suma frecvențelor (greutăților) , mii de ruble:

.

Deci, nivelul mediu de remunerare a lucrătorilor din SA este de 729 de ruble. pe luna.

Calculul mediei aritmetice este adesea asociat cu o cheltuială mare de timp și muncă. Cu toate acestea, în unele cazuri, procedura de calculare a mediei poate fi simplificată și facilitată prin utilizarea proprietăților acesteia. Să prezentăm (fără dovezi) câteva proprietăți de bază ale mediei aritmetice.

Proprietatea 1. Dacă toate valorile caracteristice individuale (de ex. toate opțiunile) scad sau crește în iori, apoi valoarea medie a unei noi caracteristici va scădea sau crește corespunzător în io singura data.

Proprietatea 2. Dacă toate variantele caracteristicii medii sunt redusecoaseți sau creșteți cu numărul A, apoi media aritmeticăscad sau crește semnificativ cu același număr A.

Proprietatea 3. Dacă ponderile tuturor opțiunilor mediate sunt reduse sau creste la la ori, media aritmetică nu se va schimba.

Ca ponderi medii, în loc de indicatori absoluti, puteți utiliza ponderi specifice în totalul total (acțiuni sau procente). Acest lucru simplifică calculul mediei.

Pentru a simplifica calculele mediei, ei urmează calea reducerii valorilor opțiunilor și frecvențelor. Cea mai mare simplificare se realizează atunci când DAR valoarea uneia dintre opțiunile centrale cu cea mai mare frecvență este selectată ca / ​​- valoarea intervalului (pentru rândurile cu aceleași intervale). Valoarea lui L se numește origine, așa că această metodă de calculare a mediei se numește „metoda de numărare de la zero condiționat” sau „metoda momentelor”.

Să presupunem că toate opțiunile X mai întâi redus cu același număr A și apoi redus în i o singura data. Obținem o nouă serie de distribuție variațională de noi variante .

Apoi noi optiuni vor fi exprimate:

,

și noua lor medie aritmetică , -momentul primului ordin- formulă:

.

Este egală cu media opțiunilor originale, mai întâi redusă cu DAR, si apoi in i o singura data.

Pentru a obține media reală, aveți nevoie de un moment de primă ordine m 1 , înmulțit cu i si adauga DAR:

.

Această metodă de calcul a mediei aritmetice dintr-o serie variațională se numește „metoda momentelor”. Această metodă se aplică pe rânduri cu intervale egale.

Calculul mediei aritmetice prin metoda momentelor este ilustrat de datele din tabel. 4.4.

Tabelul 4.4

Distribuția întreprinderilor mici din regiune după valoarea activelor fixe de producție (OPF) în anul 2000

Grupuri de întreprinderi după costul OPF, mii de ruble

Numărul de întreprinderi f

intervale medii, X

14-16 16-18 18-20 20-22 22-24

Găsirea momentului primei comenzi

.

Apoi, presupunând A = 19 și știind că i= 2, calculează X, mii de ruble.:

Tipuri de valori medii și metode de calcul a acestora

În etapa prelucrării statistice, pot fi stabilite o varietate de sarcini de cercetare, pentru a căror soluție este necesar să se aleagă media adecvată. În acest caz, este necesar să vă ghidați după următoarea regulă: valorile care reprezintă numărătorul și numitorul mediei trebuie să fie legate logic între ele.

  • medii de putere;
  • medii structurale.

Să introducem următoarea notație:

Valorile pentru care se calculează media;

Medie, unde linia de mai sus indică faptul că are loc media valorilor individuale;

Frecvență (repetabilitate a valorilor trăsăturilor individuale).

Din formula generală a mediei puterii sunt derivate diferite mijloace:

(5.1)

pentru k = 1 - medie aritmetică; k = -1 - medie armonică; k = 0 - medie geometrică; k = -2 - rădăcină pătrată medie.

Mediile sunt fie simple, fie ponderate. medii ponderate sunt numite cantități care țin cont de faptul că unele variante ale valorilor atributului pot avea numere diferite și, prin urmare, fiecare variantă trebuie înmulțită cu acest număr. Cu alte cuvinte, „greutățile” sunt numerele de unități de populație din diferite grupuri, i.e. fiecare opțiune este „ponderată” de frecvența sa. Se numește frecvența f ponderea statistica sau medie de cântărire.

Media aritmetică- cel mai comun tip de mediu. Este utilizat atunci când calculul este efectuat pe date statistice negrupate, de unde doriți să obțineți suma medie. Media aritmetică este o astfel de valoare medie a unei caracteristici, după primirea căreia volumul total al caracteristicii din populație rămâne neschimbat.

Formula mediei aritmetice ( simplu) are forma

unde n este dimensiunea populației.

De exemplu, salariul mediu al angajaților unei întreprinderi este calculat ca medie aritmetică:

Indicatorii determinanți aici sunt salariile fiecărui angajat și numărul de angajați ai întreprinderii. La calcularea mediei, valoarea totală a salariilor a rămas aceeași, dar a fost distribuită, parcă, în mod egal între toți lucrătorii. De exemplu, este necesar să se calculeze salariul mediu al angajaților unei companii mici în care sunt angajați 8 persoane:

La calcularea mediilor, valorile individuale ale atributului care este mediat pot fi repetate, astfel încât media este calculată folosind date grupate. În acest caz, vorbim despre utilizare medie aritmetică ponderată, care arată ca

(5.3)

Deci, trebuie să calculăm prețul mediu al acțiunilor unei societăți pe acțiuni la bursă. Se știe că tranzacțiile au fost efectuate în termen de 5 zile (5 tranzacții), numărul de acțiuni vândute la rata de vânzare a fost repartizat astfel:

1 - 800 ac. - 1010 ruble

2 - 650 ac. - 990 de ruble.

3 - 700 ak. - 1015 ruble.

4 - 550 ac. - 900 de ruble.

5 - 850 ak. - 1150 de ruble.

Raportul inițial pentru determinarea prețului mediu al acțiunilor este raportul dintre suma totală a tranzacțiilor (OSS) și numărul de acțiuni vândute (KPA).

Pentru a găsi valoarea medie în Excel (fie că este o valoare numerică, textuală, procentuală sau altă valoare), există multe funcții. Și fiecare dintre ele are propriile sale caracteristici și avantaje. La urma urmei, anumite condiții pot fi stabilite în această sarcină.

De exemplu, valorile medii ale unei serii de numere în Excel sunt calculate folosind funcții statistice. De asemenea, puteți introduce manual propria formulă. Să luăm în considerare diverse opțiuni.

Cum se găsește media aritmetică a numerelor?

Pentru a găsi media aritmetică, adăugați toate numerele din mulțime și împărțiți suma la număr. De exemplu, notele unui student la informatică: 3, 4, 3, 5, 5. Ce este valabil pentru un sfert: 4. Am găsit media aritmetică folosind formula: \u003d (3 + 4 + 3 + 5 + 5) / 5.

Cum se face rapid folosind funcțiile Excel? Luați de exemplu o serie de numere aleatorii dintr-un șir:

Sau: activați celula și introduceți pur și simplu manual formula: =AVERAGE(A1:A8).

Acum să vedem ce mai poate face funcția AVERAGE.


Aflați media aritmetică a primelor două și a ultimelor trei numere. Formula: =MEDIE(A1:B1;F1:H1). Rezultat:



Medie după stare

Condiția pentru aflarea mediei aritmetice poate fi un criteriu numeric sau unul text. Vom folosi funcția: =AVERAGEIF().

Aflați media aritmetică a numerelor care sunt mai mari sau egale cu 10.

Funcție: =AVERAGEIF(A1:A8,">=10")


Rezultatul utilizării funcției AVERAGEIF cu condiția „>=10”:

Al treilea argument - „Intervalul de mediere” - este omis. În primul rând, nu este necesar. În al doilea rând, intervalul analizat de program conține NUMAI valori numerice. În celulele specificate în primul argument, căutarea se va efectua conform condiției specificate în al doilea argument.

Atenţie! Criteriul de căutare poate fi specificat într-o celulă. Și în formula pentru a face o referire la ea.

Să găsim valoarea medie a numerelor după criteriul textului. De exemplu, vânzările medii ale produsului „tabele”.

Funcția va arăta astfel: =AVERAGEIF($A$2:$A$12;A7;$B$2:$B$12). Interval - o coloană cu nume de produse. Criteriul de căutare este o legătură către o celulă cu cuvântul „tables” (puteți introduce cuvântul „tables” în loc de linkul A7). Interval de mediere - acele celule din care vor fi luate date pentru a calcula valoarea medie.

Ca rezultat al calculului funcției, obținem următoarea valoare:

Atenţie! Pentru un criteriu text (condiție), trebuie specificat intervalul de mediere.

Cum se calculează prețul mediu ponderat în Excel?

Cum știm prețul mediu ponderat?

Formula: =SUMPRODUS(C2:C12;B2:B12)/SUMA(C2:C12).


Folosind formula SUMPRODUCT, aflăm venitul total după vânzarea întregii cantități de mărfuri. Și funcția SUM - însumează cantitatea de mărfuri. Împărțind venitul total din vânzarea de bunuri la numărul total de unități de mărfuri, am găsit prețul mediu ponderat. Acest indicator ține cont de „greutatea” fiecărui preț. Ponderea sa în masa totală a valorilor.

Abaterea standard: formula în Excel

Distingeți abaterea standard pentru populația generală și pentru eșantion. În primul caz, aceasta este rădăcina varianței generale. În al doilea, din varianța eșantionului.

Pentru a calcula acest indicator statistic, este compilată o formulă de dispersie. Rădăcina este luată din ea. Dar în Excel există o funcție gata făcută pentru găsirea abaterii standard.


Abaterea standard este legată de amploarea datelor sursă. Acest lucru nu este suficient pentru o reprezentare figurativă a variației intervalului analizat. Pentru a obține nivelul relativ de împrăștiere în date, se calculează coeficientul de variație:

abatere standard / medie aritmetică

Formula în Excel arată astfel:

STDEV (interval de valori) / AVERAGE (interval de valori).

Coeficientul de variație se calculează procentual. Prin urmare, setăm formatul procentual în celulă.