Paano makalkula ang ibig sabihin ng aritmetika. Paano makalkula ang average

Ang pinakakaraniwang anyo ng mga istatistikal na tagapagpahiwatig na ginagamit sa socio-economic na pananaliksik ay ang average na halaga, na isang pangkalahatan na quantitative na katangian ng isang tanda ng isang istatistikal na populasyon. Ang mga average na halaga ay, kumbaga, "mga kinatawan" ng buong serye ng mga obserbasyon. Sa maraming kaso, maaaring matukoy ang average sa pamamagitan ng initial ratio ng average (ISS) o ang lohikal na formula nito: . Kaya, halimbawa, upang kalkulahin ang average na sahod ng mga empleyado ng isang negosyo, kinakailangan upang hatiin ang kabuuang pondo ng sahod sa bilang ng mga empleyado: Ang numerator ng paunang ratio ng average ay ang tagapagpahiwatig ng pagtukoy nito. Para sa karaniwang sahod, ang naturang tagapagpahiwatig ng pagtukoy ay ang pondo ng sahod. Para sa bawat indicator na ginamit sa socio-economic analysis, isang tunay na reference ratio lamang ang maaaring ipunin upang kalkulahin ang average. Dapat ding idagdag na upang mas tumpak na matantya ang karaniwang paglihis para sa maliliit na sample (na may bilang ng mga elemento na mas mababa sa 30), ang denominator ng expression sa ilalim ng ugat ay hindi dapat gumamit n, a n- 1.

Ang konsepto at uri ng mga average

Average na halaga- ito ay isang pangkalahatang tagapagpahiwatig ng istatistikal na populasyon, na pinapatay ang mga indibidwal na pagkakaiba sa mga halaga ng mga istatistikal na dami, na nagpapahintulot sa iyo na ihambing ang iba't ibang mga populasyon sa bawat isa. Umiiral 2 klase average na mga halaga: kapangyarihan at istruktura. Structural average ay fashion at panggitna , ngunit ang pinakakaraniwang ginagamit mga average ng kapangyarihan iba't ibang uri.

Mga average ng kapangyarihan

Power average ay maaaring simple lang at natimbang.

Ang isang simpleng average ay kinakalkula kapag mayroong dalawa o higit pang hindi pinagsama-samang mga istatistikal na halaga, na nakaayos sa isang arbitrary na pagkakasunud-sunod ayon sa sumusunod na pangkalahatang formula ng average na batas ng kapangyarihan (para sa iba't ibang mga halaga ng k (m)):

Ang weighted average ay kinakalkula mula sa mga nakagrupong istatistika gamit ang sumusunod na pangkalahatang formula:

Kung saan ang x - ang average na halaga ng hindi pangkaraniwang bagay na pinag-aaralan; x i – i-th variant ng na-average na feature ;

f i ay ang bigat ng i-th na opsyon.

Kung saan ang X ay ang mga halaga ng mga indibidwal na istatistikal na halaga o ang mga midpoint ng mga pagitan ng pagpapangkat;
m - exponent, sa halaga kung saan nakasalalay ang mga sumusunod na uri ng mga average ng kapangyarihan:
sa m = -1 harmonic mean;
para sa m = 0, ang geometric na ibig sabihin;
para sa m = 1, ang arithmetic mean;
sa m = 2, ang root mean square;
sa m = 3, ang average na kubiko.

Gamit ang mga pangkalahatang formula para sa simple at weighted average na may iba't ibang exponents m, nakakakuha kami ng mga partikular na formula ng bawat uri, na tatalakayin nang detalyado sa ibaba.

Ang ibig sabihin ng aritmetika

Ang ibig sabihin ng aritmetika - ang paunang sandali ng unang pagkakasunud-sunod, ang pag-asa sa matematika ng mga halaga ng isang random na variable na may malaking bilang ng mga pagsubok;

Ang arithmetic mean ay ang pinakakaraniwang ginagamit na average na halaga, na nakukuha sa pamamagitan ng pagpapalit ng m = 1 sa pangkalahatang formula. Ang ibig sabihin ng aritmetika simple lang ay may sumusunod na anyo:

o

Kung saan ang X ay ang mga halaga ng mga dami kung saan kinakailangan upang kalkulahin ang average na halaga; Ang N ay ang kabuuang bilang ng mga halaga ng X (ang bilang ng mga yunit sa pinag-aralan na populasyon).

Halimbawa, nakapasa ang isang estudyante sa 4 na pagsusulit at nakatanggap ng mga sumusunod na marka: 3, 4, 4 at 5. Kalkulahin natin ang average na iskor gamit ang simpleng arithmetic mean formula: (3+4+4+5)/4 = 16/4 = 4. Ang ibig sabihin ng aritmetika natimbang ay may sumusunod na anyo:

Kung saan ang f ay ang bilang ng mga halaga na may parehong halaga ng X (dalas). >Halimbawa, nakapasa ang isang estudyante sa 4 na pagsusulit at nakatanggap ng mga sumusunod na marka: 3, 4, 4 at 5. Kalkulahin ang average na iskor gamit ang arithmetic weighted average formula: (3*1 + 4*2 + 5*1)/4 = 16/4 = 4 . Kung ang mga halaga ng X ay ibinibigay bilang mga agwat, kung gayon ang mga midpoint ng mga agwat ng X ay ginagamit para sa mga kalkulasyon, na tinukoy bilang kalahati ng kabuuan ng itaas at mas mababang mga limitasyon ng agwat. At kung ang interval X ay walang lower o upper limit (open interval), para mahanap ito, ginagamit ang range (ang pagkakaiba sa pagitan ng upper at lower limit) ng katabing interval X. Halimbawa, sa enterprise mayroong 10 empleyado na may karanasan sa trabaho hanggang sa 3 taon, 20 - na may karanasan sa trabaho mula 3 hanggang 5 taon, 5 empleyado - na may karanasan sa trabaho na higit sa 5 taon. Pagkatapos ay kinakalkula namin ang average na haba ng serbisyo ng mga empleyado gamit ang arithmetic weighted average na formula, na kumukuha bilang X sa gitna ng haba ng mga agwat ng serbisyo (2, 4 at 6 na taon): (2*10+4*20+6*5)/(10+20+5) = 3.71 taon.

AVERAGE function

Kinakalkula ng function na ito ang average (aritmetika) ng mga argumento nito.

AVERAGE(numero1, numero2, ...)

Number1, number2, ... ay 1 hanggang 30 argumento kung saan kinakalkula ang average.

Ang mga argumento ay dapat na mga numero o pangalan, array o reference na naglalaman ng mga numero. Kung ang argument, na isang array o isang link, ay naglalaman ng mga text, boolean, o walang laman na mga cell, kung gayon ang mga halagang iyon ay hindi papansinin; gayunpaman, ang mga cell na naglalaman ng mga null na halaga ay binibilang.

AVERAGE function

Kinakalkula ang arithmetic mean ng mga halagang ibinigay sa listahan ng argumento. Bilang karagdagan sa mga numero, text at lohikal na mga halaga, tulad ng TRUE at FALSE, ay maaaring lumahok sa pagkalkula.

AVERAGE(value1, value2,...)

Ang value1, value2,... ay 1 hanggang 30 na mga cell, mga hanay ng cell, o mga halaga kung saan kinakalkula ang average.

Ang mga argumento ay dapat na mga numero, pangalan, array, o reference. Ang mga array at link na naglalaman ng text ay binibigyang kahulugan bilang 0 (zero). Ang walang laman na text ("") ay binibigyang kahulugan bilang 0 (zero). Ang mga argumento na naglalaman ng value na TRUE ay binibigyang-kahulugan bilang 1, Ang mga argumento na naglalaman ng value na FALSE ay binibigyang-kahulugan bilang 0 (zero).

Ang ibig sabihin ng aritmetika ay kadalasang ginagamit, ngunit may mga pagkakataon na kailangan ang ibang uri ng mga average. Isaalang-alang pa natin ang mga ganitong kaso.

Average na harmonic

Harmonic na ibig sabihin para sa pagtukoy ng average na kabuuan ng mga reciprocals;

Average na harmonic ay ginagamit kapag ang orihinal na data ay hindi naglalaman ng mga frequency f para sa mga indibidwal na halaga ng X, ngunit ipinakita bilang kanilang produkto Xf. Ang pagtukoy ng Xf=w, ipinapahayag namin ang f=w/X, at pinapalitan ang mga pagtatalagang ito sa weighted arithmetic mean formula, nakuha namin ang weighted harmonic mean formula:

Kaya, ang harmonic weighted average ay ginagamit kapag ang mga frequency f ay hindi alam, ngunit w=Xf ay kilala. Sa mga kaso kung saan ang lahat ng w=1, iyon ay, ang mga indibidwal na halaga ng X ay nangyayari nang 1 beses, ang harmonic simple mean formula ay inilalapat: o Halimbawa, ang isang kotse ay naglalakbay mula sa punto A hanggang sa punto B sa bilis na 90 km/h at pabalik sa bilis na 110 km/h. Upang matukoy ang average na bilis, inilalapat namin ang maharmonya na simpleng formula, dahil ang halimbawa ay nagbibigay ng distansya w 1 \u003d w 2 (ang distansya mula sa punto A hanggang punto B ay pareho mula sa B hanggang A), na katumbas ng produkto ng bilis (X) at oras (f). Average na bilis = (1+1)/(1/90+1/110) = 99 km/h.

Pag-andar ng SRHARM

Ibinabalik ang harmonic mean ng set ng data. Ang harmonic mean ay ang reciprocal ng arithmetic mean ng reciprocals.

SGARM(number1, number2, ...)

Number1, number2, ... ay 1 hanggang 30 argumento kung saan kinakalkula ang average. Maaari kang gumamit ng array o array reference sa halip na mga argumentong pinaghihiwalay ng semicolon.

Ang harmonic mean ay palaging mas mababa kaysa sa geometric mean, na palaging mas mababa kaysa sa arithmetic mean.

Geometric ibig sabihin

Geometric na ibig sabihin para sa pagtatantya ng average na rate ng paglago ng mga random na variable, paghahanap ng halaga ng isang tampok na katumbas ng distansya mula sa minimum at maximum na mga halaga;

Geometric ibig sabihin ginagamit sa pagtukoy ng mga karaniwang pagbabago sa kamag-anak. Ang geometric mean na halaga ay nagbibigay ng pinakatumpak na resulta ng pag-average kung ang gawain ay upang mahanap ang ganoong halaga ng X, na magiging katumbas ng distansya mula sa parehong maximum at minimum na mga halaga ng X. Halimbawa, sa pagitan ng 2005 at 2008index ng inflation sa Russia ay: noong 2005 - 1.109; noong 2006 - 1,090; noong 2007 - 1,119; noong 2008 - 1,133. Dahil ang inflation index ay isang kamag-anak na pagbabago (dynamic na index), kailangan mong kalkulahin ang average na halaga gamit ang geometric mean: (1.109 * 1.090 * 1.119 * 1.133) ^ (1/4) = 1.1126, iyon ay, para sa panahon mula 2005 hanggang 2008 taun-taon ang mga presyo ay lumago sa average na 11.26%. Ang isang maling pagkalkula sa arithmetic mean ay magbibigay ng maling resulta na 11.28%.

SRGEOM function

Ibinabalik ang geometric na mean ng isang array o hanay ng mga positibong numero. Halimbawa, ang CAGEOM function ay maaaring gamitin upang kalkulahin ang average na rate ng paglago kung ang tambalang kita na may mga variable na rate ay ibinigay.

SRGEOM(number1; number2; ...)

Number1, number2, ... ay 1 hanggang 30 argumento kung saan kinakalkula ang geometric mean. Maaari kang gumamit ng array o array reference sa halip na mga argumentong pinaghihiwalay ng semicolon.

root ibig sabihin ng square

Ang root mean square ay ang paunang sandali ng pangalawang pagkakasunud-sunod.

root ibig sabihin ng square ay ginagamit kapag ang mga unang halaga ng X ay maaaring parehong positibo at negatibo, halimbawa, kapag kinakalkula ang mga average na paglihis. Ang pangunahing gamit ng quadratic mean ay upang sukatin ang pagkakaiba-iba sa mga halaga ng X.

Average na kubiko

Ang average na kubiko ay ang paunang sandali ng ikatlong pagkakasunud-sunod.

Average na kubiko ay bihirang ginagamit, halimbawa, kapag kinakalkula ang mga indeks ng kahirapan para sa mga umuunlad na bansa (HPI-1) at para sa mga mauunlad na bansa (HPI-2), na iminungkahi at kinakalkula ng UN.

Sa karamihan ng mga kaso, ang data ay puro sa ilang gitnang punto. Kaya, upang ilarawan ang anumang set ng data, sapat na upang ipahiwatig ang average na halaga. Isaalang-alang ang sunud-sunod na tatlong numerical na katangian na ginagamit upang tantyahin ang mean value ng distribution: arithmetic mean, median at mode.

Karaniwan

Ang arithmetic mean (kadalasang tinutukoy lamang bilang mean) ay ang pinakakaraniwang pagtatantya ng mean ng isang distribution. Ito ay resulta ng paghahati ng kabuuan ng lahat ng naobserbahang mga numerical na halaga sa kanilang numero. Para sa isang sample ng mga numero X 1, X 2, ..., Xn, ang sample na ibig sabihin (na tinutukoy ng simbolo ) katumbas \u003d (X 1 + X 2 + ... + Xn) / n, o

nasaan ang sample mean, n- laki ng sample, Xi– i-ika elemento ng sample.

Mag-download ng tala sa o format, mga halimbawa sa format

Isaalang-alang ang pagkalkula ng arithmetic average ng limang taong average na taunang pagbabalik ng 15 napakataas na panganib na mutual funds (Figure 1).

kanin. 1. Average na taunang kita sa 15 napakataas na panganib na mutual fund

Ang sample mean ay kinakalkula tulad ng sumusunod:

Ito ay isang magandang kita, lalo na kung ihahambing sa 3-4% na kita na natanggap ng mga depositor sa bangko o credit union sa parehong yugto ng panahon. Kung pag-uuri-uriin mo ang mga halaga ng pagbabalik, madaling makita na ang walong pondo ay may return sa itaas, at pito - mas mababa sa average. Ang ibig sabihin ng arithmetic ay gumaganap bilang isang punto ng balanse, upang ang mga pondong may mababang kita ay balansehin ang mga pondong may mataas na kita. Ang lahat ng mga elemento ng sample ay kasangkot sa pagkalkula ng average. Wala sa iba pang mga estimator ng ibig sabihin ng pamamahagi ang may ganitong katangian.

Kailan kalkulahin ang ibig sabihin ng aritmetika. Dahil ang ibig sabihin ng aritmetika ay nakasalalay sa lahat ng mga elemento ng sample, ang pagkakaroon ng mga matinding halaga ay makabuluhang nakakaapekto sa resulta. Sa ganitong mga sitwasyon, maaaring i-distort ng arithmetic mean ang kahulugan ng numerical data. Samakatuwid, kapag naglalarawan ng set ng data na naglalaman ng matinding mga halaga, kinakailangang isaad ang median o ang arithmetic mean at ang median. Halimbawa, kung ang pagbabalik ng RS Emerging Growth fund ay aalisin sa sample, ang sample average ng return ng 14 na pondo ay bababa ng halos 1% hanggang 5.19%.

Median

Ang median ay ang gitnang halaga ng isang nakaayos na hanay ng mga numero. Kung ang array ay hindi naglalaman ng mga umuulit na numero, ang kalahati ng mga elemento nito ay magiging mas mababa sa at kalahating higit sa median. Kung ang sample ay naglalaman ng matinding halaga, mas mabuting gamitin ang median kaysa sa arithmetic mean upang tantyahin ang mean. Upang kalkulahin ang median ng isang sample, dapat muna itong pagbukud-bukurin.

Ang formula na ito ay malabo. Ang resulta nito ay depende sa kung ang numero ay pantay o kakaiba. n:

  • Kung ang sample ay naglalaman ng isang kakaibang bilang ng mga item, ang median ay (n+1)/2-ika elemento.
  • Kung ang sample ay naglalaman ng pantay na bilang ng mga elemento, ang median ay nasa pagitan ng dalawang gitnang elemento ng sample at katumbas ng arithmetic mean na kinakalkula sa dalawang elementong ito.

Upang kalkulahin ang median para sa isang sample ng 15 napakataas na panganib na mutual funds, kailangan muna nating ayusin ang raw data (Figure 2). Pagkatapos ang median ay magiging kabaligtaran ng bilang ng gitnang elemento ng sample; sa aming halimbawa bilang 8. Ang Excel ay may espesyal na function =MEDIAN() na gumagana din sa mga hindi nakaayos na array.

kanin. 2. Median 15 na pondo

Kaya, ang median ay 6.5. Nangangahulugan ito na ang kalahati ng napakataas na panganib na mga pondo ay hindi lalampas sa 6.5, habang ang iba pang kalahati ay ginagawa ito. Tandaan na ang median ng 6.5 ay bahagyang mas malaki kaysa sa median ng 6.08.

Kung aalisin natin ang kakayahang kumita ng pondo ng RS Emerging Growth mula sa sample, ang median ng natitirang 14 na pondo ay bababa sa 6.2%, iyon ay, hindi kasing-kahulugan ng arithmetic mean (Fig. 3).

kanin. 3. Median 14 na pondo

Fashion

Ang termino ay unang ipinakilala ni Pearson noong 1894. Ang fashion ay ang bilang na madalas na nangyayari sa sample (ang pinaka-sunod sa moda). Ang fashion ay mahusay na naglalarawan, halimbawa, ang tipikal na reaksyon ng mga driver sa isang signal ng trapiko upang ihinto ang trapiko. Ang isang klasikong halimbawa ng paggamit ng fashion ay ang pagpili ng laki ng ginawang batch ng sapatos o ang kulay ng wallpaper. Kung ang isang pamamahagi ay may maraming mga mode, kung gayon ito ay sinasabing multimodal o multimodal (may dalawa o higit pang "mga taluktok"). Ang multimodal distribution ay nagbibigay ng mahalagang impormasyon tungkol sa katangian ng variable na pinag-aaralan. Halimbawa, sa mga sociological survey, kung ang isang variable ay kumakatawan sa isang kagustuhan o saloobin sa isang bagay, kung gayon ang multimodality ay maaaring mangahulugan na mayroong ilang mga natatanging opinyon. Ang multimodality ay isa ring tagapagpahiwatig na ang sample ay hindi homogenous at ang mga obserbasyon ay maaaring mabuo ng dalawa o higit pang "nagpatong" na mga distribusyon. Hindi tulad ng arithmetic mean, ang mga outlier ay hindi nakakaapekto sa mode. Para sa patuloy na ipinamahagi na mga random na variable, tulad ng average na taunang pagbabalik ng mutual funds, ang mode ay minsan ay hindi umiiral sa lahat (o walang kahulugan). Dahil ang mga tagapagpahiwatig na ito ay maaaring tumagal sa iba't ibang mga halaga, ang mga paulit-ulit na halaga ay napakabihirang.

Quartiles

Ang mga quartile ay mga sukat na pinakakaraniwang ginagamit upang suriin ang pamamahagi ng data kapag naglalarawan ng mga katangian ng malalaking numerong sample. Habang hinahati ng median ang nakaayos na array sa kalahati (50% ng mga elemento ng array ay mas mababa sa median at 50% ang mas malaki), hinahati ng quartile ang nakaayos na dataset sa apat na bahagi. Ang mga halaga ng Q 1, median at Q 3 ay ang ika-25, ika-50 at ika-75 na porsyento, ayon sa pagkakabanggit. Ang unang quartile Q 1 ay isang numero na naghahati sa sample sa dalawang bahagi: 25% ng mga elemento ay mas mababa sa, at 75% ay higit pa sa unang quartile.

Ang ikatlong quartile Q 3 ay isang numero na naghahati din sa sample sa dalawang bahagi: 75% ng mga elemento ay mas mababa sa, at 25% ay higit pa sa ikatlong quartile.

Upang kalkulahin ang mga quartile sa mga bersyon ng Excel bago ang 2007, ginamit ang function na =QUARTILE(array, part). Simula sa Excel 2010, dalawang function ang nalalapat:

  • =QUARTILE.ON(array, bahagi)
  • =QUARTILE.EXC(array, bahagi)

Ang dalawang pag-andar na ito ay nagbibigay ng bahagyang magkakaibang mga halaga (Larawan 4). Halimbawa, kapag kinakalkula ang mga quartile para sa isang sample na naglalaman ng data sa average na taunang pagbabalik ng 15 napakataas na panganib na mutual fund, Q 1 = 1.8 o -0.7 para sa QUARTILE.INC at QUARTILE.EXC, ayon sa pagkakabanggit. Siyanga pala, ang QUARTILE function na ginamit kanina ay tumutugma sa modernong QUARTILE.ON function. Upang kalkulahin ang mga quartile sa Excel gamit ang mga formula sa itaas, maaaring iwanang hindi nakaayos ang array ng data.

kanin. 4. Kalkulahin ang mga quartile sa Excel

Muli nating bigyang-diin. Maaaring kalkulahin ng Excel ang mga quartile para sa univariate discrete na serye, na naglalaman ng mga halaga ng isang random na variable. Ang pagkalkula ng mga quartile para sa isang frequency-based distribution ay ibinibigay sa seksyon sa ibaba.

geometric na ibig sabihin

Hindi tulad ng arithmetic mean, sinusukat ng geometric mean kung gaano kalaki ang nabago ng isang variable sa paglipas ng panahon. Ang geometric na ibig sabihin ay ang ugat n ika degree mula sa produkto n mga halaga (sa Excel, ang function = CUGEOM ay ginagamit):

G= (X 1 * X 2 * ... * X n) 1/n

Ang isang katulad na parameter - ang geometric na ibig sabihin ng rate ng pagbabalik - ay tinutukoy ng formula:

G \u003d [(1 + R 1) * (1 + R 2) * ... * (1 + R n)] 1 / n - 1,

saan R i- rate ng pagbabalik i-ika tagal ng panahon.

Halimbawa, ipagpalagay na ang paunang pamumuhunan ay $100,000. Sa pagtatapos ng unang taon, ito ay bumaba sa $50,000, at sa pagtatapos ng ikalawang taon, ito ay bumabawi sa orihinal na $100,000. Ang rate ng pagbabalik sa pamumuhunan na ito sa loob ng dalawang- Ang panahon ng taon ay katumbas ng 0, dahil ang una at huling halaga ng mga pondo ay katumbas ng bawat isa. Gayunpaman, ang arithmetic average ng taunang rate ng return ay = (-0.5 + 1) / 2 = 0.25 o 25%, dahil ang rate ng return sa unang taon R 1 = (50,000 - 100,000) / 100,000 = -0.5 , at sa pangalawang R 2 = (100,000 - 50,000) / 50,000 = 1. Kasabay nito, ang geometric na mean ng rate ng return para sa dalawang taon ay: G = [(1–0.5) * (1 + 1 )] 1 /2 – 1 = ½ – 1 = 1 – 1 = 0. Kaya, mas tumpak na sinasalamin ng geometric mean ang pagbabago (mas tiyak, ang kawalan ng pagbabago) sa dami ng mga pamumuhunan sa loob ng biennium kaysa sa arithmetic mean.

Interesanteng kaalaman. Una, ang geometric mean ay palaging magiging mas mababa kaysa sa arithmetic mean ng parehong mga numero. Maliban sa kaso kapag ang lahat ng kinuhang numero ay pantay sa isa't isa. Pangalawa, na isinasaalang-alang ang mga katangian ng isang tamang tatsulok, mauunawaan ng isa kung bakit ang ibig sabihin ay tinatawag na geometric. Ang taas ng isang right-angled triangle, na ibinaba sa hypotenuse, ay ang average na proporsyonal sa pagitan ng mga projection ng mga binti sa hypotenuse, at ang bawat binti ay ang average na proporsyonal sa pagitan ng hypotenuse at projection nito sa hypotenuse (Fig. 5). Nagbibigay ito ng geometric na paraan ng pagbuo ng geometric na ibig sabihin ng dalawang (haba) na mga segment: kailangan mong bumuo ng isang bilog sa kabuuan ng dalawang segment na ito bilang diameter, pagkatapos ay ang taas, na naibalik mula sa punto ng kanilang koneksyon sa intersection sa bilog, ay magbibigay ng nais na halaga:

kanin. 5. Ang geometric na katangian ng geometric mean (figure mula sa Wikipedia)

Ang pangalawang mahalagang katangian ng numerical data ay ang kanilang pagkakaiba-iba pagkilala sa antas ng pagpapakalat ng data. Maaaring magkaiba ang dalawang magkaibang sample sa parehong halaga at sa mga pagkakaiba-iba. Gayunpaman, tulad ng ipinapakita sa fig. 6 at 7, maaaring magkaroon ng parehong variation ang dalawang sample ngunit magkaibang paraan, o parehong mean at ganap na magkaibang variation. Ang data na naaayon sa polygon B sa Fig. 7 ay mas mababa kaysa sa data kung saan binuo ang polygon A.

kanin. 6. Dalawang simetriko na hugis ng kampanilya na distribusyon na may parehong spread at magkaibang mga halaga ng mean

kanin. 7. Dalawang simetriko na hugis ng kampanilya na mga distribusyon na may parehong mga halaga at magkaibang scatter

Mayroong limang mga pagtatantya ng pagkakaiba-iba ng data:

  • span,
  • interquartile range,
  • pagpapakalat,
  • karaniwang lihis,
  • ang koepisyent ng pagkakaiba-iba.

saklaw

Ang hanay ay ang pagkakaiba sa pagitan ng pinakamalaki at pinakamaliit na elemento ng sample:

Mag-swipe = XMax-XMin

Ang hanay ng sample na naglalaman ng data sa average na taunang pagbabalik ng 15 napakataas na panganib na mutual funds ay maaaring kalkulahin gamit ang isang ordered array (tingnan ang Figure 4): range = 18.5 - (-6.1) = 24.6. Nangangahulugan ito na ang pagkakaiba sa pagitan ng pinakamataas at pinakamababang average na taunang pagbabalik para sa napakataas na panganib na mga pondo ay 24.6%.

Sinusukat ng hanay ang pangkalahatang pagkalat ng data. Bagama't ang hanay ng sample ay isang napakasimpleng pagtatantya ng kabuuang pagkalat ng data, ang kahinaan nito ay hindi nito eksaktong isinasaalang-alang kung paano ipinamamahagi ang data sa pagitan ng pinakamababa at pinakamataas na elemento. Ang epektong ito ay mahusay na nakikita sa Fig. 8 na naglalarawan ng mga sample na may parehong saklaw. Ipinapakita ng B scale na kung ang sample ay naglalaman ng hindi bababa sa isang extreme value, ang sample range ay isang napaka hindi tumpak na pagtatantya ng scatter ng data.

kanin. 8. Paghahambing ng tatlong sample na may parehong hanay; ang tatsulok ay sumisimbolo sa suporta ng balanse, at ang lokasyon nito ay tumutugma sa average na halaga ng sample

Interquartile range

Ang interquartile, o mean, range ay ang pagkakaiba sa pagitan ng ikatlo at unang quartile ng sample:

Interquartile range \u003d Q 3 - Q 1

Ginagawang posible ng halagang ito na tantyahin ang pagkalat ng 50% ng mga elemento at hindi isinasaalang-alang ang impluwensya ng mga matinding elemento. Ang interquartile range para sa isang sample na naglalaman ng data sa average na taunang pagbabalik ng 15 napakataas na panganib na mutual fund ay maaaring kalkulahin gamit ang data sa Figure 2. 4 (halimbawa, para sa function na QUARTILE.EXC): Interquartile range = 9.8 - (-0.7) = 10.5. Ang pagitan sa pagitan ng 9.8 at -0.7 ay madalas na tinutukoy bilang gitnang kalahati.

Dapat pansinin na ang mga halaga ng Q 1 at Q 3, at samakatuwid ang hanay ng interquartile, ay hindi nakasalalay sa pagkakaroon ng mga outlier, dahil ang kanilang pagkalkula ay hindi isinasaalang-alang ang anumang halaga na mas mababa sa Q 1 o mas malaki kaysa sa Q 3 . Ang kabuuang quantitative na mga katangian, tulad ng median, ang una at ikatlong quartile, at ang interquartile range, na hindi apektado ng mga outlier, ay tinatawag na matatag na tagapagpahiwatig.

Habang ang range at interquartile range ay nagbibigay ng pagtatantya ng kabuuan at mean scatter ng sample, ayon sa pagkakabanggit, alinman sa mga pagtatantyang ito ay hindi eksaktong isinasaalang-alang kung paano ipinamamahagi ang data. Pagkakaiba at karaniwang paglihis malaya sa pagkukulang na ito. Nagbibigay-daan sa iyo ang mga indicator na ito na masuri ang antas ng pagbabagu-bago ng data sa paligid ng mean. Sample na pagkakaiba-iba ay isang approximation ng arithmetic mean na kinakalkula mula sa mga squared differences sa pagitan ng bawat sample na elemento at ng sample mean. Para sa isang sample ng X 1 , X 2 , ... X n ang sample na variance (na tinutukoy ng simbolo na S 2 ay ibinibigay ng sumusunod na formula:

Sa pangkalahatan, ang sample na variance ay ang kabuuan ng mga squared na pagkakaiba sa pagitan ng mga sample na elemento at ng sample mean, na hinati sa isang value na katumbas ng sample size na binawasan ng isa:

saan - ibig sabihin ng aritmetika, n- laki ng sample, X i - i-ika-sample na elemento X. Sa Excel bago ang bersyon 2007, ang function na =VAR() ay ginamit upang kalkulahin ang sample na variance, dahil ang bersyon 2010, ang function na =VAR.V() ay ginagamit.

Ang pinakapraktikal at malawak na tinatanggap na pagtatantya ng data scatter ay karaniwang lihis. Ang tagapagpahiwatig na ito ay tinutukoy ng simbolong S at katumbas ng square root ng sample variance:

Sa Excel bago ang bersyon 2007, ang =STDEV() function ay ginamit upang kalkulahin ang standard deviation, mula sa bersyon 2010 ang =STDEV.B() function ay ginagamit. Upang kalkulahin ang mga function na ito, ang data array ay maaaring unordered.

Hindi maaaring negatibo ang sample na variance o ang sample na standard deviation. Ang tanging sitwasyon kung saan ang mga tagapagpahiwatig na S 2 at S ay maaaring maging zero ay kung ang lahat ng mga elemento ng sample ay pantay. Sa ganitong ganap na hindi malamang kaso, ang hanay at interquartile range ay zero din.

Ang numeric na data ay likas na pabagu-bago. Ang anumang variable ay maaaring tumagal sa maraming iba't ibang mga halaga. Halimbawa, ang iba't ibang mutual fund ay may iba't ibang rate ng return at loss. Dahil sa pagkakaiba-iba ng numerical na data, napakahalagang pag-aralan hindi lamang ang mga pagtatantya ng mean, na likas na summative, kundi pati na rin ang mga pagtatantya ng pagkakaiba, na nagpapakilala sa scatter ng data.

Ang pagkakaiba at karaniwang paglihis ay nagbibigay-daan sa amin na tantyahin ang pagkalat ng data sa paligid ng mean, sa madaling salita, upang matukoy kung gaano karaming mga elemento ng sample ang mas mababa sa mean, at kung gaano karami ang mas malaki. Ang dispersion ay may ilang mahahalagang katangian ng matematika. Gayunpaman, ang halaga nito ay ang parisukat ng isang yunit ng sukat - isang parisukat na porsyento, isang parisukat na dolyar, isang parisukat na pulgada, atbp. Samakatuwid, ang natural na pagtatantya ng pagkakaiba ay ang karaniwang paglihis, na ipinahayag sa karaniwang mga yunit ng pagsukat - porsyento ng kita, dolyar o pulgada.

Binibigyang-daan ka ng karaniwang paglihis na matantya ang dami ng pagbabagu-bago ng mga sample na elemento sa paligid ng mean na halaga. Sa halos lahat ng mga sitwasyon, ang karamihan sa mga naobserbahang halaga ay nasa loob ng plus o minus isang karaniwang paglihis mula sa mean. Samakatuwid, ang pag-alam sa arithmetic mean ng mga elemento ng sample at ang karaniwang sample deviation, posibleng matukoy ang agwat kung saan nabibilang ang bulk ng data.

Ang standard deviation ng returns sa 15 very high-risk mutual funds ay 6.6 (Figure 9). Nangangahulugan ito na ang kakayahang kumita ng karamihan ng mga pondo ay naiiba sa average na halaga ng hindi hihigit sa 6.6% (ibig sabihin, nagbabago ito sa hanay mula sa – S= 6.2 – 6.6 = –0.4 hanggang +S= 12.8). Sa katunayan, ang agwat na ito ay naglalaman ng limang taong average na taunang pagbabalik na 53.3% (8 sa 15) ng mga pondo.

kanin. 9. Pamantayang paglihis

Tandaan na sa proseso ng pagbubuod ng mga squared differences, ang mga item na mas malayo sa mean ay tumataas ng mas maraming timbang kaysa sa mga item na mas malapit. Ang ari-arian na ito ang pangunahing dahilan kung bakit ang arithmetic mean ay kadalasang ginagamit upang tantiyahin ang mean ng isang distribution.

Ang koepisyent ng pagkakaiba-iba

Hindi tulad ng mga nakaraang pagtatantya ng scatter, ang koepisyent ng variation ay isang relatibong pagtatantya. Ito ay palaging sinusukat bilang isang porsyento, hindi sa orihinal na mga yunit ng data. Ang koepisyent ng variation, na tinutukoy ng mga simbolo na CV, ay sumusukat sa scatter ng data sa paligid ng mean. Ang coefficient ng variation ay katumbas ng standard deviation na hinati sa arithmetic mean at pinarami ng 100%:

saan S- karaniwang sample deviation, - sample ibig sabihin.

Ang koepisyent ng pagkakaiba-iba ay nagbibigay-daan sa iyo upang ihambing ang dalawang mga sample, ang mga elemento na kung saan ay ipinahayag sa iba't ibang mga yunit ng pagsukat. Halimbawa, ang manager ng isang mail delivery service ay naglalayon na i-upgrade ang fleet ng mga trak. Kapag naglo-load ng mga pakete, mayroong dalawang uri ng mga paghihigpit na dapat isaalang-alang: ang timbang (sa pounds) at ang volume (sa kubiko talampakan) ng bawat pakete. Ipagpalagay na sa isang sample ng 200 bag, ang average na timbang ay 26.0 pounds, ang standard deviation ng weight ay 3.9 pounds, ang average na volume ng package ay 8.8 cubic feet, at ang standard deviation ng volume ay 2.2 cubic feet. Paano ihambing ang pagkalat ng timbang at dami ng mga pakete?

Dahil magkaiba ang mga unit ng timbang at volume, dapat ihambing ng manager ang relatibong pagkalat ng mga halagang ito. Ang koepisyent ng variation ng timbang ay CV W = 3.9 / 26.0 * 100% = 15%, at ang volume variation coefficient CV V = 2.2 / 8.8 * 100% = 25% . Kaya, ang relatibong scatter ng mga volume ng packet ay mas malaki kaysa sa relatibong scatter ng kanilang mga timbang.

Form ng pamamahagi

Ang ikatlong mahalagang katangian ng sample ay ang anyo ng pamamahagi nito. Ang distribusyon na ito ay maaaring simetriko o asymmetric. Upang ilarawan ang hugis ng isang distribusyon, kinakailangang kalkulahin ang mean at median nito. Kung magkapareho ang dalawang sukat na ito, ang variable ay sinasabing simetrikal na distributed. Kung ang mean value ng isang variable ay mas malaki kaysa sa median, ang distribution nito ay may positibong skewness (Fig. 10). Kung ang median ay mas malaki kaysa sa mean, ang distribusyon ng variable ay negatibong skewed. Ang positibong skewness ay nangyayari kapag ang average ay tumaas sa hindi karaniwang mataas na mga halaga. Ang negatibong skewness ay nangyayari kapag ang average ay bumaba sa hindi karaniwang maliliit na halaga. Ang isang variable ay simetriko na ibinahagi kung hindi ito kumukuha ng anumang matinding halaga sa alinmang direksyon, upang ang malaki at maliit na mga halaga ng variable ay kanselahin ang isa't isa.

kanin. 10. Tatlong uri ng distribusyon

Ang data na inilalarawan sa A scale ay may negatibong skewness. Ang figure na ito ay nagpapakita ng mahabang buntot at kaliwang skew na dulot ng hindi karaniwang maliliit na halaga. Ang napakaliit na halagang ito ay inililipat ang mean value sa kaliwa, at ito ay nagiging mas mababa kaysa sa median. Ang data na ipinapakita sa scale B ay ibinahagi nang simetriko. Ang kaliwa at kanang bahagi ng pamamahagi ay ang kanilang mga mirror na imahe. Ang malaki at maliit na halaga ay nagbabalanse sa isa't isa, at ang mean at median ay pantay. Ang data na ipinapakita sa scale B ay may positibong skewness. Ang figure na ito ay nagpapakita ng isang mahabang buntot at skew sa kanan, sanhi ng pagkakaroon ng hindi karaniwang mataas na mga halaga. Ang mga masyadong malalaking halaga ay inililipat ang mean sa kanan, at ito ay nagiging mas malaki kaysa sa median.

Sa Excel, ang mga deskriptibong istatistika ay maaaring makuha gamit ang add-in Pakete ng pagsusuri. Dumaan sa menu DataPagsusuri sa datos, sa window na bubukas, piliin ang linya Deskriptibong istatistika at i-click Ok. Sa bintana Deskriptibong istatistika siguraduhing ipahiwatig pagitan ng input(Larawan 11). Kung gusto mong makakita ng mga mapaglarawang istatistika sa parehong sheet ng orihinal na data, piliin ang radio button pagitan ng output at tukuyin ang cell kung saan mo gustong ilagay ang kaliwang sulok sa itaas ng mga ipinapakitang istatistika (sa aming halimbawa, $C$1). Kung gusto mong mag-output ng data sa isang bagong sheet o sa isang bagong workbook, piliin lamang ang naaangkop na radio button. Lagyan ng check ang kahon sa tabi Panghuling istatistika. Opsyonal, maaari ka ring pumili Antas ng kahirapan,k-ika pinakamaliit atk-th pinakamalaki.

Kung sa deposito Data sa lugar Pagsusuri hindi mo nakikita ang icon Pagsusuri sa datos, kailangan mo munang i-install ang add-on Pakete ng pagsusuri(tingnan, halimbawa,).

kanin. 11. Mga deskriptibong istatistika ng limang taong average na taunang pagbabalik ng mga pondo na may napakataas na antas ng panganib, na kinakalkula gamit ang add-on Pagsusuri sa datos Mga programang Excel

Kinakalkula ng Excel ang isang bilang ng mga istatistika na tinalakay sa itaas: mean, median, mode, standard deviation, variance, range ( pagitan), minimum, maximum, at laki ng sample ( suriin). Bilang karagdagan, kinakalkula ng Excel ang ilang bagong istatistika para sa amin: karaniwang error, kurtosis, at skewness. karaniwang error katumbas ng standard deviation na hinati sa square root ng sample size. Kawalaan ng simetrya nailalarawan ang paglihis mula sa simetrya ng distribusyon at isang function na nakasalalay sa kubo ng mga pagkakaiba sa pagitan ng mga elemento ng sample at ang ibig sabihin ng halaga. Ang kurtosis ay isang sukat ng relatibong konsentrasyon ng data sa paligid ng mean kumpara sa mga buntot ng distribusyon, at depende sa mga pagkakaiba sa pagitan ng sample at ang mean na itinaas sa ikaapat na kapangyarihan.

Pagkalkula ng mga deskriptibong istatistika para sa pangkalahatang populasyon

Ang mean, scatter, at hugis ng distribution na tinalakay sa itaas ay sample-based na mga katangian. Gayunpaman, kung naglalaman ang dataset ng mga numerical na sukat ng buong populasyon, maaaring kalkulahin ang mga parameter nito. Kasama sa mga parameter na ito ang mean, variance, at standard deviation ng populasyon.

Inaasahang halaga ay katumbas ng kabuuan ng lahat ng mga halaga ng pangkalahatang populasyon na hinati sa dami ng pangkalahatang populasyon:

saan µ - inaasahang halaga, Xi- i-ika variable na pagmamasid X, N- ang dami ng pangkalahatang populasyon. Sa Excel, para kalkulahin ang mathematical na inaasahan, ang parehong function ay ginagamit para sa arithmetic mean: =AVERAGE().

Pagkakaiba-iba ng populasyon katumbas ng kabuuan ng mga parisukat na pagkakaiba sa pagitan ng mga elemento ng pangkalahatang populasyon at banig. inaasahan na hinati sa laki ng populasyon:

saan σ2 ay ang pagkakaiba-iba ng pangkalahatang populasyon. Ginagamit ng Excel bago ang bersyon 2007 ang function na =VAR() upang kalkulahin ang pagkakaiba-iba ng populasyon, simula sa bersyon 2010 =VAR.G().

pamantayang paglihis ng populasyon ay katumbas ng square root ng pagkakaiba-iba ng populasyon:

Bago ang Excel 2007, ginamit ang function na =SDV() upang kalkulahin ang standard deviation ng populasyon, mula sa bersyon 2010 =SDV.Y(). Tandaan na ang mga formula para sa pagkakaiba-iba ng populasyon at karaniwang paglihis ay iba sa mga formula para sa sample na pagkakaiba-iba at karaniwang paglihis. Kapag kinakalkula ang mga istatistika ng sample S2 at S ang denominator ng fraction ay n - 1, at kapag kinakalkula ang mga parameter σ2 at σ - ang dami ng pangkalahatang populasyon N.

pamantayan

Sa karamihan ng mga sitwasyon, ang isang malaking proporsyon ng mga obserbasyon ay puro sa paligid ng median, na bumubuo ng isang kumpol. Sa mga set ng data na may positibong skewness, ang cluster na ito ay matatagpuan sa kaliwa (ibig sabihin, sa ibaba) ang mathematical na inaasahan, at sa mga set na may negatibong skewness, ang cluster na ito ay matatagpuan sa kanan (i.e., sa itaas) ng mathematical na inaasahan. Ang simetriko na data ay may parehong mean at median, at ang mga obserbasyon ay nagkumpol-kumpol sa paligid ng mean, na bumubuo ng isang distribusyon na hugis kampana. Kung ang distribusyon ay walang binibigkas na skewness, at ang data ay puro sa paligid ng isang tiyak na sentro ng grabidad, ang isang tuntunin ng hinlalaki ay maaaring gamitin upang tantiyahin ang pagkakaiba-iba, na nagsasabing: kung ang data ay may hugis ng kampana na pamamahagi, pagkatapos ay humigit-kumulang 68% ng mga obserbasyon ay nasa loob ng isang standard deviation ng mathematical expectation, Humigit-kumulang 95% ng mga obserbasyon ay nasa loob ng dalawang standard deviations ng inaasahang value, at 99.7% ng mga obserbasyon ay nasa loob ng tatlong standard deviations ng inaasahang value.

Kaya, ang standard deviation, na isang pagtatantya ng average na pagbabagu-bago sa paligid ng matematikal na inaasahan, ay nakakatulong upang maunawaan kung paano ipinamamahagi ang mga obserbasyon at upang matukoy ang mga outlier. Sumusunod ito mula sa panuntunan ng hinlalaki na para sa mga distribusyon na hugis kampana, isang halaga lamang sa dalawampu ang naiiba sa inaasahan sa matematika sa pamamagitan ng higit sa dalawang karaniwang paglihis. Samakatuwid, ang mga halaga sa labas ng pagitan µ ± 2σ, ay maaaring ituring na mga outlier. Bilang karagdagan, tatlo lamang sa 1000 na obserbasyon ang naiiba sa inaasahan sa matematika sa pamamagitan ng higit sa tatlong karaniwang paglihis. Kaya, ang mga halaga sa labas ng pagitan µ ± 3σ ay halos palaging outlier. Para sa mga distribusyon na mataas ang baluktot o hindi hugis ng kampana, maaaring ilapat ang panuntunan ng Biename-Chebyshev.

Mahigit isang daang taon na ang nakalilipas, ang mga mathematician na sina Bienamay at Chebyshev ay nakapag-iisa na natuklasan ang isang kapaki-pakinabang na katangian ng standard deviation. Nalaman nila na para sa anumang set ng data, anuman ang hugis ng pamamahagi, ang porsyento ng mga obserbasyon na nasa layong hindi lalampas k standard deviations mula sa matematikal na inaasahan, hindi mas mababa (1 – 1/ 2)*100%.

Halimbawa, kung k= 2, ang tuntunin ng Biename-Chebyshev ay nagsasaad na hindi bababa sa (1 - (1/2) 2) x 100% = 75% ng mga obserbasyon ay dapat nasa pagitan µ ± 2σ. Ang panuntunang ito ay totoo para sa alinman k lampas sa isa. Ang panuntunan ng Biename-Chebyshev ay napaka-pangkalahatan at wasto para sa mga pamamahagi ng anumang uri. Ipinapahiwatig nito ang pinakamababang bilang ng mga obserbasyon, ang distansya mula sa kung saan sa inaasahan sa matematika ay hindi lalampas sa isang naibigay na halaga. Gayunpaman, kung hugis kampana ang pamamahagi, mas tumpak na tinatantya ng panuntunan ng hinlalaki ang konsentrasyon ng data sa paligid ng mean.

Pag-compute ng mga mapaglarawang istatistika para sa isang frequency-based distribution

Kung ang orihinal na data ay hindi magagamit, ang pamamahagi ng dalas ay magiging tanging mapagkukunan ng impormasyon. Sa ganitong mga sitwasyon, posible na kalkulahin ang tinatayang mga halaga ng mga tagapagpahiwatig ng dami ng pamamahagi, tulad ng arithmetic mean, standard deviation, quartiles.

Kung ang sample na data ay ipinakita bilang isang frequency distribution, ang isang tinatayang halaga ng arithmetic mean ay maaaring kalkulahin, sa pag-aakalang ang lahat ng mga halaga sa loob ng bawat klase ay puro sa gitnang punto ng klase:

saan - sample ibig sabihin, n- bilang ng mga obserbasyon, o laki ng sample, kasama- ang bilang ng mga klase sa pamamahagi ng dalas, mj- gitnang punto j-ika-klase, fj- dalas na naaayon sa j-ika-klase.

Upang makalkula ang karaniwang paglihis mula sa pamamahagi ng dalas, ipinapalagay din na ang lahat ng mga halaga sa loob ng bawat klase ay puro sa gitnang punto ng klase.

Upang maunawaan kung paano tinutukoy ang mga quartile ng serye batay sa mga frequency, isaalang-alang natin ang pagkalkula ng mas mababang quartile batay sa data para sa 2013 sa pamamahagi ng populasyon ng Russia sa pamamagitan ng average na per capita cash na kita (Fig. 12).

kanin. 12. Ang bahagi ng populasyon ng Russia na may per capita monetary income sa average bawat buwan, rubles

Upang kalkulahin ang unang quartile ng serye ng pagkakaiba-iba ng pagitan, maaari mong gamitin ang formula:

kung saan ang Q1 ay ang halaga ng unang quartile, ang xQ1 ay ang mas mababang limitasyon ng agwat na naglalaman ng unang quartile (ang pagitan ay tinutukoy ng naipon na dalas, ang unang lumalagpas sa 25%); i ay ang halaga ng pagitan; Ang Σf ay ang kabuuan ng mga frequency ng buong sample; malamang na palaging katumbas ng 100%; Ang SQ1–1 ay ang pinagsama-samang dalas ng pagitan bago ang pagitan na naglalaman ng mas mababang quartile; Ang fQ1 ay ang dalas ng pagitan na naglalaman ng mas mababang quartile. Ang formula para sa ikatlong quartile ay naiiba sa na sa lahat ng mga lugar, sa halip na Q1, kailangan mong gamitin ang Q3, at palitan ang ¾ sa halip na ¼.

Sa aming halimbawa (Larawan 12), ang mas mababang quartile ay nasa hanay na 7000.1 - 10,000, ang pinagsama-samang dalas na kung saan ay 26.4%. Ang mas mababang limitasyon ng agwat na ito ay 7000 rubles, ang halaga ng agwat ay 3000 rubles, ang naipon na dalas ng agwat bago ang agwat na naglalaman ng mas mababang quartile ay 13.4%, ang dalas ng agwat na naglalaman ng mas mababang quartile ay 13.0%. Kaya: Q1 \u003d 7000 + 3000 * (¼ * 100 - 13.4) / 13 \u003d 9677 rubles.

Mga pitfalls na nauugnay sa mga mapaglarawang istatistika

Sa talang ito, tiningnan namin kung paano ilarawan ang isang set ng data gamit ang iba't ibang istatistika na tinatantya ang mean, scatter, at distribusyon nito. Ang susunod na hakbang ay pag-aralan at bigyang-kahulugan ang data. Sa ngayon, pinag-aralan natin ang mga layunin na katangian ng data, at ngayon ay bumaling tayo sa kanilang pansariling interpretasyon. Dalawang pagkakamali ang naghihintay para sa mananaliksik: isang maling napiling paksa ng pagsusuri at isang maling interpretasyon ng mga resulta.

Ang pagsusuri sa pagganap ng 15 napakataas na panganib na mutual fund ay medyo walang kinikilingan. Humantong siya sa ganap na layunin na mga konklusyon: lahat ng mutual funds ay may iba't ibang return, ang spread ng fund returns ay mula -6.1 hanggang 18.5, at ang average na return ay 6.08. Ang pagiging objectivity ng pagsusuri ng data ay tinitiyak ng tamang pagpili ng kabuuang dami ng mga tagapagpahiwatig ng pamamahagi. Ang ilang mga pamamaraan para sa pagtantya ng ibig sabihin at scatter ng data ay isinasaalang-alang, at ang kanilang mga pakinabang at disadvantages ay ipinahiwatig. Paano pumili ng tamang mga istatistika na nagbibigay ng layunin at walang pinapanigan na pagsusuri? Kung bahagyang baluktot ang distribusyon ng data, dapat bang piliin ang median kaysa sa arithmetic mean? Aling indicator ang mas tumpak na nagpapakilala sa pagkalat ng data: standard deviation o range? Dapat bang ipahiwatig ang positibong skewness ng pamamahagi?

Sa kabilang banda, ang interpretasyon ng data ay isang subjective na proseso. Iba't ibang mga tao ang dumating sa iba't ibang mga konklusyon, na binibigyang kahulugan ang parehong mga resulta. Ang bawat isa ay may kanya-kanyang pananaw. Itinuturing ng isang tao na mabuti ang kabuuang average na taunang pagbabalik ng 15 na pondo na may napakataas na antas ng panganib at lubos na nasisiyahan sa natanggap na kita. Maaaring isipin ng iba na ang mga pondong ito ay masyadong mababa ang kita. Kaya, ang pagiging subject ay dapat mabayaran ng katapatan, neutralidad at kalinawan ng mga konklusyon.

Mga Isyung Etikal

Ang pagsusuri ng data ay hindi mapaghihiwalay na nauugnay sa mga isyung etikal. Dapat maging mapanuri sa impormasyong ipinapalaganap ng mga pahayagan, radyo, telebisyon at Internet. Sa paglipas ng panahon, matututo kang maging may pag-aalinlangan hindi lamang tungkol sa mga resulta, kundi pati na rin sa mga layunin, paksa at objectivity ng pananaliksik. Pinakamahusay na sinabi ng tanyag na politiko sa Britanya na si Benjamin Disraeli: "May tatlong uri ng kasinungalingan: kasinungalingan, kasinungalingan, at istatistika."

Tulad ng nabanggit sa tala, ang mga isyu sa etika ay lumitaw kapag pumipili ng mga resulta na dapat iharap sa ulat. Ang parehong positibo at negatibong mga resulta ay dapat na mai-publish. Bilang karagdagan, kapag gumagawa ng isang ulat o nakasulat na ulat, ang mga resulta ay dapat iharap nang tapat, neutral at may layunin. Matukoy ang pagkakaiba sa pagitan ng masama at hindi tapat na mga presentasyon. Upang gawin ito, kinakailangan upang matukoy kung ano ang mga intensyon ng tagapagsalita. Minsan ang tagapagsalita ay nag-aalis ng mahalagang impormasyon dahil sa kamangmangan, at kung minsan ay sinasadya (halimbawa, kung ginagamit niya ang arithmetic mean upang tantiyahin ang mean ng malinaw na baluktot na data upang makuha ang ninanais na resulta). Hindi rin tapat na sugpuin ang mga resulta na hindi tumutugma sa pananaw ng mananaliksik.

Mga materyales mula sa aklat na Levin et al. Ginagamit ang mga istatistika para sa mga tagapamahala. - M.: Williams, 2004. - p. 178–209

Ang QUARTILE function ay pinanatili upang iayon sa mga naunang bersyon ng Excel

Ang average na halaga ay ang pinakamahalaga mula sa isang analytical point of view at isang unibersal na anyo ng pagpapahayag ng mga istatistikal na tagapagpahiwatig. Ang pinakakaraniwang average - ang arithmetic average - ay may bilang ng mga katangian ng matematika na maaaring magamit sa pagkalkula nito. Kasabay nito, kapag kinakalkula ang isang tiyak na average, palaging ipinapayong umasa sa lohikal na formula nito, na kung saan ay ang ratio ng dami ng katangian sa dami ng populasyon. Para sa bawat mean, mayroon lamang isang tunay na reference ratio, na, depende sa magagamit na data, ay maaaring mangailangan ng iba't ibang anyo ng paraan. Gayunpaman, sa lahat ng kaso kung saan ang likas na katangian ng average na halaga ay nagpapahiwatig ng pagkakaroon ng mga timbang, imposibleng gamitin ang kanilang mga hindi natimbang na formula sa halip na ang mga weighted average na formula.

Ang average na halaga ay ang pinaka-katangiang halaga ng katangian para sa populasyon at ang laki ng katangian ng populasyon na ibinahagi sa pantay na bahagi sa pagitan ng mga yunit ng populasyon.

Ang katangian kung saan kinakalkula ang average na halaga ay tinatawag katamtaman .

Ang average na halaga ay isang indicator na kinakalkula sa pamamagitan ng paghahambing ng ganap o kamag-anak na mga halaga. Ang average na halaga ay

Ang average na halaga ay sumasalamin sa impluwensya ng lahat ng mga salik na nakakaimpluwensya sa hindi pangkaraniwang bagay na pinag-aaralan, at ang resulta para sa kanila. Sa madaling salita, ang pagbabayad ng mga indibidwal na paglihis at pag-aalis ng impluwensya ng mga kaso, ang average na halaga, na sumasalamin sa pangkalahatang sukatan ng mga resulta ng pagkilos na ito, ay nagsisilbing pangkalahatang pattern ng hindi pangkaraniwang bagay na pinag-aaralan.

Mga kondisyon para sa paggamit ng mga average:

Ø homogeneity ng pinag-aralan na populasyon. Kung ang ilang mga elemento ng populasyon na napapailalim sa impluwensya ng isang random na kadahilanan ay may makabuluhang magkakaibang mga halaga ng pinag-aralan na katangian mula sa iba, kung gayon ang mga elementong ito ay makakaapekto sa laki ng average para sa populasyon na ito. Sa kasong ito, hindi ipapahayag ng average ang pinakakaraniwang halaga ng feature para sa populasyon. Kung ang phenomenon sa ilalim ng pag-aaral ay heterogenous, kinakailangan itong hatiin sa mga pangkat na naglalaman ng mga homogenous na elemento. Sa kasong ito, ang mga average ng grupo ay kinakalkula - ang mga average ng grupo na nagpapahayag ng pinaka-katangiang halaga ng phenomenon sa bawat grupo, at pagkatapos ay ang kabuuang average na halaga para sa lahat ng mga elemento ay kinakalkula, na nagpapakilala sa phenomenon sa kabuuan. Ito ay kinakalkula bilang average ng ibig sabihin ng grupo, na natimbang sa bilang ng mga elemento ng populasyon na kasama sa bawat pangkat;

Ø isang sapat na bilang ng mga yunit sa pinagsama-samang;

Ø ang pinakamataas at pinakamababang halaga ng katangian sa pinag-aralan na populasyon.

Average na halaga (tagapagpahiwatig)- ito ay isang pangkalahatang quantitative na katangian ng isang katangian sa isang sistematikong populasyon sa ilalim ng mga tiyak na kondisyon ng lugar at oras.

Sa mga istatistika, ang mga sumusunod na anyo (uri) ng mga average ay ginagamit, na tinatawag na kapangyarihan at istruktura:

Ø ibig sabihin ng aritmetika(simple at may timbang);

simple lang

Ang terminong ito ay may iba pang mga kahulugan, tingnan ang karaniwang kahulugan.

Karaniwan(sa matematika at istatistika) mga hanay ng mga numero - ang kabuuan ng lahat ng mga numero na hinati sa kanilang numero. Ito ay isa sa mga pinakakaraniwang sukatan ng sentral na ugali.

Ito ay iminungkahi (kasama ang geometric mean at harmonic mean) ng mga Pythagorean.

Ang mga espesyal na kaso ng arithmetic mean ay ang mean (ng pangkalahatang populasyon) at ang sample mean (ng mga sample).

Panimula

Tukuyin ang hanay ng data X = (x 1 , x 2 , …, x n), pagkatapos ang sample mean ay karaniwang tinutukoy ng isang pahalang na bar sa ibabaw ng variable (x ¯ (\displaystyle (\bar (x))) , binibigkas na " x na may gitling").

Ang letrang Griyego na μ ay ginagamit upang tukuyin ang arithmetic mean ng buong populasyon. Para sa isang random na variable kung saan ang isang mean na halaga ay tinukoy, ang μ ay ibig sabihin ng posibilidad o ang mathematical na inaasahan ng isang random na variable. Kung ang set X ay isang koleksyon ng mga random na numero na may probability mean μ, pagkatapos ay para sa anumang sample x i mula sa koleksyong ito μ = E( x i) ay ang inaasahan ng sample na ito.

Sa pagsasagawa, ang pagkakaiba sa pagitan ng μ at x ¯ (\displaystyle (\bar (x))) ay ang μ ay isang tipikal na variable dahil makikita mo ang sample sa halip na ang buong populasyon. Samakatuwid, kung random na kinakatawan ang sample (sa mga tuntunin ng probability theory), ang x ¯ (\displaystyle (\bar (x))) (ngunit hindi μ) ay maaaring ituring bilang random variable na mayroong probability distribution sa sample ( probability distribution ng mean).

Pareho sa mga dami na ito ay kinakalkula sa parehong paraan:

X ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + ⋯ + x n) . (\displaystyle (\bar (x))=(\frac (1)(n))\sum _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\cdots +x_(n)).)

Kung ang X ay isang random na variable, pagkatapos ay ang matematikal na inaasahan X ay maaaring ituring bilang arithmetic mean ng mga halaga sa paulit-ulit na pagsukat ng dami X. Ito ay isang pagpapakita ng batas ng malalaking numero. Samakatuwid, ang sample mean ay ginagamit upang tantyahin ang hindi kilalang inaasahan sa matematika.

Sa elementarya algebra, napatunayan na ang mean n+ 1 numero sa itaas ng average n mga numero kung at kung ang bagong numero ay mas malaki kaysa sa lumang average, mas mababa kung at kung ang bagong numero ay mas mababa sa average, at hindi magbabago kung at kung ang bagong numero ay katumbas ng average. Ang higit pa n, mas maliit ang pagkakaiba sa pagitan ng bago at lumang mga average.

Tandaan na may ilang iba pang "paraan" na available, kabilang ang power-law mean, Kolmogorov mean, harmonic mean, arithmetic-geometric mean, at iba't ibang weighted na mean (hal., arithmetic-weighted mean, geometric-weighted mean, harmonic-weighted mean) .

Mga halimbawa

  • Para sa tatlong numero, kailangan mong idagdag ang mga ito at hatiin sa 3:
x 1 + x 2 + x 3 3 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3))(3)).)
  • Para sa apat na numero, kailangan mong idagdag ang mga ito at hatiin sa 4:
x 1 + x 2 + x 3 + x 4 4 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3)+x_(4))(4)).)

O mas madali 5+5=10, 10:2. Dahil nagdagdag kami ng 2 numero, ibig sabihin kung gaano karaming mga numero ang idinagdag namin, hinahati namin sa ganoong kalaki.

Patuloy na random variable

Para sa tuluy-tuloy na ipinamamahaging halaga f (x) (\displaystyle f(x)) ang arithmetic mean sa pagitan [ a ; b ] (\displaystyle ) ay tinukoy sa pamamagitan ng isang tiyak na integral:

F (x) ¯ [ a ; b ] = 1 b − a ∫ a b f (x) d x (\displaystyle (\overline (f(x)))_()=(\frac (1)(b-a))\int _(a)^(b) f(x)dx)

Ang ilang mga problema sa paggamit ng average

Kakulangan ng katatagan

Pangunahing artikulo: Katatagan sa mga istatistika

Bagama't ang arithmetic mean ay kadalasang ginagamit bilang mga paraan o sentral na uso, ang konseptong ito ay hindi nalalapat sa matatag na istatistika, na nangangahulugan na ang arithmetic mean ay labis na naiimpluwensyahan ng "malaking deviations". Kapansin-pansin na para sa mga distribusyon na may malaking skewness, ang arithmetic mean ay maaaring hindi tumutugma sa konsepto ng "average", at ang mga halaga ng mean mula sa matatag na istatistika (halimbawa, ang median) ay maaaring mas mahusay na ilarawan ang gitnang trend.

Ang klasikong halimbawa ay ang pagkalkula ng average na kita. Ang ibig sabihin ng arithmetic ay maaaring ma-misinterpret bilang isang median, na maaaring humantong sa konklusyon na mayroong mas maraming mga tao na may higit na kita kaysa sa talagang mayroon. Ang "mean" na kita ay binibigyang kahulugan sa paraang ang kita ng karamihan sa mga tao ay malapit sa bilang na ito. Ang "average" na ito (sa kahulugan ng arithmetic mean) na kita ay mas mataas kaysa sa kita ng karamihan sa mga tao, dahil ang isang mataas na kita na may malaking paglihis mula sa average ay gumagawa ng arithmetic mean na malakas na skewed (sa kaibahan, ang median na kita ay "lumalaban" tulad ng isang hilig). Gayunpaman, ang "average" na kita na ito ay walang sinasabi tungkol sa bilang ng mga taong malapit sa median na kita (at walang sinasabi tungkol sa bilang ng mga taong malapit sa modal na kita). Gayunpaman, kung ang mga konsepto ng "katamtaman" at "karamihan" ay kinuha nang basta-basta, kung gayon ang isa ay maaaring hindi tama na maghinuha na ang karamihan sa mga tao ay may mga kita na mas mataas kaysa sa aktwal na mga ito. Halimbawa, ang isang ulat sa "average" na netong kita sa Medina, Washington, na kinalkula bilang ang arithmetic average ng lahat ng taunang netong kita ng mga residente, ay magbibigay ng nakakagulat na mataas na bilang dahil kay Bill Gates. Isaalang-alang ang sample (1, 2, 2, 2, 3, 9). Ang arithmetic mean ay 3.17, ngunit ang lima sa anim na halaga ay mas mababa sa ibig sabihin nito.

Pinagsamang interes

Pangunahing artikulo: ROI

Kung mga numero magparami, ngunit hindi tiklop, kailangan mong gamitin ang geometric mean, hindi ang arithmetic mean. Kadalasan, nangyayari ang insidenteng ito kapag kinakalkula ang return on investment sa pananalapi.

Halimbawa, kung ang mga stock ay bumagsak ng 10% sa unang taon at tumaas ng 30% sa ikalawang taon, hindi tama na kalkulahin ang "average" na pagtaas sa dalawang taon na ito bilang ang arithmetic mean (−10% + 30%) / 2 = 10%; ang tamang average sa kasong ito ay ibinibigay ng tambalang taunang rate ng paglago, kung saan ang taunang paglago ay halos 8.16653826392% ≈ 8.2%.

Ang dahilan nito ay ang mga porsyento ay may bagong panimulang punto sa bawat oras: 30% ay 30% mula sa isang numerong mas mababa kaysa sa presyo sa simula ng unang taon: kung ang stock ay nagsimula sa $30 at bumagsak ng 10%, ito ay nagkakahalaga ng $27 sa simula ng ikalawang taon. Kung ang stock ay tumaas ng 30%, ito ay nagkakahalaga ng $35.1 sa pagtatapos ng ikalawang taon. Ang arithmetic average ng paglago na ito ay 10%, ngunit dahil ang stock ay lumago lamang ng $5.1 sa loob ng 2 taon, ang average na pagtaas ng 8.2% ay nagbibigay ng huling resulta na $35.1:

[$30 (1 - 0.1) (1 + 0.3) = $30 (1 + 0.082) (1 + 0.082) = $35.1]. Kung gagamitin natin ang arithmetic mean na 10% sa parehong paraan, hindi natin makukuha ang aktwal na halaga: [$30 (1 + 0.1) (1 + 0.1) = $36.3].

Compound interest sa katapusan ng taon 2: 90% * 130% = 117% , ibig sabihin, kabuuang pagtaas ng 17%, at ang average na taunang compound interest ay 117% ≈ 108.2% (\displaystyle (\sqrt (117\%)) \approx 108.2\%) , ibig sabihin, isang average na taunang pagtaas na 8.2%.

Mga direksyon

Pangunahing artikulo: Mga istatistika ng patutunguhan

Kapag kinakalkula ang arithmetic mean ng ilang variable na nagbabago nang paikot (halimbawa, phase o anggulo), dapat mag-ingat. Halimbawa, ang average ng 1° at 359° ay magiging 1 ∘ + 359 ∘ 2 = (\displaystyle (\frac (1^(\circ )+359^(\circ ))(2))=) 180°. Ang numerong ito ay mali sa dalawang dahilan.

  • Una, ang mga angular na sukat ay tinukoy lamang para sa hanay mula 0° hanggang 360° (o mula 0 hanggang 2π kapag sinusukat sa radians). Kaya, ang parehong pares ng mga numero ay maaaring isulat bilang (1° at −1°) o bilang (1° at 719°). Magiiba ang mga average ng bawat pares: 1 ∘ + (− 1 ∘) 2 = 0 ∘ (\displaystyle (\frac (1^(\circ )+(-1^(\circ )))(2))= 0 ^(\circ )), 1 ∘ + 719 ∘ 2 = 360 ∘ (\displaystyle (\frac (1^(\circ )+719^(\circ ))(2))=360^(\circ )) .
  • Pangalawa, sa kasong ito, ang isang halaga ng 0° (katumbas ng 360°) ang magiging geometrically best mean, dahil ang mga numero ay mas mababa ang lihis mula sa 0° kaysa sa anumang iba pang value (ang value na 0° ay may pinakamaliit na variance). Ihambing:
    • ang bilang na 1° ay lumilihis mula sa 0° sa pamamagitan lamang ng 1°;
    • ang bilang na 1° ay lumilihis mula sa kinakalkulang average na 180° sa pamamagitan ng 179°.

Ang average na halaga para sa isang cyclic variable, na kinakalkula ayon sa formula sa itaas, ay artipisyal na ililipat kaugnay ng tunay na average sa gitna ng numerical range. Dahil dito, ang average ay kinakalkula sa ibang paraan, ibig sabihin, ang bilang na may pinakamaliit na pagkakaiba (gitnang punto) ay pinili bilang ang average na halaga. Gayundin, sa halip na ibawas, modulo distance (ibig sabihin, circumferential distance) ang ginagamit. Halimbawa, ang modular na distansya sa pagitan ng 1° at 359° ay 2°, hindi 358° (sa bilog sa pagitan ng 359° at 360°==0° - isang degree, sa pagitan ng 0° at 1° - 1° din, sa kabuuan - 2 °).

4.3. Average na mga halaga. Kakanyahan at kahulugan ng mga average

Average na halaga sa mga istatistika, tinatawag ang isang pangkalahatang tagapagpahiwatig, na nagpapakilala sa tipikal na antas ng isang kababalaghan sa mga tiyak na kondisyon ng lugar at oras, na sumasalamin sa laki ng isang iba't ibang katangian sa bawat yunit ng isang qualitatively homogenous na populasyon. Sa pang-ekonomiyang kasanayan, isang malawak na hanay ng mga tagapagpahiwatig ang ginagamit, na kinakalkula bilang mga average.

Halimbawa, ang pangkalahatang tagapagpahiwatig ng kita ng mga manggagawa sa isang joint-stock na kumpanya (JSC) ay ang average na kita ng isang manggagawa, na tinutukoy ng ratio ng pondo ng sahod at mga social na pagbabayad para sa panahong sinusuri (taon, quarter, buwan ) sa bilang ng mga manggagawa sa JSC.

Ang pagkalkula ng average ay isang karaniwang pamamaraan ng generalization; ang average na tagapagpahiwatig ay sumasalamin sa pangkalahatan na tipikal (tipikal) para sa lahat ng mga yunit ng pinag-aralan na populasyon, habang sa parehong oras ay binabalewala nito ang mga pagkakaiba sa pagitan ng mga indibidwal na yunit. Sa bawat kababalaghan at pag-unlad nito ay may kumbinasyon pagkakataon at kailangan. Kapag kinakalkula ang mga average, dahil sa pagpapatakbo ng batas ng malalaking numero, kinansela ng randomness ang isa't isa, nagbabalanse, upang maaari mong abstract mula sa hindi gaanong kahalagahan ng phenomenon, mula sa mga quantitative value ng attribute sa bawat partikular na kaso. Sa kakayahang mag-abstract mula sa randomness ng mga indibidwal na halaga, ang mga pagbabago ay nakasalalay sa pang-agham na halaga ng mga average bilang pagbubuod pinagsama-samang katangian.

Kung saan may pangangailangan para sa pangkalahatan, ang pagkalkula ng mga naturang katangian ay humahantong sa pagpapalit ng maraming iba't ibang mga indibidwal na halaga ng katangian. daluyan isang tagapagpahiwatig na nagpapakilala sa kabuuan ng mga phenomena, na ginagawang posible upang matukoy ang mga pattern na likas sa mass social phenomena, hindi mahahalata sa iisang phenomena.

Ang average ay sumasalamin sa katangian, tipikal, tunay na antas ng pinag-aralan na mga phenomena, nagpapakilala sa mga antas na ito at ang kanilang mga pagbabago sa oras at espasyo.

Ang average ay isang buod na katangian ng mga regularidad ng proseso sa ilalim ng mga kondisyon kung saan ito nagpapatuloy.

4.4. Mga uri ng mga average at pamamaraan para sa pagkalkula ng mga ito

Ang pagpili ng uri ng average ay tinutukoy ng pang-ekonomiyang nilalaman ng isang tiyak na tagapagpahiwatig at ang paunang data. Sa bawat kaso, ang isa sa mga average na halaga ay inilalapat: aritmetika, garmonic, geometric, quadratic, kubiko atbp. Ang mga nakalistang average ay nabibilang sa klase kapangyarihan daluyan.

Bilang karagdagan sa mga average ng power-law, sa istatistikal na kasanayan, ginagamit ang mga istrukturang average, na itinuturing na mode at median.

Isaalang-alang natin nang mas detalyado ang mga paraan ng kapangyarihan.

Ang ibig sabihin ng aritmetika

Ang pinakakaraniwang uri ng average ay karaniwan aritmetika. Ginagamit ito sa mga kaso kung saan ang dami ng isang variable na katangian para sa buong populasyon ay ang kabuuan ng mga halaga ng mga katangian ng mga indibidwal na yunit nito. Ang mga social phenomena ay nailalarawan sa pamamagitan ng additivity (summation) ng mga volume ng iba't ibang katangian, tinutukoy nito ang saklaw ng arithmetic mean at ipinapaliwanag ang pagkalat nito bilang isang generalizing indicator, halimbawa: ang kabuuang pondo ng sahod ay ang kabuuan ng sahod ng lahat. manggagawa, ang kabuuang ani ay ang kabuuan ng mga produktong gawa mula sa buong lugar ng paghahasik.

Upang makalkula ang ibig sabihin ng aritmetika, kailangan mong hatiin ang kabuuan ng lahat ng mga halaga ng tampok sa kanilang numero.

Ang arithmetic mean ay inilapat sa anyo simpleng average at weighted average. Ang simpleng average ay nagsisilbing paunang, pagtukoy sa anyo.

simpleng ibig sabihin ng aritmetika ay katumbas ng simpleng kabuuan ng mga indibidwal na halaga ng na-average na tampok, na hinati sa kabuuang bilang ng mga halagang ito (ginagamit ito sa mga kaso kung saan mayroong hindi pinagsama-samang mga indibidwal na halaga ng tampok):

saan
- mga indibidwal na halaga ng variable (mga pagpipilian); m - bilang ng mga yunit ng populasyon.

Ang mga karagdagang limitasyon sa pagbubuod sa mga formula ay hindi ipahiwatig. Halimbawa, kinakailangang hanapin ang average na output ng isang manggagawa (locksmith), kung alam kung gaano karaming bahagi ang ginawa ng bawat isa sa 15 manggagawa, i.e. binigyan ng isang bilang ng mga indibidwal na halaga ng katangian, mga pcs.:

21; 20; 20; 19; 21; 19; 18; 22; 19; 20; 21; 20; 18; 19; 20.

Ang simpleng arithmetic mean ay kinakalkula ng formula (4.1), 1 pc.:

Ang average ng mga opsyon na inuulit sa ibang bilang ng beses, o sinasabing may iba't ibang timbang, ay tinatawag natimbang. Ang mga timbang ay ang bilang ng mga yunit sa iba't ibang pangkat ng populasyon (pinagsasama ng grupo ang parehong mga opsyon).

Arithmetic weighted average- average na pinagsama-samang mga halaga, - ay kinakalkula ng formula:

, (4.2)

saan
- mga timbang (dalas ng pag-uulit ng parehong mga tampok);

- ang kabuuan ng mga produkto ng magnitude ng mga tampok sa pamamagitan ng kanilang mga frequency;

- ang kabuuang bilang ng mga yunit ng populasyon.

Ipapakita namin ang pamamaraan para sa pagkalkula ng arithmetic weighted average gamit ang halimbawang tinalakay sa itaas. Upang gawin ito, pinapangkat namin ang paunang data at inilalagay ang mga ito sa talahanayan. 4.1.

Talahanayan 4.1

Ang pamamahagi ng mga manggagawa para sa pagpapaunlad ng mga bahagi

Ayon sa formula (4.2), ang arithmetic weighted average ay pantay, mga piraso:

Sa ilang mga kaso, ang mga timbang ay maaaring katawanin hindi ng mga ganap na halaga, ngunit ng mga kamag-anak (sa mga porsyento o mga fraction ng isang yunit). Pagkatapos ang formula para sa arithmetic weighted average ay magiging ganito ang hitsura:

saan
- partikular, i.e. bahagi ng bawat dalas sa kabuuang kabuuan ng lahat

Kung ang mga frequency ay binibilang sa mga fraction (coefficients), kung gayon
= 1, at ang formula para sa arithmetically weighted average ay:

Pagkalkula ng arithmetic weighted average mula sa mga average ng grupo isinasagawa ayon sa pormula:

,

saan f-bilang ng mga yunit sa bawat pangkat.

Ang mga resulta ng pagkalkula ng arithmetic mean ng ibig sabihin ng grupo ay ipinakita sa Talahanayan. 4.2.

Talahanayan 4.2

Pamamahagi ng mga manggagawa ayon sa karaniwang haba ng serbisyo

Sa halimbawang ito, ang mga opsyon ay hindi indibidwal na data sa haba ng serbisyo ng mga indibidwal na manggagawa, ngunit mga average para sa bawat workshop. kaliskis f ay ang bilang ng mga manggagawa sa mga tindahan. Samakatuwid, ang karaniwang karanasan sa trabaho ng mga manggagawa sa buong negosyo ay magiging, mga taon:

.

Pagkalkula ng arithmetic mean sa serye ng pamamahagi

Kung ang mga halaga ng na-average na katangian ay ibinibigay bilang mga pagitan ("mula - hanggang"), i.e. serye ng pamamahagi ng agwat, pagkatapos kapag kinakalkula ang arithmetic mean na halaga, ang mga midpoint ng mga agwat na ito ay kinukuha bilang mga halaga ng mga tampok sa mga pangkat, bilang isang resulta kung saan nabuo ang isang discrete series. Isaalang-alang ang sumusunod na halimbawa (Talahanayan 4.3).

Lumipat tayo mula sa isang serye ng pagitan patungo sa isang discrete sa pamamagitan ng pagpapalit ng mga halaga ng pagitan ng kanilang mga average na halaga / (simpleng average

Talahanayan 4.3

Pamamahagi ng mga manggagawa sa AO ayon sa antas ng buwanang sahod

Mga grupo ng mga manggagawa para sa

Bilang ng mga manggagawa

Ang gitna ng pagitan

sahod, kuskusin.

pers., f

kuskusin., X

900 pataas

ang mga halaga ng mga bukas na agwat (una at huli) ay may kondisyon na katumbas sa mga agwat na kadugtong sa kanila (pangalawa at penultimate).

Sa gayong pagkalkula ng average, pinapayagan ang ilang kamalian, dahil ang isang pagpapalagay ay ginawa tungkol sa pare-parehong pamamahagi ng mga yunit ng katangian sa loob ng pangkat. Gayunpaman, ang error ay magiging mas maliit, mas makitid ang pagitan at mas maraming unit sa pagitan.

Matapos matagpuan ang mga midpoint ng mga agwat, ang mga kalkulasyon ay ginagawa sa parehong paraan tulad ng sa isang discrete na serye - ang mga opsyon ay pinarami ng mga frequency (mga timbang) at ang kabuuan ng mga produkto ay hinati sa kabuuan ng mga frequency (mga timbang) , libong rubles:

.

Kaya, ang average na antas ng suweldo ng mga manggagawa sa JSC ay 729 rubles. kada buwan.

Ang pagkalkula ng arithmetic mean ay madalas na nauugnay sa isang malaking paggasta ng oras at paggawa. Gayunpaman, sa ilang mga kaso, ang pamamaraan para sa pagkalkula ng average ay maaaring gawing simple at mapadali sa pamamagitan ng paggamit ng mga katangian nito. Ipakita natin (nang walang patunay) ang ilang pangunahing katangian ng arithmetic mean.

Ari-arian 1. Kung ang lahat ng mga indibidwal na halaga ng katangian (i.e. lahat ng mga pagpipilian) pagbaba o pagtaas sa ibeses, pagkatapos ay ang average na halaga ng isang bagong tampok ay bababa o tataas nang naaayon sa iminsan.

Ari-arian 2. Kung mababawasan ang lahat ng variant ng na-average na featuretahiin o dagdagan ng bilang A, pagkatapos ay ang ibig sabihin ng aritmetikamakabuluhang bumaba o tumaas ng parehong bilang A.

Ari-arian 3. Kung ang mga timbang ng lahat ng na-average na mga opsyon ay nabawasan o pagtaas sa sa beses, ang arithmetic mean ay hindi magbabago.

Bilang mga average na timbang, sa halip na mga ganap na tagapagpahiwatig, maaari kang gumamit ng mga partikular na timbang sa kabuuang kabuuang (mga bahagi o porsyento). Pinapasimple nito ang pagkalkula ng average.

Upang gawing simple ang mga kalkulasyon ng average, sinusunod nila ang landas ng pagbabawas ng mga halaga ng mga opsyon at frequency. Ang pinakamalaking pagpapagaan ay nakakamit kapag PERO ang halaga ng isa sa mga sentral na opsyon na may pinakamataas na dalas ay pinili bilang / - ang halaga ng pagitan (para sa mga hilera na may parehong mga pagitan). Ang halaga ng L ay tinatawag na pinagmulan, kaya ang pamamaraang ito ng pagkalkula ng average ay tinatawag na "paraan ng pagbibilang mula sa conditional zero" o "paraan ng mga sandali".

Ipagpalagay natin na ang lahat ng mga pagpipilian X unang binawasan ng parehong bilang A, at pagkatapos ay binawasan sa i minsan. Makakakuha kami ng bagong variational distribution series ng mga bagong variant .

Pagkatapos bagong mga pagpipilian ipapahayag:

,

at ang kanilang bagong arithmetic mean , -sandali ng unang order- formula:

.

Ito ay katumbas ng average ng orihinal na mga opsyon, unang binawasan ng PERO, at pagkatapos ay sa i minsan.

Upang makuha ang tunay na average, kailangan mo ng sandali ng unang pagkakasunud-sunod m 1 , multiply sa i at idagdag PERO:

.

Ang pamamaraang ito ng pagkalkula ng arithmetic mean mula sa isang variational series ay tinatawag "paraan ng mga sandali". Ang pamamaraang ito ay inilalapat sa mga hilera na may pantay na pagitan.

Ang pagkalkula ng arithmetic mean sa pamamagitan ng paraan ng mga sandali ay inilalarawan ng data sa Talahanayan. 4.4.

Talahanayan 4.4

Pamamahagi ng maliliit na negosyo sa rehiyon ayon sa halaga ng fixed production asset (OPF) noong 2000

Mga grupo ng mga negosyo ayon sa halaga ng OPF, libong rubles

Bilang ng mga negosyo f

gitnang pagitan, x

14-16 16-18 18-20 20-22 22-24

Paghahanap ng sandali ng unang order

.

Pagkatapos, ipagpalagay na A = 19 at alam iyon i= 2, kalkulahin X, libong rubles.:

Mga uri ng average na halaga at pamamaraan para sa kanilang pagkalkula

Sa yugto ng pagpoproseso ng istatistika, ang iba't ibang mga gawain sa pananaliksik ay maaaring itakda, para sa solusyon kung saan kinakailangan upang piliin ang naaangkop na average. Sa kasong ito, kinakailangan na magabayan ng sumusunod na panuntunan: ang mga halaga na kumakatawan sa numerator at denominator ng average ay dapat na lohikal na nauugnay sa bawat isa.

  • mga average ng kapangyarihan;
  • mga katamtamang istruktura.

Ipakilala natin ang sumusunod na notasyon:

Ang mga halaga kung saan kinakalkula ang average;

Average, kung saan ang linya sa itaas ay nagpapahiwatig na ang pag-average ng mga indibidwal na halaga ay nagaganap;

Dalas (repeatability ng mga indibidwal na halaga ng katangian).

Ang iba't ibang paraan ay hinango mula sa pangkalahatang power mean formula:

(5.1)

para sa k = 1 - arithmetic mean; k = -1 - harmonic mean; k = 0 - geometric na ibig sabihin; k = -2 - root mean square.

Ang mga average ay maaaring simple o may timbang. mga weighted average ay tinatawag na mga dami na isinasaalang-alang na ang ilang mga variant ng mga halaga ng katangian ay maaaring may iba't ibang mga numero, at samakatuwid ang bawat variant ay kailangang i-multiply sa numerong ito. Sa madaling salita, ang "mga timbang" ay ang mga bilang ng mga yunit ng populasyon sa iba't ibang grupo, i.e. ang bawat opsyon ay "natimbang" sa dalas nito. Ang frequency f ay tinatawag istatistikal na timbang o average na pagtimbang.

Ang ibig sabihin ng aritmetika- ang pinakakaraniwang uri ng daluyan. Ito ay ginagamit kapag ang pagkalkula ay isinasagawa sa ungrouped statistical data, kung saan mo gustong makuha ang average summand. Ang arithmetic mean ay tulad ng isang average na halaga ng isang tampok, kapag natanggap kung saan ang kabuuang dami ng tampok sa populasyon ay nananatiling hindi nagbabago.

Ang arithmetic mean formula ( simple lang) ay may anyo

kung saan ang n ay ang laki ng populasyon.

Halimbawa, ang average na suweldo ng mga empleyado ng isang negosyo ay kinakalkula bilang average na arithmetic:

Ang pagtukoy ng mga tagapagpahiwatig dito ay ang sahod ng bawat empleyado at ang bilang ng mga empleyado ng negosyo. Kapag kinakalkula ang average, ang kabuuang halaga ng sahod ay nanatiling pareho, ngunit ibinahagi, kumbaga, pantay sa lahat ng mga manggagawa. Halimbawa, kinakailangang kalkulahin ang average na suweldo ng mga empleyado ng isang maliit na kumpanya kung saan 8 tao ang nagtatrabaho:

Kapag kinakalkula ang mga average, ang mga indibidwal na halaga ng katangian na na-average ay maaaring ulitin, kaya ang average ay kinakalkula gamit ang nakapangkat na data. Sa kasong ito, pinag-uusapan natin ang paggamit arithmetic mean weighted, na mukhang

(5.3)

Kaya, kailangan nating kalkulahin ang average na presyo ng pagbabahagi ng isang joint-stock na kumpanya sa stock exchange. Nabatid na ang mga transaksyon ay isinagawa sa loob ng 5 araw (5 na transaksyon), ang bilang ng mga pagbabahagi na ibinebenta sa rate ng benta ay ipinamahagi bilang mga sumusunod:

1 - 800 ac. - 1010 rubles

2 - 650 ac. - 990 kuskusin.

3 - 700 ak. - 1015 rubles.

4 - 550 ac. - 900 kuskusin.

5 - 850 ak. - 1150 rubles.

Ang paunang ratio para sa pagtukoy ng average na presyo ng pagbabahagi ay ang ratio ng kabuuang halaga ng mga transaksyon (OSS) sa bilang ng mga nabentang bahagi (KPA).

Upang mahanap ang average na halaga sa Excel (maging ito ay isang numerical, textual, porsyento o iba pang halaga), mayroong maraming mga pag-andar. At ang bawat isa sa kanila ay may sariling mga katangian at pakinabang. Pagkatapos ng lahat, ang ilang mga kundisyon ay maaaring itakda sa gawaing ito.

Halimbawa, ang mga average na halaga ng isang serye ng mga numero sa Excel ay kinakalkula gamit ang mga statistical function. Maaari mo ring manu-manong ipasok ang iyong sariling formula. Isaalang-alang natin ang iba't ibang mga pagpipilian.

Paano mahahanap ang arithmetic mean ng mga numero?

Upang mahanap ang arithmetic mean, idagdag mo ang lahat ng mga numero sa set at hatiin ang kabuuan sa numero. Halimbawa, ang mga marka ng mag-aaral sa computer science: 3, 4, 3, 5, 5. Ano ang napupunta sa quarter: 4. Natagpuan namin ang arithmetic mean gamit ang formula: \u003d (3 + 4 + 3 + 5 + 5) / 5.

Paano ito gagawin nang mabilis gamit ang mga function ng Excel? Kunin halimbawa ang isang serye ng mga random na numero sa isang string:

O kaya: gawing aktibo ang cell at manu-manong ipasok ang formula: =AVERAGE(A1:A8).

Ngayon tingnan natin kung ano pa ang magagawa ng AVERAGE function.


Hanapin ang arithmetic mean ng unang dalawa at huling tatlong numero. Formula: =AVERAGE(A1:B1;F1:H1). Resulta:



Average ayon sa kondisyon

Ang kundisyon para sa paghahanap ng arithmetic mean ay maaaring isang numerical criterion o isang text. Gagamitin namin ang function na: =AVERAGEIF().

Hanapin ang arithmetic mean ng mga numero na mas malaki sa o katumbas ng 10.

Function: =AVERAGEIF(A1:A8,">=10")


Ang resulta ng paggamit ng AVERAGEIF function sa kondisyong ">=10":

Ang ikatlong argumento - "Averaging range" - ay tinanggal. Una, hindi ito kinakailangan. Pangalawa, ang saklaw na na-parse ng program ay naglalaman LAMANG ng mga numerong halaga. Sa mga cell na tinukoy sa unang argumento, ang paghahanap ay isasagawa ayon sa kondisyong tinukoy sa pangalawang argumento.

Pansin! Maaaring tukuyin ang criterion sa paghahanap sa isang cell. At sa pormula upang gumawa ng isang sanggunian dito.

Hanapin natin ang average na halaga ng mga numero ayon sa pamantayan ng teksto. Halimbawa, ang average na benta ng "mga talahanayan" ng produkto.

Magiging ganito ang function: =AVERAGEIF($A$2:$A$12;A7;$B$2:$B$12). Saklaw - isang column na may mga pangalan ng produkto. Ang pamantayan sa paghahanap ay isang link sa isang cell na may salitang "mga talahanayan" (maaari mong ipasok ang salitang "mga talahanayan" sa halip na ang link na A7). Averaging range - ang mga cell kung saan kukunin ang data upang kalkulahin ang average na halaga.

Bilang resulta ng pagkalkula ng function, nakuha namin ang sumusunod na halaga:

Pansin! Para sa isang pamantayan ng teksto (kondisyon), dapat na tukuyin ang average na hanay.

Paano makalkula ang average na timbang na presyo sa Excel?

Paano natin malalaman ang average na timbang na presyo?

Formula: =SUMPRODUCT(C2:C12,B2:B12)/SUM(C2:C12).


Gamit ang formula ng SUMPRODUCT, malalaman natin ang kabuuang kita pagkatapos ng pagbebenta ng buong dami ng mga kalakal. At ang SUM function - nagbubuod ng dami ng mga kalakal. Sa pamamagitan ng paghahati ng kabuuang kita mula sa pagbebenta ng mga kalakal sa kabuuang bilang ng mga yunit ng mga kalakal, nakita namin ang average na timbang na presyo. Isinasaalang-alang ng tagapagpahiwatig na ito ang "timbang" ng bawat presyo. Ang bahagi nito sa kabuuang masa ng mga halaga.

Standard deviation: formula sa Excel

Matukoy ang pagkakaiba sa pagitan ng karaniwang paglihis para sa pangkalahatang populasyon at para sa sample. Sa unang kaso, ito ang ugat ng pangkalahatang pagkakaiba. Sa pangalawa, mula sa sample variance.

Upang kalkulahin ang statistical indicator na ito, isang dispersion formula ay pinagsama-sama. Ang ugat ay kinuha mula dito. Ngunit sa Excel mayroong isang handa na pag-andar para sa paghahanap ng karaniwang paglihis.


Ang standard deviation ay naka-link sa sukat ng source data. Ito ay hindi sapat para sa isang matalinghagang representasyon ng variation ng nasuri na hanay. Upang makuha ang relatibong antas ng scatter sa data, kinakalkula ang koepisyent ng variation:

standard deviation / arithmetic mean

Ang formula sa Excel ay ganito ang hitsura:

STDEV (saklaw ng mga halaga) / AVERAGE (saklaw ng mga halaga).

Ang koepisyent ng pagkakaiba-iba ay kinakalkula bilang isang porsyento. Samakatuwid, itinakda namin ang format ng porsyento sa cell.