Karaniwang agwat ng kumpiyansa. Mga Paraan ng Pagsusuri ng Dami: Pagtantya ng Mga Pagitan ng Kumpiyansa

At iba pa. Ang lahat ng mga ito ay mga pagtatantya ng kanilang mga teoretikal na katapat, na maaaring makuha kung walang sample, ngunit ang pangkalahatang populasyon. Ngunit sayang, ang pangkalahatang populasyon ay napakamahal at kadalasan ay hindi magagamit.

Ang konsepto ng pagtatantya ng pagitan

Ang anumang sample na pagtatantya ay may ilang scatter, dahil ay isang random na variable depende sa mga halaga sa isang partikular na sample. Samakatuwid, para sa mas maaasahang istatistikal na inferences, dapat malaman hindi lamang ang point estimate, kundi pati na rin ang interval, na may mataas na posibilidad. γ Sinasaklaw ng (gamma) ang tinantyang tagapagpahiwatig θ (theta).

Pormal, ito ay dalawang ganoong halaga (mga istatistika) T1(X) at T2(X), Ano T1< T 2 , kung saan sa isang naibigay na antas ng posibilidad γ natugunan ang kondisyon:

Sa madaling salita, malamang γ o higit pa ang tunay na halaga ay nasa pagitan ng mga puntos T1(X) at T2(X), na tinatawag na lower at upper bounds agwat ng kumpiyansa.

Ang isa sa mga kondisyon para sa pagbuo ng mga agwat ng kumpiyansa ay ang maximum na makitid nito, i.e. ito ay dapat na kasing-ikli hangga't maaari. Ang pagnanais ay medyo natural, dahil. sinusubukan ng mananaliksik na mas tumpak na i-localize ang paghahanap ng nais na parameter.

Ito ay sumusunod na ang agwat ng kumpiyansa ay dapat sumaklaw sa pinakamataas na posibilidad ng pamamahagi. at ang score mismo ay nasa gitna.

Iyon ay, ang posibilidad ng paglihis (ng tunay na tagapagpahiwatig mula sa pagtatantya) pataas ay katumbas ng posibilidad ng paglihis pababa. Dapat ding tandaan na para sa mga skewed distribution, ang interval sa kanan ay hindi katumbas ng interval sa kaliwa.

Ang figure sa itaas ay malinaw na nagpapakita na mas malaki ang antas ng kumpiyansa, mas malawak ang pagitan - isang direktang relasyon.

Ito ay isang maliit na panimula sa teorya ng pagtatantya ng pagitan ng hindi kilalang mga parameter. Lumipat tayo sa paghahanap ng mga limitasyon ng kumpiyansa para sa inaasahan sa matematika.

Agwat ng kumpiyansa para sa inaasahan sa matematika

Kung ang orihinal na data ay ibinahagi sa , ang average ay magiging isang normal na halaga. Ito ay sumusunod mula sa panuntunan na ang isang linear na kumbinasyon ng mga normal na halaga ay mayroon ding normal na distribusyon. Samakatuwid, upang kalkulahin ang mga probabilidad, maaari naming gamitin ang mathematical apparatus ng normal na batas sa pamamahagi.

Gayunpaman, mangangailangan ito ng kaalaman sa dalawang parameter - ang inaasahang halaga at ang pagkakaiba, na karaniwang hindi alam. Maaari mong, siyempre, gumamit ng mga pagtatantya sa halip na mga parameter (arithmetic mean at ), ngunit pagkatapos ay ang distribusyon ng mean ay hindi magiging normal, ito ay bahagyang pipi. Mahusay na napansin ng mamamayang si William Gosset ng Ireland ang katotohanang ito nang ilathala niya ang kanyang natuklasan sa Marso 1908 na isyu ng Biometrica. Para sa mga layuning lihim, lumagda si Gosset kasama ang Mag-aaral. Ganito lumabas ang t-distribution ng Student.

Gayunpaman, ang normal na pamamahagi ng data, na ginamit ni K. Gauss sa pagsusuri ng mga pagkakamali sa mga obserbasyon sa astronomiya, ay napakabihirang sa buhay sa lupa at medyo mahirap itatag ito (para sa mataas na katumpakan, mga 2 libong obserbasyon ang kailangan). Samakatuwid, pinakamahusay na i-drop ang normality assumption at gumamit ng mga pamamaraan na hindi nakadepende sa pamamahagi ng orihinal na data.

Ang tanong ay lumitaw: ano ang pamamahagi ng ibig sabihin ng aritmetika kung ito ay kinakalkula mula sa data ng isang hindi kilalang pamamahagi? Ang sagot ay ibinigay ng kilalang in probability theory Central limit theorem(CPT). Sa matematika, mayroong ilang mga bersyon nito (ang mga pormulasyon ay pino sa paglipas ng mga taon), ngunit lahat ng mga ito, sa halos pagsasalita, ay bumaba sa pahayag na ang kabuuan ng isang malaking bilang ng mga independiyenteng random na mga variable ay sumusunod sa normal na batas sa pamamahagi.

Kapag kinakalkula ang arithmetic mean, ang kabuuan ng mga random na variable ay ginagamit. Mula dito lumalabas na ang arithmetic mean ay may normal na distribusyon, kung saan ang inaasahang halaga ay ang inaasahang halaga ng paunang data, at ang pagkakaiba ay .

Alam ng mga matalinong tao kung paano patunayan ang CLT, ngunit ibe-verify namin ito sa tulong ng isang eksperimento na isinagawa sa Excel. Gayahin natin ang isang sample ng 50 pare-parehong ipinamahagi na random variable (gamit ang Excel function na RANDOMBETWEEN). Pagkatapos ay gagawa kami ng 1000 tulad ng mga sample at kalkulahin ang arithmetic mean para sa bawat isa. Tingnan natin ang kanilang pamamahagi.

Makikita na ang distribusyon ng average ay malapit sa normal na batas. Kung ang dami ng mga sample at ang kanilang bilang ay gagawing mas malaki, kung gayon ang pagkakatulad ay magiging mas mahusay.

Ngayon na nakita natin para sa ating sarili ang bisa ng CLT, maaari nating, gamit ang , kalkulahin ang mga pagitan ng kumpiyansa para sa arithmetic mean, na sumasaklaw sa tunay na mean o mathematical na inaasahan na may ibinigay na posibilidad.

Upang maitatag ang upper at lower bounds, kinakailangang malaman ang mga parameter ng normal na distribution. Bilang isang patakaran, hindi sila, samakatuwid, ang mga pagtatantya ay ginagamit: ibig sabihin ng aritmetika at sample na pagkakaiba-iba. Muli, ang pamamaraang ito ay nagbibigay ng isang mahusay na approximation para lamang sa malalaking sample. Kapag ang mga sample ay maliit, madalas na inirerekomenda na gamitin ang pamamahagi ng Mag-aaral. wag kang maniwala! Ang distribusyon ng mag-aaral para sa mean ay nangyayari lamang kapag ang orihinal na data ay may normal na distribusyon, iyon ay, halos hindi kailanman. Samakatuwid, mas mahusay na agad na itakda ang minimum na bar para sa dami ng kinakailangang data at gumamit ng mga asymptotically correct na pamamaraan. Sabi nila, sapat na ang 30 obserbasyon. Kumuha ng 50 - hindi ka maaaring magkamali.

T 1.2 ay ang lower at upper bounds ng confidence interval

– sample na arithmetic mean

s0– sample na standard deviation (walang pinapanigan)

n – laki ng sample

γ – antas ng kumpiyansa (karaniwang katumbas ng 0.9, 0.95 o 0.99)

c γ =Φ -1 ((1+γ)/2) ay ang kapalit ng karaniwang normal na distribution function. Sa simpleng mga termino, ito ang bilang ng mga karaniwang error mula sa arithmetic mean hanggang sa lower o upper bound (ang ipinahiwatig na tatlong probabilities ay tumutugma sa mga value ng 1.64, 1.96 at 2.58).

Ang kakanyahan ng formula ay ang arithmetic mean ay kinuha at pagkatapos ay isang tiyak na halaga ay itabi mula dito ( kasama si γ) karaniwang mga error ( s 0 /√n). Ang lahat ay alam, kunin at bilangin.

Bago ang malawakang paggamit ng mga PC, upang makuha ang mga halaga ng normal na function ng pamamahagi at ang kabaligtaran nito, ginamit nila . Ginagamit pa rin ang mga ito, ngunit mas mahusay na bumaling sa mga yari na formula ng Excel. Ang lahat ng elemento mula sa formula sa itaas ( , at ) ay madaling kalkulahin sa Excel. Ngunit mayroon ding isang handa na formula para sa pagkalkula ng agwat ng kumpiyansa - NORM NG tiwala sa sarili. Ang syntax nito ay ang mga sumusunod.

CONFIDENCE NORM(alpha, standard_dev, size)

alpha– antas ng kahalagahan o antas ng kumpiyansa, na sa notasyon sa itaas ay katumbas ng 1-γ, i.e. ang posibilidad na ang mathematicalang inaasahan ay nasa labas ng confidence interval. Sa antas ng kumpiyansa na 0.95, ang alpha ay 0.05, at iba pa.

standard_off ay ang standard deviation ng sample data. Hindi mo kailangang kalkulahin ang karaniwang error, hahatiin ng Excel sa ugat ng n.

ang sukat– laki ng sample (n).

Ang resulta ng function na CONFIDENCE.NORM ay ang pangalawang termino mula sa formula para sa pagkalkula ng agwat ng kumpiyansa, i.e. kalahating pagitan. Alinsunod dito, ang mas mababa at itaas na mga punto ay ang average ± ang nakuhang halaga.

Kaya, posible na bumuo ng isang unibersal na algorithm para sa pagkalkula ng mga agwat ng kumpiyansa para sa arithmetic mean, na hindi nakasalalay sa pamamahagi ng paunang data. Ang presyo para sa pagiging pangkalahatan ay ang asymptotic na kalikasan nito, i.e. ang pangangailangang gumamit ng medyo malalaking sample. Gayunpaman, sa panahon ng modernong teknolohiya, ang pagkolekta ng tamang dami ng data ay karaniwang hindi mahirap.

Pagsubok sa Statistical Hypotheses Gamit ang Confidence Interval

(module 111)

Ang isa sa mga pangunahing problema na nalutas sa istatistika ay. Sa madaling salita, ang kakanyahan nito ay ito. Ang isang pagpapalagay ay ginawa, halimbawa, na ang inaasahan ng pangkalahatang populasyon ay katumbas ng ilang halaga. Pagkatapos ay ang pamamahagi ng sample na paraan ay itinayo, na maaaring maobserbahan sa isang naibigay na inaasahan. Susunod, titingnan natin kung saan sa kondisyonal na pamamahagi na ito ang tunay na average ay matatagpuan. Kung ito ay lumampas sa pinahihintulutang mga limitasyon, kung gayon ang hitsura ng naturang average ay napaka hindi malamang, at sa isang solong pag-uulit ng eksperimento ito ay halos imposible, na sumasalungat sa hypothesis na iniharap, na matagumpay na tinanggihan. Kung ang average ay hindi lalampas sa kritikal na antas, kung gayon ang hypothesis ay hindi tinatanggihan (ngunit hindi rin ito napatunayan!).

Kaya, sa tulong ng mga agwat ng kumpiyansa, sa aming kaso para sa inaasahan, maaari mo ring subukan ang ilang mga hypotheses. Napakadaling gawin. Ipagpalagay na ang arithmetic mean para sa ilang sample ay 100. Ang hypothesis ay sinusubok na ang inaasahang halaga ay, sabihin nating, 90. Ibig sabihin, kung ilalagay natin ang tanong sa primitively, ito ay ganito ang tunog: maaari bang sa totoong halaga ng average na katumbas ng 90, ang naobserbahang average ay 100?

Para masagot ang tanong na ito, kakailanganin ang karagdagang impormasyon sa standard deviation at sample size. Sabihin nating ang standard deviation ay 30, at ang bilang ng mga obserbasyon ay 64 (upang madaling makuha ang ugat). Pagkatapos ang karaniwang error ng mean ay 30/8 o 3.75. Upang kalkulahin ang 95% na agwat ng kumpiyansa, kakailanganin mong magtabi ng dalawang karaniwang error sa magkabilang panig ng mean (mas tiyak, 1.96). Ang confidence interval ay magiging humigit-kumulang 100 ± 7.5, o mula 92.5 hanggang 107.5.

Ang karagdagang pangangatwiran ay ang mga sumusunod. Kung ang nasubok na halaga ay nasa loob ng agwat ng kumpiyansa, kung gayon hindi ito sumasalungat sa hypothesis, dahil umaangkop sa loob ng mga limitasyon ng mga random na pagbabagu-bago (na may posibilidad na 95%). Kung ang nasubok na punto ay nasa labas ng agwat ng kumpiyansa, kung gayon ang posibilidad ng naturang kaganapan ay napakaliit, sa anumang kaso sa ibaba ng katanggap-tanggap na antas. Samakatuwid, ang hypothesis ay tinanggihan bilang sumasalungat sa naobserbahang data. Sa aming kaso, ang expectation hypothesis ay nasa labas ng confidence interval (ang nasubok na value na 90 ay hindi kasama sa interval na 100±7.5), kaya dapat itong tanggihan. Ang pagsagot sa primitive na tanong sa itaas, dapat sabihin ng isa: hindi, hindi ito maaaring, sa anumang kaso, ito ay napakabihirang mangyari. Kadalasan, ito ay nagpapahiwatig ng isang tiyak na posibilidad ng maling pagtanggi sa hypothesis (p-level), at hindi isang naibigay na antas, ayon sa kung saan ang agwat ng kumpiyansa ay binuo, ngunit higit pa sa ibang pagkakataon.

Tulad ng nakikita mo, hindi mahirap bumuo ng isang agwat ng kumpiyansa para sa mean (o inaasahan sa matematika). Ang pangunahing bagay ay upang mahuli ang kakanyahan, at pagkatapos ay pupunta ang mga bagay. Sa pagsasagawa, karamihan ay gumagamit ng 95% na agwat ng kumpiyansa, na halos dalawang karaniwang error ang lapad sa magkabilang panig ng mean.

Yun lang muna. Lahat ng pinakamahusay!

Pagtuturo

Mangyaring tandaan na pagitan(l1 o l2), ang gitnang rehiyon kung saan ang pagtatantya l*, at kung saan ang totoong halaga ng parameter ay malamang na nilalaman, ay magiging kumpiyansa lamang pagitan ohm o ang katumbas na halaga ng antas ng kumpiyansa na alpha. Sa kasong ito, ang l* mismo ay tumutukoy sa mga pagtatantya ng punto. Halimbawa, batay sa mga resulta ng anumang mga sample na halaga ng isang random na halaga X (x1, x2,..., xn), kinakailangan upang kalkulahin ang isang hindi kilalang parameter ng tagapagpahiwatig l, kung saan ang pamamahagi ay nakasalalay. Sa kasong ito, ang pagkuha ng isang pagtatantya ng isang ibinigay na parameter l* ay nangangahulugan na para sa bawat sample ay kinakailangan na maglagay ng isang tiyak na halaga ng parameter sa linya, iyon ay, upang lumikha ng isang function ng mga resulta ng pagmamasid sa indicator Q, ang halaga nito ay kukunin na katumbas ng tinantyang halaga ng parameter l* sa anyo ng isang formula : l*=Q*(x1, x2,..., xn).

Tandaan na ang anumang function sa mga resulta ng isang obserbasyon ay tinatawag na istatistika. Bukod dito, kung ganap nitong inilalarawan ang parameter (phenomenon) na isinasaalang-alang, kung gayon ito ay tinatawag na sapat na istatistika. At dahil random ang mga resulta ng mga obserbasyon, magiging random variable din ang l *. Ang gawain ng pagkalkula ng mga istatistika ay dapat isagawa na isinasaalang-alang ang pamantayan para sa kalidad nito. Dito kinakailangan na isaalang-alang na ang batas ng pamamahagi ng pagtatantya ay medyo tiyak, ang pamamahagi ng probability density W(x, l).

Maaari mong kalkulahin ang kumpiyansa pagitan sapat na madali kung alam mo ang batas tungkol sa pamamahagi ng valuation. Halimbawa, magtiwala pagitan mga pagtatantya na may kaugnayan sa mathematical na inaasahan (average na halaga ng isang random na halaga) mx* =(1/n)*(x1+x2+ …+xn) . Ang pagtatantya na ito ay magiging walang kinikilingan, ibig sabihin, ang mathematical na inaasahan o average na halaga ng indicator ay magiging katumbas ng tunay na halaga ng parameter (M(mx*) = mx).

Maaari mong itatag na ang pagkakaiba ng pagtatantya ayon sa inaasahan ng matematika ay: bx*^2=Dx/n. Batay sa limitasyon sa gitnang teorama, maaari tayong gumuhit ng naaangkop na konklusyon na ang batas sa pamamahagi ng pagtatantya na ito ay Gaussian (normal). Samakatuwid, para sa mga kalkulasyon, maaari mong gamitin ang indicator Ф (z) - ang integral ng mga probabilidad. Sa kasong ito, piliin ang haba ng tiwala pagitan at 2ld, kaya makakakuha ka ng: alpha \u003d P (mx-ld (gamit ang pag-aari ng probability integral ayon sa formula: Ф (-z) \u003d 1- Ф (z)).

Bumuo ng tiwala pagitan mga pagtatantya ng inaasahan sa matematika: - hanapin ang halaga ng formula (alpha + 1) / 2; - piliin ang halaga na katumbas ng ld / sqrt (Dx / n) mula sa probability integral table; - kunin ang pagtatantya ng tunay na pagkakaiba: Dx * = (1 / n) * ( (x1 - mx*)^2+(x2 - mx*)^2+…+(xn - mx*)^2); pagitan ayon sa formula: (mx*-ld, mx*+ld).

Sa mga istatistika, mayroong dalawang uri ng mga pagtatantya: punto at pagitan. Pagtataya ng Punto ay isang solong sample na istatistika na ginagamit upang tantyahin ang isang parameter ng populasyon. Halimbawa, ang ibig sabihin ng sample ay isang puntong pagtatantya ng ibig sabihin ng populasyon, at ang sample na pagkakaiba-iba S2- punto ng pagtatantya ng pagkakaiba-iba ng populasyon σ2. ipinakita na ang sample mean ay isang walang pinapanigan na pagtatantya ng inaasahan ng populasyon. Ang sample mean ay tinatawag na walang pinapanigan dahil ang ibig sabihin ng lahat ng sample ay (na may parehong laki ng sample n) ay katumbas ng mathematical na inaasahan ng pangkalahatang populasyon.

Upang ang sample na pagkakaiba-iba S2 naging walang pinapanigan na estimator ng pagkakaiba-iba ng populasyon σ2, ang denominator ng sample na variance ay dapat itakda na katumbas ng n – 1 , ngunit hindi n. Sa madaling salita, ang pagkakaiba-iba ng populasyon ay ang average ng lahat ng posibleng pagkakaiba-iba ng sample.

Kapag tinatantya ang mga parameter ng populasyon, dapat tandaan na ang mga sample na istatistika tulad ng , depende sa mga partikular na sample. Upang isaalang-alang ang katotohanang ito, upang makuha pagtatantya ng pagitan ang matematikal na inaasahan ng pangkalahatang populasyon ay sinusuri ang pamamahagi ng sample na paraan (para sa higit pang mga detalye, tingnan). Ang itinayong agwat ay nailalarawan sa pamamagitan ng isang tiyak na antas ng kumpiyansa, na kung saan ay ang posibilidad na ang tunay na parameter ng pangkalahatang populasyon ay natantiya nang tama. Maaaring gamitin ang mga katulad na agwat ng kumpiyansa upang tantiyahin ang proporsyon ng isang feature R at ang pangunahing ibinahagi na masa ng pangkalahatang populasyon.

Mag-download ng tala sa o format, mga halimbawa sa format

Pagbuo ng isang agwat ng kumpiyansa para sa mathematical na inaasahan ng pangkalahatang populasyon na may kilalang standard deviation

Pagbuo ng isang agwat ng kumpiyansa para sa proporsyon ng isang katangian sa pangkalahatang populasyon

Sa seksyong ito, ang konsepto ng isang agwat ng kumpiyansa ay pinalawak sa kategoryang data. Ito ay nagpapahintulot sa iyo na tantyahin ang bahagi ng katangian sa pangkalahatang populasyon R na may sample share RS= X/n. Tulad ng nabanggit, kung ang mga halaga nR at n(1 - p) lumampas sa numero 5, ang binomial distribution ay maaaring tantiyahin ng normal. Samakatuwid, upang tantyahin ang bahagi ng isang katangian sa pangkalahatang populasyon R posible na bumuo ng isang pagitan na ang antas ng kumpiyansa ay katumbas ng (1 - α)x100%.


saan pS- sample na bahagi ng tampok, katumbas ng X/n, ibig sabihin. ang bilang ng mga tagumpay na hinati sa laki ng sample, R- ang bahagi ng katangian sa pangkalahatang populasyon, Z ay ang kritikal na halaga ng standardized normal distribution, n- laki ng sample.

Halimbawa 3 Ipagpalagay natin na ang isang sample ay kinuha mula sa sistema ng impormasyon, na binubuo ng 100 mga invoice na nakumpleto noong nakaraang buwan. Sabihin nating mali ang 10 sa mga invoice na ito. Sa ganitong paraan, R= 10/100 = 0.1. Ang 95% na antas ng kumpiyansa ay tumutugma sa kritikal na halaga Z = 1.96.

Kaya, mayroong 95% na pagkakataon na sa pagitan ng 4.12% at 15.88% ng mga invoice ay naglalaman ng mga error.

Para sa isang ibinigay na laki ng sample, ang agwat ng kumpiyansa na naglalaman ng proporsyon ng katangian sa pangkalahatang populasyon ay tila mas malawak kaysa sa isang tuluy-tuloy na random na variable. Ito ay dahil ang mga sukat ng isang tuluy-tuloy na random na variable ay naglalaman ng mas maraming impormasyon kaysa sa mga sukat ng pang-kategoryang data. Sa madaling salita, ang kategoryang data na kumukuha lamang ng dalawang halaga ay naglalaman ng hindi sapat na impormasyon upang matantya ang mga parameter ng kanilang pamamahagi.

ATpagkalkula ng mga pagtatantya na nakuha mula sa isang may hangganang populasyon

Pagtataya ng inaasahan sa matematika. Salik ng pagwawasto para sa huling populasyon ( fpc) ay ginamit upang bawasan ang karaniwang error sa pamamagitan ng isang kadahilanan ng . Kapag kinakalkula ang mga agwat ng kumpiyansa para sa mga pagtatantya ng mga parameter ng populasyon, inilalapat ang isang salik ng pagwawasto sa mga sitwasyon kung saan ang mga sample ay iginuhit nang walang kapalit. Kaya, ang pagitan ng kumpiyansa para sa inaasahan sa matematika, pagkakaroon ng antas ng kumpiyansa na katumbas ng (1 - α)x100%, ay kinakalkula ng formula:

Halimbawa 4 Upang ilarawan ang aplikasyon ng correction factor para sa isang may hangganang populasyon, bumalik tayo sa problema sa pagkalkula ng confidence interval para sa average na halaga ng mga invoice na tinalakay sa Halimbawa 3 sa itaas. Ipagpalagay na ang isang kumpanya ay nag-isyu ng 5,000 invoice bawat buwan, at Xᅳ=110.27 USD, S= $28.95 N = 5000, n = 100, α = 0.05, t99 = 1.9842. Ayon sa formula (6) nakukuha natin:

Pagtatantya ng bahagi ng tampok. Kapag pumipili ng walang pagbabalik, ang agwat ng kumpiyansa para sa proporsyon ng tampok na may antas ng kumpiyansa na katumbas ng (1 - α)x100%, ay kinakalkula ng formula:

Mga agwat ng kumpiyansa at mga isyu sa etika

Kapag nagsa-sample ng isang populasyon at bumubuo ng mga istatistikal na hinuha, madalas na lumitaw ang mga problema sa etika. Ang pangunahing isa ay kung paano nagkakasundo ang mga agwat ng kumpiyansa at mga pagtatantya ng punto ng mga sample na istatistika. Ang mga pagtatantya sa punto ng pag-publish nang hindi tinutukoy ang mga naaangkop na agwat ng kumpiyansa (karaniwan ay nasa 95% na antas ng kumpiyansa) at ang laki ng sample kung saan nagmula ang mga ito ay maaaring mapanlinlang. Ito ay maaaring magbigay sa user ng impresyon na ang pagtatantya ng punto ay eksaktong kailangan niya upang mahulaan ang mga katangian ng buong populasyon. Kaya, kinakailangang maunawaan na sa anumang pananaliksik, hindi punto, ngunit ang mga pagtatantya ng pagitan ay dapat ilagay sa unahan. Bilang karagdagan, ang espesyal na pansin ay dapat bayaran sa tamang pagpili ng mga laki ng sample.

Kadalasan, ang mga bagay ng istatistikal na pagmamanipula ay ang mga resulta ng mga sociological survey ng populasyon sa iba't ibang mga isyu sa politika. Kasabay nito, ang mga resulta ng survey ay inilalagay sa mga front page ng mga pahayagan, at ang sampling error at ang pamamaraan ng statistical analysis ay naka-print sa isang lugar sa gitna. Upang patunayan ang bisa ng nakuha na mga pagtatantya ng punto, kinakailangang ipahiwatig ang laki ng sample batay sa kung saan nakuha ang mga ito, ang mga hangganan ng agwat ng kumpiyansa at antas ng kahalagahan nito.

Susunod na tala

Mga materyales mula sa aklat na Levin et al. Ginagamit ang mga istatistika para sa mga tagapamahala. - M.: Williams, 2004. - p. 448–462

Central limit theorem nagsasaad na, dahil sa isang sapat na malaking sukat ng sample, ang sample na pamamahagi ng mga paraan ay maaaring tantiyahin sa pamamagitan ng isang normal na distribusyon. Ang ari-arian na ito ay hindi nakadepende sa uri ng pamamahagi ng populasyon.

Agwat ng kumpiyansa(CI; sa English, confidence interval - CI) na nakuha sa pag-aaral sa sample ay nagbibigay ng sukatan ng katumpakan (o kawalan ng katiyakan) ng mga resulta ng pag-aaral, upang makagawa ng mga konklusyon tungkol sa populasyon ng lahat ng naturang mga pasyente (pangkalahatang populasyon ). Ang tamang kahulugan ng 95% CI ay maaaring buuin tulad ng sumusunod: 95% ng naturang mga pagitan ay maglalaman ng tunay na halaga sa populasyon. Ang interpretasyong ito ay medyo hindi gaanong tumpak: Ang CI ay ang hanay ng mga halaga kung saan maaari kang maging 95% na sigurado na naglalaman ito ng tunay na halaga. Kapag gumagamit ng CI, ang diin ay sa pagtukoy sa dami ng epekto, kumpara sa P value, na nakuha bilang resulta ng pagsubok para sa statistical significance. Ang halaga ng P ay hindi sinusuri ang anumang halaga, ngunit sa halip ay nagsisilbing sukatan ng lakas ng ebidensya laban sa null hypothesis ng "walang epekto". Ang halaga ng P mismo ay hindi nagsasabi sa amin ng anuman tungkol sa laki ng pagkakaiba, o kahit tungkol sa direksyon nito. Samakatuwid, ang mga independiyenteng halaga ng P ay ganap na hindi nagbibigay-kaalaman sa mga artikulo o abstract. Sa kaibahan, ang CI ay nagpapahiwatig ng parehong halaga ng epekto ng agarang interes, tulad ng pagiging kapaki-pakinabang ng isang paggamot, at ang lakas ng ebidensya. Samakatuwid, ang DI ay direktang nauugnay sa pagsasagawa ng DM.

Ang diskarte sa pagtatantya sa pagsusuri sa istatistika, na inilalarawan ng CI, ay naglalayong sukatin ang laki ng epekto ng interes (sensitivity ng diagnostic test, hinulaang saklaw, kamag-anak na pagbabawas ng panganib sa paggamot, atbp.) pati na rin ang pagsukat ng kawalan ng katiyakan doon. epekto. Kadalasan, ang CI ay ang hanay ng mga halaga sa magkabilang panig ng pagtatantya kung saan ang totoong halaga ay malamang na nasa, at maaari kang maging 95% sigurado dito. Ang kumbensyon na gamitin ang 95% na posibilidad ay arbitrary, gayundin ang halaga ng P<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

Ang CI ay batay sa ideya na ang parehong pag-aaral na isinagawa sa iba't ibang hanay ng mga pasyente ay hindi magbubunga ng magkatulad na resulta, ngunit ang kanilang mga resulta ay ibabahagi sa paligid ng totoo ngunit hindi kilalang halaga. Sa madaling salita, inilalarawan ito ng CI bilang "sample-dependent variability". Ang CI ay hindi nagpapakita ng karagdagang kawalan ng katiyakan dahil sa iba pang mga dahilan; sa partikular, hindi kasama dito ang mga epekto ng piling pagkawala ng mga pasyente sa pagsubaybay, hindi magandang pagsunod o hindi tumpak na pagsukat ng resulta, kawalan ng pagbulag, atbp. Kaya palaging minamaliit ng CI ang kabuuang halaga ng kawalan ng katiyakan.

Pagkalkula ng Interval ng Kumpiyansa

Talahanayan A1.1. Mga karaniwang error at agwat ng kumpiyansa para sa ilang mga klinikal na sukat

Karaniwan, ang CI ay kinakalkula mula sa isang naobserbahang pagtatantya ng isang quantitative measure, gaya ng pagkakaiba (d) sa pagitan ng dalawang proporsyon, at ang karaniwang error (SE) sa pagtatantya ng pagkakaibang iyon. Ang tinatayang 95% CI kaya nakuha ay d ± 1.96 SE. Ang formula ay nagbabago ayon sa likas na katangian ng sukatan ng kinalabasan at ang saklaw ng CI. Halimbawa, sa isang randomized, placebo-controlled na pagsubok ng acellular pertussis vaccine, ang whooping cough ay nabuo sa 72 sa 1670 (4.3%) na mga sanggol na nakatanggap ng bakuna at 240 sa 1665 (14.4%) sa control group. Ang pagkakaiba sa porsyento, na kilala bilang ganap na pagbabawas ng panganib, ay 10.1%. Ang SE ng pagkakaibang ito ay 0.99%. Alinsunod dito, ang 95% CI ay 10.1% + 1.96 x 0.99%, ibig sabihin. mula 8.2 hanggang 12.0.

Sa kabila ng magkakaibang pamamaraang pilosopikal, ang mga CI at mga pagsusulit para sa kahalagahang istatistika ay malapit na nauugnay sa matematika.

Kaya, ang halaga ng P ay "makabuluhan", i.e. R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Ang kawalan ng katiyakan (pagkakamali) ng pagtatantya, na ipinahayag sa CI, ay higit na nauugnay sa square root ng sample size. Ang maliliit na sample ay nagbibigay ng mas kaunting impormasyon kaysa sa malalaking sample, at ang mga CI ay katumbas na mas malawak sa mas maliliit na sample. Halimbawa, ang isang artikulong naghahambing sa pagganap ng tatlong pagsubok na ginamit upang masuri ang impeksyon sa Helicobacter pylori ay nag-ulat ng isang urea breath test sensitivity na 95.8% (95% CI 75-100). Habang ang bilang ng 95.8% ay mukhang kahanga-hanga, ang maliit na sukat ng sample ng 24 na may sapat na gulang na H. pylori na mga pasyente ay nangangahulugan na mayroong malaking kawalan ng katiyakan sa pagtatantya na ito, tulad ng ipinapakita ng malawak na CI. Sa katunayan, ang mas mababang limitasyon ng 75% ay mas mababa kaysa sa 95.8% na pagtatantya. Kung ang parehong sensitivity ay naobserbahan sa isang sample ng 240 tao, ang 95% CI ay magiging 92.5-98.0, na nagbibigay ng higit na katiyakan na ang pagsubok ay napakasensitibo.

Sa mga randomized na kinokontrol na pagsubok (RCT), ang mga hindi makabuluhang resulta (ibig sabihin, ang mga may P > 0.05) ay partikular na madaling kapitan ng maling interpretasyon. Ang CI ay partikular na kapaki-pakinabang dito dahil ito ay nagpapahiwatig kung gaano katugma ang mga resulta sa klinikal na kapaki-pakinabang na totoong epekto. Halimbawa, sa isang RCT na naghahambing ng tahi laban sa staple anastomosis sa colon, ang impeksyon sa sugat ay nabuo sa 10.9% at 13.5% ng mga pasyente, ayon sa pagkakabanggit (P = 0.30). Ang 95% CI para sa pagkakaibang ito ay 2.6% (-2 hanggang +8). Kahit na sa pag-aaral na ito, na kinabibilangan ng 652 mga pasyente, ito ay nananatiling malamang na may katamtamang pagkakaiba sa saklaw ng mga impeksiyon na nagreresulta mula sa dalawang pamamaraan. Kung mas maliit ang pag-aaral, mas malaki ang kawalan ng katiyakan. Sung et al. nagsagawa ng RCT na naghahambing ng octreotide infusion na may emergency sclerotherapy para sa talamak na variceal bleeding sa 100 pasyente. Sa pangkat ng octreotide, ang rate ng pag-aresto sa pagdurugo ay 84%; sa pangkat ng sclerotherapy - 90%, na nagbibigay ng P = 0.56. Tandaan na ang mga rate ng patuloy na pagdurugo ay katulad ng sa impeksyon sa sugat sa pag-aaral na nabanggit. Sa kasong ito, gayunpaman, ang 95% CI para sa pagkakaiba sa mga interbensyon ay 6% (-7 hanggang +19). Ang hanay na ito ay medyo malawak kumpara sa isang 5% na pagkakaiba na magiging interesado sa klinikal. Malinaw na ang pag-aaral ay hindi nagbubukod ng isang makabuluhang pagkakaiba sa pagiging epektibo. Samakatuwid, ang konklusyon ng mga may-akda na "octreotide infusion at sclerotherapy ay pantay na epektibo sa paggamot ng pagdurugo mula sa varices" ay tiyak na hindi wasto. Sa mga kasong tulad nito kung saan ang 95% CI para sa absolute risk reduction (ARR) ay may kasamang zero, dahil dito, ang CI para sa NNT (bilang na kailangan upang gamutin) ay medyo mahirap bigyang-kahulugan. . Ang NLP at ang CI nito ay nakuha mula sa mga kapalit ng ACP (multiply ang mga ito ng 100 kung ang mga halagang ito ay ibinibigay bilang mga porsyento). Dito nakukuha natin ang NPP = 100: 6 = 16.6 na may 95% CI na -14.3 hanggang 5.3. Tulad ng makikita mula sa footnote na "d" sa Talahanayan. A1.1, ang CI na ito ay kinabibilangan ng mga halaga para sa NTPP mula 5.3 hanggang infinity at NTLP mula 14.3 hanggang infinity.

Maaaring buuin ang mga CI para sa pinakakaraniwang ginagamit na mga pagtatantya o paghahambing sa istatistika. Para sa mga RCT, kabilang dito ang pagkakaiba sa pagitan ng mga mean na proporsyon, mga kamag-anak na panganib, mga ratio ng odds, at mga NRR. Katulad nito, ang mga CI ay maaaring makuha para sa lahat ng mga pangunahing pagtatantya na ginawa sa mga pag-aaral ng diagnostic test accuracy—sensitivity, specificity, positive predictive value (lahat ng mga ito ay simpleng proporsyon), at likelihood ratios—mga pagtatantya na nakuha sa meta-analyses at paghahambing-to-kontrol. pag-aaral. Ang isang personal na programa sa computer na sumasaklaw sa marami sa mga paggamit na ito ng DI ay magagamit sa ikalawang edisyon ng Statistics with Confidence. Ang mga macro para sa pagkalkula ng mga CI para sa mga proporsyon ay malayang magagamit para sa Excel at ang mga programang istatistikal na SPSS at Minitab sa http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Maramihang mga pagsusuri ng epekto ng paggamot

Habang ang pagtatayo ng mga CI ay kanais-nais para sa mga pangunahing kinalabasan ng isang pag-aaral, ang mga ito ay hindi kinakailangan para sa lahat ng mga kinalabasan. Ang CI ay may kinalaman sa klinikal na mahahalagang paghahambing. Halimbawa, kapag naghahambing ng dalawang grupo, ang tamang CI ay ang ginawa para sa pagkakaiba sa pagitan ng mga pangkat, tulad ng ipinapakita sa mga halimbawa sa itaas, at hindi ang CI na maaaring itayo para sa pagtatantya sa bawat pangkat. Hindi lamang walang silbi ang pagbibigay ng hiwalay na CI para sa mga marka sa bawat grupo, ang pagtatanghal na ito ay maaaring nakaliligaw. Katulad nito, ang tamang diskarte kapag inihambing ang pagiging epektibo ng paggamot sa iba't ibang mga subgroup ay direktang ihambing ang dalawa (o higit pang) subgroup. Hindi tama na ipagpalagay na ang paggamot ay epektibo lamang sa isang subgroup kung ang CI nito ay nagbubukod ng halaga na walang epekto, habang ang iba ay hindi. Kapaki-pakinabang din ang mga CI kapag naghahambing ng mga resulta sa maraming subgroup. Sa fig. Ipinapakita ng A1.1 ang relatibong panganib ng eclampsia sa mga babaeng may preeclampsia sa mga subgroup ng kababaihan mula sa isang placebo-controlled na RCT ng magnesium sulfate.

kanin. A1.2. Ipinapakita ng Forest Graph ang mga resulta ng 11 randomized na klinikal na pagsubok ng bovine rotavirus vaccine para sa pag-iwas sa pagtatae kumpara sa placebo. Ang 95% na agwat ng kumpiyansa ay ginamit upang tantiyahin ang kamag-anak na panganib ng pagtatae. Ang laki ng itim na parisukat ay proporsyonal sa dami ng impormasyon. Bilang karagdagan, ang isang buod na pagtatantya ng pagiging epektibo ng paggamot at isang 95% na agwat ng kumpiyansa (ipinahiwatig ng isang brilyante) ay ipinapakita. Gumamit ang meta-analysis ng random-effects na modelo na lumampas sa ilang mga nauna nang naitatag; halimbawa, maaaring ito ang sukat na ginamit sa pagkalkula ng laki ng sample. Sa ilalim ng mas mahigpit na pamantayan, ang buong hanay ng mga CI ay dapat magpakita ng benepisyong lumampas sa paunang natukoy na minimum.

Napag-usapan na natin ang kamalian ng pagkuha ng kawalan ng istatistikal na kahalagahan bilang isang indikasyon na ang dalawang paggamot ay pantay na epektibo. Parehong mahalaga na huwag ipantay ang istatistikal na kahalagahan sa klinikal na kahalagahan. Maaaring ipalagay ang klinikal na kahalagahan kapag ang resulta ay makabuluhan ayon sa istatistika at ang laki ng tugon sa paggamot

Maaaring ipakita ng mga pag-aaral kung ang mga resulta ay makabuluhan ayon sa istatistika at kung alin ang mahalaga sa klinika at alin ang hindi. Sa fig. Ipinapakita ng A1.2 ang mga resulta ng apat na pagsubok kung saan ang buong CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Mula sa artikulong ito matututunan mo ang:

    Ano agwat ng kumpiyansa?

    Ano ang punto 3 mga tuntunin ng sigma?

    Paano maisasabuhay ang kaalamang ito?

Sa ngayon, dahil sa labis na impormasyon na nauugnay sa isang malaking uri ng mga produkto, mga direksyon sa pagbebenta, mga empleyado, aktibidad, atbp., mahirap pumili ng pangunahing, na, una sa lahat, ay nagkakahalaga ng pagbibigay pansin at pagsisikap na pamahalaan. Kahulugan agwat ng kumpiyansa at pagsusuri ng paglampas sa mga hangganan nito ng aktwal na mga halaga - isang pamamaraan na tulungan kang matukoy ang mga sitwasyon, nakakaimpluwensya sa mga uso. Magagawa mong bumuo ng mga positibong salik at mabawasan ang impluwensya ng mga negatibo. Ang teknolohiyang ito ay ginagamit sa maraming kilalang kumpanya sa mundo.

May mga tinatawag na mga alerto", na ipaalam sa mga tagapamahala na nagsasabi na ang susunod na halaga sa isang tiyak na direksyon lumampas agwat ng kumpiyansa. Anong ibig sabihin nito? Isa itong senyales na may nangyaring hindi karaniwang kaganapan, na maaaring magbago sa kasalukuyang trend sa direksyong ito. Ito ang senyales sa ganyan upang ayusin ito sa sitwasyon at unawain kung ano ang nakaimpluwensya nito.

Halimbawa, isaalang-alang ang ilang sitwasyon. Kinakalkula namin ang forecast ng mga benta na may mga hangganan ng pagtataya para sa 100 mga item ng kalakal para sa 2011 ayon sa mga buwan at aktwal na mga benta noong Marso:

  1. Para sa "Sunflower oil" nalampasan nila ang itaas na limitasyon ng forecast at hindi nahulog sa agwat ng kumpiyansa.
  2. Para sa "Dry yeast" ay lumampas sa mas mababang limitasyon ng hula.
  3. Sa "Oatmeal Porridge" ay nakalusot sa itaas na limitasyon.

Para sa iba pang mga kalakal, ang mga aktwal na benta ay nasa loob ng tinukoy na mga limitasyon sa pagtataya. Yung. ang kanilang mga benta ay naaayon sa inaasahan. Kaya, natukoy namin ang 3 produkto na lumampas sa mga hangganan, at nagsimulang malaman kung ano ang nakaimpluwensya sa paglampas sa mga hangganan:

  1. Sa Sunflower Oil, pumasok kami sa isang bagong network ng kalakalan, na nagbigay sa amin ng karagdagang dami ng benta, na humantong sa paglampas sa pinakamataas na limitasyon. Para sa produktong ito, ito ay nagkakahalaga ng muling pagkalkula ng forecast hanggang sa katapusan ng taon, na isinasaalang-alang ang forecast para sa mga benta sa chain na ito.
  2. Para sa Dry Yeast, ang kotse ay natigil sa customs, at nagkaroon ng kakulangan sa loob ng 5 araw, na nakaapekto sa pagbaba ng mga benta at paglampas sa lower border. Maaaring sulit na malaman kung ano ang sanhi ng dahilan at subukang huwag ulitin ang sitwasyong ito.
  3. Para sa Oatmeal, isang promosyon sa pagbebenta ang inilunsad, na nagresulta sa isang makabuluhang pagtaas sa mga benta at humantong sa isang overshoot ng forecast.

Natukoy namin ang 3 salik na nakaimpluwensya sa overshoot ng hula. Maaaring marami pa ang mga ito sa buhay. Upang mapabuti ang katumpakan ng pagtataya at pagpaplano, ang mga salik na humahantong sa katotohanan na ang aktwal na mga benta ay maaaring lumampas sa hula, ito ay nagkakahalaga ng pag-highlight at pagbuo ng mga pagtataya at mga plano para sa kanila nang hiwalay. At pagkatapos ay isaalang-alang ang kanilang epekto sa pangunahing pagtataya ng mga benta. Maaari mo ring regular na suriin ang epekto ng mga salik na ito at baguhin ang sitwasyon para sa mas mahusay para sa sa pamamagitan ng pagbabawas ng impluwensya ng negatibo at pagtaas ng impluwensya ng mga positibong salik.

Sa pagitan ng kumpiyansa, maaari nating:

  1. I-highlight ang mga destinasyon, na kung saan ay nagkakahalaga ng pagbibigay pansin sa, dahil mga pangyayaring naganap sa mga lugar na ito na maaaring makaapekto pagbabago sa kalakaran.
  2. Tukuyin ang mga Salik na talagang gumawa ng isang pagkakaiba.
  3. Upang tanggapin timbang na desisyon(halimbawa, tungkol sa pagkuha, kapag nagpaplano, atbp.).

Ngayon tingnan natin kung ano ang agwat ng kumpiyansa at kung paano kalkulahin ito sa Excel gamit ang isang halimbawa.

Ano ang confidence interval?

Ang agwat ng kumpiyansa ay ang mga hangganan ng pagtataya (itaas at ibaba), kung saan na may ibinigay na posibilidad (sigma) makuha ang aktwal na mga halaga.

Yung. kinakalkula namin ang forecast - ito ang aming pangunahing benchmark, ngunit naiintindihan namin na ang aktwal na mga halaga ay malamang na hindi 100% katumbas ng aming forecast. At ang tanong ay lumitaw hanggang saan maaaring makakuha ng mga aktwal na halaga, kung magpapatuloy ang kasalukuyang kalakaran? At ang tanong na ito ay makakatulong sa amin na masagot pagkalkula ng agwat ng kumpiyansa, ibig sabihin. - upper at lower bounds ng forecast.

Ano ang ibinigay na probability sigma?

Kapag nagkalkula confidence interval kaya natin itakda ang posibilidad mga hit aktwal na mga halaga sa loob ng ibinigay na mga hangganan ng pagtataya. Paano ito gagawin? Upang gawin ito, itinakda namin ang halaga ng sigma at, kung ang sigma ay katumbas ng:

    3 sigma- pagkatapos, ang posibilidad na maabot ang susunod na aktwal na halaga sa pagitan ng kumpiyansa ay magiging 99.7%, o 300 hanggang 1, o mayroong 0.3% na posibilidad na lumampas sa mga hangganan.

    2 sigma- kung gayon, ang posibilidad na maabot ang susunod na halaga sa loob ng mga hangganan ay ≈ 95.5%, i.e. ang mga logro ay humigit-kumulang 20 hanggang 1, o mayroong 4.5% na posibilidad na lumampas sa mga hangganan.

    1 sigma- pagkatapos, ang posibilidad ay ≈ 68.3%, ibig sabihin. ang mga pagkakataon ay humigit-kumulang 2 hanggang 1, o mayroong 31.7% na pagkakataon na ang susunod na halaga ay babagsak sa labas ng agwat ng kumpiyansa.

Nag-formula kami 3 Sigma Rule,na nagsasabi na hit probability isa pang random na halaga sa pagitan ng kumpiyansa na may ibinigay na halaga tatlong sigma ay 99.7%.

Pinatunayan ng mahusay na Russian mathematician na si Chebyshev ang isang theorem na mayroong 10% na pagkakataon na lumampas sa mga hangganan ng isang forecast na may ibinigay na halaga ng tatlong sigma. Yung. ang posibilidad na mahulog sa 3 sigma confidence interval ay hindi bababa sa 90%, habang ang isang pagtatangka upang kalkulahin ang forecast at ang mga hangganan nito "sa pamamagitan ng mata" ay puno ng mas makabuluhang mga error.

Paano malayang kalkulahin ang agwat ng kumpiyansa sa Excel?

Isaalang-alang natin ang pagkalkula ng agwat ng kumpiyansa sa Excel (ibig sabihin, ang upper at lower bounds ng forecast) gamit ang isang halimbawa. Mayroon kaming serye ng oras - mga benta sa pamamagitan ng mga buwan sa loob ng 5 taon. Tingnan ang naka-attach na file.

Upang kalkulahin ang mga hangganan ng forecast, kinakalkula namin:

  1. Pagtataya ng benta().
  2. Sigma - karaniwang paglihis mga modelo ng hula mula sa mga aktwal na halaga.
  3. Tatlong sigma.
  4. Agwat ng kumpiyansa.

1. Pagtataya ng benta.

=(RC[-14] (data sa time series)-RC[-1] (halaga ng modelo))^2(kuwadrado)


3. Sum para sa bawat buwan ang mga halaga ng paglihis mula sa stage 8 Sum((Xi-Ximod)^2), i.e. Isama natin ang Enero, Pebrero... para sa bawat taon.

Upang gawin ito, gamitin ang formula =SUMIF()

SUMIF(array na may mga bilang ng mga tuldok sa loob ng cycle (para sa mga buwan mula 1 hanggang 12); reference sa bilang ng period sa cycle; reference sa array na may mga parisukat ng pagkakaiba sa pagitan ng paunang data at mga halaga ng mga panahon)


4. Kalkulahin ang standard deviation para sa bawat yugto sa cycle mula 1 hanggang 12 (stage 10 sa kalakip na file).

Upang gawin ito, mula sa halaga na kinakalkula sa yugto 9, kinukuha namin ang ugat at hinahati sa bilang ng mga yugto sa siklong ito na minus 1 = ROOT((Sum(Xi-Ximod)^2/(n-1))

Gamitin natin ang mga formula sa Excel =ROOT(R8 (sanggunian sa (Sum(Xi-Ximod)^2)/(COUNTIF($O$8:$O$67 (reference sa isang array na may mga cycle number); O8 (sanggunian sa isang tiyak na numero ng cycle, na isinasaalang-alang namin sa array))-1))

Gamit ang Excel formula = COUNTIF binibilang namin ang bilang n


Sa pamamagitan ng pagkalkula ng karaniwang paglihis ng aktwal na data mula sa modelo ng pagtataya, nakuha namin ang halaga ng sigma para sa bawat buwan - yugto 10 sa kalakip na file.

3. Kalkulahin ang 3 sigma.

Sa yugto 11, itinakda namin ang bilang ng mga sigma - sa aming halimbawa, "3" (yugto 11 sa kalakip na file):

Gayundin ang mga praktikal na halaga ng sigma:

1.64 sigma - 10% na pagkakataong lumampas sa limitasyon (1 pagkakataon sa 10);

1.96 sigma - 5% na posibilidad na lumampas sa mga hangganan (1 pagkakataon sa 20);

2.6 sigma - 1% na posibilidad na lumampas sa mga hangganan (1 sa 100 na pagkakataon).

5) Kinakalkula namin ang tatlong sigma, para dito pinarami namin ang mga halaga ng "sigma" para sa bawat buwan ng "3".

3. Tukuyin ang pagitan ng kumpiyansa.

  1. Pinakamataas na limitasyon sa pagtataya- forecast ng mga benta na isinasaalang-alang ang paglago at seasonality + (plus) 3 sigma;
  2. Lower Forecast Bound- forecast ng benta na isinasaalang-alang ang paglago at seasonality - (minus) 3 sigma;

Para sa kaginhawaan ng pagkalkula ng agwat ng kumpiyansa sa mahabang panahon (tingnan ang nakalakip na file), ginagamit namin ang formula ng Excel =Y8+VLOOKUP(W8;$U$8:$V$19;2;0), saan

Y8- pagtataya ng mga benta;

W8- ang bilang ng buwan kung saan kukunin namin ang halaga ng 3 sigma;

Yung. Pinakamataas na limitasyon sa pagtataya= "sales forecast" + "3 sigma" (sa halimbawa, VLOOKUP(month number; table na may 3 sigma values; column kung saan kinukuha namin ang sigma value na katumbas ng buwan na numero sa kaukulang row; 0)).

Lower Forecast Bound= "pagtataya ng benta" bawas "3 sigma".

Kaya, nakalkula namin ang agwat ng kumpiyansa sa Excel.

Ngayon ay mayroon na tayong forecast at isang hanay na may mga hangganan kung saan ang mga aktwal na halaga ay mahuhulog na may ibinigay na probability sigma.

Sa artikulong ito, tiningnan namin kung ano ang sigma at ang tatlong sigma na panuntunan, kung paano matukoy ang agwat ng kumpiyansa, at kung ano ang magagamit mo sa pamamaraang ito sa pagsasanay.

Tumpak na mga hula at tagumpay sa iyo!

Paano Matutulungan ka ng Forecast4AC PROkapag kinakalkula ang agwat ng kumpiyansa?:

    Awtomatikong kakalkulahin ng Forecast4AC PRO ang itaas o mas mababang mga limitasyon sa pagtataya para sa higit sa 1000 serye ng oras nang sabay-sabay;

    Ang kakayahang pag-aralan ang mga hangganan ng forecast kumpara sa forecast, trend at aktwal na mga benta sa chart na may isang keystroke;

Sa programang Forcast4AC PRO, posibleng itakda ang halaga ng sigma mula 1 hanggang 3.

Sumali ka!

I-download ang Libreng Pagtataya at Business Intelligence Apps:


  • Novo Forecast Lite- awtomatiko pagkalkula ng pagtataya sa excel.
  • 4analytics- Pagsusuri ng ABC-XYZ at pagsusuri ng mga emisyon sa Excel.
  • Qlik Sense Desktop at Qlik ViewPersonal na Edisyon - Mga sistema ng BI para sa pagsusuri at visualization ng data.

Subukan ang mga tampok ng mga bayad na solusyon:

  • Novo Forecast PRO- pagtataya sa Excel para sa malalaking hanay ng data.