Bumuo ng agwat ng kumpiyansa para sa inaasahan sa matematika. Mga agwat ng kumpiyansa para sa pagtatantya ng inaasahan sa matematika

At iba pa. Lahat ng mga ito ay mga pagtatantya ng kanilang mga teoretikal na katapat, na maaaring makuha kung walang sample, ngunit ang pangkalahatang populasyon. Ngunit sayang, ang pangkalahatang populasyon ay napakamahal at kadalasan ay hindi magagamit.

Ang konsepto ng pagtatantya ng pagitan

Ang anumang sample na pagtatantya ay may ilang scatter, dahil ay isang random na variable depende sa mga halaga sa isang partikular na sample. Samakatuwid, para sa mas maaasahang istatistikal na inferences, dapat malaman hindi lamang ang point estimate, kundi pati na rin ang interval, na may mataas na posibilidad. γ Sinasaklaw ng (gamma) ang tinantyang tagapagpahiwatig θ (theta).

Pormal, ito ay dalawang ganoong halaga (mga istatistika) T1(X) at T2(X), Ano T1< T 2 , kung saan sa isang naibigay na antas ng posibilidad γ natugunan ang kondisyon:

Sa madaling salita, malamang γ o higit pa ang tunay na halaga ay nasa pagitan ng mga puntos T1(X) at T2(X), na tinatawag na lower at upper bounds agwat ng kumpiyansa.

Ang isa sa mga kondisyon para sa pagbuo ng mga agwat ng kumpiyansa ay ang pinakamataas na makitid nito, i.e. ito ay dapat na maikli hangga't maaari. Ang pagnanais ay medyo natural, dahil. sinusubukan ng mananaliksik na mas tumpak na i-localize ang paghahanap ng nais na parameter.

Ito ay sumusunod na ang agwat ng kumpiyansa ay dapat sumaklaw sa pinakamataas na posibilidad ng pamamahagi. at ang score mismo ay nasa gitna.

Iyon ay, ang posibilidad ng paglihis (ng tunay na tagapagpahiwatig mula sa pagtatantya) pataas ay katumbas ng posibilidad ng paglihis pababa. Dapat ding tandaan na para sa mga skewed distribution, ang interval sa kanan ay hindi katumbas ng interval sa kaliwa.

Ang figure sa itaas ay malinaw na nagpapakita na mas malaki ang antas ng kumpiyansa, mas malawak ang pagitan - isang direktang relasyon.

Ito ay isang maliit na panimula sa teorya ng pagtatantya ng pagitan ng hindi kilalang mga parameter. Lumipat tayo sa paghahanap ng mga limitasyon ng kumpiyansa para sa inaasahan sa matematika.

Agwat ng kumpiyansa para sa inaasahan sa matematika

Kung ang orihinal na data ay ibinahagi sa , ang average ay magiging isang normal na halaga. Ito ay sumusunod mula sa panuntunan na ang isang linear na kumbinasyon ng mga normal na halaga ay mayroon ding isang normal na distribusyon. Samakatuwid, upang kalkulahin ang mga probabilidad, maaari naming gamitin ang mathematical apparatus ng normal na batas sa pamamahagi.

Gayunpaman, mangangailangan ito ng kaalaman sa dalawang parameter - ang inaasahang halaga at ang pagkakaiba, na karaniwang hindi alam. Maaari mong, siyempre, gumamit ng mga pagtatantya sa halip na mga parameter (arithmetic mean at ), ngunit pagkatapos ay ang pamamahagi ng ibig sabihin ay hindi magiging normal, ito ay bahagyang pipi. Mahusay na napansin ng mamamayang si William Gosset ng Ireland ang katotohanang ito nang ilathala niya ang kanyang natuklasan sa Marso 1908 na isyu ng Biometrica. Para sa mga layuning lihim, lumagda si Gosset kasama ang Mag-aaral. Ganito lumabas ang t-distribution ng Student.

Gayunpaman, ang normal na pamamahagi ng data, na ginamit ni K. Gauss sa pagsusuri ng mga pagkakamali sa mga obserbasyon sa astronomiya, ay napakabihirang sa buhay sa lupa at medyo mahirap itatag ito (mga 2 libong obserbasyon ang kailangan para sa mataas na katumpakan). Samakatuwid, pinakamahusay na i-drop ang normality assumption at gumamit ng mga pamamaraan na hindi nakadepende sa pamamahagi ng orihinal na data.

Ang tanong ay lumitaw: ano ang pamamahagi ng arithmetic mean kung ito ay kinakalkula mula sa data ng isang hindi kilalang pamamahagi? Ang sagot ay ibinigay ng kilalang in probability theory Central limit theorem(CPT). Sa matematika, mayroong ilang mga bersyon nito (ang mga pormulasyon ay pino sa paglipas ng mga taon), ngunit lahat ng mga ito, sa halos pagsasalita, ay bumaba sa pahayag na ang kabuuan ng isang malaking bilang ng mga independiyenteng random na mga variable ay sumusunod sa normal na batas sa pamamahagi.

Kapag kinakalkula ang arithmetic mean, ang kabuuan ng mga random na variable ay ginagamit. Mula dito lumalabas na ang arithmetic mean ay may normal na distribusyon, kung saan ang inaasahang halaga ay ang inaasahang halaga ng paunang data, at ang pagkakaiba ay .

Alam ng mga matalinong tao kung paano patunayan ang CLT, ngunit ibe-verify namin ito sa tulong ng isang eksperimento na isinagawa sa Excel. Gayahin natin ang isang sample ng 50 pare-parehong ipinamahagi na random variable (gamit ang Excel function na RANDOMBETWEEN). Pagkatapos ay gagawa kami ng 1000 tulad ng mga sample at kalkulahin ang arithmetic mean para sa bawat isa. Tingnan natin ang kanilang pamamahagi.

Makikita na ang distribusyon ng average ay malapit sa normal na batas. Kung ang dami ng mga sample at ang kanilang bilang ay gagawing mas malaki, kung gayon ang pagkakatulad ay magiging mas mahusay.

Ngayon na nakita natin sa ating sarili ang bisa ng CLT, maaari nating, gamit ang , kalkulahin ang mga pagitan ng kumpiyansa para sa arithmetic mean, na sumasaklaw sa tunay na mean o mathematical na inaasahan na may ibinigay na posibilidad.

Upang maitatag ang itaas at mas mababang mga hangganan, kinakailangan na malaman ang mga parameter ng normal na pamamahagi. Bilang isang patakaran, hindi sila, samakatuwid, ang mga pagtatantya ay ginagamit: ibig sabihin ng aritmetika at sample na pagkakaiba-iba. Muli, ang pamamaraang ito ay nagbibigay ng isang mahusay na approximation para lamang sa malalaking sample. Kapag ang mga sample ay maliit, madalas na inirerekomenda na gamitin ang pamamahagi ng Mag-aaral. Huwag maniwala! Ang distribusyon ng mag-aaral para sa mean ay nangyayari lamang kapag ang orihinal na data ay may normal na distribusyon, iyon ay, halos hindi kailanman. Samakatuwid, mas mahusay na agad na itakda ang minimum na bar para sa dami ng kinakailangang data at gumamit ng mga asymptotically correct na pamamaraan. Sabi nila, sapat na ang 30 obserbasyon. Kumuha ng 50 - hindi ka maaaring magkamali.

T 1.2 ay ang lower at upper bounds ng confidence interval

– sample na arithmetic mean

s0– sample na standard deviation (walang pinapanigan)

n – laki ng sample

γ – antas ng kumpiyansa (karaniwang katumbas ng 0.9, 0.95 o 0.99)

c γ =Φ -1 ((1+γ)/2) ay ang kapalit ng karaniwang normal na distribution function. Sa simpleng mga termino, ito ang bilang ng mga karaniwang error mula sa arithmetic mean hanggang sa lower o upper bound (ang ipinahiwatig na tatlong probabilidad ay tumutugma sa mga halaga ng 1.64, 1.96 at 2.58).

Ang kakanyahan ng formula ay ang arithmetic mean ay kinuha at pagkatapos ay isang tiyak na halaga ay itabi mula dito ( kasama ang γ) mga karaniwang error ( s 0 /√n). Lahat ay alam, kunin at bilangin.

Bago ang malawakang paggamit ng mga PC, upang makuha ang mga halaga ng normal na function ng pamamahagi at ang kabaligtaran nito, ginamit nila . Ginagamit pa rin ang mga ito, ngunit mas mahusay na bumaling sa mga yari na formula ng Excel. Ang lahat ng elemento mula sa formula sa itaas ( , at ) ay madaling kalkulahin sa Excel. Ngunit mayroon ding isang handa na formula para sa pagkalkula ng agwat ng kumpiyansa - NORM NG tiwala sa sarili. Ang syntax nito ay ang mga sumusunod.

CONFIDENCE NORM(alpha, standard_dev, size)

alpha– antas ng kabuluhan o antas ng kumpiyansa, na sa notasyon sa itaas ay katumbas ng 1-γ, i.e. ang posibilidad na ang mathematicalang inaasahan ay nasa labas ng confidence interval. Sa antas ng kumpiyansa na 0.95, ang alpha ay 0.05, at iba pa.

standard_off ay ang standard deviation ng sample data. Hindi mo kailangang kalkulahin ang karaniwang error, hahatiin ng Excel sa ugat ng n.

ang sukat– laki ng sample (n).

Ang resulta ng function na CONFIDENCE.NORM ay ang pangalawang termino mula sa formula para sa pagkalkula ng agwat ng kumpiyansa, i.e. kalahating pagitan. Alinsunod dito, ang mas mababa at itaas na mga puntos ay ang average ± ang nakuhang halaga.

Kaya, posible na bumuo ng isang unibersal na algorithm para sa pagkalkula ng mga agwat ng kumpiyansa para sa arithmetic mean, na hindi nakasalalay sa pamamahagi ng paunang data. Ang presyo para sa pagiging pangkalahatan ay ang asymptotic na kalikasan nito, i.e. ang pangangailangang gumamit ng medyo malalaking sample. Gayunpaman, sa panahon ng modernong teknolohiya, ang pagkolekta ng tamang dami ng data ay karaniwang hindi mahirap.

Pagsubok sa Statistical Hypotheses Gamit ang Confidence Interval

(module 111)

Ang isa sa mga pangunahing problema na nalutas sa istatistika ay. Sa maikling salita, ang kakanyahan nito ay ito. Ang isang pagpapalagay ay ginawa, halimbawa, na ang inaasahan ng pangkalahatang populasyon ay katumbas ng ilang halaga. Pagkatapos ay itinayo ang pamamahagi ng mga sample na paraan, na maaaring maobserbahan sa isang naibigay na inaasahan. Susunod, titingnan natin kung saan sa kondisyonal na pamamahagi na ito ang tunay na average ay matatagpuan. Kung ito ay lumampas sa pinahihintulutang mga limitasyon, kung gayon ang hitsura ng naturang average ay napaka-malamang, at sa isang solong pag-uulit ng eksperimento ito ay halos imposible, na sumasalungat sa hypothesis na iniharap, na matagumpay na tinanggihan. Kung ang average ay hindi lalampas sa kritikal na antas, kung gayon ang hypothesis ay hindi tinatanggihan (ngunit hindi rin ito napatunayan!).

Kaya, sa tulong ng mga agwat ng kumpiyansa, sa aming kaso para sa inaasahan, maaari mo ring subukan ang ilang mga hypotheses. Napakadaling gawin. Ipagpalagay na ang arithmetic mean para sa ilang sample ay 100. Ang hypothesis ay sinusubok na ang inaasahan ay, sabihin nating, 90. Ibig sabihin, kung ilalagay natin ang tanong sa primitively, ito ay parang ganito: maaari ba na, na may tunay na halaga ng ibig sabihin katumbas ng 90, ang naobserbahang average ay 100?

Upang masagot ang tanong na ito, kakailanganin ang karagdagang impormasyon sa karaniwang paglihis at laki ng sample. Sabihin nating ang karaniwang paglihis ay 30, at ang bilang ng mga obserbasyon ay 64 (upang madaling makuha ang ugat). Kung gayon ang karaniwang error ng mean ay 30/8 o 3.75. Upang kalkulahin ang 95% na agwat ng kumpiyansa, kakailanganin mong magtabi ng dalawang karaniwang error sa magkabilang panig ng mean (mas tiyak, 1.96). Ang confidence interval ay magiging humigit-kumulang 100 ± 7.5, o mula 92.5 hanggang 107.5.

Ang karagdagang pangangatwiran ay ang mga sumusunod. Kung ang nasubok na halaga ay nasa loob ng agwat ng kumpiyansa, kung gayon hindi ito sumasalungat sa hypothesis, dahil umaangkop sa loob ng mga limitasyon ng mga random na pagbabagu-bago (na may posibilidad na 95%). Kung ang nasubok na punto ay nasa labas ng agwat ng kumpiyansa, kung gayon ang posibilidad ng naturang kaganapan ay napakaliit, sa anumang kaso sa ibaba ng katanggap-tanggap na antas. Samakatuwid, ang hypothesis ay tinanggihan bilang sumasalungat sa naobserbahang data. Sa aming kaso, ang expectation hypothesis ay nasa labas ng confidence interval (ang nasubok na value na 90 ay hindi kasama sa interval na 100±7.5), kaya dapat itong tanggihan. Ang pagsagot sa primitive na tanong sa itaas, dapat sabihin ng isa: hindi, hindi ito maaaring, sa anumang kaso, ito ay napakabihirang mangyari. Kadalasan, ito ay nagpapahiwatig ng isang tiyak na posibilidad ng maling pagtanggi sa hypothesis (p-level), at hindi isang naibigay na antas, ayon sa kung saan ang agwat ng kumpiyansa ay binuo, ngunit higit pa sa ibang pagkakataon.

Tulad ng nakikita mo, hindi mahirap bumuo ng isang agwat ng kumpiyansa para sa mean (o inaasahan sa matematika). Ang pangunahing bagay ay upang mahuli ang kakanyahan, at pagkatapos ay pupunta ang mga bagay. Sa pagsasagawa, karamihan ay gumagamit ng 95% na agwat ng kumpiyansa, na humigit-kumulang sa dalawang karaniwang error sa magkabilang panig ng mean.

Yun lang muna. Lahat ng pinakamahusay!

Hayaang gumawa ng sample mula sa isang pangkalahatang populasyon na napapailalim sa batas normal pamamahagi XN( m; ). Ang pangunahing pagpapalagay na ito ng mga istatistika ng matematika ay batay sa gitnang teorama ng limitasyon. Hayaang malaman ang pangkalahatang standard deviation , ngunit ang matematikal na inaasahan ng teoretikal na pamamahagi ay hindi alam m(ibig sabihin).

Sa kasong ito, ang ibig sabihin ng sample , na nakuha sa panahon ng eksperimento (seksyon 3.4.2), ay magiging isang random na variable din m;
). Pagkatapos ay ang "normalized" na paglihis
Ang N(0;1) ay isang karaniwang normal na random na variable.

Ang problema ay upang makahanap ng isang pagtatantya ng pagitan para sa m. Bumuo tayo ng two-sided confidence interval para sa m upang ang tunay na pag-asa sa matematika ay pag-aari niya na may ibinigay na posibilidad (kaasahan) .

Magtakda ng ganoong agwat para sa halaga
nangangahulugang hanapin ang pinakamataas na halaga ng dami na ito
at pinakamababa
, na siyang mga hangganan ng kritikal na rehiyon:
.

kasi ang posibilidad na ito ay
, pagkatapos ay ang ugat ng equation na ito
ay matatagpuan gamit ang mga talahanayan ng Laplace function (Talahanayan 3, Appendix 1).

Pagkatapos ay may posibilidad ito ay maaaring argued na ang random variable
, ibig sabihin, ang nais na pangkalahatang mean ay kabilang sa pagitan
. (3.13)

ang halaga
(3.14)

tinawag katumpakan mga pagtatantya.

Numero
dami normal na distribusyon - maaaring matagpuan bilang argumento ng Laplace function (Talahanayan 3, Appendix 1), na ibinigay sa ratio na 2Ф( u)=, ibig sabihin. F( u)=
.

Sa kabaligtaran, ayon sa tinukoy na halaga ng paglihis posibleng mahanap kung anong posibilidad ang hindi alam na pangkalahatang ibig sabihin ay kabilang sa pagitan
. Upang gawin ito, kailangan mong kalkulahin

. (3.15)

Hayaang kunin ang isang random na sample mula sa pangkalahatang populasyon sa pamamagitan ng paraan ng muling pagpili. Mula sa equation
maaaring matagpuan pinakamababa dami ng resampling n kinakailangan upang matiyak na ang agwat ng kumpiyansa na may ibinigay na pagiging maaasahan hindi lumampas sa preset na halaga . Ang kinakailangang laki ng sample ay tinatantya gamit ang formula:

. (3.16)

Paggalugad katumpakan ng pagtatantya
:

1) Sa pagtaas ng laki ng sample n magnitude bumababa, at samakatuwid ang katumpakan ng pagtatantya nadadagdagan.

2) C pagtaas pagiging maaasahan ng mga pagtatantya ang halaga ng argumento ay nadaragdagan u(dahil F(u) tumataas monotonically) at samakatuwid nadadagdagan . Sa kasong ito, ang pagtaas sa pagiging maaasahan binabawasan ang katumpakan ng pagtatasa nito .

Tantyahin
(3.17)

tinawag klasiko(saan t ay isang parameter na nakasalalay sa at n), dahil nailalarawan nito ang pinakamadalas na nakakaharap na mga batas sa pamamahagi.

3.5.3 Mga agwat ng kumpiyansa para sa pagtatantya ng inaasahan ng isang normal na distribusyon na may hindi kilalang standard deviation 

Ipaalam na ang pangkalahatang populasyon ay napapailalim sa batas ng normal na pamamahagi XN( m;), kung saan ang halaga root ibig sabihin ng square mga paglihis hindi kilala.

Upang bumuo ng isang agwat ng kumpiyansa para sa pagtantya ng pangkalahatang ibig sabihin, sa kasong ito, ginagamit ang mga istatistika
, na mayroong pamamahagi ng Mag-aaral na may k= n–1 antas ng kalayaan. Ito ay sumusunod mula sa katotohanan na N(0;1) (tingnan ang aytem 3.5.2), at
(tingnan ang sugnay 3.5.3) at mula sa kahulugan ng pamamahagi ng Mag-aaral (bahagi 1.sugnay 2.11.2).

Hanapin natin ang katumpakan ng klasikal na pagtatantya ng distribusyon ng Mag-aaral: i.e. hanapin t mula sa formula (3.17). Hayaan ang posibilidad na matupad ang hindi pagkakapantay-pantay
ibinigay ng pagiging maaasahan :

. (3.18)

Dahil ang TSt( n-1), ito ay malinaw na t depende sa at n, kaya kadalasan nagsusulat kami
.

(3.19)

saan
ay ang function ng pamamahagi ng Mag-aaral na may n-1 antas ng kalayaan.

Paglutas ng equation na ito para sa m, nakukuha namin ang pagitan
na may pagiging maaasahan  sumasaklaw sa hindi alam na parameter m.

Halaga t , n-1 , ginagamit upang matukoy ang pagitan ng kumpiyansa ng isang random na variable T(n-1), ipinamahagi ng Mag-aaral na may n-1 degree ng kalayaan ang tawag Koepisyent ng mag-aaral. Dapat itong matagpuan ayon sa mga ibinigay na halaga n at  mula sa mga talahanayan na "Mga kritikal na punto ng pamamahagi ng Mag-aaral". (Talahanayan 6, Appendix 1), na siyang mga solusyon ng equation (3.19).

Bilang resulta, nakukuha namin ang sumusunod na expression katumpakan agwat ng kumpiyansa para sa pagtatantya ng inaasahan sa matematika (pangkalahatang ibig sabihin), kung hindi alam ang pagkakaiba:

(3.20)

Kaya, mayroong isang pangkalahatang pormula para sa pagbuo ng mga agwat ng kumpiyansa para sa inaasahan sa matematika ng pangkalahatang populasyon:

nasaan ang katumpakan ng agwat ng kumpiyansa depende sa kilala o hindi kilalang pagkakaiba ay matatagpuan ayon sa mga formula ayon sa pagkakabanggit 3.16. at 3.20.

Gawain 10. Ang ilang mga pagsubok ay isinagawa, ang mga resulta nito ay nakalista sa talahanayan:

x i

Nabatid na sinusunod nila ang normal na batas sa pamamahagi kasama ang
. Maghanap ng pagtatantya m* para sa pag-asa sa matematika m, bumuo ng 90% confidence interval para dito.

Solusyon:

Kaya, m(2.53;5.47).

Gawain 11. Ang lalim ng dagat ay sinusukat ng isang instrumento na ang sistematikong error ay 0, at ang mga random na error ay ipinamamahagi ayon sa normal na batas, na may karaniwang paglihis. =15m. Gaano karaming mga independiyenteng sukat ang dapat gawin upang matukoy ang lalim na may mga error na hindi hihigit sa 5 m na may antas ng kumpiyansa na 90%?

Solusyon:

Sa kondisyon ng problema, mayroon tayo XN( m; ), saan =15m, =5m, =0.9. Hanapin natin ang volume n.

1) Sa ibinigay na pagiging maaasahan = 0.9, makikita natin mula sa mga talahanayan 3 (Appendix 1) ang argumento ng Laplace function u = 1.65.

2) Pag-alam sa ibinigay na katumpakan ng pagtatantya =u=5, hanapin
. Meron kami

. Samakatuwid, ang bilang ng mga pagsubok n25.

Gawain 12. Pagsa-sample ng temperatura t para sa unang 6 na araw ng Enero ay ipinakita sa talahanayan:

Maghanap ng Confidence Interval para sa Inaasahan m pangkalahatang populasyon na may posibilidad ng kumpiyansa
at tantyahin ang pangkalahatang karaniwang paglihis s.

Solusyon:


at
.

2) Walang pinapanigan na pagtatantya hanapin sa pamamagitan ng formula
:

=-175

=234.84

;
;

=-192

=116


.

3) Dahil ang pangkalahatang pagkakaiba ay hindi alam, ngunit ang pagtatantya nito ay kilala, pagkatapos ay tantiyahin ang matematikal na inaasahan m ginagamit namin ang distribusyon ng Mag-aaral (Talahanayan 6, Annex 1) at formula (3.20).

kasi n 1 =n 2 =6, pagkatapos ,
, s 1 =6.85 mayroon kaming:
, kaya -29.2-4.1<m 1 < -29.2+4.1.

Samakatuwid -33.3<m 1 <-25.1.

Katulad nito, mayroon kami
, s 2 = 4.8, kaya

–34.9< m 2 < -29.1. Тогда доверительные интервалы примут вид: m 1 (-33.3;-25.1) at m 2 (-34.9;-29.1).

Sa mga inilapat na agham, halimbawa, sa mga disiplina sa konstruksiyon, ang mga talahanayan ng mga agwat ng kumpiyansa ay ginagamit upang masuri ang katumpakan ng mga bagay, na ibinibigay sa nauugnay na literatura ng sanggunian.

Kadalasan ang appraiser ay kailangang suriin ang real estate market ng segment kung saan matatagpuan ang appraisal object. Kung ang merkado ay binuo, maaaring mahirap pag-aralan ang buong hanay ng mga ipinakita na bagay, samakatuwid, ang isang sample ng mga bagay ay ginagamit para sa pagsusuri. Ang sample na ito ay hindi palaging homogenous, kung minsan ay kinakailangan na alisin ito sa mga sukdulan - masyadong mataas o masyadong mababa ang mga alok sa merkado. Para sa layuning ito, inilapat ito agwat ng kumpiyansa. Ang layunin ng pag-aaral na ito ay magsagawa ng comparative analysis ng dalawang pamamaraan para sa pagkalkula ng confidence interval at piliin ang pinakamahusay na opsyon sa pagkalkula kapag nagtatrabaho sa iba't ibang sample sa estimatica.pro system.

Agwat ng kumpiyansa - kinakalkula batay sa sample, ang pagitan ng mga halaga ng katangian, na may kilalang posibilidad ay naglalaman ng tinantyang parameter ng pangkalahatang populasyon.

Ang kahulugan ng pagkalkula ng agwat ng kumpiyansa ay ang pagbuo ng ganoong agwat batay sa sample na data upang ito ay maigiit na may ibinigay na posibilidad na ang halaga ng tinantyang parameter ay nasa pagitan na ito. Sa madaling salita, ang agwat ng kumpiyansa na may tiyak na posibilidad ay naglalaman ng hindi kilalang halaga ng tinantyang dami. Kung mas malawak ang pagitan, mas mataas ang kamalian.

Mayroong iba't ibang mga pamamaraan para sa pagtukoy ng agwat ng kumpiyansa. Sa artikulong ito, isasaalang-alang natin ang 2 paraan:

  • sa pamamagitan ng median at standard deviation;
  • sa pamamagitan ng kritikal na halaga ng t-statistic (koepisyent ng mag-aaral).

Mga yugto ng isang paghahambing na pagsusuri ng iba't ibang mga pamamaraan para sa pagkalkula ng CI:

1. bumuo ng sample ng data;

2. pinoproseso namin ito gamit ang mga istatistikal na pamamaraan: kinakalkula namin ang mean value, median, variance, atbp.;

3. kinakalkula namin ang pagitan ng kumpiyansa sa dalawang paraan;

4. Suriin ang mga nalinis na sample at ang nakuhang confidence interval.

Stage 1. Data sampling

Ang sample ay nabuo gamit ang estimatica.pro system. Kasama sa sample ang 91 na alok para sa pagbebenta ng mga apartment na may 1 silid sa ika-3 na zone ng presyo na may uri ng pagpaplano na "Khrushchev".

Talahanayan 1. Paunang sample

Ang presyo ng 1 sq.m., c.u.

Fig.1. Paunang sample



Stage 2. Pagproseso ng unang sample

Ang pagpoproseso ng sample sa pamamagitan ng mga istatistikal na pamamaraan ay nangangailangan ng pagkalkula ng mga sumusunod na halaga:

1. Arithmetic mean

2. Median - isang numero na nagpapakilala sa sample: eksaktong kalahati ng mga elemento ng sample ay mas malaki kaysa sa median, ang isa pang kalahati ay mas mababa sa median

(para sa isang sample na may kakaibang bilang ng mga halaga)

3. Saklaw - ang pagkakaiba sa pagitan ng maximum at minimum na halaga sa sample

4. Variance - ginagamit upang mas tumpak na matantya ang variation sa data

5. Ang karaniwang paglihis para sa sample (simula dito ay tinutukoy bilang RMS) ay ang pinakakaraniwang tagapagpahiwatig ng pagpapakalat ng mga halaga ng pagsasaayos sa paligid ng arithmetic mean.

6. Coefficient of variation - sumasalamin sa antas ng dispersion ng mga halaga ng pagsasaayos

7. oscillation coefficient - sumasalamin sa kamag-anak na pagbabagu-bago ng mga matinding halaga ng mga presyo sa sample sa paligid ng average

Talahanayan 2. Mga tagapagpahiwatig ng istatistika ng orihinal na sample

Ang coefficient ng variation, na nagpapakilala sa homogeneity ng data, ay 12.29%, ngunit ang coefficient ng oscillation ay masyadong malaki. Kaya, maaari nating sabihin na ang orihinal na sample ay hindi homogenous, kaya magpatuloy tayo sa pagkalkula ng agwat ng kumpiyansa.

Stage 3. Pagkalkula ng agwat ng kumpiyansa

Paraan 1. Pagkalkula sa pamamagitan ng median at standard deviation.

Ang agwat ng kumpiyansa ay tinutukoy bilang mga sumusunod: ang pinakamababang halaga - ang karaniwang paglihis ay ibabawas mula sa median; ang pinakamataas na halaga - ang karaniwang paglihis ay idinagdag sa median.

Kaya, ang agwat ng kumpiyansa (47179 CU; 60689 CU)

kanin. 2. Mga halaga sa loob ng pagitan ng kumpiyansa 1.



Paraan 2. Pagbuo ng agwat ng kumpiyansa sa pamamagitan ng kritikal na halaga ng t-statistics (Koepisyent ng mag-aaral)

S.V. Gribovsky sa aklat na "Mga pamamaraan ng matematika para sa pagtatasa ng halaga ng ari-arian" ay naglalarawan ng isang paraan para sa pagkalkula ng agwat ng kumpiyansa sa pamamagitan ng koepisyent ng Mag-aaral. Kapag nagkalkula sa pamamagitan ng pamamaraang ito, ang estimator mismo ay dapat magtakda ng antas ng kahalagahan ∝, na tumutukoy sa posibilidad na mabuo ang pagitan ng kumpiyansa. Ang mga antas ng kahalagahan ng 0.1 ay karaniwang ginagamit; 0.05 at 0.01. Tumutugma sila sa mga probabilidad ng kumpiyansa na 0.9; 0.95 at 0.99. Sa pamamaraang ito, ang mga tunay na halaga ng inaasahan at pagkakaiba-iba ng matematika ay itinuturing na halos hindi alam (na halos palaging totoo kapag nilutas ang mga problema sa praktikal na pagsusuri).

Formula sa pagitan ng kumpiyansa:

n - laki ng sample;

Ang kritikal na halaga ng t-statistics (Mga distribusyon ng Mag-aaral) na may antas ng kahalagahan ∝, ang bilang ng mga antas ng kalayaan n-1, na tinutukoy ng mga espesyal na talahanayan ng istatistika o gamit ang MS Excel (→"Statistical"→ STUDRASPOBR);

∝ - antas ng kahalagahan, kinukuha namin ang ∝=0.01.

kanin. 2. Mga halaga sa loob ng pagitan ng kumpiyansa 2.

Hakbang 4. Pagsusuri ng iba't ibang paraan upang makalkula ang pagitan ng kumpiyansa

Dalawang paraan ng pagkalkula ng agwat ng kumpiyansa - sa pamamagitan ng median at koepisyent ng Mag-aaral - humantong sa iba't ibang mga halaga ng mga agwat. Alinsunod dito, nakuha ang dalawang magkakaibang purified sample.

Talahanayan 3. Mga tagapagpahiwatig ng istatistika para sa tatlong sample.

Index

Paunang sample

1 opsyon

Opsyon 2

ibig sabihin

Pagpapakalat

Coef. mga pagkakaiba-iba

Coef. mga oscillations

Bilang ng mga retiradong bagay, mga pcs.

Batay sa mga kalkulasyon na isinagawa, maaari nating sabihin na ang mga halaga ng mga pagitan ng kumpiyansa na nakuha ng iba't ibang mga pamamaraan ay nagsalubong, kaya maaari mong gamitin ang alinman sa mga pamamaraan ng pagkalkula sa pagpapasya ng appraiser.

Gayunpaman, naniniwala kami na kapag nagtatrabaho sa estimatica.pro system, ipinapayong pumili ng paraan para sa pagkalkula ng agwat ng kumpiyansa, depende sa antas ng pag-unlad ng merkado:

  • kung ang merkado ay hindi binuo, ilapat ang paraan ng pagkalkula sa pamamagitan ng median at standard deviation, dahil ang bilang ng mga retiradong bagay sa kasong ito ay maliit;
  • kung ang merkado ay binuo, ilapat ang pagkalkula sa pamamagitan ng kritikal na halaga ng t-statistics (estudyante's coefficient), dahil posible na bumuo ng isang malaking paunang sample.

Sa paghahanda ng artikulo ay ginamit:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Mga pamamaraan ng matematika para sa pagtatasa ng halaga ng ari-arian. Moscow, 2014

2. Data mula sa estimatica.pro system

Hayaan ang isang random na variable (maaari nating pag-usapan ang tungkol sa pangkalahatang populasyon) ay ibinahagi ayon sa normal na batas, kung saan ang pagkakaiba D = 2 (> 0) ay kilala. Mula sa pangkalahatang populasyon (sa hanay ng mga bagay kung saan tinutukoy ang isang random na variable), isang sample ng laki n ang ginawa. Ang sample na x 1 , x 2 ,..., x n ay itinuturing bilang isang set ng n independiyenteng random na mga variable na ibinahagi sa parehong paraan tulad ng (ang diskarte na ipinaliwanag sa itaas sa teksto).

Noong nakaraan, ang mga sumusunod na pagkakapantay-pantay ay tinalakay at napatunayan din:

Mx 1 = Mx 2 = ... = Mx n = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Sapat na lamang na patunayan (inaalis namin ang patunay) na ang random variable sa kasong ito ay ipinamamahagi din ayon sa normal na batas.

Tukuyin natin ang hindi kilalang halaga ng M sa pamamagitan ng a at piliin ang numerong d > 0 ayon sa ibinigay na pagiging maaasahan upang ang sumusunod na kondisyon ay masiyahan:

P(-a< d) = (1)

Dahil ang random na variable ay ibinahagi ayon sa normal na batas na may inaasahan sa matematika M = M = a at ang variance D = D / n = 2 / n, nakukuha namin:

P(-a< d) =P(a - d < < a + d) =

Ito ay nananatiling pumili d tulad na ang pagkakapantay-pantay

Para sa sinuman, mahahanap ng isang tao ang gayong numero t mula sa talahanayan na (t) \u003d / 2. Ang numerong ito ay tinatawag minsan dami.

Ngayon mula sa pagkakapantay-pantay

tukuyin ang halaga ng d:

Nakukuha namin ang huling resulta sa pamamagitan ng pagpapakita ng formula (1) sa form:

Ang kahulugan ng huling formula ay ang mga sumusunod: na may pagiging maaasahan, ang agwat ng kumpiyansa

sumasaklaw sa hindi kilalang parameter a = M ng populasyon. Maaari itong masabi nang iba: tinutukoy ng pagtatantya ng punto ang halaga ng parameter M na may katumpakan ng d= t / at pagiging maaasahan.

Isang gawain. Hayaang magkaroon ng pangkalahatang populasyon na may ilang katangian na ipinamahagi ayon sa normal na batas na may dispersion na katumbas ng 6.25. Isang sample ng volume n = 27 ang ginawa at nakuha ang average na sample value ng characteristic = 12. Hanapin ang confidence interval na sumasaklaw sa hindi alam na mathematical expectation ng pinag-aralan na katangian ng pangkalahatang populasyon na may reliability = 0.99.

Solusyon. Una, gamit ang talahanayan para sa Laplace function, nakita namin ang halaga ng t mula sa equation (t) \u003d / 2 \u003d 0.495. Batay sa nakuhang halaga t = 2.58, tinutukoy namin ang katumpakan ng pagtatantya (o kalahati ng haba ng agwat ng kumpiyansa) d: d = 2.52.58 / 1.24. Mula dito makuha natin ang ninanais na agwat ng kumpiyansa: (10.76; 13.24).

istatistikal na hypothesis pangkalahatang variasyonal

Agwat ng kumpiyansa para sa inaasahan ng isang normal na distribusyon na may hindi kilalang pagkakaiba

Hayaan ang isang random na variable na ibinahagi ayon sa normal na batas na may hindi kilalang matematikal na inaasahan M, na tinutukoy namin ng titik a . Gumawa tayo ng sample ng laki n. Alamin natin ang average na sample at naitama ang sample variance s 2 gamit ang mga kilalang formula.

Random na halaga

ibinahagi ayon sa batas ng Mag-aaral na may n - 1 antas ng kalayaan.

Ang gawain ay upang mahanap ang gayong numero t ayon sa ibinigay na pagiging maaasahan at ang bilang ng mga antas ng kalayaan n - 1 upang ang pagkakapantay-pantay

o katumbas na pagkakapantay-pantay

Dito, sa mga panaklong, nakasulat ang kundisyon na ang halaga ng hindi kilalang parameter a ay kabilang sa isang tiyak na agwat, na siyang agwat ng kumpiyansa. Ang mga hangganan nito ay nakasalalay sa pagiging maaasahan, pati na rin sa mga parameter ng sampling at s.

Upang matukoy ang halaga ng t ayon sa magnitude, binabago namin ang pagkakapantay-pantay (2) sa anyo:

Ngayon, ayon sa talahanayan para sa isang random na variable t, na ibinahagi ayon sa batas ng Estudyante, ayon sa posibilidad na 1 - at ang bilang ng mga antas ng kalayaan n - 1, makikita natin ang t. Ang Formula (3) ay nagbibigay ng sagot sa problema.

Isang gawain. Sa control test ng 20 electric lamp, ang average na tagal ng kanilang operasyon ay katumbas ng 2000 oras na may standard deviation (kinakalkula bilang square root ng corrected sample variance) na katumbas ng 11 oras. Ito ay kilala na ang tagal ng pagpapatakbo ng lamp ay isang normal na ibinahagi na random na variable. Tukuyin na may reliability na 0.95 ang confidence interval para sa mathematical expectation ng random variable na ito.

Solusyon. Ang halaga 1 - sa kasong ito ay katumbas ng 0.05. Ayon sa talahanayan ng pamamahagi ng Estudyante, na may bilang ng mga antas ng kalayaan na katumbas ng 19, makikita natin ang: t = 2.093. Kalkulahin natin ngayon ang katumpakan ng pagtatantya: 2.093121/ = 56.6. Mula dito nakukuha natin ang ninanais na agwat ng kumpiyansa: (1943.4; 2056.6).

Bumuo tayo ng agwat ng kumpiyansa sa MS EXCEL para sa pagtatantya ng ibig sabihin ng halaga ng pamamahagi sa kaso ng isang kilalang halaga ng pagkakaiba.

Syempre ang pagpili antas ng pagtitiwala ganap na nakasalalay sa gawain sa kamay. Kaya, ang antas ng kumpiyansa ng pasahero ng hangin sa pagiging maaasahan ng sasakyang panghimpapawid, siyempre, ay dapat na mas mataas kaysa sa antas ng kumpiyansa ng bumibili sa pagiging maaasahan ng bombilya.

Pagbubuo ng Gawain

Ipagpalagay natin na mula sa populasyon pagkuha sample laki n. Ito ay ipinapalagay na karaniwang lihis kilala ang pamamahagi na ito. Kinakailangan sa batayan nito mga sample suriin ang hindi alam ibig sabihin ng pamamahagi(μ, ) at buuin ang katumbas bilateral agwat ng kumpiyansa.

Pagtataya ng Punto

Tulad ng nalalaman mula sa mga istatistika(tawagan natin X cf) ay walang pinapanigan na pagtatantya ng mean ito populasyon at may distribusyon na N(μ;σ 2 /n).

Tandaan: Paano kung kailangan mong magtayo agwat ng kumpiyansa sa kaso ng pamamahagi, na ay hindi normal? Sa kasong ito, dumating upang iligtas, na nagsasabi na may sapat na malaking sukat mga sample n mula sa pamamahagi hindi- normal, sampling distribution ng statistics Х av magiging humigit-kumulang tumutugma normal na pamamahagi may mga parameter na N(μ;σ 2 /n).

Kaya, pagtatantya ng punto gitna mga halaga ng pamamahagi mayroon kami ay sample ibig sabihin, ibig sabihin. X cf. Ngayon, maging abala tayo agwat ng kumpiyansa.

Pagbuo ng agwat ng kumpiyansa

Karaniwan, alam ang pamamahagi at mga parameter nito, maaari nating kalkulahin ang posibilidad na ang isang random na variable ay kukuha ng isang halaga mula sa isang naibigay na agwat. Ngayon gawin natin ang kabaligtaran: hanapin ang agwat kung saan ang random na variable ay nahuhulog na may ibinigay na posibilidad. Halimbawa, mula sa mga ari-arian normal na pamamahagi ito ay kilala na sa isang probabilidad ng 95%, isang random variable na ipinamamahagi sa ibabaw normal na batas, ay mahuhulog sa pagitan ng humigit-kumulang +/- 2 mula sa ibig sabihin ng halaga(tingnan ang artikulo tungkol sa). Ang agwat na ito ay magsisilbing aming prototype para sa agwat ng kumpiyansa.

Ngayon tingnan natin kung alam natin ang pamamahagi , upang kalkulahin ang agwat na ito? Upang masagot ang tanong, dapat nating tukuyin ang anyo ng pamamahagi at mga parameter nito.

Alam natin ang anyo ng pamamahagi normal na pamamahagi(tandaan na pinag-uusapan natin sampling distribution mga istatistika X cf).

Ang parameter na μ ay hindi alam sa amin (kailangan lamang itong tantyahin gamit ang agwat ng kumpiyansa), ngunit mayroon kaming pagtatantya nito X cf, kinakalkula batay sa sample, na maaaring gamitin.

Ang pangalawang parameter ay sample mean na standard deviation malalaman, ito ay katumbas ng σ/√n.

kasi hindi namin alam μ, pagkatapos ay bubuo kami ng pagitan +/- 2 standard deviations hindi galing ibig sabihin ng halaga, ngunit mula sa kilalang pagtatantya nito X cf. Yung. kapag nagkalkula agwat ng kumpiyansa HINDI namin ipagpalagay na X cf babagsak sa pagitan ng +/- 2 standard deviations mula sa μ na may posibilidad na 95%, at ipagpalagay namin na ang pagitan ay +/- 2 standard deviations mula sa X cf na may posibilidad na 95% ay sumasakop sa μ - ang average ng pangkalahatang populasyon, mula saan sample. Ang dalawang pahayag na ito ay katumbas, ngunit ang pangalawang pahayag ay nagpapahintulot sa amin na bumuo agwat ng kumpiyansa.

Bilang karagdagan, pinipino namin ang agwat: isang random na variable na ibinahagi sa ibabaw normal na batas, na may 95% na posibilidad ay nasa pagitan ng +/- 1.960 standard deviations, hindi +/- 2 standard deviations. Ito ay maaaring kalkulahin gamit ang formula \u003d NORM.ST.OBR ((1 + 0.95) / 2), cm. sample na file Sheet Spacing.

Ngayon ay maaari na tayong bumuo ng isang probabilistikong pahayag na magsisilbi sa atin upang mabuo agwat ng kumpiyansa:
"Ang posibilidad na ibig sabihin ng populasyon matatagpuan mula sa sample average sa loob ng 1.960" standard deviations ng sample mean", ay katumbas ng 95%.

Ang halaga ng posibilidad na binanggit sa pahayag ay may espesyal na pangalan , na nauugnay sa antas ng kabuluhan α (alpha) sa pamamagitan ng isang simpleng expression antas ng tiwala =1 . Sa kaso natin lebel ng kahalagahan α =1-0,95=0,05 .

Ngayon, batay sa probabilistikong pahayag na ito, sumusulat kami ng isang expression para sa pagkalkula agwat ng kumpiyansa:

kung saan ang Zα/2 pamantayan normal na pamamahagi(tulad ng isang halaga ng isang random na variable z, Ano P(z>=Zα/2 )=α/2).

Tandaan: Itaas na α/2-quantile tumutukoy sa lapad agwat ng kumpiyansa sa standard deviations sample ibig sabihin. Itaas na α/2-quantile pamantayan normal na pamamahagi ay palaging mas malaki kaysa sa 0, na kung saan ay napaka-maginhawa.

Sa aming kaso, sa α=0.05, itaas na α/2-quantile katumbas ng 1.960. Para sa iba pang antas ng kahalagahan α (10%; 1%) itaas na α/2-quantile Zα/2 maaaring kalkulahin gamit ang formula \u003d NORM.ST.OBR (1-α / 2) o, kung kilala antas ng tiwala, =NORM.ST.OBR((1+antas ng kumpiyansa)/2).

Kadalasan kapag nagtatayo mga agwat ng kumpiyansa para sa pagtatantya ng mean gamitin lamang itaas na α/2-dami at huwag gamitin ibaba ang α/2-dami. Posible ito dahil pamantayan normal na pamamahagi simetriko tungkol sa x-axis ( density ng pamamahagi nito simetriko tungkol sa average, i.e. 0). Samakatuwid, hindi na kailangang kalkulahin mas mababang α/2-quantile(tinatawag lang itong α /2-quantile), dahil ito ay katumbas itaas na α/2-dami na may minus sign.

Alalahanin na, anuman ang hugis ng distribusyon ng x, ang katumbas na random variable X cf ipinamahagi humigit-kumulang ayos lang N(μ;σ 2 /n) (tingnan ang artikulo tungkol sa). Samakatuwid, sa pangkalahatan, ang expression sa itaas para sa agwat ng kumpiyansa ay tinatayang lamang. Kung ang x ay ibinahagi sa ibabaw normal na batas N(μ;σ 2 /n), pagkatapos ay ang expression para sa agwat ng kumpiyansa ay tumpak.

Pagkalkula ng agwat ng kumpiyansa sa MS EXCEL

Solusyonan natin ang problema.
Ang oras ng pagtugon ng isang electronic component sa isang input signal ay isang mahalagang katangian ng isang device. Nais ng isang inhinyero na magplano ng agwat ng kumpiyansa para sa average na oras ng pagtugon sa antas ng kumpiyansa na 95%. Mula sa nakaraang karanasan, alam ng inhinyero na ang karaniwang paglihis ng oras ng pagtugon ay 8 ms. Ito ay kilala na ang inhinyero ay gumawa ng 25 mga sukat upang matantya ang oras ng pagtugon, ang average na halaga ay 78 ms.

Solusyon: Nais malaman ng isang inhinyero ang oras ng pagtugon ng isang elektronikong aparato, ngunit nauunawaan niya na ang oras ng pagtugon ay hindi naayos, ngunit isang random na variable na may sariling pamamahagi. Kaya ang pinakamahusay na maaari niyang asahan ay upang matukoy ang mga parameter at hugis ng pamamahagi na ito.

Sa kasamaang palad, mula sa kondisyon ng problema, hindi namin alam ang anyo ng pamamahagi ng oras ng pagtugon (hindi kailangang maging normal). , hindi rin alam ang pamamahaging ito. Siya lang ang kilala karaniwang lihisσ=8. Samakatuwid, habang hindi namin makalkula ang mga probabilidad at bumuo agwat ng kumpiyansa.

Gayunpaman, bagaman hindi namin alam ang pamamahagi oras hiwalay na tugon, alam namin na ayon sa CPT, sampling distribution average na oras ng pagtugon ay humigit-kumulang normal(Ipapalagay namin na ang mga kondisyon CPT ay ginanap, dahil ang sukat mga sample sapat na malaki (n=25)) .

At saka, karaniwan ang pamamahagi na ito ay katumbas ng ibig sabihin ng halaga mga pamamahagi ng tugon ng yunit, ibig sabihin. μ. PERO karaniwang lihis ng distribusyon na ito (σ/√n) ay maaaring kalkulahin gamit ang formula =8/ROOT(25) .

Nabatid din na nakatanggap ang engineer pagtatantya ng punto parameter μ katumbas ng 78 ms (X cf). Samakatuwid, ngayon maaari naming kalkulahin ang mga probabilidad, dahil alam namin ang form ng pamamahagi ( normal) at mga parameter nito (Х ср at σ/√n).

Gustong malaman ng engineer inaasahang halagaμ ng distribusyon ng oras ng pagtugon. Gaya ng nakasaad sa itaas, ang μ na ito ay katumbas ng inaasahan ng sample distribution ng average na oras ng pagtugon. Kung gagamitin natin normal na pamamahagi N(X cf; σ/√n), kung gayon ang nais na μ ay nasa hanay na +/-2*σ/√n na may posibilidad na humigit-kumulang 95%.

Lebel ng kahalagahan katumbas ng 1-0.95=0.05.

Panghuli, hanapin ang kaliwa at kanang hangganan agwat ng kumpiyansa.
Kaliwang hangganan: \u003d 78-NORM.ST.INR (1-0.05 / 2) * 8 / ROOT (25) = 74,864
kanang hangganan: \u003d 78 + NORM. ST. OBR (1-0.05 / 2) * 8 / ROOT (25) \u003d 81.136

Kaliwang hangganan: =NORM.INV(0.05/2, 78, 8/SQRT(25))
kanang hangganan: =NORM.INV(1-0.05/2, 78, 8/SQRT(25))

Sagot: agwat ng kumpiyansa sa 95% na antas ng kumpiyansa at σ=8msec katumbas 78+/-3.136ms

AT halimbawa ng file sa sheet na Sigma kilala na lumikha ng isang form para sa pagkalkula at pagbuo bilateral agwat ng kumpiyansa para sa arbitraryo mga sample na may ibinigay na σ at lebel ng kahalagahan.

CONFIDENCE.NORM() function

Kung ang mga halaga mga sample ay nasa hanay B20:B79 , a lebel ng kahalagahan katumbas ng 0.05; pagkatapos MS EXCEL formula:
=AVERAGE(B20:B79)-CONFIDENCE(0.05,σ, COUNT(B20:B79))
ibabalik ang kaliwang hangganan agwat ng kumpiyansa.

Ang parehong hangganan ay maaaring kalkulahin gamit ang formula:
=AVERAGE(B20:B79)-NORM.ST.INV(1-0.05/2)*σ/SQRT(COUNT(B20:B79))

Tandaan: Ang TRUST.NORM() function ay lumabas sa MS EXCEL 2010. Ang mga naunang bersyon ng MS EXCEL ay gumamit ng TRUST() function.