Pinahihintulutang limitasyon ng mga halaga ng mean approximation ng error. Pagtatantya gamit ang Fisher F-criterion ng statistical reliability ng mga resulta ng regression modelling

5. Gamit ang F-criterion, napag-alaman na ang nakuhang pair regression equation sa kabuuan ay hindi gaanong mahalaga sa istatistika, at hindi sapat na naglalarawan sa pinag-aralan na phenomenon ng relasyon sa pagitan ng buwanang pensiyon y at ang subsistence minimum x.

6. Isang econometric na modelo ng multiple linear regression ang nabuo, na nag-uugnay sa halaga ng netong kita ng isang conditional firm y sa capital turnover x1 at capital employed x2

7. Sa pamamagitan ng pagkalkula ng elasticity coefficients, ipinapakita na sa isang pagbabago sa capital turnover ng 1%, ang halaga ng netong kita ng kumpanya ay nagbabago ng 0.0008%, at sa isang pagbabago sa ginamit na kapital ng 1%, ang halaga ng kumpanya mga pagbabago sa netong kita ng 0.56%.

8. Gamit ang t-test, nasuri ang statistical significance ng regression coefficients.Napag-alaman na ang explanatory variable x 1 ay hindi gaanong mahalaga sa istatistika at maaaring hindi kasama sa regression equation, habang ang explanatory variable x 2 ay statistically significant.

9. Gamit ang F-criterion, napag-alaman na ang nakuhang pair regression equation sa kabuuan ay istatistikal na makabuluhan, at sapat na naglalarawan sa pinag-aralan na phenomenon ng ugnayan sa pagitan ng halaga ng netong kita ng isang conditional firm y na may capital turnover x 1 at ginamit na capital x 2.

10. Ang average na error ng approximation ng statistical data sa pamamagitan ng linear equation ng multiple regression ay kinakalkula, na umabot sa 29.8%. Ito ay ipinapakita dahil sa kung aling obserbasyon sa statistical database ang halaga ng error na ito ay lumampas sa pinahihintulutang halaga.

14. Pagbuo ng isang paired regression model nang hindi gumagamit ng EXCEL.

Gamit ang istatistikal na materyal na ibinigay sa Talahanayan 3.5, kinakailangan na:

2. Suriin ang higpit ng koneksyon gamit ang mga tagapagpahiwatig ng ugnayan at pagpapasiya.

3. Gamit ang coefficient of elasticity, tukuyin ang antas ng koneksyon sa pagitan ng factor attribute at ng resultang isa.

4. Tukuyin ang average na error sa pagtatantya.

5. Suriin ang statistical reliability ng simulation gamit ang Fisher F-test.

Talahanayan 3.5. Paunang data.

Ang bahagi ng kita ng cash na naglalayong dagdagan ang mga pagtitipid sa mga deposito, pautang, sertipiko at para sa pagbili ng dayuhang pera, sa kabuuang halaga ng average na per capita cash na kita, %

Average na buwanang naipon na sahod, c.u.

Kaluga

Kostroma

Orlovskaya

Ryazan

Smolensk

Upang matukoy ang hindi kilalang mga parameter b 0 , b 1 ng ipinares na linear regression equation, ginagamit namin ang karaniwang sistema ng mga normal na equation, na may anyo

(3.7)

Upang malutas ang sistemang ito, kailangan munang matukoy ang mga halaga ng Sx 2 at Sxy. Ang mga halagang ito ay tinutukoy mula sa talahanayan ng paunang data, na dinadagdagan ito ng naaangkop na mga haligi (talahanayan 3.6).

Talahanayan 3.6. Sa pagkalkula ng mga coefficient ng regression.

Pagkatapos ay kinuha ng system (3.7) ang form

Ang pagpapahayag ng b 0 mula sa unang equation at pagpapalit ng resultang expression sa pangalawang equation, nakukuha natin:

Ang pagsasagawa ng term-by-term multiplication at pagpapalawak ng mga bracket, makakakuha tayo ng:

Sa wakas, ang equation ng paired linear regression, na nag-uugnay sa bahagi ng monetary income ng populasyon na naglalayong pataasin ang savings y na may average na buwanang naipon na sahod x, ay may anyo:

Kaya, habang ang ipinares na linear regression equation ay itinayo, tinutukoy namin ang linear correlation coefficient mula sa dependence:

nasaan ang mga halaga ng mga karaniwang paglihis ng kaukulang mga parameter.

Upang kalkulahin ang linear correlation coefficient mula sa pagtitiwala (3.9), magsasagawa kami ng mga intermediate na kalkulasyon.

Ang pagpapalit ng mga halaga ng nahanap na mga parameter sa expression (3.9), nakuha namin

.

Ang nakuhang halaga ng linear correlation coefficient ay nagpapahiwatig ng pagkakaroon ng mahinang kabaligtaran na istatistikal na relasyon sa pagitan ng bahagi ng monetary income ng populasyon na naglalayong pataasin ang savings y at ang average na buwanang naipon na sahod x.

Ang koepisyent ng determinasyon ay , na nangangahulugang 9.6% lamang ang ipinaliwanag ng regression ng paliwanag na variable ng y. Alinsunod dito, ang halaga ng 1 na katumbas ng 90.4% ay nagpapakilala sa bahagi ng pagkakaiba-iba ng variable na dulot ng impluwensya ng lahat ng iba pang mga variable na nagpapaliwanag na hindi isinasaalang-alang sa modelong pang-ekonomiya.

Ang koepisyent ng pagkalastiko ay katumbas ng

Dahil dito, sa pagbabago sa halaga ng average na buwanang naipon na sahod ng 1%, ang bahagi ng kita ng populasyon na naglalayong pataasin ang mga ipon ay bumababa rin ng 1%, at sa pagtaas ng sahod, mayroong pagbaba sa bahagi ng cash income ng populasyon na naglalayong pataasin ang ipon. Ang konklusyon na ito ay salungat sa sentido komun at maaari lamang ipaliwanag sa pamamagitan ng hindi tama ng nabuong modelo ng matematika.

Kalkulahin natin ang average na error sa pagtatantya.

Talahanayan 3.7. Sa pagkalkula ng average na error sa approximation.

Ang nakuhang halaga ay lumampas sa (12…15)%, na nagpapahiwatig ng kahalagahan ng average na paglihis ng kinakalkula na data mula sa aktwal na data, kung saan binuo ang econometric na modelo.

Ang pagiging maaasahan ng istatistikal na pagmomolde ay isinasagawa batay sa F-criterion ni Fisher. Ang teoretikal na halaga ng Fisher criterion Fcalc ay tinutukoy mula sa ratio ng mga halaga ng factorial at natitirang mga pagkakaiba-iba na kinakalkula para sa isang antas ng kalayaan ayon sa formula

kung saan ang n ay ang bilang ng mga obserbasyon;

m ay ang bilang ng mga paliwanag na variable (para sa itinuturing na halimbawa m m =1).

Ang kritikal na halaga ng Fcrit ay tinutukoy mula sa mga istatistikal na talahanayan at para sa antas ng kahalagahan a = 0.05 ay katumbas ng 10.13. Dahil ang F calc

15. Pagbuo ng multiple regression model nang hindi gumagamit ng EXCEL.

Gamit ang istatistikal na materyal na ibinigay sa Talahanayan 3.8, kailangan mong:

1. Bumuo ng isang linear na multiple regression equation, ipaliwanag ang pang-ekonomiyang kahulugan ng mga parameter nito.

2. Upang magbigay ng isang paghahambing na pagtatasa ng pagiging malapit ng kaugnayan ng mga salik na may isang produktibong katangian gamit ang average (pangkalahatang) elasticity coefficients.

3. Tayahin ang istatistikal na kahalagahan ng mga coefficient ng regression gamit ang t-test at ang null hypothesis ng equation ay hindi gaanong mahalaga gamit ang F-test.

4. Suriin ang kalidad ng equation sa pamamagitan ng pagtukoy sa average na error sa approximation.

Talahanayan 3.8. Paunang data.

Netong kita, milyong USD

Turnover ng kapital na USD mln

Nagamit na puhunan, mln. USD

Upang matukoy ang hindi kilalang mga parameter b 0 , b 1 , b 2 ng maramihang linear regression equation, ginagamit namin ang karaniwang sistema ng mga normal na equation, na may anyo

(3.11)

Upang malutas ang sistemang ito, kailangan munang matukoy ang mga halaga ng Sx 1 2 , Sx 2 2 , Sx 1 y, Sx 2 y, Sx 1 x 2 . Ang mga halagang ito ay tinutukoy mula sa talahanayan ng paunang data, na dinadagdagan ito ng naaangkop na mga haligi (talahanayan 3.9).

Talahanayan 3.9. Sa pagkalkula ng mga coefficient ng regression.

Pagkatapos ay kinuha ng system (3.11) ang form

Upang malutas ang sistemang ito, ginagamit namin ang paraan ng Gauss, na binubuo sa sunud-sunod na pag-aalis ng mga hindi alam: hinahati namin ang unang equation ng system sa 10, pagkatapos ay i-multiply namin ang nagresultang equation sa 370.6 at ibawas ito mula sa pangalawang equation ng system, pagkatapos ay i-multiply natin ang resultang equation sa 158.20 at ibawas ito sa ikatlong equation ng system. Ang pag-uulit ng ipinahiwatig na algorithm para sa binagong pangalawa at pangatlong equation ng system, makuha namin ang:

Þ Þ

Þ .

Pagkatapos ng pagbabago, mayroon kaming:

Pagkatapos, sa wakas, ang pag-asa ng netong kita sa paglilipat ng kapital at kapital na ginamit sa anyo ng isang linear na multiple regression equation ay may anyo:

Mula sa resultang econometric equation, makikita na sa pagtaas ng kapital na pinagtatrabahuhan, tumataas ang netong kita, at kabaliktaran, sa pagtaas ng turnover ng kapital, bumababa ang netong kita. Sa karagdagan, ang mas malaki ang regression coefficient, mas malaki ang impluwensya ng explanatory variable sa dependent variable. Sa halimbawang ito, ang halaga ng regression coefficient ay mas malaki kaysa sa halaga ng coefficient, samakatuwid, ang kapital na ginamit ay may mas malaking epekto sa netong kita kaysa sa capital turnover. Upang mabilang ang konklusyong ito, tinutukoy namin ang mga bahagyang coefficient ng elasticity.

Ang pagsusuri sa mga nakuhang resulta ay nagpapakita rin na ang ginamit na kapital ay may mas malaking epekto sa netong kita. Kaya, sa partikular, sa pagtaas ng kapital na ginagamit ng 1%, ang netong kita ay tumaas ng 1.17%. Kasabay nito, sa pagtaas ng capital turnover ng 1%, ang netong kita ay bumaba ng 0.5%.

Teoretikal na halaga ng Fisher criterion F calc

Ang halaga ng kritikal na halaga F crit ay tinutukoy ng mga istatistikal na talahanayan at para sa antas ng kahalagahan a = 0.05 ay katumbas ng 4.74. Dahil ang F calc > F crit, ang null hypothesis ay tinanggihan, at ang resultang regression equation ay ipinapalagay na makabuluhan sa istatistika.

Ang pagtatasa ng istatistikal na kahalagahan ng mga coefficient ng regression ayon sa t-criterion ay nabawasan sa paghahambing ng numerical na halaga ng mga coefficient na ito sa magnitude ng kanilang mga random na error at ayon sa dependence:

Ang gumaganang formula para sa pagkalkula ng teoretikal na halaga ng t-statistic ay:

, (3.13)

kung saan ang mga pares na coefficient ng ugnayan at ang maramihang koepisyent ng ugnayan ay kinakalkula mula sa mga dependencies:

Pagkatapos ang teoretikal (kinakalkula) na mga halaga ng t-statistics ay ayon sa pagkakabanggit ay katumbas ng:

Dahil ang kritikal na halaga ng t-statistics, na tinutukoy ayon sa mga istatistikal na talahanayan para sa antas ng kahalagahan a=0.05, katumbas ng TCrit=2.36 ay mas malaki sa absolute value kaysa = - 1.798, kung gayon ang null hypothesis ay hindi tinatanggihan at ang paliwanag na variable x 1 ay hindi gaanong mahalaga sa istatistika at maaari itong ibukod sa equation ng regression. Sa kabaligtaran, para sa pangalawang regression coefficient > t crit (3.3 >2.36), at ang paliwanag na variable x 2 ay istatistikal na makabuluhan.

Kalkulahin natin ang average na error sa pagtatantya.

Talahanayan 3.10. Sa pagkalkula ng average na error sa approximation.

Kung gayon ang average na error sa pagtatantya ay katumbas ng

Ang nakuhang halaga ay hindi lalampas sa pinapayagang limitasyon na katumbas ng (12…15)%.

16. Kasaysayan ng pag-unlad ng teorya ng mga sukat

Sa una, ang TI ay binuo bilang isang teorya ng psychophysical measurements. Sa mga publikasyon pagkatapos ng digmaan, ang American psychologist na si S.S. Nakatuon si Stephens sa mga sukat ng pagsukat. Sa ikalawang kalahati ng XX siglo. Ang saklaw ng TI ay mabilis na lumalawak. Ang isa sa mga volume ng "Encyclopedia of Psychological Sciences" na inilathala sa USA noong 1950s ay tinawag na "Psychological Measurements". Ang mga compiler ng publikasyong ito ay pinalawak ang saklaw ng TI mula sa psychophysics hanggang sa sikolohiya sa pangkalahatan. Sa artikulo ng koleksyong ito na "Mga Batayan ng teorya ng mga sukat", ang pagtatanghal ay nagpunta sa isang abstract-mathematical na antas, nang walang sanggunian sa anumang partikular na larangan ng aplikasyon. Sa loob nito, ang diin ay inilagay sa "homomorphism ng mga empirical system na may mga relasyon sa mga numero" (hindi na kailangang pumunta sa mga terminong ito sa matematika dito), at ang pagiging kumplikado ng matematika ng pagtatanghal ay tumaas kumpara sa mga gawa ng S.S. Stevens.

Sa isa sa mga unang domestic na artikulo sa TI (late 60s), nalaman na ang mga puntos na itinalaga ng mga eksperto kapag sinusuri ang mga bagay ng kadalubhasaan, bilang panuntunan, ay sinusukat sa isang ordinal na sukat. Ang mga gawa na lumitaw noong unang bahagi ng 1970s ay humantong sa isang makabuluhang pagpapalawak ng lugar ng paggamit ng TI. Inilapat ito sa pedagogical qualimetry (pagsukat ng kalidad ng kaalaman ng mga mag-aaral), sa mga pag-aaral ng system, sa iba't ibang mga gawain ng teorya ng mga pagtatasa ng eksperto, para sa pagsasama-sama ng mga tagapagpahiwatig ng kalidad ng produkto, sa mga pag-aaral sa sosyolohikal, atbp.

Kasama ng pagtatatag ng uri ng sukat para sa pagsukat ng tukoy na data, ang paghahanap para sa mga algorithm ng pagsusuri ng data ay iniharap bilang dalawang pangunahing problema ng TI, ang resulta nito ay hindi nagbabago sa anumang pinapayagang pagbabago ng sukat (ibig sabihin, ay invariant na may paggalang sa pagbabagong ito). Ang mga ordinal na kaliskis sa heograpiya ay ang Beaufort scale winds ("kalma", "mahinang hangin", "katamtamang hangin", atbp.), isang sukat ng lakas ng lindol. Malinaw, hindi ito mapagtatalunan na ang isang lindol na 2 magnitude (ang lampara ay umindayog sa ilalim ng kisame) ay eksaktong 5 beses na mas mahina kaysa sa isang lindol na 10 magnitude (ganap na pagkasira ng lahat ng bagay sa ibabaw ng lupa).

Sa gamot, ang mga ordinal na kaliskis ay ang antas ng antas ng hypertension (ayon kay Myasnikov), ang sukat ng mga antas ng pagkabigo sa puso (ayon sa Strazhesko-Vasilenko-Lang), ang sukat ng kalubhaan ng kakulangan sa coronary (ayon kay Fogelson), atbp. Ang lahat ng mga kaliskis na ito ay binuo ayon sa pamamaraan: ang sakit ay hindi nakita; ang unang yugto ng sakit; pangalawang yugto; ang ikatlong yugto ... Minsan ang mga yugto 1a, 16, atbp. ay nakikilala. Ang bawat yugto ay may katangiang medikal na kakaiba lamang dito. Kapag naglalarawan ng mga pangkat ng kapansanan, ang mga numero ay ginagamit sa kabaligtaran na pagkakasunud-sunod: ang pinakamalubha - ang unang pangkat ng kapansanan, pagkatapos - ang pangalawa, ang pinakamagaan - ang pangatlo.

Ang mga numero ng bahay ay sinusukat din sa isang ordinal na sukat - ipinapakita nila ang pagkakasunud-sunod kung saan ang mga bahay ay nasa kahabaan ng kalye. Ang mga numero ng volume sa mga nakolektang gawa ng isang manunulat o mga numero ng kaso sa archive ng isang enterprise ay karaniwang nauugnay sa magkakasunod na pagkakasunud-sunod kung saan ginawa ang mga ito.

Kapag tinatasa ang kalidad ng mga produkto at serbisyo, ang mga ordinal na kaliskis ay sikat sa tinatawag na qualimetry (literal na pagsasalin - pagsukat ng kalidad). Ibig sabihin, ang isang yunit ng output ay tinasa bilang mabuti o masama. Sa isang mas masusing pagsusuri, ginagamit ang isang sukat na may tatlong gradasyon: may mga makabuluhang depekto - mayroon lamang mga maliliit na depekto - walang mga depekto. Minsan apat na gradasyon ang ginagamit: may mga kritikal na depekto (na ginagawang imposibleng gamitin) - may mga makabuluhang depekto - maliliit na depekto lamang ang naroroon - walang mga depekto. Ang grado ng produkto ay may katulad na kahulugan - ang pinakamataas na grado, ang unang baitang, ang pangalawang baitang, ...

Kapag tinatasa ang mga epekto sa kapaligiran, ang una, ang pinaka-pangkalahatang pagtatasa ay karaniwang ordinal, halimbawa: ang natural na kapaligiran ay matatag - ang natural na kapaligiran ay inaapi (nakakasira). Ang saklaw ng kapaligiran-medikal ay magkatulad: walang malinaw na epekto sa kalusugan ng mga tao - isang negatibong epekto sa kalusugan ang nabanggit.

Ginagamit din ang ordinal scale sa ibang mga lugar. Sa econometrics, ang mga ito ay pangunahing iba't ibang paraan ng mga pagtatasa ng eksperto.

Ang lahat ng mga sukat ng pagsukat ay nahahati sa dalawang pangkat - mga kaliskis ng mga palatandaan ng husay at mga kaliskis ng mga palatandaan ng dami. Ang ordinal na sukat at ang sukat ng mga pangalan ay ang mga pangunahing sukat ng mga katangian ng husay, samakatuwid, sa maraming partikular na lugar, ang mga resulta ng pagsusuri ng husay ay maaaring ituring bilang mga sukat sa mga sukat na ito. Ang mga scale ng quantitative sign ay mga kaliskis ng mga pagitan, ratios, pagkakaiba, absolute. Ang sukat ng mga pagitan ay sumusukat sa halaga ng potensyal na enerhiya o ang coordinate ng isang punto sa isang tuwid na linya. Sa mga kasong ito, hindi maaaring markahan sa sukat ang natural na reference point o ang natural na yunit ng pagsukat. Ang mananaliksik mismo ay dapat magtakda ng reference point at piliin ang yunit ng pagsukat sa kanyang sarili. Ang mga wastong pagbabago sa sukat ng agwat ay mga linear na pagtaas ng pagbabago, i.e. mga linear na function. Ang mga sukat ng temperatura ng Celsius at Fahrenheit ay tiyak na nauugnay sa kaugnayang ito: ° С = 5/9 (° F - 32), kung saan ang ° С ay ang temperatura (sa digri) sa sukat ng Celsius, at ° F ay ang temperatura sa Fahrenheit sukat.

Sa mga quantitative scale, ang pinakakaraniwan sa agham at pagsasanay ay ang ratio scale. Mayroon silang natural na reference point - zero, i.e. walang dami, ngunit walang natural na yunit ng sukat. Karamihan sa mga pisikal na yunit ay sinusukat sa isang sukat ng ratio: mass ng katawan, haba, singil, pati na rin ang mga presyo sa ekonomiya. Ang mga pinahihintulutang pagbabago sa sukat ng mga relasyon ay magkatulad (binabago lamang ang sukat). Sa madaling salita, ang mga linear na incremental na conversion nang walang intercept, tulad ng pag-convert ng mga presyo mula sa isang currency patungo sa isa pa sa isang nakapirming rate. Ipagpalagay na inihahambing natin ang kahusayan sa ekonomiya ng dalawang proyekto sa pamumuhunan gamit ang mga presyo sa rubles. Hayaang mas mahusay ang unang proyekto kaysa sa pangalawa. Ngayon ay lumipat tayo sa pera ng China, ang yuan, gamit ang isang nakapirming halaga ng palitan. Malinaw, ang unang proyekto ay dapat na muling maging mas kumikita kaysa sa pangalawa. Gayunpaman, ang mga algorithm ng pagkalkula ay hindi awtomatikong tinitiyak ang katuparan ng kundisyong ito, at kinakailangan upang suriin na ito ay natupad. Ang mga resulta ng naturang pagsubok para sa mga average na halaga ay inilarawan sa ibaba.

Sa sukat ng mga pagkakaiba mayroong isang natural na yunit ng pagsukat, ngunit walang natural na reference point. Ang oras ay sinusukat sa isang sukat ng mga pagkakaiba, kung ang taon (o araw - mula tanghali hanggang tanghali) ay kinuha bilang isang natural na yunit ng pagsukat, at sa isang sukat ng mga pagitan sa pangkalahatang kaso. Sa kasalukuyang antas ng kaalaman, hindi maaaring tukuyin ang isang natural na reference point. Kinakalkula ng iba't ibang mga may-akda ang petsa ng paglikha ng mundo sa iba't ibang paraan, pati na rin ang sandali ng Kapanganakan ni Kristo.

Para sa ganap na sukat lamang, ang mga resulta ng pagsukat ay mga numero sa karaniwang kahulugan ng salita, gaya ng bilang ng mga tao sa isang silid. Para sa isang ganap na sukat, tanging ang pagbabago ng pagkakakilanlan ang pinapayagan.

Sa proseso ng pag-unlad ng kaukulang larangan ng kaalaman, maaaring magbago ang uri ng sukat. Kaya, sa una ang temperatura ay sinusukat sa isang ordinal na sukat (mas malamig - mas mainit). Pagkatapos - sa sukat ng pagitan (Celsius, Fahrenheit, Reaumur). Sa wakas, pagkatapos ng pagtuklas ng absolute zero, ang temperatura ay maaaring ituring na sinusukat sa isang ratio scale (ang Kelvin scale). Dapat tandaan na kung minsan ay may mga hindi pagkakasundo sa mga espesyalista kung aling mga timbangan ang dapat gamitin upang isaalang-alang ang ilang mga tunay na dami bilang sinusukat. Sa madaling salita, kasama sa proseso ng pagsukat ang kahulugan ng uri ng sukat (kasama ang katwiran para sa pagpili ng isang partikular na uri ng sukat). Bilang karagdagan sa anim na pangunahing uri ng mga kaliskis na nakalista, ang iba pang mga kaliskis ay minsan ginagamit.

17. Mga invariant na algorithm at mean value.

Bumuo tayo ng pangunahing kinakailangan para sa mga algorithm ng pagsusuri ng data sa TI: ang mga konklusyong iginuhit batay sa data na sinusukat sa isang sukat ng isang partikular na uri ay hindi dapat magbago sa isang katanggap-tanggap na pagbabago ng sukat ng pagsukat ng mga data na ito. Sa madaling salita, ang mga konklusyon ay dapat na invariant patungkol sa pinapayagang pagbabago ng sukat.

Kaya, ang isa sa mga pangunahing layunin ng teorya ng mga sukat ay ang paglaban sa subjectivity ng mananaliksik kapag nagtatalaga ng mga numerical na halaga sa mga tunay na bagay. Kaya, ang mga distansya ay maaaring masukat sa mga arhin, metro, micron, milya, parsec at iba pang mga yunit ng pagsukat. Mass (timbang) - sa pounds, kilo, pounds, atbp. Ang mga presyo para sa mga kalakal at serbisyo ay maaaring ipahiwatig sa yuan, rubles, tenge, hryvnia, lats, kroons, marks, US dollars at iba pang mga pera (napapailalim sa tinukoy na mga rate ng conversion). Bigyang-diin natin ang isang napakahalaga, kahit na medyo halata, pangyayari: ang pagpili ng mga yunit ng pagsukat ay nakasalalay sa mananaliksik, i.e. subjective. Ang mga statistic inferences ay maaaring maging sapat sa realidad lamang kapag hindi sila nakadepende sa kung aling unit ng pagsukat ang pipiliin ng mananaliksik, kapag ang mga ito ay invariant sa ilalim ng isang katanggap-tanggap na pagbabago ng sukat. Sa maraming mga algorithm para sa pagsusuri ng data ng ekonometric, iilan lamang ang nakakatugon sa kundisyong ito. Ipakita natin ito sa isang halimbawa ng paghahambing ng mga average na halaga.

Hayaang ang X 1 , X 2 ,.., X n ay isang sample ng laki n. Kadalasang ginagamit ang arithmetic mean. Ang paggamit ng arithmetic mean ay napakakaraniwan na ang pangalawang salita sa termino ay madalas na tinanggal at tinutukoy bilang ang average na suweldo, average na kita, at iba pang mga average para sa partikular na pang-ekonomiyang data, ibig sabihin ay "average" ang arithmetic mean. Ang ganitong tradisyon ay maaaring humantong sa mga maling konklusyon. Ipakita natin ito sa pamamagitan ng halimbawa ng pagkalkula ng average na sahod (average na kita) ng mga empleyado ng isang conditional enterprise. Sa 100 manggagawa, 5 lang ang may sahod na lumampas dito, at ang sahod ng natitirang 95 ay mas mababa sa arithmetic average. Ang dahilan ay halata - ang suweldo ng isang tao - ang pangkalahatang direktor - ay lumampas sa suweldo ng 95 na manggagawa - mababa ang kasanayan at mataas ang kasanayan na mga manggagawa, inhinyero at empleyado. Ang sitwasyon ay kahawig ng inilarawan sa kilalang kuwento tungkol sa ospital, kung saan 10 mga pasyente, 9 sa kanila ay may temperatura na 40 ° C, at ang isa ay naubos na ang kanyang sarili, ay nasa morgue na may temperatura na 0 ° C. Samantala, ang average na temperatura sa ospital ay 36°C - hindi na ito bumuti!

Kaya, ang arithmetic mean ay magagamit lamang para sa medyo homogenous na populasyon (nang walang malalaking outlier sa isang direksyon o iba pa). At ano ang mga average na gagamitin upang ilarawan ang sahod? Medyo natural na gamitin ang median - ang arithmetic mean ng ika-50 at ika-51 na empleyado, kung ang kanilang mga suweldo ay nasa hindi bumababa na ayos. Una ay ang suweldo ng 40 manggagawang mababa ang kasanayan, at pagkatapos - mula ika-41 hanggang ika-70 manggagawa - ang sahod ng mga manggagawang may mataas na kasanayan. Dahil dito, ang median ay eksaktong bumagsak sa kanila at katumbas ng 200. Para sa 50 manggagawa, ang suweldo ay hindi lalampas sa 200, at para sa 50 - hindi bababa sa 200, kaya ang median ay nagpapakita ng "gitna", sa paligid kung saan ang karamihan ng mga pinag-aralan na halaga ay nakagrupo. Ang isa pang average ay ang mode, ang pinakamadalas na nagaganap na halaga. Sa kasong isinasaalang-alang, ito ang sahod ng mga manggagawang mababa ang kasanayan, i.e. 100. Kaya, upang ilarawan ang suweldo, mayroon kaming tatlong average na halaga - mode (100 units), median (200 units) at arithmetic mean (400 units).

Para sa mga distribusyon ng kita at sahod na naobserbahan sa totoong buhay, ang parehong pattern ay totoo: ang mode ay mas mababa kaysa sa median, at ang median ay mas mababa kaysa sa arithmetic mean.

Bakit ginagamit ang average sa ekonomiya? Karaniwan, upang palitan ang isang hanay ng mga numero ng isang numero, upang ihambing ang mga hanay gamit ang mga average. Hayaan, halimbawa, ang Y 1 , Y 2 ,..., Y n ay isang hanay ng mga pagtatasa ng mga eksperto na "ibinigay" sa isang bagay ng kadalubhasaan (halimbawa, isa sa mga opsyon para sa estratehikong pag-unlad ng kumpanya), Z 1, Z 2 ,..., Z n - ang pangalawa (isa pang variant ng naturang pag-unlad). Paano maihahambing ang mga pinagsama-samang ito? Malinaw, ang pinakamadaling paraan ay sa pamamagitan ng mga average.

Paano makalkula ang mga average? Kilala ang iba't ibang uri ng average: arithmetic mean, median, mode, geometric mean, harmonic mean, mean square. Alalahanin na ang pangkalahatang konsepto ng average na halaga ay ipinakilala ng French mathematician ng unang kalahati ng ika-19 na siglo. Academician O. Koshi. Ito ay ang mga sumusunod: ang average na halaga ay anumang function Ф(X 1, X 2,..., X n) para sa lahat ng posibleng halaga ng mga argumento, ang halaga ng function na ito ay hindi bababa sa minimum na ang mga numerong X 1, X 2,... , X n , at hindi hihigit sa maximum ng mga numerong ito. Ang lahat ng nasa itaas na uri ng mga average ay Cauchy average.

Sa isang katanggap-tanggap na pagbabago ng sukat, malinaw na nagbabago ang halaga ng mean. Ngunit ang mga konklusyon tungkol sa kung aling populasyon ang average ay mas malaki, at kung saan ito ay mas kaunti, ay hindi dapat magbago (alinsunod sa kinakailangan ng invariance ng mga konklusyon, na pinagtibay bilang pangunahing kinakailangan sa TI). Bumuo tayo ng kaukulang problema sa matematika ng paghahanap ng anyo ng mga average na halaga, ang resulta ng paghahambing na kung saan ay matatag na may paggalang sa mga tinatanggap na pagbabago ng sukat.

Hayaang F(X 1 X 2 ,..., X n) ang Cauchy mean. Hayaang ang average para sa unang populasyon ay mas mababa kaysa sa average para sa pangalawang populasyon: pagkatapos, ayon sa TI, para sa katatagan ng resulta ng paghahambing ng mga paraan, kinakailangan na para sa anumang tinatanggap na pagbabagong g mula sa pangkat ng mga tinatanggap na pagbabago. sa kaukulang sukat, totoo na ang average ng mga nabagong halaga mula sa unang populasyon ay mas mababa din kaysa sa average ng mga nabagong halaga para sa pangalawang hanay. Bukod dito, dapat na totoo ang nakabalangkas na kundisyon para sa alinmang dalawang koleksyon Y 1 , Y 2 ,...,Y n at Z 1, Z 2 ,..., Z n at, recall, anumang tinatanggap na pagbabago. Ang mga average na halaga na nakakatugon sa nabuong kondisyon ay tatawaging tinatanggap (sa kaukulang sukat). Ayon sa TI, ang ganitong mga average lamang ang maaaring gamitin sa pagsusuri ng mga opinyon ng eksperto at iba pang data na sinusukat sa sukat na isinasaalang-alang.

Sa tulong ng matematikal na teorya, na binuo noong 1970s, posibleng ilarawan ang anyo ng mga tinatanggap na paraan sa pangunahing mga antas. Malinaw na para sa data na sinusukat sa sukat ng mga pangalan, ang mode lang ang angkop bilang average.

18. Average na mga halaga sa isang ordinal na sukat

Isaalang-alang natin ang pagproseso ng mga opinyon ng eksperto na sinusukat sa isang ordinal na sukat. Ang sumusunod na pahayag ay totoo.

Teorama1 . Sa lahat ng mga average ng Cauchy, ang mga miyembro lang ng variational na serye (mga istatistika ng order) ang mga katanggap-tanggap na average sa ordinal na sukat.

Ang Theorem 1 ay wasto sa ilalim ng kondisyon na ang mean Ф(Х 1 Х 2 ,..., Х n) ay tuloy-tuloy (sa kabuuan ng mga variable) at isang simetriko function. Ang huli ay nangangahulugan na kapag ang mga argumento ay muling inayos, ang halaga ng function na Ф(X 1 X 2 ,..., X n) ay hindi nagbabago. Ang kundisyong ito ay medyo natural, dahil nakikita namin ang average na halaga para sa kabuuan (set), at hindi para sa pagkakasunud-sunod. Ang set ay hindi nagbabago depende sa pagkakasunud-sunod kung saan namin inilista ang mga elemento nito.

Ayon sa Theorem 1, para sa data na sinusukat sa isang ordinal na sukat, maaaring gamitin ng isa, sa partikular, ang median bilang isang average (para sa isang kakaibang laki ng sample). Sa pantay na volume, dapat gamitin ang isa sa dalawang sentral na miyembro ng variational series - kung minsan ay tinatawag ang mga ito, ang kaliwang median o kanang median. Magagamit din ang mode - palagi itong miyembro ng variation series. Ngunit hindi mo kailanman makalkula ang arithmetic mean, geometric mean, atbp.

Ang sumusunod na teorama ay totoo.

Teorama 2. Hayaang ang Y 1 , Y 2 ,...,Y m ay independent identically distributed random variables na may distribution function F(x), at Z 1, Z 2 ,..., Z n ay independent identically distributed random variables with the function distribusyon H(x), bukod pa rito, ang mga sample Y 1 , Y 2 ,...,Y m at Z 1 , Z 2 ,..., Z n ay independyente sa isa't isa at MY X > MZ X . Upang ang probabilidad ng isang kaganapan ay maging 1 bilang min(m, n) para sa anumang mahigpit na pagtaas ng tuluy-tuloy na paggana g na nagbibigay-kasiyahan sa kondisyon |g i |>X, kinakailangan at sapat na ang hindi pagkakapantay-pantay F(x)< Н(х), причем существовало число х 0 , для которого F(x 0)

Tandaan. Ang kundisyon sa itaas na limitasyon ay puro intramathematical. Sa katunayan, ang function na g ay isang arbitraryong balidong pagbabago sa ordinal na sukat.

Ayon sa Theorem 2, ang arithmetic mean ay maaari ding gamitin sa isang ordinal scale kung ang mga sample mula sa dalawang distribusyon na nagbibigay-kasiyahan sa hindi pagkakapantay-pantay na ibinigay sa theorem ay inihambing. Sa madaling salita, ang isa sa mga function ng pamamahagi ay dapat palaging nasa itaas ng isa. Ang mga function ng pamamahagi ay hindi maaaring magsalubong, pinapayagan lamang silang hawakan ang isa't isa. Ang kundisyong ito ay nasiyahan, halimbawa, kung ang mga function ng pamamahagi ay naiiba lamang sa shift:

F(x) = H(x + ∆)

para sa ilang ∆.

Ang huling kondisyon ay nasiyahan kung ang dalawang halaga ng isang tiyak na dami ay sinusukat gamit ang parehong instrumento sa pagsukat, kung saan ang pamamahagi ng mga error ay hindi nagbabago kapag lumilipat mula sa pagsukat ng isang halaga ng dami na isinasaalang-alang sa pagsukat ng isa pa.

Mga average ng Kolmogorov

Ang generalization ng ilan sa mga average na nakalista sa itaas ay ang Kolmogorov average. Para sa mga numerong X 1, X 2,..., X n, ang ibig sabihin ng Kolmogorov ay kinakalkula ng formula

G((F(X l) + F(X 2)+...F(X n))/n),

kung saan ang F ay isang mahigpit na monotonikong function (ibig sabihin, mahigpit na tumataas o mahigpit na bumababa),

Ang G ay ang inverse function ng F.

Kabilang sa mga average ng Kolmogorov mayroong maraming mga kilalang character. Kaya, kung F(x) = x, kung gayon ang Kolmogorov mean ay ang arithmetic mean, kung F(x) = lnx, kung gayon ang geometric mean, kung F(x) = 1/x, kung gayon ang harmonic mean, kung F( x) \u003d x 2, pagkatapos ay ang ibig sabihin ng parisukat, atbp. Ang ibig sabihin ng Kolmogorov ay isang espesyal na kaso ng ibig sabihin ng Cauchy. Sa kabilang banda, ang mga sikat na average gaya ng median at mode ay hindi maaaring katawanin bilang Kolmogorov average. Ang mga sumusunod na pahayag ay napatunayan sa monograp.

Teorama3 . Kung ang ilang intra-mathematical regularity condition ay totoo sa interval scale, sa lahat ng Kolmogorov averages, ang arithmetic average lang ang tinatanggap. Kaya, ang geometric mean o root mean square ng mga temperatura (sa Celsius) o mga distansya ay walang kahulugan. Ang arithmetic mean ay dapat gamitin bilang mean. Maaari mo ring gamitin ang median o mode.

Teorama 4. Kung totoo ang ilang kundisyon ng intra-mathematical regularity sa sukat ng ratio, sa lahat ng mga average ng Kolmogorov, ang mga power average lang na may F(x) = x c at geometric average ang tinatanggap.

Magkomento. Ang geometric mean ay ang limitasyon ng power means para sa c > 0.

Mayroon bang mga average ng Kolmogorov na hindi dapat gamitin sa sukat ng ratio? Syempre meron. Halimbawa F(x) = e x.

Katulad ng mga average na halaga, ang iba pang mga istatistikal na katangian ay maaaring pag-aralan - mga tagapagpahiwatig ng pagkalat, koneksyon, distansya, atbp. Madaling ipakita, halimbawa, na ang koepisyent ng ugnayan ay hindi nagbabago sa ilalim ng anumang tinatanggap na pagbabago sa mangkok ng mga pagitan, tulad ng ratio ng mga pagkakaiba, ang pagkakaiba ay hindi nagbabago sa sukat ng mga pagkakaiba, ang koepisyent ng pagkakaiba-iba - sa sukat ng mga ratio, atbp.

Ang mga resulta sa itaas sa mga average ay malawakang ginagamit, hindi lamang sa ekonomiya, pamamahala, teorya ng mga pagtatasa ng eksperto o sosyolohiya, kundi pati na rin sa engineering, halimbawa, upang pag-aralan ang mga paraan ng pagsasama-sama ng mga sensor sa APCS ng mga blast furnace. Malaki ang kahalagahan ng TI sa mga problema ng standardisasyon at pamamahala ng kalidad, lalo na sa qualimetry, kung saan nakuha ang mga interesanteng teoretikal na resulta. Kaya, halimbawa, ang anumang pagbabago sa mga weighting coefficient ng mga indibidwal na tagapagpahiwatig ng kalidad ng produkto ay humahantong sa isang pagbabago sa pag-order ng mga produkto ayon sa weighted average (ang teorama na ito ay pinatunayan ni Prof. V.V. Podinovsky). Samakatuwid, ang maikling impormasyon sa itaas tungkol sa TI at ang mga pamamaraan nito ay pinagsasama sa isang tiyak na kahulugan ng ekonomiya, sosyolohiya at mga agham ng inhinyero at isang sapat na kagamitan para sa paglutas ng mga pinaka-kumplikadong problema na dati ay hindi pumapayag sa epektibong pagsusuri, bukod dito, sa gayon. nagbubukas ng paraan sa pagbuo ng mga makatotohanang modelo at paglutas ng problema sa pagtataya.

22. Ipinares na Linear Regression

Bumaling tayo ngayon sa isang mas detalyadong pag-aaral ng pinakasimpleng kaso ng pairwise linear regression. Ang linear regression ay inilalarawan ng pinakasimpleng functional dependence sa anyo ng isang straight line equation at nailalarawan sa pamamagitan ng isang transparent na interpretasyon ng mga parameter ng modelo (equation coefficients). Ang kanang bahagi ng equation ay nagbibigay-daan sa iyo upang makuha ang teoretikal (kinakalkula) na mga halaga ng nagresultang (ipinaliwanag) na variable mula sa ibinigay na mga halaga ng regressor (nagpapaliwanag na variable). Ang mga halagang ito ay tinatawag ding predictive (sa parehong kahulugan), i.e. nakuha mula sa mga teoretikal na pormula. Gayunpaman, kapag naglalagay ng isang hypothesis tungkol sa likas na katangian ng dependence, ang mga coefficient ng equation ay nananatiling hindi alam. Sa pangkalahatan, ang pagkuha ng tinatayang mga halaga ng mga coefficient na ito ay posible sa pamamagitan ng iba't ibang mga pamamaraan.

Ngunit ang pinakamahalaga at laganap sa kanila ay ang pamamaraan ng hindi bababa sa mga parisukat (LSM). Ito ay batay (tulad ng ipinaliwanag na) sa kinakailangan upang mabawasan ang kabuuan ng mga parisukat na paglihis ng mga aktwal na halaga ng nagresultang tampok mula sa mga kinakalkula (teoretikal). Sa halip na mga teoretikal na halaga (upang makuha ang mga ito), ang kanang bahagi ng equation ng regression ay pinapalitan sa kabuuan ng mga squared deviations, at pagkatapos ay matatagpuan ang mga partial derivatives ng function na ito (ang kabuuan ng mga squared deviations ng aktwal na mga halaga. ng epektibong tampok mula sa mga teoretikal). Ang mga bahagyang derivatives na ito ay kinuha hindi tungkol sa mga variable na x at y, ngunit tungkol sa mga parameter a at b. Ang mga partial derivatives ay tinutumbas sa zero at pagkatapos ng simple ngunit masalimuot na pagbabago, isang sistema ng mga normal na equation ang nakuha upang matukoy ang mga parameter. Coefficient na may variable x, i.e. b ay tinatawag na regression coefficient, ipinapakita nito ang average na pagbabago sa resulta na may pagbabago sa factor ng isang unit. Maaaring walang interpretasyong pang-ekonomiya ang parameter a, lalo na kung negatibo ang senyales ng coefficient na ito.

Ang pairwise linear regression ay ginagamit upang pag-aralan ang function ng pagkonsumo. Ang regression coefficient sa function ng pagkonsumo ay ginagamit upang kalkulahin ang multiplier. Halos palaging, ang equation ng regression ay pupunan ng isang tagapagpahiwatig ng higpit ng relasyon. Para sa pinakasimpleng kaso ng linear regression, ang indicator na ito ng higpit ng relasyon ay ang linear correlation coefficient. Ngunit dahil ang linear correlation coefficient ay nagpapakilala sa pagiging malapit ng relasyon ng mga feature sa isang linear form, ang proximity ng absolute value ng linear correlation coefficient sa zero ay hindi pa nagsisilbing indicator ng kawalan ng relasyon sa pagitan ng mga feature.

Ito ay may ibang pagpipilian ng detalye ng modelo at, dahil dito, ang uri ng pag-asa na ang aktwal na relasyon ay maaaring medyo malapit sa pagkakaisa. Ngunit ang kalidad ng pagpili ng isang linear function ay tinutukoy gamit ang square ng linear correlation coefficient - ang koepisyent ng determinasyon. Inilalarawan nito ang proporsyon ng pagkakaiba ng resultang katangian y, na ipinaliwanag sa pamamagitan ng pagbabalik sa kabuuang pagkakaiba ng resultang katangian. Ang halaga na umaakma sa koepisyent ng determinasyon sa 1 ay nagpapakilala sa proporsyon ng pagkakaiba-iba na dulot ng impluwensya ng iba pang mga kadahilanan na hindi isinasaalang-alang sa modelo (natirang pagkakaiba).

Ang pares regression ay kinakatawan ng isang relasyon sa pagitan ng dalawang variable na y at x ng sumusunod na anyo:

kung saan ang y ay ang dependent variable (outcome feature), at x ang independent variable (explanatory variable, o feature factor). Mayroong linear regression at non-linear regression. Ang linear regression ay inilalarawan ng isang equation ng form:

y = a + bx + .

Ang nonlinear regression, sa turn, ay maaaring maging non-linear na may paggalang sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter. O baka ang regression ay non-linear sa mga tuntunin ng tinantyang mga parameter. Bilang mga halimbawa ng isang regression na hindi linear sa mga variable na nagpapaliwanag, ngunit linear sa mga tinantyang parameter, maaaring ipahiwatig ng isa ang mga polynomial na dependency ng iba't ibang degree (polynomials) at isang equilateral hyperbola.

Ang non-linear regression ng mga tinantyang parameter ay isang power-law na may kaugnayan sa parameter (ang parameter ay nasa exponent) dependence, exponential dependence, kung saan ang parameter ay nasa base ng degree, at exponential dependence, kapag ang buong linear dependence ay ganap na nasa exponent. Tandaan na sa lahat ng tatlong kaso na ito, ang random na bahagi (random na natitira)  ay pumapasok sa kanang bahagi ng equation bilang isang salik, at hindi bilang isang termino, i.e. multiplicatively! Ang average na paglihis ng mga kinakalkula na halaga ng nagresultang tampok mula sa aktwal na mga ay nailalarawan sa pamamagitan ng isang average na error sa pagtatantya. Ito ay ipinahayag bilang isang porsyento at hindi dapat lumampas sa 7-8%. Ang average na error sa pagtatantya ay ipinahayag lamang bilang isang porsyento ng average ng mga kamag-anak na halaga ng mga pagkakaiba sa pagitan ng aktwal at kinakalkula na mga halaga.

Ang pinakamahalaga ay ang average na koepisyent ng pagkalastiko, na nagsisilbing isang mahalagang katangian ng maraming mga pang-ekonomiyang phenomena at proseso. Ito ay kinakalkula bilang produkto ng halaga ng derivative ng functional dependence na ito sa pamamagitan ng ratio ng average na halaga x sa average na halaga y. Ang elasticity coefficient ay nagpapakita kung gaano karaming porsyento, sa karaniwan, ang resulta y ay magbabago mula sa average na halaga nito kapag ang factor x ay nagbago ng 1% mula sa kanyang (factor x) average na halaga.

Sa paired regression at may multiple regression (kapag maraming salik) at may natitirang variance, ang mga gawain ng pagsusuri ng variance ay malapit na nauugnay. Sinusuri ng pagsusuri ng pagkakaiba-iba ang pagkakaiba ng umaasang baryabol. Sa kasong ito, ang kabuuang kabuuan ng mga squared deviations ay nahahati sa dalawang bahagi. Ang unang termino ay ang kabuuan ng mga squared deviations dahil sa regression, o ipinaliwanag (factorial). Ang pangalawang termino ay ang natitirang kabuuan ng mga squared deviations na hindi ipinaliwanag ng factorial regression.

Ang bahagi ng pagkakaiba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng nagresultang tampok na y ay nailalarawan sa pamamagitan ng koepisyent (index) ng pagpapasiya, na hindi hihigit sa ratio ng kabuuan ng mga squared deviations dahil sa regression sa kabuuang kabuuan ng squared deviations (ang unang termino sa buong kabuuan).

Kapag ang mga parameter ng modelo (coefficients ng hindi alam) ay tinutukoy gamit ang hindi bababa sa mga parisukat na paraan, kung gayon, sa esensya, ang ilang mga random na variable ay matatagpuan (sa proseso ng pagkuha ng mga pagtatantya). Ang partikular na kahalagahan ay ang pagtatantya ng coefficient ng regression, na isang espesyal na anyo ng isang random na variable. Ang mga katangian ng random variable na ito ay nakasalalay sa mga katangian ng natitirang termino sa equation (sa modelo). Isaalang-alang natin ang paliwanag na variable x bilang isang hindi random na exogenous variable para sa isang ipinares na linear regression na modelo. Nangangahulugan lamang ito na ang mga halaga ng variable na x sa lahat ng mga obserbasyon ay maaaring ituring na paunang natukoy at walang kinalaman sa pag-asa sa ilalim ng pag-aaral. Kaya, ang aktwal na halaga ng ipinaliwanag na variable ay binubuo ng dalawang bahagi: isang di-random na bahagi at isang random na bahagi (natirang termino).

Sa kabilang banda, ang regression coefficient na tinutukoy ng method of least squares (OLS) ay katumbas ng quotient ng paghahati ng covariance ng x at y variables sa variance ng x variable. Samakatuwid, naglalaman din ito ng isang random na bahagi. Pagkatapos ng lahat, ang covariance ay nakasalalay sa mga halaga ng variable na y, kung saan ang mga halaga ng variable na y ay nakasalalay sa mga halaga ng random na natitirang termino . Dagdag pa, madaling ipakita na ang covariance ng mga variable na x at y ay katumbas ng produkto ng tinantyang regression coefficient beta () at ang variance ng variable na x, na idinagdag sa covariance ng mga variable na x at . Kaya, ang pagtatantya ng koepisyent ng pagbabalik ng beta ay katumbas ng hindi kilalang koepisyent ng pagbabalik na ito mismo, na idinagdag sa quotient ng paghahati ng covariance ng mga variable na x at  sa pagkakaiba ng variable na x. Yung. ang pagtatantya ng coefficient ng regression b na nakuha mula sa anumang sample ay ipinakita bilang kabuuan ng dalawang termino: isang pare-parehong halaga na katumbas ng tunay na halaga ng koepisyent  (beta), at mula sa isang random na bahagi na nakasalalay sa covariance ng mga variable x at .

23. Mga kundisyon sa matematika ng Gauss-Markov at ang kanilang aplikasyon.

Para sa pagsusuri ng regression batay sa mga ordinaryong hindi bababa sa mga parisukat upang magbigay ng pinakamahusay na mga resulta, ang random na termino ay dapat matugunan ang apat na kundisyon ng Gauss-Markov.

Ang mathematical na inaasahan ng random na term ay zero, i.e. ito ay walang kinikilingan. Kung ang equation ng regression ay may kasamang pare-parehong termino, natural na isaalang-alang ang naturang pangangailangan na natupad, dahil ito ay isang pare-parehong termino at dapat isaalang-alang ang anumang sistematikong kalakaran sa mga halaga ng variable y, na, sa kabaligtaran, hindi dapat maglaman ng mga paliwanag na variable ng regression equation.

Ang pagkakaiba ng random na termino ay pare-pareho para sa lahat ng mga obserbasyon.

Ang covariance ng mga halaga ng mga random na variable na bumubuo sa sample ay dapat na katumbas ng zero, i.e. walang sistematikong ugnayan sa pagitan ng mga halaga ng random na termino sa alinmang dalawang partikular na obserbasyon. Ang mga random na miyembro ay dapat na independyente sa isa't isa.

Ang batas sa pamamahagi ng random na termino ay dapat na independyente sa mga paliwanag na variable.

Bukod dito, sa maraming mga aplikasyon, ang mga paliwanag na variable ay hindi stochastic; walang random na bahagi. Ang halaga ng anumang independiyenteng variable sa bawat pagmamasid ay dapat ituring na exogenous, ganap na tinutukoy ng mga panlabas na dahilan na hindi isinasaalang-alang sa equation ng regression.

Kasama ang ipinahiwatig na mga kondisyon ng Gauss-Markov, ipinapalagay din na ang random na termino ay may normal na distribusyon. Ito ay may bisa sa ilalim ng napakalawak na mga kondisyon at batay sa tinatawag na central limit theorem (CLT). Ang kakanyahan ng teorama na ito ay kung ang isang random na variable ay ang pangkalahatang resulta ng pakikipag-ugnayan ng isang malaking bilang ng iba pang mga random na variable, wala sa mga ito ay may isang nangingibabaw na impluwensya sa pag-uugali ng pangkalahatang resulta na ito, kung gayon ang isang resultang random na variable ay magiging inilalarawan ng humigit-kumulang normal na distribusyon. Ang pagiging malapit na ito sa normal na distribusyon ay nagpapahintulot sa amin na gamitin ang normal na distribusyon at, sa isang diwa, ang generalization nito, ang Student distribution, na kapansin-pansing naiiba sa normal na distribution pangunahin sa tinatawag na "tails", i.e. para sa maliliit na halaga ng laki ng sample. Mahalaga rin na kung ang random na termino ay karaniwang ipinamamahagi, ang mga coefficient ng regression ay ibabahagi din ayon sa normal na batas.

Ang itinatag na regression curve (regression equation) ay nagbibigay-daan sa paglutas ng problema ng tinatawag na point forecast. Sa ganitong mga kalkulasyon, ang ilang halaga ng x ay kinuha sa labas ng pinag-aralan na agwat ng pagmamasid at inihahalili sa kanang bahagi ng equation ng regression (extrapolation procedure). kasi ang mga pagtatantya para sa mga coefficient ng regression ay kilala na, pagkatapos ay posibleng kalkulahin ang halaga ng ipinaliwanag na variable y na tumutugma sa kinuhang halaga ng x. Naturally, alinsunod sa kahulugan ng hula (pagtataya), ang mga kalkulasyon ay isinasagawa pasulong (sa lugar ng mga hinaharap na halaga).

Gayunpaman, dahil ang mga koepisyent ay natukoy na may isang tiyak na pagkakamali, hindi ang pagtatantya ng punto (point forecast) para sa epektibong tampok ang interesado, ngunit ang kaalaman sa mga limitasyon kung saan ang mga halaga ng produktibong tampok na tumutugma sa ang kinuhang halaga ng salik na x ay magsisinungaling na may tiyak na posibilidad.

Upang gawin ito, ang halaga ng karaniwang error (standard deviation) ay kinakalkula. Ito ay maaaring makuha sa diwa ng kasasabi pa lamang gaya ng mga sumusunod. Ang pagpapahayag ng libreng termino a mula sa mga pagtatantya sa mga tuntunin ng mga average na halaga ay pinapalitan sa linear regression equation. Pagkatapos ay lumalabas na ang karaniwang error ay nakasalalay sa error ng average ng resultang factor y at additively sa error ng regression coefficient b. Simple lang, ang parisukat ng karaniwang error na ito ay katumbas ng kabuuan ng squared error ng mean y at ang produkto ng squared error ng regression coefficient na beses ang square ng deviation ng factor x at ang mean nito. Dagdag pa, ang unang termino, ayon sa mga batas ng istatistika, ay katumbas ng quotient ng paghahati ng pagkakaiba-iba ng pangkalahatang populasyon sa laki (volume) ng sample.

Sa halip na hindi alam na pagkakaiba, ang sample na pagkakaiba ay ginagamit bilang isang pagtatantya. Alinsunod dito, ang error ng regression coefficient ay tinukoy bilang ang quotient ng paghahati ng sample variance sa variance ng x factor. Maaari mong makuha ang halaga ng karaniwang error (standard deviation) at iba pang mga pagsasaalang-alang, na mas independiyente sa linear regression model. Para dito, ginagamit ang konsepto ng average na error at marginal error at ang relasyon sa pagitan ng mga ito.

Ngunit kahit na pagkatapos makuha ang karaniwang error, ang tanong ay nananatili tungkol sa mga hangganan kung saan ang hinulaang halaga ay magsisinungaling. Sa madaling salita, tungkol sa pagitan ng error sa pagsukat, sa natural na pagpapalagay sa maraming mga kaso na ang gitna ng agwat na ito ay ibinibigay ng kinakalkula (average) na halaga ng epektibong kadahilanan y. Narito ang gitnang teorama ng limitasyon ay dumating upang iligtas, na nagpapahiwatig lamang kung anong posibilidad ang hindi kilalang halaga ay nasa loob ng agwat ng kumpiyansa na ito.

Sa esensya, ang karaniwang formula ng error, anuman ang kung paano at sa anong anyo ito nakuha, ay nagpapakilala sa error sa posisyon ng linya ng regression. Ang halaga ng karaniwang error ay umabot sa isang minimum kapag ang halaga ng factor x ay tumutugma sa average na halaga ng factor.

24. Statistical testing ng mga hypotheses at pagsusuri ng kahalagahan ng linear regression ng Fisher criterion.

Matapos matagpuan ang linear regression equation, ang kahalagahan ng parehong equation sa kabuuan at ang mga indibidwal na parameter nito ay tinasa. Ang pagtatasa ng kahalagahan ng regression equation sa kabuuan ay maaaring isagawa gamit ang iba't ibang pamantayan. Ang paggamit ng Fisher's F-criterion ay karaniwan at epektibo. Sa kasong ito, ang null hypothesis H o ay iniharap na ang regression coefficient ay katumbas ng zero, i.e. b=0, at samakatuwid ang salik na x ay walang epekto sa resultang y. Ang direktang pagkalkula ng F-criterion ay nauuna sa pagsusuri ng pagkakaiba. Ang gitnang lugar dito ay inookupahan ng agnas ng kabuuang kabuuan ng mga squared deviations ng variable y mula sa mean value ng y sa dalawang bahagi - "ipinaliwanag" at "hindi maipaliwanag":

Ang kabuuang kabuuan ng mga squared deviations ng mga indibidwal na halaga ng epektibong tampok na y mula sa average na halaga y ay sanhi ng impluwensya ng maraming mga kadahilanan.

May kondisyon naming hinahati ang buong hanay ng mga sanhi sa dalawang grupo: ang pinag-aralan na salik x at iba pang mga salik. Kung ang kadahilanan ay hindi nakakaapekto sa resulta, ang linya ng regression sa graph ay kahanay sa x-axis at y=y. Pagkatapos ang buong pagpapakalat ng nagresultang katangian ay dahil sa impluwensya ng iba pang mga salik at ang kabuuang kabuuan ng mga squared deviations ay mag-tutugma sa nalalabi. Kung ang ibang mga salik ay hindi makakaapekto sa resulta, ang y ay gumaganang nauugnay sa x at ang natitirang kabuuan ng mga parisukat ay zero. Sa kasong ito, ang kabuuan ng mga squared deviations na ipinaliwanag ng regression ay kapareho ng kabuuang kabuuan ng mga parisukat. Dahil hindi lahat ng mga punto ng patlang ng ugnayan ay nasa linya ng regression, ang kanilang scatter ay palaging nagaganap dahil sa impluwensya ng salik na x, i.e. pagbabalik ng y sa x, at sanhi ng pagkilos ng iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba). Ang kaangkupan ng linya ng regression para sa hula ay depende sa kung gaano karami sa kabuuang variation ng katangian y ang binibilang ng ipinaliwanag na variation.

Malinaw, kung ang kabuuan ng mga squared deviations dahil sa regression ay mas malaki kaysa sa natitirang kabuuan ng mga parisukat, kung gayon ang regression equation ay istatistikal na makabuluhan at ang x factor ay may malaking epekto sa resulta. Katumbas ito ng katotohanan na ang coefficient of determination ay lalapit sa pagkakaisa. Ang anumang kabuuan ng mga squared deviations ay nauugnay sa bilang ng mga degree ng kalayaan, i.e. ang bilang ng kalayaan ng independiyenteng pagkakaiba-iba ng isang tampok. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit ng populasyon o sa bilang ng mga constant na tinutukoy mula dito. Kaugnay ng problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis sa n posibleng [(y 1 - y), (y 2 - y), ... (y n - y)] ang kinakailangan upang bumuo ng isang naibigay na kabuuan ng mga parisukat. Kaya, para sa kabuuang kabuuan ng mga parisukat ∑(y-y cf) 2, (n-1) ang mga independiyenteng paglihis ay kinakailangan, dahil sa isang populasyon ng n yunit, pagkatapos kalkulahin ang average na antas, lamang (n-1) ang bilang ng mga deviations ay malayang nag-iiba. Kapag kinakalkula ang ipinaliwanag o factorial na kabuuan ng mga parisukat ∑(y-y cf) 2, ang teoretikal (kinakalkula) na mga halaga ng epektibong tampok na y* na matatagpuan sa linya ng regression ay ginagamit: y(x)=a+bx.

Bumalik tayo ngayon sa pagpapalawak ng kabuuang kabuuan ng mga squared deviations ng epektibong salik mula sa average ng halagang ito. Ang kabuuan na ito ay naglalaman ng dalawang bahagi na tinukoy na sa itaas: ang kabuuan ng mga squared deviations, na ipinaliwanag ng regression, at isa pang kabuuan, na tinatawag na residual sum ng squared deviations. Ang agnas na ito ay nauugnay sa pagsusuri ng pagkakaiba-iba, na direktang sumasagot sa pangunahing tanong: kung paano suriin ang kahalagahan ng equation ng regression sa kabuuan at ang mga indibidwal na parameter nito? Ito rin ay higit na tinutukoy ang kahulugan ng tanong na ito. Upang masuri ang kahalagahan ng regression equation sa kabuuan, ginagamit ang Fisher test (F-test). Ayon sa diskarte na iminungkahi ni Fisher, isang null hypothesis ang iniharap: ang regression coefficient ay katumbas ng zero, i.e. halaga b=0. Nangangahulugan ito na ang kadahilanan X ay walang epekto sa resulta ng Y.

Alalahanin na halos palaging ang mga puntos na nakuha bilang resulta ng isang istatistikal na pag-aaral ay hindi eksaktong nasa linya ng regression. Ang mga ito ay nakakalat, na inalis nang higit pa o mas malayo sa linya ng regression. Ang pagkakalat na ito ay dahil sa impluwensya ng iba pang mga salik, maliban sa nagpapaliwanag na salik na X, na hindi isinasaalang-alang sa equation ng regression. Kapag kinakalkula ang ipinaliwanag, o factorial na kabuuan ng mga squared deviations, ang mga teoretikal na halaga ng nagresultang katangian na matatagpuan sa linya ng regression ay ginagamit.

Para sa isang naibigay na hanay ng mga halaga ng mga variable Y at X, ang kinakalkula na halaga ng average na halaga ng Y sa linear regression ay isang function ng isang parameter lamang - ang regression coefficient. Alinsunod dito, ang factorial sum ng squared deviations ay may bilang ng mga degree ng kalayaan na katumbas ng 1. At ang bilang ng mga degree ng kalayaan ng natitirang kabuuan ng squared deviations sa linear regression ay n-2.

Samakatuwid, hinahati ang bawat kabuuan ng mga squared deviations sa orihinal na decomposition sa bilang ng mga degree ng kalayaan nito, nakukuha namin ang average na squared deviations (dispersion bawat isang degree ng kalayaan). Dagdag pa, ang paghahati ng factorial variance sa isang degree ng kalayaan sa natitirang variance sa isang degree ng kalayaan, makakakuha tayo ng criterion para sa pagsubok sa null hypothesis, ang tinatawag na F-relation, o ang criterion ng parehong pangalan. Ibig sabihin, kung ang null hypothesis ay totoo, ang factorial at residual variances ay lalabas na pantay lang sa isa't isa.

Upang tanggihan ang null hypothesis, i.e. pagtanggap sa kabaligtaran na hypothesis, na nagpapahayag ng katotohanan ng kahalagahan (presensya) ng pag-asa sa ilalim ng pag-aaral, at hindi lamang isang random na pagkakataon ng mga kadahilanan na gayahin ang isang pag-asa na hindi aktwal na umiiral, kinakailangan na gumamit ng mga talahanayan ng mga kritikal na halaga ng ang ipinahiwatig na ratio. Tinutukoy ng mga talahanayan ang kritikal (threshold) na halaga ng criterion ng Fisher. Tinatawag din itong teoretikal. Pagkatapos, sa pamamagitan ng paghahambing nito sa katumbas na empirical (aktwal) na halaga ng criterion na kinakalkula mula sa obserbasyonal na data, sinusuri kung ang aktwal na halaga ng ratio ay lumampas sa kritikal na halaga mula sa mga talahanayan.

Sa mas detalyado, ito ay ginagawa bilang mga sumusunod. Ang isang naibigay na antas ng posibilidad ng pagkakaroon ng isang null hypothesis ay pinili at ang kritikal na halaga ng F-criterion ay matatagpuan mula sa mga talahanayan, kung saan ang isang random na pagkakaiba-iba ng mga pagkakaiba sa pamamagitan ng 1 antas ng kalayaan ay maaari pa ring mangyari, i.e. ang pinakamataas na halaga. Pagkatapos ang kinakalkula na halaga ng ratio F- ay kinikilala bilang maaasahan (ibig sabihin, pagpapahayag ng pagkakaiba sa pagitan ng aktwal at natitirang mga pagkakaiba-iba), kung ang ratio na ito ay mas malaki kaysa sa tabular. Pagkatapos ay tinanggihan ang null hypothesis (hindi totoo na walang mga palatandaan ng isang koneksyon) at, sa kabaligtaran, dumating tayo sa konklusyon na mayroong isang koneksyon at makabuluhan (ito ay hindi random, makabuluhan).

Kung ang halaga ng ratio ay mas mababa kaysa sa tabular na halaga, kung gayon ang posibilidad ng null hypothesis ay mas mataas kaysa sa tinukoy na antas (na pinili sa simula) at ang null hypothesis ay hindi maaaring tanggihan nang walang kapansin-pansing panganib na makakuha ng maling konklusyon tungkol sa pagkakaroon ng koneksyon. Alinsunod dito, ang equation ng regression ay itinuturing na hindi gaanong mahalaga.

Ang mismong halaga ng F-criterion ay nauugnay sa coefficient of determination. Bilang karagdagan sa pagtatasa ng kahalagahan ng regression equation sa kabuuan, ang kahalagahan ng mga indibidwal na parameter ng regression equation ay sinusuri din. Kasabay nito, ang karaniwang error ng regression coefficient ay tinutukoy gamit ang empirical actual standard deviation at ang empirical variance sa bawat isang antas ng kalayaan. Pagkatapos nito, ang distribusyon ng Mag-aaral ay ginagamit upang subukan ang kahalagahan ng koepisyent ng regression para sa pagkalkula ng mga pagitan ng kumpiyansa nito.

Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's t-test ay isinasagawa sa pamamagitan ng paghahambing ng mga halaga ng mga halagang ito at ang karaniwang error. Ang halaga ng error ng mga parameter ng linear regression at ang koepisyent ng ugnayan ay tinutukoy ng mga sumusunod na formula:

kung saan ang S ay ang root mean square residual sample deviation,

r xy ay ang koepisyent ng ugnayan.

Alinsunod dito, ang halaga ng karaniwang error na hinulaang ng linya ng regression ay ibinibigay ng formula:

Ang kaukulang mga ratio ng mga halaga ng mga halaga ng regression at correlation coefficients sa kanilang karaniwang error ay bumubuo ng tinatawag na t-statistics, at isang paghahambing ng kaukulang tabular (kritikal) na halaga nito at ang aktwal na halaga nito ay gumagawa posibleng tanggapin o tanggihan ang null hypothesis. Ngunit higit pa, upang kalkulahin ang agwat ng kumpiyansa, ang marginal error para sa bawat indicator ay makikita bilang produkto ng tabular value ng statistics t at ang average na random error ng kaukulang indicator. Sa katunayan, sa isang bahagyang naiibang paraan, isinulat namin ito sa itaas lamang. Pagkatapos ay ang mga hangganan ng mga pagitan ng kumpiyansa ay nakuha: ang mas mababang hangganan ay ibabawas mula sa kaukulang mga coefficient (talagang average) ng kaukulang marginal error, at ang itaas na hangganan ay idinagdag (idinagdag).

Sa linear regression ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2 . Madaling i-verify ito sa pamamagitan ng pagsangguni sa formula para sa linear correlation coefficient: r 2 xy \u003d b 2 * σ 2 x / σ 2 y

kung saan ang σ 2 y ay ang kabuuang pagkakaiba ng katangiang y;

σ 2 x - ang pagkakaiba ng katangiang y dahil sa salik na x. Alinsunod dito, ang kabuuan ng mga squared deviations dahil sa linear regression ay magiging:

∑(y x -y cf) 2 =b 2 ∑(x-x cf) 2 .

Dahil, para sa isang naibigay na halaga ng mga obserbasyon sa x at y, ang factorial sum ng mga parisukat sa linear regression ay nakasalalay lamang sa isang pare-pareho ng coefficient ng regression b, kung gayon ang kabuuan ng mga parisukat na ito ay may isang antas ng kalayaan. Isaalang-alang ang bahagi ng nilalaman ng kinakalkula na halaga ng attribute na y, i.e. sa x. Ang halaga ng y x ay tinutukoy ng linear regression equation: y x ​​​​\u003d a + bx.

Ang parameter a ay maaaring tukuyin bilang a=y-bx. Ang pagpapalit ng expression para sa parameter a sa linear na modelo, makukuha natin: y x ​​​​=y-bx+bx cp =y-b(x-x cf).

Sa isang ibinigay na hanay ng mga variable na y at x, ang kinakalkula na halaga y x sa linear regression ay isang function ng isang parameter lamang - ang regression coefficient. Alinsunod dito, ang factorial sum ng squared deviations ay may bilang ng mga degree ng kalayaan na katumbas ng 1.

Mayroong pagkakapantay-pantay sa pagitan ng bilang ng mga antas ng kalayaan ng kabuuang, factorial at natitirang kabuuan ng mga parisukat. Ang bilang ng mga antas ng kalayaan ng natitirang kabuuan ng mga parisukat sa linear regression ay (n-2). Ang bilang ng mga antas ng kalayaan para sa kabuuang kabuuan ng mga parisukat ay tinutukoy ng bilang ng mga yunit, at dahil ginagamit namin ang average na kinakalkula mula sa sample na data, nawalan kami ng isang antas ng kalayaan, i.e. (n-1). Kaya, mayroon tayong dalawang pagkakapantay-pantay: para sa mga kabuuan at para sa bilang ng mga antas ng kalayaan. At ito, sa turn, ay nagbabalik sa atin sa maihahambing na mga pagpapakalat sa bawat isang antas ng kalayaan, na ang ratio ay nagbibigay ng pamantayan ng Fisher.

25. Pagtataya ng kahalagahan ng mga indibidwal na parameter ng equation ng regression at mga coefficient ayon sa pamantayan ng Mag-aaral.

27. Linear at non-linear regression at mga pamamaraan ng kanilang pag-aaral.

Ang linear regression at ang mga pamamaraan ng pag-aaral at pagsusuri nito ay hindi magiging napakahalaga kung, bilang karagdagan sa napakahalagang ito, ngunit ang pinakasimpleng kaso, hindi namin ginamit ang mga ito upang makakuha ng tool para sa pagsusuri ng mas kumplikadong nonlinear na mga dependency. Ang mga nonlinear na regression ay maaaring nahahati sa dalawang mahalagang magkaibang klase. Ang una at mas simple ay ang klase ng mga non-linear na dependencies, kung saan mayroong non-linearity na may paggalang sa mga paliwanag na variable, ngunit nananatiling linear sa mga tuntunin ng mga parameter na kasama sa mga ito at tinatantya. Kabilang dito ang mga polynomial na may iba't ibang antas at isang equilateral hyperbola.

Ang ganitong non-linear na regression para sa mga variable na kasama sa paliwanag sa pamamagitan ng isang simpleng pagbabagong-anyo (pagpapalit) ng mga variable ay madaling maibaba sa karaniwang linear na regression para sa mga bagong variable. Samakatuwid, ang pagtatantya ng mga parameter sa kasong ito ay isinasagawa lamang ng hindi bababa sa mga parisukat, dahil ang mga dependence ay linear sa mga parameter. Kaya, ang isang mahalagang papel sa ekonomiya ay ginagampanan ng isang non-linear dependence na inilarawan ng isang equilateral hyperbole:

Ang mga parameter nito ay mahusay na tinantya ng MNC, at ang pag-asa na ito mismo ay nagpapakilala sa kaugnayan ng mga gastos sa yunit ng mga hilaw na materyales, gasolina, mga materyales na may dami ng output, ang oras ng sirkulasyon ng mga kalakal, at lahat ng mga salik na ito sa halaga ng turnover . Halimbawa, ang kurba ng Phillips ay nagpapakilala sa hindi linear na relasyon sa pagitan ng antas ng kawalan ng trabaho at ang porsyento ng paglago ng sahod.

Ang sitwasyon ay ganap na naiiba sa isang regression na hindi linear sa mga tuntunin ng tinantyang mga parameter, halimbawa, na kinakatawan ng isang function ng kapangyarihan, kung saan ang antas mismo (tagapagpahiwatig nito) ay isang parameter, o depende sa parameter. Maaari din itong isang exponential function, kung saan ang base ng degree ay isang parameter, at isang exponential function, kung saan, muli, ang exponent ay naglalaman ng isang parameter o isang kumbinasyon ng mga parameter. Ang klase na ito, sa turn, ay nahahati sa dalawang subclass: kabilang sa isa ang panlabas na hindi linear, ngunit mahalagang panloob na linear. Sa kasong ito, maaari mong dalhin ang modelo sa isang linear na anyo gamit ang mga pagbabagong-anyo. Gayunpaman, kung ang modelo ay intrinsically non-linear, hindi ito maaaring bawasan sa isang linear function.

Kaya, ang mga modelo lamang na intrinsically non-linear ang itinuturing na tunay na non-linear sa pagsusuri ng regression. Ang lahat ng iba pa, na binawasan sa linear sa pamamagitan ng mga pagbabagong-anyo, ay hindi itinuturing na ganoon, at sila ang madalas na itinuturing sa mga pag-aaral ng ekonometriko. Kasabay nito, hindi ito nangangahulugan na ang mga hindi linear na dependencies ay hindi maaaring pag-aralan sa econometrics. Kung ang modelo ay panloob na hindi linear sa mga tuntunin ng mga parameter, kung gayon ang mga umuulit na pamamaraan ay ginagamit upang tantiyahin ang mga parameter, ang tagumpay nito ay nakasalalay sa anyo ng singularity equation ng inilapat na paraan ng umuulit.

Bumalik tayo sa mga dependency na binawasan sa mga linear. Kung ang mga ito ay hindi linear pareho sa mga tuntunin ng mga parameter at mga variable, halimbawa, ng form y \u003d isang pinarami ng kapangyarihan ng X, ang tagapagpahiwatig kung saan ay ang parameter -  (beta):

Malinaw, ang gayong ratio ay madaling ma-convert sa isang linear equation sa pamamagitan ng isang simpleng logarithm.

Matapos ipasok ang mga bagong variable na nagsasaad ng logarithms, isang linear equation ang nakuha. Pagkatapos ang pamamaraan ng pagtatantya ng regression ay binubuo sa pagkalkula ng mga bagong variable para sa bawat obserbasyon sa pamamagitan ng pagkuha ng logarithms ng mga orihinal na halaga. Pagkatapos ay tinatantya ang regression dependence ng mga bagong variable. Upang pumasa sa orihinal na mga variable, dapat isa kumuha ng antilogarithm, iyon ay, sa katunayan, bumalik sa mga kapangyarihan sa kanilang sarili sa halip na ang kanilang mga exponents (pagkatapos ng lahat, ang logarithm ay ang exponent). Ang kaso ng exponential o exponential function ay maaaring isaalang-alang nang katulad.

Para sa isang mahalagang non-linear regression, ang karaniwang pamamaraan ng pagtatantya ng regression ay hindi maaaring gamitin, dahil ang kaukulang dependence ay hindi maaaring ma-convert sa isang linear. Ang pangkalahatang pamamaraan ng mga aksyon sa kasong ito ay ang mga sumusunod:

1. Tinatanggap ang ilang posibleng paunang halaga ng parameter;

2. Kalkulahin ang hinulaang mga halaga ng Y mula sa aktwal na mga halaga ng X gamit ang mga halaga ng parameter na ito;

3. Kalkulahin ang mga nalalabi para sa lahat ng mga obserbasyon sa sample at pagkatapos ay ang kabuuan ng mga parisukat ng mga nalalabi;

4. Ginagawa ang maliliit na pagbabago sa isa o higit pang mga pagtatantya ng parameter;

5. Kinakalkula ang mga bagong hinulaang halaga ng Y, mga residual at kabuuan ng mga squared residual;

6. Kung ang kabuuan ng mga parisukat ng mga nalalabi ay mas mababa kaysa dati, kung gayon ang mga bagong pagtatantya ng parameter ay mas mahusay kaysa sa mga luma at dapat gamitin bilang isang bagong panimulang punto;

7. Ang mga hakbang 4, 5 at 6 ay inuulit muli hanggang sa hindi posible na gumawa ng mga naturang pagbabago sa mga pagtatantya ng parameter na hahantong sa pagbabago sa kabuuan ng mga nalalabi ng mga parisukat;

8. Napagpasyahan na ang halaga ng kabuuan ng mga parisukat ng mga nalalabi ay pinaliit at ang mga huling pagtatantya ng mga parameter ay mga pagtatantya sa pamamagitan ng pinakamaliit na paraan ng mga parisukat.

Kabilang sa mga non-linear na function na maaaring gawing linear form, malawakang ginagamit ang exponential function sa econometrics. Ang parameter b dito ay may malinaw na interpretasyon, bilang koepisyent ng pagkalastiko. Sa mga modelong hindi linear sa mga tuntunin ng mga tinantyang parameter, ngunit binawasan sa isang linear na anyo, inilalapat ang LSM sa mga binagong equation. Ang praktikal na aplikasyon ng logarithm at, nang naaayon, ang exponent ay posible kapag ang resultang feature ay walang mga negatibong halaga. Sa pag-aaral ng mga ugnayan sa mga function na gumagamit ng logarithm ng resultang sign, ang econometrics ay pinangungunahan ng power-law dependences (supply and demand curves, production functions, development curves to characterize the relationship between the labor intensity of products, the scale of production). , ang pagdepende ng GNI sa antas ng trabaho, Engel curves).

28. Baliktad na modelo at paggamit nito

Minsan ginagamit ang tinatawag na inverse model, na panloob na hindi linear, ngunit sa loob nito, hindi katulad ng equilateral hyperbole, hindi ang paliwanag na variable ang binago, ngunit ang nagresultang tampok na Y. Samakatuwid, ang inverse na modelo ay lumalabas sa maging panloob na hindi linear at ang pangangailangan ng LSM ay nasiyahan hindi para sa aktwal na mga halaga ng epektibong tampok na Y, at para sa kanilang mga katumbas na halaga. Ang pag-aaral ng ugnayan para sa non-linear regression ay nararapat na espesyal na pansin. Sa pangkalahatang kaso, ang isang parabola ng pangalawang antas, pati na rin ang mga polynomial ng isang mas mataas na pagkakasunud-sunod, kapag linearized, ay tumatagal ng anyo ng isang multiple regression equation. Kung ang regression equation, na hindi linear na may paggalang sa variable na ipinaliwanag, sa panahon ng linearization ay tumatagal ng anyo ng isang linear pair regression equation, pagkatapos ay isang linear correlation coefficient ay maaaring gamitin upang masuri ang higpit ng relasyon.

Kung ang pagbabago ng equation ng regression sa isang linear na anyo ay nauugnay sa isang dependent variable (nagreresultang tampok), kung gayon ang linear correlation coefficient para sa binagong mga halaga ng tampok ay nagbibigay lamang ng isang tinatayang pagtatantya ng relasyon at hindi tumutugma sa numero sa ugnayan. index. Dapat tandaan na kapag kinakalkula ang index ng ugnayan, ang mga kabuuan ng mga squared deviations ng epektibong tampok na Y ang ginagamit, at hindi ang kanilang mga logarithms. Ang pagtatasa ng kahalagahan ng index ng ugnayan ay isinasagawa sa parehong paraan tulad ng pagtatasa ng pagiging maaasahan (kahalagahan) ng koepisyent ng ugnayan. Ang correlation index mismo, pati na rin ang determination index, ay ginagamit upang subukan ang kahalagahan ng pangkalahatang non-linear regression equation ng Fisher's F-test.

Tandaan na ang kakayahang bumuo ng mga non-linear na modelo, kapwa sa pamamagitan ng pagbabawas ng mga ito sa isang linear na anyo, at sa pamamagitan ng paggamit ng non-linear na regression, sa isang banda, ay nagpapataas ng universality ng regression analysis. Sa kabilang banda, ito ay makabuluhang nagpapakumplikado sa mga gawain ng mananaliksik. Kung higpitan natin ang ating sarili sa pairwise regression analysis, maaari nating i-plot ang Y at X na mga obserbasyon bilang scatterplot. Kadalasan ay tinatantya ng ilang iba't ibang non-linear na function ang mga obserbasyon kung nakahiga sila sa ilang kurba. Ngunit sa kaso ng maramihang pagsusuri ng regression, hindi mabuo ang naturang graph.

Kung isinasaalang-alang ang mga alternatibong modelo na may parehong kahulugan ng dependent variable, ang pamamaraan ng pagpili ay medyo simple. Maaari mong suriin ang regression batay sa lahat ng posibleng function na maiisip at piliin ang function na pinakamahusay na nagpapaliwanag sa mga pagbabago sa dependent variable. Malinaw na kapag ang isang linear na function ay nagpapaliwanag ng tungkol sa 64% ng pagkakaiba sa y, at isang hyperbolic na 99.9%, ang huli ay malinaw na dapat piliin. Ngunit kapag ang iba't ibang mga modelo ay gumagamit ng iba't ibang mga functional form, ang problema sa pagpili ng isang modelo ay nagiging mas kumplikado.

29. Paggamit ng Box-Cox test.

Sa pangkalahatan, kapag isinasaalang-alang ang mga alternatibong modelo na may parehong kahulugan ng dependent variable, ang pagpili ay simple. Pinaka makatwirang suriin ang regression batay sa lahat ng posibleng function, huminto sa function na pinakamahusay na nagpapaliwanag ng mga pagbabago sa dependent variable. Kung ang coefficient of determination ay sumusukat sa isang kaso ang proporsyon ng variance na ipinaliwanag ng regression, at sa kabilang kaso ang proporsyon ng variance ng logarithm ng dependent variable na ito na ipinaliwanag ng regression, kung gayon ang pagpili ay ginawa nang walang kahirapan. Ang isa pang bagay ay kapag ang mga halagang ito para sa dalawang modelo ay napakalapit at ang problema sa pagpili ay nagiging mas kumplikado.

Pagkatapos ay dapat ilapat ang karaniwang pamamaraan sa anyo ng Box-Cox test. Kung kailangan mo lang ihambing ang mga modelo gamit ang resultang salik at ang logarithm nito bilang isang variant ng dependent variable, pagkatapos ay isang variant ng Zarembka test ang ginagamit. Nagmumungkahi ito ng Y-scale na pagbabagong nagbibigay-daan sa direktang paghahambing ng root mean square error (RMS) sa mga linear at logarithmic na modelo. Kasama sa kaukulang pamamaraan ang mga sumusunod na hakbang:

    Ang geometric na ibig sabihin ng mga halaga ng Y sa sample ay kinakalkula, kasabay ng exponent ng arithmetic mean ng logarithm ng Y;

    Ang mga obserbasyon Y ay muling kinakalkula sa paraang nahahati sila sa halagang nakuha sa unang hakbang;

    Ang regression ay tinatantya para sa isang linear na modelo gamit ang mga naka-scale na halaga ng Y sa halip na ang orihinal na mga halaga ng Y, at para sa isang logarithmic na modelo na gumagamit ng logarithm ng mga naka-scale na halaga ng Y. Ngayon ang mga halaga ng SD para sa dalawang regression ay maihahambing at samakatuwid ay isang modelo na may ang isang mas maliit na kabuuan ng mga squared deviations ay nagbibigay ng isang mas mahusay na akma sa tunay na pagtitiwala ng mga naobserbahang halaga;

    Upang suriin na ang isa sa mga modelo ay hindi nagbibigay ng isang makabuluhang mas mahusay na akma, maaari mong gamitin ang produkto ng kalahati ng bilang ng mga obserbasyon at ang logarithm ng ratio ng mga halaga ng RMS sa mga naka-scale na regression, at pagkatapos ay kunin ang ganap na halaga ng ang halagang ito.

30. Mga konsepto ng intercorrelation at multicollinearity ng mga salik.

34. Mga Batayan ng MNC at ang bisa ng aplikasyon nito.

Bumaling tayo ngayon sa mga pangunahing kaalaman ng LSM, ang bisa ng aplikasyon nito (kabilang ang mga problema ng multiple regression) at ang pinakamahalagang katangian ng mga pagtatantya na nakuha gamit ang LSM. Magsimula tayo sa katotohanan na, kasama ang analytical dependence sa kanang bahagi ng regression equation, ang random na term ay gumaganap din ng isang mahalagang papel. Ang random na bahaging ito ay isang hindi mapapansing dami. Ang mga istatistikal na pagsusulit ng mga parameter ng regression at mga sukat ng ugnayan ay kanilang sarili ay batay sa hindi nabe-verify na mga pagpapalagay tungkol sa pamamahagi ng random na bahaging ito ng maramihang regression. Ang mga pagpapalagay na ito ay preliminary lamang. Pagkatapos lamang mabuo ang equation ng regression ay susuriin kung ang mga pagtatantya ay may mga random na nalalabi (empirical analogues ng random na bahagi) ng mga katangian na ipinapalagay na priori. Sa esensya, kapag ang mga parameter ng modelo ay tinantya, ang mga pagkakaiba sa pagitan ng teoretikal at aktwal na mga halaga ng nagresultang tampok ay kinakalkula upang masuri ang random na bahagi mismo. Mahalagang tandaan na isa lamang itong piling pagsasakatuparan ng hindi kilalang natitira sa ibinigay na equation.

Ang mga coefficient ng regression na nakuha mula sa sistema ng mga normal na equation ay mga sample na pagtatantya ng lakas ng koneksyon. Malinaw na ang mga ito ay praktikal na kahalagahan lamang kapag sila ay walang kinikilingan. Alalahanin na sa kasong ito ang mean ng mga nalalabi ay katumbas ng zero, o, kung ano ang pareho, ang ibig sabihin ng pagtatantya ay katumbas ng tinantyang parameter mismo. Kung gayon ang mga nalalabi ay hindi maiipon na may malaking bilang ng mga sample na pagtatantya, at ang nahanap na parameter ng regression mismo ay maaaring ituring bilang isang average ng isang malaking bilang ng mga walang pinapanigan na mga pagtatantya.

Bilang karagdagan, ang mga pagtatantya ay dapat magkaroon ng pinakamaliit na pagkakaiba, i.e. maging epektibo, at pagkatapos ay magiging posible na lumipat mula sa halos hindi angkop na mga pagtatantya ng punto patungo sa pagtatantya ng pagitan. Sa wakas, ang mga agwat ng kumpiyansa ay naaangkop sa isang mataas na antas ng kahusayan kapag ang posibilidad na makakuha ng isang pagtatantya sa isang naibigay na distansya mula sa tunay (hindi alam) na halaga ng isang parameter ay malapit sa isa. Ang ganitong mga pagtatantya ay tinatawag na pare-pareho at ang katangian ng pagkakapare-pareho ay nailalarawan sa pamamagitan ng pagtaas sa kanilang katumpakan na may pagtaas sa laki ng sample.

Gayunpaman, ang kondisyon ng pagkakapare-pareho ay hindi awtomatikong natutugunan at mahalagang nakasalalay sa katuparan ng sumusunod na dalawang mahahalagang kinakailangan. Una, ang mga residual mismo ay dapat na stochastic na may pinaka-binibigkas na randomness, i.e. lahat ng tahasang functional dependencies ay dapat isama sa analytical component ng multiple regression, at bilang karagdagan, ang mga value ng residual ay dapat na ibinahagi nang hiwalay sa isa't isa para sa iba't ibang sample (walang autocorrelation ng mga residual). Ang pangalawa, hindi gaanong mahalagang kinakailangan ay ang pagkakaiba-iba ng bawat paglihis (nalalabi) ay pareho para sa lahat ng mga halaga ng mga variable na X (homoscedasticity). Yung. Ang homoscedasticity ay ipinahayag sa pamamagitan ng pare-pareho ng pagkakaiba-iba para sa lahat ng mga obserbasyon:

Sa kabaligtaran, ang heteroscedasticity ay binubuo sa paglabag sa naturang patuloy na pagkakaiba-iba para sa iba't ibang mga obserbasyon. Sa kasong ito, ang a priori (bago ang mga obserbasyon) na posibilidad na makakuha ng malakas na deviated na mga halaga na may iba't ibang teoretikal na pamamahagi ng random na termino para sa iba't ibang mga obserbasyon sa sample ay magiging medyo mataas.

Ang autocorrelation ng mga nalalabi, o ang pagkakaroon ng isang ugnayan sa pagitan ng mga nalalabi ng kasalukuyan at nakaraang (kasunod) na mga obserbasyon, ay nakikita ng halaga ng karaniwang linear correlation coefficient. Kung ito ay makabuluhang naiiba mula sa zero, kung gayon ang mga nalalabi ay autocorrelated at, samakatuwid, ang probability density function (pamamahagi ng mga nalalabi) ay nakasalalay sa punto ng pagmamasid at sa pamamahagi ng mga natitirang halaga sa iba pang mga punto ng pagmamasid. Ito ay maginhawa upang matukoy ang autocorrelation ng mga nalalabi mula sa magagamit na istatistikal na impormasyon sa pagkakaroon ng isang pag-order ng mga obserbasyon sa pamamagitan ng X factor.

35. Homoscedasticity at heteroscedasticity, autocorrelation ng mga residual, generalized least squares method (GMLS).

Ang pagkakapareho ng mga dispersion ng mga nalalabi para sa lahat ng mga halaga ng mga variable na X, o homoscedasticity, ay talagang kinakailangan din upang makakuha ng pare-parehong mga pagtatantya ng mga parameter ng regression mula sa LSM. Ang hindi pagtupad sa kondisyon ng homoscedasticity ay humahantong sa tinatawag na heteroscedasticity. Maaari itong humantong sa bias sa mga pagtatantya ng mga coefficient ng regression. Ang heteroskedasticity ay pangunahing makakaapekto sa pagbaba sa kahusayan ng mga pagtatantya ng mga coefficient ng regression. Sa kasong ito, nagiging mahirap lalo na ang paggamit ng formula para sa karaniwang error ng coefficient ng regression, ang paggamit nito ay ipinapalagay ang isang solong pagkakaiba-iba ng mga nalalabi para sa anumang mga halaga ng kadahilanan. Tulad ng para sa walang kinikilingan ng mga pagtatantya ng mga coefficient ng regression, ito ay pangunahing nakasalalay sa kalayaan ng mga nalalabi at ang mga halaga ng mga kadahilanan mismo.

Ang isang medyo visual, bagama't hindi mahigpit at nangangailangan ng kasanayan na paraan upang subukan ang homoscedasticity ay isang graphical na pag-aaral ng kalikasan ng pag-asa ng mga nalalabi sa average na kinakalkula (teoretikal) na nagreresultang tampok, o ang kaukulang mga patlang ng ugnayan. Ang mga analytical na pamamaraan para sa pag-aaral at pagsusuri ng heteroscedasticity ay mas mahigpit. Sa isang makabuluhang presensya ng heteroscedasticity, ipinapayong gamitin ang generalized least squares (GLS) sa halip na ang least squares.

Bilang karagdagan sa mga kinakailangan para sa maramihang regression na nagmumula sa aplikasyon ng hindi bababa sa mga parisukat, kinakailangan ding sumunod sa mga kondisyon para sa mga variable na kasama sa modelo. Ang mga ito, una sa lahat, ay kinabibilangan ng mga kinakailangan tungkol sa bilang ng mga salik ng modelo para sa isang naibigay na dami ng mga obserbasyon (1 hanggang 7). Kung hindi, ang mga parameter ng regression ay hindi gaanong mahalaga sa istatistika. Mula sa punto ng view ng pagiging epektibo ng aplikasyon ng kaukulang mga numerical na pamamaraan sa pagpapatupad ng hindi bababa sa mga parisukat na pamamaraan, kinakailangan na ang bilang ng mga obserbasyon ay lumampas sa bilang ng mga tinantyang parameter (sa sistema ng mga equation, ang bilang ng mga equation ay mas malaki kaysa sa bilang ng mga variable na hinahanap).

Ang pinakamahalagang tagumpay ng econometrics ay ang makabuluhang pag-unlad ng mga pamamaraan para sa pagtatantya ng hindi kilalang mga parameter sa kanilang sarili at ang pagpapabuti ng mga pamantayan para sa pagtukoy ng static na kahalagahan ng mga epektong isinasaalang-alang. Kaugnay nito, ang imposibilidad o kawalan ng kakayahang gamitin ang tradisyonal na LSM dahil sa heteroscedasticity na nagpapakita ng sarili sa isang antas o iba pa ay humantong sa pagbuo ng isang pangkalahatang LSM (GSM). Sa katunayan, sa parehong oras, ang modelo ay naitama, ang espesipikasyon nito ay binago, at ang paunang data ay binago upang matiyak ang pagiging walang kinikilingan, kahusayan, at pagkakapare-pareho ng mga pagtatantya ng mga coefficient ng regression.

Ipinapalagay na ang ibig sabihin ng mga nalalabi ay katumbas ng zero, ngunit ang kanilang pagkakaiba-iba ay hindi na pare-pareho, ngunit proporsyonal sa mga halaga ng K i, kung saan ang mga halagang ito ay mga koepisyent ng proporsyonalidad na naiiba para sa iba't ibang mga halaga. ng x factor. Kaya, ang mga coefficient na ito (mga halaga ng Ki) ang nagpapakilala sa heterogeneity ng dispersion. Naturally, ipinapalagay na ang halaga ng pagpapakalat mismo, na isang karaniwang kadahilanan para sa mga koepisyent ng proporsyonalidad na ito, ay hindi alam.

Ang orihinal na modelo, pagkatapos na ipasok ang mga coefficient na ito sa multiple regression equation, ay patuloy na heteroscedastic (mas tiyak, ito ang mga residual ng modelo). Hayaang ang mga nalalabi (nalalabi) na ito ay hindi autocorrelated. Ipinakilala namin ang mga bagong variable na nakuha sa pamamagitan ng paghahati sa mga paunang variable ng modelo, na naayos bilang isang resulta ng i-th observation, sa pamamagitan ng square root ng proportionality coefficients К i . Pagkatapos ay makakakuha tayo ng bagong equation sa mga nabagong variable, kung saan ang mga natitira ay magiging homoscedastic na. Ang mga bagong variable mismo ay may timbang na lumang (orihinal) na mga variable.

Samakatuwid, ang pagtatantya ng mga parameter ng bagong equation na nakuha sa ganitong paraan na may mga homoscedastic residual ay mababawasan sa isang timbang na LSM (sa pangkalahatan, ito ang GLS). Kapag ginamit sa halip na ang mga variable ng regression mismo, ang kanilang mga paglihis mula sa mga average ng expression para sa mga coefficient ng regression ay nakakakuha ng isang simple at standardized (uniporme) na anyo, bahagyang naiiba para sa LSM at LMLS sa pamamagitan ng correction factor 1/K sa numerator at denominator ng ang fraction na nagbibigay ng regression coefficient.

Dapat tandaan na ang mga parameter ng nabagong (naitama) na modelo ay mahalagang nakasalalay sa kung anong konsepto ang kinuha bilang batayan para sa mga koepisyent ng proporsyonalidad К i . Madalas na ipinapalagay na ang mga nalalabi ay proporsyonal lamang sa mga halaga ng kadahilanan. Ang modelo ay tumatagal ng pinakasimpleng anyo kapag ang hypothesis ay tinanggap na ang mga error ay proporsyonal sa mga halaga ng huling kadahilanan sa pagkakasunud-sunod. Pagkatapos ay pinapayagan ng OLS na dagdagan ang bigat ng mga obserbasyon na may mas maliliit na halaga ng mga nabagong variable sa pagtukoy ng mga parameter ng regression kumpara sa gawain ng karaniwang OLS na may orihinal na mga variable. Ngunit ang mga bagong variable na ito ay nakakatanggap na ng ibang pang-ekonomiyang nilalaman.

Ang hypothesis na ang mga nalalabi ay proporsyonal sa halaga ng salik ay maaaring may tunay na katwiran. Hayaang maproseso ang ilang hindi sapat na homogenous na set ng data, halimbawa, kasama ang malaki at maliliit na negosyo nang sabay. Kung gayon ang malalaking volumetric na halaga ng kadahilanan ay maaaring tumutugma sa parehong malaking pagkakaiba-iba ng nagresultang tampok at isang malaking pagkakaiba-iba ng mga natitirang halaga. Dagdag pa, ang paggamit ng GLS at ang kaukulang paglipat sa mga kamag-anak na halaga ay hindi lamang binabawasan ang pagkakaiba-iba ng kadahilanan, ngunit binabawasan din ang pagkakaiba-iba ng error. Kaya, ang pinakasimpleng kaso ng pagsasaalang-alang at pagwawasto ng heteroscedasticity sa mga modelo ng regression ay natanto sa pamamagitan ng paggamit ng GLS.

Ang diskarte sa itaas sa pagpapatupad ng OLS sa anyo ng isang may timbang na OLS ay medyo praktikal - ito ay ipinatupad lamang at may malinaw na interpretasyong pang-ekonomiya. Siyempre, hindi ito ang pinaka-pangkalahatang diskarte, at sa konteksto ng mga istatistika ng matematika, na nagsisilbing teoretikal na batayan ng econometrics, inaalok kami ng mas mahigpit na pamamaraan na nagpapatupad ng GLS sa pinaka-pangkalahatang anyo. Kailangan nitong malaman ang covariance matrix ng error vector (column of residuals). At ito ay kadalasang hindi patas sa mga praktikal na sitwasyon, at imposibleng mahanap ang matrix na ito bilang ganoon. Samakatuwid, sa pangkalahatan, kinakailangan na suriin ang nais na matrix upang magamit ang naturang pagtatantya sa halip na ang matrix mismo sa mga kaukulang formula. Kaya, ang inilarawan na pagpapatupad ng GLS ay kumakatawan sa isa sa mga pagtatantiyang ito. Minsan ito ay tinatawag na accessible generalized least squares.

Dapat ding isaalang-alang na ang koepisyent ng pagpapasiya ay hindi maaaring magsilbi bilang isang kasiya-siyang sukatan ng kalidad ng akma kapag gumagamit ng GLS. Sa pagbabalik sa paggamit ng GLS, tandaan din namin na ang paraan ng paggamit ng mga standard deviations (standard errors) sa White form (ang tinatawag na consistent standard errors sa pagkakaroon ng heteroscedasticity) ay may sapat na generality. Ang pamamaraang ito ay naaangkop sa ilalim ng kondisyon na ang error vector covariance matrix ay dayagonal. Kung mayroong autocorrelation ng mga nalalabi (mga error), kapag mayroong mga non-zero na elemento (coefficients) sa covariance matrix at sa labas ng pangunahing dayagonal, kung gayon ang isang mas pangkalahatang karaniwang paraan ng error sa Nevie-West form ay dapat gamitin. Sa kasong ito, mayroong isang makabuluhang limitasyon: ang mga nonzero na elemento, bilang karagdagan sa pangunahing dayagonal, ay nasa mga kalapit na diagonal lamang na pinaghihiwalay mula sa pangunahing dayagonal ng hindi hihigit sa isang tiyak na halaga.

Mula sa kung ano ang sinabi, ito ay malinaw na ito ay kinakailangan upang ma-tsek ang data para sa heteroscedasticity. Ang mga sumusunod na pagsubok ay nagsisilbi sa layuning ito. Sinusubukan nila ang pangunahing hypothesis tungkol sa pagkakapantay-pantay ng mga pagkakaiba-iba ng mga nalalabi laban sa alternatibong hypothesis (tungkol sa hindi pagkakapantay-pantay ng mga hypothesis na ito). Bilang karagdagan, mayroong isang priori na mga hadlang sa istruktura sa likas na katangian ng heteroscedasticity. Sa pagsubok ng Goldfeld-Kuandt, bilang panuntunan, ginagamit ang pagpapalagay ng direktang pag-asa ng pagkakaiba-iba ng error (nalalabi) sa halaga ng ilang independent variable. Ang pamamaraan ng aplikasyon ng pagsusulit na ito ay ang mga sumusunod. Una, ang data ay pinagsunod-sunod sa pababang pagkakasunud-sunod ng independiyenteng variable kung saan pinaghihinalaan ang heteroscedasticity. Ang ilang average na obserbasyon ay ibinukod mula sa nakaayos na dataset na ito, kung saan ang salitang "kaunti" ay nangangahulugang humigit-kumulang isang-kapat (25%) ng kabuuang bilang ng lahat ng mga obserbasyon. Susunod, dalawang independiyenteng regression ang ginagawa para sa una sa natitira (pagkatapos ng pag-aalis) ibig sabihin ng mga obserbasyon at ang huling dalawa sa mga natitirang ibig sabihin ng mga obserbasyon. Pagkatapos nito, ang dalawang kaukulang residues ay itinayo. Sa wakas, ang F-statistic ni Fisher ay pinagsama-sama, at kung ang hypothesis na pinag-aaralan ay totoo, ang F ay talagang isang Fisher distribution na may kaukulang antas ng kalayaan. Kung gayon ang isang malaking halaga ng istatistikang ito ay nangangahulugan na ang hypothesis na sinusuri ay dapat tanggihan. Kung wala ang hakbang ng pag-aalis ng mga obserbasyon, ang kapangyarihan ng pagsubok na ito ay bumababa.

Ang Breusch-Pagan test ay ginagamit kapag ipinapalagay na isang priori na ang mga pagkakaiba ay nakasalalay sa ilang karagdagang mga variable. Una, ang karaniwang (karaniwang) regression ay ginaganap at ang isang vector ng mga residual ay nakuha. Pagkatapos ay isang pagtatantya ng pagkakaiba ay itinayo. Susunod, ang regression ng parisukat ng vector ng mga nalalabi na hinati sa empirical na pagkakaiba-iba (pagtantiya ng pagkakaiba-iba) ay isinasagawa. Para sa kanya (regression) hanapin ang ipinaliwanag na bahagi ng variation. At para sa ipinaliwanag na bahagi ng pagkakaiba-iba, na hinati sa kalahati, ang mga istatistika ay binuo. Kung ang null hypothesis ay totoo (ang kawalan ng heteroscedasticity ay totoo), kung gayon ang dami na ito ay may distribusyon hee-parisukat. Kung, sa kabaligtaran, ang pagsubok ay nagsiwalat ng heteroscedasticity, kung gayon ang orihinal na modelo ay binago sa pamamagitan ng paghahati sa mga bahagi ng vector ng mga nalalabi sa mga kaukulang bahagi ng vector ng mga sinusunod na independiyenteng mga variable.

36. Paraan ng standard deviations sa anyo ni White.

Magagawa natin ang mga sumusunod na konklusyon. Ang paggamit ng GLS sa pagkakaroon ng heteroscedasticity ay binabawasan upang mabawasan ang kabuuan ng mga weighted squared deviations. Ang paggamit ng magagamit na GLS ay nauugnay sa pangangailangan para sa isang malaking bilang ng mga obserbasyon na lampas sa bilang ng mga tinantyang parameter. Ang pinaka-kanais-nais para sa paggamit ng GLS ay ang kaso kapag ang error (nalalabi) ay proporsyonal sa isa sa mga independyenteng variable at ang mga resultang pagtatantya ay pare-pareho. Kung, gayunpaman, sa isang modelo na may heteroscedasticity, kinakailangan na gumamit ng hindi GLS, ngunit karaniwang LSM, pagkatapos ay upang makakuha ng pare-parehong mga pagtatantya, ang isa ay maaaring gumamit ng mga pagtatantya ng error sa White o Nevie-West form.

Kapag sinusuri ang serye ng oras, madalas na kinakailangang isaalang-alang ang istatistikal na pag-asa ng mga obserbasyon sa iba't ibang mga punto sa oras. Sa kasong ito, ang pagpapalagay ng mga hindi nauugnay na mga error ay hindi nasiyahan. Isaalang-alang ang isang simpleng modelo kung saan ang mga error ay bumubuo ng isang first-order na autoregressive na proseso. Sa kasong ito, ang mga error ay nakakatugon sa isang simpleng pag-uulit na ugnayan, sa kanang bahagi kung saan ang isa sa mga termino ay isang pagkakasunud-sunod ng mga independiyenteng normal na ipinamamahagi na mga random na variable na may zero mean at pare-pareho ang pagkakaiba. Ang pangalawang termino ay ang produkto ng parameter (autoregression coefficient) at ang mga halaga ng mga nalalabi sa nakaraang panahon. Ang pagkakasunud-sunod ng mga halaga ng error (nalalabi) mismo ay bumubuo ng isang nakatigil na random na proseso. Ang isang nakatigil na random na proseso ay nailalarawan sa pamamagitan ng pagiging matatag ng mga katangian nito sa paglipas ng panahon, sa partikular, ang ibig sabihin at pagkakaiba. Sa kasong ito, ang covariance matrix ng interes sa amin (mga miyembro nito) ay madaling maisulat gamit ang mga kapangyarihan ng parameter.

Ang pagtatantya ng autoregressive na modelo para sa isang kilalang parameter ay ginagawa gamit ang GLS. Sa kasong ito, sapat na upang bawasan lamang ang orihinal na modelo sa pamamagitan ng isang simpleng pagbabago sa isang modelo na ang mga pagkakamali ay nakakatugon sa mga kondisyon ng karaniwang modelo ng regression. Napakabihirang, ngunit mayroon pa ring sitwasyon kung saan kilala ang parameter ng autoregression. Samakatuwid, sa pangkalahatan ay kinakailangan na magsagawa ng pagtatantya sa isang hindi kilalang parameter na autoregressive. May tatlong pinakakaraniwang ginagamit na pamamaraan ng pagtatasa. Cochrane-Orcutt method, Hildreth-Lou procedure at Durbin method.

Sa pangkalahatan, ang mga sumusunod na konklusyon ay totoo. Ang pagtatasa ng serye ng oras ay nangangailangan ng pagwawasto ng karaniwang hindi bababa sa mga parisukat, dahil ang mga error sa kasong ito, bilang panuntunan, ay magkakaugnay. Kadalasan ang mga error na ito ay bumubuo ng isang first-order stationary autoregressive na proseso. Ang mga pagtatantya ng OLS para sa first-order na autoregression ay walang kinikilingan, pare-pareho, ngunit hindi mahusay. Sa isang kilalang autoregression coefficient, ang OLS ay binabawasan sa mga simpleng pagbabagong-anyo (pagwawasto) ng orihinal na sistema at pagkatapos ay sa paglalapat ng karaniwang hindi bababa sa mga parisukat. Kung, tulad ng mas madalas na kaso, ang autoregressive coefficient ay hindi alam, kung gayon mayroong ilang mga pamamaraan ng magagamit na GLS, na binubuo sa pagtatantya ng hindi kilalang parameter (coefficient), pagkatapos kung saan ang parehong mga pagbabago ay inilapat tulad ng sa nakaraang kaso ng kilalang parameter.

37. Ang konsepto ng Breusch-Pagan test, ang Goldfeldt-Quandt test

Ministri ng Agrikultura ng Russian Federation

Pang-edukasyon na badyet ng pederal na estado

institusyon ng mas mataas na propesyonal na edukasyon

"Perm State Agricultural Academy

ipinangalan sa akademikong D.N. Pryanishnikov"

Department of Finance, Credit at Economic Analysis

Kontrolin ang trabaho sa disiplinang "Econometrics" na Opsyon - 10


    Mga error sa pagtatantya at ang kahulugan nito………………………………….3

    Analytical na paraan ng pag-align ng time series at ang mga function na ginamit dito…………………………………………………………………………..4

    Praktikal na bahagi……………………………………………………………… 11

    1. Gawain 1……………………………………………………………… 11

      Gawain 2…………………………………………………………………………19

Listahan ng mga ginamit na literatura……………………………………………….25

  1. Mga error sa pagtatantya at kahulugan nito.

Average na error sa pagtatantya ay ang average na paglihis ng kinakalkula na data mula sa aktwal na data. Ito ay tinukoy bilang isang porsyento modulo.

Ang aktwal na mga halaga ng nagresultang katangian ay naiiba sa mga teoretikal. Ang mas maliit na pagkakaiba na ito, mas malapit ang mga teoretikal na halaga ay magkasya sa empirical na data, ito ang pinakamahusay na kalidad ng modelo. Ang laki ng mga paglihis ng aktwal at kinakalkula na mga halaga ng epektibong tampok para sa bawat pagmamasid ay isang error sa pagtatantya. Ang kanilang bilang ay tumutugma sa dami ng populasyon. Sa ilang mga kaso, ang error sa pagtatantya ay maaaring zero. Para sa paghahambing, ang mga paglihis ay ginagamit, na ipinahayag bilang isang porsyento ng mga aktwal na halaga.

Dahil maaari itong maging parehong positibo at negatibo, kaugalian na tukuyin ang mga error sa pagtatantya para sa bawat pagmamasid bilang isang porsyento na modulo. Maaaring ituring ang mga paglihis bilang isang ganap na error sa pagtatantya, at bilang isang relatibong error sa pagtatantya. Upang magkaroon ng pangkalahatang paghuhusga tungkol sa kalidad ng modelo mula sa mga kamag-anak na paglihis para sa bawat obserbasyon, ang average na error sa approximation ay tinutukoy bilang simpleng arithmetic mean.

Ang average na error sa approximation ay kinakalkula ng formula:

Posible rin ang isa pang kahulugan ng average na error sa pagtatantya:

Kung A £ 10-12%, maaari nating pag-usapan ang magandang kalidad ng modelo.

  1. Analytical na paraan ng time series alignment at mga function na ginamit sa prosesong ito.

Ang isang mas perpektong pamamaraan para sa pagtukoy ng pangunahing trend ng pag-unlad sa serye ng mga dinamika ay ang analytical alignment. Kapag pinag-aaralan ang pangkalahatang kalakaran sa pamamagitan ng pamamaraan ng analytical alignment, ipinapalagay na ang mga pagbabago sa mga antas ng isang serye ng mga dinamika ay maaaring ipahayag ng ilang mga function ng matematika na may iba't ibang antas ng katumpakan ng approximation. Ang uri ng equation ay tinutukoy ng likas na katangian ng dinamika ng pag-unlad ng isang partikular na kababalaghan. Sa pagsasagawa, ayon sa umiiral na serye ng oras, ang form ay nakatakda at ang mga parameter ng function na y=f(t) ay matatagpuan, at pagkatapos ay ang pag-uugali ng mga deviations mula sa trend ay nasuri. Ang mga sumusunod na relasyon ay kadalasang ginagamit sa pagkakahanay: linear, parabolic, at exponential. Sa maraming kaso, ang pagmomodelo ng time series gamit ang mga polynomial o exponential function ay hindi nagbibigay ng kasiya-siyang resulta, dahil ang time series ay naglalaman ng mga kapansin-pansing pana-panahong pagbabagu-bago sa paligid ng isang pangkalahatang trend. Sa ganitong mga kaso, dapat gamitin ang harmonic analysis (Fourier series harmonics). Ang paggamit ng tumpak na pamamaraang ito ay mas kanais-nais, dahil tinutukoy nito ang batas kung saan posible na tumpak na mahulaan ang mga halaga ng mga antas ng serye.

Ang layunin ng analytical alignment ng dynamic na serye ay upang matukoy ang analytical o graphical na dependence y=f(t). Ang function na y=f(t) ay pinili sa paraang nagbibigay ito ng makabuluhang paliwanag sa prosesong pinag-aaralan. Ang mga ito ay maaaring iba't ibang mga pag-andar.

Mga sistema ng mga equation ng anyong y=f(t) para sa pagtatantya ng mga parameter ng polynomial ng LSM

(naki-click)

Graphical na representasyon ng n-order polynomials

1. Kung ang pagbabago sa mga antas ng isang serye ay nailalarawan sa pamamagitan ng isang pare-parehong pagtaas (pagbaba) sa mga antas, kapag ang absolute chain increments ay malapit sa magnitude, ang development trend ay nailalarawan sa pamamagitan ng isang straight line equation.

2. Kung, bilang isang resulta ng pagsusuri ng uri ng trend ng dynamics, ang isang curvilinear dependence ay itinatag, na may humigit-kumulang na patuloy na acceleration, kung gayon ang hugis ng trend ay ipinahayag ng isang pangalawang-order na parabola equation.

3. Kung ang paglago ng mga antas ng isang serye ng mga dinamika ay nangyayari nang exponentially, i.e. Ang mga kadahilanan ng paglago ng kadena ay higit pa o hindi gaanong pare-pareho, ang pagkakahanay ng serye ng dynamics ay isinasagawa ayon sa exponential function.

Matapos piliin ang uri ng equation, kinakailangan upang tukuyin ang mga parameter ng equation. Ang pinakakaraniwang paraan upang matukoy ang mga parameter ng isang equation ay ang pamamaraan ng hindi bababa sa mga parisukat, kung saan ang pinakamababang punto ng kabuuan ng mga parisukat na paglihis sa pagitan ng teoretikal (nababagay ayon sa napiling equation) at mga empirikal na antas ay kinuha bilang isang solusyon.

Ang pagkakahanay sa isang tuwid na linya (kahulugan ng isang linya ng trend) ay may expression na: yt=a0+a1t

t-simbolo ng oras;

habang ang 0 at a1 ay ang mga parameter ng nais na linya.

Ang mga parameter ng tuwid na linya ay matatagpuan mula sa solusyon ng sistema ng mga equation:

Ang sistema ng mga equation ay pinasimple kung ang mga halaga ng t ay pinili upang ang kanilang kabuuan ay katumbas ng Σt = 0, ibig sabihin, ang pinagmulan ng oras ay inilipat sa gitna ng panahong isinasaalang-alang. Kung bago ang paglipat ng reference point t = 1, 2, 3, 4…, pagkatapos ay pagkatapos ng paglipat:

kung ang bilang ng mga antas sa serye ay kakaiba t = -4 -3 -2 -1 0 +1 +2 +3 +4

kung ang bilang ng mga antas sa serye ay pantay na t = -7 -5 -3 -1 +1 +3 +5 +7

Kaya, ang ∑t sa isang kakaibang kapangyarihan ay palaging magiging katumbas ng zero.

Katulad nito, ang mga parameter ng parabola ng 2nd order ay matatagpuan mula sa solusyon ng sistema ng mga equation:

Alignment ayon sa average na absolute growth o average growth rate:

Δ-average na ganap na pagtaas;

K-average na kadahilanan ng paglago;

Y0-paunang antas ng serye;

Ang Yn ay ang huling antas ng serye;

t ay ang ordinal na numero ng antas, simula sa zero.

Matapos mabuo ang equation ng regression, isang pagtatasa ng pagiging maaasahan nito ay isinasagawa. Ang kahalagahan ng napiling regression equation, mga parameter ng equation, at correlation coefficient ay dapat masuri sa pamamagitan ng paglalapat ng mga kritikal na paraan ng pagsusuri:

Fisher's F-test, Student's t-test, sa kasong ito, ang mga kinakalkula na halaga ng mga pamantayan ay inihambing sa mga naka-tabulate (kritikal) sa isang naibigay na antas ng kahalagahan at ang bilang ng mga antas ng kalayaan. Fact > Ftheor - ang equation ng regression ay sapat.

n ang bilang ng mga obserbasyon (mga antas ng serye), ang m ay ang bilang ng mga parameter ng equation ng regression (modelo).

Ang pagsuri sa kasapatan ng equation ng regression (ang kalidad ng modelo sa kabuuan) ay isinasagawa gamit ang average na error sa approximation, ang halaga nito ay hindi dapat lumampas sa 10-12% (inirerekomenda).

Para sa mga teritoryo ng rehiyon, ibinibigay ang data para sa 200X.

Numero ng rehiyon Average per capita subsistence minimum bawat araw para sa isang matipunong tao, rub., x Average na araw-araw na suweldo, rub., at
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Pagsasanay:

1. Bumuo ng patlang ng ugnayan at bumalangkas ng hypothesis tungkol sa anyo ng koneksyon.

2. Kalkulahin ang mga parameter ng linear regression equation

4. Gamit ang average (pangkalahatang) koepisyent ng elasticity, magbigay ng isang paghahambing na pagtatasa ng lakas ng ugnayan sa pagitan ng salik at resulta.

7. Kalkulahin ang hinulaang halaga ng resulta kung ang hinulaang halaga ng kadahilanan ay tumaas ng 10% mula sa average na antas nito. Tukuyin ang agwat ng kumpiyansa ng hula para sa antas ng kahalagahan.

Desisyon:

Solusyonan natin ang problemang ito gamit ang Excel.

1. Ang paghahambing ng magagamit na data na x at y, halimbawa, pagraranggo sa mga ito sa pataas na pagkakasunud-sunod ng x factor, mapapansin ng isa ang isang direktang ugnayan sa pagitan ng mga palatandaan kapag ang pagtaas sa per capita subsistence minimum ay nagpapataas ng average na araw-araw na sahod. Batay dito, maaaring ipagpalagay na ang relasyon sa pagitan ng mga palatandaan ay direkta at maaari itong ilarawan sa pamamagitan ng equation ng isang tuwid na linya. Ang parehong konklusyon ay nakumpirma sa batayan ng graphical na pagsusuri.

Upang bumuo ng isang field ng ugnayan, maaari mong gamitin ang Excel PPP. Ipasok ang paunang data sa pagkakasunud-sunod: unang x, pagkatapos ay y.

Piliin ang lugar ng mga cell na naglalaman ng data.

Pagkatapos ay piliin ang: Ipasok / I-scatter / I-scatter gamit ang mga marker tulad ng ipinapakita sa figure 1.

Figure 1 Pagbubuo ng field ng ugnayan

Ang isang pagsusuri ng patlang ng ugnayan ay nagpapakita ng pagkakaroon ng isang dependence malapit sa isang tuwid na linya, dahil ang mga punto ay matatagpuan halos sa isang tuwid na linya.

2. Upang kalkulahin ang mga parameter ng linear regression equation
gamitin ang built-in na statistical function LINEST.

Para dito:

1) Magbukas ng umiiral na file na naglalaman ng data na susuriin;
2) Pumili ng isang lugar ng mga walang laman na cell 5×2 (5 row, 2 column) para ipakita ang mga resulta ng mga istatistika ng regression.
3) I-activate Function Wizard: sa pangunahing menu, piliin Mga Formula / Insert Function.
4) Sa bintana Kategorya kinukuha mo Istatistika, sa window ng function - LINEST. Mag-click sa pindutan OK tulad ng ipinapakita sa Figure 2;

Figure 2 Function Wizard Dialog Box

5) Punan ang mga argumento ng function:

Mga kilalang halaga

Mga kilalang halaga ng x

pare-pareho- isang lohikal na halaga na nagpapahiwatig ng pagkakaroon o kawalan ng isang libreng termino sa equation; kung Constant = 1, kung gayon ang libreng termino ay kinakalkula sa karaniwang paraan, kung Constant = 0, kung gayon ang libreng termino ay 0;

Mga istatistika- isang boolean value na nagsasaad kung magpapakita ng karagdagang impormasyon sa pagsusuri ng regression o hindi. Kung Statistics = 1, ang karagdagang impormasyon ay ipinapakita, kung Statistics = 0, ang mga pagtatantya lamang ng mga parameter ng equation ang ipinapakita.

Mag-click sa pindutan OK;

Figure 3 LINEST Arguments Dialog Box

6) Ang unang elemento ng huling talahanayan ay lilitaw sa itaas na kaliwang cell ng napiling lugar. Upang palawakin ang buong talahanayan, pindutin ang pindutan at pagkatapos ay sa keyboard shortcut ++ .

Ang mga karagdagang istatistika ng regression ay ilalabas sa pagkakasunud-sunod na ipinapakita sa sumusunod na schema:

Ang halaga ng koepisyent b Ang halaga ng koepisyent a
b karaniwang error karaniwang error a
karaniwang error y
F-statistic
Regression kabuuan ng mga parisukat

Figure 4 Ang resulta ng pagkalkula ng LINEST function

Nakuha namin ang equation ng regression:

Napagpasyahan namin: Sa pagtaas ng per capita subsistence minimum ng 1 rub. ang average na araw-araw na sahod ay tumataas ng average na 0.92 rubles.

Nangangahulugan ito na 52% ng pagkakaiba-iba sa sahod (y) ay ipinaliwanag sa pamamagitan ng pagkakaiba-iba ng salik na x - ang average na per capita subsistence minimum, at 48% - sa pamamagitan ng pagkilos ng iba pang mga salik na hindi kasama sa modelo.

Ayon sa kinakalkula na koepisyent ng pagpapasiya, posibleng kalkulahin ang koepisyent ng ugnayan: .

Ang relasyon ay na-rate bilang malapit.

4. Gamit ang average (pangkalahatang) koepisyent ng pagkalastiko, tinutukoy namin ang lakas ng impluwensya ng kadahilanan sa resulta.

Para sa straight line equation, ang average (general) elasticity coefficient ay tinutukoy ng formula:

Nahanap namin ang average na mga halaga sa pamamagitan ng pagpili ng lugar ng mga cell na may mga halaga ng x, at piliin Mga Formula / AutoSum / Average, at gawin ang parehong sa mga halaga ng y.

Figure 5 Pagkalkula ng mga mean value ng isang function at argument

Kaya, kung ang average per capita subsistence minimum ay nagbabago ng 1% mula sa average na halaga nito, ang average na pang-araw-araw na sahod ay magbabago ng average na 0.51%.

Paggamit ng tool sa pagsusuri ng data Regression makukuha mo ito:
- mga resulta ng mga istatistika ng regression,
- mga resulta ng pagsusuri sa pagpapakalat,
- mga resulta ng mga agwat ng kumpiyansa,
- mga residual at regression line fit chart,
- mga tira at normal na posibilidad.

Ang pamamaraan ay ang mga sumusunod:

1) suriin ang pag-access sa Pakete ng pagsusuri. Sa pangunahing menu, piliin sa pagkakasunud-sunod: File/Mga Setting/Mga Add-on.

2) I-drop Kontrolin piliin ang item Mga add-in sa Excel at pindutin ang pindutan Pumunta ka.

3) Sa bintana mga add-on lagyan ng tsek ang kahon Pakete ng pagsusuri, at pagkatapos ay i-click ang button OK.

Kung ang Pakete ng pagsusuri nawawala sa listahan ng field Magagamit na mga add-on, pindutin ang pindutan Pagsusuri upang maghanap.

Kung nakatanggap ka ng mensahe na nagsasaad na ang analysis pack ay hindi naka-install sa iyong computer, i-click Oo upang i-install ito.

4) Sa pangunahing menu, piliin sa pagkakasunud-sunod: Data / Pagsusuri ng Data / Mga Tool sa Pagsusuri / Regression, at pagkatapos ay i-click ang button OK.

5) Punan ang dialog box ng data entry at output options:

Input interval Y- ang saklaw na naglalaman ng data ng mabisang katangian;

Input interval X- ang saklaw na naglalaman ng data ng katangian ng kadahilanan;

Mga tag- isang bandila na nagpapahiwatig kung ang unang linya ay naglalaman ng mga pangalan ng mga hanay o hindi;

Constant - zero- isang bandila na nagpapahiwatig ng pagkakaroon o kawalan ng isang libreng termino sa equation;

pagitan ng output- sapat na upang ipahiwatig ang itaas na kaliwang cell ng hanay sa hinaharap;

6) Bagong worksheet - maaari kang magtakda ng arbitrary na pangalan para sa bagong sheet.

Pagkatapos ay pindutin ang pindutan OK.

Figure 6 Dialog box para sa pagpasok ng mga parameter ng Regression tool

Ang mga resulta ng pagsusuri ng regression para sa data ng problema ay ipinapakita sa Figure 7.

Figure 7 Ang resulta ng paglalapat ng regression tool

5. Tantyahin natin ang kalidad ng mga equation gamit ang average na error sa approximation. Gamitin natin ang mga resulta ng pagsusuri ng regression na ipinakita sa Figure 8.

Figure 8 Ang resulta ng paglalapat ng regression tool na "Residual Inference"

Mag-compile tayo ng bagong table tulad ng ipinapakita sa Figure 9. Sa column C, kinakalkula namin ang relative approximation error gamit ang formula:

Figure 9 Pagkalkula ng average na error sa approximation

Ang average na error sa approximation ay kinakalkula ng formula:

Ang kalidad ng itinayong modelo ay tinasa bilang mabuti, dahil hindi ito lalampas sa 8 - 10%.

6. Mula sa talahanayan na may mga istatistika ng regression (Larawan 4), isinusulat namin ang aktwal na halaga ng F-test ni Fisher:

Sa abot ng sa isang 5% na antas ng kahalagahan, pagkatapos ay maaari nating tapusin na ang equation ng regression ay makabuluhan (ang relasyon ay napatunayan).

8. Susuriin namin ang istatistikal na kahalagahan ng mga parameter ng regression gamit ang t-statistics ng Mag-aaral at sa pamamagitan ng pagkalkula ng agwat ng kumpiyansa para sa bawat isa sa mga tagapagpahiwatig.

Iniharap namin ang hypothesis H 0 tungkol sa isang hindi gaanong istatistikal na pagkakaiba ng mga tagapagpahiwatig mula sa zero:

.

para sa bilang ng mga antas ng kalayaan

Ang Figure 7 ay may mga aktwal na halaga ng t-statistic:

Ang t-test para sa correlation coefficient ay maaaring kalkulahin sa dalawang paraan:

paraan ko:

saan - random na error ng correlation coefficient.

Kinukuha namin ang data para sa pagkalkula mula sa talahanayan sa Figure 7.

II paraan:

Ang aktwal na mga halaga ng t-statistic ay higit na mataas sa mga halaga ng talahanayan:

Samakatuwid, ang hypothesis H 0 ay tinanggihan, iyon ay, ang mga parameter ng regression at ang koepisyent ng ugnayan ay hindi random na naiiba mula sa zero, ngunit makabuluhang istatistika.

Ang agwat ng kumpiyansa para sa parameter a ay tinukoy bilang

Para sa parameter a, ang 95% na mga hangganan, tulad ng ipinapakita sa Figure 7, ay:

Ang confidence interval para sa regression coefficient ay tinukoy bilang

Para sa regression coefficient b, ang 95% na mga hangganan tulad ng ipinapakita sa Figure 7 ay:

Ang pagsusuri sa itaas at ibabang mga hangganan ng mga pagitan ng kumpiyansa ay humahantong sa konklusyon na may posibilidad ang mga parameter a at b, na nasa loob ng tinukoy na mga hangganan, ay hindi kumukuha ng mga zero na halaga, i.e. ay hindi makabuluhan ayon sa istatistika at makabuluhang naiiba sa zero.

7. Ang nakuhang mga pagtatantya ng equation ng regression ay nagpapahintulot sa amin na gamitin ito para sa pagtataya. Kung ang forecast value ng subsistence minimum ay:

Pagkatapos ang hinulaang halaga ng subsistence minimum ay magiging:

Kinakalkula namin ang error sa pagtataya gamit ang formula:

saan

Kinakalkula din namin ang pagkakaiba-iba gamit ang Excel PPP. Para dito:

1) I-activate Function Wizard: sa pangunahing menu, piliin Mga Formula / Insert Function.

3) Punan ang hanay na naglalaman ng numerical data ng factor na katangian. I-click OK.

Figure 10 Pagkalkula ng pagkakaiba-iba

Kunin ang halaga ng pagkakaiba

Upang kalkulahin ang natitirang pagkakaiba-iba sa bawat isang antas ng kalayaan, ginagamit namin ang mga resulta ng pagsusuri ng pagkakaiba-iba tulad ng ipinapakita sa Figure 7.

Ang mga pagitan ng kumpiyansa para sa paghula ng mga indibidwal na halaga ng y at na may posibilidad na 0.95 ay tinutukoy ng expression:

Ang pagitan ay medyo malawak, pangunahin dahil sa maliit na dami ng mga obserbasyon. Sa pangkalahatan, ang natupad na forecast ng average na buwanang suweldo ay naging maaasahan.

Ang kalagayan ng problema ay kinuha mula sa: Workshop sa econometrics: Proc. allowance / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko at iba pa; Ed. I.I. Eliseeva. - M.: Pananalapi at mga istatistika, 2003. - 192 p.: ill.

Para sa pangkalahatang pagtatasa ng kalidad ng itinayong econometric, ang mga katangian tulad ng coefficient of determination, correlation index, average relative approximation error ay tinutukoy, at ang kahalagahan ng regression equation ay sinusuri gamit ang F- Pamantayan ni Fisher. Ang mga nakalistang katangian ay medyo pangkalahatan at maaaring ilapat sa parehong mga linear at non-linear na mga modelo, pati na rin sa mga modelo na may dalawa o higit pang mga variable na kadahilanan. Ang pagtukoy ng halaga sa pagkalkula ng lahat ng nakalistang katangian ng kalidad ay nilalaro ng isang bilang ng mga nalalabi ε i, na kinakalkula sa pamamagitan ng pagbabawas mula sa aktwal (nakuha mula sa mga obserbasyon) na mga halaga ng katangian na pinag-aaralan y i mga halaga na kinakalkula ayon sa equation ng modelo y pi.

Koepisyent ng determinasyon

nagpapakita kung anong proporsyon ng pagbabago sa pinag-aralan na katangian ang isinasaalang-alang sa modelo. Sa madaling salita, ang koepisyent ng determinasyon ay nagpapakita kung anong bahagi ng pagbabago sa variable na pinag-aaralan ang maaaring kalkulahin batay sa mga pagbabago sa mga variable na salik na kasama sa modelo gamit ang napiling uri ng function na nag-uugnay sa mga variable na salik at ang tampok na pinag-aaralan sa ang modelong equation.

Koepisyent ng determinasyon R2 maaaring tumagal ng mga halaga mula 0 hanggang 1. Mas malapit ang koepisyent ng pagpapasiya R2 sa pagkakaisa, mas mabuti ang kalidad ng modelo.

Index ng ugnayan ay madaling kalkulahin, alam ang koepisyent ng pagpapasiya:

Index ng ugnayan R nailalarawan ang higpit ng uri ng ugnayang pinili sa pagbuo ng modelo sa pagitan ng mga salik na isinasaalang-alang sa modelo at ng variable na pinag-aaralan. Sa kaso ng linear pair regression, ang absolute value nito ay tumutugma sa coefficient ng correlation ng pares r(x, y), na isinasaalang-alang namin nang mas maaga, at nailalarawan ang higpit ng linear na relasyon sa pagitan x at y. Ang mga halaga ng index ng ugnayan, malinaw naman, ay nasa saklaw mula 0 hanggang 1. Mas malapit ang halaga R tungo sa pagkakaisa, mas malapit na iniuugnay ng napiling uri ng function ang mga variable na salik at ang katangiang pinag-aaralan, mas maganda ang kalidad ng modelo.

(2.11)

ipinahayag bilang isang porsyento at nailalarawan ang katumpakan ng modelo. Ang katanggap-tanggap na katumpakan ng modelo sa paglutas ng mga praktikal na problema ay maaaring matukoy batay sa mga pagsasaalang-alang ng pagiging posible sa ekonomiya, na isinasaalang-alang ang isang tiyak na sitwasyon. Ang isang malawakang ginagamit na pamantayan ay ang katumpakan ay itinuturing na kasiya-siya kung ang average na kamag-anak na error ay mas mababa sa 15%. Kung ang E rel.av. mas mababa sa 5%, kung gayon ang modelo ay sinasabing may mataas na katumpakan. Hindi inirerekomenda na gumamit ng mga modelo na may hindi kasiya-siyang katumpakan para sa pagsusuri at pagtataya, iyon ay, kung kailan E rel.av. higit sa 15%.

Fisher F-test ginamit upang suriin ang kahalagahan ng equation ng regression. Ang kinakalkula na halaga ng F-criterion ay tinutukoy mula sa ratio:

. (2.12)

kritikal na halaga F-Ang pamantayan ay tinutukoy mula sa mga talahanayan sa isang partikular na antas ng kahalagahan α at mga antas ng kalayaan (maaari mong gamitin ang FDISP function sa Excel). Dito pa rin m ay ang bilang ng mga salik na isinasaalang-alang sa modelo, n ay ang bilang ng mga obserbasyon. Kung ang kinakalkula na halaga ay mas malaki kaysa sa kritikal na halaga, ang equation ng modelo ay kinikilala bilang makabuluhan. Mas malaki ang kinakalkula na halaga F-pamantayan, mas mahusay ang kalidad ng modelo.

Tukuyin natin ang mga katangian ng kalidad ng linear na modelo na ginawa natin Halimbawa 1. Gamitin natin ang datos ng Talahanayan 2. Koepisyent ng determinasyon:

Samakatuwid, sa loob ng linear na modelo, ang pagbabago sa dami ng benta ng 90.1% ay ipinaliwanag ng pagbabago sa temperatura ng hangin.

Index ng ugnayan

.

Ang halaga ng index ng ugnayan sa kaso ng isang ipinares na linear na modelo, tulad ng nakikita natin, ay talagang modulo na katumbas ng koepisyent ng ugnayan sa pagitan ng kaukulang mga variable (dami ng benta at temperatura). Dahil ang nakuhang halaga ay sapat na malapit sa isa, maaari nating tapusin na mayroong malapit na linear na relasyon sa pagitan ng variable na pinag-aaralan (dami ng benta) at ng factor variable (temperatura).

Fisher F-test

kritikal na halaga F cr sa α = 0.1; v 1 =1; ν 2 =7-1-1=5 ay katumbas ng 4.06. Tinantyang halaga F-criterion ay mas malaki kaysa sa tabular isa, samakatuwid, ang modelo equation ay makabuluhan.

Average na kamag-anak na approximation error

Ang built linear pair regression model ay may hindi kasiya-siyang katumpakan (>15%), at hindi inirerekomenda na gamitin ito para sa pagsusuri at pagtataya.

Bilang resulta, sa kabila ng katotohanan na karamihan sa mga istatistikal na katangian ay nakakatugon sa mga pamantayan para sa kanila, ang linear paired regression na modelo ay hindi angkop para sa paghula ng dami ng mga benta depende sa temperatura ng hangin. Ang di-linear na katangian ng relasyon sa pagitan ng mga variable na ito ayon sa data ng pagmamasid ay malinaw na nakikita sa Fig.1. Kinumpirma ito ng isinagawang pagsusuri.