Ipinapakita ang matrix ng pairwise correlation coefficients. Kahulugan ng multiple correlation coefficient sa MS Excel

Ang mga collinear factor ay...

At collinear.

4. Sa multiple regression model, ang determinant ng matrix ng mga ipinares na coefficient ng ugnayan sa pagitan ng mga salik , at malapit sa zero. Nangangahulugan ito na ang mga salik , at ... ay mga salik na multicollinear.

5. Para sa econometric na modelo ng isang linear multiple regression equation, isang matrix ng ipinares na linear correlation coefficients ( y ay ang dependent variable; x (1),x (2), x (3), x(4)– mga independiyenteng variable):


Collinear (malapit na nauugnay) independiyenteng (nagpapaliwanag) na mga variable hindix(2) at x(3)

1. Ibinigay ang isang talahanayan ng paunang data para sa pagbuo ng isang modelo ng econometric regression:

dummy variable hindi

karanasan sa trabaho

produktibidad ng paggawa

2. Kapag pinag-aaralan ang pag-asa ng pagkonsumo ng karne sa antas ng kita at kasarian ng mamimili, maaari naming irekomenda ...

gumamit ng dummy variable - ang kasarian ng mamimili

hatiin ang populasyon sa dalawa: para sa mga babaeng mamimili at para sa mga lalaki na mamimili

3. Pinag-aaralan namin ang dependence ng presyo ng apartment ( sa) mula sa kanyang tirahan ( X) at uri ng bahay. Kasama sa modelo ang mga dummy variable na sumasalamin sa mga itinuturing na uri ng mga bahay: monolitik, panel, ladrilyo. Ang regression equation ay nakuha: ,
saan ,
Ang mga partikular na equation ng regression para sa brick at monolitik ay ...

para sa uri ng bahay na ladrilyo

para sa monolitikong uri ng bahay

4. Kapag sinusuri ang mga pang-industriya na negosyo sa tatlong rehiyon (ang Republika ng Mari El, ang Republika ng Chuvashia, ang Republika ng Tatarstan), tatlong partikular na mga equation ng regression ang binuo:

para sa Republika ng Mari El;

para sa Republika ng Chuvashia;

para sa Republika ng Tatarstan.

Ipahiwatig ang uri ng dummy variable at ang equation na may dummy variables na nag-generalize ng tatlong partikular na regression equation.

5. Sa econometrics, ang isang dummy variable ay itinuturing na ...

isang variable na kumukuha ng mga halaga 0 at 1

naglalarawan sa isang quantitative na paraan ng isang qualitative sign

1. Para sa modelo ng regression ng dependence ng average na per capita monetary income ng populasyon (rubles, sa) ng dami ng kabuuang produkto ng rehiyon (libong rubles, x 1) at ang rate ng kawalan ng trabaho sa paksa (%, x 2) ang equation ay nakuha. Ang halaga ng regression coefficient para sa variable x 2 ay nagpapahiwatig na sa isang pagbabago sa rate ng kawalan ng trabaho ng 1%, ang average na per capita cash na kita ay ______ rubles, na may pare-parehong halaga ng gross regional product.

ay magbabago sa (-1.67)

2. Sa linear multiple regression equation: , kung saan ang halaga ng mga nakapirming assets (libong rubles); - bilang ng mga empleyado (isang libong tao); y- ang dami ng pang-industriyang produksyon (libong rubles) na parameter na may isang variable x 1, katumbas ng 10.8, ay nangangahulugan na sa pagtaas ng dami ng fixed asset ng _____, ang volume ng industriyal na produksyon ay _____ na may pare-parehong bilang ng mga empleyado.


para sa 1 libong rubles. … tataas ng 10.8 libong rubles.

3. Nabatid na ang proporsyon ng natitirang variance ng dependent variable sa kabuuang variance nito ay 0.2. Pagkatapos ang halaga ng koepisyent ng pagpapasiya ay ... 0.8

4. Isang econometric na modelo ang binuo para sa pagtitiwala ng tubo sa mga benta ng isang yunit ng produksyon (rub., sa) sa halaga ng kapital ng paggawa ng negosyo (libong rubles, x 1): . Dahil dito, ang average na kita mula sa mga benta, na hindi nakasalalay sa dami ng kapital ng paggawa ng negosyo, ay _____ rubles. 10.75

5. Ang F-statistic ay kinakalkula bilang ratio ng ______ na pagkakaiba sa _______ na pagkakaiba na kinakalkula sa bawat antas ng kalayaan. factorial ... nalalabi

1. Para sa isang econometric na modelo ng regression equation, ang error sa modelo ay tinukoy bilang ______ sa pagitan ng aktwal na halaga ng dependent variable at ang kinakalkulang halaga nito. Pagkakaiba

2. Ang halaga ay tinatawag na ... random na bahagi

3. Sa econometric na modelo ng regression equation, ang paglihis ng aktwal na halaga ng dependent variable mula sa kinakalkula na halaga nito ay nagpapakilala ... ang error sa modelo

4. Nabatid na ang proporsyon ng ipinaliwanag na pagkakaiba sa kabuuang pagkakaiba ay 0.2. Pagkatapos ang halaga ng koepisyent ng pagpapasiya ay ... 0.2

5. Gamit ang hindi bababa sa mga parisukat na paraan, ang mga parameter ng equation ng ipinares na linear regression ay tinutukoy mula sa kondisyon ______ residues. pinaliit ang kabuuan ng mga parisukat

1. Upang makita ang autocorrelation sa mga residual, gamitin ang ...

Mga istatistika ng Durbin–Watson

2. Ito ay kilala na ang koepisyent ng autocorrelation ng mga nalalabi sa unang pagkakasunud-sunod katumbas ng –0.3. Ibinigay din ang mga kritikal na halaga ng mga istatistika ng Durbin-Watson para sa isang naibigay na bilang ng mga parameter na may hindi alam at bilang ng mga obserbasyon, . Ayon sa mga katangiang ito, maaari nating tapusin na ... walang autocorrelation ng mga nalalabi

Sa una sa modelo sa isama ang lahat ng pangunahing bahagi (ang mga kinakalkula na halaga ay ipinahiwatig sa mga bracket t-pamantayan):

Ang kalidad ng modelo ay nailalarawan sa pamamagitan ng: maramihang koepisyent ng pagpapasiya r= 0.517, average na kamag-anak na approximation error = 10.4%, natitirang pagkakaiba s2= 1.79 at F obs = 121. Sa pagtingin sa katotohanan na F obs > F cr = 2.85 sa α = 0.05, v1 = 6, v2= 14, ang equation ng regression ay makabuluhan at hindi bababa sa isa sa mga coefficient ng regression - β 1 , β 2 , β 3 , β 4 - ay hindi katumbas ng zero.

Kung ang kahalagahan ng regression equation (hypothesis H 0:β 1 = β 2 = β 3 = β 4 = 0 ay nasuri sa α = 0.05, pagkatapos ay ang kahalagahan ng mga coefficient ng regression, i.e. mga hypotheses H0: β j = 0 (j= 1, 2, 3, 4), ay dapat suriin sa antas ng kabuluhan na higit sa 0.05, halimbawa, sa α = 0.1. Pagkatapos para sa α = 0.1, v= 14 na halaga t kr = 1.76, at makabuluhan, tulad ng sumusunod mula sa equation (53.41), ay ang mga regression coefficients β 1, β 2, β 3.

Isinasaalang-alang na ang mga pangunahing bahagi ay hindi nakakaugnay sa isa't isa, maaari nating agad na ibukod ang lahat ng hindi gaanong mahalagang mga koepisyent mula sa equation, at ang equation ay kukuha ng anyo

(53.42)

Paghahambing ng mga equation (53.41) at (53.42), nakikita natin na ang pag-aalis ng mga hindi gaanong mahalagang bahagi f4 at f5, ay hindi nakakaapekto sa mga halaga ng mga coefficient ng equation b 0 = 9,52, b 1 = 0,93, b 2 = 0.66 at katumbas tj (j = 0, 1, 2, 3).

Ito ay dahil sa hindi nauugnay na mga pangunahing sangkap. Dito, ang parallel ng mga equation ng regression para sa mga paunang tagapagpahiwatig (53.22), (53.23) at ang mga pangunahing bahagi (53.41), (53.42) ay kawili-wili.

Ang equation (53.42) ay makabuluhan dahil F obs = 194 > F kr = 3.01 na natagpuan sa α = 0.05, v1 = 4, v2= 16. Ang mga coefficient ng equation ay makabuluhan din, dahil t j > t kr . = 1.746 na tumutugma sa α = 0.01, v= 16 para sa j= 0, 1, 2, 3. Coefficient of determination r= 0.486 ay nagpapahiwatig na 48.6% ng variation sa dahil sa impluwensya ng unang tatlong pangunahing sangkap.

Ang equation (53.42) ay nailalarawan sa pamamagitan ng isang average na kamag-anak na error ng approximation = 9.99% at natitirang variance s2 = 1,91.

Ang equation ng regression sa mga pangunahing bahagi (53.42) ay may bahagyang mas mahusay na approximating properties kumpara sa regression model (53.23) sa mga tuntunin ng mga unang indicator: r= 0,486 > r= 0,469; = 9,99% < (X) = 10.5% at s 2 (f) = 1,91 < s 2 (x) = 1.97. Bilang karagdagan, sa equation (53.42), ang mga pangunahing bahagi ay mga linear function ng lahat ng input indicator, habang ang equation (53.23) ay kinabibilangan lamang ng dalawang variable ( x 1 at x 4). Sa ilang mga kaso, kailangang isaalang-alang na ang modelo (53.42) ay mahirap bigyang-kahulugan, dahil kabilang dito ang ikatlong pangunahing bahagi f 3, na hindi namin binigyang-kahulugan at ang kontribusyon sa kabuuang pagkakaiba ng mga paunang tagapagpahiwatig ( x 1 , ..., x 5) ay 8.6% lamang. Gayunpaman, ang pagbubukod f 3 mula sa equation (53.42) ay makabuluhang nagpapalala sa mga tinatayang katangian ng modelo: r= 0.349; = 12.4% at s2(f) = 2.41. Pagkatapos ay ipinapayong pumili ng equation (53.23) bilang isang modelo ng regression ng produktibidad.

pagsusuri ng kumpol

Sa istatistikal na pananaliksik, ang pagpapangkat ng pangunahing data ay ang pangunahing desisyon mga gawain sa pag-uuri, at samakatuwid ang batayan ng lahat ng karagdagang gawain sa mga nakolektang impormasyon.

Ayon sa kaugalian, ang problemang ito ay nalutas sa sumusunod na paraan. Mula sa hanay ng mga tampok na naglalarawan sa bagay, ang isa ay pinili, ang pinaka-kaalaman, mula sa punto ng view ng mananaliksik, at ang data ay pinagsama-sama alinsunod sa mga halaga ng tampok na ito. Kung kinakailangan na pag-uri-uriin ayon sa ilang mga tampok, na niraranggo sa kanilang mga sarili sa pagkakasunud-sunod ng kahalagahan, pagkatapos ay ang unang pag-uuri ay isinasagawa ayon sa unang tampok, pagkatapos ay ang bawat isa sa mga resultang klase ay nahahati sa mga subclass ayon sa pangalawang tampok, at kaya sa. Karamihan sa mga pinagsama-samang istatistikal na pagpapangkat ay binuo sa katulad na paraan.

Sa mga kaso kung saan hindi posible na i-streamline ang mga tampok ng pag-uuri, ang pinakasimpleng paraan ng multidimensional na pagpapangkat ay ginagamit - ang paglikha ng isang integral na tagapagpahiwatig (index), na umaasa sa mga orihinal na tampok, na may kasunod na pag-uuri ayon sa tagapagpahiwatig na ito.

Ang pagbuo ng diskarteng ito ay isang variant ng pag-uuri ayon sa ilang mga generalizing indicator (pangunahing bahagi) na nakuha gamit ang mga pamamaraan ng factor o component analysis.

Kung mayroong ilang mga tampok (paunang o pangkalahatan), ang problema sa pag-uuri ay maaaring malutas sa pamamagitan ng mga pamamaraan ng pagsusuri ng kumpol, na naiiba sa iba pang mga pamamaraan ng pag-uuri ng multivariate sa kawalan ng mga sample ng pagsasanay, i.e. isang priori na impormasyon tungkol sa pamamahagi ng pangkalahatang populasyon.

Ang mga pagkakaiba sa pagitan ng mga scheme para sa paglutas ng problema ng pag-uuri ay higit na tinutukoy ng kung ano ang ibig sabihin ng mga konsepto ng "pagkakatulad" at "degree ng pagkakatulad".

Matapos mabuo ang layunin ng gawain, natural na subukang matukoy ang pamantayan ng kalidad, ang layunin ng pag-andar, ang mga halaga nito ay magbibigay-daan sa amin upang ihambing ang iba't ibang mga scheme ng pag-uuri.

Sa mga pag-aaral sa ekonomiya, ang layunin ng pag-andar, bilang panuntunan, ay dapat mabawasan ang ilang parameter na tinukoy sa isang hanay ng mga bagay (halimbawa, ang layunin ng pag-uuri ng mga kagamitan ay maaaring isang pagpapangkat na nagpapaliit sa kabuuang halaga ng oras at pera para sa pagkukumpuni).

Sa mga kaso kung saan hindi posible na gawing pormal ang layunin ng problema, ang pamantayan para sa kalidad ng pag-uuri ay maaaring ang posibilidad ng isang makabuluhang interpretasyon ng mga pangkat na natagpuan.

Isaalang-alang ang sumusunod na problema. Hayaan ang koleksyon P mga bagay, na ang bawat isa ay nailalarawan k sinusukat na katangian. Kinakailangang hatiin ang koleksyong ito sa mga grupo (mga klase) na homogenous sa isang tiyak na kahulugan. Kasabay nito, halos walang priori na impormasyon tungkol sa likas na katangian ng pamamahagi k-dimensional na vector X sa loob ng mga klase.

Ang mga pangkat na nakuha bilang resulta ng paghahati ay karaniwang tinatawag na mga kumpol* (mga taxon**, mga larawan), ang mga pamamaraan para sa paghahanap ng mga ito ay tinatawag na cluster analysis (ayon sa pagkakabanggit, numerical taxonomy o pattern recognition na may self-learning).

* Cluster(Ingles) - isang pangkat ng mga elemento na nailalarawan ng ilang karaniwang pag-aari.

**takhop(Ingles) - isang sistematikong pangkat ng anumang kategorya.

Ito ay kinakailangan mula sa simula upang malinaw na maunawaan kung alin sa dalawang mga problema sa pag-uuri ang dapat lutasin. Kung ang karaniwang problema sa pag-type ay nalutas, pagkatapos ay ang hanay ng mga obserbasyon ay nahahati sa isang medyo maliit na bilang ng mga pangkat na rehiyon (halimbawa, isang serye ng pagkakaiba-iba ng pagitan sa kaso ng isang-dimensional na mga obserbasyon) upang ang mga elemento ng isang naturang rehiyon ay bilang malapit sa isa't isa hangga't maaari.

Ang solusyon ng isa pang problema ay upang matukoy ang natural na pagsasapin-sapin ng mga resulta ng mga obserbasyon sa mahusay na tinukoy na mga kumpol na nakahiga sa ilang distansya mula sa bawat isa.

Kung ang unang problema sa pag-type ay palaging may solusyon, kung gayon sa pangalawang kaso ay maaaring lumabas na ang hanay ng mga obserbasyon ay hindi nagpapakita ng natural na pagsasapin sa mga kumpol, i.e. bumubuo ng isang kumpol.

Bagama't maraming mga pamamaraan ng pagsusuri ng kumpol ay medyo elementarya, karamihan sa mga gawain kung saan ang mga ito ay iminungkahi ay nagsimula noong nakaraang dekada. Ito ay ipinaliwanag sa pamamagitan ng katotohanan na ang mahusay na solusyon ng mga problema sa paghahanap ng kumpol, na nangangailangan ng isang malaking bilang ng mga aritmetika at lohikal na operasyon, ay naging posible lamang sa pagdating at pag-unlad ng teknolohiya ng computer.

Ang karaniwang anyo ng representasyon ng paunang data sa mga problema ng pagsusuri ng kumpol ay ang matrix

bawat linya na kumakatawan sa mga resulta ng pagsukat k itinuturing na mga tampok sa isa sa mga napagmasdan na bagay. Sa mga partikular na sitwasyon, maaaring maging interesado ang pagpapangkat ng mga bagay at ang pagpapangkat ng mga feature. Sa mga kasong iyon kung saan hindi makabuluhan ang pagkakaiba sa pagitan ng dalawang gawaing ito, halimbawa, kapag naglalarawan ng ilang algorithm, gagamitin lang namin ang terminong "object", kasama ang terminong "feature" sa konseptong ito.

Matrix X ay hindi lamang ang paraan upang kumatawan ng data sa mga problema sa pagsusuri ng cluster. Minsan ang paunang impormasyon ay ibinibigay bilang isang square matrix

elemento rij na tumutukoy sa antas ng pagiging malapit i-th object to j-mu.

Karamihan sa mga algorithm ng pagsusuri ng cluster ay ganap na umaasa sa distansya (o proximity) matrix o nangangailangan ng pagkalkula ng mga indibidwal na elemento nito, kaya kung ang data ay ipinakita sa form x, kung gayon ang unang hakbang sa paglutas ng problema sa paghahanap ng mga kumpol ay ang pagpili ng isang paraan para sa pagkalkula ng mga distansya, o kalapitan, sa pagitan ng mga bagay o tampok.

Ang tanong ng pagtukoy ng kalapitan sa pagitan ng mga tampok ay medyo mas madaling malutas. Bilang isang panuntunan, ang cluster analysis ng mga feature ay nagpapatuloy sa parehong mga layunin gaya ng factor analysis: ang pagpili ng mga pangkat ng magkakaugnay na feature na nagpapakita ng isang partikular na aspeto ng mga bagay na pinag-aaralan. Sa kasong ito, ang iba't ibang statistical coupling coefficient ay nagsisilbing sukatan ng pagiging malapit.


Katulad na impormasyon.


Upang matukoy ang antas ng pag-asa sa pagitan ng ilang mga tagapagpahiwatig, maraming coefficient ng ugnayan ang ginagamit. Pagkatapos ay ibubuod ang mga ito sa isang hiwalay na talahanayan, na tinatawag na correlation matrix. Ang mga pangalan ng mga row at column ng naturang matrix ay ang mga pangalan ng mga parameter na ang pagtitiwala sa isa't isa ay itinatag. Ang mga kaukulang coefficient ng ugnayan ay matatagpuan sa intersection ng mga row at column. Alamin natin kung paano ka makakagawa ng katulad na pagkalkula gamit ang mga tool sa Excel.

Nakaugalian na matukoy ang antas ng ugnayan sa pagitan ng iba't ibang mga tagapagpahiwatig tulad ng sumusunod, depende sa koepisyent ng ugnayan:

  • 0 - 0.3 - walang koneksyon;
  • 0.3 - 0.5 - mahinang koneksyon;
  • 0.5 - 0.7 - average na koneksyon;
  • 0.7 - 0.9 - mataas;
  • 0.9 - 1 - napakalakas.

Kung ang koepisyent ng ugnayan ay negatibo, nangangahulugan ito na ang relasyon ng mga parameter ay kabaligtaran.

Upang mag-compile ng correlation matrix sa Excel, isang tool ang ginagamit, kasama sa package "Pagsusuri sa datos". Yan ang tawag dun - "Kaugnayan". Tingnan natin kung paano ito magagamit upang makalkula ang maramihang mga marka ng ugnayan.

Hakbang 1: I-activate ang Analysis Pack

Dapat itong sabihin kaagad na ang default na pakete "Pagsusuri sa datos" may kapansanan. Samakatuwid, bago magpatuloy sa pamamaraan para sa direktang pagkalkula ng mga coefficient ng ugnayan, kailangan mong i-activate ito. Sa kasamaang palad, hindi alam ng bawat gumagamit kung paano ito gawin. Samakatuwid, pagtutuunan natin ng pansin ang isyung ito.


Pagkatapos ng tinukoy na aksyon, ang tool package "Pagsusuri sa datos" ay isaaktibo.

Stage 2: pagkalkula ng koepisyent

Ngayon ay maaari kang magpatuloy nang direkta sa pagkalkula ng multiple correlation coefficient. Kalkulahin natin ang multiple correlation coefficient ng mga salik na ito gamit ang halimbawa ng talahanayan ng mga indicator ng labor productivity, capital-labor ratio at power-to-weight ratio sa iba't ibang negosyo.


Stage 3: pagsusuri ng resulta

Ngayon, alamin natin kung paano maunawaan ang resulta na nakuha natin sa proseso ng pagproseso ng data ng tool "Kaugnayan" sa programang Excel.

Tulad ng nakikita natin mula sa talahanayan, ang koepisyent ng ugnayan ng ratio ng kapital-paggawa (Hanay 2) at ratio ng kapangyarihan-sa-timbang ( Hanay 1) ay 0.92, na tumutugma sa isang napakalakas na relasyon. Sa pagitan ng produktibidad ng paggawa ( Hanay 3) at ratio ng kapangyarihan-sa-timbang ( Hanay 1) ang tagapagpahiwatig na ito ay katumbas ng 0.72, na isang mataas na antas ng pagtitiwala. Koepisyent ng ugnayan sa pagitan ng produktibidad ng paggawa ( Hanay 3) at ratio ng kapital-paggawa ( Hanay 2) ay katumbas ng 0.88, na tumutugma din sa isang mataas na antas ng pag-asa. Kaya, maaari nating sabihin na ang ugnayan sa pagitan ng lahat ng pinag-aralan na mga kadahilanan ay maaaring masubaybayan nang medyo malakas.

Tulad ng nakikita mo, ang pakete "Pagsusuri sa datos" sa Excel ay isang napaka-maginhawa at medyo madaling gamitin na tool para sa pagtukoy ng maramihang koepisyent ng ugnayan. Maaari rin itong gamitin upang kalkulahin ang karaniwang ugnayan sa pagitan ng dalawang salik.

Ang data sa ekonomiya ay mga quantitative na katangian ng anumang bagay o prosesong pang-ekonomiya. Ang mga ito ay nabuo sa ilalim ng impluwensya ng maraming mga kadahilanan, hindi lahat ay magagamit sa panlabas na kontrol. Ang hindi makontrol na mga kadahilanan ay maaaring kumuha ng mga random na halaga mula sa isang hanay ng mga halaga at sa gayon ay magdulot ng randomness ng data na kanilang tinutukoy. Isa sa mga pangunahing gawain sa pananaliksik sa ekonomiya ay pagsusuri ng mga dependency sa pagitan ng mga variable.

Isinasaalang-alang ang mga dependency sa pagitan ng mga tampok, ito ay kinakailangan upang makilala una sa lahat ng dalawang uri ng mga relasyon:

  • functional - ay nailalarawan sa pamamagitan ng buong pagsusulatan sa pagitan ng pagbabago sa katangian ng kadahilanan at ng pagbabago sa nagresultang halaga: bawat halaga ng attribute-factor ay tumutugma sa mahusay na tinukoy na mga halaga ng epektibong katangian. Ang ganitong uri ng relasyon ay ipinahayag bilang isang formulaic na relasyon. Ang isang functional dependency ay maaaring mag-link ng isang resultang katangian sa isa o higit pang mga kadahilanang katangian. Kaya, ang halaga ng sahod para sa oras na sahod ay depende sa bilang ng mga oras na nagtrabaho;
  • ugnayan- walang kumpletong pagsusulatan sa pagitan ng pagbabago ng dalawang palatandaan, ang impluwensya ng mga indibidwal na kadahilanan ay ipinakita lamang sa karaniwan, kasama ang pagmamasid ng masa ng aktwal na data. Ang sabay-sabay na epekto sa pinag-aralan na katangian ng isang malaking bilang ng iba't ibang mga kadahilanan ay humahantong sa katotohanan na ang parehong halaga ng attribute-factor ay tumutugma sa buong pamamahagi ng mga halaga ng nagresultang katangian, dahil sa bawat partikular na kaso, maaaring baguhin ng ibang mga factor sign ang lakas at direksyon ng epekto nito.

Dapat itong isipin na kung mayroong isang functional na relasyon sa pagitan ng mga palatandaan, posible, alam ang halaga ng factor sign, upang tumpak na matukoy ang halaga ng resulta. Sa pagkakaroon ng isang pag-asa sa ugnayan, lamang takbo ng pagbabago ng mabisang tampok kapag binabago ang halaga ng factor sign.

Pag-aaral ng kaugnayan sa pagitan ng mga palatandaan, inuri sila ayon sa direksyon, anyo, bilang ng mga kadahilanan:

  • patungo sa ang mga koneksyon ay nahahati sa tuwid at reverse. Sa direktang koneksyon, ang direksyon ng pagbabago sa mabisang katangian ay tumutugma sa direksyon ng pagbabago sa sign-factor. Sa feedback, ang direksyon ng pagbabago sa epektibong feature ay kabaligtaran sa direksyon ng pagbabago sa feature-factor. Halimbawa, mas mataas ang kwalipikasyon ng isang manggagawa, mas mataas ang antas ng produktibidad ng kanyang paggawa (direktang relasyon). Kung mas mataas ang produktibidad ng paggawa, mas mababa ang halaga ng yunit ng produksyon (feedback);
  • sa anyo(uri ng function) ang mga koneksyon ay nahahati sa linear(rectilinear) at hindi linear(curvilinear). Ang isang linear na relasyon ay ipinapakita bilang isang tuwid na linya, isang hindi linear na relasyon - bilang isang curve (parabola, hyperbola, atbp.). Sa isang linear na relasyon na may pagtaas sa halaga ng katangian ng kadahilanan, mayroong isang pare-parehong pagtaas (pagbaba) sa halaga ng resultang katangian;
  • sa pamamagitan ng bilang ng mga salik na kumikilos sa epektibong tanda, nahahati ang mga komunikasyon sa single-factor(pinares) at multifactorial.

Ang pag-aaral ng pag-asa ng pagkakaiba-iba ng isang tanda sa mga nakapaligid na kondisyon ay ang nilalaman ng teorya ng ugnayan.

Kapag nagsasagawa ng pagsusuri ng ugnayan, ang buong hanay ng data ay itinuturing bilang isang hanay ng mga variable (mga kadahilanan), na ang bawat isa ay naglalaman ng P mga obserbasyon.

Kapag pinag-aaralan ang relasyon sa pagitan ng dalawang salik, kadalasang tinutukoy ang mga ito X=(x p x 2,...,x p) at Y= (y ( , y 2 ,..., y at).

Covariance - ito ay istatistika sukatan ng pakikipag-ugnayan dalawang variable. Halimbawa, ang isang positibong halaga para sa covariance ng returns sa dalawang securities ay nagpapahiwatig na ang mga return sa mga securities ay may posibilidad na lumipat sa parehong direksyon.

Covariance sa pagitan ng dalawang variable X at Y kinakalkula tulad ng sumusunod:

nasaan ang aktwal na mga halaga ng mga variable

X at G;

Kung random variables Hee Y ay independyente, ang teoretikal na covariance ay zero.

Ang covariance ay nakasalalay sa mga yunit kung saan sinusukat ang mga variable Hee Y, ito ay isang hindi normal na dami. Samakatuwid, upang sukatin pwersa ng komunikasyon sa pagitan ng dalawang variable, isa pang istatistika ang ginagamit, na tinatawag na koepisyent ng ugnayan.

Para sa dalawang variable X at Koepisyent ng ugnayan ng pares ng Y

ay tinukoy bilang mga sumusunod:

saan SSy- mga pagtatantya ng pagkakaiba-iba Hee Y. Ang mga pagtatantya na ito ay nagpapakilala antas ng pagpapakalat mga halaga x ( , x 2 , ..., x n (y 1 , y 2 , y n) sa paligid ng iyong average x (y ayon sa pagkakabanggit), o pagkakaiba-iba(variability) ng mga variable na ito sa isang set ng mga obserbasyon.

Pagpapakalat(variance estimate) ay tinutukoy ng formula

Sa pangkalahatang kaso, upang makakuha ng walang pinapanigan na pagtatantya ng pagkakaiba, ang kabuuan ng mga parisukat ay dapat na hatiin sa bilang ng mga antas ng kalayaan ng pagtatantya (atbp), saan P - laki ng sample, R - ang bilang ng mga link na ipinataw sa sample. Dahil ang sample ay ginamit nang isang beses upang matukoy ang ibig sabihin x, kung gayon ang bilang ng mga superimposed na bono sa kasong ito ay katumbas ng isa (p = 1), at ang bilang ng mga antas ng kalayaan ng pagtatantya (ibig sabihin, ang bilang ng mga independiyenteng sample na elemento) ay katumbas ng (P - 1).

Mas natural na sukatin ang antas ng pagkalat sa mga halaga ng mga variable sa parehong mga yunit kung saan ang variable mismo ay sinusukat. Ang problemang ito ay nalutas sa pamamagitan ng isang tagapagpahiwatig na tinatawag karaniwang lihis (karaniwang lihis) o karaniwang error variable X(variable Y) at tinutukoy ng kaugnayan

Ang mga termino sa numerator ng formula (3.2.1) ay nagpapahayag ng pakikipag-ugnayan ng dalawang variable at tinutukoy ang tanda ng ugnayan (positibo o negatibo). Kung, halimbawa, may malakas na positibong ugnayan sa pagitan ng mga variable (tumaas sa isang variable kapag tumaas ang iba), magiging positibong numero ang bawat termino. Katulad nito, kung mayroong isang malakas na negatibong relasyon sa pagitan ng mga variable, ang lahat ng mga termino sa numerator ay magiging mga negatibong numero, na magreresulta sa isang negatibong halaga ng ugnayan.

Ang denominator ng expression para sa coefficient ng ugnayan ng pares [tingnan. formula (3.2.2)] ay pina-normalize lamang ang numerator sa paraang ang koepisyent ng ugnayan ay lumabas na isang madaling ma-interpret na numero na walang dimensyon at kumukuha ng mga halaga mula -1 hanggang +1.

Ang numerator ng expression para sa correlation coefficient, na mahirap bigyang-kahulugan dahil sa hindi pangkaraniwang mga yunit, ay XY covariance. Sa kabila ng katotohanan na kung minsan ay ginagamit ito bilang isang independiyenteng katangian (halimbawa, sa teorya ng pananalapi upang ilarawan ang magkasanib na pagbabago sa mga presyo ng stock sa dalawang palitan), mas maginhawang gamitin ang koepisyent ng ugnayan. Ang ugnayan at covariance ay kumakatawan sa mahalagang parehong impormasyon, ngunit ang ugnayan ay nagpapakita ng impormasyong ito sa isang mas maginhawang anyo.

Para sa isang husay na pagtatasa ng koepisyent ng ugnayan, iba't ibang mga kaliskis ang ginagamit, kadalasan ang sukat ng Chaddock. Depende sa halaga ng koepisyent ng ugnayan, ang relasyon ay maaaring magkaroon ng isa sa mga sumusunod na pagtatantya:

  • 0.1-0.3 - mahina;
  • 0.3-0.5 - kapansin-pansin;
  • 0.5-0.7 - katamtaman;
  • 0.7-0.9 - mataas;
  • 0.9-1.0 - napakataas.

Ang pagtatasa ng antas ng pagiging malapit ng koneksyon gamit ang koepisyent ng ugnayan ay isinasagawa, bilang panuntunan, batay sa higit pa o mas limitadong impormasyon tungkol sa hindi pangkaraniwang bagay na pinag-aaralan. Sa pagsasaalang-alang na ito, mayroong pangangailangan upang masuri ang kahalagahan ng linear correlation coefficient, na ginagawang posible na pahabain ang mga konklusyon batay sa mga resulta ng sample sa pangkalahatang populasyon.

Ang pagtatasa ng kahalagahan ng koepisyent ng ugnayan para sa maliliit na laki ng sample ay isinasagawa gamit ang 7-test ng Mag-aaral. Sa kasong ito, ang aktwal (na-obserbahan) na halaga ng pamantayang ito ay tinutukoy ng formula

Ang halaga / obs na kinakalkula gamit ang formula na ito ay inihambing sa kritikal na halaga ng θ-criterion, na kinuha mula sa talahanayan ng mga halaga ng /-test ng Mag-aaral (tingnan ang Appendix 2), na isinasaalang-alang ang ibinigay na antas ng kahalagahan σ at ang bilang ng mga antas ng kalayaan (P - 2).

Kung 7 obs > 7 tab, ang nakuhang halaga ng correlation coefficient ay kinikilala bilang makabuluhan (ibig sabihin, ang null hypothesis na nagsasaad na ang correlation coefficient ay katumbas ng zero ay tinanggihan). At sa gayon ay napagpasyahan na mayroong malapit na istatistikal na relasyon sa pagitan ng mga pinag-aralan na mga variable.

Kung ang halaga y x malapit sa zero, mahina ang relasyon sa pagitan ng mga variable. Kung ang ugnayan sa pagitan ng mga random na variable:

  • ay positibo, pagkatapos habang ang isang random na variable ay tumataas, ang isa ay may posibilidad na tumaas sa karaniwan;
  • ay negatibo, pagkatapos habang ang isang random na variable ay tumataas, ang isa ay may posibilidad na bumaba sa karaniwan. Ang isang maginhawang graphical na tool para sa pagsusuri ng ipinares na data ay scatterplot, na kumakatawan sa bawat pagmamasid sa isang puwang ng dalawang dimensyon na tumutugma sa dalawang salik. Ang isang scatterplot, na naglalarawan ng isang hanay ng mga halaga ng dalawang tampok, ay tinatawag din larangan ng ugnayan. Ang bawat punto ng diagram na ito ay may x coordinate (. at y g Habang tumataas ang lakas ng linear na relasyon, ang mga punto sa graph ay mas malapit sa isang tuwid na linya, at ang magnitude G magiging mas malapit sa pagkakaisa.

Ang mga coefficient ng ugnayan ng pares ay ginagamit upang sukatin ang lakas ng mga linear na relasyon sa pagitan ng iba't ibang pares ng mga tampok mula sa kanilang hanay. Para sa isang hanay ng mga feature, kumuha matrix ng mga coefficient ng ugnayan ng pares.

Hayaang ang buong dataset ay binubuo ng isang variable Y==(sa r y 2 , ..., y p) at t mga variable (mga kadahilanan) x, ang bawat isa ay naglalaman ng P mga obserbasyon. Mga variable na halaga Y at x, na nakapaloob sa naobserbahang populasyon ay nakatala sa talahanayan (Talahanayan 3.2.1).

Talahanayan 3.2.1

Variable

Numero

mga obserbasyon

X t3

Х tp

Batay sa data na nakapaloob sa talahanayang ito, kalkulahin ang matrix ng mga coefficient ng ugnayan ng pares R, ito ay simetriko tungkol sa pangunahing dayagonal:


Ang pagsusuri ng matrix ng mga coefficient ng ugnayan ng pares ay ginagamit sa pagbuo ng maramihang mga modelo ng regression.

Ang isang correlation matrix ay hindi maaaring ganap na ilarawan ang mga dependences sa pagitan ng mga dami. Kaugnay nito, dalawang problema ang isinasaalang-alang sa multivariate correlation analysis:

  • 1. Pagtukoy sa higpit ng kaugnayan ng isang random na variable sa kabuuan ng iba pang mga variable na kasama sa pagsusuri.
  • 2. Pagtukoy sa higpit ng ugnayan sa pagitan ng dalawang dami habang inaayos o hindi kasama ang impluwensya ng iba pang dami.

Ang mga problemang ito ay nalutas, ayon sa pagkakabanggit, sa tulong ng maramihang at bahagyang mga koepisyent ng ugnayan.

Ang solusyon sa unang problema (pagtukoy sa pagiging malapit ng koneksyon ng isang random na variable sa hanay ng iba pang mga variable na kasama sa pagsusuri) ay isinasagawa gamit ang sample ng multiple correlation coefficient ayon sa pormula

saan R- R[cm. formula (3.2.6)]; Rjj- algebraic complement ng isang elemento ng parehong matrix R.

Ang parisukat ng multiple correlation coefficient SCHj2 j _j J+l m tinawag selective multiple coefficient of determination; ipinapakita nito kung anong proporsyon ng variation (random scatter) ng dami na pinag-aaralan Xj ipinapaliwanag ang pagkakaiba-iba ng iba pang mga random na variable X ( , X 2 ,..., X t.

Ang mga koepisyent ng maraming ugnayan at pagpapasiya ay mga positibong halaga, kumukuha ng mga halaga sa hanay mula 0 hanggang 1. Kapag lumalapit ang koepisyent R 2 sa pagkakaisa, maaari nating tapusin na ang relasyon ng mga random na variable ay malapit, ngunit hindi tungkol sa direksyon nito. Ang multiple correlation coefficient ay maaari lamang tumaas kung ang mga karagdagang variable ay kasama sa modelo, at hindi tataas kung ang alinman sa mga available na feature ay hindi kasama.

Ang pagsuri sa kahalagahan ng coefficient of determination ay isinasagawa sa pamamagitan ng paghahambing ng kinakalkula na halaga ng /'-Fisher's criterion

may tabular F rabl. Ang tabular na halaga ng criterion (tingnan ang Appendix 1) ay tinutukoy ng ibinigay na antas ng kahalagahan a at mga antas ng kalayaan v l \u003d mnv 2 \u003d n-m-l. Coefficient R2 ay makabuluhang naiiba mula sa zero kung ang hindi pagkakapantay-pantay

Kung ang itinuturing na random variable magkaugnay sa isa't isa kung gayon ang halaga ng koepisyent ng ugnayan ng pares ay bahagyang apektado ng impluwensya ng iba pang mga dami. Kaugnay nito, kailangang pag-aralan ang bahagyang ugnayan sa pagitan ng mga variable habang hindi kasama ang impluwensya ng iba pang mga random na variable (isa o higit pa).

Sample na partial correlation coefficient ay tinutukoy ng formula

saan RJk , Rjj, Rkk - mga algebraic na pagdaragdag sa mga kaukulang elemento ng matrix R[cm. formula (3.2.6)].

Ang partial correlation coefficient, pati na rin ang pairwise correlation coefficient, ay nag-iiba mula -1 hanggang +1.

Expression (3.2.9) sa ilalim ng kundisyon t = 3 ang magiging hitsura

Ang coefficient r 12(3) ay tinatawag koepisyent ng ugnayan sa pagitan ng x ( at x 2 para sa nakapirming x y Ito ay simetriko na may paggalang sa mga pangunahing indeks 1, 2. Ang pangalawang indeks nito 3 ay tumutukoy sa isang nakapirming variable.

Halimbawa 3.2.1. Pagkalkula ng mga coefficient ng pares,

maramihan at bahagyang ugnayan.

Sa mesa. 3.2.2 ay nagbibigay ng impormasyon sa mga dami ng benta at mga gastos sa advertising ng isang kumpanya, pati na rin ang index ng paggasta ng consumer para sa ilang kasalukuyang taon.

  • 1. Bumuo ng scatterplot (correlation field) para sa mga variable na "sales volume" at "consumer spending index".
  • 2. Tukuyin ang antas ng impluwensya ng index ng paggasta ng mamimili sa dami ng mga benta (kalkulahin ang koepisyent ng ugnayan ng pares).
  • 3. Tayahin ang kahalagahan ng kalkuladong koepisyent ng ugnayan ng pares.
  • 4. Bumuo ng isang matrix ng mga pares na coefficient ng ugnayan para sa tatlong variable.
  • 5. Maghanap ng pagtatantya ng multiple correlation coefficient.
  • 6. Maghanap ng mga pagtatantya ng partial correlation coefficients.

1. Sa aming halimbawa, ang scatter diagram ay may form na ipinapakita sa fig. 3.2.1. Ang pagpahaba ng point cloud sa scatterplot kasama ang isang hilig na tuwid na linya ay nagpapahintulot sa amin na ipalagay na mayroong ilang layunin na tendensya para sa isang direktang linear na relasyon sa pagitan ng mga halaga ng mga variable. X 2 Y(dami ng mga benta).

kanin. 3.2.1.

2. Mga intermediate na kalkulasyon kapag kinakalkula ang koepisyent ng ugnayan sa pagitan ng mga variable X 2(index ng paggasta ng mga mamimili) at Y(dami ng benta) ay ibinigay sa talahanayan. 3.2.3.

Mga katamtaman mga random na variable X 2 at Y, alin ang mga pinakasimpleng tagapagpahiwatig na nagpapakilala sa mga pagkakasunud-sunod ng jCj, x 2,..., x 16 at y v y 2 ,..., y 16 , kinakalkula namin sa pamamagitan ng mga sumusunod na formula:


Dami ng benta Y, libong rubles

Index

ubusin

Telsky

gastos

Dami ng benta Y, libong rubles

Index

ubusin

Telsky

gastos

Talahanayan 3.2.3

l:, - X

(AT - Y)(x, - x)

(x, - x) 2

(y, - - y) 2

Pagpapakalat nailalarawan ang antas ng pagkalat ng mga halaga x v x 2 , x :

Isaalang-alang ngayon ang solusyon sa Halimbawa 3.2.1 sa Excel.

Upang kalkulahin ang ugnayan gamit ang Excel, maaari mong gamitin ang function =correl(), na tumutukoy sa mga address ng dalawang hanay ng mga numero, tulad ng ipinapakita sa fig. 3.2.2. Ang sagot ay inilagay sa D8 at katumbas ng 0.816.

kanin. 3.2.2.

(Tandaan: Mga argumento ng function Ang mga correl ay dapat na mga numero o pangalan, array o reference na naglalaman ng mga numero. Kung ang argument, na isang array o isang link, ay naglalaman ng text, boolean, o walang laman na mga cell, kung gayon ang mga halagang iyon ay hindi papansinin; gayunpaman, ang mga cell na naglalaman ng mga null na halaga ay binibilang.

Kung isang array! at array2 ay may ibang bilang ng mga punto ng data, pagkatapos ay ang function Ibinabalik ng correl ang #n/a error value.

Kung ang array1 o array2 ay walang laman o kung ang o (standard deviation) ng kanilang mga halaga ay zero, kung gayon ang function ibinabalik ng correl ang error value #div/0 !.)

Ang kritikal na halaga ng /-Student statistic ay maaari ding makuha gamit ang function steudrasprobr 1 Excel package. Bilang mga argumento ng function, dapat mong tukuyin ang bilang ng mga antas ng kalayaan, katumbas ng P- 2 (sa aming halimbawa 16 - 2= 14) at antas ng kahalagahan a (sa aming halimbawa a = 0.1) (Larawan 3.2.3). Kung ang tunay na halaga/-statistics, kinuha modulo, higit pa mapanganib, pagkatapos ay may posibilidad na (1 - a) ang koepisyent ng ugnayan ay makabuluhang naiiba mula sa zero.


kanin. 3.2.3. Ang kritikal na halaga ng /-statistic ay 1.7613

Kasama sa Excel ang isang hanay ng mga tool sa pagsusuri ng data (ang tinatawag na package ng pagsusuri) na idinisenyo upang malutas ang iba't ibang mga problema sa istatistika. Upang kalkulahin ang matrix ng mga coefficient ng ugnayan ng pares R gamitin ang Correlation tool (Larawan 3.2.4) at itakda ang mga parameter ng pagsusuri sa kaukulang dialog box. Ang sagot ay ilalagay sa isang bagong worksheet (Larawan 3.2.5).

1 Sa Excel 2010, ang pangalan ng function ang steudrasprobr ay naging steu-

DENT.ORD.2X.

kanin. 3.2.4.


kanin. 3.2.5.

  • Ang mga istatistika ng Ingles na sina F. Galton (1822-1911) at K. Pearson (1857-1936) ay itinuturing na mga tagapagtatag ng teorya ng ugnayan. Ang terminong "kaugnayan" ay hiniram mula sa natural na agham at nangangahulugang "kaugnayan, pagsusulatan". Ang konsepto ng ugnayan bilang isang pagtutulungan sa pagitan ng mga random na variable ay sumasailalim sa matematika-statistikong teorya ng ugnayan.

OPTION 5

Ang pag-asa ng average na pag-asa sa buhay sa ilang mga kadahilanan ay pinag-aralan ayon sa data para sa 1995, na ipinakita sa Talahanayan. 5.

Talahanayan 5

Mozambique

……………………………………………………………………………………..

Switzerland

Pinagtibay ang mga pagtatalaga sa talahanayan:

· Y-- average na pag-asa sa buhay sa kapanganakan, taon;

· X 1 -- GDP sa mga parity ng kapangyarihan sa pagbili;

· X 2 -- tanikala rate ng paglaki ng populasyon, %;

· X 3 -- tanikala rate ng paglago ng lakas paggawa, %;

· X 4 -- rate ng pagkamatay ng sanggol, % .

Kailangan:

1. Gumawa ng isang matrix ng mga ipinares na coefficient ng ugnayan sa pagitan ng lahat ng mga variable na pinag-aaralan at tukuyin ang mga collinear factor.

2. Bumuo ng regression equation na hindi naglalaman ng collinear factor. Suriin ang istatistikal na kahalagahan ng equation at mga coefficient nito.

3. Bumuo ng regression equation na naglalaman lamang ng makabuluhang istatistika at nagbibigay-kaalaman na mga salik. Suriin ang istatistikal na kahalagahan ng equation at mga coefficient nito.

Ang mga aytem 4 - 6 ay tumutukoy sa regression equation na binuo kapag nagsasagawa ng item 3.

4. Tayahin ang kalidad at katumpakan ng regression equation.

5. Magbigay ng pang-ekonomiyang interpretasyon ng mga coefficient ng regression equation at isang comparative assessment ng lakas ng impluwensya ng mga salik sa resultang variable Y.

6. Kalkulahin ang hinulaang halaga ng resultang variable Y, kung ang mga hinulaang halaga ng mga salik ay umaabot sa 75% ng kanilang pinakamataas na halaga. I-plot ang confidence interval ng hula ng aktwal na halaga Y na may 80% na pagiging maaasahan.

Solusyon. Upang malutas ang problema, isang EXCEL spreadsheet ang ginagamit.

1. Gamit ang add-on na "Pagsusuri ng data ... Pag-uugnay" bubuo kami ng isang matrix ng mga ipinares na coefficient ng ugnayan sa pagitan ng lahat ng mga variable na pinag-aaralan (menu "Mga Tool" "Pagsusuri ng data..." "Karelasyon"). Sa fig. Ipinapakita ng Figure 1 ang panel ng pagsusuri ng correlation na may mga punong field. Upang kopyahin ang isang window snapshot sa clipboard ng data ng WINDOWS, gamitin ang kumbinasyon ng key na Alt+Print Screen (sa ilang keyboard, Alt+PrtSc). Ipinapakita ang mga resulta ng pagsusuri ng correlation sa Appendix. 2 at inilipat sa mesa. isa.

kanin. 1. Panel ng pagsusuri ng ugnayan

Talahanayan 1

Matrix ng pairwise correlation coefficients

Pagsusuri interfactorial Ang mga coefficient ng ugnayan ay nagpapakita na ang halaga ng 0.8 ay lumampas sa ganap na halaga koepisyent ng ugnayan sa pagitan ng isang pares ng mga salik X 2 -X 3 (naka-highlight sa bold). Mga salik X 2 -X 3 ay kaya kinikilala bilang collinear.

2. Tulad ng ipinapakita sa talata 1, ang X2-X3 na mga salik ay collinear, na nangangahulugan na sila ay aktwal na duplicate sa isa't isa, at ang kanilang sabay-sabay na pagsasama sa modelo ay hahantong sa isang hindi tamang interpretasyon ng kaukulang regression coefficients. Makikita na ang X2 factor ay may mas mataas na absolute correlation coefficient na may resultang Y kaysa sa X3 factor: ry,x2=0.72516; ry,x3=0.53397; |ry,x2|>|ry,x3| (tingnan ang Talahanayan 1). Ito ay nagpapahiwatig ng mas malakas na impluwensya ng X2 factor sa pagbabago sa Y. Ang X3 factor ay hindi kasama sa pagsasaalang-alang.

Upang bumuo ng equation ng regression, ang mga halaga ng mga variable na ginamit ( Y,X 1 , X 2 , X 4) kopyahin sa isang blangkong worksheet ( adj. 3). Binubuo namin ang equation ng regression gamit ang add-on " Pagsusuri ng Data... Pagbabalik» (menu « serbisyo" « Pagsusuri sa datos…» « Regression"). Ang panel ng pagsusuri ng regression na may mga punong field ay ipinapakita sa kanin. 2.

Ang mga resulta ng pagsusuri ng regression ay ibinigay sa adj. apat at inilipat sa tab. 2. Ang equation ng regression ay may anyo (tingnan ang " Logro» sa tab. 2):

y = 75.44 + 0.0447 ? x 1 - 0.0453 ? x2 - 0.24? x4

Ang equation ng regression ay kinikilala bilang makabuluhang istatistika, dahil ang posibilidad ng random na pagbuo nito sa anyo kung saan ito nakuha ay 1.04571 × 10 -45 (tingnan ang Fig. "F Kahalagahan" sa tab. 2), na makabuluhang mas mababa kaysa sa tinatanggap na antas ng kahalagahan =0.05.

Ang posibilidad ng random na pagbuo ng mga coefficient sa kadahilanan X 1 sa ibaba ng tinatanggap na antas ng kahalagahan =0.05 (tingnan ang " P-Halaga" sa tab. 2), na nagpapahiwatig ng istatistikal na kahalagahan ng mga coefficient at ang makabuluhang epekto ng mga salik na ito sa pagbabago sa taunang kita Y.

Ang posibilidad ng random na pagbuo ng mga coefficient sa mga kadahilanan X 2 at X 4 ay lumampas sa tinatanggap na antas ng kahalagahan =0.05 (tingnan ang " P-Halaga" sa tab. 2), at ang mga coefficient na ito ay hindi itinuturing na makabuluhang istatistika.

kanin. 2. Panel ng pagsusuri ng regression ng modelo Y(X 1 ,X 2 ,X 4 )

talahanayan 2

Y(X 1 , X 2 , X 4 )

Pagsusuri ng pagkakaiba-iba

Kahalagahan F

Regression

Regression Equation

Odds

karaniwang error

t-statistic

P-Halaga

ibaba 95%

Nangungunang 95%

Mas mababa sa 95.0%

Nangungunang 95.0%

Y-intersection

3. Batay sa mga resulta ng pagsuri sa istatistikal na kahalagahan ng mga coefficient ng equation ng regression, na isinagawa sa nakaraang talata, bumuo kami ng isang bagong modelo ng regression na naglalaman lamang ng mga salik na nagbibigay-kaalaman, na kinabibilangan ng:

mga kadahilanan, ang mga coefficient na kung saan ay makabuluhang istatistika;

mga kadahilanan na ang mga coefficient t _statistics modulo ay lumampas sa isa (sa madaling salita, ang ganap na halaga ng koepisyent ay mas malaki kaysa sa karaniwang error nito).

Kasama sa unang pangkat ang kadahilanan X 1 hanggang segundo -- salik X apat. Salik X 2 ay hindi kasama sa pagsasaalang-alang bilang hindi nakapagtuturo, at ang huling modelo ng regression ay maglalaman ng mga salik X 1 , X 4 .

Upang bumuo ng isang equation ng regression, kopyahin ang mga halaga ng mga variable na ginamit sa isang blangkong worksheet ( adj. 5) at magsagawa ng pagsusuri ng regression ( kanin. 3). Ang mga resulta nito ay ibinigay sa adj. 6 at inilipat sa tab. 3. Ang equation ng regression ay ganito ang hitsura:

y = 75.38278 + 0.044918 ? x 1 - 0.24031 ? x4

(cm." Logro» sa talahanayan 3).

kanin. 3. Pagsusuri ng regression ng panel ng modelo Y(X 1 , X 4 )

Talahanayan 3

Mga Resulta ng Pagsusuri ng Pagbabalik ng Modelo Y(X 1 , X 4 )

Mga istatistika ng regression

Maramihang R

R-square

Normalized R-square

karaniwang error

Mga obserbasyon

Pagsusuri ng pagkakaiba-iba

Kahalagahan F

Regression

Regression Equation

Odds

karaniwang error

t-statistic

P-Halaga

Y-intersection

Ang equation ng regression ay makabuluhan sa istatistika: ang posibilidad ng random na pagbuo nito ay mas mababa sa katanggap-tanggap na antas ng kahalagahan = 0.05 (tingnan ang " Kahalagahan F" sa talahanayan 3).

Ang koepisyent sa kadahilanan ay kinikilala rin bilang makabuluhang istatistika X 1 ang posibilidad ng random na pagbuo nito ay nasa ibaba ng katanggap-tanggap na antas ng kahalagahan = 0.05 (tingnan ang " P-Halaga" sa tab. 3). Ito ay nagpapahiwatig ng isang makabuluhang epekto ng GDP sa mga parity ng kapangyarihan sa pagbili X 1 bawat pagbabago sa taunang kita Y.

Coefficient sa kadahilanan X 4 (taunang infant mortality rate) ay hindi makabuluhan ayon sa istatistika. Gayunpaman, ang kadahilanan na ito ay maaari pa ring ituring na nagbibigay-kaalaman, dahil t _lumampas ang istatistika ng kanyang logro modulo yunit, bagama't higit pang mga konklusyon tungkol sa salik X 4 ay dapat tratuhin nang may kaunting pag-iingat.

4. Suriin natin ang kalidad at katumpakan ng huling equation ng regression gamit ang ilang istatistikal na katangian na nakuha sa pagsusuri ng regression (tingnan ang "Mga istatistika ng regression" sa Talahanayan 3):

maramihang koepisyent ng determinasyon

R2 = _ i=1 ____________ =0.946576

R 2 = nagpapakita na ang modelo ng regression ay nagpapaliwanag ng 94.7% ng pagkakaiba-iba sa average na pag-asa sa buhay sa kapanganakan Y, at ang pagkakaiba-iba na ito ay dahil sa isang pagbabago sa mga salik na kasama sa modelo ng regression X 1 , X 4 ;

karaniwang error ng regression

ay nagpapakita na ang mga halaga na hinulaan ng regression equation para sa average na pag-asa sa buhay sa kapanganakan Y naiiba mula sa aktwal na mga halaga sa pamamagitan ng isang average ng 2.252208 taon.

Ang average na relatibong error sa pagtatantya ay tinutukoy ng tinatayang formula:

E rel? 0.8 ? -- ? 100%=0.8 ? 2.252208/66.9? 100%?2.7

kung saan libong rubles. -- halaga ng pag-asa sa buhay (natukoy gamit ang built-in na function " AVERAGE»; adj. isa).

E Ipinapakita ng rel na ang mga halaga ng taunang kita na hinulaang ng equation ng regression Y naiiba mula sa aktwal na mga halaga sa pamamagitan ng isang average na 2.7%. Ang modelo ay may mataas na katumpakan (sa - ang katumpakan ng modelo ay mataas, sa - mabuti, sa - kasiya-siya, sa - hindi kasiya-siya).

5. Para sa interpretasyong pang-ekonomiya ng mga coefficient ng equation ng regression, itinatala namin ang mga average na halaga at karaniwang mga paglihis ng mga variable sa paunang data (Talahanayan 4). Natukoy ang mga average na halaga gamit ang built-in na function na "AVERAGE", standard deviations - gamit ang built-in na function na "STDEV" (tingnan ang Appendix 1).