Halimbawa ng pagsusuri ng regression. Pagsusuri ng regression

Ang pangunahing tampok ng pagsusuri ng regression ay maaari itong magamit upang makakuha ng tiyak na impormasyon tungkol sa anyo at kalikasan ng relasyon sa pagitan ng mga variable na pinag-aaralan.

Ang pagkakasunud-sunod ng mga yugto ng pagsusuri ng regression

Isaalang-alang natin sa madaling sabi ang mga yugto ng pagsusuri ng regression.

    Pagbubuo ng gawain. Sa yugtong ito, nabuo ang mga paunang hypotheses tungkol sa pagtitiwala sa mga pinag-aralan na phenomena.

    Kahulugan ng umaasa at malaya (nagpapaliwanag) na mga variable.

    Koleksyon ng istatistikal na datos. Dapat kolektahin ang data para sa bawat isa sa mga variable na kasama sa modelo ng regression.

    Pagbubuo ng hypothesis tungkol sa anyo ng koneksyon (simple o maramihan, linear o non-linear).

    Kahulugan mga function ng regression (binubuo sa pagkalkula ng mga numerical na halaga ng mga parameter ng equation ng regression)

    Pagsusuri ng katumpakan ng pagsusuri ng regression.

    Interpretasyon ng mga nakuhang resulta. Ang mga resulta ng pagsusuri ng regression ay inihambing sa mga paunang hypotheses. Nasusuri ang kawastuhan at katumpakan ng mga nakuhang resulta.

    Paghuhula ng hindi kilalang mga halaga ng dependent variable.

Sa tulong ng pagsusuri ng regression, posibleng malutas ang problema ng pagtataya at pag-uuri. Ang mga predictive na halaga ay kinakalkula sa pamamagitan ng pagpapalit ng mga halaga ng mga paliwanag na variable sa regression equation. Ang problema sa pag-uuri ay nalulutas sa ganitong paraan: hinahati ng linya ng regression ang buong hanay ng mga bagay sa dalawang klase, at ang bahagi ng set kung saan ang halaga ng function ay mas malaki kaysa sa zero ay kabilang sa isang klase, at ang bahagi kung saan ito ay mas mababa. kaysa sa zero ay kabilang sa ibang klase.

Mga gawain ng pagsusuri ng regression

Isaalang-alang ang mga pangunahing gawain ng pagsusuri ng regression: pagtatatag ng anyo ng pagtitiwala, pagtukoy mga function ng regression, isang pagtatantya ng hindi kilalang mga halaga ng dependent variable.

Pagtatatag ng anyo ng pagtitiwala.

Ang kalikasan at anyo ng ugnayan sa pagitan ng mga variable ay maaaring bumuo ng mga sumusunod na uri ng regression:

    positibong linear regression (ipinahayag bilang isang pare-parehong paglago ng function);

    positibong pantay na nagpapabilis ng regression;

    positibong pantay na pagtaas ng regression;

    negatibong linear regression (ipinahayag bilang isang pare-parehong pagbaba sa function);

    negatibong pantay na pinabilis ang pagbaba ng regression;

    negatibong pantay na nagpapababa ng regression.

Gayunpaman, ang mga varieties na inilarawan ay karaniwang hindi matatagpuan sa purong anyo, ngunit sa kumbinasyon sa bawat isa. Sa kasong ito, ang isa ay nagsasalita ng pinagsamang anyo ng regression.

Kahulugan ng function ng regression.

Ang pangalawang gawain ay alamin ang epekto sa dependent variable ng mga pangunahing salik o sanhi, lahat ng iba pang bagay ay pantay, at napapailalim sa pagbubukod ng epekto sa dependent variable ng mga random na elemento. function ng regression tinukoy bilang isang mathematical equation ng isang uri o iba pa.

Pagtatantya ng hindi kilalang mga halaga ng dependent variable.

Ang solusyon sa problemang ito ay binabawasan sa paglutas ng problema ng isa sa mga sumusunod na uri:

    Pagtatantya ng mga halaga ng dependent variable sa loob ng isinasaalang-alang na pagitan ng paunang data, i.e. nawawalang mga halaga; malulutas nito ang problema ng interpolation.

    Pagtatantya ng mga halaga sa hinaharap ng dependent variable, i.e. paghahanap ng mga halaga sa labas ng ibinigay na pagitan ng paunang data; nalulutas nito ang problema ng extrapolation.

Ang parehong mga problema ay malulutas sa pamamagitan ng pagpapalit ng mga nahanap na pagtatantya ng mga parameter ng mga halaga ng mga independiyenteng variable sa equation ng regression. Ang resulta ng paglutas ng equation ay isang pagtatantya ng halaga ng target (dependent) variable.

Tingnan natin ang ilan sa mga pagpapalagay na umaasa sa pagsusuri ng regression.

Linearity assumption, i.e. ipinapalagay na ang ugnayan sa pagitan ng mga baryabol na isinasaalang-alang ay linear. Kaya, sa halimbawang ito, gumawa kami ng scatterplot at nakakita kami ng malinaw na linear na relasyon. Kung, sa scatterplot ng mga variable, nakikita natin ang isang malinaw na kawalan ng isang linear na relasyon, i.e. mayroong isang non-linear na relasyon, ang mga non-linear na pamamaraan ng pagsusuri ay dapat gamitin.

Normality Assumption mga tira. Ipinapalagay nito na ang pamamahagi ng pagkakaiba sa pagitan ng hinulaang at naobserbahang mga halaga ay normal. Upang biswal na matukoy ang likas na katangian ng pamamahagi, maaari mong gamitin ang mga histogram mga tira.

Kapag gumagamit ng pagsusuri ng regression, dapat isaalang-alang ng isa ang pangunahing limitasyon nito. Binubuo ito sa katotohanan na ang pagsusuri ng regression ay nagbibigay-daan sa iyo na makakita lamang ng mga dependency, at hindi ang mga relasyon na sumasailalim sa mga dependency na ito.

Ginagawang posible ng pagsusuri ng regression na masuri ang antas ng pagkakaugnay sa pagitan ng mga variable sa pamamagitan ng pagkalkula ng inaasahang halaga ng isang variable batay sa ilang kilalang halaga.

Regression equation.

Ang equation ng regression ay ganito ang hitsura: Y=a+b*X

Gamit ang equation na ito, ang variable Y ay ipinahayag sa mga tuntunin ng constant a at ang slope ng linya (o slope) b na pinarami ng value ng variable X. Ang constant a ay tinatawag ding intercept, at ang slope ay ang regression koepisyent o B-factor.

Sa karamihan ng mga kaso (kung hindi palaging) mayroong isang tiyak na scatter ng mga obserbasyon tungkol sa linya ng regression.

natitira ay ang paglihis ng isang indibidwal na punto (obserbasyon) mula sa linya ng regression (hulaang halaga).

Upang malutas ang problema ng pagsusuri ng regression sa MS Excel, pumili mula sa menu Serbisyo"Package ng Pagsusuri" at ang tool sa pagsusuri ng Regression. Tukuyin ang X at Y input interval. Ang Y input interval ay ang hanay ng dependent data na sinusuri at dapat may kasamang isang column. Ang input interval X ay ang hanay ng independiyenteng data na susuriin. Ang bilang ng mga saklaw ng input ay hindi dapat lumampas sa 16.

Sa output ng pamamaraan sa hanay ng output, nakukuha namin ang ulat na ibinigay sa talahanayan 8.3a-8.3v.

RESULTA

Talahanayan 8.3a. Mga istatistika ng regression

Mga istatistika ng regression

Maramihang R

R-square

Normalized na R-square

karaniwang error

Mga obserbasyon

Una, isaalang-alang ang itaas na bahagi ng mga kalkulasyon na ipinakita sa talahanayan 8.3a, - mga istatistika ng regression.

Halaga R-square, na tinatawag ding sukatan ng katiyakan, ay nagpapakilala sa kalidad ng nagreresultang linya ng pagbabalik. Ang kalidad na ito ay ipinahayag sa pamamagitan ng antas ng pagsusulatan sa pagitan ng orihinal na data at ng modelo ng regression (kinakalkulang data). Ang sukatan ng katiyakan ay palaging nasa pagitan.

Sa karamihan ng mga kaso, ang halaga R-square ay nasa pagitan ng mga halagang ito, na tinatawag na extreme, i.e. sa pagitan ng zero at isa.

Kung ang halaga R-kuwadrado malapit sa pagkakaisa, nangangahulugan ito na ipinapaliwanag ng binuong modelo ang halos lahat ng pagkakaiba-iba ng mga kaukulang variable. Sa kabaligtaran, ang halaga R-kuwadrado, malapit sa zero, ay nangangahulugan ng mahinang kalidad ng itinayong modelo.

Sa aming halimbawa, ang sukat ng katiyakan ay 0.99673, na nagpapahiwatig ng isang napakahusay na akma ng linya ng regression sa orihinal na data.

maramihan R - koepisyent ng maramihang ugnayan R - nagpapahayag ng antas ng pag-asa ng mga independyenteng variable (X) at dependent variable (Y).

Maramihang R katumbas ng square root ng coefficient of determination, ang halagang ito ay tumatagal ng mga halaga sa hanay mula sa zero hanggang isa.

Sa simpleng pagsusuri ng linear regression maramihan R katumbas ng Pearson correlation coefficient. Talaga, maramihan R sa aming kaso, ito ay katumbas ng Pearson correlation coefficient mula sa nakaraang halimbawa (0.998364).

Talahanayan 8.3b. Mga coefficient ng regression

Odds

karaniwang error

t-statistic

Y-intersection

Variable X 1

* Ang isang pinutol na bersyon ng mga kalkulasyon ay ibinigay

Ngayon isaalang-alang ang gitnang bahagi ng mga kalkulasyon na ipinakita sa talahanayan 8.3b. Dito, ang regression coefficient b (2.305454545) at ang offset sa kahabaan ng y-axis ay ibinibigay, i.e. pare-pareho ang a (2.694545455).

Batay sa mga kalkulasyon, maaari nating isulat ang equation ng regression tulad ng sumusunod:

Y= x*2.305454545+2.694545455

Ang direksyon ng ugnayan sa pagitan ng mga variable ay tinutukoy batay sa mga palatandaan (negatibo o positibo) ng mga coefficient ng regression (coefficient b).

Kung positibo ang sign ng regression coefficient, magiging positibo ang relasyon sa pagitan ng dependent variable at ng independent variable. Sa aming kaso, ang tanda ng koepisyent ng regression ay positibo, samakatuwid, ang relasyon ay positibo din.

Kung negatibo ang sign ng regression coefficient, negatibo (inverse) ang relasyon sa pagitan ng dependent variable at independent variable.

AT talahanayan 8.3c. ipinakita ang mga resulta ng output mga tira. Upang lumitaw ang mga resultang ito sa ulat, kinakailangang i-activate ang checkbox na "Mga Natitira" kapag inilulunsad ang tool na "Regression".

NANANATILING WITHDRAWAL

Talahanayan 8.3c. Labi

Pagmamasid

Hinulaan si Y

Labi

Mga karaniwang balanse

Gamit ang bahaging ito ng ulat, makikita natin ang mga paglihis ng bawat punto mula sa itinayong linya ng regression. Pinakamalaking ganap na halaga natitira sa aming kaso - 0.778, ang pinakamaliit - 0.043. Para sa isang mas mahusay na interpretasyon ng mga datos na ito, gagamitin namin ang graph ng orihinal na data at ang itinayong linya ng regression na ipinakita sa Fig. kanin. 8.3. Tulad ng nakikita mo, ang linya ng regression ay medyo tumpak na "nakakabit" sa mga halaga ng orihinal na data.

Dapat itong isaalang-alang na ang halimbawang isinasaalang-alang ay medyo simple at ito ay malayo mula sa palaging posible na qualitatively bumuo ng isang linear regression line.

kanin. 8.3. Paunang data at linya ng pagbabalik

Ang problema sa pagtatantya ng hindi kilalang mga halaga sa hinaharap ng dependent variable batay sa mga kilalang halaga ng independent variable ay nanatiling hindi isinasaalang-alang, i.e. gawain sa pagtataya.

Ang pagkakaroon ng regression equation, ang problema sa pagtataya ay binabawasan sa paglutas ng equation Y= x*2.305454545+2.694545455 na may mga kilalang halaga ng x. Ang mga resulta ng paghula sa dependent variable Y anim na hakbang sa unahan ay ipinakita sa talahanayan 8.4.

Talahanayan 8.4. Y variable na mga resulta ng hula

Y(hinulaang)

Kaya, bilang resulta ng paggamit ng regression analysis sa Microsoft Excel package, kami ay:

    bumuo ng isang regression equation;

    itinatag ang anyo ng pag-asa at ang direksyon ng ugnayan sa pagitan ng mga variable - isang positibong linear regression, na ipinahayag sa isang pare-parehong paglago ng function;

    itinatag ang direksyon ng ugnayan sa pagitan ng mga variable;

    tinasa ang kalidad ng nagresultang linya ng pagbabalik;

    nagawang makita ang mga paglihis ng kinakalkulang data mula sa data ng orihinal na hanay;

    hinulaang ang mga halaga sa hinaharap ng dependent variable.

Kung ang function ng regression ay tinukoy, binibigyang kahulugan at nabigyang-katwiran, at ang pagtatasa ng katumpakan ng pagsusuri ng regression ay nakakatugon sa mga kinakailangan, maaari nating ipagpalagay na ang itinayong modelo at mga predictive na halaga ay sapat na maaasahan.

Ang mga hinulaang halaga na nakuha sa ganitong paraan ay ang mga average na halaga na maaaring asahan.

Sa papel na ito, sinuri namin ang mga pangunahing katangian deskriptibong istatistika at kabilang sa kanila ang mga konsepto tulad ng ibig sabihin,panggitna,maximum,pinakamababa at iba pang katangian ng pagkakaiba-iba ng data.

Nagkaroon din ng maikling pagtalakay sa konsepto mga emisyon. Ang isinasaalang-alang na mga katangian ay tumutukoy sa tinatawag na exploratory data analysis, ang mga konklusyon nito ay maaaring hindi nalalapat sa pangkalahatang populasyon, ngunit sa isang sample ng data lamang. Ginagamit ang pagsusuri ng data ng pagtuklas upang makagawa ng mga pangunahing konklusyon at bumuo ng mga hypotheses tungkol sa populasyon.

Ang mga pangunahing kaalaman sa pagsusuri ng ugnayan at regression, ang kanilang mga gawain at posibilidad ng praktikal na paggamit ay isinasaalang-alang din.

Ang pagsusuri ng regression ay isang paraan ng pagtatatag ng analytical expression ng isang stochastic na relasyon sa pagitan ng mga pinag-aralan na feature. Ang equation ng regression ay nagpapakita kung paano, sa karaniwan, nagbabago sa kapag binabago ang alinman sa x i , at mukhang:

saan y - dependent variable (ito ay palaging isa);

X i - mga independiyenteng variable (mga kadahilanan) (maaaring marami sa kanila).

Kung mayroon lamang isang independyenteng variable, ito ay isang simpleng pagsusuri ng regression. Kung mayroong ilang P 2), kung gayon ang naturang pagsusuri ay tinatawag na multivariate.

Sa kurso ng pagsusuri ng regression, dalawang pangunahing gawain ang malulutas:

    pagbuo ng equation ng regression, i.e. paghahanap ng uri ng kaugnayan sa pagitan ng tagapagpahiwatig ng resulta at mga independiyenteng salik x 1 , x 2 , …, x n .

    pagtatasa ng kahalagahan ng resultang equation, i.e. pagpapasiya kung gaano ipinapaliwanag ng mga napiling tampok na salik ang pagkakaiba-iba ng tampok y.

Ang pagsusuri ng regression ay pangunahing ginagamit para sa pagpaplano, gayundin para sa pagbuo ng isang balangkas ng regulasyon.

Hindi tulad ng pagsusuri ng ugnayan, na sumasagot lamang sa tanong kung may kaugnayan sa pagitan ng mga nasuri na tampok, ang pagsusuri ng regression ay nagbibigay din ng pormal na pagpapahayag nito. Bilang karagdagan, kung ang pagsusuri ng ugnayan ay nag-aaral ng anumang kaugnayan ng mga kadahilanan, ang pagsusuri ng regression ay nag-aaral ng isang panig na pag-asa, i.e. isang koneksyon na nagpapakita kung paano naaapektuhan ng pagbabago sa mga factor sign ang resultang sign.

Ang pagsusuri ng regression ay isa sa mga pinaka-binuo na pamamaraan ng mga istatistika ng matematika. Sa mahigpit na pagsasalita, ang pagpapatupad ng pagsusuri ng regression ay nangangailangan ng katuparan ng isang bilang ng mga espesyal na kinakailangan (sa partikular, x l ,x 2 ,...,x n ;y ay dapat na independyente, karaniwang ipinamamahagi ng mga random na variable na may pare-pareho ang mga pagkakaiba-iba). Sa totoong buhay, ang mahigpit na pagsunod sa mga kinakailangan ng regression at pagsusuri ng ugnayan ay napakabihirang, ngunit ang parehong mga pamamaraan na ito ay karaniwan sa pananaliksik sa ekonomiya. Ang mga dependency sa ekonomiya ay maaaring hindi lamang direkta, ngunit din kabaligtaran at hindi linear. Ang isang modelo ng regression ay maaaring itayo sa pagkakaroon ng anumang pag-asa, gayunpaman, sa multivariate na pagsusuri, ang mga linear na modelo ng form lamang ang ginagamit:

Ang pagtatayo ng equation ng regression ay isinasagawa, bilang isang patakaran, sa pamamagitan ng hindi bababa sa mga parisukat na pamamaraan, ang kakanyahan nito ay upang mabawasan ang kabuuan ng mga squared deviations ng aktwal na mga halaga ng nagresultang katangian mula sa mga kinakalkula na halaga nito, i.e.:

saan t - bilang ng mga obserbasyon;

j =a+b 1 x 1 j +b 2 x 2 j + ... + b n X n j - kinakalkula na halaga ng salik ng resulta.

Ang mga coefficient ng regression ay inirerekomenda na matukoy gamit ang mga analytical na pakete para sa isang personal na computer o isang espesyal na calculator sa pananalapi. Sa pinakasimpleng kaso, ang mga coefficient ng regression ng isang one-factor linear regression equation ng form y = a + bx ay matatagpuan gamit ang mga formula:

pagsusuri ng kumpol

Ang pagsusuri ng kumpol ay isa sa mga pamamaraan ng pagsusuri ng multivariate, na idinisenyo para sa pagpapangkat (pag-cluster) ng isang populasyon, ang mga elemento kung saan ay nailalarawan ng maraming mga tampok. Ang mga halaga ng bawat isa sa mga tampok ay nagsisilbing mga coordinate ng bawat yunit ng pinag-aralan na populasyon sa multidimensional na espasyo ng mga tampok. Ang bawat pagmamasid, na nailalarawan sa pamamagitan ng mga halaga ng ilang mga tagapagpahiwatig, ay maaaring kinakatawan bilang isang punto sa puwang ng mga tagapagpahiwatig na ito, ang mga halaga nito ay itinuturing na mga coordinate sa isang multidimensional na espasyo. Distansya sa pagitan ng mga puntos R at q kasama k Ang mga coordinate ay tinukoy bilang:

Ang pangunahing criterion para sa clustering ay ang mga pagkakaiba sa pagitan ng mga cluster ay dapat na mas makabuluhan kaysa sa pagitan ng mga obserbasyon na itinalaga sa parehong cluster, i.e. sa isang multidimensional na espasyo, ang hindi pagkakapantay-pantay ay dapat obserbahan:

saan r 1, 2 - distansya sa pagitan ng mga cluster 1 at 2.

Pati na rin ang mga pamamaraan ng pagsusuri ng regression, ang pamamaraan ng clustering ay medyo matrabaho, ipinapayong gawin ito sa isang computer.

Sa panahon ng kanilang pag-aaral, ang mga mag-aaral ay madalas na nakakaharap ng iba't ibang mga equation. Isa sa mga ito - ang regression equation - ay isinasaalang-alang sa artikulong ito. Ang ganitong uri ng equation ay partikular na ginagamit upang ilarawan ang mga katangian ng ugnayan sa pagitan ng mga parameter ng matematika. Ang ganitong uri ng pagkakapantay-pantay ay ginagamit sa mga istatistika at econometrics.

Kahulugan ng regression

Sa matematika, ang regression ay nauunawaan bilang isang tiyak na dami na naglalarawan ng pag-asa ng average na halaga ng isang set ng data sa mga halaga ng isa pang dami. Ipinapakita ng equation ng regression, bilang isang function ng isang partikular na feature, ang average na halaga ng isa pang feature. Ang regression function ay may anyo ng isang simpleng equation y \u003d x, kung saan ang y ay nagsisilbing dependent variable, at ang x ay isang independent variable (feature factor). Sa katunayan, ang regression ay ipinahayag bilang y = f (x).

Ano ang mga uri ng ugnayan sa pagitan ng mga variable

Sa pangkalahatan, ang dalawang magkasalungat na uri ng relasyon ay nakikilala: ugnayan at regression.

Ang una ay nailalarawan sa pamamagitan ng pagkakapantay-pantay ng mga conditional variable. Sa kasong ito, hindi tiyak kung aling variable ang nakasalalay sa isa pa.

Kung walang pagkakapantay-pantay sa pagitan ng mga variable at ang mga kondisyon ay nagsasabi kung aling variable ang nagpapaliwanag at kung alin ang nakasalalay, pagkatapos ay maaari nating pag-usapan ang pagkakaroon ng isang koneksyon ng pangalawang uri. Upang makabuo ng isang linear regression equation, kakailanganing malaman kung anong uri ng relasyon ang sinusunod.

Mga uri ng regression

Sa ngayon, mayroong 7 iba't ibang uri ng regression: hyperbolic, linear, multiple, nonlinear, pairwise, inverse, logarithmically linear.

Hyperbolic, linear at logarithmic

Ang linear regression equation ay ginagamit sa mga istatistika upang malinaw na ipaliwanag ang mga parameter ng equation. Mukhang y = c + m * x + E. Ang hyperbolic equation ay may anyo ng isang regular na hyperbola y \u003d c + m / x + E. Ang logarithmically linear equation ay nagpapahayag ng relasyon gamit ang logarithmic function: Sa y \u003d Sa c + m * Sa x + Sa E.

Maramihan at hindi linear

Dalawang mas kumplikadong uri ng regression ay maramihan at hindi linear. Ang multiple regression equation ay ipinahayag ng function na y \u003d f (x 1, x 2 ... x c) + E. Sa sitwasyong ito, y ang dependent variable at x ang explanatory variable. Ang variable na E ay stochastic at kasama ang impluwensya ng iba pang mga kadahilanan sa equation. Ang non-linear regression equation ay medyo hindi pare-pareho. Sa isang banda, na may paggalang sa mga tagapagpahiwatig na isinasaalang-alang, hindi ito linear, at sa kabilang banda, sa papel ng pagtatasa ng mga tagapagpahiwatig, ito ay linear.

Inverse at Pairwise Regressions

Ang inverse ay isang uri ng function na kailangang i-convert sa isang linear na anyo. Sa pinaka-tradisyonal na mga programa ng aplikasyon, mayroon itong anyo ng isang function y \u003d 1 / c + m * x + E. Ang ipinares na equation ng regression ay nagpapakita ng kaugnayan sa pagitan ng data bilang isang function ng y = f(x) + E. Katulad ng ibang mga equation, ang y ay nakasalalay sa x at ang E ay isang stochastic na parameter.

Ang konsepto ng ugnayan

Ito ay isang tagapagpahiwatig na nagpapakita ng pagkakaroon ng isang relasyon sa pagitan ng dalawang phenomena o proseso. Ang lakas ng relasyon ay ipinahayag bilang isang koepisyent ng ugnayan. Ang halaga nito ay nagbabago sa loob ng pagitan [-1;+1]. Ang isang negatibong tagapagpahiwatig ay nagpapahiwatig ng pagkakaroon ng feedback, ang isang positibong tagapagpahiwatig ay nagpapahiwatig ng isang direktang isa. Kung ang koepisyent ay tumatagal ng isang halaga na katumbas ng 0, pagkatapos ay walang relasyon. Kung mas malapit ang halaga sa 1 - mas malakas ang ugnayan sa pagitan ng mga parameter, mas malapit sa 0 - mas mahina.

Paraan

Maaaring matantya ng mga parametric na pamamaraan ng ugnayan ang higpit ng relasyon. Ginagamit ang mga ito batay sa mga pagtatantya ng pamamahagi upang pag-aralan ang mga parameter na sumusunod sa normal na batas sa pamamahagi.

Ang mga parameter ng linear regression equation ay kinakailangan upang matukoy ang uri ng dependence, ang function ng regression equation at suriin ang mga indicator ng napiling formula ng relasyon. Ang patlang ng ugnayan ay ginagamit bilang isang paraan para sa pagtukoy ng isang relasyon. Upang gawin ito, ang lahat ng umiiral na data ay dapat na graphical na kinakatawan. Sa isang hugis-parihaba na two-dimensional na coordinate system, dapat na i-plot ang lahat ng kilalang data. Ito ay kung paano nabuo ang patlang ng ugnayan. Ang halaga ng naglalarawan na kadahilanan ay minarkahan kasama ang abscissa, habang ang mga halaga ng umaasa na kadahilanan ay minarkahan kasama ang ordinate. Kung mayroong isang functional na relasyon sa pagitan ng mga parameter, sila ay pumila sa anyo ng isang linya.

Kung ang koepisyent ng ugnayan ng naturang data ay mas mababa sa 30%, maaari nating pag-usapan ang halos kumpletong kawalan ng koneksyon. Kung ito ay nasa pagitan ng 30% at 70%, kung gayon ito ay nagpapahiwatig ng pagkakaroon ng mga link ng katamtamang higpit. Ang 100% indicator ay katibayan ng isang functional na koneksyon.

Ang isang non-linear regression equation, tulad ng isang linear, ay dapat dagdagan ng isang correlation index (R).

Kaugnayan para sa Maramihang Pagbabalik

Ang koepisyent ng determinasyon ay isang tagapagpahiwatig ng parisukat ng maramihang ugnayan. Siya ay nagsasalita tungkol sa higpit ng relasyon ng ipinakita na hanay ng mga tagapagpahiwatig na may katangian na pinag-aaralan. Maaari rin itong makipag-usap tungkol sa likas na katangian ng impluwensya ng mga parameter sa resulta. Ang multiple regression equation ay sinusuri gamit ang indicator na ito.

Upang makalkula ang maramihang index ng ugnayan, kinakailangan upang kalkulahin ang index nito.

Pinakamababang parisukat na pamamaraan

Ang pamamaraang ito ay isang paraan ng pagtantya ng mga salik ng regression. Ang kakanyahan nito ay namamalagi sa pagliit ng kabuuan ng mga squared deviations na nakuha dahil sa pag-asa ng factor sa function.

Ang isang ipinares na linear regression equation ay maaaring matantya gamit ang naturang pamamaraan. Ang ganitong uri ng mga equation ay ginagamit sa kaso ng pagtuklas sa pagitan ng mga tagapagpahiwatig ng isang ipinares na linear na relasyon.

Mga Pagpipilian sa Equation

Ang bawat parameter ng linear regression function ay may tiyak na kahulugan. Ang ipinares na linear regression equation ay naglalaman ng dalawang parameter: c at m. Ipinapakita ng parameter na t ang average na pagbabago sa huling indicator ng function na y, napapailalim sa pagbaba (pagtaas) sa variable x ng isang conventional unit. Kung ang variable na x ay zero, kung gayon ang function ay katumbas ng parameter c. Kung ang variable na x ay hindi zero, kung gayon ang factor c ay walang kahulugan sa ekonomiya. Ang tanging impluwensya sa function ay ang sign sa harap ng factor c. Kung mayroong isang minus, maaari nating sabihin ang tungkol sa isang mabagal na pagbabago sa resulta kumpara sa kadahilanan. Kung mayroong isang plus, pagkatapos ito ay nagpapahiwatig ng isang pinabilis na pagbabago sa resulta.

Ang bawat parameter na nagbabago sa halaga ng regression equation ay maaaring ipahayag sa mga tuntunin ng isang equation. Halimbawa, ang factor c ay may anyo na c = y - mx.

Nakagrupong data

Mayroong mga kondisyon ng gawain kung saan ang lahat ng impormasyon ay pinagsama ayon sa katangian x, ngunit sa parehong oras, para sa isang tiyak na grupo, ang kaukulang mga average na halaga ng umaasa na tagapagpahiwatig ay ipinahiwatig. Sa kasong ito, ang mga average na halaga ay nailalarawan kung paano nakasalalay ang tagapagpahiwatig sa x. Kaya, nakakatulong ang pinagsama-samang impormasyon upang mahanap ang equation ng regression. Ginagamit ito bilang pagsusuri ng relasyon. Gayunpaman, ang pamamaraang ito ay may mga kawalan nito. Sa kasamaang palad, ang mga average ay madalas na napapailalim sa mga panlabas na pagbabagu-bago. Ang mga pagbabago-bagong ito ay hindi salamin ng mga pattern ng relasyon, tinatakpan lamang nila ang "ingay" nito. Ang mga average ay nagpapakita ng mga pattern ng relasyon na mas masahol pa kaysa sa isang linear regression equation. Gayunpaman, maaari silang magamit bilang batayan para sa paghahanap ng isang equation. Sa pamamagitan ng pagpaparami ng laki ng isang partikular na populasyon sa katumbas na average, maaari mong makuha ang kabuuan ng y sa loob ng pangkat. Susunod, kailangan mong patumbahin ang lahat ng natanggap na halaga at hanapin ang panghuling tagapagpahiwatig y. Medyo mas mahirap gumawa ng mga kalkulasyon gamit ang sum indicator na xy. Kung sakaling maliit ang mga agwat, maaari nating kunin ang indicator na x para sa lahat ng unit (sa loob ng grupo) nang pareho. I-multiply ito sa kabuuan ng y upang mahanap ang kabuuan ng mga produkto ng x at y. Dagdag pa, ang lahat ng mga kabuuan ay pinagsama-sama at ang kabuuang kabuuan xy ay nakuha.

Multiple Pair Equation Regression: Pagsusuri sa Kahalagahan ng Isang Relasyon

Tulad ng tinalakay kanina, ang maramihang regression ay may function ng form y \u003d f (x 1, x 2, ..., x m) + E. Kadalasan, ang gayong equation ay ginagamit upang malutas ang problema ng supply at demand para sa isang produkto, kita ng interes sa muling binili na pagbabahagi, pag-aaral ng mga sanhi at uri ng pag-andar ng gastos sa produksyon. Aktibo rin itong ginagamit sa iba't ibang uri ng macroeconomic na pag-aaral at kalkulasyon, ngunit sa antas ng microeconomics, ang equation na ito ay medyo hindi gaanong ginagamit.

Ang pangunahing gawain ng multiple regression ay ang pagbuo ng isang modelo ng data na naglalaman ng malaking halaga ng impormasyon upang higit pang matukoy kung ano ang epekto ng bawat isa sa mga salik nang paisa-isa at sa kanilang kabuuan sa indicator na imodelo at mga coefficient nito. Ang equation ng regression ay maaaring tumagal sa iba't ibang mga halaga. Sa kasong ito, dalawang uri ng mga function ang karaniwang ginagamit upang masuri ang relasyon: linear at nonlinear.

Ang isang linear na function ay inilalarawan sa anyo ng naturang relasyon: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Sa kasong ito, ang a2, a m , ay itinuturing na mga coefficient ng "purong" regression. Ang mga ito ay kinakailangan upang makilala ang average na pagbabago sa parameter y na may pagbabago (pagbaba o pagtaas) sa bawat kaukulang parameter x ng isang yunit, na may kondisyon ng isang matatag na halaga ng iba pang mga tagapagpahiwatig.

Ang mga nonlinear equation ay mayroong, halimbawa, ang anyo ng power function y=ax 1 b1 x 2 b2 ...x m bm . Sa kasong ito, ang mga indicator b 1, b 2 ..... b m - ay tinatawag na elasticity coefficients, ipinapakita nila kung paano magbabago ang resulta (kung magkano%) na may pagtaas (pagbaba) sa kaukulang indicator x ng 1% at may isang matatag na tagapagpahiwatig ng iba pang mga kadahilanan.

Anong mga salik ang dapat isaalang-alang kapag bumubuo ng maraming regression

Upang maayos na makabuo ng maraming regression, kinakailangan upang malaman kung aling mga kadahilanan ang dapat bigyan ng espesyal na pansin.

Ito ay kinakailangan upang magkaroon ng ilang pag-unawa sa likas na katangian ng relasyon sa pagitan ng pang-ekonomiyang mga kadahilanan at ang modelo. Ang mga salik na isasama ay dapat matugunan ang mga sumusunod na pamantayan:

  • Dapat masusukat. Upang magamit ang isang kadahilanan na naglalarawan sa kalidad ng isang bagay, sa anumang kaso, dapat itong bigyan ng isang quantitative form.
  • Dapat ay walang factor intercorrelation, o functional relationship. Ang ganitong mga aksyon ay kadalasang humahantong sa hindi maibabalik na mga kahihinatnan - ang sistema ng mga ordinaryong equation ay nagiging walang kondisyon, at ito ay nagsasangkot ng hindi mapagkakatiwalaan at malabo na mga pagtatantya.
  • Sa kaso ng isang malaking tagapagpahiwatig ng ugnayan, walang paraan upang malaman ang nakahiwalay na impluwensya ng mga kadahilanan sa panghuling resulta ng tagapagpahiwatig, samakatuwid, ang mga koepisyent ay nagiging hindi maipaliwanag.

Mga Paraan ng Konstruksyon

Mayroong isang malaking bilang ng mga pamamaraan at paraan upang ipaliwanag kung paano mo mapipili ang mga salik para sa equation. Gayunpaman, ang lahat ng mga pamamaraang ito ay batay sa pagpili ng mga coefficient gamit ang correlation index. Kabilang sa mga ito ay:

  • Paraan ng pagbubukod.
  • I-on ang paraan.
  • Stepwise regression analysis.

Ang unang paraan ay nagsasangkot ng pagsasala sa lahat ng mga koepisyent mula sa pinagsama-samang hanay. Ang pangalawang paraan ay nagsasangkot ng pagpapakilala ng maraming karagdagang mga kadahilanan. Well, ang pangatlo ay ang pag-aalis ng mga salik na dating inilapat sa equation. Ang bawat isa sa mga pamamaraang ito ay may karapatang umiral. Mayroon silang mga kalamangan at kahinaan, ngunit maaari nilang lutasin ang isyu ng pag-screen ng mga hindi kinakailangang tagapagpahiwatig sa kanilang sariling paraan. Bilang isang patakaran, ang mga resulta na nakuha ng bawat indibidwal na pamamaraan ay medyo malapit.

Mga paraan ng pagsusuri ng multivariate

Ang ganitong mga pamamaraan para sa pagtukoy ng mga kadahilanan ay batay sa pagsasaalang-alang ng mga indibidwal na kumbinasyon ng magkakaugnay na mga tampok. Kabilang dito ang discriminant analysis, pattern recognition, principal component analysis, at cluster analysis. Bilang karagdagan, mayroon ding pagsusuri sa kadahilanan, gayunpaman, lumitaw ito bilang isang resulta ng pag-unlad ng paraan ng bahagi. Ang lahat ng mga ito ay inilalapat sa ilang mga pangyayari, sa ilalim ng ilang mga kundisyon at mga kadahilanan.

Ang pangunahing layunin ng pagsusuri ng regression ay binubuo sa pagtukoy sa analytical form ng relasyon, kung saan ang pagbabago sa resultang attribute ay dahil sa impluwensya ng isa o higit pang factor sign, at ang set ng lahat ng iba pang salik na nakakaapekto rin sa resultang attribute ay kinukuha bilang pare-pareho at average na halaga. .
Mga gawain ng pagsusuri ng regression:
a) Pagtatatag ng anyo ng pagtitiwala. Tungkol sa kalikasan at anyo ng ugnayan sa pagitan ng mga penomena, mayroong positibong linear at non-linear at negatibong linear at non-linear na regression.
b) Kahulugan ng regression function sa anyo ng isang mathematical equation ng isang uri o iba pa at pagtatatag ng impluwensya ng mga paliwanag na variable sa dependent variable.
c) Pagtatantya ng hindi kilalang mga halaga ng dependent variable. Gamit ang regression function, maaari mong kopyahin ang mga halaga ng dependent variable sa loob ng agwat ng mga ibinigay na halaga ng mga paliwanag na variable (i.e., lutasin ang problema sa interpolation) o suriin ang kurso ng proseso sa labas ng tinukoy na agwat (i.e., lutasin ang problema sa extrapolation). Ang resulta ay isang pagtatantya ng halaga ng dependent variable.

Pair regression - ang equation ng relasyon ng dalawang variable na y at x: y=f(x), kung saan y ang dependent variable (resultant sign); x - independyente, nagpapaliwanag na variable (feature-factor).

May mga linear at non-linear na regression.
Linear regression: y = a + bx + ε
Ang mga nonlinear na regression ay nahahati sa dalawang klase: ang mga regression na non-linear na may paggalang sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter, at mga regression na hindi linear na may paggalang sa mga tinantyang parameter.
Mga regression na hindi linear sa mga paliwanag na variable:

Mga regression na hindi linear sa mga tinantyang parameter:

  • kapangyarihan y=a x b ε
  • exponential y=a b x ε
  • exponential y=e a+b x ε
Ang pagtatayo ng equation ng regression ay binabawasan sa pagtatantya ng mga parameter nito. Upang matantya ang mga parameter ng mga regression na linear sa mga parameter, ang paraan ng least squares (LSM) ay ginagamit. Ginagawang posible ng LSM na makakuha ng naturang mga pagtatantya ng parameter kung saan ang kabuuan ng mga squared deviations ng aktwal na mga halaga ng epektibong feature y mula sa theoretical values ​​​​y x ay minimal, i.e.
.
Para sa mga linear at nonlinear na equation na mababawasan sa linear, ang sumusunod na sistema ay nalulutas para sa a at b:

Maaari mong gamitin ang mga handa na formula na sumusunod mula sa system na ito:

Ang lapit ng koneksyon sa pagitan ng pinag-aralan na phenomena ay tinatantya ng linear pair correlation coefficient r xy para sa linear regression (-1≤r xy ≤1):

at correlation index p xy - para sa non-linear regression (0≤p xy ≤1):

Ang isang pagtatasa ng kalidad ng itinayong modelo ay ibibigay ng koepisyent (index) ng pagpapasiya, pati na rin ang average na error sa pagtatantya.
Ang average na error sa approximation ay ang average na paglihis ng mga kinakalkula na halaga mula sa aktwal na mga halaga:
.
Pinahihintulutang limitasyon ng mga halaga A - hindi hihigit sa 8-10%.
Ang average na koepisyent ng elasticity E ay nagpapakita kung gaano karaming porsyento sa average ang magiging resulta ng y mula sa average na halaga nito kapag ang factor x ay nagbago ng 1% mula sa average na halaga nito:
.

Ang gawain ng pagsusuri ng pagkakaiba-iba ay upang suriin ang pagkakaiba-iba ng umaasa na variable:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
kung saan ang ∑(y-y)² ay ang kabuuang kabuuan ng mga squared deviations;
∑(y x -y)² - kabuuan ng mga squared deviations dahil sa regression ("ipinaliwanag" o "factorial");
∑(y-y x)² - natitirang kabuuan ng mga squared deviations.
Ang bahagi ng pagkakaiba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng epektibong tampok na y ay nailalarawan sa pamamagitan ng koepisyent (index) ng pagpapasiya R2:

Ang coefficient of determination ay ang parisukat ng coefficient o correlation index.

F-test - pagsusuri ng kalidad ng regression equation - binubuo sa pagsubok ng hypothesis Ngunit tungkol sa statistical insignificance ng regression equation at ang indicator ng closeness ng koneksyon. Para dito, ang isang paghahambing ng aktwal na F fact at ang kritikal (tabular) F na talahanayan ng mga halaga ng Fisher F-criterion ay ginanap. Ang F fact ay tinutukoy mula sa ratio ng mga halaga ng factorial at natitirang mga pagkakaiba-iba na kinakalkula para sa isang antas ng kalayaan:
,
kung saan ang n ay ang bilang ng mga yunit ng populasyon; m ay ang bilang ng mga parameter para sa mga variable x.
Ang F table ay ang pinakamataas na posibleng halaga ng criterion sa ilalim ng impluwensya ng mga random na salik para sa ibinigay na antas ng kalayaan at antas ng kahalagahan a. Antas ng kahalagahan a - ang posibilidad na tanggihan ang tamang hypothesis, sa kondisyon na ito ay totoo. Karaniwan ang a ay kinukuha na katumbas ng 0.05 o 0.01.
Kung F talahanayan< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F ay isang katotohanan, pagkatapos ay ang hypothesis H tungkol sa ay hindi tinanggihan at ang statistical insignificance, ang unreliability ng regression equation ay kinikilala.
Upang masuri ang istatistikal na kahalagahan ng regression at correlation coefficients, kinakalkula ang t-test at confidence interval ng Mag-aaral para sa bawat isa sa mga indicator. Ang isang hypothesis H tungkol sa random na katangian ng mga tagapagpahiwatig ay iniharap, i.e. tungkol sa kanilang hindi gaanong pagkakaiba mula sa zero. Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's t-test ay isinasagawa sa pamamagitan ng paghahambing ng kanilang mga halaga sa laki ng random error:
; ; .
Ang mga random na error ng linear regression na mga parameter at correlation coefficient ay tinutukoy ng mga formula:



Paghahambing ng aktwal at kritikal (tabular) na mga halaga ng t-statistics - t tabl at t fact - tinatanggap o tinatanggihan namin ang hypothesis H o.
Ang relasyon sa pagitan ng Fisher's F-test at ng Student's t-statistics ay ipinahayag ng pagkakapantay-pantay

Kung t talahanayan< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t ang katotohanan na ang hypothesis H about ay hindi tinatanggihan at ang random na katangian ng pagbuo ng a, b o r xy ay kinikilala.
Upang kalkulahin ang agwat ng kumpiyansa, tinutukoy namin ang marginal error D para sa bawat indicator:
Δ a =t talahanayan m a , Δ b =t talahanayan m b .
Ang mga formula para sa pagkalkula ng mga agwat ng kumpiyansa ay ang mga sumusunod:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; γ b = b-Δ b ; γb =b+Δb
Kung ang zero ay nasa loob ng mga hangganan ng agwat ng kumpiyansa, i.e. Kung negatibo ang mas mababang limitasyon at positibo ang pinakamataas na limitasyon, ang tinantyang parameter ay ipinapalagay na zero, dahil hindi ito maaaring sabay na kumuha sa parehong positibo at negatibong mga halaga.
Natutukoy ang halaga ng pagtataya na y p sa pamamagitan ng pagpapalit ng katumbas na (pagtataya) na halaga x p sa equation ng regression y x =a+b·x . Ang average na karaniwang error ng forecast m y x ay kinakalkula:
,
saan
at ang agwat ng kumpiyansa ng forecast ay binuo:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y p
kung saan Δ y x =t talahanayan ·m y x .

Halimbawa ng Solusyon

Gawain bilang 1. Para sa pitong teritoryo ng rehiyon ng Ural Para sa 199X, ang mga halaga ng dalawang palatandaan ay kilala.
Talahanayan 1.

Kailangan: 1. Upang makilala ang dependence ng y sa x, kalkulahin ang mga parameter ng mga sumusunod na function:
a) linear;
b) batas ng kapangyarihan (dati ay kinakailangan upang isagawa ang pamamaraan ng linearization ng mga variable sa pamamagitan ng pagkuha ng logarithm ng parehong bahagi);
c) nagpapakita;
d) equilateral hyperbola (kailangan mo ring malaman kung paano i-pre-linearize ang modelong ito).
2. Suriin ang bawat modelo sa pamamagitan ng average na error sa approximation A at Fisher's F-test.

Solusyon (Pagpipilian #1)

Upang kalkulahin ang mga parameter a at b ng linear regression y=a+b·x (ang pagkalkula ay maaaring gawin gamit ang isang calculator).
lutasin ang sistema ng mga normal na equation na may kinalaman sa a at b:
Batay sa paunang data, kinakalkula namin ang ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x2 y2 y xy-y xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Kabuuan405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ikasal halaga (Kabuuan/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57.89+0.35 54.9 ≈ 76.88

Regression equation: y= 76,88 - 0,35X. Sa isang pagtaas sa average na pang-araw-araw na sahod ng 1 kuskusin. ang bahagi ng paggasta sa pagbili ng mga produktong pagkain ay nababawasan ng average na 0.35% na puntos.
Kalkulahin ang linear coefficient ng ugnayan ng pares:

Ang komunikasyon ay katamtaman, baligtad.
Tukuyin natin ang koepisyent ng determinasyon: r² xy =(-0.35)=0.127
Ang 12.7% variation sa resulta ay ipinaliwanag ng variation sa x factor. Ang pagpapalit ng aktwal na mga halaga sa equation ng regression X, tinutukoy namin ang teoretikal (kinakalkula) na mga halaga ng y x . Hanapin natin ang halaga ng average na error sa pagtatantya A :

Sa karaniwan, ang mga kinakalkula na halaga ay lumihis mula sa aktwal na mga halaga ng 8.1%.
Kalkulahin natin ang F-criterion:

Ang nakuha na halaga ay nagpapahiwatig ng pangangailangan na tanggapin ang hypothesis H 0 tungkol sa random na kalikasan ng ipinahayag na pag-asa at ang statistical insignificance ng mga parameter ng equation at ang tagapagpahiwatig ng pagiging malapit ng koneksyon.
1b. Ang pagbuo ng modelo ng kapangyarihan y=a x b ay nauuna sa pamamaraan ng linearization ng mga variable. Sa halimbawa, ang linearization ay ginagawa sa pamamagitan ng pagkuha ng logarithm ng magkabilang panig ng equation:
lg y=lg a + b lg x
Y=C+b Y
kung saan ang Y=lg(y), X=lg(x), C=lg(a).

Para sa mga kalkulasyon, ginagamit namin ang data sa Talahanayan. 1.3.
Talahanayan 1.3

YX YX Y2 x2 y xy-y x(y-yx)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Kabuuan12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
ibig sabihin1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Kalkulahin ang C at b:

C=Y -b X = 1.7605+0.298 1.7370 = 2.278126
Kumuha kami ng linear equation: Y=2.278-0.298 X
Pagkatapos potentiating ito, makuha natin ang: y=10 2.278 x -0.298
Ang pagpapalit sa equation na ito ng aktwal na mga halaga X, nakukuha namin ang mga teoretikal na halaga ng resulta. Batay sa mga ito, kinakalkula namin ang mga tagapagpahiwatig: ang higpit ng koneksyon - ang correlation index p xy at ang average na approximation error A .

Ang mga katangian ng modelo ng kapangyarihan ay nagpapahiwatig na inilalarawan nito ang relasyon na medyo mas mahusay kaysa sa linear function.

1v. Ang pagtatayo ng equation ng exponential curve y \u003d a b x ay nauuna sa pamamaraan para sa linearizing ng mga variable kapag kinukuha ang logarithm ng parehong bahagi ng equation:
lg y=lg a + x lg b
Y=C+B x
Para sa mga kalkulasyon, ginagamit namin ang data ng talahanayan.

Yx Yx Y2 x2y xy-y x(y-yx)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Kabuuan12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ikasal zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Ang mga halaga ng mga parameter ng regression A at AT ay umabot sa:

A=Y -B x = 1.7605+0.0023 54.9 = 1.887
Nakuha ang isang linear na equation: Y=1.887-0.0023x. Pinapalakas namin ang resultang equation at isulat ito sa karaniwang anyo:
y x =10 1.887 10 -0.0023x = 77.1 0.9947 x
Tinatantya namin ang higpit ng relasyon sa pamamagitan ng index ng ugnayan p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Kabuuan405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 ibig sabihin57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

Ang pagsusuri ng regression ay isang istatistikal na paraan ng pananaliksik na nagbibigay-daan sa iyo upang ipakita ang pagtitiwala ng isang parameter sa isa o higit pang mga independiyenteng variable. Sa panahon ng pre-computer, medyo mahirap ang paggamit nito, lalo na pagdating sa malaking halaga ng data. Ngayon, natutunan kung paano bumuo ng regression sa Excel, malulutas mo ang mga kumplikadong problema sa istatistika sa loob lamang ng ilang minuto. Nasa ibaba ang mga tiyak na halimbawa mula sa larangan ng ekonomiya.

Mga uri ng regression

Ang konsepto mismo ay ipinakilala sa matematika noong 1886. Nangyayari ang pagbabalik:

  • linear;
  • parabolic;
  • kapangyarihan;
  • exponential;
  • hyperbolic;
  • demonstrative;
  • logarithmic.

Halimbawa 1

Isaalang-alang ang problema sa pagtukoy ng pag-asa ng bilang ng mga retiradong miyembro ng koponan sa average na suweldo sa 6 na pang-industriya na negosyo.

Gawain. Sa anim na negosyo, sinuri namin ang average na buwanang suweldo at ang bilang ng mga empleyadong umalis sa kanilang sariling kusa. Sa tabular form mayroon kaming:

Ang daming umalis

Ang suweldo

30000 rubles

35000 rubles

40000 rubles

45000 rubles

50000 rubles

55000 rubles

60000 rubles

Para sa problema sa pagtukoy ng pag-asa ng bilang ng mga retiradong manggagawa sa average na suweldo sa 6 na negosyo, ang modelo ng regression ay may anyo ng equation na Y = a 0 + a 1 x 1 +…+a k x k , kung saan ang x i ay ang mga nakakaimpluwensyang variable. , a i ay ang regression coefficients, a k ay ang bilang ng mga salik.

Para sa gawaing ito, ang Y ang tagapagpahiwatig ng mga empleyadong umalis, at ang salik na nakakaimpluwensya ay ang suweldo, na tinutukoy namin ng X.

Gamit ang mga kakayahan ng spreadsheet na "Excel"

Ang pagsusuri ng regression sa Excel ay dapat maunahan ng aplikasyon ng mga built-in na function sa magagamit na data ng tabular. Gayunpaman, para sa mga layuning ito, mas mainam na gamitin ang napakakapaki-pakinabang na add-in na "Analysis Toolkit". Upang i-activate ito kailangan mo:

  • mula sa tab na "File", pumunta sa seksyong "Mga Opsyon";
  • sa window na bubukas, piliin ang linya na "Mga Add-on";
  • mag-click sa pindutang "Go" na matatagpuan sa ibaba, sa kanan ng linya ng "Pamamahala";
  • lagyan ng check ang kahon sa tabi ng pangalang "Analysis Package" at kumpirmahin ang iyong mga aksyon sa pamamagitan ng pag-click sa "OK".

Kung nagawa nang tama ang lahat, lalabas ang gustong button sa kanang bahagi ng tab na Data, na matatagpuan sa itaas ng worksheet ng Excel.

sa Excel

Ngayong nasa kamay na natin ang lahat ng kinakailangang virtual na tool para sa pagsasagawa ng mga kalkulasyon ng ekonomiko, maaari na nating simulan ang paglutas ng ating problema. Para dito:

  • mag-click sa pindutan ng "Pagsusuri ng Data";
  • sa window na bubukas, mag-click sa pindutan ng "Regression";
  • sa tab na lilitaw, ipasok ang hanay ng mga halaga para sa Y (ang bilang ng mga empleyado na huminto) at para sa X (kanilang mga suweldo);
  • Kinukumpirma namin ang aming mga aksyon sa pamamagitan ng pagpindot sa pindutang "Ok".

Bilang resulta, ang programa ay awtomatikong maglalagay ng bagong sheet ng spreadsheet na may data ng pagsusuri ng regression. Tandaan! May kakayahan ang Excel na manu-manong itakda ang lokasyong gusto mo para sa layuning ito. Halimbawa, maaaring pareho itong sheet kung nasaan ang mga halaga ng Y at X, o kahit isang bagong workbook na partikular na idinisenyo upang mag-imbak ng naturang data.

Pagsusuri ng mga resulta ng regression para sa R-square

Sa Excel, ang data na nakuha sa panahon ng pagproseso ng data ng itinuturing na halimbawa ay ganito ang hitsura:

Una sa lahat, dapat mong bigyang-pansin ang halaga ng R-square. Ito ang koepisyent ng determinasyon. Sa halimbawang ito, R-square = 0.755 (75.5%), ibig sabihin, ang mga kinakalkula na parameter ng modelo ay nagpapaliwanag ng ugnayan sa pagitan ng mga isinasaalang-alang na parameter ng 75.5%. Kung mas mataas ang halaga ng koepisyent ng pagpapasiya, mas naaangkop ang napiling modelo para sa isang partikular na gawain. Ito ay pinaniniwalaan na ito ay wastong naglalarawan sa totoong sitwasyon na may R-squared na halaga sa itaas ng 0.8. Kung R-squared<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Pagsusuri ng ratio

Ang bilang na 64.1428 ay nagpapakita kung ano ang magiging halaga ng Y kung ang lahat ng mga variable xi sa modelong ating isinasaalang-alang ay nakatakda sa zero. Sa madaling salita, maaari itong pagtalunan na ang halaga ng nasuri na parameter ay naiimpluwensyahan din ng iba pang mga kadahilanan na hindi inilarawan sa isang partikular na modelo.

Ang susunod na koepisyent -0.16285, na matatagpuan sa cell B18, ay nagpapakita ng bigat ng impluwensya ng variable X sa Y. Nangangahulugan ito na ang average na buwanang suweldo ng mga empleyado sa loob ng modelong isinasaalang-alang ay nakakaapekto sa bilang ng mga umalis na may timbang na -0.16285, i.e. ang antas ng impluwensya nito sa lahat ng maliit. Ang "-" sign ay nagpapahiwatig na ang koepisyent ay may negatibong halaga. Ito ay malinaw, dahil alam ng lahat na mas mataas ang suweldo sa negosyo, mas kaunting mga tao ang nagpapahayag ng pagnanais na wakasan ang kontrata sa pagtatrabaho o huminto.

Maramihang Pagbabalik

Ang terminong ito ay tumutukoy sa isang koneksyon equation na may ilang mga independiyenteng mga variable ng form:

y \u003d f (x 1 + x 2 + ... x m) + ε, kung saan ang y ang mabisang feature (dependent variable), at x 1 , x 2 , ... x m ang mga factor factor (independent variables).

Pagtatantya ng Parameter

Para sa maramihang regression (MR) ito ay isinasagawa gamit ang paraan ng least squares (OLS). Para sa mga linear na equation ng anyong Y = a + b 1 x 1 +…+b m x m + ε, bumuo kami ng isang sistema ng mga normal na equation (tingnan sa ibaba)

Upang maunawaan ang prinsipyo ng pamamaraan, isaalang-alang ang dalawang-factor na kaso. Pagkatapos ay mayroon kaming isang sitwasyon na inilarawan ng formula

Mula dito nakukuha natin ang:

kung saan ang σ ay ang pagkakaiba-iba ng kaukulang tampok na makikita sa index.

Naaangkop ang LSM sa equation ng MP sa isang standardizable na sukat. Sa kasong ito, nakukuha namin ang equation:

kung saan ang t y , t x 1, … t xm ay mga standardized na variable kung saan ang ibig sabihin ng mga halaga ay 0; Ang β i ay ang standardized regression coefficients, at ang standard deviation ay 1.

Pakitandaan na ang lahat ng β i sa kasong ito ay itinakda bilang normalisado at sentralisado, kaya ang kanilang paghahambing sa isa't isa ay itinuturing na tama at tinatanggap. Bilang karagdagan, kaugalian na i-filter ang mga kadahilanan, itapon ang mga may pinakamaliit na halaga ng βi.

Problema sa paggamit ng linear regression equation

Ipagpalagay na mayroong isang talahanayan ng dynamics ng presyo ng isang partikular na produkto N sa nakalipas na 8 buwan. Kinakailangang gumawa ng desisyon sa pagpapayo ng pagbili ng batch nito sa presyong 1850 rubles/t.

numero ng buwan

pangalan ng buwan

presyo ng item N

1750 rubles bawat tonelada

1755 rubles bawat tonelada

1767 rubles bawat tonelada

1760 rubles bawat tonelada

1770 rubles bawat tonelada

1790 rubles bawat tonelada

1810 rubles bawat tonelada

1840 rubles bawat tonelada

Upang malutas ang problemang ito sa Excel spreadsheet, kailangan mong gamitin ang tool sa Pagsusuri ng Data na kilala na mula sa halimbawa sa itaas. Susunod, piliin ang seksyong "Regression" at itakda ang mga parameter. Dapat tandaan na sa field na "Input Y interval", isang hanay ng mga halaga para sa dependent variable (sa kasong ito, ang presyo ng isang produkto sa mga partikular na buwan ng taon) ay dapat na ilagay, at sa "Input X interval" - para sa independiyenteng variable (numero ng buwan). Kumpirmahin ang pagkilos sa pamamagitan ng pag-click sa "Ok". Sa isang bagong sheet (kung ito ay ipinahiwatig na gayon), nakakakuha kami ng data para sa regression.

Batay sa kanila, bumuo kami ng isang linear equation ng form na y=ax+b, kung saan ang mga parameter a at b ay ang mga coefficient ng row na may pangalan ng buwan na numero at ang mga coefficient at ang "Y-intersection" na hilera mula sa sheet na may mga resulta ng pagsusuri ng regression. Kaya, ang linear regression equation (LE) para sa problema 3 ay nakasulat bilang:

Presyo ng produkto N = 11.714* buwan na numero + 1727.54.

o sa algebraic notation

y = 11.714 x + 1727.54

Pagsusuri ng mga resulta

Upang magpasya kung ang resultang linear regression equation ay sapat, maramihang mga correlation coefficients (MCC) at determination coefficients ang ginagamit, gayundin ang Fisher's test at Student's test. Sa talahanayan ng Excel na may mga resulta ng regression, lumilitaw ang mga ito sa ilalim ng mga pangalan ng maramihang R, R-square, F-statistic at t-statistic, ayon sa pagkakabanggit.

Ginagawang posible ng KMC R na masuri ang higpit ng probabilistikong relasyon sa pagitan ng mga independiyente at umaasa na mga variable. Ang mataas na halaga nito ay nagpapahiwatig ng isang medyo malakas na ugnayan sa pagitan ng mga variable na "Bilang ng buwan" at "Presyo ng mga kalakal N sa rubles bawat 1 tonelada". Gayunpaman, ang likas na katangian ng relasyon na ito ay nananatiling hindi alam.

Ang parisukat ng coefficient of determination R 2 (RI) ay isang numerical na katangian ng bahagi ng kabuuang scatter at nagpapakita ng scatter ng kung aling bahagi ng pang-eksperimentong data, i.e. ang mga halaga ng dependent variable ay tumutugma sa linear regression equation. Sa problemang isinasaalang-alang, ang halagang ito ay katumbas ng 84.8%, ibig sabihin, ang istatistikal na data ay inilalarawan na may mataas na antas ng katumpakan ng nakuhang SD.

Ang F-statistics, na tinatawag ding Fisher's test, ay ginagamit upang masuri ang kahalagahan ng isang linear na relasyon, pinabulaanan o kinukumpirma ang hypothesis ng pagkakaroon nito.

(Ang criterion ng mag-aaral) ay tumutulong upang suriin ang kahalagahan ng koepisyent na may hindi alam o libreng termino ng isang linear na relasyon. Kung ang halaga ng t-criterion > t cr, kung gayon ang hypothesis ng insignificance ng libreng termino ng linear equation ay tinanggihan.

Sa problemang isinasaalang-alang para sa libreng miyembro, gamit ang Excel tool, nakuha na t = 169.20903, at p = 2.89E-12, ibig sabihin, mayroon kaming zero na posibilidad na ang tamang hypothesis tungkol sa kawalang-halaga ng libreng miyembro ay tanggihan. Para sa koepisyent sa hindi kilalang t=5.79405, at p=0.001158. Sa madaling salita, ang posibilidad na ang tamang hypothesis tungkol sa kawalang-halaga ng koepisyent para sa hindi alam ay tatanggihan ay 0.12%.

Kaya, maaari itong mapagtatalunan na ang resultang linear regression equation ay sapat.

Ang problema ng pagiging angkop ng pagbili ng isang bloke ng pagbabahagi

Ang maramihang pagbabalik sa Excel ay ginagawa gamit ang parehong tool sa Pagsusuri ng Data. Isaalang-alang ang isang partikular na inilapat na problema.

Ang pamamahala ng NNN ay dapat gumawa ng desisyon sa pagiging advisability ng pagbili ng 20% ​​stake sa MMM SA. Ang halaga ng package (JV) ay 70 milyong US dollars. Ang mga espesyalista sa NNN ay nangolekta ng data sa mga katulad na transaksyon. Napagpasyahan na suriin ang halaga ng bloke ng mga pagbabahagi ayon sa mga naturang parameter, na ipinahayag sa milyun-milyong dolyar ng US, bilang:

  • mga account na dapat bayaran (VK);
  • taunang turnover (VO);
  • account receivable (VD);
  • halaga ng mga fixed asset (SOF).

Bilang karagdagan, ginagamit ang parameter na atraso sa payroll ng enterprise (V3 P) sa libu-libong US dollars.

Solusyon gamit ang Excel spreadsheet

Una sa lahat, kailangan mong lumikha ng isang talahanayan ng paunang data. Mukhang ganito:

  • tawagan ang window na "Pagsusuri ng Data";
  • piliin ang seksyong "Regression";
  • sa kahon na "Input interval Y" ipasok ang hanay ng mga halaga ng mga dependent variable mula sa column G;
  • mag-click sa icon na may pulang arrow sa kanan ng window ng "Input interval X" at piliin ang hanay ng lahat ng values ​​mula sa mga column B, C, D, F sa sheet.

Piliin ang "Bagong Worksheet" at i-click ang "Ok".

Kunin ang pagsusuri ng regression para sa ibinigay na problema.

Pagsusuri ng mga resulta at konklusyon

"Kinakolekta namin" mula sa nakabilog na data na ipinakita sa itaas sa Excel spreadsheet sheet, ang equation ng regression:

SP \u003d 0.103 * SOF + 0.541 * VO - 0.031 * VK + 0.405 * VD + 0.691 * VZP - 265.844.

Sa isang mas pamilyar na anyo ng matematika, maaari itong isulat bilang:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

Ang data para sa JSC "MMM" ay ipinakita sa talahanayan:

Ang pagpapalit sa kanila sa equation ng regression, makakakuha sila ng figure na 64.72 milyong US dollars. Nangangahulugan ito na ang mga bahagi ng JSC MMM ay hindi dapat bilhin, dahil ang kanilang halaga na 70 milyong US dollars ay medyo overstated.

Gaya ng nakikita mo, ang paggamit ng Excel spreadsheet at ang regression equation ay naging posible upang makagawa ng matalinong desisyon tungkol sa pagiging posible ng isang napaka-espesipikong transaksyon.

Ngayon alam mo na kung ano ang regression. Ang mga halimbawa sa Excel na tinalakay sa itaas ay tutulong sa iyo na malutas ang mga praktikal na problema mula sa larangan ng econometrics.