Maramihang linear na ugnayan. Mga coefficient ng ugnayan

Ang kakanyahan ng mga pamamaraan sa pagtataya ng sanhi ay upang magtatag ng isang mathematical na relasyon sa pagitan ng mga resulta at kadahilanan na mga variable.

Ang isang kinakailangang kondisyon para sa aplikasyon ng mga paraan ng pagtataya ng sanhi ay ang pagkakaroon ng isang malaking halaga ng data. Kung ang mga ugnayan sa pagitan ng mga variable ay maaaring ilarawan nang tama sa matematika, kung gayon ang katumpakan ng causal forecast ay magiging mataas.
Ang mga paraan ng pagtataya ng sanhi ay kinabibilangan ng:


  • multivariate na mga modelo ng regression,

  • pagmomolde ng simulation.
Ang pinakakaraniwang paraan ng pagtataya ng sanhi ay ang mga multivariate na modelo ng regression. .

1.4.1 Multivariate na mga modelo ng regression

Ang multivariate regression model ay isang equation na may maraming independent variable.

Upang bumuo ng isang multivariate na modelo ng regression, maaaring gamitin ang iba't ibang mga pag-andar, ang pinakakaraniwan ay mga linear at power dependences:

Sa linear na modelo, ang mga parameter(b 1 , b 2 , … b n) ay binibigyang-kahulugan bilang epekto ng bawat isa sa mga independiyenteng variable sa hinulaang halaga kung ang lahat ng iba pang independyenteng mga variable ay katumbas ng zero.

AT modelo ng kapangyarihan ang mga parameter ay elasticity coefficients. Ipinapakita nila kung gaano karaming porsyento ang magiging resulta (y) sa average na may pagbabago sa katumbas na salik ng 1%, habang ang pagkilos ng iba pang mga salik ay nananatiling hindi nagbabago. Upang kalkulahin ang mga parameter ng maramihang mga equation ng regression ay ginagamit din hindi bababa sa parisukat na paraan.

Kapag bumubuo ng mga modelo ng regression, ang kalidad ng data ay gumaganap ng isang mapagpasyang papel. Ang pagkolekta ng data ay lumilikha ng pundasyon para sa mga pagtataya, kaya mayroong ilang mga kinakailangan at panuntunan na dapat sundin kapag nangongolekta ng data.


  1. Una sa lahat, data ay dapat na mapapansin, ibig sabihin. natanggap bilang resulta ng pagsukat, hindi pagkalkula.

  1. Pangalawa, mula sa array ng data ito ay kinakailangan ibukod ang duplicate at matinding pagkakaiba ng data. Ang mas maraming hindi umuulit na data at mas homogenous ang populasyon, magiging mas mahusay ang equation. Ang malakas na magkakaibang mga halaga ay nauunawaan bilang mga obserbasyon na hindi akma sa pangkalahatang serye. Halimbawa, ang data sa sahod para sa mga manggagawa ay nasa apat at limang digit (7,000, 10,000, 15,000), ngunit isang anim na digit na numero (250,000) ang matatagpuan. Malinaw na ito ay isang pagkakamali.

  1. Ang ikatlong tuntunin (kailangan) ay medyo malaking halaga ng data. Hindi sumasang-ayon ang mga istatistika sa kung gaano karaming data ang kailangan para makabuo ng magandang equation. Ayon sa ilan, ang data ay kinakailangan 4-6 beses pa bilang ng mga kadahilanan. Sinasabi ng iba na kahit 10 beses pa bilang ng mga kadahilanan, pagkatapos ay ang batas ng malalaking numero, na kumikilos nang buong puwersa, ay nagsisiguro ng epektibong pagbabayad ng mga random na paglihis mula sa regular na kalikasan ng relasyon.

Pagbuo ng multivariate regression model saMSexcel
Sa mga spreadsheet ng Excel, posible na bumuo lamang linear modelo ng multivariate regression.
, (1.19)
Upang gawin ito, piliin "Pagsusuri sa datos", at pagkatapos ay sa lumitaw na window - tool "pagbabalik"


Figure 1.45 - Dialog box ng tool na "Regression".
Sa window na lilitaw, kailangan mong punan ang isang bilang ng mga patlang, kabilang ang:


  • pagitan ng input Y – isang hanay ng data, mula sa isang hanay, na naglalaman ng mga halaga ng nagresultang variable na Y.

  • Input interval X ay ang hanay ng data na naglalaman ng mga halaga ng mga variable na kadahilanan.

Kung ang unang row o unang column ng input interval ay naglalaman ng mga heading, dapat mong lagyan ng tsek ang kahon "mga tag" .

Inilapat ang default 95% na antas ng pagiging maaasahan. Kung gusto mong magtakda ng ibang antas, piliin ang checkbox at ilagay ang nais na antas ng pagiging maaasahan sa field sa tabi nito.

Checkbox "Patuloy na Zero" Kailangang suriin lamang kung nais mong makuha ang equation ng regression nang walang intercept a, upang ang linya ng regression ay dumaan sa mga pinagmulan.
Ang output ng mga resulta ng pagkalkula ay maaaring isaayos sa 3 paraan:


  • sa ang hanay ng cell ng worksheet na ito (para dito sa field "Saklaw ng Output" tukuyin ang itaas na kaliwang cell ng hanay kung saan ipapakita ang mga resulta ng pagkalkula);

  • sa bagong worksheet (maaari mong ipasok ang nais na pangalan ng sheet na ito sa field sa tabi nito);

  • sa bagong workbook .

Mga checkbox "Labi" at "Standardized Remains" inutusan silang isama sa hanay ng output.
Upang i-plot ang mga residual para sa bawat independent variable, lagyan ng check ang kahon Natirang Graph.Labi kung hindi man ay kilala bilang mga pagkakamali sa hula. Ang mga ito ay tinukoy bilang pagkakaiba sa pagitan ng aktwal at hinulaang mga halaga ng Y.
Pagbibigay-kahulugan sa mga Natirang Plot
Dapat ay walang pattern sa mga natitirang chart. Kung ang isang pattern ay sinusubaybayan, nangangahulugan ito na ang modelo ay hindi kasama ang ilang hindi alam sa amin, ngunit natural na kumikilos na kadahilanan, kung saan walang data.

Kapag nilagyan ng check ang kahon "Pagpili ng Iskedyul" isang serye ng mga graph ang ipapakita na nagpapakita kung gaano kahusay ang theoretical regression line na umaangkop sa mga naobserbahan, i.e. aktwal na datos.

Pagbibigay-kahulugan sa Pagpili ng mga Graph
Sa Excel, sa mga chart ng pagpili, ang mga pulang tuldok ay nagpapahiwatig ng mga teoretikal na halaga Y, mga asul na tuldok - paunang data. Kung ang mga pulang tuldok ay nagsasapawan nang maayos sa mga asul na tuldok, kung gayon ito ay biswal na nagpapahiwatig ng isang matagumpay na equation ng regression.
Ang isang kinakailangang hakbang sa pagtataya batay sa mga multivariate na modelo ng regression ay ang pagtatasa ng istatistikal na kahalagahan ng equation ng regression, i.e. ang kaangkupan ng nabuong regression equation para gamitin sa pagtataya. Upang malutas ang problemang ito, kinakalkula ng MS Excel ang isang bilang ng mga coefficient. Namely:


  1. Multiple correlation coefficient

Nailalarawan nito ang higpit at direksyon ng relasyon sa pagitan ng nagreresulta at ilang mga variable na kadahilanan. Sa pamamagitan ng dalawang-factor na pag-asa, ang maramihang koepisyent ng ugnayan ay kinakalkula ng formula:
, (1.20)


  1. Maramihang koepisyent ng pagpapasiya ( R 2 ).

Ang R 2 ay ang proporsyon ng pagkakaiba-iba ng teoretikal na halaga na nauugnay sa aktwal na mga halaga ng y, na ipinaliwanag ng mga kadahilanan na kasama sa modelo. Ang natitirang mga halaga ng teoretikal ay nakasalalay sa iba pang mga kadahilanan na hindi kasama sa modelo. Ang R 2 ay maaaring tumagal ng mga halaga mula 0 hanggang 1. Kung , kung gayon ang kalidad ng modelo ay mataas. Ang tagapagpahiwatig na ito ay lalong kapaki-pakinabang para sa paghahambing ng ilang mga modelo at pagpili ng pinakamahusay.


  1. Normalized na koepisyent ng pagpapasiya R 2

Ang tagapagpahiwatig R 2 ay may isang disbentaha, na binubuo sa katotohanan na ang mga malalaking halaga ng koepisyent ng pagpapasiya ay maaaring makamit dahil sa maliit na bilang ng mga obserbasyon. Normalized nagbibigay ng impormasyon tungkol sa kung anong halaga ang maaari mong makuha sa isa pang set ng data na mas malaki kaysa sa kasong ito.

Ang normalized ay kinakalkula ng formula:

, (1.21)

nasaan ang normalized na multiple coefficient ng determinasyon,

Maramihang koepisyent ng pagpapasiya,

Dami ng populasyon,

Bilang ng mga variable na salik.


  1. karaniwang error sa regression ay nagpapahiwatig ng tinatayang dami ng error sa paghula. Ginagamit ito bilang pangunahing dami para sa pagsukat ng kalidad ng tinantyang modelo. Kinakalkula ayon sa formula:
, (1.22)

saan ang kabuuan ng mga parisukat ng mga nalalabi,

Ang bilang ng mga antas ng kalayaan ng mga nalalabi.
Iyon ay, ang karaniwang error ng regression ay nagpapakita ng halaga ng parisukat ng error sa bawat isang antas ng kalayaan.


RESULTA

Mga istatistika ng regression

Maramihang R

0.973101

R-square

0.946926

Normalized na R-square

0.940682

karaniwang error

0.59867

Mga obserbasyon

20

Pagsusuri ng pagkakaiba-iba

df

SS

MS

F

Kahalagahan F

Regression

2

108.7071

54.35355

151.6535

1.45E-11

natitira

17

6.092905

0.358406

Kabuuan

19

114.8

Odds

karaniwang error

t-statistic

P-halaga

ibaba 95%

Nangungunang 95%

Ibaba 95.0%

Nangungunang 95.0%

Y-intersection

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

Ang pagsusuri ng paraan ng pagkakaiba ay binubuo sa pagbubulok ng kabuuang kabuuan ng mga squared deviations ng variable sa mula sa average sa dalawang bahagi:


  1. ipinaliwanag sa pamamagitan ng regression (o factorial),

  2. nalalabi.
, (1.2 3)
Ang kaangkupan ng modelo ng regression para sa hula ay depende sa kung gaano karami sa kabuuang variation ng katangian y isinasaalang-alang ang pagkakaiba-iba na ipinaliwanag ng regression. Malinaw, kung ang kabuuan ng mga squared deviations na ipinaliwanag ng regression ay mas malaki kaysa sa nalalabi, kung gayon ang isang konklusyon ay ginawa tungkol sa istatistikal na kahalagahan ng regression equation. Ito ay katumbas ng katotohanan na ang coefficient of determination ay lumalapit sa pagkakaisa.
Mga pagtatalaga sa talahanayan na "Pagsusuri ng pagkakaiba-iba":
Ang pangalawang hanay ng talahanayan ay tinatawag at nangangahulugan ng bilang ng mga antas ng kalayaan. Para sa kabuuang pagkakaiba, ang bilang ng mga antas ng kalayaan ay: , para sa pagkakaiba-iba ng kadahilanan (o pagkakaiba-iba na ipinaliwanag sa pamamagitan ng pagbabalik), , para sa natitirang pagkakaiba.

kung saan ang n ay ang bilang ng mga obserbasyon,

m ay ang bilang ng mga factorial variable ng modelo.
Ang ikatlong hanay ng talahanayan ay tinatawag na . Kinakatawan nito ang kabuuan ng mga squared deviations. Ang kabuuang kabuuan ng mga squared deviations ay tinutukoy ng formula:

, (1.24)
Factor sum ng mga parisukat:

, (1.26)
Ang ikaapat na hanay ay tinatawag na - ang average na halaga ng mga squared deviations. Natutukoy ng formula:

Sa tulong ng F-criterion ni Fisher, natutukoy ang istatistikal na kahalagahan ng koepisyent ng pagpapasiya ng equation ng regression. Para dito, ang isang null hypothesis ay inilagay sa harap, na nagsasaad na sa pagitan ng mga resulta at kadahilanan na mga variable walang koneksyon. Ito ay posible lamang kung ang lahat ng mga parameter ng multiple linear regression equation at ang correlation coefficient ay katumbas ng zero.

Upang subukan ang hypothesis na ito, kinakailangang kalkulahin ang aktwal na halaga ng Fisher's F-test at ihambing ito sa talahanayan. Ang aktwal na halaga ng F-criterion ay kinakalkula ng formula:

, (1.28)

Pinili mula sa mga espesyal na istatistikal na talahanayan ng:


  • ibinigay na antas ng kahalagahan () at

  • ang bilang ng mga antas ng kalayaan.

Sa MS Excel, maaaring matukoy ang tabular value ng F-criterion gamit ang function na: = FINV(probability; degrees of freedom1; degrees of freedom2)

Halimbawa: =FDISP(0.05;df1;df2)
Lebel ng kahalagahan 1 ay pinili para sa parehong isa kung saan ang mga parameter ng modelo ng regression ay kinakalkula. Ang default ay 95%.

Kung , kung gayon ang iminungkahing hypothesis ay tinanggihan at ang istatistikal na kahalagahan ng equation ng regression ay kinikilala. Sa kaso ng mga partikular na mahahalagang pagtataya, inirerekumenda na taasan ang halaga ng talahanayan ng F-criterion ng 4 na beses, iyon ay, ang kundisyon ay nasuri:
=151.65; = 3.59
Ang kinakalkula na halaga ay makabuluhang lumampas sa naka-tabulate na halaga. Nangangahulugan ito na ang koepisyent ng pagpapasiya ay makabuluhang naiiba mula sa zero, kaya ang hypothesis ng kawalan ng isang pag-asa sa regression ay dapat tanggihan.
Ngayon suriin natin ang kahalagahan ng mga coefficient ng regression batay sa t-Pamantayan ng mag-aaral. Binibigyang-daan ka nitong matukoy kung alin sa mga variable na salik (x) ang may pinakamalaking epekto sa resultang variable (y).

Ang mga karaniwang error ay karaniwang tinutukoy ng . Ipinapahiwatig ng subscript ang parameter ng equation ng regression kung saan kinakalkula ang error na ito.

Kinakalkula ayon sa formula:

, (1.29)

kung saan - RMS para sa resultang variable,

RMS para sa tampok,

Coefficient ng determinasyon para sa maramihang equation

pagbabalik,

Ang koepisyent ng pagpapasiya para sa pagtitiwala ng salik na may

lahat ng iba pang mga kadahilanan sa equation.

Bilang ng mga antas ng kalayaan para sa natitirang kabuuan ng mga parisukat

mga paglihis.
Sa MS Excel, awtomatikong kinakalkula ang mga karaniwang error (matatagpuan sa ika-3 column ng ika-3 talahanayan).
tunay na halagat-Pamantayan ng mag-aaral sa MS Excel ay matatagpuan sa ika-4 na hanay ng ika-3 talahanayan at tinatawag na t-statistic.
(ika-4 na column) = (2nd column) / (3rd column)

t-statistic = Coefficients/Pamantayang error
Halaga ng talahanayant-Pamantayan ng mag-aaral depende sa tinatanggap na antas ng kahalagahan (karaniwan ay ; 0.05; 0.01) at ang bilang ng mga antas ng kalayaan .

kung saan ang n ay ang bilang ng mga yunit ng populasyon,

m ay ang bilang ng mga kadahilanan sa equation.
Sa MS Excel, ang halaga ng tabular ng pamantayan ng Mag-aaral ay maaaring matukoy gamit ang function:

STUDRASP(probability; bilang ng mga antas ng kalayaan)
Halimbawa: =STUDISP(0.05,7)
Kung , pagkatapos ay napagpasyahan na ang koepisyent ng equation ng regression ay makabuluhan sa istatistika (maaasahan) at maaaring isama sa modelo at magamit para sa pagtataya.

1.4.2 Paraan ng simulation ng Monte Carlo

Ang pamamaraan ng simulation ay nakuha ang pangalan nito bilang parangal sa lungsod ng Monte Carlo, na matatagpuan sa Principality of Monaco, isa sa pinakamaliit na bansa sa mundo, na matatagpuan sa baybayin ng Mediterranean, malapit sa hangganan ng France at Italy.

Ang Monte Carlo simulation method ay nagsasangkot ng pagbuo ng mga random na halaga alinsunod sa ibinigay na mga hadlang. Kapag sinimulan ang simulation modeling, una sa lahat, kinakailangan na bumuo ng isang pang-ekonomiya at matematikal na modelo (EMM) ng hinulaang tagapagpahiwatig, na sumasalamin sa ugnayan sa pagitan ng mga variable ng salik, pati na rin ang antas at likas na katangian ng kanilang impluwensya sa resulta. Dahil, sa mga kondisyon ng modernong mga kondisyon ng merkado, ang paksa ng mga relasyon sa ekonomiya ay sabay-sabay na apektado ng maraming mga kadahilanan ng iba't ibang kalikasan at direksyon, at ang antas ng kanilang impluwensya ay hindi deterministiko, tila kinakailangan na hatiin ang mga variable ng EMM sa dalawang grupo: stochastic at deterministiko;

Susunod, dapat mong matukoy ang mga uri ng mga pamamahagi ng posibilidad para sa bawat stochastic variable at ang kaukulang mga parameter ng input, gayahin ang mga halaga ng stochastic variable gamit ang MS Excel random number generator o iba pang mga tool sa software.

Ang tool na "random number generation" ay magagamit sa mga user ng MS Excel 2007 pagkatapos i-activate ang add-in Pakete ng pagsusuri. Ang pagkakasunud-sunod ng pag-activate ng add-on ay inilarawan sa itaas (tingnan ang pahina 10, fig. 1.5-1.8). Upang patakbuhin ang simulation sa menu DATA bagay ay dapat mapili "Pagsusuri sa datos", sa dialog box na lalabas, pumili ng tool mula sa listahan "Random na Pagbuo ng Numero" at i-click ang OK.

Figure 1.46 - Interface ng menu ng pagsusuri ng data
Sa lalabas na dialog box, dapat mong piliin ang uri ng probability distribution para sa bawat stochastic variable at itakda ang naaangkop na mga parameter ng input.

Figure 1.47 - Random number generator dialog box
Ang yugtong ito ay isa sa pinakamahirap, samakatuwid, kapag isinasagawa ito, kinakailangang gamitin ang kaalaman at karanasan ng mga eksperto. Pagpili ng Uri ng Probability Distribution ay maaari ding isagawa batay sa magagamit na istatistikal na impormasyon. Sa pagsasagawa, ang mga uri ng probability distribution gaya ng normal, triangular at uniporme ay kadalasang ginagamit.

Normal na pamamahagi (o batas ng Moivre-Gauss-Laplace) Ipinapalagay na ang mga variant ng hinulaang parameter ay unti-unti patungo sa mean na halaga. Ang mga variable na halaga na makabuluhang naiiba mula sa mean, iyon ay, na matatagpuan sa "mga buntot" ng pamamahagi, ay may mababang posibilidad.

tatsulok na pamamahagi ay isang derivative ng normal na distribusyon at ipinapalagay ang isang linearly na pagtaas ng distribusyon habang papalapit ito sa mean.

Unipormeng pamamahagi ay ginagamit sa kaso kapag ang lahat ng mga halaga ng variable indicator ay may parehong posibilidad ng pagsasakatuparan.

Sa kahalagahan ng baryabol at imposibilidad na piliin ang batas ng pamamahagi maaari itong tingnan sa mga tuntunin ng discrete distribution. Ang mga uri ng probability distribution na nakalista sa itaas ay nangangailangan ng kahulugan ng input parameters na ipinakita sa Table 1.11
Talahanayan 1.11 - Mga parameter ng input ng mga pangunahing uri ng mga pamamahagi ng posibilidad


Uri ng probabilistiko

pamamahagi


Mga parameter ng input

1 Normal na pamamahagi

  • ibig sabihin;

  • karaniwang lihis;

2 Tatsulok na pamamahagi

  • ibig sabihin;


3 Pantay na pamamahagi

  • mga limitasyon ng posibleng hanay ng mga halaga;

4 Discrete distribution

  • mga tiyak na halaga ng variable;

  • naaayon sa ibinigay na mga probabilidad.

Bilang resulta ng isang serye ng mga eksperimento, ang pamamahagi ng mga halaga ng mga stochastic na variable ay makukuha, batay sa kung saan dapat kalkulahin ang halaga ng hinulaang tagapagpahiwatig.

Ang susunod na kinakailangang hakbang ay ang pagsasagawa ng pang-ekonomiya at istatistikal na pagsusuri ng mga resulta ng simulation, kung saan inirerekomenda na kalkulahin ang mga sumusunod na istatistikal na katangian:


  • ibig sabihin;

  • karaniwang lihis;

  • pagpapakalat;

  • minimum at maximum na halaga;

  • hanay ng mga pagbabago;

  • koepisyent ng kawalaan ng simetrya;

  • sobra.
Maaaring gamitin ang mga indicator sa itaas upang subukan ang hypothesis ng isang normal na distribusyon. Kung ang hypothesis ay nakumpirma, ang "three sigma" na panuntunan ay maaaring gamitin upang gumawa ng isang pagtataya ng pagitan. Ang tatlong sigma tuntunin ay nagsasaad na kung ang isang random variable X ay napapailalim sa normal na batas sa pamamahagi na may mga parameter at, halos tiyak na ang mga halaga nito ay nasa pagitan, iyon ay. Upang mapabuti ang kalinawan at gawing simple ang interpretasyon, ipinapayong bumuo ng histogram.


Figure 1.48 - Histogram ng mga hinulaang halaga ng indicator

Ang pagpapatupad ng mga yugtong ito ay magiging posible upang makakuha ng isang probabilistikong pagtatantya ng mga halaga ng hinulaang tagapagpahiwatig (pagtataya ng pagitan).

Ngayon, lahat na kahit kaunting interesado sa data mining ay malamang na narinig ang tungkol sa simpleng linear regression. Naisulat na ito tungkol sa Habré, at nagsalita din si Andrew Ng nang detalyado sa kanyang kilalang kurso sa pag-aaral ng makina. Ang linear regression ay isa sa mga pangunahing at pinakasimpleng paraan ng machine learning, ngunit ang mga pamamaraan para sa pagtatasa ng kalidad ng itinayong modelo ay bihirang banggitin. Sa artikulong ito, susubukan kong iwasto nang kaunti ang nakakainis na pagtanggal na ito sa pamamagitan ng halimbawa ng pag-parse ng mga resulta ng summary.lm () function sa wikang R. Sa paggawa nito, susubukan kong magbigay ng mga kinakailangang formula, kaya lahat ng mga kalkulasyon ay madaling ma-program sa anumang ibang wika. Ang artikulong ito ay inilaan para sa mga nakarinig na posible na bumuo ng isang linear regression, ngunit hindi nakatagpo ng mga istatistikal na pamamaraan para sa pagtatasa ng kalidad nito.

Modelo ng linear regression

Kaya, hayaang mayroong ilang mga independiyenteng random na mga variable X1, X2, ..., Xn (mga manghuhula) at isang variable na Y depende sa kanila (pinapalagay na ang lahat ng kinakailangang pagbabago ng mga predictor ay nagawa na). Bukod dito, ipinapalagay namin na ang dependence ay linear at ang mga error ay karaniwang ipinamamahagi, i.e.

Kung saan ako ay isang n x n square identity matrix.

Kaya, mayroon kaming data na binubuo ng k obserbasyon ng mga halaga Y at Xi at gusto naming tantyahin ang mga coefficient. Ang karaniwang paraan para sa paghahanap ng mga pagtatantya ng koepisyent ay ang paraan ng least squares. At ang analytical na solusyon na maaaring makuha sa pamamagitan ng paglalapat ng pamamaraang ito ay ganito ang hitsura:

saan b may cap - coefficient vector estimation, y ay isang vector ng mga halaga ng dependent variable, at ang X ay isang matrix na may sukat na k x n+1 (n ang bilang ng mga predictors, ang k ay ang bilang ng mga obserbasyon), kung saan ang unang column ay binubuo ng isa, ang pangalawa. - ang mga halaga ng unang predictor, ang pangatlo - ang pangalawa, at iba pa, at ang mga hilera na naaayon sa umiiral na mga obserbasyon.

Ang summary.lm() function at pagsusuri ng mga resulta

Ngayon isaalang-alang ang isang halimbawa ng pagbuo ng isang linear regression na modelo sa wikang R:
> library(malayo) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >summary(lm1) Call: lm(formula = Species ~ Lugar + Elevation + Nearest + Scruz + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -111.679 -34.898 -7.862 33.460 182.584 Coefficients: Estimate St. Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0.017700 -4.226 0.000297 *** --- Signif. mga code: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Natirang karaniwang error: 60.98 sa 24 degrees ng kalayaan Maramihang R-squared: 0.7658, Inayos na R-squared: 0.7171 F- istatistika: 15.7 sa 5 at 24 DF, p-value: 6.838e-07
Naglalaman ang gala table ng ilang data sa 30 Galapagos Islands. Isasaalang-alang namin ang isang modelo kung saan ang Species - ang bilang ng iba't ibang species ng halaman sa isla ay linearly na nakadepende sa ilang iba pang variable.

Isaalang-alang ang output ng summary.lm() function.
Unang dumating ang isang linya na nagpapaalala kung paano ginawa ang modelo.
Pagkatapos ay darating ang impormasyon tungkol sa pamamahagi ng mga nalalabi: minimum, unang quartile, median, ikatlong quartile, maximum. Sa puntong ito, magiging kapaki-pakinabang hindi lamang ang pagtingin sa ilang dami ng mga nalalabi, kundi pati na rin suriin ang mga ito para sa normalidad, halimbawa, gamit ang Shapiro-Wilk test.
Susunod - ang pinaka-kawili-wili - impormasyon tungkol sa mga coefficient. Ang isang maliit na teorya ay kailangan dito.
Una naming isulat ang sumusunod na resulta:

kung saan ang sigma squared na may cap ay isang walang pinapanigan na estimator para sa totoong sigma squared. Dito b ay ang tunay na vector ng mga coefficient, at ang nakatakip na epsilon ay ang vector ng mga nalalabi, kung kukuha tayo ng pinakamaliit na mga pagtatantya ng mga parisukat bilang mga coefficient. Iyon ay, sa ilalim ng pagpapalagay na ang mga error ay karaniwang ipinamamahagi, ang vector ng mga coefficient ay ipapamahagi din nang normal sa paligid ng tunay na halaga, at ang pagkakaiba nito ay maaaring walang kinikilingan na tantya. Nangangahulugan ito na maaari mong subukan ang hypothesis para sa pagkakapantay-pantay ng mga coefficient sa zero, at samakatuwid ay suriin ang kahalagahan ng mga predictors, iyon ay, kung ang halaga ng Xi ay talagang nakakaapekto sa kalidad ng itinayong modelo.
Upang subukan ang hypothesis na ito, kailangan namin ang mga sumusunod na istatistika, na mayroong distribusyon ng Mag-aaral kung ang tunay na halaga ng coefficient bi ay 0:

saan
ay ang karaniwang error ng coefficient estimate, at ang t(k-n-1) ay ang distribution ng Student na may k-n-1 degrees ng kalayaan.

Handa na kaming magpatuloy sa pag-parse ng output ng summary.lm() function.
Kaya, ang susunod ay ang mga pagtatantya ng koepisyent na nakuha ng hindi bababa sa pamamaraan ng mga parisukat, ang kanilang mga karaniwang error, ang mga halaga ng t-statistic at ang mga p-halaga para dito. Karaniwan, ang p-value ay inihahambing sa ilang sapat na maliit na paunang napiling threshold, gaya ng 0.05 o 0.01. At kung ang halaga ng p-statistics ay mas mababa sa threshold, kung gayon ang hypothesis ay tinanggihan, kung higit pa, walang kongkreto, sa kasamaang-palad, ang masasabi. Hayaan mong ipaalala ko sa iyo na sa kasong ito, dahil simetriko ang distribusyon ng Estudyante tungkol sa 0, kung gayon ang p-value ay magiging katumbas ng 1-F(|t|)+F(-|t|), kung saan ang F ay ang distribution ng Estudyante function na may k-n-1 degrees ng kalayaan . Gayundin, ang R ay magiliw na nagmamarka ng mga asterisk na makabuluhang coefficient kung saan ang p-value ay sapat na maliit. Ibig sabihin, ang mga coefficient na iyon na malamang na hindi 0. Sa linyang Signif. Ang mga code ay naglalaman lamang ng pag-decode ng mga asterisk: kung mayroong tatlo, kung gayon ang p-value ay mula 0 hanggang 0.001, kung mayroong dalawa, kung gayon ito ay mula 0.001 hanggang 0.01, at iba pa. Kung walang mga icon, ang p-value ay mas malaki sa 0.1.

Sa aming halimbawa, masasabi namin nang may malaking katiyakan na ang mga predictor na Elevation at Adjacent ay talagang malamang na makakaapekto sa halaga ng Species, ngunit walang tiyak na masasabi tungkol sa iba pang mga predictor. Kadalasan, sa ganitong mga kaso, ang mga predictor ay isa-isang tinanggal at tingnan kung paano nagbabago ang iba pang mga indicator ng modelo, halimbawa, BIC o Adjusted R-squared, na susuriin sa ibang pagkakataon.

Ang halaga ng Residual standard error ay tumutugma sa isang simpleng pagtatantya ng sigma na may takip, at ang mga antas ng kalayaan ay kinakalkula bilang k-n-1.

At ngayon ang pinakamahalagang istatistika, na nagkakahalaga ng pagtingin sa una sa lahat: R-squared at Adjusted R-squared:

kung saan ang Yi ay ang tunay na halaga ng Y sa bawat pagmamasid, ang Yi na may takip ay ang mga halagang hinulaan ng modelo, ang Y na may bar ay ang average ng lahat ng tunay na halaga ng Yi.

Magsimula tayo sa R-squared statistic, o, kung minsan ay tinatawag itong, ang koepisyent ng determinasyon. Ipinapakita nito kung paano naiiba ang conditional variance ng modelo mula sa variance ng mga totoong value ng Y. Kung ang coefficient na ito ay malapit sa 1, kung gayon ang conditional variance ng modelo ay medyo maliit at malamang na ang modelo ay umaangkop sa maayos ang data. Kung ang R-squared coefficient ay mas mababa, halimbawa, mas mababa sa 0.5, kung gayon, na may mataas na antas ng kumpiyansa, ang modelo ay hindi sumasalamin sa totoong estado ng mga gawain.

Gayunpaman, ang R-squared statistic ay may isang seryosong disbentaha: habang tumataas ang bilang ng mga predictor, maaari lamang tumaas ang istatistikang ito. Samakatuwid, maaaring mukhang mas mahusay ang isang modelo na may mas maraming predictors kaysa sa isang modelo na may mas kaunti, kahit na ang lahat ng bagong predictors ay hindi makakaapekto sa dependent variable. Dito natin maaalala ang prinsipyo ng Occam's razor. Kasunod nito, kung maaari, ito ay nagkakahalaga ng pag-alis ng mga hindi kinakailangang predictors sa modelo, dahil ito ay nagiging mas simple at mas nauunawaan. Para sa mga layuning ito, naimbento ang na-adjust na R-squared statistic. Ito ay isang regular na R-squared, ngunit may parusa para sa isang malaking bilang ng mga predictors. Ang pangunahing ideya: kung ang mga bagong independyenteng variable ay gumawa ng isang malaking kontribusyon sa kalidad ng modelo, ang halaga ng istatistika na ito ay tumataas, kung hindi, pagkatapos ay bumababa ito.

Halimbawa, isaalang-alang ang parehong modelo tulad ng dati, ngunit ngayon sa halip na limang predictor, mag-iiwan kami ng dalawa:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >summary(lm2) Tawag: lm(formula = Species ~ Elevation + Adjacent, data = gala) Nalalabi: Min 1Q Median 3Q Max -103.41 -34.33 -11.43 22.57 203.65 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.43287 15.02469 0.095 0.924727 Elevation 0.27657 0.03176 8.707 2.53e-09 *** Katabi -0.06884 0.06884 0.06889 0.06889 *** -0.06889 0.06889 *** mga code: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Natirang karaniwang error: 60.86 sa 27 degrees ng kalayaan Maramihang R-squared: 0.7376, Naayos na R-squared: 0.7181 F- istatistika: 37.94 sa 2 at 27 DF, p-value: 1.434e-08
Tulad ng nakikita mo, ang halaga ng istatistika ng R-square ay nabawasan, ngunit ang halaga ng na-adjust na R-square ay bahagyang tumaas.

Ngayon subukan natin ang hypothesis na ang lahat ng mga coefficient ng mga predictors ay katumbas ng zero. Iyon ay, ang hypothesis kung ang halaga ng Y sa pangkalahatan ay nakasalalay sa mga halaga ng Xi nang linearly. Upang gawin ito, maaari mong gamitin ang mga sumusunod na istatistika, na, kung ang hypothesis na ang lahat ng mga coefficient ay katumbas ng zero, ay totoo, ay

Multiple correlation coefficient ginamit bilang isang sukatan ng antas ng pagiging malapit ng istatistikal na kaugnayan sa pagitan ng resultang tagapagpahiwatig (dependent variable) y at isang set ng mga paliwanag (independiyente) na mga variable o, sa madaling salita, tinatantya ang lapit ng magkasanib na impluwensya ng mga salik sa resulta.

Ang multiple correlation coefficient ay maaaring kalkulahin mula sa isang bilang ng mga formula 5 , kabilang ang:

    gamit ang matrix ng paired correlation coefficients

, (3.18)

saan  r- determinant ng matrix ng mga ipinares na coefficient ng ugnayan y,
,

r 11 - determinant ng interfactorial correlation matrix
;

. (3.19)

Para sa isang modelo kung saan mayroong dalawang independyenteng mga variable, ang formula (3.18) ay pinasimple

. (3.20)

Ang parisukat ng multiple correlation coefficient ay koepisyent ng pagpapasiya R 2. Tulad ng kaso ng pairwise regression, R 2 ay nagpapahiwatig ng kalidad ng modelo ng regression at sumasalamin sa bahagi ng kabuuang pagkakaiba-iba ng nagresultang katangian y ipinaliwanag sa pamamagitan ng pagbabago ng regression function f(x) (tingnan ang 2.4). Bilang karagdagan, ang koepisyent ng pagpapasiya ay matatagpuan sa pamamagitan ng pormula

. (3.21)

Gayunpaman, ang paggamit R 2 sa kaso ng maramihang regression ay hindi masyadong tama, dahil ang koepisyent ng determinasyon ay tumataas kapag ang mga regressor ay idinagdag sa modelo. Ito ay dahil ang natitirang pagkakaiba ay bumababa kapag ang mga karagdagang variable ay ipinakilala. At kung ang bilang ng mga kadahilanan ay lumalapit sa bilang ng mga obserbasyon, kung gayon ang natitirang pagkakaiba ay magiging zero, at ang maramihang koepisyent ng ugnayan, at samakatuwid ang koepisyent ng pagpapasiya, ay lalapit sa pagkakaisa, bagama't sa katotohanan ang relasyon sa pagitan ng mga kadahilanan at resulta at ang Ang kapangyarihan ng pagpapaliwanag ng equation ng regression ay maaaring mas mababa.

Upang makakuha ng sapat na pagtatasa kung gaano kahusay ang pagkakaiba-iba ng nagresultang katangian ay ipinaliwanag sa pamamagitan ng pagkakaiba-iba ng ilang mga kadahilanang katangian, ilapat nababagay na koepisyent ng determinasyon

(3.22)

Ang adjusted coefficient of determination ay palaging mas mababa R 2. Bukod dito, hindi katulad R 2 na palaging positibo,
maaari ding magkaroon ng negatibong halaga.

Halimbawa (pagpapatuloy ng halimbawa 1). Kalkulahin natin ang multiple correlation coefficient, ayon sa formula (3.20):

Ang halaga ng multiple correlation coefficient, katumbas ng 0.8601, ay nagpapahiwatig ng isang malakas na ugnayan sa pagitan ng halaga ng transportasyon at ang bigat ng kargamento at ang distansya na dinadala nito.

Ang koepisyent ng pagpapasiya ay katumbas ng: R 2 =0,7399.

Ang adjusted coefficient of determination ay kinakalkula ng formula (3.22):

=0,7092.

Tandaan na ang halaga ng adjusted coefficient of determination ay naiiba sa halaga ng coefficient of determination.

Kaya, 70.9% ng variation sa dependent variable (transportation cost) ay ipinaliwanag ng variation sa independent variables (cargo weight at transport distance). Ang natitirang 29.1% ng variation sa dependent variable ay ipinaliwanag ng mga salik na hindi isinasaalang-alang sa modelo.

Ang halaga ng nababagay na koepisyent ng pagpapasiya ay medyo malaki, samakatuwid, nagawa naming isaalang-alang sa modelo ang pinaka makabuluhang mga kadahilanan na tumutukoy sa gastos ng transportasyon. 

Ang pagsusuri ng regression ay isang istatistikal na paraan ng pananaliksik na nagbibigay-daan sa iyong ipakita ang pagtitiwala ng isang parameter sa isa o higit pang mga independiyenteng variable. Sa panahon ng pre-computer, medyo mahirap ang paggamit nito, lalo na pagdating sa malaking halaga ng data. Ngayon, natutunan kung paano bumuo ng regression sa Excel, malulutas mo ang mga kumplikadong problema sa istatistika sa loob lamang ng ilang minuto. Nasa ibaba ang mga tiyak na halimbawa mula sa larangan ng ekonomiya.

Mga uri ng regression

Ang konsepto mismo ay ipinakilala sa matematika noong 1886. Nangyayari ang pagbabalik:

  • linear;
  • parabolic;
  • kapangyarihan;
  • exponential;
  • hyperbolic;
  • demonstrative;
  • logarithmic.

Halimbawa 1

Isaalang-alang ang problema sa pagtukoy ng pag-asa ng bilang ng mga retiradong miyembro ng koponan sa average na suweldo sa 6 na pang-industriya na negosyo.

Gawain. Sa anim na negosyo, sinuri namin ang average na buwanang suweldo at ang bilang ng mga empleyadong umalis sa kanilang sariling kagustuhan. Sa tabular form mayroon kaming:

Ang daming umalis

Ang suweldo

30000 rubles

35000 rubles

40000 rubles

45000 rubles

50000 rubles

55000 rubles

60000 rubles

Para sa problema sa pagtukoy ng pag-asa ng bilang ng mga retiradong manggagawa sa average na suweldo sa 6 na negosyo, ang modelo ng regression ay may anyo ng equation na Y = a 0 + a 1 x 1 +…+a k x k , kung saan ang x i ay ang mga nakakaimpluwensyang variable. , a i ay ang regression coefficients, a k ay ang bilang ng mga salik.

Para sa gawaing ito, ang Y ang tagapagpahiwatig ng mga empleyadong umalis, at ang salik na nakakaimpluwensya ay ang suweldo, na tinutukoy namin ng X.

Gamit ang mga kakayahan ng spreadsheet na "Excel"

Ang pagsusuri ng regression sa Excel ay dapat maunahan ng aplikasyon ng mga built-in na function sa magagamit na data ng tabular. Gayunpaman, para sa mga layuning ito, mas mainam na gamitin ang napakakapaki-pakinabang na add-in na "Analysis Toolkit". Upang i-activate ito kailangan mo:

  • mula sa tab na "File", pumunta sa seksyong "Mga Opsyon";
  • sa window na bubukas, piliin ang linya na "Mga Add-on";
  • mag-click sa pindutang "Go" na matatagpuan sa ibaba, sa kanan ng linya ng "Pamamahala";
  • lagyan ng check ang kahon sa tabi ng pangalang "Analysis Package" at kumpirmahin ang iyong mga aksyon sa pamamagitan ng pag-click sa "OK".

Kung nagawa nang tama ang lahat, lalabas ang gustong button sa kanang bahagi ng tab na Data, na matatagpuan sa itaas ng worksheet ng Excel.

sa Excel

Ngayong nasa kamay na natin ang lahat ng kinakailangang virtual na tool para sa pagsasagawa ng mga kalkulasyon ng ekonomiko, maaari na nating simulan ang paglutas ng ating problema. Para dito:

  • mag-click sa pindutan ng "Pagsusuri ng Data";
  • sa window na bubukas, mag-click sa pindutan ng "Regression";
  • sa tab na lilitaw, ipasok ang hanay ng mga halaga para sa Y (ang bilang ng mga empleyado na huminto) at para sa X (kanilang mga suweldo);
  • Kinukumpirma namin ang aming mga aksyon sa pamamagitan ng pagpindot sa pindutang "Ok".

Bilang resulta, ang programa ay awtomatikong maglalagay ng bagong sheet ng spreadsheet na may data ng pagsusuri ng regression. Tandaan! May kakayahan ang Excel na manu-manong itakda ang lokasyong gusto mo para sa layuning ito. Halimbawa, maaaring pareho itong sheet kung nasaan ang mga halaga ng Y at X, o kahit isang bagong workbook na partikular na idinisenyo upang mag-imbak ng naturang data.

Pagsusuri ng mga resulta ng regression para sa R-square

Sa Excel, ang data na nakuha sa panahon ng pagproseso ng data ng itinuturing na halimbawa ay ganito ang hitsura:

Una sa lahat, dapat mong bigyang-pansin ang halaga ng R-square. Ito ang koepisyent ng determinasyon. Sa halimbawang ito, R-square = 0.755 (75.5%), ibig sabihin, ang mga kinakalkula na parameter ng modelo ay nagpapaliwanag ng ugnayan sa pagitan ng mga isinasaalang-alang na parameter ng 75.5%. Kung mas mataas ang halaga ng koepisyent ng pagpapasiya, mas naaangkop ang napiling modelo para sa isang partikular na gawain. Ito ay pinaniniwalaan na ito ay wastong naglalarawan sa totoong sitwasyon na may R-squared na halaga sa itaas ng 0.8. Kung R-squared<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Pagsusuri ng ratio

Ang bilang na 64.1428 ay nagpapakita kung ano ang magiging halaga ng Y kung ang lahat ng mga variable xi sa modelong ating isinasaalang-alang ay nakatakda sa zero. Sa madaling salita, maaari itong pagtalunan na ang halaga ng nasuri na parameter ay naiimpluwensyahan din ng iba pang mga kadahilanan na hindi inilarawan sa isang partikular na modelo.

Ang susunod na koepisyent -0.16285, na matatagpuan sa cell B18, ay nagpapakita ng bigat ng impluwensya ng variable X sa Y. Nangangahulugan ito na ang average na buwanang suweldo ng mga empleyado sa loob ng modelong isinasaalang-alang ay nakakaapekto sa bilang ng mga umalis na may timbang na -0.16285, i.e. ang antas ng impluwensya nito sa lahat ng maliit. Ang "-" sign ay nagpapahiwatig na ang koepisyent ay may negatibong halaga. Ito ay malinaw, dahil alam ng lahat na mas mataas ang suweldo sa negosyo, mas kaunting mga tao ang nagpapahayag ng pagnanais na wakasan ang kontrata sa pagtatrabaho o huminto.

Maramihang Pagbabalik

Ang terminong ito ay tumutukoy sa isang koneksyon equation na may ilang mga independiyenteng mga variable ng form:

y \u003d f (x 1 + x 2 + ... x m) + ε, kung saan ang y ang mabisang feature (dependent variable), at x 1 , x 2 , ... x m ang mga factor factor (independent variables).

Pagtatantya ng Parameter

Para sa maramihang regression (MR) ito ay isinasagawa gamit ang paraan ng least squares (OLS). Para sa mga linear na equation ng anyong Y = a + b 1 x 1 +…+b m x m + ε, bumuo kami ng isang sistema ng mga normal na equation (tingnan sa ibaba)

Upang maunawaan ang prinsipyo ng pamamaraan, isaalang-alang ang two-factor case. Pagkatapos ay mayroon kaming isang sitwasyon na inilarawan ng formula

Mula dito nakukuha natin ang:

kung saan ang σ ay ang pagkakaiba-iba ng kaukulang tampok na makikita sa index.

Naaangkop ang LSM sa equation ng MP sa isang standardizable na sukat. Sa kasong ito, nakukuha namin ang equation:

kung saan ang t y , t x 1, … t xm ay mga standardized variable kung saan ang mean value ay 0; Ang β i ay ang standardized regression coefficients, at ang standard deviation ay 1.

Pakitandaan na ang lahat ng β i sa kasong ito ay itinakda bilang normalisado at sentralisado, kaya ang kanilang paghahambing sa isa't isa ay itinuturing na tama at tinatanggap. Bilang karagdagan, kaugalian na i-filter ang mga kadahilanan, itapon ang mga may pinakamaliit na halaga ng βi.

Problema sa paggamit ng linear regression equation

Ipagpalagay na mayroong isang talahanayan ng dynamics ng presyo ng isang partikular na produkto N sa nakalipas na 8 buwan. Kinakailangang gumawa ng desisyon sa pagpapayo ng pagbili ng batch nito sa presyong 1850 rubles/t.

numero ng buwan

pangalan ng buwan

presyo ng item N

1750 rubles bawat tonelada

1755 rubles bawat tonelada

1767 rubles bawat tonelada

1760 rubles bawat tonelada

1770 rubles bawat tonelada

1790 rubles bawat tonelada

1810 rubles bawat tonelada

1840 rubles bawat tonelada

Upang malutas ang problemang ito sa Excel spreadsheet, kailangan mong gamitin ang tool sa Pagsusuri ng Data na kilala na mula sa halimbawa sa itaas. Susunod, piliin ang seksyong "Regression" at itakda ang mga parameter. Dapat alalahanin na sa field na "Input Y interval", isang hanay ng mga halaga para sa dependent variable (sa kasong ito, ang presyo ng isang produkto sa mga partikular na buwan ng taon) ay dapat ilagay, at sa "Input X interval" - para sa independiyenteng variable (numero ng buwan). Kumpirmahin ang pagkilos sa pamamagitan ng pag-click sa "Ok". Sa isang bagong sheet (kung ito ay ipinahiwatig na gayon), nakakakuha kami ng data para sa regression.

Batay sa kanila, bumuo kami ng isang linear equation ng form na y=ax+b, kung saan ang mga parameter a at b ay ang mga coefficient ng row na may pangalan ng buwan na numero at mga coefficient at ang "Y-intersection" na hilera mula sa sheet na may mga resulta ng pagsusuri ng regression. Kaya, ang linear regression equation (LE) para sa problema 3 ay nakasulat bilang:

Presyo ng produkto N = 11.714* buwan na numero + 1727.54.

o sa algebraic notation

y = 11.714 x + 1727.54

Pagsusuri ng mga resulta

Upang magpasya kung ang resultang linear regression equation ay sapat, maramihang mga correlation coefficients (MCC) at determination coefficients ang ginagamit, gayundin ang Fisher's test at Student's test. Sa talahanayan ng Excel na may mga resulta ng regression, lumilitaw ang mga ito sa ilalim ng mga pangalan ng maramihang R, R-square, F-statistic at t-statistic, ayon sa pagkakabanggit.

Ginagawang posible ng KMC R na masuri ang higpit ng probabilistikong relasyon sa pagitan ng mga independiyente at umaasa na mga variable. Ang mataas na halaga nito ay nagpapahiwatig ng medyo malakas na ugnayan sa pagitan ng mga variable na "Bilang ng buwan" at "Presyo ng mga kalakal N sa rubles bawat 1 tonelada". Gayunpaman, ang likas na katangian ng relasyon na ito ay nananatiling hindi alam.

Ang parisukat ng coefficient of determination R 2 (RI) ay isang numerical na katangian ng bahagi ng kabuuang scatter at nagpapakita ng scatter ng kung aling bahagi ng pang-eksperimentong data, i.e. ang mga halaga ng dependent variable ay tumutugma sa linear regression equation. Sa problemang isinasaalang-alang, ang halagang ito ay katumbas ng 84.8%, ibig sabihin, ang istatistikal na data ay inilalarawan na may mataas na antas ng katumpakan ng nakuhang SD.

Ang F-statistics, na tinatawag ding Fisher's test, ay ginagamit upang masuri ang kahalagahan ng isang linear na relasyon, pinabulaanan o kinukumpirma ang hypothesis ng pagkakaroon nito.

(Ang pamantayan ng mag-aaral) ay tumutulong upang suriin ang kahalagahan ng koepisyent na may hindi alam o libreng termino ng isang linear na relasyon. Kung ang halaga ng t-criterion > t cr, kung gayon ang hypothesis ng insignificance ng libreng termino ng linear equation ay tinanggihan.

Sa problemang isinasaalang-alang para sa libreng miyembro, gamit ang Excel tool, nakuha na t = 169.20903, at p = 2.89E-12, ibig sabihin, mayroon kaming zero na posibilidad na ang tamang hypothesis tungkol sa kawalang-halaga ng libreng miyembro ay tanggihan. Para sa koepisyent sa hindi kilalang t=5.79405, at p=0.001158. Sa madaling salita, ang posibilidad na ang tamang hypothesis tungkol sa hindi gaanong kahalagahan ng koepisyent para sa hindi alam ay tatanggihan ay 0.12%.

Kaya, maaari itong mapagtatalunan na ang resultang linear regression equation ay sapat.

Ang problema ng pagiging angkop ng pagbili ng isang bloke ng pagbabahagi

Ang maramihang pagbabalik sa Excel ay ginagawa gamit ang parehong tool sa Pagsusuri ng Data. Isaalang-alang ang isang partikular na inilapat na problema.

Ang pamamahala ng NNN ay dapat gumawa ng desisyon sa pagiging advisability ng pagbili ng 20% ​​stake sa MMM SA. Ang halaga ng package (JV) ay 70 milyong US dollars. Ang mga espesyalista sa NNN ay nangolekta ng data sa mga katulad na transaksyon. Napagpasyahan na suriin ang halaga ng bloke ng mga pagbabahagi ayon sa mga naturang parameter, na ipinahayag sa milyun-milyong dolyar ng US, bilang:

  • mga account na dapat bayaran (VK);
  • taunang turnover (VO);
  • account receivable (VD);
  • halaga ng mga fixed asset (SOF).

Bilang karagdagan, ginagamit ang parameter na atraso sa payroll ng enterprise (V3 P) sa libu-libong US dollars.

Solusyon gamit ang Excel spreadsheet

Una sa lahat, kailangan mong lumikha ng isang talahanayan ng paunang data. Mukhang ganito:

  • tawagan ang window ng "Pagsusuri ng Data";
  • piliin ang seksyong "Regression";
  • sa kahon na "Input interval Y" ipasok ang hanay ng mga halaga ng mga dependent variable mula sa column G;
  • mag-click sa icon na may pulang arrow sa kanan ng window ng "Input interval X" at piliin ang hanay ng lahat ng values ​​mula sa mga column B, C, D, F sa sheet.

Piliin ang "Bagong Worksheet" at i-click ang "Ok".

Kunin ang pagsusuri ng regression para sa ibinigay na problema.

Pagsusuri ng mga resulta at konklusyon

"Kinakolekta namin" mula sa nakabilog na data na ipinakita sa itaas sa Excel spreadsheet sheet, ang equation ng regression:

SP \u003d 0.103 * SOF + 0.541 * VO - 0.031 * VK + 0.405 * VD + 0.691 * VZP - 265.844.

Sa isang mas pamilyar na anyo ng matematika, maaari itong isulat bilang:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

Ang data para sa JSC "MMM" ay ipinakita sa talahanayan:

Ang pagpapalit sa kanila sa equation ng regression, makakakuha sila ng figure na 64.72 milyong US dollars. Nangangahulugan ito na ang mga bahagi ng JSC MMM ay hindi dapat bilhin, dahil ang kanilang halaga na 70 milyong US dollars ay medyo overstated.

Gaya ng nakikita mo, ang paggamit ng Excel spreadsheet at ang regression equation ay naging posible upang makagawa ng matalinong desisyon tungkol sa pagiging posible ng isang napaka-espesipikong transaksyon.

Ngayon alam mo na kung ano ang regression. Ang mga halimbawa sa Excel na tinalakay sa itaas ay tutulong sa iyo na malutas ang mga praktikal na problema mula sa larangan ng econometrics.