Pamamaraan ng linear regression sa mga istatistika. Regression sa Excel: equation, mga halimbawa

Ang pagsusuri ng regression ay isang istatistikal na paraan ng pananaliksik na nagbibigay-daan sa iyo upang ipakita ang pagtitiwala ng isang parameter sa isa o higit pang mga independiyenteng variable. Sa panahon ng pre-computer, medyo mahirap ang paggamit nito, lalo na pagdating sa malaking halaga ng data. Ngayon, natutunan kung paano bumuo ng regression sa Excel, malulutas mo ang mga kumplikadong problema sa istatistika sa loob lamang ng ilang minuto. Nasa ibaba ang mga tiyak na halimbawa mula sa larangan ng ekonomiya.

Mga uri ng regression

Ang konsepto mismo ay ipinakilala sa matematika noong 1886. Nangyayari ang pagbabalik:

  • linear;
  • parabolic;
  • kapangyarihan;
  • exponential;
  • hyperbolic;
  • demonstrative;
  • logarithmic.

Halimbawa 1

Isaalang-alang ang problema sa pagtukoy ng pag-asa ng bilang ng mga retiradong miyembro ng koponan sa average na suweldo sa 6 na pang-industriya na negosyo.

Gawain. Sa anim na negosyo, sinuri namin ang average na buwanang suweldo at ang bilang ng mga empleyadong umalis sa kanilang sariling kusa. Sa tabular form mayroon kaming:

Ang daming umalis

Ang suweldo

30000 rubles

35000 rubles

40000 rubles

45000 rubles

50000 rubles

55000 rubles

60000 rubles

Para sa problema sa pagtukoy ng pag-asa ng bilang ng mga retiradong manggagawa sa karaniwang suweldo sa 6 na negosyo, ang modelo ng regression ay may anyo ng equation na Y = a 0 + a 1 x 1 +…+a k x k , kung saan ang x i ay ang mga nakakaimpluwensyang variable. , a i ay ang regression coefficients, a k ay ang bilang ng mga salik.

Para sa gawaing ito, ang Y ang tagapagpahiwatig ng mga empleyadong umalis, at ang salik na nakakaimpluwensya ay ang suweldo, na tinutukoy namin ng X.

Gamit ang mga kakayahan ng spreadsheet na "Excel"

Ang pagsusuri ng regression sa Excel ay dapat maunahan ng aplikasyon ng mga built-in na function sa magagamit na data ng tabular. Gayunpaman, para sa mga layuning ito, mas mainam na gamitin ang napakakapaki-pakinabang na add-in na "Analysis Toolkit". Upang i-activate ito kailangan mo:

  • mula sa tab na "File", pumunta sa seksyong "Mga Opsyon";
  • sa window na bubukas, piliin ang linya na "Mga Add-on";
  • mag-click sa pindutang "Go" na matatagpuan sa ibaba, sa kanan ng linya ng "Pamamahala";
  • lagyan ng check ang kahon sa tabi ng pangalang "Analysis Package" at kumpirmahin ang iyong mga aksyon sa pamamagitan ng pag-click sa "OK".

Kung nagawa nang tama ang lahat, lalabas ang gustong button sa kanang bahagi ng tab na Data, na matatagpuan sa itaas ng worksheet ng Excel.

sa Excel

Ngayong nasa kamay na natin ang lahat ng kinakailangang virtual na tool para sa pagsasagawa ng mga kalkulasyon ng ekonomiko, maaari na nating simulan ang paglutas ng ating problema. Para dito:

  • mag-click sa pindutan ng "Pagsusuri ng Data";
  • sa window na bubukas, mag-click sa pindutan ng "Regression";
  • sa tab na lilitaw, ipasok ang hanay ng mga halaga para sa Y (ang bilang ng mga empleyado na huminto) at para sa X (kanilang mga suweldo);
  • Kinukumpirma namin ang aming mga aksyon sa pamamagitan ng pagpindot sa pindutang "Ok".

Bilang resulta, ang programa ay awtomatikong maglalagay ng bagong sheet ng spreadsheet na may data ng pagsusuri ng regression. Tandaan! May kakayahan ang Excel na manu-manong itakda ang lokasyong gusto mo para sa layuning ito. Halimbawa, maaaring pareho itong sheet kung nasaan ang mga halaga ng Y at X, o kahit isang bagong workbook na partikular na idinisenyo upang mag-imbak ng naturang data.

Pagsusuri ng mga resulta ng regression para sa R-square

Sa Excel, ang data na nakuha sa panahon ng pagproseso ng data ng itinuturing na halimbawa ay ganito ang hitsura:

Una sa lahat, dapat mong bigyang-pansin ang halaga ng R-square. Ito ay ang koepisyent ng pagpapasiya. Sa halimbawang ito, ang R-square = 0.755 (75.5%), ibig sabihin, ang mga kinakalkula na parameter ng modelo ay nagpapaliwanag ng ugnayan sa pagitan ng mga isinasaalang-alang na parameter ng 75.5%. Kung mas mataas ang halaga ng koepisyent ng pagpapasiya, mas naaangkop ang napiling modelo para sa isang partikular na gawain. Ito ay pinaniniwalaan na ito ay wastong naglalarawan sa totoong sitwasyon na may R-squared na halaga sa itaas ng 0.8. Kung R-squared<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Pagsusuri ng ratio

Ang bilang na 64.1428 ay nagpapakita kung ano ang magiging halaga ng Y kung ang lahat ng mga variable xi sa modelong ating isinasaalang-alang ay nakatakda sa zero. Sa madaling salita, maaari itong pagtalunan na ang halaga ng nasuri na parameter ay naiimpluwensyahan din ng iba pang mga kadahilanan na hindi inilarawan sa isang partikular na modelo.

Ang susunod na koepisyent -0.16285, na matatagpuan sa cell B18, ay nagpapakita ng bigat ng impluwensya ng variable X sa Y. Nangangahulugan ito na ang average na buwanang suweldo ng mga empleyado sa loob ng modelong isinasaalang-alang ay nakakaapekto sa bilang ng mga umalis na may timbang na -0.16285, i.e. ang antas ng impluwensya nito sa lahat ng maliit. Ang "-" sign ay nagpapahiwatig na ang koepisyent ay may negatibong halaga. Ito ay malinaw, dahil alam ng lahat na mas mataas ang suweldo sa negosyo, mas kaunting mga tao ang nagpapahayag ng pagnanais na wakasan ang kontrata sa pagtatrabaho o huminto.

Maramihang pagbabalik

Ang terminong ito ay tumutukoy sa isang koneksyon equation na may ilang mga independiyenteng mga variable ng form:

y \u003d f (x 1 + x 2 + ... x m) + ε, kung saan y ang mabisang feature (dependent variable), at x 1 , x 2 , ... x m ay ang factor factor (independent variables).

Pagtatantya ng Parameter

Para sa maramihang regression (MR) ito ay isinasagawa gamit ang paraan ng least squares (OLS). Para sa mga linear na equation ng anyong Y = a + b 1 x 1 +…+b m x m + ε, bumuo kami ng isang sistema ng mga normal na equation (tingnan sa ibaba)

Upang maunawaan ang prinsipyo ng pamamaraan, isaalang-alang ang dalawang-factor na kaso. Pagkatapos ay mayroon kaming isang sitwasyon na inilarawan ng formula

Mula dito nakukuha natin ang:

kung saan ang σ ay ang pagkakaiba-iba ng kaukulang tampok na makikita sa index.

Naaangkop ang LSM sa equation ng MP sa isang standardizable na sukat. Sa kasong ito, nakukuha namin ang equation:

kung saan ang t y , t x 1, … t xm ay mga standardized na variable kung saan ang ibig sabihin ng mga halaga ay 0; Ang β i ay ang standardized regression coefficients, at ang standard deviation ay 1.

Pakitandaan na ang lahat ng β i sa kasong ito ay nakatakda bilang normalisado at sentralisado, kaya ang kanilang paghahambing sa isa't isa ay itinuturing na tama at tinatanggap. Bilang karagdagan, kaugalian na i-filter ang mga kadahilanan, itapon ang mga may pinakamaliit na halaga ng βi.

Problema sa paggamit ng linear regression equation

Ipagpalagay na mayroong isang talahanayan ng dynamics ng presyo ng isang partikular na produkto N sa nakalipas na 8 buwan. Kinakailangang gumawa ng desisyon sa pagiging marapat na bilhin ang batch nito sa presyong 1850 rubles/t.

numero ng buwan

pangalan ng buwan

presyo ng item N

1750 rubles bawat tonelada

1755 rubles bawat tonelada

1767 rubles bawat tonelada

1760 rubles bawat tonelada

1770 rubles bawat tonelada

1790 rubles bawat tonelada

1810 rubles bawat tonelada

1840 rubles bawat tonelada

Upang malutas ang problemang ito sa Excel spreadsheet, kailangan mong gamitin ang tool sa Pagsusuri ng Data na kilala na mula sa halimbawa sa itaas. Susunod, piliin ang seksyong "Regression" at itakda ang mga parameter. Dapat alalahanin na sa field na "Input Y interval", isang hanay ng mga halaga para sa dependent variable (sa kasong ito, ang presyo ng isang produkto sa mga partikular na buwan ng taon) ay dapat ilagay, at sa "Input X interval" - para sa independiyenteng variable (numero ng buwan). Kumpirmahin ang pagkilos sa pamamagitan ng pag-click sa "Ok". Sa isang bagong sheet (kung ito ay ipinahiwatig na gayon), nakakakuha kami ng data para sa regression.

Batay sa kanila, bumuo kami ng isang linear equation ng form na y=ax+b, kung saan ang mga parameter a at b ay ang mga coefficient ng row na may pangalan ng buwan na numero at ang mga coefficient at ang "Y-intersection" na hilera mula sa sheet na may mga resulta ng pagsusuri ng regression. Kaya, ang linear regression equation (LE) para sa problema 3 ay nakasulat bilang:

Presyo ng produkto N = 11.714* buwan na numero + 1727.54.

o sa algebraic notation

y = 11.714 x + 1727.54

Pagsusuri ng mga resulta

Upang magpasya kung ang resultang linear regression equation ay sapat, maramihang mga correlation coefficients (MCC) at determination coefficients ang ginagamit, gayundin ang Fisher's test at Student's test. Sa talahanayan ng Excel na may mga resulta ng regression, lumilitaw ang mga ito sa ilalim ng mga pangalan ng maramihang R, R-square, F-statistic at t-statistic, ayon sa pagkakabanggit.

Ginagawang posible ng KMC R na masuri ang higpit ng probabilistikong relasyon sa pagitan ng mga independiyente at umaasa na mga variable. Ang mataas na halaga nito ay nagpapahiwatig ng isang medyo malakas na ugnayan sa pagitan ng mga variable na "Bilang ng buwan" at "Presyo ng mga kalakal N sa rubles bawat 1 tonelada". Gayunpaman, ang likas na katangian ng relasyon na ito ay nananatiling hindi alam.

Ang parisukat ng coefficient of determination R 2 (RI) ay isang numerical na katangian ng bahagi ng kabuuang scatter at nagpapakita ng scatter ng kung aling bahagi ng pang-eksperimentong data, i.e. ang mga halaga ng dependent variable ay tumutugma sa linear regression equation. Sa problemang isinasaalang-alang, ang halagang ito ay katumbas ng 84.8%, ibig sabihin, ang istatistikal na data ay inilalarawan na may mataas na antas ng katumpakan ng nakuhang SD.

Ang F-statistics, na tinatawag ding Fisher's test, ay ginagamit upang masuri ang kahalagahan ng isang linear na relasyon, pinabulaanan o kinukumpirma ang hypothesis ng pagkakaroon nito.

(Ang criterion ng mag-aaral) ay tumutulong upang suriin ang kahalagahan ng koepisyent na may hindi alam o libreng termino ng isang linear na relasyon. Kung ang halaga ng t-criterion > t cr, kung gayon ang hypothesis ng insignificance ng libreng termino ng linear equation ay tinanggihan.

Sa problemang isinasaalang-alang para sa libreng miyembro, gamit ang Excel tool, nakuha na t = 169.20903, at p = 2.89E-12, ibig sabihin, mayroon kaming zero na posibilidad na ang tamang hypothesis tungkol sa kawalang-halaga ng libreng miyembro ay tanggihan. Para sa koepisyent sa hindi kilalang t=5.79405, at p=0.001158. Sa madaling salita, ang posibilidad na ang tamang hypothesis tungkol sa hindi gaanong kahalagahan ng koepisyent para sa hindi alam ay tatanggihan ay 0.12%.

Kaya, maaari itong mapagtatalunan na ang resultang linear regression equation ay sapat.

Ang problema ng pagiging angkop ng pagbili ng isang bloke ng pagbabahagi

Ang maramihang pagbabalik sa Excel ay ginagawa gamit ang parehong tool sa Pagsusuri ng Data. Isaalang-alang ang isang partikular na inilapat na problema.

Ang pamunuan ng NNN ay dapat gumawa ng desisyon sa advisability ng pagbili ng 20% ​​stake sa MMM SA. Ang halaga ng package (JV) ay 70 milyong US dollars. Ang mga espesyalista sa NNN ay nangolekta ng data sa mga katulad na transaksyon. Napagpasyahan na suriin ang halaga ng bloke ng mga pagbabahagi ayon sa mga naturang parameter, na ipinahayag sa milyun-milyong dolyar ng US, bilang:

  • mga account na dapat bayaran (VK);
  • taunang turnover (VO);
  • account receivable (VD);
  • halaga ng mga fixed asset (SOF).

Bilang karagdagan, ginagamit ang parameter na atraso sa payroll ng enterprise (V3 P) sa libu-libong US dollars.

Solusyon gamit ang Excel spreadsheet

Una sa lahat, kailangan mong lumikha ng isang talahanayan ng paunang data. Mukhang ganito:

  • tawagan ang window ng "Pagsusuri ng Data";
  • piliin ang seksyong "Regression";
  • sa kahon na "Input interval Y" ipasok ang hanay ng mga halaga ng mga dependent variable mula sa column G;
  • mag-click sa icon na may pulang arrow sa kanan ng window ng "Input interval X" at piliin ang hanay ng lahat ng values ​​mula sa mga column B, C, D, F sa sheet.

Piliin ang "Bagong Worksheet" at i-click ang "Ok".

Kunin ang pagsusuri ng regression para sa ibinigay na problema.

Pagsusuri ng mga resulta at konklusyon

"Kinakolekta namin" mula sa nakabilog na data na ipinakita sa itaas sa Excel spreadsheet sheet, ang equation ng regression:

SP \u003d 0.103 * SOF + 0.541 * VO - 0.031 * VK + 0.405 * VD + 0.691 * VZP - 265.844.

Sa isang mas pamilyar na anyo ng matematika, maaari itong isulat bilang:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

Ang data para sa JSC "MMM" ay ipinakita sa talahanayan:

Ang pagpapalit sa kanila sa equation ng regression, makakakuha sila ng figure na 64.72 milyong US dollars. Nangangahulugan ito na ang mga bahagi ng JSC MMM ay hindi dapat bilhin, dahil ang kanilang halaga na 70 milyong US dollars ay medyo overstated.

Gaya ng nakikita mo, ang paggamit ng Excel spreadsheet at ang regression equation ay naging posible upang makagawa ng matalinong desisyon tungkol sa pagiging posible ng isang napaka-espesipikong transaksyon.

Ngayon alam mo na kung ano ang regression. Ang mga halimbawa sa Excel na tinalakay sa itaas ay tutulong sa iyo na malutas ang mga praktikal na problema mula sa larangan ng econometrics.

Ang pagsusuri ng regression ay sumasailalim sa paglikha ng karamihan sa mga modelong pang-ekonomiko, na dapat isama ang mga modelo ng pagtatantya ng gastos. Upang bumuo ng mga modelo ng pagpapahalaga, ang pamamaraang ito ay maaaring gamitin kung ang bilang ng mga analogue (maihahambing na mga bagay) at ang bilang ng mga salik ng gastos (mga elemento ng paghahambing) ay magkakaugnay sa bawat isa tulad ng sumusunod: P> (5 -g-10) x sa, mga. dapat mayroong 5-10 beses na higit pang mga analogue kaysa sa mga kadahilanan sa gastos. Ang parehong kinakailangan para sa ratio ng dami ng data at ang bilang ng mga kadahilanan ay nalalapat sa iba pang mga gawain: pagtatatag ng isang relasyon sa pagitan ng gastos at mga parameter ng consumer ng isang bagay; pagbibigay-katwiran sa pamamaraan para sa pagkalkula ng mga indeks ng pagwawasto; paglilinaw ng mga uso sa presyo; pagtatatag ng isang relasyon sa pagitan ng pagsusuot at mga pagbabago sa mga salik na nakakaimpluwensya; pagkuha ng mga dependency para sa pagkalkula ng mga pamantayan ng gastos, atbp. Ang katuparan ng kinakailangang ito ay kinakailangan upang mabawasan ang posibilidad na magtrabaho kasama ang isang sample ng data na hindi nakakatugon sa pangangailangan ng normal na distribusyon ng mga random na variable.

Ang ugnayan ng regression ay sumasalamin lamang sa average na takbo ng resultang variable, gaya ng gastos, mula sa mga pagbabago sa isa o higit pang factor na variable, gaya ng lokasyon, bilang ng mga kuwarto, lugar, sahig, atbp. Ito ang pagkakaiba sa pagitan ng isang regression na relasyon at isang functional, kung saan ang halaga ng resultang variable ay mahigpit na tinukoy para sa isang naibigay na halaga ng mga factor variable.

Ang pagkakaroon ng relasyon ng regression / sa pagitan ng resulta sa at mga variable na salik x p ..., x k(mga salik) ay nagpapahiwatig na ang kaugnayang ito ay natutukoy hindi lamang sa pamamagitan ng impluwensya ng mga napiling salik na mga variable, kundi pati na rin ng impluwensya ng mga variable, ang ilan sa mga ito ay karaniwang hindi kilala, ang iba ay hindi maaaring masuri at isinasaalang-alang:

Ang impluwensya ng hindi natukoy na mga variable ay tinutukoy ng pangalawang termino ng equation na ito ?, na tinatawag na error sa pagtatantya.

Mayroong mga sumusunod na uri ng mga dependency ng regression:

  • ? paired regression - ang relasyon sa pagitan ng dalawang variable (resulta at factorial);
  • ? multiple regression - ang dependence ng isang resultang variable at dalawa o higit pang factor variable na kasama sa pag-aaral.

Ang pangunahing gawain ng pagsusuri ng regression ay upang mabilang ang lapit ng relasyon sa pagitan ng mga variable (sa paired regression) at maramihang mga variable (sa multiple regression). Ang higpit ng relasyon ay sinusukat ng koepisyent ng ugnayan.

Ang paggamit ng pagsusuri ng regression ay nagbibigay-daan sa iyo upang maitaguyod ang pattern ng impluwensya ng mga pangunahing kadahilanan (hedonic na katangian) sa tagapagpahiwatig na pinag-aaralan, kapwa sa kanilang kabuuan at bawat isa sa kanila nang paisa-isa. Sa tulong ng pagsusuri ng regression, bilang isang paraan ng mga istatistika ng matematika, posible, una, upang mahanap at ilarawan ang anyo ng analytical dependence ng resultang (nais) variable sa mga factorial at, pangalawa, upang tantiyahin ang pagiging malapit ng itong pagtitiwala.

Sa pamamagitan ng paglutas ng unang problema, ang isang mathematical regression model ay nakuha, sa tulong ng kung saan ang nais na tagapagpahiwatig ay pagkatapos ay kinakalkula para sa ibinigay na mga halaga ng kadahilanan. Ang solusyon ng pangalawang problema ay ginagawang posible upang maitaguyod ang pagiging maaasahan ng kinakalkula na resulta.

Kaya, ang pagsusuri ng regression ay maaaring tukuyin bilang isang hanay ng mga pormal (matematika) na pamamaraan na idinisenyo upang sukatin ang higpit, direksyon at analytical na pagpapahayag ng anyo ng ugnayan sa pagitan ng mga resulta at mga variable na kadahilanan, i.e. ang output ng naturang pagsusuri ay dapat na isang structurally at quantitatively na tinukoy na istatistikal na modelo ng form:

saan y - ang average na halaga ng resultang variable (ang nais na tagapagpahiwatig, halimbawa, gastos, upa, rate ng capitalization). P kanyang mga obserbasyon; x ay ang halaga ng factor variable (/-th cost factor); sa - bilang ng mga variable na kadahilanan.

Function f(x l ,...,x lc), na naglalarawan ng dependence ng resultang variable sa mga factorial ay tinatawag na regression equation (function). Ang terminong "regression" (regression (lat.) - retreat, return to something) ay nauugnay sa mga detalye ng isa sa mga tiyak na gawain na nalutas sa yugto ng pagbuo ng pamamaraan, at kasalukuyang hindi sumasalamin sa buong kakanyahan ng paraan, ngunit patuloy na ginagamit.

Ang pagsusuri ng regression sa pangkalahatan ay kinabibilangan ng mga sumusunod na hakbang:

  • ? pagbuo ng isang sample ng mga homogenous na bagay at koleksyon ng paunang impormasyon tungkol sa mga bagay na ito;
  • ? pagpili ng mga pangunahing salik na nakakaimpluwensya sa resultang variable;
  • ? sinusuri ang sample para sa normalidad gamit X 2 o binomial na pamantayan;
  • ? pagtanggap ng hypothesis tungkol sa anyo ng komunikasyon;
  • ? mathematical data processing;
  • ? pagkuha ng modelo ng regression;
  • ? pagtatasa ng mga istatistikal na tagapagpahiwatig nito;
  • ? mga kalkulasyon sa pagpapatunay gamit ang isang modelo ng regression;
  • ? pagsusuri ng mga resulta.

Ang tinukoy na pagkakasunud-sunod ng mga operasyon ay nagaganap sa pag-aaral ng parehong pares na relasyon sa pagitan ng isang factor variable at isang resultang variable, at isang maramihang relasyon sa pagitan ng resultang variable at ilang factor variable.

Ang paggamit ng pagsusuri ng regression ay nagpapataw ng ilang mga kinakailangan sa paunang impormasyon:

  • ? isang istatistikal na sample ng mga bagay ay dapat na homogenous sa functional at constructive-technological terms;
  • ? medyo marami;
  • ? ang tagapagpahiwatig ng gastos sa ilalim ng pag-aaral - ang resultang variable (presyo, gastos, gastos) - ay dapat na bawasan sa parehong mga kondisyon para sa pagkalkula nito para sa lahat ng mga bagay sa sample;
  • ? ang mga variable na kadahilanan ay dapat na sukatin nang tumpak;
  • ? ang mga variable na kadahilanan ay dapat na independyente o minimally dependent.

Ang mga kinakailangan para sa homogeneity at pagkakumpleto ng sample ay magkasalungat: mas mahigpit na ang pagpili ng mga bagay ay isinasagawa ayon sa kanilang homogeneity, mas maliit ang sample, at, sa kabaligtaran, upang palakihin ang sample, kinakailangang isama ang mga bagay na ay hindi masyadong katulad sa isa't isa.

Matapos makolekta ang data para sa isang pangkat ng mga homogenous na bagay, sinusuri ang mga ito upang maitatag ang anyo ng ugnayan sa pagitan ng mga resulta at factor na variable sa anyo ng isang teoretikal na linya ng regression. Ang proseso ng paghahanap ng isang theoretical regression line ay binubuo sa isang makatwirang pagpili ng isang approximating curve at pagkalkula ng mga coefficient ng equation nito. Ang linya ng regression ay isang makinis na curve (sa isang partikular na kaso, isang tuwid na linya) na naglalarawan, gamit ang isang mathematical function, ang pangkalahatang trend ng pag-asa sa ilalim ng pag-aaral at pinapakinis ang mga hindi regular, random na outlier mula sa impluwensya ng mga side factor.

Upang ipakita ang mga nakapares na mga dependency ng regression sa mga gawain sa pagtatasa, ang mga sumusunod na function ay kadalasang ginagamit: linear - y - a 0 + ars + s kapangyarihan - y - aj&i + c nagpapakita - y - linear exponential - y - a 0 + ar * + s. dito - e error sa pagtatantya dahil sa pagkilos ng hindi natukoy para sa mga random na kadahilanan.

Sa mga function na ito, ang y ay ang nagresultang variable; x - variable na kadahilanan (factor); a 0 , a r a 2 - mga parameter ng regression model, regression coefficients.

Ang linear exponential model ay kabilang sa klase ng tinatawag na hybrid models ng form:

saan

kung saan ang x (i = 1, /) - mga halaga ng mga kadahilanan;

b t (i = 0, /) ay ang mga coefficient ng regression equation.

Sa equation na ito, ang mga bahagi A, B at Z tumutugma sa halaga ng mga indibidwal na bahagi ng asset na pinahahalagahan, halimbawa, ang halaga ng isang land plot at ang halaga ng mga pagpapabuti, at ang parameter Q pangkaraniwan. Ito ay idinisenyo upang isaayos ang halaga ng lahat ng bahagi ng asset na pinahahalagahan para sa isang karaniwang salik na nakakaimpluwensya, gaya ng lokasyon.

Ang mga halaga ng mga kadahilanan na nasa antas ng kaukulang mga coefficient ay binary variable (0 o 1). Ang mga salik na nasa base ng antas ay discrete o tuloy-tuloy na mga variable.

Ang mga salik na nauugnay sa mga multiplication sign coefficient ay tuloy-tuloy o discrete din.

Ang pagtutukoy ay isinasagawa, bilang panuntunan, gamit ang isang empirical na diskarte at may kasamang dalawang yugto:

  • ? paglalagay ng mga punto ng patlang ng regression sa graph;
  • ? graphical (visual) na pagsusuri ng uri ng isang posibleng approximating curve.

Ang uri ng regression curve ay hindi palaging napipili kaagad. Upang matukoy ito, ang mga punto ng field ng regression ay unang naka-plot sa graph ayon sa paunang data. Pagkatapos ang isang linya ay biswal na iginuhit sa kahabaan ng posisyon ng mga puntos, sinusubukang malaman ang husay na pattern ng relasyon: pare-parehong paglaki o pare-parehong pagbaba, paglago (pagbaba) na may pagtaas (pagbaba) sa rate ng dinamika, isang maayos na diskarte sa isang tiyak na antas.

Ang empirical na diskarte na ito ay kinukumpleto ng lohikal na pagsusuri, simula sa mga kilalang ideya tungkol sa pang-ekonomiya at pisikal na katangian ng mga pinag-aralan na mga kadahilanan at ang kanilang impluwensya sa isa't isa.

Halimbawa, alam na ang mga dependency ng mga nagresultang variable - mga tagapagpahiwatig ng ekonomiya (mga presyo, upa) sa isang bilang ng mga variable na kadahilanan - mga kadahilanan na bumubuo ng presyo (distansya mula sa sentro ng pag-areglo, lugar, atbp.) ay hindi linear. , at maaari silang ilarawan nang mahigpit sa pamamagitan ng isang power, exponential o quadratic function . Ngunit sa maliliit na hanay ng mga salik, maaari ding makuha ang mga katanggap-tanggap na resulta gamit ang isang linear na function.

Kung imposible pa rin na agad na gumawa ng isang kumpiyansa na pagpili ng anumang isang function, pagkatapos ay dalawa o tatlong mga function ang napili, ang kanilang mga parameter ay kinakalkula, at pagkatapos, gamit ang naaangkop na pamantayan para sa higpit ng koneksyon, ang function ay sa wakas ay napili.

Sa teorya, ang proseso ng regression ng paghahanap ng hugis ng isang kurba ay tinatawag espesipikasyon modelo, at mga coefficient nito - pagkakalibrate mga modelo.

Kung napag-alaman na ang resultang variable y ay nakasalalay sa ilang factorial variables (factors) x ( , x 2 , ..., x k, pagkatapos ay gumawa sila ng maraming modelo ng regression. Karaniwan, tatlong paraan ng maramihang komunikasyon ang ginagamit: linear - y - a 0 + a x x x + a^x 2 + ... + a k x k, nagpapakita - y - a 0 a*i a x t- a x b, kapangyarihan - y - isang 0 x x ix 2 a 2. .x^ o mga kumbinasyon nito.

Ang mga exponential at exponential function ay mas pangkalahatan, dahil tinatantya nila ang mga non-linear na relasyon, na siyang karamihan sa mga dependence na pinag-aralan sa pagtatasa. Bilang karagdagan, maaari silang magamit sa pagsusuri ng mga bagay at sa paraan ng pagmomolde ng istatistika para sa pagsusuri ng masa, at sa paraan ng direktang paghahambing sa indibidwal na pagsusuri kapag nagtatatag ng mga kadahilanan ng pagwawasto.

Sa yugto ng pagkakalibrate, ang mga parameter ng modelo ng regression ay kinakalkula ng hindi bababa sa mga parisukat na pamamaraan, ang kakanyahan nito ay ang kabuuan ng mga parisukat na paglihis ng mga kinakalkula na halaga ng nagresultang variable. sa., ibig sabihin. kinakalkula ayon sa napiling equation ng kaugnayan, mula sa aktwal na mga halaga ay dapat na minimal:

Mga halaga j) (. at y. kilala, samakatuwid Q ay isang function ng mga coefficient lamang ng equation. Upang mahanap ang minimum S kumuha ng mga partial derivatives Q sa pamamagitan ng mga coefficient ng equation at i-equate ang mga ito sa zero:

Bilang resulta, nakakakuha tayo ng isang sistema ng mga normal na equation, ang bilang nito ay katumbas ng bilang ng mga natukoy na coefficient ng nais na regression equation.

Ipagpalagay na kailangan nating hanapin ang mga coefficient ng linear equation y - isang 0 + ars. Ang kabuuan ng mga squared deviations ay:

/=1

Ibahin ang pagkakaiba ng isang function Q sa pamamagitan ng hindi kilalang coefficient isang 0 at at equate ang mga partial derivatives sa zero:

Pagkatapos ng mga pagbabagong-anyo nakukuha namin:

saan P - bilang ng mga orihinal na aktwal na halaga sa kanila (ang bilang ng mga analogue).

Ang pamamaraan sa itaas para sa pagkalkula ng mga coefficient ng regression equation ay naaangkop din para sa nonlinear dependencies, kung ang mga dependency na ito ay maaaring linearized, i.e. dalhin sa isang linear na anyo gamit ang pagbabago ng mga variable. Ang mga power at exponential function pagkatapos kumuha ng logarithm at ang kaukulang pagbabago ng mga variable ay nakakakuha ng linear form. Halimbawa, ang isang power function pagkatapos kumuha ng logarithm ay may anyo: Sa y \u003d 1n 0 +a x 1ph. Pagkatapos ng pagbabago ng mga variable Y- Sa y, L 0 - Sa at Hindi. X- Sa x nakakakuha tayo ng linear function

Y=A0 + cijX, na ang mga coefficient ay matatagpuan tulad ng inilarawan sa itaas.

Ginagamit din ang paraan ng least squares para kalkulahin ang mga coefficient ng isang multiple regression model. Kaya, ang sistema ng mga normal na equation para sa pagkalkula ng isang linear function na may dalawang variable Xj at x 2 pagkatapos ng serye ng mga pagbabago, ganito ang hitsura:

Karaniwan ang sistemang ito ng mga equation ay nilulutas gamit ang mga linear algebra na pamamaraan. Ang isang multiple power function ay dinadala sa isang linear form sa pamamagitan ng pagkuha ng logarithms at pagpapalit ng mga variable sa parehong paraan tulad ng isang ipinares na power function.

Kapag gumagamit ng mga hybrid na modelo, ang maramihang mga coefficient ng regression ay matatagpuan gamit ang mga numerical na pamamaraan ng paraan ng sunud-sunod na pagtatantya.

Upang makagawa ng isang pangwakas na pagpipilian sa ilang mga equation ng regression, kinakailangan upang subukan ang bawat equation para sa higpit ng relasyon, na sinusukat ng koepisyent ng ugnayan, pagkakaiba, at koepisyent ng pagkakaiba-iba. Para sa pagsusuri, maaari mo ring gamitin ang pamantayan ng Mag-aaral at Fisher. Ang mas malaki ang higpit ng koneksyon ay nagpapakita ng curve, mas kanais-nais ito, lahat ng iba pang mga bagay ay pantay.

Kung ang isang problema ng naturang klase ay nalutas, kapag kinakailangan upang maitaguyod ang pag-asa ng isang tagapagpahiwatig ng gastos sa mga kadahilanan ng gastos, kung gayon ang pagnanais na isaalang-alang ang maraming mga kadahilanan na nakakaimpluwensya hangga't maaari at sa gayon ay bumuo ng isang mas tumpak na modelo ng multiple regression ay naiintindihan. Gayunpaman, ang dalawang layunin na limitasyon ay humahadlang sa pagpapalawak ng bilang ng mga kadahilanan. Una, ang pagbuo ng maramihang regression na modelo ay nangangailangan ng mas malaking sample ng mga bagay kaysa sa pagbuo ng isang nakapares na modelo. Karaniwang tinatanggap na ang bilang ng mga bagay sa sample ay dapat lumampas sa bilang P mga kadahilanan, hindi bababa sa 5-10 beses. Ito ay sumusunod na upang makabuo ng isang modelo na may tatlong nakakaimpluwensyang mga kadahilanan, kinakailangan upang mangolekta ng isang sample ng humigit-kumulang 20 mga bagay na may iba't ibang mga hanay ng mga halaga ng kadahilanan. Pangalawa, ang mga salik na pinili para sa modelo sa kanilang impluwensya sa tagapagpahiwatig ng halaga ay dapat na sapat na independyente sa bawat isa. Ito ay hindi madaling tiyakin, dahil ang sample ay karaniwang pinagsasama ang mga bagay na kabilang sa parehong pamilya, kung saan mayroong regular na pagbabago sa maraming mga kadahilanan mula sa bagay patungo sa bagay.

Karaniwang sinusubok ang kalidad ng mga modelo ng regression gamit ang mga sumusunod na istatistika.

Standard deviation ng regression equation error (error sa pagtatantya):

saan P - laki ng sample (bilang ng mga analogue);

sa - bilang ng mga kadahilanan (mga kadahilanan sa gastos);

Error na hindi maipaliwanag ng regression equation (Fig. 3.2);

y. - ang aktwal na halaga ng resultang variable (halimbawa, gastos); y t - kinakalkula na halaga ng resultang variable.

Ang tagapagpahiwatig na ito ay tinatawag din karaniwang error ng pagtatantya (RMS error). Sa figure, ang mga tuldok ay nagpapahiwatig ng mga tiyak na halaga ng sample, ang simbolo ay nagpapahiwatig ng linya ng ibig sabihin ng mga halaga ng sample, ang hilig na dash-dotted na linya ay ang regression line.


kanin. 3.2.

Ang karaniwang paglihis ng error sa pagtatantya ay sumusukat sa dami ng paglihis ng mga aktwal na halaga ng y mula sa kaukulang mga kinakalkulang halaga. sa( , nakuha gamit ang modelo ng regression. Kung ang sample kung saan binuo ang modelo ay napapailalim sa normal na batas sa pamamahagi, kung gayon maaari itong maitalo na 68% ng mga tunay na halaga sa ay nasa hanay sa ± & e mula sa linya ng regression, at 95% - sa hanay sa ± 2d e. Ang tagapagpahiwatig na ito ay maginhawa dahil ang mga yunit ng sukat sg? tumugma sa mga yunit ng pagsukat sa,. Kaugnay nito, maaari itong magamit upang ipahiwatig ang katumpakan ng resulta na nakuha sa proseso ng pagsusuri. Halimbawa, sa isang sertipiko ng halaga, maaari mong ipahiwatig na ang halaga ng halaga ng merkado na nakuha gamit ang modelo ng regression V na may posibilidad na 95% ay nasa hanay mula sa (V-2d,.) dati (sa + 2ds).

Coefficient ng variation ng resultang variable:

saan y - ang ibig sabihin ng halaga ng resultang variable (Figure 3.2).

Sa pagsusuri ng regression, ang coefficient ng variation var ay ang standard deviation ng resulta, na ipinahayag bilang isang porsyento ng mean ng variable na resulta. Ang koepisyent ng pagkakaiba-iba ay maaaring magsilbing kriterya para sa mga predictive na katangian ng resultang modelo ng regression: mas maliit ang halaga var, mas mataas ang mga predictive na katangian ng modelo. Ang paggamit ng koepisyent ng variation ay mas mainam kaysa sa exponent &e, dahil ito ay isang relatibong exponent. Sa praktikal na paggamit ng tagapagpahiwatig na ito, maaaring irekomenda na huwag gumamit ng isang modelo na ang koepisyent ng pagkakaiba-iba ay lumampas sa 33%, dahil sa kasong ito ay hindi masasabi na ang mga sample na ito ay napapailalim sa normal na batas sa pamamahagi.

Koepisyent ng determinasyon (multiple correlation coefficient squared):

Ginagamit ang indicator na ito upang pag-aralan ang pangkalahatang kalidad ng resultang modelo ng regression. Ito ay nagpapahiwatig kung anong porsyento ng pagkakaiba-iba sa resultang variable ay dahil sa impluwensya ng lahat ng mga variable na kadahilanan na kasama sa modelo. Ang determination coefficient ay palaging nasa hanay mula sa zero hanggang isa. Kung mas malapit ang halaga ng koepisyent ng pagpapasiya sa pagkakaisa, mas mahusay na inilalarawan ng modelo ang orihinal na serye ng data. Ang koepisyent ng pagpapasiya ay maaaring kinakatawan sa ibang paraan:

Narito ang error na ipinaliwanag ng modelo ng regression,

a - error na hindi maipaliwanag

modelo ng regression. Mula sa isang pang-ekonomiyang punto ng view, ginagawang posible ng criterion na ito na hatulan kung anong porsyento ng pagkakaiba-iba ng presyo ang ipinaliwanag ng equation ng regression.

Ang eksaktong limitasyon sa pagtanggap ng indicator R2 imposibleng tukuyin para sa lahat ng kaso. Ang laki ng sample at ang makabuluhang interpretasyon ng equation ay dapat isaalang-alang. Bilang isang patakaran, kapag nag-aaral ng data sa mga bagay ng parehong uri, nakuha sa humigit-kumulang sa parehong oras, ang halaga R2 ay hindi lalampas sa antas ng 0.6-0.7. Kung ang lahat ng mga error sa hula ay zero, ibig sabihin. kapag ang ugnayan sa pagitan ng mga resultang variable at kadahilanan ay gumagana, kung gayon R2 =1.

Inayos na koepisyent ng determinasyon:

Ang pangangailangan upang ipakilala ang isang nababagay na koepisyent ng pagpapasiya ay ipinaliwanag sa pamamagitan ng katotohanan na sa isang pagtaas sa bilang ng mga kadahilanan sa ang karaniwang koepisyent ng determinasyon ay halos palaging tumataas, ngunit ang bilang ng mga antas ng kalayaan ay bumababa (n - k- isa). Ang adjustment na ipinasok ay palaging binabawasan ang halaga R2, sa abot ng (P - 1) > (n- sa - isa). Bilang resulta, ang halaga R 2 CKOf) maaaring maging negatibo. Nangangahulugan ito na ang halaga R2 ay malapit sa zero bago ang pagsasaayos at ang proporsyon ng pagkakaiba ay ipinaliwanag ng equation ng regression ng variable sa napakaliit.

Sa dalawang bersyon ng mga modelo ng regression na naiiba sa halaga ng adjusted coefficient of determination, ngunit may parehong mahusay na iba pang pamantayan sa kalidad, ang variant na may malaking halaga ng adjusted coefficient of determination ay mas gusto. Ang koepisyent ng determinasyon ay hindi nababagay kung (n - k): k> 20.

Fisher ratio:

Ang criterion na ito ay ginagamit upang masuri ang kahalagahan ng determination coefficient. Natirang kabuuan ng mga parisukat ay isang sukatan ng error sa paghula gamit ang isang regression ng mga kilalang halaga ng gastos sa.. Ang paghahambing nito sa regression sum ng mga parisukat ay nagpapakita kung gaano karaming beses na hinuhulaan ng regression dependence ang resulta na mas mahusay kaysa sa mean. sa. Mayroong talahanayan ng mga kritikal na halaga F R Fisher coefficient depende sa bilang ng mga antas ng kalayaan ng numerator - sa, denominator v 2 = p - k- 1 at antas ng kahalagahan a. Kung ang kinakalkula na halaga ng Fisher criterion F R ay mas malaki kaysa sa halaga ng talahanayan, pagkatapos ay ang hypothesis ng insignificance ng coefficient of determination, i.e. tungkol sa pagkakaiba sa pagitan ng mga relasyon na naka-embed sa regression equation at ang mga talagang umiiral, na may posibilidad na p = 1 - a ay tinanggihan.

Average na error sa pagtatantya(average na porsyento ng paglihis) ay kinakalkula bilang ang average na kamag-anak na pagkakaiba, na ipinahayag bilang isang porsyento, sa pagitan ng aktwal at kinakalkula na mga halaga ng resultang variable:

Kung mas mababa ang halaga ng indicator na ito, mas mahusay ang predictive na kalidad ng modelo. Kapag ang halaga ng tagapagpahiwatig na ito ay hindi mas mataas sa 7%, ipinapahiwatig nila ang mataas na katumpakan ng modelo. Kung ang 8 > 15%, ipahiwatig ang hindi kasiya-siyang katumpakan ng modelo.

Standard error ng regression coefficient:

kung saan (/I) -1 .- dayagonal na elemento ng matris (X G X) ~ 1 hanggang - bilang ng mga kadahilanan;

X- matrix ng mga variable na halaga ng factor:

X7- transposed matrix ng mga halaga ng mga variable na kadahilanan;

(JL) _| ay isang matrix na kabaligtaran sa isang matrix.

Kung mas maliit ang mga markang ito para sa bawat coefficient ng regression, mas maaasahan ang pagtatantya ng kaukulang coefficient ng regression.

Pagsusulit ng mag-aaral (t-statistics):

Ang pamantayang ito ay nagpapahintulot sa iyo na sukatin ang antas ng pagiging maaasahan (kabuluhan) ng relasyon dahil sa isang naibigay na koepisyent ng pagbabalik. Kung ang kinakalkula na halaga t. mas malaki kaysa sa halaga ng talahanayan

t av , saan v - p - k - Ang 1 ay ang bilang ng mga antas ng kalayaan, pagkatapos ay ang hypothesis na ang koepisyent na ito ay hindi gaanong mahalaga sa istatistika ay tinanggihan na may posibilidad na (100 - a)%. May mga espesyal na talahanayan ng /-distribution na ginagawang posible upang matukoy ang kritikal na halaga ng criterion sa pamamagitan ng isang naibigay na antas ng kahalagahan a at ang bilang ng mga antas ng kalayaan v. Ang pinakakaraniwang ginagamit na halaga ng a ay 5%.

Multicollinearity, ibig sabihin. ang epekto ng mutual na ugnayan sa pagitan ng mga variable na salik ay humahantong sa pangangailangan na maging kontento sa limitadong bilang ng mga ito. Kung hindi ito isinasaalang-alang, maaari kang magkaroon ng isang hindi makatwirang modelo ng regression. Upang maiwasan ang negatibong epekto ng multicollinearity, bago bumuo ng isang modelo ng maramihang regression, kinakalkula ang mga coefficient ng ugnayan ng pares. rxjxj sa pagitan ng mga napiling variable X. at X

Dito XjX; - ibig sabihin ng halaga ng produkto ng dalawang factorial variable;

XjXj- ang produkto ng average na halaga ng dalawang variable na kadahilanan;

Pagsusuri ng pagkakaiba ng factor variable x..

Ang dalawang variable ay itinuturing na regressively related (i.e., collinear) kung ang kanilang pairwise correlation coefficient ay mahigpit na mas mataas sa 0.8 sa absolute value. Sa kasong ito, ang alinman sa mga variable na ito ay dapat na hindi kasama sa pagsasaalang-alang.

Upang mapalawak ang mga posibilidad ng pagsusuri sa ekonomiya ng mga resultang modelo ng regression, ginagamit ang mga average coefficients ng elasticity, tinutukoy ng formula:

saan Xj- ibig sabihin ng halaga ng kaukulang salik na variable;

y - ibig sabihin ng halaga ng resultang variable; a ako - regression coefficient para sa kaukulang factor variable.

Ang elasticity coefficient ay nagpapakita kung gaano karaming porsyento ang halaga ng resultang variable ay magbabago sa average kapag ang factor variable ay nagbago ng 1%, i.e. kung paano tumutugon ang resultang variable sa isang pagbabago sa factor variable. Halimbawa, paano ang presyo ng sq. m lugar ng apartment sa layo mula sa sentro ng lungsod.

Kapaki-pakinabang mula sa punto ng view ng pagsusuri sa kahalagahan ng isang partikular na koepisyent ng regression ay ang pagtatantya pribadong koepisyent ng pagpapasiya:

Narito ang pagtatantya ng pagkakaiba ng resulta

variable. Ipinapakita ng coefficient na ito kung gaano karaming porsyento ang variation ng resultang variable ay ipinaliwanag ng variation ng /-th factor variable na kasama sa regression equation.

  • Ang mga hedonic na katangian ay ang mga katangian ng isang bagay na sumasalamin sa mga kapaki-pakinabang (mahalaga) na katangian nito mula sa punto ng view ng mga mamimili at nagbebenta.

Pagbabalik at pagsusuri ng ugnayan - istatistikal na pamamaraan ng pananaliksik. Ito ang mga pinakakaraniwang paraan upang ipakita ang pagtitiwala ng isang parameter sa isa o higit pang mga independiyenteng variable.

Sa ibaba, gamit ang mga konkretong praktikal na halimbawa, isasaalang-alang natin ang dalawang napakasikat na pagsusuring ito sa mga ekonomista. Magbibigay din kami ng halimbawa ng pagkuha ng mga resulta kapag pinagsama ang mga ito.

Pagsusuri ng Pagbabalik sa Excel

Ipinapakita ang impluwensya ng ilang mga halaga (independiyente, independyente) sa umaasa na variable. Halimbawa, kung paano nakadepende ang bilang ng aktibong populasyon sa ekonomiya sa bilang ng mga negosyo, sahod, at iba pang mga parameter. O: paano nakakaapekto ang mga dayuhang pamumuhunan, presyo ng enerhiya, atbp. sa antas ng GDP.

Ang resulta ng pagsusuri ay nagpapahintulot sa iyo na unahin. At batay sa pangunahing mga kadahilanan, upang mahulaan, planuhin ang pag-unlad ng mga priyoridad na lugar, gumawa ng mga desisyon sa pamamahala.

Nangyayari ang pagbabalik:

  • linear (y = a + bx);
  • parabolic (y = a + bx + cx 2);
  • exponential (y = a * exp(bx));
  • kapangyarihan (y = a*x^b);
  • hyperbolic (y = b/x + a);
  • logarithmic (y = b * 1n(x) + a);
  • exponential (y = a * b^x).

Isaalang-alang ang halimbawa ng pagbuo ng isang regression model sa Excel at pagbibigay-kahulugan sa mga resulta. Kumuha tayo ng linear na uri ng regression.

Gawain. Sa 6 na negosyo, nasuri ang average na buwanang suweldo at ang bilang ng mga empleyadong umalis. Ito ay kinakailangan upang matukoy ang pag-asa ng bilang ng mga retiradong empleyado sa average na suweldo.

Ang linear regression model ay may sumusunod na anyo:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Kung saan ang a ay ang mga coefficient ng regression, ang x ay ang mga variable na nakakaimpluwensya, at ang k ay ang bilang ng mga salik.

Sa aming halimbawa, ang Y ay ang tagapagpahiwatig ng huminto sa mga manggagawa. Ang salik na nakakaimpluwensya ay sahod (x).

Ang Excel ay may mga built-in na function na maaaring magamit upang kalkulahin ang mga parameter ng isang linear regression model. Ngunit gagawin ito ng Add-in ng Analysis ToolPak nang mas mabilis.

I-activate ang isang mahusay na tool sa pagsusuri:

Kapag na-activate na, magiging available ang add-on sa ilalim ng tab na Data.

Ngayon ay direktang haharapin natin ang pagsusuri ng regression.



Una sa lahat, binibigyang pansin natin ang R-square at coefficients.

Ang R-square ay ang koepisyent ng determinasyon. Sa aming halimbawa, ito ay 0.755, o 75.5%. Nangangahulugan ito na ang mga kinakalkula na parameter ng modelo ay nagpapaliwanag ng ugnayan sa pagitan ng mga pinag-aralan na parameter ng 75.5%. Kung mas mataas ang koepisyent ng pagpapasiya, mas mahusay ang modelo. Mabuti - higit sa 0.8. Mahina - mas mababa sa 0.5 (ang ganitong pagsusuri ay halos hindi maituturing na makatwiran). Sa aming halimbawa - "hindi masama".

Ang koepisyent na 64.1428 ay nagpapakita kung ano ang magiging Y kung ang lahat ng mga variable sa modelong isinasaalang-alang ay katumbas ng 0. Ibig sabihin, ang ibang mga kadahilanan na hindi inilarawan sa modelo ay nakakaapekto rin sa halaga ng nasuri na parameter.

Ang koepisyent -0.16285 ay nagpapakita ng bigat ng variable X sa Y. Ibig sabihin, ang average na buwanang suweldo sa loob ng modelong ito ay nakakaapekto sa bilang ng mga umalis na may timbang na -0.16285 (ito ay isang maliit na antas ng impluwensya). Ang sign na "-" ay nagpapahiwatig ng isang negatibong epekto: mas mataas ang suweldo, mas mababa ang pag-quit. Alin ang patas.



Pagsusuri ng ugnayan sa Excel

Ang pagsusuri ng ugnayan ay nakakatulong upang maitaguyod kung mayroong kaugnayan sa pagitan ng mga tagapagpahiwatig sa isa o dalawang sample. Halimbawa, sa pagitan ng oras ng pagpapatakbo ng makina at ang halaga ng pag-aayos, ang presyo ng kagamitan at ang tagal ng operasyon, ang taas at bigat ng mga bata, atbp.

Kung mayroong isang relasyon, kung ang pagtaas sa isang parameter ay humahantong sa isang pagtaas (positibong ugnayan) o pagbaba (negatibo) sa isa pa. Ang pagsusuri ng ugnayan ay tumutulong sa analyst na matukoy kung ang halaga ng isang tagapagpahiwatig ay maaaring mahulaan ang posibleng halaga ng isa pa.

Ang koepisyent ng ugnayan ay tinutukoy na r. Nag-iiba mula +1 hanggang -1. Magiiba ang klasipikasyon ng mga ugnayan para sa iba't ibang lugar. Kapag ang coefficient value ay 0, walang linear na relasyon sa pagitan ng mga sample.

Isaalang-alang kung paano gamitin ang Excel upang mahanap ang koepisyent ng ugnayan.

Ang CORREL function ay ginagamit upang mahanap ang mga ipinares na coefficient.

Gawain: Tukuyin kung may kaugnayan sa pagitan ng oras ng pagpapatakbo ng isang lathe at ang halaga ng pagpapanatili nito.

Ilagay ang cursor sa anumang cell at pindutin ang fx button.

  1. Sa kategoryang "Statistical," piliin ang CORREL function.
  2. Argumentong "Array 1" - ang unang hanay ng mga halaga - ang oras ng makina: A2: A14.
  3. Argumentong "Array 2" - ang pangalawang hanay ng mga halaga - ang halaga ng pag-aayos: B2:B14. I-click ang OK.

Upang matukoy ang uri ng koneksyon, kailangan mong tingnan ang ganap na bilang ng koepisyent (bawat larangan ng aktibidad ay may sariling sukat).

Para sa pagsusuri ng ugnayan ng ilang mga parameter (higit sa 2), mas maginhawang gamitin ang "Pagsusuri ng Data" ("Analysis Package" add-on). Sa listahan, kailangan mong pumili ng ugnayan at magtalaga ng array. Lahat.

Ang mga resultang coefficient ay ipapakita sa correlation matrix. Tulad ng isang ito:

Pagsusuri ng ugnayan-pagbabalik

Sa pagsasagawa, ang dalawang pamamaraan na ito ay madalas na ginagamit nang magkasama.

Halimbawa:


Ngayon ang data ng pagsusuri ng regression ay makikita.

Ano ang regression?

Isaalang-alang ang dalawang tuluy-tuloy na variable x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Ilagay natin ang mga punto sa isang 2D scatter plot at sabihin na mayroon tayo linear na relasyon kung ang data ay tinatantya ng isang tuwid na linya.

Kung ipagpalagay natin iyon y depende sa x, at ang mga pagbabago sa y sanhi ng mga pagbabago sa x, maaari nating tukuyin ang isang linya ng regression (regression y sa x), na pinakamahusay na naglalarawan sa tuwid na linyang relasyon sa pagitan ng dalawang variable na ito.

Ang istatistikal na paggamit ng salitang "regression" ay nagmula sa isang phenomenon na kilala bilang regression to the mean, na iniuugnay kay Sir Francis Galton (1889).

Ipinakita niya na habang ang matatangkad na ama ay may posibilidad na magkaroon ng matatangkad na anak na lalaki, ang karaniwang taas ng mga anak na lalaki ay mas maliit kaysa sa kanilang matatangkad na ama. Ang average na taas ng mga anak na lalaki ay "bumalik" at "lumipat pabalik" sa karaniwang taas ng lahat ng mga ama sa populasyon. Kaya, sa karaniwan, ang matatangkad na ama ay may mas maikli (ngunit matatangkad pa rin) na mga anak na lalaki, at ang mga maiikling ama ay may mas matatangkad (ngunit mas maikli pa rin) na mga anak na lalaki.

linya ng regression

Mathematical equation na sinusuri ang isang simple (pairwise) linear regression line:

x tinatawag na independent variable o predictor.

Y ay ang dependent o response variable. Ito ang halaga na inaasahan natin y(sa karaniwan) kung alam natin ang halaga x, ibig sabihin. ay ang hinulaang halaga y»

  • a- libreng miyembro (tawid) ng linya ng pagsusuri; ang halagang ito Y, kailan x=0(Larawan 1).
  • b- slope o gradient ng tinantyang linya; ito ay ang halaga kung saan Y tataas sa karaniwan kung tataas tayo x para sa isang unit.
  • a at b ay tinatawag na mga regression coefficient ng tinantyang linya, bagaman ang terminong ito ay kadalasang ginagamit lamang para sa b.

Ang pairwise linear regression ay maaaring palawigin upang maisama ang higit sa isang independent variable; sa kasong ito ito ay kilala bilang maramihang pagbabalik.

Fig.1. Linear regression line na nagpapakita ng intersection ng a at ang slope b (ang halaga ng pagtaas sa Y kapag ang x ay tumaas ng isang yunit)

Pinakamababang parisukat na paraan

Nagsasagawa kami ng pagsusuri ng regression gamit ang isang sample ng mga obserbasyon kung saan a at b- mga sample na pagtatantya ng totoong (pangkalahatang) parameter, α at β , na tumutukoy sa linya ng linear regression sa populasyon (pangkalahatang populasyon).

Ang pinakasimpleng paraan para sa pagtukoy ng mga coefficient a at b ay isang hindi bababa sa parisukat na paraan(MNK).

Sinusuri ang akma sa pamamagitan ng pagsasaalang-alang sa mga nalalabi (ang patayong distansya ng bawat punto mula sa linya, hal. nalalabi = napapansin y- hinulaang y, Bigas. 2).

Ang linya ng pinakamahusay na akma ay pinili upang ang kabuuan ng mga parisukat ng mga nalalabi ay minimal.

kanin. 2. Linear regression line na may mga itinatanghal na residual (vertical dotted lines) para sa bawat punto.

Linear Regression Assumptions

Kaya, para sa bawat naobserbahang halaga, ang nalalabi ay katumbas ng pagkakaiba at ang katumbas na hinulaang isa. Ang bawat nalalabi ay maaaring positibo o negatibo.

Maaari kang gumamit ng mga nalalabi upang subukan ang mga sumusunod na pagpapalagay sa likod ng linear regression:

  • Ang mga nalalabi ay karaniwang ipinamamahagi na may zero mean;

Kung ang mga pagpapalagay ng linearity, normality, at/o pare-parehong pagkakaiba ay kaduda-dudang, maaari nating baguhin o at kalkulahin ang isang bagong linya ng regression kung saan ang mga pagpapalagay na ito ay nasiyahan (hal., gumamit ng logarithmic transformation, atbp.).

Mga abnormal na halaga (outlier) at mga punto ng impluwensya

Ang isang "maimpluwensyang" obserbasyon, kung aalisin, ay nagbabago ng isa o higit pang mga pagtatantya ng parameter ng modelo (ibig sabihin, slope o intercept).

Ang isang outlier (isang obserbasyon na sumasalungat sa karamihan ng mga halaga sa set ng data) ay maaaring maging isang "maimpluwensyang" obserbasyon at maaaring makitang mabuti kapag tumitingin sa isang 2D na scatterplot o isang plot ng mga nalalabi.

Parehong para sa mga outlier at para sa "maimpluwensyang" mga obserbasyon (mga puntos), ang mga modelo ay ginagamit, kapwa kasama ang kanilang pagsasama at wala ang mga ito, bigyang-pansin ang pagbabago sa pagtatantya (regression coefficients).

Kapag gumagawa ng pagsusuri, huwag awtomatikong itapon ang mga outlier o impluwensyahan ang mga punto, dahil ang pagbalewala lang sa mga ito ay maaaring makaapekto sa mga resulta. Palaging pag-aralan ang mga sanhi ng mga outlier na ito at suriin ang mga ito.

Linear regression hypothesis

Kapag gumagawa ng linear regression, ang null hypothesis ay sinusuri na ang pangkalahatang slope ng regression line β ay katumbas ng zero.

Kung ang slope ng linya ay zero, walang linear na ugnayan sa pagitan ng at: hindi makakaapekto ang pagbabago

Upang subukan ang null hypothesis na ang tunay na slope ay zero, maaari mong gamitin ang sumusunod na algorithm:

Kalkulahin ang istatistika ng pagsubok na katumbas ng ratio , na sumusunod sa isang distribusyon na may mga antas ng kalayaan, kung saan ang karaniwang error ng coefficient


,

- pagtatantya ng pagkakaiba-iba ng mga nalalabi.

Karaniwan, kung ang naabot na antas ng kahalagahan ay tinatanggihan ang null hypothesis.


kung saan ang porsyento ng punto ng pamamahagi na may mga antas ng kalayaan na nagbibigay ng posibilidad ng isang dalawang-tailed na pagsubok

Ito ang pagitan na naglalaman ng pangkalahatang slope na may posibilidad na 95%.

Para sa malalaking sample, sabihin nating maaari nating tantiyahin na may halaga na 1.96 (iyon ay, ang istatistika ng pagsubok ay malamang na maipamahagi nang normal)

Pagsusuri ng kalidad ng linear regression: koepisyent ng determinasyon R 2

Dahil sa linear na relasyon at inaasahan namin na nagbabago bilang mga pagbabago , at tinatawag namin itong variation na dahil sa o ipinaliwanag ng regression. Ang natitirang variation ay dapat kasing liit hangga't maaari.

Kung gayon, kung gayon ang karamihan sa pagkakaiba-iba ay ipapaliwanag ng regression, at ang mga puntos ay malapit sa linya ng regression, i.e. ang linya ay angkop sa data.

Ang proporsyon ng kabuuang pagkakaiba na ipinaliwanag ng regression ay tinatawag koepisyent ng pagpapasiya, karaniwang ipinapahayag bilang isang porsyento at denoted R2(sa ipinares na linear regression, ito ang value r2, ang parisukat ng koepisyent ng ugnayan), ay nagbibigay-daan sa iyo upang masuri ang kalidad ng equation ng regression.

Ang pagkakaiba ay ang porsyento ng pagkakaiba na hindi maipaliwanag ng regression.

Nang walang pormal na pagsubok na susuriin, napipilitan kaming umasa sa pansariling paghatol upang matukoy ang kalidad ng akma ng linya ng regression.

Paglalapat ng Regression Line sa isang Pagtataya

Maaari kang gumamit ng linya ng regression upang mahulaan ang isang halaga mula sa isang halaga sa loob ng naobserbahang hanay (huwag mag-extrapolate nang lampas sa mga limitasyong ito).

Hinuhulaan namin ang mean para sa mga observable na may tiyak na halaga sa pamamagitan ng pagpapalit ng halagang iyon sa equation ng regression line.

Kaya, kung hinuhulaan bilang Ginagamit namin ang hinulaang halaga na ito at ang karaniwang error nito upang tantyahin ang agwat ng kumpiyansa para sa tunay na ibig sabihin ng populasyon.

Ang pag-uulit ng pamamaraang ito para sa iba't ibang mga halaga ay nagbibigay-daan sa iyo na bumuo ng mga limitasyon ng kumpiyansa para sa linyang ito. Ito ay isang banda o lugar na naglalaman ng totoong linya, halimbawa, na may 95% na antas ng kumpiyansa.

Mga simpleng plano ng regression

Ang mga simpleng disenyo ng regression ay naglalaman ng isang tuluy-tuloy na predictor. Kung mayroong 3 kaso na may predictor value P , tulad ng 7, 4 at 9, at ang disenyo ay may kasamang first order effect P , ang design matrix X ay magiging

at ang regression equation gamit ang P para sa X1 ay kamukha

Y = b0 + b1 P

Kung ang isang simpleng disenyo ng regression ay naglalaman ng mas mataas na pagkakasunod-sunod na epekto sa P , tulad ng isang quadratic na epekto, ang mga halaga sa column X1 sa design matrix ay itataas sa pangalawang kapangyarihan:

at ang equation ay kukuha ng anyo

Y = b0 + b1 P2

Sigma-restricted at overparameterized coding na mga pamamaraan ay hindi nalalapat sa mga simpleng disenyo ng regression at iba pang mga disenyo na naglalaman lamang ng tuluy-tuloy na mga predictor (dahil walang mga kategoryang predictor). Anuman ang napiling paraan ng pag-encode, ang mga halaga ng tuluy-tuloy na mga variable ay dinadagdagan ng naaangkop na kapangyarihan at ginagamit bilang mga halaga para sa mga variable na X. Sa kasong ito, walang conversion na ginagawa. Bilang karagdagan, kapag naglalarawan ng mga plano ng regression, maaari mong alisin ang pagsasaalang-alang sa plan matrix X, at gagana lamang sa equation ng regression.

Halimbawa: Simple Regression Analysis

Ginagamit ng halimbawang ito ang data na ibinigay sa talahanayan:

kanin. 3. Talaan ng inisyal na datos.

Ang data ay batay sa isang paghahambing ng 1960 at 1970 censuses sa 30 random na piniling mga county. Ang mga pangalan ng county ay kinakatawan bilang mga pangalan ng pagmamasid. Ang impormasyon tungkol sa bawat variable ay ipinakita sa ibaba:

kanin. 4. Talahanayan ng pagtutukoy ng variable.

Layunin ng pananaliksik

Para sa halimbawang ito, susuriin ang ugnayan sa pagitan ng poverty rate at ng kapangyarihan na hinuhulaan ang porsyento ng mga pamilyang nasa ibaba ng poverty line. Samakatuwid, ituturing namin ang variable 3 (Pt_Poor ) bilang isang dependent variable.

Maaaring maglagay ng hypothesis: ang pagbabago sa populasyon at ang porsyento ng mga pamilyang nasa ibaba ng linya ng kahirapan ay magkakaugnay. Tila makatwirang asahan na ang kahirapan ay humahantong sa paglabas ng populasyon, kaya magkakaroon ng negatibong ugnayan sa pagitan ng porsyento ng mga taong nasa ibaba ng linya ng kahirapan at pagbabago ng populasyon. Samakatuwid, ituturing namin ang variable 1 (Pop_Chng ) bilang isang predictor variable.

Tingnan ang Mga Resulta

Mga coefficient ng regression

kanin. 5. Regression coefficients Pt_Poor sa Pop_Chng.

Sa intersection ng Pop_Chng row at Param. ang non-standardized na koepisyent para sa regression ng Pt_Poor sa Pop_Chng ay -0.40374 . Nangangahulugan ito na sa bawat yunit ng pagbaba ng populasyon, mayroong pagtaas sa antas ng kahirapan na .40374. Ang upper at lower (default) na 95% na limitasyon ng kumpiyansa para sa hindi pamantayang koepisyent na ito ay hindi kasama ang zero, kaya ang regression coefficient ay makabuluhan sa p level<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Pamamahagi ng mga variable

Ang mga correlation coefficient ay maaaring maging labis na labis na tantiyahin o maliitin kung mayroong malalaking outlier sa data. Suriin natin ang distribusyon ng dependent variable na Pt_Poor ayon sa county. Upang gawin ito, bubuo kami ng histogram ng variable na Pt_Poor.

kanin. 6. Histogram ng variable na Pt_Poor.

Tulad ng makikita mo, ang distribusyon ng variable na ito ay kapansin-pansing naiiba sa normal na distribusyon. Gayunpaman, kahit na kahit na ang dalawang county (ang kanang-kamay na dalawang hanay) ay may mas mataas na porsyento ng mga pamilya na nasa ibaba ng linya ng kahirapan kaysa sa inaasahan sa isang normal na pamamahagi, lumilitaw na sila ay "nasa loob ng hanay."

kanin. 7. Histogram ng variable na Pt_Poor.

Ang paghatol na ito ay medyo subjective. Ang panuntunan ng thumb ay ang mga outlier ay dapat isaalang-alang kung ang isang obserbasyon (o mga obserbasyon) ay hindi pasok sa pagitan (mean ± 3 beses na karaniwang paglihis). Sa kasong ito, sulit na ulitin ang pagsusuri nang may at walang mga outlier upang matiyak na wala silang malubhang epekto sa ugnayan sa pagitan ng mga miyembro ng populasyon.

Scatterplot

Kung ang isa sa mga hypotheses ay isang priori tungkol sa relasyon sa pagitan ng mga ibinigay na variable, kung gayon ito ay kapaki-pakinabang upang suriin ito sa plot ng kaukulang scatterplot.

kanin. 8. Scatterplot.

Ang scatterplot ay nagpapakita ng malinaw na negatibong ugnayan (-.65) sa pagitan ng dalawang variable. Ipinapakita rin nito ang 95% na agwat ng kumpiyansa para sa linya ng pagbabalik, ibig sabihin, na may 95% na posibilidad na ang linya ng pagbabalik ay dumaan sa pagitan ng dalawang putol-putol na kurba.

Pamantayan sa kahalagahan

kanin. 9. Talahanayan na naglalaman ng pamantayan ng kahalagahan.

Ang pagsubok para sa koepisyent ng pagbabalik ng Pop_Chng ay nagpapatunay na ang Pop_Chng ay malakas na nauugnay sa Pt_Poor , p<.001 .

kinalabasan

Ang halimbawang ito ay nagpakita kung paano pag-aralan ang isang simpleng plano ng regression. Ang isang interpretasyon ng hindi pamantayan at standardized na mga coefficient ng regression ay ipinakita din. Ang kahalagahan ng pag-aaral ng distribusyon ng tugon ng dependent variable ay tinalakay, at isang pamamaraan para sa pagtukoy ng direksyon at lakas ng relasyon sa pagitan ng predictor at ng dependent variable ay ipinapakita.