Hakbang-hakbang na pagsusuri ng regression. Mga Batayan ng Linear Regression

Pagbabalik at pagsusuri ng ugnayan - istatistikal na pamamaraan ng pananaliksik. Ito ang mga pinakakaraniwang paraan upang ipakita ang pagtitiwala ng isang parameter sa isa o higit pang mga independiyenteng variable.

Sa ibaba, gamit ang mga konkretong praktikal na halimbawa, isasaalang-alang natin ang dalawang napakasikat na pagsusuring ito sa mga ekonomista. Magbibigay din kami ng halimbawa ng pagkuha ng mga resulta kapag pinagsama ang mga ito.

Pagsusuri ng Pagbabalik sa Excel

Ipinapakita ang impluwensya ng ilang mga halaga (independiyente, independyente) sa umaasa na variable. Halimbawa, kung paano nakadepende ang bilang ng aktibong populasyon sa ekonomiya sa bilang ng mga negosyo, sahod, at iba pang mga parameter. O: paano nakakaapekto ang mga dayuhang pamumuhunan, presyo ng enerhiya, atbp. sa antas ng GDP.

Ang resulta ng pagsusuri ay nagpapahintulot sa iyo na unahin. At batay sa pangunahing mga kadahilanan, upang mahulaan, planuhin ang pag-unlad ng mga priyoridad na lugar, gumawa ng mga desisyon sa pamamahala.

Nangyayari ang pagbabalik:

  • linear (y = a + bx);
  • parabolic (y = a + bx + cx 2);
  • exponential (y = a * exp(bx));
  • kapangyarihan (y = a*x^b);
  • hyperbolic (y = b/x + a);
  • logarithmic (y = b * 1n(x) + a);
  • exponential (y = a * b^x).

Isaalang-alang ang halimbawa ng pagbuo ng isang regression model sa Excel at pagbibigay-kahulugan sa mga resulta. Kumuha tayo ng linear na uri ng regression.

Gawain. Sa 6 na negosyo, nasuri ang average na buwanang suweldo at ang bilang ng mga empleyadong umalis. Ito ay kinakailangan upang matukoy ang pag-asa ng bilang ng mga retiradong empleyado sa average na suweldo.

Ang linear regression model ay may sumusunod na anyo:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Kung saan ang a ay ang mga coefficient ng regression, ang x ay ang mga variable na nakakaimpluwensya, at ang k ay ang bilang ng mga salik.

Sa aming halimbawa, ang Y ay ang tagapagpahiwatig ng huminto sa mga manggagawa. Ang salik na nakakaimpluwensya ay sahod (x).

Ang Excel ay may mga built-in na function na maaaring magamit upang kalkulahin ang mga parameter ng isang linear regression model. Ngunit gagawin ito ng Add-in ng Analysis ToolPak nang mas mabilis.

I-activate ang isang mahusay na tool sa pagsusuri:

Kapag na-activate na, magiging available ang add-on sa ilalim ng tab na Data.

Ngayon ay direktang haharapin natin ang pagsusuri ng regression.



Una sa lahat, binibigyang pansin natin ang R-square at coefficients.

Ang R-square ay ang koepisyent ng determinasyon. Sa aming halimbawa, ito ay 0.755, o 75.5%. Nangangahulugan ito na ang mga kinakalkula na parameter ng modelo ay nagpapaliwanag ng ugnayan sa pagitan ng mga pinag-aralan na parameter ng 75.5%. Kung mas mataas ang koepisyent ng pagpapasiya, mas mahusay ang modelo. Mabuti - higit sa 0.8. Mahina - mas mababa sa 0.5 (ang ganitong pagsusuri ay halos hindi maituturing na makatwiran). Sa aming halimbawa - "hindi masama".

Ang koepisyent na 64.1428 ay nagpapakita kung ano ang magiging Y kung ang lahat ng mga variable sa modelong isinasaalang-alang ay katumbas ng 0. Ibig sabihin, ang ibang mga kadahilanan na hindi inilarawan sa modelo ay nakakaapekto rin sa halaga ng nasuri na parameter.

Ang koepisyent -0.16285 ay nagpapakita ng bigat ng variable X sa Y. Ibig sabihin, ang average na buwanang suweldo sa loob ng modelong ito ay nakakaapekto sa bilang ng mga umalis na may timbang na -0.16285 (ito ay isang maliit na antas ng impluwensya). Ang sign na "-" ay nagpapahiwatig ng isang negatibong epekto: mas mataas ang suweldo, mas mababa ang pag-quit. Alin ang patas.



Pagsusuri ng ugnayan sa Excel

Ang pagsusuri ng ugnayan ay nakakatulong upang maitaguyod kung mayroong kaugnayan sa pagitan ng mga tagapagpahiwatig sa isa o dalawang sample. Halimbawa, sa pagitan ng oras ng pagpapatakbo ng makina at ang halaga ng pag-aayos, ang presyo ng kagamitan at ang tagal ng operasyon, ang taas at bigat ng mga bata, atbp.

Kung mayroong isang relasyon, kung ang pagtaas sa isang parameter ay humahantong sa isang pagtaas (positibong ugnayan) o pagbaba (negatibo) sa isa pa. Ang pagsusuri ng ugnayan ay tumutulong sa analyst na matukoy kung ang halaga ng isang tagapagpahiwatig ay maaaring mahulaan ang posibleng halaga ng isa pa.

Ang koepisyent ng ugnayan ay tinutukoy na r. Nag-iiba mula +1 hanggang -1. Magiiba ang klasipikasyon ng mga ugnayan para sa iba't ibang lugar. Kapag ang coefficient value ay 0, walang linear na relasyon sa pagitan ng mga sample.

Isaalang-alang kung paano gamitin ang Excel upang mahanap ang koepisyent ng ugnayan.

Ang CORREL function ay ginagamit upang mahanap ang mga ipinares na coefficient.

Gawain: Tukuyin kung may kaugnayan sa pagitan ng oras ng pagpapatakbo ng isang lathe at ang halaga ng pagpapanatili nito.

Ilagay ang cursor sa anumang cell at pindutin ang fx button.

  1. Sa kategoryang "Statistical," piliin ang CORREL function.
  2. Argumentong "Array 1" - ang unang hanay ng mga halaga - ang oras ng makina: A2: A14.
  3. Argumentong "Array 2" - ang pangalawang hanay ng mga halaga - ang halaga ng pag-aayos: B2:B14. I-click ang OK.

Upang matukoy ang uri ng koneksyon, kailangan mong tingnan ang ganap na bilang ng koepisyent (bawat larangan ng aktibidad ay may sariling sukat).

Para sa pagsusuri ng ugnayan ng ilang mga parameter (higit sa 2), mas maginhawang gamitin ang "Pagsusuri ng Data" ("Analysis Package" add-on). Sa listahan, kailangan mong pumili ng ugnayan at magtalaga ng array. Lahat.

Ang mga resultang coefficient ay ipapakita sa correlation matrix. Tulad ng isang ito:

Pagsusuri ng ugnayan-pagbabalik

Sa pagsasagawa, ang dalawang pamamaraan na ito ay madalas na ginagamit nang magkasama.

Halimbawa:


Ngayon ang data ng pagsusuri ng regression ay makikita.

Sa statistical modeling, ang regression analysis ay isang pag-aaral na ginagamit upang suriin ang relasyon sa pagitan ng mga variable. Kasama sa mathematical method na ito ang maraming iba pang mga pamamaraan para sa pagmomodelo at pagsusuri ng maraming variable kapag ang focus ay sa relasyon sa pagitan ng dependent variable at isa o higit pang independent variable. Higit na partikular, tinutulungan ka ng pagsusuri ng regression na maunawaan kung paano nagbabago ang karaniwang halaga ng dependent variable kung nagbabago ang isa sa mga independent variable habang ang iba pang independent variable ay nananatiling maayos.

Sa lahat ng kaso, ang target na marka ay isang function ng mga independiyenteng variable at tinatawag na regression function. Sa pagsusuri ng regression, interesante ding ilarawan ang pagbabago sa dependent variable bilang isang function ng regression, na maaaring ilarawan gamit ang probability distribution.

Mga gawain ng pagsusuri ng regression

Ang pamamaraang ito ng istatistikal na pananaliksik ay malawakang ginagamit para sa pagtataya, kung saan ang paggamit nito ay may malaking kalamangan, ngunit kung minsan ay maaari itong humantong sa ilusyon o maling relasyon, kaya inirerekomenda na gamitin ito nang mabuti sa tanong na ito, dahil, halimbawa, ang ugnayan ay hindi nangangahulugang sanhi.

Ang isang malaking bilang ng mga pamamaraan ay binuo para sa pagsasagawa ng regression analysis, tulad ng linear at ordinary least squares regression, na parametric. Ang kanilang kakanyahan ay ang regression function ay tinukoy sa mga tuntunin ng isang tiyak na bilang ng mga hindi kilalang parameter na tinatantya mula sa data. Binibigyang-daan ng nonparametric regression ang function nito na magsinungaling sa isang tiyak na hanay ng mga function, na maaaring walang katapusan-dimensional.

Bilang isang istatistikal na paraan ng pananaliksik, ang pagsusuri ng regression sa pagsasanay ay nakasalalay sa anyo ng proseso ng pagbuo ng data at kung paano ito nauugnay sa diskarte sa pagbabalik. Dahil ang tunay na anyo ng pagbuo ng proseso ng data ay karaniwang isang hindi kilalang numero, ang pagsusuri ng regression ng data ay kadalasang nakadepende sa ilang lawak sa mga pagpapalagay tungkol sa proseso. Ang mga pagpapalagay na ito ay minsan nasusubok kung mayroong sapat na data na magagamit. Ang mga modelo ng regression ay kadalasang kapaki-pakinabang kahit na ang mga pagpapalagay ay katamtamang nilalabag, bagama't maaaring hindi sila gumanap sa kanilang pinakamahusay.

Sa isang mas makitid na kahulugan, ang regression ay maaaring partikular na tumutukoy sa pagtatantya ng tuluy-tuloy na mga variable ng pagtugon, kumpara sa mga discrete na variable ng pagtugon na ginagamit sa pag-uuri. Ang kaso ng tuluy-tuloy na output variable ay tinatawag ding metric regression upang makilala ito sa mga kaugnay na problema.

Kwento

Ang pinakamaagang anyo ng regression ay ang kilalang paraan ng least squares. Ito ay inilathala ni Legendre noong 1805 at Gauss noong 1809. Inilapat nina Legendre at Gauss ang pamamaraan sa problema ng pagtukoy mula sa mga obserbasyon ng astronomiya sa mga orbit ng mga katawan sa paligid ng Araw (pangunahin ang mga kometa, ngunit kalaunan ay mga bagong natuklasan ding mga menor de edad na planeta). Inilathala ni Gauss ang karagdagang pag-unlad ng teorya ng hindi bababa sa mga parisukat noong 1821, kabilang ang isang variant ng Gauss-Markov theorem.

Ang terminong "regression" ay nilikha ni Francis Galton noong ika-19 na siglo upang ilarawan ang isang biological phenomenon. Ang ilalim na linya ay ang paglaki ng mga inapo mula sa paglaki ng mga ninuno, bilang panuntunan, ay bumabalik sa normal na average. Para kay Galton, ang regression ay mayroon lamang nitong biyolohikal na kahulugan, ngunit kalaunan ang kanyang gawain ay kinuha ni Udni Yoley at Karl Pearson at dinala sa isang mas pangkalahatang istatistikal na konteksto. Sa gawain nina Yule at Pearson, ang magkasanib na pamamahagi ng tugon at mga paliwanag na variable ay itinuturing na Gaussian. Ang palagay na ito ay tinanggihan ni Fischer sa mga papel ng 1922 at 1925. Iminungkahi ni Fisher na ang conditional distribution ng response variable ay Gaussian, ngunit ang joint distribution ay hindi kailangan. Sa bagay na ito, ang mungkahi ni Fisher ay mas malapit sa 1821 formulation ni Gauss. Bago ang 1970, minsan umabot ng hanggang 24 na oras upang makuha ang resulta ng pagsusuri ng regression.

Ang mga pamamaraan ng pagsusuri ng regression ay patuloy na isang lugar ng aktibong pananaliksik. Sa nakalipas na mga dekada, ang mga bagong pamamaraan ay binuo para sa matatag na regression; mga regression na kinasasangkutan ng mga nauugnay na tugon; mga pamamaraan ng regression na tumanggap ng iba't ibang uri ng nawawalang data; nonparametric regression; Pamamaraan ng Bayesian regression; mga regression kung saan ang mga variable ng predictor ay sinusukat nang may error; regressions na may mas maraming predictors kaysa sa mga obserbasyon, at causal inferences na may regression.

Mga Modelo ng Regression

Kasama sa mga modelo ng pagsusuri ng regression ang mga sumusunod na variable:

  • Mga hindi kilalang parameter, na tinukoy bilang beta, na maaaring isang scalar o isang vector.
  • Mga independiyenteng variable, X.
  • Dependent variable, Y.

Sa iba't ibang larangan ng agham kung saan inilalapat ang pagsusuri ng regression, iba't ibang termino ang ginagamit sa halip na mga dependent at independiyenteng variable, ngunit sa lahat ng kaso, iniuugnay ng modelo ng regression ang Y sa isang function ng X at β.

Ang approximation ay karaniwang binubuo bilang E (Y | X) = F (X, β). Upang maisagawa ang pagsusuri ng regression, dapat matukoy ang anyo ng function na f. Mas bihira, ito ay batay sa kaalaman tungkol sa relasyon sa pagitan ng Y at X na hindi umaasa sa data. Kung ang naturang kaalaman ay hindi magagamit, pagkatapos ay isang nababaluktot o maginhawang form F ang pipiliin.

Dependent variable Y

Ipagpalagay natin ngayon na ang vector ng hindi kilalang mga parameter β ay may haba k. Upang magsagawa ng pagsusuri ng regression, dapat magbigay ang user ng impormasyon tungkol sa dependent variable Y:

  • Kung ang N data point ng form (Y, X) ay sinusunod, kung saan ang N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Kung ang eksaktong N = K ay sinusunod, at ang function na F ay linear, ang equation na Y = F(X, β) ay maaaring malutas nang eksakto, hindi humigit-kumulang. Nagsisimula ito sa paglutas ng isang set ng N-equation na may N-unknowns (ang mga elemento ng β) na may natatanging solusyon hangga't ang X ay linearly independent. Kung ang F ay hindi linear, maaaring walang solusyon, o maaaring maraming solusyon.
  • Ang pinakakaraniwang sitwasyon ay kung saan mayroong N > point sa data. Sa kasong ito, may sapat na impormasyon sa data upang matantya ang natatanging halaga para sa β na pinakaangkop sa data, at ang modelo ng regression kapag inilapat sa data ay makikita bilang isang overridden na sistema sa β.

Sa huling kaso, ang pagsusuri ng regression ay nagbibigay ng mga tool para sa:

  • Paghahanap ng solusyon para sa hindi kilalang mga parameter β, na, halimbawa, ay mababawasan ang distansya sa pagitan ng sinusukat at hinulaang halaga ng Y.
  • Sa ilalim ng ilang mga istatistikal na pagpapalagay, ang pagsusuri ng regression ay gumagamit ng labis na impormasyon upang magbigay ng istatistikal na impormasyon tungkol sa hindi kilalang mga parameter β at ang mga hinulaang halaga ng dependent variable na Y.

Kinakailangang bilang ng mga independiyenteng sukat

Isaalang-alang ang isang modelo ng regression na may tatlong hindi kilalang mga parameter: β 0 , β 1 at β 2 . Ipagpalagay natin na ang eksperimento ay gumagawa ng 10 mga sukat sa parehong halaga ng independiyenteng variable ng vector X. Sa kasong ito, ang pagsusuri ng regression ay hindi nagbibigay ng isang natatanging hanay ng mga halaga. Ang pinakamahusay na magagawa mo ay ang tantiyahin ang mean at standard deviation ng dependent variable Y. Katulad nito, sa pamamagitan ng pagsukat ng dalawang magkaibang halaga ng X, makakakuha ka ng sapat na data para sa isang regression na may dalawang hindi alam, ngunit hindi para sa tatlo o higit pang hindi alam. .

Kung ang mga sukat ng eksperimento ay kinuha sa tatlong magkakaibang mga halaga ng independiyenteng vector variable X, ang pagsusuri ng regression ay magbibigay ng isang natatanging hanay ng mga pagtatantya para sa tatlong hindi kilalang mga parameter sa β.

Sa kaso ng pangkalahatang linear regression, ang pahayag sa itaas ay katumbas ng pangangailangan na ang matrix X T X ay invertible.

Statistical Assumptions

Kapag ang bilang ng mga sukat N ay mas malaki kaysa sa bilang ng mga hindi kilalang parameter k at ang mga error sa pagsukat ε i , kung gayon, bilang panuntunan, ang labis na impormasyon na nakapaloob sa mga sukat ay ipinamamahagi at ginagamit para sa mga hula sa istatistika tungkol sa hindi kilalang mga parameter. Ang labis na impormasyon na ito ay tinatawag na antas ng kalayaan ng regression.

Pinagbabatayan na mga Assumption

Kasama sa mga klasikong pagpapalagay para sa pagsusuri ng regression ang:

  • Ang sampling ay kinatawan ng hula ng hinuha.
  • Ang error ay isang random na variable na may mean value na zero, na may kundisyon sa mga variable na nagpapaliwanag.
  • Ang mga independyenteng variable ay sinusukat nang walang mga pagkakamali.
  • Bilang mga independent variable (predictors), ang mga ito ay linearly independent, iyon ay, hindi posibleng ipahayag ang anumang predictor bilang linear na kumbinasyon ng iba.
  • Ang mga error ay walang kaugnayan, iyon ay, ang error covariance matrix ng mga diagonal at ang bawat non-zero na elemento ay ang pagkakaiba ng error.
  • Ang pagkakaiba-iba ng error ay pare-pareho sa mga obserbasyon (homoscedasticity). Kung hindi, maaaring gumamit ng weighted least squares o iba pang paraan.

Ang mga sapat na kundisyon na ito para sa pinakamababang pagtatantya ng mga parisukat ay may mga kinakailangang katangian, lalo na ang mga pagpapalagay na ito ay nangangahulugan na ang mga pagtatantya ng parameter ay magiging layunin, pare-pareho at mahusay, lalo na kapag isinasaalang-alang sa klase ng mga linear na pagtatantya. Mahalagang tandaan na ang aktwal na data ay bihirang nakakatugon sa mga kundisyon. Ibig sabihin, ginagamit ang pamamaraan kahit na hindi tama ang mga pagpapalagay. Maaaring gamitin minsan ang pagkakaiba-iba mula sa mga pagpapalagay bilang sukatan kung gaano kapaki-pakinabang ang modelo. Marami sa mga pagpapalagay na ito ay maaaring maluwag sa mas advanced na mga pamamaraan. Karaniwang kasama sa mga ulat ng pagsusuri sa istatistika ang pagsusuri ng mga pagsubok laban sa sample na data at pamamaraan para sa pagiging kapaki-pakinabang ng modelo.

Bilang karagdagan, ang mga variable sa ilang mga kaso ay tumutukoy sa mga halaga na sinusukat sa mga lokasyon ng punto. Maaaring may mga spatial na trend at spatial na autocorrelations sa mga variable na lumalabag sa mga istatistikal na pagpapalagay. Ang geographic weighted regression ay ang tanging paraan na tumatalakay sa naturang data.

Sa linear regression, ang tampok ay ang dependent variable, na Y i , ay isang linear na kumbinasyon ng mga parameter. Halimbawa, sa simpleng linear regression, ang n-point modeling ay gumagamit ng isang independent variable, x i , at dalawang parameter, β 0 at β 1 .

Sa maramihang linear regression, mayroong ilang mga independiyenteng variable o ang kanilang mga function.

Kapag random na na-sample mula sa isang populasyon, ginagawang posible ng mga parameter nito na makakuha ng sample ng isang linear regression model.

Sa aspetong ito, ang pinakasikat na paraan ng least squares. Nagbibigay ito ng mga pagtatantya ng parameter na nagpapaliit sa kabuuan ng mga parisukat ng mga nalalabi. Ang ganitong uri ng pag-minimize (na tipikal ng linear regression) ng function na ito ay humahantong sa isang set ng mga normal na equation at isang set ng mga linear equation na may mga parameter, na nalulutas upang makakuha ng mga pagtatantya ng parameter.

Sa pag-aakalang higit pa na ang error sa populasyon ay karaniwang lumalaganap, maaaring gamitin ng mananaliksik ang mga pagtatantya ng mga karaniwang error na ito upang lumikha ng mga pagitan ng kumpiyansa at magsagawa ng mga pagsubok sa hypotheses tungkol sa mga parameter nito.

Pagsusuri ng Nonlinear Regression

Ang isang halimbawa kung saan ang function ay hindi linear na may paggalang sa mga parameter ay nagpapahiwatig na ang kabuuan ng mga parisukat ay dapat i-minimize sa isang umuulit na pamamaraan. Ito ay nagpapakilala ng maraming komplikasyon na tumutukoy sa mga pagkakaiba sa pagitan ng mga pamamaraan ng linear at non-linear least squares. Dahil dito, ang mga resulta ng pagsusuri ng regression kapag gumagamit ng isang non-linear na pamamaraan ay minsan hindi mahuhulaan.

Pagkalkula ng kapangyarihan at laki ng sample

Dito, bilang panuntunan, walang pare-parehong mga pamamaraan tungkol sa bilang ng mga obserbasyon kumpara sa bilang ng mga independyenteng variable sa modelo. Ang unang panuntunan ay iminungkahi nina Dobra at Hardin at mukhang N = t^n, kung saan ang N ay ang laki ng sample, n ay ang bilang ng mga variable na nagpapaliwanag, at ang t ay ang bilang ng mga obserbasyon na kailangan upang makamit ang nais na katumpakan kung ang modelo ay may isang paliwanag na variable lamang. Halimbawa, ang isang mananaliksik ay bumuo ng isang linear na modelo ng regression gamit ang isang dataset na naglalaman ng 1000 mga pasyente (N). Kung nagpasya ang mananaliksik na limang obserbasyon ang kailangan upang tumpak na matukoy ang linya (m), kung gayon ang maximum na bilang ng mga nagpapaliwanag na variable na maaaring suportahan ng modelo ay 4.

Iba pang Pamamaraan

Bagama't ang mga parameter ng isang regression model ay karaniwang tinatantya gamit ang least squares na paraan, may iba pang mga pamamaraan na hindi gaanong ginagamit. Halimbawa, ito ang mga sumusunod na pamamaraan:

  • Mga pamamaraan ng Bayesian (halimbawa, ang pamamaraang Bayesian ng linear regression).
  • Isang porsyentong pagbabalik na ginagamit para sa mga sitwasyon kung saan ang pagbabawas ng porsyento ng mga error ay itinuturing na mas naaangkop.
  • Ang pinakamaliit na absolute deviations, na mas matatag sa pagkakaroon ng mga outlier na humahantong sa quantile regression.
  • Nonparametric regression na nangangailangan ng malaking bilang ng mga obserbasyon at kalkulasyon.
  • Ang distansya ng sukatan sa pag-aaral na natutunan sa paghahanap ng isang makabuluhang sukatan ng distansya sa ibinigay na espasyo sa pag-input.

Software

Ang lahat ng mga pangunahing statistical software packages ay ginagawa gamit ang least squares regression analysis. Ang simpleng linear regression at multiple regression analysis ay maaaring gamitin sa ilang spreadsheet application pati na rin sa ilang calculators. Bagama't maraming statistical software packages ang maaaring magsagawa ng iba't ibang uri ng nonparametric at matatag na regression, ang mga pamamaraang ito ay hindi gaanong na-standardize; iba't ibang mga pakete ng software ang nagpapatupad ng iba't ibang pamamaraan. Ang espesyal na software ng regression ay binuo para magamit sa mga lugar tulad ng pagsusuri sa survey at neuroimaging.

Sa pagkakaroon ng ugnayan sa pagitan ng salik at mga resultang palatandaan, ang mga doktor ay kadalasang kailangang matukoy kung anong halaga ang maaaring magbago ng halaga ng isang senyales kapag ang isa pa ay binago ng isang yunit ng pagsukat na karaniwang tinatanggap o itinatag ng mismong mananaliksik.

Halimbawa, paano magbabago ang timbang ng katawan ng mga mag-aaral sa ika-1 baitang (mga babae o lalaki) kung ang kanilang taas ay tumaas ng 1 cm. Para sa layuning ito, ginagamit ang paraan ng pagsusuri ng regression.

Kadalasan, ang paraan ng pagsusuri ng regression ay ginagamit upang bumuo ng mga normatibong kaliskis at pamantayan para sa pisikal na pag-unlad.

  1. Kahulugan ng regression. Ang regression ay isang function na nagbibigay-daan, batay sa average na value ng isang attribute, na matukoy ang average na value ng isa pang attribute na nauugnay sa una.

    Para sa layuning ito, ang regression coefficient at isang bilang ng iba pang mga parameter ay ginagamit. Halimbawa, maaari mong kalkulahin ang bilang ng mga sipon sa karaniwan sa ilang mga halaga ng average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig.

  2. Kahulugan ng coefficient ng regression. Ang regression coefficient ay ang absolute value kung saan nagbabago ang halaga ng isang attribute sa average kapag ang isa pang attribute na nauugnay dito ay nagbabago ng itinatag na unit ng pagsukat.
  3. Formula ng koepisyent ng regression. R y / x \u003d r xy x (σ y / σ x)
    kung saan R y / x - regression coefficient;
    r xy - koepisyent ng ugnayan sa pagitan ng mga tampok na x at y;
    (σ y at σ x) - karaniwang mga paglihis ng mga tampok na x at y.

    Sa aming halimbawa;
    σ x = 4.6 (karaniwang paglihis ng temperatura ng hangin sa panahon ng taglagas-taglamig;
    σ y = 8.65 (standard deviation ng bilang ng mga nakakahawang sipon).
    Kaya, ang R y/x ay ang regression coefficient.
    R y / x \u003d -0.96 x (4.6 / 8.65) \u003d 1.8, ibig sabihin. na may pagbaba sa average na buwanang temperatura ng hangin (x) ng 1 degree, ang average na bilang ng mga nakakahawang sipon (y) sa panahon ng taglagas-taglamig ay magbabago ng 1.8 kaso.

  4. Regression Equation. y \u003d M y + R y / x (x - M x)
    kung saan ang y ay ang average na value ng attribute, na dapat matukoy kapag nagbago ang average na value ng isa pang attribute (x);
    x - kilalang average na halaga ng isa pang tampok;
    R y/x - koepisyent ng regression;
    M x, M y - kilalang average na halaga ng mga tampok na x at y.

    Halimbawa, ang average na bilang ng mga nakakahawang sipon (y) ay maaaring matukoy nang walang mga espesyal na sukat sa anumang average na halaga ng average na buwanang temperatura ng hangin (x). Kaya, kung x \u003d - 9 °, R y / x \u003d 1.8 sakit, M x \u003d -7 °, M y \u003d 20 sakit, pagkatapos ay y \u003d 20 + 1.8 x (9-7) \u003d 20 + 3 .6 = 23.6 sakit.
    Ang equation na ito ay inilapat sa kaso ng isang straight-line na relasyon sa pagitan ng dalawang feature (x at y).

  5. Layunin ng regression equation. Ang regression equation ay ginagamit upang i-plot ang regression line. Ang huli ay nagbibigay-daan, nang walang mga espesyal na sukat, upang matukoy ang anumang average na halaga (y) ng isang katangian, kung ang halaga (x) ng isa pang katangian ay nagbabago. Batay sa mga datos na ito, nabuo ang isang graph - linya ng regression, na maaaring magamit upang matukoy ang average na bilang ng mga sipon sa anumang halaga ng average na buwanang temperatura sa loob ng saklaw sa pagitan ng mga kinakalkula na halaga ng bilang ng mga sipon.
  6. Regression sigma (formula).
    kung saan σ Ru/x - sigma (standard deviation) ng regression;
    σ y ay ang standard deviation ng feature na y;
    r xy - koepisyent ng ugnayan sa pagitan ng mga tampok na x at y.

    Kaya, kung ang σ y ay ang karaniwang paglihis ng bilang ng mga sipon = 8.65; r xy - ang koepisyent ng ugnayan sa pagitan ng bilang ng mga sipon (y) at ang average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig (x) ay - 0.96, pagkatapos

  7. Layunin ng sigma regression. Nagbibigay ng katangian ng sukatan ng pagkakaiba-iba ng resultang tampok (y).

    Halimbawa, nailalarawan nito ang pagkakaiba-iba ng bilang ng mga sipon sa isang tiyak na halaga ng average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig. Kaya, ang average na bilang ng mga sipon sa temperatura ng hangin x 1 \u003d -6 ° ay maaaring mula sa 15.78 sakit hanggang 20.62 na sakit.
    Sa x 2 = -9°, ang average na bilang ng mga sipon ay maaaring mula sa 21.18 sakit hanggang 26.02 sakit, atbp.

    Ang regression sigma ay ginagamit sa pagbuo ng isang regression scale, na sumasalamin sa paglihis ng mga halaga ng epektibong katangian mula sa average na halaga na naka-plot sa linya ng regression.

  8. Kinakailangan ang data upang kalkulahin at i-plot ang sukat ng regression
    • koepisyent ng regression - Ry/x;
    • equation ng regression - y \u003d M y + R y / x (x-M x);
    • regression sigma - σ Rx/y
  9. Ang pagkakasunud-sunod ng mga kalkulasyon at graphic na representasyon ng sukat ng regression.
    • tukuyin ang regression coefficient sa pamamagitan ng formula (tingnan ang talata 3). Halimbawa, dapat isa matukoy kung magkano ang timbang ng katawan ay magbabago sa average (sa isang tiyak na edad depende sa kasarian) kung ang average na taas ay nagbabago ng 1 cm.
    • ayon sa formula ng equation ng regression (tingnan ang talata 4), tukuyin kung ano ang magiging average, halimbawa, timbang ng katawan (y, y 2, y 3 ...) * para sa isang tiyak na halaga ng paglago (x, x 2, x 3 ...).
      ________________
      * Ang halaga ng "y" ay dapat kalkulahin para sa hindi bababa sa tatlong kilalang halaga ng "x".

      Kasabay nito, ang mga average na halaga ng timbang at taas ng katawan (M x, at M y) para sa isang tiyak na edad at kasarian ay kilala.

    • kalkulahin ang sigma ng regression, alam ang kaukulang mga halaga ng σ y at r xy at pinapalitan ang kanilang mga halaga sa formula (tingnan ang talata 6).
    • batay sa mga kilalang halaga x 1, x 2, x 3 at ang kanilang katumbas na average na mga halaga y 1, y 2 y 3, pati na rin ang pinakamaliit (y - σ ru / x) at pinakamalaki (y + σ ru / x) mga halaga \u200b\u200b(y) bumuo ng isang regression scale.

      Para sa isang graphical na representasyon ng regression scale, ang mga value x, x 2 , x 3 (y-axis) ay unang minarkahan sa graph, i.e. isang linya ng regression ay binuo, halimbawa, ang pagtitiwala ng timbang ng katawan (y) sa taas (x).

      Pagkatapos, sa kaukulang mga punto y 1 , y 2 , y 3 ang mga numerical na halaga ng regression sigma ay minarkahan, i.e. sa graph hanapin ang pinakamaliit at pinakamalaking halaga ng y 1 , y 2 , y 3 .

  10. Praktikal na paggamit ng sukat ng regression. Ang mga normative scale at pamantayan ay binuo, lalo na para sa pisikal na pag-unlad. Ayon sa karaniwang sukat, posibleng magbigay ng indibidwal na pagtatasa ng pag-unlad ng mga bata. Kasabay nito, ang pisikal na pag-unlad ay tinatasa bilang magkatugma kung, halimbawa, sa isang tiyak na taas, ang timbang ng katawan ng bata ay nasa loob ng isang sigma ng regression sa average na kinakalkula na yunit ng timbang ng katawan - (y) para sa isang naibigay na taas (x) (y ± 1 σ Ry / x).

    Ang pisikal na pag-unlad ay itinuturing na hindi magkakatugma sa mga tuntunin ng timbang ng katawan kung ang timbang ng katawan ng bata para sa isang tiyak na taas ay nasa loob ng pangalawang sigma ng regression: (y ± 2 σ Ry/x)

    Ang pisikal na pag-unlad ay magiging lubhang hindi pagkakasundo dahil sa labis at hindi sapat na timbang ng katawan kung ang bigat ng katawan para sa isang tiyak na taas ay nasa loob ng ikatlong sigma ng regression (y ± 3 σ Ry/x).

Ayon sa mga resulta ng isang istatistikal na pag-aaral ng pisikal na pag-unlad ng 5-taong-gulang na mga lalaki, alam na ang kanilang average na taas (x) ay 109 cm, at ang kanilang average na timbang ng katawan (y) ay 19 kg. Ang koepisyent ng ugnayan sa pagitan ng taas at timbang ng katawan ay +0.9, ang mga karaniwang paglihis ay ipinakita sa talahanayan.

Kailangan:

  • kalkulahin ang regression coefficient;
  • gamit ang regression equation, tukuyin kung ano ang inaasahang bigat ng katawan ng 5 taong gulang na batang lalaki na may taas na katumbas ng x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • kalkulahin ang regression sigma, bumuo ng isang regression scale, ipakita ang mga resulta ng solusyon nito sa graphic na paraan;
  • gumuhit ng angkop na konklusyon.

Ang kalagayan ng problema at ang mga resulta ng solusyon nito ay ipinakita sa talahanayan ng buod.

Talahanayan 1

Mga kondisyon ng problema Mga resulta ng solusyon sa problema
regression equation sigma regression sukat ng regression (inaasahang timbang ng katawan (sa kg))
M σ r xy R y/x X Sa σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Taas (x) 109 cm ± 4.4cm +0,9 0,16 100cm 17.56 kg ± 0.35 kg 17.21 kg 17.91 kg
Timbang ng katawan (y) 19 kg ± 0.8 kg 110 cm 19.16 kg 18.81 kg 19.51 kg
120 cm 20.76 kg 20.41 kg 21.11 kg

Desisyon.

Konklusyon. Kaya, ang sukat ng regression sa loob ng kinakalkula na mga halaga ng timbang ng katawan ay nagbibigay-daan sa iyo upang matukoy ito para sa anumang iba pang halaga ng paglaki o upang masuri ang indibidwal na pag-unlad ng bata. Upang gawin ito, ibalik ang patayo sa linya ng regression.

  1. Vlasov V.V. Epidemiology. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Pampublikong kalusugan at pangangalaga sa kalusugan. Teksbuk para sa mataas na paaralan. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medik V.A., Yuriev V.K. Isang kurso ng mga lektura sa kalusugan ng publiko at pangangalaga sa kalusugan: Bahagi 1. Kalusugan ng publiko. - M.: Medisina, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. at iba pa.Social medicine at healthcare organization (Gabay sa 2 volume). - St. Petersburg, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. at iba pa Social hygiene at organisasyon ng pangangalagang pangkalusugan (Tutorial) - Moscow, 2000. - 432 p.
  6. S. Glantz. Medico-biological na istatistika. Per mula sa English. - M., Practice, 1998. - 459 p.

Matapos maihayag ng pagsusuri ng ugnayan ang pagkakaroon ng mga istatistikal na relasyon sa pagitan ng mga variable at tinasa ang antas ng higpit ng mga ito, kadalasang nagpapatuloy sila sa paglalarawan ng matematika ng isang partikular na uri ng dependency gamit ang pagsusuri ng regression. Para sa layuning ito, pinili ang isang klase ng mga pag-andar na nag-uugnay sa epektibong tagapagpahiwatig y at ang mga argumento x 1, x 2, ..., x sa pinaka-kaalaman na mga argumento ay pinili, mga pagtatantya ng hindi kilalang mga halaga ng mga parameter ng link ang equation ay kinakalkula at ang mga katangian ng resultang equation ay sinusuri.

Ang function na f (x 1, x 2, ..., x k) na naglalarawan ng dependence ng average na halaga ng epektibong feature y sa mga ibinigay na value ng mga argumento ay tinatawag na regression function (equation). Ang terminong "regression" (lat. - regression - retreat, return to something) ay ipinakilala ng English psychologist at anthropologist na si F. Galton at eksklusibong nauugnay sa mga detalye ng isa sa mga unang kongkretong halimbawa kung saan ginamit ang konseptong ito. Kaya, ang pagproseso ng istatistikal na data na may kaugnayan sa pagsusuri ng pagmamana ng paglago, natagpuan ni F. Galton na kung ang mga ama ay lumihis mula sa average na taas ng lahat ng mga ama sa pamamagitan ng x pulgada, kung gayon ang kanilang mga anak na lalaki ay lumihis mula sa average na taas ng lahat ng mga anak na lalaki nang mas mababa sa x pulgada. Ang ipinahayag na kalakaran ay tinawag na "regression to the mean state". Simula noon, ang terminong "regression" ay malawakang ginagamit sa istatistikal na literatura, bagaman sa maraming mga kaso ay hindi ito tumpak na nailalarawan ang konsepto ng statistical dependence.

Para sa isang tumpak na paglalarawan ng equation ng regression, kailangang malaman ang batas ng pamamahagi ng mabisang indicator y. Sa istatistikal na kasanayan, ang isang tao ay karaniwang kailangang limitahan ang sarili sa paghahanap para sa angkop na mga pagtatantya para sa hindi kilalang tunay na pag-andar ng regression, dahil ang mananaliksik ay walang eksaktong kaalaman sa kondisyonal na batas ng pamamahagi ng posibilidad ng nasuri na tagapagpahiwatig ng resulta y para sa mga ibinigay na halaga. ng argumento x.

Isaalang-alang ang ugnayan sa pagitan ng totoong f(x) = M(y1x), regression ng modelo? at ang y score ng regression. Hayaang ang epektibong tagapagpahiwatig na y ay nauugnay sa argumento x sa pamamagitan ng ratio:

kung saan ang - e ay isang random na variable na mayroong normal na batas sa pamamahagi, kasama ang Me \u003d 0 at D e \u003d y 2. Ang totoong regression function sa kasong ito ay: f(x) = M(y/x) = 2x 1.5.

Ipagpalagay na hindi natin alam ang eksaktong anyo ng totoong regression equation, ngunit mayroon tayong siyam na obserbasyon sa isang two-dimensional random variable na nauugnay sa ratio yi = 2x1.5 + e, at ipinapakita sa Fig. isa

Figure 1 - Mutual arrangement ng katotohanan f (x) at theoretical? mga modelo ng regression

Lokasyon ng mga punto sa fig. 1 ay nagpapahintulot sa iyo na limitahan ang iyong sarili sa klase ng mga linear dependencies ng form? = sa 0 + sa 1 x. Gamit ang paraan ng least squares, makikita natin ang isang pagtatantya ng equation ng regression y = b 0 +b 1 x. Para sa paghahambing, sa Fig. Ang 1 ay nagpapakita ng mga graph ng totoong regression function y \u003d 2x 1.5, ang theoretical approximating regression function? = sa 0 + sa 1 x .

Dahil nagkamali kami sa pagpili ng klase ng regression function, at ito ay karaniwan sa pagsasagawa ng istatistikal na pananaliksik, ang aming mga istatistikal na konklusyon at pagtatantya ay magiging mali. At gaano man natin dagdagan ang dami ng mga obserbasyon, ang ating sample na pagtatantya ng y ay hindi magiging malapit sa totoong regression function na f(x). Kung tama nating pinili ang klase ng mga function ng regression, kung gayon ang kamalian sa paglalarawan ng f (x) gamit? maipaliwanag lamang ng limitadong laki ng sample.

Upang pinakamahusay na maibalik ang kondisyonal na halaga ng epektibong tagapagpahiwatig na y(x) at ang hindi kilalang regression function na f(x) = M(y/x) mula sa paunang istatistikal na data, ang sumusunod na pamantayan ng kasapatan (loss functions) ay kadalasang ginagamit .

Pinakamababang parisukat na pamamaraan. Ayon dito, ang squared deviation ng mga naobserbahang halaga ng epektibong indicator y, (i = 1,2,..., n) mula sa mga halaga ng modelo, ay pinaliit. = f(x i), kung saan ang x i ay ang halaga ng vector ng mga argumento sa i-th observation:

Paraan ng hindi bababa sa mga module. Ayon dito, ang kabuuan ng ganap na mga paglihis ng mga sinusunod na halaga ng epektibong tagapagpahiwatig mula sa mga modular na halaga ay pinaliit. At nakukuha namin = f(x i), ibig sabihin absolute median regression? |y i - f(х i)| >min.

Ang regression analysis ay isang paraan ng statistical analysis ng dependence ng isang random variable y sa mga variable x j = (j = 1,2, ..., k), na isinasaalang-alang sa regression analysis bilang non-random variable, anuman ang tunay na batas sa pamamahagi x j.

Karaniwang ipinapalagay na ang random na variable na y ay may normal na batas sa pamamahagi na may kondisyong matematikal na inaasahan y, na isang function ng mga argumento x/ (/ = 1, 2, ..., k) at isang pare-pareho, na independiyente sa argumento, pagkakaiba y 2 .

Sa pangkalahatan, ang linear na modelo ng pagsusuri ng regression ay may anyo:

Y = Y k j=0 sa j c j(x 1 , x 2 . . .. ,x k)+E

kung saan ang c j ay ilang function ng mga variable nito - x 1 , x 2 . . .. ,x k , E ay isang random na variable na may zero mathematical expectation at variance y 2 .

Sa pagsusuri ng regression, ang uri ng equation ng regression ay pinili batay sa pisikal na katangian ng hindi pangkaraniwang bagay na pinag-aaralan at ang mga resulta ng pagmamasid.

Ang mga pagtatantya ng hindi kilalang mga parameter ng equation ng regression ay karaniwang matatagpuan sa pamamagitan ng least squares method. Sa ibaba ay tatalakayin natin ang problemang ito nang mas detalyado.

Dalawang-dimensional na linear regression equation. Hayaan, batay sa pagsusuri ng hindi pangkaraniwang bagay na pinag-aaralan, ipinapalagay na sa "average" y ay may linear function na x, ibig sabihin, mayroong isang regression equation.

y \u003d M (y / x) \u003d sa 0 + sa 1 x)

kung saan ang M(y1x) ay ang conditional mathematical expectation ng isang random variable y para sa isang naibigay na x; sa 0 at sa 1 - hindi kilalang mga parameter ng pangkalahatang populasyon, na dapat tantiyahin mula sa mga resulta ng mga obserbasyon ng sample.

Ipagpalagay na upang matantya ang mga parameter sa 0 at sa 1, ang isang sample ng laki n ay kinuha mula sa isang dalawang-dimensional na pangkalahatang populasyon (x, y), kung saan ang (x, y,) ay ang resulta ng i-th obserbasyon (i = 1, 2,..., n) . Sa kasong ito, ang modelo ng pagsusuri ng regression ay may anyo:

y j = sa 0 + sa 1 x+e j .

kung saan e j .- independiyenteng normal na ipinamamahagi na mga random na variable na may zero na inaasahan sa matematika at pagkakaiba y 2 , ibig sabihin, M e j . = 0;

D e j .= y 2 para sa lahat i = 1, 2,..., n.

Ayon sa pamamaraan ng hindi bababa sa mga parisukat, bilang mga pagtatantya ng hindi kilalang mga parameter sa 0 at sa 1, ang isa ay dapat kumuha ng mga naturang halaga ng mga sample na katangian b 0 at b 1 na nagpapaliit sa kabuuan ng mga squared deviations ng mga halaga ng resultang feature y i mula sa conditional mathematical expectation? i

Isasaalang-alang namin ang pamamaraan para sa pagtukoy ng impluwensya ng mga katangian ng marketing sa kita ng isang negosyo gamit ang halimbawa ng labing pitong tipikal na negosyo na may average na laki at tagapagpahiwatig ng aktibidad sa ekonomiya.

Sa paglutas ng problema, ang mga sumusunod na katangian ay isinasaalang-alang, na kinilala bilang ang pinakamahalaga (mahalaga) bilang isang resulta ng isang survey ng palatanungan:

* makabagong aktibidad ng negosyo;

* pagpaplano ng hanay ng mga produkto;

* pagbuo ng patakaran sa pagpepresyo;

* relasyon sa publiko;

* sistema ng marketing;

* Sistema ng insentibo ng empleyado.

Sa batayan ng isang sistema ng paghahambing sa pamamagitan ng mga kadahilanan, ang mga square matrice ng adjacency ay itinayo, kung saan ang mga halaga ng mga kamag-anak na priyoridad para sa bawat kadahilanan ay kinakalkula: makabagong aktibidad ng negosyo, pagpaplano ng hanay ng mga produkto, patakaran sa pagpepresyo, advertising, relasyon sa publiko, sistema ng pagbebenta, sistema ng insentibo ng empleyado.

Ang mga pagtatantya ng mga priyoridad para sa kadahilanan na "mga relasyon sa publiko" ay nakuha bilang isang resulta ng isang survey ng mga espesyalista ng kumpanya. Ang mga sumusunod na pagtatalaga ay tinatanggap: > (mas mahusay), > (mas mabuti o pareho), = (pantay-pantay),< (хуже или одинаково), <

Susunod, nalutas ang problema ng isang komprehensibong pagtatasa ng antas ng marketing ng negosyo. Kapag kinakalkula ang tagapagpahiwatig, ang kahalagahan (timbang) ng itinuturing na mga partikular na tampok ay natukoy at ang problema ng linear convolution ng mga partikular na tagapagpahiwatig ay nalutas. Ang pagproseso ng data ay isinagawa ayon sa mga espesyal na binuo na programa.

Susunod, ang isang komprehensibong pagtatasa ng antas ng marketing ng enterprise ay kinakalkula - ang marketing coefficient, na ipinasok sa talahanayan 1. Bilang karagdagan, ang talahanayan sa itaas ay kinabibilangan ng mga tagapagpahiwatig na nagpapakilala sa negosyo sa kabuuan. Ang data sa talahanayan ay gagamitin para sa pagsusuri ng regression. Ang resulta ay tubo. Kasama ang koepisyent ng marketing, ang mga sumusunod na tagapagpahiwatig ay ginamit bilang mga palatandaan ng kadahilanan: ang dami ng kabuuang output, ang halaga ng mga nakapirming asset, ang bilang ng mga empleyado, ang koepisyent ng pagdadalubhasa.

Talahanayan 1 - Paunang data para sa pagsusuri ng regression


Batay sa data sa talahanayan at batay sa mga kadahilanan na may pinakamahalagang halaga ng mga coefficient ng ugnayan, ang mga pag-andar ng regression ng pag-asa ng kita sa mga kadahilanan ay binuo.

Ang equation ng regression sa aming kaso ay kukuha ng form:

Ang mga coefficient ng regression equation ay nagsasalita tungkol sa quantitative influence ng mga salik na tinalakay sa itaas sa halaga ng tubo. Ipinapakita nila kung gaano karaming libong rubles ang nagbabago ang halaga nito kapag nagbabago ang factor sign ng isang yunit. Tulad ng mga sumusunod mula sa equation, ang pagtaas sa ratio ng marketing mix ng isang yunit ay nagbibigay ng pagtaas sa kita ng 1547.7 libong rubles. Iminumungkahi nito na may malaking potensyal para sa pagpapabuti ng pang-ekonomiyang pagganap ng mga negosyo sa pagpapabuti ng mga aktibidad sa marketing.

Sa pag-aaral ng pagiging epektibo sa marketing, ang pinakakawili-wili at pinakamahalagang salik na tampok ay ang X5 factor - ang marketing coefficient. Alinsunod sa teorya ng mga istatistika, ang bentahe ng umiiral na multiple regression equation ay ang kakayahang suriin ang nakahiwalay na impluwensya ng bawat kadahilanan, kabilang ang kadahilanan sa marketing.

Ang mga resulta ng pagsusuri ng regression na isinagawa ay mas malawak ding ginagamit kaysa sa pagkalkula ng mga parameter ng equation. Ang pamantayan para sa pag-uuri ng (Kef,) mga negosyo bilang medyo mas mahusay o medyo mas masahol pa ay batay sa relatibong tagapagpahiwatig ng resulta:

kung saan ang Y facti ay ang aktwal na halaga ng i-th enterprise, thousand rubles;

Y kinakalkula - ang halaga ng kita ng i-th enterprise, nakuha sa pamamagitan ng pagkalkula ayon sa regression equation

Sa mga tuntunin ng problemang nalulutas, ang halaga ay tinatawag na "efficiency factor". Ang aktibidad ng negosyo ay maaaring ituring na epektibo sa mga kaso kung saan ang halaga ng koepisyent ay mas malaki kaysa sa isa. Nangangahulugan ito na ang aktwal na tubo ay mas malaki kaysa sa tubo na na-average sa sample.

Ang aktwal at kinakalkula na mga halaga ng kita ay ipinakita sa Talahanayan. 2.

Talahanayan 2 - Pagsusuri ng epektibong tampok sa modelo ng regression

Ang pagsusuri sa talahanayan ay nagpapakita na sa aming kaso, ang mga aktibidad ng mga negosyo 3, 5, 7, 9, 12, 14, 15, 17 para sa panahon na sinusuri ay maaaring ituring na matagumpay.

Ang pangunahing layunin ng pagsusuri ng regression ay binubuo sa pagtukoy sa analytical form ng relasyon, kung saan ang pagbabago sa resultang attribute ay dahil sa impluwensya ng isa o higit pang factor sign, at ang set ng lahat ng iba pang salik na nakakaapekto rin sa resultang attribute ay kinukuha bilang pare-pareho at average na halaga. .
Mga gawain ng pagsusuri ng regression:
a) Pagtatatag ng anyo ng pagtitiwala. Tungkol sa kalikasan at anyo ng ugnayan sa pagitan ng mga penomena, mayroong positibong linear at non-linear at negatibong linear at non-linear na regression.
b) Depinisyon ng regression function sa anyo ng isang mathematical equation ng isang uri o iba pa at pagtatatag ng impluwensya ng mga paliwanag na variable sa dependent variable.
c) Pagtatantya ng hindi kilalang mga halaga ng dependent variable. Gamit ang regression function, maaari mong kopyahin ang mga halaga ng dependent variable sa loob ng agwat ng mga ibinigay na halaga ng mga paliwanag na variable (i.e., lutasin ang problema sa interpolation) o suriin ang kurso ng proseso sa labas ng tinukoy na agwat (i.e., lutasin ang problema sa extrapolation). Ang resulta ay isang pagtatantya ng halaga ng dependent variable.

Pair regression - ang equation ng relasyon ng dalawang variable na y at x: y=f(x), kung saan y ang dependent variable (resultant sign); x - independyente, nagpapaliwanag na variable (feature-factor).

May mga linear at non-linear na regression.
Linear regression: y = a + bx + ε
Ang mga nonlinear na regression ay nahahati sa dalawang klase: ang mga regression na non-linear na may paggalang sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter, at mga regression na hindi linear na may paggalang sa mga tinantyang parameter.
Mga regression na hindi linear sa mga paliwanag na variable:

Mga regression na hindi linear sa mga tinantyang parameter:

  • kapangyarihan y=a x b ε
  • exponential y=a b x ε
  • exponential y=e a+b x ε
Ang pagtatayo ng equation ng regression ay binabawasan sa pagtatantya ng mga parameter nito. Upang matantya ang mga parameter ng mga regression na linear sa mga parameter, ang paraan ng least squares (LSM) ay ginagamit. Ginagawang posible ng LSM na makakuha ng mga naturang pagtatantya ng mga parameter kung saan ang kabuuan ng mga parisukat na paglihis ng mga aktwal na halaga ng epektibong tampok na y mula sa mga teoretikal na halaga y x ay minimal, i.e.
.
Para sa mga linear at nonlinear na equation na mababawasan sa linear, ang sumusunod na sistema ay nalulutas para sa a at b:

Maaari mong gamitin ang mga handa na formula na sumusunod mula sa system na ito:

Ang lapit ng koneksyon sa pagitan ng pinag-aralan na phenomena ay tinatantya ng linear pair correlation coefficient r xy para sa linear regression (-1≤r xy ≤1):

at correlation index p xy - para sa non-linear regression (0≤p xy ≤1):

Ang isang pagtatasa ng kalidad ng itinayong modelo ay ibibigay ng koepisyent (index) ng pagpapasiya, pati na rin ang average na error sa pagtatantya.
Ang average na error sa approximation ay ang average na paglihis ng mga kinakalkula na halaga mula sa aktwal na mga halaga:
.
Pinahihintulutang limitasyon ng mga halaga A - hindi hihigit sa 8-10%.
Ang average na koepisyent ng elasticity E ay nagpapakita kung gaano karaming porsyento sa average ang magiging resulta ng y mula sa average na halaga nito kapag ang factor x ay nagbago ng 1% mula sa average na halaga nito:
.

Ang gawain ng pagsusuri ng pagkakaiba-iba ay upang suriin ang pagkakaiba-iba ng umaasa na variable:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
kung saan ang ∑(y-y)² ay ang kabuuang kabuuan ng mga squared deviations;
∑(y x -y)² - kabuuan ng mga squared deviations dahil sa regression ("ipinaliwanag" o "factorial");
∑(y-y x)² - natitirang kabuuan ng mga squared deviations.
Ang bahagi ng pagkakaiba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng epektibong tampok na y ay nailalarawan sa pamamagitan ng koepisyent (index) ng pagpapasiya R2:

Ang coefficient of determination ay ang parisukat ng coefficient o correlation index.

F-test - pagsusuri ng kalidad ng regression equation - binubuo sa pagsubok ng hypothesis Ngunit tungkol sa statistical insignificance ng regression equation at ang indicator ng closeness ng koneksyon. Para dito, ang isang paghahambing ng aktwal na F fact at ang kritikal (tabular) F na talahanayan ng mga halaga ng Fisher F-criterion ay ginanap. Ang F fact ay tinutukoy mula sa ratio ng mga halaga ng factorial at natitirang mga pagkakaiba-iba na kinakalkula para sa isang antas ng kalayaan:
,
kung saan ang n ay ang bilang ng mga yunit ng populasyon; m ay ang bilang ng mga parameter para sa mga variable x.
Ang F table ay ang pinakamataas na posibleng halaga ng criterion sa ilalim ng impluwensya ng mga random na salik para sa ibinigay na antas ng kalayaan at antas ng kahalagahan a. Antas ng kahalagahan a - ang posibilidad na tanggihan ang tamang hypothesis, sa kondisyon na ito ay totoo. Karaniwan ang a ay kinukuha na katumbas ng 0.05 o 0.01.
Kung F talahanayan< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F ay isang katotohanan, pagkatapos ay ang hypothesis H tungkol sa ay hindi tinanggihan at ang statistical insignificance, ang unreliability ng regression equation ay kinikilala.
Upang masuri ang istatistikal na kahalagahan ng regression at correlation coefficients, kinakalkula ang t-test at confidence interval ng Mag-aaral para sa bawat isa sa mga indicator. Ang isang hypothesis H tungkol sa random na katangian ng mga tagapagpahiwatig ay iniharap, i.e. tungkol sa kanilang hindi gaanong pagkakaiba mula sa zero. Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang t-test ng Mag-aaral ay isinasagawa sa pamamagitan ng paghahambing ng kanilang mga halaga sa laki ng random na error:
; ; .
Ang mga random na error ng linear regression na mga parameter at correlation coefficient ay tinutukoy ng mga formula:



Paghahambing ng aktwal at kritikal (tabular) na mga halaga ng t-statistics - t tabl at t fact - tinatanggap o tinatanggihan namin ang hypothesis H o.
Ang relasyon sa pagitan ng Fisher's F-test at ng Student's t-statistics ay ipinahayag ng pagkakapantay-pantay

Kung t talahanayan< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t ang katotohanan na ang hypothesis H about ay hindi tinatanggihan at ang random na katangian ng pagbuo ng a, b o r xy ay kinikilala.
Upang kalkulahin ang agwat ng kumpiyansa, tinutukoy namin ang marginal error D para sa bawat indicator:
Δ a =t talahanayan m a , Δ b =t talahanayan m b .
Ang mga formula para sa pagkalkula ng mga agwat ng kumpiyansa ay ang mga sumusunod:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; γ b = b-Δ b ; γb =b+Δb
Kung ang zero ay nasa loob ng mga hangganan ng agwat ng kumpiyansa, i.e. Kung negatibo ang mas mababang limitasyon at positibo ang pinakamataas na limitasyon, ang tinantyang parameter ay ipinapalagay na zero, dahil hindi ito maaaring sabay na kumuha sa parehong positibo at negatibong mga halaga.
Natutukoy ang halaga ng pagtataya na y p sa pamamagitan ng pagpapalit ng katumbas na (pagtataya) na halaga x p sa equation ng regression y x =a+b·x . Ang average na karaniwang error ng forecast m y x ay kinakalkula:
,
saan
at ang agwat ng kumpiyansa ng forecast ay binuo:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y p
kung saan Δ y x =t talahanayan ·m y x .

Halimbawa ng solusyon

Gawain bilang 1. Para sa pitong teritoryo ng rehiyon ng Ural Para sa 199X, ang mga halaga ng dalawang palatandaan ay kilala.
Talahanayan 1.

Kailangan: 1. Upang makilala ang dependence ng y sa x, kalkulahin ang mga parameter ng mga sumusunod na function:
a) linear;
b) batas ng kapangyarihan (dati ay kinakailangan upang isagawa ang pamamaraan ng linearization ng mga variable sa pamamagitan ng pagkuha ng logarithm ng parehong bahagi);
c) nagpapakita;
d) equilateral hyperbola (kailangan mo ring malaman kung paano i-pre-linearize ang modelong ito).
2. Suriin ang bawat modelo sa pamamagitan ng average na error sa approximation A at Fisher's F-test.

Solusyon (Pagpipilian #1)

Upang kalkulahin ang mga parameter a at b ng linear regression y=a+b·x (ang pagkalkula ay maaaring gawin gamit ang isang calculator).
lutasin ang sistema ng mga normal na equation na may kinalaman sa a at b:
Batay sa paunang data, kinakalkula namin ang ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x2 y2 y xy-y xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Kabuuan405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ikasal halaga (Kabuuan/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57.89+0.35 54.9 ≈ 76.88

Regression equation: y= 76,88 - 0,35X. Sa isang pagtaas sa average na pang-araw-araw na sahod ng 1 kuskusin. ang bahagi ng paggasta sa pagbili ng mga produktong pagkain ay nababawasan ng average na 0.35% na puntos.
Kalkulahin ang linear coefficient ng ugnayan ng pares:

Ang komunikasyon ay katamtaman, baligtad.
Tukuyin natin ang koepisyent ng determinasyon: r² xy =(-0.35)=0.127
Ang 12.7% variation sa resulta ay ipinaliwanag ng variation sa x factor. Ang pagpapalit ng aktwal na mga halaga sa equation ng regression X, tinutukoy namin ang teoretikal (kinakalkula) na mga halaga ng y x . Hanapin natin ang halaga ng average na error sa pagtatantya A :

Sa karaniwan, ang mga kinakalkula na halaga ay lumihis mula sa aktwal na mga halaga ng 8.1%.
Kalkulahin natin ang F-criterion:

Ang nakuha na halaga ay nagpapahiwatig ng pangangailangan na tanggapin ang hypothesis H 0 tungkol sa random na kalikasan ng ipinahayag na pag-asa at ang hindi gaanong kahalagahan ng istatistika ng mga parameter ng equation at ang tagapagpahiwatig ng pagiging malapit ng koneksyon.
1b. Ang pagbuo ng modelo ng kapangyarihan y=a x b ay nauuna sa pamamaraan ng linearization ng mga variable. Sa halimbawa, ang linearization ay ginagawa sa pamamagitan ng pagkuha ng logarithm ng magkabilang panig ng equation:
lg y=lg a + b lg x
Y=C+b Y
kung saan ang Y=lg(y), X=lg(x), C=lg(a).

Para sa mga kalkulasyon, ginagamit namin ang data sa Talahanayan. 1.3.
Talahanayan 1.3

YX YX Y2 x2 y xy-y x(y-yx)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Kabuuan12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
ibig sabihin1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Kalkulahin ang C at b:

C=Y -b X = 1.7605+0.298 1.7370 = 2.278126
Kumuha kami ng linear equation: Y=2.278-0.298 X
Pagkatapos potentiating ito, makuha natin ang: y=10 2.278 x -0.298
Ang pagpapalit sa equation na ito ng aktwal na mga halaga X, nakukuha namin ang mga teoretikal na halaga ng resulta. Batay sa kanila, kinakalkula namin ang mga tagapagpahiwatig: ang higpit ng koneksyon - ang correlation index p xy at ang average na approximation error A .

Ang mga katangian ng modelo ng kapangyarihan ay nagpapahiwatig na inilalarawan nito ang relasyon na medyo mas mahusay kaysa sa linear function.

1v. Ang pagtatayo ng equation ng exponential curve y \u003d a b x ay nauuna sa pamamaraan para sa linearizing ng mga variable kapag kinukuha ang logarithm ng parehong bahagi ng equation:
lg y=lg a + x lg b
Y=C+B x
Para sa mga kalkulasyon, ginagamit namin ang data ng talahanayan.

Yx Yx Y2 x2y xy-y x(y-yx)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Kabuuan12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ikasal zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Ang mga halaga ng mga parameter ng regression A at AT ay umabot sa:

A=Y -B x = 1.7605+0.0023 54.9 = 1.887
Nakuha ang isang linear na equation: Y=1.887-0.0023x. Pinapalakas namin ang resultang equation at isulat ito sa karaniwang anyo:
y x =10 1.887 10 -0.0023x = 77.1 0.9947 x
Tinatantya namin ang higpit ng relasyon sa pamamagitan ng index ng ugnayan p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Kabuuan405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 ibig sabihin57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX