Empirical regression coefficients. Mga Batayan ng Linear Regression

Sa pagkakaroon ng isang ugnayan sa pagitan ng salik at mga resultang palatandaan, ang mga doktor ay kadalasang kailangang tukuyin kung anong halaga ang maaaring magbago ng halaga ng isang senyales kapag ang isa pa ay binago ng isang yunit ng pagsukat na karaniwang tinatanggap o itinatag ng mismong mananaliksik.

Halimbawa, paano magbabago ang bigat ng katawan ng mga mag-aaral sa ika-1 baitang (babae o lalaki) kung tumaas ang kanilang taas ng 1 cm. Para sa mga layuning ito, ginagamit ang paraan ng pagsusuri ng regression.

Kadalasan, ang pamamaraan ng pagsusuri ng regression ay ginagamit upang bumuo ng mga normatibong kaliskis at mga pamantayan para sa pisikal na pag-unlad.

  1. Kahulugan ng regression. Ang regression ay isang function na nagbibigay-daan, batay sa average na value ng isang attribute, na matukoy ang average na value ng isa pang attribute na nauugnay sa una.

    Para sa layuning ito, ang regression coefficient at isang bilang ng iba pang mga parameter ay ginagamit. Halimbawa, maaari mong kalkulahin ang bilang ng mga sipon sa karaniwan para sa ilang mga halaga ng average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig.

  2. Kahulugan ng coefficient ng regression. Ang regression coefficient ay ang ganap na halaga kung saan ang halaga ng isang katangian ay nagbabago sa karaniwan kapag ang isa pang katangian na nauugnay dito ay nagbabago ng itinatag na yunit ng pagsukat.
  3. Formula ng koepisyent ng regression. R y / x \u003d r xy x (σ y / σ x)
    kung saan R y / x - regression coefficient;
    r xy - koepisyent ng ugnayan sa pagitan ng mga tampok na x at y;
    (σ y at σ x) - karaniwang mga paglihis ng mga tampok na x at y.

    Sa aming halimbawa;
    σ x = 4.6 (karaniwang paglihis ng temperatura ng hangin sa panahon ng taglagas-taglamig;
    σ y = 8.65 (standard deviation ng bilang ng mga nakakahawang sipon).
    Kaya, ang R y/x ay ang regression coefficient.
    R y / x \u003d -0.96 x (4.6 / 8.65) \u003d 1.8, ibig sabihin. na may pagbaba sa average na buwanang temperatura ng hangin (x) ng 1 degree, ang average na bilang ng mga nakakahawang sipon (y) sa panahon ng taglagas-taglamig ay magbabago ng 1.8 kaso.

  4. Regression Equation. y \u003d M y + R y / x (x - M x)
    kung saan ang y ay ang average na halaga ng attribute, na dapat matukoy kapag nagbago ang average na halaga ng isa pang attribute (x);
    x - kilalang average na halaga ng isa pang tampok;
    R y/x - koepisyent ng regression;
    M x, M y - kilalang average na halaga ng mga tampok na x at y.

    Halimbawa, ang average na bilang ng mga nakakahawang sipon (y) ay maaaring matukoy nang walang mga espesyal na sukat sa anumang average na halaga ng average na buwanang temperatura ng hangin (x). Kaya, kung x \u003d - 9 °, R y / x \u003d 1.8 sakit, M x \u003d -7 °, M y \u003d 20 sakit, pagkatapos ay y \u003d 20 + 1.8 x (9-7) \u003d 20 + 3 .6 = 23.6 sakit.
    Ang equation na ito ay inilapat sa kaso ng isang straight-line na relasyon sa pagitan ng dalawang tampok (x at y).

  5. Layunin ng regression equation. Ang regression equation ay ginagamit upang i-plot ang regression line. Ang huli ay nagbibigay-daan, nang walang mga espesyal na sukat, upang matukoy ang anumang average na halaga (y) ng isang katangian, kung ang halaga (x) ng isa pang katangian ay nagbabago. Batay sa mga datos na ito, nabuo ang isang graph - linya ng regression, na maaaring magamit upang matukoy ang average na bilang ng mga sipon sa anumang halaga ng average na buwanang temperatura sa loob ng saklaw sa pagitan ng mga kinakalkula na halaga ng bilang ng mga sipon.
  6. Regression sigma (formula).
    kung saan σ Ru/x - sigma (standard deviation) ng regression;
    σ y ay ang standard deviation ng feature na y;
    r xy - koepisyent ng ugnayan sa pagitan ng mga tampok na x at y.

    Kaya, kung ang σ y ay ang karaniwang paglihis ng bilang ng mga sipon = 8.65; r xy - ang koepisyent ng ugnayan sa pagitan ng bilang ng mga sipon (y) at ang average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig (x) ay - 0.96, pagkatapos

  7. Layunin ng sigma regression. Nagbibigay ng katangian ng sukatan ng pagkakaiba-iba ng resultang tampok (y).

    Halimbawa, nailalarawan nito ang pagkakaiba-iba ng bilang ng mga sipon sa isang tiyak na halaga ng average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig. Kaya, ang average na bilang ng mga sipon sa temperatura ng hangin x 1 \u003d -6 ° ay maaaring mula sa 15.78 sakit hanggang 20.62 na sakit.
    Sa x 2 = -9°, ang average na bilang ng mga sipon ay maaaring mula sa 21.18 sakit hanggang 26.02 sakit, atbp.

    Ang regression sigma ay ginagamit sa pagbuo ng isang regression scale, na sumasalamin sa paglihis ng mga halaga ng epektibong katangian mula sa average na halaga na naka-plot sa linya ng regression.

  8. Kinakailangan ang data upang kalkulahin at i-plot ang sukat ng regression
    • koepisyent ng regression - Ry/x;
    • equation ng regression - y \u003d M y + R y / x (x-M x);
    • regression sigma - σ Rx/y
  9. Ang pagkakasunud-sunod ng mga kalkulasyon at graphic na representasyon ng regression scale.
    • tukuyin ang regression coefficient sa pamamagitan ng formula (tingnan ang talata 3). Halimbawa, dapat isa matukoy kung magkano ang timbang ng katawan ay magbabago sa average (sa isang tiyak na edad depende sa kasarian) kung ang average na taas ay nagbabago ng 1 cm.
    • ayon sa formula ng equation ng regression (tingnan ang talata 4), tukuyin kung ano ang magiging average, halimbawa, timbang ng katawan (y, y 2, y 3 ...) * para sa isang tiyak na halaga ng paglago (x, x 2, x 3 ...).
      ________________
      * Ang halaga ng "y" ay dapat kalkulahin para sa hindi bababa sa tatlong kilalang halaga ng "x".

      Kasabay nito, ang mga average na halaga ng timbang at taas ng katawan (M x, at M y) para sa isang tiyak na edad at kasarian ay kilala.

    • kalkulahin ang sigma ng regression, alam ang kaukulang mga halaga ng σ y at r xy at pinapalitan ang kanilang mga halaga sa formula (tingnan ang talata 6).
    • batay sa mga kilalang halaga ng x 1, x 2, x 3 at ang kanilang katumbas na average na mga halaga y 1, y 2 y 3, pati na rin ang pinakamaliit (y - σ ru / x) at ang pinakamalaking (y + Ang mga halaga ng σ ru / x (y) ay bumubuo ng isang sukat ng regression.

      Para sa isang graphical na representasyon ng sukat ng regression, ang mga halaga x, x 2, x 3 (y-axis) ay unang minarkahan sa graph, i.e. isang linya ng pagbabalik ay binuo, halimbawa, ang pag-asa ng timbang ng katawan (y) sa taas (x).

      Pagkatapos, sa kaukulang mga punto y 1 , y 2 , y 3 ang mga numerical na halaga ng regression sigma ay minarkahan, i.e. sa graph hanapin ang pinakamaliit at pinakamalaking halaga ng y 1 , y 2 , y 3 .

  10. Praktikal na paggamit ng sukat ng regression. Ang mga normative scale at pamantayan ay binuo, lalo na para sa pisikal na pag-unlad. Ayon sa karaniwang sukat, posibleng magbigay ng indibidwal na pagtatasa ng pag-unlad ng mga bata. Kasabay nito, ang pisikal na pag-unlad ay tinatasa bilang magkatugma kung, halimbawa, sa isang tiyak na taas, ang timbang ng katawan ng bata ay nasa loob ng isang sigma ng regression sa average na kinakalkula na yunit ng timbang ng katawan - (y) para sa isang naibigay na taas (x) (y ± 1 σ Ry / x).

    Ang pisikal na pag-unlad ay itinuturing na hindi magkakatugma sa mga tuntunin ng timbang ng katawan kung ang timbang ng katawan ng bata para sa isang tiyak na taas ay nasa loob ng pangalawang sigma ng regression: (y ± 2 σ Ry/x)

    Ang pisikal na pag-unlad ay magiging matinding hindi pagkakasundo dahil sa labis at hindi sapat na timbang ng katawan kung ang timbang ng katawan para sa isang tiyak na taas ay nasa loob ng ikatlong sigma ng regression (y ± 3 σ Ry/x).

Ayon sa mga resulta ng isang istatistikal na pag-aaral ng pisikal na pag-unlad ng 5-taong-gulang na mga lalaki, alam na ang kanilang average na taas (x) ay 109 cm, at ang kanilang average na timbang ng katawan (y) ay 19 kg. Ang koepisyent ng ugnayan sa pagitan ng taas at timbang ng katawan ay +0.9, ang mga karaniwang paglihis ay ipinakita sa talahanayan.

Kailangan:

  • kalkulahin ang koepisyent ng pagbabalik;
  • gamit ang regression equation, tukuyin kung ano ang inaasahang bigat ng katawan ng 5 taong gulang na batang lalaki na may taas na katumbas ng x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • kalkulahin ang regression sigma, bumuo ng isang regression scale, ipakita ang mga resulta ng solusyon nito sa graphic na paraan;
  • gumuhit ng angkop na konklusyon.

Ang kalagayan ng problema at ang mga resulta ng solusyon nito ay ipinakita sa talahanayan ng buod.

Talahanayan 1

Mga kondisyon ng problema Mga resulta ng solusyon sa problema
regression equation sigma regression sukat ng regression (inaasahang timbang ng katawan (sa kg))
M σ r xy R y/x X Sa σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Taas (x) 109 cm ± 4.4cm +0,9 0,16 100cm 17.56 kg ± 0.35 kg 17.21 kg 17.91 kg
Timbang ng katawan (y) 19 kg ± 0.8 kg 110 cm 19.16 kg 18.81 kg 19.51 kg
120 cm 20.76 kg 20.41 kg 21.11 kg

Solusyon.

Konklusyon. Kaya, ang sukat ng regression sa loob ng kinakalkula na mga halaga ng timbang ng katawan ay nagbibigay-daan sa iyo upang matukoy ito para sa anumang iba pang halaga ng paglago o upang masuri ang indibidwal na pag-unlad ng bata. Upang gawin ito, ibalik ang patayo sa linya ng regression.

  1. Vlasov V.V. Epidemiology. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Pampublikong kalusugan at pangangalaga sa kalusugan. Teksbuk para sa mataas na paaralan. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medik V.A., Yuriev V.K. Isang kurso ng mga lektura sa kalusugan ng publiko at pangangalaga sa kalusugan: Bahagi 1. Kalusugan ng publiko. - M.: Medisina, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. at iba pa.Social medicine at healthcare organization (Gabay sa 2 volume). - St. Petersburg, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. at iba pa Social hygiene at organisasyon ng pangangalagang pangkalusugan (Tutorial) - Moscow, 2000. - 432 p.
  6. S. Glantz. Medico-biological na istatistika. Per mula sa English. - M., Practice, 1998. - 459 p.

Ang pag-aaral ng mga dependency ng ugnayan ay batay sa pag-aaral ng naturang mga ugnayan sa pagitan ng mga variable, kung saan ang mga halaga ng isang variable, maaari itong kunin bilang isang dependent variable, "sa karaniwan" ay nagbabago depende sa kung anong mga halaga ang kinukuha ng isa pang variable, itinuturing na isang sanhi na may kaugnayan sa dependent variable. Ang pagkilos ng dahilan na ito ay isinasagawa sa mga kondisyon ng isang kumplikadong pakikipag-ugnayan ng iba't ibang mga kadahilanan, bilang isang resulta kung saan ang pagpapakita ng isang pattern ay natatakpan ng impluwensya ng mga pagkakataon. Ang pagkalkula ng mga average na halaga ng nagresultang katangian para sa isang naibigay na pangkat ng mga halaga ng attribute-factor, ang impluwensya ng mga pagkakataon ay bahagyang inalis. Ang pagkalkula ng mga parameter ng teoretikal na linya ng komunikasyon, sila ay higit na tinanggal at ang isang hindi malabo (sa anyo) na pagbabago "y" na may pagbabago sa kadahilanan na "x" ay nakuha.

Upang pag-aralan ang mga stochastic na relasyon, malawakang ginagamit ang paraan ng paghahambing ng dalawang parallel na serye, ang paraan ng analytical groupings, correlation analysis, regression analysis, at ilang nonparametric na pamamaraan. Sa pangkalahatan, ang gawain ng mga istatistika sa larangan ng pag-aaral ng mga relasyon ay hindi lamang upang mabilang ang kanilang presensya, direksyon at lakas ng koneksyon, kundi pati na rin upang matukoy ang anyo (analytical expression) ng impluwensya ng mga katangian ng kadahilanan sa resultang isa. Upang malutas ito, ginagamit ang mga pamamaraan ng ugnayan at pagsusuri ng regression.

KABANATA 1. REGRESSION EQUATION: THEORETICAL FOUNDATIONS

1.1. Regression equation: kakanyahan at uri ng mga function

Ang regression (Latin regressio - baligtad na paggalaw, paglipat mula sa mas kumplikadong mga anyo ng pag-unlad hanggang sa hindi gaanong kumplikado) ay isa sa mga pangunahing konsepto sa teorya ng posibilidad at istatistika ng matematika, na nagpapahayag ng pag-asa ng average na halaga ng isang random na variable sa mga halaga ng isa pang random variable o ilang random variable. Ang konseptong ito ay ipinakilala ni Francis Galton noong 1886.

Ang teoretikal na linya ng regression ay ang linya sa paligid kung saan ang mga punto ng patlang ng ugnayan ay pinagsama at kung saan ay nagpapahiwatig ng pangunahing direksyon, ang pangunahing takbo ng relasyon.

Ang teoretikal na linya ng regression ay dapat na sumasalamin sa pagbabago sa mga average na halaga ng epektibong katangian na "y" habang nagbabago ang mga halaga ng factor attribute na "x", sa kondisyon na ang lahat ng iba pa ay random na may kaugnayan sa factor na "x" - ang mga sanhi ay kapwa nakansela. Samakatuwid, ang linyang ito ay dapat iguhit sa paraang ang kabuuan ng mga paglihis ng mga punto ng patlang ng ugnayan mula sa kaukulang mga punto ng teoretikal na linya ng regression ay katumbas ng zero, at ang kabuuan ng mga parisukat ng mga paglihis na ito ay ang pinakamababa. halaga.

y=f(x) - ang regression equation ay isang formula para sa isang istatistikal na relasyon sa pagitan ng mga variable.

Ang isang tuwid na linya sa isang eroplano (sa isang puwang ng dalawang dimensyon) ay ibinibigay ng equation na y=a+b*x. Sa mas detalyado: ang variable na y ay maaaring ipahayag sa mga tuntunin ng isang pare-pareho (a) at isang slope (b) na pinarami ng variable na x. Ang pare-pareho ay tinatawag ding intercept, at ang slope ay tinatawag ding regression o B-factor.

Ang isang mahalagang hakbang sa pagsusuri ng regression ay upang matukoy ang uri ng function, na nagpapakilala sa ugnayan sa pagitan ng mga feature. Ang pangunahing batayan ay dapat na isang makabuluhang pagsusuri sa likas na katangian ng pag-asa sa ilalim ng pag-aaral, ang mekanismo nito. Kasabay nito, malayo sa palaging posible na teoretikal na patunayan ang anyo ng koneksyon ng bawat isa sa mga kadahilanan sa tagapagpahiwatig ng pagganap, dahil ang mga pinag-aralan na socio-economic phenomena ay napaka kumplikado at ang mga kadahilanan na bumubuo sa kanilang antas ay malapit na magkakaugnay at nakikipag-ugnayan. kasama ang isat-isa. Samakatuwid, sa batayan ng isang teoretikal na pagsusuri, ang pinaka-pangkalahatang mga konklusyon ay kadalasang maaaring makuha tungkol sa direksyon ng relasyon, ang posibilidad ng pagbabago nito sa populasyon na pinag-aaralan, ang pagiging lehitimo ng paggamit ng isang linear na relasyon, ang posibleng pagkakaroon ng matinding halaga. , atbp. Ang isang kinakailangang karagdagan sa mga naturang pagpapalagay ay dapat na ang pagsusuri ng tiyak na makatotohanang data.

Ang isang tinatayang ideya ng linya ng link ay maaaring makuha batay sa empirical regression line. Ang empirical regression line ay karaniwang isang putol na linya, ay may mas marami o hindi gaanong makabuluhang break. Ito ay ipinaliwanag sa pamamagitan ng katotohanan na ang impluwensya ng iba pang hindi natukoy na mga kadahilanan na nakakaapekto sa pagkakaiba-iba ng resultang katangian ay hindi ganap na nabayaran sa average, dahil sa isang hindi sapat na malaking bilang ng mga obserbasyon, samakatuwid, ang isang empirical na link ay maaaring gamitin upang piliin at bigyang-katwiran ang uri ng theoretical curve, sa kondisyon na ang bilang ng mga obserbasyon ay sapat na malaki.

Ang isa sa mga elemento ng mga partikular na pag-aaral ay ang paghahambing ng iba't ibang dependency equation batay sa paggamit ng mga pamantayan sa kalidad para sa pagtatantya ng empirical na data sa pamamagitan ng mga nakikipagkumpitensyang modelo. Ang mga sumusunod na uri ng mga function ay kadalasang ginagamit upang makilala ang mga ugnayan ng mga economic indicator:

1. Linear:

2. Hyperbolic:

3. Nagpapakita:

4. Parabolic:

5. Kapangyarihan:

6. Logarithmic:

7. Logistic:

Ang isang modelo na may isang nagpapaliwanag at isang nagpapaliwanag na variable ay isang ipinares na modelo ng regression. Kung dalawa o higit pang mga paliwanag (factorial) na mga variable ang ginagamit, ang isa ay nagsasalita ng paggamit ng isang multiple regression model. Sa kasong ito, maaaring piliin ang linear, exponential, hyperbolic, exponential at iba pang mga uri ng function na nagkokonekta sa mga variable na ito bilang mga opsyon.

Upang mahanap ang mga parameter a at b, ang mga equation ng regression ay gumagamit ng least squares na paraan. Kapag gumagamit ng pinakamababang parisukat na paraan upang mahanap ang gayong function na pinakaangkop sa empirikal na data, pinaniniwalaan na ang bag ng mga squared deviations ng mga empirical na punto mula sa theoretical regression line ay dapat ang pinakamababang halaga.

Ang criterion ng least squares method ay maaaring isulat bilang mga sumusunod:

Samakatuwid, ang paggamit ng pamamaraan ng least squares upang matukoy ang mga parameter a at b ng tuwid na linya na pinakaangkop sa empirical na data ay nabawasan sa isang matinding problema.

Tungkol sa mga rating, ang mga sumusunod na konklusyon ay maaaring iguguhit:

1. Ang pinakamaliit na mga pagtatantya ng mga parisukat ay mga sampling function, na ginagawang madaling kalkulahin ang mga ito.

2. Ang pinakamaliit na pagtatantya ng mga parisukat ay mga pagtatantya ng punto ng mga teoretikal na coefficient ng regression.

3. Ang empirical line ng regression ay kinakailangang dumaan sa puntong x, y.

4. Ang empirical regression equation ay binuo sa paraang ang kabuuan ng deviations

.

Ang isang graphical na representasyon ng empirical at teoretikal na linya ng komunikasyon ay ipinapakita sa Figure 1.


Ang parameter b sa equation ay ang regression coefficient. Kung mayroong direktang ugnayan, ang regression coefficient ay may positibong halaga, at sa kaso ng isang kabaligtaran na relasyon, ang regression coefficient ay negatibo. Ang regression coefficient ay nagpapakita kung gaano kalaki ang halaga ng epektibong attribute na "y" na nagbabago sa average kapag ang factor na attribute na "x" ay nagbabago ng isa. Sa geometrically, ang regression coefficient ay ang slope ng tuwid na linya na naglalarawan ng correlation equation na may kaugnayan sa x-axis (para sa equation

).

Ang sangay ng multivariate statistical analysis na nakatuon sa pagbawi ng mga dependencies ay tinatawag na regression analysis. Ang terminong "linear regression analysis" ay ginagamit kapag ang function na isinasaalang-alang ay nakadepende nang linear sa mga tinantyang parameter (dependence sa independent variables ay maaaring maging arbitrary). Teorya ng Pagsusuri

Ang hindi kilalang mga parameter ay mahusay na binuo nang tumpak sa kaso ng linear regression analysis. Kung walang linearity at imposibleng maipasa sa isang linear na problema, kung gayon, bilang panuntunan, hindi dapat asahan ng isang tao ang magagandang katangian mula sa mga pagtatantya. Ipakita natin ang mga diskarte sa kaso ng mga dependency ng iba't ibang uri. Kung ang dependence ay may anyo ng isang polynomial (polynomial). Kung ang pagkalkula ng ugnayan ay nagpapakilala sa lakas ng ugnayan sa pagitan ng dalawang variable, ang pagsusuri ng regression ay nagsisilbi upang matukoy ang uri ng relasyon na ito at ginagawang posible na mahulaan ang halaga ng isang (umaasa) na variable batay sa halaga ng isa pang (independiyenteng) variable. Para magsagawa ng linear regression analysis, ang dependent variable ay dapat may interval (o ordinal) scale. Kasabay nito, ipinapakita ng binary logistic regression ang pagtitiwala ng isang dichotomous variable sa ilang iba pang variable na nauugnay sa anumang sukat. Ang parehong mga kondisyon ng aplikasyon ay may bisa para sa pagsusuri ng probit. Kung ang dependent variable ay kategorya, ngunit may higit sa dalawang kategorya, kung gayon ang multinomial logistic regression ay magiging isang naaangkop na pamamaraan dito, at ang mga nonlinear na relasyon sa pagitan ng mga variable na kabilang sa interval scale ay maaaring masuri. Para dito, ang paraan ng non-linear regression ay inilaan.

REGRESSION COEFFICIENT

- Ingles koepisyent, regression; Aleman Regressionskoeffizient. Isa sa mga katangian ng relasyon sa pagitan ng dependent y at independent variable x. K. r. ipinapakita sa pamamagitan ng kung gaano karaming mga yunit ang halaga na tinanggap ng y ay tumataas kung ang variable na x ay nagbabago ng isang yunit ng pagbabago nito. Sa geometriko, K. r. ay ang slope ng tuwid na linya y.

Antinazi. Encyclopedia of Sociology, 2009

Tingnan kung ano ang "REGRESSION COEFFICIENT" sa ibang mga diksyunaryo:

    koepisyent ng regression- - [L.G. Sumenko. English Russian Dictionary of Information Technologies. M .: GP TsNIIS, 2003.] Mga paksa sa teknolohiya ng impormasyon sa pangkalahatan EN regression coefficient ... Handbook ng Teknikal na Tagasalin

    Coefficient ng regression- 35. Regression coefficient Parameter ng regression analysis model Pinagmulan: GOST 24026 80: Mga pagsubok sa pananaliksik. Pagpaplano ng eksperimento. Mga Tuntunin at Kahulugan…

    koepisyent ng regression- Ang koepisyent ng malayang variable sa equation ng regression ... Diksyunaryo ng Sociological Statistics

    REGRESSION COEFFICIENT- Ingles. koepisyent, regression; Aleman Regressionskoeffizient. Isa sa mga katangian ng relasyon sa pagitan ng dependent y at independent variable x. K. r. ipinapakita sa pamamagitan ng kung gaano karaming mga yunit ang halaga na tinatanggap ng y ay tumataas kung ang variable na x ay nagbabago sa ... ... Paliwanag na Diksyunaryo ng Sosyolohiya

    sample regression coefficient- 2.44. sample regression coefficient Coefficient ng isang variable sa isang regression curve o surface equation Source: GOST R 50779.10 2000: Statistical method. Probability at base ng mga istatistika. Mga Tuntunin at Kahulugan… Dictionary-reference na aklat ng mga tuntunin ng normatibo at teknikal na dokumentasyon

    Partial regression coefficient- isang istatistikal na sukat na nagpapahiwatig ng antas ng impluwensya ng independiyenteng variable sa umaasa sa isang sitwasyon kung saan ang magkaparehong impluwensya ng lahat ng iba pang mga variable sa modelo ay nasa ilalim ng kontrol ng mananaliksik ... Sociological Dictionary Socium

    MGA REGRESSIONS, TIMBANG- Isang kasingkahulugan para sa konsepto ng regression coefficient ... Explanatory Dictionary of Psychology

    HERITABILITY COEFFICIENT- Isang indicator ng relatibong bahagi ng genetic variability sa pangkalahatang phenotypic variation ng isang katangian. Ang pinakakaraniwang pamamaraan para sa pagtatasa ng heritability ng mga katangiang kapaki-pakinabang sa ekonomiya ay: kung saan ang h2 ay ang heritability coefficient; r intraclass…… Mga termino at kahulugang ginagamit sa pagpaparami, genetika at pagpaparami ng mga hayop sa bukid

    - (R squared) ay ang proporsyon ng variance ng dependent variable na ipinaliwanag ng dependence model na pinag-uusapan, ibig sabihin, ang mga paliwanag na variable. Mas tiyak, isa itong binawasan ang proporsyon ng hindi maipaliwanag na pagkakaiba (ang pagkakaiba ng random na error ng modelo, o kondisyonal ... ... Wikipedia

    Ang koepisyent ng independent variable sa equation ng regression. Kaya, halimbawa, sa isang linear regression equation na nag-uugnay sa mga random na variable Y at X, R. k. b0 at b1 ay pantay-pantay: kung saan ang r ay ang koepisyent ng ugnayan ng X at Y, . Pagkalkula ng mga pagtatantya R. k. Mathematical Encyclopedia

Mga libro

  • Panimula sa econometrics (CDpc), Yanovsky Leonid Petrovich, Bukhovets Alexey Georgievich. Ang mga pundasyon ng econometrics at statistical analysis ng one-dimensional time series ay ibinigay. Malaking pansin ang binabayaran sa klasikal na pares at maramihang regression, klasikal at pangkalahatan na mga pamamaraan...
  • Bilis ng pagbabasa. Epektibong Simulator (CDpc), . Ang programa ay naka-address sa mga user na gustong makabisado ang pamamaraan ng bilis ng pagbabasa sa pinakamaikling posibleng panahon. Ang kurso ay binuo sa prinsipyo ng "teorya - kasanayan". Teoretikal na materyal at praktikal ...

Sa mga nakaraang tala, madalas na nakatuon ang pansin sa iisang variable na numero, gaya ng pagbabalik ng mutual fund, oras ng pag-load ng Web page, o pagkonsumo ng soft drink. Sa ito at sa mga sumusunod na tala, isasaalang-alang namin ang mga pamamaraan para sa paghula ng mga halaga ng isang numeric variable depende sa mga halaga ng isa o higit pang mga numeric variable.

Ang materyal ay ilalarawan sa pamamagitan ng isang halimbawa. Pagtataya ng dami ng benta sa isang tindahan ng damit. Ang Sunflowers chain ng mga discount na tindahan ng damit ay patuloy na lumalawak sa loob ng 25 taon. Gayunpaman, ang kumpanya ay kasalukuyang walang sistematikong diskarte sa pagpili ng mga bagong outlet. Ang lokasyon kung saan nilalayon ng kumpanya na magbukas ng bagong tindahan ay tinutukoy batay sa mga pansariling pagsasaalang-alang. Ang mga pamantayan sa pagpili ay mga kanais-nais na kondisyon sa pag-upa o ang ideya ng tagapamahala ng perpektong lokasyon ng tindahan. Isipin na ikaw ang pinuno ng Special Projects and Planning Department. Ikaw ay naatasang bumuo ng isang estratehikong plano para sa pagbubukas ng mga bagong tindahan. Ang planong ito ay dapat maglaman ng pagtataya ng taunang benta sa mga bagong bukas na tindahan. Naniniwala ka na ang pagbebenta ng espasyo ay direktang nauugnay sa kita at gusto mong isama ang katotohanang iyon sa iyong proseso ng paggawa ng desisyon. Paano ka bubuo ng istatistikal na modelo na hinuhulaan ang mga taunang benta batay sa bagong laki ng tindahan?

Karaniwan, ang pagsusuri ng regression ay ginagamit upang mahulaan ang mga halaga ng isang variable. Ang layunin nito ay bumuo ng isang istatistikal na modelo na hinuhulaan ang mga halaga ng dependent variable, o tugon, mula sa mga halaga ng hindi bababa sa isang independyente, o nagpapaliwanag, variable. Sa tala na ito, isasaalang-alang namin ang isang simpleng linear regression - isang istatistikal na paraan na nagbibigay-daan sa iyo upang mahulaan ang mga halaga ng dependent variable. Y sa pamamagitan ng mga halaga ng malayang variable X. Ang mga sumusunod na tala ay maglalarawan ng maraming modelo ng regression na idinisenyo upang mahulaan ang mga halaga ng independiyenteng variable Y sa pamamagitan ng mga halaga ng ilang mga dependent variable ( X 1 , X 2 , …, X k).

Mag-download ng tala sa o format, mga halimbawa sa format

Mga uri ng mga modelo ng regression

saan ρ 1 ay ang autocorrelation coefficient; kung ρ 1 = 0 (walang autocorrelation), D≈ 2; kung ρ 1 ≈ 1 (positibong autocorrelation), D≈ 0; kung ρ 1 = -1 (negatibong autocorrelation), D ≈ 4.

Sa pagsasagawa, ang paggamit ng Durbin-Watson criterion ay batay sa isang paghahambing ng halaga D na may mga kritikal na teoretikal na halaga dL at d U para sa isang naibigay na bilang ng mga obserbasyon n, ang bilang ng mga independiyenteng variable ng modelo k(para sa simpleng linear regression k= 1) at antas ng kahalagahan α. Kung ang D< d L , ang hypothesis ng pagsasarili ng random deviations ay tinanggihan (kaya, mayroong isang positibong autocorrelation); kung D > dU, ang hypothesis ay hindi tinatanggihan (iyon ay, walang autocorrelation); kung dL< D < d U walang sapat na dahilan para magdesisyon. Kapag ang kinakalkula na halaga D lumampas sa 2, kung gayon dL at d U hindi ang coefficient mismo ang inihahambing D, at ang expression (4 – D).

Upang kalkulahin ang mga istatistika ng Durbin-Watson sa Excel, bumaling kami sa ibabang talahanayan sa Fig. labing-apat Pag-alis ng balanse. Ang numerator sa expression (10) ay kinakalkula gamit ang function = SUMMQDIFF(array1, array2), at ang denominator = SUMMQ(array) (Fig. 16).

kanin. 16. Mga formula para sa pagkalkula ng mga istatistika ng Durbin-Watson

Sa ating halimbawa D= 0.883. Ang pangunahing tanong ay: anong halaga ng istatistika ng Durbin-Watson ang dapat ituring na sapat na maliit upang tapusin na mayroong isang positibong autocorrelation? Kinakailangan na iugnay ang halaga ng D sa mga kritikal na halaga ( dL at d U) depende sa bilang ng mga obserbasyon n at antas ng kahalagahan α (Larawan 17).

kanin. 17. Mga kritikal na halaga ng mga istatistika ng Durbin-Watson (table fragment)

Kaya, sa problema ng dami ng mga benta sa isang tindahan na naghahatid ng mga kalakal sa iyong tahanan, mayroong isang malayang variable ( k= 1), 15 obserbasyon ( n= 15) at antas ng kabuluhan α = 0.05. Dahil dito, dL= 1.08 at dU= 1.36. Dahil ang D = 0,883 < dL= 1.08, mayroong isang positibong autocorrelation sa pagitan ng mga nalalabi, ang pinakamababang paraan ng mga parisukat ay hindi mailalapat.

Pagsubok ng Hypotheses tungkol sa Slope at Correlation Coefficient

Ang regression sa itaas ay inilapat lamang para sa pagtataya. Upang matukoy ang mga coefficient ng regression at mahulaan ang halaga ng isang variable Y para sa isang naibigay na variable na halaga X ginamit ang paraan ng least squares. Bilang karagdagan, isinasaalang-alang namin ang karaniwang error ng pagtatantya at ang koepisyent ng halo-halong ugnayan. Kung ang natitirang pagsusuri ay nagpapatunay na ang mga kondisyon ng applicability ng least squares na paraan ay hindi nilalabag, at ang simpleng linear regression na modelo ay sapat, batay sa sample na data, maaari itong mapagtatalunan na mayroong isang linear na relasyon sa pagitan ng mga variable sa populasyon.

Aplikasyont -pamantayan para sa slope. Sa pamamagitan ng pagsuri kung ang slope ng populasyon β 1 ay katumbas ng zero, matutukoy ng isa kung mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng mga variable. X at Y. Kung ang hypothesis na ito ay tinanggihan, ito ay maaaring argued na sa pagitan ng mga variable X at Y mayroong isang linear na relasyon. Ang null at alternatibong hypotheses ay binabalangkas tulad ng sumusunod: H 0: β 1 = 0 (walang linear na relasyon), H1: β 1 ≠ 0 (may linear na relasyon). Sa pamamagitan ng kahulugan t-statistic ay katumbas ng pagkakaiba sa pagitan ng sample na slope at hypothetical na slope ng populasyon, na hinati sa karaniwang error ng pagtatantya ng slope:

(11) t = (b 1 β 1 ) / Sb 1

saan b 1 ay ang slope ng direktang regression batay sa sample na data, ang β1 ay ang hypothetical slope ng direktang pangkalahatang populasyon, , at mga istatistika ng pagsubok t Mayroon itong t- pamamahagi kasama ang n - 2 antas ng kalayaan.

Tingnan natin kung mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng laki ng tindahan at taunang benta sa α = 0.05. t-criteria ay ipinapakita kasama ng iba pang mga parameter kapag gumagamit Pakete ng pagsusuri(pagpipilian Regression). Ang buong resulta ng Package ng Pagsusuri ay ipinapakita sa Fig. 4, isang fragment na nauugnay sa t-statistics - sa fig. labing-walo.

kanin. 18. Mga resulta ng aplikasyon t

Ang dami kasi ng tindahan n= 14 (tingnan ang Fig. 3), kritikal na halaga t-Ang mga istatistika sa antas ng kahalagahan α = 0.05 ay matatagpuan sa pamamagitan ng formula: t L=STUDENT.INV(0.025;12) = -2.1788 kung saan ang 0.025 ay kalahati ng significance level at 12 = n – 2; t U\u003d STUDENT.INV (0.975, 12) \u003d +2.1788.

Dahil ang t-mga istatistika = 10.64 > t U= 2.1788 (Larawan 19), null hypothesis H 0 ay tinatanggihan. Sa kabilang kamay, R-halaga para sa X\u003d 10.6411, na kinakalkula ng formula \u003d 1-STUDENT.DIST (D3, 12, TRUE), ay humigit-kumulang katumbas ng zero, kaya ang hypothesis H 0 ay tinanggihan muli. Ang katotohanan na R-ang halaga ay halos zero, ibig sabihin, kung walang tunay na linear na relasyon sa pagitan ng laki ng tindahan at taunang benta, halos imposible itong mahanap gamit ang linear regression. Samakatuwid, mayroong makabuluhang linear na kaugnayan sa istatistika sa pagitan ng average na taunang benta ng tindahan at laki ng tindahan.

kanin. 19. Pagsubok sa hypothesis tungkol sa slope ng pangkalahatang populasyon sa antas ng kahalagahan na 0.05 at 12 degrees ng kalayaan

AplikasyonF -pamantayan para sa slope. Ang isang alternatibong diskarte sa pagsubok ng mga hypotheses tungkol sa slope ng isang simpleng linear regression ay ang paggamit F-pamantayan. Tandaan mo yan F-Ginagamit ang criterion upang subukan ang ugnayan sa pagitan ng dalawang pagkakaiba (tingnan ang mga detalye). Kapag sinusubukan ang slope hypothesis, ang sukatan ng mga random na error ay ang error variance (ang kabuuan ng mga squared error na hinati sa bilang ng mga degree ng kalayaan), kaya F-test ay gumagamit ng ratio ng pagkakaiba na ipinaliwanag ng regression (ibig sabihin, ang mga halaga SSR hinati sa bilang ng mga independent variable k), sa pagkakaiba-iba ng error ( MSE=SYX 2 ).

Sa pamamagitan ng kahulugan F-statistic ay katumbas ng mean squared deviations dahil sa regression (MSR) na hinati sa error variance (MSE): F = MSR/ MSE, saan MSR=SSR / k, MSE =SSE/(n– k – 1), k ay ang bilang ng mga independyenteng variable sa modelo ng regression. Mga istatistika ng pagsubok F Mayroon itong F- pamamahagi kasama ang k at n– k – 1 antas ng kalayaan.

Para sa isang naibigay na antas ng kabuluhan α, ang tuntunin ng desisyon ay binabalangkas tulad ng sumusunod: kung F > FU, ang null hypothesis ay tinanggihan; kung hindi, hindi ito tinatanggihan. Ang mga resulta, na ipinakita sa anyo ng isang talahanayan ng buod ng pagsusuri ng pagkakaiba-iba, ay ipinapakita sa fig. dalawampu.

kanin. 20. Talaan ng pagsusuri ng pagkakaiba upang subukan ang hypothesis ng istatistikal na kahalagahan ng koepisyent ng regression

Ganun din t-pamantayan F-Ang mga pamantayan ay ipinapakita sa talahanayan kapag gumagamit Pakete ng pagsusuri(pagpipilian Regression). Buong resulta ng trabaho Pakete ng pagsusuri ipinapakita sa fig. 4, fragment na may kaugnayan sa F-statistika - sa fig. 21.

kanin. 21. Mga resulta ng aplikasyon F- Pamantayan na nakuha gamit ang Excel Analysis ToolPack

Ang F-statistic ay 113.23 at R-value na malapit sa zero (cell KahalagahanF). Kung ang antas ng kahalagahan α ay 0.05, tukuyin ang kritikal na halaga F-Ang mga distribusyon na may isa at 12 degrees ng kalayaan ay maaaring makuha mula sa formula F U\u003d F. OBR (1-0.05; 1; 12) \u003d 4.7472 (Larawan 22). Dahil ang F = 113,23 > F U= 4.7472, at R-value na malapit sa 0< 0,05, нулевая гипотеза H 0 lumihis, i.e. Ang laki ng isang tindahan ay malapit na nauugnay sa taunang dami ng benta nito.

kanin. 22. Pagsubok sa hypothesis tungkol sa slope ng pangkalahatang populasyon sa antas ng kahalagahan na 0.05, na may isa at 12 degree ng kalayaan

Confidence interval na naglalaman ng slope β 1 . Upang subukan ang hypothesis tungkol sa pagkakaroon ng isang linear na relasyon sa pagitan ng mga variable, maaari kang bumuo ng isang confidence interval na naglalaman ng slope β 1 at siguraduhin na ang hypothetical na halaga β 1 ​​= 0 ay kabilang sa pagitan na ito. Ang sentro ng agwat ng kumpiyansa na naglalaman ng slope β 1 ay ang sample na slope b 1 , at ang mga hangganan nito ay ang mga dami b 1 ±t n –2 Sb 1

Gaya ng ipinapakita sa fig. labing-walo, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0.975, 12) \u003d 2.1788. Dahil dito, b 1 ±t n –2 Sb 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, o + 1.328 ≤ β 1 ≤ +2.012. Kaya, ang slope ng populasyon na may posibilidad na 0.95 ay nasa hanay mula +1.328 hanggang +2.012 (ibig sabihin, mula $1,328,000 hanggang $2,012,000). Dahil ang mga halagang ito ay mas malaki kaysa sa zero, mayroong istatistikal na makabuluhang linear na relasyon sa pagitan ng taunang benta at lugar ng tindahan. Kung ang pagitan ng kumpiyansa ay naglalaman ng zero, walang ugnayan sa pagitan ng mga variable. Bilang karagdagan, ang agwat ng kumpiyansa ay nangangahulugan na ang bawat 1,000 sq. feet ay nagreresulta sa pagtaas ng average na benta na $1,328,000 hanggang $2,012,000.

Paggamitt -pamantayan para sa koepisyent ng ugnayan. ipinakilala ang koepisyent ng ugnayan r, na isang sukatan ng ugnayan sa pagitan ng dalawang numeric na variable. Maaari itong magamit upang matukoy kung mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng dalawang variable. Tukuyin natin ang koepisyent ng ugnayan sa pagitan ng mga populasyon ng parehong mga variable sa pamamagitan ng simbolo na ρ. Ang mga null at alternatibong hypotheses ay nabuo tulad ng sumusunod: H 0: ρ = 0 (walang ugnayan), H 1: ρ ≠ 0 (may ugnayan). Pagsusuri para sa pagkakaroon ng isang ugnayan:

saan r = + , kung b 1 > 0, r = – , kung b 1 < 0. Тестовая статистика t Mayroon itong t- pamamahagi kasama ang n - 2 antas ng kalayaan.

Sa problema ng Sunflowers store chain r2= 0.904, at b 1- +1.670 (tingnan ang Fig. 4). Dahil ang b 1> 0, ang koepisyent ng ugnayan sa pagitan ng taunang benta at laki ng tindahan ay r= +√0.904 = +0.951. Subukan natin ang null hypothesis na walang ugnayan sa pagitan ng mga variable na ito gamit t- mga istatistika:

Sa antas ng kabuluhan na α = 0.05, ang null hypothesis ay dapat tanggihan dahil t= 10.64 > 2.1788. Kaya, maaari itong maitalo na mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng taunang mga benta at laki ng tindahan.

Kapag tinatalakay ang mga hinuha tungkol sa slope ng populasyon, ang mga agwat ng kumpiyansa at pamantayan para sa pagsubok ng mga hypotheses ay mga tool na maaaring palitan. Gayunpaman, ang pagkalkula ng agwat ng kumpiyansa na naglalaman ng koepisyent ng ugnayan ay lumalabas na mas mahirap, dahil ang anyo ng pamamahagi ng sampling ng istatistika r depende sa totoong correlation coefficient.

Pagtatantya ng inaasahan sa matematika at hula ng mga indibidwal na halaga

Tinatalakay ng seksyong ito ang mga pamamaraan para sa pagtatantya ng inaasahang tugon Y at mga hula ng mga indibidwal na halaga Y para sa mga ibinigay na halaga ng variable X.

Pagbuo ng isang agwat ng kumpiyansa. Sa halimbawa 2 (tingnan ang seksyon sa itaas Pinakamababang parisukat na pamamaraan) ginawang posible ng regression equation na mahulaan ang halaga ng variable Y X. Sa problema ng pagpili ng isang lokasyon para sa isang retail outlet, ang average na taunang benta sa isang tindahan na may lugar na 4000 sq. feet ay katumbas ng 7.644 milyong dolyar. Gayunpaman, ang pagtatantya na ito ng matematikal na inaasahan ng pangkalahatang populasyon ay isang punto. upang matantya ang inaasahan sa matematika ng pangkalahatang populasyon, iminungkahi ang konsepto ng agwat ng kumpiyansa. Katulad nito, maaaring ipakilala ng isa ang konsepto agwat ng kumpiyansa para sa mathematical na inaasahan ng tugon para sa isang ibinigay na halaga ng isang variable X:

saan , = b 0 + b 1 X i– hinulaang variable ng halaga Y sa X = X i, S YX ay ang mean square error, n ay ang sample size, Xi- ang ibinigay na halaga ng variable X, µ Y|X = Xi– mathematical na inaasahan ng isang variable Y sa X = Х i,SSX=

Ang pagsusuri ng formula (13) ay nagpapakita na ang lapad ng agwat ng kumpiyansa ay nakasalalay sa ilang mga kadahilanan. Sa isang naibigay na antas ng kahalagahan, ang pagtaas sa amplitude ng mga pagbabago sa paligid ng linya ng regression, na sinusukat gamit ang mean square error, ay humahantong sa isang pagtaas sa lapad ng agwat. Sa kabilang banda, tulad ng inaasahan, ang pagtaas sa laki ng sample ay sinamahan ng pagpapaliit ng pagitan. Bilang karagdagan, ang lapad ng agwat ay nagbabago depende sa mga halaga Xi. Kung ang halaga ng variable Y hinulaang para sa dami X, malapit sa average na halaga , ang agwat ng kumpiyansa ay lumalabas na mas makitid kaysa kapag hinuhulaan ang tugon para sa mga halaga na malayo sa mean.

Sabihin nating kapag pumipili ng lokasyon para sa isang tindahan, gusto naming bumuo ng 95% na agwat ng kumpiyansa para sa average na taunang benta sa lahat ng mga tindahan na may lawak na 4000 metro kuwadrado. paa:

Samakatuwid, ang average na taunang dami ng benta sa lahat ng mga tindahan na may lugar na ​​​​​​​​​​​​​​​​​​​​square meters. talampakan, na may 95% na posibilidad ay nasa hanay mula 6.971 hanggang 8.317 milyong dolyar.

Kalkulahin ang agwat ng kumpiyansa para sa hinulaang halaga. Bilang karagdagan sa agwat ng kumpiyansa para sa inaasahan ng matematika ng tugon para sa isang naibigay na halaga ng variable X, kadalasang kailangang malaman ang agwat ng kumpiyansa para sa hinulaang halaga. Bagama't ang formula para sa pagkalkula ng naturang agwat ng kumpiyansa ay halos kapareho sa formula (13), ang agwat na ito ay naglalaman ng isang hinulaang halaga at hindi isang pagtatantya ng parameter. Interval para sa hinulaang tugon YX = Xi para sa isang tiyak na halaga ng variable Xi ay tinutukoy ng formula:

Ipagpalagay natin na kapag pumipili ng lokasyon para sa isang retail outlet, gusto naming bumuo ng 95% na agwat ng kumpiyansa para sa hinulaang taunang dami ng benta sa isang tindahan na may lawak na 4000 metro kuwadrado. paa:

Samakatuwid, ang hinulaang taunang dami ng benta para sa isang 4,000 sq. feet, na may 95% na posibilidad ay nasa saklaw mula 5.433 hanggang 9.854 milyong dolyar. Gaya ng nakikita mo, ang agwat ng kumpiyansa para sa hinulaang halaga ng tugon ay mas malawak kaysa sa pagitan ng kumpiyansa para sa inaasahan sa matematika nito. Ito ay dahil ang pagkakaiba-iba sa paghula ng mga indibidwal na halaga ay mas malaki kaysa sa pagtatantya ng inaasahang halaga.

Mga pitfalls at etikal na isyu na nauugnay sa paggamit ng regression

Mga paghihirap na nauugnay sa pagsusuri ng regression:

  • Hindi papansin ang mga kundisyon ng pagkakalapat ng paraan ng hindi bababa sa mga parisukat.
  • Isang maling pagtatantya ng mga kundisyon para sa pagiging angkop ng pamamaraan ng hindi bababa sa mga parisukat.
  • Maling pagpili ng mga alternatibong pamamaraan na lumalabag sa mga kondisyon ng pagkakalapat ng pamamaraan ng least squares.
  • Paglalapat ng pagsusuri ng regression nang walang malalim na kaalaman sa paksa ng pag-aaral.
  • Extrapolation ng regression na lampas sa saklaw ng paliwanag na variable.
  • Pagkalito sa pagitan ng istatistikal at sanhi ng mga relasyon.

Ang malawakang paggamit ng mga spreadsheet at istatistikal na software ay inalis ang mga problema sa computational na pumigil sa paggamit ng pagsusuri ng regression. Gayunpaman, humantong ito sa katotohanan na ang pagsusuri ng regression ay nagsimulang gamitin ng mga user na walang sapat na kwalipikasyon at kaalaman. Paano malalaman ng mga gumagamit ang tungkol sa mga alternatibong pamamaraan kung marami sa kanila ay walang ideya sa lahat tungkol sa mga kondisyon para sa pagiging angkop ng pinakamababang paraan ng mga parisukat at hindi alam kung paano suriin ang kanilang pagpapatupad?

Ang mananaliksik ay hindi dapat madala sa pamamagitan ng paggiling ng mga numero - pagkalkula ng shift, slope at mixed correlation coefficient. Kailangan niya ng mas malalim na kaalaman. Ilarawan natin ito sa isang klasikong halimbawa na kinuha mula sa mga aklat-aralin. Ipinakita ng Anscombe na ang lahat ng apat na dataset na ipinakita sa Fig. 23 ay may parehong mga parameter ng regression (Larawan 24).

kanin. 23. Apat na artipisyal na set ng data

kanin. 24. Pagsusuri ng regression ng apat na artipisyal na set ng data; tapos na Pakete ng pagsusuri(i-click ang larawan upang palakihin ang larawan)

Kaya, mula sa punto ng view ng pagsusuri ng regression, ang lahat ng mga set ng data na ito ay ganap na magkapareho. Kung doon natapos ang pagsusuri, mawawalan tayo ng maraming kapaki-pakinabang na impormasyon. Ito ay pinatunayan ng mga scatter plot (Larawan 25) at mga natitirang plot (Larawan 26) na binuo para sa mga set ng data na ito.

kanin. 25. Mga scatter plot para sa apat na dataset

Ang mga scatter plot at natitirang plot ay nagpapakita na ang mga data na ito ay naiiba sa bawat isa. Ang tanging set na ibinahagi sa isang tuwid na linya ay nakatakdang A. Ang plot ng mga nalalabi na kinakalkula mula sa set A ay walang pattern. Ang parehong ay hindi maaaring sabihin para sa set B, C, at D. Ang scatter plot na naka-plot para sa set B ay nagpapakita ng isang binibigkas na parisukat na pattern. Ang konklusyon na ito ay kinumpirma ng balangkas ng mga residual, na may parabolic na hugis. Ipinapakita ng scatter plot at residual plot na naglalaman ang dataset B ng outlier. Sa sitwasyong ito, kinakailangang ibukod ang outlier mula sa set ng data at ulitin ang pagsusuri. Ang pamamaraan para sa pag-detect at pag-aalis ng mga outlier mula sa mga obserbasyon ay tinatawag na influence analysis. Matapos alisin ang outlier, ang resulta ng muling pagsusuri ng modelo ay maaaring ganap na naiiba. Ang isang scatterplot na naka-plot mula sa set ng data D ay naglalarawan ng isang hindi pangkaraniwang sitwasyon kung saan ang empirical na modelo ay lubos na nakadepende sa isang tugon ( X 8 = 19, Y 8 = 12.5). Ang ganitong mga modelo ng regression ay kailangang kalkulahin lalo na nang maingat. Kaya, ang mga scatter at natitirang plot ay isang mahalagang tool para sa pagsusuri ng regression at dapat ay isang mahalagang bahagi nito. Kung wala ang mga ito, ang pagsusuri ng regression ay hindi kapani-paniwala.

kanin. 26. Mga plot ng residual para sa apat na dataset

Paano maiwasan ang mga pitfalls sa pagsusuri ng regression:

  • Pagsusuri ng posibleng kaugnayan sa pagitan ng mga variable X at Y laging magsimula sa isang scatterplot.
  • Bago bigyang-kahulugan ang mga resulta ng pagsusuri ng regression, suriin ang mga kondisyon para sa pagiging angkop nito.
  • I-plot ang mga residual laban sa independent variable. Ito ay magbibigay-daan upang matukoy kung paano tumutugma ang empirikal na modelo sa mga resulta ng pagmamasid, at upang makita ang paglabag sa katatagan ng pagkakaiba.
  • Gumamit ng mga histogram, stem at leaf plot, box plot, at normal na distribution plot upang subukan ang pagpapalagay ng isang normal na distribusyon ng mga error.
  • Kung hindi natutugunan ang mga kundisyon sa pagiging angkop ng pamamaraang least squares, gumamit ng mga alternatibong pamamaraan (halimbawa, quadratic o multiple regression models).
  • Kung natutugunan ang mga kondisyon ng pagkakalapat ng pamamaraan ng least squares, kailangang subukan ang hypothesis tungkol sa statistical significance ng regression coefficients at bumuo ng mga confidence interval na naglalaman ng mathematical expectation at ang predicted response value.
  • Iwasang hulaan ang mga halaga ng dependent variable sa labas ng hanay ng independent variable.
  • Tandaan na ang mga dependency sa istatistika ay hindi palaging sanhi. Tandaan na ang ugnayan sa pagitan ng mga variable ay hindi nangangahulugan na mayroong isang sanhi na relasyon sa pagitan ng mga ito.

Buod. Gaya ng ipinapakita sa block diagram (Larawan 27), inilalarawan ng tala ang isang simpleng modelo ng linear regression, ang mga kondisyon para sa pagiging angkop nito, at mga paraan upang subukan ang mga kundisyong ito. Isinasaalang-alang t-criterion para sa pagsubok sa istatistikal na kahalagahan ng slope ng regression. Ang isang modelo ng regression ay ginamit upang mahulaan ang mga halaga ng dependent variable. Ang isang halimbawa ay isinasaalang-alang na nauugnay sa pagpili ng isang lugar para sa isang retail outlet, kung saan ang pag-asa ng taunang dami ng benta sa lugar ng tindahan ay pinag-aralan. Ang impormasyong nakuha ay nagbibigay-daan sa iyo na mas tumpak na pumili ng isang lokasyon para sa tindahan at mahulaan ang mga taunang benta nito. Sa mga sumusunod na tala, magpapatuloy ang talakayan ng pagsusuri ng regression, pati na rin ang maraming modelo ng regression.

kanin. 27. Block diagram ng isang tala

Mga materyales mula sa aklat na Levin et al. Ginagamit ang mga istatistika para sa mga tagapamahala. - M.: Williams, 2004. - p. 792–872

Kung ang dependent variable ay kategorya, dapat ilapat ang logistic regression.