Mga patlang ng ugnayan at ang kanilang paggamit sa paunang pagsusuri ng ugnayan.

Ang patlang ng ugnayan ay nagsisilbing visual na representasyon ng talahanayan ng ugnayan. Ito ay isang graph kung saan ang mga halaga ng X ay naka-plot sa abscissa axis, ang mga halaga ng Y ay naka-plot kasama ang ordinate axis, at ang mga kumbinasyon ng X at Y ay ipinapakita sa pamamagitan ng mga tuldok. Ang pagkakaroon ng isang koneksyon ay maaaring hatulan sa pamamagitan ng lokasyon ng ang mga tuldok.

Gamit ang graphic na pamamaraan.

Ang pamamaraang ito ay ginagamit upang mailarawan ang anyo ng komunikasyon sa pagitan ng pinag-aralan na mga tagapagpahiwatig ng ekonomiya. Upang gawin ito, ang isang graph ay binuo sa isang hugis-parihaba na sistema ng coordinate, ang mga indibidwal na halaga ng resultang katangian Y ay naka-plot kasama ang ordinate axis, at ang mga indibidwal na halaga ng factor na katangian X ay naka-plot kasama ang abscissa axis.

Ang hanay ng mga punto ng mabisa at kadahilanan na mga palatandaan ay tinatawag na patlang ng ugnayan.

Batay sa larangan ng ugnayan, ang isa ay maaaring mag-hypothesize (para sa pangkalahatang populasyon) na ang ugnayan sa pagitan ng lahat ng posibleng mga halaga ng X at Y ay linear.

Ang linear regression equation ay y = bx + a + ε

Narito ang ε ay isang random na error (paglihis, perturbation).

Mga dahilan para sa pagkakaroon ng isang random na error:

1. Hindi kasama ang mga makabuluhang variable na nagpapaliwanag sa modelo ng regression;

2. Pagsasama-sama ng mga variable. Halimbawa, ang kabuuang function ng pagkonsumo ay isang pagtatangka sa isang pangkalahatang pagpapahayag ng kabuuan ng mga indibidwal na desisyon sa paggasta ng mga indibidwal. Ito ay pagtatantya lamang ng mga indibidwal na relasyon na may iba't ibang mga parameter.

3. Maling paglalarawan ng istraktura ng modelo;

4. Maling functional na detalye;

21. Pagsusuri ng ugnayan at regression.

Ang pagsusuri ng ugnayan-regression bilang pangkalahatang konsepto ay kinabibilangan ng pagsukat sa higpit at direksyon ng koneksyon at pagtatatag ng analytical expression (form) ng koneksyon (regression analysis).

Ang layunin ng pagsusuri ng regression ay suriin ang functional dependence ng conditional average na halaga ng epektibong katangian (Y) sa mga factorial (x1, x2, ..., xk).

Ang equation ng regression, o isang istatistikal na modelo ng ugnayan ng mga socio-economic phenomena, ay ipinahayag ng function:

Yx = f(x1, x2, …, xn),

kung saan ang "n" ay ang bilang ng mga salik na kasama sa modelo;

Xi - mga salik na nakakaimpluwensya sa resulta Y.

Mga yugto ng pagsusuri ng ugnayan at regression:

Preliminary (a priori) analysis. Nagbibigay ito ng magagandang resulta kung isinasagawa ng isang sapat na kwalipikadong mananaliksik.

Koleksyon ng impormasyon at ang pangunahing pagproseso nito.

Pagbuo ng isang modelo (regression equation). Bilang isang patakaran, ang pamamaraang ito ay isinasagawa sa isang PC gamit ang mga karaniwang programa.

Pagsusuri ng higpit ng mga relasyon sa tampok, pagsusuri ng equation ng regression at pagsusuri ng modelo.

Pagtataya ng pagbuo ng nasuri na sistema ayon sa equation ng regression.

Sa unang yugto, ang gawain ng pag-aaral ay nabuo, ang pamamaraan para sa pagsukat ng mga tagapagpahiwatig o pagkolekta ng impormasyon ay tinutukoy, ang bilang ng mga kadahilanan ay tinutukoy, ang mga dobleng kadahilanan ay hindi kasama o naka-link sa isang mahigpit na deterministikong sistema.

Sa ikalawang yugto, ang dami ng mga yunit ay sinusuri: ang populasyon ay dapat na sapat na malaki sa mga tuntunin ng bilang ng mga yunit at mga obserbasyon (N>>50), ang bilang ng mga kadahilanan na "n" ay dapat na tumutugma sa bilang ng mga obserbasyon "N ”. Ang data ay dapat na quantitatively at qualitatively homogenous.

Sa ikatlong yugto, ang anyo ng koneksyon at ang uri ng analytical function (parabola, hyperbola, straight line) ay tinutukoy at ang mga parameter nito ay matatagpuan.

Sa ika-apat na yugto, ang pagiging maaasahan ng lahat ng mga katangian ng relasyon ng ugnayan at ang equation ng regression ay tinasa gamit ang pamantayan ng pagiging maaasahan ng Fisher o Student, at ang isang pang-ekonomiya at teknolohikal na pagsusuri ng mga parameter ay isinasagawa.

Sa ikalimang yugto, ang pagtataya ng mga posibleng halaga ng resulta ay isinasagawa ayon sa pinakamahusay na mga halaga ng mga tampok na kadahilanan na kasama sa modelo. Narito ang pinakamahusay at pinakamasamang mga halaga ng mga kadahilanan at ang resulta ay pinili.

22. Mga uri ng mga equation ng regression.

Para sa isang quantitative na paglalarawan ng ugnayan sa pagitan ng economic variables sa statistics, regression at correlation method ang ginagamit.

Ang regression ay isang value na nagpapahayag ng dependence ng average na value ng isang random variable y sa mga value ng random variable x.

Ang regression equation ay nagpapahayag ng average na halaga ng isang feature bilang isang function ng isa pa.

Ang regression function ay isang modelo ng form y \u003d l ”, kung saan y ang dependent variable (resultang sign); Ang x ay isang independyente, o nagpapaliwanag, variable (sign-factor).

Ang linya ng regression ay isang graph ng function na y \u003d f (x).

2 uri ng ugnayan sa pagitan ng x at y:

1) maaaring hindi malaman kung alin sa dalawang variable ang independiyente at alin ang nakasalalay, ang mga variable ay pantay, ito ay isang uri ng relasyon sa ugnayan;

2) kung ang x at y ay hindi pantay at ang isa sa mga ito ay itinuturing na isang paliwanag (independiyente) na variable, at ang isa ay umaasa, kung gayon ito ay isang regression-type na relasyon.

Mga uri ng regression:

1) hyperbolic - regression ng isang equilateral hyperbola: y \u003d a + b / x + E;

2) linear - regression na ginagamit sa mga istatistika sa anyo ng isang malinaw na pang-ekonomiyang interpretasyon ng mga parameter nito: y \u003d a + b * x + E;

3) logarithmically linear - regression ng form: Sa y \u003d Sa a + b * Sa x + Sa E

4) maramihang - regression sa pagitan ng mga variable y at x1, x2 ... xm, i.e. modelo ng form: y \u003d f (x1, x2 ... xm) + E, kung saan ang y ay isang dependent variable (effective sign), x1 , х2 ...xm - independiyente, nagpapaliwanag na mga variable (signs-factor), Е - perturbation o stochastic variable, kabilang ang impluwensya ng hindi natukoy na mga salik sa modelo;

5) non-linear - regression, non-linear na may paggalang sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter; o regression na hindi linear sa mga tinantyang parameter.

6) kabaligtaran - nabawasan ang regression sa isang linear na anyo, na ipinatupad sa karaniwang mga pakete ng aplikasyon ng form: y \u003d 1 / a + b * x + E;

    ipinares - regression sa pagitan ng dalawang variable na y at x, ibig sabihin, isang modelo ng form: y \u003d f (x) + E, kung saan ang y ay isang dependent variable (effective na feature), ang x ay isang independent, explanatory variable (feature - factor ), E - perturbation, o isang stochastic variable na kinabibilangan ng impluwensya ng hindi natukoy na mga salik sa modelo.

    Serye ng mga dinamika at kanilang mga uri

Ang isang serye ng oras ay palaging binubuo ng 2 elemento: 1) isang punto sa oras o isang yugto ng panahon na may kaugnayan kung saan ibinibigay ang istatistikal na data, 2) isang tagapagpahiwatig ng istatistika, na tinatawag na antas ng serye ng oras.

Depende sa nilalaman ng tagapagpahiwatig ng oras, ang serye ng mga dinamika ay panandalian o pagitan

Depende sa uri ng statistical indicator, ang mga dynamic na serye ay nahahati sa serye ng mga absolute, relative at average na mga halaga

Ganap na nagpapakita ng eksaktong mga halaga

Ang mga kamag-anak ay nagpapakita ng pagbabago sa mga proporsyon ng tagapagpahiwatig sa kabuuang populasyon

Ang mga average na halaga ay naglalaman ng tungkol sa pagbabago sa oras ng indicator, na siyang average na antas ng phenomenon

    Mga tagapagpahiwatig ng isang serye ng mga dinamika. Ang gitnang antas ng hanay ng mga dinamika.

Mga tagapagpahiwatig: 1) average na antas ng dynamic na serye, 2) absolute growth, chain at basic, average absolute growth, 3) growth at growth rate, chain at basic, average growth at growth rate, 4) fmcjk.nyst values ​​​​1 % pagtaas

Average na dinamika

Pangkalahatang mga katangian ng isang serye ng mga dinamika, sa kanilang tulong, ihambing ang intensity ng pag-unlad ng kababalaghan na may kaugnayan sa iba't ibang mga bagay, halimbawa, sa pamamagitan ng bansa, industriya, negosyo

Average na antas sa ngayon yi. Ang paraan para sa pagkalkula ng average na antas ay depende sa uri ng serye (instantaneous / interval) (na may katumbas / magkaibang mga agwat). Kung ang isang serye ng pagitan ng mga dinamika ng ganap o average na mga halaga ay ibinigay na may pantay na mga agwat ng oras, kung gayon ang formula para sa pagkalkula ng average na simple ay ginagamit upang kalkulahin ang average na antas. Kung ang mga agwat ng oras ng serye ng agwat ay hindi pantay, ang average na antas ay matatagpuan sa pamamagitan ng arithmetic weighted average. Usr=smmUi*Ti/smmTi

25. Ganap na paglago(delta at) ay ang pagkakaiba sa pagitan ng dalawang antas ng dynamic na serye, na nagpapakita kung gaano ang antas na ito ng serye ay lumampas sa antas na kinuha bilang base ng paghahambing. Delta U=Ui-U0

Delta U=Ui-Ui-1

Ganap na acceleration- ang pagkakaiba sa pagitan ng ganap na paglago para sa ibinigay na panahon at ang ganap na paglago para sa nakaraang panahon ng parehong tagal: Delta at may bar=delta at - delta at-1. Ang ganap na acceleration ay nagpapakita kung gaano kalaki ang rate ng pagbabago ng indicator ay tumaas (bumaba). Ang acceleration indicator ay ginagamit para sa chain absolute gains. Ang isang negatibong acceleration value ay nagpapahiwatig ng paghina sa paglago o isang acceleration sa pagbaba ng mga antas ng serye.

    Mga tagapagpahiwatig ng kamag-anak na pagbabago sa mga antas ng isang serye ng mga dinamika.

Growth factor (rate ng paglago)- ito ang ratio ng dalawang pinaghahambing na antas, na nagpapakita kung gaano karaming beses lumampas ang antas na ito sa antas ng batayang panahon. Sinasalamin nito ang tindi ng mga pagbabago sa mga antas ng isang serye ng mga dinamika at ipinapakita kung gaano karaming beses ang antas ay tumaas kumpara sa base na antas, at sa kaso ng pagbaba, anong bahagi ng base na antas ang inihambing na antas.

Formula ng Growth Factor: Kung Kumpara sa Constant Base: K i .=y i /y 0 , kapag inihambing sa isang variable na base: K i .=y i /y i -1 .

Rate ng paglago ay ang rate ng paglago, na ipinahayag bilang isang porsyento:

T R = Upang 100 %.

Ang mga rate ng paglago para sa anumang serye ng oras ay mga tagapagpahiwatig ng agwat, ibig sabihin. nailalarawan ang isang partikular na yugto (interval) ng panahon.

Rate ng pagtaas- ang kamag-anak na halaga ng pagtaas, ibig sabihin, ang ratio ng ganap na pagtaas sa nauna o base na antas. Ito ay nagpapakilala sa kung anong porsyento ang antas ng ibinigay na panahon ay higit pa (o mas mababa) kaysa sa batayang antas.

Rate ng pagtaas- ang ratio ng ganap na paglago sa antas na kinuha bilang batayan ng paghahambing:

Tpr \u003d Ui-U0 / U0 * 100%

Rate ng pagtaas- ang pagkakaiba sa pagitan ng rate ng paglago (sa porsyento) at 100,

Kakailanganin mong

  • - serye ng pamamahagi ng dependent at independent variable;
  • - papel, lapis;
  • - Computer at spreadsheet software.

Pagtuturo

Pumili ng dalawa na sa tingin mo ay may relasyon, kadalasang tumatagal, na nagbabago sa paglipas ng panahon. Tandaan na ang isa sa mga variable ay dapat na independyente, ito ay magsisilbing dahilan. Ang pangalawa ay dapat magbago kasama nito - bawasan, dagdagan o pagbabago nang random.

Sukatin ang halaga ng dependent variable para sa bawat independent variable. Itala ang mga resulta sa isang talahanayan, sa dalawang hanay o dalawang hanay. Hindi bababa sa 30 pagbabasa ang kinakailangan upang matukoy ang isang koneksyon, ngunit para sa isang mas tumpak na resulta, mag-ingat na magkaroon ng hindi bababa sa 100 puntos.

Bumuo ng coordinate plane, habang inilalagay ang mga halaga ng dependent variable sa ordinate axis, at ang independent variable sa abscissa axis. Lagdaan ang mga palakol at ipahiwatig ang mga yunit ng pagsukat para sa bawat tagapagpahiwatig.

Markahan ang mga punto ng patlang ng ugnayan sa graph. Sa x-axis, hanapin ang unang halaga ng independent variable, at sa y-axis, hanapin ang katumbas na halaga ng dependent variable. Bumuo ng mga patayo sa mga projection na ito at hanapin ang unang punto. Markahan ito, bilugan ito ng malambot na lapis o panulat. Buuin ang lahat ng iba pang mga punto sa parehong paraan.

Ang nagresultang hanay ng mga puntos ay tinatawag na ugnayan patlang. Suriin ang resultang graph, gumawa ng mga konklusyon tungkol sa pagkakaroon ng isang malakas o mahinang ugnayang sanhi, o kawalan nito.

Bigyang-pansin ang mga random na paglihis mula sa iskedyul. Kung, sa pangkalahatan, ang isang linear o iba pang dependence ay sinusubaybayan, ngunit ang buong "larawan" ay nasira ng isa o dalawang puntos na nasa sideline ng kabuuang populasyon, maaari silang maging mga random na error at hindi isinasaalang-alang kapag binibigyang kahulugan ang graph. .

Kung kailangan mong bumuo at pag-aralan ang isang larangan mga ugnayan Para sa malaking halaga ng data, gumamit ng spreadsheet program gaya ng Excel, o bumili ng espesyal na software.

Ang relasyon ng ilang dami, kung saan ang pagbabago sa isa ay humahantong sa pagbabago sa iba, ay tinatawag na ugnayan. Maaari itong maging simple, maramihan o bahagyang. Ang konseptong ito ay tinatanggap hindi lamang sa matematika, kundi pati na rin sa biology.

salita ugnayan nagmula sa Latin correlatio, relasyon. Ang lahat ng mga phenomena, mga kaganapan at mga bagay, pati na rin ang mga dami na nagpapakilala sa kanila, ay magkakaugnay. Ang correlation dependence ay naiiba sa functional one dahil sa ganitong uri ng dependence, anuman ay masusukat lamang sa average, humigit-kumulang. Ang correlation dependence ay ipinapalagay na ang variable na value ay tumutugma sa mga pagbabago sa isang independent value na may partikular na antas ng probabilidad. Ang antas ng pag-asa ay tinatawag na koepisyent ng ugnayan. Ang konsepto ng ugnayan ay ang ratio ng istraktura at pag-andar ng mga indibidwal na bahagi ng katawan. Kadalasan, ang konsepto ugnayan gumamit ng mga istatistika. Sa mga istatistika, ito ang ugnayan sa pagitan ng mga istatistikal na dami, serye at mga pangkat. Upang matukoy ang presensya o kawalan o pagkakaroon ng isang ugnayan, isang espesyal na paraan ang ginagamit. Ang paraan ng ugnayan ay ginagamit upang matukoy ang direkta o baligtad sa mga pagbabago sa mga numero sa serye na inihahambing. Kapag natagpuan, pagkatapos ay ang sukatan mismo o ang antas ng paralelismo. Ngunit ang mga panloob na sanhi ng kadahilanan ay hindi matatagpuan sa ganitong paraan. Ang pangunahing gawain ng mga istatistika bilang isang agham ay upang matuklasan ang mga sanhi na dependency para sa iba pang mga agham. Sa anyo, ang isang ugnayan ay maaaring linear o non-linear, positibo o negatibo. Kapag habang tumataas o bumababa ang isa sa mga variable, tumataas o bumababa rin ang isa, kung gayon ang relasyon ay linear. Kung, kapag binabago ang isang dami, ang likas na katangian ng mga pagbabago sa isa ay hindi linear, kung gayon ito ugnayan non-linear.Positibo ugnayan ay isinasaalang-alang kapag ang pagtaas sa antas ng isang dami ay sinamahan ng pagtaas ng antas ng isa pa. Halimbawa, kapag ang pagtaas ng tunog ay sinamahan ng isang pakiramdam ng pagtaas ng tono nito. Ang ugnayan, kapag ang pagtaas sa antas ng isang variable ay sinamahan ng pagbaba sa antas ng isa pa, ay tinatawag na negatibo. Sa mga komunidad, ang pagtaas ng antas ng pagkabalisa ng isang indibidwal ay humahantong sa pagbaba ng posibilidad na ang indibidwal na ito ay sumasakop sa isang nangingibabaw na angkop na lugar sa mga kapwa. Kapag walang koneksyon sa pagitan ng mga variable, ugnayan ay tinatawag na zero.

Mga kaugnay na video

Mga pinagmumulan:

  • Nonlinear Correlation noong 2019

Ang ugnayan ay ang pag-asa sa isa't isa ng dalawang random na variable (mas madalas - dalawang grupo ng mga variable), kung saan ang pagbabago sa isa sa mga ito ay humahantong sa pagbabago sa isa pa. Ang koepisyent ng ugnayan ay nagpapakita kung gaano kalamang ang pagbabago sa pangalawang halaga kapag ang mga halaga ng unang pagbabago, i.e. antas ng pag-asa. Ang pinakamadaling paraan upang kalkulahin ang halagang ito ay ang paggamit ng kaukulang function na nakapaloob sa spreadsheet editor na Microsoft Office Excel.

Kakailanganin mong

  • Editor ng spreadsheet na Microsoft Office Excel.

Pagtuturo

Simulan ang Excel at magbukas ng dokumentong naglalaman ng mga pangkat ng data na ang koepisyent ng ugnayan ay gusto mong kalkulahin. Kung ang naturang dokumento ay hindi pa nagagawa, pagkatapos ay ipasok ang data sa - awtomatikong nilikha ito ng editor ng spreadsheet kapag nagsimula ang programa. Ipasok ang bawat isa sa mga pangkat ng mga halaga, ang ugnayan sa pagitan ng kung saan ka interesado, ilagay sa isang hiwalay na column. Ang mga ito ay hindi kailangang magkatabi na mga column, malaya kang ayusin ang talahanayan sa pinaka-maginhawang paraan - magdagdag ng mga karagdagang column na may mga paliwanag sa data, mga heading ng column, kabuuang mga cell na may kabuuang o average na mga halaga, atbp. Maaari mo ring ayusin ang data hindi sa isang patayo (sa mga hanay), ngunit sa isang pahalang (sa mga hilera) na direksyon. Ang tanging kinakailangan na dapat sundin ay ang mga cell na may data ng bawat pangkat ay dapat na matatagpuan nang sunud-sunod, upang ang isang tuluy-tuloy na array ay nilikha sa ganitong paraan.

Pumunta sa cell na maglalaman ng halaga ng ugnayan ng data ng dalawang array, at i-click ang tab na "Mga Formula" sa menu ng Excel. Sa command group na "Function Library", mag-click sa pinakakamakailang icon - "Other Functions". Magbubukas ang isang drop-down na listahan, kung saan dapat kang pumunta sa seksyong "Statistical" at piliin ang function na CORREL. Bilang resulta, ang window ng function wizard ay magbubukas na may isang form na pupunan. Ang parehong window ay maaari ding tawagan nang walang tab na "Mga Formula", sa pamamagitan lamang ng pag-click sa icon ng function insert na matatagpuan sa kaliwa ng formula bar.

Tukuyin ang unang pangkat ng mga nauugnay na data sa Array1 field ng Formula Wizard. Upang manu-manong magpasok ng hanay ng mga cell, i-type ang address ng una at huling mga cell, na pinaghihiwalay ang mga ito sa pamamagitan ng colon (walang mga puwang). Ang isa pang pagpipilian ay piliin lamang ang nais na hanay gamit ang mouse, at ilalagay ng Excel ang nais na entry sa field ng form na ito nang mag-isa. Ang parehong operasyon ay dapat gawin sa pangalawang pangkat ng data sa field na "Array2".

I-click ang OK button. Kakalkulahin at ipapakita ng editor ng spreadsheet ang halaga ng ugnayan sa cell na may formula. Kung kinakailangan, maaari mong i-save ang dokumentong ito para magamit sa hinaharap (shortcut Ctrl + S).

Ang ugnayan ay pinag-aralan batay sa pang-eksperimentong data, na kung saan ay ang mga sinusukat na halaga (xi, yi) ng dalawang tampok. Kung mayroong ilang mga pang-eksperimentong data, kung gayon ang dalawang-dimensional na empirikal na pamamahagi ay kinakatawan bilang isang dobleng serye ng mga halaga ng xi at yi. Sa kasong ito, ang ugnayan sa pagitan ng mga tampok ay maaaring ilarawan sa iba't ibang paraan. Ang pagsusulatan sa pagitan ng isang argumento at isang function ay maaaring ibigay ng isang talahanayan, formula, graph, atbp.

Ang pagsusuri ng ugnayan, tulad ng iba pang mga istatistikal na pamamaraan, ay batay sa paggamit ng mga probabilistikong modelo na naglalarawan sa pag-uugali ng mga pinag-aralan na tampok sa isang tiyak na pangkalahatang populasyon, kung saan nakuha ang mga pang-eksperimentong halaga ng xi at yi. Kapag ang ugnayan sa pagitan ng mga quantitative na katangian, ang mga halaga nito ay maaaring tumpak na masukat sa mga yunit ng panukat na kaliskis (metro, segundo, kilo, atbp.), Ang modelo ng isang dalawang-dimensional na karaniwang ipinamamahaging pangkalahatang populasyon ay napakadalas. pinagtibay. Ang ganitong modelo ay nagpapakita ng ugnayan sa pagitan ng mga variable na xi at yi nang grapiko bilang isang locus ng mga punto sa isang rectangular coordinate system. Ang graphical na dependence na ito ay tinatawag ding scatterplot o correlation field.

Ang modelong ito ng isang two-dimensional na normal na distribution (correlation field) ay nagbibigay-daan sa iyong magbigay ng visual graphical na interpretasyon ng correlation coefficient, dahil ang pamamahagi sa pinagsama-samang ay nakasalalay sa limang mga parameter: μx, μy - average na mga halaga (mga inaasahan sa matematika); Ang σx,σy ay ang standard deviations ng random variables X at Y, at ang p ay ang correlation coefficient, na isang sukatan ng relasyon sa pagitan ng random variables X at Y.

Kung p \u003d 0, kung gayon ang mga halaga, xi, yi, na nakuha mula sa isang dalawang-dimensional na normal na populasyon, ay matatagpuan sa graph sa x, y na mga coordinate sa loob ng lugar na hangganan ng isang bilog (Larawan 5, a). Sa kasong ito, walang ugnayan sa pagitan ng mga random na variable X at Y at ang mga ito ay tinatawag na uncorrelated. Para sa isang dalawang-dimensional na normal na distribusyon, ang kawalan ng pagkakaugnay ay nangangahulugan ng kasabay na kalayaan ng mga random na variable na X at Y.

Kung p = 1 o p = -1, pagkatapos ay mayroong isang linear functional na relasyon sa pagitan ng mga random na variable X at Y (Y = c + dX). Sa kasong ito, ang isa ay nagsasalita ng isang kumpletong ugnayan. Sa p = 1, tinutukoy ng mga halaga xi, yi ang mga puntong nakahiga sa isang tuwid na linya na may positibong slope (na may pagtaas sa xi, ang mga halaga ng yi ay tumataas din), sa p = -1, ang tuwid na linya ay may negatibong slope (Larawan 5, b). Sa mga intermediate na kaso (-1< p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p >0, mayroong isang positibong ugnayan (sa pagtaas ng xi, ang mga halaga ng yi ay may posibilidad na tumaas), sa p< 0 корреляция отрицательная. Чем ближе р к, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию.



Kaya, ang isang visual na pagsusuri ng patlang ng ugnayan ay nakakatulong upang matukoy hindi lamang ang pagkakaroon ng isang istatistikal na relasyon (linear o non-linear) sa pagitan ng mga pinag-aralan na tampok, kundi pati na rin ang higpit at hugis nito. Mahalaga ito para sa susunod na hakbang sa pagsusuri, pagpili at pagkalkula ng naaangkop na koepisyent ng ugnayan.

Ang pag-asa sa ugnayan sa pagitan ng mga tampok ay maaaring ilarawan sa iba't ibang paraan. Sa partikular, ang anumang anyo ng koneksyon ay maaaring ipahayag ng isang pangkalahatang equation na Y = f(X), kung saan ang Y ay isang dependent variable, o isang function ng independent variable X, na tinatawag na argumento. Ang pagsusulatan sa pagitan ng isang argumento at isang function ay maaaring ibigay ng isang talahanayan, formula, graph, atbp.

Sa graphically, ang relasyon ng dalawang feature ay inilalarawan gamit ang correlation field. Sa sistema ng coordinate, ang mga halaga ng katangian ng kadahilanan ay naka-plot sa abscissa axis, at ang nagresultang katangian ay naka-plot sa ordinate axis. Ang bawat intersection ng mga linya na iginuhit sa pamamagitan ng mga ax na ito ay ipinahiwatig ng isang tuldok. Sa kawalan ng malapit na koneksyon, mayroong isang random na pag-aayos ng mga puntos sa graph (Larawan 11.1).


Ilarawan natin ang nakuhang pagtitiwala sa graphically na may mga punto ng coordinate plane (Larawan 3.1). Ang ganitong imahe ng isang istatistikal na relasyon ay tinatawag na patlang ng ugnayan.

Bumuo ng patlang ng ugnayan at bumalangkas ng hypothesis tungkol sa anyo ng koneksyon.

Kapag pinag-aaralan ang ugnayan sa pagitan ng dalawang feature, medyo malinaw ang graphical na paraan para sa pagpili ng uri ng equation ng regression. Ito ay batay sa larangan ng ugnayan. Ang mga pangunahing uri ng curves na ginamit sa quantitative assessment ng mga relasyon ay ipinapakita sa fig. 2.1.

Dahil hindi lahat ng mga punto ng field ng ugnayan ay nasa linya ng regression, palaging may scatter dahil sa impluwensya ng factor x, ibig sabihin, regression y para sa x, at sanhi ng iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba). Ang kaangkupan ng linya ng regression para sa hula ay depende sa kung gaano karami sa kabuuang variation ng katangian y ang binibilang ng ipinaliwanag na variation. Malinaw, kung ang kabuuan ng mga squared deviations dahil sa regression ay mas malaki kaysa sa natitirang kabuuan ng mga parisukat , ang equation ng regression ay istatistikal na makabuluhan at ang x factor ay may malaking epekto sa resulta. Katumbas ito ng katotohanan na ang coefficient of determination r2 ay lalapit sa pagkakaisa.

Alinsunod dito, para sa pag-asa na inilalarawan sa mga patlang ng ugnayan ng Fig. 3.5 b) at c), ang heteroscedasticity ng mga nalalabi ay ipinapakita sa fig. 3.9 at 3.10.

Kung ang mga halaga ay independyente, kung gayon ang "patlang ng ugnayan" o pa-

Kung ang patlang ng ugnayan ay maaaring tinantya ng isang tuwid na linya, na tinatawag na linya ng regression, pagkatapos ay magpatuloy sa pagkalkula ng koepisyent ng ugnayan ng pares r. Ang mga numerical na halaga nito ay nasa pagitan [-1, 1]. Kung ang r ay katumbas ng 1 o -1, pagkatapos ay mayroong functional feed o feedback. Kapag ang r ay malapit sa zero, walang koneksyon sa pagitan ng mga phenomena, at sa r 0.7 ang koneksyon ay itinuturing na makabuluhan. Ang koepisyent ng ugnayan ay kinakalkula ng formula

Matapos matukoy ang mga nasa itaas na grupo ng mga pasilidad ng riles, ang isa pang tinatayang paraan ng paunang pagsusuri ng homogeneity ng populasyon para sa bawat pangkat ng mga pasilidad ng riles ay ginamit - ang pagtatayo ng mga patlang ng ugnayan para sa bawat isa sa mga kadahilanan na kasama sa pag-aaral na may gastos sa transportasyon. Ang pangunahing tampok ng homogeneity o heterogeneity ng mga napiling populasyon ay ang kawalan o pagkakaroon ng mga gaps at mga pagtalon sa lokasyon ng mga puntos sa mga patlang ng ugnayan.

Para sa pag-aaral, ang lahat ng posibleng mga kadahilanan ay paunang pinili ng propesyonal na lohikal na pagsusuri, data sa mga pagbabago kung saan para sa mga negosyo ay magagamit sa pag-uulat ng ministeryo. Ang ganitong mga kadahilanan ay dapat isaalang-alang ang kabuuang dami ng transportasyon, ang average na produktibidad ng mga bagon at lokomotibo ng nagtatrabaho fleet, intensity ng kargamento, intensity ng kapital ng isang yunit ng transportasyon at produktibidad ng paggawa, atbp. (11 mga kadahilanan sa kabuuan). Kaya, 44 na mga patlang ng ugnayan ang ginawa para sa apat na grupo ng mga negosyo.

Matapos matukoy ang ipinahiwatig na mga halaga, ang isang equation ng dependence ng pares ay nakuha, ang graphical na representasyon kung saan sa mga coordinate axes ay tinatawag na theoretical regression line. Kung ang lahat ng mga sukat ay inilapat sa naturang field, at hindi lamang ang theoretical regression line, pagkatapos ay makakakuha tayo ng isang correlation field.

Isinasaayos namin ang pinagmulang materyal sa larangan ng ugnayan at sa talahanayan ng ugnayan. Sa aming halimbawa, ang kadahilanan ay ang halaga ng mga makina Cm, at ang function ay ang average na taunang bilang ng mga manggagawa P.

Bilang resulta ng pagkasira sa mga agwat, ang buong eroplano kung saan naka-plot ang mga sukat para sa parehong mga palatandaan k at y, na tinatawag na patlang ng ugnayan, ay magiging mga cell, at ang bawat pagsukat ay hindi nailalarawan sa pamamagitan ng eksaktong mga halaga ng mga coordinate nito, ngunit sa pamamagitan lamang ng mga halaga ng agwat kung saan ito itinalaga.

Sa fig. Ang 16 ay nagpapakita ng patlang ng ugnayan, kung saan ang mga pagitan para sa mga halaga ng argumentong Сы ay ibinibigay sa kahabaan ng abscissa axis, at ang mga agwat para sa halaga ng function na P ay ibinibigay sa kahabaan ng ordinate axis. Ang patlang ng ugnayan na binuo sa ganitong paraan ay tinatawag na pangalawa.

Ang isang pangunahing patlang ng ugnayan ay maaari ding bumuo upang pumili ng mga agwat. Ang lahat ng mga punto sa patlang na ito ay minarkahan na isinasaalang-alang ang mga halaga ng kanilang mga coordinate. Ayon sa density ng mga puntos, ang mga pagitan ay nakabalangkas.

Kasama ang pagtatayo ng patlang ng ugnayan, tulad ng ipinahiwatig sa itaas, ang isang talahanayan ng ugnayan ay pinagsama-sama kung saan ang lahat ng mga kalkulasyon na nauugnay sa pagpapasiya ng mga average, ang pagbuo ng isang empirical regression line at ang paunang data para sa pagtukoy ng mga parameter sa sistema ng normal. ginaganap ang mga equation.

Sa mesa. 36 lahat ng materyal ay nahahati sa mga pagitan. Gamit ito, bumuo kami ng isang pangalawang patlang ng ugnayan, kung saan namin i-plot ang lahat ng mga halaga ng mga variable, at tinutukoy ang mga average na halaga (/, //, ..., yn sa mga pagitan. Pagkonekta sa mga average na halaga sa bawat pagitan na may tuwid na mga segment ng linya, nakakakuha kami ng isang empirical regression line (tingnan ang Fig. 16).

Ang pagpapanumbalik mula sa gitna ng bawat pagitan ng patayo sa abscissa axis, itinatabi namin sa bawat isa sa kanila ang kaukulang mga halaga ng y ngunit ang mga pagitan r /, \u003d 1081, 1/2 \u003d 1774, atbp. Ikinonekta namin ang nakakuha ng mga puntos sa bawat isa sa pamamagitan ng mga segment ng tuwid na linya. Ang resultang sirang linya ay isang empirical regression line para sa ugnayan sa pagitan ng halaga ng mga makina Cm at ang bilang ng mga manggagawa P. Sa pamamagitan ng pagkakatulad sa mga kalkulasyon na isinagawa, maaari tayong bumuo ng mga talahanayan ng ugnayan at mga patlang ng ugnayan upang matukoy ang kaugnayan sa pagitan ng bilang ng mga manggagawa P. , ang dami ng trabaho O, ang bilang ng mga prefabricated concrete at reinforced concrete structures / Izh.b.
kanin. 18. Talaan ng ugnayan at pangalawang larangan ng ugnayan ng pag-asa ng bilang ng mga manggagawa at ang dami ng paggamit ng mga istrukturang precast kongkreto /info/5440"> Ang mga equation ng pair regression at ang multiple regression na nakuha sa ibang pagkakataon ay naaangkop kung ang mga variable ay nagbabago sa loob ng mga sumusunod na limitasyon: ang bilang ng mga manggagawa - mula 850 hanggang 7850 na tao, ang halaga ng mga makina - mula 0.15 hanggang 3.15 milyong rubles . , ang dami ng mga prefabricated na istraktura - mula 10 hanggang 230 thousand m at naka-plot sa kahabaan ng vertical axis, sa mga independiyenteng halaga - kasama ang pahalang. Ang patlang ng ugnayan ay ginagamit upang matukoy ang anyo ng relasyon sa pagitan variables, Ang graph ay nagbibigay sa mananaliksik ng una

Ang ikatlong OLS premise ay nangangailangan na ang pagkakaiba-iba ng mga nalalabi ay homoscedastic. Nangangahulugan ito na para sa bawat halaga ng salik na Xj, ang mga natitirang e, - ay may parehong pagkakaiba. Kung ang kundisyong ito para sa paglalapat ng LSM ay hindi natugunan, pagkatapos ay nangyayari ang heteroscedasticity. Ang pagkakaroon ng heteroscedasticity ay malinaw na makikita mula sa patlang ng ugnayan (Larawan 3.5).

Ang isa pang tipikal na gawain sa pananaliksik - ang pagtatasa ng ugnayan sa pagitan ng mga phenomena - ay nalutas gamit ang mahusay na binuo na kagamitan ng teorya ng ugnayan sa mga istatistika ng matematika. Upang gawin ito, kinakailangan na magkaroon ng mga sample para sa paghahambing na mga phenomena na ipinapakita sa mga mapa ng iba't ibang paksa (halimbawa, D at C). Ang mga halaga a at b ay kinukuha sa parehong /-th na mga puntos, i.e. mahigpit na pinag-ugnay, at pagkatapos ay i-plot ang field ng ugnayan.

1. Paksa ng gawain.

2. Maikling teoretikal na impormasyon.

3. Ang pagkakasunud-sunod ng gawain.

4. Paunang data para sa pagbuo ng isang mathematical model.

5. Mga resulta ng pagbuo ng isang mathematical model.

6. Mga resulta ng pag-aaral ng modelo. Pagbuo ng pagtataya.

7. Konklusyon.

Sa mga gawain 2-4, maaari mong gamitin ang Excel PPP upang kalkulahin ang pagganap ng modelo.

Trabaho numero 1.

Pagbuo ng mga nakapares na modelo ng regression. Sinusuri ang mga nalalabi para sa heteroscedasticity.

Para sa 15 mga negosyo na gumagawa ng parehong uri ng produkto, ang mga halaga ng dalawang tampok ay kilala:

X - output, libong mga yunit;

y - gastos sa produksyon, milyong rubles

x y
5,3 18,4
15,1 22,0
24,2 32,3
7,1 16,4
11,0 22,2
8,5 21,7
14,5 23,6
10,2 18,5
18,6 26,1
19,7 30,2
21,3 28,6
22,1 34,0
4,1 14,2
12,0 22,1
18,3 28,2

Kailangan:

1. Bumuo ng patlang ng ugnayan at bumalangkas ng hypothesis tungkol sa anyo ng relasyon.

2. Bumuo ng mga modelo:

Linear Pair Regression.

Semi-log pairwise regression.

2.3 Regression ng power pair.
Para dito:


2. Suriin ang higpit ng relasyon gamit ang coefficient (index)
mga ugnayan.

3. Suriin ang kalidad ng modelo gamit ang isang koepisyent (index)
pagpapasiya at average na error ng approximation
.

4. Sumulat gamit ang average coefficient of elasticity
comparative assessment ng lakas ng ugnayan sa pagitan ng salik at resulta
.

5. Paggamit F- Pamantayan ni Fisher upang suriin ang pagiging maaasahan ng istatistika ng mga resulta ng pagmomolde ng regression.

Ayon sa mga halaga ng mga katangian na kinakalkula sa mga talata 2-5, piliin ang pinakamahusay na equation ng regression.

Gamit ang pamamaraang Golfreld-Quandt, suriin ang mga nalalabi para sa heteroscedasticity.

Bumubuo kami ng larangan ng ugnayan.

Sinusuri ang lokasyon ng mga punto ng patlang ng ugnayan, ipinapalagay namin na ang relasyon sa pagitan ng mga palatandaan X at sa maaaring linear, i.e. y=a+bx, o non-linear na anyo: y=a+blnx, y=ax b.

Batay sa teorya ng relasyon sa ilalim ng pag-aaral, inaasahan naming makuha ang pagtitiwala sa mula sa X mabait y=a+bx, dahil gastos sa produksyon y maaaring nahahati sa dalawang uri: pare-pareho, independiyente sa dami ng produksyon - a tulad ng upa, pagpapanatili ng administrasyon, atbp.; at mga variable na nagbabago sa proporsyon sa output bx, tulad ng pagkonsumo ng materyal, kuryente, atbp.


2.1.Modelo ng Linear Pair Regression.

2.1.1. Kalkulahin natin ang mga parameter a at b linear regression y=a+bx.

Bumubuo kami ng talahanayan ng pagkalkula 1.

Talahanayan 1

Mga pagpipilian a at b mga equation

Y x = a + bx


Hinati ng n b:

Regression equation:

=11.591+0.871x

Sa pagtaas ng output ng 1 libong rubles. ang mga gastos sa produksyon ay tumaas ng 0.871 milyong rubles. sa karaniwan, ang mga nakapirming gastos ay 11.591 milyong rubles.

2.1.2. Tinatantya namin ang lapit ng relasyon gamit ang linear coefficient ng ugnayan ng pares.

Paunang tukuyin natin ang mga karaniwang paglihis ng mga tampok.

Standard deviations:

Koepisyent ng ugnayan:

Sa pagitan ng mga palatandaan X at Y mayroong isang napakalakas na linear na ugnayan.

2.1.3. Suriin natin ang kalidad ng itinayong modelo.

ibig sabihin, ipinapaliwanag ng modelong ito ang 90.5% ng kabuuang pagkakaiba sa, ang bahagi ng hindi maipaliwanag na pagkakaiba ay nagkakahalaga ng 9.5%.

Samakatuwid, ang kalidad ng modelo ay mataas.

PERO i .

Una, mula sa equation ng regression, tinutukoy namin ang mga teoretikal na halaga para sa bawat halaga ng kadahilanan.

Error sa pagtatantya A i, i=1…15:

Average na error sa pagtatantya:

2.1.4. Tukuyin natin ang average na koepisyent ng pagkalastiko:

Ipinapakita nito na sa pagtaas ng output ng 1%, ang mga gastos sa produksyon ay tumataas ng average na 0.515%.

2.1.5. Tantyahin natin ang istatistikal na kahalagahan ng nagresultang equation.
Subukan natin ang hypothesis H0 na ang nahayag na pag-asa sa mula sa X ay random, ibig sabihin, ang resultang equation ay hindi gaanong mahalaga sa istatistika. Kunin natin ang α=0.05. Hanapin natin ang tabular (kritikal) na halaga F- Pamantayan ni Fisher:

Hanapin ang aktwal na halaga F- Pamantayan ni Fisher:

kaya ang hypothesis H0 H1 x at y ay hindi sinasadya.

Buuin natin ang resultang equation.

2.2. Semilog pairwise regression model.

2.2.1. Kalkulahin natin ang mga parameter a at b sa pagbabalik:

y x \u003d a + blnx.

I-linearize namin ang equation na ito, na nagsasaad ng:

y=a + bz.

Mga pagpipilian a at b mga equation

= a+bz

tinutukoy ng paraan ng least squares:


Kinakalkula namin ang talahanayan 2.

talahanayan 2

Nahahati sa n at paglutas sa pamamagitan ng pamamaraan ni Cramer, nakakakuha tayo ng pormula para sa pagtukoy b:

Regression equation:

= -1.136 + 9.902z

2.2.2. Tantyahin natin ang lapit ng koneksyon sa pagitan ng mga feature sa at X.

Mula noong equation y = a + bln x linear na may paggalang sa mga parameter a at b at ang linearization nito ay hindi nauugnay sa pagbabago ng dependent variable _ sa, pagkatapos ay ang higpit ng koneksyon sa pagitan ng mga variable sa at X, tinatantya gamit ang index ng ugnayan ng pares Rxy, ay maaari ding matukoy gamit ang linear pair correlation coefficient r yz

karaniwang lihis z:

Ang halaga ng index ng ugnayan ay malapit sa 1, samakatuwid, sa pagitan ng mga variable sa at X may napakalapit na ugnayan = a + bz.

2.2.3. Suriin natin ang kalidad ng itinayong modelo.

Tukuyin natin ang koepisyent ng determinasyon:

ibig sabihin, ipinapaliwanag ng modelong ito ang 83.8% ng kabuuang variation sa resulta sa, ang bahagi ng hindi maipaliwanag na pagkakaiba-iba ay nagkakahalaga ng 16.2%. Samakatuwid, ang kalidad ng modelo ay mataas.

Hanapin natin ang halaga ng average na error sa pagtatantya PERO i .

Una, mula sa equation ng regression, tinutukoy namin ang mga teoretikal na halaga para sa bawat halaga ng kadahilanan. Error sa pagtatantya At ako ,:

, i=1…15.

Average na error sa pagtatantya:

.

Maliit ang error, mataas ang kalidad ng modelo.

2.2.4 Tukuyin natin ang average na koepisyent ng pagkalastiko:

Ipinapakita nito na sa pagtaas ng output ng 1%, ang mga gastos sa produksyon ay tumataas ng average na 0.414%.

2.2.5. Tantyahin natin ang istatistikal na kahalagahan ng nagresultang equation.
Subukan natin ang hypothesis H0 na ang nahayag na pag-asa sa mula sa X ay random, i.e. ang resultang equation ay hindi gaanong mahalaga sa istatistika. Kunin natin ang α=0.05.

Hanapin natin ang tabular (kritikal) na halaga F- Pamantayan ni Fisher:

Hanapin ang aktwal na halaga F- Pamantayan ni Fisher:

kaya ang hypothesis H0 tinanggihan, tinanggap ang alternatibong hypothesis H1: na may posibilidad na 1-α=0.95 ang resultang equation ay makabuluhang istatistika, ang ugnayan sa pagitan ng mga variable x at y ay hindi sinasadya.

Bumuo tayo ng regression equation sa patlang ng ugnayan

2.3. Power Pair Regression Model.

2.3.1. Kalkulahin natin ang mga parameter a at b pagbabalik ng kapangyarihan:

Ang pagkalkula ng mga parameter ay nauuna sa pamamaraan ng linearization ng equation na ito:

at pagbabago ng mga variable:

Y=lny, X=lnx, A=lna

Mga parameter ng equation:

tinutukoy ng paraan ng least squares:


Kinakalkula namin ang talahanayan 3.

Tinutukoy namin b:

Regression equation:

Bumuo tayo ng isang regression equation sa patlang ng ugnayan:

2.3.2. Tantyahin natin ang lapit ng koneksyon sa pagitan ng mga feature sa at X gamit ang pair correlation index R yx .

Preliminarily kalkulahin ang theoretical value para sa bawat halaga ng salik x, at pagkatapos ay:

Halaga ng index ng ugnayan Rxy malapit sa 1, kaya sa pagitan ng mga variable sa at X mayroong isang napakalapit na ugnayan ng form:

2.3.3. Suriin natin ang kalidad ng itinayong modelo.

Tukuyin natin ang index ng pagpapasiya:

R2=0,936 2 =0,878,

ibig sabihin, ipinapaliwanag ng modelong ito ang 87.6% ng kabuuang variation sa resulta y, at ang bahagi ng hindi maipaliwanag na pagkakaiba-iba ay nagkakahalaga ng 12.4%.

Mataas ang kalidad ng modelo.

Hanapin natin ang halaga ng average na error sa pagtatantya.

Error sa pagtatantya A i, i=1…15:

Average na error sa pagtatantya:

Maliit ang error, mataas ang kalidad ng modelo.

2.3.4. Tukuyin natin ang average na koepisyent ng pagkalastiko:

Ipinapakita nito na sa pagtaas ng output ng 1%, ang mga gastos sa produksyon ay tumaas ng average na 0.438%.

2.3.5 Suriin natin ang istatistikal na kahalagahan ng resultang equation.

Subukan natin ang hypothesis H0 na ang nahayag na pag-asa sa mula sa X ay random, ibig sabihin, ang resultang equation ay hindi gaanong mahalaga sa istatistika. Kunin natin ang α=0.05.

tabular (kritikal) na halaga F- Pamantayan ni Fisher:

tunay na halaga F- Pamantayan ni Fisher:

kaya ang hypothesis H0 tinanggihan, tinanggap ang alternatibong hypothesis H1: na may posibilidad na 1-α=0.95 ang resultang equation ay makabuluhang istatistika, ang ugnayan sa pagitan ng mga variable x at y ay hindi sinasadya.

Talahanayan 3

3. Pagpili ng pinakamahusay na equation.

Gumawa tayo ng talahanayan ng mga resulta ng pag-aaral.

Talahanayan 4

Sinusuri namin ang talahanayan at gumuhit ng mga konklusyon.

ú Ang lahat ng tatlong equation ay naging makabuluhan at maaasahan ayon sa istatistika, mayroong isang koepisyent ng ugnayan (index) na malapit sa 1, isang mataas (malapit sa 1) na koepisyent (index) ng pagpapasiya, at isang error sa pagtatantya sa loob ng mga katanggap-tanggap na limitasyon.

ú Kasabay nito, ang mga katangian ng linear na modelo ay nagpapahiwatig na inilalarawan nito ang kaugnayan sa pagitan ng mga palatandaan x at y.

ú Samakatuwid, pumili kami ng isang linear na modelo bilang isang regression equation.