Pagtatantya ng kahalagahan ng mga coefficient at equation. Pagtatantya ng Kahalagahan ng Mga Parameter ng Equation ng Paired Linear Regression

Ang pagsusuri ng regression ay isang istatistikal na paraan ng pananaliksik na nagbibigay-daan sa iyo upang ipakita ang pagtitiwala ng isang parameter sa isa o higit pang mga independiyenteng variable. Sa panahon ng pre-computer, medyo mahirap ang paggamit nito, lalo na pagdating sa malaking halaga ng data. Ngayon, natutunan kung paano bumuo ng regression sa Excel, malulutas mo ang mga kumplikadong problema sa istatistika sa loob lamang ng ilang minuto. Nasa ibaba ang mga tiyak na halimbawa mula sa larangan ng ekonomiya.

Mga uri ng regression

Ang konsepto mismo ay ipinakilala sa matematika noong 1886. Nangyayari ang pagbabalik:

  • linear;
  • parabolic;
  • kapangyarihan;
  • exponential;
  • hyperbolic;
  • demonstrative;
  • logarithmic.

Halimbawa 1

Isaalang-alang ang problema sa pagtukoy ng pag-asa ng bilang ng mga retiradong miyembro ng koponan sa average na suweldo sa 6 na pang-industriya na negosyo.

Gawain. Sa anim na negosyo, sinuri namin ang average na buwanang suweldo at ang bilang ng mga empleyadong umalis sa kanilang sariling kagustuhan. Sa tabular form mayroon kaming:

Ang daming umalis

Ang suweldo

30000 rubles

35000 rubles

40000 rubles

45000 rubles

50000 rubles

55000 rubles

60000 rubles

Para sa problema sa pagtukoy ng pag-asa ng bilang ng mga retiradong manggagawa sa average na suweldo sa 6 na negosyo, ang modelo ng regression ay may anyo ng equation na Y = a 0 + a 1 x 1 +…+a k x k , kung saan ang x i ay ang mga nakakaimpluwensyang variable. , a i ay ang regression coefficients, a k ay ang bilang ng mga salik.

Para sa gawaing ito, ang Y ang tagapagpahiwatig ng mga empleyadong umalis, at ang salik na nakakaimpluwensya ay ang suweldo, na tinutukoy namin ng X.

Gamit ang mga kakayahan ng spreadsheet na "Excel"

Ang pagsusuri ng regression sa Excel ay dapat maunahan ng aplikasyon ng mga built-in na function sa magagamit na data ng tabular. Gayunpaman, para sa mga layuning ito, mas mainam na gamitin ang napakakapaki-pakinabang na add-in na "Analysis Toolkit". Upang i-activate ito kailangan mo:

  • mula sa tab na "File", pumunta sa seksyong "Mga Opsyon";
  • sa window na bubukas, piliin ang linya na "Mga Add-on";
  • mag-click sa pindutang "Go" na matatagpuan sa ibaba, sa kanan ng linya ng "Pamamahala";
  • lagyan ng check ang kahon sa tabi ng pangalang "Analysis Package" at kumpirmahin ang iyong mga aksyon sa pamamagitan ng pag-click sa "OK".

Kung nagawa nang tama ang lahat, lalabas ang gustong button sa kanang bahagi ng tab na Data, na matatagpuan sa itaas ng worksheet ng Excel.

sa Excel

Ngayong nasa kamay na natin ang lahat ng kinakailangang virtual na tool para sa pagsasagawa ng mga kalkulasyon ng ekonomiko, maaari na nating simulan ang paglutas ng ating problema. Para dito:

  • mag-click sa pindutan ng "Pagsusuri ng Data";
  • sa window na bubukas, mag-click sa pindutan ng "Regression";
  • sa tab na lilitaw, ipasok ang hanay ng mga halaga para sa Y (ang bilang ng mga empleyado na huminto) at para sa X (kanilang mga suweldo);
  • Kinukumpirma namin ang aming mga aksyon sa pamamagitan ng pagpindot sa pindutang "Ok".

Bilang resulta, ang programa ay awtomatikong maglalagay ng bagong sheet ng spreadsheet na may data ng pagsusuri ng regression. Tandaan! May kakayahan ang Excel na manu-manong itakda ang lokasyong gusto mo para sa layuning ito. Halimbawa, maaaring pareho itong sheet kung nasaan ang mga halaga ng Y at X, o kahit isang bagong workbook na partikular na idinisenyo upang mag-imbak ng naturang data.

Pagsusuri ng mga resulta ng regression para sa R-square

Sa Excel, ang data na nakuha sa panahon ng pagproseso ng data ng itinuturing na halimbawa ay ganito ang hitsura:

Una sa lahat, dapat mong bigyang-pansin ang halaga ng R-square. Ito ay ang koepisyent ng pagpapasiya. Sa halimbawang ito, R-square = 0.755 (75.5%), ibig sabihin, ang mga kinakalkula na parameter ng modelo ay nagpapaliwanag ng ugnayan sa pagitan ng mga isinasaalang-alang na parameter ng 75.5%. Kung mas mataas ang halaga ng koepisyent ng pagpapasiya, mas naaangkop ang napiling modelo para sa isang partikular na gawain. Ito ay pinaniniwalaan na ito ay wastong naglalarawan sa totoong sitwasyon na may R-squared na halaga sa itaas ng 0.8. Kung R-squared<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Pagsusuri ng ratio

Ang bilang na 64.1428 ay nagpapakita kung ano ang magiging halaga ng Y kung ang lahat ng mga variable xi sa modelong ating isinasaalang-alang ay nakatakda sa zero. Sa madaling salita, maaari itong pagtalunan na ang halaga ng nasuri na parameter ay naiimpluwensyahan din ng iba pang mga kadahilanan na hindi inilarawan sa isang partikular na modelo.

Ang susunod na koepisyent -0.16285, na matatagpuan sa cell B18, ay nagpapakita ng bigat ng impluwensya ng variable X sa Y. Nangangahulugan ito na ang average na buwanang suweldo ng mga empleyado sa loob ng modelong isinasaalang-alang ay nakakaapekto sa bilang ng mga umalis na may timbang na -0.16285, i.e. ang antas ng impluwensya nito sa lahat ng maliit. Ang "-" sign ay nagpapahiwatig na ang koepisyent ay may negatibong halaga. Ito ay malinaw, dahil alam ng lahat na mas mataas ang suweldo sa negosyo, mas kaunting mga tao ang nagpapahayag ng pagnanais na wakasan ang kontrata sa pagtatrabaho o huminto.

Maramihang Pagbabalik

Ang terminong ito ay tumutukoy sa isang koneksyon equation na may ilang mga independiyenteng mga variable ng form:

y \u003d f (x 1 + x 2 + ... x m) + ε, kung saan ang y ang mabisang feature (dependent variable), at x 1 , x 2 , ... x m ang mga factor factor (independent variables).

Pagtatantya ng Parameter

Para sa maramihang regression (MR) ito ay isinasagawa gamit ang paraan ng least squares (OLS). Para sa mga linear na equation ng anyong Y = a + b 1 x 1 +…+b m x m + ε, bumuo kami ng isang sistema ng mga normal na equation (tingnan sa ibaba)

Upang maunawaan ang prinsipyo ng pamamaraan, isaalang-alang ang dalawang-factor na kaso. Pagkatapos ay mayroon kaming isang sitwasyon na inilarawan ng formula

Mula dito nakukuha natin ang:

kung saan ang σ ay ang pagkakaiba-iba ng kaukulang tampok na makikita sa index.

Naaangkop ang LSM sa equation ng MP sa isang standardizable na sukat. Sa kasong ito, nakukuha namin ang equation:

kung saan ang t y , t x 1, … t xm ay mga standardized na variable kung saan ang ibig sabihin ng mga halaga ay 0; Ang β i ay ang standardized regression coefficients, at ang standard deviation ay 1.

Pakitandaan na ang lahat ng β i sa kasong ito ay nakatakda bilang normalisado at sentralisado, kaya ang kanilang paghahambing sa isa't isa ay itinuturing na tama at tinatanggap. Bilang karagdagan, kaugalian na i-filter ang mga kadahilanan, itapon ang mga may pinakamaliit na halaga ng βi.

Problema sa paggamit ng linear regression equation

Ipagpalagay na mayroong isang talahanayan ng dynamics ng presyo ng isang partikular na produkto N sa nakalipas na 8 buwan. Kinakailangang gumawa ng desisyon sa pagiging marapat na bilhin ang batch nito sa presyong 1850 rubles/t.

numero ng buwan

pangalan ng buwan

presyo ng item N

1750 rubles bawat tonelada

1755 rubles bawat tonelada

1767 rubles bawat tonelada

1760 rubles bawat tonelada

1770 rubles bawat tonelada

1790 rubles bawat tonelada

1810 rubles bawat tonelada

1840 rubles bawat tonelada

Upang malutas ang problemang ito sa Excel spreadsheet, kailangan mong gamitin ang tool sa Pagsusuri ng Data na kilala na mula sa halimbawa sa itaas. Susunod, piliin ang seksyong "Regression" at itakda ang mga parameter. Dapat alalahanin na sa field na "Input Y interval", isang hanay ng mga halaga para sa dependent variable (sa kasong ito, ang presyo ng isang produkto sa mga partikular na buwan ng taon) ay dapat ilagay, at sa "Input X interval" - para sa independiyenteng variable (numero ng buwan). Kumpirmahin ang pagkilos sa pamamagitan ng pag-click sa "Ok". Sa isang bagong sheet (kung ito ay ipinahiwatig na gayon), nakakakuha kami ng data para sa regression.

Batay sa kanila, bumuo kami ng isang linear equation ng form na y=ax+b, kung saan ang mga parameter a at b ay ang mga coefficient ng row na may pangalan ng buwan na numero at mga coefficient at ang "Y-intersection" na hilera mula sa sheet na may mga resulta ng pagsusuri ng regression. Kaya, ang linear regression equation (LE) para sa problema 3 ay nakasulat bilang:

Presyo ng produkto N = 11.714* buwan na numero + 1727.54.

o sa algebraic notation

y = 11.714 x + 1727.54

Pagsusuri ng mga resulta

Upang magpasya kung ang resultang linear regression equation ay sapat, maramihang mga correlation coefficients (MCC) at determination coefficients ang ginagamit, gayundin ang Fisher's test at Student's test. Sa talahanayan ng Excel na may mga resulta ng regression, lumilitaw ang mga ito sa ilalim ng mga pangalan ng maramihang R, R-square, F-statistic at t-statistic, ayon sa pagkakabanggit.

Ginagawang posible ng KMC R na masuri ang higpit ng probabilistikong relasyon sa pagitan ng mga independiyente at umaasa na mga variable. Ang mataas na halaga nito ay nagpapahiwatig ng isang medyo malakas na ugnayan sa pagitan ng mga variable na "Bilang ng buwan" at "Presyo ng mga kalakal N sa rubles bawat 1 tonelada". Gayunpaman, ang likas na katangian ng relasyon na ito ay nananatiling hindi alam.

Ang parisukat ng coefficient of determination R 2 (RI) ay isang numerical na katangian ng bahagi ng kabuuang scatter at nagpapakita ng scatter ng kung aling bahagi ng pang-eksperimentong data, i.e. ang mga halaga ng dependent variable ay tumutugma sa linear regression equation. Sa problemang isinasaalang-alang, ang halagang ito ay katumbas ng 84.8%, ibig sabihin, ang istatistikal na data ay inilalarawan na may mataas na antas ng katumpakan ng nakuhang SD.

Ang F-statistics, na tinatawag ding Fisher's test, ay ginagamit upang masuri ang kahalagahan ng isang linear na relasyon, pinabulaanan o kinukumpirma ang hypothesis ng pagkakaroon nito.

(Ang pamantayan ng mag-aaral) ay tumutulong upang suriin ang kahalagahan ng koepisyent na may hindi alam o libreng termino ng isang linear na relasyon. Kung ang halaga ng t-criterion > t cr, kung gayon ang hypothesis ng insignificance ng libreng termino ng linear equation ay tinanggihan.

Sa problemang isinasaalang-alang para sa libreng miyembro, gamit ang Excel tool, nakuha na t = 169.20903, at p = 2.89E-12, ibig sabihin, mayroon kaming zero na posibilidad na ang tamang hypothesis tungkol sa kawalang-halaga ng libreng miyembro ay tanggihan. Para sa koepisyent sa hindi kilalang t=5.79405, at p=0.001158. Sa madaling salita, ang posibilidad na ang tamang hypothesis tungkol sa kawalang-halaga ng koepisyent para sa hindi alam ay tatanggihan ay 0.12%.

Kaya, maaari itong mapagtatalunan na ang resultang linear regression equation ay sapat.

Ang problema ng pagiging angkop ng pagbili ng isang bloke ng pagbabahagi

Ang maramihang pagbabalik sa Excel ay ginagawa gamit ang parehong tool sa Pagsusuri ng Data. Isaalang-alang ang isang partikular na inilapat na problema.

Ang pamamahala ng NNN ay dapat gumawa ng desisyon sa pagiging advisability ng pagbili ng 20% ​​stake sa MMM SA. Ang halaga ng package (JV) ay 70 milyong US dollars. Ang mga espesyalista sa NNN ay nangolekta ng data sa mga katulad na transaksyon. Napagpasyahan na suriin ang halaga ng bloke ng mga pagbabahagi ayon sa mga naturang parameter, na ipinahayag sa milyun-milyong dolyar ng US, bilang:

  • mga account na dapat bayaran (VK);
  • taunang turnover (VO);
  • account receivable (VD);
  • halaga ng mga fixed asset (SOF).

Bilang karagdagan, ginagamit ang parameter na atraso sa payroll ng enterprise (V3 P) sa libu-libong US dollars.

Solusyon gamit ang Excel spreadsheet

Una sa lahat, kailangan mong lumikha ng isang talahanayan ng paunang data. Mukhang ganito:

  • tawagan ang window na "Pagsusuri ng Data";
  • piliin ang seksyong "Regression";
  • sa kahon na "Input interval Y" ipasok ang hanay ng mga halaga ng mga dependent variable mula sa column G;
  • mag-click sa icon na may pulang arrow sa kanan ng window ng "Input interval X" at piliin ang hanay ng lahat ng values ​​mula sa mga column B, C, D, F sa sheet.

Piliin ang "Bagong Worksheet" at i-click ang "Ok".

Kunin ang pagsusuri ng regression para sa ibinigay na problema.

Pagsusuri ng mga resulta at konklusyon

"Kinakolekta namin" mula sa nakabilog na data na ipinakita sa itaas sa Excel spreadsheet sheet, ang equation ng regression:

SP \u003d 0.103 * SOF + 0.541 * VO - 0.031 * VK + 0.405 * VD + 0.691 * VZP - 265.844.

Sa isang mas pamilyar na anyo ng matematika, maaari itong isulat bilang:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

Ang data para sa JSC "MMM" ay ipinakita sa talahanayan:

Ang pagpapalit sa kanila sa equation ng regression, makakakuha sila ng figure na 64.72 milyong US dollars. Nangangahulugan ito na ang mga bahagi ng JSC MMM ay hindi dapat bilhin, dahil ang kanilang halaga na 70 milyong US dollars ay medyo overstated.

Gaya ng nakikita mo, ang paggamit ng Excel spreadsheet at ang regression equation ay naging posible upang makagawa ng matalinong desisyon tungkol sa pagiging posible ng isang napaka-espesipikong transaksyon.

Ngayon alam mo na kung ano ang regression. Ang mga halimbawa sa Excel na tinalakay sa itaas ay tutulong sa iyo na malutas ang mga praktikal na problema mula sa larangan ng econometrics.

Matapos matagpuan ang linear regression equation, ang kahalagahan ng parehong equation sa kabuuan at ang mga indibidwal na parameter nito ay tinasa.

Suriin ang kahalagahan ng equation ng regression - ibig sabihin ay itatag kung ang mathematical model na nagpapahayag ng ugnayan sa pagitan ng mga variable ay tumutugma sa pang-eksperimentong data at kung mayroong sapat na mga variable na nagpapaliwanag na kasama sa equation (isa o higit pa) upang ilarawan ang dependent variable.

Ang pagsusuri sa kahalagahan ay batay sa pagsusuri ng pagkakaiba.

Ayon sa ideya ng pagsusuri ng pagkakaiba-iba, ang kabuuang kabuuan ng mga squared deviations (RMS) ng y mula sa mean na halaga ay nabubulok sa dalawang bahagi - ipinaliwanag at hindi naipaliwanag:

o, ayon sa pagkakabanggit:

Mayroong dalawang matinding kaso dito: kapag ang kabuuang standard deviation ay eksaktong katumbas ng residual at kapag ang kabuuang standard deviation ay katumbas ng factorial.

Sa unang kaso, ang x factor ay hindi nakakaapekto sa resulta, ang buong pagkakaiba-iba ng y ay dahil sa impluwensya ng iba pang mga kadahilanan, ang regression line ay kahanay sa Ox axis, at ang equation ay dapat magmukhang.

Sa pangalawang kaso, ang ibang mga kadahilanan ay hindi nakakaapekto sa resulta, ang y ay nauugnay sa x sa pagganap, at ang natitirang standard deviation ay zero.

Gayunpaman, sa pagsasagawa ang parehong mga termino ay naroroon sa kanang bahagi. Ang kaangkupan ng linya ng regression para sa hula ay depende sa kung gaano karami sa kabuuang pagkakaiba sa y ang na-account para sa ipinaliwanag na pagkakaiba. Kung ang ipinaliwanag na RMSD ay mas malaki kaysa sa natitirang RMSD, kung gayon ang regression equation ay istatistikal na makabuluhan at ang x factor ay may makabuluhang epekto sa y resulta. Katumbas ito ng katotohanan na ang coefficient of determination ay lalapit sa pagkakaisa.

Ang bilang ng mga antas ng kalayaan (df-degrees ng kalayaan) ay ang bilang ng mga value ng feature na independently variable.

Ang pangkalahatang karaniwang paglihis ay nangangailangan ng (n-1) mga independiyenteng paglihis,

Ang factorial standard deviation ay may isang antas ng kalayaan, at

Kaya, maaari tayong sumulat:

Mula sa balanseng ito, tinutukoy natin na = n-2.

Sa pamamagitan ng paghahati sa bawat pamantayang paglihis sa bilang ng mga antas ng kalayaan nito, nakukuha natin ang mean square ng mga deviations, o ang pagkakaiba sa bawat isang antas ng kalayaan: - kabuuang pagkakaiba, - factorial, - nalalabi.

Pagsusuri ng istatistikal na kahalagahan ng linear regression coefficients

Kahit na ang mga teoretikal na halaga ng mga coefficient ng linear dependence equation ay ipinapalagay na pare-pareho, ang mga pagtatantya ng a at b ng mga coefficient na ito na nakuha sa kurso ng pagbuo ng equation mula sa random sampling data ay random variable. Kung ang mga error sa regression ay karaniwang ipinamamahagi, ang mga pagtatantya ng koepisyent ay karaniwang ipinamamahagi din at maaaring mailalarawan sa pamamagitan ng kanilang mga paraan at pagkakaiba. Samakatuwid, ang pagsusuri ng mga coefficient ay nagsisimula sa pagkalkula ng mga katangiang ito.

Ang mga coefficient variances ay kinakalkula ng mga formula:

Pagkakaiba-iba ng coefficient ng regression:

kung saan ang natitirang dispersion sa bawat isang antas ng kalayaan.

Parameter dispersion:

Samakatuwid, ang karaniwang error ng regression coefficient ay tinutukoy ng formula:

Ang karaniwang error ng parameter ay tinutukoy ng formula:

Nagsisilbi ang mga ito upang subukan ang mga null hypotheses na ang tunay na halaga ng regression coefficient b o intercept a ay zero: .

Ang alternatibong hypothesis ay may anyo: .

Ang t-statistics ay may t-estudyante na pamamahagi na may mga antas ng kalayaan. Ayon sa mga talahanayan ng pamamahagi ng Mag-aaral, sa isang tiyak na antas ng kahalagahan b at antas ng kalayaan, isang kritikal na halaga ang matatagpuan.

Kung, kung gayon, ang null hypothesis ay tatanggihan, ang mga coefficient ay itinuturing na makabuluhang istatistika.

Kung, kung gayon ang null hypothesis ay hindi maaaring tanggihan. (Kung ang koepisyent b ay hindi gaanong mahalaga sa istatistika, ang equation ay dapat magmukhang ganito, at nangangahulugan ito na walang kaugnayan sa pagitan ng mga tampok. Kung ang koepisyent a ay hindi gaanong mahalaga sa istatistika, inirerekomenda na suriin ang bagong equation sa anyo).

Mga pagtatantya ng pagitan ng mga coefficient ng linear regression equation:

Agwat ng kumpiyansa para sa a: .

Agwat ng kumpiyansa para sa b:

Nangangahulugan ito na sa isang naibigay na pagiging maaasahan (nasaan ang antas ng kahalagahan), ang mga tunay na halaga ng a, b ay nasa ipinahiwatig na mga pagitan.

Ang koepisyent ng regression ay may malinaw na interpretasyong pang-ekonomiya, kaya ang mga limitasyon ng kumpiyansa ng agwat ay hindi dapat maglaman ng mga hindi pantay na resulta, halimbawa, Hindi dapat isama ang mga ito ng zero.

Pagsusuri ng istatistikal na kahalagahan ng equation sa kabuuan.

Fisher distribution sa regression analysis

Ang pagtatasa ng kahalagahan ng regression equation sa kabuuan ay ibinibigay gamit ang Fisher's F-test. Sa kasong ito, ang null hypothesis ay iniharap na ang lahat ng regression coefficient, maliban sa libreng term a, ay katumbas ng zero at, samakatuwid, ang x factor ay hindi nakakaapekto sa resulta y (o).

Ang halaga ng F - criterion ay nauugnay sa coefficient of determination. Kailan maramihang pagbabalik:

kung saan ang m ay ang bilang ng mga malayang variable.

Kailan pairwise regression formula F - ang mga istatistika ay tumatagal sa anyo:

Kapag nahanap ang tabular na halaga ng F-criterion, nakatakda ang isang antas ng kahalagahan (karaniwan ay 0.05 o 0.01) at dalawang antas ng kalayaan: - sa kaso ng maramihang regression, - para sa ipinares na regression.

Kung, pagkatapos ay tinanggihan at isang konklusyon ay ginawa tungkol sa kahalagahan ng istatistikal na relasyon sa pagitan ng y at x.

Kung, kung gayon ang posibilidad ng equation ng regression na itinuturing na hindi gaanong mahalaga sa istatistika ay hindi tinatanggihan.

Magkomento. Sa pairwise linear regression. Gayundin, samakatuwid. Kaya, ang pagsubok sa hypothesis tungkol sa kahalagahan ng regression at correlation coefficients ay katumbas ng pagsubok sa hypothesis tungkol sa kahalagahan ng linear regression equation.

Ang distribusyon ng Fisher ay maaaring gamitin hindi lamang upang subukan ang hypothesis na ang lahat ng linear regression coefficient ay sabay-sabay na katumbas ng zero, kundi pati na rin ang hypothesis na ang ilan sa mga coefficient na ito ay katumbas ng zero. Ito ay mahalaga sa pagbuo ng isang linear regression na modelo, dahil pinapayagan nito ang pagtatasa ng bisa ng pagbubukod ng mga indibidwal na variable o kanilang mga grupo mula sa bilang ng mga variable na nagpapaliwanag, o, sa kabaligtaran, isama ang mga ito sa numerong ito.

Hayaan, halimbawa, ang maramihang linear regression ay unang tinantya para sa n obserbasyon na may m paliwanag na mga variable, at ang koepisyent ng determinasyon ay pantay, pagkatapos ay ang huling k na mga variable ay hindi kasama sa listahan ng mga paliwanag na variable, at ang equation kung saan ang koepisyent ng ang pagpapasiya ay (, dahil (ang bawat karagdagang variable ay nagpapaliwanag ng isang bahagi, gaano man kaliit, ng pagkakaiba-iba ng dependent variable).

Upang masubukan ang hypothesis tungkol sa sabay-sabay na pagkakapantay-pantay sa zero ng lahat ng mga coefficient na may mga ibinukod na variable, ang halaga ay kinakalkula

na mayroong pamamahagi ng Fisher na may mga antas ng kalayaan.

Ayon sa mga talahanayan ng pamamahagi ni Fisher, sa isang naibigay na antas ng kahalagahan, nahanap nila. At kung, ang null hypothesis ay tinanggihan. Sa kasong ito, hindi tama na ibukod ang lahat ng k variable mula sa equation.

Ang katulad na pangangatwiran ay maaaring isagawa tungkol sa bisa ng pagsasama ng isa o higit pang k bagong mga paliwanag na variable sa regression equation.

Sa kasong ito, ang F ay kinakalkula - mga istatistika

pagkakaroon ng pamamahagi. At kung ito ay lumampas sa isang kritikal na antas, kung gayon ang pagsasama ng mga bagong variable ay nagpapaliwanag ng isang makabuluhang bahagi ng dati nang hindi maipaliwanag na pagkakaiba-iba ng dependent variable (ibig sabihin, ang pagsasama ng mga bagong paliwanag na variable ay makatwiran).

Remarks. 1. Maipapayo na isama ang mga bagong variable nang paisa-isa.

2. Upang kalkulahin ang F - mga istatistika, kapag isinasaalang-alang ang pagsasama ng mga paliwanag na variable sa equation, ito ay kanais-nais na isaalang-alang ang koepisyent ng pagpapasiya na nababagay para sa bilang ng mga antas ng kalayaan.

F - Fisher statistics ay ginagamit din upang subukan ang hypothesis tungkol sa coincidence ng regression equation para sa mga indibidwal na grupo ng mga obserbasyon.

Hayaang mayroong 2 sample na naglalaman, ayon sa pagkakabanggit, mga obserbasyon. Para sa bawat isa sa mga sample na ito, nasuri ang equation ng regression ng species. Hayaang ang karaniwang paglihis mula sa linya ng regression (i.e.) ay pantay para sa kanila, ayon sa pagkakabanggit, .

Ang null hypothesis ay nasubok: na ang lahat ng kaukulang coefficient ng mga equation na ito ay katumbas ng bawat isa, i.e. ang regression equation para sa mga sample na ito ay pareho.

Hayaang matantya ang equation ng regression ng parehong uri para sa lahat ng mga obserbasyon nang sabay-sabay, at RMS.

Pagkatapos ay kinakalkula ang F - mga istatistika ayon sa formula:

Mayroon itong pamamahagi ng Fisher na may mga antas ng kalayaan. F - ang mga istatistika ay magiging malapit sa zero kung ang equation para sa parehong mga sample ay pareho, dahil sa kasong ito. Yung. kung, kung gayon ang null hypothesis ay tinatanggap.

Kung, kung gayon ang null hypothesis ay tinanggihan, at ang isang solong regression equation ay hindi mabuo.

Pagkatapos suriin ang mga parameter a at b, nakakuha kami ng regression equation kung saan maaari naming tantyahin ang mga halaga y sa pamamagitan ng mga itinakdang halaga x. Natural na ipagpalagay na ang mga kinakalkula na halaga ng dependent variable ay hindi magkakasabay sa aktwal na mga halaga, dahil ang linya ng regression ay naglalarawan lamang ng relasyon sa karaniwan, sa pangkalahatan. Ang magkakahiwalay na kahulugan ay nakakalat sa paligid nito. Kaya, ang pagiging maaasahan ng mga kinakalkula na halaga na nakuha mula sa equation ng regression ay higit na tinutukoy ng pagpapakalat ng mga naobserbahang halaga sa paligid ng linya ng regression. Sa pagsasagawa, bilang panuntunan, ang pagkakaiba-iba ng error ay hindi alam at tinatantya mula sa mga obserbasyon nang sabay-sabay sa mga parameter ng regression. a at b. Ito ay lubos na lohikal na ipagpalagay na ang pagtatantya ay nauugnay sa kabuuan ng mga parisukat ng mga natitirang regression. Ang dami ay isang sample na pagtatantya ng pagkakaiba-iba ng mga kaguluhan na nilalaman sa teoretikal na modelo . Maaari itong ipakita na para sa isang ipinares na modelo ng regression

kung saan ang paglihis ng aktwal na halaga ng dependent variable mula sa kinakalkula na halaga nito.

Kung ang , pagkatapos para sa lahat ng mga obserbasyon ang aktwal na mga halaga ng dependent variable ay nag-tutugma sa mga kinakalkula (teoretikal) na halaga . Sa graphically, nangangahulugan ito na ang theoretical regression line (ang linya na binuo mula sa function ) ay dumadaan sa lahat ng mga punto ng field ng correlation, na posible lamang sa isang mahigpit na functional na koneksyon. Samakatuwid, ang mabisang tanda sa ganap na dahil sa impluwensya ng salik X.

Karaniwan, sa pagsasagawa, mayroong ilang pagpapakalat ng mga punto ng patlang ng ugnayan na nauugnay sa linya ng teoretikal na regression, i.e. mga paglihis ng empirical na data mula sa mga teoretikal. Ang scatter na ito ay dahil sa parehong impluwensya ng salik X, ibig sabihin. regression y sa X, (tinatawag na ipinaliwanag ang ganitong pagkakaiba-iba, dahil ipinaliwanag ito ng equation ng regression), at ang pagkilos ng iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba, random). Ang magnitude ng mga paglihis na ito ay sumasailalim sa pagkalkula ng mga tagapagpahiwatig ng kalidad ng equation.

Ayon sa pangunahing prinsipyo ng pagsusuri ng pagkakaiba, ang kabuuang kabuuan ng mga squared deviations ng dependent variable y mula sa mean na halaga ay maaaring mabulok sa dalawang bahagi: ipinaliwanag ng regression equation at hindi maipaliwanag:

,

kung saan - mga halaga y, kinakalkula ng equation .

Hanapin natin ang ratio ng kabuuan ng mga squared deviations, na ipinaliwanag ng regression equation, sa kabuuang kabuuan ng mga parisukat:

, saan

. (7.6)

Ang ratio ng bahagi ng variance na ipinaliwanag ng regression equation sa kabuuang variance ng resultang feature ay tinatawag na coefficient of determination. Ang halaga ay hindi maaaring lumampas sa isa at ang pinakamataas na halagang ito ay maaabot lamang sa , ibig sabihin. kapag ang bawat paglihis ay zero at samakatuwid ang lahat ng mga punto ng scatterplot ay eksaktong nasa isang tuwid na linya.

Ang koepisyent ng determinasyon ay nagpapakilala sa bahagi ng pagkakaiba na ipinaliwanag ng regression sa kabuuang halaga ng pagkakaiba ng dependent variable . Alinsunod dito, ang halaga ay nagpapakilala sa proporsyon ng variation (dispersion) y, hindi maipaliwanag ng equation ng regression, at samakatuwid ay sanhi ng impluwensya ng iba pang mga kadahilanan na hindi isinasaalang-alang sa modelo. Ang mas malapit sa isa, mas mataas ang kalidad ng modelo.



Sa ipinares na linear regression, ang koepisyent ng determinasyon ay katumbas ng parisukat ng ipinares na linear na koepisyent ng ugnayan: .

Ang ugat ng coefficient of determination na ito ay ang coefficient (index) ng multiple correlation, o ang theoretical correlation ratio.

Upang malaman kung ang halaga ng koepisyent ng determinasyon na nakuha sa panahon ng pagsusuri ng regression ay talagang sumasalamin sa tunay na relasyon sa pagitan ng y at x suriin ang kahalagahan ng nabuong equation bilang isang buo at indibidwal na mga parameter. Ang pagsusuri sa kahalagahan ng equation ng regression ay nagpapahintulot sa iyo na malaman kung ang equation ng regression ay angkop para sa praktikal na paggamit, halimbawa, para sa pagtataya o hindi.

Kasabay nito, ang pangunahing hypothesis ay iniharap tungkol sa hindi gaanong kahalagahan ng equation sa kabuuan, na pormal na binabawasan sa hypothesis na ang mga parameter ng regression ay katumbas ng zero, o, kung ano ang pareho, na ang koepisyent ng pagpapasiya ay pantay. sa zero: . Ang isang alternatibong hypothesis tungkol sa kahalagahan ng equation ay ang hypothesis na ang mga parameter ng regression ay hindi katumbas ng zero o na ang determination coefficient ay hindi katumbas ng zero: .

Upang subukan ang kahalagahan ng modelo ng regression, gamitin F- Ang pamantayan ni Fisher, na kinakalkula bilang ratio ng kabuuan ng mga parisukat (bawat isang independiyenteng variable) sa natitirang kabuuan ng mga parisukat (bawat isang antas ng kalayaan):

, (7.7)

saan k ay ang bilang ng mga malayang variable.

Matapos hatiin ang numerator at denominator ng kaugnayan (7.7) sa kabuuang kabuuan ng mga squared deviations ng dependent variable, F- Ang criterion ay maaaring katumbas na ipahayag sa mga tuntunin ng koepisyent :

.

Kung ang null hypothesis ay totoo, kung gayon ang pagkakaiba-iba na ipinaliwanag ng equation ng regression at ang hindi maipaliwanag (nalalabi) na pagkakaiba ay hindi naiiba sa bawat isa.

Tinantyang halaga F- ang criterion ay inihambing sa isang kritikal na halaga na nakasalalay sa bilang ng mga independyenteng variable k, at sa bilang ng mga antas ng kalayaan (n-k-1). Talahanayan (kritikal) na halaga F- criterion - ito ang pinakamataas na halaga ng ratio ng mga pagkakaiba-iba, na maaaring mangyari kung sila ay random na maghihiwalay para sa isang partikular na antas ng posibilidad ng pagkakaroon ng null hypothesis. Kung ang kinakalkula na halaga F- ang criterion ay mas malaki kaysa sa tabular sa isang naibigay na antas ng kahalagahan, pagkatapos ay ang null hypothesis tungkol sa kawalan ng isang koneksyon ay tinanggihan at isang konklusyon ay ginawa tungkol sa kahalagahan ng koneksyon na ito, i.e. modelo ay itinuturing na makabuluhan.

Para sa isang nakapares na modelo ng regression

.

Sa linear regression, karaniwang tinatantya ang kahalagahan ng hindi lamang sa equation sa kabuuan, kundi pati na rin sa mga indibidwal na coefficient nito. Upang gawin ito, ang karaniwang error ng bawat isa sa mga parameter ay tinutukoy. Ang mga karaniwang error ng mga coefficient ng regression ng mga parameter ay tinutukoy ng mga formula:

, (7.8)

(7.9)

Ang mga karaniwang error ng mga coefficient ng regression o standard deviations na kinakalkula ng mga formula (7.8,7.9), bilang panuntunan, ay ibinibigay sa mga resulta ng pagkalkula ng modelo ng regression sa mga statistical package.

Batay sa mga karaniwang error ng mga coefficient ng regression, ang kahalagahan ng mga coefficient na ito ay sinusuri gamit ang karaniwang pamamaraan para sa pagsubok ng mga istatistikal na hypotheses.

Bilang pangunahing hypothesis, ang isang hypothesis ay iniharap tungkol sa isang hindi gaanong pagkakaiba mula sa zero ng "tunay" na koepisyent ng regression. Ang isang alternatibong hypothesis sa kasong ito ay ang reverse hypothesis, ibig sabihin, tungkol sa hindi pagkakapantay-pantay ng "tunay" na parameter ng regression sa zero. Ang hypothesis na ito ay sinubok gamit ang t- mga istatistika na mayroon t-Pamamahagi ng mag-aaral:

Pagkatapos ay ang mga kinakalkula na halaga t- inihahambing ang mga istatistika sa mga kritikal na halaga t- mga istatistika na tinutukoy mula sa mga talahanayan ng pamamahagi ng Mag-aaral. Ang kritikal na halaga ay tinutukoy depende sa antas ng kahalagahan α at ang bilang ng mga antas ng kalayaan, na (n-k-1), n ​​- bilang ng mga obserbasyon k- bilang ng mga independiyenteng variable. Sa kaso ng linear pair regression, ang bilang ng mga degree ng kalayaan ay (P- 2). Ang kritikal na halaga ay maaari ding kalkulahin sa isang computer gamit ang built-in na STUDISP function ng Excel.

Kung ang kinakalkula na halaga t- ang mga istatistika ay mas malaki kaysa sa kritikal, pagkatapos ang pangunahing hypothesis ay tinanggihan at pinaniniwalaan na may posibilidad (1-α) Ang "totoong" regression coefficient ay makabuluhang naiiba mula sa zero, na isang istatistikal na kumpirmasyon ng pagkakaroon ng isang linear na relasyon sa pagitan ng mga kaukulang variable.

Kung ang kinakalkula na halaga t- ang mga istatistika ay mas mababa kaysa sa kritikal, pagkatapos ay walang dahilan upang tanggihan ang pangunahing hypothesis, ibig sabihin, ang "tunay" na koepisyent ng regression ay hindi makabuluhang naiiba mula sa zero sa antas ng kahalagahan α . Sa kasong ito, ang kadahilanan na naaayon sa koepisyent na ito ay dapat na hindi kasama sa modelo.

Ang kahalagahan ng koepisyent ng regression ay maaaring maitatag sa pamamagitan ng pagbuo ng isang agwat ng kumpiyansa. Agwat ng kumpiyansa para sa mga parameter ng regression a at b tinukoy bilang sumusunod:

,

,

kung saan tinutukoy mula sa talahanayan ng pamamahagi ng Mag-aaral para sa antas ng kahalagahan α at bilang ng mga antas ng kalayaan (P- 2) para sa pairwise regression.

Dahil ang mga coefficient ng regression sa mga econometric na pag-aaral ay may malinaw na interpretasyong pang-ekonomiya, ang mga pagitan ng kumpiyansa ay hindi dapat maglaman ng zero. Ang tunay na halaga ng coefficient ng regression ay hindi maaaring sabay na maglaman ng mga positibo at negatibong halaga, kabilang ang zero, kung hindi man ay makakakuha tayo ng mga magkakasalungat na resulta sa pang-ekonomiyang interpretasyon ng mga coefficient, na hindi maaaring. Kaya, ang koepisyent ay makabuluhan kung ang nakuha na pagitan ng kumpiyansa ay hindi sumasaklaw sa zero.

Halimbawa 7.4. Ayon sa halimbawa 7.1:

a) Bumuo ng isang ipinares na linear regression na modelo ng pagtitiwala ng kita sa pagbebenta sa presyo ng pagbebenta gamit ang software sa pagpoproseso ng data.

b) Tayahin ang kahalagahan ng regression equation sa kabuuan, gamit ang F- Ang pamantayan ni Fisher sa α=0.05.

c) Tayahin ang kahalagahan ng regression model coefficients gamit t-Ang pamantayan ng mag-aaral para sa α=0.05 at α=0.1.

Para sa pagsusuri ng regression ginagamit namin ang karaniwang programa ng opisina na EXCEL. Bubuo kami ng modelo ng regression gamit ang REGRESSION tool ng mga setting ng ANALYSIS PACKAGE (Larawan 7.5), na inilunsad bilang mga sumusunod:

ServiceData AnalysisREGRESSIONOK.

Fig.7.5. Gamit ang REGRESSION tool

Sa dialog box ng REGRESSION, sa field ng Input interval Y, ipasok ang address ng hanay ng mga cell na naglalaman ng dependent variable. Sa field ng Input interval X, ilagay ang mga address ng isa o higit pang mga hanay na naglalaman ng mga halaga ng mga independent variable. Ang Mga Label sa unang linya na checkbox ay nakatakda sa aktibo kung ang mga heading ng column ay pipiliin din. Sa fig. 7.6. ipinapakita ang screen form ng pagkalkula ng regression model gamit ang REGRESSION tool.

kanin. 7.6. Pagbuo ng isang paired regression model gamit ang

tool sa REGRESSION

Bilang resulta ng gawain ng REGRESSION tool, ang sumusunod na regression analysis protocol ay nabuo (Larawan 7.7).

kanin. 7.7. Protocol ng pagsusuri ng regression

Ang equation para sa pagtitiwala ng kita mula sa mga benta sa presyo ng pagbebenta ay may anyo:

Susuriin namin ang kahalagahan ng regression equation gamit ang F- Ang pamantayan ni Fisher. Ibig sabihin F- Ang criterion ni Fisher ay kinuha mula sa talahanayan na "Avariance analysis" ng EXCEL protocol (Fig. 7.7.). Tinantyang halaga F- pamantayan 53,372. Halaga ng talahanayan F- pamantayan sa antas ng kahalagahan α=0.05 at ang bilang ng mga antas ng kalayaan ay 4.964. Bilang , kung gayon ang equation ay itinuturing na makabuluhan.

Mga tinantyang halaga t-Ang mga pamantayan ng mag-aaral para sa mga coefficient ng equation ng regression ay ibinibigay sa resultang talahanayan (Larawan 7.7). Halaga ng talahanayan t-Pagsusulit ng mag-aaral sa antas ng kahalagahan α=0.05 at 10 degrees ng kalayaan ay 2.228. Para sa regression coefficient a, kaya ang koepisyent a hindi makabuluhan. Para sa regression coefficient b, samakatuwid, ang koepisyent b makabuluhan.

PAKSANG-ARALIN 4. MGA PARAAN NG ISTATISTIKA PARA SA PAG-AARAL NG MGA RELASYON

Regression Equation - ito ay isang analytical na representasyon ng pag-asa sa ugnayan. Ang equation ng regression ay naglalarawan ng hypothetical functional na relasyon sa pagitan ng conditional average na halaga ng epektibong feature at ang value ng feature - factor (factor), i.e. ang pinagbabatayan na kalakaran ng pagkagumon.

Ang pagdepende sa ugnayan ng pares ay inilalarawan ng equation ng pares ng regression, ang pagdepende sa maraming ugnayan - sa pamamagitan ng equation ng maramihang regression.

Ang feature-resulta sa equation ng regression ay ang dependent variable (tugon, explanatory variable), at ang feature-factor ay ang independent variable (argument, explanatory variable).

Ang pinakasimpleng uri ng regression equation ay ang equation ng isang paired linear na relasyon:

kung saan ang y ay ang dependent variable (sign-resulta); x ay isang malayang variable (sign-factor); at ang mga parameter ng equation ng regression; - Error sa pagtatantya.

Maaaring gamitin ang iba't ibang mga function ng matematika bilang isang equation ng regression. Ang mga equation ng linear dependence, parabola, hyperbola, steppe function, atbp. ay nakakahanap ng madalas na praktikal na aplikasyon.

Bilang isang patakaran, ang pagsusuri ay nagsisimula sa isang linear na relasyon, dahil ang mga resulta ay madaling bigyang kahulugan. Ang pagpili ng uri ng constraint equation ay isang mahalagang hakbang sa pagsusuri. Sa panahon ng "pre-computer", ang pamamaraang ito ay nauugnay sa ilang mga paghihirap at kinakailangan ang analyst na malaman ang mga katangian ng mga pag-andar ng matematika. Sa kasalukuyan, batay sa mga dalubhasang programa, posible na mabilis na bumuo ng isang hanay ng mga equation ng komunikasyon at, batay sa pormal na pamantayan, piliin ang pinakamahusay na modelo (gayunpaman, ang matematikal na literacy ng isang analyst ay hindi nawala ang kaugnayan nito).

Ang isang hypothesis tungkol sa uri ng pag-asa sa ugnayan ay maaaring iharap batay sa mga resulta ng pagbuo ng larangan ng ugnayan (tingnan ang panayam 6). Batay sa likas na katangian ng lokasyon ng mga punto sa graph (ang mga coordinate ng mga punto ay tumutugma sa mga halaga ng umaasa at independiyenteng mga variable), ang takbo ng ugnayan sa pagitan ng mga palatandaan (mga tagapagpahiwatig) ay ipinahayag. Kung ang linya ng regression ay dumaan sa lahat ng mga punto ng patlang ng ugnayan, kung gayon ito ay nagpapahiwatig ng isang functional na relasyon. Sa pagsasagawa ng socio-economic na pananaliksik, ang gayong larawan ay hindi maaaring maobserbahan, dahil mayroong isang istatistikal (kaugnayan) na dependence. Sa ilalim ng mga kondisyon ng pag-asa sa ugnayan, kapag gumuhit ng isang linya ng regression sa isang scatterplot, ang isang paglihis ng mga punto ng patlang ng ugnayan mula sa linya ng pagbabalik ay sinusunod, na nagpapakita ng tinatawag na mga residual o mga error sa pagtatantya (tingnan ang Larawan 7.1).

Ang pagkakaroon ng error sa equation ay dahil sa katotohanan na:

§ hindi lahat ng salik na nakakaimpluwensya sa resulta ay isinasaalang-alang sa equation ng regression;

§ ang anyo ng koneksyon ay maaaring maling napili - ang regression equation;

§ Hindi lahat ng salik ay kasama sa equation.

Upang makabuo ng isang regression equation ay nangangahulugang kalkulahin ang mga halaga ng mga parameter nito. Ang equation ng regression ay binuo batay sa aktwal na mga halaga ng nasuri na mga tampok. Ang pagkalkula ng mga parameter ay karaniwang ginagawa gamit ang paraan ng least squares (LSM).

Ang kakanyahan ng MNC ay posible na makakuha ng mga naturang halaga ng mga parameter ng equation, kung saan ang kabuuan ng mga squared deviations ng mga teoretikal na halaga ng attribute-resulta (kinakalkula batay sa regression equation) mula sa aktwal nitong pinaliit ang mga halaga:

,

kung saan - ang aktwal na halaga ng sign-resulta ng i-th unit ng populasyon; - ang halaga ng sign-resulta ng i-th unit ng populasyon, na nakuha ng regression equation ().

Kaya, ang problema ay nalutas para sa isang extremum, iyon ay, ito ay kinakailangan upang mahanap sa kung anong mga halaga ng mga parameter, ang function na S ay umabot sa isang minimum.

Isinasagawa ang pagkita ng kaibhan, tinutumbasan ang mga partial derivatives sa zero:



, (7.3)

, (7.4)

kung saan ang average na produkto ng kadahilanan at mga halaga ng resulta; - ang average na halaga ng sign - factor; - ang average na halaga ng sign-resulta; - pagkakaiba-iba ng sign-factor.

Ang parameter sa equation ng regression ay nagpapakilala sa slope ng linya ng regression sa graph. Ang pagpipiliang ito ay tinatawag na koepisyent ng regression at ang halaga nito ay nailalarawan sa pamamagitan ng kung gaano karaming mga yunit ng pagsukat nito ang mag-iiba ang resulta ng tanda kapag ang sign-factor ay nagbabago ng yunit ng pagsukat nito. Ang tanda ng koepisyent ng regression ay sumasalamin sa direksyon ng pag-asa (direkta o kabaligtaran) at kasabay ng pag-sign ng koepisyent ng ugnayan (sa ilalim ng mga kondisyon ng pagpapares na pag-asa).

Sa loob ng balangkas ng halimbawang isinasaalang-alang, kinakalkula ng programa ng STATISTICA ang mga parameter ng equation ng regression na naglalarawan ng ugnayan sa pagitan ng antas ng average na per capita na kita sa pera ng populasyon at ang halaga ng gross regional product per capita sa mga rehiyon ng Russia , tingnan ang Talahanayan 7.1.

Talahanayan 7.1 - Pagkalkula at pagsusuri ng mga parameter ng equation na naglalarawan ng ugnayan sa pagitan ng antas ng average na per capita cash income ng populasyon at ang halaga ng gross regional product per capita sa mga rehiyon ng Russia, 2013

Ang column na "B" ng talahanayan ay naglalaman ng mga halaga ng mga parameter ng equation ng regression ng pares, samakatuwid, maaari nating isulat ang: = 13406.89 + 22.82 x. Inilalarawan ng equation na ito ang trend ng relasyon sa pagitan ng mga nasuri na katangian. Ang parameter ay ang regression coefficient. Sa kasong ito, ito ay katumbas ng 22.82 at nailalarawan ang mga sumusunod: na may pagtaas sa GRP per capita ng 1 libong rubles, ang average na per capita cash income ay tumaas sa average (tulad ng ipinahiwatig ng "+" sign) ng 22.28 rubles.

Ang parameter ng equation ng regression sa mga sosyo-ekonomikong pag-aaral, bilang panuntunan, ay hindi makahulugang binibigyang kahulugan. Pormal, ito ay sumasalamin sa halaga ng sign - ang resulta, sa kondisyon na ang sign - factor ay katumbas ng zero. Tinutukoy ng parameter ang lokasyon ng linya ng regression sa graph, tingnan ang Figure 7.1.

Figure 7.1 - Correlation field at regression line, na sumasalamin sa dependence ng antas ng average per capita monetary income ng populasyon sa mga rehiyon ng Russia at ang halaga ng GRP per capita

Ang halaga ng parameter ay tumutugma sa punto ng intersection ng linya ng regression sa Y-axis, sa X=0.

Ang pagbuo ng equation ng regression ay sinamahan ng isang pagtatasa ng istatistikal na kahalagahan ng equation sa kabuuan at ang mga parameter nito. Ang pangangailangan para sa mga naturang pamamaraan ay nauugnay sa isang limitadong halaga ng data, na maaaring maiwasan ang pagpapatakbo ng batas ng malalaking numero at, samakatuwid, ang pagkilala ng isang tunay na kalakaran sa kaugnayan ng mga nasuri na tagapagpahiwatig. Bilang karagdagan, ang anumang pinag-aralan na populasyon ay maaaring ituring bilang isang sample mula sa pangkalahatang populasyon, at ang mga katangiang nakuha sa panahon ng pagsusuri bilang isang pagtatantya ng mga pangkalahatang parameter.

Ang pagtatasa ng istatistikal na kahalagahan ng mga parameter at ang equation sa kabuuan ay ang pagpapatunay ng posibilidad ng paggamit ng itinayong modelo ng komunikasyon para sa paggawa ng mga desisyon sa pamamahala at pagtataya (pagmomodelo).

Istatistikong Kahalagahan ng Regression Equation sa pangkalahatan ay tinatantya gamit Fisher F-test, na ang ratio ng factorial at natitirang mga pagkakaiba-iba na kinakalkula para sa isang antas ng kalayaan:

saan - kadahilanan na pagkakaiba-iba ng tampok - resulta; k ay ang bilang ng mga antas ng kalayaan ng factorial dispersion (ang bilang ng mga kadahilanan sa equation ng regression); - ang ibig sabihin ng halaga ng dependent variable; - theoretical (nakuha ng regression equation) na halaga ng dependent variable para sa i-th unit ng populasyon; - natitirang pagkakaiba-iba ng pag-sign - resulta; n ay ang dami ng populasyon; Ang n-k-1 ay ang bilang ng mga antas ng kalayaan ng natitirang pagpapakalat.

Ang halaga ng Fisher's F-test, ayon sa formula, ay nagpapakilala sa ratio sa pagitan ng salik at natitirang mga pagkakaiba-iba ng dependent variable, na nagpapakita, sa esensya, kung gaano karaming beses ang halaga ng ipinaliwanag na bahagi ng variation ay lumampas sa hindi maipaliwanag.

Ang Fisher's F-test ay naka-tabulate, ang input sa talahanayan ay ang bilang ng mga degree ng kalayaan ng factorial at residual variances. Ang paghahambing ng kinakalkula na halaga ng criterion sa tabular (kritikal) ay nagbibigay-daan sa pagsagot sa tanong: bahagi ba iyon ng variation ng trait-resulta na maaaring ipaliwanag ng mga salik na kasama sa equation ng ganitong uri na makabuluhang istatistika? Kung ang , kung gayon ang equation ng regression ay kinikilala bilang makabuluhang istatistika at, nang naaayon, ang koepisyent ng determinasyon ay makabuluhan din ayon sa istatistika. Kung hindi ( ), ang equation ay hindi gaanong mahalaga sa istatistika, i.e. ang pagkakaiba-iba ng mga kadahilanan na isinasaalang-alang sa equation ay hindi nagpapaliwanag ng makabuluhang bahagi ng istatistika ng pagkakaiba-iba ng katangian-resulta, o ang equation ng relasyon ay hindi napili nang tama.

Pagtataya ng istatistikal na kahalagahan ng mga parameter ng equation natupad sa batayan t-istatistika, na kinakalkula bilang ratio ng ganap na halaga ng mga parameter ng equation ng regression sa kanilang mga karaniwang error ( ):

, saan ; (7.6)

, saan ; (7.7)

saan - standard deviations ng sign - factor at sign - resulta; - koepisyent ng pagpapasiya.

Sa mga espesyal na programang istatistika, ang pagkalkula ng mga parameter ay palaging sinasamahan ng pagkalkula ng kanilang mga karaniwang (root-mean-square) na mga error at t-statistics (tingnan ang Talahanayan 7.1). Ang kinakalkula na halaga ng t-statistics ay inihambing sa tabular na isa, kung ang volume ng pinag-aralan na populasyon ay mas mababa sa 30 units (tiyak na isang maliit na sample), ang isa ay dapat sumangguni sa t-distribution table ng Mag-aaral, kung ang dami ng populasyon ay malaki. , dapat gamitin ng isa ang normal na talahanayan ng pamamahagi (Laplace's probability integral). Ang isang parameter ng equation ay itinuturing na makabuluhan sa istatistika kung.

Ang pagtatantya ng mga parameter batay sa t-statistics, sa esensya, ay isang pagsubok ng null hypothesis tungkol sa pagkakapantay-pantay ng mga pangkalahatang parameter sa zero (H 0: =0; H 0: =0;), iyon ay, tungkol sa isang hindi gaanong istatistika. halaga ng mga parameter ng equation ng regression. Ang antas ng kahalagahan ng hypothesis, bilang panuntunan, ay kinuha: = 0.05. Kung ang kinakalkula na antas ng kahalagahan ay mas mababa sa 0.05, ang null hypothesis ay tinanggihan at ang alternatibo ay tinatanggap - tungkol sa istatistikal na kahalagahan ng parameter.

Ipagpatuloy natin ang halimbawa. Ang talahanayan 7.1 sa column na "B" ay nagpapakita ng mga halaga ng mga parameter, sa column na Std.Err.ofB - ang mga halaga ng mga karaniwang error ng mga parameter ( ), sa haligi t (77 - ang bilang ng mga antas ng kalayaan) ang mga halaga ng t - mga istatistika ay kinakalkula na isinasaalang-alang ang bilang ng mga antas ng kalayaan. Upang masuri ang istatistikal na kahalagahan ng mga parameter, ang mga kinakalkula na halaga ng t-statistics ay dapat ihambing sa halaga ng talahanayan. Ang ibinigay na antas ng kahalagahan (0.05) sa normal na talahanayan ng pamamahagi ay tumutugma sa t = 1.96. Mula noong 18.02, 10.84, i.e. , dapat kilalanin ng isa ang istatistikal na kahalagahan ng nakuhang mga halaga ng parameter, i.e. ang mga halagang ito ay nabuo sa ilalim ng impluwensya ng mga di-random na mga kadahilanan at sumasalamin sa takbo ng ugnayan sa pagitan ng mga nasuri na tagapagpahiwatig.

Upang masuri ang istatistikal na kahalagahan ng equation sa kabuuan, bumaling tayo sa halaga ng F-test ni Fisher (tingnan ang Talahanayan 7.1). Ang kinakalkula na halaga ng F-criterion = 117.51, ang tabular value ng criterion, batay sa katumbas na bilang ng mga degree ng kalayaan (para sa factor variance d.f. =1, para sa natitirang variance d.f. =77), ay 4.00 (tingnan ang Appendix .. ... .). kaya, , samakatuwid, ang equation ng regression sa kabuuan ay makabuluhan sa istatistika. Sa ganoong sitwasyon, maaari rin nating pag-usapan ang istatistikal na kahalagahan ng halaga ng koepisyent ng pagpapasiya, i.e. Ang 60 porsiyentong pagkakaiba-iba sa average na per capita na kita ng populasyon sa mga rehiyon ng Russia ay maaaring ipaliwanag sa pamamagitan ng pagkakaiba-iba sa dami ng gross regional product per capita.

Sa pamamagitan ng pagtatasa ng istatistikal na kahalagahan ng equation ng regression at mga parameter nito, makakakuha tayo ng ibang kumbinasyon ng mga resulta.

· Ang equation sa pamamagitan ng F-test ay istatistikal na makabuluhan at lahat ng mga parameter ng equation sa pamamagitan ng t-statistics ay istatistikal din na makabuluhan. Ang equation na ito ay maaaring gamitin kapwa para sa paggawa ng mga desisyon sa pamamahala (kung aling mga salik ang dapat maimpluwensyahan upang makuha ang ninanais na resulta), at para sa paghula ng pag-uugali ng katangian ng resulta para sa ilang mga halaga ng mga salik.

· Ayon sa F-criterion, ang equation ay istatistikal na makabuluhan, ngunit ang mga parameter (parameter) ng equation ay hindi gaanong mahalaga. Maaaring gamitin ang equation para gumawa ng mga desisyon sa pamamahala (tungkol sa mga salik kung saan nakumpirma ang istatistikal na kahalagahan ng kanilang impluwensya), ngunit hindi magagamit ang equation para sa pagtataya.

· Ang F-test equation ay hindi makabuluhan ayon sa istatistika. Hindi magagamit ang equation. Ang paghahanap para sa mga makabuluhang sign-factor o isang analytical form ng koneksyon sa pagitan ng argumento at ng tugon ay dapat ipagpatuloy.

Kung ang istatistikal na kahalagahan ng equation at ang mga parameter nito ay nakumpirma, kung gayon ang tinatawag na point forecast ay maaaring ipatupad, i.e. isang pagtatantya ng halaga ng attribute-resulta (y) ay nakuha para sa ilang mga halaga ng factor (x).

Halatang halata na ang hinulaang halaga ng dependent variable, na kinakalkula batay sa equation ng relasyon, ay hindi magkakasabay sa aktwal na halaga nito ( Sa graphically, ang sitwasyong ito ay kinumpirma ng katotohanan na hindi lahat ng mga punto ng patlang ng ugnayan ay namamalagi sa linya ng regression, tanging sa isang functional na koneksyon ang linya ng regression ay dadaan sa lahat ng mga punto ng scatter diagram. Ang pagkakaroon ng mga pagkakaiba sa pagitan ng aktwal at teoretikal na mga halaga ng umaasang variable ay pangunahin dahil sa mismong kakanyahan ng pag-asa sa ugnayan: sa parehong oras, maraming mga kadahilanan ang nakakaapekto sa resulta, kung saan isang bahagi lamang ang maaaring isaalang-alang sa isang tiyak na equation ng relasyon. Bilang karagdagan, ang anyo ng ugnayan sa pagitan ng resulta at ang kadahilanan (ang uri ng equation ng regression) ay maaaring maling napili. Kaugnay nito, lumilitaw ang tanong kung gaano kabatid ang itinayong equation ng hadlang. Ang tanong na ito ay sinasagot ng dalawang tagapagpahiwatig: ang koepisyent ng pagpapasiya (napag-usapan na ito sa itaas) at ang karaniwang pagkakamali ng pagtatantya.

Ang pagkakaiba sa pagitan ng aktwal at teoretikal na halaga ng dependent variable ay tinatawag mga paglihis o pagkakamali, o mga natira. Batay sa mga halagang ito, kinakalkula ang natitirang pagkakaiba. Ang square root ng natitirang variance ay root-mean-square (standard) na error sa pagtatantya:

= (7.8)

Ang karaniwang error ng equation ay sinusukat sa parehong mga yunit bilang ang hinulaang rate. Kung ang mga error sa equation ay sumusunod sa isang normal na distribusyon (na may malalaking halaga ng data), kung gayon 95 porsyento ng mga halaga ay dapat na mula sa linya ng regression sa layo na hindi lalampas sa 2S (batay sa pag-aari ng isang normal na distribusyon - ang panuntunan ng tatlong sigma). Ang halaga ng karaniwang error ng pagtatantya ay ginagamit sa pagkalkula ng mga agwat ng kumpiyansa kapag hinuhulaan ang halaga ng isang tanda - ang resulta para sa isang partikular na yunit ng populasyon.

Sa praktikal na pananaliksik, madalas na kinakailangan upang mahulaan ang average na halaga ng isang tampok - ang resulta para sa isang partikular na halaga ng tampok - kadahilanan. Sa kasong ito, sa pagkalkula ng agwat ng kumpiyansa para sa mean na halaga ng dependent variable()

ang halaga ng average na error ay isinasaalang-alang:

(7.9)

Ang paggamit ng iba't ibang mga halaga ng error ay ipinaliwanag sa pamamagitan ng katotohanan na ang pagkakaiba-iba ng mga antas ng mga tagapagpahiwatig para sa mga tiyak na yunit ng populasyon ay mas mataas kaysa sa pagkakaiba-iba ng ibig sabihin ng halaga, samakatuwid, ang error sa pagtataya ng average na halaga ay mas maliit.

Ang pagitan ng kumpiyansa ng pagtataya ng mean na halaga ng dependent variable:

, (7.10)

saan - marginal estimation error (tingnan ang sampling theory); ang t ay ang confidence coefficient, ang halaga nito ay nasa kaukulang talahanayan, batay sa antas ng probabilidad na pinagtibay ng mananaliksik (bilang ng mga antas ng kalayaan) (tingnan ang teorya ng sampling).

Ang agwat ng kumpiyansa para sa hinulaang halaga ng katangian ng resulta ay maaari ding kalkulahin na isinasaalang-alang ang pagwawasto para sa shift (shift) ng linya ng regression. Ang halaga ng factor ng pagwawasto ay tinutukoy ng:

(7.11)

nasaan ang halaga ng attribute-factor, batay sa kung saan hinuhulaan ang halaga ng attribute-resulta.

Ito ay sumusunod na ang higit na halaga ay naiiba mula sa average na halaga ng attribute-factor, mas malaki ang halaga ng correction factor, mas malaki ang forecast error. Dahil sa coefficient na ito, kakalkulahin ang confidence interval ng forecast:

Ang katumpakan ng hula batay sa equation ng regression ay maaaring maapektuhan ng iba't ibang dahilan. Una sa lahat, dapat itong isaalang-alang na ang pagsusuri ng kalidad ng equation at ang mga parameter nito ay batay sa pagpapalagay ng isang normal na pamamahagi ng mga random na nalalabi. Ang paglabag sa pagpapalagay na ito ay maaaring dahil sa pagkakaroon ng magkakaibang mga halaga sa data, na may hindi pantay na pagkakaiba-iba, na may pagkakaroon ng isang hindi linear na relasyon. Sa kasong ito, ang kalidad ng forecast ay nabawasan. Ang pangalawang punto na dapat tandaan ay ang mga halaga ng mga salik na isinasaalang-alang kapag hinuhulaan ang resulta ay hindi dapat lumampas sa hanay ng pagkakaiba-iba sa data kung saan binuo ang equation.

©2015-2019 site
Lahat ng karapatan ay pagmamay-ari ng kanilang mga may-akda. Hindi inaangkin ng site na ito ang pagiging may-akda, ngunit nagbibigay ng libreng paggamit.
Petsa ng paggawa ng page: 2018-01-08

Sa socio-economic na pananaliksik, ang isang tao ay madalas na kailangang magtrabaho sa isang limitadong populasyon, o may piling data. Samakatuwid, pagkatapos ng mga parameter ng matematika ng equation ng regression, kinakailangan upang suriin ang mga ito at ang equation sa kabuuan para sa statistical significance, i.e. ito ay kinakailangan upang matiyak na ang resultang equation at ang mga parameter nito ay nabuo sa ilalim ng impluwensya ng mga di-random na mga kadahilanan.

Una sa lahat, sinusuri ang istatistikal na kahalagahan ng equation sa kabuuan. Ang pagsusuri ay karaniwang isinasagawa gamit ang Fisher's F-test. Ang pagkalkula ng F-criterion ay batay sa tuntunin ng pagdaragdag ng mga pagkakaiba-iba. Ibig sabihin, ang pangkalahatang variance sign-resulta = factor variance + residual variance.

tunay na presyo

Teoretikal na presyo
Ang pagkakaroon ng pagbuo ng regression equation, posible na kalkulahin ang teoretikal na halaga ng sign-resulta, i.e. kinakalkula ng regression equation na isinasaalang-alang ang mga parameter nito.

Ang mga halagang ito ay maglalarawan sa sign-resulta na nabuo sa ilalim ng impluwensya ng mga salik na kasama sa pagsusuri.

Palaging may mga pagkakaiba (nalalabi) sa pagitan ng mga aktwal na halaga ng katangian ng resulta at ang mga kinakalkula batay sa equation ng regression, dahil sa impluwensya ng iba pang mga kadahilanan na hindi kasama sa pagsusuri.

Ang pagkakaiba sa pagitan ng teoretikal at aktwal na mga halaga ng resulta ng katangian ay tinatawag na mga residual. Pangkalahatang pagkakaiba-iba ng resulta ng katangian:

Ang pagkakaiba-iba sa resulta ng katangian, dahil sa pagkakaiba-iba sa mga katangian ng mga salik na kasama sa pagsusuri, ay tinatantya sa pamamagitan ng paghahambing ng mga teoretikal na halaga ng resulta. tampok at ang ibig sabihin ng mga halaga nito. Ang natitirang pagkakaiba-iba sa pamamagitan ng paghahambing ng teoretikal at aktwal na mga halaga ng nagresultang tampok. Ang kabuuang pagkakaiba , nalalabi at aktwal ay may ibang bilang ng mga antas ng kalayaan.

pangkalahatan, P- bilang ng mga yunit sa pinag-aralan na populasyon

aktwal, P- bilang ng mga salik na kasama sa pagsusuri

Nalalabi

Ang Fisher's F-test ay kinakalkula bilang ratio sa , at kinakalkula para sa isang antas ng kalayaan.

Ang paggamit ng Fisher's F-test bilang isang pagtatantya ng istatistikal na kahalagahan ng isang regression equation ay napaka-lohikal. ay ang resulta. katangian, dahil sa mga salik na kasama sa pagsusuri, i.e. ito ang proporsyon ng ipinaliwanag na resulta. tanda. - ito ay isang (variation) ng tanda ng resulta dahil sa mga kadahilanan na ang impluwensya ay hindi isinasaalang-alang, i.e. hindi kasama sa pagsusuri.

yun. Ang F-criterion ay idinisenyo upang suriin makabuluhan sobra sa . Kung hindi ito makabuluhang mas mababa kaysa sa , at higit pa kung lumampas ito sa , samakatuwid, hindi kasama sa pagsusuri ang mga salik na iyon na talagang nakakaapekto sa katangian ng resulta.

Ang Fisher's F-test ay naka-tabulate, ang aktwal na halaga ay inihambing sa talahanayan. Kung , ang equation ng regression ay itinuturing na makabuluhang istatistika. Kung, sa kabaligtaran, ang equation ay hindi makabuluhan sa istatistika at hindi magagamit sa pagsasanay, ang kahalagahan ng equation sa kabuuan ay nagpapahiwatig ng istatistikal na kahalagahan ng mga tagapagpahiwatig ng ugnayan.

Pagkatapos suriin ang equation sa kabuuan, kinakailangan upang suriin ang istatistikal na kahalagahan ng mga parameter ng equation. Ang pagtatantya na ito ay ginawa gamit ang t-statistics ng Mag-aaral. Ang t-statistic ay kinakalkula bilang ratio ng mga parameter ng equation (modulo) sa kanilang karaniwang mean square error. Kung susuriin ang isang one-factor na modelo, 2 istatistika ang kinakalkula.

Sa lahat ng mga programa sa computer, ang pagkalkula ng karaniwang error at t-statistics para sa mga parameter ay isinasagawa kasama ang pagkalkula ng mga parameter mismo. Ang mga T-statistics ay naka-tabulate. Kung ang halaga ay , kung gayon ang parameter ay itinuturing na makabuluhang istatistika, ibig sabihin. nabuo sa ilalim ng impluwensya ng mga di-random na mga kadahilanan.

Ang pagkalkula ng t-statistic ay mahalagang nangangahulugang pagsubok sa null hypothesis na ang parameter ay hindi gaanong mahalaga, i.e. ang pagkakapantay-pantay nito sa zero. Sa isang one-factor na modelo, 2 hypotheses ang sinusuri: at

Ang antas ng kahalagahan ng pagtanggap sa null hypothesis ay nakasalalay sa antas ng tinatanggap na antas ng kumpiyansa. Kaya't kung tinukoy ng mananaliksik ang isang antas ng posibilidad na 95%, ang antas ng kahalagahan ng pagtanggap ay kakalkulahin, samakatuwid, kung ang antas ng kabuluhan ay ≥ 0.05, kung gayon ito ay tinatanggap at ang mga parameter ay itinuturing na hindi gaanong mahalaga sa istatistika. Kung , ang kahalili ay tinatanggihan at tinatanggap: at .

Ang statistical application packages ay nagbibigay din ng antas ng kahalagahan para sa pagtanggap ng mga null hypotheses. Ang pagtatasa ng kahalagahan ng equation ng regression at mga parameter nito ay maaaring magbigay ng mga sumusunod na resulta:

Una, ang equation sa kabuuan ay makabuluhan (ayon sa F-test) at lahat ng parameter ng equation ay makabuluhan din sa istatistika. Nangangahulugan ito na ang resultang equation ay maaaring magamit kapwa para sa paggawa ng mga desisyon sa pamamahala at para sa pagtataya.

Pangalawa, ayon sa F-criterion, ang equation ay istatistikal na makabuluhan, ngunit hindi bababa sa isa sa mga parameter ng equation ay hindi makabuluhan. Maaaring gamitin ang equation upang gumawa ng mga desisyon sa pamamahala patungkol sa nasuri na mga salik, ngunit hindi magagamit para sa pagtataya.

Pangatlo, ang equation ay hindi makabuluhan ayon sa istatistika, o ang equation ay makabuluhan ayon sa F-criterion, ngunit ang lahat ng mga parameter ng resultang equation ay hindi makabuluhan. Ang equation ay hindi maaaring gamitin para sa anumang layunin.

Upang makilala ang equation ng regression bilang isang modelo ng ugnayan sa pagitan ng attribute-resulta at ng mga attribute-factor, kinakailangan na kasama nito ang lahat ng pinakamahalagang salik na tumutukoy sa resulta, upang ang makabuluhang interpretasyon ng equation ang mga parameter ay tumutugma sa theoretically justified na mga relasyon sa phenomenon na pinag-aaralan. Ang koepisyent ng pagpapasiya R 2 ay dapat na > 0.5.

Kapag gumagawa ng multiple regression equation, ipinapayong magsagawa ng pagtatasa sa pamamagitan ng tinatawag na adjusted coefficient of determination (R 2). Ang halaga ng R 2 (pati na rin ang mga ugnayan) ay tumataas sa pagtaas ng bilang ng mga salik na kasama sa pagsusuri. Ang halaga ng mga coefficient ay lalo na na-overestimated sa mga kondisyon ng maliliit na populasyon. Upang mapatay ang negatibong impluwensya ng R 2 at ang mga ugnayan ay naitama na isinasaalang-alang ang bilang ng mga antas ng kalayaan, i.e. ang bilang ng malayang pag-iiba-iba ng mga elemento kapag may kasamang ilang salik.

Naayos na koepisyent ng pagpapasiya

P–itakda ang laki/bilang ng mga obserbasyon

k– bilang ng mga salik na kasama sa pagsusuri

n-1 ay ang bilang ng mga antas ng kalayaan

(1-R2)- ang halaga ng natitirang / hindi maipaliwanag na pagkakaiba-iba ng nagresultang katangian

Laging mas mababa R2. sa batayan, posibleng ihambing ang mga pagtatantya ng mga equation sa ibang bilang ng mga nasuri na salik.

34. Mga problema sa pag-aaral ng time series.

Ang mga serye ng dinamika ay tinatawag na serye ng oras o serye ng oras. Ang isang dynamic na serye ay isang time-ordered sequence ng mga indicator na nagpapakilala sa isang partikular na phenomenon (ang dami ng GDP mula 90 hanggang 98 taon). Ang layunin ng pag-aaral ng serye ng mga dinamika ay upang matukoy ang mga pattern sa pagbuo ng hindi pangkaraniwang bagay na pinag-aaralan (ang pangunahing kalakaran) at pagtataya sa batayan na ito. Ito ay sumusunod mula sa kahulugan ng RD na ang anumang serye ay binubuo ng dalawang elemento: oras t at ang antas ng serye (mga tiyak na halaga ng tagapagpahiwatig sa batayan kung saan ang serye ng DR ay binuo). Ang serye ng DR ay maaaring 1) panandalian - serye, ang mga tagapagpahiwatig na kung saan ay naayos sa isang punto sa oras, sa isang tiyak na petsa, 2) agwat - serye, ang mga tagapagpahiwatig na kung saan ay nakuha para sa isang tiyak na tagal ng panahon (1. populasyon ng St. Petersburg, 2. GDP para sa panahon). Ang paghahati ng serye sa mga sandali at pagitan ay kinakailangan, dahil tinutukoy nito ang mga detalye ng pagkalkula ng ilang mga tagapagpahiwatig ng serye ng DR. Ang pagsasama-sama ng mga antas ng serye ng pagitan ay nagbibigay ng isang makabuluhang interpretasyong resulta, na hindi masasabi tungkol sa kabuuan ng mga antas ng serye ng sandali, dahil ang huli ay naglalaman ng paulit-ulit na pagbibilang. Ang pinakamahalagang problema sa pagsusuri ng mga serye ng oras ay ang problema ng pagiging maihahambing ng mga antas ng serye. Ang konsepto na ito ay napaka-versatile. Ang mga antas ay dapat na maihahambing sa mga tuntunin ng mga pamamaraan ng pagkalkula at sa mga tuntunin ng teritoryo at saklaw ng mga yunit ng populasyon. Kung ang serye ng DR ay binuo sa mga tuntunin ng gastos, kung gayon ang lahat ng antas ay dapat ipakita o kalkulahin sa maihahambing na mga presyo. Kapag gumagawa ng mga serye ng agwat, ang mga antas ay dapat magpakilala sa parehong mga yugto ng panahon. Kapag gumagawa ng sandali ng Serye D, ang mga antas ay dapat na maayos sa parehong petsa. Maaaring kumpleto o hindi kumpleto ang mga hilera. Ang hindi kumpletong serye ay ginagamit sa mga opisyal na publikasyon (1980,1985,1990,1995,1996,1997,1998,1999…). Kasama sa komprehensibong pagsusuri ng RD ang pag-aaral ng mga sumusunod na punto:

1. pagkalkula ng mga tagapagpahiwatig ng mga pagbabago sa mga antas ng RD

2. pagkalkula ng mga average na tagapagpahiwatig ng RD

3. pagkilala sa pangunahing trend ng serye, pagbuo ng mga modelo ng trend

4. Pagtatantya ng autocorrelation sa RD, pagbuo ng mga autoregressive na modelo

5. ugnayan ng RD

6. RD pagtataya.

35. Mga tagapagpahiwatig ng pagbabago sa mga antas ng serye ng oras .

Sa pangkalahatan, maaaring katawanin ang Serye D bilang:

y ay ang DR level, t ay ang sandali o tagal ng panahon kung saan ang antas (indicator) ay tumutukoy, n ay ang haba ng DR Series (bilang ng mga tuldok). kapag nag-aaral ng isang serye ng mga dinamika, ang mga sumusunod na tagapagpahiwatig ay kinakalkula: 1. absolute growth, 2. growth factor (growth rate), 3. acceleration, 4. growth factor (growth rate), 5. absolute value ng 1% growth. Ang mga kalkuladong tagapagpahiwatig ay maaaring: 1. chain - nakuha sa pamamagitan ng paghahambing ng bawat antas ng serye sa naunang nauna, 2. basic - nakuha sa pamamagitan ng paghahambing sa antas na pinili bilang base ng paghahambing (maliban kung tinukoy, ang unang antas ng serye ay kinuha bilang batayan). 1. Chain absolute gains:. Ipinapakita kung magkano ang higit pa o mas kaunti. Ang mga ganap na pagtaas ng chain ay tinatawag na mga indicator ng rate ng pagbabago sa mga antas ng dynamic na serye. Base ganap na paglago: . Kung ang mga antas ng serye ay mga relatibong tagapagpahiwatig, na ipinahayag sa %, kung gayon ang ganap na pagtaas ay ipinahayag sa mga punto ng pagbabago. 2. growth factor (rate ng paglago): Kinakalkula ito bilang ratio ng mga antas ng row sa mga nauna kaagad (chain growth factor), o sa antas na kinuha bilang base ng paghahambing (basic growth factor): . Tinutukoy kung gaano karaming beses ang bawat antas ng serye > o< предшествующего или базисного. На основе коэффициентов роста рассчитываются темпы роста. Это коэффициенты роста, выраженные в %ах: 3. sa batayan ng ganap na paglago, ang tagapagpahiwatig ay kinakalkula - pagpabilis ng ganap na paglaki: . Ang acceleration ay ang ganap na paglaki ng ganap na paglaki. Sinusuri kung paano nagbabago ang mga increment mismo, kung sila ay stable o bumibilis (tumataas). 4. rate ng paglago ay ang ratio ng paglago sa base ng paghahambing. Ipinahayag sa %: ; . Ang rate ng paglago ay ang rate ng paglago na minus 100%. Ipinapakita kung magkano ang % ng antas ng row na ito > o< предшествующего либо базисного. 5. абсолютное значение 1% прироста. Рассчитывается как отношение абсолютного прироста к темпу прироста, т.е.: - сотая доля предыдущего уровня. Все эти показатели рассчитываются для оценки степени изменения уровней ряда. Цепные коэффициенты и темпы роста называются показателями интенсивности изменения уровней ДРядов.

2. Pagkalkula ng mga average na tagapagpahiwatig ng RD Kalkulahin ang mga average na antas ng serye, ang average na ganap na mga nadagdag, ang average na rate ng paglago at ang average na rate ng paglago. Ang mga average na tagapagpahiwatig ay kinakalkula upang maibuod ang impormasyon at upang maihambing ang mga antas at tagapagpahiwatig ng kanilang pagbabago sa iba't ibang serye. 1. average na antas ng hilera a) para sa interval time series ito ay kinakalkula ng arithmetic mean simple: , kung saan ang n ay ang bilang ng mga antas sa time series; b) para sa serye ng sandali, ang average na antas ay kinakalkula ayon sa isang tiyak na formula, na tinatawag na chronological average: . 2. average na ganap na pagtaas ay kinakalkula batay sa chain absolute increments ayon sa arithmetic mean simple:

. 3. Average growth factor kinakalkula batay sa chain growth factor gamit ang geometric mean formula: . Kapag nagkomento sa mga karaniwang tagapagpahiwatig ng Serye ng DR, kinakailangang magpahiwatig ng 2 puntos: ang panahon na nagpapakilala sa nasuri na tagapagpahiwatig at ang agwat ng oras kung saan binuo ang Serye ng DR. 4. Average na rate ng paglago: . 5. average na rate ng paglago: .