Pagpapasiya ng kahalagahan ng equation ng regression. Pagtatasa ng statistical significance ng regression equation ng mga parameter nito

Para sa mga coefficient ng equation ng regression, ang antas ng kanilang kahalagahan ay sinusuri ayon sa t -Ang pamantayan ng mag-aaral at ayon sa pamantayan F Fisher. Sa ibaba ay isinasaalang-alang namin ang pagtatasa ng pagiging maaasahan ng mga tagapagpahiwatig ng regression para lamang sa mga linear na equation (12.1) at (12.2).

Y=a 0+a 1 X(12.1)

X=b 0+b 1 Y(12.2)

Para sa ganitong uri ng mga equation, sinusuri sila ng t-Ang pamantayan ng mag-aaral lamang ang mga halaga ng mga coefficient a 1i b 1 gamit ang pagkalkula ng halaga tf ayon sa mga sumusunod na formula:

saan r yx koepisyent ng ugnayan, at ang halaga a 1 ay maaaring kalkulahin gamit ang mga formula 12.5 o 12.7.

Ang formula (12.27) ay ginagamit upang kalkulahin ang dami tf, a 1regression equation Y sa x.

ang halaga b Maaaring kalkulahin ang 1 gamit ang mga formula (12.6) o (12.8).

Ang formula (12.29) ay ginagamit upang kalkulahin ang dami tf, na nagpapahintulot sa pagtantya ng antas ng kahalagahan ng koepisyent b 1regression equation X sa Y

Halimbawa. Tantyahin natin ang antas ng kahalagahan ng mga coefficient ng regression a 1i b 1 equation (12.17), at (12.18) na nakuha sa paglutas ng problema 12.1. Gamitin natin ang mga formula (12.27), (12.28), (12.29) at (12.30) para dito.

Alalahanin ang anyo ng nakuha na mga equation ng regression:

Y x = 3 + 0,06 X(12.17)

X y = 9+ 1 Y(12.19)

Halaga a Ang 1 sa equation (12.17) ay katumbas ng 0.06. Samakatuwid, upang makalkula ayon sa formula (12.27), kailangan mong kalkulahin ang halaga Sb y x. Ayon sa kondisyon ng problema, ang dami P= 8. Ang koepisyent ng ugnayan ay kinakalkula din namin gamit ang formula 12.9: rxy = √ 0,06 0,997 = 0,244 .

Ito ay nananatiling kalkulahin ang mga dami Σ (sa v- y) 2 at Σ (X ι -x) 2 , na hindi namin nakalkula. Pinakamabuting gawin ang mga kalkulasyon na ito sa talahanayan 12.2:

Talahanayan 12.2

Bilang ng mga pagsusulit p/p x ι i x ι –x (x ι –x) 2 sa v- y (sa v- y) 2
-4,75 22,56 - 1,75 3,06
-4,75 22,56 -0,75 0,56
-2,75 7,56 0,25 0,06
-2,75 7,56 1,25 15,62
1,25 1,56 1,25 15,62
3,25 10,56 0,25 0,06
5,25 27,56 -0,75 0,56
5,25 27,56 0,25 0,06
Sums 127,48 35,6
Katamtaman 12,75 3,75

Pinapalitan namin ang nakuha na mga halaga sa formula (12.28), nakukuha namin:

Ngayon kalkulahin natin ang halaga tf ayon sa formula (12.27):

Halaga tf ay sinusuri para sa antas ng kahalagahan ayon sa Talahanayan 16 ng Apendiks 1 para sa t- Pamantayan ng mag-aaral. Ang bilang ng mga antas ng kalayaan sa kasong ito ay magiging katumbas ng 8-2 = 6, kaya ang mga kritikal na halaga ay pantay, ayon sa pagkakabanggit, para sa P ≤ 0,05 t cr= 2.45 at para sa Р≤ 0,01 t cr=3.71. Sa tinanggap na form, ganito ang hitsura:

Binubuo namin ang "axis of significance":

Natanggap na halaga tf Pero na ang halaga ng regression coefficient ng equation (12.17) ay hindi makikilala sa zero. Sa madaling salita, ang resultang equation ng regression ay hindi sapat sa orihinal na pang-eksperimentong data.



Kalkulahin natin ngayon ang antas ng kahalagahan ng koepisyent b 1. Para dito, kinakailangan upang kalkulahin ang halaga Sbxy ayon sa formula (12.30), kung saan ang lahat ng kinakailangang dami ay nakalkula na:

Ngayon kalkulahin natin ang halaga tf ayon sa formula (12.27):

Maaari naming agad na buuin ang "axis of significance", dahil ang lahat ng mga paunang operasyon ay nagawa na sa itaas:

Natanggap na halaga tf nahulog sa zone ng insignificance, kaya dapat nating tanggapin ang hypothesis H tungkol sa katotohanan na ang halaga ng regression coefficient ng equation (12.19) ay hindi nakikilala mula sa zero. Sa madaling salita, ang resultang equation ng regression ay hindi sapat sa orihinal na pang-eksperimentong data.

Nonlinear Regression

Ang resulta na nakuha sa nakaraang seksyon ay medyo nakapanghihina ng loob: nalaman namin na ang parehong regression equation (12.15) at (12.17) ay hindi sapat sa pang-eksperimentong data. Ang huli ay nangyari dahil ang parehong mga equation na ito ay nagpapakita ng isang linear na relasyon sa pagitan ng mga tampok, at ipinakita namin sa Seksyon 11.9 na sa pagitan ng mga variable X at Y mayroong isang makabuluhang curvilinear dependence. Sa madaling salita, sa pagitan ng mga variable X at Y sa problemang ito ito ay kinakailangan upang tumingin hindi para sa linear, ngunit para sa curvilinear koneksyon. Gagawin namin ito gamit ang package na "Stage 6.0" (binuo ni A.P. Kulaichev, numero ng pagpaparehistro 1205).

Gawain 12.2. Nais ng psychologist na pumili ng modelo ng regression na sapat sa data ng eksperimentong nakuha sa problema 11.9.

Desisyon. Ang problemang ito ay nalutas sa pamamagitan ng isang simpleng enumeration ng mga curvilinear regression na modelo na inaalok sa Stadiya statistical package. Ang package ay nakaayos sa paraang ang pang-eksperimentong data ay naipasok sa spreadsheet, na siyang pinagmumulan para sa karagdagang trabaho, sa anyo ng unang column para sa variable X at pangalawang hanay para sa variable Y. Pagkatapos, sa pangunahing menu, piliin ang seksyong Mga Istatistika, sa loob nito ay isang subsection - pagsusuri ng regression, sa subsection na ito muli isang subsection - curvilinear regression. Ang huling menu ay naglalaman ng mga formula (modelo) ng iba't ibang uri ng curvilinear regression, ayon sa kung saan maaari mong kalkulahin ang kaukulang regression coefficient at agad na suriin ang mga ito para sa kahalagahan. Isinasaalang-alang namin sa ibaba ang ilang mga halimbawa lamang ng pagtatrabaho sa mga yari na modelo (mga formula) ng curvilinear regression.



1. Unang modelo - nagtatanghal . Ang formula nito ay:

Kapag kinakalkula gamit ang stat package, nakukuha namin a 0 = 1 at a 1 = 0,022.

Ang pagkalkula ng antas ng kahalagahan para sa isang nagbigay ng halaga R= 0.535. Ito ay malinaw na ang nakuha na halaga ay hindi gaanong mahalaga. Samakatuwid, ang modelong ito ng regression ay hindi sapat sa pang-eksperimentong data.

2. Pangalawang modelo - kapangyarihan . Ang formula nito ay:

Kapag nagbibilang at o = - 5.29, a, = 7.02 at a 1 = 0,0987.

Antas ng kahalagahan para sa a 1 - R= 7.02 at para sa a 2 - P = 0.991. Malinaw, wala sa mga coefficient ang makabuluhan.

3. Ang ikatlong modelo - polinomyal . Ang formula nito ay:

Y= a 0 + a 1 X + a 2 X 2+ a 3 X 3

Kapag nagbibilang isang 0= - 29,8, a 1 = 7,28, a 2 = - 0.488 at a 3 = 0.0103. Antas ng kahalagahan para sa isang, - P = 0.143, para sa isang 2 - P = 0.2 at para sa isang, - P= 0,272

Konklusyon - ang modelong ito ay hindi sapat sa pang-eksperimentong data.

4. Ikaapat na modelo - parabola .

Ang formula nito ay: Y \u003d a o + a l -X 1 + a 2 X 2

Kapag nagbibilang a 0 \u003d - 9.88, a, \u003d 2.24 at a 1 = - 0.0839 Antas ng kahalagahan para sa a 1 - P = 0.0186, para sa a 2 - P = 0.0201. Ang parehong mga coefficient ng regression ay makabuluhan. Samakatuwid, nalutas ang problema - inihayag namin ang anyo ng isang curvilinear na relasyon sa pagitan ng tagumpay ng paglutas ng ikatlong subtest ng Veksler at ang antas ng kaalaman sa algebra - ito ay isang dependence ng isang parabolic type. Ang resultang ito ay nagpapatunay sa konklusyon na nakuha sa paglutas ng problema 11.9 tungkol sa pagkakaroon ng isang curvilinear na relasyon sa pagitan ng mga variable. Binibigyang-diin namin na sa tulong ng curvilinear regression na nakuha ang eksaktong anyo ng ugnayan sa pagitan ng mga pinag-aralan na variable.


Kabanata 13 FACTOR ANALYSIS

Mga pangunahing konsepto ng pagsusuri ng kadahilanan

Ang factor analysis ay isang istatistikal na paraan na ginagamit kapag nagpoproseso ng malalaking dami ng pang-eksperimentong data. Ang mga gawain ng pagsusuri ng kadahilanan ay: pagbabawas ng bilang ng mga variable (pagbawas ng data) at pagtukoy sa istruktura ng mga relasyon sa pagitan ng mga variable, i.e. klasipikasyon ng mga variable, kaya ginagamit ang factor analysis bilang paraan ng pagbabawas ng data o bilang structural classification method.

Ang isang mahalagang pagkakaiba sa pagitan ng pagsusuri ng kadahilanan at lahat ng mga pamamaraan na inilarawan sa itaas ay hindi ito magagamit upang iproseso ang pangunahin, o, gaya ng sinasabi nila, "raw" na pang-eksperimentong data, i.e. nakuha nang direkta mula sa pagsusuri ng mga paksa. Ang materyal para sa pagsusuri ng kadahilanan ay mga ugnayan, o sa halip, mga coefficient ng ugnayan ng Pearson, na kinakalkula sa pagitan ng mga variable (ibig sabihin, mga sikolohikal na katangian) na kasama sa survey. Sa madaling salita, ang mga correlation matrice, o, kung hindi man sila ay tinatawag na, intercorrelation matrice, ay sumasailalim sa factor analysis. Ang mga pangalan ng mga column at row sa mga matrice na ito ay pareho, dahil kinakatawan nila ang isang listahan ng mga variable na kasama sa pagsusuri. Para sa kadahilanang ito, ang mga intercorrelation matrice ay palaging parisukat, i.e. ang bilang ng mga hilera sa mga ito ay katumbas ng bilang ng mga haligi, at simetriko, i.e. ang mga simetriko na lugar na may paggalang sa pangunahing dayagonal ay may parehong coefficient ng ugnayan.

Dapat itong bigyang-diin na ang orihinal na talahanayan ng data kung saan nakuha ang correlation matrix ay hindi kailangang parisukat. Halimbawa, sinukat ng isang psychologist ang tatlong tagapagpahiwatig ng katalinuhan (berbal, di-berbal at pangkalahatan) at mga marka ng paaralan sa tatlong akademikong paksa (literatura, matematika, pisika) sa 100 paksa - mga mag-aaral sa ika-siyam na baitang. Ang orihinal na data matrix ay magiging 100 x 6 at ang intercorrelation matrix ay magiging 6 x 6 dahil mayroon lamang itong 6 na variable. Sa napakaraming mga variable, ang intercorrelation matrix ay magsasama ng 15 coefficients at hindi ito magiging mahirap na pag-aralan ito.

Gayunpaman, isipin kung ano ang mangyayari kung ang psychologist ay tumatanggap ng hindi 6, ngunit 100 mga tagapagpahiwatig mula sa bawat paksa. Sa kasong ito, kailangan niyang suriin ang 4950 na mga koepisyent ng ugnayan. Ang bilang ng mga coefficient sa matrix ay kinakalkula ng formula n (n + 1) / 2 at sa aming kaso ay katumbas ng (100 × 99) / 2 = 4950, ayon sa pagkakabanggit.

Malinaw, upang magsagawa ng isang visual na pagsusuri ng tulad ng isang matrix ay isang mahirap na gawain. Sa halip, ang isang psychologist ay maaaring magsagawa ng mathematical procedure ng factor analysis ng isang 100 × 100 correlation matrix (100 subjects at 100 variables) at sa paraang ito ay nakakakuha ng mas madaling materyal para sa pagbibigay-kahulugan sa mga resulta ng eksperimental.

Ang pangunahing konsepto ng pagsusuri ng kadahilanan ay salik. Ito ay isang artipisyal na istatistikal na tagapagpahiwatig na nagreresulta mula sa mga espesyal na pagbabago ng talahanayan ng mga koepisyent ng ugnayan sa pagitan ng mga pinag-aralan na katangiang sikolohikal, o ang matrix ng mga intercorrelasyon. Ang pamamaraan para sa pagkuha ng mga kadahilanan mula sa isang intercorrelation matrix ay tinatawag na matrix factorization. Bilang resulta ng factorization, maaaring kunin ang ibang bilang ng mga salik mula sa correlation matrix hanggang sa isang numerong katumbas ng bilang ng mga orihinal na variable. Gayunpaman, ang mga salik na natukoy bilang resulta ng factorization, bilang panuntunan, ay hindi pantay sa kanilang halaga.

Tinatawag ang mga elemento ng factor matrix o kaliskis"; at sila ang mga koepisyent ng ugnayan ng isang naibigay na salik sa lahat ng mga tagapagpahiwatig na ginamit sa pag-aaral. Napakahalaga ng factor matrix dahil ipinapakita nito kung paano nauugnay ang mga pinag-aralan na indicator sa bawat napiling salik. Kasabay nito, ipinapakita ng factor weight ang sukat, o lapit, ng koneksyon na ito.

Dahil ang bawat column ng factor matrix (factor) ay isang uri ng variable, ang mga salik mismo ay maaari ding magkaugnay sa isa't isa. Dalawang kaso ang posible dito: ang ugnayan sa pagitan ng mga kadahilanan ay katumbas ng zero, kung saan ang mga kadahilanan ay independyente (orthogonal). Kung ang ugnayan sa pagitan ng mga kadahilanan ay mas malaki kaysa sa zero, kung gayon sa kasong ito ang mga kadahilanan ay itinuturing na nakasalalay (halata). Binibigyang-diin namin na ang mga orthogonal na salik, sa kaibahan sa mga pahilig, ay nagbibigay ng mas simpleng mga variant ng mga pakikipag-ugnayan sa loob ng factor matrix.

Bilang isang paglalarawan ng mga orthogonal na kadahilanan, ang problema ni L. Thurstone ay madalas na binanggit, na, nang kumuha ng isang bilang ng mga kahon ng iba't ibang laki at hugis, ay sumukat ng higit sa 20 iba't ibang mga tagapagpahiwatig sa bawat isa sa kanila at kinakalkula ang mga ugnayan sa pagitan ng mga ito. Ang pagkakaroon ng factorized ang nakuha na matrix ng intercorrelations, nakuha niya ang tatlong mga kadahilanan, ang ugnayan sa pagitan ng kung saan ay katumbas ng zero. Ang mga salik na ito ay "haba", "lapad" at "taas".

Upang mas maunawaan ang kakanyahan ng pagsusuri ng kadahilanan, susuriin namin ang sumusunod na halimbawa nang mas detalyado.

Ipagpalagay na natatanggap ng isang psychologist ang sumusunod na data mula sa isang random na sample ng mga mag-aaral:

V 1- timbang ng katawan (sa kg);

V 2 - ang bilang ng pagdalo sa mga lektura at seminar sa paksa;

V 3- haba ng binti (sa cm);

V 4- ang bilang ng mga librong binasa sa paksa;

V 5- haba ng braso (sa cm);

V 6 - marka ng pagsusulit sa paksa ( V- mula sa salitang Ingles na variable - variable).

Kapag sinusuri ang mga tampok na ito, hindi makatwiran na ipagpalagay na ang mga variable V1, K 3 at V 5- ay magkakaugnay, dahil mas malaki ang tao, mas tumitimbang siya at mas mahaba ang kanyang mga paa. Nangangahulugan ito na dapat mayroong makabuluhang istatistikal na koepisyent ng ugnayan sa pagitan ng mga variable na ito, dahil sinusukat ng tatlong variable na ito ang ilang pangunahing katangian ng mga indibidwal sa sample, lalo na ang kanilang laki. Katulad nito, malamang na kapag kinakalkula ang mga ugnayan sa pagitan V2, V4 at V 6 magkakaroon din ng sapat na mataas na coefficient ng ugnayan, dahil ang pagdalo sa mga lektura at pag-aaral sa sarili ay makakatulong sa pagkuha ng mas mataas na marka sa paksang pinag-aaralan.

Kaya, mula sa buong posibleng hanay ng mga coefficient, na nakukuha sa pamamagitan ng enumeration ng mga pares ng mga nauugnay na tampok V 1 at V 2 , V t at V 3 atbp., ang dalawang bloke ng makabuluhang ugnayang istatistikal ay malamang na lalabas. Ang natitirang mga ugnayan - sa pagitan ng mga tampok na kasama sa iba't ibang mga bloke, ay malamang na hindi magkaroon ng mga istatistikal na makabuluhang koepisyent, dahil ang mga ugnayan sa pagitan ng mga tampok na tulad ng laki ng paa at pagganap ng akademiko ay malamang na random na kalikasan. Kaya, ang isang makabuluhang pagsusuri sa aming 6 na mga variable ay nagpapakita na sila, sa katunayan, ay sumusukat lamang ng dalawang pangkalahatang katangian, katulad: laki ng katawan at antas ng kahandaan sa paksa.

Sa resultang matrix ng intercorrelations, i.e. pairwise na nakalkula ang mga koepisyent ng ugnayan sa pagitan ng lahat ng anim na variable V 1 - V 6, pinahihintulutang mag-apply ng factor analysis. Maaari rin itong isagawa nang manu-mano, gamit ang isang calculator, ngunit ang pamamaraan para sa naturang pagpoproseso ng istatistika ay napakahirap. Para sa kadahilanang ito, ang pagsusuri ng kadahilanan ay kasalukuyang isinasagawa sa mga computer, karaniwang gumagamit ng mga karaniwang pakete ng istatistika. Ang lahat ng modernong istatistikal na pakete ay may mga programa para sa ugnayan at pagsusuri ng kadahilanan. Ang isang factor analysis computer program ay mahalagang sumusubok na "ipaliwanag" ang mga ugnayan sa pagitan ng mga variable sa mga tuntunin ng isang maliit na bilang ng mga kadahilanan (dalawa sa aming halimbawa).

Ipagpalagay na, gamit ang isang computer program, nakuha natin ang matrix ng intercorrelations ng lahat ng anim na variable at isinailalim ito sa factor analysis. Bilang resulta ng factor analysis, nakuha ang talahanayan 13.1, na tinatawag na "factor matrix", o "factorial structural matrix".

Talahanayan 13.1

Variable Salik 1 Salik 2
V 1 0,91 0,01
V 2 0,20 0,96
V 3 0,94 -0,15
V 4 0,11 0,85
V 5 0,89 0,07
V 6 -0,13 0,93

Ayon sa kaugalian, ang mga salik ay kinakatawan sa talahanayan bilang mga hanay, at mga variable bilang mga hilera. Ang mga heading ng mga column ng Talahanayan 13.1 ay tumutugma sa mga bilang ng mga napiling salik, ngunit magiging mas tumpak na tawagan ang mga ito na "factor loadings", o "weights", para sa factor 1, pareho para sa factor 2. Gaya ng nabanggit sa itaas, Ang mga factor loading, o mga timbang, ay mga ugnayan sa pagitan ng kani-kanilang variable at ng ibinigay na kadahilanan. Halimbawa, ang unang numero na 0.91 sa unang kadahilanan ay nangangahulugan na ang ugnayan sa pagitan ng unang kadahilanan at ang variable V 1 katumbas ng 0.91. Kung mas mataas ang factor load sa absolute value, mas malaki ang kaugnayan nito sa factor.

Ang talahanayan 13.1 ay nagpapakita na ang mga variable V 1 V 3 at V 5 may malalaking ugnayan na may salik 1 (sa katunayan, ang variable 3 ay may ugnayang malapit sa 1 sa salik 1). Kasabay nito, ang mga variable V 2 ,V 3 at 5 may mga ugnayang malapit sa 0 na may salik 2. Katulad nito, ang salik 2 ay lubos na nakakaugnay sa mga variable V2, V4 at V 6 at hindi aktwal na nauugnay sa mga variable V 1,V 3 at V 5

Sa halimbawang ito, malinaw na mayroong dalawang istruktura ng mga ugnayan, at, samakatuwid, ang lahat ng impormasyon sa Talahanayan 13.1 ay tinutukoy ng dalawang salik. Ngayon ang huling yugto ng trabaho ay nagsisimula - ang interpretasyon ng data na nakuha. Kapag sinusuri ang factor matrix, napakahalagang isaalang-alang ang mga palatandaan ng pag-load ng kadahilanan sa bawat kadahilanan. Kung ang mga load na may magkasalungat na mga palatandaan ay nangyayari sa parehong kadahilanan, nangangahulugan ito na mayroong isang inversely proportional na relasyon sa pagitan ng mga variable na may magkasalungat na mga palatandaan.

Tandaan na kapag binibigyang-kahulugan ang kadahilanan, para sa kaginhawahan, maaari mong baguhin ang mga palatandaan ng lahat ng mga pag-load para sa kadahilanang ito sa kabaligtaran.

Ipinapakita rin ng factor matrix kung aling mga variable ang bumubuo sa bawat factor. Pangunahin ito dahil sa antas ng kahalagahan ng bigat ng kadahilanan. Ayon sa kaugalian, ang pinakamababang antas ng kahalagahan ng mga koepisyent ng ugnayan sa pagsusuri ng kadahilanan ay kinukuha na katumbas ng 0.4 o kahit na 0.3 (sa ganap na halaga), dahil walang mga espesyal na talahanayan kung saan maaaring matukoy ng isang tao ang mga kritikal na halaga para sa antas ng kahalagahan sa factor matrix. . Samakatuwid, ang pinakamadaling paraan upang makita kung aling mga variable ang "napapabilang" sa isang salik ay ang pag-flag sa mga may mga loading na mas malaki sa 0.4 (o mas mababa sa -0.4). Itinuturo namin na sa mga pakete ng computer, kung minsan ang antas ng kahalagahan ng bigat ng kadahilanan ay tinutukoy ng programa mismo at nakatakda sa isang mas mataas na antas, halimbawa, 0.7.

Kaya, mula sa talahanayan 13.1, sumusunod na ang kadahilanan 1 ay isang kumbinasyon ng mga variable V 1 K 3 at V 5(ngunit hindi V1, K 4 at V 6 , dahil ang kanilang factor loadings modulo ay mas mababa sa 0.4). Gayundin, ang kadahilanan 2 ay isang kumbinasyon ng mga variable V2, V4 at V6.

Ang salik na napili bilang resulta ng factorization ay isang hanay ng mga variable na iyon mula sa mga kasama sa pagsusuri na may makabuluhang load. Madalas na nangyayari, gayunpaman, na ang isang salik ay kinabibilangan lamang ng isang variable na may makabuluhang salik na timbang, habang ang iba ay may hindi gaanong pagkarga ng salik. Sa kasong ito, ang kadahilanan ay matutukoy sa pamamagitan ng pangalan ng tanging makabuluhang variable.

Sa esensya, ang kadahilanan ay maaaring ituring bilang isang artipisyal na "yunit" ng pagpapangkat ng mga variable (mga katangian) batay sa mga link sa pagitan ng mga ito. Ang yunit na ito ay may kondisyon, dahil sa pamamagitan ng pagbabago ng ilang mga kundisyon ng pamamaraan ng factorization para sa intercorrelation matrix, maaari kang makakuha ng ibang factor matrix (istraktura). Sa bagong matrix, ang distribusyon ng mga variable ayon sa mga salik at ang kanilang mga factor loading ay maaaring maging iba.

Kaugnay nito, sa pagsusuri ng kadahilanan mayroong konsepto ng "simpleng istraktura". Ang isang simpleng istraktura ng isang factor matrix ay tinatawag, kung saan ang bawat variable ay may makabuluhang pagkarga sa isa lamang sa mga kadahilanan, at ang mga kadahilanan mismo ay orthogonal, i.e. huwag umasa sa isa't isa. Sa aming halimbawa, ang dalawang karaniwang mga kadahilanan ay independyente. Ang isang factor matrix na may isang simpleng istraktura ay nagbibigay-daan sa iyo upang bigyang-kahulugan ang resulta at bigyan ng pangalan ang bawat kadahilanan. Sa aming kaso, ang unang kadahilanan ay "laki ng katawan", ang pangalawang kadahilanan ay "antas ng fitness".

Ang nabanggit ay hindi nauubos ang mga makabuluhang posibilidad ng factor matrix. Ang mga karagdagang katangian ay maaaring makuha mula dito, na nagpapahintulot sa isang mas detalyadong pag-aaral ng mga ugnayan sa pagitan ng mga variable at mga kadahilanan. Ang mga katangiang ito ay tinatawag na "commonality" at "eigenvalue" ng factor.

Gayunpaman, bago ipakita ang kanilang paglalarawan, itinuturo namin ang isang pangunahing mahalagang pag-aari ng koepisyent ng ugnayan, dahil sa kung saan nakuha ang mga katangiang ito. Ang correlation coefficient, na naka-squad (i.e., pinarami sa sarili nito), ay nagpapakita kung gaano karami sa variance (variance) ng isang feature ang karaniwan sa dalawang variable, o, mas simple, kung gaano nag-overlap ang mga variable na ito. Kaya, halimbawa, dalawang variable na may ugnayan na 0.9 na magkakapatong na may kapangyarihan na 0.9 x 0.9 = 0.81. Nangangahulugan ito na 81% ng pagkakaiba-iba ng parehong mga variable ay karaniwan, i.e. tugma. Alalahanin na ang mga factor loading sa factor matrix ay ang correlation coefficients sa pagitan ng mga salik at mga variable, samakatuwid, ang squared factor loading ay nagpapakilala sa antas ng commonality (o overlap) ng mga variance ng isang naibigay na variable at isang naibigay na kadahilanan.

Kung ang nakuha na mga kadahilanan ay hindi nakasalalay sa isa't isa ("orthogonal" na solusyon), posible na matukoy mula sa mga timbang ng factor matrix kung anong bahagi ng pagkakaiba ang karaniwan sa variable at sa kadahilanan. Upang kalkulahin kung gaano karami sa pagkakaiba-iba ng bawat variable ang tumutugma sa pagkakaiba ng mga salik, maaari mong isama lamang ang mga parisukat ng mga pag-load ng salik sa lahat ng mga salik. Mula sa talahanayan 13.1, halimbawa, ito ay sumusunod na 0.91 × 0.91 + + 0.01 × 0.01 = 0.8282, i.e. humigit-kumulang 82% ng pagkakaiba-iba ng unang baryabol ay "ipinaliwanag" ng unang dalawang salik. Ang resultang halaga ay tinatawag pagkakapareho variable, sa kasong ito variable V 1

Ang mga variable ay maaaring magkaroon ng iba't ibang antas ng pagkakapareho sa mga salik. Ang isang variable na may higit na pangkalahatan ay may malaking antas ng overlap (isang malaking proporsyon ng pagkakaiba) sa isa o higit pang mga salik. Ang mababang pangkalahatan ay nagpapahiwatig na ang lahat ng mga ugnayan sa pagitan ng mga variable at mga kadahilanan ay maliit. Nangangahulugan ito na wala sa mga salik ang may magkakapatong na bahagi ng pagkakaiba sa variable na ito. Ang mababang pangkalahatan ay maaaring magpahiwatig na ang isang variable ay sumusukat ng isang bagay na may kwalitatibong naiiba sa iba pang mga variable na kasama sa pagsusuri. Halimbawa, ang isang variable na nauugnay sa pagtatasa ng motibasyon sa mga gawain na nagtatasa ng kakayahan ay magkakaroon ng malapit sa zero commonality sa mga salik ng kakayahan.

Ang mababang pangkalahatan ay maaari ding mangahulugan na ang isang partikular na item ay labis na naiimpluwensyahan ng error sa pagsukat o napakahirap para sa paksa. Posible rin, sa kabaligtaran, na ang gawain ay napakasimple na ang bawat paksa ay nagbibigay ng tamang sagot dito, o ang gawain ay napakalabo sa nilalaman na ang paksa ay hindi naiintindihan ang kakanyahan ng tanong. Kaya, ang mababang pangkalahatan ay nagpapahiwatig na ang variable na ito ay hindi umaangkop sa mga salik para sa isa sa mga sumusunod na dahilan: alinman sa variable ay sumusukat ng ibang konsepto, o ang variable ay may malaking error sa pagsukat, o may mga pagkakaiba sa pagitan ng mga paksa sa mga opsyon sa pagtugon para dito. gawain na pumipihit sa pagkakaiba-iba ng tampok.

Sa wakas, sa tulong ng naturang katangian bilang eigenvalue ng isang salik, matutukoy ng isa ang kamag-anak na kahalagahan ng bawat isa sa mga napiling salik. Upang gawin ito, kailangan mong kalkulahin kung gaano karami ang pagkakaiba (variance) na ipinapaliwanag ng bawat salik. Ang kadahilanan na nagpapaliwanag ng 45% ng pagkakaiba-iba (nagpatong) sa pagitan ng mga variable sa orihinal na matrix ng ugnayan ay malinaw na mas makabuluhan kaysa sa isa na nagpapaliwanag lamang ng 25% ng pagkakaiba. Ang mga argumentong ito, gayunpaman, ay tinatanggap kung ang mga kadahilanan ay orthogonal, sa madaling salita, ay hindi nakasalalay sa isa't isa.

Upang makalkula ang eigenvalue ng factor, kailangan mong i-square ang mga factor loading at idagdag ang mga ito sa isang column. Gamit ang data sa Talahanayan 13.1, maaari nating i-verify na ang eigenvalue ng factor 1 ay (0.91 × 0.91 + 0.20 × 0.20 + 0.94 × 0.94 + 0.11 × 0.11 + 0.84 × 0.84 + (- 0.13) ×

× (-0.13)) = 2.4863. Kung ang eigenvalue ng salik ay hinati sa bilang ng mga variable (6 sa aming halimbawa), ang resultang numero ay magpapakita kung anong proporsyon ng pagkakaiba ang ipinaliwanag ng salik na ito. Sa aming kaso, nakakakuha kami ng 2.4863∙100%/6 = 41.4%. Sa madaling salita, ipinapaliwanag ng factor 1 ang tungkol sa 41% ng impormasyon (dispersion) sa orihinal na matrix ng ugnayan. Ang isang katulad na pagkalkula para sa pangalawang kadahilanan ay magbibigay ng 41.5%. Sa kabuuan, ito ay magiging 82.9%.

Kaya, ang dalawang karaniwang mga kadahilanan, kapag pinagsama, ay nagpapaliwanag lamang ng 82.9% ng pagkakaiba-iba sa mga tagapagpahiwatig ng orihinal na matrix ng ugnayan. Ano ang nangyari sa "natitira" na 17.1%? Ang katotohanan ay, kung isasaalang-alang ang mga ugnayan sa pagitan ng 6 na mga variable, napansin namin na ang mga ugnayan ay nahulog sa dalawang magkahiwalay na mga bloke, at samakatuwid ay nagpasya na lohikal na pag-aralan ang materyal sa mga tuntunin ng dalawang mga kadahilanan, at hindi 6, pati na rin ang bilang ng mga mga panimulang variable. Sa madaling salita, ang bilang ng mga konstruksyon na kailangan upang ilarawan ang data ay bumaba mula 6 (bilang ng mga variable) hanggang 2 (bilang ng mga karaniwang kadahilanan). Bilang resulta ng factorization, ang bahagi ng impormasyon sa orihinal na correlation matrix ay isinakripisyo sa pagbuo ng isang two-factor model. Ang tanging kundisyon kung saan hindi mawawala ang impormasyon ay ang isaalang-alang ang isang modelong may anim na salik.

Mga huling pagsusulit sa econometrics

1. Ang pagtatasa ng kahalagahan ng mga parameter ng equation ng regression ay isinasagawa batay sa:

A) t - pamantayan ng mag-aaral;

b) F-criterion ng Fisher - Snedekor;

c) ibig sabihin ng square error;

d) average na error sa pagtatantya.

2. Ang koepisyent ng regression sa equation na nagpapakilala sa ugnayan sa pagitan ng dami ng mga benta (milyong rubles) at kita ng mga negosyo sa industriya ng automotive para sa taon (milyong rubles) ay nangangahulugan na sa isang pagtaas sa dami ng mga benta sa pamamagitan ng 1 milyong rubles pagtaas ng kita ng:

d) 0.5 milyon kuskusin.;

c) 500 libo. kuskusin.;

D) 1.5 milyong rubles

3. Ang ratio ng ugnayan (correlation index) ay sumusukat sa antas ng pagiging malapit ng relasyon sa pagitan ng X atY:

a) lamang sa isang non-linear na anyo ng pagtitiwala;

B) sa anumang anyo ng pagkagumon;

c) lamang sa isang linear na relasyon.

4. Sa direksyon ng komunikasyon mayroong:

a) katamtaman;

B) tuwid;

c) rectilinear.

5. Batay sa 17 obserbasyon, isang equation ng regression ang binuo:
.
Upang suriin ang kahalagahan ng equation, kinakalkula naminnaobserbahang halagat- mga istatistika: 3.9. Konklusyon:

A) Ang equation ay makabuluhan para sa a = 0,05;

b) Ang equation ay hindi gaanong mahalaga sa a = 0.01;

c) Ang equation ay hindi makabuluhan sa a = 0.05.

6. Ano ang mga kahihinatnan ng paglabag sa OLS assumption na "ang inaasahan ng mga natitirang regression ay zero"?

A) Mga may kinikilingang pagtatantya ng mga coefficient ng regression;

b) Mahusay ngunit hindi pare-pareho ang mga pagtatantya ng mga coefficient ng regression;

c) Hindi mahusay na mga pagtatantya ng mga coefficient ng regression;

d) Hindi magkatugma na mga pagtatantya ng mga coefficient ng regression.

7. Alin sa mga sumusunod na pahayag ang totoo sa kaso ng heteroskedasticity ng mga residual?

A) Ang mga konklusyon sa t at F-statistics ay hindi mapagkakatiwalaan;

d) Ang mga pagtatantya ng mga parameter ng equation ng regression ay biased.

8. Ano ang batayan ng pagsusulit sa ugnayan ng ranggo ng Spearman?

A) Sa paggamit ng t - mga istatistika;

c) Sa paggamit ;

9. Ano ang batayan ng White test?

b) Sa paggamit ng F-statistics;

B) ginagamit ;

d) Sa graphical na pagsusuri ng mga nalalabi.

10. Anong paraan ang maaaring gamitin upang maalis ang autocorrelation?

11. Ano ang tawag sa paglabag sa pagpapalagay ng constancy ng variance ng residuals?

a) Multicollinearity;

b) Autocorrelation;

B) Heteroskedasticity;

d) Homoscedasticity.

12. Ang mga dummy variable ay ipinakilala sa:

a) lamang sa mga linear na modelo;

b) lamang sa maramihang non-linear regression;

c) sa mga nonlinear na modelo lamang;

D) parehong linear at non-linear na mga modelo ay binawasan sa isang linear na anyo.

13. Kung sa matrix ng paired correlation coefficients mayroong
, pagkatapos ito ay nagpapakita ng:

A) Tungkol sa pagkakaroon ng multicollinearity;

b) Tungkol sa kawalan ng multicollinearity;

c) Tungkol sa pagkakaroon ng autocorrelation;

d) Tungkol sa kawalan ng heteroscedasticity.

14. Anong panukala ang imposibleng maalis ang multicollinearity?

a) Pagtaas ng sample size;

D) Pagbabago ng random na bahagi.

15. Kung
at ang ranggo ng matrix A ay mas mababa sa (K-1) pagkatapos ay ang equation:

a) labis na natukoy;

B) hindi nakilala;

c) tumpak na natukoy.

16. Ang equation ng regression ay mukhang:

PERO)
;

b)
;

sa)
.

17. Ano ang problema ng pagkakakilanlan ng modelo?

A) pagkuha ng natatanging tinukoy na mga parameter ng modelo na ibinigay ng sistema ng sabay-sabay na mga equation;

b) pagpili at pagpapatupad ng mga pamamaraan para sa istatistikal na pagtatantya ng hindi kilalang mga parameter ng modelo ayon sa paunang istatistikal na data;

c) pagsuri sa kasapatan ng modelo.

18. Anong paraan ang ginagamit upang matantya ang mga parameter ng isang over-identified equation?

C) DMNK, KMNK;

19. Kung ang isang qualitative variable ay maykmga alternatibong halaga, pagkatapos ay ginagamit ng simulation ang:

A) (k-1) dummy variable;

b) kdummy variable;

c) (k+1) dummy variable.

20. Ang pagsusuri sa pagiging malapit at direksyon ng mga link ng dalawang palatandaan ay isinasagawa batay sa:

A) koepisyent ng ugnayan ng pares;

b) koepisyent ng pagpapasiya;

c) maramihang koepisyent ng ugnayan.

21. Sa isang linear equation x = a 0 +a 1 x regression coefficient ay nagpapakita ng:

a) ang lapit ng koneksyon;

b) proporsyon ng pagkakaiba-iba "Y" na nakasalalay sa "X";

C) kung magkano ang "Y" ay magbabago sa karaniwan kapag ang "X" ay nagbago ng isang yunit;

d) error sa koepisyent ng ugnayan.

22. Anong indicator ang ginagamit upang matukoy ang bahagi ng variation dahil sa pagbabago sa halaga ng salik na pinag-aaralan?

a) koepisyent ng pagkakaiba-iba;

b) koepisyent ng ugnayan;

C) koepisyent ng pagpapasiya;

d) koepisyent ng pagkalastiko.

23. Ang koepisyent ng pagkalastiko ay nagpapakita ng:

A) sa anong% magbabago ang halaga ng y kapag nagbago ang x ng 1%;

b) sa pamamagitan ng kung gaano karaming mga yunit ng pagsukat nito ang halaga ng y ay magbabago kapag ang x ay nagbago ng 1%;

c) kung magkano ang % magbabago ang halaga ng y kapag nagbago ang x ayon sa yunit. iyong sukat.

24. Anong mga pamamaraan ang maaaring magamit upang makita ang heteroscedasticity?

A) Golfeld-Quandt test;

B) pagsusulit ng ugnayan ng ranggo ng Spearman;

c) Pagsusulit sa Durbin-Watson.

25. Ano ang batayan ng Golfeld-Quandt test

a) Sa paggamit ng t-statistics;

B) Sa paggamit ng F - mga istatistika;

c) Sa paggamit ;

d) Sa graphical na pagsusuri ng mga nalalabi.

26. Anong mga pamamaraan ang hindi maaaring gamitin upang maalis ang autocorrelation ng mga nalalabi?

a) Pangkalahatang pamamaraan ng hindi bababa sa mga parisukat;

B) Weighted least squares method;

C) ang maximum na paraan ng posibilidad;

D) Dalawang-hakbang na paraan ng hindi bababa sa mga parisukat.

27. Ano ang tawag sa violation of the assumption of independence of residuals?

a) Multicollinearity;

B) Autocorrelation;

c) Heteroskedasticity;

d) Homoscedasticity.

28. Anong paraan ang maaaring gamitin upang maalis ang heteroscedasticity?

A) Pangkalahatang paraan ng hindi bababa sa mga parisukat;

b) Weighted least squares method;

c) Ang pinakamataas na paraan ng posibilidad;

d) Paraan ng dalawang-hakbang na least squares.

30. Kung sa pamamagitan ngt-criterion, karamihan sa mga coefficient ng regression ay makabuluhan sa istatistika, at ang modelo sa kabuuanF- ang criterion ay hindi gaanong mahalaga, kung gayon ito ay maaaring magpahiwatig:

a) Multicollinearity;

B) Sa autocorrelation ng mga nalalabi;

c) Sa heteroscedasticity ng residues;

d) Ang pagpipiliang ito ay hindi posible.

31. Posible bang alisin ang multicollinearity sa pamamagitan ng pagbabago ng mga variable?

a) Ang panukalang ito ay epektibo lamang kapag nadagdagan ang laki ng sample;

32. Anong paraan ang maaaring gamitin upang maghanap ng mga pagtatantya ng parameter ng linear regression equation:

A) ang paraan ng hindi bababa sa mga parisukat;

b) pagsusuri ng ugnayan at regression;

c) pagsusuri ng pagkakaiba.

33. Ang isang maramihang linear regression equation na may dummy variable ay binuo. Upang suriin ang kahalagahan ng mga indibidwal na coefficient, ginagamit namin pamamahagi:

a) Normal;

b) Mag-aaral;

c) Pearson;

d) Fischer-Snedekor.

34. Kung
at ang ranggo ng matrix A ay mas malaki kaysa sa (K-1) pagkatapos ay ang equation:

A) over-identified;

b) hindi nakilala;

c) tumpak na natukoy.

35. Upang matantya ang mga parameter ng isang tiyak na makikilalang sistema ng mga equation, ang sumusunod ay ginagamit:

a) DMNK, KMNK;

b) DMNK, MNK, KMNK;

36. Ang pamantayan ni Chow ay batay sa aplikasyon ng:

A) F - mga istatistika;

b) t - mga istatistika;

c) Pamantayan ng Durbin-Watson.

37. Ang mga dummy variable ay maaaring tumagal sa mga sumusunod na halaga:

d) anumang halaga.

39. Batay sa 20 obserbasyon, isang equation ng regression ang binuo:
.
Upang suriin ang kahalagahan ng equation, ang halaga ng istatistika ay kinakalkula:4.2. Natuklasan:

a) Ang equation ay makabuluhan sa a=0.05;

b) Ang equation ay hindi makabuluhan sa a=0.05;

c) Ang equation ay hindi makabuluhan sa a=0.01.

40. Alin sa mga sumusunod na pahayag ang hindi totoo kung ang mga nalalabi ay heteroscedastic?

a) Ang mga konklusyon sa mga istatistika ng t at F ay hindi mapagkakatiwalaan;

b) Ang heteroskedasticity ay nagpapakita ng sarili sa pamamagitan ng mababang halaga ng mga istatistika ng Durbin-Watson;

c) Sa heteroscedasticity, nananatiling epektibo ang mga pagtatantya;

d) Ang mga pagtatantya ay may kinikilingan.

41. Ang Chow test ay batay sa isang paghahambing:

A) pagpapakalat;

b) mga koepisyent ng pagpapasiya;

c) mga inaasahan sa matematika;

d) daluyan.

42. Kung sa Chow test
pagkatapos ito ay isinasaalang-alang:

A) na ang paghahati sa mga subinterval ay kapaki-pakinabang mula sa punto ng view ng pagpapabuti ng kalidad ng modelo;

b) ang modelo ay hindi gaanong mahalaga sa istatistika;

c) ang modelo ay makabuluhan ayon sa istatistika;

d) na walang saysay na hatiin ang sample sa mga bahagi.

43. Ang mga dummy variable ay mga variable:

a) kalidad;

b) random;

B) dami;

d) lohikal.

44. Alin sa mga sumusunod na pamamaraan ang hindi maaaring gamitin upang makita ang autocorrelation?

a) Paraan ng serye;

b) Pagsusulit sa Durbin-Watson;

c) pagsusulit sa ugnayan ng ranggo ng Spearman;

D) Pagsusulit ng puti.

45. Ang pinakasimpleng structural form ng modelo ay:

PERO)

b)

sa)

G)
.

46. ​​Anong mga hakbang ang maaaring gawin upang maalis ang multicollinearity?

a) Pagtaas ng sample size;

b) Pagbubukod ng mga variable na lubos na nauugnay sa iba pa;

c) Pagbabago ng detalye ng modelo;

d) Pagbabago ng random na bahagi.

47. Kung
at ang ranggo ng matrix A ay (K-1) pagkatapos ay ang equation:

a) labis na natukoy;

b) hindi nakilala;

B) tumpak na natukoy;

48. Itinuturing na natukoy ang isang modelo kung:

a) sa mga equation ng modelo mayroong hindi bababa sa isang normal;

B) ang bawat equation ng system ay makikilala;

c) sa mga equation ng modelo mayroong hindi bababa sa isang hindi nakikilalang isa;

d) sa mga equation ng modelo ay mayroong kahit isang overidentified.

49. Anong paraan ang ginagamit upang matantya ang mga parameter ng isang hindi kilalang equation?

a) DMNK, KMNK;

b) DMNC, MNC;

C) ang mga parameter ng naturang equation ay hindi matantya.

50. Sa junction ng kung anong mga lugar ng kaalaman lumitaw ang econometrics:

A) teoryang pang-ekonomiya; pang-ekonomiya at matematikal na istatistika;

b) teoryang pang-ekonomiya, mga istatistika ng matematika at teorya ng posibilidad;

c) pang-ekonomiya at matematikal na istatistika, teorya ng posibilidad.

51. Sa multiple linear regression equation, ang mga pagitan ng kumpiyansa ay binuo para sa mga coefficient ng regression gamit ang distribution:

a) Normal;

B) Mag-aaral;

c) Pearson;

d) Fischer-Snedekor.

52. Batay sa 16 na obserbasyon, nabuo ang isang paired linear regression equation. Para saregression coefficient significance check computedt para sa 6l =2.5.

a) Ang koepisyent ay hindi gaanong mahalaga sa a=0.05;

b) Ang koepisyent ay makabuluhan sa a=0.05;

c) Ang koepisyent ay makabuluhan sa a=0.01.

53. Alam na sa pagitan ng mga damiXatYumiralpositibong koneksyon. Hanggang saanang pairwise correlation coefficient ba?

a) mula -1 hanggang 0;

b) mula 0 hanggang 1;

C) mula -1 hanggang 1.

54. Ang multiple correlation coefficient ay 0.9. Ilang porsyentoang pagpapakalat ng resultang katangian ay ipinaliwanag ng impluwensya ng lahatsalik na katangian?

55. Alin sa mga sumusunod na pamamaraan ang hindi maaaring gamitin upang makita ang heteroscedasticity?

A) Golfeld-Quandt test;

b) pagsusulit sa ugnayan ng ranggo ng Spearman;

c) pamamaraan ng serye.

56. Ang ibinigay na anyo ng modelo ay:

a) isang sistema ng mga nonlinear na pag-andar ng mga exogenous na variable mula sa mga endogenous;

B) isang sistema ng mga linear function ng endogenous variable mula sa exogenous;

c) isang sistema ng mga linear na pag-andar ng mga exogenous na variable mula sa mga endogenous;

d) isang sistema ng mga normal na equation.

57. Sa loob ng anong mga limitasyon nagbabago ang partial correlation coefficient na kinakalkula ng mga recursive formula?

a) mula sa - sa + ;

b) mula 0 hanggang 1;

c) mula 0 hanggang + ;

D) mula -1 hanggang +1.

58. Sa loob ng anong mga limitasyon nagbabago ang partial correlation coefficient na kinakalkula sa pamamagitan ng coefficient of determination?

a) mula sa - sa + ;

B) mula 0 hanggang 1;

c) mula 0 hanggang + ;

d) mula -1 hanggang +1.

59. Exogenous na mga variable:

a) mga umaasang variable;

B) mga independiyenteng variable;

61. Kapag nagdaragdag ng isa pang paliwanag na kadahilanan sa equation ng regression, ang koepisyent ng maramihang ugnayan:

a) bababa

b) tataas;

c) panatilihin ang halaga nito.

62. Isang hyperbolic regression equation ang binuo:Y= a+ b/ X. Para saAng significance test ng equation ay gumagamit ng distribution:

a) Normal;

B) Mag-aaral;

c) Pearson;

d) Fischer-Snedekor.

63. Para sa anong mga uri ng mga sistema ang mga parameter ng indibidwal na econometric equation ay matatagpuan gamit ang tradisyonal na least squares method?

a) isang sistema ng mga normal na equation;

B) isang sistema ng mga independiyenteng equation;

C) isang sistema ng recursive equation;

D) isang sistema ng magkakaugnay na mga equation.

64. Mga endogenous na variable:

A) dependent variable;

b) mga malayang variable;

c) napetsahan mula sa mga nakaraang punto sa oras.

65. Sa loob ng anong mga limitasyon nagbabago ang coefficient of determination?

a) mula 0 hanggang + ;

b) mula sa - sa + ;

C) mula 0 hanggang +1;

d) mula -l hanggang +1.

66. Ang isang multiple linear regression equation ay binuo. Upang suriin ang kahalagahan ng mga indibidwal na coefficient, ginagamit namin pamamahagi:

a) Normal;

b) Mag-aaral;

c) Pearson;

D) Fischer-Snedekor.

67. Kapag nagdaragdag ng isa pang paliwanag na salik sa equation ng regression, ang koepisyent ng determinasyon:

a) bababa

B) tataas;

c) panatilihin ang halaga nito;

d) hindi bababa.

68. Ang kakanyahan ng pamamaraan ng least squares ay na:

A) ang pagtatantya ay tinutukoy mula sa kundisyon ng pagliit ng kabuuan ng mga squared deviations ng sample na data mula sa tinukoy na pagtatantya;

b) ang pagtatantya ay tinutukoy mula sa kondisyon ng pagliit ng kabuuan ng mga paglihis ng sample na data mula sa tinukoy na pagtatantya;

c) ang pagtatantya ay tinutukoy mula sa kondisyon ng pagliit ng kabuuan ng mga squared deviations ng sample mean mula sa sample variance.

69. Anong klase ng non-linear regression ang nabibilang sa parabola:

73. Anong klase ng mga non-linear regression ang nabibilang sa exponential curve:

74. Anong klase ng mga non-linear regression ang nabibilang sa isang function ng form na ŷ
:

A) mga regression na hindi linear na may paggalang sa mga variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter;

b) mga non-linear na regression sa mga tinantyang parameter.

78. Anong klase ng mga non-linear regression ang nabibilang sa isang function ng form na ŷ
:

a) mga regression na hindi linear na may paggalang sa mga variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter;

B) non-linear regressions sa mga tinantyang parameter.

79. Sa regression equation sa anyo ng hyperbola ŷ
kung ang halaga
b >0 , pagkatapos:

A) na may pagtaas sa katangian ng kadahilanan X ang halaga ng resultang katangian sa dahan-dahang bumaba, at x→∞ average na halaga sa ay magiging katumbas ng a;

b) ang halaga ng epektibong tampok sa tumataas sa mabagal na paglaki na may pagtaas sa katangian ng kadahilanan X, at sa x→∞

81. Ang koepisyent ng pagkalastiko ay tinutukoy ng formula

A) Linear function;

b) Mga Parabola;

c) Hyperbolas;

d) exponential curve;

e) Kapangyarihan.

82. Ang koepisyent ng pagkalastiko ay tinutukoy ng formula
para sa isang modelo ng regression sa anyo:

a) Linear function;

B) Mga Parabola;

c) Hyperbolas;

d) exponential curve;

e) Kapangyarihan.

86. Equation
tinatawag na:

A) isang linear na kalakaran

b) parabolic trend;

c) hyperbolic trend;

d) exponential trend.

89. Equation
tinatawag na:

a) isang linear na kalakaran;

b) parabolic trend;

c) hyperbolic trend;

D) isang exponential trend.

90. Mga view ng system tinatawag na:

A) isang sistema ng mga independiyenteng equation;

b) isang sistema ng recursive equation;

c) isang sistema ng magkakaugnay (sabay-sabay, sabay-sabay) na mga equation.

93. Ang Econometrics ay maaaring tukuyin bilang:

A) ito ay isang independiyenteng pang-agham na disiplina na pinagsasama ang isang hanay ng mga teoretikal na resulta, pamamaraan, pamamaraan at modelo na idinisenyo upang, sa batayan ng teoryang pang-ekonomiya, mga istatistikang pang-ekonomiya at mga kasangkapan sa matematika at istatistika, magbigay ng isang tiyak na pagpapahayag ng dami sa pangkalahatang (kwalitibo) na mga pattern dahil sa teoryang pang-ekonomiya;

B) ang agham ng mga sukat sa ekonomiya;

C) istatistikal na pagsusuri ng pang-ekonomiyang data.

94. Ang mga gawain ng econometrics ay kinabibilangan ng:

A) pagtataya ng mga pang-ekonomiya at sosyo-ekonomikong tagapagpahiwatig na nagpapakilala sa estado at pag-unlad ng nasuri na sistema;

B) simulation ng mga posibleng senaryo para sa sosyo-ekonomikong pag-unlad ng sistema upang matukoy kung paano makakaapekto ang mga nakaplanong pagbabago sa ilang mga napapamahalaang parameter sa mga katangian ng output;

c) pagsubok ng mga hypotheses ayon sa istatistikal na datos.

95. Ang mga relasyon ay nakikilala sa pamamagitan ng kanilang kalikasan:

A) functional at ugnayan;

b) functional, curvilinear at rectilinear;

c) ugnayan at kabaligtaran;

d) istatistika at direkta.

96. Na may direktang koneksyon sa pagtaas ng isang kadahilanang katangian:

a) bumababa ang epektibong tanda;

b) hindi nagbabago ang mabisang katangian;

C) tumataas ang tagapagpahiwatig ng pagganap.

97. Anong mga pamamaraan ang ginagamit upang matukoy ang presensya, kalikasan at direksyon ng samahan sa mga istatistika?

a) average na mga halaga;

B) paghahambing ng mga parallel na hilera;

C) paraan ng analytical grouping;

d) mga kamag-anak na halaga;

D) paraan ng grapiko.

98. Anong paraan ang ginagamit upang matukoy ang mga anyo ng impluwensya ng ilang salik sa iba?

a) pagsusuri ng ugnayan;

B) pagsusuri ng regression;

c) pagsusuri ng index;

d) pagsusuri ng pagkakaiba.

99. Anong paraan ang ginagamit upang mabilang ang lakas ng epekto ng ilang salik sa iba:

A) pagsusuri ng ugnayan;

b) pagsusuri ng regression;

c) ang paraan ng mga average;

d) pagsusuri ng pagkakaiba.

100. Anong mga indicator sa kanilang magnitude ang umiiral sa hanay mula minus hanggang plus one:

a) koepisyent ng pagpapasiya;

b) ratio ng ugnayan;

C) linear correlation coefficient.

101. Ang regression coefficient para sa isang one-factor na modelo ay nagpapakita ng:

A) gaano karaming mga yunit ang nagbabago kapag ang argumento ay nagbabago ng isang yunit;

b) kung gaano karaming porsyento ang pagbabago ng function sa bawat pagbabago ng yunit sa argumento.

102. Ang coefficient ng elasticity ay nagpapakita ng:

a) sa kung gaano karaming porsyento ang pagbabago ng function na may pagbabago sa argumento ng isang yunit ng pagsukat nito;

B) sa kung gaano karaming porsyento ang pagbabago ng function na may pagbabago sa argumento ng 1%;

c) sa pamamagitan ng kung gaano karaming mga yunit ng pagsukat nito ang function ay nagbabago sa isang pagbabago sa argumento ng 1%.

105. Ang halaga ng correlation index, katumbas ng 0.087, ay nagpapahiwatig ng:

A) tungkol sa kanilang mahinang pag-asa;

b) isang matibay na relasyon;

c) mga pagkakamali sa mga kalkulasyon.

107. Ang halaga ng coefficient ng ugnayan ng pares, katumbas ng 1.12, ay nagpapahiwatig ng:

a) tungkol sa kanilang mahinang pag-asa;

b) isang matibay na relasyon;

C) tungkol sa mga error sa mga kalkulasyon.

109. Alin sa mga ibinigay na numero ang maaaring maging mga halaga ng coefficient ng ugnayan ng pares:

111. Alin sa mga ibinigay na numero ang maaaring maging mga halaga ng multiple correlation coefficient:

115. Markahan ang tamang anyo ng linear regression equation:

a) s
;

b) ŷ
;

c) ŷ
;

D) ŷ
.

Pagkatapos suriin ang mga parameter a at b, nakakuha kami ng regression equation kung saan maaari naming tantyahin ang mga halaga y sa pamamagitan ng mga itinakdang halaga x. Natural na ipagpalagay na ang mga kinakalkula na halaga ng dependent variable ay hindi magkakasabay sa aktwal na mga halaga, dahil ang linya ng regression ay naglalarawan lamang ng relasyon sa karaniwan, sa pangkalahatan. Ang magkakahiwalay na kahulugan ay nakakalat sa paligid nito. Kaya, ang pagiging maaasahan ng mga kinakalkula na halaga na nakuha mula sa equation ng regression ay higit na tinutukoy ng pagpapakalat ng mga naobserbahang halaga sa paligid ng linya ng regression. Sa pagsasagawa, bilang panuntunan, ang pagkakaiba-iba ng error ay hindi alam at tinatantya mula sa mga obserbasyon nang sabay-sabay sa mga parameter ng regression. a at b. Ito ay lubos na lohikal na ipagpalagay na ang pagtatantya ay nauugnay sa kabuuan ng mga parisukat ng mga natitirang regression. Ang dami ay isang sample na pagtatantya ng pagkakaiba-iba ng mga kaguluhan na nilalaman sa teoretikal na modelo . Maaari itong ipakita na para sa isang ipinares na modelo ng regression

kung saan ang paglihis ng aktwal na halaga ng dependent variable mula sa kinakalkula na halaga nito.

Kung ang , pagkatapos para sa lahat ng mga obserbasyon ang aktwal na mga halaga ng dependent variable ay nag-tutugma sa mga kinakalkula (teoretikal) na halaga . Sa graphically, nangangahulugan ito na ang theoretical regression line (ang linya na binuo mula sa function ) ay dumadaan sa lahat ng mga punto ng field ng correlation, na posible lamang sa isang mahigpit na functional na koneksyon. Samakatuwid, ang mabisang tanda sa ganap na dahil sa impluwensya ng salik X.

Karaniwan, sa pagsasagawa, mayroong ilang pagpapakalat ng mga punto ng patlang ng ugnayan na nauugnay sa linya ng teoretikal na regression, i.e. mga paglihis ng empirical na data mula sa mga teoretikal. Ang scatter na ito ay dahil sa parehong impluwensya ng salik X, ibig sabihin. regression y sa X, (Ang ganitong pagkakaiba ay tinatawag na ipinaliwanag, dahil ipinaliwanag ito ng equation ng regression), at ang pagkilos ng iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba, random). Ang magnitude ng mga paglihis na ito ay sumasailalim sa pagkalkula ng mga tagapagpahiwatig ng kalidad ng equation.

Ayon sa pangunahing prinsipyo ng pagsusuri ng pagkakaiba, ang kabuuang kabuuan ng mga squared deviations ng dependent variable y mula sa mean na halaga ay maaaring mabulok sa dalawang bahagi: ipinaliwanag ng regression equation at hindi maipaliwanag:

,

kung saan - mga halaga y, kinakalkula ng equation .

Hanapin natin ang ratio ng kabuuan ng mga squared deviations, na ipinaliwanag ng regression equation, sa kabuuang kabuuan ng mga parisukat:

, saan

. (7.6)

Ang ratio ng bahagi ng variance na ipinaliwanag ng regression equation sa kabuuang variance ng resultang feature ay tinatawag na coefficient of determination. Ang halaga ay hindi maaaring lumampas sa isa at ang pinakamataas na halagang ito ay maaabot lamang sa , ibig sabihin. kapag ang bawat paglihis ay zero at samakatuwid ang lahat ng mga punto ng scatterplot ay eksaktong nasa isang tuwid na linya.

Ang koepisyent ng determinasyon ay nagpapakilala sa bahagi ng pagkakaiba na ipinaliwanag ng regression sa kabuuang halaga ng pagkakaiba ng dependent variable . Alinsunod dito, ang halaga ay nagpapakilala sa proporsyon ng variation (dispersion) y, hindi maipaliwanag ng equation ng regression, at samakatuwid ay sanhi ng impluwensya ng iba pang mga kadahilanan na hindi isinasaalang-alang sa modelo. Ang mas malapit sa isa, mas mataas ang kalidad ng modelo.



Sa ipinares na linear regression, ang koepisyent ng determinasyon ay katumbas ng parisukat ng ipinares na linear na koepisyent ng ugnayan: .

Ang ugat ng coefficient of determination na ito ay ang coefficient (index) ng multiple correlation, o ang theoretical correlation ratio.

Upang malaman kung ang halaga ng koepisyent ng determinasyon na nakuha sa panahon ng pagsusuri ng regression ay talagang sumasalamin sa tunay na relasyon sa pagitan ng y at x suriin ang kahalagahan ng nabuong equation bilang isang buo at indibidwal na mga parameter. Ang pagsusuri sa kahalagahan ng equation ng regression ay nagpapahintulot sa iyo na malaman kung ang equation ng regression ay angkop para sa praktikal na paggamit, halimbawa, para sa pagtataya o hindi.

Kasabay nito, ang pangunahing hypothesis ay iniharap tungkol sa hindi gaanong kahalagahan ng equation sa kabuuan, na pormal na binabawasan sa hypothesis na ang mga parameter ng regression ay katumbas ng zero, o, kung ano ang pareho, na ang koepisyent ng pagpapasiya ay pantay. sa zero: . Ang isang alternatibong hypothesis tungkol sa kahalagahan ng equation ay ang hypothesis na ang mga parameter ng regression ay hindi katumbas ng zero o na ang determination coefficient ay hindi katumbas ng zero: .

Upang subukan ang kahalagahan ng modelo ng regression, gamitin F- Ang pamantayan ni Fisher, na kinakalkula bilang ratio ng kabuuan ng mga parisukat (bawat isang independiyenteng variable) sa natitirang kabuuan ng mga parisukat (bawat isang antas ng kalayaan):

, (7.7)

saan k ay ang bilang ng mga malayang variable.

Matapos hatiin ang numerator at denominator ng kaugnayan (7.7) sa kabuuang kabuuan ng mga squared deviations ng dependent variable, F- Ang criterion ay maaaring katumbas na ipahayag sa mga tuntunin ng koepisyent :

.

Kung ang null hypothesis ay totoo, kung gayon ang pagkakaiba-iba na ipinaliwanag ng equation ng regression at ang hindi maipaliwanag (nalalabi) na pagkakaiba ay hindi naiiba sa bawat isa.

Tinantyang halaga F- ang criterion ay inihambing sa isang kritikal na halaga na nakadepende sa bilang ng mga independyenteng variable k, at sa bilang ng mga antas ng kalayaan (n-k-1). Talahanayan (kritikal) na halaga F- criterion - ito ang pinakamataas na halaga ng ratio ng mga pagkakaiba-iba, na maaaring mangyari kung sila ay random na maghihiwalay para sa isang partikular na antas ng posibilidad ng pagkakaroon ng null hypothesis. Kung ang kinakalkula na halaga F- ang criterion ay mas malaki kaysa sa tabular sa isang naibigay na antas ng kahalagahan, pagkatapos ay ang null hypothesis tungkol sa kawalan ng isang koneksyon ay tinanggihan at isang konklusyon ay ginawa tungkol sa kahalagahan ng koneksyon na ito, i.e. modelo ay itinuturing na makabuluhan.

Para sa isang nakapares na modelo ng regression

.

Sa linear regression, karaniwang tinatantya ang kahalagahan ng hindi lamang sa equation sa kabuuan, kundi pati na rin sa mga indibidwal na coefficient nito. Upang gawin ito, ang karaniwang error ng bawat isa sa mga parameter ay tinutukoy. Ang mga karaniwang error ng mga coefficient ng regression ng mga parameter ay tinutukoy ng mga formula:

, (7.8)

(7.9)

Ang mga karaniwang error ng mga coefficient ng regression o standard deviations na kinakalkula ng mga formula (7.8,7.9), bilang panuntunan, ay ibinibigay sa mga resulta ng pagkalkula ng modelo ng regression sa mga statistical package.

Batay sa mga mean square error ng regression coefficients, ang kahalagahan ng mga coefficient na ito ay sinusuri gamit ang karaniwang pamamaraan para sa pagsubok ng statistical hypotheses.

Bilang pangunahing hypothesis, ang isang hypothesis ay iniharap tungkol sa isang hindi gaanong pagkakaiba mula sa zero ng "tunay" na koepisyent ng regression. Ang isang alternatibong hypothesis sa kasong ito ay ang reverse hypothesis, ibig sabihin, tungkol sa hindi pagkakapantay-pantay ng "tunay" na parameter ng regression sa zero. Ang hypothesis na ito ay sinubok gamit ang t- mga istatistika na mayroon t-Pamamahagi ng mag-aaral:

Pagkatapos ay ang mga kinakalkula na halaga t- inihahambing ang mga istatistika sa mga kritikal na halaga t- mga istatistika na tinutukoy mula sa mga talahanayan ng pamamahagi ng Mag-aaral. Ang kritikal na halaga ay tinutukoy depende sa antas ng kahalagahan α at ang bilang ng mga antas ng kalayaan, na (n-k-1), n ​​- bilang ng mga obserbasyon k- bilang ng mga independiyenteng variable. Sa kaso ng linear pair regression, ang bilang ng mga degree ng kalayaan ay (P- 2). Ang kritikal na halaga ay maaari ding kalkulahin sa isang computer gamit ang built-in na STUDISP function ng Excel.

Kung ang kinakalkula na halaga t- ang mga istatistika ay mas malaki kaysa sa kritikal, pagkatapos ang pangunahing hypothesis ay tinanggihan at pinaniniwalaan na may posibilidad (1-α) Ang "tunay" na koepisyent ng regression ay makabuluhang naiiba mula sa zero, na isang istatistikal na kumpirmasyon ng pagkakaroon ng isang linear na pag-asa ng mga kaukulang variable.

Kung ang kinakalkula na halaga t- ang mga istatistika ay mas mababa kaysa sa kritikal, pagkatapos ay walang dahilan upang tanggihan ang pangunahing hypothesis, ibig sabihin, ang "totoo" na koepisyent ng regression ay hindi makabuluhang naiiba mula sa zero sa antas ng kahalagahan α . Sa kasong ito, ang kadahilanan na naaayon sa koepisyent na ito ay dapat na hindi kasama sa modelo.

Ang kahalagahan ng koepisyent ng regression ay maaaring maitatag sa pamamagitan ng pagbuo ng isang agwat ng kumpiyansa. Agwat ng kumpiyansa para sa mga parameter ng regression a at b tinukoy bilang sumusunod:

,

,

kung saan tinutukoy mula sa talahanayan ng pamamahagi ng Mag-aaral para sa antas ng kahalagahan α at bilang ng mga antas ng kalayaan (P- 2) para sa pairwise regression.

Dahil ang mga coefficient ng regression sa mga econometric na pag-aaral ay may malinaw na interpretasyong pang-ekonomiya, ang mga pagitan ng kumpiyansa ay hindi dapat maglaman ng zero. Ang tunay na halaga ng coefficient ng regression ay hindi maaaring sabay na maglaman ng mga positibo at negatibong halaga, kabilang ang zero, kung hindi man ay makakakuha tayo ng mga magkakasalungat na resulta sa pang-ekonomiyang interpretasyon ng mga coefficient, na hindi maaaring. Kaya, ang koepisyent ay makabuluhan kung ang nakuha na pagitan ng kumpiyansa ay hindi sumasaklaw sa zero.

Halimbawa 7.4. Ayon sa halimbawa 7.1:

a) Bumuo ng isang ipinares na linear regression na modelo ng pagtitiwala ng kita mula sa mga benta sa presyo ng pagbebenta gamit ang software sa pagpoproseso ng data.

b) Tayahin ang kahalagahan ng regression equation sa kabuuan, gamit ang F- Ang pamantayan ni Fisher sa α=0.05.

c) Tayahin ang kahalagahan ng regression model coefficients gamit t-Ang pamantayan ng mag-aaral para sa α=0.05 at α=0.1.

Para sa pagsusuri ng regression ginagamit namin ang karaniwang programa ng opisina na EXCEL. Bubuo kami ng modelo ng regression gamit ang REGRESSION tool ng mga setting ng ANALYSIS PACKAGE (Larawan 7.5), na inilunsad bilang mga sumusunod:

ServiceData AnalysisREGRESSIONOK.

Fig.7.5. Gamit ang REGRESSION tool

Sa dialog box ng REGRESSION, sa field ng Input interval Y, ipasok ang address ng hanay ng mga cell na naglalaman ng dependent variable. Sa field ng Input interval X, ilagay ang mga address ng isa o higit pang mga hanay na naglalaman ng mga halaga ng mga independent variable. Ang Mga Label sa unang linya na checkbox ay nakatakda sa aktibong estado kung ang mga heading ng column ay pipiliin din. Sa fig. 7.6. ipinapakita ang screen form ng pagkalkula ng regression model gamit ang REGRESSION tool.

kanin. 7.6. Pagbuo ng isang paired regression model gamit ang

tool sa REGRESSION

Bilang resulta ng pagpapatakbo ng REGRESSION tool, nabuo ang sumusunod na regression analysis protocol (Larawan 7.7).

kanin. 7.7. Protocol ng pagsusuri ng regression

Ang equation para sa pagtitiwala ng kita mula sa mga benta sa presyo ng pagbebenta ay may anyo:

Susuriin namin ang kahalagahan ng regression equation gamit ang F- Ang pamantayan ni Fisher. Ibig sabihin F- Ang criterion ni Fisher ay kinuha mula sa talahanayan na "Avariance analysis" ng EXCEL protocol (Fig. 7.7.). Tinantyang halaga F- pamantayan 53,372. Halaga ng talahanayan F- pamantayan sa antas ng kahalagahan α=0.05 at ang bilang ng mga antas ng kalayaan ay 4.964. Bilang , kung gayon ang equation ay itinuturing na makabuluhan.

Mga tinantyang halaga t-Ang mga pamantayan ng mag-aaral para sa mga coefficient ng equation ng regression ay ibinibigay sa resultang talahanayan (Larawan 7.7). Halaga ng talahanayan t-Pagsusulit ng mag-aaral sa antas ng kahalagahan α=0.05 at 10 degrees ng kalayaan ay 2.228. Para sa regression coefficient a, kaya ang koepisyent a hindi makabuluhan. Para sa regression coefficient b, samakatuwid, ang koepisyent b makabuluhan.

Pagtataya ng kahalagahan ng mga parameter ng equation ng regression

Ang kahalagahan ng mga parameter ng linear regression equation ay tinatantya gamit ang t-test ng Mag-aaral:

kung t calc. > t cr, pagkatapos ay tinatanggap ang pangunahing hypothesis ( Ho), na nagpapahiwatig ng istatistikal na kahalagahan ng mga parameter ng regression;

kung t calc.< t cr, pagkatapos ay tinatanggap ang alternatibong hypothesis ( H1), na nagpapahiwatig ng hindi gaanong kahalagahan ng istatistika ng mga parameter ng regression.

saan m a , m b ay ang mga karaniwang error ng mga parameter a at b:

(2.19)

(2.20)

Ang kritikal (tabular) na halaga ng pamantayan ay matatagpuan gamit ang mga istatistikal na talahanayan ng distribusyon ng Mag-aaral (Appendix B) o ayon sa mga talahanayan excel(seksyon ng function wizard na "Statistical"):

t cr = STEUDRASP( α=1-P; k=n-2), (2.21)

saan k=n-2 kumakatawan din sa bilang ng mga antas ng kalayaan .

Ang pagtatantya ng statistical significance ay maaari ding ilapat sa linear correlation coefficient

saan Ginoo ay ang karaniwang error sa pagtukoy ng mga halaga ng koepisyent ng ugnayan r yx

(2.23)

Nasa ibaba ang mga opsyon para sa mga gawain para sa praktikal at laboratoryo sa mga paksa ng ikalawang seksyon.

Mga tanong para sa pagsusuri sa sarili sa seksyon 2

1. Tukuyin ang mga pangunahing bahagi ng modelong ekonomiko at ang kanilang kakanyahan.

2. Ang pangunahing nilalaman ng mga yugto ng econometric na pananaliksik.

3. Kakanyahan ng mga diskarte upang matukoy ang mga parameter ng linear regression.

4. Ang kakanyahan at kakaiba ng aplikasyon ng pinakamababang paraan ng mga parisukat sa pagtukoy ng mga parameter ng equation ng regression.

5. Anong mga indicator ang ginagamit upang masuri ang lapit ng ugnayan ng mga pinag-aralan na salik?

6. Ang kakanyahan ng linear correlation coefficient.

7. Ang kakanyahan ng koepisyent ng pagpapasiya.

8. Ang kakanyahan at pangunahing tampok ng mga pamamaraan para sa pagtatasa ng kasapatan (statistical significance) ng mga modelo ng regression.

9. Pagtatasa ng kasapatan ng mga modelo ng linear regression sa pamamagitan ng coefficient of approximation.

10. Ang kakanyahan ng diskarte para sa pagtatasa ng kasapatan ng mga modelo ng regression ng Fisher criterion. Pagpapasiya ng empirical at kritikal na mga halaga ng criterion.

11. Ang kakanyahan ng konsepto ng "dispersion analysis" kaugnay ng econometric studies.

12. Ang kakanyahan at pangunahing tampok ng pamamaraan para sa pagtatasa ng kahalagahan ng mga parameter ng linear regression equation.

13. Mga tampok ng aplikasyon ng distribusyon ng Mag-aaral sa pagtatasa ng kahalagahan ng mga parameter ng linear regression equation.

14. Ano ang gawain ng pagtataya ng mga solong halaga ng pinag-aralan na socio-economic phenomenon?

1. Bumuo ng isang patlang ng ugnayan at bumalangkas ng isang palagay tungkol sa anyo ng equation ng relasyon ng mga pinag-aralan na salik;

2. Isulat ang mga pangunahing equation ng paraan ng least squares, gawin ang mga kinakailangang pagbabago, mag-compile ng table para sa intermediate na kalkulasyon at tukuyin ang mga parameter ng linear regression equation;

3. I-verify ang kawastuhan ng mga kalkulasyon na isinagawa gamit ang mga karaniwang pamamaraan at mga function ng Excel spreadsheet.

4. Pag-aralan ang mga resulta, bumalangkas ng mga konklusyon at rekomendasyon.

1. Pagkalkula ng halaga ng linear correlation coefficient;

2. Konstruksyon ng isang talahanayan ng pagsusuri ng pagpapakalat;

3. Pagtatasa ng koepisyent ng pagpapasiya;

4. I-verify ang kawastuhan ng mga kalkulasyon na isinagawa gamit ang mga karaniwang pamamaraan at function ng Excel spreadsheet.

5. Pag-aralan ang mga resulta, bumalangkas ng mga konklusyon at rekomendasyon.

4. Magsagawa ng pangkalahatang pagtatasa ng kasapatan ng napiling regression equation;

1. Pagtatasa ng kasapatan ng equation sa pamamagitan ng mga halaga ng approximation coefficient;

2. Pagtatasa ng kasapatan ng equation sa pamamagitan ng mga halaga ng coefficient of determination;

3. Pagtatasa ng kasapatan ng equation ng Fisher criterion;

4. Magsagawa ng pangkalahatang pagtatasa ng kasapatan ng mga parameter ng equation ng regression;

5. I-verify ang kawastuhan ng mga kalkulasyon na isinagawa gamit ang mga karaniwang pamamaraan at mga function ng Excel spreadsheet.

6. Pag-aralan ang mga resulta, bumalangkas ng mga konklusyon at rekomendasyon.

1. Gamit ang mga karaniwang pamamaraan ng Excel Spreadsheet Function Wizard (mula sa mga seksyong "Mathematical" at "Statistical");

2. Paghahanda ng data at mga tampok ng paggamit ng function na "LINEST";

3. Paghahanda ng data at mga tampok ng paggamit ng function na "PREDICTION".

1. Gamit ang mga karaniwang pamamaraan ng Excel spreadsheet data analysis package;

2. Paghahanda ng data at mga tampok ng aplikasyon ng "REGRESSION" na pamamaraan;

3. Interpretasyon at paglalahat ng datos mula sa talahanayan ng pagsusuri ng regression;

4. Interpretasyon at generalization ng data ng dispersion analysis table;

5. Interpretasyon at generalization ng data ng talahanayan para sa pagtatasa ng kahalagahan ng mga parameter ng equation ng regression;

Kapag nagsasagawa ng gawaing laboratoryo ayon sa isa sa mga pagpipilian, kinakailangan upang maisagawa ang mga sumusunod na partikular na gawain:

1. Gumawa ng pagpili ng anyo ng equation ng relasyon ng mga pinag-aralan na salik;

2. Tukuyin ang mga parameter ng equation ng regression;

3. Upang masuri ang higpit ng ugnayan ng mga pinag-aralan na salik;

4. Tayahin ang kasapatan ng napiling regression equation;

5. Suriin ang istatistikal na kahalagahan ng mga parameter ng equation ng regression.

6. I-verify ang kawastuhan ng mga kalkulasyon na isinagawa gamit ang mga karaniwang pamamaraan at mga function ng Excel spreadsheet.

7. Pag-aralan ang mga resulta, bumalangkas ng mga konklusyon at rekomendasyon.

Mga gawain para sa praktikal at laboratoryo sa paksang "Paired linear regression at correlation sa econometric studies."

Pagpipilian 1 Opsyon 2 Opsyon 3 Opsyon 4 Opsyon 5
x y x y x y x y x y
Opsyon 6 Opsyon 7 Opsyon 8 Opsyon 9 Opsyon 10
x y x y x y x y x y

Pair Regression ay isang regression sa pagitan ng dalawang variable

-y at x, ibig sabihin. tingnan ang modelo + E

saan sa- mabisang tanda, i.e. dependent variable; X- sign factor.

Ang linear regression ay binabawasan sa paghahanap ng equation ng form o

Ang isang equation ng form ay nagbibigay-daan para sa mga ibinigay na halaga ng factor x na magkaroon ng mga teoretikal na halaga ng epektibong tampok, na pinapalitan ang aktwal na mga halaga ng factor x dito.

Ang pagbuo ng isang linear regression ay nabawasan sa pagtatantya ng mga parameter nito a at b.

Ang mga pagtatantya ng parameter ng linear regression ay matatagpuan sa pamamagitan ng iba't ibang pamamaraan.

1.

2.

Parameter b tinawag koepisyent ng regression. Ang halaga nito ay nagpapakita

ang average na pagbabago sa resulta na may pagbabago sa salik ng isang yunit.

Pormal a- ibig sabihin sa sa x = 0. Kung ang sign-factor

wala at hindi maaaring magkaroon ng zero na halaga, pagkatapos ay ang nasa itaas

libreng term interpretasyon, a walang saysay. Parameter, a siguro

walang pang-ekonomiyang nilalaman. Mga pagtatangka sa ekonomiya

bigyang-kahulugan ang parameter, a maaaring humantong sa kahangalan, lalo na kapag a < 0.

Tanging ang tanda ng parameter ang maaaring bigyang-kahulugan a. Kung ang a > 0,

kung gayon ang kamag-anak na pagbabago sa resulta ay mas mabagal kaysa sa pagbabago

sinusuri ang kalidad ng mga nahanap na parameter at ang buong modelo sa kabuuan:

-Pagtatasa ng kahalagahan ng koepisyent ng pagbabalik (b) at koepisyent ng ugnayan

-Pagtatasa sa kahalagahan ng buong equation ng regression. Koepisyent ng determinasyon

Ang equation ng regression ay palaging pupunan ng isang tagapagpahiwatig ng higpit ng koneksyon. Sa

gamit ang linear regression bilang isang indicator

linear correlation coefficient r xy . Mayroong iba't ibang

mga pagbabago ng linear correlation coefficient formula.

Ang linear correlation coefficient ay nasa mga limitasyon: -1≤ .rxy

≤ 1. Bukod dito, mas malapit r sa 0 mas mahina ang ugnayan at vice versa

mas malapit ang r sa 1 o -1, mas malakas ang ugnayan, i.e. ang dependence ng x at y ay malapit sa

linear. Kung ang r eksakto =1 o -1 lahat ng puntos ay nasa parehong tuwid na linya.

Kung ang coefficient regression b>0 pagkatapos 0 ≤. rxy≤ 1 at

vice versa para sa b<0 -1≤.rxy≤0. Coef.

Ang ugnayan ay sumasalamin sa antas ng linear na pag-asa ng mga halaga ng m / y sa pagkakaroon ng

binibigkas na pag-asa sa ibang species.

Upang masuri ang kalidad ng pagpili ng isang linear function, ang parisukat ng linear

koepisyent ng ugnayan

Tinawag koepisyent ng pagpapasiya. Koepisyent ng determinasyon

nailalarawan ang proporsyon ng pagkakaiba-iba ng nagresultang tampok na y, ipinaliwanag ng

regression. Kaukulang halaga

nailalarawan ang bahagi ng pagpapakalat y, dulot ng impluwensya ng iba pang hindi nakilala

sa factor model.

Pinapayagan ng OLS kumuha ng naturang mga pagtatantya ng parameter a at b, alin

ang kabuuan ng mga squared deviations ng aktwal na mga halaga ng nagresultang katangian

(y) mula sa kinakalkula (teoretikal)

pinakamababa:

Sa madaling salita, mula sa

ng buong hanay ng mga linya, ang linya ng regression sa tsart ay pinili upang ang kabuuan

parisukat ng patayong distansya sa pagitan ng mga punto at linyang ito ay magiging

pinakamababa.

Ang sistema ng mga normal na equation ay nalutas

ESTIMATION NG KAHALAGAHAN NG LINEAR REGRESSION PARAMETERS.

Ang pagtatasa ng kahalagahan ng regression equation sa kabuuan ay ibinibigay gamit ang F-criterion

Fisher. Sa kasong ito, ang null hypothesis ay iniharap na ang regression coefficient ay katumbas ng

zero, ibig sabihin. b= 0, at samakatuwid ang kadahilanan X hindi nagbibigay

impluwensya sa resulta y.

Ang direktang pagkalkula ng F-criterion ay nauuna sa pagsusuri ng pagkakaiba.

Ang sentro nito ay ang pagpapalawak ng kabuuang kabuuan ng mga squared deviations

variable sa mula sa average na halaga sa sa dalawang bahagi -

"ipinaliwanag" at "hindi naipaliwanag":

Kabuuang kabuuan ng mga squared deviations

Kabuuan ng mga parisukat

mga deviations na ipinaliwanag sa pamamagitan ng regression

Ang natitirang kabuuan ng squared deviation.

Ang anumang kabuuan ng mga squared deviations ay nauugnay sa bilang ng mga degree ng kalayaan , t.

e. na may bilang ng kalayaan ng independiyenteng pagkakaiba-iba ng tampok. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit ng populasyon n at ang bilang ng mga constant na tinutukoy mula dito. Tungkol sa problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis mula sa P posibleng kinakailangan para sa

ang pagbuo ng isang naibigay na kabuuan ng mga parisukat.

Pagpapakalat sa bawat antas ng kalayaan D.

F-ratio (F-criterion):

Kung ang null hypothesis ay totoo, ang salik at natitirang mga pagkakaiba ay hindi

magkaiba sa isa't isa. Para sa H 0, ang isang pagpapabulaanan ay kinakailangan upang iyon

ang pagkakaiba-iba ng kadahilanan ay lumampas sa natitirang isa nang ilang beses. Ingles

Ang statistician na si Snedecor ay bumuo ng mga talahanayan ng mga kritikal na halaga ng F-ratios

sa iba't ibang antas ng kahalagahan ng null hypothesis at ibang bilang ng mga degree

kalayaan. Ang halaga ng talahanayan ng F-test ay ang pinakamataas na halaga ng ratio

mga pagkakaiba-iba, na maaaring maganap sa kaso ng kanilang random na pagkakaiba-iba para sa isang naibigay

ang antas ng posibilidad ng pagkakaroon ng null hypothesis. Kinakalkula ang halaga ng F-ratio

ay kinikilala bilang maaasahan kung ang o ay mas malaki kaysa sa halaga ng talahanayan. Sa kasong ito, zero

ang hypothesis tungkol sa kawalan ng isang relasyon ng mga palatandaan ay tinanggihan at isang konklusyon ay ginawa tungkol sa

ang kahalagahan ng relasyong ito: F ​​fact > F table H 0

ay tinatanggihan.

Kung ang halaga ay mas mababa sa talaan F fact ‹, F talahanayan

Kung gayon ang posibilidad ng null hypothesis ay nasa itaas ng isang naibigay na antas at hindi ito maaaring

tinanggihan nang walang malubhang panganib na malinlang ang koneksyon. AT

Sa kasong ito, ang equation ng regression ay itinuturing na hindi gaanong mahalaga sa istatistika. Pero

ay hindi tinatanggihan.


Katulad na impormasyon.