Factor at dispersion analysis sa Excel na may automation ng pagkalkula. One-way na pagsusuri ng pagkakaiba

Upang pag-aralan ang pagkakaiba-iba ng isang katangian sa ilalim ng impluwensya ng mga kinokontrol na variable, ginagamit ang paraan ng pagpapakalat.

Upang pag-aralan ang ugnayan sa pagitan ng mga halaga - pamamaraan ng factorial. Isaalang-alang natin ang mga tool na analytical nang mas detalyado: factorial, dispersion at two-factor dispersion na pamamaraan para sa pagtatasa ng pagkakaiba-iba.

ANOVA sa Excel

Sa kondisyon, ang layunin ng paraan ng pagpapakalat ay maaaring bumalangkas tulad ng sumusunod: upang ihiwalay mula sa kabuuang pagkakaiba-iba ng parameter 3 ang partikular na pagkakaiba-iba:

  • 1 - tinutukoy ng pagkilos ng bawat isa sa mga pinag-aralan na halaga;
  • 2 - idinidikta ng ugnayan sa pagitan ng mga pinag-aralan na halaga;
  • 3 - random, idinidikta ng lahat ng hindi natukoy para sa mga pangyayari.

Sa Microsoft Excel, maaaring isagawa ang pagsusuri ng pagkakaiba-iba gamit ang tool na "Pagsusuri ng Data" (tab na "Data" - "Pagsusuri"). Isa itong add-on ng spreadsheet. Kung hindi available ang add-in, kailangan mong buksan ang "Excel Options" at paganahin ang setting para sa pagsusuri.

Nagsisimula ang trabaho sa disenyo ng mesa. Mga Panuntunan:

  1. Ang bawat hanay ay dapat maglaman ng mga halaga ng isang salik na pinag-aaralan.
  2. Ayusin ang mga column sa pataas/pababang pagkakasunud-sunod ng halaga ng parameter na pinag-aaralan.

Isaalang-alang ang pagsusuri ng pagkakaiba-iba sa Excel gamit ang isang halimbawa.

Sinuri ng psychologist ng kumpanya gamit ang isang espesyal na pamamaraan ang diskarte ng pag-uugali ng mga empleyado sa isang sitwasyon ng salungatan. Ipinapalagay na ang pag-uugali ay naiimpluwensyahan ng antas ng edukasyon (1 - sekondarya, 2 - pangalawang dalubhasa, 3 - mas mataas na edukasyon).

Maglagay ng data sa isang Excel spreadsheet:


Ang makabuluhang parameter ay puno ng dilaw na kulay. Dahil ang P-value sa pagitan ng mga grupo ay mas malaki sa 1, hindi maituturing na makabuluhan ang pagsubok ni Fisher. Dahil dito, ang pag-uugali sa isang sitwasyon ng salungatan ay hindi nakasalalay sa antas ng edukasyon.



Factor analysis sa Excel: isang halimbawa

Ang pagsusuri sa kadahilanan ay isang multivariate na pagsusuri ng mga ugnayan sa pagitan ng mga halaga ng mga variable. Gamit ang pamamaraang ito, maaari mong malutas ang pinakamahalagang gawain:

  • komprehensibong ilarawan ang sinusukat na bagay (bukod dito, malawak, siksik);
  • kilalanin ang mga nakatagong variable na halaga na tumutukoy sa pagkakaroon ng mga linear na istatistikal na ugnayan;
  • uriin ang mga variable (tukuyin ang kaugnayan sa pagitan ng mga ito);
  • bawasan ang bilang ng mga kinakailangang variable.

Isaalang-alang ang halimbawa ng factor analysis. Ipagpalagay na alam namin ang mga benta ng anumang mga produkto sa huling 4 na buwan. Kinakailangang pag-aralan kung aling mga item ang hinihiling at alin ang hindi.



Ngayon ay malinaw mong makikita kung aling mga benta ng produkto ang nagbibigay ng pangunahing paglago.

Dalawang-paraan na pagsusuri ng pagkakaiba-iba sa Excel

Ipinapakita kung paano nakakaapekto ang dalawang salik sa pagbabago sa halaga ng isang random na variable. Isaalang-alang ang two-way analysis ng variance sa Excel gamit ang isang halimbawa.

Gawain. Isang grupo ng mga kalalakihan at kababaihan ang ipinakita ng mga tunog ng iba't ibang volume: 1 - 10 dB, 2 - 30 dB, 3 - 50 dB. Ang oras ng pagtugon ay naitala sa millisecond. Ito ay kinakailangan upang matukoy kung ang kasarian ay nakakaapekto sa tugon; Nakakaapekto ba ang loudness sa pagtugon?

Mag-ehersisyo . Sinuri ang mga mag-aaral sa 1st year upang matukoy ang mga aktibidad na kanilang pinaglalaanan ng kanilang libreng oras. Suriin kung ang distribusyon ng verbal at non-verbal na kagustuhan ng mga mag-aaral ay naiiba.

Desisyon isinasagawa gamit ang isang calculator.
Paghahanap ng mga average ng grupo:

NP 1P 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x cf 15.6 17

Tukuyin natin ang p - ang bilang ng mga antas ng salik (p=2). Ang bilang ng mga sukat sa bawat antas ay pareho at katumbas ng q=5.
Ang huling hilera ay naglalaman ng ibig sabihin ng pangkat para sa bawat antas ng salik.
Maaaring makuha ang pangkalahatang mean bilang ibig sabihin ng arithmetic mean ng pangkat:
(1)
Ang pagkalat ng mga average ng grupo ng porsyento ng pagkabigo na nauugnay sa kabuuang average ay apektado ng parehong mga pagbabago sa antas ng isinasaalang-alang na kadahilanan at mga random na kadahilanan.
Upang isaalang-alang ang impluwensya ng kadahilanang ito, ang kabuuang pagkakaiba-iba ng sample ay nahahati sa dalawang bahagi, ang una ay tinatawag na factorial S 2 f, at ang pangalawa - ang natitirang S 2 na pahinga.
Upang isaalang-alang ang mga bahaging ito, ang kabuuang kabuuan ng mga squared deviations ng variant mula sa kabuuang average ay unang kinakalkula:

at ang factorial sum ng squared deviations ng pangkat ay nangangahulugan mula sa kabuuang mean, na nagpapakilala sa impluwensya ng salik na ito:

Ang huling expression ay nakuha sa pamamagitan ng pagpapalit ng bawat variant sa Rtot expression na may group mean para sa ibinigay na kadahilanan.
Ang natitirang kabuuan ng mga squared deviations ay nakuha bilang pagkakaiba:
R pahinga \u003d R kabuuan - R f
Upang matukoy ang kabuuang pagkakaiba-iba ng sample, kinakailangang hatiin ang Rtotal sa bilang ng mga sukat pq:

at para makuha ang walang pinapanigan na kabuuang sample variance, dapat na i-multiply ang expression na ito sa pq/(pq-1):

Alinsunod dito, para sa walang pinapanigan na factorial sample variance:

kung saan ang p-1 ay ang bilang ng mga antas ng kalayaan ng walang pinapanigan na factorial sample variance.
Upang masuri ang impluwensya ng salik sa mga pagbabago sa parameter na isinasaalang-alang, ang halaga ay kinakalkula:

Dahil ang ratio ng dalawang sample na variance S 2 f at S 2 rem ay ibinahagi ayon sa Fisher-Snedekor law, ang resultang value f obs ay inihambing sa halaga ng distribution function

sa kritikal na punto f cr na tumutugma sa napiling antas ng kahalagahan a.
Kung f obl >f cr, kung gayon ang kadahilanan ay may malaking epekto at dapat isaalang-alang, kung hindi, ito ay may hindi gaanong epekto na maaaring mapabayaan.
Ang mga sumusunod na formula ay maaari ding gamitin upang kalkulahin ang Robs at Rf:
(4)
(5)
Nakikita namin ang pangkalahatang average sa pamamagitan ng formula (1):
Upang kalkulahin ang Rtot gamit ang formula (4), nag-compile kami ng isang talahanayan ng opsyon na 2 parisukat:
NP 2 1P 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Ang kabuuang average ay kinakalkula ng formula (1):

Rtot = 1322 + 1613 - 5 2 16.3 2 = 278.1
Natagpuan namin ang R f ayon sa formula (5):
R f \u003d 5 (15.6 2 + 17 2) - 2 16.3 2 \u003d 4.9
Nakukuha namin ang R rest: R rest \u003d R total - R f \u003d 278.1 - 4.9 \u003d 273.2
Tinutukoy namin ang factorial at natitirang pagkakaiba:


Kung ang ibig sabihin ng mga halaga ng isang random na variable na kinakalkula para sa mga indibidwal na sample ay pareho, kung gayon ang mga pagtatantya ng factorial at natitirang mga pagkakaiba ay walang pinapanigan na mga pagtatantya ng pangkalahatang pagkakaiba at hindi gaanong naiiba.
Kung gayon ang paghahambing ng mga pagtatantya ng mga pagkakaiba-iba na ito ayon sa pamantayan ng Fisher ay dapat magpakita na walang dahilan upang tanggihan ang null hypothesis tungkol sa pagkakapantay-pantay ng factorial at natitirang mga pagkakaiba.
Ang pagtatantya ng pagkakaiba-iba ng salik ay mas mababa kaysa sa pagtatantya ng natitirang pagkakaiba-iba, kaya agad nating maigigiit ang bisa ng null hypothesis tungkol sa pagkakapantay-pantay ng mga inaasahan sa matematika para sa mga layer ng sample.
Sa madaling salita, sa halimbawang ito, ang kadahilanan Ф ay hindi gaanong nakakaapekto sa random variable.
Suriin natin ang null hypothesis H 0: ang pagkakapantay-pantay ng mga average na halaga ng x.
Maghanap ng f obl

Para sa antas ng kahalagahan α=0.05, ang bilang ng mga antas ng kalayaan 1 at 8, makikita natin ang f cr mula sa talahanayan ng pamamahagi ng Fisher-Snedekor.
f cr (0.05; 1; 8) = 5.32
Dahil sa katotohanan na ang f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Sa madaling salita, magkaiba ang pamamahagi ng verbal at non-verbal na kagustuhan ng mga mag-aaral.

Mag-ehersisyo. Ang planta ay may apat na linya para sa produksyon ng mga nakaharap na tile. 10 mga tile ay sapalarang pinili mula sa bawat linya sa panahon ng paglilipat at ang kanilang kapal (mm) ay sinusukat. Ang mga paglihis mula sa nominal na laki ay ibinibigay sa talahanayan. Ito ay kinakailangan sa antas ng kahalagahan a = 0.05 upang maitaguyod ang pagtitiwala ng produksyon ng mga de-kalidad na tile sa linya ng produksyon (factor A).

Mag-ehersisyo. Sa antas ng kahalagahan a = 0.05, siyasatin ang epekto ng kulay ng pintura sa buhay ng serbisyo ng patong.

Halimbawa #1. 13 pagsusulit ang isinagawa, kung saan 4 ang nasa unang antas ng factor, 4 ang nasa pangalawa, 3 ang nasa ikatlo at 2 ang nasa ikaapat. Gamit ang paraan ng pagsusuri ng pagkakaiba-iba sa antas ng kabuluhan na 0.05, suriin ang null hypothesis tungkol sa pagkakapantay-pantay ng ibig sabihin ng grupo. Ipinapalagay na ang mga sample ay kinuha mula sa mga normal na populasyon na may parehong mga pagkakaiba-iba. Ang mga resulta ng pagsubok ay ipinapakita sa talahanayan.

Desisyon:
Paghahanap ng mga average ng grupo:

NP 1P 2P 3P 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x cf 1.4 1.43 1.33 1.32

Tukuyin natin ang p - ang bilang ng mga antas ng salik (p=4). Ang bilang ng mga sukat sa bawat antas ay: 4,4,3,2
Ang huling hilera ay naglalaman ng ibig sabihin ng pangkat para sa bawat antas ng salik.
Ang kabuuang average ay kinakalkula ng formula:

Upang kalkulahin ang Stotal gamit ang formula (4), nag-compile kami ng isang talahanayan ng opsyon na 2 parisukat:

NP 2 1P 2 2P 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Ang kabuuang kabuuan ng mga squared deviations ay matatagpuan sa pamamagitan ng formula:


Natagpuan namin ang S f sa pamamagitan ng formula:


Nakukuha namin ang S rest: S rest \u003d S total - S f \u003d 0.0293 - 0.0263 \u003d 0.003
Tukuyin ang pagkakaiba-iba ng kadahilanan:

at natitirang pagkakaiba-iba:

Kung ang ibig sabihin ng mga halaga ng isang random na variable na kinakalkula para sa mga indibidwal na sample ay pareho, kung gayon ang mga pagtatantya ng factorial at natitirang mga pagkakaiba ay walang pinapanigan na mga pagtatantya ng pangkalahatang pagkakaiba at hindi gaanong naiiba.
Kung gayon ang paghahambing ng mga pagtatantya ng mga pagkakaiba-iba na ito ayon sa pamantayan ng Fisher ay dapat magpakita na walang dahilan upang tanggihan ang null hypothesis tungkol sa pagkakapantay-pantay ng factorial at natitirang mga pagkakaiba.
Ang pagtatantya ng factorial variance ay mas malaki kaysa sa pagtatantya ng natitirang variance, kaya maaari naming agad na igiit na ang null hypothesis tungkol sa pagkakapantay-pantay ng mga inaasahan sa matematika para sa mga sample na layer ay hindi totoo.
Sa madaling salita, sa halimbawang ito, ang kadahilanan Ф ay may malaking epekto sa random variable.
Suriin natin ang null hypothesis H 0: ang pagkakapantay-pantay ng mga average na halaga ng x.
Maghanap ng f obl

Para sa antas ng kahalagahan α=0.05, ang bilang ng mga antas ng kalayaan 3 at 12, makikita natin ang f cr mula sa talahanayan ng pamamahagi ng Fisher-Snedekor.
f cr (0.05; 3; 12) = 3.49
Dahil sa katotohanan na ang fobs > fcr, tinatanggap namin ang null hypothesis tungkol sa makabuluhang impluwensya ng factor sa mga resulta ng mga eksperimento (tinatanggihan namin ang null hypothesis tungkol sa pagkakapantay-pantay ng ibig sabihin ng grupo). Sa madaling salita, ang ibig sabihin ng grupo sa kabuuan ay malaki ang pagkakaiba.

Halimbawa #2. Ang paaralan ay may 5 ikaanim na baitang. Ang psychologist ay may tungkulin sa pagtukoy kung ang average na antas ng situational na pagkabalisa sa mga klase ay pareho. Para sa mga ito ay ibinigay sa talahanayan. Suriin ang antas ng kabuluhan α=0.05, ang pagpapalagay na ang karaniwang pagkabalisa sa sitwasyon sa mga klase ay hindi naiiba.

Halimbawa #3. Upang pag-aralan ang halaga ng X, 4 na pagsusulit ang isinagawa sa bawat isa sa limang antas ng salik F. Ang mga resulta ng pagsusulit ay ibinigay sa talahanayan. Alamin kung makabuluhan ang impluwensya ng salik F sa halaga ng X. Kunin ang α = 0.05. Ipinapalagay na ang mga sample ay kinuha mula sa mga normal na populasyon na may parehong mga pagkakaiba-iba.

Halimbawa #4. Ipagpalagay na tatlong grupo ng mga mag-aaral, 10 tao bawat isa, ay lumahok sa eksperimentong pedagogical. Ang mga grupo ay gumamit ng iba't ibang paraan ng pagtuturo: sa una - tradisyonal (F 1), sa pangalawa - batay sa teknolohiya ng computer (F 2), sa pangatlo - isang paraan na malawakang gumagamit ng mga gawain para sa independiyenteng trabaho (F 3). Ang kaalaman ay tinasa sa isang sampung puntong sistema.
Kinakailangang iproseso ang nakuhang datos sa mga pagsusulit at gumawa ng konklusyon kung ang impluwensya ng paraan ng pagtuturo ay makabuluhan, na kumukuha ng α=0.05 bilang antas ng kahalagahan.
Ang mga resulta ng mga pagsusulit ay ibinigay sa talahanayan, F j - ang antas ng salik x ij - ang pagtatasa ng i-ika mag-aaral ng mag-aaral ayon sa pamamaraan F j .

Antas ng kadahilanan

Halimbawa numero 5. Ang mga resulta ng mapagkumpitensyang iba't ibang pagsubok ng mga pananim ay ipinapakita (ang ani sa c.d. ha). Ang bawat uri ay sinubukan sa apat na plots. Gamitin ang paraan ng pagsusuri ng variance upang pag-aralan ang epekto ng variety sa ani. Itakda ang kahalagahan ng impluwensya ng salik (ang bahagi ng pagkakaiba-iba ng intergroup sa kabuuang pagkakaiba-iba) at ang kahalagahan ng mga resulta ng eksperimento sa antas ng kahalagahan na 0.05.
Nagbubunga sa iba't ibang mga plot ng pagsubok

Iba't-ibang Produktibo sa pag-uulit ng c. galing ha
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

Ang ANOVA ay isang hanay ng mga istatistikal na pamamaraan na idinisenyo upang subukan ang mga hypotheses tungkol sa ugnayan sa pagitan ng ilang partikular na feature at ng mga pinag-aralan na salik na walang quantitative na paglalarawan, gayundin upang maitaguyod ang antas ng impluwensya ng mga salik at ang kanilang pakikipag-ugnayan. Sa espesyal na panitikan, madalas itong tinatawag na ANOVA (mula sa English na pangalan na Analysis of Variations). Ang pamamaraang ito ay unang binuo ni R. Fischer noong 1925.

Mga uri at pamantayan para sa pagsusuri ng pagkakaiba

Ang pamamaraang ito ay ginagamit upang siyasatin ang kaugnayan sa pagitan ng mga katangian ng husay (nominal) at isang dami (patuloy) na variable. Sa katunayan, sinusubok nito ang hypothesis tungkol sa pagkakapantay-pantay ng arithmetic na paraan ng ilang sample. Kaya, maaari itong isaalang-alang bilang isang parametric criterion para sa paghahambing ng mga sentro ng ilang mga sample nang sabay-sabay. Kung gagamitin mo ang paraang ito para sa dalawang sample, ang mga resulta ng pagsusuri ng pagkakaiba ay magiging magkapareho sa mga resulta ng t-test ng Estudyante. Gayunpaman, hindi tulad ng iba pang pamantayan, pinapayagan ka ng pag-aaral na ito na pag-aralan ang problema nang mas detalyado.

Ang pagsusuri ng pagkakaiba-iba sa mga istatistika ay batay sa batas: ang kabuuan ng mga squared deviations ng pinagsamang sample ay katumbas ng kabuuan ng mga parisukat ng intragroup deviations at ang kabuuan ng mga parisukat ng intergroup deviations. Para sa pag-aaral, ginagamit ang pagsusulit ni Fisher upang maitaguyod ang kahalagahan ng pagkakaiba sa pagitan ng mga pagkakaiba-iba ng intergroup at intragroup. Gayunpaman, para dito, ang mga kinakailangang prerequisite ay ang normalidad ng distribusyon at ang homoscedasticity (pagkakapantay-pantay ng mga pagkakaiba-iba) ng mga sample. Matukoy ang pagkakaiba sa pagitan ng one-dimensional (single-factor) na pagsusuri ng variance at multivariate (multifactorial). Isinasaalang-alang ng una ang pag-asa ng halaga sa ilalim ng pag-aaral sa isang katangian, ang pangalawa - sa marami nang sabay-sabay, at nagpapahintulot din sa iyo na makilala ang kaugnayan sa pagitan nila.

Mga salik

Ang mga salik ay tinatawag na kinokontrol na mga pangyayari na nakakaapekto sa huling resulta. Ang antas o paraan ng pagproseso nito ay tinatawag na halaga na nagpapakilala sa tiyak na pagpapakita ng kundisyong ito. Ang mga figure na ito ay karaniwang ibinibigay sa isang nominal o ordinal na sukat ng pagsukat. Kadalasan ang mga halaga ng output ay sinusukat sa quantitative o ordinal scale. Pagkatapos ay mayroong problema sa pagpapangkat ng data ng output sa isang serye ng mga obserbasyon na tumutugma sa humigit-kumulang sa parehong mga numerical na halaga. Kung ang bilang ng mga grupo ay masyadong malaki, kung gayon ang bilang ng mga obserbasyon sa mga ito ay maaaring hindi sapat upang makakuha ng maaasahang mga resulta. Kung ang bilang ay kinuha masyadong maliit, ito ay maaaring humantong sa pagkawala ng mga mahahalagang tampok ng impluwensya sa system. Ang partikular na paraan ng pagpapangkat ng data ay depende sa dami at katangian ng pagkakaiba-iba sa mga halaga. Ang bilang at laki ng mga pagitan sa univariate analysis ay kadalasang tinutukoy ng prinsipyo ng pantay na mga agwat o ng prinsipyo ng pantay na frequency.

Mga gawain ng pagtatasa ng pagpapakalat

Kaya, may mga kaso kung kailan kailangan mong ihambing ang dalawa o higit pang mga sample. Ito ay pagkatapos na ito ay ipinapayong gamitin ang pagsusuri ng pagkakaiba-iba. Ang pangalan ng pamamaraan ay nagpapahiwatig na ang mga konklusyon ay ginawa batay sa pag-aaral ng mga bahagi ng pagkakaiba. Ang kakanyahan ng pag-aaral ay ang kabuuang pagbabago sa indicator ay nahahati sa mga bahagi na tumutugma sa pagkilos ng bawat indibidwal na salik. Isaalang-alang ang ilang mga problema na nalulutas ng isang tipikal na pagsusuri ng pagkakaiba.

Halimbawa 1

Ang pagawaan ay may ilang mga kagamitan sa makina - mga awtomatikong makina na gumagawa ng isang partikular na bahagi. Ang laki ng bawat bahagi ay isang random na halaga, na nakasalalay sa mga setting ng bawat makina at mga random na paglihis na nangyayari sa proseso ng pagmamanupaktura ng mga bahagi. Ito ay kinakailangan upang matukoy mula sa mga sukat ng mga sukat ng mga bahagi kung ang mga makina ay naka-set up sa parehong paraan.

Halimbawa 2

Sa panahon ng paggawa ng isang electrical apparatus, ginagamit ang iba't ibang uri ng insulating paper: capacitor, electrical, atbp. Ang apparatus ay maaaring ma-impregnated ng iba't ibang substance: epoxy resin, varnish, ML-2 resin, atbp. Ang mga leaks ay maaaring alisin sa ilalim ng vacuum sa mataas na presyon, kapag pinainit. Maaari itong ma-impregnated sa pamamagitan ng paglulubog sa barnisan, sa ilalim ng tuluy-tuloy na stream ng barnisan, atbp Ang mga de-koryenteng kagamitan sa kabuuan ay ibinubuhos na may isang tiyak na tambalan, kung saan mayroong ilang mga pagpipilian. Ang mga tagapagpahiwatig ng kalidad ay ang dielectric na lakas ng pagkakabukod, ang overheating na temperatura ng winding sa operating mode, at marami pang iba. Sa panahon ng pagbuo ng teknolohikal na proseso ng pagmamanupaktura ng mga aparato, kinakailangan upang matukoy kung paano nakakaapekto ang bawat isa sa mga nakalistang salik sa pagganap ng aparato.

Halimbawa 3

Naghahain ang depot ng trolleybus ng ilang ruta ng trolleybus. Nagpapatakbo sila ng mga trolleybus ng iba't ibang uri, at 125 inspektor ang nangongolekta ng pamasahe. Ang pamamahala ng depot ay interesado sa tanong: kung paano ihambing ang pang-ekonomiyang pagganap ng bawat controller (kita) na ibinigay sa iba't ibang mga ruta, iba't ibang uri ng mga trolleybus? Paano matukoy ang pagiging posible sa ekonomiya ng paglulunsad ng mga trolleybus ng isang tiyak na uri sa isang partikular na ruta? Paano magtatag ng makatwirang mga kinakailangan para sa halaga ng kita na dinadala ng konduktor sa bawat ruta sa iba't ibang uri ng mga trolleybus?

Ang gawain ng pagpili ng isang paraan ay kung paano makakuha ng maximum na impormasyon tungkol sa epekto sa huling resulta ng bawat kadahilanan, matukoy ang mga numerical na katangian ng naturang epekto, ang kanilang pagiging maaasahan sa minimal na gastos at sa pinakamaikling posibleng oras. Ang mga pamamaraan ng dispersion analysis ay nagbibigay-daan upang malutas ang mga naturang problema.

Univariate analysis

Nilalayon ng pag-aaral na masuri ang laki ng epekto ng isang partikular na kaso sa pagsusuring sinusuri. Ang isa pang gawain ng univariate analysis ay maaaring paghambingin ang dalawa o higit pang mga pangyayari sa isa't isa upang matukoy ang pagkakaiba ng kanilang impluwensya sa pagpapabalik. Kung ang null hypothesis ay tinanggihan, ang susunod na hakbang ay ang pagbilang at pagbuo ng mga agwat ng kumpiyansa para sa mga nakuhang katangian. Sa kaso kapag ang null hypothesis ay hindi maaaring tanggihan, ito ay karaniwang tinatanggap at isang konklusyon ay ginawa tungkol sa likas na katangian ng impluwensya.

Ang one-way analysis ng variance ay maaaring maging isang non-parametric analogue ng Kruskal-Wallis rank method. Ito ay binuo ng Amerikanong mathematician na si William Kruskal at ekonomista na si Wilson Wallis noong 1952. Ang pagsusulit na ito ay nilayon upang subukan ang null hypothesis na ang mga epekto ng impluwensya sa mga pinag-aralan na sample ay pantay-pantay sa hindi alam ngunit pantay na mga halaga. Sa kasong ito, ang bilang ng mga sample ay dapat na higit sa dalawa.

Ang Jonkhier (Jonkhier-Terpstra) criterion ay iminungkahi nang nakapag-iisa ng Dutch mathematician na si T. J. Terpstrom noong 1952 at ng British psychologist na si E. R. Jonkhier noong 1954. Ginagamit ito kapag alam nang maaga na ang mga available na grupo ng mga resulta ay iniutos ng pagtaas sa impluwensya ng salik na pinag-aaralan, na sinusukat sa ordinal na sukat.

M - ang pamantayang Bartlett, na iminungkahi ng British statistician na si Maurice Stevenson Bartlett noong 1937, ay ginagamit upang subukan ang null hypothesis tungkol sa pagkakapantay-pantay ng mga pagkakaiba ng ilang normal na pangkalahatang populasyon kung saan kinukuha ang mga pinag-aralan na sample, sa pangkalahatang kaso na may iba't ibang laki. (ang bilang ng bawat sample ay dapat na hindi bababa sa apat ).

Ang G ay ang pagsubok sa Cochran, na natuklasan ng Amerikanong si William Gemmel Cochran noong 1941. Ginagamit ito upang subukan ang null hypothesis tungkol sa pagkakapantay-pantay ng mga pagkakaiba-iba ng mga normal na populasyon para sa mga independiyenteng sample na may pantay na laki.

Ang nonparametric Levene test, na iminungkahi ng American mathematician na si Howard Levene noong 1960, ay isang alternatibo sa Bartlett test sa mga kondisyon kung saan walang katiyakan na ang mga sample sa ilalim ng pag-aaral ay sumusunod sa isang normal na distribusyon.

Noong 1974, iminungkahi ng mga Amerikanong istatistika na sina Morton B. Brown at Alan B. Forsythe ang isang pagsubok (ang Brown-Forsyth test), na medyo naiiba sa Levene test.

Dalawang paraan na pagsusuri

Ginagamit ang two-way na pagsusuri ng pagkakaiba-iba para sa mga naka-link na sample na karaniwang ipinamamahagi. Sa pagsasagawa, ang mga kumplikadong talahanayan ng pamamaraang ito ay madalas ding ginagamit, sa partikular, ang mga kung saan ang bawat cell ay naglalaman ng isang hanay ng data (paulit-ulit na mga sukat) na naaayon sa mga nakapirming halaga ng antas. Kung ang mga pagpapalagay na kinakailangan upang ilapat ang two-way analysis ng variance ay hindi natutugunan, pagkatapos ay ang non-parametric rank test ni Friedman (Friedman, Kendall at Smith), na binuo ng American economist na si Milton Friedman sa pagtatapos ng 1930, ay ginagamit. Ang pamantayang ito ay hindi nakasalalay sa uri ng pamamahagi.

Ipinapalagay lamang na ang distribusyon ng mga dami ay pareho at tuluy-tuloy, at sila mismo ay independyente sa bawat isa. Kapag sinusubukan ang null hypothesis, ang output data ay ipinakita sa anyo ng isang hugis-parihaba na matrix, kung saan ang mga hilera ay tumutugma sa mga antas ng kadahilanan B, at ang mga haligi ay tumutugma sa mga antas A. Ang bawat cell ng talahanayan (block) ay maaaring maging ang resulta ng mga sukat ng mga parameter sa isang bagay o sa isang pangkat ng mga bagay na may pare-parehong mga halaga ng mga antas ng parehong mga kadahilanan. Sa kasong ito, ang kaukulang data ay ipinakita bilang mga average na halaga ng isang tiyak na parameter para sa lahat ng mga sukat o mga bagay ng sample na pinag-aaralan. Upang mailapat ang pamantayan ng output, kinakailangan na lumipat mula sa mga direktang resulta ng mga sukat sa kanilang ranggo. Ang ranggo ay isinasagawa para sa bawat hilera nang hiwalay, iyon ay, ang mga halaga ay iniutos para sa bawat nakapirming halaga.

Ang Page test (L-test), na iminungkahi ng American statistician na si E. B. Page noong 1963, ay idinisenyo upang subukan ang null hypothesis. Para sa malalaking sample, ginagamit ang Page approximation. Sila, napapailalim sa katotohanan ng kaukulang null hypotheses, ay sumusunod sa karaniwang normal na pamamahagi. Sa kaso kapag ang mga hilera ng source table ay may parehong mga halaga, ito ay kinakailangan upang gamitin ang average na ranggo. Sa kasong ito, ang katumpakan ng mga konklusyon ay magiging mas masahol pa, mas malaki ang bilang ng naturang mga pagkakataon.

Q - Cochran's criterion, iminungkahi ni V. Cochran noong 1937. Ginagamit ito sa mga kaso kung saan ang mga grupo ng magkakatulad na paksa ay nalantad sa higit sa dalawang impluwensya at kung saan ang dalawang opsyon para sa mga pagsusuri ay posible - may kondisyon na negatibo (0) at may kondisyong positibo (1 ). Ang null hypothesis ay binubuo ng equality of influence effects. Ginagawang posible ng two-way analysis ng variance na matukoy ang pagkakaroon ng mga epekto sa pagpoproseso, ngunit hindi ginagawang posible upang matukoy kung aling mga column ang umiiral na epektong ito. Kapag nilulutas ang problemang ito, ginagamit ang paraan ng maramihang mga Scheffe equation para sa mga pinagsamang sample.

Multivariate analysis

Ang problema ng multivariate analysis ng variance ay lumitaw kapag kinakailangan upang matukoy ang impluwensya ng dalawa o higit pang mga kondisyon sa isang tiyak na random variable. Ang pag-aaral ay nagbibigay ng pagkakaroon ng isang umaasa na random na variable, na sinusukat sa isang sukat ng pagkakaiba o mga ratio, at ilang mga independiyenteng variable, na ang bawat isa ay ipinahayag sa isang sukat ng mga pangalan o sa isang ranggo na sukat. Ang pagsusuri sa pagpapakalat ng data ay isang medyo binuo na sangay ng mga istatistika ng matematika, na mayroong maraming mga pagpipilian. Ang konsepto ng pag-aaral ay karaniwan para sa parehong univariate at multivariate na pag-aaral. Ang kakanyahan nito ay nakasalalay sa katotohanan na ang kabuuang pagkakaiba ay nahahati sa mga bahagi, na tumutugma sa isang tiyak na pagpapangkat ng data. Ang bawat pagpapangkat ng data ay may sariling modelo. Dito ay isasaalang-alang lamang natin ang mga pangunahing probisyon na kinakailangan para sa pag-unawa at praktikal na paggamit ng mga pinakaginagamit nitong opsyon.

Ang pagsusuri ng pagkakaiba-iba ng mga kadahilanan ay nangangailangan ng isang medyo maingat na saloobin sa pagkolekta at pagtatanghal ng input data, at lalo na sa interpretasyon ng mga resulta. Sa kaibahan sa isang-factor, ang mga resulta na kung saan ay maaaring kondisyon na ilagay sa isang tiyak na pagkakasunud-sunod, ang mga resulta ng dalawang-factor ay nangangailangan ng isang mas kumplikadong pagtatanghal. Ang isang mas mahirap na sitwasyon ay lumitaw kapag mayroong tatlo, apat o higit pang mga pangyayari. Dahil dito, bihirang kasama sa modelo ang higit sa tatlo (apat) na kondisyon. Ang isang halimbawa ay ang paglitaw ng resonance sa isang tiyak na halaga ng capacitance at inductance ng electric circle; ang pagpapakita ng isang kemikal na reaksyon na may isang tiyak na hanay ng mga elemento kung saan itinayo ang sistema; ang paglitaw ng mga maanomalyang epekto sa mga kumplikadong sistema sa ilalim ng isang tiyak na pagkakataon ng mga pangyayari. Ang pagkakaroon ng pakikipag-ugnayan ay maaaring radikal na magbago ng modelo ng system at kung minsan ay humantong sa isang muling pag-iisip ng likas na katangian ng mga phenomena kung saan ang eksperimento ay nakikitungo.

Multivariate analysis ng variance na may paulit-ulit na mga eksperimento

Ang data ng pagsukat ay kadalasang maaaring ipangkat hindi sa dalawa, ngunit sa pamamagitan ng higit pang mga kadahilanan. Kaya, kung isasaalang-alang natin ang pagsusuri ng pagkakaiba-iba ng buhay ng serbisyo ng mga gulong para sa mga gulong ng trolleybus, na isinasaalang-alang ang mga pangyayari (tagagawa at ang ruta kung saan pinapatakbo ang mga gulong), kung gayon maaari nating makilala bilang isang hiwalay na kondisyon ang panahon kung saan ang ang mga gulong ay pinapatakbo (ibig sabihin: operasyon sa taglamig at tag-init). Bilang resulta, magkakaroon tayo ng problema sa three-factor na pamamaraan.

Sa pagkakaroon ng higit pang mga kundisyon, ang diskarte ay kapareho ng sa two-way analysis. Sa lahat ng kaso, sinusubukan ng modelo na gawing simple. Ang kababalaghan ng pakikipag-ugnayan ng dalawang salik ay hindi madalas na lumilitaw, at ang triple na pakikipag-ugnayan ay nangyayari lamang sa mga pambihirang kaso. Isama ang mga pakikipag-ugnayan kung saan mayroong nakaraang impormasyon at magandang dahilan upang isaalang-alang ito sa modelo. Ang proseso ng paghihiwalay ng mga indibidwal na salik at pagsasaalang-alang sa mga ito ay medyo simple. Samakatuwid, kadalasan ay may pagnanais na i-highlight ang higit pang mga pangyayari. Hindi ka dapat madala dito. Kung mas maraming kundisyon, nagiging hindi gaanong maaasahan ang modelo at mas malaki ang posibilidad na magkamali. Ang modelo mismo, na kinabibilangan ng malaking bilang ng mga independiyenteng variable, ay nagiging medyo mahirap bigyang-kahulugan at hindi maginhawa para sa praktikal na paggamit.

Pangkalahatang ideya ng pagsusuri ng pagkakaiba-iba

Ang pagsusuri ng pagkakaiba-iba sa mga istatistika ay isang paraan ng pagkuha ng mga resulta ng pagmamasid na nakasalalay sa iba't ibang magkakasabay na mga pangyayari at pagtatasa ng kanilang impluwensya. Ang isang kinokontrol na variable na tumutugma sa paraan ng impluwensya sa bagay ng pag-aaral at nakakakuha ng isang tiyak na halaga sa isang tiyak na tagal ng panahon ay tinatawag na isang kadahilanan. Maaari silang maging qualitative at quantitative. Ang mga antas ng quantitative na kondisyon ay nakakakuha ng isang tiyak na halaga sa isang numerical scale. Ang mga halimbawa ay temperatura, presyon ng pagpindot, dami ng sangkap. Ang mga kadahilanan ng husay ay iba't ibang mga sangkap, iba't ibang mga teknolohikal na pamamaraan, mga kagamitan, mga tagapuno. Ang kanilang mga antas ay tumutugma sa sukat ng mga pangalan.

Kasama rin sa kalidad ang uri ng materyal sa packaging, ang mga kondisyon ng imbakan ng form ng dosis. Makatwiran din na isama ang antas ng paggiling ng mga hilaw na materyales, ang fractional na komposisyon ng mga butil, na may quantitative value, ngunit mahirap i-regulate, kung ang isang quantitative scale ay ginagamit. Ang bilang ng mga kadahilanan ng kalidad ay nakasalalay sa uri ng form ng dosis, pati na rin ang pisikal at teknolohikal na mga katangian ng mga panggamot na sangkap. Halimbawa, ang mga tablet ay maaaring makuha mula sa mga kristal na sangkap sa pamamagitan ng direktang compression. Sa kasong ito, sapat na upang isagawa ang pagpili ng mga sliding at lubricating agent.

Mga halimbawa ng mga salik ng kalidad para sa iba't ibang uri ng mga form ng dosis

  • Mga tincture. Ang komposisyon ng extractant, uri ng extractor, paraan ng paghahanda ng hilaw na materyal, paraan ng produksyon, paraan ng pagsasala.
  • Mga extract (likido, makapal, tuyo). Ang komposisyon ng extractant, ang paraan ng pagkuha, ang uri ng pag-install, ang paraan ng pag-alis ng extractant at ballast substance.
  • Pills. Komposisyon ng mga excipients, fillers, disintegrants, binders, lubricants at lubricants. Ang paraan ng pagkuha ng mga tablet, ang uri ng teknolohikal na kagamitan. Uri ng shell at mga bahagi nito, film forms, pigments, dyes, plasticizers, solvents.
  • mga solusyon sa iniksyon. Uri ng solvent, paraan ng pagsasala, likas na katangian ng mga stabilizer at preservative, mga kondisyon ng isterilisasyon, paraan ng pagpuno ng mga ampoules.
  • Mga suppositories. Ang komposisyon ng suppository base, ang paraan ng pagkuha ng suppositories, fillers, packaging.
  • Mga pamahid. Ang komposisyon ng base, mga bahagi ng istruktura, paraan ng paghahanda ng pamahid, uri ng kagamitan, packaging.
  • Mga kapsula. Uri ng materyal ng shell, paraan ng pagkuha ng mga kapsula, uri ng plasticizer, pang-imbak, pangulay.
  • Liniments. Paraan ng produksyon, komposisyon, uri ng kagamitan, uri ng emulsifier.
  • Mga pagsususpinde. Uri ng solvent, uri ng stabilizer, paraan ng pagpapakalat.

Mga halimbawa ng mga salik ng kalidad at ang kanilang mga antas na pinag-aralan sa proseso ng paggawa ng tablet

  • Baking powder. Potato starch, puting luad, pinaghalong sodium bikarbonate na may citric acid, basic magnesium carbonate.
  • nagbubuklod na solusyon. Tubig, starch paste, sugar syrup, methylcellulose solution, hydroxypropyl methylcellulose solution, polyvinylpyrrolidone solution, polyvinyl alcohol solution.
  • sliding substance. Aerosil, almirol, talc.
  • tagapuno. Asukal, glucose, lactose, sodium chloride, calcium phosphate.
  • Lubricant. Stearic acid, polyethylene glycol, paraffin.

Mga modelo ng dispersion analysis sa pag-aaral ng antas ng competitiveness ng estado

Ang isa sa pinakamahalagang pamantayan para sa pagtatasa ng estado ng estado, na ginagamit upang masuri ang antas ng kapakanan at pag-unlad ng socio-economic nito, ay ang pagiging mapagkumpitensya, iyon ay, isang hanay ng mga katangian na likas sa pambansang ekonomiya na tumutukoy sa kakayahan ng ang estado upang makipagkumpitensya sa ibang mga bansa. Matapos matukoy ang lugar at papel ng estado sa merkado ng mundo, posible na magtatag ng isang malinaw na diskarte para sa pagtiyak ng seguridad sa ekonomiya sa isang pang-internasyonal na sukat, dahil ito ang susi sa positibong relasyon sa pagitan ng Russia at lahat ng mga manlalaro sa merkado ng mundo: mga namumuhunan , mga nagpapautang, mga pamahalaan ng estado.

Upang ihambing ang antas ng pagiging mapagkumpitensya ng mga estado, niraranggo ang mga bansa gamit ang mga kumplikadong indeks, na kinabibilangan ng iba't ibang mga weighted indicator. Ang mga indeks na ito ay batay sa mga pangunahing salik na nakakaapekto sa sitwasyong pang-ekonomiya, pampulitika, atbp. Ang kumplikado ng mga modelo para sa pag-aaral ng pagiging mapagkumpitensya ng estado ay nagbibigay para sa paggamit ng mga pamamaraan ng multidimensional na pagtatasa ng istatistika (sa partikular, ito ay isang pagsusuri ng pagkakaiba-iba (mga istatistika), pagmomolde ng ekonomiya, paggawa ng desisyon) at kasama ang mga sumusunod na pangunahing yugto:

  1. Pagbuo ng isang sistema ng mga tagapagpahiwatig-tagapagpahiwatig.
  2. Pagsusuri at pagtataya ng mga tagapagpahiwatig ng pagiging mapagkumpitensya ng estado.
  3. Paghahambing ng mga tagapagpahiwatig-mga tagapagpahiwatig ng pagiging mapagkumpitensya ng mga estado.

At ngayon isaalang-alang natin ang nilalaman ng mga modelo ng bawat isa sa mga yugto ng kumplikadong ito.

Sa unang yugto gamit ang mga pamamaraan ng pag-aaral ng dalubhasa, nabuo ang isang makatwirang hanay ng mga tagapagpahiwatig ng ekonomiya-mga tagapagpahiwatig para sa pagtatasa ng pagiging mapagkumpitensya ng estado, na isinasaalang-alang ang mga detalye ng pag-unlad nito batay sa mga internasyonal na rating at data mula sa mga kagawaran ng istatistika, na sumasalamin sa estado ng system sa kabuuan at sa mga proseso nito. Ang pagpili ng mga tagapagpahiwatig na ito ay nabibigyang katwiran sa pamamagitan ng pangangailangan na piliin ang mga pinaka-ganap, mula sa punto ng view ng pagsasanay, ay nagbibigay-daan upang matukoy ang antas ng estado, ang pagiging kaakit-akit nito sa pamumuhunan at ang posibilidad ng kamag-anak na lokalisasyon ng umiiral na potensyal at aktwal na mga banta.

Ang mga pangunahing tagapagpahiwatig-tagapagpahiwatig ng mga internasyonal na sistema ng rating ay mga indeks:

  1. Global Competitiveness (GCC).
  2. Economic freedom (IES).
  3. Human Development (HDI).
  4. Perceptions of Corruption (CPI).
  5. Panloob at panlabas na mga banta (IVZZ).
  6. Potensyal para sa Internasyonal na Impluwensiya (IPIP).

Pangalawang yugto nagbibigay para sa pagtatasa at pagtataya ng mga tagapagpahiwatig ng pagiging mapagkumpitensya ng estado ayon sa mga internasyonal na rating para sa pinag-aralan na 139 na estado ng mundo.

Ikatlong yugto nagbibigay para sa isang paghahambing ng mga kondisyon para sa pagiging mapagkumpitensya ng mga estado gamit ang mga pamamaraan ng ugnayan at pagsusuri ng regression.

Gamit ang mga resulta ng pag-aaral, posibleng matukoy ang likas na katangian ng mga proseso sa pangkalahatan at para sa mga indibidwal na bahagi ng pagiging mapagkumpitensya ng estado; subukan ang hypothesis tungkol sa impluwensya ng mga salik at ang kanilang kaugnayan sa naaangkop na antas ng kahalagahan.

Ang pagpapatupad ng iminungkahing hanay ng mga modelo ay magbibigay-daan hindi lamang upang masuri ang kasalukuyang sitwasyon ng antas ng pagiging mapagkumpitensya at pagiging kaakit-akit sa pamumuhunan ng mga estado, ngunit din upang pag-aralan ang mga pagkukulang ng pamamahala, maiwasan ang mga pagkakamali ng mga maling desisyon, at maiwasan ang pagbuo ng isang krisis. sa estado.

Ang pagsusuri ng pagkakaiba-iba ay isang istatistikal na pamamaraan para sa pagtatasa ng kaugnayan sa pagitan ng kadahilanan at mga katangian ng pagganap sa iba't ibang mga grupo, pinili nang sapalaran, batay sa pagpapasiya ng mga pagkakaiba (pagkakaiba-iba) sa mga halaga ng mga katangian. Ang pagsusuri ng pagkakaiba-iba ay batay sa pagsusuri ng mga paglihis ng lahat ng mga yunit ng pinag-aralan na populasyon mula sa arithmetic mean. Bilang sukatan ng mga deviations, ang dispersion (B) ay kinuha - ang average na square ng deviations. Ang mga deviation na dulot ng impluwensya ng isang factor attribute (factor) ay inihahambing sa magnitude ng deviations na dulot ng random na mga pangyayari. Kung ang mga deviations na dulot ng factor attribute ay mas makabuluhan kaysa sa random deviations, kung gayon ang factor ay itinuturing na may malaking epekto sa resultang attribute.

Upang makalkula ang pagkakaiba-iba ng halaga ng paglihis ng bawat opsyon (bawat nakarehistrong numerical value ng attribute) mula sa arithmetic mean, squared. Aalisin nito ang mga negatibong palatandaan. Pagkatapos ang mga paglihis na ito (mga pagkakaiba) ay summed up at hinati sa bilang ng mga obserbasyon, i.e. average out deviations. Kaya, ang mga halaga ng pagpapakalat ay nakuha.

Ang isang mahalagang metodolohikal na halaga para sa aplikasyon ng pagsusuri ng pagkakaiba ay ang tamang pagbuo ng sample. Depende sa layunin at layunin, ang mga piling grupo ay maaaring random na mabuo nang nakapag-iisa sa isa't isa (kontrol at mga eksperimentong grupo upang pag-aralan ang ilang tagapagpahiwatig, halimbawa, ang epekto ng mataas na presyon ng dugo sa pagbuo ng stroke). Ang ganitong mga sample ay tinatawag na independyente.

Kadalasan, ang mga resulta ng pagkakalantad sa mga kadahilanan ay pinag-aralan sa parehong sample na grupo (halimbawa, sa parehong mga pasyente) bago at pagkatapos ng pagkakalantad (paggamot, pag-iwas, mga hakbang sa rehabilitasyon), ang mga naturang sample ay tinatawag na dependent.

Ang pagsusuri ng pagkakaiba, kung saan sinusuri ang impluwensya ng isang salik, ay tinatawag na one-factor analysis (univariate analysis). Kapag pinag-aaralan ang impluwensya ng higit sa isang salik, ginagamit ang multivariate analysis ng variance (multivariate analysis).

Ang mga senyales ng salik ay ang mga palatandaang nakakaapekto sa hindi pangkaraniwang bagay na pinag-aaralan.

Ang mga mabisang palatandaan ay ang mga palatandaang nagbabago sa ilalim ng impluwensya ng mga palatandaan ng kadahilanan.

Mga kondisyon para sa paggamit ng pagsusuri ng pagkakaiba-iba:

Ang gawain ng pag-aaral ay upang matukoy ang lakas ng impluwensya ng isa (hanggang 3) mga kadahilanan sa resulta o upang matukoy ang lakas ng pinagsamang impluwensya ng iba't ibang mga kadahilanan (kasarian at edad, pisikal na aktibidad at nutrisyon, atbp.).

Ang pinag-aralan na mga kadahilanan ay dapat na independyente (walang kaugnayan) sa bawat isa. Halimbawa, hindi maaaring pag-aralan ang pinagsamang epekto ng karanasan sa trabaho at edad, taas at bigat ng mga bata, atbp. sa saklaw ng populasyon.

Ang pagpili ng mga pangkat para sa pag-aaral ay isinasagawa nang sapalaran (random na pagpili). Ang organisasyon ng isang dispersion complex na may pagpapatupad ng prinsipyo ng random na pagpili ng mga pagpipilian ay tinatawag na randomization (isinalin mula sa Ingles - random), i.e. pinili nang random.

Maaaring gamitin ang parehong quantitative at qualitative (attributive) na mga feature.

Kapag nagsasagawa ng isang one-way na pagsusuri ng pagkakaiba-iba, inirerekomenda (kinakailangang kondisyon para sa aplikasyon):

1. Ang normalidad ng distribusyon ng mga nasuri na grupo o ang pagsusulatan ng mga sample na grupo sa pangkalahatang populasyon na may normal na distribusyon.

2. Kasarinlan (non-connectedness) ng pamamahagi ng mga obserbasyon sa mga pangkat.

3. Pagkakaroon ng dalas (recurrence) ng mga obserbasyon.

Una, ang isang null hypothesis ay nabuo, iyon ay, ipinapalagay na ang mga kadahilanan sa ilalim ng pag-aaral ay walang anumang epekto sa mga halaga ng nagresultang katangian at ang mga nagresultang pagkakaiba ay random.

Pagkatapos ay tinutukoy namin kung ano ang posibilidad na makuha ang naobserbahan (o mas malakas) na mga pagkakaiba, sa kondisyon na ang null hypothesis ay totoo.

Kung maliit ang posibilidad na ito, tinatanggihan namin ang null hypothesis at ipagpalagay na ang mga resulta ng pag-aaral ay makabuluhan ayon sa istatistika. Hindi pa ito nangangahulugan na ang epekto ng pinag-aralan na mga salik ay napatunayan na (pangunahin ito sa pagpaplano ng pananaliksik), ngunit hindi pa rin malamang na ang resulta ay dahil sa pagkakataon.

Kapag ang lahat ng mga kondisyon para sa paglalapat ng pagsusuri ng pagkakaiba ay natugunan, ang agnas ng kabuuang pagkakaiba ay mathematically ganito ang hitsura:

Dotot. = Dfact + D pahinga.,

Dotot. - ang kabuuang pagkakaiba-iba ng mga sinusunod na halaga (variant), na nailalarawan sa pamamagitan ng pagkalat ng variant mula sa kabuuang average. Sinusukat ang pagkakaiba-iba ng isang katangian sa buong populasyon sa ilalim ng impluwensya ng lahat ng mga salik na naging sanhi ng pagkakaiba-iba na ito. Ang pangkalahatang pagkakaiba-iba ay binubuo ng intergroup at intragroup;

Dfact - factorial (intergroup) dispersion, na nailalarawan sa pamamagitan ng pagkakaiba sa mga average sa bawat grupo at depende sa impluwensya ng pinag-aralan na kadahilanan, ayon sa kung saan ang bawat grupo ay naiba. Halimbawa, sa mga grupo ng iba't ibang etiological na kadahilanan ng klinikal na kurso ng pulmonya, ang average na antas ng ginugol na bed-day ay hindi pareho - ang pagkakaiba-iba ng intergroup ay sinusunod.

D magpahinga. - residual (intragroup) variance, na nagpapakilala sa dispersion ng variant sa loob ng mga grupo. Sumasalamin sa random na pagkakaiba-iba, i.e. bahagi ng pagkakaiba-iba na nangyayari sa ilalim ng impluwensya ng hindi natukoy na mga salik at hindi nakadepende sa katangian - ang salik na pinagbabatayan ng pagpapangkat. Ang pagkakaiba-iba ng katangiang pinag-aaralan ay nakasalalay sa lakas ng impluwensya ng ilang hindi natukoy na random na mga salik, kapwa sa organisado (ibinigay ng mananaliksik) at random (hindi alam) na mga salik.

Samakatuwid, ang kabuuang variation (dispersion) ay binubuo ng variation na dulot ng organisado (given) na mga salik, na tinatawag na factorial variation at unorganized na mga salik, i.e. natitirang pagkakaiba-iba (random, hindi alam).

Para sa sample na laki ng n, ang sample na variance ay kinakalkula bilang ang kabuuan ng mga squared deviations mula sa sample mean na hinati ng n-1 (sample size minus one). Kaya, sa isang nakapirming laki ng sample n, ang pagkakaiba ay isang function ng kabuuan ng mga parisukat (mga deviations), na tinutukoy, para sa kaiklian, SS (mula sa English Sum of Squares - Sum of Squares). Sa mga sumusunod, madalas naming inaalis ang salitang "pumipili", alam na alam namin na isinasaalang-alang namin ang isang sample na pagkakaiba o isang pagtatantya ng pagkakaiba. Ang pagsusuri ng pagkakaiba ay batay sa paghahati ng pagkakaiba sa mga bahagi o bahagi. Isaalang-alang ang sumusunod na dataset:

Ang paraan ng dalawang grupo ay makabuluhang naiiba (2 at 6, ayon sa pagkakabanggit). Ang kabuuan ng mga squared deviations sa loob ng bawat pangkat ay 2. Kapag idinagdag ang mga ito nang magkasama, makakakuha tayo ng 4. Kung uulitin natin ngayon ang mga kalkulasyong ito nang hindi isinasaalang-alang ang membership ng grupo, iyon ay, kung kalkulahin natin ang SS batay sa kabuuang average ng dalawang sample na ito, nakakakuha tayo ng value na 28. Sa madaling salita, ang variance (sum squares) batay sa within-group variability ay nagreresulta sa mas mababang halaga kaysa sa mga kinakalkula batay sa total variability (relative to the overall mean). Ang dahilan para dito ay malinaw na ang makabuluhang pagkakaiba sa pagitan ng mga paraan, at ang pagkakaiba sa pagitan ng mga paraan ay nagpapaliwanag ng umiiral na pagkakaiba sa pagitan ng mga kabuuan ng mga parisukat.

SS St. St. MS F p
Epekto 24.0 24.0 24.0 .008
Pagkakamali 4.0 1.0

Tulad ng makikita mula sa talahanayan, ang kabuuang kabuuan ng mga parisukat SS = 28 ay nahahati sa mga bahagi: ang kabuuan ng mga parisukat dahil sa pagkakaiba-iba sa loob ng pangkat (2+2=4; tingnan ang pangalawang hilera ng talahanayan) at ang kabuuan ng mga parisukat dahil sa pagkakaiba sa mga paraan sa pagitan ng mga pangkat (28-(2+ 2)=24; tingnan ang unang linya ng talahanayan). Tandaan na ang MS sa talahanayang ito ay ang mean square na katumbas ng SS na hinati sa bilang ng mga degree ng kalayaan (stdf).

Sa simpleng halimbawa sa itaas, maaari mong agad na kalkulahin ang t-test para sa mga independiyenteng sample. Ang mga resulta na nakuha, siyempre, ay nag-tutugma sa mga resulta ng pagsusuri ng pagkakaiba-iba.

Gayunpaman, ang mga sitwasyon kung saan ang ilang kababalaghan ay ganap na inilalarawan ng isang variable ay napakabihirang. Halimbawa, kung sinusubukan nating matutunan kung paano palaguin ang malalaking kamatis, dapat nating isaalang-alang ang mga salik na nauugnay sa genetic na istraktura ng mga halaman, uri ng lupa, liwanag, temperatura, atbp. Kaya, kapag nagsasagawa ng isang tipikal na eksperimento, kailangan mong harapin ang isang malaking bilang ng mga kadahilanan. Ang pangunahing dahilan kung bakit mas mainam ang paggamit ng ANOVA sa muling paghahambing ng dalawang sample sa magkaibang antas ng salik gamit ang t-test series ay ang ANOVA ay higit na mahusay at, para sa maliliit na sample, mas nagbibigay kaalaman.

Ipagpalagay na sa dalawang-sample na halimbawa ng pagsusuri na tinalakay sa itaas, nagdagdag kami ng isa pang salik, tulad ng Kasarian. Hayaang ang bawat pangkat ay binubuo na ngayon ng 3 lalaki at 3 babae. Ang plano ng eksperimentong ito ay maaaring ipakita sa anyo ng isang talahanayan:

Bago gawin ang mga kalkulasyon, makikita mo na sa halimbawang ito, ang kabuuang pagkakaiba ay may hindi bababa sa tatlong pinagmulan:

1) random na error (pagkakaiba-iba ng intragroup),

2) pagkakaiba-iba na nauugnay sa pag-aari sa eksperimentong grupo

3) pagkakaiba-iba dahil sa kasarian ng mga bagay ng pagmamasid.

Tandaan na mayroong isa pang posibleng mapagkukunan ng pagkakaiba-iba - ang pakikipag-ugnayan ng mga kadahilanan, na tatalakayin natin sa ibang pagkakataon). Ano ang mangyayari kung hindi namin isasama ang kasarian bilang salik sa aming pagsusuri at kalkulahin ang karaniwang t-test? Kung kalkulahin natin ang mga kabuuan ng mga parisukat na binabalewala ang kasarian (ibig sabihin, pagsasama-sama ng mga bagay ng iba't ibang kasarian sa isang pangkat kapag kinakalkula ang pagkakaiba-iba sa loob ng grupo at sa gayon ay nakukuha ang kabuuan ng mga parisukat para sa bawat pangkat na katumbas ng SS = 10 at ang kabuuang kabuuan ng mga parisukat SS = 10+10 = 20), nakakakuha tayo ng mas malaking pagkakaiba-iba ng intragroup kaysa sa mas tumpak na pagsusuri na may karagdagang subgrouping ayon sa kasarian (sa kasong ito, ang ibig sabihin ng intragroup ay magiging katumbas ng 2, at ang kabuuang intragroup na kabuuan ng mga parisukat ay katumbas ng SS = 2+2 +2+2 = 8).

Kaya, sa pagpapakilala ng isang karagdagang kadahilanan: kasarian, ang natitirang pagkakaiba ay nabawasan. Ito ay dahil ang ibig sabihin ng lalaki ay mas maliit kaysa sa ibig sabihin ng babae, at ang pagkakaibang ito sa ibig sabihin ay nagpapataas ng pangkalahatang pagkakaiba-iba sa loob ng grupo kung hindi isinasaalang-alang ang kasarian. Ang pagkontrol sa pagkakaiba-iba ng error ay nagpapataas ng sensitivity (kapangyarihan) ng pagsubok.

Ang halimbawang ito ay nagpapakita ng isa pang bentahe ng pagsusuri ng variance kumpara sa karaniwang two-sample t-test. Ang pagsusuri ng pagkakaiba ay nagpapahintulot sa iyo na pag-aralan ang bawat kadahilanan sa pamamagitan ng pagkontrol sa mga halaga ng iba pang mga kadahilanan. Ito, sa katunayan, ang pangunahing dahilan para sa mas malaking istatistikal na kapangyarihan nito (ang mga mas maliliit na laki ng sample ay kinakailangan upang makakuha ng makabuluhang mga resulta). Para sa kadahilanang ito, ang pagsusuri ng pagkakaiba-iba, kahit na sa maliliit na sample, ay nagbibigay sa istatistika ng mas makabuluhang mga resulta kaysa sa isang simpleng t-test.

) ay idinisenyo upang ihambing lamang ang dalawang populasyon. Gayunpaman, madalas itong maling ginagamit para sa pairwise na paghahambing ng higit pang mga grupo (Fig. 1), na nagiging sanhi ng tinatawag na. epekto ng maraming paghahambing(Ingles) maramihang paghahambing; Glantz 1999, p. 101-104). Pag-uusapan natin ang epektong ito at kung paano ito haharapin sa ibang pagkakataon. Sa post na ito ay ilalarawan ko ang mga prinsipyo univariate analysis of variance dinisenyo lamang para sa sabay-sabay paghahambing ng mga average na halaga ng dalawa o higit pang mga grupo. Mga Prinsipyo ng ANOVA isang alysis o f va riance, ANOVA) ay binuo noong 1920s. Sir Ronald Aylmer Fisher Ronald Aylmer Fisher) - "isang henyo na halos nag-iisang naglatag ng mga pundasyon ng modernong istatistika" (Hald 1998).

Maaaring lumitaw ang tanong: bakit ginamit ang pamamaraan para sa paghahambing daluyan ang mga halaga ay tinatawag nagpapakalat pagsusuri? Ang bagay ay kapag nagtatatag ng pagkakaiba sa pagitan ng mga average na halaga, aktwal naming inihahambing ang mga pagkakaiba-iba ng mga nasuri na populasyon. Gayunpaman, una sa lahat...

Pagbubuo ng problema

Ang halimbawa sa ibaba ay kinuha mula sa aklat Maindonald & kayumanggi(2010). Available ang data ng timbang para sa mga kamatis (buong halaman; timbang , sa kg) na lumaki sa loob ng 2 buwan sa ilalim ng tatlong magkakaibang kundisyong pang-eksperimento (trt , mula sa paggamot) - sa tubig (tubig), sa isang kapaligiran na may pagdaragdag ng pataba (nutrient), pati na rin sa isang kapaligiran na may pagdaragdag ng pataba at herbicide 2,4-D (nutrient + 24D):

# Lumikha ng isang talahanayan na may data: kamatis<- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) # Tingnan ang resulta: Tubig Timbang 3 1.50 Tubig 4 1.50 Tubig 5 2.10 Nutrient 6 1.90 Nutrient 12 1.10 Nutrient 11 2.90 Nutrient 12 1.60 Nutrient 13 1.90 Nutrient + 24d 14 1.60 Nutrient + 24D 15 0.80 Nutrient+24D 16 1.15 Nutrient+24D 17 0.90 Nutrient+24D 18 1.60 Nutrient+24D


Ang variable na trt ay isang salik na may tatlong antas. Para sa isang mas visual na paghahambing ng mga pang-eksperimentong kondisyon sa hinaharap, gagawin namin ang antas ng "tubig" na base one (eng. sanggunian), ibig sabihin. ang antas kung saan ihahambing ng R ang lahat ng iba pang antas. Magagawa ito gamit ang relevel() function:


Upang mas mahusay na maunawaan ang mga katangian ng magagamit na data, nakikita namin ang mga ito gamit ang mga naobserbahang pagkakaiba sa pagitan ng mga paraan ng grupo ay hindi gaanong mahalaga at sanhi ng impluwensya ng mga random na kadahilanan (ibig sabihin, sa katunayan, ang lahat ng nakuhang mga sukat ng timbang ng halaman ay nagmumula sa isang karaniwang ipinamamahaging pangkalahatang populasyon) :

Muli naming binibigyang-diin na ang isinasaalang-alang na halimbawa ay tumutugma sa kaso isang salik pagsusuri ng pagkakaiba-iba: pinag-aaralan namin ang epekto ng isang kadahilanan - lumalagong mga kondisyon (na may tatlong antas - Tubig , Nutrient at Nutrient + 24D ) sa variable na tugon ng interes sa amin - ang bigat ng mga halaman.

Sa kasamaang palad, ang mananaliksik ay halos walang pagkakataon na pag-aralan ang buong populasyon. Paano natin malalaman kung ang null hypothesis sa itaas ay totoo na ibinigay lamang ang sample na data? Maaari nating sabihin ang tanong na ito sa ibang paraan: ano ang posibilidad na makakuha ng mga naobserbahang pagkakaiba sa pagitan ng ibig sabihin ng grupo sa pamamagitan ng pagguhit ng mga random na sample mula sa isang populasyon na karaniwang ipinamamahagi? Upang masagot ang tanong na ito, kailangan namin ng istatistikal na pagsusulit na mailalarawan sa dami ng laki ng mga pagkakaiba sa pagitan ng mga inihambing na grupo.