Ang rank correlation coefficient ng Spearman ay isang halimbawa ng paghahambing. Pagsusuri ng ugnayan ng Spearman

Sa mga kaso kung saan ang mga sukat ng pinag-aralan na mga katangian ay isinasagawa sa isang sukat ng pagkakasunud-sunod, o ang anyo ng relasyon ay naiiba mula sa isang linear, ang pag-aaral ng relasyon sa pagitan ng dalawang random na mga variable ay isinasagawa gamit ang mga koepisyent ng ugnayan ng ranggo. Isaalang-alang ang rank correlation coefficient ng Spearman. Kapag kinakalkula ito, kinakailangan na ranggo (pagkasunud-sunod) ang mga pagpipilian sa sample. Ang ranggo ay ang pagpapangkat ng pang-eksperimentong data sa isang tiyak na pagkakasunud-sunod, pataas man o pababa.

Ang operasyon ng pagraranggo ay isinasagawa ayon sa sumusunod na algorithm:

1. Ang isang mas mababang halaga ay itinalaga ng isang mas mababang ranggo. Ang pinakamataas na halaga ay itinalaga ng isang ranggo na naaayon sa bilang ng mga nararanggo na halaga. Ang pinakamababang halaga ay itinalaga ng isang ranggo na katumbas ng 1. Halimbawa, kung n=7, ang pinakamataas na halaga ay makakatanggap ng ranggo bilang 7, maliban sa mga kaso na ibinigay ng pangalawang panuntunan.

2. Kung ang ilang mga halaga ay pantay-pantay, kung gayon sila ay itinalaga ng isang ranggo, na siyang average ng mga ranggo na sana ay natanggap nila kung sila ay hindi pantay. Bilang halimbawa, isaalang-alang ang isang pataas na sample na binubuo ng 7 elemento: 22, 23, 25, 25, 25, 28, 30. Ang mga halagang 22 at 23 ay nangyayari nang isang beses, kaya ang kanilang mga ranggo ay ayon sa pagkakabanggit ay katumbas ng R22=1, at R23 =2 . Ang halagang 25 ay nangyayari nang 3 beses. Kung ang mga halagang ito ay hindi naulit, ang kanilang mga ranggo ay magiging katumbas ng 3, 4, 5. Samakatuwid, ang kanilang ranggo na R25 ay katumbas ng arithmetic mean ng 3, 4 at 5: . Ang mga halaga 28 at 30 ay hindi umuulit, kaya ang kanilang mga ranggo ay ayon sa pagkakabanggit R28=6 at R30=7. Sa wakas, mayroon kaming sumusunod na sulat:

3. Ang kabuuang halaga ng mga ranggo ay dapat tumugma sa kinakalkula, na tinutukoy ng formula:

kung saan ang n ay ang kabuuang bilang ng mga niraranggo na halaga.

Ang pagkakaiba sa pagitan ng aktwal at nakalkulang mga halaga ng mga ranggo ay magsasaad ng error na ginawa sa pagkalkula ng mga ranggo o sa kanilang pagbubuod. Sa kasong ito, kailangan mong hanapin at ayusin ang error.

Ang rank correlation coefficient ng Spearman ay isang paraan na nagbibigay-daan sa iyong matukoy ang lakas at direksyon ng relasyon sa pagitan ng dalawang feature o dalawang feature hierarchies. Ang paggamit ng rank correlation coefficient ay may bilang ng mga limitasyon:

  • a) Ang inaasahang ugnayan ay dapat na monotoniko.
  • b) Ang dami ng bawat isa sa mga sample ay dapat na mas malaki kaysa sa o katumbas ng 5. Upang matukoy ang pinakamataas na limitasyon ng sample, ang mga talahanayan ng mga kritikal na halaga ay ginagamit (Talahanayan 3 ng Appendix). Ang maximum na halaga ng n sa talahanayan ay 40.
  • c) Sa panahon ng pagsusuri, malamang na ang isang malaking bilang ng magkatulad na ranggo ay magaganap. Sa kasong ito, kailangang gumawa ng pagbabago. Ang pinaka-kanais-nais na kaso ay kapag ang parehong pinag-aralan na mga sample ay kumakatawan sa dalawang pagkakasunud-sunod ng mga hindi tugmang halaga.

Upang magsagawa ng pagsusuri ng ugnayan, ang mananaliksik ay dapat magkaroon ng dalawang sample na maaaring mai-rank, halimbawa:

  • - dalawang palatandaan na sinusukat sa parehong pangkat ng mga paksa;
  • - dalawang indibidwal na hierarchy ng katangian na natukoy sa dalawang paksa para sa parehong hanay ng mga katangian;
  • - dalawang pangkat na hierarchy ng mga katangian;
  • - indibidwal at pangkat na mga hierarchy ng mga palatandaan.

Sinisimulan namin ang pagkalkula sa pagraranggo ng mga pinag-aralan na tagapagpahiwatig nang hiwalay para sa bawat isa sa mga palatandaan.

Suriin natin ang isang kaso na may dalawang tampok na sinusukat sa parehong pangkat ng mga paksa. Una, ang mga indibidwal na halaga ay niraranggo ayon sa unang katangian na nakuha ng iba't ibang mga paksa, at pagkatapos ay ang mga indibidwal na halaga ayon sa pangalawang katangian. Kung ang mas mababang mga ranggo ng isang tagapagpahiwatig ay tumutugma sa mas mababang mga ranggo ng isa pang tagapagpahiwatig, at ang mas mataas na mga ranggo ng isang tagapagpahiwatig ay tumutugma sa mas mataas na mga ranggo ng isa pang tagapagpahiwatig, kung gayon ang dalawang mga tampok ay positibong nauugnay. Kung ang mas mataas na ranggo ng isang tagapagpahiwatig ay tumutugma sa mas mababang ranggo ng isa pang tagapagpahiwatig, kung gayon ang dalawang palatandaan ay negatibong nauugnay. Upang mahanap ang rs, tinutukoy namin ang mga pagkakaiba sa pagitan ng mga ranggo (d) para sa bawat paksa. Kung mas maliit ang pagkakaiba sa pagitan ng mga rank, mas malapit ang rank correlation coefficient rs sa "+1". Kung walang relasyon, kung gayon ay walang pagsusulatan sa pagitan nila, kaya ang rs ay magiging malapit sa zero. Kung mas malaki ang pagkakaiba sa pagitan ng mga ranggo ng mga paksa sa dalawang variable, mas malapit sa "-1" ang magiging halaga ng coefficient rs. Kaya, ang koepisyent ng ugnayan ng ranggo ng Spearman ay isang sukatan ng anumang monotonikong relasyon sa pagitan ng dalawang katangiang pinag-aaralan.

Isaalang-alang ang kaso na may dalawang indibidwal na hierarchy ng tampok na tinukoy sa dalawang paksa para sa parehong hanay ng mga tampok. Sa sitwasyong ito, ang mga indibidwal na halaga na nakuha ng bawat isa sa dalawang paksa ayon sa isang tiyak na hanay ng mga tampok ay niraranggo. Ang tampok na may pinakamababang halaga ay dapat italaga sa unang ranggo; ang katangian na may mas mataas na halaga - ang pangalawang ranggo, atbp. Dapat gawin ang pangangalaga upang matiyak na ang lahat ng mga katangian ay sinusukat sa parehong mga yunit. Halimbawa, imposibleng mag-ranggo ng mga tagapagpahiwatig kung ang mga ito ay ipinahayag sa mga punto ng iba't ibang "presyo", dahil imposibleng matukoy kung alin sa mga kadahilanan ang mauuna sa mga tuntunin ng kalubhaan hanggang ang lahat ng mga halaga ay dinadala sa isang solong sukat. Kung ang mga feature na may mababang rank sa isa sa mga subject ay may mababang rank din sa isa, at vice versa, ang mga indibidwal na hierarchy ay positibong nauugnay.

Sa kaso ng dalawang pangkat na hierarchy ng mga tampok, ang average na mga halaga ng pangkat na nakuha sa dalawang pangkat ng mga paksa ay niraranggo ayon sa parehong hanay ng mga tampok para sa mga pinag-aralan na grupo. Susunod, sinusunod namin ang algorithm na ibinigay sa mga nakaraang kaso.

Suriin natin ang kaso sa indibidwal at pangkat na hierarchy ng mga tampok. Nagsisimula sila sa hiwalay na pagraranggo ng mga indibidwal na halaga ng paksa at ang ibig sabihin ng mga halaga ng pangkat ayon sa parehong hanay ng mga tampok na nakuha, maliban sa paksa na hindi nakikilahok sa hierarchy ng mean group, dahil ang kanyang indibidwal ihahambing dito ang hierarchy. Ginagawang posible ng ugnayan ng ranggo na masuri ang antas ng pagkakapare-pareho sa pagitan ng indibidwal at pangkat na hierarchy ng mga tampok.

Isaalang-alang natin kung paano natutukoy ang kahalagahan ng koepisyent ng ugnayan sa mga kasong nakalista sa itaas. Sa kaso ng dalawang feature, matutukoy ito sa laki ng sample. Sa kaso ng dalawang indibidwal na hierarchy ng tampok, ang kahalagahan ay depende sa bilang ng mga tampok na kasama sa hierarchy. Sa huling dalawang kaso, ang kahalagahan ay tinutukoy ng bilang ng mga katangiang pinag-aralan, at hindi sa laki ng mga grupo. Kaya, ang kahalagahan ng rs sa lahat ng mga kaso ay tinutukoy ng bilang ng mga ranggo na halaga n.

Kapag sinusuri ang istatistikal na kahalagahan ng rs, ang mga talahanayan ng mga kritikal na halaga ng koepisyent ng ugnayan ng ranggo ay ginagamit, na pinagsama-sama para sa iba't ibang bilang ng mga ranggo na halaga at iba't ibang antas ng kahalagahan. Kung ang ganap na halaga ng rs ay umabot sa isang kritikal na halaga o lumampas dito, kung gayon ang ugnayan ay makabuluhan.

Kapag isinasaalang-alang ang unang opsyon (isang kaso na may dalawang tampok na sinusukat sa parehong pangkat ng mga paksa), posible ang mga sumusunod na hypotheses.

H0: Ang ugnayan sa pagitan ng mga variable na x at y ay hindi naiiba sa zero.

H1: Ang ugnayan sa pagitan ng mga variable na x at y ay makabuluhang naiiba mula sa zero.

Kung gagawin natin ang alinman sa tatlong natitirang mga kaso, kailangan nating maglagay ng isa pang pares ng mga hypotheses:

H0: Ang ugnayan sa pagitan ng x at y hierarchies ay nonzero.

H1: Ang ugnayan sa pagitan ng x at y hierarchies ay makabuluhang naiiba mula sa zero.

Ang pagkakasunod-sunod ng mga aksyon sa pagkalkula ng Spearman rank correlation coefficient rs ay ang mga sumusunod.

  • - Tukuyin kung aling dalawang feature o dalawang feature hierarchy ang lalahok sa pagtutugma bilang mga variable na x at y.
  • - I-rank ang mga halaga ng variable x, na nagtatalaga ng ranggo 1 sa pinakamaliit na halaga, ayon sa mga panuntunan sa pagraranggo. Ilagay ang mga ranggo sa unang hanay ng talahanayan sa pagkakasunud-sunod ng mga bilang ng mga paksa o mga palatandaan.
  • - Ranggo ang mga halaga ng variable y. Ilagay ang mga ranggo sa ikalawang hanay ng talahanayan sa pagkakasunud-sunod ng mga bilang ng mga paksa o mga palatandaan.
  • - Kalkulahin ang mga pagkakaiba d sa pagitan ng mga ranggo x at y para sa bawat hilera ng talahanayan. Ang mga resulta ay inilalagay sa susunod na hanay ng talahanayan.
  • - Kalkulahin ang mga parisukat na pagkakaiba (d2). Ilagay ang mga nakuhang halaga sa ikaapat na hanay ng talahanayan.
  • - Kalkulahin ang kabuuan ng mga parisukat ng mga pagkakaiba? d2.
  • - Kung magkakaroon ng parehong mga ranggo, kalkulahin ang mga pagwawasto:

kung saan ang tx ay ang dami ng bawat pangkat ng pantay na ranggo sa sample x;

Ang ty ay ang laki ng bawat pangkat ng pantay na ranggo sa sample y.

Kalkulahin ang rank correlation coefficient depende sa presensya o kawalan ng magkatulad na ranggo. Sa kawalan ng magkaparehong mga ranggo, ang ranggo ng koepisyent ng ugnayan rs ay kinakalkula gamit ang formula:

Sa pagkakaroon ng parehong mga ranggo, ang koepisyent ng ugnayan ng ranggo rs ay kinakalkula gamit ang formula:

saan?d2 ay ang kabuuan ng mga parisukat na pagkakaiba sa pagitan ng mga ranggo;

Tx at Ty - mga pagwawasto para sa parehong mga ranggo;

n ay ang bilang ng mga paksa o tampok na lumahok sa pagraranggo.

Tukuyin ang mga kritikal na halaga ng rs mula sa talahanayan 3 ng Appendix, para sa isang naibigay na bilang ng mga paksa n. Ang isang makabuluhang pagkakaiba mula sa zero ng koepisyent ng ugnayan ay mapapansin kung ang rs ay hindi bababa sa kritikal na halaga.

Ang pagsusuri ng ugnayan ay isang paraan na nagbibigay-daan sa iyo upang makita ang mga relasyon sa pagitan ng isang tiyak na bilang ng mga random na variable. Ang layunin ng pagsusuri ng ugnayan ay upang tukuyin ang isang pagtatantya ng lakas ng mga koneksyon sa pagitan ng mga random na variable o mga tampok na nagpapakilala sa ilang mga tunay na proseso.

Ngayon iminumungkahi naming isaalang-alang kung paano ginagamit ang pagsusuri ng ugnayan ng Spearman upang biswal na ipakita ang mga anyo ng koneksyon sa praktikal na kalakalan.

Spearman correlation o ang batayan ng pagsusuri ng ugnayan

Upang maunawaan kung ano ang pagsusuri ng ugnayan, dapat munang maunawaan ang konsepto ng ugnayan.

Kasabay nito, kung ang presyo ay nagsimulang lumipat sa direksyon na kailangan mo, kinakailangan upang i-unblock ang mga posisyon sa oras.


Para sa diskarteng ito, na batay sa pagsusuri ng ugnayan, mga instrumento sa pangangalakal na may mataas na antas ng ugnayan (EUR/USD at GBP/USD, EUR/AUD at EUR/NZD, AUD/USD at NZD/USD, mga kontrata ng CFD, atbp.) .

Video: Paglalapat ng Spearman Correlation sa Forex Market

37. Koepisyent ng ugnayan ng ranggo ng Spearman.

S. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Ginagamit ang rank correlation coefficient ng Spearman kapag:
- may mga variable iskala ng pagraranggo mga sukat;
- masyadong naiiba ang pamamahagi ng data sa normal o hindi man lang kilala
- maliit ang mga sample (N< 30).

Ang interpretasyon ng koepisyent ng ugnayan ng ranggo ng Spearman ay hindi naiiba sa koepisyent ng Pearson, ngunit ang kahulugan nito ay medyo naiiba. Upang maunawaan ang pagkakaiba sa pagitan ng mga pamamaraang ito at lohikal na patunayan ang mga bahagi ng kanilang aplikasyon, ihambing natin ang kanilang mga formula.

Pearson correlation coefficient:

Koepisyent ng ugnayan ng Spearman:

Tulad ng nakikita mo, ang mga formula ay naiiba nang malaki. Paghambingin ang mga Formula

Ang pormula ng ugnayan ng Pearson ay gumagamit ng arithmetic mean at standard deviation ng magkakaugnay na serye, habang ang Spearman formula ay hindi. Kaya, upang makakuha ng sapat na resulta ayon sa pormula ng Pearson, kinakailangan na ang magkakaugnay na serye ay malapit sa normal na distribusyon (ang ibig sabihin at karaniwang paglihis ay normal na mga parameter ng pamamahagi). Para sa formula ng Spearman, hindi ito nauugnay.

Ang isang elemento ng formula ni Pearson ay ang standardisasyon ng bawat serye sa z-score.

Tulad ng nakikita mo, ang conversion ng mga variable sa Z-scale ay naroroon sa Pearson correlation coefficient formula. Alinsunod dito, para sa koepisyent ng Pearson, ang sukat ng data ay ganap na walang kaugnayan: halimbawa, maaari nating iugnay ang dalawang variable, ang isa ay may min. = 0 at max. = 1, at ang pangalawang min. = 100 at max. = 1000. Gaano man kaiba ang hanay ng mga halaga, lahat sila ay mako-convert sa mga karaniwang z-values ​​​​na may parehong sukat.

Walang ganoong normalisasyon sa Spearman coefficient, kaya

ISANG MANDATORYONG KUNDISYON PARA SA PAGGAMIT NG SPEERMAN COEFFICIENT AY ANG PANTAY NG RANGE NG DALAWANG VARIABLE.

Bago gamitin ang koepisyent ng Spearman para sa serye ng data na may iba't ibang saklaw, kinakailangan na ranggo. Ang pagraranggo ay humahantong sa katotohanan na ang mga halaga ng mga seryeng ito ay nakakakuha ng parehong minimum = 1 (minimum na ranggo) at isang maximum na katumbas ng bilang ng mga halaga (maximum, huling ranggo = N, ibig sabihin, ang maximum na bilang ng mga kaso sa sample).

Sa anong mga kaso posible na gawin nang walang pagraranggo

Ito ang mga kaso kung saan orihinal ang data iskala ng pagraranggo. Halimbawa, ang Rokeach value orientations test.

Gayundin, ang mga ito ay mga kaso kung saan ang bilang ng mga pagpipilian sa halaga ay maliit at may mga nakapirming minimum at maximum sa sample. Halimbawa, sa semantic differential, minimum = 1, maximum = 7.

Isang halimbawa ng pagkalkula ng koepisyent ng ugnayan ng ranggo ng Spearman

Isinagawa ang value orientations test ng Rokeach sa dalawang sample na X at Y. Gawain: upang malaman kung gaano kalapit ang mga hierarchies ng halaga ng mga sample na ito (sa literal, kung gaano sila magkatulad).

Ang resultang halaga r=0.747 ay sinusuri laban sa talahanayan ng kritikal na halaga. Ayon sa talahanayan, sa N=18, ang nakuhang halaga ay maaasahan sa antas ng p<=0,005

Ranggo ng mga koepisyent ng ugnayan ayon kay Spearman at Kendal

Para sa mga variable na kabilang sa ordinal scale o para sa mga variable na hindi sumusunod sa isang normal na distribution, gayundin para sa mga variable na kabilang sa interval scale, ang rank correlation ng Spearman ay kinakalkula sa halip na ang Pearson coefficient. Upang gawin ito, ang mga indibidwal na halaga ng mga variable ay itinalaga sa mga lugar ng pagraranggo, na kasunod na pinoproseso gamit ang naaangkop na mga formula. Para ipakita ang rank correlation, alisan ng check ang default na Pearson correlation check box sa Bivariate Correlations... dialog box. Sa halip, i-activate ang pagkalkula ng ugnayan ng Spearman. Ang pagkalkulang ito ay magbibigay ng mga sumusunod na resulta. Ang mga koepisyent ng ugnayan ng ranggo ay napakalapit sa kaukulang mga halaga ng mga coefficient ng Pearson (ang mga orihinal na variable ay may normal na pamamahagi).

titkova-matmetody.pdf p. 45

Ang paraan ng ugnayan ng ranggo ng Spearman ay nagpapahintulot sa iyo na matukoy ang higpit (lakas) at direksyon

ugnayan sa pagitan ng dalawang palatandaan o dalawang profile (hierarchies) palatandaan.

Upang makalkula ang ugnayan ng ranggo, kinakailangan na magkaroon ng dalawang serye ng mga halaga,

na maaaring i-rank. Ang mga hanay ng mga halagang ito ay maaaring:

1) dalawang palatandaan sinusukat sa pareho pangkat mga paksa ng pagsusulit;

2) dalawang indibidwal na hierarchy ng tampok, nakilala sa dalawang paksa para sa pareho

isang hanay ng mga tampok;

3) dalawa pangkat hierarchies ng mga tampok,

4) indibidwal at pangkat hierarchy ng tampok.

Una, ang mga tagapagpahiwatig ay hiwalay na niraranggo para sa bawat isa sa mga tampok.

Bilang isang patakaran, ang isang mas mababang halaga ng isang tampok ay itinalaga ng isang mas mababang ranggo.

Sa unang kaso (dalawang tampok), ang mga indibidwal na halaga ay niraranggo ayon sa una

katangian na nakuha ng iba't ibang mga paksa, at pagkatapos ay mga indibidwal na halaga para sa pangalawa

tanda.

Kung ang dalawang palatandaan ay positibong nauugnay, ang mga paksang may mababang ranggo ay nasa

ang isa sa kanila ay magkakaroon ng mababang ranggo sa isa pa, at ang mga paksang may mataas na ranggo sa

ang isa sa mga katangian ay magkakaroon din ng mataas na ranggo sa kabilang katangian. Para sa pagbibilang ng rs

ito ay kinakailangan upang matukoy ang mga pagkakaiba (d) sa pagitan ng mga ranggo na nakuha ng mga paksang ito sa pareho

palatandaan. Pagkatapos ang mga tagapagpahiwatig na ito ay binabago sa isang tiyak na paraan at ibinabawas sa 1. Kaysa

mas maliit ang pagkakaiba sa pagitan ng mga ranggo, mas malaki ang magiging rs, mas malapit ito sa +1.

Kung walang ugnayan, lahat ng ranggo ay magkakahalo at walang

walang tugma. Ang formula ay idinisenyo upang sa kasong ito ang rs ay magiging malapit sa 0.

Sa kaso ng negatibong ugnayan mababang ranggo ng mga paksa sa isang batayan

ay tumutugma sa mataas na ranggo sa isa pang katangian, at kabaliktaran. Ang mas mismatch

sa pagitan ng mga ranggo ng mga paksa sa dalawang variable, ang mas malapit na rs ay sa -1.

Sa pangalawang kaso (dalawang indibidwal na profile), indibidwal

mga halaga na nakuha ng bawat isa sa 2 paksa ayon sa isang tiyak (pareho para sa kanila

pareho) isang hanay ng mga tampok. Ang unang ranggo ay makakatanggap ng katangian na may pinakamababang halaga; pangalawang ranggo -

isang tanda na may mas mataas na halaga, atbp. Malinaw, ang lahat ng mga tampok ay dapat masukat sa

ang parehong mga yunit, kung hindi, ang pagraranggo ay imposible. Halimbawa, imposible

ranggo ang mga indicator ayon sa Cattell Personality Questionnaire (16PF), kung ang mga ito ay ipinahayag sa

"raw" na mga marka, dahil ang mga hanay ng mga halaga ay iba para sa iba't ibang mga kadahilanan: mula 0 hanggang 13, mula 0 hanggang

20 at mula 0 hanggang 26. Hindi natin masasabi kung alin sa mga salik ang mauuna sa mga tuntunin ng

kalubhaan, hanggang sa dalhin namin ang lahat ng mga halaga sa isang solong sukat (kadalasan ito ang sukat ng mga dingding).

Kung ang mga indibidwal na hierarchies ng dalawang paksa ay positibong nauugnay, kung gayon ang mga palatandaan

ang pagkakaroon ng mababang ranggo sa isa sa kanila ay magkakaroon ng mababang ranggo sa isa pa, at kabaliktaran.

Halimbawa, kung para sa isang paksa ang salik na E (dominance) ay may pinakamababang ranggo, kung gayon para sa

isa pang subject, dapat mababa ang rank kung may factor C ang isang subject

(katatagan ng emosyon) ang may pinakamataas na ranggo, kung gayon ang ibang paksa ay dapat na mayroon din

ang kadahilanan na ito ay may mataas na ranggo, at iba pa.

Sa ikatlong kaso (dalawang profile ng grupo), ang average na halaga ng grupo ay niraranggo,

natanggap sa 2 grupo ng mga paksa ayon sa isang tiyak, magkapareho para sa dalawang grupo, itinakda

palatandaan. Sa mga sumusunod, ang linya ng pangangatwiran ay kapareho ng sa nakaraang dalawang kaso.

Sa kaso ng ika-4 (indibidwal at pangkat na mga profile), sila ay niraranggo nang hiwalay

mga indibidwal na halaga ng paksa at average na halaga ng pangkat para sa parehong hanay

mga palatandaan na nakuha, bilang isang panuntunan, na may pagbubukod ng indibidwal na paksa na ito - siya

ay hindi lumalahok sa karaniwang profile ng grupo, kung saan ihahambing ang kanyang indibidwal

profile. Ang ugnayan ng ranggo ay magbibigay-daan sa iyo upang suriin kung gaano pare-pareho ang indibidwal at

mga profile ng grupo.

Sa lahat ng apat na kaso, ang kahalagahan ng nakuha na koepisyent ng ugnayan ay tinutukoy ng

ayon sa bilang ng mga nakararanggo na halaga N. Sa unang kaso, ang numerong ito ay magkakasabay sa

laki ng sample n. Sa pangalawang kaso, ang bilang ng mga obserbasyon ay ang bilang ng mga tampok,

bumubuo ng isang hierarchy. Sa ikatlo at ikaapat na kaso, ang N din ang bilang ng mga naitugma

mga palatandaan, hindi ang bilang ng mga paksa sa mga pangkat. Ang mga detalyadong paliwanag ay ibinigay sa mga halimbawa. Kung ang

ang ganap na halaga ng rs ay umabot sa isang kritikal na halaga o lumampas dito, ang ugnayan

maaasahan.

Hypotheses.

Mayroong dalawang posibleng hypotheses. Ang una ay tumutukoy sa kaso 1, ang pangalawa sa iba pang tatlo

Ang unang bersyon ng mga hypotheses

H0: Ang ugnayan sa pagitan ng mga variable A at B ay hindi naiiba sa zero.

H2: Ang ugnayan sa pagitan ng mga variable A at B ay makabuluhang naiiba mula sa zero.

Ang pangalawang bersyon ng mga hypotheses

H0: Ang ugnayan sa pagitan ng hierarchies A at B ay hindi naiiba sa zero.

H2: Ang ugnayan sa pagitan ng hierarchies A at B ay makabuluhang naiiba mula sa zero.

Mga limitasyon ng koepisyent ng ugnayan ng ranggo

1. Hindi bababa sa 5 obserbasyon ang dapat isumite para sa bawat variable. Itaas

ang limitasyon ng sampling ay tinutukoy ng mga magagamit na talahanayan ng mga kritikal na halaga .

2. Ang rank correlation coefficient ng Spearman ay rs na may malaking bilang ng magkapareho

ang mga ranggo para sa isa o parehong mga katugmang variable ay nagbibigay ng mga magaspang na halaga. Sa isip

ang parehong magkakaugnay na serye ay dapat na dalawang sequence ng hindi tugma

mga halaga. Kung hindi matugunan ang kundisyong ito, kailangang gumawa ng pagsasaayos para sa

parehong ranggo.

Ang koepisyent ng ugnayan ng ranggo ng Spearman ay kinakalkula ng formula:

Kung sa parehong paghahambing na serye ng pagraranggo ay may mga pangkat ng parehong ranggo,

bago kalkulahin ang koepisyent ng ugnayan ng ranggo, kinakailangan na itama para sa pareho

nagra-rank ng Ta at Tv:

Ta \u003d Σ (a3 - a) / 12,

TV \u003d Σ (v3 - c) / 12,

saan a- ang dami ng bawat pangkat ng magkatulad na ranggo sa serye ng ranggo A, sa dami ng bawat isa

mga pangkat ng pantay na ranggo sa serye ng ranggo B.

Upang kalkulahin ang empirical na halaga ng rs, gamitin ang formula:

38. Dotted biserial correlation coefficient.

Para sa ugnayan sa pangkalahatan, tingnan ang tanong blg. 36 Sa. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Hayaang sukatin ang variable X sa isang malakas na sukat, at variable Y sa isang dichotomous scale. Ang point biserial correlation coefficient rpb ay kinakalkula ng formula:

Narito ang x 1 ay ang average na halaga para sa X na mga bagay na may halagang "isa" para sa Y;

x 0 - ang average na halaga para sa X na mga bagay na may halaga na "zero" para sa Y;

s x - karaniwang paglihis ng lahat ng mga halaga para sa X;

n 1 - ang bilang ng mga bagay na "isa" sa Y, n 0 - ang bilang ng mga bagay na "zero" sa Y;

n = n 1 + n 0 ang sample size.

Ang point biserial correlation coefficient ay maaari ding kalkulahin gamit ang iba pang katumbas na expression:

Dito x ay ang pangkalahatang mean na halaga para sa variable X.

Point Biserial Correlation Coefficient rpb nag-iiba mula -1 hanggang +1. Ang halaga nito ay katumbas ng zero kung sakaling may mga variable na may unit para sa Y magkaroon ng average Y, katumbas ng mean ng mga variable na may zero over Y.

Pagsusulit mga hypotheses ng kahalagahan point biserial correlation coefficient ay upang suriin null hypothesish 0 tungkol sa pagkakapantay-pantay ng pangkalahatang koepisyent ng ugnayan sa zero: ρ = 0, na isinasagawa gamit ang pamantayan ng Estudyante. Empirical na halaga

kumpara sa mga kritikal na halaga t a (df) para sa bilang ng mga antas ng kalayaan df = n– 2

Kung ang kondisyon | t| ≤ ta(df), ang null hypothesis ρ = 0 ay hindi tinatanggihan. Ang point biserial correlation coefficient ay makabuluhang naiiba sa zero kung ang empirical value | t| nahuhulog sa kritikal na rehiyon, iyon ay, kung ang kondisyon | t| > ta(n– 2). Ang pagiging maaasahan ng relasyon na kinakalkula gamit ang point biserial correlation coefficient rpb, maaari ding matukoy gamit ang criterion χ 2 para sa bilang ng mga antas ng kalayaan df= 2.

Dot-biserial correlation

Ang kasunod na pagbabago ng koepisyent ng ugnayan ng produkto ng mga sandali ay makikita sa dotted-biserial r. Itong stat. ay nagpapakita ng ugnayan sa pagitan ng dalawang baryabol, ang isa ay diumano'y tuloy-tuloy at normal na ipinamamahagi, at ang isa ay discrete sa eksaktong kahulugan ng salita. Ang dot-biserial correlation coefficient ay tinutukoy ng r pbis Dahil sa r pbis ang dichotomy ay sumasalamin sa tunay na katangian ng discrete variable, at hindi artipisyal, tulad ng sa kaso r bis, ang tanda nito ay arbitraryong tinutukoy. Samakatuwid, para sa lahat ng mga kasanayan mga layunin r pbis isinasaalang-alang sa hanay mula 0.00 hanggang +1.00.

Mayroon ding ganoong kaso kapag ang dalawang variable ay itinuturing na tuluy-tuloy at normal na ipinamamahagi, ngunit pareho ay artipisyal na dichotomized, tulad ng sa kaso ng biserial correlation. Upang masuri ang kaugnayan sa pagitan ng mga naturang variable, ginagamit ang tetrachoric correlation coefficient r tet, na pinalaki rin ni Pearson. Pangunahing (eksaktong) mga formula at pamamaraan para sa pagkalkula r tet ay medyo kumplikado. Samakatuwid, sa pagsasanay. ang pamamaraang ito ay gumagamit ng mga pagtatantya r tet nakuha batay sa mga pinaikling pamamaraan at talahanayan.

/online/dictionary/dictionary.php?term=511

DOTTED BISERIAL COEFFICIENT OF CORRELATION ay ang koepisyent ng ugnayan sa pagitan ng dalawang variable, ang isa ay sinusukat sa isang dichotomous scale at ang isa sa isang interval scale. Ito ay ginagamit sa klasikal at modernong testology bilang isang tagapagpahiwatig ng kalidad ng isang pagsubok na gawain - pagiging maaasahan-kaayon sa pangkalahatang marka ng pagsusulit.

Upang iugnay ang mga variable na sinusukat sa dichotomous at interval scale gamitin dot-biserial correlation coefficient.
Ang point-biserial correlation coefficient ay isang paraan ng pagsusuri ng ugnayan ng ratio ng mga variable, ang isa ay sinusukat sa sukat ng mga pangalan at tumatagal lamang ng 2 halaga (halimbawa, lalaki / babae, ang sagot ay tama / ang sagot ay hindi tama, mayroong isang palatandaan / walang palatandaan), at ang pangalawa sa mga ratio ng sukat o sukat ng pagitan. Ang formula para sa pagkalkula ng coefficient ng point-biserial correlation:

saan:
Ang m1 at m0 ay ang average na halaga ng X na may halaga na 1 o 0 sa Y.
Ang σx ay ang karaniwang paglihis ng lahat ng mga halaga para sa X
n1 ,n0 – bilang ng mga halaga ng X mula 1 o 0 hanggang Y.
n ay ang kabuuang bilang ng mga pares ng mga halaga

Kadalasan, ang ganitong uri ng koepisyent ng ugnayan ay ginagamit upang kalkulahin ang kaugnayan ng mga item sa pagsubok na may sukat ng buod. Ito ay isang uri ng pagsusuri sa pagpapatunay.

39. Rank-biserial correlation coefficient.

Para sa ugnayan sa pangkalahatan, tingnan ang tanong blg. 36 Sa. 56 (64) 063.JPG

harchenko-korranaliz.pdf p. 28

Ang rank-biserial correlation coefficient na ginagamit kapag ang isa sa mga variable ( X) ay ipinakita sa isang ordinal na sukat, at ang iba pa ( Y) - sa dichotomous, kinakalkula ng formula

.

Dito, ang average na ranggo ng mga bagay na may pagkakaisa Y; ay ang average na ranggo ng mga bagay na may zero in Y, n ay ang sample size.

Pagsusulit mga hypotheses ng kahalagahan rank-biserial correlation coefficient ay isinasagawa nang katulad sa punto biserial correlation coefficient gamit ang Student's t-test na may kapalit sa mga formula rpb sa rrb.

Kapag ang isang variable ay sinusukat sa isang dichotomous scale (variable x), at ang isa pa ay nasa rank scale (variable Y), gamit ang rank-biserial correlation coefficient. Naaalala namin na ang variable x, sinusukat sa isang dichotomous scale, ito ay tumatagal lamang ng dalawang halaga (mga code) 0 at 1. Binibigyang-diin namin sa partikular na sa kabila ng katotohanan na ang koepisyent na ito ay nag-iiba sa saklaw mula -1 hanggang +1, ang tanda nito ay hindi mahalaga para sa pagbibigay-kahulugan sa resulta. Ito ay isa pang pagbubukod sa pangkalahatang tuntunin.

Ang pagkalkula ng koepisyent na ito ay ginawa ayon sa pormula:

saan ` X 1 average na ranggo sa mga elementong iyon ng variable Y, na tumutugma sa code (feature) 1 sa variable X;

`X 0 – average na ranggo para sa mga elemento ng variable Y, na tumutugma sa code (feature) 0 sa variable X\

N- ang kabuuang bilang ng mga elemento sa variable x.

Upang mailapat ang rank-biserial correlation coefficient, ang mga sumusunod na kondisyon ay dapat matugunan:

1. Ang mga variable na inihahambing ay dapat masukat sa iba't ibang sukat: isa X- sa isang dichotomous scale; isa pa Y– sa antas ng pagraranggo.

2. Ang bilang ng iba't ibang mga tampok sa mga inihambing na variable X at Y dapat pareho.

3. Upang masuri ang antas ng pagiging maaasahan ng rank-biserial correlation coefficient, dapat gamitin ang formula (11.9) at ang talahanayan ng mga kritikal na halaga para sa pagsusulit ng Estudyante kapag k = n - 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Mga kaso kung saan naroroon ang isa sa mga variable dichotomous scale, at ang iba pa sa ranggo (ordinal), nangangailangan ng paggamit rank-biserial correlation coefficient:

rbb=2 / n * (m1 - m0)

saan:
n ay ang bilang ng mga bagay sa pagsukat
m1 at m0 - ang average na ranggo ng mga bagay na may 1 o 0 sa pangalawang variable.
Ginagamit din ang koepisyent na ito kapag sinusuri ang bisa ng mga pagsusulit.

40. Linear correlation coefficient.

Tungkol sa correlation sa pangkalahatan (at tungkol sa linear correlation sa partikular), tingnan ang tanong Blg. 36 Sa. 56 (64) 063.JPG

G. PEARSON'S COEFFICIENT NG CORELASYON

r-Pearson (Pearson r) ay ginagamit upang pag-aralan ang relasyon sa pagitan ng dalawang sukataniba pang mga variable na sinusukat sa parehong sample. Maraming mga sitwasyon kung saan angkop na gamitin ito. Nakakaapekto ba ang katalinuhan sa pagganap sa mga taon ng senior university? May kaugnayan ba ang laki ng suweldo ng isang empleyado sa kanyang mabuting kalooban sa mga kasamahan? Nakakaapekto ba ang mood ng isang mag-aaral sa tagumpay ng paglutas ng isang komplikadong problema sa aritmetika? Upang masagot ang mga naturang katanungan, dapat sukatin ng mananaliksik ang dalawang tagapagpahiwatig ng interes sa bawat miyembro ng sample. Ang data upang pag-aralan ang relasyon ay pagkatapos ay i-tabulated, tulad ng sa halimbawa sa ibaba.

HALIMBAWA 6.1

Ang talahanayan ay nagpapakita ng isang halimbawa ng paunang data ng pagsukat para sa dalawang tagapagpahiwatig ng katalinuhan (berbal at di-berbal) sa 20 mag-aaral ng ika-8 baitang.

Ang ugnayan sa pagitan ng mga variable na ito ay maaaring ilarawan gamit ang isang scatter diagram (tingnan ang Figure 6.3). Ipinapakita ng diagram na mayroong ilang ugnayan sa pagitan ng mga nasusukat na tagapagpahiwatig: mas malaki ang halaga ng verbal intelligence, ang (pangunahin) mas malaki ang halaga ng non-verbal intelligence.

Bago ibigay ang formula para sa koepisyent ng ugnayan, subukan nating subaybayan ang lohika ng paglitaw nito, gamit ang data ng Halimbawa 6.1. Ang posisyon ng bawat /-point (paksa na may numero /) sa scatter diagram na may kaugnayan sa iba pang mga punto (Larawan 6.3) ay maaaring ibigay ng mga magnitude at palatandaan ng mga paglihis ng kaukulang mga halaga ng mga variable mula sa kanilang average na mga halaga: (xj - MJ at (isip sa ). Kung ang mga palatandaan ng mga paglihis na ito ay nag-tutugma, kung gayon ito ay nagpapahiwatig ng pabor sa isang positibong relasyon (malaking halaga para sa X tumutugma sa malalaking halaga sa o mas maliit na halaga para sa X tumutugma sa mas maliliit na halaga y).

Para sa paksa No. 1, ang paglihis mula sa average X at sa pamamagitan ng sa positibo, at para sa paksa Blg. 3, ang parehong mga paglihis ay negatibo. Dahil dito, ang data ng pareho ay nagpapahiwatig ng isang positibong relasyon sa pagitan ng mga pinag-aralan na katangian. Sa laban, kung ang mga palatandaan ng deviations mula sa average X at sa pamamagitan ng sa magkaiba, ito ay magsasaad ng negatibong relasyon sa pagitan ng mga palatandaan. Kaya, para sa paksa Blg. 4, ang paglihis mula sa average X ay negatibo, ayon sa y - positibo, at para sa paksa No. 9 - vice versa.

Kaya, kung ang produkto ng mga paglihis (x, - M X ) X (isip sa ) positibo, pagkatapos ay ang data ng /-subject ay nagpapahiwatig ng isang direktang (positibong) relasyon, at kung negatibo, pagkatapos ay isang kabaligtaran (negatibong) relasyon. Alinsunod dito, kung Xwy ay halos direktang proporsyonal, kung gayon ang karamihan sa mga produkto ng mga paglihis ay magiging positibo, at kung ang mga ito ay nauugnay sa kabaligtaran, kung gayon ang karamihan sa mga produkto ay magiging negatibo. Samakatuwid, ang kabuuan ng lahat ng mga produkto ng mga paglihis para sa isang naibigay na sample ay maaaring magsilbi bilang isang pangkalahatang tagapagpahiwatig para sa lakas at direksyon ng relasyon:

Sa isang direktang proporsyonal na ugnayan sa pagitan ng mga variable, ang halaga na ito ay malaki at positibo - para sa karamihan ng mga paksa, ang mga paglihis ay nag-tutugma sa sign (ang malalaking halaga ng isang variable ay tumutugma sa malalaking halaga ng iba pang variable at vice versa). Kung X at sa magkaroon ng feedback, kung gayon para sa karamihan ng mga paksa, ang malalaking halaga ng isang variable ay tumutugma sa mas maliit na mga halaga ng isa pang variable, ibig sabihin, ang mga palatandaan ng mga produkto ay magiging negatibo, at ang kabuuan ng mga produkto sa kabuuan ay magiging malaki din. sa ganap na halaga, ngunit negatibo sa sign. Kung walang sistematikong ugnayan sa pagitan ng mga variable, ang mga positibong termino (mga produkto ng deviations) ay magiging balanse ng mga negatibong termino, at ang kabuuan ng lahat ng mga produkto ng deviations ay magiging malapit sa zero.

Upang ang kabuuan ng mga produkto ay hindi nakasalalay sa laki ng sample, sapat na upang average ito. Ngunit kami ay interesado sa sukatan ng relasyon hindi bilang isang pangkalahatang parameter, ngunit bilang isang kinakalkula na pagtatantya nito - mga istatistika. Samakatuwid, para sa formula ng pagpapakalat, sa kasong ito ay gagawin natin ang pareho, hinahati natin ang kabuuan ng mga produkto ng mga paglihis hindi sa pamamagitan ng N, at sa TV - 1. Ito ay lumalabas na isang sukatan ng komunikasyon, malawakang ginagamit sa pisika at teknikal na agham, na tinatawag na covariance (Covahance):


AT sikolohiya, hindi katulad ng pisika, karamihan sa mga variable ay sinusukat sa di-makatwirang mga sukat, dahil ang mga psychologist ay hindi interesado sa ganap na halaga ng katangian, ngunit sa kamag-anak na posisyon ng mga paksa sa grupo. Bilang karagdagan, ang covariance ay napakasensitibo sa sukat (dispersion) kung saan sinusukat ang mga tampok. Upang gawing independyente ang sukat ng komunikasyon sa mga yunit ng pagsukat ng alinmang katangian, sapat na upang hatiin ang covariance sa mga kaukulang standard deviations. Kaya, ito ay nakuha para sa-K. Pearson's correlation coefficient mule:

o, pagkatapos palitan ang mga expression para sa o x at


Kung ang mga halaga ng parehong mga variable ay na-convert sa mga r-halaga gamit ang formula


pagkatapos ay ang r-Pearson correlation coefficient formula ay mukhang mas simple (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

CORRELATION LINEAR- statistical non-causal linear na relasyon sa pagitan ng dalawang quantitative variable X at sa. Sinusukat gamit ang "factor K.L." Pearson, na resulta ng paghahati ng covariance sa mga standard deviations ng parehong variable:

,

saan s xy- covariance sa pagitan ng mga variable X at sa;

s x , s y- standard deviations para sa mga variable X at sa;

x i , y i- mga variable na halaga X at sa para sa numero ng bagay i;

x, y- mga average ng arithmetic para sa mga variable X at sa.

Ang ratio ng Pearson r maaaring kumuha ng mga halaga mula sa pagitan [-1; +1]. Ibig sabihin r = 0 nangangahulugang walang linear na relasyon sa pagitan ng mga variable X at sa(ngunit hindi nag-aalis ng isang non-linear na istatistikal na relasyon). Mga positibong halaga ng koepisyent ( r> 0) ipahiwatig ang isang direktang linear na relasyon; mas malapit ang halaga nito sa +1, mas malakas ang direktang kaugnayan sa istatistika. Mga negatibong halaga ng koepisyent ( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r= ±1 ay nangangahulugan ng pagkakaroon ng isang buong linear na koneksyon, direkta o baligtad. Sa kaso ng isang kumpletong koneksyon, lahat ng mga punto na may mga coordinate ( x i , y i) humiga sa isang tuwid na linya y = a + bx.

"Coefficient K.L." Ginagamit din ang Pearson upang sukatin ang higpit ng relasyon sa linear pair regression model.

41. Correlation matrix at correlation graph.

Para sa ugnayan sa pangkalahatan, tingnan ang tanong blg. 36 Sa. 56 (64) 063.JPG

matris ng ugnayan. Kadalasan, kasama sa pagsusuri ng ugnayan ang pag-aaral ng relasyon hindi ng dalawa, ngunit ng maraming mga variable na sinusukat sa isang quantitative scale sa isang solong sample. Sa kasong ito, kinakalkula ang mga ugnayan para sa bawat pares ng hanay ng mga variable na ito. Karaniwang isinasagawa ang mga kalkulasyon sa isang computer, at ang resulta ay isang correlation matrix.

Correlation matrix(ugnayan matris) ay ang resulta ng pagkalkula ng mga ugnayan ng parehong uri para sa bawat pares mula sa set R mga variable na sinusukat sa isang quantitative scale sa isang sample.

HALIMBAWA

Ipagpalagay na pinag-aaralan namin ang mga relasyon sa pagitan ng 5 variable (vl, v2,..., v5; P= 5), sinusukat sa isang sample ng N=30 tao. Nasa ibaba ang isang talahanayan ng paunang data at isang matrix ng ugnayan.

At
kaugnay na data:

Correlation matrix:

Madaling makita na ang correlation matrix ay parisukat, simetriko na may paggalang sa pangunahing dayagonal (takkakg, y = /) y), na may mga yunit sa pangunahing dayagonal (mula noong G at = Gu = 1).

Ang correlation matrix ay parisukat: ang bilang ng mga row at column ay katumbas ng bilang ng mga variable. Siya ay simetriko kamag-anak sa pangunahing dayagonal, dahil ang ugnayan X Sa sa katumbas ng ugnayan sa Sa X. Ang mga yunit ay matatagpuan sa pangunahing dayagonal nito, dahil ang ugnayan ng isang tampok sa sarili nito ay katumbas ng isa. Dahil dito, hindi lahat ng elemento ng correlation matrix ay napapailalim sa pagsusuri, ngunit ang mga nasa itaas o ibaba ng pangunahing dayagonal.

Bilang ng mga coefficient ng ugnayan, Ang mga tampok na P na susuriin sa pag-aaral ng mga relasyon ay tinutukoy ng formula: P(P- 1)/2. Sa halimbawa sa itaas, ang bilang ng naturang mga coefficient ng ugnayan ay 5(5 - 1)/2 = 10.

Ang pangunahing gawain ng pag-aaral ng correlation matrix ay inilalantad ang istruktura ng mga ugnayan ng isang hanay ng mga tampok. Pinapayagan nito ang visual na pagsusuri mga pleiades ng ugnayan- graphic na imahe mga istruktura ayon sa istatistikamakabuluhang koneksyon kung hindi masyadong maraming ganoong koneksyon (hanggang 10-15). Ang isa pang paraan ay ang paggamit ng mga multivariate na pamamaraan: multiple regression, factorial o cluster analysis (tingnan ang seksyong "Multivariate method..."). Gamit ang factorial o cluster analysis, posibleng matukoy ang mga pagpapangkat ng mga variable na mas malapit na nauugnay sa isa't isa kaysa sa iba pang mga variable. Ang isang kumbinasyon ng mga pamamaraan na ito ay napaka-epektibo, halimbawa, kung mayroong maraming mga palatandaan at hindi sila homogenous.

Paghahambing ng mga ugnayan - isang karagdagang gawain ng pagsusuri sa correlation matrix, na mayroong dalawang pagpipilian. Kung kinakailangan upang ihambing ang mga ugnayan sa isa sa mga hilera ng correlation matrix (para sa isa sa mga variable), ang paraan ng paghahambing para sa mga umaasang sample ay inilalapat (pp. 148-149). Kapag naghahambing ng mga ugnayan ng parehong pangalan na kinakalkula para sa iba't ibang mga sample, ang paraan ng paghahambing para sa mga independiyenteng sample ay ginagamit (pp. 147-148).

Mga Paraan ng Paghahambing mga ugnayan sa mga dayagonal correlation matrix (para sa pagtatasa ng stationarity ng isang random na proseso) at paghahambing ilang Ang mga correlation matrice na nakuha para sa iba't ibang sample (para sa kanilang homogeneity) ay nakakaubos ng oras at lampas sa saklaw ng aklat na ito. Maaari kang maging pamilyar sa mga pamamaraang ito mula sa aklat ni GV Sukhodolsky 1 .

Ang problema ng istatistikal na kahalagahan ng mga ugnayan. Ang problema ay ang statistical hypothesis testing procedure ay kinabibilangan isa-maramihan isinagawa ang pagsubok sa isang sample. Kung ang parehong paraan ay inilapat maraming beses, kahit na may kaugnayan sa iba't ibang mga variable, kung gayon ang posibilidad na makakuha ng isang resulta na puro sa pamamagitan ng pagkakataon ay tumataas. Sa pangkalahatan, kung uulitin natin ang parehong paraan ng pagsubok sa hypothesis sa mga oras na may kaugnayan sa iba't ibang mga variable o sample, pagkatapos ay may itinatag na halaga ng a, kami ay ginagarantiyahan na makatanggap ng kumpirmasyon ng hypothesis sa ahk ang bilang ng mga kaso.

Ipagpalagay natin na ang correlation matrix para sa 15 variable ay nasuri, iyon ay, 15(15-1)/2 = 105 correlation coefficients ang kinakalkula. Upang subukan ang mga hypothesis, ang antas a = 0.05 ay itinakda. Sa pamamagitan ng pagsubok sa hypothesis ng 105 beses, makakakuha tayo ng kumpirmasyon nito ng limang beses (!) hindi alintana kung ang koneksyon ay aktwal na umiiral. Alam ito at natanggap, sabihin, 15 "makabuluhang istatistika" na koepisyent ng ugnayan, masasabi ba natin kung alin sa mga ito ang nakuha ng pagkakataon, at alin sa mga ito ang nagpapakita ng tunay na relasyon?

Sa mahigpit na pagsasalita, upang makagawa ng isang istatistikal na desisyon, kinakailangan na bawasan ang antas a nang kasing dami ng bilang ng mga hypotheses na sinusuri. Ngunit ito ay halos hindi maipapayo, dahil ang posibilidad na balewalain ang isang talagang umiiral na koneksyon (gumawa ng isang uri ng error na II) ay tumataas sa isang hindi mahuhulaan na paraan.

Ang correlation matrix lamang ay hindi sapat na batayanpara sa mga istatistikal na konklusyon tungkol sa mga indibidwal na coefficient na kasama ditomga ugnayan!

Mayroon lamang isang talagang nakakakumbinsi na paraan upang malutas ang problemang ito: hatiin ang sample nang sapalaran sa dalawang bahagi at isaalang-alang lamang ang mga ugnayang iyon na makabuluhan ayon sa istatistika sa parehong bahagi ng sample. Ang isang alternatibo ay maaaring ang paggamit ng mga multivariate na pamamaraan (factorial, cluster o multiple regression analysis) - para sa pagpili at kasunod na interpretasyon ng mga grupo ng mga variable na makabuluhang nauugnay sa istatistika.

Ang problema ng mga nawawalang halaga. Kung may mga nawawalang halaga sa data, ang dalawang pagpipilian para sa pagkalkula ng correlation matrix ay posible: a) line-by-line na pagtanggal ng mga halaga (ibukodkasolistwise); b) magkapares na pagtanggal ng mga halaga (ibukodkasomagkapares). Sa line-by-line na pagtanggal obserbasyon na may mga gaps, ang buong linya ay tatanggalin para sa bagay (paksa) na may hindi bababa sa isang nawawalang halaga para sa isa sa mga variable. Ang pamamaraang ito ay humahantong sa isang "tamang" correlation matrix sa kahulugan na ang lahat ng mga coefficient ay kinakalkula mula sa parehong hanay ng mga bagay. Gayunpaman, kung ang mga nawawalang halaga ay random na ibinahagi sa mga variable, kung gayon ang pamamaraang ito ay maaaring humantong sa katotohanan na walang bagay na natitira sa itinuturing na set ng data (bawat linya ay maglalaman ng hindi bababa sa isang nawawalang halaga). Upang maiwasan ang sitwasyong ito, gumamit ng ibang paraan na tinatawag pares na pagtanggal. Isinasaalang-alang lamang ng pamamaraang ito ang mga puwang sa bawat napiling pares ng mga variable na column at hindi pinapansin ang mga puwang sa iba pang mga variable. Ang ugnayan para sa isang pares ng mga variable ay kinakalkula para sa mga bagay na iyon kung saan walang mga puwang. Sa maraming mga sitwasyon, lalo na kapag ang bilang ng mga puwang ay medyo maliit, sabihin nating 10%, at ang mga puwang ay random na ibinahagi, ang pamamaraang ito ay hindi humahantong sa mga malubhang pagkakamali. Gayunpaman, kung minsan hindi ito ang kaso. Halimbawa, sa sistematikong bias (shift) ng pagtatantya, ang sistematikong lokasyon ng mga gaps ay maaaring "itago", na siyang dahilan ng pagkakaiba sa mga koepisyent ng ugnayan na binuo sa iba't ibang mga subset (halimbawa, para sa iba't ibang mga subgroup ng mga bagay. ). Isa pang problemang nauugnay sa correlation matrix na kinakalkula sa dalawahan Ang pag-alis ng gap ay nangyayari kapag ginagamit ang matrix na ito sa iba pang mga uri ng pagsusuri (halimbawa, sa maramihang regression o factor analysis). Ipinapalagay nila na ang isang "tamang" correlation matrix ay ginagamit na may isang tiyak na antas ng pagkakapare-pareho at "correspondence" ng iba't ibang mga coefficient. Ang paggamit ng isang matrix na may "masamang" (biased) na mga pagtatantya ay humahantong sa katotohanan na ang programa ay maaaring hindi masuri ang naturang matrix, o ang mga resulta ay magiging mali. Samakatuwid, kung ang isang pairwise na paraan ng pag-aalis ng nawawalang data ay ginagamit, ito ay kinakailangan upang suriin kung mayroon o walang mga sistematikong pattern sa pamamahagi ng mga puwang.

Kung ang pairwise na pag-aalis ng nawawalang data ay hindi humahantong sa anumang sistematikong pagbabago sa mga paraan at pagkakaiba-iba (standard deviations), ang mga istatistikang ito ay magiging katulad sa mga kalkulado gamit ang line-wise na paraan ng pag-aalis ng mga gaps. Kung may makabuluhang pagkakaiba, may dahilan para ipagpalagay na may pagbabago sa mga pagtatantya. Halimbawa, kung ang ibig sabihin (o karaniwang paglihis) ng mga halaga ng variable PERO, na ginamit sa pagkalkula ng ugnayan nito sa variable SA, mas mababa kaysa sa mean (o standard deviation) ng parehong mga halaga ng variable PERO, na ginamit sa pagkalkula ng ugnayan nito sa variable C, kung gayon mayroong lahat ng dahilan upang asahan na ang dalawang ugnayang ito (A-Bkami) batay sa iba't ibang subset ng data. Magkakaroon ng pagbabago sa mga ugnayan na dulot ng hindi random na lokasyon ng mga gaps sa mga halaga ng mga variable.

Pagsusuri ng correlation pleiades. Matapos malutas ang problema ng istatistikal na kahalagahan ng mga elemento ng correlation matrix, ang mga makabuluhang ugnayan sa istatistika ay maaaring katawanin nang grapiko sa anyo ng isang correlation pleiad o pleiades. Correlation galaxy - ito ay isang pigura na binubuo ng mga vertex at mga linya na nag-uugnay sa kanila. Ang mga vertices ay tumutugma sa mga tampok at karaniwang tinutukoy ng mga numero - ang mga numero ng mga variable. Ang mga linya ay tumutugma sa istatistikal na makabuluhang relasyon at graphical na nagpapahayag ng sign, at kung minsan ang /j-significance na antas ng relasyon.

Maaaring sumasalamin ang correlation galaxy lahat istatistikal na makabuluhang mga ugnayan ng correlation matrix (minsan ay tinatawag na graph ng ugnayan ) o lamang ang kanilang makabuluhang napiling bahagi (halimbawa, naaayon sa isang salik ayon sa mga resulta ng pagsusuri sa salik).

HALIMBAWA NG PAGBUO NG CORRELATION PLEIADI


Paghahanda para sa estado (panghuling) sertipikasyon ng mga nagtapos: pagbuo ng database ng USE (pangkalahatang listahan ng mga kalahok sa USE ng lahat ng mga kategorya, na nagpapahiwatig ng mga paksa) - isinasaalang-alang ang mga araw ng reserba sa kaso ng pagkakataon ng mga paksa;

  • Plano ng trabaho (27)

    Solusyon

    2. Ang mga aktibidad ng institusyong pang-edukasyon upang mapabuti ang nilalaman at masuri ang kalidad sa mga paksa ng natural at matematika na edukasyon MOU pangalawang paaralan No. 4, Litvinovskaya, Chapaevskaya,

  • ay isang quantitative assessment ng istatistikal na pag-aaral ng ugnayan sa pagitan ng phenomena, na ginagamit sa mga non-parametric na pamamaraan.

    Ipinapakita ng indicator kung paano naiiba ang naobserbahang kabuuan ng mga squared na pagkakaiba sa pagitan ng mga ranggo sa kaso ng walang koneksyon.

    Pagtatalaga ng serbisyo. Gamit ang online na calculator na ito, maaari mong:

    • pagkalkula ng koepisyent ng ugnayan ng ranggo ng Spearman;
    • pagkalkula ng agwat ng kumpiyansa para sa koepisyent at pagsusuri ng kahalagahan nito;

    Koepisyent ng ugnayan ng ranggo ng Spearman ay tumutukoy sa mga tagapagpahiwatig ng pagtatasa ng pagiging malapit ng komunikasyon. Ang isang husay na katangian ng higpit ng relasyon ng koepisyent ng ugnayan ng ranggo, pati na rin ang iba pang mga coefficient ng ugnayan, ay maaaring masuri gamit ang sukat ng Chaddock.

    Pagkalkula ng koepisyent ay binubuo ng mga sumusunod na hakbang:

    Mga katangian ng koepisyent ng ugnayan ng ranggo ng Spearman

    Lugar ng aplikasyon. Koepisyent ng ugnayan ng ranggo ginagamit upang suriin ang kalidad ng komunikasyon sa pagitan ng dalawang set. Bilang karagdagan, ang istatistikal na kahalagahan nito ay ginagamit kapag sinusuri ang data para sa heteroscedasticity.

    Halimbawa. Sa isang sample ng data ng mga naobserbahang variable X at Y:

    1. gumawa ng talahanayan ng ranggo;
    2. hanapin ang koepisyent ng ugnayan ng ranggo ng Spearman at subukan ang kahalagahan nito sa antas 2a
    3. suriin ang kalikasan ng pagkagumon
    Solusyon. Magtalaga ng mga ranggo sa tampok na Y at sa kadahilanan X .
    XYranggo X, dxranggo Y, d y
    28 21 1 1
    30 25 2 2
    36 29 4 3
    40 31 5 4
    30 32 3 5
    46 34 6 6
    56 35 8 7
    54 38 7 8
    60 39 10 9
    56 41 9 10
    60 42 11 11
    68 44 12 12
    70 46 13 13
    76 50 14 14

    Rank matrix.
    ranggo X, dxranggo Y, d y(dx - dy) 2
    1 1 0
    2 2 0
    4 3 1
    5 4 1
    3 5 4
    6 6 0
    8 7 1
    7 8 1
    10 9 1
    9 10 1
    11 11 0
    12 12 0
    13 13 0
    14 14 0
    105 105 10

    Sinusuri ang kawastuhan ng compilation ng matrix batay sa pagkalkula ng checksum:

    Ang kabuuan sa mga hanay ng matrix ay katumbas ng bawat isa at ang checksum, na nangangahulugan na ang matrix ay binubuo ng tama.
    Gamit ang formula, kinakalkula namin ang koepisyent ng ugnayan ng ranggo ng Spearman.


    Ang relasyon sa pagitan ng katangian Y at kadahilanan X ay malakas at direkta
    Kahalagahan ng koepisyent ng ugnayan ng ranggo ng Spearman
    Upang masubukan ang null hypothesis sa antas ng kahalagahan α tungkol sa pagkakapantay-pantay ng pangkalahatang Spearman rank correlation coefficient sa zero sa ilalim ng nakikipagkumpitensyang hypothesis na H i . p ≠ 0, kinakailangan upang kalkulahin ang kritikal na punto:

    kung saan ang n ay ang sample size; Ang ρ ay ang sample rank correlation coefficient ng Spearman: ang t(α, k) ay ang kritikal na punto ng dalawang panig na kritikal na rehiyon, na matatagpuan mula sa talahanayan ng mga kritikal na punto ng pamamahagi ng Estudyante, ayon sa antas ng kahalagahan α at ang bilang ng antas ng kalayaan k = n-2.
    Kung |p|< Т kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если |p| >T kp - ang null hypothesis ay tinanggihan. Mayroong makabuluhang ugnayan sa ranggo sa pagitan ng mga katangian ng husay.
    Ayon sa talahanayan ng Mag-aaral makikita natin ang t(α/2, k) = (0.1/2;12) = 1.782

    Dahil ang T kp< ρ , то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.

    Sa pagsasagawa, kadalasang ginagamit ang rank correlation coefficient (P) ng Spearman upang matukoy ang lapit ng relasyon sa pagitan ng dalawang feature. Ang mga halaga ng bawat tampok ay niraranggo sa pataas na pagkakasunud-sunod (mula 1 hanggang n), pagkatapos ay tinutukoy ang pagkakaiba (d) sa pagitan ng mga ranggo na naaayon sa isang obserbasyon.

    Halimbawa #1. Ang ugnayan sa pagitan ng dami ng pang-industriya na produksyon at pamumuhunan sa nakapirming kapital sa 10 mga rehiyon ng isa sa mga pederal na distrito ng Russian Federation noong 2003 ay nailalarawan sa pamamagitan ng sumusunod na data.
    Kalkulahin Mga koepisyent ng ugnayan ng ranggo ng Spearman at Kendala. Suriin ang kanilang kahalagahan sa α=0.05. Bumuo ng isang konklusyon tungkol sa ugnayan sa pagitan ng dami ng pang-industriyang produksyon at mga pamumuhunan sa mga fixed asset sa mga rehiyon ng Russian Federation na isinasaalang-alang.

    Magtalaga ng mga ranggo sa tampok na Y at sa kadahilanan X . Hanapin ang kabuuan ng pagkakaiba ng mga parisukat d 2 .
    Gamit ang calculator, kinakalkula namin ang koepisyent ng ugnayan ng ranggo ng Spearman:

    X Y ranggo X, dx ranggo Y, d y (dx - dy) 2
    1.3 300 1 2 1
    1.8 1335 2 12 100
    2.4 250 3 1 4
    3.4 946 4 8 16
    4.8 670 5 7 4
    5.1 400 6 4 4
    6.3 380 7 3 16
    7.5 450 8 5 9
    7.8 500 9 6 9
    17.5 1582 10 16 36
    18.3 1216 11 9 4
    22.5 1435 12 14 4
    24.9 1445 13 15 4
    25.8 1820 14 19 25
    28.5 1246 15 10 25
    33.4 1435 16 14 4
    42.4 1800 17 18 1
    45 1360 18 13 25
    50.4 1256 19 11 64
    54.8 1700 20 17 9
    364

    Ang ugnayan sa pagitan ng feature na Y factor X ay malakas at direkta.

    Pagtataya ng koepisyent ng ugnayan ng ranggo ng Spearman



    Ayon sa talahanayan ng Mag-aaral, nakita namin ang Ttable.
    T talahanayan \u003d (18; 0.05) \u003d 1.734
    Dahil ang Tobs > Ttabl, tinatanggihan namin ang hypothesis na ang rank correlation coefficient ay katumbas ng zero. Sa madaling salita, ang koepisyent ng ugnayan ng ranggo ng Spearman ay makabuluhan sa istatistika.

    Pagtatantya ng agwat para sa koepisyent ng ugnayan ng ranggo (agwat ng kumpiyansa)
    Agwat ng kumpiyansa para sa koepisyent ng ugnayan ng ranggo ng Spearman: p(0.5431;0.9095).

    Halimbawa #2. Paunang data.

    5 4
    3 4
    1 3
    3 1
    6 6
    2 2
    Dahil ang matrix ay may magkakaugnay na mga ranggo (kaparehong numero ng ranggo) ng 1st row, muli naming ihuhubog ang mga ito. Ang mga ranggo ay muling nabuo nang hindi binabago ang kahalagahan ng ranggo, iyon ay, ang mga kaukulang ratios (mas malaki kaysa sa, mas mababa sa o katumbas ng) ay dapat na mapanatili sa pagitan ng mga numero ng ranggo. Hindi rin inirerekomenda na itakda ang ranggo sa itaas 1 at mas mababa sa halaga na katumbas ng bilang ng mga parameter (sa kasong ito n = 6). Ang repormasyon ng mga ranggo ay ginawa sa talahanayan.
    Mga bagong ranggo
    1 1 1
    2 2 2
    3 3 3.5
    4 3 3.5
    5 5 5
    6 6 6
    Dahil may mga nakatali na ranggo ng 2nd row sa matrix, muli naming ihuhubog ang mga ito. Ang repormasyon ng mga ranggo ay ginawa sa talahanayan.
    Mga numero ng upuan sa nakaayos na hileraLokasyon ng mga salik ayon sa pagtatasa ng ekspertoMga bagong ranggo
    1 1 1
    2 2 2
    3 3 3
    4 4 4.5
    5 4 4.5
    6 6 6
    Rank matrix.
    ranggo X, dxranggo Y, d y(dx - dy) 2
    5 4.5 0.25
    3.5 4.5 1
    1 3 4
    3.5 1 6.25
    6 6 0
    2 2 0
    21 21 11.5
    Dahil kabilang sa mga halaga ng mga tampok na x at y mayroong maraming magkapareho, i.e. nabuo ang mga nakatali na ranggo, pagkatapos sa kasong ito ang koepisyent ng Spearman ay kinakalkula bilang:

    saan


    j - bilang ng mga link sa pagkakasunud-sunod para sa tampok na x;
    At ang j ay ang bilang ng magkaparehong ranggo sa j-th bundle sa x;
    k - mga bilang ng mga bigkis sa pagkakasunud-sunod para sa tampok na y;
    Sa k - ang bilang ng magkaparehong ranggo sa k-th bundle sa y.
    A = [(2 3 -2)]/12 = 0.5
    B = [(2 3 -2)]/12 = 0.5
    D = A + B = 0.5 + 0.5 = 1

    Ang ugnayan sa pagitan ng feature Y at factor X ay katamtaman at direkta.