Negatibong pag-asa sa corrective analysis. Takdang-aralin: Pagsusuri ng Kaugnayan

Ang anumang batas ng kalikasan o panlipunang pag-unlad ay maaaring katawanin ng isang paglalarawan ng isang hanay ng mga relasyon. Kung ang mga dependency na ito ay stochastic, at ang pagsusuri ay isinasagawa sa isang sample mula sa pangkalahatang populasyon, kung gayon ang lugar na ito ng pananaliksik ay tumutukoy sa mga gawain ng istatistikal na pag-aaral ng mga dependencies, na kinabibilangan ng ugnayan, regression, pagkakaiba-iba, pagsusuri ng covariance at pagsusuri ng mga talahanayan ng contingency.

    Mayroon bang relasyon sa pagitan ng mga pinag-aralan na variable?

    Paano sukatin ang lapit ng mga koneksyon?

Ang pangkalahatang pamamaraan ng ugnayan sa pagitan ng mga parameter sa isang istatistikal na pag-aaral ay ipinapakita sa fig. isa.

Ang Figure S ay isang modelo ng totoong bagay na pinag-aaralan. Ang mga variable na nagpapaliwanag (independyente, factorial) ay naglalarawan ng mga kondisyon para sa paggana ng bagay. Ang mga random na kadahilanan ay mga kadahilanan na ang impluwensya ay mahirap isaalang-alang o ang impluwensya ay kasalukuyang napapabayaan. Ang mga resultang (umaasa, ipinaliwanag) na mga variable ay nagpapakilala sa resulta ng paggana ng bagay.

Ang pagpili ng paraan ng pagsusuri ng relasyon ay isinasagawa na isinasaalang-alang ang likas na katangian ng nasuri na mga variable.

Pagsusuri ng ugnayan - isang paraan ng pagproseso ng istatistikal na data, na binubuo sa pag-aaral ng kaugnayan sa pagitan ng mga variable.

Ang layunin ng pagsusuri ng ugnayan ay magbigay ng ilang impormasyon tungkol sa isang variable sa tulong ng isa pang variable. Sa mga kaso kung saan posible na makamit ang layunin, ang mga variable ay sinasabing magkakaugnay. Ang ugnayan ay sumasalamin lamang sa linear dependence ng mga dami, ngunit hindi sumasalamin sa kanilang functional na koneksyon. Halimbawa, kung kalkulahin natin ang koepisyent ng ugnayan sa pagitan ng mga halaga A = sin(x) at B = cos(x), pagkatapos ito ay magiging malapit sa zero, i.e. walang kaugnayan sa pagitan ng mga dami.

Kapag nag-aaral ng ugnayan, ginagamit ang mga graphical at analytical approach.

Ang pagtatasa ng graphical ay nagsisimula sa pagbuo ng isang larangan ng ugnayan. Ang correlation field (o scatterplot) ay isang graphical na relasyon sa pagitan ng mga resulta ng pagsukat ng dalawang feature. Upang mabuo ito, ang paunang data ay naka-plot sa isang graph, na ipinapakita ang bawat pares ng mga halaga (xi, yi) bilang isang punto na may mga coordinate xi at yi sa isang rectangular coordinate system.

Ang visual na pagsusuri ng patlang ng ugnayan ay nagpapahintulot sa amin na gumawa ng isang pagpapalagay tungkol sa anyo at direksyon ng relasyon sa pagitan ng dalawang pinag-aralan na mga tagapagpahiwatig. Ayon sa anyo ng relasyon, ang mga dependency ng ugnayan ay karaniwang nahahati sa linear (tingnan ang Fig. 1) at hindi linear (tingnan ang Fig. 2). Sa isang linear dependence, ang sobre ng field ng ugnayan ay malapit sa isang ellipse. Ang linear na relasyon ng dalawang random na variable ay kapag ang isang random variable ay tumaas, ang isa pang random variable ay may posibilidad na tumaas (o bumaba) ayon sa isang linear na batas.

Ang direksyon ng relasyon ay positibo kung ang pagtaas sa halaga ng isang katangian ay humahantong sa pagtaas ng halaga ng pangalawa (tingnan ang Fig. 3) at negatibo kung ang pagtaas sa halaga ng isang katangian ay humantong sa pagbaba ng halaga ng pangalawa (tingnan ang Fig. 4).

Ang mga dependency na mayroon lamang positibo o negatibong direksyon lamang ay tinatawag na monotoniko.

PAGSUSURI NG KORELASYON- isang hanay ng mga pamamaraan para sa pagtatasa ng kaugnayan sa pagitan ng mga random na phenomena at mga kaganapan batay sa matematikal na teorya ng ugnayan. Sa kasong ito, ang pinakasimpleng mga katangian ay ginagamit na nangangailangan ng isang minimum na mga kalkulasyon. Ang terminong "kaugnayan" ay karaniwang kinikilala sa mga konsepto ng "relasyon" at "pagtutulungan". Gayunpaman, hindi sila sapat. Ang ugnayan ay isa lamang sa mga uri ng komunikasyon sa pagitan ng mga palatandaan, na ipinapakita sa karaniwan at linear. Kung mayroong isang hindi malabo na ugnayan sa pagitan ng dalawang dami, kung gayon ang gayong relasyon ay tinatawag na functional, at ang isa sa mga dami (sanhi) ay maaaring natatanging matukoy ang halaga ng iba pang dami (kinahinatnan). Funkts, dependence ay isang partikular na pagpapahayag ng isang random (probabilistic, stochastic) dependence, kapag ang koneksyon ay hindi lilitaw para sa bawat halaga ng dalawang dami, ngunit sa karaniwan lamang.

K. a. ay ginagamit sa pag-aaral ng dalawa o higit pang mga random na variable upang matukoy ang dalawang pinakamahalagang quantitative na katangian: ang mathematical equation ng relasyon sa pagitan ng mga quantity na ito at ang pagtatasa ng lapit ng relasyon sa pagitan nila. Ang paunang data para sa pagtukoy ng mga katangiang ito ay ang mga kasabay na resulta ng pagmamasid (pagsukat, eksperimento), ibig sabihin, sabay-sabay na nakuha mula sa karanasan, istatistikal na data sa mga palatandaan, ang ugnayan sa pagitan ng kung saan ay pinag-aaralan. Ang paunang data ay maaaring ibigay sa anyo ng mga talahanayan na may mga talaan ng mga resulta ng pagmamasid o ang kanilang mga katumbas na representasyon sa magnetic tape, punched tape o punched card.

K. a. natagpuan ang malawak na aplikasyon sa medisina at biology para sa kahulugan ng pagiging malapit at ang mga equation ng komunikasyon sa pagitan ng iba't ibang mga palatandaan, napr, mga resulta ng pag-aaral ng isang wedge, mga palatandaan o ang mga espesyal na inspeksyon na isinasagawa sa mga malulusog o may sakit na mga tao (tingnan ang. Kaugnayan ng mga function ng isang organismo). Mga Resulta Sa. at. ay ginagamit upang gumawa ng mga layunin na pagtataya ng mga sakit, masuri ang kondisyon ng pasyente, ang kurso ng sakit (tingnan ang Pagtataya). A priori, sa pamamagitan lamang ng mga resulta ng theoretical biol, at honey. pag-aaral, mahirap o imposibleng hulaan kung paano nauugnay ang mga pinag-aralan na katangian. Upang masagot ang tanong na ito, isang obserbasyon o isang espesyal na eksperimento ang isinasagawa.

Ang dalawang-dimensional na pagsusuri ng ugnayan ay ginagamit sa pagproseso ng pang-eksperimentong data sa pagpapakita ng anumang dalawang palatandaan.

CORRELATION TABLE. Tandaan. Ipinapakita ng talahanayan ang mga pagitan ng mga palatandaan X at Y, pati na rin ang dalas ng kanilang paglitaw (sa gitna ng talahanayan), na kinakalkula mula sa mga resulta ng morphometric analysis ng microvasculature ng bulboconjunctival area, kung saan ang Y ay ang diameter ng venule, at ang X ay ang diameter ng arteriole (sa mmc).

Ang bawat resulta ng eksperimento ay isang random na variable, at ang mga pattern ng layunin ay lilitaw lamang sa buong hanay ng mga resulta ng pagsukat. Samakatuwid, ang mga konklusyon ay iginuhit batay sa mga resulta ng pagproseso ng buong set ng pang-eksperimentong data, at hindi sa mga indibidwal na halaga, na random. Upang mabawasan ang impluwensya ng isang random na kaganapan, ang paunang data ay pinagsama sa mga grupo, na nakakamit sa pamamagitan ng pag-compile ng isang talahanayan ng ugnayan (tingnan ang talahanayan). Ang nasabing talahanayan ay naglalaman ng mga agwat (o ang kanilang mga midpoint) ng mga halaga ng dalawang tampok - Y at X, pati na rin ang dalas ng paglitaw ng mga halaga ng X at Y sa kaukulang pagitan ng mga halagang ito. Ang mga frequency na ito, na kinakalkula mula sa mga resulta ng eksperimento, ay isang praktikal na pagtatantya ng posibilidad ng magkasanib na paglitaw ng mga halaga ng X at Y ng isang partikular na agwat. Ang pagbuo ng isang talahanayan ng ugnayan ay ang unang hakbang sa pagproseso ng paunang impormasyon. Ang pagtatayo ng mga talahanayan ng ugnayan at ang kanilang karagdagang kumpletong pagproseso ay isinasagawa nang mabilis sa unibersal o dalubhasang mga computer (tingnan ang. Electronic computer). Ayon sa pinagsama-samang data ng talahanayan ng ugnayan, ang mga empirikal na katangian ng equation at ang higpit ng koneksyon ay kinakalkula. Upang matukoy ang equation ng relasyon sa pagitan ng Y at X, ang mga average na halaga ng tampok na Y ay kinakalkula sa bawat pagitan ng tampok na X. makuha para sa bawat i-th interval ang halaga ng Yxi, ang koneksyon kung saan para sa lahat ng i-interval ay nagbibigay ng isang empirical regression line na nagpapakilala sa anyo ng relasyon ng attribute Y na may attribute X sa average - ang graph ng function na Yx= f(x). Kung mayroong isang hindi malabo na ugnayan sa pagitan ng mga tampok na Y at X, ang equation ng relasyon ay magiging sapat para sa paglutas ng mga praktikal at teoretikal na mga problema, dahil ito ay palaging magagamit upang matukoy ang halaga ng tampok na Y kung ang halaga X ay ibinigay. Sa pagsasanay, ang relasyon sa pagitan ng Y at X ay hindi malabo, ang koneksyon na ito ay random at ang isang halaga ng X ay tumutugma sa isang bilang ng mga halaga ng Y. Samakatuwid, kailangan ng isa pang katangian na sumusukat sa lakas, lapit ng relasyon sa pagitan ng Y at X. Ang ganitong mga katangian ay ang dispersion (correlation) ratio ηух at ang correlation coefficient ryx. Ang una sa mga dami na ito ay nagpapakilala sa higpit ng koneksyon sa pagitan ng Y at X sa isang arbitrary na function f, at ang ryx ay ginagamit lamang kapag ang f ay isang linear na function.

Ang mga halaga ng ηyx at ryx ay natutukoy din mula sa talahanayan ng ugnayan. Ang pagkalkula ay karaniwang isinasagawa sa sumusunod na pagkakasunud-sunod: ang mga average na halaga ng parehong mga palatandaan X at Y ay tinutukoy, ang kanilang mga karaniwang paglihis σx at σy, at pagkatapos ay ηxy ayon sa formula:

at ryx ayon sa formula:

kung saan ang n ay ang kabuuang bilang ng mga eksperimento, ang Xcpi ay ang average na halaga ng X ng i-th interval, ang Ycpj ay ang average na halaga ng Y ng j-th interval, k, l ang bilang ng mga pagitan ng mga feature X at Y , ayon sa pagkakabanggit, ang mi(x) ay ang dalas (numero) ng mga halaga ng Xcpi . Ang mga quantitative na katangian ng katumpakan ng pagtukoy ng ηyx at ryx ay ang kanilang mga standard deviations, na katumbas ng

Ang mga halaga ng coefficient η ay nasa pagitan ng zero at isa (0=<ηyx=<1). Если ηyx= 0 (рис., а), то это свидетельствует о том, что признаки Y и X недисперсированы, т. е. регрессия Yx = f(x) не дает связи между признаками Y и X, а при ηyx = 1 существует однозначная связь между Y и X (рис., б, ж). Для ηyx<1 признак Y только частично определяется признаком X, и необходимо изучение дополнительных признаков для повышения достоверности определения Y (рис., г, д, е, и).

Ang halaga ng coefficient r ay nasa pagitan ng -1 at +1 (-1=

Multivariate correlation analysis - pagpapasiya ng equation at ang higpit ng koneksyon sa mga kaso kung saan ang bilang ng mga pinag-aralan na feature ay higit sa dalawa. Kaya, kung ang Y ay isang kumplikadong tampok at ang kinalabasan nito ay nakasalalay sa hitsura ng isang hanay ng mga tampok X1, X2, ..., Xn, kung gayon, ayon sa pang-eksperimentong data, ang mga sumusunod ay dapat matukoy: ., Хn, i.e. Yx1x2...xn = F(x1, x2...,xn) ; b) ang higpit ng koneksyon sa pagitan ng Y at ng set X1, X2,..., Xn.

Paunang pagproseso ng mga resulta ng pangangasiwa sa multidimensional K. at. na para sa bawat pares ng mga tampok, ang mga halaga ng mga ugnayan sa pagpapakalat na ηyxi (i = 1,2,..., n) at ηxixj (i!=j) ng mga coefficient ng ugnayan na ryxi at rxixj ay tinutukoy din, bilang ang mga ipinares na regressions Yxi = fi(xi ). Batay sa mga datos na ito, ang multiple regression equation Yx1x2...xn = F (x1,x2,...,xn), ang multiple dispersion ratio ηyx1x2...xn, at ang multiple correlation coefficient na Ryx1x2...xn ay pagkatapos determinado. Ginagawang posible ng multiple regression equation na matukoy ang halaga ng tampok na Y sa pamamagitan ng hanay ng mga halaga X1, X2, ..., Xn, ibig sabihin, kung magagamit ang equation na ito, posibleng hulaan ang mga halaga ng Y batay sa mga resulta ng mga tiyak na halaga ng nagresultang hanay (halimbawa, ang mga resulta ng pagsusuri sa pamamagitan ng mga tampok X1, X2...Xn). Ang value na ηyx1x2...xn ay ginagamit bilang isang katangian ng higpit ng koneksyon sa pagitan ng Y at ng hanay ng mga feature X1, X2, ...Xn para sa isang arbitrary na function F, at Ryx1x2...xn - para sa kaso kapag ang function F ay linear. Ang mga coefficient na ηyx1x2....xn at Ryx1x2...xn ay kumukuha ng mga halaga sa pagitan ng zero at isa. Pagsasama sa pagsasaalang-alang para sa multidimensional K. a. Ginagawang posible ng mga karagdagang feature na makuha ang mga value na ηyx1x2...xn, Ryx1x2...xn na mas malapit sa pagkakaisa at sa gayon ay mapabuti ang katumpakan ng hula ng feature na Y gamit ang multiple regression equation.

Bilang halimbawa, isaalang-alang ang mga resulta ng ipinares na K. a., pati na rin ang multiple regression equation at ang multiple correlation coefficient sa pagitan ng mga palatandaan: Y - stable pseudoparesis, X1 - lateralization ng motor defect sa limbs sa kanan, X2 - pareho sa mga limbs sa kaliwa, X3 - vegetative crises. Ang mga halaga ng dispersion ratios at pair correlation coefficient para sa kanila ay magiging ayon sa pagkakabanggit ay ηyx1 = 0.429, ηyx2 = 0.616, ηyx3 = -0.334, at ryx1 = 0.320, ryx2 = 0.586.305, ryx3 = -0.586. Ayon sa equation ng maramihang linear regression Yх1х2х3 = 0.638 x1 + 0.839 x2 - 0.195 x3. Ang multiple correlation coefficient ay ipapahayag bilang Ryx1x2x3 =0.721. Makikita mula sa halimbawa na, ayon sa data ng X1, X2 at X3, ang matatag na pseudoparesis ay maaaring mahulaan nang may sapat na katumpakan para sa pagsasanay.

Paraan Upang. at. ginagawa ring posible na makakuha ng mga dinamikong katangian at. Sa kasong ito, ang mga pinag-aralan na palatandaan (hal., ECG, EEG, atbp.) ay itinuturing na mga random na function ng Y(t) at X(t). Batay sa mga resulta ng pagmamasid sa mga function na ito, dalawang pinakamahalagang katangian ang tinutukoy din: a) pagsusuri ng operator ng komunikasyon (mathematical equation) sa pagitan ng Y (t) at X (t); b) pagtatasa ng pagiging malapit ng koneksyon sa pagitan nila. Ang mga dispersion at correlation function ng random function na Y (t) at X(t) ay kinuha bilang mga katangian ng higpit ng koneksyon. Ang mga function na ito ay isang generalization ng dispersion relations at correlation coefficients. Kaya, ang normalized mutual dispersion function ηyx(t) ng bawat fixed value t ay ang dispersion relation sa pagitan ng mga value ng mga feature na Y(t) at X(t). Katulad nito, ang normalized na cross-correlation function na Ryx(t) ay, para sa bawat fixed value ng t, ang correlation coefficient sa pagitan ng mga feature na Y(t) at X(t). Ang katangian ng isang linear na relasyon (dependency) para sa parehong pinag-aralan na dami sa iba't ibang mga punto sa oras ay tinatawag na autocorrelation.

K. a. ay isa sa mga pamamaraan para sa paglutas ng problema ng pagkakakilanlan, na malawakang ginagamit sa pagkuha ng mga modelo ng matematika at automation ng medikal na biol, pananaliksik at paggamot.

Bibliograpiya: Computing system at awtomatikong diagnostics ng mga sakit sa puso, ed. C. Caceres at L. Dreyfus, trans. mula sa English, M., 1974; Gutman S. R. Sa dalawang modelo ng electroencephalogram na nagtatagpo sa isang normal na random na proseso, sa: Upravlenie i inform. mga proseso sa wildlife, ed. V. V. Larina, p. 205, M., 1971; Zaslavskaya R. M., Perepel-kin E. G. at Akhmetov K. Zh. Mga ugnayan sa pagitan ng mga tagapagpahiwatig ng hemocoagulation at metabolismo ng lipid sa mga pasyente na may angina sa araw, Cardiology, t. 111, 1977; K r a m e r G. Mga pamamaraan ng matematika ng istatistika, trans. mula sa English, M., 1975; Pasternak E. B. et al Pag-aaral ng electrical activity ng atria sa atrial fibrillation gamit ang instrumental correlation analysis, Cardiology, t. 17, Xia 7, p. 50, 1977; Sinitsyn B. S. Automatic correlators at ang kanilang aplikasyon, Novosibirsk, 1964, bibliogr.; Sa r-b at x V. Yu. Statistical analysis sa biological at medikal na pananaliksik, M., 1975, bibliogr.

V. N. Reibman, N. S. Reibman.

Ang paggamit ng mga istatistikal na pamamaraan sa pagproseso ng mga sikolohikal na materyales sa pananaliksik ay nagbibigay ng isang magandang pagkakataon upang kunin ang kapaki-pakinabang na impormasyon mula sa pang-eksperimentong data. Ang isa sa mga pinakakaraniwang pamamaraan ng istatistika ay ang pagsusuri ng ugnayan.

Ang terminong "kaugnayan" ay unang ginamit ng French paleontologist na si J. Cuvier, na naghinuha sa "batas ng ugnayan ng mga bahagi at organo ng mga hayop" (ang batas na ito ay nagpapahintulot sa iyo na ibalik ang hitsura ng buong hayop mula sa mga natagpuang bahagi ng katawan ). Ang terminong ito ay ipinakilala sa mga istatistika ng Ingles na biologist at statistician na si F. Galton (hindi lamang "koneksyon" - relasyon, at "parang isang koneksyon" - pagkakaugnay).

Ang pagsusuri ng ugnayan ay isang pagsubok ng mga hypotheses tungkol sa mga ugnayan sa pagitan ng mga variable gamit ang mga coefficient ng ugnayan, dalawang-dimensional na deskriptibong istatistika, isang quantitative measure ng relasyon (joint variability) ng dalawang variable. Kaya, ito ay isang hanay ng mga pamamaraan para sa pag-detect ng mga ugnayan sa pagitan ng mga random na variable o tampok.

Ang pagsusuri ng ugnayan para sa dalawang random na variable ay kinabibilangan ng:

  • pagbuo ng correlation field at pag-compile ng correlation table;
  • pagkalkula ng sample correlation coefficients at correlation ratios;
  • pagsubok sa istatistikal na hypothesis ng kahalagahan ng relasyon.

Ang pangunahing layunin ng pagsusuri ng ugnayan ay upang tukuyin ang ugnayan sa pagitan ng dalawa o higit pang mga variable na pinag-aaralan, na itinuturing bilang magkasanib na coordinated na pagbabago sa dalawang katangiang pinag-aaralan. Ang pagkakaiba-iba na ito ay may tatlong pangunahing katangian: hugis, direksyon at lakas.

Ang anyo ng ugnayan ay maaaring linear o non-linear. Ang isang linear na anyo ay mas maginhawa para sa pagtukoy at pagbibigay-kahulugan sa isang ugnayan. Para sa isang linear na ugnayan, dalawang pangunahing direksyon ang maaaring makilala: positibo ("pasulong na koneksyon") at negatibo ("feedback").

Ang lakas ng koneksyon ay direktang nagpapahiwatig kung gaano kapansin-pansin ang magkasanib na pagkakaiba-iba ng mga pinag-aralan na mga variable. Sa sikolohiya, ang functional interconnection ng phenomena ay maaaring empirically revealed lamang bilang probabilistic connection ng mga kaukulang feature. Ang isang visual na representasyon ng likas na katangian ng probabilistikong relasyon ay ibinibigay ng isang scatter diagram - isang graph na ang mga axes ay tumutugma sa mga halaga ng dalawang variable, at ang bawat paksa ay isang punto.

Ang mga coefficient ng ugnayan ay ginagamit bilang isang numerical na katangian ng isang probabilistikong relasyon, ang mga halaga nito ay nag-iiba sa saklaw mula -1 hanggang +1. Pagkatapos ng mga kalkulasyon, ang mananaliksik, bilang panuntunan, ay pipili lamang ng pinakamalakas na ugnayan, na higit na binibigyang kahulugan (Talahanayan 1).

Ang criterion para sa pagpili ng "sapat na malakas" na mga ugnayan ay maaaring ang ganap na halaga ng koepisyent ng ugnayan mismo (mula 0.7 hanggang 1) o ang kamag-anak na halaga ng koepisyent na ito, na tinutukoy ng antas ng istatistikal na kahalagahan (mula 0.01 hanggang 0.1), depende sa laki ng sample. Sa maliliit na sample, para sa karagdagang interpretasyon, mas tama na pumili ng malakas na ugnayan batay sa antas ng istatistikal na kahalagahan. Para sa mga pag-aaral na isinasagawa sa malalaking sample, mas mainam na gamitin ang mga ganap na halaga ng mga coefficient ng ugnayan.

Kaya, ang gawain ng pagsusuri ng ugnayan ay nabawasan sa pagtatatag ng direksyon (positibo o negatibo) at ang anyo (linear, non-linear) ng ugnayan sa pagitan ng iba't ibang mga tampok, pagsukat ng higpit nito, at, sa wakas, pagsuri sa antas ng kahalagahan ng nakuha. mga coefficient ng ugnayan.

Sa kasalukuyan, maraming iba't ibang coefficient ng ugnayan ang nabuo. Ang pinaka ginagamit ay r-Pearson, r-Spearman at τ - Kendall. Ang mga modernong computer statistical program sa menu na "Correlations" ay eksaktong nag-aalok ng tatlong coefficient na ito, at para sa paglutas ng iba pang mga problema sa pananaliksik, ang mga pamamaraan para sa paghahambing ng mga grupo ay inaalok.

Ang pagpili ng paraan para sa pagkalkula ng koepisyent ng ugnayan ay depende sa uri ng sukat kung saan nabibilang ang mga variable (Talahanayan 2).

Para sa mga variable na may pagitan at may nominal na sukat, ang Pearson correlation coefficient (correlation of product moments) ay ginagamit. Kung ang isa man lang sa dalawang variable ay may ordinal na sukat o hindi normal na ipinamamahagi, ginagamit ang rank correlation ng Spearman, o

t-Kendall. Kung ang isa sa dalawang variable ay dichotomous, maaaring gamitin ang point two-series correlation (sa statistical computer program SPSS, hindi available ang posibilidad na ito; sa halip, maaaring gamitin ang kalkulasyon ng rank correlation). Kung ang parehong mga variable ay dichotomous, isang apat na patlang na ugnayan ang ginagamit (ang ganitong uri ng ugnayan ay kinakalkula ng SPSS batay sa kahulugan ng mga sukat ng distansya at mga sukat ng pagkakatulad). Ang pagkalkula ng koepisyent ng ugnayan sa pagitan ng dalawang di-dichotomous na mga variable ay posible lamang kung ang relasyon sa pagitan ng mga ito ay linear (unidirectional). Kung ang koneksyon, halimbawa, U-shaped (ambiguous), ang correlation coefficient ay hindi angkop para sa paggamit bilang isang sukatan ng lakas ng koneksyon: ang halaga nito ay may posibilidad na zero.

Kaya, ang mga kundisyon para sa paglalapat ng mga koepisyent ng ugnayan ay ang mga sumusunod:

  • mga variable na sinusukat sa isang quantitative (ranggo, sukatan) na sukat sa parehong sample ng mga bagay;
  • monotoniko ang ugnayan sa pagitan ng mga variable.

Ang pangunahing istatistikal na hypothesis, na sinusubok sa pamamagitan ng pagsusuri ng ugnayan, ay hindi nakadirekta at naglalaman ng pagsasabi na ang ugnayan ay katumbas ng zero sa pangkalahatang populasyon H 0: r xy= 0. Kung ito ay tinanggihan, ang alternatibong hypothesis ay tinatanggap H 1: r xy≠ 0 tungkol sa pagkakaroon ng positibo o negatibong ugnayan - depende sa tanda ng nakalkulang koepisyent ng ugnayan.

Batay sa pagtanggap o pagtanggi sa mga hypotheses ay nabubuo ang mga makabuluhang konklusyon. Kung, ayon sa mga resulta ng statistical testing H 0: r xy= 0 ay hindi lumihis sa antas a, kung gayon ang makabuluhang konklusyon ay ang mga sumusunod: ang ugnayan sa pagitan X at Y hindi mahanap. Kung sa H 0 r xy= 0 ay lumihis sa antas a, na nangangahulugan na ang isang positibong (negatibong) relasyon ay natagpuan sa pagitan X at Y. Gayunpaman, ang interpretasyon ng ipinahayag na mga ugnayan ay dapat lapitan nang may pag-iingat. Mula sa isang pang-agham na pananaw, ang simpleng pagtatatag ng isang relasyon sa pagitan ng dalawang mga variable ay hindi nagpapahiwatig ng pagkakaroon ng isang sanhi ng relasyon. Bukod dito, ang pagkakaroon ng isang ugnayan ay hindi nagtatag ng isang pagkakasunod-sunod na relasyon sa pagitan ng sanhi at epekto. Ipinapahiwatig lamang nito na ang dalawang variable ay higit na nauugnay sa isa't isa kaysa sa inaasahan mula sa isang pagkakataon. Gayunpaman, nang may pag-iingat, ang paggamit ng mga pamamaraan ng ugnayan sa pag-aaral ng mga ugnayang sanhi ay ganap na makatwiran. Ang mga kategoryang parirala gaya ng "variable X ang dahilan ng pagtaas ng indicator" ay dapat na iwasan. Y". Ang ganitong mga pahayag ay dapat na bumalangkas bilang mga pagpapalagay, na dapat na mahigpit na patunayan ayon sa teorya.

Ang isang detalyadong paglalarawan ng pamamaraan ng matematika para sa bawat koepisyent ng ugnayan ay ibinibigay sa mga aklat-aralin sa mga istatistika ng matematika; ; ; at iba pa. Hihigpitan natin ang ating sarili sa paglalarawan ng posibilidad ng paggamit ng mga coefficient na ito depende sa uri ng sukat ng pagsukat.

Kaugnayan ng Mga Variable ng Sukatan

Upang pag-aralan ang relasyon ng dalawang metric na variable na sinusukat sa parehong sample, ginagamit namin koepisyent ng ugnayan r-Pearson. Ang koepisyent mismo ay nagpapakilala sa pagkakaroon lamang ng isang linear na ugnayan sa pagitan ng mga tampok, kadalasang tinutukoy ng mga simbolo X at Y. Ang linear correlation coefficient ay isang parametric na pamamaraan at ang tamang aplikasyon nito ay posible lamang kung ang mga resulta ng pagsukat ay ipinakita sa isang sukat ng mga agwat, at ang mismong pamamahagi ng mga halaga sa nasuri na mga variable ay naiiba mula sa normal hanggang sa isang maliit na lawak. Maraming sitwasyon kung saan angkop ang paggamit nito. Halimbawa: pagtatatag ng koneksyon sa pagitan ng talino ng isang mag-aaral at ng kanyang akademikong pagganap; sa pagitan ng mood at tagumpay sa pag-alis sa isang problemang sitwasyon; sa pagitan ng antas ng kita at ugali, atbp.

Ang koepisyent ng Pearson ay malawakang ginagamit sa sikolohiya at pedagogy. Halimbawa, sa mga gawa ng I. Ya. Kaplunovich at P. D. Rabinovich, M. P. Nuzhdina, ang pagkalkula ng koepisyent ng ugnayan ng linya ng Pearson ay ginamit upang kumpirmahin ang mga hypotheses na iniharap.

Kapag nagpoproseso ng data "manu-mano", kinakailangan upang kalkulahin ang koepisyent ng ugnayan, at pagkatapos ay matukoy p- antas ng kahalagahan (upang gawing simple ang pag-verify ng data, ginagamit ang mga talahanayan ng mga kritikal na halaga rxy, na pinagsama-sama gamit ang pamantayang ito). Ang halaga ng linear correlation coefficient ng Pearson ay hindi maaaring lumampas sa +1 at mas mababa sa -1. Ang dalawang numerong ito +1 at -1 ay ang mga limitasyon para sa koepisyent ng ugnayan. Kapag ang pagkalkula ay nagreresulta sa isang halaga na mas malaki sa +1 o mas mababa sa -1, ito ay nagpapahiwatig na may naganap na error sa pagkalkula.

Kapag nagkalkula sa isang computer, ang statistical program (SPSS, Statistica) ay sinasamahan ang kinakalkula na koepisyent ng ugnayan na may mas tumpak na halaga p-level.

Para sa isang istatistikal na desisyon sa pagtanggap o pagtanggi H0 karaniwang nakatakda α = 0.05, at para sa malaking dami ng mga obserbasyon (100 o higit pa) α = 0.01. Kung ang p ≤ α, H 0 ay tinanggihan at isang makabuluhang konklusyon ang ginawa na ang isang istatistikal na makabuluhang (makabuluhang) relasyon ay natagpuan sa pagitan ng mga pinag-aralan na mga variable (positibo o negatibo, depende sa tanda ng ugnayan). Kailan p > α, H0 ay hindi tinatanggihan, ang makabuluhang konklusyon ay limitado sa pahayag na ang relasyon (statistikong makabuluhan) ay hindi natagpuan.

Kung walang nakitang koneksyon, ngunit may dahilan upang maniwala na ang koneksyon ay aktwal na umiiral, dapat mong suriin ang mga posibleng dahilan para sa hindi pagiging maaasahan ng koneksyon.

Di-linearity ng komunikasyon– Upang gawin ito, suriin ang dalawang-dimensional na scatter plot. Kung ang relasyon ay hindi linear, ngunit monotoniko, pumunta sa mga ugnayan sa ranggo. Kung ang relasyon ay hindi monotoniko, pagkatapos ay hatiin ang sample sa mga bahagi kung saan ang relasyon ay monotoniko, at kalkulahin ang mga ugnayan nang hiwalay para sa bawat bahagi ng sample, o hatiin ang sample sa magkakaibang mga grupo at pagkatapos ay ihambing ang mga ito ayon sa antas ng pagpapahayag ng ang katangian.

Ang pagkakaroon ng mga outlier at isang binibigkas na kawalaan ng simetrya sa pamamahagi ng isa o parehong mga tampok. Upang gawin ito, kailangan mong tingnan ang mga histogram ng pamamahagi ng dalas ng parehong mga tampok. Kung may mga outlier o asymmetries, ibukod ang mga outlier o lumipat sa mga ugnayan sa ranggo.

Sample na heterogeneity(suriin ang 2D scatterplot). Subukang hatiin ang sample sa mga bahagi kung saan ang relasyon ay maaaring may iba't ibang direksyon.

Kung ang relasyon ay makabuluhan sa istatistika, pagkatapos bago gumawa ng isang makabuluhang konklusyon, kinakailangan na ibukod ang posibilidad ng isang maling ugnayan:

  • koneksyon dahil sa mga outlier. Kung may mga outlier, pumunta sa rank correlations o ibukod ang outlier;
  • ang relasyon ay dahil sa impluwensya ng ikatlong baryabol. Kung mayroong isang katulad na kababalaghan, kinakailangan upang kalkulahin ang ugnayan hindi lamang para sa buong sample, kundi pati na rin para sa bawat pangkat nang hiwalay. Kung ang "ikatlong" variable ay sukatan, kalkulahin ang bahagyang ugnayan.

Bahagyang koepisyent ng ugnayan rxy-z ay kinakalkula kung ito ay kinakailangan upang subukan ang pagpapalagay na ang relasyon sa pagitan ng dalawang mga variable X at Y ay hindi nakasalalay sa impluwensya ng ikatlong baryabol Z. Kadalasan, ang dalawang variable ay nag-uugnay lamang sa isa't isa dahil sa katotohanan na pareho silang nagbabago sa konsiyerto sa ilalim ng impluwensya ng isang ikatlong variable. Sa madaling salita, sa katunayan, walang koneksyon sa pagitan ng mga kaukulang katangian, ngunit lumilitaw ito sa isang istatistikal na relasyon sa ilalim ng impluwensya ng isang karaniwang dahilan. Halimbawa, ang isang karaniwang sanhi ng pagkakaiba-iba sa dalawang variable ay maaaring edad kapag pinag-aaralan ang kaugnayan ng iba't ibang sikolohikal na katangian sa isang pangkat ng iba't ibang edad. Kapag binibigyang-kahulugan ang bahagyang ugnayan sa mga tuntunin ng sanhi, dapat mag-ingat, dahil kung Z nauugnay sa X at kasama ang Y, at ang bahagyang ugnayan rxy-z malapit sa zero, hindi naman nito kailangang sundin iyon Z ay isang karaniwang dahilan para sa X at Y.

Kaugnayan ng mga variable ng ranggo

Kung ang koepisyent ng ugnayan ay hindi katanggap-tanggap sa dami ng data r-Pearson, pagkatapos ay upang subukan ang hypothesis tungkol sa relasyon ng dalawang variable pagkatapos ng paunang pagraranggo, maaaring ilapat ang mga ugnayan r- sibat o τ -Kendalla. Halimbawa, sa isang pag-aaral ng mga psychophysical na katangian ng mga kabataang may talento sa musika ni I. A. Lavochkin, ginamit ang Spearman criterion.

Para sa tamang pagkalkula ng parehong mga coefficient (Spearman at Kendall), ang mga resulta ng mga sukat ay dapat ipakita sa isang sukat ng mga ranggo o pagitan. Walang mga pangunahing pagkakaiba sa pagitan ng mga pamantayang ito, ngunit karaniwang tinatanggap na ang koepisyent ng Kendall ay mas "makabuluhan", dahil sinusuri nito ang mga ugnayan sa pagitan ng mga variable nang mas ganap at detalyado, na pinagbubukod-bukod sa lahat ng posibleng mga pagsusulatan sa pagitan ng mga pares ng mga halaga. Ang koepisyent ng Spearman ay mas tumpak na isinasaalang-alang ang dami ng antas ng pagkakaugnay sa pagitan ng mga variable.

Koepisyent ng ugnayan ng ranggo ng Spearman ay isang non-parametric na analog ng classical na Pearson correlation coefficient, ngunit ang pagkalkula nito ay hindi isinasaalang-alang ang mga indicator na nauugnay sa pamamahagi ng mga inihambing na variable (arithmetic mean at variance), ngunit nagra-rank. Halimbawa, kinakailangan upang matukoy ang ugnayan sa pagitan ng mga pagtatasa ng ranggo ng mga katangian ng personalidad na kasama sa ideya ng isang tao sa kanyang "Ako ay totoo" at "Ako ay perpekto".

Ang Spearman coefficient ay malawakang ginagamit sa sikolohikal na pananaliksik. Halimbawa, sa gawain nina Yu. V. Bushov at N. N. Nesmelova: siya ang ginamit upang pag-aralan ang pag-asa ng katumpakan ng pagtantya at pagpaparami ng tagal ng mga signal ng tunog sa mga indibidwal na katangian ng isang tao.

Dahil ang koepisyent na ito ay kahalintulad r-Pearson, pagkatapos ay ang paggamit nito upang subukan ang mga hypotheses ay katulad ng paggamit ng coefficient r-Pearson. Iyon ay, ang nasubok na istatistikal na hypothesis, ang pamamaraan para sa paggawa ng isang istatistikal na desisyon at ang pagbabalangkas ng isang makabuluhang konklusyon ay pareho. Sa mga programa sa computer (SPSS, Statistica) mga antas ng kahalagahan para sa parehong mga coefficient r-Pearson at r-Spearman laging magkatugma.

Kalamangan sa ratio r-Spearman laban sa ratio r-Pearson - sa higit na sensitivity sa komunikasyon. Ginagamit namin ito sa mga sumusunod na kaso:

  • ang pagkakaroon ng isang makabuluhang paglihis sa pamamahagi ng hindi bababa sa isang variable mula sa normal na anyo (skewness, outliers);
  • ang hitsura ng isang curvilinear (monotonic) na koneksyon.

Paghihigpit para sa paglalapat ng koepisyent r- Ang kay Spearman ay:

  • para sa bawat variable ng hindi bababa sa 5 obserbasyon;
  • ang koepisyent na may malaking bilang ng magkaparehong mga ranggo sa isa o parehong mga variable ay nagbibigay ng isang magaspang na halaga.

Ranggo ng koepisyent ng ugnayan τ -Kendalla ay isang independiyenteng orihinal na pamamaraan batay sa pagkalkula ng ratio ng mga pares ng mga halaga ng dalawang sample na may pareho o magkaibang mga uso (pagtaas o pagbaba ng mga halaga). Ang ratio na ito ay tinatawag din concordance factor. Kaya, ang pangunahing ideya ng pamamaraang ito ay ang direksyon ng koneksyon ay maaaring hatulan sa pamamagitan ng paghahambing ng mga paksa sa mga pares: kung ang isang pares ng mga paksa ay may pagbabago sa X tumutugma sa direksyon sa pagbabago sa Y, ito ay nagpapahiwatig ng isang positibong relasyon, kung hindi pareho - isang negatibong relasyon, halimbawa, sa pag-aaral ng mga personal na katangian na may tiyak na kahalagahan para sa kagalingan ng pamilya. Sa pamamaraang ito, ang isang variable ay kinakatawan bilang isang monotonic sequence (halimbawa, ang data ng asawa) sa pataas na pagkakasunud-sunod ng magnitude; isa pang variable (halimbawa, ang data ng asawa) ay itinalaga ang kaukulang mga lugar ng pagraranggo. Ang bilang ng mga pagbabaligtad (mga paglabag sa monotonicity kumpara sa unang hilera) ay ginagamit sa formula para sa mga coefficient ng ugnayan.

Kapag nagbibilang τ- Ang "manu-manong" na data ng Kendall ay unang inayos ayon sa variable X. Pagkatapos, para sa bawat paksa, kinakalkula kung gaano karaming beses ang kanyang ranggo Y lumalabas na mas mababa sa ranggo ng mga paksa sa ibaba. Ang resulta ay naitala sa hanay ng Mga Tugma. Ang kabuuan ng lahat ng mga halaga sa column na "Coincidence" ay P- ang kabuuang bilang ng mga tugma, ay inihahalili sa formula para sa pagkalkula ng koepisyent ng Kendall, na mas simple sa pagkalkula, ngunit may pagtaas sa sample, sa kaibahan sa r- Spearman, ang dami ng mga kalkulasyon ay hindi tumataas nang proporsyonal, ngunit exponentially. Kaya, halimbawa, kapag N= 12 ito ay kinakailangan upang ayusin sa pamamagitan ng 66 na pares ng mga paksa, at kung kailan N= 489 - mayroon nang 1128 na pares, ibig sabihin, ang halaga ng mga kalkulasyon ay tumataas ng higit sa 17 beses. Kapag nagkalkula sa isang computer sa isang statistical program (SPSS, Statistica), ang Kendall coefficient ay kinakalkula nang katulad sa mga coefficient r-Spearman at r-Pearson. Kinakalkula ang koepisyent ng ugnayan τ -Ang Kendall ay nailalarawan sa pamamagitan ng isang mas tumpak na halaga p-level.

Ang paglalapat ng koepisyent ng Kendall ay mas gusto kung may mga outlier sa orihinal na data.

Ang isang tampok ng rank correlation coefficients ay ang pinakamataas na rank correlations (+1, –1) ay hindi kinakailangang tumutugma sa mahigpit na direkta o inversely proportional na relasyon sa pagitan ng mga orihinal na variable. X at Y: sapat na ang monotonous functional na koneksyon sa pagitan nila. Naaabot ng mga ugnayan ng ranggo ang kanilang pinakamataas na halaga ng modulo kung ang isang mas malaking halaga ng isang variable ay palaging tumutugma sa isang mas malaking halaga ng isa pang variable (+1), o isang mas malaking halaga ng isang variable ay palaging tumutugma sa isang mas maliit na halaga ng isa pang variable at vice versa (–1). ).

Ang istatistikal na hypothesis na susuriin, ang pamamaraan para sa paggawa ng isang istatistikal na desisyon at ang pagbabalangkas ng isang makabuluhang konklusyon ay pareho sa kaso r-Spearman o r-Pearson.

Kung ang isang makabuluhang relasyon sa istatistika ay hindi natagpuan, ngunit may dahilan upang maniwala na talagang mayroong isang relasyon, dapat mo munang pumunta mula sa koepisyent

r-Spearman sa ratio τ -Kendall (o vice versa), at pagkatapos ay suriin ang mga posibleng dahilan para sa hindi pagiging maaasahan ng koneksyon:

  • hindi linearity ng komunikasyon: Para gawin ito, tingnan ang 2D scatter plot. Kung ang relasyon ay hindi monotonous, pagkatapos ay hatiin ang sample sa mga bahagi kung saan ang relasyon ay monotonous, o hatiin ang sample sa magkakaibang mga grupo at pagkatapos ay ihambing ang mga ito ayon sa antas ng pagpapahayag ng sintomas;
  • sample heterogeneity: tumingin sa isang two-dimensional na scatter plot, subukang hatiin ang sample sa mga bahagi kung saan ang relasyon ay maaaring may iba't ibang direksyon.

Kung ang koneksyon ay makabuluhan sa istatistika, pagkatapos ay bago gumawa ng isang makabuluhang konklusyon, kinakailangan na ibukod ang posibilidad ng isang maling ugnayan (sa pamamagitan ng pagkakatulad sa metric correlation coefficients).

Kaugnayan ng mga dichotomous variable

Kapag inihambing ang dalawang variable na sinusukat sa isang dichotomous scale, ang sukatan ng ugnayan ay ang tinatawag na j-factor, na siyang coefficient ng ugnayan para sa dichotomous na data.

Halaga koepisyent φ nasa pagitan ng +1 at -1. Maaari itong maging parehong positibo at negatibo, na nagpapakilala sa direksyon ng koneksyon sa pagitan ng dalawang dichotomously sinusukat na mga tampok. Gayunpaman, ang interpretasyon ng φ ay maaaring magtaas ng mga partikular na problema. Ang dichotomous na data na kasama sa scheme para sa pagkalkula ng koepisyent φ ay hindi mukhang isang dalawang-dimensional na normal na ibabaw, samakatuwid, hindi tama na ipagpalagay na ang mga na-interpret na halaga rxy\u003d 0.60 at φ \u003d 0.60 ay pareho. Ang coefficient φ ay maaaring kalkulahin sa pamamagitan ng coding method, gayundin sa paggamit ng tinatawag na four-field table o contingency table.

Upang mailapat ang koepisyent ng ugnayan φ, dapat matugunan ang mga sumusunod na kundisyon:

  • ang mga katangiang inihahambing ay dapat sukatin sa isang dichotomous scale;
  • X at Y dapat pareho.

Ang ganitong uri ng ugnayan ay kinakalkula sa programa ng kompyuter ng SPSS batay sa kahulugan ng mga sukat ng distansya at mga sukat ng pagkakatulad. Ang ilang mga istatistikal na pamamaraan, tulad ng factor analysis, cluster analysis, multivariate scaling, ay nakabatay sa aplikasyon ng mga hakbang na ito, at kung minsan sila mismo ang nagbibigay ng mga karagdagang posibilidad para sa pagkalkula ng mga sukat ng pagkakatulad.

Kapag ang isang variable ay sinusukat sa isang dichotomous scale (variable X), at ang isa pa sa isang sukat ng mga pagitan o ratios (variable Y), Ginagamit biserial correlation coefficient, halimbawa, kapag sinusuri ang mga hypotheses tungkol sa epekto ng kasarian ng isang bata sa taas at timbang. Ang koepisyent na ito ay nag-iiba sa hanay mula -1 hanggang +1, ngunit ang tanda nito ay hindi mahalaga para sa interpretasyon ng mga resulta. Para sa paggamit nito, ang mga sumusunod na kondisyon ay dapat matugunan:

  • ang mga inihambing na palatandaan ay dapat masukat sa iba't ibang sukat: isa X- sa isang dichotomous scale; isa pa Y– sa isang sukat ng mga pagitan o mga ratio;
  • variable Y ay may normal na batas sa pamamahagi;
  • ang bilang ng iba't ibang feature sa mga inihambing na variable X at Y dapat pareho.

Kung ang variable X sinusukat sa isang dichotomous scale, at ang variable Y sa sukat ng ranggo (variable Y), maaaring gamitin rank-biserial correlation coefficient, na malapit na nauugnay sa τ ni Kendall at gumagamit ng mga konsepto ng coincidence at inversion sa kahulugan nito. Ang interpretasyon ng mga resulta ay pareho.

Ang pagsasagawa ng pagsusuri ng ugnayan gamit ang SPSS at Statistica na mga programa sa kompyuter ay isang simple at maginhawang operasyon. Upang gawin ito, pagkatapos tawagan ang dialog box ng Bivariate Correlations (Analyze> Correlate> Bivariate ...), kailangan mong ilipat ang mga variable na pinag-aaralan sa field na Mga Variable at piliin ang paraan kung saan matutukoy ang ugnayan sa pagitan ng mga variable. Ang resultang output file ay naglalaman ng parisukat na talahanayan (Correlations) para sa bawat kinakalkulang pamantayan. Ang bawat cell ng talahanayan ay naglalaman ng: ang mismong halaga ng koepisyent ng ugnayan (Correlation Coefficient), ang istatistikal na kahalagahan ng kinakalkula na koepisyent na Sig, ang bilang ng mga paksa.

Ang heading at side column ng resultang correlation table ay naglalaman ng mga pangalan ng mga variable. Ang dayagonal (kaliwang itaas - kanang sulok sa ibaba) ng talahanayan ay binubuo ng mga yunit, dahil ang ugnayan ng anumang variable sa sarili nito ay maximum. Ang talahanayan ay simetriko tungkol sa dayagonal na ito. Kung ang checkbox na "Markahan ang mga makabuluhang ugnayan" ay naka-check sa programa, ang mga istatistikal na makabuluhang coefficient ay mamarkahan sa huling talahanayan ng ugnayan: sa antas ng 0.05 at mas mababa - na may isang asterisk (*), at sa antas ng 0.01 - na may dalawang asterisk (**).

Kaya, upang ibuod: ang pangunahing layunin ng pagsusuri ng ugnayan ay upang matukoy ang kaugnayan sa pagitan ng mga variable. Ang sukatan ng koneksyon ay ang mga coefficient ng ugnayan, ang pagpili kung saan direktang nakasalalay sa uri ng sukat kung saan sinusukat ang mga variable, ang bilang ng iba't ibang mga tampok sa pinaghambing na mga variable, at ang pamamahagi ng mga variable. Ang pagkakaroon ng isang ugnayan sa pagitan ng dalawang variable ay hindi nangangahulugan na mayroong isang sanhi ng relasyon sa pagitan ng mga ito. Kahit na ang ugnayan ay hindi direktang nagpapahiwatig ng sanhi, maaari itong maging isang palatandaan sa mga sanhi. Sa batayan nito, maaaring mabuo ang mga hypotheses. Sa ilang mga kaso, ang kakulangan ng ugnayan ay may mas malalim na epekto sa hypothesis ng causality. Ang zero correlation ng dalawang variable ay maaaring magpahiwatig na walang impluwensya ng isang variable sa isa pa.

TRABAHO NG KURSO

Paksa: Pagsusuri ng ugnayan

Panimula

1. Pagsusuri ng ugnayan

1.1 Ang konsepto ng ugnayan

1.2 Pangkalahatang pag-uuri ng mga ugnayan

1.3 Mga patlang ng ugnayan at ang layunin ng kanilang pagtatayo

1.4 Mga yugto ng pagsusuri ng ugnayan

1.5 Mga koepisyent ng ugnayan

1.6 Normalized Bravais-Pearson correlation coefficient

1.7 Koepisyent ng ugnayan ng ranggo ng Spearman

1.8 Mga pangunahing katangian ng mga coefficient ng ugnayan

1.9 Sinusuri ang kahalagahan ng mga koepisyent ng ugnayan

1.10 Mga kritikal na halaga ng coefficient ng ugnayan ng pares

2. Pagpaplano ng multivariate na eksperimento

2.1 Kondisyon ng problema

2.2 Pagpapasiya ng sentro ng plano (pangunahing antas) at ang antas ng pagkakaiba-iba ng mga salik

2.3 Pagbuo ng planning matrix

2.4 Sinusuri ang homogeneity ng dispersion at ang pantay na katumpakan ng mga sukat sa iba't ibang serye

2.5 Coefficients ng regression equation

2.6 Pagpapakalat ng reproducibility

2.7 Sinusuri ang kahalagahan ng mga coefficient ng equation ng regression

2.8 Sinusuri ang kasapatan ng equation ng regression

Konklusyon

Bibliograpiya

PANIMULA

Ang pagpaplano ng eksperimento ay isang matematikal at istatistikal na disiplina na nag-aaral ng mga pamamaraan ng rasyonal na organisasyon ng eksperimentong pananaliksik - mula sa pinakamainam na pagpili ng mga pinag-aralan na mga kadahilanan at ang pagpapasiya ng aktwal na plano ng eksperimento alinsunod sa layunin nito hanggang sa mga pamamaraan para sa pagsusuri ng mga resulta. Ang simula ng pagpaplano ng eksperimento ay inilatag ng mga gawa ng English statistician na si R. Fisher (1935), na nagbigay-diin na ang nakapangangatwiran na pagpaplano ng eksperimento ay nagbibigay ng hindi gaanong makabuluhang pakinabang sa katumpakan ng mga pagtatantya kaysa sa pinakamainam na pagproseso ng mga resulta ng pagsukat. Noong dekada 60 ng ika-20 siglo, lumitaw ang isang modernong teorya ng pagpaplano ng eksperimento. Ang mga pamamaraan nito ay malapit na nauugnay sa teorya ng approximation ng mga function at mathematical programming. Ang mga pinakamainam na plano ay binuo at ang kanilang mga ari-arian ay sinisiyasat para sa isang malawak na klase ng mga modelo.

Ang pagpaplano ng eksperimento ay ang pagpili ng isang plano sa eksperimento na nakakatugon sa mga tinukoy na kinakailangan, isang hanay ng mga aksyon na naglalayong bumuo ng isang diskarte sa pag-eksperimento (mula sa pagkuha ng isang priori na impormasyon hanggang sa pagkuha ng isang magagamit na modelo ng matematika o pagtukoy ng mga pinakamainam na kondisyon). Ito ay isang may layunin na kontrol ng eksperimento, na ipinatupad sa mga kondisyon ng hindi kumpletong kaalaman sa mekanismo ng hindi pangkaraniwang bagay na pinag-aaralan.

Sa proseso ng mga sukat, ang kasunod na pagproseso ng data, pati na rin ang pormalisasyon ng mga resulta sa anyo ng isang modelo ng matematika, ang mga error ay nangyayari at ang bahagi ng impormasyon na nilalaman sa orihinal na data ay nawala. Ang paggamit ng mga pamamaraan sa pagpaplano ng eksperimento ay ginagawang posible upang matukoy ang pagkakamali ng modelo ng matematika at hatulan ang kasapatan nito. Kung ang katumpakan ng modelo ay hindi sapat, kung gayon ang paggamit ng mga pamamaraan sa pagpaplano ng eksperimento ay ginagawang posible na gawing makabago ang modelo ng matematika na may karagdagang mga eksperimento nang hindi nawawala ang nakaraang impormasyon at sa minimal na gastos.

Ang layunin ng pagpaplano ng eksperimento ay upang mahanap ang mga naturang kundisyon at mga patakaran para sa pagsasagawa ng mga eksperimento kung saan posible na makakuha ng maaasahan at maaasahang impormasyon tungkol sa bagay na may pinakamababang gastos sa paggawa, pati na rin ipakita ang impormasyong ito sa isang compact at maginhawang anyo na may isang quantitative. pagtatasa ng katumpakan.

Kabilang sa mga pangunahing pamamaraan ng pagpaplano na ginamit sa iba't ibang yugto ng pag-aaral, ang mga sumusunod ay ginagamit:

Pagpaplano ng isang eksperimento sa screening, ang pangunahing kahulugan nito ay ang pagpili ng isang pangkat ng mga makabuluhang salik mula sa kabuuan ng mga salik na napapailalim sa karagdagang detalyadong pag-aaral;

Pagdidisenyo ng isang eksperimento para sa pagsusuri ng pagkakaiba, i.e. pagguhit ng mga plano para sa mga bagay na may husay na mga kadahilanan;

Pagpaplano ng eksperimento sa regression na nagbibigay-daan sa iyong makakuha ng mga modelo ng regression (polynomial at iba pa);

Pagpaplano ng isang matinding eksperimento, kung saan ang pangunahing gawain ay ang pang-eksperimentong pag-optimize ng bagay ng pag-aaral;

Pagpaplano sa pag-aaral ng mga dinamikong proseso, atbp.

Ang layunin ng pag-aaral ng disiplina ay ihanda ang mga mag-aaral para sa produksyon at teknikal na aktibidad sa espesyalidad gamit ang mga pamamaraan ng teorya ng pagpaplano at mga modernong teknolohiya ng impormasyon.

Mga layunin ng disiplina: ang pag-aaral ng mga modernong pamamaraan ng pagpaplano, pag-aayos at pag-optimize ng mga eksperimento sa siyensya at pang-industriya, pagsasagawa ng mga eksperimento at pagproseso ng mga resulta.

1. PAGSUSURI NG KORELASYON

1.1 Ang konsepto ng ugnayan

Madalas na interesado ang mananaliksik sa kung paano nauugnay ang dalawa o higit pang mga variable sa isa't isa sa isa o higit pa sa mga pinag-aralan na sample. Halimbawa, makakaapekto ba ang taas sa timbang ng isang tao, o makakaapekto ba ang pressure sa kalidad ng produkto?

Ang ganitong uri ng ugnayan sa pagitan ng mga variable ay tinatawag na ugnayan, o ugnayan. Ang isang ugnayan ay isang pare-parehong pagbabago sa dalawang tampok, na nagpapakita ng katotohanan na ang pagkakaiba-iba ng isang tampok ay naaayon sa pagkakaiba-iba ng isa pa.

Ito ay kilala, halimbawa, na sa karaniwan ay may positibong ugnayan sa pagitan ng taas ng mga tao at ng kanilang timbang, at tulad na kung mas malaki ang taas, mas malaki ang bigat ng isang tao. Gayunpaman, may mga pagbubukod sa panuntunang ito kapag ang mga medyo maikling tao ay sobra sa timbang, at, sa kabaligtaran, ang mga asthenic, na may mataas na paglaki, ay magaan. Ang dahilan para sa mga naturang pagbubukod ay ang bawat biyolohikal, pisyolohikal o sikolohikal na katangian ay tinutukoy ng impluwensya ng maraming mga kadahilanan: kapaligiran, genetic, panlipunan, ekolohikal, atbp.

Ang mga ugnayan ay mga probabilistikong pagbabago na maaari lamang pag-aralan sa mga kinatawan ng sample sa pamamagitan ng mga pamamaraan ng matematikal na istatistika. Ang parehong mga termino - ugnayan at pag-asa sa ugnayan - ay kadalasang ginagamit nang palitan. Ang pag-asa ay nangangahulugang impluwensya, koneksyon - anumang pinag-ugnay na pagbabago na maaaring ipaliwanag ng daan-daang dahilan. Ang mga ugnayan ay hindi maaaring ituring bilang katibayan ng isang sanhi na relasyon, ipinapahiwatig lamang nila na ang mga pagbabago sa isang tampok, bilang panuntunan, ay sinamahan ng ilang mga pagbabago sa isa pa.

Pagdepende sa ugnayan - Ito ang mga pagbabago na ginagawa ng mga halaga ng isang tampok sa posibilidad ng paglitaw ng iba't ibang mga halaga ng isa pang tampok.

Ang gawain ng pagsusuri ng ugnayan ay nabawasan sa pagtatatag ng direksyon (positibo o negatibo) at ang anyo (linear, non-linear) ng ugnayan sa pagitan ng iba't ibang mga tampok, pagsukat ng higpit nito, at, sa wakas, pagsuri sa antas ng kahalagahan ng nakuha na ugnayan. coefficients.

Ang mga ugnayan ay naiiba sa anyo, direksyon at antas (lakas) .

Ang hugis ng ugnayan ay maaaring rectilinear o curvilinear. Halimbawa, ang ugnayan sa pagitan ng bilang ng mga sesyon ng pagsasanay sa simulator at ang bilang ng mga tamang nalutas na problema sa control session ay maaaring maging diretso. Ang curvilinear ay maaaring, halimbawa, ang kaugnayan sa pagitan ng antas ng pagganyak at ang pagiging epektibo ng gawain (Larawan 1). Sa pagtaas ng pagganyak, ang kahusayan ng gawain ay unang tumataas, pagkatapos ay naabot ang pinakamainam na antas ng pagganyak, na tumutugma sa pinakamataas na kahusayan ng gawain; ang karagdagang pagtaas sa pagganyak ay sinamahan ng pagbaba ng kahusayan.

Figure 1 - Ang kaugnayan sa pagitan ng pagiging epektibo ng paglutas ng problema at ang lakas ng motivational tendency

Sa direksyon, ang ugnayan ay maaaring positibo ("direkta") at negatibo ("reverse"). Sa isang positibong ugnayan ng tuwid na linya, ang mas mataas na mga halaga ng isang katangian ay tumutugma sa mas mataas na mga halaga ng isa pa, at ang mas mababang mga halaga ng isang katangian ay tumutugma sa mga mababang halaga ng isa pa (Larawan 2). Sa isang negatibong ugnayan, ang mga ratio ay nababaligtad (Larawan 3). Sa isang positibong ugnayan, ang koepisyent ng ugnayan ay may positibong tanda, na may negatibong ugnayan - isang negatibong tanda.

Figure 2 - Direktang ugnayan

Figure 3 - Baliktad na ugnayan


Figure 4 - Walang ugnayan

Ang antas, lakas o higpit ng ugnayan ay tinutukoy ng halaga ng koepisyent ng ugnayan. Ang lakas ng koneksyon ay hindi nakasalalay sa direksyon nito at tinutukoy ng ganap na halaga ng koepisyent ng ugnayan.

1.2 Pangkalahatang pag-uuri ng mga ugnayan

Depende sa koepisyent ng ugnayan, ang mga sumusunod na ugnayan ay nakikilala:

Malakas o malapit sa correlation coefficient r>0.70;

Katamtaman (sa 0.50

Katamtaman (sa 0.30

Mahina (sa 0.20

Napakahina (sa r<0,19).

1.3 Mga patlang ng ugnayan at ang layunin ng kanilang pagtatayo

Ang ugnayan ay pinag-aralan batay sa pang-eksperimentong data, na kung saan ay ang mga sinusukat na halaga (x i , y i) ng dalawang tampok. Kung mayroong maliit na pang-eksperimentong data, ang dalawang-dimensional na empirikal na pamamahagi ay kinakatawan bilang isang dobleng serye ng mga halaga ng x i at y i. Sa kasong ito, ang ugnayan sa pagitan ng mga tampok ay maaaring ilarawan sa iba't ibang paraan. Ang pagsusulatan sa pagitan ng isang argumento at isang function ay maaaring ibigay ng isang talahanayan, formula, graph, atbp.

Ang pagsusuri ng ugnayan, tulad ng iba pang mga istatistikal na pamamaraan, ay batay sa paggamit ng mga probabilistikong modelo na naglalarawan sa pag-uugali ng mga pinag-aralan na tampok sa isang tiyak na pangkalahatang populasyon, kung saan nakuha ang mga pang-eksperimentong halaga x i at y i. Kapag ang ugnayan sa pagitan ng mga quantitative na katangian, ang mga halaga nito ay maaaring tumpak na masukat sa mga yunit ng panukat na kaliskis (metro, segundo, kilo, atbp.), Ang modelo ng isang dalawang-dimensional na karaniwang ipinamamahaging pangkalahatang populasyon ay napakadalas. pinagtibay. Ang ganitong modelo ay nagpapakita ng ugnayan sa pagitan ng mga variable x i at y i bilang isang locus ng mga puntos sa isang rectangular coordinate system. Ang graphical na dependence na ito ay tinatawag ding scatterplot o correlation field.
Ang modelong ito ng isang two-dimensional na normal na distribution (correlation field) ay nagbibigay-daan sa iyong magbigay ng visual graphical na interpretasyon ng correlation coefficient, dahil ang pamamahagi sa pinagsama-samang pamamahagi ay nakasalalay sa limang mga parameter: μ x , μ y - average na mga halaga (mga inaasahan sa matematika); Ang σ x ,σ y ay ang standard deviations ng random variables X at Y at p ay ang correlation coefficient, na isang sukatan ng relasyon sa pagitan ng random variable X at Y.
Kung p \u003d 0, kung gayon ang mga halaga, x i, y i, na nakuha mula sa isang dalawang-dimensional na normal na hanay, ay matatagpuan sa graph sa x, y na mga coordinate sa loob ng lugar na nalilimitahan ng isang bilog (Larawan 5, a). Sa kasong ito, walang ugnayan sa pagitan ng mga random na variable X at Y at ang mga ito ay tinatawag na uncorrelated. Para sa isang dalawang-dimensional na normal na distribusyon, ang kawalan ng pagkakaugnay ay nangangahulugan ng kasabay na kalayaan ng mga random na variable na X at Y.

Ang konsepto ng relasyon ay karaniwan sa sikolohikal na pananaliksik. Ang isang psychologist ay kailangang gumana dito kapag ito ay kinakailangan upang ihambing ang mga sukat ng dalawa o higit pang mga tagapagpahiwatig ng mga palatandaan o phenomena upang makagawa ng anumang mga konklusyon.

Ang likas na katangian ng ugnayan sa pagitan ng mga pinag-aralan na phenomena ay maaaring hindi malabo, i.e. tulad kapag ang isang tiyak na halaga ng isang katangian ay tumutugma sa isang malinaw at tiyak na halaga ng isa pa. Kaya, halimbawa, sa subtest para sa paghahanap para sa mga pattern ng mga pagsubok ng mga pag-andar ng kaisipan, ang bilang ng mga "raw" na puntos na nakapuntos ay tinutukoy ng formula:
Xi \u003d Stz - Soz / Stz + Spz * Sbc,
kung saan ang Xi ay ang halaga ng mga variant, ang Sтз ay ang bilang ng isang priori na tinukoy na mga pattern (correspondences) sa subtest, ang Soz ay ang bilang ng mga maling ipinahiwatig na mga tugma sa mga paksa, ang Soz ay ang bilang ng mga hindi tinukoy (nawawalang) tugma sa mga paksa , Sbc ay ang bilang ng lahat ng salita na tiningnan ng mga paksa sa pagsusulit.

Ang ganitong relasyon ay tinatawag na functional: dito ang isang indicator ay isang function ng isa pa, na isang argumento na may kaugnayan sa una.

Gayunpaman, ang isang malinaw na relasyon ay hindi palaging matatagpuan. Mas madalas ang isang tao ay kailangang harapin ang isang sitwasyon kung saan ang isang halaga ng isang tampok ay maaaring tumutugma sa ilang mga halaga ng isa pa. Ang mga halagang ito ay nag-iiba sa loob ng higit pa o hindi gaanong tinukoy na mga hangganan. Ang ganitong uri ng relasyon ay tinatawag na ugnayan o ugnayan.

Maraming uri ng mga expression ng ugnayan ang ginagamit. Kaya, upang ipahayag ang ugnayan sa pagitan ng mga tampok na may quantitative na katangian ng pagkakaiba-iba ng kanilang mga halaga, ang mga sukat ng sentral na tendensya ay ginagamit: tabulasyon na sinusundan ng pagkalkula ng koepisyent ng ugnayan ng pares, ang koepisyent ng maramihang at bahagyang ugnayan, ang koepisyent ng maramihang pagpapasiya, ang ratio ng ugnayan.

Kung kinakailangan na pag-aralan ang ugnayan sa pagitan ng mga tampok, ang pagkakaiba-iba nito ay isang katangian ng husay (ang mga resulta ng mga projective na pamamaraan ng pagsasaliksik ng personalidad, pag-aaral gamit ang Semantic Differential method, pag-aaral gamit ang Open Scales, atbp.), pagkatapos ay gamitin ang qualitative alternatibong koepisyent ng ugnayan (tetrachoric indicator), Pearson's criterion x2, indicators of contingency (contingency) ng Pearson at Chuprov.

Upang matukoy ang qualitative-quantitative correlation, i.e. tulad ng isang ugnayan, kapag ang isang sign ay may isang husay na pagkakaiba-iba, at ang iba pa - dami. Ang mga espesyal na pamamaraan ay ginagamit.

Ang koepisyent ng ugnayan (ang termino ay unang ipinakilala ni F. Galton noong 1888) ay isang tagapagpahiwatig ng lakas ng ugnayan sa pagitan ng dalawang maihahambing na (mga) sample na opsyon. Anuman ang formula na ginamit upang kalkulahin ang koepisyent ng ugnayan, ang halaga nito ay mula -1 hanggang +1. Sa kaso ng isang kumpletong positibong ugnayan, ang koepisyent na ito ay katumbas ng plus 1, at sa kaso ng isang kumpletong negatibong ugnayan, ito ay minus 1. Ito ay karaniwang isang tuwid na linya na dumadaan sa mga punto ng intersection ng mga halaga ng bawat pares ng data.

Kung ang mga variant na halaga ay hindi nakahanay sa isang tuwid na linya, ngunit bumubuo ng isang "ulap", kung gayon ang ganap na halaga ng koepisyent ng ugnayan ay magiging mas mababa sa isa at, habang ang "ulap" ay bilugan, lumalapit sa zero. Kung ang koepisyent ng ugnayan ay 0, ang parehong mga opsyon ay ganap na independyente sa bawat isa.

Anumang kinakalkula (empirical) na halaga ng koepisyent ng ugnayan ay dapat suriin para sa bisa (kabuluhang istatistika) laban sa naaangkop na mga talahanayan ng mga kritikal na halaga ng koepisyent ng ugnayan. Kung ang empirical value ay mas mababa sa o katumbas ng tabulated value para sa 5 percent level (P = 0.05), ang correlation ay hindi makabuluhan. Kung ang kinakalkula na halaga ng koepisyent ng ugnayan ay mas malaki kaysa sa naka-tabulate na halaga para sa P = 0.01, kung gayon ang ugnayan ay makabuluhan sa istatistika (makabuluhan).

Sa kaso kapag ang halaga ng koepisyent ay nasa pagitan ng 0.05 > P > 0.01, sa pagsasagawa ay nagsasalita ang isa tungkol sa kahalagahan ng ugnayan para sa P = 0.05.

Ang Bravais-Pearson correlation coefficient (r) ay isang parametric indicator na iminungkahi noong 1896, para sa pagkalkula kung saan inihahambing ang arithmetic mean at mean square values ​​ng variant. Upang kalkulahin ang coefficient na ito, ginagamit ang sumusunod na formula (maaaring iba ang hitsura nito para sa iba't ibang mga may-akda):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

kung saan E Xi Xi1 - ang kabuuan ng mga produkto ng mga halaga ng pairwise na maihahambing na mga opsyon, n ay ang bilang ng mga pinaghahambing na pares, NXap, X1ap - arithmetic mean na mga opsyon Xi, Xi; ayon sa pagkakabanggit, Qx, Qx, - karaniwang paglihis ng mga distribusyon x at x.

Ang Spearman rank correlation coefficient Rs (rank correlation coefficient, Spearman coefficient) ay ang pinakasimpleng anyo ng correlation coefficient at sinusukat ang relasyon sa pagitan ng mga ranggo (lugar) ng isang partikular na variant sa iba't ibang batayan, nang hindi isinasaalang-alang ang sarili nitong halaga. Dito mas qualitative ang relationship kaysa quantitative.

Kadalasan ang non-parametric na pagsubok na ito ay ginagamit sa mga kaso kung saan kinakailangan na gumawa ng mga konklusyon hindi tungkol sa pagitan ng data kundi tungkol sa kanilang mga ranggo, at gayundin kapag ang mga curve ng pamamahagi ay lubhang asymmetric at hindi pinapayagan ang paggamit ng mga parametric na pagsubok bilang ang Bravais-Pearson correlation coefficient (sa mga ito Sa ilang mga kaso, maaaring kailanganin na i-convert ang dami ng data sa ordinal na data). Kung ang coefficient Rs ay malapit sa +1, nangangahulugan ito na ang dalawang row ng sample na niraranggo ayon sa ilang mga katangian ay halos magkasabay, at kung ang coefficient na ito ay malapit sa - 1, maaari nating pag-usapan ang tungkol sa isang kumpletong kabaligtaran na relasyon.

Tulad ng pagkalkula ng koepisyent ng ugnayan ng Bravais-Pearson, mas maginhawang ipakita ang mga kalkulasyon ng koepisyent ng Rs sa anyong tabular.

Isinasaalang-alang ng regression ang konsepto ng isang functional na relasyon sa kaso ng isang stochastic (probabilistic) na katangian ng relasyon sa pagitan ng mga halaga ng isang variant. Ang layunin ng paglutas ng kategorya ng mga problema sa regression ay upang tantiyahin ang halaga ng tuluy-tuloy na pagkakaiba-iba ng output mula sa mga halaga ng mga variant ng input.