Parametric at non-parametric na pamamaraan ng mga istatistika. Parametric at non-parametric na pamamaraan para sa pagtatasa ng istatistikal na data

Ang pangkalahatang diskarte para sa pagsusuri ng mga istatistikal na hypotheses na tinalakay sa itaas ay pangunahing tumutukoy sa paggamit ng tinatawag na parametric na mga pamamaraan ng matematikal na istatistika.

Parametric na pamamaraan ay batay sa ilan, bilang isang panuntunan, medyo malamang na mga pagpapalagay tungkol sa likas na katangian ng pamamahagi ng isang random na variable. Karaniwan, ang mga parametric na pamamaraan na ginagamit sa pagsusuri ng pang-eksperimentong data ay batay sa pagpapalagay na ang distribusyon ng mga datos na ito ay normal. Ang kahihinatnan ng pagpapalagay na ito ay ang pangangailangang tantiyahin ang mga parameter ng pamamahagi sa ilalim ng pag-aaral. Kaya, sa kaso ng mga sumusunod t -Ang pagsusulit ng mag-aaral tulad ng mga tinantyang parameter ay ang mathematical na inaasahan at pagkakaiba. Sa ilang mga kaso, ang mga karagdagang pagpapalagay ay ginawa tungkol sa kung paano ang mga parameter na nagpapakilala sa pamamahagi ng isang random na variable sa iba't ibang mga sample ay nauugnay sa isa't isa. Kaya, sa pagsusulit ng Estudyante, na kadalasang ginagamit upang ihambing ang mga average na halaga (pag-asa) ng dalawang serye ng data para sa kanilang homogeneity o heterogeneity, isang karagdagang pagpapalagay ay ginawa tungkol sa homogeneity ng mga pagkakaiba-iba ng pamamahagi ng mga random na variable sa dalawang pangkalahatang populasyon kung saan kinuha ang mga datos na ito.

Ang bentahe ng parametric data analysis method ay ang katotohanan na mayroon silang medyo mataas na kapangyarihan. Sa ilalim pagsubok ng kapangyarihan nangangahulugan ng kakayahang maiwasan ang mga pagkakamali ng pangalawang uri, o mga β-error. Kung mas maliit ang β-error, mas mataas ang kapangyarihan ng pagsubok. Sa madaling salita, test power = 1 - β.

Ang mataas na kapangyarihan ng mga parametric test, o pamantayan, ay dahil sa katotohanan na ang mga pamamaraang ito ay nangangailangan na ang magagamit na data ay inilarawan sa sukatan ng panukat. Tulad ng alam mo, kasama sa mga sukatan ng panukat ang sukat ng pagitan at ang sukat ng ratio, na kung minsan ay tinatawag ding ganap na sukat. Interval scale nagbibigay-daan sa mananaliksik na malaman hindi lamang ang mga relasyon ng pagkakapantay-pantay o hindi pagkakapantay-pantay ng mga elemento ng sample (tulad ng pinapayagan nitong gawin sukat ng pangalan ) at hindi lamang mga relasyon sa pagkakasunud-sunod (tulad ng pinapayagan nitong gawin sukat ng order ), ngunit suriin din ang pagkakapareho ng mga pagitan. Ganap na sukat bilang karagdagan dito, pinapayagan ka nitong suriin ang pagkakapareho ng mga relasyon sa pagitan ng mga elemento ng set na nakuha sa panahon ng pagsukat. Iyon ang dahilan kung bakit ang mga panukat na kaliskis ay tinutukoy bilang malakas na mga sukat sa pagsukat. Dahil sa kapangyarihang ito, ang mga parametric na pamamaraan ay nagbibigay-daan sa mas tumpak na pagpapahayag ng mga pagkakaiba sa pamamahagi ng isang random na variable sa ilalim ng kondisyon na ang bullet o mga alternatibong hypotheses ay totoo.

Dapat ding tandaan na, sa pangkalahatan, ang mga parametric na pamamaraan ng mga istatistika ay mas binuo sa teorya ng mga istatistika ng matematika at samakatuwid ay ginagamit nang mas malawak. Halos anumang pang-eksperimentong resulta ay maaaring masuri gamit ang alinman sa mga pamamaraang ito. Ang mga pamamaraang ito ang pangunahing isinasaalang-alang sa mga aklat-aralin at manwal sa pagsusuri ng istatistikal na datos.

Kasabay nito, ang mga paghihirap na nauugnay sa paggamit ng mga parametric analysis na pamamaraan sa mga istatistika ay na sa ilang mga kaso ang isang priori na pagpapalagay tungkol sa likas na katangian ng pamamahagi ng mga random na variable sa ilalim ng pag-aaral ay maaaring maging mali. At ang mga kasong ito ay napaka tipikal para sa sikolohikal na pananaliksik sa ilang mga sitwasyon.

Kaya, kung ihahambing natin ang dalawang sample gamit t -Pagsusuri ng mag-aaral, makikita mo na ang distribusyon ng aming data ay naiiba sa normal, at ang mga pagkakaiba sa dalawang sample ay malaki ang pagkakaiba. Sa kasong ito, ang paggamit ng isang parametric na pagsusulit ng Mag-aaral ay maaaring, sa ilang mga lawak, ay masira ang mga konklusyon na nais iguhit ng mananaliksik. Ang panganib na ito ay tumataas kung ang mga halaga ng kinakalkula na mga istatistika ay lumalabas na malapit sa mga halaga ng hangganan ng mga dami na ginagamit upang tanggapin o tanggihan ang mga hypotheses. Sa karamihan ng mga kaso, gayunpaman, bilang, halimbawa, sa kaso ng paggamit t -test, ang ilang mga paglihis mula sa theoretically given assumptions ay hindi kritikal para sa maaasahang statistical inference. Sa ibang mga kaso, ang mga naturang paglihis ay maaaring magdulot ng seryosong banta sa naturang konklusyon. Pagkatapos ang mga mananaliksik ay maaaring bumuo ng mga espesyal na pamamaraan na maaaring ayusin ang pamamaraan ng paggawa ng desisyon tungkol sa katotohanan ng mga istatistikal na hypotheses. Ang layunin ng mga pamamaraang ito ay iwasan o i-relax ang labis na mahigpit na mga kinakailangan ng mga parametric na modelo ng mga istatistikang ginamit.

Ang isa sa mga pagpipilian para sa mga naturang aksyon ng mananaliksik, kapag natuklasan niya na ang data na natanggap niya ay naiiba sa mga parameter nito mula sa tinukoy sa istrukturang modelo ng parametric na pagsubok na ginamit, ay maaaring subukang baguhin ang data na ito sa nais na anyo. Halimbawa, gaya ng nabanggit sa Chap. 1, kapag sinusukat ang oras ng reaksyon, posible na maiwasan ang isang mataas na halaga ng kawalaan ng simetrya ng pamamahagi nito kung ang mga logarithms ng nakuha na mga halaga ay ginagamit para sa pagsusuri, at hindi ang mga halaga ng oras ng reaksyon mismo.

Ang isa pang pagpipilian ay ang pagtanggi na gumamit ng anumang apriori na pagpapalagay tungkol sa katangian ng pamamahagi ng isang random na variable sa pangkalahatang populasyon. At nangangahulugan ito ng pagtanggi sa mga parametric na pamamaraan ng mga istatistika ng matematika na pabor sa mga hindi parametric.

Nonparametric ay tinatawag na mga pamamaraan ng mathematical statistics, kung saan walang apriori na pagpapalagay na ginawa tungkol sa likas na katangian ng pamamahagi ng data na pinag-aaralan at walang mga pagpapalagay na ginawa tungkol sa ratio ng mga parameter ng pamamahagi ng mga nasuri na halaga. Ito ang pangunahing bentahe ng mga pamamaraang ito.

Ang bentahe ng mga hindi parametric na istatistika ay ganap na nahayag kapag ang mga resulta na nakuha sa eksperimento ay ipinakita sa isang mas mahinang anyo. di-sukat na sukat, kumakatawan sa mga resulta ng pagraranggo. Ang ganitong sukat ay tinatawag sukat ng order. Siyempre, sa ilang mga kaso, maaaring i-convert ng mananaliksik ang mga data na ito sa isang mas malakas na sukat ng agwat gamit ang mga pamamaraan ng normalisasyon ng data, ngunit, bilang panuntunan, ang pinakamahusay na pagpipilian sa sitwasyong ito ay ang paggamit ng mga nonparametric na pagsubok na espesyal na idinisenyo para sa pagsusuri sa istatistika.

Bilang isang patakaran, ang mga pagsubok ng mga hindi parametric na istatistika ay nagsasangkot ng pagtantya sa mga magagamit na ratio ng mga kabuuan ng ranggo sa dalawa o higit pang mga sample, at batay dito, ang isang konklusyon ay nabuo tungkol sa ratio ng mga sample na ito. Ang mga halimbawa ng naturang pagsusulit ay sign test, nilagdaan ni Wilcoxon ang rank test, pati na rin ang Mann U-test whitney, na ginagamit bilang isang analogue ng parametric t -Pagsusulit ng mag-aaral.

Kasabay nito, kung ang mga resulta ng pagsukat ay ipinakita sa isang mas malakas na sukat, ang paggamit ng mga hindi parametric na istatistika ay nangangahulugan ng pagtanggi sa ilan sa mga impormasyong nakapaloob sa data. Ang kinahinatnan nito ay ang panganib ng pagtaas ng pagkakamali ng pangalawang uri na likas sa mga pamamaraang ito.

Kaya, ang mga pamamaraan ng hindi parametric na istatistika ay mas konserbatibo kaysa sa mga pamamaraan ng parametric na istatistika. Ang kanilang paggamit ay nagbabanta sa isang mas malaking lawak na may isang error ng pangalawang uri, i.e. isang sitwasyon kung saan ang mananaliksik, halimbawa, ay hindi makakakita ng mga pagkakaiba sa pagitan ng dalawang sample, kapag ang gayong mga pagkakaiba ay aktwal na nagaganap. Sa madaling salita, ang mga ganitong pamamaraan ay lumalabas na hindi gaanong makapangyarihan kaysa sa mga parametric na pamamaraan. Samakatuwid, ang paggamit ng mga parametric na istatistika sa pagsusuri ng pang-eksperimentong data maliban sa simpleng pagraranggo ay karaniwang ginustong.

Kapag nilulutas ang mga isyu ng pagbuo ng mga modelo ng mga system, ang gawain ng pagbuo ng paunang impormasyon tungkol sa mga parameter ng mga elemento na bumubuo sa system ay may partikular na kaugnayan. Ang katumpakan at pagiging maaasahan ng paunang impormasyon ay tumutukoy sa katumpakan ng mga pagtatantya ng nasuri na mga katangian ng mga system, ang katumpakan ng mga kalkulasyon para sa pag-optimize ng mga diskarte ng paggana at ang mga patakaran para sa kanilang pagpapanatili, paglutas ng mga problema na may kaugnayan sa paghula sa pag-uugali ng system sa hinaharap , at iba pang isyu. Kapag bumubuo ng paunang impormasyon tungkol sa mga parameter ng mga elemento, bilang isang panuntunan, ang impormasyon na nakuha sa panahon ng pagsusuri ng mga system at ang pag-aaral ng karanasan ng operasyon nito ay kinuha bilang batayan. Sa madaling salita, ang impormasyon tungkol sa pag-uugali ng mga bahagi ng system sa proseso ng pagpapatakbo nito ay kinuha bilang batayan.

Ang pagsusuri ng mga paunang tagapagpahiwatig ng mga elemento, pagtitipon, mga sangkap, na isinasagawa sa mga yugto ng operasyon, pagsubok, pag-unlad ng disenyo, ay isinasagawa upang malutas ang mga sumusunod na isyu:

    pagpapasiya ng aktwal na mga halaga ng mga pinag-aralan na katangian ng mga sangkap sa mga kondisyon ng kanilang aktwal na operasyon;

    pagkilala sa kaugnayan sa pagitan ng mga pinag-aralan na katangian ng mga elemento at ang kanilang mga kondisyon sa pagpapatakbo, pag-aaral ng epekto sa mga pinag-aralan na tagapagpahiwatig ng mga panlabas na impluwensya;

    paghula sa pag-uugali ng mga bagong likhang kagamitan.

Kaya, upang malutas ang mga problemang ito, una sa lahat,

ito ay kinakailangan upang ayusin ang kontrol sa pag-uugali ng kagamitan sa mga tunay na kondisyon ng operasyon nito. Sa hinaharap, ang impormasyong nakuha sa panahon ng pagpapatakbo ng mga bagay ay ginagamit upang bumuo ng mga modelo ng mga sistema kung saan isinasagawa ang pagsusuri.

Kapag nagsasagawa ng mga eksperimentong pag-aaral, isang mahalagang papel ang ginagampanan ng impormasyong nakuha bilang resulta ng mga obserbasyon ng mga bagay na ang pag-uugali ay isang probabilistikong kalikasan. Ang pag-aaral ng naturang mga sistema ay isinasagawa ayon sa mga resulta ng pagpapatupad ng mga parameter ng output, na mga random na variable. Ang pinaka-pangkalahatang katangian na naglalarawan sa pag-uugali ng isang one-dimensional na random na variable ay ang density ng pamamahagi nito / (0- Alam ang density ng pamamahagi ng isang random variable, ang isang tao ay maaaring natatanging matukoy ang mga katangian tulad ng posibilidad ng pagsasakatuparan ng ilang kaganapan, ang intensity ng ang paglitaw ng kaganapan, ang average na oras sa pagitan ng mga pagsasakatuparan ng mga kaganapan, atbp. Ipinapakita namin ang mga formula , na nagbibigay-daan upang suriin ang kaukulang mga tagapagpahiwatig.

Ang posibilidad ng isang kaganapan na naganap sa paglipas ng panahon t ay tinutukoy ng formula

Q(t) = F(t)=\f(t)dt.

Sa pagsasagawa, ang dami na tinukoy sa pamamagitan ng function ng pamamahagi ay kadalasang ginagamit bilang mga sumusunod:

Halimbawa, sa teorya ng pagiging maaasahan, ang posibilidad ng operasyon na walang kabiguan ay tinukoy sa ganitong paraan.

Ang average na oras sa pagitan ng mga pagsasakatuparan ng kaganapan ay tinutukoy mula sa kaugnayan

T a =]tf(f)dt=]p(t)dt.

Ang intensity ng paglitaw ng isang kaganapan ay maaaring matukoy ng formula

"_/(f)_ClFjt) ako _ dP(t) 1 P(t)dt P(t)dt Pit)"

Kaya, alam ang density o distribution function ng isang random variable, maaari tayong magpatuloy upang matukoy ang mga katangian ng isang kumplikadong sistema. Sa pagsasagawa, ang pagpapaandar ng pamamahagi ay kadalasang hindi alam. Kailangan itong ibalik ayon sa istatistikal na data ng pagpapatupad ng random variable. Dahil ang mga istatistika sa mga resulta ng mga obserbasyon ay palaging naroroon sa isang limitadong anyo, ang pagpapanumbalik ng function ng pamamahagi ay posible na may isang tiyak na antas ng pagiging maaasahan. Samakatuwid, kung ang distribution function ay tinatantya na may isang tiyak na error,

urya

f (X - t ) 2 ^ 2a 2

" (x-t ) 2 ^ 2 a 2

Kalkulahin natin ang mga partial derivatives:

dPN(t,m,o) _ 1

dm

d P N (t, t, O) _ da 2

r r \t

2 tungkol sa 2

\ /-J

pagkatapos ay ang pagkalkula ng mga katangian ng system ay isasagawa din na may error.

Ang katumpakan ng pagtantya ng mga tagapagpahiwatig ng mga kumplikadong sistema ay nailalarawan sa laki ng pagpapakalat. Hayaang kailanganin na tantyahin ang ilang tagapagpahiwatig R(t). Ipakita natin kung paano tinutukoy ang pagkakaiba sa pagtatantya nito. Ipagpalagay natin na ang indicator R(t ) ay tinutukoy sa pamamagitan ng function ng pamamahagi. Hayaang nakadepende ang distribution function sa dalawang parameter na hangin. Ang mga halimbawa ng dalawang-parameter na function ay ang normal na distribution, truncated normal, log-normal, gamma distribution, Weibull distribution, at marami pang iba. Kaya hayaan F(t) = F(t, a, r). Alinsunod dito, ang tinantyang tagapagpahiwatig ng isang kumplikadong sistema ay maaaring katawanin bilang isang functional ng F(t) = F(t, a, r):

K(r) = K = K(f,a,p).

I-decompose natin ang estimate R ( t) sa serye ng Taylor sa punto a, p at nililimitahan namin ang aming sarili sa tatlong termino:

i(0 = K(0+^®(a-a)+^®(p-p).

Sa parehong bahagi ng expression na ito, inilalapat namin ang operasyon ng pagkalkula ng pagkakaiba

(t-m) 2

-t exp

Normal na pamamahagi

Ang density ng normal na batas sa pamamahagi ay may anyo

Pn(t, m, tungkol sa)= 1 -7=- J exp

Fn(t, pagkatapos)= -y=- J exp

(t-m)

2o 2

Ang average na oras sa pagitan ng mga pagsasakatuparan ng kaganapan ay tinutukoy ng form

(t- m) 2 2 a 2

kung saan ang cov(a, P) ay ang covariance sa pagitan ng mga parameter ng hangin. Kaya, upang matantya ang pagkakaiba-iba ng isang tiyak na tagapagpahiwatig, kinakailangan upang matukoy ang mga bahagyang derivatives ng tagapagpahiwatig na ito na may paggalang sa mga parameter ng batas sa pamamahagi at ang pagkakaiba sa pagtantya ng mga parameter ng batas ng pamamahagi.

Isaalang-alang ang mga isyu sa pagtukoy ng mga partial derivatives para sa mga indicator na ipinakilala sa itaas para sa mga partikular na batas sa pamamahagi. Ang pagtukoy sa pagkakaiba-iba ng mga pagtatantya ng mga parameter ng mga batas sa pamamahagi ay ilalarawan sa ibaba.

Bilang halimbawa, isaalang-alang natin ang kahulugan ng mga partial derivatives ng tinantyang tagapagpahiwatig na may paggalang sa mga parameter ng batas sa pamamahagi para sa normal na batas.

Ґ ( t-m) 2 ^

2 mula noong 2

Alinsunod dito, ang mga partial derivatives ay tinukoy bilang

dTN(m,a) 1 7

-- - = - f=~ exp

d m V2nab

dTN(m, o) ako

it= F

f 2 ~\ m

2 0

\ /

At, sa wakas, para sa tindi ng kaganapan, mayroon kami

X(t, t, o) = -

One-tailed truncated normal distribution

Ang density ng pamamahagi ng pinutol na normal na batas na may isang panig na pagputol sa kaliwa sa punto 0 ay may anyo

/ (t-m ) 2 ^ 2 a 2

\ І2sa

(X - t) 2 2a 2

\І2po(

Ang mga expression para sa mga partial derivatives ay may anyo

dX N (t, m,a ) _ f N (t, m,a )" m (l -F N (t, m,o))-f N (t, m,o )[ l-F N (t, m,o )]" m m

2

dm

kasama = -

(*-YU 2 2 Kommersant

tungkol sayj2nb

, ., t-m ako ( t-m ) 2

f H (fW O ra =Ir=-T ex PV

Ґ , h2 4 V

( t-m) 2

( 2M t

2 a 2

\

2s 7

\ /J

"a2

da 2

2

[( t-m ) 2 - a 2 ] 2l/2lst 3

(t-m)

dx

P(SCH,b) = \-{

(t -m) 2a 2

m2O 2

\ =

(t-m)exp

m exp

2 2 sa 3

Ipakilala natin ang notasyon:

R= J exp

J

Kaya, ang mga formula ay ipinakita para sa pagtukoy ng kaukulang nagmula na mga tagapagpahiwatig para sa mga parameter ng batas sa pamamahagi para sa normal na batas. Ang paglalahat ng normal na distribusyon ay ang pinutol na normal na distribusyon. Isaalang-alang natin ang paggamit ng isang panig na pinutol na normal na pamamahagi sa mga problema ng pagtantya ng mga tagapagpahiwatig ng mga kumplikadong sistema. Sa isang bilang ng mga problema ng pagsusuri ng system, ang mga random na parameter ay positibong tinukoy. Ang isang halimbawa ay ang mga problema ng teorya ng pagiging maaasahan, kung saan ang mga random na parameter ay may domain ng kahulugan mula 0 hanggang, halimbawa, ang oras ng pagpapatakbo hanggang sa pagkabigo ay isang positibong tiyak na halaga. Sa kasong ito, labag sa batas na ilapat ang normal na batas sa pamamahagi upang ilarawan ang mga random na variable na ito. Sa ganitong mga sitwasyon, ginagamit ang isang left-truncated normal distribution. Isaalang-alang natin ang kasong ito na may kaugnayan sa pagtatantya ng mga tagapagpahiwatig ng pagiging maaasahan.

(x-c) 2 2 b

( X - U-U

dx; Q= jexp

Ang kaukulang mga derivatives ay may anyo

Ґ 2\ .hl

2 Kommersant

r,"H

db(Q-Rf

kung saan ang mga kaukulang bahagi ay tinutukoy ng mga formula

Ang average na oras sa pagitan ng mga pagsasakatuparan ng kaganapan ay tinutukoy ng formula

2 b 2

/ . .і \ (*-YU

S / h’ ^

l/ts l/ts fG G-M-

(QW b =^exp

I^lbako-Jlb Jb

Tukuyin natin ang numerator sa pamamagitan ng L.

Ang mga kaukulang derivative ay kinakalkula ng mga formula

pamamahagi ng log-normal

Ang random variable ay sumusunod sa logarithmically normal distribution law t, na ang logarithm ay ipinamamahagi ayon sa normal na batas. Ang density ng pamamahagi ng log-normal na batas ay may anyo

KMY) _ i;q-%l Jf_urz _______

"-! Li S)

/ 2 N .th! 2fc

SHAMKQ Ul.

-^ , A, -ex R

Ang function ng pamamahagi ay may form

2 b 2

Sa wakas, ang intensity ng paglitaw ng mga kaganapan ay katumbas ng

(*-10 2 AT

2 b

saanAT= Kommersant 1 .

Sumulat tayo ng mga formula para sa pagtukoy ng mga tagapagpahiwatig ng pagiging maaasahan

(X -M-) 2 2 Kommersant

(x -\i .? 2 Kommersant

dx-jexptungkol sa

Ako "(*, I, D) \u003d I - Jexp

Ipinakilala namin ang notasyon

Ang kaukulang mga derivatives ay may anyo

(*-YU

M= exp

2 \

( (akonf-H) 2 AT

Rln(; , N.D) _ 1 Sinabi ni En - JlnB

P „Jt,\i,B) 1pg-n

Alamin natin ang mga derivatives ng intensity na may paggalang sa mga parameter

dkyM(t,№) _ M^jQ-R)- (Q-RY 11 M EC(Q-R) 2 :

ehsa


( (Ginoo) m 2 b

Upang matukoy ang ibig sabihin ng oras ng pagkabigo, gamitin ang formula

(Gng. 2

M 11 =-m^exp

; (b-l)"= exp

at ang huling ekspresyon

Ang mga derivative ay pantay

dtlaC, R, AT) 1 (sa ,

Sumulat tayo ng isang expression para sa posibilidad ng walang-failure na operasyon

Ang expression para sa pagtukoy ng rate ng pagkabigo ay may anyo \Jt,\i, b) = -

P B (t, a, b) = exp\

KaJ

Kalkulahin natin ang mga derivative ng expression na ito na may paggalang sa mga parameter ng pamamahagi:

<У2дВ I 2 AT

E P^(t,a,b) _ b oo a

dPB(t,a, b) _

Ang mga partial derivatives ay tinutukoy mula sa mga expression

E CL^V) _

^ 2

L tjbw sa exp|

(lnf- |X) 2 2 AT

kung saan (/ln(0)

7 B(a ^) = J ex P

(Inf-(X) 2 2 AT

E T B (a, b)_~ r b(t

* (t"Sa

\df, E7v(a ^ e b

dK»ShV) (0 ) " ika (ako - (0 )- / l. (ako- F n J t))"

EV 2

* P

Ang rate ng kabiguan ay

(^ b-" , a

Ang mga derivative na may paggalang sa mga parameter ay may anyo

ito,a,b)

(1 - F„„) = - I n Vii exp

_ (Inf- (X) 2 AT

E ^a,b) b 2

E Xsaia,b)_Ґ" b

oo~a 2

dbaba

a ,

Pamamahagi ng Weibull

Ang density ng pamamahagi ng Weibull ay may anyo

f B (t,a,b) = -(-

Pamamahagi ng gamma

Ang density ng pamamahagi ng gamma ay nakasulat tulad ng sumusunod

F B (t, a, b) = 1-exp

Alinsunod dito, ang function ng pamamahagi ay may form

x, a *

Fr(t,X,a) = fXa~ " exn(-Xx) dx.

Ang posibilidad ng walang kabiguan na operasyon ay kinakalkula ng formula

P v (t , X , a) = Fexp(-Xx)dx ko.

Ang mga derivatives na may paggalang sa mga parameter ay

і і OcX a4 Jx a4 exp (-Xx) Jx-X at J x a exp ( -Xx)dx

EXG(g,a,X) _ (f r ( 'Xa)) K - / r(f,X,a); Ea 2

J exp(-Xx)(a - Xx)dx \

[!-,F r (ZAa)];=-

DR G (t, X , a) _ X 1

Pa) i

DR ^oo a) = ~ G^a) ako * a ~" ex P(-^t r (a)(ta ^ - 111 0 - Г"(а)]Жс, kung saan Г(а) = J X a t a ~ " exp (- Xt)dt \u003d J Z a " 1 exp (-r)<&; Г(а) = J г“"’ exp(-z) In z 4 z

Ang ibig sabihin ng oras sa pagkabigo ay tinutukoy ng formula

G r (o, X) \u003d J ^ - exp(-Xt)di =~.

oG(a) X

Ang kaukulang derivatives ay

dt G (Oh ) adG G ( a ,X) _ 1 EH.X 2 Oo~X"

Ang rate ng pagkabigo ay naitala

X a t a -" exp (- xt )

Xr(t,a,X) =

(f r (t , X ,a )) a = ^-y-^-[(X a InXf isang "exp (- Xt)+X a t a 1 Infexp(-Xt))-

X 1 V a " 1 exp(-Xf)r„ (a)];

G a ((X)X a Jjr a "1 exp (-Xx) Jx-

t tX a Sa Xj X a ’ 1 exp (-Xx)dx +X a Jx a 1 Injfexp (-Xx)dx

Kaya, ang mga expression ay nakuha na nagbibigay-daan sa paglutas ng mga problema sa pagtatasa ng katumpakan sa pagtukoy ng mga tagapagpahiwatig ng mga kumplikadong sistema. Ang mga batas sa pamamahagi na pinakamadalas na ginagamit sa pagsusuri ng system ay isinasaalang-alang. Ang mga pormula para sa pagtukoy ng mga pangunahing tagapagpahiwatig ng mga sistema ay nakuha at ang mga unang bahagyang derivatives ng mga tagapagpahiwatig ay kinakalkula na may paggalang sa mga parameter ng kaukulang mga batas sa pamamahagi. Ang susunod na isyu na kailangang matugunan ay ang isyu ng pagtantya ng mga parameter ng napiling batas sa pamamahagi. Tingnan natin kung paano nalutas ang problemang ito.

Ang mga derivative na may paggalang sa mga parameter ay tinukoy bilang

d X r ( t,a , x) _ (fr(tX a) ) \ -/ r(t, X,a) 2

saan a^ g" 1 "pW-X-r-exp(-Xr)

Mga iskala ng istatistika

Pagproseso ng istatistika ng data ng pananaliksik

Ginagamit ang istatistikal na data sa pagproseso ng mga materyal na pananaliksik sa sikolohikal upang kunin ang mas maraming kapaki-pakinabang na impormasyon hangga't maaari mula sa dami ng data na nakuha sa eksperimento.

Ang paggamit ng ilang mga istatistikal na pamamaraan ay natutukoy kung saang istatistikal na sukat kabilang ang natanggap na materyal.

Iskala ng pangalan. Kasama sa sukat na ito ang mga materyales kung saan ang mga pinag-aralan na bagay ay naiiba sa bawat isa sa kanilang kalidad, at ang pagkakasunud-sunod ay hindi mahalaga. Halimbawa, ang pamamahagi ng mga kalahok sa kumperensya. Sa pagpoproseso ng istatistika ng naturang mga materyales, dapat isaalang-alang ng isa ang bilang ng mga yunit na kinakatawan ng bawat bagay.

Sukat ng order. Ang pagkakasunud-sunod ng mga bagay ay ang pokus. Kasama sa iskala na ito sa mga istatistika ang mga materyal na pananaliksik kung saan ang mga bagay na kabilang sa isa o ilang mga klase ay napapailalim sa pagsasaalang-alang, ngunit naiiba kapag inihahambing ang isa sa isa: higit pa - mas kaunti, mas mataas - mas mababa, atbp.

Ang pinakamadaling paraan upang ipakita ang mga tipikal na tampok ng sukat ng pagkakasunud-sunod ay ang pagtingin sa mga resulta ng anumang kumpetisyon sa palakasan. Sunud-sunod nilang inilista ang mga kalahok na kumuha ng una, pangalawa, pangatlo at iba pang mga posisyon, ayon sa pagkakabanggit.

sa pagkakasunud-sunod ng lugar, at ang impormasyon tungkol sa mga aktwal na tagumpay ng mga atleta ay nawawala sa background, o wala.

Interval scale. Kabilang dito ang mga materyal na kung saan ang isang quantitative assessment ng bagay na pinag-aaralan ay ibinibigay sa mga nakapirming unit. Ang mga materyal na naaayon sa sukat ng mga pagitan ay dapat may isang yunit ng pagsukat na kapareho ng sarili nito para sa lahat ng paulit-ulit na pagsukat.

Iskala ng relasyon. Kasama sa sukat na ito ang mga materyales na isinasaalang-alang hindi lamang ang bilang ng mga nakapirming yunit , tulad ng sa sukat ng mga agwat, ngunit gayundin ang mga ratio ng kabuuang resulta na nakuha sa kanilang mga sarili. Upang gumana sa gayong mga relasyon, kailangan mong magkaroon ng ilang ganap na punto, kung saan isinasagawa ang countdown.

Kung ang data na makukuha ng mananaliksik, sa mas malapit na pagsusuri, ay bahagyang nagkakaiba lamang mula sa Gaussian normal distribution curve, kung gayon ito ay nagbibigay sa mananaliksik ng karapatang gumamit ng mga parametric na pamamaraan sa pagpoproseso ng istatistika, ang mga paunang probisyon nito ay batay sa Gaussian normal distribution curve. . Ang normal na distribusyon ay tinatawag na parametric dahil upang mabuo at masuri ang Gaussian curve, sapat na magkaroon lamang ng dalawang parameter: ang arithmetic mean, ang halaga nito ay dapat tumutugma sa taas ng perpendicular na naibalik sa gitna ng curve, at ang tinatawag na root mean square, o standard deviation, isang value na nagpapakilala sa hanay ng mga pagbabago sa curve na ito.

Kung imposibleng mag-aplay ng mga parametric na pamamaraan, kinakailangan na bumaling sa mga hindi parametric.

Ang isa sa mga salik na naglilimita sa aplikasyon ng mga istatistikal na pagsusulit batay sa pagpapalagay ng normalidad ay ang laki ng sample. Hangga't ang sample ay sapat na malaki (halimbawa, 100 o higit pang mga obserbasyon), ang sample distribution ay maaaring ipagpalagay na normal, kahit na hindi tiyak na ang distribusyon ng variable sa populasyon ay normal. Gayunpaman, kung maliit ang sample, ang mga parametric test ay dapat lang gamitin kung may kumpiyansa na ang variable ay talagang normal na ipinamamahagi. Gayunpaman, kahit na para sa mga naturang variable, walang paraan upang subukan ang pagpapalagay na ito sa isang maliit na sample (ang mga istatistikal na pagsubok para sa normalidad ay epektibong nagsisimulang gumana sa isang sample na naglalaman ng hindi bababa sa 51 obserbasyon).

Ang mga nonparametric na pamamaraan ay pinakaangkop kapag ang sample size ay maliit at ang data ay nasa ordinal o nominal scale. Kung mayroong maraming data ng empirikal (halimbawa, n>100), kadalasan ay walang kabuluhan at tila hindi tama ang paggamit ng mga hindi parametric na istatistika. Kung ang laki ng sample ay napakaliit (halimbawa, n=10 o mas kaunti), kung gayon ang mga antas ng p-significance para sa mga non-parametric na pagsubok na gumagamit ng normal na pagtatantya ay maaari lamang ituring bilang mga magaspang na pagtatantya.



Ang paglalapat ng pamantayan batay sa pagpapalagay ng normalidad ay limitado rin sa katotohanan na ang mga katangiang pinag-aaralan ay nabibilang sa isang tiyak na sukat ng pagsukat. Ang mga pamamaraan ng istatistika tulad ng, halimbawa, ang t-test ng Mag-aaral (para sa mga umaasa at independiyenteng mga sample), ang linear na ugnayan ng Pearson, pati na rin ang regression, cluster at factor analysis ay ipinapalagay na ang pinagmumulan ng data ay tuluy-tuloy (ang mga halaga ng mga variable na pinag-aaralan ay nauugnay sa isang pagitan o sukat ng ratio) . Gayunpaman, may mga kaso kung saan ang data ay niraranggo lamang (sinusukat sa isang ordinal na sukat) sa halip na tumpak na sinusukat. Pagkatapos ay tila angkop na gumamit ng mga pamantayang pang-istatistika gaya ng, halimbawa, ang Wilcoxon T-test, G-test of signs, Mann-Whitney U-test, Wald-Wolfowitz Z-test, Spearman's rank correlation, atbp. Kanilang sariling istatistikal na pamamaraan gagana sa nominal na data , halimbawa, ang ugnayan ng mga katangian ng husay, ang chi-square na pagsubok, ang Cochran's Q-test, atbp. Ang pagpili ng isang partikular na pamantayan ay nauugnay sa isang hypothesis na inilalagay ng mananaliksik sa kurso ng siyentipikong pananaliksik , at pagkatapos ay sinusubukang patunayan ito sa empirical na antas.

Kaya, para sa bawat parametric criterion, mayroong kahit isang nonparametric na alternatibo. Sa pangkalahatan, ang mga pamamaraang ito ay nabibilang sa isa sa mga sumusunod na kategorya: (1) pagtatasa sa antas ng pag-asa sa pagitan ng mga variable; (2) pamantayan para sa pagkakaiba para sa mga independiyenteng sample; (3) pamantayan para sa pagkakaiba para sa mga umaasang sample.

Upang masuri ang pagtitiwala (relasyon), o ang antas ng higpit (densidad, lakas) ng koneksyon, kalkulahin ang koepisyent ng ugnayan ng Pearson (r). Sa mahigpit na pagsasalita, ang paggamit nito ay mayroon ding mga limitasyon na nauugnay, halimbawa, sa uri ng sukat kung saan sinusukat ang data at ang hindi linearity ng dependence. Samakatuwid, ang mga non-parametric o tinatawag na rank correlation coefficient (hal., Spearman's rank correlation coefficient (ρ), Kendall's tau statistics (τ), Gamma (Gamma)), na ginagamit para sa ordinal (ranked) na data, ay ginagamit bilang alternatibo. Kung mayroong higit sa dalawang variable, ang Kendall Coeff. of Concordance ay ginagamit. Ginagamit ito, halimbawa, upang masuri ang pagkakapare-pareho ng mga opinyon ng mga independiyenteng eksperto (halimbawa, mga puntos na ibinigay sa parehong paksa, kalahok sa kumpetisyon).

Kung ang data ay sinusukat sa isang nominal na sukat, natural na ipakita ang mga ito sa mga talahanayan ng contingency na gumagamit ng chi-squared test ng Pearson na may iba't ibang mga variation at pagwawasto para sa katumpakan.

Mga pagkakaiba sa pagitan ng mga independiyenteng grupo. Kung mayroong dalawang sample (halimbawa, mga lalaki at babae) na kailangang ikumpara kaugnay ng ilang mean value, halimbawa, malikhaing pag-iisip, maaari mong gamitin ang t-test para sa mga independyenteng sample (t-test para sa mga independent sample) . Ang mga nonparametric na alternatibo sa pagsusulit na ito ay ang Wald-Wolfowitz runs test, ang Mann-Whitney U test, at ang Kolmogorov-Smirnov two-sample test. Dapat alalahanin na ang dalawang-sample na Kolmogorov-Smirnov na pagsubok ay sensitibo hindi lamang sa pagkakaiba sa posisyon ng dalawang distribusyon, kundi pati na rin sa hugis ng pamamahagi. Sa katunayan, ito ay sensitibo sa anumang paglihis mula sa homogeneity hypothesis, ngunit hindi nagpapahiwatig kung aling paglihis ang kinakaharap ng mananaliksik.

Mga pagkakaiba sa pagitan ng mga umaasang grupo. Kung kinakailangan upang ihambing ang dalawang variable na nauugnay sa parehong sample, halimbawa, ang mga tagapagpahiwatig ng pagiging agresibo ng parehong mga paksa bago at pagkatapos ng correctional work, kung gayon ang t-test para sa mga umaasa na sample ay karaniwang ginagamit. Ang mga alternatibong nonparametric test ay ang Sign Test at ang Wilcoxon matched pair test. Ang pagsusulit ng Wilcoxon ay nagmumungkahi na posibleng i-ranggo ang mga pagkakaiba sa pagitan ng pinaghahambing na mga obserbasyon. Kung hindi ito magagawa, pagkatapos ay ginagamit ang pamantayan ng pag-sign, na isinasaalang-alang lamang ang mga palatandaan ng mga pagkakaiba sa pagitan ng mga inihambing na halaga.

Kung ang mga variable na isinasaalang-alang ay kategorya (nominal), kung gayon ang McNemar Chi-square ay angkop. Kung mayroong dalawang kategoryang variable, ang mga karaniwang istatistika at naaangkop na pamantayan para sa mga talahanayan ng contingency ay ginagamit upang masuri ang antas ng pag-asa: Chi-square, Phi-square, Fisher exact test.

Ang talahanayan sa ibaba ay nagpapakita ng mga parametric na pagsusulit at ang kanilang mga non-parametric na kahalili, na isinasaalang-alang ang mga sumusunod na kategorya: 1) pagtatasa ng antas ng pag-asa sa pagitan ng mga variable; 2) pamantayan para sa pagkakaiba.

Talahanayan 4.1 - Parametric at non-parametric na pamantayan

Parametric na pamantayan Mga pagsubok na hindi parametric
pagtatasa ng dependency (mga relasyon)
Pearson correlation coefficient (r) rank correlation coefficients (Ranggo ng Spearman correlation coefficient ρ), Kendall's tau statistics (τ), Gamma (Gamma)); Pearson's chi-square (para sa nominal na data)
pagkakaiba sa pagitan ng mga independiyenteng grupo
T-test ng mag-aaral para sa mga independent sample (t-test para sa mga independent sample) Si Wald-Wolfowitz ay nagpapatakbo ng pagsubok na Z-test, Mann-Whitney U test, Kolmogorov-Smirnov na dalawang sample na pagsubok
pagkakaiba sa pagitan ng mga umaasang grupo
T-test ng mag-aaral para sa mga dependent sample (t-test para sa mga dependent sample) G-test of signs (Sign Test), T-test ng Wilcoxon paired comparisons (Wilcoxon matched pair test); McNemar Chi-square, Chi-square, Phi-square, Fisher exact (para sa nominal na data)

Kung higit sa dalawang variable mula sa parehong sample ang isasaalang-alang (halimbawa, pre-adjustment, post-adjustment-1, at post-adjustment-2), pagkatapos ay karaniwang ginagamit ang paulit-ulit na measures analysis ng variance, na maaaring ituring bilang isang generalization ng t-test para sa dependent samples.upang mapataas ang sensitivity ng analysis. Ang pagdadaglat sa Ingles para sa pagsusuri ng pagkakaiba ay ANOVA (Analysis of Variation). Ang pagsusuri sa pagkakaiba ay nagbibigay-daan sa iyo na sabay na kontrolin hindi lamang ang batayang antas ng dependent variable, kundi pati na rin ang iba pang mga salik, pati na rin ang pagsasama ng higit sa isang dependent variable sa plano ng eksperimento. Ang mga alternatibong nonparametric na pamamaraan ay ang Kruskal-Wallis analysis ng variance at median test (Kruskal-Wallis ANOVA, median test), ang rank analysis ni Friedman ng variance (Friedman ANOVA by Ranks).

Mga tanong sa nonparametric na pamantayan.

Statistical criterion - isang tuntunin ng desisyon na nagsisiguro sa pagtanggap ng totoo at pagtanggi sa isang maling hypothesis na may mataas na posibilidad. Kasabay nito, ang statistical criterion ay isang paraan para sa pagkalkula ng isang tiyak na numero at ang numerong ito mismo.

Ginagamit ang parametric na pamantayan kapag ang sample ay normal, habang ang pagkalkula sa mga pamantayang ito ay kinabibilangan ng mga feature ng probability distribution ng feature, iyon ay, means at variance. Ipinapalagay nito na ang data ay tuloy-tuloy. Kasama sa mga parametric test ang: Student's t-test, chi-square test. Angkop para sa mga kaliskis ng mga ratio ng pagitan.

Ang mga non-parametric na pagsusulit ay ginagamit kapag imposibleng pag-usapan ang tungkol sa isang normal na distribusyon, ang mga pagsusuri ay batay sa pagpapatakbo na may mga ranggo o frequency. Kasama sa mga hindi parametric ang sign test, ang Wilcoxon test, ang Mann-Whitney test, at Jonkheer. Angkop para sa mga kaliskis na mas mahina kaysa sa mga kaliskis sa pagitan.

Bago pumili ng criterion, dapat nating suriin ang sample para sa normalidad.

Wala akong ideya kung ano ang isusulat sa mga tuntunin ng average at scatter measures, dahil tila mayroong lahat ng parehong mga konsepto ng dispersion at blah blah iba pang mga bagay *_*

2. Mga pamamaraan para sa pagsubok ng mga istatistikal na hypotheses: t-test, Wilcoxon test, Mann-Whitney test, Kruskal-Wallace test (mga kondisyon ng aplikasyon, pagbabalangkas ng mga hypotheses, pamamahagi ng mga istatistika, ideya ng pagkalkula)

t-test (Mag-aaral) - ginagamit kung normal ang sample. Ang mga hypotheses ay nabuo tulad ng sumusunod:

1. Nabuo ang H0

2. Ang H1 ay nabuo, ang alternatibong H0 (karaniwan ay nagpapahiwatig ito ng pakikipag-ugnayan ng mga tampok).

3. Pinili ang isang istatistika upang pumili sa pagitan ng dalawang hypotheses

4. Para sa bawat antas ng kabuluhan α, isang kritikal na rehiyon ang naitatag, kung saan ang a) ang resultang bumabagsak sa rehiyong ito ay nagpapahiwatig ng H1 sa halip na H0 b) ang posibilidad na mahulog ang resulta sa rehiyong ito na may H0 true ay katumbas ng α.

Ang posibilidad ng isang katanggap-tanggap na error ng unang uri α=0.05, kung ang halaga ng criterion sa aming sample ay mas malaki kaysa sa t 0.05, pagkatapos ay tinatanggap namin ang hypothesis H0, tanggihan ang hypothesis H1.

Para sa isang sample

Para sa mga independiyenteng sample.

Ang Wilcoxon sign rank test ay hindi isinasaalang-alang ang mga halaga ng mga numero sa sample, ngunit ang kanilang mga palatandaan lamang. Isinasaalang-alang ng criterion ang ganap na halaga ng mga sample na miyembro. Ito ay ginagamit kapag ang sample ay maaaring hindi normal at kapag ito ay kinakailangan upang magpasya kung ang sample ay may makabuluhang non-zero mean. Kinakailangan ng aplikasyon:

1) Itakda ang antas ng kahalagahan α at hanapin ang katumbas na mas mababang dami ng Wilcoxon.


2) Ayusin ang lahat ng miyembro ng sample sa pataas na pagkakasunud-sunod ng ganap na halaga, lagdaan ang mga ranggo sa ilalim ng mga ito.

3) Kalkulahin ang istatistika ng Wilcoxon, kung saan kinakalkula namin ang kabuuan ng mga ranggo na itinalaga sa mga negatibong miyembro ng sample.

4) Ihambing ang mga nakuhang istatistika sa naunang nahanap na dami. Kung ang kabuuan ng mga ranggo na ito ay mas mababa kaysa sa mas mababang dami, tinatanggihan namin ang H0 hypothesis at tinatanggap ang H1 hypothesis. Katulad nito, kung ang kabuuan ng mga ranggo ng lahat ng positibong miyembro ng sample ay mas malaki kaysa sa itaas na dami, tinatanggap namin ang H1 at tinatanggihan namin ang H0.

Ang Mann-Whitney test (U) ay isang pagsubok para sa mga independiyenteng sample, isang analogue ng t-test ng Estudyante. Ang empirical value nito ay nagpapakita kung paano nagtutugma ang dalawang row ng attribute values. Ito ay ginagamit kapag ang sample ay maaaring hindi normal, tanging ang pangangailangan ng pagkakatulad ng mga distribusyon ay napanatili, ngunit hindi sila kailangang maging normal + kapag ito ay kinakailangan upang malutas ang problema, posible bang igiit iyon. Na ang ibig sabihin ng halaga ng pang-eksperimentong sample ay higit na mataas kaysa sa mean na halaga ng control group.

1) Isinulat namin ang mga miyembro ng parehong mga sample sa pataas na pagkakasunud-sunod, na itinatampok ang mga miyembro ng iba't ibang mga sample sa iba't ibang paraan.

2) Para sa bawat numero ng unang (kontrol) na sample, kinakalkula namin kung gaano karaming mga numero ng pangalawang (pang-eksperimentong) sample ang matatagpuan sa kaliwa nito. Kung ang bilang ng unang sample ay katumbas ng bilang ng pangalawa, pagkatapos ay magdagdag ng 0.5. Nakakakuha kami ng mga pare-parehong resulta at idinaragdag namin ang mga ito.

3) Tinitingnan namin ang antas ng kahalagahan na aming pinili para sa mas mababang dami ayon kay Mann-Whitney. Kung ang kabuuan na natanggap namin ay mas mababa kaysa sa mas mababang dami, pagkatapos ay tinatanggihan namin ang hypothesis H0, tinatanggap namin ang hypothesis H1.

Ang pamamahagi ng Mann-Whitney ay simetriko (ibig sabihin, maaari kang magbilang nang paurong at gamitin ang itaas na dami).

Ang Kruskal-Wallace test ay isang non-parametric analogue ng one-way analysis ng variance para sa mga independiyenteng sample. Katulad ng Mann-Whitney test. Sinusuri ang antas ng pagkakaisa ng ilang serye ng mga halaga ng nabagong katangian. Ang pangunahing ideya ay upang ipakita ang lahat ng mga halaga ng inihambing na mga sample bilang isang karaniwang pagkakasunud-sunod ng mga ranggo na halaga, na sinusundan ng pagkalkula ng average na ranggo para sa bawat isa sa mga sample.

Kinakalkula pagkatapos ng pagraranggo.

Ang N ay ang kabuuang bilang ng lahat ng sample.

k ay ang bilang ng mga inihambing na sample.

Ang R i ay ang kabuuan ng mga ranggo para sa isang partikular na sample.

n i – laki ng sample i.

Kung mas magkakaiba ang mga sample, mas malaki ang computational value ng H, mas mababa ang p-significance level. Kapag ang isang null statistical hypothesis ay tinanggihan, ang isang alternatibo tungkol sa makabuluhang pagkakaiba sa istatistika sa katangiang ito ay tinatanggap nang hindi tinukoy ang direksyon ng mga pagkakaiba. (para sa direksyon, kailangan ang Mann-Whitney test, dahil ito ay para sa dalawang sample, at ito ay para sa higit sa dalawa).