Discrete variation series sa kahulugan ng istatistika. Serye ng Variation

Ang hanay ng mga halaga ng parameter na pinag-aralan sa isang naibigay na eksperimento o pagmamasid, na niraranggo ayon sa magnitude (pagtaas o pagbaba) ay tinatawag na serye ng variation.

Ipagpalagay natin na sinukat natin ang presyon ng dugo ng sampung pasyente upang makakuha ng mas mataas na threshold ng BP: systolic pressure, i.e. isang numero lang.

Isipin na ang isang serye ng mga obserbasyon (populasyon ng istatistika) ng arterial systolic pressure sa 10 obserbasyon ay may sumusunod na anyo (Talahanayan 1):

Talahanayan 1

Ang mga bahagi ng isang variational series ay tinatawag na mga variant. Ang mga variant ay kumakatawan sa numerical na halaga ng katangiang pinag-aaralan.

Ang pagbuo ng isang variational series mula sa isang istatistikal na hanay ng mga obserbasyon ay ang unang hakbang lamang patungo sa pag-unawa sa mga tampok ng buong set. Susunod, kinakailangan upang matukoy ang average na antas ng pinag-aralan na quantitative trait (ang average na antas ng protina ng dugo, ang average na timbang ng mga pasyente, ang average na oras ng pagsisimula ng anesthesia, atbp.)

Ang average na antas ay sinusukat gamit ang pamantayan na tinatawag na mga average. Ang average na halaga ay isang generalizing numerical na katangian ng qualitatively homogenous na mga halaga, na nagpapakilala sa pamamagitan ng isang numero ng buong istatistikal na populasyon ayon sa isang katangian. Ang average na halaga ay nagpapahayag ng pangkalahatan na katangian ng isang katangian sa isang naibigay na hanay ng mga obserbasyon.

May tatlong uri ng average na karaniwang ginagamit: mode (), median () at arithmetic mean ().

Upang matukoy ang anumang average na halaga, kinakailangang gamitin ang mga resulta ng mga indibidwal na obserbasyon, isulat ang mga ito sa anyo ng isang serye ng pagkakaiba-iba (Talahanayan 2).

Fashion- ang halaga na pinakamadalas na nangyayari sa isang serye ng mga obserbasyon. Sa aming halimbawa, mode = 120. Kung walang mga paulit-ulit na halaga sa serye ng pagkakaiba-iba, pagkatapos ay sinasabi nila na walang mode. Kung ang ilang mga halaga ay paulit-ulit sa parehong bilang ng beses, kung gayon ang pinakamaliit sa kanila ay kinuha bilang mode.

Median- ang halaga na naghahati sa distribusyon sa dalawang magkapantay na bahagi, ang sentral o median na halaga ng isang serye ng mga obserbasyon na inayos sa pataas o pababang pagkakasunod-sunod. Kaya, kung mayroong 5 mga halaga sa serye ng variational, kung gayon ang median nito ay katumbas ng ikatlong miyembro ng serye ng variational, kung mayroong kahit na bilang ng mga miyembro sa serye, kung gayon ang median ay ang arithmetic mean ng dalawa nito. sentral na obserbasyon, i.e. kung mayroong 10 obserbasyon sa serye, kung gayon ang median ay katumbas ng arithmetic mean ng 5 at 6 na obserbasyon. Sa ating halimbawa.

Tandaan ang isang mahalagang tampok ng mode at median: ang kanilang mga halaga ay hindi apektado ng mga numerical na halaga ng matinding variant.

Ang ibig sabihin ng aritmetika kinakalkula ng formula:

saan ang naobserbahang halaga sa -ika na obserbasyon, at ang bilang ng mga obserbasyon. Para sa aming kaso.

Ang arithmetic mean ay may tatlong katangian:

Ang gitna ay sumasakop sa gitnang posisyon sa serye ng variation. Sa isang mahigpit na simetriko na hilera.

Ang average ay isang pangkalahatang halaga at mga random na pagbabagu-bago, ang mga pagkakaiba sa indibidwal na data ay hindi nakikita sa likod ng average. Sinasalamin nito ang tipikal na katangian ng buong populasyon.

Ang kabuuan ng mga paglihis ng lahat ng variant mula sa mean ay katumbas ng zero: . Ang paglihis ng variant mula sa mean ay ipinahiwatig.

Ang serye ng variation ay binubuo ng mga variant at ang kanilang mga kaukulang frequency. Sa sampung halaga na nakuha, ang bilang na 120 ay nakatagpo ng 6 na beses, 115 - 3 beses, 125 - 1 beses. Dalas () - ang ganap na bilang ng mga indibidwal na opsyon sa populasyon, na nagsasaad kung gaano karaming beses nangyayari ang opsyong ito sa serye ng variation.

Ang serye ng variation ay maaaring simple (mga frequency = 1) o pinaikli ang pangkat, 3-5 na opsyon bawat isa. Ang isang simpleng serye ay ginagamit na may maliit na bilang ng mga obserbasyon (), pinagsama-sama - na may malaking bilang ng mga obserbasyon ().

Serye ng pagkakaiba-iba: kahulugan, mga uri, pangunahing katangian. Paraan ng pagkalkula
fashion, median, arithmetic mean sa medikal at istatistikal na pag-aaral
(Ipakita sa isang kondisyon na halimbawa).

Ang variational series ay isang serye ng mga numerical na halaga ng katangian na pinag-aaralan, na naiiba sa bawat isa sa kanilang magnitude at nakaayos sa isang tiyak na pagkakasunud-sunod (sa pataas o pababang pagkakasunud-sunod). Ang bawat numerical value ng serye ay tinatawag na variant (V), at ang mga numerong nagpapakita kung gaano kadalas nangyayari ito o ang variant na iyon sa komposisyon ng seryeng ito ay tinatawag na frequency (p).

Ang kabuuang bilang ng mga kaso ng mga obserbasyon, kung saan binubuo ang serye ng variation, ay tinutukoy ng titik n. Ang pagkakaiba sa kahulugan ng mga pinag-aralan na katangian ay tinatawag na baryasyon. Kung ang variable sign ay walang quantitative measure, ang variation ay tinatawag na qualitative, at ang distribution series ay tinatawag na attributive (halimbawa, distribution ayon sa resulta ng sakit, health status, atbp.).

Kung ang isang variable na sign ay may quantitative expression, ang naturang variation ay tinatawag na quantitative, at ang distribution series ay tinatawag na variational.

Ang variational series ay nahahati sa discontinuous at continuous - ayon sa likas na katangian ng quantitative trait, simple at weighted - ayon sa dalas ng paglitaw ng variant.

Sa isang simpleng variational series, ang bawat variant ay nangyayari nang isang beses lamang (p=1), sa isang weighted, ang parehong variant ay nangyayari nang ilang beses (p>1). Ang mga halimbawa ng naturang serye ay tatalakayin mamaya sa teksto. Kung ang quantitative attribute ay tuluy-tuloy, i.e. sa pagitan ng mga integer na halaga ay mayroong mga intermediate na fractional na halaga, ang variational series ay tinatawag na tuloy-tuloy.

Halimbawa: 10.0 - 11.9

14.0 - 15.9, atbp.

Kung ang quantitative sign ay hindi nagpapatuloy, i.e. ang mga indibidwal na halaga nito (mga opsyon) ay naiiba sa bawat isa sa pamamagitan ng isang integer at walang mga intermediate fractional na halaga, ang serye ng variation ay tinatawag na discontinuous o discrete.

Gamit ang data mula sa nakaraang halimbawa tungkol sa rate ng puso

para sa 21 mag-aaral, bubuo kami ng serye ng variation (Talahanayan 1).

Talahanayan 1

Distribusyon ng mga medikal na estudyante ayon sa pulse rate (bpm)

Kaya, upang makabuo ng isang variational series ay nangangahulugan ng pag-systematize, pag-streamline ng mga umiiral na numerical values ​​(mga opsyon), i.e. ayusin sa isang tiyak na pagkakasunud-sunod (sa pataas o pababang pagkakasunud-sunod) sa kanilang kaukulang mga frequency. Sa halimbawang isinasaalang-alang, ang mga opsyon ay inayos sa pataas na pagkakasunud-sunod at ipinahayag bilang mga discontinuous (discrete) integer, ang bawat opsyon ay nangyayari nang maraming beses, i.e. kami ay nakikitungo sa isang timbang, hindi tuloy-tuloy o discrete variational series.

Bilang isang patakaran, kung ang bilang ng mga obserbasyon sa istatistikal na populasyon na aming pinag-aaralan ay hindi lalampas sa 30, kung gayon ito ay sapat na upang ayusin ang lahat ng mga halaga ng katangian sa ilalim ng pag-aaral sa isang variational na serye sa pagtaas ng pagkakasunud-sunod, tulad ng sa Talahanayan. 1, o sa pababang pagkakasunud-sunod.

Sa isang malaking bilang ng mga obserbasyon (n>30), ang bilang ng mga nagaganap na variant ay maaaring maging napakalaki, sa kasong ito, ang isang pagitan o pinagsama-samang serye ng variational ay pinagsama-sama, kung saan, upang gawing simple ang kasunod na pagproseso at linawin ang likas na katangian ng pamamahagi, ang ang mga variant ay pinagsama sa mga pangkat.

Karaniwan ang bilang ng mga opsyon ng pangkat ay mula 8 hanggang 15.

Dapat mayroong hindi bababa sa 5 sa kanila, dahil. kung hindi, ito ay magiging masyadong magaspang, labis na pagpapalaki, na nakakasira sa pangkalahatang larawan ng pagkakaiba-iba at lubos na nakakaapekto sa katumpakan ng mga average na halaga. Kapag ang bilang ng mga pagpipilian sa pangkat ay higit sa 20-25, ang katumpakan ng pagkalkula ng mga average na halaga ay tumataas, ngunit ang mga tampok ng pagkakaiba-iba ng tampok ay makabuluhang baluktot at ang pagproseso ng matematika ay nagiging mas kumplikado.

Kapag nag-compile ng isang pinagsama-samang serye, kinakailangang isaalang-alang

− dapat ilagay ang mga variant na grupo sa isang partikular na pagkakasunud-sunod (pataas o pababa);

- ang mga pagitan sa mga variant na grupo ay dapat na pareho;

− ang mga halaga ng mga hangganan ng mga pagitan ay hindi dapat magkasabay, dahil hindi magiging malinaw kung aling mga grupo ang iuugnay ang mga indibidwal na opsyon;

- kinakailangang isaalang-alang ang mga katangian ng husay ng nakolektang materyal kapag nagtatakda ng mga limitasyon ng mga agwat (halimbawa, kapag pinag-aaralan ang bigat ng mga matatanda, ang isang pagitan ng 3-4 kg ay katanggap-tanggap, at para sa mga bata sa mga unang buwan ng buhay hindi ito dapat lumagpas sa 100 g.)

Bumuo tayo ng isang pinagsama-samang (interval) na serye na nagpapakita ng data sa pulso (bilang ng mga beats bawat minuto) para sa 55 medikal na estudyante bago ang pagsusulit: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Upang bumuo ng nakagrupong serye, kailangan mo:

1. Tukuyin ang halaga ng pagitan;

2. Tukuyin ang gitna, simula at wakas ng mga pangkat ng variant ng serye ng variation.

● Ang halaga ng agwat (i) ay tinutukoy ng bilang ng mga inaasahang pangkat (r), ang bilang nito ay nakatakda depende sa bilang ng mga obserbasyon (n) ayon sa isang espesyal na talahanayan

Bilang ng mga pangkat depende sa bilang ng mga obserbasyon:

Sa aming kaso, para sa 55 mga mag-aaral, posible na bumuo ng mula 8 hanggang 10 mga grupo.

Ang halaga ng pagitan (i) ay tinutukoy ng sumusunod na formula -

i = Vmax-Vmin/r

Sa aming halimbawa, ang halaga ng pagitan ay 82-58/8= 3.

Kung ang halaga ng pagitan ay isang fractional na numero, ang resulta ay dapat na i-round up sa isang integer.

Mayroong ilang mga uri ng mga average:

● arithmetic mean,

● geometric na ibig sabihin,

● harmonic mean,

● root mean square,

● katamtamang progresibo,

● panggitna

Sa mga medikal na istatistika, ang mga average ng arithmetic ay kadalasang ginagamit.

Ang arithmetic mean (M) ay isang pangkalahatang halaga na tumutukoy sa karaniwang halaga na katangian ng buong populasyon. Ang mga pangunahing pamamaraan para sa pagkalkula ng M ay: ang arithmetic mean method at ang paraan ng mga sandali (conditional deviations).

Ang arithmetic mean method ay ginagamit upang kalkulahin ang simpleng arithmetic mean at ang weighted arithmetic mean. Ang pagpili ng paraan para sa pagkalkula ng arithmetic mean value ay depende sa uri ng variation series. Sa kaso ng isang simpleng variational series, kung saan ang bawat variant ay nangyayari nang isang beses, ang simpleng arithmetic mean ay tinutukoy ng formula:

kung saan: М – arithmetic mean value;

Ang V ay ang halaga ng variable na tampok (mga opsyon);

Σ - nagpapahiwatig ng aksyon - pagbubuod;

n ay ang kabuuang bilang ng mga obserbasyon.

Ang isang halimbawa ng pagkalkula ng arithmetic mean ay simple. Respiratory rate (bilang ng mga paghinga bawat minuto) sa 9 na lalaki na may edad na 35: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Upang matukoy ang average na antas ng respiratory rate sa mga lalaking may edad na 35, ito ay kinakailangan:

1. Bumuo ng variational series, na inilalagay ang lahat ng opsyon sa pataas o pababang pagkakasunod-sunod. Nakakuha kami ng simpleng variational series, dahil isang beses lang nangyayari ang mga variant value.

M = ∑V/n = 171/9 = 19 na paghinga kada minuto

Konklusyon. Ang rate ng paghinga sa mga lalaking may edad na 35 ay nasa average na 19 na paghinga bawat minuto.

Kung ang mga indibidwal na halaga ng variant ay paulit-ulit, hindi na kailangang isulat ang bawat variant sa isang linya, sapat na upang ilista ang mga sukat ng variant na nagaganap (V) at sa tabi upang ipahiwatig ang bilang ng kanilang mga pag-uulit ( p). tulad ng isang variational series, kung saan ang mga variant ay, kumbaga, tinimbang ayon sa bilang ng mga frequency na naaayon sa kanila, ay tinatawag na weighted variational series, at ang kinakalkula na average na halaga ay ang arithmetic weighted average.

Ang arithmetic weighted average ay tinutukoy ng formula: M= ∑Vp/n

kung saan ang n ay ang bilang ng mga obserbasyon na katumbas ng kabuuan ng mga frequency - Σr.

Isang halimbawa ng pagkalkula ng arithmetic weighted average.

Ang tagal ng kapansanan (sa mga araw) sa 35 mga pasyente na may acute respiratory disease (ARI) na ginagamot ng isang lokal na doktor sa unang quarter ng kasalukuyang taon ay: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 araw .

Ang pamamaraan para sa pagtukoy ng average na tagal ng kapansanan sa mga pasyente na may talamak na impeksyon sa paghinga ay ang mga sumusunod:

1. Bumuo tayo ng isang weighted variational series, dahil Ang mga indibidwal na halaga ng variant ay paulit-ulit nang maraming beses. Upang gawin ito, maaari mong ayusin ang lahat ng mga pagpipilian sa pataas o pababang pagkakasunud-sunod sa kanilang mga kaukulang frequency.

Sa aming kaso, ang mga opsyon ay nasa pataas na pagkakasunud-sunod.

2. Kalkulahin ang arithmetic weighted average gamit ang formula: M = ∑Vp/n = 233/35 = 6.7 araw

Pamamahagi ng mga pasyente na may acute respiratory infection ayon sa tagal ng kapansanan:

Tagal ng kawalan ng kakayahan para sa trabaho (V) Bilang ng mga pasyente (p) vp
∑p = n = 35 ∑Vp = 233

Konklusyon. Ang tagal ng kapansanan sa mga pasyenteng may acute respiratory disease ay may average na 6.7 araw.

Ang Mode (Mo) ay ang pinakakaraniwang variant sa serye ng variation. Para sa pamamahagi na ipinakita sa talahanayan, ang mode ay tumutugma sa variant na katumbas ng 10, ito ay nangyayari nang mas madalas kaysa sa iba - 6 na beses.

Pamamahagi ng mga pasyente ayon sa haba ng pananatili sa kama sa ospital (sa mga araw)

V
p

Minsan mahirap matukoy ang eksaktong halaga ng mode, dahil maaaring mayroong ilang mga obserbasyon sa data na pinag-aaralan na nangyayari "pinaka madalas".

Ang Median (Me) ay isang non-parametric indicator na naghahati sa serye ng variation sa dalawang pantay na kalahati: ang parehong bilang ng mga opsyon ay matatagpuan sa magkabilang panig ng median.

Halimbawa, para sa distribusyon na ipinapakita sa talahanayan, ang median ay 10 dahil sa magkabilang panig ng halagang ito ay matatagpuan sa ika-14 na opsyon, i.e. ang numero 10 ay sumasakop sa isang sentral na posisyon sa seryeng ito at ang median nito.

Dahil ang bilang ng mga obserbasyon sa halimbawang ito ay pantay (n=34), ang median ay maaaring matukoy tulad ng sumusunod:

Ako = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Nangangahulugan ito na ang gitna ng serye ay nahuhulog sa ikalabimpitong opsyon, na tumutugma sa median na 10. Para sa pamamahagi na ipinakita sa talahanayan, ang arithmetic mean ay:

M = ∑Vp/n = 334/34 = 10.1

Kaya, para sa 34 na obserbasyon mula sa Talahanayan. 8, nakuha namin ang: Mo=10, Me=10, ang arithmetic mean (M) ay 10.1. Sa aming halimbawa, ang lahat ng tatlong mga tagapagpahiwatig ay naging pantay o malapit sa isa't isa, kahit na sila ay ganap na naiiba.

Ang arithmetic mean ay ang resultang kabuuan ng lahat ng mga impluwensya; lahat ng mga opsyon, nang walang pagbubukod, ay nakikibahagi sa pagbuo nito, kabilang ang mga sukdulan, kadalasang hindi tipikal para sa isang partikular na phenomenon o set.

Ang mode at median, sa kaibahan sa arithmetic mean, ay hindi nakasalalay sa halaga ng lahat ng mga indibidwal na halaga ng variable na katangian (ang mga halaga ng matinding variant at ang antas ng pagkakalat ng serye). Ang arithmetic mean ay nagpapakilala sa buong masa ng mga obserbasyon, ang mode at median ay nagpapakilala sa bulk

Ang paraan ng pagpapangkat ay nagpapahintulot din sa iyo na sukatin pagkakaiba-iba(variability, fluctuation) ng mga palatandaan. Sa medyo maliit na bilang ng mga yunit ng populasyon, ang pagkakaiba-iba ay sinusukat sa batayan ng isang ranggo na serye ng mga yunit na bumubuo sa populasyon. Tinatawag ang hilera niraranggo kung ang mga yunit ay nakaayos sa pataas (pababa) na tampok.

Gayunpaman, ang ranggo na serye ay sa halip ay nagpapahiwatig kapag ang isang paghahambing na katangian ng pagkakaiba-iba ay kinakailangan. Bilang karagdagan, sa maraming mga kaso ang isang tao ay kailangang harapin ang mga istatistikal na pinagsama-samang binubuo ng isang malaking bilang ng mga yunit, na halos mahirap na katawanin sa anyo ng isang tiyak na serye. Sa pagsasaalang-alang na ito, para sa paunang pangkalahatang kakilala sa istatistikal na data at lalo na upang mapadali ang pag-aaral ng pagkakaiba-iba ng mga palatandaan, ang mga pinag-aralan na phenomena at proseso ay karaniwang pinagsama sa mga grupo, at ang mga resulta ng pagpapangkat ay iginuhit sa anyo ng mga talahanayan ng grupo. .

Kung mayroon lamang dalawang hanay sa talahanayan ng pangkat - mga pangkat ayon sa napiling tampok (mga opsyon) at ang bilang ng mga pangkat (mga frequency o frequency), ito ay tinatawag malapit sa pamamahagi.

Saklaw ng pamamahagi - ang pinakasimpleng uri ng structural grouping ayon sa isang attribute, na ipinapakita sa isang group table na may dalawang column na naglalaman ng mga variant at frequency ng attribute. Sa maraming mga kaso, na may tulad na isang structural grouping, i.e. sa pagsasama-sama ng serye ng pamamahagi, ang pag-aaral ng paunang istatistikal na materyal ay magsisimula.

Ang isang istrukturang pagpapangkat sa anyo ng isang serye ng pamamahagi ay maaaring gawing isang tunay na istrukturang pagpapangkat kung ang mga napiling grupo ay nailalarawan hindi lamang sa pamamagitan ng mga frequency, kundi pati na rin ng iba pang mga istatistikal na tagapagpahiwatig. Ang pangunahing layunin ng serye ng pamamahagi ay pag-aralan ang pagkakaiba-iba ng mga tampok. Ang teorya ng serye ng pamamahagi ay binuo nang detalyado sa pamamagitan ng mga istatistika ng matematika.

Ang serye ng pamamahagi ay nahahati sa katangian(pagpapangkat ayon sa mga katangiang katangian, halimbawa, ang paghahati ng populasyon ayon sa kasarian, nasyonalidad, katayuan sa pag-aasawa, atbp.) at pagkakaiba-iba(pagpapangkat ayon sa dami ng mga katangian).

Serye ng pagkakaiba-iba ay isang talahanayan ng pangkat na naglalaman ng dalawang column: isang pagpapangkat ng mga unit ayon sa isang quantitative attribute at ang bilang ng mga unit sa bawat grupo. Ang mga agwat sa serye ng variation ay karaniwang nabuo nang pantay at sarado. Ang serye ng variation ay ang sumusunod na pagpapangkat ng populasyon ng Russia sa mga tuntunin ng average per capita cash income (Talahanayan 3.10).

Talahanayan 3.10

Distribusyon ng populasyon ng Russia sa pamamagitan ng average per capita income noong 2004-2009

Mga pangkat ng populasyon ayon sa average na per capita cash income, rub./month

Populasyon sa pangkat, sa % ng kabuuan

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Higit sa 25,000.0

Lahat ng populasyon

Ang variational series, naman, ay nahahati sa discrete at interval. discrete pinagsasama-sama ng serye ng variation ang mga variant ng mga discrete na feature na nag-iiba-iba sa loob ng makitid na limitasyon. Ang isang halimbawa ng isang discrete variation series ay ang pamamahagi ng mga pamilyang Ruso ayon sa bilang ng mga anak na mayroon sila.

Pagitan pinagsasama-sama ng variational series ang mga variant ng alinman sa tuluy-tuloy na feature o discrete na feature na nagbabago sa malawak na hanay. Ang serye ng pagitan ay ang variational na serye ng pamamahagi ng populasyon ng Russia sa mga tuntunin ng average na per capita cash na kita.

Ang discrete variational series ay hindi masyadong madalas na ginagamit sa pagsasanay. Samantala, ang pag-compile ng mga ito ay hindi mahirap, dahil ang komposisyon ng mga grupo ay tinutukoy ng mga partikular na variant na aktwal na taglay ng mga pinag-aralan na katangian ng pagpapangkat.

Mas laganap ang interval variational series. Sa pag-compile ng mga ito, ang mahirap na tanong ay lumitaw sa bilang ng mga grupo, pati na rin ang laki ng mga agwat na dapat itatag.

Ang mga prinsipyo para sa paglutas ng isyung ito ay itinakda sa kabanata sa pamamaraan para sa pagbuo ng mga istatistikal na pagpapangkat (tingnan ang talata 3.3).

Ang mga serye ng variation ay isang paraan ng pagbagsak o pag-compress ng magkakaibang impormasyon sa isang compact form; magagamit ang mga ito upang gumawa ng medyo malinaw na paghatol tungkol sa likas na katangian ng variation, upang pag-aralan ang mga pagkakaiba sa mga palatandaan ng mga phenomena na kasama sa set na pinag-aaralan. Ngunit ang pinakamahalagang kahalagahan ng variational series ay na sa kanilang batayan ang mga espesyal na generalizing na katangian ng variation ay kinakalkula (tingnan ang Kabanata 7).

Ang isang espesyal na lugar sa pagsusuri sa istatistika ay kabilang sa pagpapasiya ng average na antas ng pinag-aralan na tampok o phenomenon. Ang average na antas ng isang tampok ay sinusukat ng mga average na halaga.

Ang average na halaga ay nagpapakilala sa pangkalahatang dami ng antas ng pinag-aralan na katangian at isang pangkat na pag-aari ng istatistikal na populasyon. Ito ay nag-level, nagpapahina sa mga random na paglihis ng mga indibidwal na obserbasyon sa isang direksyon o iba pa at itinatampok ang pangunahing, tipikal na katangian ng katangiang pinag-aaralan.

Ang mga average ay malawakang ginagamit:

1. Upang masuri ang kalagayan ng kalusugan ng populasyon: mga katangian ng pisikal na pag-unlad (taas, timbang, circumference ng dibdib, atbp.), Pagtukoy sa pagkalat at tagal ng iba't ibang sakit, pagsusuri ng mga demograpikong tagapagpahiwatig (natural na paggalaw ng populasyon, average na pag-asa sa buhay, pagpaparami ng populasyon , average na populasyon at iba pa).

2. Upang pag-aralan ang mga aktibidad ng mga institusyong medikal, mga tauhan ng medikal at masuri ang kalidad ng kanilang trabaho, pagpaplano at pagtukoy sa mga pangangailangan ng populasyon sa iba't ibang uri ng pangangalagang medikal (average na bilang ng mga kahilingan o pagbisita bawat naninirahan bawat taon, average na haba ng pananatili ng isang pasyente sa isang ospital, average na tagal ng pagsusuri ng pasyente, average na probisyon sa mga doktor, kama, atbp.).

3. Upang makilala ang sanitary at epidemiological state (average na dustiness ng hangin sa workshop, average na lugar bawat tao, average na pagkonsumo ng mga protina, taba at carbohydrates, atbp.).

4. Upang matukoy ang mga medikal at physiological na mga parameter sa pamantayan at patolohiya, sa pagproseso ng data ng laboratoryo, upang maitaguyod ang pagiging maaasahan ng mga resulta ng isang pumipili na pag-aaral sa socio-hygienic, klinikal, eksperimentong pag-aaral.

Ang pagkalkula ng mga average na halaga ay isinasagawa batay sa serye ng pagkakaiba-iba. Serye ng pagkakaiba-iba- ito ay isang qualitatively homogenous na set ng istatistika, ang mga indibidwal na yunit kung saan nailalarawan ang dami ng mga pagkakaiba ng pinag-aralan na tampok o phenomenon.

Ang quantitative variation ay maaaring may dalawang uri: discontinuous (discrete) at continuous.

Ang isang discontinuous (discrete) sign ay ipinahayag lamang bilang isang integer at hindi maaaring magkaroon ng anumang mga intermediate na halaga (halimbawa, ang bilang ng mga pagbisita, ang populasyon ng site, ang bilang ng mga bata sa pamilya, ang kalubhaan ng sakit sa mga puntos. , atbp.).

Ang isang tuluy-tuloy na pag-sign ay maaaring tumagal sa anumang mga halaga sa loob ng ilang mga limitasyon, kabilang ang mga fractional, at ipinahayag lamang ng humigit-kumulang (halimbawa, timbang - para sa mga matatanda maaari itong limitado sa mga kilo, at para sa mga bagong silang - gramo; taas, presyon ng dugo, oras. ginugol sa pagpapatingin sa isang pasyente, at iba pa).



Ang digital value ng bawat indibidwal na feature o phenomenon na kasama sa variation series ay tinatawag na variant at ipinapahiwatig ng titik V . Mayroon ding iba pang mga notasyon sa matematikal na panitikan, halimbawa x o y.

Ang isang variational series, kung saan ang bawat opsyon ay ipinahiwatig nang isang beses, ay tinatawag na simple. Ang ganitong mga serye ay ginagamit sa karamihan ng mga istatistikal na problema sa kaso ng computer data processing.

Sa isang pagtaas sa bilang ng mga obserbasyon, bilang isang panuntunan, may mga paulit-ulit na halaga ng variant. Sa kasong ito, lumilikha ito nakapangkat na serye ng variation, kung saan ang bilang ng mga pag-uulit ay ipinahiwatig (dalas, na tinutukoy ng titik " R »).

Serye ng variation ng ranggo binubuo ng mga opsyon na nakaayos sa pataas o pababang pagkakasunod-sunod. Parehong simple at pinagsama-samang serye ay maaaring binubuo ng ranking.

Serye ng pagkakaiba-iba ng pagitan ay ginawa upang pasimplehin ang mga kasunod na kalkulasyon na isinagawa nang hindi gumagamit ng computer, na may napakalaking bilang ng mga yunit ng pagmamasid (higit sa 1000).

Patuloy na serye ng variation may kasamang mga variant na halaga, na maaaring maging anumang halaga.

Kung sa serye ng variational ang mga halaga ng katangian (mga opsyon) ay ibinibigay sa anyo ng mga hiwalay na tiyak na numero, kung gayon ang naturang serye ay tinatawag discrete.

Ang mga pangkalahatang katangian ng mga halaga ng katangian na makikita sa serye ng variation ay ang mga average na halaga. Kabilang sa mga ito, ang pinaka ginagamit ay: ang arithmetic mean M, fashion Mo at median ako. Ang bawat isa sa mga katangiang ito ay natatangi. Hindi nila maaaring palitan ang isa't isa, at tanging sa pinagsama-samang mga ito ay lubos na kumpleto at sa isang maigsi na anyo, kinakatawan nila ang mga tampok ng variational series.

Fashion (Mo) pangalanan ang halaga ng pinakamadalas na nangyayaring mga opsyon.

Median (ako) ay ang halaga ng variant na naghahati sa ranged variational series sa kalahati (sa bawat panig ng median ay may kalahati ng variant). Sa mga bihirang kaso, kapag mayroong simetriko na serye ng variation, ang mode at median ay pantay-pantay sa isa't isa at nag-tutugma sa halaga ng arithmetic mean.

Ang pinakakaraniwang katangian ng mga variant na halaga ay ibig sabihin ng aritmetika halaga( M ). Sa panitikan ng matematika, ito ay tinutukoy .

Ang ibig sabihin ng aritmetika (M, ) ay isang pangkalahatang quantitative na katangian ng isang tiyak na katangian ng pinag-aralan na mga phenomena, na bumubuo ng qualitatively homogenous na statistical aggregate. Matukoy ang pagkakaiba sa pagitan ng simpleng arithmetic mean at weighted mean. Ang simpleng arithmetic mean ay kinakalkula para sa isang simpleng variational series sa pamamagitan ng pagsusuma sa lahat ng opsyon at paghahati sa kabuuan na ito sa kabuuang bilang ng mga opsyon na kasama sa variational series na ito. Ang mga kalkulasyon ay isinasagawa ayon sa pormula:

,

saan: M - simpleng ibig sabihin ng aritmetika;

Σ V - pagpipilian sa halaga;

n- bilang ng mga obserbasyon.

Sa pangkat na serye ng variation, tinutukoy ang isang weighted arithmetic mean. Ang formula para sa pagkalkula nito:

,

saan: M - arithmetic weighted average;

Σ vp - ang kabuuan ng mga produkto ng isang variant sa kanilang mga frequency;

n- bilang ng mga obserbasyon.

Sa isang malaking bilang ng mga obserbasyon sa kaso ng mga manu-manong kalkulasyon, maaaring gamitin ang paraan ng mga sandali.

Ang arithmetic mean ay may mga sumusunod na katangian:

ang kabuuan ng mga paglihis ng variant mula sa mean ( Σ d ) ay katumbas ng zero (tingnan ang Talahanayan 15);

Kapag ang multiply (paghahati) ng lahat ng mga opsyon sa pamamagitan ng parehong kadahilanan (divisor), ang arithmetic mean ay multiply (hinati) sa parehong kadahilanan (divider);

Kung idaragdag mo (babawasan) ang parehong numero sa lahat ng mga opsyon, ang arithmetic mean ay tataas (bumababa) ng parehong numero.

Ang mga arithmetic average, na kinuha sa kanilang sarili, nang hindi isinasaalang-alang ang pagkakaiba-iba ng serye kung saan sila kinakalkula, ay maaaring hindi ganap na sumasalamin sa mga katangian ng serye ng variation, lalo na kapag kinakailangan ang paghahambing sa iba pang mga average. Ang mga average na halaga na malapit sa halaga ay maaaring makuha mula sa mga serye na may iba't ibang antas ng pagpapakalat. Kung mas malapit ang mga indibidwal na opsyon sa isa't isa sa mga tuntunin ng kanilang mga quantitative na katangian, mas kaunti scattering (pagbabago, pagkakaiba-iba) serye, mas tipikal ang average nito.

Ang mga pangunahing parameter na nagbibigay-daan sa pagtatasa ng pagkakaiba-iba ng isang katangian ay:

· saklaw;

Malawak;

· Karaniwang lihis;

· Ang koepisyent ng pagkakaiba-iba.

Tinatayang, ang pagbabagu-bago ng isang katangian ay maaaring hatulan ng saklaw at amplitude ng serye ng variation. Isinasaad ng hanay ang maximum (V max) at minimum (V min) na mga opsyon sa serye. Ang amplitude (A m) ay ang pagkakaiba sa pagitan ng mga opsyong ito: A m = V max - V min .

Ang pangunahing, karaniwang tinatanggap na sukatan ng pagbabagu-bago ng variational series ay pagpapakalat (D ). Ngunit ang mas maginhawang parameter ay kadalasang ginagamit, na kinakalkula batay sa pagkakaiba-iba - ang karaniwang paglihis ( σ ). Isinasaalang-alang nito ang halaga ng paglihis ( d ) ng bawat variant ng serye ng variation mula sa arithmetic mean nito ( d=V - M ).

Dahil ang mga paglihis ng variant mula sa mean ay maaaring maging positibo at negatibo, kapag pinagsama-sama ay binibigyan nila ang halagang "0" (S d=0). Upang maiwasan ito, ang mga halaga ng paglihis ( d) ay itinaas sa pangalawang kapangyarihan at na-average. Kaya, ang variance ng variational series ay ang average na square ng deviations ng variant mula sa arithmetic mean at kinakalkula ng formula:

.

Ito ang pinakamahalagang katangian ng pagkakaiba-iba at ginagamit upang kalkulahin ang maraming istatistikal na pagsusulit.

Dahil ang pagkakaiba ay ipinahayag bilang parisukat ng mga paglihis, ang halaga nito ay hindi maaaring gamitin kumpara sa arithmetic mean. Para sa mga layuning ito, ginagamit ito karaniwang lihis, na tinutukoy ng tanda na "Sigma" ( σ ). Inilalarawan nito ang average na paglihis ng lahat ng variant ng serye ng variation mula sa arithmetic mean sa parehong mga unit gaya ng mean mismo, upang magamit ang mga ito nang magkasama.

Ang karaniwang paglihis ay tinutukoy ng formula:

Ang formula na ito ay inilapat para sa bilang ng mga obserbasyon ( n ) ay higit sa 30. Na may mas maliit na bilang n ang halaga ng standard deviation ay magkakaroon ng error na nauugnay sa mathematical bias ( n - isa). Sa pagsasaalang-alang na ito, ang isang mas tumpak na resulta ay maaaring makuha sa pamamagitan ng pagsasaalang-alang ng naturang bias sa pormula para sa pagkalkula ng karaniwang paglihis:

karaniwang lihis (s ) ay isang pagtatantya ng standard deviation ng random variable X kaugnay sa inaasahan nitong matematika batay sa isang walang pinapanigan na pagtatantya ng pagkakaiba nito.

Para sa mga halaga n > 30 karaniwang paglihis ( σ ) at karaniwang paglihis ( s ) ay magiging pareho ( σ=s ). Samakatuwid, sa karamihan ng mga praktikal na manwal, ang mga pamantayang ito ay itinuturing na may iba't ibang kahulugan. Sa Excel, ang pagkalkula ng standard deviation ay maaaring gawin gamit ang function =STDEV(range). At upang makalkula ang karaniwang paglihis, kailangan mong lumikha ng naaangkop na formula.

Ang root mean square o standard deviation ay nagpapahintulot sa iyo na matukoy kung magkano ang mga halaga ng isang tampok ay maaaring mag-iba mula sa ibig sabihin ng halaga. Ipagpalagay na mayroong dalawang lungsod na may parehong average na pang-araw-araw na temperatura sa tag-araw. Ang isa sa mga lungsod na ito ay matatagpuan sa baybayin, at ang isa pa sa kontinente. Ito ay kilala na sa mga lungsod na matatagpuan sa baybayin, ang mga pagkakaiba sa mga temperatura sa araw ay mas mababa kaysa sa mga lungsod na matatagpuan sa loob ng bansa. Samakatuwid, ang karaniwang paglihis ng mga temperatura sa araw na malapit sa baybaying lungsod ay magiging mas mababa kaysa sa pangalawang lungsod. Sa pagsasagawa, nangangahulugan ito na ang average na temperatura ng hangin ng bawat partikular na araw sa isang lungsod na matatagpuan sa kontinente ay mag-iiba nang higit sa average na halaga kaysa sa isang lungsod sa baybayin. Bilang karagdagan, ginagawang posible ng karaniwang paglihis na matantya ang mga posibleng paglihis ng temperatura mula sa average na may kinakailangang antas ng posibilidad.

Ayon sa teorya ng posibilidad, sa mga phenomena na sumusunod sa normal na batas sa pamamahagi, mayroong isang mahigpit na ugnayan sa pagitan ng mga halaga ng arithmetic mean, standard deviation at mga pagpipilian ( tatlong sigma na panuntunan). Halimbawa, 68.3% ng mga halaga ng isang variable na katangian ay nasa loob ng M ± 1 σ , 95.5% - sa loob ng M ± 2 σ at 99.7% - sa loob ng M ± 3 σ .

Ang halaga ng karaniwang paglihis ay ginagawang posible upang hatulan ang likas na katangian ng homogeneity ng serye ng variation at ang pangkat na pinag-aaralan. Kung ang halaga ng karaniwang paglihis ay maliit, kung gayon ito ay nagpapahiwatig ng isang sapat na mataas na homogeneity ng hindi pangkaraniwang bagay na pinag-aaralan. Ang arithmetic mean sa kasong ito ay dapat kilalanin bilang medyo katangian ng variational series na ito. Gayunpaman, ang isang napakaliit na sigma ay nagpapaisip sa isang artipisyal na pagpili ng mga obserbasyon. Sa isang napakalaking sigma, ang arithmetic mean ay nagpapakita ng variation series sa isang mas mababang lawak, na nagpapahiwatig ng isang makabuluhang pagkakaiba-iba ng pinag-aralan na katangian o phenomenon o ang heterogeneity ng pangkat ng pag-aaral. Gayunpaman, ang paghahambing ng halaga ng karaniwang paglihis ay posible lamang para sa mga palatandaan ng parehong dimensyon. Sa katunayan, kung ihahambing natin ang pagkakaiba-iba ng timbang ng mga bagong silang at matatanda, palagi tayong makakakuha ng mas mataas na mga halaga ng sigma sa mga matatanda.

Ang paghahambing ng pagkakaiba-iba ng mga tampok ng iba't ibang dimensyon ay maaaring isagawa gamit ang koepisyent ng pagkakaiba-iba. Ito ay nagpapahayag ng pagkakaiba-iba bilang isang porsyento ng mean, na nagbibigay-daan sa paghahambing ng iba't ibang katangian. Ang koepisyent ng pagkakaiba-iba sa medikal na panitikan ay ipinahiwatig ng tanda " MULA SA ", at sa matematika " v»at kinakalkula ng formula:

.

Ang mga halaga ng koepisyent ng pagkakaiba-iba na mas mababa sa 10% ay nagpapahiwatig ng isang maliit na scattering, mula 10 hanggang 20% ​​- tungkol sa average, higit sa 20% - tungkol sa isang malakas na scattering sa paligid ng arithmetic mean.

Karaniwang kinakalkula ang arithmetic mean batay sa sample na data. Sa paulit-ulit na pag-aaral sa ilalim ng impluwensya ng mga random na phenomena, maaaring magbago ang arithmetic mean. Ito ay dahil sa ang katunayan na, bilang isang patakaran, isang bahagi lamang ng mga posibleng yunit ng pagmamasid, iyon ay, isang sample na populasyon, ay sinisiyasat. Ang impormasyon tungkol sa lahat ng posibleng mga yunit na kumakatawan sa hindi pangkaraniwang bagay na pinag-aaralan ay maaaring makuha sa pamamagitan ng pag-aaral sa buong pangkalahatang populasyon, na hindi laging posible. Kasabay nito, upang gawing pangkalahatan ang pang-eksperimentong data, ang halaga ng average sa pangkalahatang populasyon ay interesado. Samakatuwid, upang makabuo ng isang pangkalahatang konklusyon tungkol sa hindi pangkaraniwang bagay na pinag-aaralan, ang mga resulta na nakuha batay sa isang sample na populasyon ay dapat ilipat sa pangkalahatang populasyon sa pamamagitan ng mga istatistikal na pamamaraan.

Upang matukoy ang antas ng coincidence sa pagitan ng sample na pag-aaral at ng pangkalahatang populasyon, ito ay kinakailangan upang tantiyahin ang dami ng error na hindi maaaring hindi arises sa panahon ng sample na pagmamasid. Ang ganitong pagkakamali ay tinatawag pagkakamali sa pagiging kinatawan” o “Mean error ng arithmetic mean”. Ito ay, sa katunayan, ang pagkakaiba sa pagitan ng mga average na nakuha mula sa pumipili na pag-obserba sa istatistika at mga katulad na halaga na makukuha mula sa patuloy na pag-aaral ng parehong bagay, i.e. kapag pinag-aaralan ang pangkalahatang populasyon. Dahil ang sample mean ay isang random na variable, ang naturang pagtataya ay ginawa gamit ang isang katanggap-tanggap na antas ng posibilidad para sa mananaliksik. Sa medikal na pananaliksik, ito ay hindi bababa sa 95%.

Ang error sa pagiging representatibo ay hindi dapat malito sa mga error sa pagpaparehistro o mga error sa atensyon (mga maling pagkakaprint, maling kalkulasyon, maling pagkakaprint, atbp.), na dapat mabawasan ng sapat na pamamaraan at mga tool na ginamit sa eksperimento.

Ang laki ng pagkakamali ng pagiging kinatawan ay depende sa laki ng sample at sa pagkakaiba-iba ng katangian. Kung mas malaki ang bilang ng mga obserbasyon, mas malapit ang sample sa pangkalahatang populasyon at mas maliit ang error. Kung mas maraming variable ang feature, mas malaki ang statistical error.

Sa pagsasagawa, ang sumusunod na formula ay ginagamit upang matukoy ang error sa pagiging representatibo sa variational series:

,

saan: m - pagkakamali sa pagiging kinatawan;

σ - karaniwang lihis;

n ay ang bilang ng mga obserbasyon sa sample.

Makikita mula sa formula na ang laki ng average na error ay direktang proporsyonal sa standard deviation, ibig sabihin, ang pagkakaiba-iba ng katangian na pinag-aaralan, at inversely proportional sa square root ng bilang ng mga obserbasyon.

Kapag nagsasagawa ng pagsusuri sa istatistika batay sa pagkalkula ng mga kamag-anak na halaga, ang pagbuo ng isang serye ng variation ay hindi sapilitan. Sa kasong ito, ang pagpapasiya ng average na error para sa mga kamag-anak na tagapagpahiwatig ay maaaring isagawa gamit ang isang pinasimple na formula:

,

saan: R- ang halaga ng kamag-anak na tagapagpahiwatig, na ipinahayag bilang isang porsyento, ppm, atbp.;

q- ang kapalit ng P at ipinahayag bilang (1-P), (100-P), (1000-P), atbp., depende sa batayan kung saan kinakalkula ang indicator;

n ay ang bilang ng mga obserbasyon sa sample.

Gayunpaman, ang ipinahiwatig na pormula para sa pagkalkula ng error sa pagiging kinatawan para sa mga kamag-anak na halaga ay maaari lamang mailapat kapag ang halaga ng tagapagpahiwatig ay mas mababa kaysa sa base nito. Sa ilang mga kaso ng pagkalkula ng masinsinang tagapagpahiwatig, ang kundisyong ito ay hindi natutugunan, at ang tagapagpahiwatig ay maaaring ipahayag bilang isang bilang na higit sa 100% o 1000%o. Sa ganoong sitwasyon, ang isang serye ng pagkakaiba-iba ay itinayo at ang error sa pagiging kinatawan ay kinakalkula gamit ang formula para sa mga average na halaga batay sa karaniwang paglihis.

Ang pagtataya ng halaga ng arithmetic mean sa pangkalahatang populasyon ay isinasagawa na may indikasyon ng dalawang halaga - ang minimum at maximum. Ang mga matinding halaga na ito ng mga posibleng paglihis, kung saan ang nais na average na halaga ng pangkalahatang populasyon ay maaaring magbago, ay tinatawag na " Mga hangganan ng kumpiyansa».

Ang mga postulates ng teorya ng probabilidad ay pinatunayan na sa isang normal na pamamahagi ng isang tampok na may posibilidad na 99.7%, ang matinding mga halaga ng mga paglihis ng mean ay hindi lalampas sa halaga ng triple error ng representasyon ( M ± 3 m ); sa 95.5% - hindi hihigit sa halaga ng dobleng average na error ng average na halaga ( M ±2 m ); sa 68.3% - hindi hihigit sa halaga ng isang average na error ( M ± 1 m ) (Larawan 9).

P%

kanin. 9. Probability density ng normal distribution.

Tandaan na ang pahayag sa itaas ay totoo lamang para sa isang tampok na sumusunod sa normal na batas ng pamamahagi ng Gaussian.

Karamihan sa mga pang-eksperimentong pag-aaral, kabilang ang mga nasa larangan ng medisina, ay nauugnay sa mga sukat, ang mga resulta nito ay maaaring tumagal ng halos anumang halaga sa isang naibigay na agwat, samakatuwid, bilang panuntunan, ang mga ito ay inilarawan ng isang modelo ng tuluy-tuloy na mga random na variable. Sa pagsasaalang-alang na ito, ang karamihan sa mga istatistikal na pamamaraan ay isinasaalang-alang ang patuloy na pamamahagi. Ang isa sa mga distribusyon na ito, na gumaganap ng isang pangunahing papel sa mga istatistika ng matematika, ay normal, o Gaussian, distribusyon.

Ito ay dahil sa maraming dahilan.

1. Una sa lahat, maraming mga eksperimentong obserbasyon ang maaaring matagumpay na mailarawan gamit ang isang normal na distribusyon. Dapat pansinin kaagad na walang mga distribusyon ng empirical na data na magiging eksaktong normal, dahil ang isang normal na ibinahagi na random na variable ay nasa hanay mula hanggang , na hindi kailanman nangyayari sa pagsasanay. Gayunpaman, ang normal na pamamahagi ay madalas na isang mahusay na pagtatantya.

Kung ang mga sukat ng timbang, taas at iba pang mga physiological parameter ng katawan ng tao ay isinasagawa - kahit saan ang napakalaking bilang ng mga random na kadahilanan (natural na mga sanhi at mga error sa pagsukat) ay nakakaimpluwensya sa mga resulta. At, bilang panuntunan, ang epekto ng bawat isa sa mga salik na ito ay hindi gaanong mahalaga. Ipinapakita ng karanasan na ang mga resulta sa mga ganitong kaso ay ipapamahagi nang halos normal.

2. Nagiging normal ang maraming distribusyon na nauugnay sa isang random na sample, na may pagtaas sa volume ng huli.

3. Ang normal na distribusyon ay angkop bilang isang tinatayang paglalarawan ng iba pang tuluy-tuloy na distribusyon (halimbawa, mga walang simetriko).

4. Ang normal na distribusyon ay may bilang ng mga paborableng katangian ng matematika, na higit na nagsisiguro sa malawakang paggamit nito sa mga istatistika.

Kasabay nito, dapat tandaan na sa medikal na data mayroong maraming mga eksperimentong pamamahagi na hindi maaaring inilarawan ng normal na modelo ng pamamahagi. Para magawa ito, bumuo ang mga istatistika ng mga pamamaraan na karaniwang tinatawag na "Nonparametric".

Ang pagpili ng isang istatistikal na paraan na angkop para sa pagproseso ng data ng isang partikular na eksperimento ay dapat gawin depende sa kung ang data na nakuha ay nabibilang sa normal na batas ng pamamahagi. Ang pagsusuri sa hypothesis para sa subordination ng isang sign sa normal na batas sa pamamahagi ay isinasagawa gamit ang histogram ng frequency distribution (graph), pati na rin ang isang bilang ng mga istatistikal na pamantayan. Sa kanila:

Asymmetry criterion ( b );

Pamantayan para sa pagsusuri para sa kurtosis ( g );

Shapiro–Wilks criterion ( W ) .

Ang isang pagsusuri sa likas na katangian ng pamamahagi ng data (ito ay tinatawag ding isang pagsubok para sa normalidad ng pamamahagi) ay isinasagawa para sa bawat parameter. Upang kumpiyansa na hatulan ang pagkakaugnay ng pamamahagi ng parameter sa normal na batas, kinakailangan ang isang sapat na malaking bilang ng mga yunit ng pagmamasid (hindi bababa sa 30 mga halaga).

Para sa isang normal na distribusyon, ang skewness at kurtosis na pamantayan ay kumukuha ng halaga na 0. Kung ang distribusyon ay inilipat sa kanan b > 0 (positibong kawalaan ng simetrya), na may b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. Sa g > 0 ang distribution curve ay mas matalas kung g < 0 пик более сглаженный, чем функция нормального распределения.

Upang masuri ang normalidad gamit ang pagsusulit ng Shapiro-Wilks, kinakailangang hanapin ang halaga ng pamantayang ito gamit ang mga istatistikal na talahanayan sa kinakailangang antas ng kahalagahan at depende sa bilang ng mga yunit ng pagmamasid (mga antas ng kalayaan). Appendix 1. Ang hypothesis ng normalidad ay tinanggihan para sa maliliit na halaga ng pamantayang ito, bilang panuntunan, para sa w <0,8.

(kahulugan ng isang variational series; mga bahagi ng isang variational series; tatlong anyo ng isang variational series; expediency ng pagbuo ng isang interval series; mga konklusyon na maaaring makuha mula sa constructed series)

Ang variational series ay isang sequence ng lahat ng sample na elemento na nakaayos sa hindi bumababa na pagkakasunud-sunod. Ang parehong mga elemento ay paulit-ulit

Variational - ang mga ito ay serye na binuo sa isang quantitative na batayan.

Binubuo ang variational distribution series ng dalawang elemento: variant at frequency:

Ang mga variant ay ang mga numerical value ng isang quantitative trait sa variation series ng distribution. Maaari silang maging positibo o negatibo, ganap o kamag-anak. Kaya, kapag ang pagpapangkat ng mga negosyo ayon sa mga resulta ng aktibidad sa ekonomiya, ang mga pagpipilian ay positibo - ito ay tubo, at negatibong mga numero - ito ay isang pagkawala.

Ang mga frequency ay ang mga bilang ng mga indibidwal na variant o bawat pangkat ng serye ng variation, i.e. ito ay mga numerong nagpapakita kung gaano kadalas nangyayari ang ilang mga opsyon sa isang serye ng pamamahagi. Ang kabuuan ng lahat ng mga frequency ay tinatawag na dami ng populasyon at tinutukoy ng bilang ng mga elemento ng buong populasyon.

Ang mga frequency ay mga frequency na ipinahayag bilang mga kamag-anak na halaga (mga fraction ng mga yunit o porsyento). Ang kabuuan ng mga frequency ay katumbas ng isa o 100%. Ang pagpapalit ng mga frequency ng mga frequency ay ginagawang posible na ihambing ang variational series na may iba't ibang bilang ng mga obserbasyon.

Mayroong tatlong anyo ng serye ng variation: ranggo na serye, discrete series at interval series.

Ang isang ranggo na serye ay ang pamamahagi ng mga indibidwal na yunit ng populasyon sa pataas o pababang pagkakasunud-sunod ng katangiang pinag-aaralan. Pinapadali ng pagraranggo na hatiin ang dami ng data sa mga pangkat, agad na makita ang pinakamaliit at pinakamalaking halaga ng isang tampok, at i-highlight ang mga halaga na madalas na inuulit.

Ang iba pang mga anyo ng serye ng pagkakaiba-iba ay mga talahanayan ng pangkat na pinagsama-sama ayon sa likas na katangian ng pagkakaiba-iba sa mga halaga ng katangian na pinag-aaralan. Sa likas na katangian ng pagkakaiba-iba, ang mga discrete (discontinuous) at tuloy-tuloy na mga palatandaan ay nakikilala.

Ang isang discrete series ay tulad ng variational series, ang pagbuo nito ay batay sa mga sign na may hindi tuloy-tuloy na pagbabago (discrete signs). Kasama sa huli ang kategorya ng taripa, ang bilang ng mga bata sa pamilya, ang bilang ng mga empleyado sa negosyo, atbp. Ang mga palatandaang ito ay maaaring tumagal lamang ng isang may hangganang bilang ng ilang partikular na halaga.

Ang discrete variational series ay isang table na binubuo ng dalawang column. Ang unang hanay ay nagpapahiwatig ng tiyak na halaga ng katangian, at ang pangalawa - ang bilang ng mga yunit ng populasyon na may partikular na halaga ng katangian.

Kung ang isang sign ay may tuluy-tuloy na pagbabago (ang halaga ng kita, karanasan sa trabaho, ang halaga ng mga fixed asset ng isang enterprise, atbp., na maaaring tumagal ng anumang halaga sa loob ng ilang mga limitasyon), pagkatapos ay isang serye ng pagkakaiba-iba ng pagitan ay dapat na binuo para sa sign na ito.



Ang talahanayan ng pangkat dito ay mayroon ding dalawang column. Ang una ay nagpapahiwatig ng halaga ng tampok sa pagitan ng "mula - hanggang" (mga opsyon), ang pangalawa - ang bilang ng mga yunit na kasama sa pagitan (dalas).

Dalas (dalas ng pag-uulit) - ang bilang ng mga pag-uulit ng isang partikular na variant ng mga halaga ng katangian, na tinukoy na fi , at ang kabuuan ng mga frequency na katumbas ng dami ng pinag-aralan na populasyon, na tinukoy

Kung saan ang k ay ang bilang ng mga pagpipilian sa halaga ng katangian

Kadalasan, ang talahanayan ay pupunan ng isang column kung saan kinakalkula ang mga naipon na frequency S, na nagpapakita kung gaano karaming mga yunit ng populasyon ang may feature na value na hindi hihigit sa halagang ito.

Ang discrete variational distribution series ay isang serye kung saan ang mga grupo ay binubuo ayon sa isang feature na discretely nag-iiba-iba at tumatagal lang ng mga integer value.

Ang serye ng pamamahagi ng pagkakaiba-iba ng pagitan ay isang serye kung saan ang katangian ng pagpapangkat, na bumubuo sa batayan ng pagpapangkat, ay maaaring kumuha ng anumang mga halaga sa isang tiyak na agwat, kabilang ang mga fractional.

Ang isang serye ng pagkakaiba-iba ng pagitan ay isang nakaayos na hanay ng mga pagitan ng pagkakaiba-iba ng mga halaga ng isang random na variable na may kaukulang mga frequency o mga frequency ng mga halaga ng dami na bumabagsak sa bawat isa sa kanila.

Ito ay kapaki-pakinabang na bumuo ng isang serye ng pamamahagi ng pagitan, una sa lahat, na may tuluy-tuloy na pagkakaiba-iba ng isang katangian, at gayundin kung ang isang discrete variation ay nagpapakita mismo sa isang malawak na hanay, i.e. medyo malaki ang bilang ng mga opsyon para sa isang discrete feature.

Maraming mga konklusyon ang maaari nang makuha mula sa seryeng ito. Halimbawa, ang average na elemento ng isang serye ng variation (median) ay maaaring isang pagtatantya ng pinakamalamang na resulta ng isang pagsukat. Ang una at huling elemento ng variational series (ibig sabihin, ang minimum at maximum na elemento ng sample) ay nagpapakita ng pagkalat ng mga elemento ng sample. Minsan, kung ang una o huling elemento ay ibang-iba mula sa natitirang sample, pagkatapos ay hindi sila kasama sa mga resulta ng pagsukat, isinasaalang-alang na ang mga halagang ito ay nakuha bilang isang resulta ng ilang uri ng matinding pagkabigo, halimbawa, teknolohiya.