Ang sample ay kinatawan. Pagkakatawan - ano ito? Systematic random sampling

Sa katunayan, magsisimula tayo sa hindi isa, ngunit tatlong tanong: ano ang sample? kailan ito kinatawan? ano ang kinakatawan niya?

Pinagsama-sama- ito ay anumang pangkat ng mga tao, organisasyon, mga kaganapan na interesado sa amin, tungkol sa kung saan nais naming gumawa ng mga konklusyon, at nangyayari, o bagay, - anumang elemento ng naturang koleksyon.

Sampol- anumang subgroup ng hanay ng mga kaso (mga bagay) na pinili para sa pagsusuri.

Kung gusto nating pag-aralan ang aktibidad sa paggawa ng desisyon ng mga mambabatas ng estado, maaari nating suriin ang naturang aktibidad sa mga lehislatura ng mga estado ng Virginia, North Carolina at South Carolina, at hindi sa lahat ng limampung estado, at, batay dito, ipamahagi nakatanggap ng data sa populasyon kung saan napili ang tatlong estadong ito. Kung gusto naming imbestigahan ang sistema ng kagustuhan ng botante ng Pennsylvania, magagawa namin ito sa pamamagitan ng pakikipanayam sa 50 manggagawa sa U.S. S. Steele sa Pittsburgh at ipamahagi ang mga resulta ng botohan sa lahat ng botante sa estado.

Ganun din Kung gusto naming sukatin ang katalinuhan ng mga mag-aaral sa kolehiyo, maaari naming subukan ang lahat ng mga nagtatanggol na manlalaro na nakarehistro sa Ohio State sa isang partikular na season ng football at pagkatapos ay i-extend ang mga resulta sa populasyon kung saan sila bahagi. Sa bawat halimbawa, nagpapatuloy kami sa mga sumusunod: nagtatatag kami ng subgroup sa loob ng populasyon, pinag-aaralan ang subgroup na ito, o sample, sa ilang detalye, at pinapalawak ang aming mga resulta sa buong populasyon. Ito ang mga pangunahing yugto ng sampling.

Gayunpaman parang Ito ay lubos na halata na ang bawat isa sa mga sample na ito ay may isang makabuluhang disbentaha. Halimbawa, bagama't ang mga lehislatura ng Virginia, North Carolina, at South Carolina ay bahagi ng konstelasyon ng mga lehislatura ng estado, sila ay, para sa makasaysayang, heograpiko, at pampulitika na mga kadahilanan, malamang na gumana sa halos magkatulad na mga paraan at ibang-iba sa mga natatanging lehislatura. . estado tulad ng New York, Nebraska at Alaska. Bagama't ang limampung manggagawa ng bakal sa Pittsburgh ay maaaring botante nga sa Pennsylvania, maaaring sila, sa bisa ng kanilang socioeconomic status, edukasyon, at karanasan sa buhay, ay may mga pananaw na naiiba sa mga pananaw ng marami pang ibang tao na mga botante sa parehong paraan.

Gayundin, kahit na ang mga footballer ng Ohio State ay mga mag-aaral sa kolehiyo, maaaring iba sila sa ibang mga mag-aaral sa iba't ibang dahilan. Sa madaling salita, kahit na ang bawat isa sa mga subgroup na ito ay talagang isang sample, ang mga miyembro ng bawat isa sa kanila ay sistematikong naiiba mula sa karamihan ng iba pang mga miyembro ng populasyon kung saan sila pinili. Bilang isang hiwalay na grupo, wala sa kanila ang tipikal sa mga tuntunin ng pamamahagi ng mga tampok ng mga opinyon, mga motibo sa pag-uugali at mga katangian sa pangkalahatang populasyon kung saan ito nauugnay. Alinsunod dito, sasabihin ng mga siyentipikong pampulitika na wala sa mga sample na ito ang kinatawan.

Sampol ng Kinatawan- ito ay tulad ng isang sample kung saan ang lahat ng mga pangunahing tampok ng pangkalahatang populasyon kung saan kinuha ang ibinigay na sample ay ipinakita nang humigit-kumulang sa parehong proporsyon o may parehong dalas kung saan ang tampok na ito ay lumilitaw sa pangkalahatang populasyon na ito. Kaya, kung ang 50% ng lahat ng mga lehislatura ng estado ay nagpupulong isang beses lamang sa bawat dalawang taon, halos kalahati ng isang kinatawan na sample ng mga lehislatura ng estado ay dapat na sa ganitong uri. Kung 30% ng mga botante ng Pennsylvania ay blue-collar, humigit-kumulang 30% ng isang kinatawan na sample ng mga botante na iyon (sa halip na 100% tulad ng sa halimbawa sa itaas) ay dapat na blue-collar.

At kung 2% ng lahat ng mga mag-aaral sa kolehiyo ay mga atleta, tungkol sa parehong proporsyon ng isang kinatawan na sample ng mga mag-aaral sa kolehiyo ay dapat na mga atleta. Sa madaling salita, ang isang sample na kinatawan ay isang microcosm, isang mas maliit ngunit tumpak na modelo ng populasyon na nilalayon nitong katawanin. Sa lawak na ang sample ay kinatawan, ang mga konklusyon batay sa pag-aaral ng sample na ito ay maaaring ligtas na ituring na naaangkop sa orihinal na populasyon. Ang distribusyon na ito ng mga resulta ay tinatawag nating generalizability.

Marahil ang isang graphic na paglalarawan ay makakatulong na linawin ito. Ipagpalagay na gusto nating pag-aralan ang mga pattern ng pagiging miyembro ng grupong pampulitika sa mga nasa hustong gulang sa US. Ang Figure 5.1 ay nagpapakita ng tatlong bilog na nahahati sa anim na pantay na sektor. Ang Figure 5.1a ay kumakatawan sa buong populasyon na isinasaalang-alang. Ang mga miyembro ng populasyon ay inuri ayon sa mga pangkat pampulitika (tulad ng mga partido at grupo ng interes) kung saan sila nabibilang.

Sa halimbawang ito bawat nasa hustong gulang ay kabilang sa hindi bababa sa isa at hindi hihigit sa anim na grupong pampulitika; at ang anim na antas ng membership na ito ay pantay na karaniwan sa pinagsama-samang (samakatuwid ang mga pantay na sektor). Ipagpalagay na gusto nating imbestigahan ang mga motibo ng mga tao sa pagsali sa isang grupo, pagpili ng grupo, at mga pattern ng pakikilahok, ngunit dahil sa mga hadlang sa mapagkukunan, nasusuri lamang natin ang isa sa bawat anim na miyembro ng populasyon. Sino ang dapat piliin para sa pagsusuri?

kanin. 5.1. Pagbuo ng isang sample mula sa pangkalahatang populasyon

Ang isa sa mga posibleng sample ng isang naibigay na laki ay inilalarawan ng may kulay na lugar sa Fig. 5.1b, gayunpaman, malinaw na hindi ito sumasalamin sa istruktura ng populasyon.

Kung gagawa tayo ng mga generalization batay sa sample na ito, magtatapos tayo:

1) na ang lahat ng nasa hustong gulang na Amerikano ay kabilang sa limang grupong pampulitika at

2) na ang buong pag-uugali ng grupo ng mga Amerikano ay kasabay ng pag-uugali ng mga tiyak na nabibilang sa limang grupo.

Gayunpaman, alam natin na ang unang konklusyon ay hindi totoo, at ito ay maaaring magdulot sa atin ng pagdududa sa bisa ng pangalawa.

Kaya, ang sample na ipinapakita sa Figure 5.1b ay hindi kinatawan dahil hindi ito nagpapakita ng distribusyon ng isang naibigay na pag-aari ng populasyon (kadalasang tinatawag na parameter) ayon sa aktwal na distribusyon nito. Ang nasabing sample ay sinasabing lumipat patungo sa miyembro ng limang grupo o lumipat palayo sa lahat ng iba pang modelo ng membership ng grupo. Batay sa naturang biased sampling, kadalasan ay nakakakuha tayo ng mga maling konklusyon tungkol sa populasyon.

Ito ay pinakamalinaw na maipapakita sa pamamagitan ng halimbawa ng sakuna na nangyari sa magasing Literary Digest noong 1930s, na nag-organisa ng pampublikong opinyon poll sa mga resulta ng mga halalan. “ Literary Digest” ay isang peryodiko na muling naglimbag ng mga editoryal mula sa mga pahayagan at iba pang materyal na nagpapakita ng opinyon ng publiko; ang magasing ito ay napakapopular sa simula ng siglo.

Mula noong 1920. Ang magazine ay nagsagawa ng malawak na nationwide poll kung saan higit sa isang milyong tao ang pinadalhan ng mga balota na humihiling sa kanila na markahan ang kanilang ginustong kandidato para sa paparating na halalan sa pagkapangulo. Sa loob ng ilang taon, ang mga resulta ng botohan ng magazine ay napakatumpak na ang poll noong Setyembre ay tila hindi gaanong mahalaga ang halalan sa Nobyembre.

At paano maaaring mangyari ang isang pagkakamali sa napakalaking sample? Gayunpaman, noong 1936, ito mismo ang nangyari: na may malaking mayorya ng mga boto (60:40), ang tagumpay ay hinulaan ng kandidatong Republikano na si Alf Landon. Sa halalan, natalo si Landon sa isang taong may kapansanan - Franklin D. Roosevelt- halos may parehong resulta kung saan dapat siya ay nanalo. Ang kredibilidad ng Literary Digest ay labis na nasira kaya ang magazine ay nawala sa pag-imprenta sa lalong madaling panahon. Anong nangyari? Ito ay napaka-simple: ang Digest poll ay gumamit ng isang bias na sample. Ang mga postkard ay ipinadala sa mga tao na ang mga pangalan ay nakuha mula sa dalawang mapagkukunan: mga direktoryo ng telepono at mga listahan ng pagpaparehistro ng sasakyan.

Bagama't ang pamamaraang ito ng pagpili ay hindi gaanong naiiba sa iba pang mga pamamaraan noon, ito ay lubos na naiiba ngayon, sa panahon ng Great Depression ng 1936, nang ang hindi gaanong mayayamang mga botante, ang pinakamalamang na mainstay ni Roosevelt, ay hindi kayang bumili ng telepono, lalo na ang kotse. Kaya, sa katunayan, ang sample na ginamit sa poll ng Digest ay may kinikilingan sa mga malamang na tumakbo para sa mga Republikano, at nakakagulat pa rin na si Roosevelt ay nagkaroon ng napakagandang resulta.

Paano malutas ang problemang ito? Pagbabalik sa aming halimbawa, ihambing natin ang sample sa Fig. 5.1b na may seleksyon sa fig. 5.1c. Sa huling kaso, ang ikaanim ng populasyon ay pinili din para sa pagsusuri, ngunit ang bawat isa sa mga pangunahing uri ng populasyon ay kinakatawan sa sample sa proporsyon kung saan ito ay kinakatawan sa buong populasyon. Ang ganitong sample ay nagpapakita na isa sa bawat anim na Amerikanong nasa hustong gulang ay kabilang sa isang pangkat pampulitika, isa sa anim hanggang dalawa, at iba pa. Ipapakita rin ng naturang sample ang iba pang pagkakaiba sa mga miyembro nito na maaaring nauugnay sa pakikilahok sa ibang bilang ng mga grupo. Kaya, ang sample na ipinakita sa Figure 5.1c ay isang kinatawan na sample para sa populasyon na isinasaalang-alang.

Siyempre, ang halimbawang ito ay pinasimple mula sa hindi bababa sa dalawang napakahalagang punto ng view. Una, karamihan sa mga populasyon na interesado sa mga siyentipikong pampulitika ay mas magkakaibang kaysa sa isa sa halimbawa. Mga tao, dokumento, pamahalaan, organisasyon, desisyon, atbp. naiiba sa bawat isa hindi sa isa, ngunit sa mas malaking bilang ng mga katangian. Samakatuwid, ang isang kinatawan na sample ay dapat na ganoon bawat isa ng core, ang isang natatanging lugar ay kinakatawan sa proporsyon sa bahagi nito sa populasyon.

Pangalawa, ang sitwasyon kung saan ang aktwal na distribusyon ng mga variable, o mga katangian na gusto nating sukatin, ay hindi alam nang maaga, ay mas karaniwan kaysa sa kabaligtaran - marahil hindi ito nasusukat sa nakaraang sensus ng populasyon. Kaya, ang isang kinatawan na sample ay dapat na idinisenyo upang tumpak na maipakita nito ang umiiral na pamamahagi kahit na hindi namin direktang masuri ang bisa nito. Ang pamamaraan ng sampling ay dapat may panloob na lohika na may kakayahang kumbinsihin tayo na, kung nagawa nating ihambing ang sample sa census, ito ay talagang magiging kinatawan.

Upang magbigay ng pagkakataon tumpak na pagmuni-muni ng kumplikadong organisasyon ng isang naibigay na populasyon at isang tiyak na antas ng kumpiyansa na ang mga iminungkahing pamamaraan ay magagawa ito, ang mga mananaliksik ay bumaling sa mga istatistikal na pamamaraan. Sa paggawa nito, gumagana sila sa dalawang direksyon. Una, gamit ang ilang mga patakaran (panloob na lohika), nagpapasya ang mga mananaliksik kung aling mga partikular na bagay ang pag-aaralan, kung ano ang eksaktong isasama sa isang partikular na sample. Pangalawa, gamit ang ibang mga panuntunan, sila ang magpapasya kung gaano karaming mga bagay ang pipiliin. Hindi namin pag-aaralan nang detalyado ang maraming panuntunang ito, isasaalang-alang lamang namin ang kanilang papel sa pananaliksik sa agham pampulitika. Magsimula tayo sa mga estratehiya para sa pagpili ng mga bagay na bumubuo ng isang sample na kinatawan.

Ang pinakalayunin ng pag-aaral ng sample na populasyon ay palaging makakuha ng impormasyon tungkol sa populasyon. Upang gawin ito, ang isang sample na pag-aaral ay dapat matugunan ang ilang mga kundisyon. Isa sa mga pangunahing kondisyon pagiging kinatawan (representativeness) ng sample. Gaya ng napag-usapan kanina, may ginawang pagkakaiba sa pagitan ng qualitative at quantitative representativeness.

Ang randomness, na ginagarantiyahan ang kwalitatibo (istruktura) na representasyon ng mga pag-aaral sa istatistika, ay nakakamit sa pamamagitan ng pagtupad sa isang bilang ng mga kondisyon para sa pagbuo ng mga sample na grupo (set):

1. Ang bawat miyembro ng populasyon ay dapat magkaroon ng pantay na posibilidad na mapabilang sa sample.

2. Ang pagpili ng mga yunit ng obserbasyon mula sa pangkalahatang populasyon ay dapat isagawa anuman ang katangiang pinag-aaralan. Kung ang pagpili ay isinasagawa nang may layunin, kung gayon kinakailangan ding obserbahan ang mga kondisyon para sa kalayaan ng pamamahagi ng katangian sa ilalim ng pag-aaral.

3. Ang pagpili ay dapat isagawa mula sa magkakatulad na grupo.

Ang pagsunod sa mga kondisyon na ginagarantiyahan ang maximum na kalapitan ng sample at ang pangkalahatang populasyon ay sinisiguro ng mga espesyal na paraan ng pagpili. Depende sa paraan ng pagbuo, ang mga sumusunod na sample ay nakikilala:

1. Mga sample na hindi nangangailangan ng paghahati ng pangkalahatang populasyon sa mga bahagi (sa totoo lang, random na paulit-ulit o hindi paulit-ulit na sampling).

2. Mga sample na nangangailangan ng paghahati sa pangkalahatang populasyon sa mga bahagi (mechanical, tipikal o typological sample, cohort, paired conjugate sample).

Sa totoo lang, ang isang random na sample ay nabuo sa pamamagitan ng random na pagpili - nang random. Ang random na pagpili ay batay sa paghahalo. Halimbawa: pagpili ng bola sa isang sports lotto pagkatapos paghaluin ang lahat ng bola, pagpili ng mga nanalong numero ng lottery, random na pagpili ng mga card ng pasyente para sa pagsasaliksik, atbp. Minsan ginagamit ang mga random na numero, nakuha mula sa mga talahanayan ng mga random na numero o gamit ang mga generator ng random na numero. Ayon sa mga numerong ito, mula sa isang pre-numbered na hanay ng pangkalahatang populasyon, ang mga unit ng pagmamasid na may mga numero na tumutugma sa mga random na numero na nahulog ay pipiliin.

Kapag nag-compile ng isang random na sample, pagkatapos mapili ang bagay at ang lahat ng kinakailangang data tungkol dito ay nakarehistro, maaari kang gumawa ng dalawang bagay: ang bagay ay maaaring ibalik, o hindi ibalik sa pangkalahatang populasyon. Tungkol dito ang sample ay tinatawag na paulit-ulit(ang bagay ay ibinalik sa populasyon) o hindi paulit-ulit(ang bagay ay hindi ibinalik sa populasyon). Dahil sa karamihan sa mga pag-aaral sa istatistika ay halos walang pagkakaiba sa pagitan ng paulit-ulit at hindi paulit-ulit na mga sample, ang kondisyon ay isang priori na tinatanggap na ang sample ay paulit-ulit.

Pagtantya ng kinakailangang laki ng sample

Upang ang sample ay maging quantitatively representative ng pangkalahatang populasyon, kailangan munang tantiyahin ang dami ng data na isasama sa sample.

Sa hindi kilalang laki ng pangkalahatang populasyon ang halaga ng resampling na ginagarantiyahan ang mga resultang kinatawan kung ang resulta ay makikita sa indicator bilang kamag-anak na halaga (bahagi), tinutukoy ng formula:

kung saan ang p ay ang halaga ng tagapagpahiwatig ng katangiang pinag-aaralan, sa %; q = (100- p) ;

t ay isang confidence coefficient na nagpapakita kung ano ang posibilidad na ang laki ng indicator ay hindi lalampas sa mga limitasyon ng marginal error (karaniwang t = 2 ang kinukuha, na nagbibigay ng 95% na posibilidad ng isang error-free forecast);

 - marginal error ng indicator.

Halimbawa: isa sa mga tagapagpahiwatig na nagpapakilala sa kalusugan ng mga manggagawa sa mga industriyal na negosyo ay ang porsyento ng mga manggagawa na walang sakit sa taon. Ipagpalagay na para sa sektor ng industriya kung saan nabibilang ang na-survey na negosyo, ang tagapagpahiwatig na ito ay 25%. Ang marginal error na maaaring pahintulutan upang ang pagkalat ng mga halaga ng tagapagpahiwatig ay hindi lalampas sa mga makatwirang limitasyon ay 5%. Sa kasong ito, ang tagapagpahiwatig ay maaaring tumagal ng mga halaga ng 25% ± 5%, i.e. mula 20% hanggang 30%. Ipagpalagay na t = 2, nakukuha natin

Kung ganoon, kung ang indicator ay ang average na halaga, kung gayon ang bilang ng mga obserbasyon ay maaaring matukoy ng formula:

kung saan ang σ ay ang standard deviation, na maaaring makuha mula sa mga nakaraang pag-aaral, o batay sa pagsubok (pilot) na pag-aaral.

Sa paulit-ulit na pagpili at sa ilalim ng kondisyon ng isang kilalang pangkalahatang populasyon upang matukoy ang kinakailangang random na laki ng sample sa kaso ng paggamit mga kamag-anak na halaga (shares) inilapat ang formula:

para sa mga average na halaga ang formula ay ginagamit:

kung saan ang N ay ang laki ng pangkalahatang populasyon.

Batay sa mga kondisyon ng halimbawa sa itaas at sa pag-aakalang laki ng pangkalahatang populasyon N=500 manggagawa, nakukuha namin:

Madaling makita na ang kinakailangang laki ng sample para sa hindi paulit-ulit na sampling ay mas mababa kaysa sa paulit-ulit na sampling (ayon sa pagkakabanggit, 188 at 300 manggagawa).

Sa pangkalahatan, ang bilang ng mga obserbasyon na kinakailangan upang makakuha ng kinatawan ng data ay nag-iiba-iba sa parisukat ng error na pinapayagan.

Mechanical sampling- sampling, kapag ang mga yunit ng obserbasyon ay pinili nang mekanikal mula sa na-survey na populasyon. Halimbawa: ang pagpili ng bawat ikalimang o bawat ikasampung manggagawa ayon sa mga card ng departamento ng mga tauhan ng negosyo o ayon sa mga outpatient card ng polyclinic ng medical unit.

tipikal, typological o naka-zone Ang sampling ay kinabibilangan ng paghahati-hati ng pangkalahatang populasyon sa isang bilang ng mga qualitatively homogenous na grupo. Halimbawa: kapag pinag-aaralan ang insidente ng mga mag-aaral sa unibersidad para sa isang malalim na pagsusuri sa bawat kurso, pipiliin ang mga grupo ng mag-aaral na karaniwan sa kanilang komposisyon. Kadalasan ang paraan ng pagpili na ito ay pinagsama sa iba pang mga pamamaraan. Halimbawa: ang teritoryo ng lungsod ay nahahati sa mga tipikal na lugar depende sa antas ng polusyon, sa mga lugar na ito, ang mga grupo ng pagmamasid ay nabuo sa pamamagitan ng random na pagpili.

pagpili ng cohort tumutukoy sa naka-target na pagpili. Sa pamamaraang ito, ang mga indibidwal ay pinipili mula sa pangkalahatang populasyon (ang pamamahagi sa mga subgroup ay hindi random), pinagsama ng sandali ng paglitaw ng anumang palatandaan o ang pinag-aralan na epekto na gumaganap ng isang mahalagang papel sa pag-aaral (taon ng kapanganakan, simula ng sakit, pag-inom ng gamot, atbp.).

Pag-aaral ng case-control(SC) ay isang uri ng epidemiological na pag-aaral kung saan ang distribusyon ng isang risk factor ay inihahambing sa pagitan ng isang grupo ng mga pasyente na may sakit at isang control group. Ang pag-aaral (SC) ay tumutukoy sa retrospective, dahil ang mananaliksik, na naghahati sa mga pasyente sa mga grupo, ayon sa kung sila ay may sakit o wala, ay nakakaalam ng impormasyon mula sa nakaraan mula sa kanila.

Dapat nating hiwalayan ang paggamit ng paraan ng sampling sa sanitary statistics kapag pinag-aaralan ang pangkalahatang morbidity ng populasyon. Ang teoretikal na lugar ng paraan ng sampling ay nasubok sa kurso ng mga espesyal na pag-aaral. Kaya, V.S. Bykhovsky et al. noong 1928 gumawa sila ng parallel processing ng 132.8 thousand card na may data sa mga sakit sa pamamagitan ng tuluy-tuloy na pamamaraan at sa paraan ng mekanikal na pagpili ng bawat ikalimang card. Ang isang pagsusuri sa mga resulta ng pagproseso na ito ay nagpakita ng mataas na representasyon ng data mula sa isang piling pag-aaral ng morbidity. Gayunpaman, hanggang sa kasalukuyan, walang pinag-isang pamamaraang pamamaraan sa pagsasagawa ng mga piling pag-aaral sa sanitary-statistical sa malawak na kasanayan.

Halimbawang pagiging kinatawan

Pangalan ng parameter	Ibig sabihin
Paksa ng artikulo:	Halimbawang pagiging kinatawan
Rubric (temang kategorya)	Sikolohiya

Mga Sample na Kinakailangan

Ang isang bilang ng mga kinakailangang kinakailangan ay inilalapat sa sample, na tinutukoy, una sa lahat, ng mga layunin at layunin ng pag-aaral. Dapat kasama sa pagpaplano ng isang eksperimento ang pagsasaalang-alang sa laki ng sample at ilang mga tampok nito. Kaya, sa sikolohikal na pananaliksik, ang kinakailangan homogeneity mga sample. Nangangahulugan ito na ang isang psychologist, na nag-aaral, halimbawa, mga kabataan, ay hindi maaaring magsama ng mga nasa hustong gulang sa parehong sample. Sa kabaligtaran, ang isang pag-aaral na isinagawa sa pamamagitan ng paraan ng pagbabawas ng edad, sa prinsipyo, ay ipinapalagay ang pagkakaroon ng mga paksa ng iba't ibang edad. Kasabay nito, sa kasong ito, ang homogeneity ng sample ay dapat na sundin, ngunit ayon sa iba pang pamantayan, lalo na tulad ng edad at kasarian. Ang batayan para sa pagbuo ng isang homogenous na sample ay maaaring iba't ibang mga katangian, tulad ng antas ng katalinuhan, nasyonalidad, kawalan ng ilang mga sakit, atbp., batay sa mga layunin ng pag-aaral.

Sa pangkalahatang istatistika, mayroong isang konsepto paulit-ulit at hindi paulit-ulit mga seleksyon, o, sa madaling salita, mga seleksyon na may balik at walang balik. Bilang isang halimbawa, bilang isang panuntunan, ang pagpili ng isang bola na kinuha mula sa isang lalagyan ay ibinibigay. Sa kaso ng isang draw na may pagbabalik, ang bawat napiling bola ay muling ibabalik sa lalagyan at, samakatuwid, ay dapat mapiling muli. Sa pamamagitan ng hindi paulit-ulit na pagpili, ang isang beses na napiling bola ay itatabi at hindi na makakasali sa pagpili. Sa sikolohikal na pananaliksik, ang isang tao ay makakahanap ng mga analogue ng ganitong uri ng mga pamamaraan ng pag-aayos ng pumipili na pananaliksik, dahil ang isang psychologist ay madalas na kailangang subukan ang parehong mga paksa nang maraming beses gamit ang parehong pamamaraan. Sa parehong oras, mahigpit na nagsasalita, ang pamamaraan ng pagsubok ay paulit-ulit sa kasong ito. Ang isang sample ng mga paksa na may kumpletong pagkakakilanlan ng komposisyon sa kaso ng mga paulit-ulit na pag-aaral ay palaging magkakaroon ng ilang mga pagkakaiba dahil sa functional at pagkakaiba-iba ng edad na likas sa lahat ng tao. Ang ganitong pagpili sa pamamagitan ng likas na katangian ng pamamaraan ay paulit-ulit, bagaman ang kahulugan ng termino dito ay malinaw na naiiba kaysa sa kaso ng mga bola.

Mahalagang bigyang-diin na ang lahat ng mga kinakailangan para sa anumang sample ay kumukulo sa katotohanan na sa batayan nito ang psychologist ay dapat makakuha ng pinaka kumpleto, hindi nababagong impormasyon tungkol sa mga katangian ng pangkalahatang populasyon kung saan kinuha ang sample na ito. Sa madaling salita, dapat ipakita ng sample nang buo hangga't maaari ang mga katangian ng pangkalahatang populasyon na pinag-aaralan.

Ang komposisyon ng pang-eksperimentong sample ay dapat kumatawan (gayahin) ang pangkalahatang populasyon, dahil ang mga konklusyong nakuha sa eksperimento ay dapat na ilipat sa buong pangkalahatang populasyon sa hinaharap. Para sa kadahilanang ito, ang sample ay dapat magkaroon ng isang espesyal na kalidad - pagiging kinatawan, ginagawang posible na palawigin ang mga konklusyon na nakuha dito sa buong pangkalahatang populasyon.

Ang pagiging kinatawan ng sample ay napakahalaga, gayunpaman, para sa mga layuning dahilan, ito ay lubhang mahirap na panatilihin ito. Kaya, ito ay isang kilalang katotohanan na mula 70% hanggang 90% ng lahat ng sikolohikal na pag-aaral ng pag-uugali ng tao ay isinagawa sa USA noong 60s ng XX siglo kasama ang mga mag-aaral sa kolehiyo, karamihan sa kanila ay mga mag-aaral ng sikolohiya. Sa mga pag-aaral sa laboratoryo na isinagawa sa mga hayop, ang pinakakaraniwang bagay ng pag-aaral ay mga daga. Para sa kadahilanang ito, hindi nagkataon na ang sikolohiya ay dating tinatawag na ʼʼang agham ng mga sophomore at puting dagaʼʼ. Ang mga mag-aaral sa sikolohiya sa kolehiyo ay bumubuo lamang ng 3% ng kabuuang populasyon ng US. Malinaw, ang sample ng mga mag-aaral ay hindi kinatawan bilang isang modelo na nagsasabing kinakatawan ang buong populasyon ng bansa.

Kinatawan sample, o, gaya ng sinasabi nila, kinatawan ang isang sample ay tulad ng isang sample kung saan ang lahat ng mga pangunahing tampok ng pangkalahatang populasyon ay kinakatawan sa humigit-kumulang sa parehong proporsyon at may parehong dalas kung saan ang tampok na ito ay lumilitaw sa pangkalahatang populasyon na ito. Sa madaling salita, ang isang sample na kinatawan ay isang mas maliit ngunit tumpak na modelo ng populasyon na nilalayon nitong katawanin. Sa lawak na ang sample ay kinatawan, ang mga konklusyon batay sa pag-aaral ng sample na ito ay maaaring isaalang-alang na may mataas na antas ng katiyakan na naaangkop sa buong populasyon. Ang pagpapakalat ng mga resulta na ito ay tinatawag pagiging pangkalahatan.

Sa isip, ang isang kinatawan na sample ay dapat na ang bawat isa sa mga pangunahing katangian na pinag-aralan ng psychologist, mga katangian, mga katangian ng personalidad, atbp. ay kinakatawan dito sa proporsyon sa parehong mga tampok sa pangkalahatang populasyon. Ayon sa mga kinakailangang ito, ang pamamaraan ng sampling ay dapat na may panloob na lohika na maaaring kumbinsihin ang mananaliksik na, kung ihahambing sa pangkalahatang populasyon, ito ay talagang magiging kinatawan, kinatawan.

Sa kanyang partikular na aktibidad, ang psychologist ay kumikilos tulad ng sumusunod: nagtatatag siya ng isang subgroup (sample) sa loob ng pangkalahatang populasyon, pinag-aaralan ang sample na ito nang detalyado (nagsasagawa ng eksperimentong gawain kasama nito), at pagkatapos, kung pinapayagan ng mga resulta ng istatistikal na pagsusuri, pinalawak ang natuklasan sa buong populasyon. Ito ang mga pangunahing yugto ng gawain ng isang psychologist na may isang sample.

Ang baguhang psychologist ay dapat isaisip ang isang madalas na paulit-ulit na pagkakamali: sa tuwing siya ay nangongolekta ng anumang data sa pamamagitan ng anumang paraan at mula sa anumang pinagmulan, siya ay palaging natutukso na palawakin ang kanyang mga konklusyon sa buong populasyon. Upang maiwasan ang gayong pagkakamali, ang isa ay hindi lamang dapat magkaroon ng sentido komun, ngunit, higit sa lahat, magkaroon ng isang mahusay na utos ng mga pangunahing konsepto ng mga istatistika ng matematika.

Sample representativeness - konsepto at uri. Pag-uuri at mga tampok ng kategoryang "Pagiging kinatawan ng sample" 2017, 2018.

Ang konsepto ng pagiging kinatawan ay madalas na matatagpuan sa istatistikal na pag-uulat at sa paghahanda ng mga talumpati at mga ulat. Marahil, kung wala ito, mahirap isipin ang anumang uri ng pagtatanghal ng impormasyon para sa pagsusuri.

Pagkakatawan - ano ito?

Ang pagiging representatibo ay nagpapakita kung paano tumutugma ang mga napiling bagay o bahagi sa nilalaman at kahulugan ng set ng data kung saan sila napili.

Iba pang mga kahulugan

Ang konsepto ng pagiging kinatawan ay maaaring mabuo sa iba't ibang konteksto. Ngunit sa kahulugan nito, ang pagiging kinatawan ay ang pagsusulatan ng mga tampok at katangian ng mga napiling yunit mula sa pangkalahatang populasyon, na tumpak na sumasalamin sa mga katangian ng buong pangkalahatang database sa kabuuan.

Gayundin, ang pagiging kinatawan ng impormasyon ay tinukoy bilang ang kakayahan ng sample na data na kumatawan sa mga parameter at katangian ng populasyon na mahalaga mula sa punto ng view ng patuloy na pag-aaral.

Sampol ng Kinatawan

Ang prinsipyo ng sampling ay ang piliin ang pinakamahalaga at tumpak na sumasalamin sa mga katangian ng kabuuang set ng data. Para dito, ginagamit ang iba't ibang mga pamamaraan na nagbibigay-daan sa pagkuha ng tumpak na mga resulta at isang pangkalahatang ideya ng paggamit lamang ng mga piling materyales na naglalarawan sa kalidad ng lahat ng data.

Kaya, hindi kinakailangan na pag-aralan ang buong materyal, ngunit sapat na upang isaalang-alang ang sample representativeness. Ano ito? Ito ay isang seleksyon ng mga indibidwal na data upang magkaroon ng ideya ng kabuuang masa ng impormasyon.

Depende sa pamamaraan, sila ay nakikilala bilang probabilistiko at hindi malamang. Ang isang probabilistic ay isang sample na ginawa sa pamamagitan ng pagkalkula ng pinakamahalaga at kawili-wiling data, na higit pang mga kinatawan ng pangkalahatang populasyon. Ito ay isang sadyang pagpili o isang random na pagpili, gayunpaman, nabibigyang-katwiran ng nilalaman nito.

Hindi kapani-paniwala - ito ay isa sa mga uri ng random sampling, na pinagsama-sama ayon sa prinsipyo ng isang ordinaryong lottery. Sa kasong ito, ang opinyon ng isa na bumubuo ng naturang sample ay hindi isinasaalang-alang. Isang blind lot lang ang ginagamit.

Probability sampling

Ang mga sample ng probabilidad ay maaari ding nahahati sa ilang uri:

Isa sa pinakasimple at pinakanaiintindihan na mga prinsipyo ay ang non-representative sampling. Halimbawa, ang paraang ito ay kadalasang ginagamit sa mga social survey. Kasabay nito, ang mga kalahok sa survey ay hindi pinipili mula sa karamihan sa anumang partikular na batayan, at ang impormasyon ay nakuha mula sa unang 50 tao na nakibahagi dito.
Naiiba ang mga sinadyang sample dahil mayroon silang ilang mga kinakailangan at kundisyon sa pagpili, ngunit umaasa pa rin sa random na pagkakataon, hindi hinahabol ang mga mahuhusay na istatistika bilang kanilang layunin.
Ang quota-based sampling ay isa pang variation ng non-probabilistic sampling na kadalasang ginagamit para suriin ang malalaking dataset. Gumagamit ito ng maraming tuntunin at kundisyon. Pinili ang mga bagay na dapat tumutugma sa kanila. Iyon ay, gamit ang halimbawa ng isang social survey, maaari itong ipagpalagay na 100 katao ang kapanayamin, ngunit ang opinyon lamang ng isang tiyak na bilang ng mga tao na nakakatugon sa itinatag na mga kinakailangan ay isasaalang-alang kapag nag-iipon ng isang istatistikang ulat.

Mga sample ng posibilidad

Para sa mga probabilistikong sample, ang isang bilang ng mga parameter ay kinakalkula na ang mga bagay sa sample ay tumutugma sa, at kabilang sa mga ito, sa iba't ibang paraan, tiyak na ang mga katotohanan at data na ipapakita bilang representasyon ng sample na data ay maaaring mapili. Ang ganitong mga paraan ng pagkalkula ng kinakailangang data ay maaaring:

Isang simpleng random na sample. Binubuo ito sa katotohanan na kabilang sa napiling segment, pinipili ng isang ganap na random na paraan ng lottery ang kinakailangang halaga ng data, na magiging isang sample na kinatawan.

Ginagawang posible ng systematic at random sampling na gumuhit ng isang sistema para sa pagkalkula ng kinakailangang data batay sa isang random na napiling segment. Kaya, kung ang unang random na numero na nagpapahiwatig ng sequence number ng data na pinili mula sa kabuuang populasyon ay 5, kung gayon ang kasunod na data na pipiliin ay maaaring, halimbawa, 15, 25, 35, at iba pa. Ang halimbawang ito ay malinaw na nagpapaliwanag na kahit na ang isang random na pagpipilian ay maaaring batay sa mga sistematikong kalkulasyon ng kinakailangang data ng pag-input.

Sample ng mga mamimili

Ang intentional sampling ay isang paraan na binubuo sa pagsasaalang-alang sa bawat indibidwal na segment, at batay sa pagtatasa nito, ang isang populasyon ay pinagsama-sama na sumasalamin sa mga katangian at katangian ng pangkalahatang database. Sa ganitong paraan, mas maraming data ang nakolekta na nakakatugon sa mga kinakailangan ng isang sample na kinatawan. Madaling pumili ng ilang opsyon na hindi isasama sa kabuuang bilang, nang hindi nawawala ang kalidad ng napiling data na kumakatawan sa kabuuang populasyon. Sa ganitong paraan, natutukoy ang pagiging kinatawan ng mga resulta ng pag-aaral.

Laki ng sample

Hindi ang huling isyu na tatalakayin ay ang laki ng sample para sa isang kinatawan na representasyon ng populasyon. Ang laki ng sample ay hindi palaging nakadepende sa bilang ng mga source sa pangkalahatang populasyon. Gayunpaman, ang pagiging kinatawan ng sample na populasyon ay direktang nakasalalay sa kung gaano karaming mga segment ang dapat na hatiin sa resulta. Kung mas maraming ganoong mga segment, mas maraming data ang nakukuha sa resultang sample. Kung ang mga resulta ay nangangailangan ng isang pangkalahatang notasyon at hindi nangangailangan ng mga detalye, kung gayon, nang naaayon, ang sample ay nagiging mas maliit, dahil, nang hindi pumunta sa mga detalye, ang impormasyon ay ipinakita nang mas mababaw, na nangangahulugan na ang pagbabasa nito ay magiging pangkalahatan.

Ang konsepto ng error sa representasyon

Ang error sa pagiging representatibo ay isang partikular na pagkakaiba sa pagitan ng mga katangian ng populasyon at sample na data. Kapag nagsasagawa ng anumang sample na pag-aaral, imposibleng makakuha ng ganap na tumpak na data, tulad ng sa isang kumpletong pag-aaral ng mga pangkalahatang populasyon at isang sample na ibinigay na may bahagi lamang ng impormasyon at mga parameter, habang ang isang mas detalyadong pag-aaral ay posible lamang kapag pinag-aaralan ang buong populasyon. Kaya, ang ilang mga pagkakamali at pagkakamali ay hindi maiiwasan.

Mga uri ng pagkakamali

Mayroong ilang mga error na nangyayari kapag nag-compile ng isang sample na kinatawan:

sistematiko.
Random.
Sinadya.
Hindi sinasadya.
Pamantayan.
limitasyon.

Ang dahilan para sa paglitaw ng mga random na pagkakamali ay maaaring ang hindi tuloy-tuloy na katangian ng pag-aaral ng pangkalahatang populasyon. Karaniwan, ang random na error ng pagiging representatibo ay hindi gaanong sukat at likas.

Ang mga sistematikong error, samantala, ay lumitaw kapag ang mga patakaran para sa pagpili ng data mula sa kabuuang populasyon ay nilabag.

Ang mean error ay ang pagkakaiba sa pagitan ng sample mean at ng pinagbabatayan na populasyon. Hindi ito nakasalalay sa bilang ng mga yunit sa sample. Ito ay inversely proportional. Kung mas malaki ang volume, mas maliit ang halaga ng average na error.

Ang marginal error ay ang pinakamalaking posibleng pagkakaiba sa pagitan ng mga average na halaga ng sample na ginawa at ng kabuuang populasyon. Ang nasabing error ay nailalarawan bilang ang pinakamataas na posibleng mga error sa ilalim ng ibinigay na mga kondisyon ng kanilang paglitaw.

Sinadya at hindi sinasadyang mga pagkakamali ng pagiging kinatawan

Ang mga error sa offset ng data ay maaaring sinadya o hindi sinasadya.

Kung gayon ang mga dahilan para sa paglitaw ng mga sinasadyang pagkakamali ay ang diskarte sa pagpili ng data sa pamamagitan ng paraan ng pagtukoy ng mga uso. Ang mga hindi sinasadyang pagkakamali ay nangyayari kahit na sa yugto ng paghahanda ng isang sample na pagmamasid, na bumubuo ng isang kinatawan ng sample. Para maiwasan ang mga ganitong error, kailangang gumawa ng magandang sampling frame para sa paglilista ng mga sampling unit. Dapat itong ganap na sumunod sa mga layunin ng sampling, maging maaasahan, sumasaklaw sa lahat ng aspeto ng pag-aaral.

Validity, reliability, representativeness. Error sa Pagkalkula

Pagkalkula ng error ng representativeness (Mm) ng arithmetic mean (M).

Standard deviation: laki ng sample (>30).

Error sa kinatawan (Mr) at (R): laki ng sample (n>30).

Sa kaso kapag kailangan mong pag-aralan ang isang populasyon kung saan ang bilang ng mga sample ay maliit at mas mababa sa 30 mga yunit, ang bilang ng mga obserbasyon ay bababa ng isang yunit.

Ang laki ng error ay direktang proporsyonal sa laki ng sample. Ang pagiging kinatawan ng impormasyon at ang pagkalkula ng antas ng posibilidad ng paggawa ng tumpak na hula ay sumasalamin sa isang tiyak na halaga ng marginal error.

Mga sistema ng representasyon

Hindi lamang isang kinatawan na sample ang ginagamit sa proseso ng pagsusuri ng presentasyon ng impormasyon, ngunit ang taong tumatanggap ng impormasyon mismo ay gumagamit ng mga sistema ng kinatawan. Kaya, pinoproseso ng utak ang ilan sa pamamagitan ng paglikha ng isang kinatawan na sample mula sa buong daloy ng impormasyon upang masuri nang husay at mabilis ang isinumiteng data at maunawaan ang kakanyahan ng isyu. Sagutin ang tanong: "Pagiging kinatawan - ano ito?" - sa sukat ng kamalayan ng tao ay medyo simple. Upang gawin ito, ginagamit ng utak ang lahat ng mga paksa, depende sa kung anong uri ng impormasyon ang kailangang ihiwalay sa pangkalahatang daloy. Kaya, nakikilala nila:

Ang visual representational system, kung saan ang mga organo ng visual na perception ng mata ay kasangkot. Ang mga taong madalas gumamit ng ganitong sistema ay tinatawag na visual. Sa tulong ng sistemang ito, pinoproseso ng isang tao ang impormasyong nanggagaling sa anyo ng mga imahe.
auditory representational system. Ang pangunahing organ na ginagamit ay pandinig. Ang impormasyong ibinibigay sa anyo ng mga sound file o pagsasalita ay pinoproseso ng partikular na sistemang ito. Ang mga taong mas nakakaunawa ng impormasyon sa pamamagitan ng tainga ay tinatawag na auditory.
Ang kinesthetic representational system ay ang pagproseso ng daloy ng impormasyon sa pamamagitan ng pagdama nito sa tulong ng mga olpaktoryo at tactile channel.

Ang digital representational system ay ginagamit kasama ng iba bilang paraan ng pagkuha ng impormasyon mula sa labas. pang-unawa at pag-unawa sa natanggap na datos.

Kaya, pagiging kinatawan - ano ito? Isang simpleng pagpili mula sa maraming tao o isang mahalagang pamamaraan sa pagproseso ng impormasyon? Talagang masasabi nating ang pagiging kinatawan ay higit na tumutukoy sa ating pananaw sa mga daloy ng data, na tumutulong na ihiwalay ang pinakamahalaga at makabuluhan mula rito.

Populasyon- isang set ng mga yunit na may mass character, typicality, qualitative uniformity at pagkakaroon ng variation.

Ang istatistikal na populasyon ay binubuo ng mga materyal na umiiral na bagay (Mga empleyado, negosyo, bansa, rehiyon), ay isang bagay.

Unit ng populasyon- bawat partikular na yunit ng istatistikal na populasyon.

Ang isa at ang parehong istatistikal na populasyon ay maaaring maging homogenous sa isang tampok at heterogenous sa isa pa.

Kwalitatibong pagkakapareho- ang pagkakatulad ng lahat ng mga yunit ng populasyon para sa anumang tampok at hindi pagkakatulad para sa lahat ng iba pa.

Sa isang istatistikal na populasyon, ang mga pagkakaiba sa pagitan ng isang yunit ng populasyon at isa pa ay mas madalas sa isang quantitative na kalikasan. Ang dami ng mga pagbabago sa mga halaga ng katangian ng iba't ibang mga yunit ng populasyon ay tinatawag na pagkakaiba-iba.

Pagkakaiba-iba ng Tampok- quantitative na pagbabago ng isang sign (para sa isang quantitative sign) sa panahon ng paglipat mula sa isang yunit ng populasyon patungo sa isa pa.

tanda- ito ay isang ari-arian, katangian o iba pang katangian ng mga yunit, bagay at phenomena na maaaring obserbahan o sukatin. Ang mga palatandaan ay nahahati sa quantitative at qualitative. Ang pagkakaiba-iba at pagkakaiba-iba ng halaga ng isang tampok sa mga indibidwal na yunit ng populasyon ay tinatawag pagkakaiba-iba.

Hindi nasusukat (komposisyon ng populasyon ayon sa kasarian) ang mga tampok na katangian (kuwalitatibo). Ang mga quantitative na katangian ay may numerical expression (komposisyon ng populasyon ayon sa edad).

Tagapagpahiwatig- ito ay isang generalizing quantitative at qualitative na katangian ng anumang pag-aari ng mga unit o aggregates para sa layunin sa mga partikular na kondisyon ng oras at lugar.

Scorecard ay isang set ng mga indicator na komprehensibong sumasalamin sa phenomenon na pinag-aaralan.

Halimbawa, isaalang-alang ang suweldo:

Sign - sahod
Statistical population - lahat ng empleyado
Ang yunit ng populasyon ay bawat manggagawa
Qualitative homogeneity - naipon na suweldo
Pagkakaiba-iba ng tampok - isang serye ng mga numero

Pangkalahatang populasyon at sample mula dito

Ang batayan ay isang set ng data na nakuha bilang isang resulta ng pagsukat ng isa o higit pang mga tampok. Ang aktwal na naobserbahang hanay ng mga bagay, na istatistikal na kinakatawan ng isang serye ng mga obserbasyon ng isang random na variable , ay sampling, at ang hypothetically na umiiral (pinag-isipan) - pangkalahatang populasyon. Ang pangkalahatang populasyon ay maaaring may hangganan (bilang ng mga obserbasyon N = const) o walang katapusan ( N = ∞), at ang isang sample mula sa pangkalahatang populasyon ay palaging resulta ng isang limitadong bilang ng mga obserbasyon. Ang bilang ng mga obserbasyon na bumubuo sa isang sample ay tinatawag laki ng sample. Kung sapat ang laki ng sample n→∞) ang sample ay isinasaalang-alang malaki, kung hindi, ito ay tinatawag na sample limitadong volume. Ang sample ay isinasaalang-alang maliit, kung, kapag nagsusukat ng one-dimensional na random variable, ang laki ng sample ay hindi lalampas sa 30 ( n<= 30 ), at kapag sabay-sabay na sumusukat ng ilang ( k) mga tampok sa isang multidimensional space relation n sa k mas mababa sa 10 (n/k< 10) . Ang mga sample form serye ng pagkakaiba-iba kung ang mga miyembro nito ay istatistika ng order, ibig sabihin, mga sample na halaga ng random variable X ay pinagsunod-sunod sa pataas na pagkakasunud-sunod (ranggo), ang mga halaga ng katangian ay tinatawag mga pagpipilian.

Halimbawa. Halos pareho ang random na napiling hanay ng mga bagay - mga komersyal na bangko ng isang administratibong distrito ng Moscow, ay maaaring ituring bilang isang sample mula sa pangkalahatang populasyon ng lahat ng mga komersyal na bangko sa distritong ito, at bilang isang sample mula sa pangkalahatang populasyon ng lahat ng mga komersyal na bangko sa Moscow , pati na rin ang isang sample ng mga komersyal na bangko sa bansa at atbp.

Mga pangunahing pamamaraan ng sampling

Ang pagiging maaasahan ng mga istatistikal na konklusyon at makabuluhang interpretasyon ng mga resulta ay nakasalalay sa pagiging kinatawan mga sample, i.e. pagkakumpleto at kasapatan ng pagtatanghal ng mga katangian ng pangkalahatang populasyon, na may kaugnayan sa kung saan ang sample na ito ay maaaring ituring na kinatawan. Ang pag-aaral ng mga istatistikal na katangian ng populasyon ay maaaring isaayos sa dalawang paraan: gamit tuloy-tuloy at walang tigil. Patuloy na pagmamasid kasama ang pagsusuri sa lahat mga yunit pinag-aralan pinagsama-samang, a hindi tuloy-tuloy (selective) na pagmamasid- mga bahagi lamang nito.

Mayroong limang pangunahing paraan upang ayusin ang sampling:

1. simpleng random na pagpili, kung saan ang mga bagay ay random na pinili mula sa pangkalahatang populasyon ng mga bagay (halimbawa, gamit ang isang talahanayan o isang random na generator ng numero), at bawat isa sa mga posibleng sample ay may pantay na posibilidad. Ang ganitong mga sample ay tinatawag random talaga;

2. simpleng pagpili sa pamamagitan ng regular na pamamaraan ay isinasagawa gamit ang isang mekanikal na bahagi (halimbawa, mga petsa, araw ng linggo, mga numero ng apartment, mga titik ng alpabeto, atbp.) at ang mga sample na nakuha sa ganitong paraan ay tinatawag na mekanikal;

3. pinagsasapin-sapin ang pagpili ay binubuo sa katotohanan na ang pangkalahatang populasyon ng volume ay nahahati sa mga subset o layer (strata) ng volume upang . Ang Strata ay mga homogenous na bagay sa mga tuntunin ng istatistikal na katangian (halimbawa, ang populasyon ay nahahati sa mga strata ayon sa pangkat ng edad o panlipunang klase; mga negosyo ayon sa industriya). Sa kasong ito, ang mga sample ay tinatawag pinagsasapin-sapin(kung hindi, stratified, tipikal, zoned);

4. pamamaraan serye ang pagpili ay ginagamit upang mabuo serye o mga nested sample. Ang mga ito ay maginhawa kung kinakailangan upang suriin ang isang "block" o isang serye ng mga bagay nang sabay-sabay (halimbawa, isang kargamento ng mga kalakal, mga produkto ng isang tiyak na serye, o isang populasyon sa teritoryal-administratibong dibisyon ng bansa). Ang pagpili ng serye ay maaaring isagawa sa random o mekanikal na paraan. Kasabay nito, ang isang tuluy-tuloy na survey ng isang tiyak na batch ng mga kalakal, o isang buong yunit ng teritoryo (isang gusali ng tirahan o isang quarter) ay isinasagawa;

5. pinagsama-sama Ang (hakbang) na pagpili ay maaaring pagsamahin ang ilang paraan ng pagpili nang sabay-sabay (halimbawa, stratified at random o random at mechanical); tinatawag ang ganitong sample pinagsama-sama.

Mga uri ng pagpili

Sa pamamagitan ng isip mayroong indibidwal, pangkat at pinagsamang pagpili. Sa indibidwal na pagpili ang mga indibidwal na yunit ng pangkalahatang populasyon ay pinili sa sample set, na may pagpili ng pangkat ay qualitatively homogenous na mga grupo (serye) ng mga yunit, at pinagsamang pagpili nagsasangkot ng kumbinasyon ng una at pangalawang uri.

Sa pamamagitan ng paraan nakikilala ang pagpili paulit-ulit at hindi paulit-ulit sample.

Hindi mauulit tinatawag na seleksyon, kung saan ang yunit na nahulog sa sample ay hindi babalik sa orihinal na populasyon at hindi nakikilahok sa karagdagang pagpili; habang ang bilang ng mga yunit ng pangkalahatang populasyon N nabawasan sa panahon ng proseso ng pagpili. Sa paulit-ulit pagpili nahuli sa sample, ang yunit pagkatapos ng pagpaparehistro ay ibinalik sa pangkalahatang populasyon at sa gayon ay nagpapanatili ng pantay na pagkakataon, kasama ng iba pang mga yunit, na gagamitin sa karagdagang pamamaraan sa pagpili; habang ang bilang ng mga yunit ng pangkalahatang populasyon N ay nananatiling hindi nagbabago (ang pamamaraan ay bihirang ginagamit sa sosyo-ekonomikong pag-aaral). Gayunpaman, na may malaking N (N → ∞) mga formula para sa hindi naulit ang pagpili ay malapit sa para sa paulit-ulit pagpili at ang huli ay halos mas madalas na ginagamit ( N = const).

Ang mga pangunahing katangian ng mga parameter ng pangkalahatan at sample na populasyon

Ang batayan ng mga istatistikal na konklusyon ng pag-aaral ay ang pamamahagi ng isang random na variable, habang ang mga naobserbahang halaga (x 1, x 2, ..., x n) ay tinatawag na realizations ng random variable X(n ang sample size). Ang distribusyon ng isang random na variable sa pangkalahatang populasyon ay teoretikal, perpekto sa kalikasan, at ang sample na analogue nito ay empirical pamamahagi. Ang ilang mga teoretikal na pamamahagi ay ibinibigay nang analitikal, i.e. sila mga pagpipilian matukoy ang halaga ng function ng pamamahagi sa bawat punto sa espasyo ng mga posibleng halaga ng random variable. Para sa isang sample, mahirap, at minsan imposible, upang matukoy ang function ng pamamahagi, samakatuwid mga pagpipilian ay tinatantya mula sa empirical na data, at pagkatapos ay pinapalitan ang mga ito sa isang analytical expression na naglalarawan sa theoretical distribution. Sa kasong ito, ang pagpapalagay (o hypothesis) tungkol sa uri ng pamamahagi ay maaaring parehong tama at mali sa istatistika. Ngunit sa anumang kaso, ang empirical distribution na na-reconstruct mula sa sample ay halos nagpapakilala lamang sa tunay. Ang pinakamahalagang mga parameter ng pamamahagi ay inaasahang halaga at pagpapakalat.

Sa kanilang likas na katangian, ang mga pamamahagi ay tuloy-tuloy at discrete. Ang pinakakilalang patuloy na pamamahagi ay normal. Ang mga pumipili na analogues ng mga parameter at para dito ay: mean value at empirical variance. Kabilang sa mga discrete sa socio-economic studies, ang pinakakaraniwang ginagamit alternatibo (dichotomous) pamamahagi. Ang expectation parameter ng distribution na ito ay nagpapahayag ng relative value (o ibahagi) mga yunit ng populasyon na may katangiang pinag-aaralan (ito ay ipinahiwatig ng titik ); ang proporsyon ng populasyon na walang tampok na ito ay tinutukoy ng titik q (q = 1 - p). Ang pagkakaiba-iba ng alternatibong pamamahagi ay mayroon ding empirical analog.

Depende sa uri ng pamamahagi at sa paraan ng pagpili ng mga yunit ng populasyon, ang mga katangian ng mga parameter ng pamamahagi ay kinakalkula nang iba. Ang mga pangunahing para sa teoretikal at empirikal na pamamahagi ay ibinibigay sa Talahanayan. 9.1.

Sample share k n ay ang ratio ng bilang ng mga yunit ng sample na populasyon sa bilang ng mga yunit ng pangkalahatang populasyon:

k n = n/N.

Sample share w ay ang ratio ng mga yunit na may katangiang pinag-aaralan x sa laki ng sample n:

w = n n / n.

Halimbawa. Sa isang batch ng mga kalakal na naglalaman ng 1000 units, na may 5% sample sample fraction k n sa absolute value ay 50 units. (n = N*0.05); kung 2 may sira na produkto ang makikita sa sample na ito, kung gayon sample fraction w magiging 0.04 (w = 2/50 = 0.04 o 4%).

Dahil ang sample na populasyon ay iba sa pangkalahatang populasyon, mayroon mga error sa sampling.

Talahanayan 9.1 Mga pangunahing parameter ng pangkalahatan at sample na populasyon

Mga error sa pag-sample

Sa anumang (solid at pumipili) na mga error ng dalawang uri ay maaaring mangyari: pagpaparehistro at pagiging kinatawan. Pagkakamali pagpaparehistro maaaring magkaroon random at sistematiko karakter. Random ang mga error ay binubuo ng maraming iba't ibang hindi makontrol na mga sanhi, ay hindi sinasadya, at karaniwang balanse ang bawat isa sa kumbinasyon (halimbawa, mga pagbabago sa pagbabasa ng instrumento dahil sa mga pagbabago sa temperatura sa silid).

sistematiko ang mga error ay may kinikilingan, dahil nilalabag nila ang mga patakaran para sa pagpili ng mga bagay sa sample (halimbawa, mga paglihis sa mga sukat kapag binabago ang mga setting ng aparato sa pagsukat).

Halimbawa. Upang masuri ang katayuan sa lipunan ng populasyon sa lungsod, pinlano na suriin ang 25% ng mga pamilya. Kung, gayunpaman, ang pagpili ng bawat ikaapat na apartment ay batay sa bilang nito, kung gayon mayroong panganib na piliin ang lahat ng mga apartment ng isang uri lamang (halimbawa, isang silid na apartment), na magpapakilala ng isang sistematikong pagkakamali at papangitin ang mga resulta; ang pagpili ng numero ng apartment sa pamamagitan ng lot ay mas lalong kanais-nais, dahil ang error ay magiging random.

Mga pagkakamali sa pagiging kinatawan likas lamang sa piling pagmamasid, hindi maiiwasan ang mga ito at lumitaw ang mga ito bilang resulta ng katotohanan na ang sample ay hindi ganap na nagpaparami ng pangkalahatan. Ang mga halaga ng mga tagapagpahiwatig na nakuha mula sa sample ay naiiba mula sa mga tagapagpahiwatig ng parehong mga halaga sa pangkalahatang populasyon (o nakuha sa patuloy na pagmamasid).

Error sa pag-sample ay ang pagkakaiba sa pagitan ng value ng parameter sa pangkalahatang populasyon at sample value nito. Para sa average na halaga ng isang quantitative attribute, ito ay katumbas ng: , at para sa share (alternative attribute) - .

Ang mga sampling error ay likas lamang sa mga sample na obserbasyon. Ang mas malaki ang mga error na ito, mas ang empirical distribution ay naiiba sa teoretikal. Ang mga parameter ng empirical distribution at mga random na variable, samakatuwid, ang mga sampling error ay mga random na variable din, maaari silang kumuha ng iba't ibang mga halaga para sa iba't ibang mga sample, at samakatuwid ay kaugalian na kalkulahin karaniwang error.

Average na sampling error ay isang halaga na nagpapahayag ng standard deviation ng sample mean mula sa mathematical expectation. Ang halagang ito, na napapailalim sa prinsipyo ng random na pagpili, ay pangunahing nakasalalay sa laki ng sample at sa antas ng pagkakaiba-iba ng katangian: mas malaki at mas maliit ang pagkakaiba-iba ng katangian (kaya, ang halaga ng ), mas maliit ang halaga ng ang average na sampling error. Ang ratio sa pagitan ng mga pagkakaiba-iba ng pangkalahatan at sample na populasyon ay ipinahayag ng formula:

mga. para sa sapat na laki, maaari nating ipagpalagay na . Ang average na error sa sampling ay nagpapakita ng mga posibleng paglihis ng parameter ng sample na populasyon mula sa parameter ng pangkalahatang populasyon. Sa mesa. Ang 9.2 ay nagpapakita ng mga expression para sa pagkalkula ng average na sampling error para sa iba't ibang paraan ng pag-oorganisa ng pagmamasid.

Talahanayan 9.2 Mean error (m) ng sample mean at proporsyon para sa iba't ibang uri ng sample

Nasaan ang average ng mga pagkakaiba-iba ng sample ng intragroup para sa tuluy-tuloy na tampok;

Ang average ng intra-group dispersion ng share;

— bilang ng mga napiling serye, — kabuuang bilang ng mga serye;

nasaan ang average ng ika-series;

- ang pangkalahatang average sa buong sample para sa tuluy-tuloy na feature;

nasaan ang proporsyon ng katangian sa ika-serye;

— ang kabuuang bahagi ng katangian sa buong sample.

Gayunpaman, ang magnitude ng average na error ay maaari lamang husgahan sa isang tiyak na posibilidad Р (Р ≤ 1). Lyapunov A.M. pinatunayan na ang distribusyon ng sample ay nangangahulugan, at samakatuwid ang kanilang mga paglihis mula sa pangkalahatang mean, na may sapat na malaking bilang, ay tinatayang sumusunod sa normal na batas sa pamamahagi, sa kondisyon na ang pangkalahatang populasyon ay may hangganan na mean at limitadong pagkakaiba.

Sa matematika, ang pahayag na ito para sa mean ay ipinahayag bilang:

at para sa fraction, ang expression (1) ay magkakaroon ng anyong:

saan - meron marginal sampling error, na isang maramihang ng average na error sa pag-sample , at ang multiplicity factor ay ang Student's criterion ("confidence factor"), na iminungkahi ni W.S. Gosset (pseudonym "Mag-aaral"); Ang mga halaga para sa iba't ibang laki ng sample ay iniimbak sa isang espesyal na talahanayan.

Ang mga halaga ng function na Ф(t) para sa ilang mga halaga ng t ay:

Samakatuwid, ang expression (3) ay maaaring basahin bilang mga sumusunod: may posibilidad P = 0.683 (68.3%) maaaring ipagtanggol na ang pagkakaiba sa pagitan ng sample at ng pangkalahatang mean ay hindi lalampas sa isang halaga ng mean error m(t=1), na may posibilidad P = 0.954 (95.4%)— na hindi ito lalampas sa halaga ng dalawang mean error m (t = 2), may posibilidad P = 0.997 (99.7%)- hindi lalampas sa tatlong halaga m (t = 3) . Kaya, ang posibilidad na ang pagkakaibang ito ay lalampas sa tatlong beses sa halaga ng ibig sabihin ng error na tinutukoy antas ng error at hindi hihigit sa 0,3% .

Sa mesa. 9.3 mga formula para sa pagkalkula ng marginal sampling error ay ibinigay.

Talahanayan 9.3 Marginal sampling error (D) para sa mean at proportion (p) para sa iba't ibang uri ng sampling

Pagpapalawak ng Mga Sample na Resulta sa Populasyon

Ang pangwakas na layunin ng sample na pagmamasid ay upang makilala ang pangkalahatang populasyon. Para sa maliliit na laki ng sample, ang mga empirical na pagtatantya ng mga parameter ( at ) ay maaaring makabuluhang lumihis mula sa kanilang mga tunay na halaga ( at ). Samakatuwid, ito ay nagiging kinakailangan upang maitaguyod ang mga hangganan sa loob kung saan para sa mga sample na halaga ng mga parameter ( at ) ang tunay na mga halaga ( at ) ay nagsisinungaling.

Agwat ng kumpiyansa ng anumang parameter θ ng pangkalahatang populasyon ay tinatawag na isang random na hanay ng mga halaga ng parameter na ito, na may posibilidad na malapit sa 1 ( pagiging maaasahan) ay naglalaman ng totoong halaga ng parameter na ito.

marginal error mga sample Δ ay nagbibigay-daan sa iyo upang matukoy ang mga halaga ng limitasyon ng mga katangian ng pangkalahatang populasyon at ang kanilang mga pagitan ng kumpiyansa, na katumbas ng:

Bottom line agwat ng kumpiyansa nakuha sa pamamagitan ng pagbabawas marginal error mula sa sample na ibig sabihin (share), at ang nangunguna sa pamamagitan ng pagdaragdag nito.

Agwat ng kumpiyansa para sa mean, ginagamit nito ang marginal sampling error at para sa isang naibigay na antas ng kumpiyansa ay tinutukoy ng formula:

Nangangahulugan ito na may ibinigay na posibilidad R, na tinatawag na antas ng kumpiyansa at natatanging tinutukoy ng halaga t, maaaring pagtalunan na ang tunay na halaga ng mean ay nasa hanay mula sa , at ang tunay na halaga ng bahagi ay nasa hanay mula sa

Kapag kinakalkula ang agwat ng kumpiyansa para sa tatlong karaniwang antas ng kumpiyansa P=95%, P=99% at P=99.9% ang halaga ay pinili ng . Mga aplikasyon depende sa bilang ng mga antas ng kalayaan. Kung ang laki ng sample ay sapat na malaki, kung gayon ang mga halaga na tumutugma sa mga posibilidad na ito t ay pantay: 1,96, 2,58 at 3,29 . Kaya, ang error sa marginal sampling ay nagpapahintulot sa amin na matukoy ang mga marginal na halaga ng mga katangian ng pangkalahatang populasyon at ang kanilang mga agwat ng kumpiyansa:

Ang pamamahagi ng mga resulta ng pumipili na pagmamasid sa pangkalahatang populasyon sa mga pag-aaral sa sosyo-ekonomiko ay may sariling mga katangian, dahil nangangailangan ito ng pagkakumpleto ng pagiging kinatawan ng lahat ng mga uri at grupo nito. Ang batayan para sa posibilidad ng naturang pamamahagi ay ang pagkalkula kamag-anak na pagkakamali:

saan Δ % - relatibong marginal sampling error; , .

Mayroong dalawang pangunahing pamamaraan para sa pagpapalawak ng isang sample na pagmamasid sa populasyon: direktang conversion at paraan ng mga coefficient.

Kakanyahan direktang conversion ay paramihin ang sample mean!!\overline(x) sa laki ng populasyon .

Halimbawa. Hayaang matantya ang average na bilang ng mga bata sa lungsod sa pamamagitan ng paraan ng sampling at halaga sa isang tao. Kung mayroong 1000 batang pamilya sa lungsod, kung gayon ang bilang ng mga lugar na kinakailangan sa munisipal na nursery ay nakuha sa pamamagitan ng pagpaparami ng average na ito sa laki ng pangkalahatang populasyon N = 1000, i.e. ay magiging 1200 upuan.

Paraan ng mga coefficient ipinapayong gamitin sa kaso kapag ang pumipili na pagmamasid ay isinasagawa upang linawin ang data ng patuloy na pagmamasid.

Sa paggawa nito, ginagamit ang formula:

kung saan ang lahat ng mga variable ay ang laki ng populasyon:

Kinakailangang laki ng sample

Talahanayan 9.4 Kinakailangang laki ng sample (n) para sa iba't ibang uri ng organisasyon ng sampling

Kapag nagpaplano ng sampling survey na may paunang natukoy na halaga ng pinapayagang sampling error, kinakailangang tama ang pagtatantya ng kinakailangang laki ng sample. Ang halagang ito ay maaaring matukoy batay sa pinahihintulutang error sa panahon ng selective observation batay sa isang ibinigay na probabilidad na ginagarantiyahan ang isang katanggap-tanggap na antas ng error (isinasaalang-alang ang paraan ng pag-oobserba ng pagmamasid). Ang mga formula para sa pagtukoy ng kinakailangang laki ng sample n ay madaling makuha nang direkta mula sa mga formula para sa marginal sampling error. Kaya, mula sa expression para sa marginal error:

ang laki ng sample ay direktang tinutukoy n:

Ipinapakita ng formula na ito na sa pagbaba ng marginal sampling error Δ makabuluhang pinapataas ang kinakailangang laki ng sample, na proporsyonal sa pagkakaiba at parisukat ng t-test ng Estudyante.

Para sa isang tiyak na paraan ng pag-aayos ng pagmamasid, ang kinakailangang laki ng sample ay kinakalkula ayon sa mga formula na ibinigay sa Talahanayan. 9.4.

Mga Halimbawa ng Praktikal na Pagkalkula

Halimbawa 1. Pagkalkula ng mean value at confidence interval para sa tuluy-tuloy na quantitative na katangian.

Upang masuri ang bilis ng pag-areglo sa mga nagpapautang sa bangko, isang random na sample ng 10 mga dokumento sa pagbabayad ang isinagawa. Ang kanilang mga halaga ay naging pantay (sa mga araw): 10; 3; labinlimang; labinlimang; 22; 7; walo; isa; labinsiyam; 20.

Kinakailangan na may posibilidad P = 0.954 matukoy ang marginal error Δ sample mean at mga limitasyon ng kumpiyansa ng average na oras ng pagkalkula.

Desisyon. Ang average na halaga ay kinakalkula ng formula mula sa Talahanayan. 9.1 para sa sample na populasyon

Ang dispersion ay kinakalkula ayon sa formula mula sa Talahanayan. 9.1.

Ang ibig sabihin ng square error ng araw.

Ang error ng mean ay kinakalkula ng formula:

mga. ang ibig sabihin ng halaga ay x ± m = 12.0 ± 2.3 araw.

Ang pagiging maaasahan ng ibig sabihin ay

Ang error sa paglilimita ay kinakalkula ng formula mula sa Talahanayan. 9.3 para sa muling pagpili, dahil hindi alam ang laki ng populasyon, at para sa P = 0.954 antas ng kumpiyansa.

Kaya, ang ibig sabihin ng halaga ay `x ± D = `x ± 2m = 12.0 ± 4.6, ibig sabihin. ang tunay na halaga nito ay nasa saklaw mula 7.4 hanggang 16.6 na araw.

Paggamit ng talahanayan ng Mag-aaral. Ang application ay nagbibigay-daan sa amin upang tapusin na para sa n = 10 - 1 = 9 degrees ng kalayaan ang nakuhang halaga ay maaasahan na may antas ng kahalagahan na £ 0.001, i.e. ang resultang mean value ay makabuluhang naiiba sa 0.

Halimbawa 2. Pagtantiya ng posibilidad (pangkalahatang bahagi) r.

Sa pamamagitan ng mekanikal na paraan ng sampling ng pagsisiyasat sa katayuan sa lipunan ng 1000 pamilya, nabunyag na ang proporsyon ng mga pamilyang may mababang kita ay w = 0.3 (30%)(ang sample ay 2% , ibig sabihin. n/N = 0.02). Kinakailangan na may antas ng kumpiyansa p = 0.997 tukuyin ang isang tagapagpahiwatig R mga pamilyang may mababang kita sa buong rehiyon.

Desisyon. Ayon sa ipinakita na mga halaga ng function Ф(t) maghanap para sa isang naibigay na antas ng kumpiyansa P = 0.997 ibig sabihin t=3(tingnan ang formula 3). Error sa marginal share w matukoy sa pamamagitan ng formula mula sa Talahanayan. 9.3 para sa hindi umuulit na sampling (mechanical sampling ay palaging hindi umuulit):

Nililimitahan ang relative sampling error sa % magiging:

Ang posibilidad (pangkalahatang bahagi) ng mga pamilyang mababa ang kita sa rehiyon ay magiging p=w±Δw, at ang mga limitasyon ng kumpiyansa p ay kinakalkula batay sa dobleng hindi pagkakapantay-pantay:

w — Δw ≤ p ≤ w — Δw, ibig sabihin. ang tunay na halaga ng p ay nasa loob ng:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Kaya, na may probabilidad na 0.997, maaaring pagtalunan na ang proporsyon ng mga pamilyang mababa ang kita sa lahat ng pamilya sa rehiyon ay mula 28.6% hanggang 31.4%.

Halimbawa 3 Pagkalkula ng mean value at confidence interval para sa isang discrete feature na tinukoy ng isang interval series.

Sa mesa. 9.5. ang pamamahagi ng mga aplikasyon para sa paggawa ng mga order ayon sa oras ng kanilang pagpapatupad ng negosyo ay nakatakda.

Talahanayan 9.5 Distribusyon ng mga obserbasyon ayon sa oras ng paglitaw

Desisyon. Ang average na oras ng pagkumpleto ng order ay kinakalkula ng formula:

Ang average na oras ay magiging:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23.1 buwan

Nakukuha namin ang parehong sagot kung gagamitin namin ang data sa p i mula sa penultimate column ng Table. 9.5 gamit ang formula:

Tandaan na ang gitna ng agwat para sa huling gradasyon ay matatagpuan sa pamamagitan ng artipisyal na pagdaragdag nito ng lapad ng pagitan ng nakaraang gradasyon na katumbas ng 60 - 36 = 24 na buwan.

Ang pagpapakalat ay kinakalkula ng formula

saan x i- ang gitna ng serye ng pagitan.

Samakatuwid!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) at ang karaniwang error ay .

Ang error ng mean ay kinakalkula ng formula para sa mga buwan, i.e. ang ibig sabihin ay!!\overline(x) ± m = 23.1 ± 13.4.

Ang error sa paglilimita ay kinakalkula ng formula mula sa Talahanayan. 9.3 para sa muling pagpili dahil hindi alam ang laki ng populasyon, para sa 0.954 na antas ng kumpiyansa:

Kaya ang ibig sabihin ay:

mga. ang tunay na halaga nito ay nasa hanay mula 0 hanggang 50 buwan.

Halimbawa 4 Upang matukoy ang bilis ng mga pag-aayos sa mga nagpapautang ng N = 500 na mga negosyo ng korporasyon sa isang komersyal na bangko, kinakailangan na magsagawa ng isang pumipili na pag-aaral gamit ang paraan ng random na hindi paulit-ulit na pagpili. Tukuyin ang kinakailangang laki ng sample n upang may posibilidad na P = 0.954 ang error ng sample mean ay hindi lalampas sa 3 araw, kung ang mga pagtatantya ng pagsubok ay nagpakita na ang standard deviation s ay 10 araw.

Desisyon. Upang matukoy ang bilang ng mga kinakailangang pag-aaral n, ginagamit namin ang formula para sa hindi paulit-ulit na pagpili mula sa Talahanayan. 9.4:

Dito, ang halaga ng t ay tinutukoy mula sa antas ng kumpiyansa P = 0.954. Ito ay katumbas ng 2. Ang mean square value na s = 10, ang laki ng populasyon N = 500, at ang marginal error ng mean Δ x = 3. Ang pagpapalit ng mga halagang ito sa formula, nakukuha natin ang:

mga. ito ay sapat na upang gumawa ng isang sample ng 41 mga negosyo upang matantya ang kinakailangang parameter - ang bilis ng mga pag-aayos sa mga nagpapautang.

Portal para sa mag-aaral. Pagsasanay sa sarili