Sampol ng kinatawan. Sampol

mga layunin sa pag-aaral

Malinaw na makilala ang mga konsepto ng census (kwalipikasyon) at sampling.
Alamin ang kakanyahan at pagkakasunud-sunod ng anim na yugto na ipinatupad ng mga mananaliksik upang makakuha ng sample na populasyon.
Tukuyin ang konsepto ng "sampling frame".
Ipaliwanag ang pagkakaiba sa pagitan ng probabilistic at deterministic sampling.
Tukuyin ang pagkakaiba sa pagitan ng fixed size sampling at multistage (consecutive) sampling.
Ipaliwanag kung ano ang sinasadyang sampling at ilarawan ang parehong mga kalakasan at kahinaan nito.
Tukuyin ang konsepto ng quota sampling.
Ipaliwanag kung ano ang isang parameter sa isang pamamaraan sa pagpili.
Ipaliwanag kung ano ang derived set.
Ipaliwanag kung bakit ang konsepto ng sampling distribution ang pinakamahalagang konsepto ng statistics.

Kaya, tiyak na tinukoy ng mananaliksik ang problema at sinigurado ang naaangkop na disenyo ng pananaliksik at mga tool sa pangongolekta ng data para sa paglutas nito. Ang susunod na hakbang sa proseso ng pananaliksik ay ang pagpili ng mga elementong iyon na susuriin. Posibleng suriin ang bawat elemento ng isang naibigay na populasyon sa pamamagitan ng paggawa ng kumpletong census ng populasyon na ito. Ang isang kumpletong survey ng populasyon ay tinatawag na census (kwalipikasyon). May isa pang posibilidad. Ang isang tiyak na bahagi ng populasyon, isang sample ng mga elemento ng isang malaking grupo, ay sumasailalim sa pagsusuri sa istatistika, at ayon sa data na nakuha sa subset na ito, ang ilang mga konklusyon ay iginuhit tungkol sa buong pangkat. Ang kakayahang i-generalize ang mga resultang nakuha mula sa sample na data sa isang malaking grupo ay depende sa paraan kung saan kinuha ang sample. Karamihan sa kabanatang ito ay ilalaan sa kung paano dapat iguhit ang sample at bakit.

Census (kwalipikasyon)
Kumpletuhin ang census ng populasyon (populasyon).
Sampol
Isang koleksyon ng mga elemento ng isang subset ng isang mas malaking pangkat ng mga bagay.

Ang konsepto ng "populasyon" o "koleksyon" ay maaaring tumukoy hindi lamang sa mga tao, kundi pati na rin sa mga kumpanyang nagpapatakbo sa industriya ng pagmamanupaktura, sa mga retailer o mamamakyaw, o maging sa ganap na walang buhay na mga bagay, tulad ng mga bahaging ginawa ng negosyo; ang konseptong ito ay tinukoy bilang ang buong hanay ng mga elemento na nakakatugon sa ilang partikular na kondisyon. Ang mga kundisyong ito ay katangi-tanging tumutukoy sa parehong mga elemento na kabilang sa target na pangkat at ang mga elemento na dapat hindi isama sa pagsasaalang-alang.

Ang isang pag-aaral na naglalayong tukuyin ang demograpikong profile ng mga consumer ng frozen na pizza ay dapat magsimula sa pamamagitan ng pagtukoy kung sino ang dapat at hindi dapat uriin bilang ganoon. Ang mga tao ba na nakasubok ng gayong pizza kahit isang beses ay nabibilang sa kategoryang ito? Mga indibidwal na bumibili ng hindi bababa sa isang pizza bawat buwan? Sa Linggo? Mga indibidwal na kumakain ng higit sa isang tiyak na minimum na halaga ng pizza sa isang buwan? Ang mananaliksik ay dapat maging tumpak sa pagtukoy ng target na grupo. Dapat ding mag-ingat upang matiyak na ang sample ay nakuha mula sa target na populasyon at hindi mula sa "ilang" populasyon, na kung saan ay ang kaso kapag ang sampling frame ay hindi sapat o hindi kumpleto. Ang huli ay isang listahan ng mga elemento kung saan bubuo ang isang tunay na sample.

Maaaring mas gusto ng isang mananaliksik ang isang sampling approach sa isang survey ng buong populasyon para sa ilang kadahilanan. Una, ang isang kumpletong pagsusuri ng isang populasyon, kahit na medyo maliit ang sukat, ay nangangailangan ng napakalaking materyal at mga gastos sa oras. Kadalasan, sa oras na ang census ay nakumpleto at ang data ay naproseso, ang impormasyon ay luma na. Sa ilang mga kaso, ang kwalipikasyon ay imposible lamang. Sabihin nating ang mga mananaliksik ay nagtakda upang suriin ang pagsunod ng aktwal na buhay ng serbisyo ng mga electric incandescent lamp sa kinakalkula, kung saan kailangan nilang panatilihin ang mga ito hanggang sa mabigo ang mga ito. Kung susuriin mo ang buong supply ng mga lamp sa ganitong paraan, ang maaasahang data ay makukuha, ngunit walang anumang ipagbibili.

Sa wakas, sa labis na pagkamangha ng mga nagsisimula, maaaring mas gusto ng mananaliksik ang sampling kaysa census, na nagsusumikap para sa katumpakan ng mga resulta. Nangangailangan ang mga census ng malaking tauhan, na nagpapataas ng posibilidad ng mga error sa bias (non-sampling). Ang sitwasyong ito ay isa sa mga dahilan kung bakit gumagamit ang US Census Bureau ng mga sample na survey upang subukan ang katumpakan ng iba't ibang uri ng mga census. Tama ang nabasa mo: maaaring magsagawa ng mga sample na survey upang subukan ang katumpakan ng data ng kwalipikasyon.

Mga halimbawang hakbang sa disenyo

Sa fig. Ang Figure 15.1 ay nagpapakita ng anim na hakbang na pagkakasunud-sunod na maaaring sundin ng isang mananaliksik kapag nagdidisenyo ng isang sample. Una sa lahat, kinakailangang matukoy ang target na populasyon o hanay ng mga elemento kung saan may gustong malaman ang mananaliksik.

Halimbawa, kapag pinag-aaralan ang mga kagustuhan ng mga bata, kailangang magpasya ang mga mananaliksik kung ang target na populasyon ay bubuo ng mga bata lamang, mga magulang lamang, o pareho.

Pinagsama-sama (populasyon)
Isang hanay ng mga elemento na nakakatugon sa ilang partikular na kundisyon.
Sampling frame (base)
Ang listahan ng mga elemento kung saan gagawin ang pagpili; maaaring binubuo ng mga yunit ng teritoryo, organisasyon, tao at iba pang elemento.

Sinubukan ng isang partikular na kumpanya ang mga "karera" ng kuryente nito sa mga bata lamang. Ang mga bata ay lubos na nabighani. Iba ang naging reaksyon ng mga magulang sa bago. Hindi nagustuhan ng mga nanay ang katotohanan na ang pagsakay ay hindi nagtuturo sa mga bata na maging magiliw sa kotse, at ang mga ama ay hindi nagustuhan ang katotohanan na ang produkto ay ginawang parang laruan.
Posible rin ang baligtad na sitwasyon. Ang isang kumpanya ay naglunsad ng isang bagong produkto ng pagkain at naglunsad ng isang nationwide advertising campaign na nakatuon sa precocious na bata. Sinubukan lamang ng firm ang bisa ng mga patalastas sa mga nanay na kinikilig. Ang mga bata, sa kabilang banda, ay natagpuan ang "pagpabilis" na ito, at kasama nito ang ina-advertise na produkto mismo, kasuklam-suklam. Natapos ang produkto 1 .

Dapat magpasya ang mananaliksik kung sino o kung ano ang bubuuin ng nauugnay na populasyon: mga indibidwal, pamilya, kumpanya, iba pang organisasyon, mga transaksyon sa credit card, atbp. Sa paggawa ng mga naturang desisyon, kinakailangan upang matukoy ang mga elemento na dapat ibukod sa mga populasyon. Ang parehong temporal at heyograpikong sanggunian ng mga elemento ay dapat gawin, na sa ilang mga kaso ay maaaring sumailalim sa mga karagdagang kundisyon o paghihigpit. Halimbawa, kung ang pinag-uusapan natin ay tungkol sa mga indibidwal, ang gustong populasyon ay maaaring binubuo lamang ng mga taong higit sa 18 taong gulang, o ng mga babae lamang, o ng mga taong may hindi bababa sa sekondaryang edukasyon.

Ang gawain ng pagtukoy ng mga hangganan ng heograpiya para sa target na populasyon sa internasyonal na pananaliksik sa marketing ay maaaring maging isang partikular na problema, dahil pinapataas nito ang heterogeneity ng system na isinasaalang-alang. Halimbawa, ang relatibong ratio ng mga urban at rural na lugar ay maaaring mag-iba nang malaki sa bawat bansa. Ang aspeto ng teritoryo ay may malubhang epekto sa komposisyon ng populasyon at sa loob ng parehong bansa. Halimbawa, sa hilaga ng Chile, ang populasyong nakararami sa mga Indian ay naninirahan nang maayos, habang sa katimugang mga rehiyon ng bansa, karamihan sa mga inapo ng mga Europeo ay nakatira.

Saklaw (insidente)
Ang porsyento ng mga miyembro ng isang populasyon o grupo na nakakatugon sa mga kundisyon para sa pagsasama sa sample.

Sa pangkalahatan, mas simple ang tinukoy na target na populasyon, mas mataas ang saklaw nito (incidence) at mas madali at mas mura ang pamamaraan ng sampling. Saklaw (insidente) tumutugma sa proporsyon ng mga elemento ng isang populasyon o grupo, na ipinahayag bilang isang porsyento, na nakakatugon sa mga kondisyon para sa pagsasama sa sample. Ang saklaw ay direktang nakakaapekto sa oras at materyal na mga gastos na kinakailangan upang magsagawa ng isang survey. Kung ang saklaw ay malaki (ibig sabihin, karamihan sa mga elemento ng populasyon ay nakakatugon sa isa o higit pa sa mga simpleng pamantayan na ginamit upang matukoy ang mga potensyal na tumugon), ang oras at gastos na kinakailangan upang mangolekta ng data ay mababawasan. Sa kabaligtaran, sa pagtaas ng bilang ng mga pamantayan na dapat matugunan ng mga potensyal na tumugon, parehong tumataas ang mga gastos sa materyal at oras.

Sa fig. Ipinapakita ng 15.2 ang proporsyon ng populasyon ng nasa hustong gulang na kasangkot sa ilang mga sports. Ang data sa figure ay nagpapahiwatig na mas mahirap at mahal na suriin ang mga taong sumasakay para sa pagmo-motorsiklo (3.6% lamang ng kabuuang bilang ng mga nasa hustong gulang) kaysa suriin ang mga taong regular na naglalakad sa libangan (27.4% ng kabuuang bilang ng mga matatanda). Ang pangunahing bagay ay ang mananaliksik ay maging tumpak sa pagtukoy kung aling mga elemento ang dapat isama sa populasyon ng pag-aaral at kung aling mga elemento ang dapat na hindi kasama dito. Ang isang malinaw na pahayag ng layunin ng pag-aaral ay lubos na nagpapadali sa solusyon ng problemang ito. Ang pangalawang hakbang sa proseso ng sampling ay upang matukoy ang sampling frame, na, tulad ng alam mo na, ay ang listahan ng mga elemento kung saan ang sample ay iguguhit. Hayaang ang target na populasyon ng isang partikular na pag-aaral ay ang lahat ng pamilyang nakatira sa lugar ng Dallas. Sa unang tingin, ang direktoryo ng telepono ng Dallas ay maaaring isang mahusay at madaling ma-access na sampling frame. Gayunpaman, sa mas malapit na pagsusuri, nagiging malinaw na ang listahan ng mga pamilya na nakapaloob sa direktoryo ay hindi ganap na tama, dahil ang mga bilang ng ilang mga pamilya ay tinanggal dito (siyempre, hindi kasama ang mga pamilya na walang mga telepono), habang ilang pamilya ay may ilang numero ng telepono. Ang mga tao na kamakailan ay nagbago ng kanilang lugar ng paninirahan at, nang naaayon, ang kanilang numero ng telepono, ay wala rin sa direktoryo.

Ang mga nakaranasang mananaliksik ay dumating sa konklusyon na ang eksaktong tugma sa pagitan ng sampling frame at ang target na populasyon ng interes ay napakabihirang. Isa sa pinakamalikhaing hakbang sa pagdidisenyo ng sample ay ang pagtukoy ng naaangkop na sampling frame sa mga kaso kung saan mahirap ilista ang mga miyembro ng populasyon. Maaaring mangailangan ito ng sampling mula sa mga bloke ng trabaho at prefix kapag, halimbawa, ang random na pagdayal ay ginagamit dahil sa mga pagkukulang sa mga direktoryo ng telepono. Gayunpaman, ang makabuluhang pagtaas sa mga yunit ng trabaho sa nakalipas na 10 taon ay nagpahirap sa gawaing ito. Ang mga katulad na sitwasyon ay maaari ding lumitaw sa kaso ng pumipili na pagmamasid sa mga teritoryal na sona o organisasyon, na sinusundan ng pagkuha ng mga subsample, kapag, sabihin nating, ang target na populasyon ay mga indibidwal, ngunit walang eksaktong napapanahon na listahan ng mga ito.

Pinagmulan: batay sa data na nilalaman sa SSI- LITe TM: L ow Pangyayari T naka-target S ampling" (Fairfield, Conn.: Survey Sampling, Inc., 1994).

Ang ikatlong hakbang sa pamamaraan ng sampling ay malapit na nauugnay sa pagpapasiya ng sampling frame. Ang pagpili ng paraan o pamamaraan ng sampling ay higit na nakasalalay sa sampling frame na pinagtibay ng mananaliksik. Ang iba't ibang uri ng sample ay nangangailangan ng iba't ibang uri ng sampling frame. Ito at ang susunod na kabanata ay magbibigay ng pangkalahatang-ideya ng mga pangunahing uri ng mga sample na ginamit sa pananaliksik sa marketing. Kapag inilalarawan ang mga ito, ang koneksyon sa pagitan ng sampling frame at ang paraan ng pagbuo nito ay dapat na maging malinaw.

Ang ikaapat na hakbang sa pamamaraan ng sampling ay upang matukoy ang laki ng sample. Ang problemang ito ay tinalakay sa Chap. 17. Sa ikalimang yugto, kailangan talagang piliin ng mananaliksik ang mga elementong isasailalim sa sarbey. Ang paraan na ginamit para dito ay tinutukoy ng uri ng sample na napili; kapag tinatalakay ang mga pamamaraan ng sampling, pag-uusapan din natin ang pagpili ng mga elemento nito. At panghuli, kailangan talagang suriin ng mananaliksik ang mga natukoy na respondente. Sa yugtong ito, may mataas na posibilidad na makagawa ng maraming pagkakamali.
Ang mga problemang ito at ilang pamamaraan para sa kanilang paglutas ay tinalakay sa Chap. labing-walo.

Mga uri ng sampling plan (sampling)

Ang lahat ng paraan ng sampling ay maaaring hatiin sa dalawang kategorya: obserbasyon ng probability sample at obserbasyon ng deterministic sample. Sa isang probabilistikong sample, ang bawat miyembro ng populasyon ay maaaring isama sa isang tiyak na hindi zero na posibilidad. Maaaring iba ang posibilidad na maisama ang ilang partikular na miyembro ng populasyon sa sample, ngunit alam ang posibilidad na maisama ang bawat elemento dito. Ang posibilidad na ito ay tinutukoy ng isang espesyal na mekanikal na pamamaraan na ginamit upang piliin ang mga miyembro ng sample.

Para sa mga deterministikong sample, nagiging imposible ang pagtantya sa posibilidad ng pagsasama ng anumang elemento sa sample. Hindi matitiyak ang pagiging kinatawan ng naturang sample. Halimbawa, Allstate Corporation ay bumubuo ng isang sistema upang iproseso ang data ng mga paghahabol ng 14 milyong kabahayan (mga kliyente nito). Plano ng kumpanya na gamitin ang data na ito upang matukoy ang mga pattern na hinihiling para sa mga serbisyo nito, tulad ng posibilidad na ang isang sambahayan na nagmamay-ari ng Mercedes Benz ay magkakaroon din ng bahay bakasyunan (na mangangailangan ng insurance). Kahit na ang database ay napakalaki, ang kumpanya ay walang paraan upang matantya ang posibilidad na ang anumang partikular na customer ay gagawa ng isang paghahabol. Kaya hindi makatitiyak ang kumpanya na ang data ng customer na gumagawa ng claim ay kinatawan ng lahat ng customer ng kumpanya; at sa isang mas maliit na lawak - may kaugnayan sa mga potensyal na customer.

Ang lahat ng mga deterministikong sample ay nakabatay sa personal na posisyon, paghatol, o kagustuhan ng mananaliksik, sa halip na sa isang mekanikal na pamamaraan ng pagpili para sa mga miyembrong sample. Ang ganitong mga kagustuhan ay minsan ay maaaring magbigay ng mahusay na mga pagtatantya ng mga katangian ng populasyon, ngunit walang paraan upang talaga matukoy ang pagiging angkop ng sample para sa gawain. Ang isang pagtatasa ng katumpakan ng mga resulta ng sample ay maaari lamang gawin kung ang mga probabilidad ng pagpili ng ilang mga elemento ay alam. Para sa kadahilanang ito, ang pagtatrabaho sa probability sampling ay karaniwang itinuturing na isang mas mahusay na paraan para sa pagtantya ng magnitude ng sampling error. Ang mga sample ay maaari ding hatiin sa mga fixed-size na sample at sequential sample. Kapag nagtatrabaho sa mga nakapirming laki ng mga sample, ang laki ng sample ay tinutukoy bago ang simula ng survey, at ang pagsusuri ng mga resulta ay nauuna sa pagkolekta ng lahat ng kinakailangang data. Magiging interesado kami sa mga sample na nakapirming laki, dahil ang ganitong uri ay karaniwang ginagamit sa pananaliksik sa marketing.

Probability sampling
Isang sample kung saan ang bawat elemento ng populasyon ay maaaring isama sa ilang kilalang non-zero na posibilidad.
Deterministic sampling
Pagsa-sample batay sa ilang partikular na kagustuhan o paghatol na tumutukoy sa pagpili ng ilang partikular na elemento; kasabay nito, nagiging imposibleng matantya ang posibilidad ng pagsasama ng isang di-makatwirang elemento ng populasyon sa sample.

Gayunpaman, hindi dapat kalimutan na mayroon ding mga sequential sample na maaaring gamitin sa bawat isa sa mga pangunahing sampling na disenyo na tinalakay sa ibaba.

Sa isang sequential sample, ang bilang ng mga napiling elemento ay hindi alam nang maaga, ito ay tinutukoy batay sa isang serye ng mga sequential na desisyon. Kung ang isang survey ng isang maliit na sample ay hindi humantong sa isang maaasahang resulta, ang hanay ng mga elemento na susuriin ay pinalawak. Kung ang resulta ay nananatiling walang tiyak na paniniwala pagkatapos nito, ang laki ng sample ay tataas muli. Sa bawat yugto, isang desisyon ang gagawin kung isasaalang-alang ang resultang nakuha na sapat na kapani-paniwala o kung ipagpapatuloy ang pagkolekta ng data. Ang pagtatrabaho sa sequential sampling ay ginagawang posible upang masuri ang trend (trend) ng data habang kinokolekta ang mga ito, na nagpapababa sa mga gastos na nauugnay sa mga karagdagang obserbasyon sa mga kaso kung saan ang kanilang kahusayan ay kumukupas.

Ang parehong probabilistic at deterministic sampling plan ay nabibilang sa ilang uri. Halimbawa, ang mga deterministikong sample ay maaaring hindi kinatawan (maginhawa), sinadya o quota; ang mga probabilistikong sample ay nahahati sa simpleng random, stratified o grupo (cluster), sila naman, ay maaaring hatiin sa mga subtype. Sa fig. Ipinapakita ng Figure 15.3 ang mga uri ng sample na tatalakayin dito at sa susunod na kabanata.

Fixed Sample (Fixed Sample)
Isang sample na ang laki ay tinutukoy ng isang priori; ang kinakailangang impormasyon ay tinutukoy ng mga napiling elemento.
Sequential sampling
Isang sample na nabuo batay sa isang serye ng mga sunud-sunod na desisyon. Kung, pagkatapos isaalang-alang ang isang maliit na sample, ang resulta ay hindi tiyak, ang isang mas malaking sample ay isinasaalang-alang; kung ang hakbang na ito ay hindi humantong sa isang resulta, ang laki ng sample ay tataas muli, atbp. Kaya, sa bawat yugto, ang isang desisyon ay ginawa kung ang resulta na nakuha ay maaaring ituring na sapat na kapani-paniwala.

Dapat tandaan na ang mga pangunahing uri ng mga sample ay maaaring pagsamahin upang makabuo ng mas kumplikadong mga sampling plan. Kung matutunan mo ang mga pangunahing uri ng mga ito, magiging mas madali para sa iyo na harapin ang mga mas kumplikadong kumbinasyon.

Mga mapagpasyang pagpili

Gaya ng nabanggit na, kapag pumipili ng mga elemento ng isang tiyak na sample, ang mga pribadong pagtatantya o desisyon ay gumaganap ng isang mapagpasyang papel. Minsan ang mga pagtatasa na ito ay nagmumula sa mananaliksik, habang sa ibang mga kaso ang pagpili ng mga elemento ng populasyon ay ibinibigay sa field staff. Dahil ang mga elemento ay hindi pinili nang mekanikal, nagiging imposibleng matukoy ang posibilidad ng pagsasama ng isang arbitrary na elemento sa sample at, nang naaayon, ang sampling error. Ang kamangmangan sa error dahil sa napiling pamamaraan ng sampling ay humahadlang sa mga mananaliksik na masuri ang katumpakan ng kanilang mga pagtatantya.

Mga sample na hindi kinatawan (convenience).

Mga sample na hindi kinatawan (convenience). minsan ay tinutukoy bilang random, dahil ang pagpili ng mga sample na elemento ay isinasagawa sa isang "random" na paraan - ang mga elementong iyon na o mukhang pinaka-naa-access sa panahon ng pagpili ay pinili.

Ang ating pang-araw-araw na buhay ay puno ng mga halimbawa ng gayong mga seleksyon. Nakikipag-usap kami sa mga kaibigan at, batay sa kanilang mga reaksyon at posisyon, gumagawa kami ng mga konklusyon tungkol sa mga pampulitikang predilections na namamayani sa lipunan; hinihikayat ng isang lokal na istasyon ng radyo ang mga tao na ipahayag ang kanilang opinyon sa ilang kontrobersyal na isyu, ang kanilang opinyon ay binibigyang kahulugan bilang namamayani; nananawagan kami para sa kooperasyon ng mga boluntaryo at makipagtulungan sa mga boluntaryong tumulong sa amin. Ang problema sa mga sample ng kaginhawahan ay kitang-kita—hindi tayo makatitiyak na ang mga sample ng ganitong uri ay aktwal na kumakatawan sa target na populasyon. Maaari pa rin tayong magduda na ang mga opinyon ng ating mga kaibigan ay wastong sumasalamin sa mga pampulitikang pananaw na namamayani sa lipunan, ngunit madalas tayong sabik na maniwala na ang mas malalaking sample, na pinili sa ganitong paraan, ay kinatawan. Ipakita natin ang kamalian ng gayong palagay na may isang halimbawa.
Ilang taon na ang nakalilipas, ang isa sa mga lokal na istasyon ng telebisyon sa lungsod kung saan nakatira ang may-akda ng aklat na ito ay nagsagawa ng pang-araw-araw na pampublikong opinyon poll sa mga paksang interesado sa lokal na komunidad. Ang mga botohan, na tinatawag na "The Madison Pulse", ay isinagawa bilang mga sumusunod. Tuwing gabi sa alas-sais na balita, ang istasyon ay nagtanong sa mga manonood ng isang katanungan tungkol sa isang partikular na kontrobersyal na isyu, kung saan kinakailangang magbigay ng positibo o negatibong sagot.

Sa kaso ng isang positibong sagot, kinakailangang tumawag sa isa, sa kaso ng isang negatibong sagot, sa isa pang numero ng telepono. Ang bilang ng mga boto "para sa" at "laban" ay awtomatikong binibilang. Iniulat ng newscast ng alas-diyes ang mga resulta ng survey sa telepono. Tuwing gabi sa pagitan ng 500 at 1000 mga tao ang tumawag sa studio upang ipahayag ang kanilang posisyon sa ito o sa isyu na iyon; binigyang-kahulugan ng komentarista sa telebisyon ang mga resulta ng botohan bilang ang nangingibabaw na opinyon sa lipunan.

Non-representative (convenience) sample
Minsan ay tinatawag na random, dahil ang pagpili ng mga sample na elemento ay isinasagawa sa isang "random" na paraan - ang mga elementong iyon na o mukhang pinaka-naa-access sa panahon ng pagpili ay pinili.

Sa isa sa anim na oras na episode, ang mga manonood ay tinanong ng sumusunod na tanong: "Hindi mo ba iniisip na ang edad ng pag-inom sa Madison ay dapat ibaba sa 18?" Ang umiiral na legal na kwalipikasyon ay tumutugma sa 21 taon. Nag-react ang audience sa tanong na ito nang may pambihirang aktibidad - halos 4,000 tao ang tumawag sa studio nang gabing iyon, kung saan 78% ang pabor na ibaba ang limitasyon sa edad. Tila halata na ang isang sample ng 4,000 katao ay "dapat maging kinatawan" ng isang komunidad ng 180,000. Walang ganoon. Tulad ng maaaring nahulaan mo, ang ilang mga pangkat ng edad ay mas interesado sa isang kilalang resulta kaysa sa iba. Alinsunod dito, hindi kataka-taka na sa talakayan ng isyung ito, na naganap makalipas ang ilang linggo, lumabas na sa oras na inilaan para sa survey, ang mga mag-aaral ay kumilos sa konsiyerto. Sabay-sabay silang tumawag sa telebisyon, bawat isa ay ilang beses. Kaya, hindi ang laki ng sample o ang porsyento ng mga tagapagtaguyod para sa liberalisasyon ng batas ay isang bagay na nakakagulat. Ang sample ay hindi kinatawan.

Ang pagdaragdag lamang ng laki ng sample ay hindi ginagawang kinatawan ito. Ang pagiging kinatawan ng sample ay sinisiguro hindi sa laki, ngunit sa wastong pamamaraan para sa pagpili ng mga elemento. Kapag ang mga kalahok sa survey ay boluntaryong pinili o ang mga sample na item ay pinili batay sa kanilang kakayahang magamit, ang sampling plan ay hindi ginagarantiyahan ang pagiging kinatawan ng sample. Ang empirical na ebidensya ay nagmumungkahi na ang mga sample na pinili para sa kaginhawahan ay bihirang kinatawan (anuman ang kanilang laki). Ang mga botohan sa telepono, na isinasaalang-alang ang 800-900 na boto, ay ang pinakakaraniwang anyo ng malalaki ngunit hindi kinatawan ng mga sample.

Intentional sampling
Deterministic (targeted) sampling, ang mga elemento kung saan ay pinili nang manu-mano; ang mga elementong iyon ay pinili na, sa palagay ng mananaliksik, ay nakakatugon sa mga layunin ng sarbey.
Intentional sampling, depende sa kakayahan ng mananaliksik na itakda ang paunang hanay ng mga respondente na may nais na katangian; pagkatapos ang mga respondent na ito ay ginagamit bilang mga impormante na tumutukoy sa karagdagang pagpili ng mga indibidwal.

Sa kasamaang palad, maraming tao ang tinatrato ang mga resulta ng naturang mga survey nang may kumpiyansa. Ang isa sa mga pinakakaraniwang halimbawa ng paggamit ng mga sample na hindi kinatawan sa internasyonal na pananaliksik sa marketing ay ang survey ng ilang mga bansa batay sa sample na binubuo ng mga dayuhang kasalukuyang naninirahan sa teritoryo ng bansa na nagpasimula ng survey (halimbawa, mga Scandinavian na naninirahan sa ang USA). Bagama't ang mga sample na ito ay maaaring magbigay ng kaunting liwanag sa ilang aspeto ng populasyon na isinasaalang-alang, dapat tandaan na ang mga indibidwal na ito ay karaniwang kumakatawan sa isang "Americanized" na elite, na ang koneksyon sa kanilang sariling bansa ay maaaring arbitrary. Ang paggamit ng mga sample na hindi kinatawan ay hindi inirerekomenda para sa mga survey na naglalarawan o sanhi. Ang mga ito ay pinahihintulutan lamang sa pagsasaliksik ng eksplorasyon na naglalayong subukan ang ilang mga ideya o ideya, ngunit kahit na sa kasong ito ay mas mainam na gumamit ng sinasadyang mga sample.

Mga sinadyang pagpili

Ang mga sinadyang sample ay minsang tinutukoy bilang hindi nakatutok; ang kanilang mga elemento, na, sa opinyon ng mananaliksik, ay nakakatugon sa mga layunin ng pag-aaral, ay pinili nang manu-mano. Procter & Gamble ginamit ang paraang ito kapag nagpapakita ng mga ad sa mga taong may edad 13 hanggang 17 na nakatira malapit sa punong-tanggapan nito sa Cincinnati. Kinuha ng dibisyon ng pagkain at inumin ng kumpanya ang grupong ito ng mga tinedyer upang magsilbi bilang isang uri ng sample ng consumer. Nagtatrabaho ng 10 oras sa isang linggo kapalit ng $1,000 at pagpunta sa isang konsyerto, nanood sila ng mga patalastas sa telebisyon, bumisita sa mga supermarket kasama ang mga tagapamahala ng kumpanya upang tingnan ang mga display ng produkto, subukan ang mga bagong produkto, at tinalakay ang gawi sa pagbili. Sa pamamagitan ng pagpili ng mga kinatawan para sa sample sa pamamagitan ng proseso ng "pag-hire" sa halip na random, maaaring tumuon ang isang kumpanya sa mga katangiang itinuturing nitong kapaki-pakinabang, tulad ng kakayahan ng isang tinedyer na ipahayag ang kanilang sarili nang malinaw, sa panganib na ang kanilang mga pananaw ay maaaring hindi kumakatawan sa kanilang pangkat ng edad .

Tulad ng nabanggit na, ang natatanging tampok ng sinasadyang sampling ay ang direksyong pagpili ng mga elemento nito. Sa ilang mga kaso, ang mga sample na item ay pinili hindi dahil ang mga ito ay kinatawan, ngunit dahil maaari silang magbigay ng mga mananaliksik ng impormasyon na interesado sa kanila. Kapag ang hukuman ay ginagabayan ng patotoo ng isang dalubhasa, ito, sa isang tiyak na kahulugan, ay gumagamit ng isang sadyang pagpili. Ang isang katulad na posisyon ay maaaring mangibabaw sa pagbuo ng mga proyekto sa pananaliksik. Sa panahon ng paunang pag-aaral ng isyu, ang mananaliksik ay pangunahing interesado sa pagtukoy ng mga prospect para sa pag-aaral, na tumutukoy sa pagpili ng mga sample na elemento.

Pag-sample ng snowball ay isang uri ng sadyang sampling na ginagamit kapag nakikitungo sa mga partikular na uri ng populasyon. Ang sample na ito ay nakasalalay sa kakayahan ng mananaliksik na tukuyin ang isang paunang hanay ng mga respondente na may mga gustong katangian. Ang mga respondent na ito ay gagamitin bilang mga impormante upang matukoy ang karagdagang pagpili ng mga indibidwal.

Isipin, halimbawa, na gustong suriin ng isang kumpanya ang pangangailangan para sa isang produkto na magpapahintulot sa mga bingi na makipag-usap sa telepono. Maaaring simulan ng mga mananaliksik ang pagbuo ng problemang ito sa pamamagitan ng pagtukoy sa mga pangunahing tauhan sa komunidad ng mga bingi; maaaring pangalanan ng huli ang iba pang miyembro ng grupo na papayag na makilahok sa survey. Sa taktika na ito, lumalaki ang sample na parang snowball.

Hangga't ang mananaliksik ay nasa mga unang yugto ng paglutas ng problema, kapag ang mga prospect at posibleng mga limitasyon ng nakaplanong survey ay tinutukoy, ang paggamit ng intentional sampling ay maaaring maging napaka-epektibo. Ngunit sa anumang kaso ay hindi natin dapat kalimutan ang tungkol sa mga kahinaan ng ganitong uri ng sample, dahil maaari rin itong gamitin ng mananaliksik sa mga deskriptibo o sanhi ng pag-aaral, na hindi magiging mabagal na makakaapekto sa kalidad ng kanilang mga resulta. Ang isang klasikong halimbawa ng pagkalimot na ito ay ang consumer price index ("CPI"). Tulad ng itinuturo ni Südman ( Sudman): “Ang CPI ay tinutukoy lamang para sa 56 na lungsod at metropolitan na lugar, ang pagpili nito ay naiimpluwensyahan din ng politikal na salik. Sa katunayan, ang mga lungsod na ito ay maaari lamang kumatawan sa kanilang sarili, habang ang index ay tinatawag index ng presyo ng mamimili para sa mga naninirahan sa lungsod na kumikita ng oras-oras na sahod*, at mga empleyado at lumilitaw sa karamihan ng mga tao bilang isang index na sumasalamin sa antas ng presyo sa anumang lugar ng Estados Unidos. Ang pagpili ng mga retail outlet ay ginagawa din nang hindi random, bilang isang resulta kung saan nagiging imposible ang pagtatantya ng posibleng sampling error» (aming italics) 2 .

* Ibig sabihin, mga manggagawa. — Tandaan. bawat.

Mga sample ng quota

Ang ikatlong uri ng deterministic sampling − mga sample ng quota; ang kilalang pagiging kinatawan nito ay nakakamit sa pamamagitan ng pagsasama sa loob nito ng parehong proporsyon ng mga elemento na may ilang partikular na katangian tulad ng sa na-survey na populasyon (tingnan ang "Research window 15.1"). Bilang halimbawa, isaalang-alang ang pagsubok na lumikha ng isang kinatawan na sample ng mga mag-aaral na nakatira sa campus. Kung walang kahit isang senior na estudyante sa isang partikular na sample ng 500 indibidwal, magkakaroon kami ng karapatang pagdudahan ang pagiging kinatawan nito at ang bisa ng paglalapat ng mga resultang nakuha sa sample na ito sa populasyon na pinag-aaralan. Kapag nagtatrabaho sa proportional sampling, matitiyak ng mananaliksik na ang proporsyon ng mga undergraduate sa sample ay tumutugma sa kanilang proporsyon sa kabuuang bilang ng mga mag-aaral.

Ipagpalagay na ang isang mananaliksik ay nagsasagawa ng isang piling pag-aaral ng mga mag-aaral sa unibersidad, habang siya ay interesado sa katotohanan na ang sample ay sumasalamin hindi lamang sa kanilang pag-aari sa isa o ibang kasarian, kundi pati na rin sa kanilang pamamahagi ayon sa mga kurso. Hayaang ang kabuuang bilang ng mga mag-aaral ay 10,000: 3,200 freshmen, 2,600 sophomores, 2,200 mga mag-aaral sa ikatlong taon, at 2,000 mga mag-aaral sa ikaapat na taon; kung saan 7,000 lalaki at 3,000 babae. Para sa laki ng sample na 1,000, ang proportional sampling plan ay nangangailangan ng 320 freshmen, 260 sophomores, 220 third-years at 200 graduates, 700 lalaki at 300 babae. Maaaring ipatupad ng mananaliksik ang planong ito sa pamamagitan ng pagbibigay sa bawat tagapanayam ng isang tiyak na quota, na tutukuyin kung sinong mga mag-aaral ang dapat niyang kontakin.

quota sampling Isang deterministikong sample na pinili sa paraang ang proporsyon ng mga sample na elemento na may ilang partikular na katangian ay humigit-kumulang tumutugma sa proporsyon ng parehong mga elemento sa populasyon na pinag-aaralan; ang bawat field worker ay binibigyan ng quota na tumutukoy sa mga katangian ng populasyon kung saan siya dapat makipag-ugnayan.

Ang isang tagapanayam na magsasagawa ng 20 panayam ay maaaring turuan na magtanong:

anim na mag-aaral sa unang taon - limang lalaki at isang babae;
anim na sophomores - apat na lalaki at dalawang babae;
apat na mag-aaral sa ikatlong taon - tatlong lalaki at isang babae;
apat na mag-aaral sa ikaapat na taon - dalawang lalaki at dalawang babae.

Tandaan na ang pagpili ng mga partikular na sample na elemento ay hindi tinutukoy ng plano ng pananaliksik, ngunit sa pamamagitan ng pagpili ng tagapanayam, na tinatawag na sumunod lamang sa mga kundisyon na itinakda ng quota: pakikipanayam sa limang freshmen, isang freshman, atbp.

Tandaan din na ang quota na ito ay tumpak na sumasalamin sa distribusyon ng kasarian ng populasyon ng mag-aaral, ngunit medyo binabaluktot ang pamamahagi ng mga mag-aaral sa mga kurso; 70% (14 sa 20) mga panayam ay sa mga lalaki, ngunit 30% lamang (6 sa 20) sa mga mag-aaral sa unang taon, habang sila ay bumubuo ng 32% ng kabuuang bilang ng mga mag-aaral. Ang quota na inilaan sa bawat indibidwal na tagapanayam ay maaaring hindi, at kadalasang hindi, nagpapakita ng distribusyon ng mga katangian ng kontrol sa populasyon—ang huling sample lamang ang dapat na proporsyonal.

Dapat tandaan na ang proporsyonal na sampling ay higit na nakadepende sa personal, subjective na mga saloobin o paghuhusga kaysa sa isang layunin na pamamaraan ng sampling. Bukod dito, sa kaibahan sa sinasadyang sampling, ang personal na paghuhusga dito ay hindi pag-aari ng developer ng proyekto, ngunit sa tagapanayam. Lumilitaw ang tanong kung ang mga proporsyonal na sample ay maaaring ituring na kinatawan, kahit na i-reproduce nila ang ratio ng mga sangkap na likas sa populasyon na may ilang mga katangian ng kontrol. Kaugnay nito, tatlong pangungusap ang kailangang gawin.

Una, ang sample ay maaaring kapansin-pansing naiiba sa populasyon sa ilang iba pang mahahalagang katangian, na maaaring magkaroon ng malubhang epekto sa resulta. Halimbawa, kung ang pag-aaral ay nakatuon sa problema ng racial prejudice sa mga mag-aaral, maaaring hindi ito walang malasakit na pangyayari kung saan nanggaling ang mga respondente: mula sa lungsod o mula sa kanayunan. Dahil ang quota para sa katangiang "mula sa lungsod/rural" ay hindi itinalaga, ang isang tumpak na representasyon ng katangiang ito ay nagiging malabong. Siyempre, mayroong isang alternatibo: upang tukuyin ang mga quota para sa lahat ng potensyal na makabuluhang katangian. Gayunpaman, ang pagtaas sa bilang ng mga katangian ng kontrol ay humahantong sa isang komplikasyon ng detalye. Ito, sa turn, ay nagpapalubha - at kung minsan ay ginagawang imposible - ang pagpili ng mga sample na elemento at, sa anumang kaso, ay humahantong sa pagtaas ng presyo nito. Kung, halimbawa, ang kaugnayan sa lunsod o kanayunan at katayuang sosyo-ekonomiko ay may kaugnayan din sa pag-aaral, maaaring kailanganin ng tagapanayam na maghanap ng isang mag-aaral sa unang taon na nasa lunsod at nakatataas o gitnang uri. Sumasang-ayon ako na ang paghahanap ng isang lalaking freshman ay mas madali.

Pangalawa, napakahirap tiyakin na ang sample na ito ay talagang kinatawan. Siyempre, maaari mong suriin ang sample upang makita kung ang pamamahagi ng mga katangian na hindi kasama sa kontrol, ang kanilang pamamahagi sa populasyon. Gayunpaman, ang gayong pagsubok ay maaari lamang humantong sa mga negatibong konklusyon. Posibleng ihayag lamang ang pagkakaiba-iba ng mga distribusyon. Kung ang mga distribusyon ng sample at ang populasyon para sa bawat isa sa mga katangiang ito ay umuulit sa isa't isa, may posibilidad na ang sample ay naiiba sa populasyon sa iba pang tampok, na hindi tahasang tinukoy.

At sa wakas, pangatlo. Ang mga tagapanayam, na iniiwan sa kanilang sariling mga aparato, ay madaling kapitan ng ilang mga aksyon. Sila ay madalas na nagtatanong sa kanilang mga kaibigan. Dahil madalas silang lumalabas na parang mismong mga tagapanayam, may panganib na magkamali. Iminumungkahi ng ebidensya mula sa England na ang mga sample ng quota ay may posibilidad na:

pagmamalabis sa papel ng mga pinaka-naa-access na elemento;
minamaliit ang tungkulin ng maliliit na pamilya;
pagmamalabis sa tungkulin ng mga pamilyang may mga anak;
minamaliit ang papel ng mga manggagawa sa industriya;
binabawasan ang papel ng mga may pinakamataas at pinakamababang kita;
binabawasan ang papel ng mga mamamayang mahina ang pinag-aralan;
minamaliit ang papel ng mga taong may mababang posisyon sa lipunan.

Ang mga tagapanayam na pumipili ng mga paunang natukoy na quota sa pamamagitan ng paghinto sa mga random na dumadaan ay malamang na tumutok sa mga lugar na may malaking bilang ng mga potensyal na tumugon, tulad ng mga shopping mall, istasyon ng tren at paliparan, mga pasukan sa malalaking supermarket, at iba pa. Ang kasanayang ito ay humahantong sa isang labis na representasyon ng mga pangkat ng mga tao na madalas na bumibisita sa mga lugar na ito. Kapag ang mga pagbisita sa bahay ay kinakailangan, ang mga tagapanayam ay madalas na hinihimok ng kaginhawahan.
Halimbawa, maaari silang magsagawa ng mga survey sa araw lamang, na humahantong sa pagmamaliit ng opinyon ng mga manggagawa. Sa iba pang mga bagay, hindi sila pumapasok sa mga sira-sirang gusali at, bilang panuntunan, ay hindi umaakyat sa itaas na palapag ng mga gusaling walang mga elevator.

Depende sa mga detalye ng problemang pinag-aaralan, ang mga tendensiyang ito ay maaaring humantong sa iba't ibang uri ng mga pagkakamali, ngunit ang pagwawasto sa mga ito sa yugto ng pagsusuri ng data ay tila napakahirap. Sa kabilang banda, sa isang layunin na pagpili ng mga sample na elemento, ang mga mananaliksik ay may ilang mga tool na ginagawang posible upang pasimplehin ang pamamaraan para sa pagtatasa ng pagiging kinatawan ng isang ibinigay na sample. Kapag pinag-aaralan ang problema ng pagiging kinatawan ng mga naturang sample, hindi isinasaalang-alang ng mananaliksik ang komposisyon ng sample bilang pamamaraan para sa pagpili ng mga elemento nito.

Pananaliksik Window: Brilliant! Ngunit sino ang magbabasa nito?

Bawat taon, gumagastos ang mga advertiser ng milyun-milyong dolyar sa mga ad na lumalabas sa mga pahina ng hindi mabilang na mga publikasyon mula sa Advertising Age hanggang sa Yankee. Ang isang tiyak na pagtatasa ng teksto at imahe ay maaaring gawin bago ang paglalathala nito, tulad ng sinasabi nila, sa bahay, sa isang ahensya ng advertising; hindi talaga ito sinusubok at hinuhusgahan hanggang sa matapos mailathala ang ad, napapaligiran ng dose-dosenang mga patalastas na parehong maingat na ginawang nagpapaligsahan para sa atensyon ng mambabasa.

kumpanya Roper Starch sa buong mundo sinusuri ang pagiging madaling mabasa ng mga advertisement na inilagay sa consumer, negosyo, kalakalan at propesyonal na mga magasin at pahayagan. Ang mga resulta ng pananaliksik ay dinadala sa atensyon ng mga advertiser at ahensya - siyempre, para sa isang naaangkop na bayad. Dahil nagsusumikap ang mga advertiser araw-araw upang maihatid ang kanilang mga ad sa consumer, ang kumpanya almirol nagpasya na lumikha ng isang sample na magbibigay sa mga subscriber ng napapanahon at tumpak na impormasyon tungkol sa pagiging epektibo ng advertising. Taun-taon ang kumpanya almirol nakapanayam ng higit sa 50,000 mga tao, habang isinasaalang-alang ang tungkol sa 20,000 mga patalastas. Mga 500 indibidwal na publikasyon ang pinag-aralan taun-taon.

Gumamit ang starch ng proportional sampling, na may hindi bababa sa 100 mambabasa ng isang kasarian at 100 mambabasa ng kabilang kasarian. Napagpasyahan ng starch na sa laki ng sample na ito, ang mga pangunahing paglihis sa antas ng pagiging madaling mabasa ay nagpapatatag. Ang mga mambabasa na higit sa edad na 18 ay personal na nainterbyu, at lahat ng mga publikasyon ay isinasaalang-alang, maliban sa mga inilaan para sa mga espesyal na populasyon (sabihin, ang mga batang babae sa naaangkop na edad ay kapanayamin upang suriin ang mga publikasyon mula sa Seventeen magazine).

Kapag nagsasagawa ng mga survey, ang lugar ng pamamahagi ng isang partikular na publikasyon ay isinasaalang-alang. Sabihin nating ang pag-aaral ng magasin sa Los Angeles ay tumingin sa mga mambabasa na naninirahan sa timog California. Ang "Oras" ay pinag-aralan sa buong bansa. Ang survey ay nakatuon sa mga indibidwal na isyu ng magazine at isinagawa sa 20-30 lungsod sa parehong oras.

Ang bawat tagapanayam ay binigyan ng maliit na quota ng mga panayam, na nagsilbi sa layunin ng pagliit ng pagkakaiba-iba ng mga resulta ng survey. Ang mga talatanungan ay ipinamahagi sa mga taong may iba't ibang propesyon at edad na may iba't ibang kita. Ang bawat naturang pag-aaral ay naging posible upang ipakita ang mga posisyon sa isang medyo malawak na mambabasa. Kapag isinasaalang-alang ang isang bilang ng mga publikasyong propesyonal, negosyo at industriya, ang mga detalye ng kanilang subscription at pamamahagi ay isinasaalang-alang din. Ang mga listahan ng subscription na nakatuon sa mga publikasyong may medyo makitid na sirkulasyon ay naging posible upang pumili ng mga katanggap-tanggap na respondent.

Sa bawat survey, hiniling ng mga tagapanayam ang mga respondent na mag-browse sa publikasyon at tinanong kung may napansin silang anumang ad. Kung ang sagot ay oo, nagtanong ang registrar ng isang serye ng mga tanong upang masuri ang antas ng pagtanggap ng ad.

Ang pagtatasa na ito ay maaaring tatlong beses:

Bigyang-pansin: ang mga nagbigay-pansin na sa mismong katotohanan ng paglitaw ng naturang anunsyo.
Nakilala: ang mga nakaalala sa anumang bahagi ng ad, na tumatalakay sa na-advertise na trademark o advertiser.
Basahin: mga taong nagbabasa ng hindi bababa sa kalahati ng patalastas.

Pagkatapos suriin ang lahat ng mga ad, naitala ng mga tagapanayam ang pangunahing impormasyon sa pag-uuri: kasarian, edad, trabaho, katayuan sa pag-aasawa, nasyonalidad, kita, laki ng pamilya, at komposisyon ng pamilya, na nagbigay-daan para sa cross-tabulation ng antas ng interes ng mambabasa.

Kapag ginamit nang maayos, ang data ng kumpanya almirol payagan ang mga advertiser at ahensya na tukuyin ang parehong hindi matagumpay at matagumpay na mga uri ng mga scheme ng advertising na umaakit at humahawak sa atensyon ng mambabasa. Ang impormasyon ng ganitong uri ay lubhang mahalaga para sa mga advertiser na pangunahing interesado sa pagiging epektibo ng kanilang kampanya sa advertising.

Pinagmulan: Roper Starch Worldwide, Mamaronek, NY 10543.

Mga sample ng posibilidad

Maaaring matukoy ng mananaliksik ang posibilidad na maisama ang anumang elemento ng populasyon sa probability sample, dahil ang pagpili ng mga elemento nito ay isinasagawa batay sa ilang layunin na proseso at hindi nakasalalay sa mga kapritso at predilections ng mananaliksik o field worker. Dahil layunin ang pamamaraan ng pagpili ng elemento, masusuri ng mananaliksik ang pagiging maaasahan ng mga resultang nakuha, na imposible sa kaso ng mga deterministikong sample, gaano man kaingat ang pagpili ng mga elemento ng huli.

Hindi dapat isipin na ang mga probabilistikong sample ay palaging mas kinatawan kaysa sa mga deterministiko. Sa katunayan, ang isang tiyak na sample ay maaari ding maging mas kinatawan. Ang bentahe ng mga sample ng probabilidad ay pinapayagan nila ang isang pagtatantya ng potensyal na error sa sampling. Kung ang mananaliksik ay gumagawa ng isang deterministikong sample, wala siyang layunin na pamamaraan para sa pagtatasa ng kasapatan nito sa mga layunin ng pag-aaral.

Simpleng random sampling

Karamihan sa mga tao ay nakakatagpo ng mga simpleng random na sample sa isang paraan o iba pa, alinman bilang bahagi ng kurso sa istatistika sa institute, o sa pamamagitan ng pagbabasa tungkol sa mga resulta ng mga nauugnay na pag-aaral sa mga pahayagan o magazine. Sa isang simpleng random na sample, ang bawat elementong kasama sa sample ay may parehong ibinigay na posibilidad na mapabilang sa mga elementong pinag-aaralan, at anumang kumbinasyon ng mga elemento sa orihinal na populasyon ay maaaring maging sample. Halimbawa, kung gusto naming gumawa ng isang simpleng random na sample ng lahat ng mga mag-aaral na naka-enroll sa isang partikular na kolehiyo, kailangan lang naming gumawa ng isang listahan ng lahat ng mga mag-aaral, magtalaga ng isang numero sa bawat pangalan sa loob nito, at gumamit ng isang computer upang random na pumili ng isang ibinigay bilang ng mga elemento.

Populasyon

Populasyon
Isang hanay ng mga elemento na nakakatugon sa ilang partikular na kundisyon; tinatawag ding pag-aaral (target) na populasyon.
Parameter
Isang tiyak na katangian o tagapagpahiwatig ng pangkalahatan o pinag-aralan na populasyon.

Pangkalahatan, o pinag-aralan, set ay ang koleksyon kung saan ginawa ang pagpili. Ang populasyon (populasyon) na ito ay maaaring ilarawan ng isang bilang ng mga tiyak na parameter na mga katangian ng pangkalahatang populasyon, na ang bawat isa ay isang tiyak na tagapagpahiwatig ng dami na nagpapakilala sa isang populasyon mula sa isa pa.

Isipin na ang populasyon na pinag-aaralan ay ang buong populasyon ng nasa hustong gulang ng Cincinnati. Ang ilang mga parameter ay maaaring gamitin upang ilarawan ang populasyong ito: median na edad, proporsyon ng populasyon na may isang tersiyaryong edukasyon, antas ng kita, atbp. Tandaan na ang lahat ng mga tagapagpahiwatig na ito ay may isang tiyak na nakapirming halaga. Siyempre, maaari nating kalkulahin ang mga ito sa pamamagitan ng pagsasagawa ng kumpletong census ng populasyon na pinag-aaralan. Karaniwan, gayunpaman, hindi kami umaasa sa kwalipikasyon, ngunit sa sample na pinili namin at ginagamit ang mga halaga na nakuha sa panahon ng pumipili na pagmamasid upang matukoy ang mga kinakailangang parameter ng populasyon.

Inilalarawan namin kung ano ang sinabi na ibinigay sa Talahanayan. 15.1 isang halimbawa ng hypothetical na populasyon na 20 katao. Ang pagtatrabaho sa isang maliit na hypothetical na populasyon na tulad nito ay may ilang mga pakinabang. Una, ang maliit na sukat ng sample ay nagpapadali sa pagkalkula ng mga parameter ng populasyon na maaaring magamit upang ilarawan ito. Pangalawa, binibigyang-daan ka ng volume na ito na maunawaan kung ano ang maaaring mangyari kapag pinagtibay ang isang partikular na sampling plan. Ang parehong mga tampok na ito ay ginagawang madali upang ihambing ang mga sample na resulta sa "totoo" at sa kasong ito ay kilala ang halaga ng populasyon, na hindi ang kaso para sa karaniwang sitwasyon kung saan ang aktwal na halaga ng populasyon ay hindi alam. Ang paghahambing ng pagtatasa sa "tunay" na halaga sa kasong ito ay nakakakuha ng espesyal na kalinawan.

Ipagpalagay na gusto nating tantyahin, mula sa dalawang random na napiling mga item, ang average na kita ng mga indibidwal sa orihinal na populasyon. Ang average na kita ang magiging parameter nito. Upang matantya ang average na halaga na ito, na itinalaga namin bilang μ, dapat nating hatiin ang kabuuan ng lahat ng mga halaga sa kanilang numero:

Ang ibig sabihin ng populasyon μ = Kabuuan ng mga elemento ng populasyon / Bilang ng mga elemento.

Sa aming kaso, ang mga kalkulasyon ay nagbibigay ng:

Nagmula sa populasyon

Nagmula sa populasyon ay binubuo ng lahat ng posibleng sample na maaaring mapili mula sa pangkalahatang populasyon ayon sa isang ibinigay na sampling plan (sampling plan). Mga istatistika ay isang katangian, o tagapagpahiwatig, ng sample. Ang sample na halaga ng istatistika ay ginagamit upang tantyahin ang isang partikular na parameter ng populasyon. Nagbibigay ang iba't ibang sample ng iba't ibang istatistika o pagtatantya para sa parehong parameter ng populasyon.

Nagmula sa populasyon
Ang hanay ng lahat ng posibleng matukoy na sample na maaaring piliin mula sa pangkalahatang populasyon ayon sa isang ibinigay na sampling plan. Statistics Isang katangian o sukat ng isang sample.

Isaalang-alang ang nagmula na hanay ng lahat ng posibleng mga sample na maaaring mapili mula sa aming hypothetical na populasyon ng 20 indibidwal sa pamamagitan ng isang sampling plan na ipinapalagay na ang laki ng sample ay n=2 maaaring makuha sa pamamagitan ng random na hindi paulit-ulit na pagpili.

Ipagpalagay na ang data para sa bawat yunit ng populasyon - sa aming kaso, ang pangalan at kita ng isang indibidwal - ay nakasulat sa mga bilog, pagkatapos ay ibinaba ang mga ito sa isang pitsel at pinaghalo. Inalis ng mananaliksik ang isang bilog mula sa pitsel, isusulat ang impormasyon mula dito at itabi ito. Ganoon din ang ginagawa niya sa pangalawang mug na kinuha sa pitsel. Pagkatapos ay ibinalik ng mananaliksik ang parehong mga mug sa pitsel, pinaghalo ang mga nilalaman nito at inuulit ang parehong pagkakasunud-sunod ng mga aksyon. Sa mesa. Ipinapakita ng 15.2 ang mga posibleng resulta ng pinangalanang pamamaraan. Para sa 20 lupon, 190 ganoong kumbinasyon ng pares ang posible.

Para sa bawat kumbinasyon, maaari mong kalkulahin ang average na kita. Sabihin natin para sa sampling AB (k= 1)

k-e Sample Mean = Kabuuan ng Mga Sample / Bilang ng Mga Sample =

Sa fig. Ipinapakita ng 15.4 ang pagtatantya ng average na kita para sa buong populasyon at ang halaga ng error para sa bawat pagtatantya para sa mga sample k = 25, 62,108,147 at 189 .

Bago magpatuloy upang isaalang-alang ang kaugnayan sa pagitan ng sample na mean na kita (mga istatistika) at ng populasyon na ibig sabihin ng kita (isang parameter na kailangang tantyahin), sabihin natin ang ilang mga salita tungkol sa nagmula na populasyon. Una, sa pagsasagawa, hindi kami nag-iipon ng mga pinagsama-samang ganitong uri. Mangangailangan ito ng masyadong maraming oras at pagsisikap. Ang practitioner ay limitado sa pag-compile lamang ng isang sample ng kinakailangang laki. Ginagamit ng mananaliksik konsepto nagmula na populasyon at ang nauugnay na konsepto ng sampling distribution kapag bumubuo ng mga panghuling konklusyon.

Paano ipapakita sa ibaba. Pangalawa, dapat tandaan na ang isang nagmula na populasyon ay tinukoy bilang ang kabuuan ng lahat ng posibleng iba't ibang mga sample na maaaring mapili mula sa pangkalahatang populasyon ayon sa isang ibinigay na sampling plan. Kapag binago ang alinmang bahagi ng sampling plan, nagbabago rin ang hinangong populasyon. Kaya, kung, kapag pumipili ng mga lupon, ibinalik ng mananaliksik ang una sa mga tinanggal na disk sa pitsel bago alisin ang pangalawa, ang nagmula na hanay ay isasama.

mga sample na AA, BB, atbp. Kung ang bilang ng mga hindi paulit-ulit na sample ay 3 sa halip na 2, magkakaroon ng mga sample ng uri ng ABC, at magkakaroon ng 1140 sa kanila, hindi 190, gaya ng nangyari sa nakaraang kaso. Kapag ang simpleng random na pagpili ay binago sa anumang iba pang paraan ng pagtukoy sa mga elemento ng sample, nagbabago rin ang nagmula na populasyon.

Dapat ding tandaan na ang pagpili ng isang sample ng isang ibinigay na laki mula sa pangkalahatang populasyon ay katumbas ng pagpili ng isang elemento (1 sa 190) mula sa nagmula na populasyon. Ang katotohanang ito ay nagpapahintulot sa amin na gumuhit ng maraming istatistikal na konklusyon.

Halimbawang ibig sabihin at pangkalahatang ibig sabihin

Maaari ba nating itumbas ang sample mean sa totoong populasyon? Sa anumang kaso, nagpapatuloy kami mula sa katotohanan na sila ay magkakaugnay. Gayunpaman, naniniwala din kami na magkakaroon ng pagkakamali. Halimbawa, maaaring ipagpalagay na ang impormasyong natanggap mula sa mga gumagamit ng Internet ay mag-iiba nang malaki mula sa mga resulta ng isang survey ng "ordinaryong" populasyon. Sa ibang mga kaso, maaari naming ipagpalagay ang isang medyo tumpak na tugma, kung hindi, hindi namin magagamit ang sample na halaga upang tantyahin ang halaga ng pangkalahatan. Ngunit gaano kalaki ang pagkakamaling nagawa natin sa paggawa nito?

Pagsamahin natin ang lahat ng sample na paraan na nakapaloob sa Talahanayan. 15.2, at hatiin ang nagresultang kabuuan sa bilang ng mga sample, ibig sabihin, i-average natin ang mga average.
Makukuha namin ang sumusunod na resulta:

Kasabay nito ang average na halaga ng pangkalahatang populasyon. Sinasabi nila na sa kasong ito ay kinakaharap natin walang pinapanigan na istatistika.

Ang isang istatistika ay tinatawag na walang kinikilingan kung ang average nito sa lahat ng posibleng mga sample ay katumbas ng tinantyang parameter ng populasyon. Tandaan na hindi namin pinag-uusapan ang isang partikular na halaga dito. Ang bahagyang pagtatantya ay maaaring napakalayo mula sa totoong halaga - kunin, halimbawa, ang mga sample ng AB o ST. Sa ilang mga kaso, ang tunay na halaga ng populasyon ay maaaring hindi maabot kapag isinasaalang-alang ang anumang posibleng sample, kahit na ang mga istatistika ay walang kinikilingan. Sa aming kaso, hindi ito ang kaso: ang isang bilang ng mga posibleng sample - halimbawa, AT - ay nagbibigay ng sample mean na katumbas ng totoong populasyon.

Makatuwirang isaalang-alang ang pamamahagi ng mga sample na pagtatantya na ito, at partikular na ang kaugnayan sa pagitan ng dispersion na ito ng mga pagtatantya at ang pagkakaiba-iba sa antas ng kita sa populasyon. Ang pagkakaiba-iba ng pangkalahatang populasyon ay ginagamit bilang isang sukatan ng pagkakaiba-iba. Upang matukoy ang pagkakaiba-iba ng pangkalahatang populasyon, dapat nating kalkulahin ang paglihis ng bawat halaga mula sa mean, idagdag ang mga parisukat ng lahat ng mga paglihis at hatiin ang nagresultang kabuuan sa bilang ng mga termino. Tukuyin sa pamamagitan ng a^ ang pagkakaiba ng pangkalahatang populasyon. Pagkatapos:

Variance ng populasyon σ 2 = Kabuuan ng mga squared na pagkakaiba ng bawat elemento
populasyon at average ng populasyon / Bilang ng mga elemento ng populasyon =

Pagpapakalat ibig sabihin ng halaga ang antas ng kita ay maaaring tukuyin sa parehong paraan. Iyon ay, mahahanap natin ito sa pamamagitan ng pagtukoy ng mga paglihis ng bawat mean mula sa kanilang kabuuang mean, pagbubuod ng mga parisukat ng mga paglihis, at paghahati ng nagresultang kabuuan sa bilang ng mga termino.

Maaari din nating tukuyin ang pagkakaiba-iba ng average na antas ng kita sa ibang paraan, gamit ang pagkakaiba-iba ng mga antas ng kita sa pangkalahatang populasyon, dahil mayroong direktang ugnayan sa pagitan ng dalawa. Upang maging tumpak, sa mga kaso kung saan ang sample ay kumakatawan lamang sa isang maliit na bahagi ng populasyon, ang pagkakaiba-iba ng sample mean ay katumbas ng pagkakaiba-iba ng populasyon na hinati sa laki ng sample:

kung saan ang σ x 2 ay ang pagkakaiba-iba ng average na sample na halaga ng antas ng kita, ang σ 2 ay ang pagkakaiba-iba ng antas ng kita sa pangkalahatang populasyon, n— laki ng sample.

Ngayon, ihambing natin ang distribusyon ng mga resulta sa distribusyon ng isang quantitative trait sa pangkalahatang populasyon. Ipinapakita ng Figure 15.5 na ang distribusyon ng katangian ng populasyon na ipinapakita sa kahon A ay multi-vertex (bawat isa sa 20 halaga ay lumilitaw nang isang beses lamang) at simetriko tungkol sa totoong populasyon na mean na 9400.

Sampling distribution
Ang pamamahagi ng mga halaga ng isang tiyak na istatistika na kinakalkula para sa lahat ng posibleng matukoy na mga sample na maaaring makuha mula sa populasyon sa ilalim ng isang ibinigay na sampling plan.

Ang distribusyon ng mga marka na ipinapakita sa field B ay batay sa datos sa Talahanayan. 15.3, na, naman, ay pinagsama-sama sa pamamagitan ng pagtatalaga ng mga halaga mula sa Talahanayan. 15.2 sa isa o ibang grupo, depende sa kanilang laki, na may kasunod na pagkalkula ng kanilang numero sa grupo. Ang Field B ay isang tradisyonal na histogram, na isinasaalang-alang sa pinakadulo simula ng pag-aaral ng kursong istatistika, na kumakatawan sampling distribution mga istatistika. Napansin namin sa pagpasa ng mga sumusunod: ang konsepto ng sampling distribution ay ang pinakamahalagang konsepto ng istatistika, ito ang pundasyon ng pagbuo ng mga statistical inferences. Ayon sa kilalang pamamahagi ng sample ng mga pinag-aralan na istatistika, maaari nating tapusin ang tungkol sa kaukulang parameter ng pangkalahatang populasyon. Kung, sa kabilang banda, alam lamang na ang sample na pagtatantya ay nagbabago mula sa sample patungo sa sample, ngunit ang katangian ng pagbabagong ito ay hindi alam, magiging imposibleng matukoy ang sampling error na nauugnay sa pagtatantya na ito. Dahil inilalarawan ng distribusyon ng sampling ng isang pagtatantya kung paano ito nagbabago mula sa sample patungo sa sample, nagbibigay ito ng batayan para sa pagtukoy ng bisa ng isang sample na pagtatantya. Ito ay para sa kadahilanang ito na ang isang probability sampling na disenyo ay napakahalaga para sa statistical inference.

Dahil sa alam na mga probabilidad ng pagsasama ng bawat miyembro ng populasyon sa sample, mahahanap ng mga tagapanayam ang sample distribution ng iba't ibang istatistika. Ang mga distribusyon na ito ang umaasa sa mga mananaliksik—kung ito man ay ang sample mean, sample fraction, sample variance, o ilang iba pang istatistika—kapag pinalawak ang resulta ng isang sample na obserbasyon sa pangkalahatang populasyon. Tandaan din na para sa mga sample ng laki 2, ang distribusyon ng sample na paraan ay unimodal at simetriko tungkol sa tunay na mean.

Kaya ipinakita namin na:

Ang ibig sabihin ng lahat ng posibleng paraan ng sample ay katumbas ng pangkalahatang mean.
Ang pagkakaiba ng sample na paraan ay nauugnay sa ilang paraan sa pangkalahatang pagkakaiba.
Ang pamamahagi ng sample na paraan ay unimodal, habang ang pamamahagi ng mga halaga ng isang quantitative attribute sa pangkalahatang populasyon ay multi-modal.

Central limit theorem

Isang teorama na nagsasabi na para sa mga simpleng random na sample ng laki n, na nakahiwalay sa pangkalahatang populasyon na may pangkalahatang average na μ at variance σ 2 , sa pangkalahatan n ang distribusyon ng sample mean x ay lumalapit sa normal na may sentrong katumbas ng μ at isang variance σ 2 . Ang katumpakan ng pagtatantya na ito ay tumataas sa pagtaas n.

Central limit theorem. Ang unimodal na pamamahagi ng mga pagtatantya ay maaaring ituring bilang isang manipestasyon ng gitnang teorama ng limitasyon, na nagsasaad na para sa mga simpleng random na sample ng volume n, pinili mula sa pangkalahatang populasyon na may totoong mean μ at variance σ 2 , para sa malaki n ang distribusyon ng sample ay lumalapit sa normal na may sentrong katumbas ng tunay na mean at isang pagkakaiba-iba na katumbas ng ratio ng pagkakaiba-iba ng populasyon sa laki ng sample, ibig sabihin.:

Ang pagtatantya na ito ay nagiging mas at mas tumpak bilang n. Tandaan mo ito. Anuman ang uri ng populasyon, ang distribusyon ng sample na paraan ay magiging normal para sa mga sample na may sapat na laki. Ano ang ibig sabihin ng sapat na malaking volume? Kung ang pamamahagi ng mga halaga ng isang quantitative na katangian ng pangkalahatang populasyon ay normal, kung gayon ang pamamahagi ng sample ay nangangahulugan para sa mga sample na may dami ng n=1. Kung ang distribusyon ng variable (quantitative attribute) sa populasyon ay simetriko ngunit hindi normal, ang mga sample ng napakaliit na sukat ay magbibigay ng normal na distribusyon ng sample na paraan. Kung ang distribusyon ng isang quantitative attribute ng pangkalahatang populasyon ay may binibigkas na kawalaan ng simetrya, may pangangailangan para sa mas malalaking sample. Gayunpaman, ang distribusyon ng sample mean ay maaari lamang kunin bilang normal kung tayo ay nakikitungo sa isang sample na may sapat na laki.

Upang makabuo ng mga konklusyon gamit ang isang normal na curve, hindi kinakailangan na magpatuloy mula sa kondisyon ng normalidad ng pamamahagi ng mga halaga ng isang quantitative na katangian ng pangkalahatang populasyon. Sa halip, umaasa kami sa central limit theorem at, depende sa distribusyon ng populasyon, tinutukoy ang ganoong laki ng sample na magpapahintulot sa amin na magtrabaho sa isang normal na curve. Sa kabutihang palad, ang normal na pamamahagi ng mga istatistika ay ibinibigay ng mga sample ng medyo maliit na sukat - Fig. Malinaw na ipinapakita ng 15.6 ang sitwasyong ito. Mga pagtatantya sa pagitan ng kumpiyansa. Matutulungan ba tayo ng nasa itaas sa paggawa ng ilang konklusyon tungkol sa pangkalahatang average? Sa katunayan, sa pagsasagawa, pumili lamang kami ng isa, at hindi lahat ng posibleng mga sample ng isang naibigay na laki, at sa batayan ng data na nakuha, gumuhit kami ng ilang mga konklusyon tungkol sa target na grupo.

Paano ito nangyayari? Tulad ng alam mo, sa isang normal na distribusyon, ang isang tiyak na porsyento ng lahat ng mga obserbasyon ay may isang tiyak na karaniwang paglihis; sabihin nating 95% ng mga obserbasyon ay magkasya sa loob ng ±1.96 karaniwang paglihis ng mean. Ang normal na pamamahagi ng sample na paraan, kung saan maaaring ilapat ang central limit theorem, ay walang pagbubukod sa ganitong kahulugan. Ang ibig sabihin ng naturang sample distribution ay katumbas ng pangkalahatang mean μ, at ang standard deviation nito ay tinatawag na standard error ng mean:

Lumalabas na:

68.26% ng sample ay nangangahulugang lumihis mula sa pangkalahatang mean nang hindi hihigit sa ± σ x ;
95.45% ng sample ay nangangahulugang lumihis mula sa pangkalahatang ibig sabihin ng hindi hihigit sa ±σ x ;
99.73% ng sample ay nangangahulugang lumihis mula sa pangkalahatang mean nang hindi hihigit sa ± σ x ,

i.e. isang tiyak na proporsyon ng sample na ibig sabihin depende sa napiling halaga z ay kasama sa pagitan na tinutukoy ng halaga z. Ang expression na ito ay maaaring muling isulat bilang isang hindi pagkakapantay-pantay:

Pangkalahatang average - z < Среднее по выборке < Генеральное среднее + z(Pamantayang error ng mean)

kaya, ang sample mean na may tiyak na posibilidad ay nasa pagitan, ang mga hangganan nito ay ang kabuuan at pagkakaiba ng mean value ng distribution at isang tiyak na bilang ng mga standard deviations. Ang hindi pagkakapantay-pantay na ito ay maaaring ma-convert sa anyo:

Halimbawang ibig sabihin - z(Pamantayang error ng mean)< Генеральное среднее < Среднее по выборке + z(Pamantayang error ng mean)

Kung ang ratio na 15.1 ay sinusunod, halimbawa, sa 95% ng mga kaso ( z= 1.96), pagkatapos ay sa 95% ng mga kaso ang ratio na 15.2 ay sinusunod din. Sa mga kaso kung saan ang konklusyon ay batay sa isang solong sample mean, ginagamit namin ang expression 15.2.

Mahalagang tandaan ang ekspresyong iyon 15.2 ay hindi nangangahulugan na ang agwat na naaayon sa isang ibinigay na sample ay kinakailangang kasama ang pangkalahatang mean. Ang pagitan ay may higit na kinalaman sa pamamaraan ng pagpili. Ang pagitan na binuo sa paligid ng ibig sabihin na ito ay maaaring o hindi kasama ang tunay na ibig sabihin ng populasyon. Ang aming tiwala sa kawastuhan ng mga ginawang konklusyon ay batay sa katotohanan na 95% ng lahat ng mga agwat na ginawa ayon sa napiling sampling plan ay maglalaman ng tunay na mean. Naniniwala kami na ang aming sample ay kabilang sa 95%.

Upang ilarawan ang mahalagang puntong ito, isipin sandali na ang pamamahagi ng sample ay nangangahulugan para sa mga sample na may sukat n= 2 sa aming hypothetical na halimbawa ay normal. Ang talahanayan 15.4 ay graphic na naglalarawan ng kinalabasan para sa unang 10 ng posibleng 190 sample na maaaring mapili ayon sa ibinigay na disenyo. Tandaan na 7 lamang sa 10 agwat ang may kasamang pangkalahatan o totoong mean. Ang pagtitiwala sa kawastuhan ng konklusyon ay dahil hindi sa ilang pribadong pagtatasa, ngunit tiyak pamamaraan mga pagtatantya. Ang pamamaraang ito ay para sa 100 sample kung saan ang sample mean at confidence interval ay kakalkulahin, sa 95 na mga kaso ang interval na ito ay isasama ang tunay na pangkalahatang halaga. Ang katumpakan ng sample na ito ay tinutukoy ng pamamaraan kung saan nabuo ang sample. Ang isang kinatawan na disenyo ng sampling ay hindi ginagarantiyahan ang pagiging kinatawan ng lahat ng mga sample. Ang mga pamamaraan ng inference ng istatistika ay batay sa pagiging kinatawan ng sampling plan, kaya naman napakahalaga ng pamamaraang ito para sa mga probability sample.

Ang probabilistic sampling ay nagbibigay-daan sa amin na suriin ang katumpakan ng mga resulta bilang ang kalapitan ng mga pagtatantya na ginawa sa totoong halaga. Kung mas malaki ang karaniwang error ng mga istatistika, mas mataas ang antas ng scatter ng mga pagtatantya at mas mababa ang katumpakan ng pamamaraan.

Ang ilan ay maaaring malito sa katotohanan na ang antas ng kumpiyansa ay nauugnay sa pamamaraan at hindi sa isang partikular na sample na halaga, ngunit dapat tandaan na ang halaga ng antas ng kumpiyansa ng pagtatantya ng pangkalahatang halaga ay maaaring iakma ng mananaliksik. Kung ayaw mong makipagsapalaran at natatakot na baka makatagpo ka ng isa sa limang napiling sample interval na hindi kasama ang ibig sabihin ng populasyon, maaari kang pumili ng 99% confidence interval kung saan isa lang sa daang sample interval ang hindi isama ang ibig sabihin ng populasyon. Dagdag pa, kung maaari mong dagdagan ang laki ng sample, tataas mo ang antas ng kumpiyansa sa resulta, na nagbibigay ng nais na katumpakan ng pagtatantya ng halaga ng populasyon. Pag-uusapan natin ito nang mas detalyado sa Chap. 17.

Ang pamamaraan na inilalarawan namin ay may isa pang bahagi, na maaaring magdulot ng isang tiyak na kahihiyan. Kapag tinatantya ang pagitan ng kumpiyansa, tatlong dami ang ginagamit: x , z at σ x . Ang sample mean x ay kinakalkula mula sa sample na data, z ay pinili batay sa nais na antas ng kumpiyansa. Ngunit ano ang tungkol sa root mean square error ng mean σ x ? Ito ay katumbas ng:

at samakatuwid, upang matukoy ito, kailangan nating itanong ang standard deviation ng quantitative attribute ng pangkalahatang populasyon, i.e. 5. Ano ang gagawin sa mga kaso kung saan ang standard deviation s hindi kilala? Ang problemang ito ay hindi bumangon sa dalawang kadahilanan. Una, para sa karamihan ng mga quantitative na katangian na ginagamit sa pagsasaliksik sa marketing, ang variation ay kadalasang nagbabago nang mas mabagal kaysa sa antas ng karamihan sa mga variable ng interes sa marketer. Alinsunod dito, kung ang pag-aaral ay paulit-ulit, maaari nating gamitin ang nauna, dati nang nakuhang halaga ng s sa mga kalkulasyon. Pangalawa, kapag napili ang sample at nakuha ang data, maaari nating tantyahin ang pagkakaiba-iba ng populasyon sa pamamagitan ng pagtukoy sa pagkakaiba-iba ng sample. Ang walang pinapanigan na pagkakaiba-iba ng sample ay tinukoy bilang:

Sample na pagkakaiba-iba ŝ 2 = Kabuuan ng mga squared deviations mula sa sample mean / (bilang ng mga na-sample na item -1). Upang matukoy ang sample variance, kailangan muna nating hanapin ang sample mean. Pagkatapos ang mga pagkakaiba sa pagitan ng bawat isa sa mga sample na halaga at ang sample mean ay matatagpuan; ang mga pagkakaibang ito ay naka-squad, summed, at hinati sa isang numero na katumbas ng bilang ng mga sample na obserbasyon na binawasan ng isa. Ang sample na pagkakaiba-iba ay hindi lamang nagbibigay ng pagtatantya ng kabuuang pagkakaiba, ngunit maaari ding gamitin upang tantyahin ang karaniwang error ng mean. Kapag ang pangkalahatang pagkakaiba σ 2 ay kilala, ang root mean square error σ x ay kilala rin, dahil:

Kapag ang pangkalahatang pagkakaiba ay hindi alam, ang karaniwang error ng mean ay maaari lamang matantya. Ang pagtatantya na ito ay ibinigay ŝ x , na katumbas ng standard deviation ng sample na hinati sa square root ng sample size, i.e. Ang pagtatantya ay tinutukoy sa parehong paraan tulad ng pagtatantya ng tunay na halaga ay natukoy, ngunit sa halip na ang pangkalahatang karaniwang paglihis, ang karaniwang paglihis ng sample ay pinapalitan sa formula ng pagkalkula. Kaya, sabihin natin para sa sample AB na may sample mean na 5800:

Alinsunod dito, ŝ = 283, at

at 95% spacing na ngayon

na mas mababa kaysa sa dating halaga.

Sa mesa. 15.5 ay nagbubuod ng mga pormula ng pagkalkula para sa iba't ibang mga average at dispersion, na tinalakay sa kabanatang ito. Pagbuo ng isang simpleng random na sample. Sa aming halimbawa, ang pagpili ng mga sample na elemento ay isinagawa gamit ang isang pitsel, na naglalaman ng lahat ng mga elemento ng orihinal na populasyon. Ito ay nagbigay-daan sa amin na mailarawan ang mga konsepto ng nagmula na populasyon at distribusyon ng sampling. Hindi namin inirerekumenda ang paggamit ng gayong pamamaraan sa pagsasanay, dahil pinatataas nito ang posibilidad ng pagkakamali. Maaaring magkaiba ang mga mug sa parehong laki at texture, na sa ilang partikular na kaso ay maaaring humantong sa kagustuhan para sa isa kaysa sa isa. Ang pagpili ng mga kalahok sa kampanyang Vietnamese, na isinagawa sa pamamagitan ng loterya, ay maaaring magsilbi bilang isang halimbawa ng isang pagkakamali ng ganitong uri.

Ang pagpili ay isinagawa sa pamamagitan ng paghila ng mga disc na may mga petsa ng kapanganakan mula sa malaking drum. Ini-broadcast ng telebisyon ang pamamaraang ito sa buong bansa. Sa kasamaang palad, ang mga disc ay na-load sa drum sa isang sistematikong paraan, na may mga petsa ng Enero na mauna at huling mga petsa ng Disyembre. Kahit na ang drum ay sumailalim sa matinding pag-ikot, ang mga petsa ng Disyembre ay nahulog nang mas madalas kaysa sa Enero. Kasunod nito, ang pamamaraang ito ay binago sa paraang ang posibilidad ng naturang sistematikong mga pagkakamali ay makabuluhang nabawasan. Ang ginustong pamamaraan para sa pagbuo ng isang simpleng random na sample ay batay sa paggamit ng isang talahanayan ng mga random na numero.

Ang paggamit ng naturang talahanayan ay kinabibilangan ng sumusunod na pagkakasunud-sunod ng mga hakbang. Una, ang mga elemento ng populasyon ay dapat magtalaga ng magkakasunod na numero mula 1 hanggang N; sa ating hypothetical na populasyon sa elemento PERO ang numero 1 ay itatalaga sa elemento B- numero 2, atbp. Pangalawa, ang bilang ng mga digit sa talahanayan ng mga random na numero ay dapat na kapareho ng bilang ng numero N. Para sa N= 20 dalawang-digit na numero ang gagamitin; para sa N sa pagitan ng 100 at 999 - tatlong-digit na mga numero, atbp. Pangatlo, ang panimulang posisyon ay dapat na random na matukoy. Maaari naming buksan ang kaukulang talahanayan ng mga random na numero at, isara ang aming mga mata, tulad ng sinasabi nila, sundutin ito ng isang daliri. Dahil ang mga numero sa talahanayan ng random na numero ay nasa random na pagkakasunud-sunod, ang panimulang posisyon ay hindi mahalaga.

At sa wakas, maaari tayong lumipat sa anumang direksyon na arbitraryong pinili - pataas, pababa o sa kabila, pinipili ang mga elementong iyon na ang mga numero ay tumutugma sa mga random na numero mula sa talahanayan. Upang mailarawan kung ano ang sinabi, isaalang-alang ang pinaikling talahanayan ng mga random na numero (Talahanayan 15.6). Sa abot ng N= 20, dapat lang tayong magtrabaho sa mga double digit na numero. Sa ganitong diwa, si Tab. Ang 15.6 ay ganap na nababagay sa amin. Ipagpalagay na napagpasyahan namin nang maaga na lumipat pababa sa hanay, ang paunang posisyon ay nasa intersection ng ikalabing-isang hanay at ang ikaapat na hanay, kung saan matatagpuan ang numero 77. Ang numerong ito ay masyadong malaki, at samakatuwid ay dapat na itapon. Itatapon din ang susunod na dalawang numero, habang ang pang-apat na value na 02 ay gagamitin dahil 2 ang element number AT.

Ang susunod na limang numero ay itatapon din bilang masyadong malaki, habang ang numero 05 ay magsasaad ng elemento E. Kaya ang mga elemento AT at E ay magiging aming sample ng dalawang elemento, kung saan hahatulan namin ang antas ng kita ng populasyon na ito. Posible rin ang isang alternatibong diskarte, kung saan ang isang computer program na bumubuo ng mga random na numero ay gagamitin bilang batayan para sa pagpili. Ipinapahiwatig ng mga kamakailang publikasyon na ang mga numerong nabuo ng mga naturang programa ay hindi ganap na random, na maaaring magpakita mismo sa isang tiyak na paraan kapag gumagawa ng mga kumplikadong modelo ng matematika, ngunit magagamit ang mga ito para sa karamihan ng inilapat na pananaliksik sa marketing. Tandaan muli na ang isang simpleng random na sample ay nangangailangan ng compilation ng isang sequential na may bilang na listahan ng mga elemento ng pangkalahatang populasyon.

Sa madaling salita, dapat kilalanin ang bawat miyembro ng orihinal na populasyon. Para sa ilang populasyon, hindi ito mahirap gawin, halimbawa, sa isang pag-aaral ng 500 pinakamalaking korporasyong Amerikano, isang listahan kung saan ay ibinigay sa Fortune magazine. Ang listahang ito ay naipon na, kaya ang pagbuo ng isang simpleng random na sample sa kasong ito ay hindi magiging mahirap. Para sa iba pang mga paunang populasyon (halimbawa, para sa lahat ng pamilyang naninirahan sa isang partikular na lungsod), ang pag-compile ng isang pangkalahatang listahan ay napakahirap, na pumipilit sa mga mananaliksik na gumamit ng iba pang mga sample na pamamaraan ng survey.

Buod

Layunin ng pagkatuto 1
Malinaw na matukoy ang pagkakaiba sa pagitan ng mga konsepto ng census (kwalipikasyon) at sampling

Ang isang kumpletong sensus ng populasyon (populasyon) ay tinatawag kwalipikadong. Sampol set, nabuo mula sa mga napiling elemento.

Layunin ng pagkatuto 2
Alamin ang kakanyahan at pagkakasunud-sunod ng anim na yugto na ipinatupad ng mga mananaliksik upang makakuha ng sample na populasyon

Ang proseso ng sampling ay nahahati sa anim na hakbang:

pagtatalaga ng populasyon;
pagpapasiya ng sampling frame;
pagpili ng pamamaraan ng pagpili;
pagpapasiya ng laki ng sample;
pagpili ng mga sample na elemento;
pagsusuri sa mga napiling elemento.

Layunin ng pagkatuto 3
Tukuyin ang konsepto ng "sampling frame"

Ang sampling frame ay ang listahan ng mga item kung saan kukunin ang sample.

Layunin ng pagkatuto 4
Ipaliwanag ang pagkakaiba sa pagitan ng probabilistic at deterministic sampling

Sa isang probabilistikong sample, ang bawat miyembro ng populasyon ay maaaring isama sa isang tiyak binigay na hindi zero probabilidad. Ang mga probabilidad ng pagsasama ng ilang miyembro ng populasyon sa sample ay maaaring magkaiba sa isa't isa, ngunit alam ang posibilidad na maisama ang bawat elemento dito. Para sa mga deterministikong sample, nagiging imposible ang pagtantya sa posibilidad ng pagsasama ng anumang elemento sa sample. Hindi matitiyak ang pagiging kinatawan ng naturang sample. Ang lahat ng mapagpasyang pagpili ay batay, sa halip, sa isang personal na posisyon, paghatol, o kagustuhan. Ang ganitong mga kagustuhan ay minsan ay maaaring magbigay ng mahusay na mga pagtatantya ng mga katangian ng populasyon, ngunit walang paraan upang talaga matukoy ang pagiging angkop ng sample para sa gawain.

Layunin ng pagkatuto 5
Tukuyin ang pagkakaiba sa pagitan ng fixed size sampling at multi-stage (sunsecutive) sampling

Kapag nagtatrabaho sa mga nakapirming laki ng mga sample, ang laki ng sample ay tinutukoy bago ang simula ng survey at ang pagsusuri ng mga resulta ay nauuna sa pagkolekta ng lahat ng kinakailangang data. Sa isang sequential sample, ang bilang ng mga napiling elemento ay hindi alam nang maaga, ito ay tinutukoy batay sa isang serye ng mga sequential na desisyon.

Layunin ng pagkatuto 6
Ipaliwanag kung ano ang sinasadyang sampling at ilarawan ang parehong mga kalakasan at kahinaan nito

Ang mga intentional sampling aytem ay pinili at iniharap sa mananaliksik bilang angkop para sa mga layunin ng survey. Ipinapalagay na ang mga napiling elemento ay maaaring magbigay ng kumpletong larawan ng pinag-aralan na populasyon. Hangga't ang mananaliksik ay nasa maagang yugto ng paglutas ng problema, kapag ang mga prospect at posibleng mga limitasyon ng nakaplanong survey ay tinutukoy, ang paggamit ng intentional sampling ay maaaring maging napaka-epektibo. Ngunit sa anumang kaso ay hindi natin dapat kalimutan ang tungkol sa mga kahinaan ng ganitong uri ng sample, dahil maaari rin itong gamitin ng mananaliksik sa mga deskriptibo o sanhi ng pag-aaral, na hindi magiging mabagal na makakaapekto sa kalidad ng kanilang mga resulta.

Layunin ng pagkatuto 7
Tukuyin ang konsepto ng quota sampling

Ang proportional sampling ay pinili sa paraang ang proporsyon ng mga sample na elemento na may ilang partikular na katangian ay humigit-kumulang tumutugma sa proporsyon ng parehong mga elemento sa populasyon na pinag-aaralan; para magawa ito, ang bawat counter ay bibigyan ng quota na tumutukoy sa mga katangian ng populasyon kung saan dapat itong makipag-ugnayan.

Layunin ng pagkatuto 8
Ipaliwanag kung ano ang isang parameter sa isang pamamaraan sa pagpili

Parameter - isang tiyak na katangian o tagapagpahiwatig ng pangkalahatan o pinag-aralan na populasyon; isang tiyak na tagapagpahiwatig ng dami na nagpapakilala sa isang hanay mula sa isa pa.

Layunin ng pagkatuto 9
Ipaliwanag kung ano ang derived set

Ang nagmula na populasyon ay binubuo ng lahat ng posibleng mga sample na maaaring mapili mula sa pangkalahatang populasyon ayon sa isang ibinigay na sampling plan.

Layunin ng pagkatuto 10
Ipaliwanag kung bakit ang konsepto ng sampling distribution ang pinakamahalagang konsepto ng statistics.

Ang konsepto ng sampling distribution ay ang pundasyon ng statistical inference. Ayon sa kilalang pamamahagi ng sample ng mga pinag-aralan na istatistika, maaari nating tapusin ang tungkol sa kaukulang parameter ng pangkalahatang populasyon. Kung, sa kabilang banda, alam lamang na ang sample na pagtatantya ay nagbabago mula sa sample patungo sa sample, ngunit ang katangian ng pagbabagong ito ay hindi alam, magiging imposibleng matukoy ang sampling error na nauugnay sa pagtatantya na ito. Dahil inilalarawan ng distribusyon ng sampling ng isang pagtatantya kung paano ito nagbabago mula sa sample patungo sa sample, nagbibigay ito ng batayan para sa pagtukoy ng bisa ng isang sample na pagtatantya.

Ang empirical ay itinuturing na isa sa mga pangunahing paraan ng pag-aaral ng mga relasyon at proseso sa lipunan. Nagbibigay sila ng maaasahan, kumpleto at kinatawan ng impormasyon.

Pagtitiyak ng mga diskarte

Ang empirical ay nagbibigay ng pagkuha ng kaalaman sa pag-aayos ng katotohanan. Nag-aambag sila sa pagtatatag at paglalahat ng mga pangyayari sa pamamagitan ng hindi direkta o direktang pagpaparehistro ng mga kaganapang likas sa pinag-aralan na mga relasyon, bagay, phenomena. Ang mga empirikal na pamamaraan ay naiiba sa mga teoretikal na ang paksa ng pagsusuri ay:

Pag-uugali ng mga indibidwal at kanilang mga grupo.
Mga produkto ng aktibidad ng tao.
Mga pandiwang aksyon ng mga indibidwal, ang kanilang mga paghatol, pananaw, opinyon.

Mga halimbawang pag-aaral

Ang empirikal na pag-aaral ay palaging nakatuon sa pagkuha ng layunin at tumpak na impormasyon, dami ng datos. Sa pagsasaalang-alang na ito, kapag ito ay isinasagawa, kinakailangan upang matiyak ang pagiging kinatawan ng impormasyon. Alinsunod dito, tama set ng sampling. Ito ay Nangangahulugan ito na ang pagpili ay dapat isagawa sa paraang ang data na nakuha mula sa isang makitid na grupo ay sumasalamin sa mga uso na nagaganap sa pangkalahatang masa ng mga respondente. Halimbawa, kapag ang botohan ay 200-300 katao, ang data na nakuha ay maaaring i-extrapolate sa buong populasyon ng lungsod. Ang mga indicator ng sample set ay nagbibigay-daan sa ibang diskarte sa pag-aaral ng mga prosesong sosyo-ekonomiko sa rehiyon, sa bansa sa kabuuan.

Terminolohiya

Upang mas maunawaan ang mga isyung nauugnay sa mga sample na survey, kailangang linawin ang ilang kahulugan. Ang yunit ng pagmamasid ay ang direktang mapagkukunan ng impormasyon. Maaari itong maging isang indibidwal, isang grupo, isang dokumento, isang organisasyon, at iba pa. Ang pangkalahatang populasyon ay hanay ng mga yunit ng pagmamasid. Dapat silang lahat ay may kaugnayan sa problemang pinag-aaralan. napapailalim sa direktang pagsusuri. Ang pag-aaral ay isinasagawa alinsunod sa mga binuong pamamaraan ng pagkolekta ng impormasyon. Upang matukoy ang proporsyon na ito ng buong hanay ng mga tumutugon, gamitin ang konsepto ng "sample". Ang pag-aari nito upang ipakita ang mga pangunahing parameter ng kabuuang masa ng mga tao ay tinatawag na representasyon. Sa ilang mga kaso walang mga tugma. Pagkatapos ang isa ay nagsasalita ng isang error sa representasyon.

Pagtitiyak ng pagiging kinatawan

Ang mga isyu na nauugnay dito ay isinasaalang-alang nang detalyado sa balangkas ng mga istatistika. Ang mga problema ay kumplikado dahil, sa isang banda, pinag-uusapan natin ang pagbibigay ng isang quantitative representation na nagbibigay pangkalahatang populasyon. Ito ay ibig sabihin, sa partikular, na ang mga grupo ng mga tumutugon ay dapat na katawanin sa pinakamainam na bilang. Ang dami ay dapat sapat para sa isang normal na representasyon. Sa kabilang banda, nangangahulugan din ito ng qualitative representation. Ipinapalagay nito ang isang tiyak na komposisyon ng paksa, na bumubuo set ng sampling. Ito ay ibig sabihin, halimbawa, hindi maaaring pag-usapan ang pagiging representatibo kung lalaki o babae lamang, matatanda o kabataan ang kakapanayamin. Ang pag-aaral ay dapat isagawa sa loob ng lahat ng pangkat na kinakatawan.

Sample na katangian

Ang terminong ito ay isinasaalang-alang sa dalawang aspeto. Una sa lahat, ito ay tinukoy bilang isang kumplikadong mga elemento mula sa pangkalahatang hanay ng mga tao na ang opinyon ay pinag-aaralan - ito ay set ng sampling. Ito ay gayundin ang proseso ng paglikha ng isang partikular na kategorya ng mga tumutugon na may kinakailangang pagiging kinatawan. Sa pagsasagawa, mayroong ilang mga uri at uri ng pagpili. Isaalang-alang natin sila.

Mga uri

May tatlo sa kanila:

kusang-loob set ng sampling. Ito ay isang set ng mga respondent na pinili sa isang boluntaryong batayan. Kasabay nito, sinisiguro ang accessibility ng pagpasok ng mga unit mula sa kabuuang masa ng tao sa isang partikular na grupo ng pag-aaral. Ang kusang pagpili sa pagsasanay ay madalas na ginagamit. Halimbawa, sa mga survey sa press, sa pamamagitan ng koreo. Gayunpaman, ang pamamaraang ito ay may isang makabuluhang disbentaha. Imposibleng husay na kumatawan sa buong dami ng pangkalahatang sample. Ang pamamaraan na ito ay inilapat patungkol sa ekonomiya. Sa ilang mga survey, ang opsyong ito ay ang tanging posible.
kusang-loob set ng sampling. Ito ay isa sa mga pangunahing pamamaraan na ginamit sa pag-aaral. Ang pangunahing prinsipyo ng naturang pagpili ay ang pagbibigay ng pagkakataon para sa bawat yunit ng obserbasyon na makuha mula sa pangkalahatang masa ng mga indibidwal sa isang makitid na grupo. Para dito, iba't ibang paraan ang ginagamit. Halimbawa, maaari itong maging isang lottery, mekanikal na pagpili, isang talahanayan ng mga random na numero.
Stratified (quota) sampling. Ito ay batay sa pagbuo ng isang qualitative model ng kabuuang masa ng mga respondente. Pagkatapos nito, ang pagpili ng mga yunit sa sample na populasyon ay isinasagawa. Halimbawa, ito ay isinasagawa ayon sa edad o kasarian, ayon sa mga pangkat ng populasyon, at iba pa.

Mga uri

Mayroong mga sumusunod na pagpipilian:

Bukod pa rito

Ang mga sample ay maaari ding umasa at malaya. Sa unang kaso, ang pamamaraan ng eksperimento at ang mga resulta na makukuha sa panahon nito para sa isang pangkat ng mga respondent ay may tiyak na epekto sa isa pa. Alinsunod dito, ang mga independiyenteng sample ay hindi nagpapahiwatig ng ganoong epekto. Dito, gayunpaman, isang mahalagang punto ang dapat tandaan. Ang isang pangkat ng mga paksa, kung saan ang sikolohikal na pagsusuri ay isinagawa nang dalawang beses (kahit na ito ay naglalayong pag-aralan ang iba't ibang mga katangian, tampok, mga palatandaan), bilang default, ay ituturing na umaasa.

Mga probabilistikong pagpili

Isaalang-alang ang ilang uri ng mga sample:

Random. Ipinapalagay nito ang homogeneity ng kabuuang populasyon, isang posibilidad ng pagkakaroon ng lahat ng mga bahagi, pati na rin ang pagkakaroon ng isang kumpletong listahan ng mga elemento. Bilang isang patakaran, ang isang talahanayan na may mga random na numero ay ginagamit sa proseso ng pagpili.
Mekanikal. Ang ganitong uri ng random sampling ay kinabibilangan ng pag-order ayon sa isang partikular na katangian. Halimbawa, ayon sa numero ng telepono, ayon sa alpabeto, ayon sa petsa ng kapanganakan, at iba pa. Ang unang bahagi ay pinili nang random. Susunod, ang bawat elemento ng k ay pinili na may isang hakbang n. Ang halaga ng kabuuang populasyon ay magiging N=k*n.
Stratified. Ang sample na ito ay ginagamit kapag ang kabuuang populasyon ay heterogenous. Ang huli ay nahahati sa mga strata (mga grupo). Sa bawat isa sa kanila, ang pagpili ay isinasagawa nang wala sa loob o random.
Serial. Ang mga pangkat ay pinili nang random. Sa loob ng mga ito, ang mga bagay ay pinag-aaralan sa lahat ng paraan.

Hindi kapani-paniwalang mga pagpipilian

Ang mga ito ay nagsasangkot ng pagsa-sample hindi sa prinsipyo ng pagkakataon, ngunit sa mga subjective na batayan: tipikal, accessibility, pantay na representasyon, at iba pa. Kasama sa mga pagpipilian sa kategoryang ito ang:

Nuance

Ang isang tumpak at kumpletong listahan ng mga yunit ng populasyon ay kailangan upang matiyak ang pagiging kinatawan. Ang mga bagay ng pagmamasid, bilang panuntunan, ay isang tao. Pinakamabuting gawin ang pagpili mula sa listahan sa pamamagitan ng pagnunumero ng mga yunit at paggamit ng talahanayan na may mga random na numero. Ngunit madalas ding ginagamit ang quasi-random na pamamaraan. Ipinapalagay nito ang pagpili mula sa listahan ng bawat n elemento.

Mga bagay na naka-impluwensiya

Ang dami ng isang populasyon ay ang bilang ng mga yunit nito. Ayon sa mga eksperto, hindi ito kailangang malaki. Walang alinlangan, mas malaki ang bilang ng mga sumasagot, mas tumpak ang resulta. Gayunpaman, sa parehong oras, ang isang malaking dami ay hindi palaging ginagarantiyahan ang tagumpay. Halimbawa, nangyayari ito kapag ang kabuuang hanay ng mga respondent ay magkakaiba. Ang homogenous ay isasaalang-alang tulad ng isang set kung saan ang kinokontrol na parameter, halimbawa, ang antas ng literacy, ay ibinahagi nang pantay-pantay, iyon ay, walang mga voids o condensation. Sa kasong ito, sapat na ang pakikipanayam ng ilang tao. Batay sa mga resulta ng sarbey, posibleng mahinuha na ang karamihan ng mga tao ay may normal na antas ng karunungang bumasa't sumulat. Mula dito, sinusunod na ang pagiging kinatawan ng impormasyon ay naiimpluwensyahan hindi ng mga katangian ng dami, ngunit ng mga katangian ng husay ng populasyon - ang antas ng homogeneity nito, sa partikular.

Pagkakamali

Kinakatawan nila ang paglihis ng average na mga parameter ng sample na populasyon mula sa mga halaga ng kabuuang masa ng mga sumasagot. Sa pagsasagawa, ang mga error ay tinutukoy sa pamamagitan ng pagtutugma. Kapag nagsusuri ng mga nasa hustong gulang, kadalasang ginagamit ang data ng census, mga rekord ng istatistika, at ang mga resulta ng mga nakaraang survey. Ang mga parameter ng kontrol ay karaniwang ang Paghahambing ng mga average na halaga ng mga populasyon (pangkalahatan at sample), ang pagpapasiya ng error alinsunod dito at ang pagbawas ng paglihis na ito ay tinatawag na representasyong kontrol.

natuklasan

Ang sample na pananaliksik ay isang paraan ng pagkolekta ng data sa mga saloobin at pag-uugali ng mga tao sa pamamagitan ng isang survey ng mga espesyal na napiling grupo ng mga respondent. Ang pamamaraan na ito ay itinuturing na maaasahan at matipid, bagaman nangangailangan ito ng isang tiyak na pamamaraan. Ang sample ay ang batayan. Ito ay gumaganap bilang isang tiyak na proporsyon ng kabuuang masa ng mga tao. Ang pagpili ay ginawa gamit ang mga espesyal na pamamaraan at naglalayong makakuha ng impormasyon tungkol sa buong populasyon. Ang huli naman ay kinakatawan ng lahat ng posibleng panlipunang bagay o ng pangkat na pag-aaralan. Kadalasan ang populasyon ay napakalaki na magiging medyo magastos at mahirap magsagawa ng survey ng bawat miyembro ng populasyon. Samakatuwid, ginagamit ang isang pinababang modelo. Kasama sa sample ang lahat ng tumatanggap ng mga talatanungan, na tinatawag na mga respondent, na, sa katunayan, ay nagsisilbing object ng pag-aaral. Sa madaling salita, ito ay binubuo ng maraming tao na iniinterbyu.

Konklusyon

Ang mga layunin ng survey ay tinutukoy ng mga partikular na kategoryang kasama sa populasyon. Tulad ng para sa isang tiyak na bahagi ng kabuuang masa ng mga tao, ito ay binubuo ng mga paksang kasama sa mga pangkat gamit ang mga kalkulasyon sa matematika. Para sa pagpili ng mga yunit, isang paglalarawan ng bagay ng paunang populasyon ay kinakailangan. Matapos matukoy ang bilang ng mga paksa, ang pagtanggap o paraan ng pagbuo ng mga grupo ay tinutukoy. Ang mga resulta ng survey ay magbibigay-daan sa amin na ilarawan ang katangiang pinag-aaralan na may kaugnayan sa lahat ng kinatawan ng pangkalahatang masa ng mga tao. Tulad ng ipinapakita ng kasanayan, ang mga pumipili sa halip na patuloy na pag-aaral ay pangunahing isinasagawa.

Ang mga pag-aaral sa istatistika ay napakatagal at mahal, kaya lumitaw ang ideya na palitan ang tuluy-tuloy na pagmamasid ng pumipili.

Ang pangunahing layunin ng hindi tuloy-tuloy na pagmamasid ay upang makuha ang mga katangian ng istatistikal na populasyon na pinag-aaralan para sa sinuri na bahagi nito.

Selective observation- ito ay isang paraan ng istatistikal na pananaliksik, kung saan ang mga pangkalahatang tagapagpahiwatig ng populasyon ay itinatag lamang para sa isang bahagi, batay sa mga probisyon ng random na pagpili.

Sa paraan ng sampling, isang tiyak na bahagi lamang ng populasyon na pinag-aaralan ang pinag-aaralan, habang ang istatistikal na populasyon na pag-aaralan ay tinatawag na pangkalahatang populasyon.

Ang isang sample o simpleng sample ay maaaring tawaging bahagi ng mga yunit na pinili mula sa pangkalahatang populasyon, na sasailalim sa istatistikal na pananaliksik.

Ang halaga ng paraan ng sampling: na may pinakamababang bilang ng mga yunit sa ilalim ng pag-aaral, ang istatistikal na pananaliksik ay isasagawa sa mas maikling panahon at may pinakamababang halaga ng mga pondo at paggawa.

Sa pangkalahatang populasyon, ang proporsyon ng mga yunit na may katangiang pinag-aaralan ay tinatawag na pangkalahatang proporsyon (na tinukoy R), at ang average na halaga ng pinag-aralan na variable na katangian ay ang pangkalahatang average (denote X).

Sa sample na populasyon, ang bahagi ng pinag-aralan na katangian ay tinatawag na sample share, o bahagi (na tinutukoy ng w), ang average na halaga sa sample ay sample ibig sabihin.

Kung sa panahon ng survey ang lahat ng mga patakaran ng organisasyong pang-agham nito ay sinusunod, kung gayon ang paraan ng sampling ay magbibigay ng medyo tumpak na mga resulta, at samakatuwid ay ipinapayong gamitin ang pamamaraang ito upang i-verify ang data ng patuloy na pagmamasid.

Ang pamamaraang ito ay naging laganap sa mga istatistika ng estado at hindi pang-departamento, dahil kapag pinag-aaralan ang pinakamababang bilang ng mga yunit sa ilalim ng pag-aaral, pinapayagan nito ang isang masusing at tumpak na pag-aaral.

Ang pinag-aralan na istatistikal na populasyon ay binubuo ng mga yunit na may iba't ibang katangian. Ang komposisyon ng sample ay maaaring mag-iba mula sa komposisyon ng pangkalahatang populasyon, ang pagkakaibang ito sa pagitan ng mga katangian ng sample at ng pangkalahatang populasyon ay bumubuo sa sampling error.

Ang mga error na likas sa selective observation ay nagpapakita ng laki ng pagkakaiba sa pagitan ng data ng selective observation at ng buong populasyon. Ang mga error na nagaganap sa panahon ng sampling ay tinatawag na representativeness error at nahahati sa random at systematic.

Kung ang sample na populasyon ay hindi tumpak na nagpaparami ng buong populasyon dahil sa hindi tuloy-tuloy na katangian ng pagmamasid, kung gayon ito ay tinatawag na mga random na error, at ang kanilang mga sukat ay tinutukoy nang may sapat na katumpakan batay sa batas ng malalaking numero at teorya ng posibilidad.

Ang mga sistematikong pagkakamali ay lumitaw bilang isang resulta ng paglabag sa prinsipyo ng random na pagpili ng mga yunit ng populasyon para sa pagmamasid.

2. Mga uri at scheme ng pagpili

Ang laki ng sampling error at ang mga pamamaraan para sa pagtukoy nito ay depende sa uri at scheme ng pagpili.

Mayroong apat na uri ng pagpili ng isang hanay ng mga yunit ng pagmamasid:

1) random;

2) mekanikal;

3) tipikal;

4) serial (nested).

random na pagpili- ang pinakakaraniwang paraan ng pagpili sa isang random na sample, tinatawag din itong paraan ng lottery, kung saan ang isang tiket na may serial number ay inihanda para sa bawat yunit ng istatistikal na populasyon.

Susunod, ang kinakailangang bilang ng mga yunit ng istatistikal na populasyon ay random na pinili. Sa ilalim ng mga kundisyong ito, ang bawat isa sa kanila ay may parehong posibilidad na makapasok sa sample, halimbawa, mga draw ng mga panalo, kapag ang isang tiyak na bahagi ng mga numero na account para sa mga panalo ay random na pinili mula sa kabuuang bilang ng mga inisyu na tiket. Sa kasong ito, ang lahat ng mga numero ay binibigyan ng pantay na pagkakataon upang makapasok sa sample.

Pagpili ng mekanikal- ito ay isang paraan kapag ang buong populasyon ay nahahati sa mga grupo ng homogenous na sukat sa random na batayan, pagkatapos ay isang yunit lamang ang kukunin mula sa bawat pangkat. ang laki ng sample, ang kinakailangang bilang ng mga yunit ay mekanikal na pinipili sa isang tiyak na pagitan .

Karaniwang pagpili - ito ay isang paraan kung saan ang istatistikal na populasyon na pinag-aaralan ay hinahati ayon sa isang mahalaga, tipikal na tampok sa qualitatively homogenous, katulad na mga grupo, pagkatapos ay isang tiyak na bilang ng mga yunit ay random na pinili mula sa bawat isa sa pangkat na ito, proporsyonal sa bahagi ng grupo sa ang buong populasyon.

Ang karaniwang pagpili ay nagbibigay ng mas tumpak na mga resulta, dahil kabilang dito ang mga kinatawan ng lahat ng tipikal na grupo sa sample.

Serial (nested) na seleksyon. Ang buong grupo (serye, mga pugad), pinili nang random o mekanikal, ay napapailalim sa pagpili. Para sa bawat naturang grupo, ang serye, patuloy na pagmamasid ay isinasagawa, at ang mga resulta ay inililipat sa buong populasyon.

Ang katumpakan ng sampling ay nakasalalay din sa scheme ng pagpili. Maaaring isagawa ang sampling ayon sa pamamaraan ng paulit-ulit at hindi paulit-ulit na pagpili.

Muling pagpili. Ang bawat napiling yunit o serye ay ibinabalik sa buong populasyon at maaaring muling ma-sample. Ito ang tinatawag na return ball scheme.

Paulit-ulit na pagpili. Ang bawat na-survey na unit ay binawi at hindi ibinabalik sa populasyon, kaya hindi ito muling sinusuri. Ang scheme na ito ay tinatawag na hindi naibalik na bola.

Ang hindi paulit-ulit na pagpili ay nagbibigay ng mas tumpak na mga resulta, dahil sa parehong laki ng sample, ang obserbasyon ay sumasaklaw sa higit pang mga yunit ng pinag-aralan na populasyon.

Pinagsamang pagpili maaaring dumaan sa isa o higit pang mga hakbang. Ang isang sample ay tinatawag na single-stage kung ang mga yunit ng populasyon na napili nang isang beses ay sasailalim sa pag-aaral.

Ang isang sample ay tinatawag na multi-stage kung ang pagpili ng populasyon ay dumaan sa mga yugto, sunud-sunod na yugto, at bawat yugto, yugto ng pagpili ay may sariling yunit ng pagpili.

Multi-phase sampling - sa lahat ng mga yugto ng sampling, ang parehong sampling unit ay pinananatili, ngunit ilang mga yugto, mga yugto ng sample survey ay isinasagawa, na naiiba sa bawat isa sa lawak ng survey program at sample size.

Ang mga katangian ng mga parameter ng pangkalahatan at sample na populasyon ay ipinahiwatig ng mga sumusunod na simbolo:

N- ang dami ng pangkalahatang populasyon;

n- laki ng sample;

X- pangkalahatang average;

X ay ang sample mean;

R- pangkalahatang bahagi;

w - sample share;

2 - pangkalahatang pagkakaiba-iba (pagpakalat ng isang tampok sa pangkalahatang populasyon);

2 - sample na pagkakaiba-iba ng parehong tampok;

? - karaniwang paglihis sa pangkalahatang populasyon;

ay ang standard deviation sa sample.

3. Mga error sa pag-sample

Ang bawat yunit sa isang sample na obserbasyon ay dapat magkaroon ng pantay na pagkakataon na mapili kasama ng iba - ito ang batayan ng isang random na sample.

Self-random sampling - ito ay ang pagpili ng mga yunit mula sa buong pangkalahatang populasyon sa pamamagitan ng lottery o sa ibang katulad na paraan.

Ang prinsipyo ng randomness ay ang pagsasama o pagbubukod ng isang bagay mula sa sample ay hindi maaaring maimpluwensyahan ng anumang kadahilanan maliban sa pagkakataon.

Sample share ay ang ratio ng bilang ng mga yunit sa sample sa bilang ng mga yunit sa pangkalahatang populasyon:

Ang self-random na pagpili sa dalisay nitong anyo ay ang paunang isa sa lahat ng iba pang uri ng pagpili; ito ay naglalaman at nagpapatupad ng mga pangunahing prinsipyo ng piling istatistikal na pagmamasid.

Ang dalawang pangunahing uri ng generalizing indicator na ginagamit sa sampling method ay ang average na halaga ng quantitative attribute at ang relative value ng isang alternatibong attribute.

Ang sample na bahagi (w), o partikularidad, ay tinutukoy ng ratio ng bilang ng mga yunit na may katangiang pinag-aaralan. m, sa kabuuang bilang ng mga sampling unit (n):

Upang makilala ang pagiging maaasahan ng mga tagapagpahiwatig ng sample, ang average at marginal na mga error ng sample ay nakikilala.

Ang error sa sampling, na tinatawag ding error sa representasyon, ay ang pagkakaiba sa pagitan ng kaukulang sample at pangkalahatang katangian:

?x = | x - x |;

?w =|х – p|.

Ang mga naka-sample na obserbasyon lamang ang may error sa pag-sample

Sample mean at sample na proporsyon- ito ay mga random na variable na kumukuha ng iba't ibang mga halaga depende sa mga yunit ng pinag-aralan na istatistikal na populasyon na kasama sa sample. Alinsunod dito, ang mga error sa pag-sample ay mga random na variable din at maaari ring kumuha ng iba't ibang mga halaga. Samakatuwid, ang average ng mga posibleng error ay tinutukoy - ang average na sampling error.

Ang average na error sa sampling ay tinutukoy ng laki ng sample: mas malaki ang populasyon, lahat ng iba pang bagay ay pantay, mas maliit ang average na error sa sampling. Sumasaklaw sa isang sample na survey na may tumataas na bilang ng mga yunit ng pangkalahatang populasyon, higit at mas tumpak nating nailalarawan ang buong populasyon.

Ang average na error sa sampling ay nakasalalay sa antas ng pagkakaiba-iba ng pinag-aralan na katangian, sa turn, ang antas ng pagkakaiba-iba ay nailalarawan sa pamamagitan ng pagkakaiba-iba? 2 o w(l - w)- para sa isang alternatibong tanda. Kung mas maliit ang variation at variance ng feature, mas maliit ang mean sampling error, at vice versa.

Para sa random na resampling, ang mga mean error ay theoretically kinakalkula gamit ang mga sumusunod na formula:

1) para sa average na quantitative na katangian:

saan? 2 - ang average na halaga ng dispersion ng isang quantitative trait.

2) para sa isang bahagi (alternatibong tanda):

Kaya paano ang pagkakaiba-iba ng katangian sa populasyon? 2 ay hindi eksaktong kilala, sa pagsasanay ginagamit nila ang halaga ng variance S 2 na kinakalkula para sa sample na populasyon batay sa batas ng malalaking numero, ayon sa kung saan ang sample na populasyon na may sapat na malaking sample size ay tumpak na nagpaparami ng mga katangian ng pangkalahatang populasyon.

Ang mga formula para sa mean sampling error para sa random resampling ay ang mga sumusunod. Para sa average na halaga ng isang quantitative attribute: ang pangkalahatang pagkakaiba ay ipinahayag sa pamamagitan ng elective sa pamamagitan ng sumusunod na ratio:

kung saan ang S 2 ay ang halaga ng pagpapakalat.

Mechanical sampling- ito ang pagpili ng mga yunit sa isang sample set mula sa pangkalahatan, na nahahati sa pantay na mga grupo ayon sa isang neutral na pamantayan; ay ginagawa sa paraang isang yunit lamang ang pipiliin mula sa bawat pangkat sa sample.

Sa mekanikal na pagpili, ang mga yunit ng istatistikal na populasyon sa ilalim ng pag-aaral ay paunang nakaayos sa isang tiyak na pagkakasunud-sunod, pagkatapos kung saan ang isang naibigay na bilang ng mga yunit ay pinili nang mekanikal sa isang tiyak na pagitan. Sa kasong ito, ang laki ng agwat sa pangkalahatang populasyon ay katumbas ng kapalit ng bahagi ng sample.

Sa sapat na malaking populasyon, ang mekanikal na pagpili sa mga tuntunin ng katumpakan ng mga resulta ay malapit sa random na isa. Samakatuwid, upang matukoy ang average na error ng mechanical sampling, ang mga formula ng random na hindi paulit-ulit na sampling ay ginagamit.

Upang pumili ng mga yunit mula sa isang heterogenous na populasyon, ang tinatawag na tipikal na sample ay ginagamit, ito ay ginagamit kapag ang lahat ng mga yunit ng pangkalahatang populasyon ay maaaring nahahati sa maraming qualitatively homogenous, katulad na mga grupo ayon sa mga katangian kung saan nakasalalay ang pinag-aralan na mga tagapagpahiwatig.

Pagkatapos, mula sa bawat tipikal na grupo, ang isang indibidwal na pagpili ng mga yunit sa sample ay ginawa ng random o mekanikal na sample.

Karaniwang ginagamit ang tipikal na sampling sa pag-aaral ng mga kumplikadong istatistikal na populasyon.

Ang karaniwang sampling ay nagbibigay ng mas tumpak na mga resulta. Tinitiyak ng pag-type ng pangkalahatang populasyon ang pagiging kinatawan ng naturang sample, ang representasyon ng bawat typological group sa loob nito, na ginagawang posible na ibukod ang impluwensya ng intergroup dispersion sa average na error sa sample. Samakatuwid, kapag tinutukoy ang average na error ng isang tipikal na sample, ang average ng mga pagkakaiba-iba ng intragroup ay nagsisilbing indicator ng variation.

Ang serial sampling ay nagsasangkot ng random na pagpili mula sa isang pangkalahatang populasyon ng magkaparehong laki ng mga grupo upang isailalim ang lahat ng mga yunit nang walang pagbubukod sa pagmamasid sa mga naturang grupo.

Dahil ang lahat ng unit nang walang pagbubukod ay sinusuri sa loob ng mga pangkat (serye), ang average na sampling error (kapag pumipili ng pantay na serye) ay nakadepende lamang sa intergroup (interseries) na pagkakaiba-iba.

4. Mga paraan ng pagpapalawak ng mga sample na resulta sa populasyon

Ang paglalarawan ng pangkalahatang populasyon batay sa mga resulta ng sample ay ang pangwakas na layunin ng sample na pagmamasid.

Ang paraan ng sampling ay ginagamit upang makuha ang mga katangian ng pangkalahatang populasyon para sa ilang partikular na indicator ng sample. Depende sa mga layunin ng pag-aaral, ito ay isinasagawa sa pamamagitan ng direktang muling pagkalkula ng mga sample indicator para sa pangkalahatang populasyon o sa pamamagitan ng paraan ng pagkalkula ng mga kadahilanan ng pagwawasto.

Ang paraan ng direktang muling pagkalkula ay kasama nito ang mga tagapagpahiwatig ng bahagi ng sample w o daluyan X ay pinalawak sa pangkalahatang populasyon, na isinasaalang-alang ang sampling error.

Ang paraan ng correction factor ay ginagamit kapag ang layunin ng sampling method ay upang pinuhin ang mga resulta ng kumpletong accounting. Ang pamamaraang ito ay ginagamit upang pinuhin ang data ng taunang mga sensus ng hayop ng populasyon.

Ang konsepto ng "representativeness" na may kaugnayan sa sociological poll - public opinion polls - ay may halos mahiwagang epekto sa mga tao. Ang terminong "representasyon" mismo ay may, bilang karagdagan sa siyentipiko, ay may malinaw ding kahulugang pampulitika.

Ano ang dahilan? Ang bagay ay ipinapalagay na ang sample (isang grupo ng mga taong pinili para sa survey) ay maaaring kumatawan (kumakatawan) sa buong populasyon. Ang pangkalahatang populasyon sa kaso ng all-Russian survey ay ang buong populasyon ng bansa. Ngayon isipin natin na pinag-uusapan natin ang tungkol sa isang pampulitikang desisyon - pagsuporta sa isang panukalang batas o pagboto sa isang halalan. Sa tulong ng isang sample na survey, nakakakuha tayo ng isang mahusay na mekanismo ng representasyon sa pulitika - isang mekanismo kung saan ang isang maliit na grupo ng mga tao ay maaaring kumatawan sa opinyon o posisyon ng buong populasyon ng bansa. Samakatuwid, ang pagiging kinatawan ng pag-aaral ay binibigyan ng isang mahalagang lugar.

Ang konsepto ng pagiging kinatawan ay ginagamit, siyempre, hindi lamang sa mga pag-aaral sa politika. Ang termino ay halos palaging ginagamit kapag pinag-uusapan ang mga malalaking pag-aaral, maging sa larangan ng marketing, pang-ekonomiyang pag-uugali o edukasyon.

Pamamaraan ng mga survey na kinatawan

Paano, sa pag-poll sa 1,500 katao, makakagawa ng mga konklusyon ang isa tungkol sa lahat ng mga Ruso, kung saan mayroong higit sa 140 milyon (at kahit na ang mga botante ay higit sa 110 milyon)? Ang teknolohiya sa likod ng mga kinatawan na botohan ay batay sa mga istatistikal na batas. Ang pinakamalapit na dahilan ay ang batas ng malalaking numero, o ang theorem ni Bernoulli.

Pinasimple, ang kahulugan nito ay maaaring ipahiwatig tulad ng sumusunod. Ipagpalagay na mayroon tayong ilang tampok, halimbawa, ang dami ng pag-ulan bawat araw sa Yekaterinburg noong ika-20 siglo. Kung isusulat namin ang lahat ng mga halaga nito kasama ang kanilang dalas (ito ay tinatawag na pamamahagi), at pagkatapos ay random na kumuha ng sapat na malaking bilang ng mga kaso (iyon ay, hindi lahat ng mga araw sa ikadalawampu siglo, ngunit medyo marami), kung gayon makikita natin na ang distribusyon sa ating sample ay magiging halos kapareho sa pamamahagi para sa buong ikadalawampu siglo. Kaya, kung pipili tayo ng ilang yunit mula sa populasyon, maaaring kinakatawan nga ng mga ito ang buong populasyon, at hindi talaga kinakailangan na mangolekta ng data para sa lahat ng kaso.

Gayunpaman, mayroong isang pangunahing kundisyon: ito ay totoo lamang kung ang pagpili ay mahigpit na random. Ang tanging problema dito ay maaaring ang paglihis mula sa randomness. Kaya, kung kukuha lamang kami ng data ng pag-ulan para sa mga nakaraang taon (halimbawa, dahil mas madaling mahanap ang data na ito) o pakikipanayam ang 1500 sa aming mga kakilala (dahil mas madaling makipag-ugnayan sa kanila), at hindi mga random na tao, kung gayon ang sample ay tiyak na hindi maging kinatawan.

Isipin na sa 143.5 milyong Ruso, random mong pipiliin ang 1,500 tao na kailangan mo. Pagkatapos, halimbawa, ang proporsyon ng mga gitnang tagapamahala sa kanila ay magiging humigit-kumulang katumbas ng proporsyon ng mga panggitnang tagapamahala sa populasyon, na nagpapakita na ang iyong sample ay maaaring kumatawan sa buong populasyon. Maaari bang mangyari na ang dalawang tagapagpahiwatig na ito ay magkaiba? Halimbawa, sa mga Ruso ito ay 14%, ngunit sa sample ito ay magiging 1% lamang? Sa teorya, posible ito, ngunit napakaliit ng posibilidad na ito ay maaaring mapabayaan (tulad ng pagkikita ng dragon sa kalye).

Bukod dito, ang pinaka-kaaya-ayang bagay tungkol sa posibilidad na ito ay hindi kahit na ito ay maliit, ngunit para sa mga random na proseso ay maaaring kalkulahin ang posibilidad na ito. Masasabi natin kung anong posibilidad na ang halaga ng sample ay lumihis mula sa halaga sa pangkalahatang populasyon ng 13% (tulad ng sa halimbawa sa itaas), at kung saan, sabihin nating, ng 2.5%. Kadalasan, gayunpaman, ginagawa nila ang kabaligtaran: una, tinutukoy nila ang posibilidad kung saan nais nating ang ating halaga ay hindi lumihis mula sa halaga sa pangkalahatang populasyon (kadalasan ito ay naayos sa antas na 95%), at pagkatapos ay tinitingnan nila ang ang magnitude ng deviation para sa isang partikular na sample ng laki. Ang paglihis na ito ay tinatawag na confidence interval, minsan ay tinutukoy bilang sampling error o statistical error, at kadalasang nakalista kasama ng mga resulta ng survey.

Kaya, ang posibilidad ng deviation, ang halaga ng deviation (confidence interval) at sample size ay magkaugnay. Batay dito, ang formula para sa pagkalkula ng laki ng sample ay ang mga sumusunod:

kung saan ang n ay ang sample size, ang Δ ay ang confidence interval, ang z ay ang value ng normal distribution function para sa isang ibinigay na probabilidad ng pagtanggi (para sa probability na 5%, ang value na ito ay 1.96).

Ito ay isang pinasimpleng formula, ang mga totoong survey ay gumagamit ng bahagyang mas kumplikadong mga formula. Ang formula na ito ay maaari ding mabigo kung ang halaga ng indicator ay ibang-iba sa 50% (kaya, halimbawa, ang formula na ito ay hindi angkop para sa pagtantya ng proporsyon ng mga pasyente na may isang bihirang sakit sa isang bansa).

Narito ang mangyayari kung papalitan mo ang ilang value sa formula na ito:

Sa madaling salita, kung kumuha kami ng isang random na sample ng mga Ruso na may sukat na 1600 katao at tinantya ang ilang tagapagpahiwatig, halimbawa, ang pagpayag na bumoto para sa isang partikular na politiko, kung gayon na may posibilidad na 95% ang aming pagtatantya ay hindi mag-iiba mula sa pagpayag. upang bumoto para sa kanya sa lahat ng mga Russian sa pamamagitan ng higit sa 2, 45%.

Laki ng sample

Kaya, kung mas malaki ang sukat ng sample, mas malamang na mas malapit tayo sa isang bahagi sa populasyon. Mukhang nangangahulugan ito na kailangan nating subukang dalhin ang sample na mas malapit sa 143.5 milyon. Sa katunayan, tulad ng nakikita mo mula sa talahanayan, ang likas na katangian ng mga random na proseso ay tulad na mula sa isang tiyak na sandali ang posibilidad na mahulog sa pagitan nagsisimula nang tumaas nang napakabagal (at ang sandaling ito ay dumarating nang napakabilis). Pagkatapos naming mag-sample ng 1500 units, gaano man natin dinadagdagan ang sample size, ang posibilidad na mahulog ang sample value natin sa population value ay tataas nang napakabagal.

Sa katunayan, halos walang pagkakaiba sa pagitan ng 1,500 at 10,000 respondents. Sa isang lugar sa pamamagitan ng 1500 maaari na nating sabihin na ang ating mga pagtatantya ay mag-iiba mula sa bahagi sa pangkalahatang populasyon ng 2-3%. Kung dagdagan pa natin ang sample, bababa ang posibleng error na ito, ngunit napakaliit. Sa madaling salita, ang isang sample ng 100,000 ay mas mahusay kaysa sa isang sample ng 2500, ngunit ang pagkakaiba ay napakaliit na ito ay walang kahulugan at, sa kaso ng mga social survey, ay hindi makatwiran sa ekonomiya. Karaniwan, ang pagtaas ng sample ay mahal, at samakatuwid ay hindi makatuwirang palakihin ito upang makakuha ng isang porsyentong punto sa halaga ng agwat ng kumpiyansa.

Mahalaga na ang laki ng pangkalahatang populasyon ay hindi lalabas sa formula. Ang katotohanan ay kapag ang populasyon ay malaki (mahigit sa 20,000), ito ay may maliit o walang epekto sa laki ng sample. Kaya, hindi namin kailangang malaman kung gaano karaming mga tao ang nakatira sa Russia upang makabuo ng isang sample na kinatawan. Malinaw na ang pagpili ng 1500 sa 2000 ay malamang na hindi makatwiran - mas madaling suriin ang 2000 at makakuha ng tumpak na pagtatantya. Ngunit, kung kinakailangan, sa paggawa ng isang sample, nakakakuha kami ng pagkakataon na gawing pangkalahatan ang mga resulta nito para sa pangkalahatang populasyon. At sa parehong dahilan, hindi mag-iiba ang sample size para sa malaki at maliliit na bansa.

Pagkakatawan at Katumpakan

Upang maunawaan ang kahulugan ng konsepto ng "representativeness", isaalang-alang natin ang isang sample ng 15 tao. Kakatwa, kung hindi mo sinasadya, ito ay kinatawan din. Bukod dito, maaari kang gumawa ng isang sample ng isang yunit. Isipin ang isang kahon ng mga bola kung saan random kang gumuhit ng isang bola. Kung ito ay isang random na napiling bola, ito rin ay kumakatawan sa lahat ng mga bola na nasa kahon na ito. Kakatawanin lang niya sila. hindi eksakto. Bakit? Dahil napakataas ng posibilidad na magkamali. Sa susunod na maaari tayong gumuhit ng isa pang bola at makakuha ng ibang ideya ng mga bola sa kahon. Ang ibig sabihin ng hindi tumpak na pagkatawan ay magkaroon ng malawak na hanay ng mga pagtatantya.

Sa parehong paraan, 15 tao ang kumakatawan sa anumang pangkalahatang populasyon, ngunit kinakatawan nila ito nang hindi tumpak, dahil ang error, ang agwat ng kumpiyansa, ay napakalaki. Kakailanganin nating magdagdag ng +/- 33% para makakuha ng 95% na pagkakataon na mahuhulog tayo sa pagitan. Kung handa kaming aminin ito, pagkatapos ay kukuha kami ng 15 tao, alamin na 7 sa kanila ay mga gitnang tagapamahala, at pagkatapos ay makakakuha kami ng isang pagtatantya na 7/15 ng kabuuan, iyon ay, 47% +/- 33%, ay ang pagtatantya ng bahagi ng mga tagapamahala sa pangkalahatang populasyon, at ito ay isang ganap na tamang konklusyon. Wala lang itong halaga. Masasabi natin ito nang walang pagsusuri. Samakatuwid, kapag nagpaplano ng isang sample, makatuwirang makamit ang isang sukat na magiging angkop sa mga tuntunin ng pagiging epektibo sa gastos.

Ang lahat ng nasa itaas ay inilaan upang ihatid ang isang simpleng ideya, na kadalasang hindi napagtanto: Ang laki ng sample ay hindi nauugnay sa pagiging kinatawan nito.

Ang isang maliit na sample ay hindi tumpak, ngunit maaari pa rin itong maging kinatawan. Ang mga sukat ng sample na ginagamit ngayon sa mga mass survey sa Russia ay halos palaging may medyo mataas na katumpakan.

Ang pagiging kinatawan ng sample ay nanganganib hindi sa laki nito, ngunit sa bias, iyon ay, paglihis mula sa prinsipyo ng randomness.

Paglabag sa prinsipyo ng randomness

Kung magsisimula kaming pumili ng mga unit nang hindi random, ang sample ay magiging hindi kinatawan. Halimbawa, kung may pumipigil sa amin na piliin ang mga ito nang random. Isipin na gusto naming pumili ng mga bola mula sa aming kahon nang random, ngunit pagkatapos ay lumabas na ang ilan sa mga bola ay kumagat. Ang mekanismo kung saan kami ay kukuha lamang ng mga marbles na ibinigay sa amin ay isang mekanismo na lumalabag sa randomness at samakatuwid ay lumalabag sa pagiging kinatawan. Sa kasong ito, gaano man karaming mga marbles ang kinuha natin mula sa kahon (kahit na kunin natin ang lahat ng mga marbles na hindi kumagat), magkakaroon tayo ng isang hindi kumakatawang sample, dahil hindi natin isasaalang-alang ang alinman sa mga kumagat - sila i-bypass lang ang aming sample.

Ang pinakamalaking problema sa mga nakakagat na bola ay maaaring iba ang mga ito sa mga dumarating sa ating mga kamay, at naiiba sa eksaktong paraan kung paano tayo interesado. Ang sitwasyong ito ay tinatawag na sampling bias.

Kinakailangang makilala ang sitwasyon ng hindi tumpak na representasyon, na inilarawan namin sa itaas, mula sa sitwasyon ng hindi representasyon. Ito ay iba't ibang mga problema at mayroon silang iba't ibang mga solusyon. Hindi mo malulutas ang isa sa kanila sa pamamagitan ng paglutas sa isa pa. Kung ang sample ay walang representasyon, walang silbi ang pagtaas nito. Bukod dito, ang malalaking sample sa mga social survey ay may posibilidad na makaipon ng mga error, kaya ang problema sa representasyon ay maaari lamang palalain ng malaking pagtaas sa sample.

Bakit imposible ang pagiging kinatawan?

Sa mga tala sa mga talahanayan na may mga resulta ng mga survey, madalas na makikita ng isa na "ang laki ng sample ay 1600 katao, ang sample ay kinatawan ng kasarian at edad." Mula sa sinabi sa itaas, malinaw na ang mga ito ay dalawang magkaibang mga parameter: ang isang indikasyon ng pagiging kinatawan ay hindi nauugnay sa laki ng sample. Sa katunayan, ang ibig sabihin dito ay ang ilang mga pamamaraan ay sinunod upang matiyak ang pagsusulatan sa pagitan ng sample at ng populasyon. Halimbawa, upang matiyak ang pagiging kinatawan ayon sa kasarian, ang mga lalaki at babae ay kinukuha sa sample sa parehong mga proporsyon na umiiral sa mga Ruso ayon sa data ng census. Ngunit ang pagiging kinatawan sa pamamagitan ng kasarian ay hindi nangangahulugan ng pagiging kinatawan, halimbawa, sa pamamagitan ng mga pananaw sa pulitika.

Bakit kailangang ihanay ang sample ayon sa kasarian at iba pang sosyo-demograpikong kategorya? Dahil isang random na sample lamang ang makakapagbigay ng tunay na representasyon, at imposibleng ipatupad ito sa pagsasanay para sa maraming dahilan. Sa sandaling subukan mong gawin ito, makakaranas ka ng maraming problema - kahit anong paraan ang pipiliin mong gamitin. Ang ilang mga sumasagot ay hindi magiging available sa iyong pamamaraan (halimbawa, para sa mga personal na panayam, ang mga bahay na may intercom at seguridad ay isang malaking problema), ang isa pang bahagi ay wala, hindi sumasagot, o mas gugustuhin na gawin ang kanilang negosyo. May mga taong may problema sa wika at hindi makausap sa amin. May mga taong hindi naiintindihan kung bakit kailangan ito, at ayaw nilang makipag-usap sa amin. Ang lahat ng ito ay malubhang paglabag sa randomness, na ginagawang imposible ang pagsasakatuparan nito.

Ang mga nagpapababa sa problema ng representasyon sa mass survey sa mga istatistika ay nakakalimutan na ang mga tao ay napaka-espesipikong mga marbles. May mga bolang tumatakbo at nagtatago. May mga bolang kumagat. Hindi sila mga passive object, sila ay tumama. Sabi nila, "Ayokong lumahok sa iyong survey," sa gayon ay lumalabag sa randomness. Samakatuwid, sa mahigpit na kahulugan ng salita, ang pagiging kinatawan sa mga survey ng masa, siyempre, ay imposible sa anumang anyo.

Ang isang mekanismo ay binuo kung saan ang hitsura ng pagiging kinatawan ay karaniwang tinitiyak: inihanay namin ang sample sa ilang mga kategorya at nagpapanggap na ito ay nakahanay din sa lahat ng iba pang posibleng mga kategorya. Sa katunayan, wala tayong dahilan para igiit ito. Ngunit ang problema ay walang paraan upang suriin ito - muli, dahil sa ang katunayan na ang ilang mga bola ay kumagat. Upang masuri ang bias, ang tagasuri ay kailangang pumunta sa mga hindi namin nakapanayam at makapanayam. Ngunit sila, tulad ng naaalala natin, ay hindi nais na tanungin sa lahat. Imposibleng tanungin ang mga tiyak na hindi sumasagot. Samakatuwid, gumagana ang lahat sa pagpapalagay na kung ihanay natin ang sample sa dalawa o tatlong parameter, kinakatawan nito ang buong populasyon, bagama't walang seryosong batayan para sa pagpapalagay na ito.

Ang representative sampling ay isang teknolohiyang hiniram ng mga sosyologo mula sa mga istatistika. Samakatuwid, hindi maiiwasang nagdadala ito ng mga elemento ng matematikal at istatistikal na larawan ng mundo. Marahil ang pinakamatibay na palagay ay ang mismong sample na survey ay pampulitika at sosyolohikal na neutral: ang paglahok at hindi paglahok sa survey ay hindi nagdadala ng pampulitikang kahulugan at hindi nauugnay sa iba pang mahahalagang parameter sa sosyolohikal. Ngunit ngayon, ang mga botohan ay naging isa sa mga pangunahing institusyong pampulitika at naging pangunahing tagapamagitan sa pagitan ng malalaking korporasyon at mga mamimili. Sa ilalim ng mga kundisyong ito, hindi na posibleng paniwalaan ang kanilang pagiging sterility sa pulitika. Gayunpaman, kakaunti pa rin ang alam natin tungkol sa kung paano nauunawaan ang mga botohan sa mga kontemporaryong lipunan at kung ano talaga ang kinakatawan ng mga ito.

Ang isa sa mga pangunahing bahagi ng isang mahusay na disenyo ng pag-aaral ay ang kahulugan ng sample at kung ano ang isang kinatawan ng sample. Ito ay tulad ng halimbawa ng cake. Pagkatapos ng lahat, hindi kinakailangang kainin ang buong dessert upang maunawaan ang lasa nito? Ang isang maliit na bahagi ay sapat na.

Kaya, ang cake ay populasyon (iyon ay, lahat ng mga respondent na kwalipikado para sa survey). Maaari itong ipahayag sa teritoryo, halimbawa, mga residente lamang ng rehiyon ng Moscow. Kasarian - mga babae lamang. O may mga paghihigpit sa edad - Ang mga Ruso ay higit sa 65 taong gulang.

Mahirap kalkulahin ang populasyon: kailangan mong magkaroon ng data mula sa sensus ng populasyon o mga paunang pagsusuri sa pagtatasa. Samakatuwid, kadalasan ang pangkalahatang populasyon ay "tinantya", at mula sa nagresultang bilang ay kinakalkula nila sampling frame o sampling.

Ano ang isang sample na kinatawan?

Sampol ay isang mahusay na tinukoy na bilang ng mga tumugon. Ang istraktura nito ay dapat na magkatugma hangga't maaari sa istraktura ng pangkalahatang populasyon sa mga tuntunin ng mga pangunahing katangian ng pagpili.

Halimbawa, kung ang mga potensyal na tumugon ay ang buong populasyon ng Russia, kung saan 54% ay kababaihan at 46% ay lalaki, ang sample ay dapat na naglalaman ng eksaktong parehong porsyento. Kung tumutugma ang mga parameter, maaaring tawaging kinatawan ang sample. Nangangahulugan ito na ang mga kamalian at pagkakamali sa pag-aaral ay mababawasan.

Ang laki ng sample ay tinutukoy na isinasaalang-alang ang mga kinakailangan ng katumpakan at ekonomiya. Ang mga kinakailangang ito ay inversely proportional sa isa't isa: mas malaki ang sample size, mas tumpak ang resulta. Bukod dito, kung mas mataas ang katumpakan, mas maraming gastos ang kinakailangan para sa pag-aaral. At sa kabaligtaran, mas maliit ang sample, mas mababa ang gastos, mas hindi tumpak at mas random na ang mga katangian ng pangkalahatang populasyon ay muling ginawa.

Samakatuwid, upang makalkula ang dami ng pagpipilian, ang mga sosyologo ay nag-imbento ng isang pormula at nilikha espesyal na calculator:

Posibilidad ng kumpiyansa at pagkakamali ng kumpiyansa

Ano ang mga tuntunin " antas ng kumpiyansa"at" pagkakamali ng kumpiyansa"? Ang antas ng kumpiyansa ay isang sukatan ng katumpakan ng mga sukat. Ang pagkakamali sa kumpiyansa ay isang posibleng pagkakamali sa mga resulta ng pag-aaral. Halimbawa, na may pangkalahatang populasyon na higit sa 500,00 katao (halimbawa, nakatira sa Novokuznetsk), ang sample ay magiging 384 katao na may antas ng kumpiyansa na 95% at isang error na 5% O (na may pagitan ng kumpiyansa na 95 ± 5%).

Ano ang kasunod nito? Kapag nagsasagawa ng 100 pag-aaral na may tulad na sample (384 na tao), sa 95 porsiyento ng mga kaso, ang mga sagot na natanggap, ayon sa mga batas ng istatistika, ay nasa loob ng ± 5% ng orihinal. At kukuha kami ng kinatawan na sample na may pinakamababang posibilidad ng statistical error.

Matapos magawa ang pagkalkula ng laki ng sample, makikita mo kung may sapat na mga tumugon sa demo na bersyon ng Questionnaire Panel. Maaari kang matuto nang higit pa tungkol sa kung paano magsagawa ng panel survey.

Portal para sa mag-aaral. Pagsasanay sa sarili

Mga halimbawang hakbang sa disenyo

Mga uri ng sampling plan (sampling)

Mga mapagpasyang pagpili

Mga sample na hindi kinatawan (convenience).

Mga sinadyang pagpili

Mga sample ng quota

Pananaliksik Window: Brilliant! Ngunit sino ang magbabasa nito?

Mga sample ng posibilidad

Simpleng random sampling

Populasyon

Nagmula sa populasyon

Halimbawang ibig sabihin at pangkalahatang ibig sabihin

Central limit theorem

Buod

Layunin ng pagkatuto 1 Malinaw na matukoy ang pagkakaiba sa pagitan ng mga konsepto ng census (kwalipikasyon) at sampling

Layunin ng pagkatuto 2 Alamin ang kakanyahan at pagkakasunud-sunod ng anim na yugto na ipinatupad ng mga mananaliksik upang makakuha ng sample na populasyon

Layunin ng pagkatuto 3 Tukuyin ang konsepto ng "sampling frame"

Layunin ng pagkatuto 4 Ipaliwanag ang pagkakaiba sa pagitan ng probabilistic at deterministic sampling

Layunin ng pagkatuto 5 Tukuyin ang pagkakaiba sa pagitan ng fixed size sampling at multi-stage (sunsecutive) sampling

Layunin ng pagkatuto 6 Ipaliwanag kung ano ang sinasadyang sampling at ilarawan ang parehong mga kalakasan at kahinaan nito

Layunin ng pagkatuto 7 Tukuyin ang konsepto ng quota sampling

Layunin ng pagkatuto 8 Ipaliwanag kung ano ang isang parameter sa isang pamamaraan sa pagpili

Layunin ng pagkatuto 9 Ipaliwanag kung ano ang derived set

Layunin ng pagkatuto 10 Ipaliwanag kung bakit ang konsepto ng sampling distribution ang pinakamahalagang konsepto ng statistics.

Pagtitiyak ng mga diskarte

Mga halimbawang pag-aaral

Terminolohiya

Pagtitiyak ng pagiging kinatawan

Sample na katangian

Mga uri

Mga uri

Bukod pa rito

Mga probabilistikong pagpili

Hindi kapani-paniwalang mga pagpipilian

Nuance

Mga bagay na naka-impluwensiya

Pagkakamali

natuklasan

Konklusyon

Pamamaraan ng mga survey na kinatawan

Laki ng sample

Pagkakatawan at Katumpakan

Paglabag sa prinsipyo ng randomness

Bakit imposible ang pagiging kinatawan?

Ano ang isang sample na kinatawan?

Posibilidad ng kumpiyansa at pagkakamali ng kumpiyansa

MGA KAUGNAY NA ARTIKULO

Layunin ng pagkatuto 1
Malinaw na matukoy ang pagkakaiba sa pagitan ng mga konsepto ng census (kwalipikasyon) at sampling

Layunin ng pagkatuto 2
Alamin ang kakanyahan at pagkakasunud-sunod ng anim na yugto na ipinatupad ng mga mananaliksik upang makakuha ng sample na populasyon

Layunin ng pagkatuto 3
Tukuyin ang konsepto ng "sampling frame"

Layunin ng pagkatuto 4
Ipaliwanag ang pagkakaiba sa pagitan ng probabilistic at deterministic sampling

Layunin ng pagkatuto 5
Tukuyin ang pagkakaiba sa pagitan ng fixed size sampling at multi-stage (sunsecutive) sampling

Layunin ng pagkatuto 6
Ipaliwanag kung ano ang sinasadyang sampling at ilarawan ang parehong mga kalakasan at kahinaan nito

Layunin ng pagkatuto 7
Tukuyin ang konsepto ng quota sampling

Layunin ng pagkatuto 8
Ipaliwanag kung ano ang isang parameter sa isang pamamaraan sa pagpili

Layunin ng pagkatuto 9
Ipaliwanag kung ano ang derived set

Layunin ng pagkatuto 10
Ipaliwanag kung bakit ang konsepto ng sampling distribution ang pinakamahalagang konsepto ng statistics.