Ang sample ay maaaring. Isang halimbawa ng sample na hindi kinatawan

Pagtatantya ng pagitan ng posibilidad ng kaganapan. Mga formula para sa pagkalkula ng bilang ng mga sample sa kaso ng isang random na paraan ng pagpili.

Upang matukoy ang mga probabilidad ng mga kaganapan na interesado sa amin, ginagamit namin ang paraan ng sampling: isinasagawa namin n mga independiyenteng eksperimento, sa bawat isa kung saan maaaring mangyari ang A (o hindi mangyari) (probability R ang paglitaw ng kaganapan A sa bawat eksperimento ay pare-pareho). Pagkatapos ay ang relatibong dalas p* ng mga paglitaw ng mga kaganapan PERO sa isang serye ng n Ang mga pagsusulit ay kinuha bilang pagtatantya ng punto para sa posibilidad p paglitaw ng isang pangyayari PERO sa isang hiwalay na pagsubok. Sa kasong ito, ang halagang p* ay tinatawag sample share mga pangyayari PERO, at r - pangkalahatang bahagi .

Sa bisa ng corollary ng central limit theorem (ang Moivre-Laplace theorem), ang relatibong dalas ng isang kaganapan na may malaking sukat ng sample ay maaaring ituring na normal na ipinamamahagi na may mga parameter na M(p*)=p at

Samakatuwid, para sa n>30, ang agwat ng kumpiyansa para sa pangkalahatang fraction ay maaaring itayo gamit ang mga formula:


kung saan matatagpuan ang u cr ayon sa mga talahanayan ng function ng Laplace, na isinasaalang-alang ang ibinigay na probabilidad ng kumpiyansa γ: 2Ф(u cr)=γ.

Sa maliit na laki ng sample n≤30, ang marginal error ε ay tinutukoy mula sa talahanayan ng pamamahagi ng Mag-aaral:
kung saan ang t cr =t(k; α) at ​​ang bilang ng mga antas ng kalayaan k=n-1 probabilidad α=1-γ (two-sided area).

Ang mga formula ay wasto kung ang pagpili ay isinasagawa nang sapalaran sa isang paulit-ulit na paraan (ang pangkalahatang populasyon ay walang katapusan), kung hindi, ito ay kinakailangan upang gumawa ng isang pagwawasto para sa hindi paulit-ulit na pagpili (talahanayan).

Average na sampling error para sa pangkalahatang proporsyon

PopulasyonWalang katapusangultimate volume N
Uri ng pagpiliPaulit-ulithindi nauulit
Average na sampling error

Mga formula para sa pagkalkula ng laki ng sample na may wastong random na paraan ng pagpili

Paraan ng pagpiliMga formula ng sample na laki
para sa gitnapara ibahagi
Paulit-ulit
hindi nauulit
Bahagi ng mga yunit w = . Katumpakan ε = . Probability γ =

Mga problema tungkol sa pangkalahatang bahagi

Sa tanong na "Ang ibinigay ba na halaga ng p 0 ay sumasaklaw sa pagitan ng kumpiyansa?" - masasagot sa pamamagitan ng pagsubok sa istatistikal na hypothesis H 0:p=p 0 . Ipinapalagay na ang mga eksperimento ay isinasagawa ayon sa Bernoulli test scheme (independent, probability p paglitaw ng isang pangyayari PERO pare-pareho). Sa sample ng volume n tukuyin ang relatibong dalas p * ng paglitaw ng kaganapan A: kung saan m- bilang ng mga paglitaw ng kaganapan PERO sa isang serye ng n mga pagsubok. Upang subukan ang hypothesis H 0, ginagamit ang mga istatistika na, na may sapat na laki ng sample, ay may karaniwang normal na distribusyon (Talahanayan 1).
Talahanayan 1 - Mga hypotheses tungkol sa pangkalahatang bahagi

Hypothesis

H0:p=p0H 0:p 1 \u003d p 2
Mga pagpapalagayBernoulli test schemeBernoulli test scheme
Mga sample na pagtatantya
Mga istatistika K
Pamamahagi ng mga istatistika K Karaniwang normal N(0,1)

Halimbawa #1. Gamit ang random re-sampling, nagsagawa ng random survey ang management ng kumpanya sa 900 sa mga empleyado nito. Mayroong 270 kababaihan sa mga respondente. Mag-plot ng agwat ng kumpiyansa na, na may probabilidad na 0.95, ay sumasaklaw sa tunay na proporsyon ng kababaihan sa buong pangkat ng kumpanya.
Desisyon. Ayon sa kundisyon, ang sample na proporsyon ng kababaihan ay (ang relatibong dalas ng kababaihan sa lahat ng mga respondent). Dahil inuulit ang pagpili at malaki ang sample size (n=900), ang marginal sampling error ay tinutukoy ng formula

Ang halaga ng u cr ay matatagpuan mula sa talahanayan ng Laplace function mula sa kaugnayan 2Ф(u cr)=γ, i.e. Ang Laplace function (Appendix 1) ay kumukuha ng value na 0.475 sa u cr =1.96. Samakatuwid, ang marginal error at ang nais na pagitan ng kumpiyansa
(p – ε, p + ε) = (0.3 – 0.18; 0.3 + 0.18) = (0.12; 0.48)
Kaya, na may posibilidad na 0.95, masisiguro na ang proporsyon ng kababaihan sa buong pangkat ng kumpanya ay nasa hanay mula 0.12 hanggang 0.48.

Halimbawa #2. Itinuturing ng may-ari ng paradahan ng sasakyan na "masuwerte" ang araw kung ang paradahan ng sasakyan ay higit sa 80% puno. Sa loob ng taon, 40 inspeksyon sa paradahan ng sasakyan ang isinagawa, kung saan 24 ang "nagtagumpay". Sa probabilidad na 0.98, hanapin ang agwat ng kumpiyansa para sa pagtatantya ng tunay na porsyento ng mga "masuwerteng" araw sa buong taon.
Desisyon. Ang halimbawang bahagi ng "magandang" araw ay
Ayon sa talahanayan ng Laplace function, nakita namin ang halaga ng u cr para sa isang naibigay
antas ng kumpiyansa
Ф(2.23) = 0.49, u cr = 2.33.
Isinasaalang-alang ang pagpili na hindi paulit-ulit (ibig sabihin, dalawang pagsusuri ang hindi isinagawa sa parehong araw), nakita namin ang marginal error:
kung saan n=40 , N = 365 (araw). Mula rito
at confidence interval para sa pangkalahatang fraction: (p – ε, p + ε) = (0.6 – 0.17; 0.6 + 0.17) = (0.43; 0.77)
Sa posibilidad na 0.98, maaaring asahan na ang proporsyon ng "magandang" araw sa taon ay nasa hanay mula 0.43 hanggang 0.77.

Halimbawa #3. Pagkatapos suriin ang 2500 item sa batch, nalaman nilang 400 item ang may pinakamataas na grado, ngunit ang n–m ay hindi. Ilang produkto ang kailangan mong suriin upang matukoy ang bahagi ng premium na grado na may katumpakan na 0.01 na may 95% na katiyakan?
Naghahanap kami ng solusyon ayon sa formula para sa pagtukoy ng laki ng sample para sa muling pagpili.

Ф(t) = γ/2 = 0.95/2 = 0.475 at ayon sa talahanayan ng Laplace ang halagang ito ay tumutugma sa t=1.96
Sample fraction w = 0.16; error sa sampling ε = 0.01

Halimbawa #4. Ang isang batch ng mga produkto ay tinatanggap kung ang posibilidad na matugunan ng produkto ang pamantayan ay hindi bababa sa 0.97. Kabilang sa random na napiling 200 produkto ng nasubok na lote, 193 produkto ang natagpuang nakakatugon sa pamantayan. Posible bang tanggapin ang batch sa antas ng kahalagahan α=0.02?
Desisyon. Binubuo namin ang pangunahing at alternatibong hypotheses.
H 0: p \u003d p 0 \u003d 0.97 - hindi kilalang pangkalahatang bahagi p katumbas ng tinukoy na halaga p 0 =0.97. Kaugnay ng kondisyon - ang posibilidad na ang bahagi mula sa nasubok na lote ay alinsunod sa pamantayan ay 0.97; mga. batch ng mga produkto ay maaaring tanggapin.
H1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Naobserbahang halaga ng istatistika K(talahanayan) kalkulahin para sa mga ibinigay na halaga p 0 =0.97, n=200, m=193


Ang kritikal na halaga ay matatagpuan mula sa talahanayan ng Laplace function mula sa pagkakapantay-pantay


Ayon sa kondisyon α=0.02, kaya F(Kcr)=0.48 at Kcr=2.05. Ang kritikal na rehiyon ay kaliwete, i.e. ay ang pagitan (-∞;-K kp)= (-∞;-2.05). Ang naobserbahang halaga Kobs = -0.415 ay hindi kabilang sa kritikal na rehiyon, samakatuwid, sa antas na ito ng kahalagahan, walang dahilan upang tanggihan ang pangunahing hypothesis. Maaaring tanggapin ang isang batch ng mga produkto.

Halimbawa numero 5. Dalawang pabrika ang gumagawa ng parehong uri ng mga bahagi. Upang masuri ang kanilang kalidad, ang mga sample ay kinuha mula sa mga produkto ng mga pabrika na ito at ang mga sumusunod na resulta ay nakuha. Sa 200 napiling produkto ng unang pabrika, 20 ang may depekto, at sa 300 produkto ng pangalawang pabrika, 15 ang may depekto.
Sa antas ng kabuluhan na 0.025, alamin kung may makabuluhang pagkakaiba sa kalidad ng mga bahagi na ginawa ng mga pabrika na ito.

Ayon sa kondisyon α=0.025, kaya F(Kcr)=0.4875 at Kcr=2.24. Sa pamamagitan ng dalawang panig na alternatibo, ang lugar ng mga tinatanggap na halaga ay may anyo (-2.24; 2.24). Ang naobserbahang halaga Kobs =2.15 ay nasa loob ng pagitan na ito, i.e. sa antas na ito ng kahalagahan, walang dahilan upang tanggihan ang pangunahing hypothesis. Ang mga pabrika ay gumagawa ng mga produkto ng parehong kalidad.

Plano:

1. Mga problema sa mga istatistika ng matematika.

2. Mga uri ng sample.

3. Mga paraan ng pagpili.

4. Statistical distribution ng sample.

5. Empirical distribution function.

6. Polygon at histogram.

7. Mga de-numerong katangian ng serye ng variation.

8. Mga pagtatantya ng istatistika ng mga parameter ng pamamahagi.

9. Mga pagtatantya sa pagitan ng mga parameter ng pamamahagi.

1. Mga gawain at pamamaraan ng mga istatistika ng matematika

Mga istatistika sa matematika ay isang sangay ng matematika na nakatuon sa mga pamamaraan ng pagkolekta, pagsusuri at pagproseso ng mga resulta ng istatistikal na obserbasyonal na data para sa siyentipiko at praktikal na mga layunin.

Hayaang kailanganin na pag-aralan ang isang hanay ng mga homogenous na bagay na may paggalang sa ilang katangian ng husay o dami na nagpapakilala sa mga bagay na ito. Halimbawa, kung mayroong isang batch ng mga bahagi, kung gayon ang pamantayan ng bahagi ay maaaring magsilbi bilang isang tanda ng husay, at ang kinokontrol na sukat ng bahagi ay maaaring magsilbi bilang isang tanda ng dami.

Minsan ang isang tuluy-tuloy na pag-aaral ay isinasagawa, i.e. suriin ang bawat bagay na may paggalang sa nais na tampok. Sa pagsasagawa, ang isang komprehensibong survey ay bihirang ginagamit. Halimbawa, kung ang populasyon ay naglalaman ng napakalaking bilang ng mga bagay, kung gayon imposibleng pisikal na magsagawa ng kumpletong survey. Kung ang survey ng bagay ay nauugnay sa pagkawasak nito o nangangailangan ng malalaking gastos sa materyal, kung gayon walang saysay na magsagawa ng kumpletong survey. Sa ganitong mga kaso, ang isang limitadong bilang ng mga bagay (sample set) ay random na pinili mula sa buong populasyon at sumasailalim sa kanilang pag-aaral.

Ang pangunahing gawain ng mga istatistika ng matematika ay pag-aralan ang buong populasyon batay sa sample na data, depende sa layunin, i.e. ang pag-aaral ng mga probabilistikong katangian ng populasyon: ang batas ng pamamahagi, mga katangian ng numero, atbp. para sa paggawa ng mga desisyon sa pamamahala sa ilalim ng mga kondisyon ng kawalan ng katiyakan.

2. Mga uri ng sample

Populasyon ay ang hanay ng mga bagay kung saan ginawa ang sample.

Sample na populasyon (sample) ay isang koleksyon ng mga random na napiling mga bagay.

Laki ng populasyon ay ang bilang ng mga bagay sa koleksyong ito. Ang dami ng pangkalahatang populasyon ay tinutukoy N, pumipili - n.

Halimbawa:

Kung sa 1000 bahagi 100 bahagi ang napili para sa pagsusuri, kung gayon ang dami ng pangkalahatang populasyon N = 1000, at ang laki ng sample n = 100.

Maaaring gawin ang sampling sa dalawang paraan: pagkatapos mapili ang bagay at maobserbahan sa ibabaw nito, maaari itong ibalik o hindi ibalik sa pangkalahatang populasyon. yun. Ang mga sample ay nahahati sa paulit-ulit at hindi paulit-ulit.

Paulit-ulittinawag sampling, kung saan ang napiling bagay (bago piliin ang susunod) ay ibinalik sa pangkalahatang populasyon.

Hindi nauulittinawag sampling, kung saan ang napiling bagay ay hindi ibinalik sa pangkalahatang populasyon.

Sa pagsasagawa, karaniwang ginagamit ang hindi paulit-ulit na random na pagpili.

Upang ang data ng sample ay makapaghusga nang may sapat na kumpiyansa tungkol sa katangian ng interes sa pangkalahatang populasyon, kinakailangan na ang mga bagay ng sample ay kumakatawan dito nang tama. Ang sample ay dapat na wastong kumakatawan sa mga proporsyon ng populasyon. Ang sample ay dapat na kinatawan (representative).

Sa bisa ng batas ng malalaking numero, maaaring ipagtatalunan na ang sample ay magiging kinatawan kung ito ay isasagawa nang sapalaran.

Kung ang laki ng pangkalahatang populasyon ay sapat na malaki, at ang sample ay isang hindi gaanong mahalagang bahagi ng populasyon na ito, pagkatapos ay ang pagkakaiba sa pagitan ng paulit-ulit at hindi paulit-ulit na mga sample ay mabubura; sa limitadong kaso, kapag ang isang walang katapusang pangkalahatang populasyon ay isinasaalang-alang, at ang sample ay may isang may hangganang laki, ang pagkakaibang ito ay mawawala.

Halimbawa:

Sa American journal Literary Review, gamit ang mga istatistikal na pamamaraan, ang isang pag-aaral ay ginawa ng mga pagtataya tungkol sa kahihinatnan ng paparating na halalan sa pagkapangulo ng US noong 1936. Ang mga aplikante para sa post na ito ay sina F.D. Roosevelt at A. M. Landon. Ang mga sangguniang aklat ng mga subscriber ng telepono ay kinuha bilang isang mapagkukunan para sa pangkalahatang populasyon ng mga pinag-aralan na Amerikano. Sa mga ito, 4 na milyong mga address ang random na napili, kung saan ang mga editor ng magazine ay nagpadala ng mga postkard na humihiling sa kanila na ipahayag ang kanilang saloobin sa mga kandidato para sa pagkapangulo. Matapos iproseso ang mga resulta ng poll, naglathala ang magazine ng isang sociological forecast na mananalo si Landon sa paparating na halalan na may malaking margin. At ... nagkamali ako: nanalo si Roosevelt.
Ang halimbawang ito ay makikita bilang isang halimbawa ng isang hindi kinatawan na sample. Ang katotohanan ay na sa Estados Unidos sa unang kalahati ng ikadalawampu siglo, tanging ang mayamang bahagi ng populasyon, na sumusuporta sa mga pananaw ni Landon, ang may mga telepono.

3. Mga paraan ng pagpili

Sa pagsasagawa, ginagamit ang iba't ibang paraan ng pagpili, na maaaring nahahati sa 2 uri:

1. Ang pagpili ay hindi nangangailangan ng paghahati sa populasyon sa mga bahagi (a) simpleng random walang uulit; b) simpleng random na pag-uulit).

2. Pagpili, kung saan ang pangkalahatang populasyon ay nahahati sa mga bahagi. (a) tipikal na seleksyon; b) mekanikal na pagpili; sa) serye pagpili).

Simpleng random tawag dito pagpili, kung saan ang mga bagay ay kinukuha ng isa-isa mula sa buong pangkalahatang populasyon (random).

Karaniwantinawag pagpili, kung saan ang mga bagay ay pinili hindi mula sa buong pangkalahatang populasyon, ngunit mula sa bawat isa sa mga "karaniwang" bahagi nito. Halimbawa, kung ang isang bahagi ay ginawa sa ilang mga makina, kung gayon ang pagpili ay ginawa hindi mula sa buong hanay ng mga bahagi na ginawa ng lahat ng mga makina, ngunit mula sa mga produkto ng bawat makina nang hiwalay. Ang ganitong pagpili ay ginagamit kapag ang katangiang sinusuri ay kapansin-pansing nagbabago sa iba't ibang "tipikal" na bahagi ng pangkalahatang populasyon.

Mekanikaltinawag pagpili, kung saan ang pangkalahatang populasyon ay "mekanikal" na nahahati sa kasing dami ng mga bagay na isasama sa sample, at isang bagay ang pinipili mula sa bawat pangkat. Halimbawa, kung kailangan mong pumili ng 20% ​​ng mga bahagi na ginawa ng makina, pagkatapos ay pipiliin ang bawat ika-5 bahagi; kung kinakailangan na pumili ng 5% ng mga bahagi - tuwing ika-20, atbp. Minsan ang gayong pagpili ay maaaring hindi matiyak ang isang kinatawan na sample (kung ang bawat ika-20 na lumiliko na roller ay pipiliin, at ang pamutol ay papalitan kaagad pagkatapos ng pagpili, kung gayon ang lahat ng mga roller na nakabukas gamit ang mga blunt cutter ay pipiliin).

Serialtinawag pagpili, kung saan ang mga bagay ay pinili mula sa pangkalahatang populasyon hindi isa-isa, ngunit sa "serye", na sumasailalim sa isang tuluy-tuloy na survey. Halimbawa, kung ang mga produkto ay ginawa ng isang malaking grupo ng mga awtomatikong makina, kung gayon ang mga produkto ng iilang makina lamang ay sasailalim sa patuloy na pagsusuri.

Sa pagsasagawa, ang pinagsamang pagpili ay kadalasang ginagamit, kung saan ang mga pamamaraan sa itaas ay pinagsama.

4. Statistical distribution ng sample

Hayaang kunin ang isang sample mula sa pangkalahatang populasyon, at ang halagang x 1-naobserbahan nang isang beses, x 2 -n 2 beses, ... x k - n k beses. n= n 1 +n 2 +...+n k ang sample size. Mga naobserbahang halagatinawag mga pagpipilian, at ang sequence ay isang variant na nakasulat sa pataas na pagkakasunud-sunod - serye ng pagkakaiba-iba. Bilang ng mga obserbasyontinawag mga frequency (mga ganap na frequency), at ang kanilang kaugnayan sa laki ng sample- kamag-anak na mga frequency o istatistikal na probabilidad.

Kung ang bilang ng mga pagpipilian ay malaki o ang sample ay ginawa mula sa isang tuluy-tuloy na pangkalahatang populasyon, kung gayon ang serye ng pagkakaiba-iba ay pinagsama-sama hindi sa pamamagitan ng mga indibidwal na halaga ng punto, ngunit sa pamamagitan ng mga pagitan ng mga halaga ng pangkalahatang populasyon. Ang nasabing serye ay tinatawag pagitan. Ang mga haba ng mga pagitan ay dapat na pantay.

Ang istatistikal na pamamahagi ng sample tinatawag na isang listahan ng mga opsyon at ang kanilang mga kaukulang frequency o relative frequency.

Ang distribusyon ng istatistika ay maaari ding tukuyin bilang isang pagkakasunud-sunod ng mga agwat at ang kanilang mga kaukulang frequency (ang kabuuan ng mga frequency na nahuhulog sa pagitan ng mga halagang ito)

Ang serye ng pagkakaiba-iba ng punto ng mga frequency ay maaaring katawanin ng isang talahanayan:

x i
x 1
x2

x k
n i
n 1
n 2

nk

Katulad nito, ang isa ay maaaring kumatawan sa isang point variational series ng mga relatibong frequency.

At:

Halimbawa:

Ang bilang ng mga titik sa ilang tekstong X ay naging katumbas ng 1000. Ang unang titik ay "i", ang pangalawa - ang titik "i", ang pangatlo - ang titik "a", ang ikaapat - "u". Pagkatapos ay dumating ang mga titik na "o", "e", "y", "e", "s".

Isulat natin ang mga lugar na kanilang inookupahan sa alpabeto, ayon sa pagkakabanggit, mayroon tayo: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Pagkatapos i-order ang mga numerong ito sa pataas na pagkakasunud-sunod, nakakakuha kami ng serye ng variation: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Ang mga frequency ng paglitaw ng mga titik sa teksto: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7," ako "- 22.

Bumubuo kami ng isang point variational series ng mga frequency:

Halimbawa:

Tinukoy ang distribusyon ng dalas ng sampling ng volume n = 20.

Gumawa ng isang point variation series ng mga relatibong frequency.

x i

2

6

12

n i

3

10

7

Desisyon:

Hanapin ang mga relatibong frequency:


x i

2

6

12

w i

0,15

0,5

0,35

Kapag gumagawa ng pamamahagi ng agwat, may mga panuntunan para sa pagpili ng bilang ng mga agwat o ang laki ng bawat agwat. Ang pamantayan dito ay ang pinakamainam na ratio: na may pagtaas sa bilang ng mga agwat, ang pagiging kinatawan ay nagpapabuti, ngunit ang dami ng data at ang oras para sa pagproseso ng mga ito ay tumataas. Pagkakaiba x max - x min sa pagitan ng pinakamalaki at pinakamaliit na value ay tinatawag na variant sa malaking sukat mga sample.

Upang mabilang ang bilang ng mga pagitan k karaniwang ginagamit ang empirical formula ng Sturgess (nagpapahiwatig ng pag-ikot sa pinakamalapit na maginhawang integer): k = 1 + 3.322 log n .

Alinsunod dito, ang halaga ng bawat pagitan h maaaring kalkulahin gamit ang formula:

5. Empirical distribution function

Isaalang-alang ang ilang sample mula sa pangkalahatang populasyon. Hayaang malaman ang istatistikal na distribusyon ng mga frequency ng quantitative attribute X. Ipakilala natin ang notasyon: n xay ang bilang ng mga obserbasyon kung saan naobserbahan ang isang feature value na mas mababa sa x; n ay ang kabuuang bilang ng mga obserbasyon (sample size). Kaugnay na dalas ng kaganapan X<х равна n x /n . Kung nagbabago ang x, nagbabago rin ang relatibong dalas, i.e. relatibong dalasn x /nay isang function ng x. kasi ito ay matatagpuan empirically, ito ay tinatawag na empirical.

Empirical distribution function (sample distribution function) tawagan ang function, na tumutukoy para sa bawat x ang relatibong dalas ng kaganapan X<х.


kung saan ang bilang ng mga opsyon ay mas mababa sa x,

n - laki ng sample.

Hindi tulad ng empirical distribution function ng sample, ang distribution function na F(x) ng populasyon ay tinatawag theoretical distribution function.

Ang pagkakaiba sa pagitan ng empirical at theoretical distribution function ay ang theoretical function na F (x) ay tumutukoy sa probabilidad ng isang event X F*(x) may posibilidad sa probabilidad na F (x) ng kaganapang ito. Ibig sabihin, para sa malaking n F*(x) at ang F(x) ay may kaunting pagkakaiba sa isa't isa.

yun. ipinapayong gamitin ang empirical distribution function ng sample para sa tinatayang representasyon ng theoretical (integral) distribution function ng pangkalahatang populasyon.

F*(x) mayroong lahat ng mga katangian F(x).

1. Mga pagpapahalaga F*(x) nabibilang sa pagitan.

2. Ang F*(x) ay isang hindi bumababa na function.

3. Kung ang pinakamaliit na variant, ang F*(x) = 0, sa x < x1; kung x k ang pinakamalaking variant, F*(x) = 1, para sa x > x k .

Yung. F*(x) nagsisilbing tantiyahin ang F(x).

Kung ang sample ay ibinigay ng isang variational series, ang empirical function ay may anyo:

Ang graph ng empirical function ay tinatawag na cumulative.

Halimbawa:

I-plot ang isang empirical function sa ibinigay na sample distribution.


Desisyon:

Laki ng sample n = 12 + 18 +30 = 60. Ang pinakamaliit na opsyon ay 2, i.e. sa x < 2. Kaganapan X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0.2 sa 2 < x < 6. Kaganapan X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Dahil x=10 ay ang pinakamalaking opsyon, kung gayon F*(x) = 1 sa x>10. Ang nais na empirical function ay may anyo:

Magtipon:


Ginagawang posible ng cumulate na maunawaan ang impormasyong ipinakita sa graphical, halimbawa, upang masagot ang mga tanong: "Tukuyin ang bilang ng mga obserbasyon kung saan ang halaga ng katangian ay mas mababa sa 6 o hindi bababa sa 6. F*(6) = 0.2 » Pagkatapos ang bilang ng mga obserbasyon kung saan ang halaga ng naobserbahang tampok ay mas mababa sa 6 ay 0.2* n \u003d 0.2 * 60 \u003d 12. Ang bilang ng mga obserbasyon kung saan ang halaga ng naobserbahang tampok ay hindi bababa sa 6 ay (1-0.2) * n \u003d 0.8 * 60 \u003d 48.

Kung ang isang serye ng pagkakaiba-iba ng agwat ay ibinigay, pagkatapos ay upang i-compile ang empirical distribution function, ang mga midpoint ng mga agwat ay matatagpuan at ang empirical distribution function ay nakuha mula sa kanila nang katulad ng point variation series.

6. Polygon at histogram

Para sa kalinawan, ang iba't ibang mga graph ng distribusyon ng istatistika ay binuo: polynomial at histograms

Polygon ng dalas- ito ay isang putol na linya, ang mga segment na nagkokonekta sa mga punto ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), kung saan ang mga opsyon, ay ang mga frequency na naaayon sa kanila.

Polygon ng mga relatibong frequency - ito ay isang putol na linya, ang mga segment kung saan ikinokonekta ang mga punto ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), kung saan ang x i ay mga opsyon, w i ay mga relatibong frequency na naaayon sa kanila.

Halimbawa:

I-plot ang relative frequency polynomial sa ibinigay na sample distribution:

Desisyon:

Sa kaso ng isang tuluy-tuloy na tampok, ipinapayong bumuo ng isang histogram, kung saan ang agwat, na naglalaman ng lahat ng naobserbahang mga halaga ng tampok, ay nahahati sa ilang mga bahagyang agwat ng haba h at para sa bawat bahagyang agwat n i ay matatagpuan - ang kabuuan ng mga variant na frequency na nahuhulog sa i-th interval. (Halimbawa, kapag sinusukat ang taas o timbang ng isang tao, nakikitungo tayo sa tuloy-tuloy na senyales).

Histogram ng dalas- ito ay isang stepped figure, na binubuo ng mga parihaba, ang mga base nito ay bahagyang mga pagitan ng haba h, at ang taas ay katumbas ng ratio (frequency density).

parisukat i-th partial rectangle ay katumbas ng kabuuan ng mga frequency ng variant ng i-th interval, i.e. ang frequency histogram area ay katumbas ng kabuuan ng lahat ng frequency, i.e. laki ng sample.

Halimbawa:

Ang mga resulta ng pagbabago sa boltahe (sa volts) sa electrical network ay ibinibigay. Bumuo ng serye ng variation, bumuo ng polygon at frequency histogram kung ang mga halaga ng boltahe ay ang mga sumusunod: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220 216, 220, 225, 212, 217, 220.

Desisyon:

Gumawa tayo ng serye ng mga variation. Mayroon kaming n = 20, x min =212, x max =232.

Gamitin natin ang formula ng Sturgess upang kalkulahin ang bilang ng mga pagitan.

Ang interval variational series ng mga frequency ay may anyo:


Densidad ng Dalas

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Bumuo tayo ng histogram ng mga frequency:

Bumuo tayo ng polygon ng mga frequency sa pamamagitan ng paghahanap muna ng mga midpoint ng mga pagitan:


Histogram ng mga kamag-anak na frequency tumawag sa isang stepped figure na binubuo ng mga parihaba, ang mga base nito ay bahagyang pagitan ng haba h, at ang taas ay katumbas ng ratio w i/h (relative frequency density).

parisukat Ang i-th partial rectangle ay katumbas ng relatibong dalas ng variant na nahulog sa i-th interval. Yung. ang lugar ng histogram ng mga kamag-anak na frequency ay katumbas ng kabuuan ng lahat ng mga kamag-anak na frequency, i.e. yunit.

7. Mga de-numerong katangian ng serye ng variation

Isaalang-alang ang mga pangunahing katangian ng pangkalahatan at sample na populasyon.

Pangkalahatang sekondarya ay tinatawag na arithmetic mean ng mga halaga ng tampok ng pangkalahatang populasyon.

Para sa iba't ibang value x 1 , x 2 , x 3 , …, x n . tanda ng pangkalahatang populasyon ng volume N mayroon tayo:

Kung ang mga halaga ng katangian ay may kaukulang mga frequency N 1 +N 2 +…+N k =N , kung gayon


sample ibig sabihin ay tinatawag na arithmetic mean ng mga halaga ng tampok ng sample na populasyon.

Kung ang mga halaga ng katangian ay may kaukulang mga frequency n 1 +n 2 +…+n k = n, kung gayon


Halimbawa:

Kalkulahin ang sample mean para sa sample: x 1 = 51.12; x 2 \u003d 51.07; x 3 \u003d 52.95; x 4 \u003d 52.93; x 5 \u003d 51.1; x 6 \u003d 52.98; x 7 \u003d 52.29; x 8 \u003d 51.23; x 9 \u003d 51.07; x10 = 51.04.

Desisyon:

Pangkalahatang pagkakaiba ay tinatawag na arithmetic mean ng squared deviations ng mga halaga ng katangian X ng pangkalahatang populasyon mula sa pangkalahatang average.

Para sa iba't ibang mga halaga x 1 , x 2 , x 3 , …, x N ng tanda ng populasyon ng volume N mayroon tayo:

Kung ang mga halaga ng katangian ay may kaukulang mga frequency N 1 +N 2 +…+N k =N , kung gayon

Pangkalahatang standard deviation (standard) tinatawag na square root ng general variance

Sample na pagkakaiba-iba ay tinatawag na arithmetic mean ng squared deviations ng mga naobserbahang value ng feature mula sa mean value.

Para sa iba't ibang mga halaga x 1 , x 2 , x 3 , ..., x n ng tanda ng sample na populasyon ng volume n mayroon tayo:


Kung ang mga halaga ng katangian ay may kaukulang mga frequency n 1 +n 2 +…+n k = n, kung gayon


Sample na standard deviation (standard) ay tinatawag na square root ng sample variance.


Halimbawa:

Ang sampling set ay ibinibigay ng talahanayan ng pamamahagi. Hanapin ang sample na variance.


Desisyon:

Teorama: Ang pagkakaiba ay katumbas ng pagkakaiba sa pagitan ng mean ng mga parisukat ng mga halaga ng tampok at ang parisukat ng kabuuang mean.

Halimbawa:

Hanapin ang pagkakaiba para sa distribusyon na ito.



Desisyon:

8. Mga pagtatantya ng istatistika ng mga parameter ng pamamahagi

Hayaang pag-aralan ang pangkalahatang populasyon ng ilang sample. Sa kasong ito, posibleng makakuha lamang ng tinatayang halaga ng hindi kilalang parameter na Q, na nagsisilbing pagtatantya nito. Malinaw na ang mga pagtatantya ay maaaring mag-iba mula sa isang sample patungo sa isa pa.

Pagsusuri ng istatistikaQ* ang hindi kilalang parameter ng teoretikal na pamamahagi ay tinatawag na function f, na nakasalalay sa mga sinusunod na halaga ng sample. Ang gawain ng istatistikal na pagtatantya ng hindi kilalang mga parameter mula sa isang sample ay upang makabuo ng naturang function mula sa magagamit na data ng mga istatistikal na obserbasyon, na magbibigay ng pinakatumpak na tinatayang mga halaga ng tunay, hindi alam ng mananaliksik, ang mga halaga ng mga parameter na ito.

Ang mga pagtatantya ng istatistika ay nahahati sa punto at pagitan, depende sa paraan ng pagbibigay ng mga ito (numero o pagitan).

Ang pagtatantya ng punto ay tinatawag na pagtatantya ng istatistika. parameter Q ng theoretical distribution na tinutukoy ng isang value ng parameter Q *=f (x 1 , x 2 , ..., x n), kung saanx 1 , x 2 , ...,xn- ang mga resulta ng mga empirical na obserbasyon sa quantitative attribute X ng isang partikular na sample.

Ang ganitong mga pagtatantya ng parameter na nakuha mula sa iba't ibang mga sample ay kadalasang naiiba sa bawat isa. Ang ganap na pagkakaiba /Q *-Q / ay tinatawag error sa sampling (pagtatantya).

Upang ang mga istatistikal na pagtatantya ay makapagbigay ng maaasahang mga resulta tungkol sa mga tinantyang parameter, kinakailangan na ang mga ito ay walang kinikilingan, mahusay at pare-pareho.

Pagtataya ng Punto, ang mathematical na inaasahan na kung saan ay katumbas (hindi katumbas) sa tinantyang parameter, ay tinatawag hindi inilipat (inilipat). M(Q *)=Q .

Pagkakaiba M( Q *)-Q ang tawag bias o sistematikong pagkakamali. Para sa walang pinapanigan na mga pagtatantya, ang sistematikong error ay 0.

mabisa pagtatasa Q *, na, para sa ibinigay na laki ng sample n, ay may pinakamaliit na posibleng pagkakaiba: D min(n = const ). Ang epektibong estimator ay may pinakamaliit na spread kumpara sa iba pang walang pinapanigan at pare-parehong mga estimator.

Mayamanay tinatawag na tulad ng isang istatistika pagtatasa Q *, na para sa nmay posibilidad sa tinantyang parameter Q , ibig sabihin. na may pagtaas sa laki ng sample n ang pagtatantya ay may posibilidad sa tunay na halaga ng parameter Q.

Ang kinakailangan sa pagkakapare-pareho ay naaayon sa batas ng malalaking numero: mas maraming paunang impormasyon tungkol sa bagay na pinag-aaralan, mas tumpak ang resulta. Kung maliit ang sample size, maaaring humantong sa mga seryosong error ang point estimate ng parameter.

Anuman sample (volumen) maaaring isipin bilang isang ordered setx 1 , x 2 , ...,xn independiyenteng magkaparehong ipinamahagi na mga random na variable.

Sample na paraan para sa iba't ibang sample ng volume n mula sa parehong populasyon ay magkakaiba. Iyon ay, ang sample mean ay maaaring ituring bilang isang random variable, na nangangahulugan na maaari nating pag-usapan ang pamamahagi ng sample mean at ang mga numerical na katangian nito.

Ang sample mean ay nakakatugon sa lahat ng mga kinakailangan na ipinataw sa mga pagtatantya ng istatistika, ibig sabihin. nagbibigay ng walang kinikilingan, mahusay, at pare-parehong pagtatantya ng average ng populasyon.

Mapapatunayan na. Kaya, ang sample na pagkakaiba-iba ay isang bias na pagtatantya ng pangkalahatang pagkakaiba-iba, na nagbibigay dito ng isang underestimated na halaga. Iyon ay, sa isang maliit na sukat ng sample, ito ay magbibigay ng isang sistematikong error. Para sa isang walang pinapanigan, pare-parehong pagtatantya, sapat na upang kunin ang dami, na tinatawag na corrected variance. i.e.

Sa pagsasagawa, upang matantya ang pangkalahatang pagkakaiba, ang itinamang pagkakaiba ay ginagamit kapag n < 30. Sa ibang mga kaso ( n >30) paglihis mula sa halos hindi napapansin. Samakatuwid, para sa malalaking halaga n maaaring mapabayaan ang bias error.

Maaari ding patunayan ng isa na ang kamag-anak na dalasAng n i / n ay isang walang kinikilingan at pare-parehong pagtatantya ng posibilidad P(X=x i ). Empirical distribution function F*(x ) ay isang walang pinapanigan at pare-parehong pagtatantya ng theoretical distribution function F(x)=P(X< x ).

Halimbawa:

Hanapin ang walang pinapanigan na mga pagtatantya ng mean at pagkakaiba mula sa sample na talahanayan.

x i
n i

Desisyon:

Laki ng sample n=20.

Ang walang pinapanigan na pagtatantya ng inaasahan sa matematika ay ang sample mean.


Upang kalkulahin ang walang pinapanigan na pagtatantya ng pagkakaiba, hinahanap muna namin ang sample na pagkakaiba:

Ngayon, hanapin natin ang walang pinapanigan na pagtatantya:

9. Mga pagtatantya sa pagitan ng mga parameter ng pamamahagi

Ang interval ay isang istatistikal na pagtatantya na tinutukoy ng dalawang numerical na halaga - ang mga dulo ng agwat sa ilalim ng pag-aaral.

Numero> 0, kung saan | Q - Q*|< , ay nagpapakilala sa katumpakan ng pagtatantya ng pagitan.

Pinagkakatiwalaantinawag pagitan , na may ibinigay na posibilidadsumasaklaw sa hindi kilalang halaga ng parameter Q . Pagpupuno sa agwat ng kumpiyansa sa hanay ng lahat ng posibleng halaga ng parameter Q tinawag kritikal na lugar. Kung ang kritikal na rehiyon ay matatagpuan sa isang bahagi lamang ng agwat ng kumpiyansa, kung gayon ang agwat ng kumpiyansa ay tinatawag unilateral: left-sided, kung ang kritikal na rehiyon ay umiiral lamang sa kaliwa, at kanang kamay maliban kung nasa kanan. Kung hindi, ang agwat ng kumpiyansa ay tinatawag bilateral.

pagiging maaasahan, o antas ng kumpiyansa, Mga pagtatantya ng Q (gamit ang Q *) pangalanan ang posibilidad na matupad ang sumusunod na hindi pagkakapantay-pantay: | Q - Q*|< .

Kadalasan, ang posibilidad ng kumpiyansa ay itinakda nang maaga (0.95; 0.99; 0.999) at ang kinakailangan ay ipinapataw dito upang maging malapit sa isa.

Probabilitytinawag ang posibilidad ng pagkakamali, o ang antas ng kahalagahan.

Hayaan | Q - Q*|< , pagkatapos. Nangangahulugan ito na may posibilidadito ay maaaring argued na ang tunay na halaga ng parameter Q nabibilang sa pagitan. Ang mas maliit ang paglihis, mas tumpak ang pagtatantya.

Tinatawag ang mga hangganan (mga dulo) ng pagitan ng kumpiyansa mga hangganan ng kumpiyansa, o mga kritikal na hangganan.

Ang mga halaga ng mga hangganan ng agwat ng kumpiyansa ay nakasalalay sa batas ng pamamahagi ng parameter Q*.

Halaga ng paglihiskalahati ng lapad ng confidence interval ay tinatawag katumpakan ng pagtatasa.

Ang mga pamamaraan para sa pagbuo ng mga pagitan ng kumpiyansa ay unang binuo ng Amerikanong istatistika na si Y. Neumann. Katumpakan ng pagtatantya, posibilidad ng kumpiyansa at laki ng sample n magkakaugnay. Samakatuwid, alam ang mga tiyak na halaga ng dalawang dami, maaari mong palaging kalkulahin ang pangatlo.

Paghahanap ng agwat ng kumpiyansa para sa pagtatantya ng inaasahan ng matematika ng isang normal na distribusyon kung alam ang karaniwang paglihis.

Hayaang gumawa ng sample mula sa pangkalahatang populasyon, na napapailalim sa batas ng normal na distribusyon. Hayaang malaman ang pangkalahatang standard deviation, ngunit ang mathematical na inaasahan ng theoretical distribution ay hindi alam a ().

Ang sumusunod na formula ay wasto:

Yung. ayon sa tinukoy na halaga ng paglihisposibleng mahanap kung anong posibilidad ang hindi alam na pangkalahatang ibig sabihin ay kabilang sa pagitan. At vice versa. Makikita mula sa formula na may pagtaas sa laki ng sample at isang nakapirming halaga ng probability ng kumpiyansa, ang halaga- bumababa, i.e. ang katumpakan ng pagtatantya ay nadagdagan. Sa pagtaas ng pagiging maaasahan (probabilidad ng kumpiyansa), ang halaga-tumataas, i.e. bumababa ang katumpakan ng pagtatantya.

Halimbawa:

Bilang resulta ng mga pagsubok, ang mga sumusunod na halaga ay nakuha -25, 34, -20, 10, 21. Alam na sinusunod nila ang normal na batas sa pamamahagi na may karaniwang paglihis ng 2. Hanapin ang pagtatantya a * para sa inaasahan sa matematika a. Mag-plot ng 90% confidence interval para dito.

Desisyon:

Hanapin natin ang walang pinapanigan na pagtatantya

Pagkatapos


Ang agwat ng kumpiyansa para sa a ay may anyo: 4 - 1.47< a< 4+ 1,47 или 2,53 < a < 5, 47

Paghahanap ng agwat ng kumpiyansa para sa pagtantya ng inaasahan ng matematika ng isang normal na distribusyon kung ang karaniwang paglihis ay hindi alam.

Ipaalam na ang pangkalahatang populasyon ay napapailalim sa batas ng normal na distribusyon, kung saan a at. Katumpakan ng Kumpiyansa Interval Covering na may Pagiging Maaasahanang tunay na halaga ng parameter a, sa kasong ito, ay kinakalkula ng formula:

, kung saan ang n ay ang sample size, , - Koepisyent ng mag-aaral (dapat itong matagpuan mula sa mga ibinigay na halaga n at mula sa talahanayan na "Mga kritikal na punto ng pamamahagi ng Mag-aaral").

Halimbawa:

Bilang resulta ng mga pagsubok, ang mga sumusunod na halaga ay nakuha -35, -32, -26, -35, -30, -17. Nabatid na sinusunod nila ang batas ng normal na pamamahagi. Hanapin ang agwat ng kumpiyansa para sa ibig sabihin ng populasyon na may antas ng kumpiyansa na 0.9.

Desisyon:

Hanapin natin ang walang pinapanigan na pagtatantya.

Hanapin natin.

Pagkatapos

Ang agwat ng kumpiyansa ay kukuha ng anyo(-29.2 - 5.62; -29.2 + 5.62) o (-34.82; -23.58).

Paghahanap ng agwat ng kumpiyansa para sa variance at standard deviation ng isang normal na distribution

Hayaang kunin ang isang random na sample ng volume mula sa ilang pangkalahatang hanay ng mga halaga na ibinahagi ayon sa normal na batasn < 30 kung saan kinakalkula ang mga pagkakaiba-iba ng sample: biasedat naitama ang s 2. Pagkatapos ay upang makahanap ng mga pagtatantya ng agwat na may ibinigay na pagiging maaasahanpara sa pangkalahatang pagpapakalatDpangkalahatang standard deviationang mga sumusunod na formula ay ginagamit.


o,

Mga halaga- hanapin gamit ang talahanayan ng mga halaga ng mga kritikal na puntosMga pamamahagi ng Pearson.

Ang agwat ng kumpiyansa para sa pagkakaiba ay matatagpuan mula sa mga hindi pagkakapantay-pantay na ito sa pamamagitan ng pag-square sa lahat ng bahagi ng hindi pagkakapantay-pantay.

Halimbawa:

Ang kalidad ng 15 bolts ay nasuri. Ipagpalagay na ang error sa kanilang paggawa ay napapailalim sa normal na batas sa pamamahagi, at ang sample na standard deviationkatumbas ng 5 mm, matukoy nang may pagiging maaasahanagwat ng kumpiyansa para sa hindi kilalang parameter

Kinakatawan namin ang mga hangganan ng agwat bilang isang dobleng hindi pagkakapantay-pantay:

Ang mga dulo ng dalawang panig na agwat ng kumpiyansa para sa pagkakaiba ay maaaring matukoy nang hindi nagsasagawa ng mga operasyong aritmetika para sa isang partikular na antas ng kumpiyansa at laki ng sample gamit ang kaukulang talahanayan (Mga hangganan ng mga pagitan ng kumpiyansa para sa pagkakaiba depende sa bilang ng mga antas ng kalayaan at pagiging maaasahan ). Upang gawin ito, ang mga dulo ng pagitan na nakuha mula sa talahanayan ay pinarami ng naitama na pagkakaiba s 2.

Halimbawa:

Solusyonan natin ang nakaraang problema sa ibang paraan.

Desisyon:

Hanapin natin ang itinamang pagkakaiba:

Ayon sa talahanayan na "Mga hangganan ng mga agwat ng kumpiyansa para sa pagkakaiba-iba depende sa bilang ng mga antas ng kalayaan at pagiging maaasahan", makikita namin ang mga hangganan ng agwat ng kumpiyansa para sa pagkakaiba sak=14 at: lower limit 0.513 at upper limit 2.354.

I-multiply ang nakuha na mga hangganan sa pamamagitan ngs 2 at i-extract ang ugat (dahil kailangan natin ng confidence interval hindi para sa variance, ngunit para sa standard deviation).

Tulad ng makikita mula sa mga halimbawa, ang halaga ng agwat ng kumpiyansa ay nakasalalay sa paraan ng pagtatayo nito at nagbibigay ng malapit ngunit magkakaibang mga resulta.

Para sa mga sample na may sapat na laki (n>30) ang mga hangganan ng agwat ng kumpiyansa para sa pangkalahatang karaniwang paglihis ay maaaring matukoy ng formula: - ilang numero, na naka-tabulate at ibinigay sa kaukulang reference table.

kung 1- q<1, то формула имеет вид:

Halimbawa:

Solusyonan natin ang nakaraang problema sa ikatlong paraan.

Desisyon:

Nahanap na datis= 5,17. q(0.95; 15) = 0.46 - nakita namin ayon sa talahanayan.

Pagkatapos:

Madalas na nangyayari na kinakailangan upang pag-aralan ang isang partikular na kababalaghan sa lipunan at makakuha ng impormasyon tungkol dito. Ang ganitong mga gawain ay madalas na lumitaw sa mga istatistika at sa istatistikal na pananaliksik. Ang pagpapatunay ng isang ganap na tinukoy na kababalaghang panlipunan ay kadalasang imposible. Halimbawa, paano malalaman ang opinyon ng populasyon o lahat ng residente ng isang partikular na lungsod sa anumang isyu? Ang pagtatanong ng ganap sa lahat ay halos imposible at napakahirap. Sa ganitong mga kaso, kailangan namin ng sample. Ito mismo ang konsepto kung saan nakabatay ang halos lahat ng pananaliksik at pagsusuri.

Ano ang isang sample

Kapag sinusuri ang isang partikular na kababalaghan sa lipunan, kinakailangan upang makakuha ng impormasyon tungkol dito. Kung kukuha tayo ng anumang pag-aaral, makikita natin na hindi lahat ng yunit ng kabuuan ng object ng pag-aaral ay napapailalim sa pananaliksik at pagsusuri. Isinasaalang-alang lamang ang isang tiyak na bahagi ng kabuuang ito. Ang prosesong ito ay sampling: kapag ang ilang partikular na unit lang mula sa set ang sinusuri.

Siyempre, marami ang nakasalalay sa uri ng sample. Ngunit mayroon ding mga pangunahing patakaran. Ang pangunahing isa ay nagsasabi na ang pagpili mula sa populasyon ay dapat na ganap na random. Ang mga yunit ng populasyon na gagamitin ay hindi dapat piliin dahil sa anumang pamantayan. Sa halos pagsasalita, kung kinakailangan upang mangolekta ng isang populasyon mula sa populasyon ng isang tiyak na lungsod at pumili lamang ng mga lalaki, pagkatapos ay magkakaroon ng pagkakamali sa pag-aaral, dahil ang pagpili ay hindi isinagawa nang random, ngunit pinili ayon sa kasarian. Halos lahat ng paraan ng sampling ay nakabatay sa panuntunang ito.

Mga panuntunan sa pag-sample

Upang maipakita ng napiling hanay ang mga pangunahing katangian ng buong kababalaghan, dapat itong itayo ayon sa mga tukoy na batas, kung saan ang pangunahing pansin ay dapat bayaran sa mga sumusunod na kategorya:

  • sample (sample na populasyon);
  • pangkalahatang populasyon;
  • pagiging kinatawan;
  • error sa pagiging kinatawan;
  • yunit ng populasyon;
  • pamamaraan ng sampling.

Ang mga tampok ng selective observation at sampling ay ang mga sumusunod:

  1. Ang lahat ng mga resulta na nakuha ay batay sa mga batas at tuntunin sa matematika, iyon ay, sa tamang pagsasagawa ng pag-aaral at sa tamang mga kalkulasyon, ang mga resulta ay hindi mababaluktot sa isang subjective na batayan
  2. Ginagawa nitong posible na makakuha ng resulta nang mas mabilis at may kaunting oras at mapagkukunan, hindi pinag-aaralan ang buong hanay ng mga kaganapan, ngunit isang bahagi lamang ng mga ito.
  3. Maaari itong magamit upang pag-aralan ang iba't ibang mga bagay: mula sa mga partikular na isyu, halimbawa, edad, kasarian ng pangkat ng interes sa amin, sa pag-aaral ng opinyon ng publiko o ang antas ng materyal na suporta ng populasyon.

Selective observation

Selective - ito ay isang istatistikal na obserbasyon kung saan hindi ang buong populasyon ng pinag-aralan ang sumasailalim sa pananaliksik, ngunit ang ilang bahagi lamang nito, pinili sa isang tiyak na paraan, at ang mga resulta ng pag-aaral ng bahaging ito ay nalalapat sa buong populasyon. Ang bahaging ito ay tinatawag na sampling frame. Ito ang tanging paraan upang pag-aralan ang isang malaking hanay ng bagay ng pag-aaral.

Ngunit ang selective observation ay magagamit lamang sa mga kaso kung saan kinakailangan na pag-aralan lamang ang isang maliit na grupo ng mga yunit. Halimbawa, kapag pinag-aaralan ang ratio ng mga lalaki sa babae sa mundo, gagamitin ang selective observation. Para sa mga malinaw na kadahilanan, imposibleng isaalang-alang ang bawat naninirahan sa ating planeta.

Ngunit sa parehong pag-aaral, ngunit hindi ng lahat ng mga naninirahan sa mundo, ngunit ng isang tiyak na 2 "A" na klase sa isang partikular na paaralan, isang tiyak na lungsod, isang tiyak na bansa, ang pumipili na pagmamasid ay maaaring ibigay. Pagkatapos ng lahat, medyo posible na pag-aralan ang buong hanay ng bagay ng pag-aaral. Kinakailangang bilangin ang mga lalaki at babae ng klase na ito - iyon ang magiging ratio.

Sample at populasyon

Sa totoo lang, hindi ito kasing hirap. Sa anumang bagay ng pag-aaral mayroong dalawang sistema: pangkalahatan at sample na populasyon. Ano ito? Ang lahat ng mga yunit ay nabibilang sa pangkalahatan. At sa sample - ang mga yunit ng kabuuang populasyon na kinuha para sa sample. Kung ang lahat ay tapos na nang tama, kung gayon ang napiling bahagi ay isang pinababang layout ng buong (pangkalahatang) populasyon.

Kung pinag-uusapan natin ang pangkalahatang populasyon, maaari nating makilala ang dalawa lamang sa mga uri nito: tiyak at hindi tiyak na pangkalahatang populasyon. Depende sa kung ang kabuuang bilang ng mga yunit ng isang ibinigay na sistema ay kilala o hindi. Kung ito ay isang tiyak na populasyon, kung gayon ang sampling ay magiging mas madali dahil sa ang katunayan na ito ay kilala kung anong porsyento ng kabuuang bilang ng mga yunit ang sasampolan.

Ang sandaling ito ay lubhang kailangan sa pananaliksik. Halimbawa, kung kinakailangan upang siyasatin ang porsyento ng mababang kalidad na mga produkto ng kendi sa isang partikular na halaman. Ipagpalagay na ang populasyon ay natukoy na. Ito ay tiyak na kilala na ang negosyong ito ay gumagawa ng 1000 mga produkto ng confectionery bawat taon. Kung gumawa kami ng isang sample ng 100 random na mga produkto ng confectionery mula sa libong ito at ipadala ang mga ito para sa pagsusuri, kung gayon ang error ay magiging minimal. Sa halos pagsasalita, 10% ng lahat ng mga produkto ay sumailalim sa pagsasaliksik, at batay sa mga resulta, na isinasaalang-alang ang error sa pagiging representatibo, maaari nating pag-usapan ang mahinang kalidad ng lahat ng mga produkto.

At kung gumawa ka ng isang sample ng 100 mga produkto ng confectionery mula sa isang hindi tiyak na pangkalahatang populasyon, kung saan mayroon talagang, sabihin, 1 milyong mga yunit, kung gayon ang resulta ng sample at ang pag-aaral mismo ay magiging kritikal na hindi kapani-paniwala at hindi tumpak. Pakiramdaman ang pagkakaiba? Samakatuwid, ang katiyakan ng pangkalahatang populasyon sa karamihan ng mga kaso ay lubhang mahalaga at lubos na nakakaapekto sa resulta ng pag-aaral.

Pagkakatawan ng populasyon

Kaya, ngayon isa sa mga pinakamahalagang tanong - ano ang dapat na sample? Ito ang pinakamahalagang punto ng pag-aaral. Sa yugtong ito, kinakailangan upang kalkulahin ang sample at piliin ang mga yunit mula sa kabuuang bilang dito. Napili nang tama ang populasyon kung mananatili sa sample ang ilang partikular na katangian at katangian ng pangkalahatang populasyon. Ito ay tinatawag na representasyon.

Sa madaling salita, kung, pagkatapos ng pagpili, ang isang bahagi ay nagpapanatili ng parehong mga tendensya at katangian bilang ang buong dami ng napagmasdan, kung gayon ang naturang populasyon ay tinatawag na kinatawan. Ngunit hindi lahat ng partikular na sample ay maaaring piliin mula sa isang kinatawan ng populasyon. Mayroon ding mga naturang bagay ng pananaliksik, ang sample na hindi maaaring maging kinatawan. Dito nagmula ang konsepto ng error sa representasyon. Ngunit pag-usapan natin ito nang kaunti pa.

Paano gumawa ng pagpili

Kaya, upang ma-maximize ang pagiging kinatawan, mayroong tatlong pangunahing panuntunan sa pag-sample:


Error (error) ng pagiging kinatawan

Ang pangunahing katangian ng kalidad ng napiling sample ay ang konsepto ng "representativeness error". Ano ito? Ang mga ito ay ilang mga pagkakaiba sa pagitan ng mga tagapagpahiwatig ng pumipili at patuloy na pagmamasid. Ayon sa mga tagapagpahiwatig ng error, ang pagiging kinatawan ay nahahati sa maaasahan, karaniwan at tinatayang. Sa madaling salita, ang mga paglihis ng hanggang 3%, mula 3 hanggang 10% at mula 10 hanggang 20%, ayon sa pagkakabanggit, ay katanggap-tanggap. Bagaman sa mga istatistika ay kanais-nais na ang error ay hindi lalampas sa 5-6%. Kung hindi, may dahilan para pag-usapan ang hindi sapat na representasyon ng sample. Upang kalkulahin ang error sa representasyon at kung paano ito nakakaapekto sa isang sample o populasyon, maraming mga salik ang isinasaalang-alang:

  1. Ang posibilidad na makakuha ng tumpak na resulta.
  2. Bilang ng mga sampling unit. Tulad ng nabanggit kanina, mas maliit ang bilang ng mga unit sa sample, mas malaki ang magiging representasyon ng error, at kabaliktaran.
  3. Pagkakapantay-pantay ng populasyon ng pag-aaral. Kung mas magkakaiba ang populasyon, mas malaki ang magiging error sa representasyon. Ang kakayahan ng isang populasyon na maging kinatawan ay depende sa homogeneity ng lahat ng mga constituent unit nito.
  4. Isang paraan ng pagpili ng mga yunit sa isang sample na populasyon.

Sa mga partikular na pag-aaral, ang porsyento ng error ng mean ay karaniwang itinatakda ng mismong mananaliksik, batay sa programa ng pagmamasid at ayon sa datos mula sa mga nakaraang pag-aaral. Bilang isang patakaran, ang marginal sampling error (error of representativeness) sa loob ng 3-5% ay itinuturing na katanggap-tanggap.

Higit pa ay hindi palaging mas mahusay

Ito rin ay nagkakahalaga ng pag-alala na ang pangunahing bagay sa pag-aayos ng pumipili na pagmamasid ay upang dalhin ang dami nito sa isang katanggap-tanggap na minimum. Kasabay nito, hindi dapat magsikap na labis na bawasan ang mga limitasyon ng error sa sampling, dahil maaari itong humantong sa isang hindi makatarungang pagtaas sa dami ng sample na data at, dahil dito, sa pagtaas ng halaga ng sampling.

Kasabay nito, ang laki ng error sa pagiging representatibo ay hindi dapat labis na tumaas. Pagkatapos ng lahat, sa kasong ito, kahit na magkakaroon ng pagbawas sa laki ng sample, ito ay hahantong sa isang pagkasira sa pagiging maaasahan ng mga resulta na nakuha.

Anong mga katanungan ang karaniwang itinatanong ng mananaliksik?

Anumang pananaliksik, kung isinasagawa, ay para sa ilang layunin at upang makakuha ng ilang mga resulta. Kapag nagsasagawa ng sample na survey, bilang panuntunan, ang mga unang tanong ay:


Mga pamamaraan para sa pagpili ng mga yunit ng pananaliksik sa sample

Hindi lahat ng sample ay kinatawan. Minsan ang isa at ang parehong tanda ay naiiba na ipinahayag sa kabuuan at sa bahagi nito. Upang makamit ang mga kinakailangan ng pagiging kinatawan, ipinapayong gumamit ng iba't ibang paraan ng sampling. Bukod dito, ang paggamit ng isang paraan o iba ay depende sa mga partikular na pangyayari. Ang ilan sa mga pamamaraan ng sampling na ito ay kinabibilangan ng:

  • random na pagpili;
  • mekanikal na pagpili;
  • tipikal na pagpili;
  • serial (nested) na pagpili.

Ang random na pagpili ay isang sistema ng mga aktibidad na naglalayong random na pagpili ng mga yunit ng populasyon, kapag ang posibilidad na mapabilang sa sample ay pantay para sa lahat ng mga yunit ng pangkalahatang populasyon. Ang pamamaraan na ito ay ipinapayong mag-aplay lamang sa kaso ng pagkakapareho at isang maliit na bilang ng mga likas na tampok nito. Kung hindi man, ang ilang mga tampok na katangian ay may panganib na hindi maipakita sa sample. Ang mga tampok ng random na pagpili ay sumasailalim sa lahat ng iba pang paraan ng sampling.

Sa mekanikal na pagpili ng mga yunit ay isinasagawa sa isang tiyak na agwat. Kung kinakailangan na bumuo ng sample ng mga partikular na krimen, posibleng tanggalin ang bawat ika-5, ika-10 o ika-15 na card mula sa lahat ng istatistikal na rekord ng mga naitalang krimen, depende sa kanilang kabuuang bilang at magagamit na mga laki ng sample. Ang kawalan ng pamamaraang ito ay bago ang pagpili ay kinakailangan na magkaroon ng isang kumpletong account ng mga yunit ng populasyon, pagkatapos ay kinakailangan na magsagawa ng isang ranggo, at pagkatapos lamang na posible na mag-sample na may isang tiyak na agwat. Ang pamamaraang ito ay tumatagal ng maraming oras, kaya hindi ito madalas na ginagamit.

Ang tipikal (na-rehiyonal) na pagpili ay isang uri ng sample kung saan ang pangkalahatang populasyon ay nahahati sa mga homogenous na grupo ayon sa isang partikular na katangian. Minsan gumagamit ang mga mananaliksik ng ibang mga termino sa halip na "mga grupo": "mga distrito" at "mga sona". Pagkatapos, mula sa bawat pangkat, ang isang tiyak na bilang ng mga yunit ay random na pinili sa proporsyon sa bahagi ng pangkat sa kabuuang populasyon. Ang isang tipikal na pagpili ay madalas na isinasagawa sa ilang mga yugto.

Ang serial sampling ay isang paraan kung saan ang pagpili ng mga yunit ay isinasagawa sa mga grupo (serye) at lahat ng mga yunit ng napiling grupo (serye) ay sasailalim sa pagsusuri. Ang bentahe ng pamamaraang ito ay kung minsan ay mas mahirap pumili ng mga indibidwal na yunit kaysa sa serye, halimbawa, kapag nag-aaral ng isang taong nagsisilbi ng isang pangungusap. Sa loob ng mga napiling lugar, mga zone, ang pag-aaral ng lahat ng mga yunit nang walang pagbubukod ay inilalapat, halimbawa, ang pag-aaral ng lahat ng mga taong nagsisilbi ng mga pangungusap sa isang partikular na institusyon.

Bahagi ng mga bagay mula sa populasyon na pinili para sa pag-aaral upang makagawa ng konklusyon tungkol sa buong populasyon. Upang ang konklusyon na nakuha sa pamamagitan ng pag-aaral ng sample ay mapalawak sa buong populasyon, ang sample ay dapat magkaroon ng pag-aari ng pagiging kinatawan.

Halimbawang pagiging kinatawan

Ang pag-aari ng sample upang maipakita nang tama ang pangkalahatang populasyon. Ang parehong sample ay maaaring o hindi maaaring kumakatawan sa iba't ibang populasyon.
Halimbawa:

Ang isang sample na ganap na binubuo ng mga Muscovite na nagmamay-ari ng kotse ay hindi kumakatawan sa buong populasyon ng Moscow.

Ang sample ng mga negosyong Ruso na may hanggang 100 empleyado ay hindi kumakatawan sa lahat ng mga negosyo sa Russia.

Ang sample ng mga Muscovite na bumibili sa merkado ay hindi kumakatawan sa gawi sa pagbili ng lahat ng Muscovite.

Kasabay nito, ang mga sample na ito (napapailalim sa iba pang mga kundisyon) ay maaaring ganap na kumakatawan sa mga may-ari ng Muscovite na kotse, maliit at katamtamang laki ng mga negosyong Ruso at mga mamimili na bumibili sa mga merkado, ayon sa pagkakabanggit.

Mahalagang maunawaan na ang pagiging kinatawan ng sample at error sa pag-sample ay magkaibang phenomena. Ang pagiging kinatawan, hindi katulad ng error, ay hindi nakasalalay sa laki ng sample.

Gaano man natin dagdagan ang bilang ng mga na-survey na Muscovites-may-ari ng kotse, hindi namin magagawang katawanin ang lahat ng Muscovite gamit ang sample na ito.

Sampling error (confidence interval)

Ang paglihis ng mga resulta na nakuha sa tulong ng sample na pagmamasid mula sa totoong data ng pangkalahatang populasyon.

Mayroong dalawang uri ng sampling error: istatistika at sistematiko. Ang istatistikal na error ay depende sa laki ng sample. Kung mas malaki ang sample size, mas mababa ito.

Halimbawa:
Para sa isang simpleng random na sample na 400 units, ang maximum na statistical error (na may 95% confidence) ay 5%, para sa sample na 600 units - 4%, para sa sample na 1100 units - 3% .

Ang sistematikong pagkakamali ay nakasalalay sa iba't ibang mga kadahilanan na may patuloy na epekto sa pag-aaral at pinapakiling ang mga resulta ng pag-aaral sa isang tiyak na direksyon.

Halimbawa:
- Ang paggamit ng anumang probability sample ay minamaliit ang proporsyon ng mga taong may mataas na kita na namumuno sa isang aktibong pamumuhay. Nangyayari ito dahil sa ang katunayan na ang mga ganitong tao ay mas mahirap hanapin sa anumang partikular na lugar (halimbawa, sa bahay).

Ang problema ng mga sumasagot na tumangging sagutin ang mga tanong ng palatanungan (ang bahagi ng "mga refusenik" sa Moscow, para sa iba't ibang mga survey, ay mula 50% hanggang 80%)

Sa ilang mga kaso, kapag nalaman ang totoong mga distribusyon, maaaring i-level out ang bias sa pamamagitan ng paglalagay ng mga quota o muling pagtimbang sa data, ngunit sa karamihan ng mga totoong pag-aaral, kahit na ang pagtantya ay maaari itong maging medyo may problema.

Mga uri ng sample

Ang mga sample ay nahahati sa dalawang uri:

probabilistiko

kawalan ng posibilidad

Mga sample ng posibilidad

1.1 Random sampling (simpleng random na pagpili)

Ang ganitong sample ay ipinapalagay ang homogeneity ng pangkalahatang populasyon, ang parehong posibilidad ng pagkakaroon ng lahat ng mga elemento, ang pagkakaroon ng isang kumpletong listahan ng lahat ng mga elemento. Kapag pumipili ng mga elemento, bilang panuntunan, ginagamit ang isang talahanayan ng mga random na numero.
1.2 Mechanical (systematic) sampling

Isang uri ng random na sample, pinagsunod-sunod ayon sa ilang katangian (alphabetical order, numero ng telepono, petsa ng kapanganakan, atbp.). Ang unang elemento ay pinili nang random, pagkatapos ay ang bawat 'k'th elemento ay pinili sa mga dagdag na 'n'. Ang laki ng pangkalahatang populasyon, habang - N=n*k

1.3 Stratified (na-zoned)

Ginagamit ito sa kaso ng heterogeneity ng pangkalahatang populasyon. Ang pangkalahatang populasyon ay nahahati sa mga pangkat (strata). Sa bawat stratum, ang pagpili ay isinasagawa nang random o mekanikal.

1.4 Serial (nested o clustered) sampling

Sa serial sampling, ang mga yunit ng pagpili ay hindi ang mga bagay mismo, ngunit mga grupo (mga kumpol o pugad). Ang mga grupo ay pinili nang random. Ang mga bagay sa loob ng mga grupo ay sinusuri sa lahat.

Hindi kapani-paniwalang Mga Sample

Ang pagpili sa naturang sample ay isinasagawa hindi ayon sa mga prinsipyo ng pagkakataon, ngunit ayon sa subjective na pamantayan - accessibility, typicality, pantay na representasyon, atbp.

quota sampling

Sa una, ang isang tiyak na bilang ng mga grupo ng mga bagay ay inilalaan (halimbawa, mga lalaki na may edad na 20-30 taon, 31-45 taon at 46-60 taon; mga taong may kita na hanggang 30 libong rubles, na may kita na 30 hanggang 60 taon. libong rubles at may kita na higit sa 60 libong rubles ) Para sa bawat pangkat, ang bilang ng mga bagay na susuriin ay tinukoy. Ang bilang ng mga bagay na dapat mahulog sa bawat isa sa mga pangkat ay nakatakda, kadalasan, alinman sa proporsyon sa dating kilalang bahagi ng pangkat sa pangkalahatang populasyon, o pareho para sa bawat pangkat. Sa loob ng mga pangkat, ang mga bagay ay random na pinipili. Ang mga sample ng quota ay madalas na ginagamit sa pananaliksik sa marketing.

Paraan ng Snowball

Ang sample ay itinayo bilang mga sumusunod. Ang bawat respondent, simula sa una, ay hinihiling na makipag-ugnayan sa kanyang mga kaibigan, kasamahan, kakilala na akma sa mga kundisyon sa pagpili at maaaring makilahok sa pag-aaral. Kaya, maliban sa unang hakbang, ang sample ay nabuo na may partisipasyon ng mga bagay ng pag-aaral mismo. Ang pamamaraan ay kadalasang ginagamit kapag kinakailangan upang mahanap at makapanayam ang mga mahirap abutin na grupo ng mga respondent (halimbawa, mga respondent na may mataas na kita, mga respondent na kabilang sa parehong propesyonal na grupo, mga respondent na may ilang mga katulad na libangan / hilig, atbp. )
2.3 Spontaneous sampling

Ang pinaka-naa-access na mga respondent ay polled. Ang mga karaniwang halimbawa ng spontaneous sampling ay ang mga survey sa mga pahayagan/magazine, mga questionnaire na ibinigay sa mga respondent para sa sariling pagkumpleto, karamihan sa mga survey sa Internet. Ang laki at komposisyon ng mga random na sample ay hindi alam nang maaga, at tinutukoy lamang ng isang parameter - ang aktibidad ng mga respondent.
2.4 Sample ng mga tipikal na kaso

Pinipili ang mga unit ng pangkalahatang populasyon na may average (typical) na halaga ng attribute. Pinapataas nito ang problema sa pagpili ng isang tampok at pagtukoy sa karaniwang halaga nito.

Pagpapatupad ng plano ng pananaliksik

Ang yugtong ito, naaalala namin, ay kinabibilangan ng koleksyon ng impormasyon at pagsusuri nito. Ang proseso ng pagpapatupad ng plano sa pagsasaliksik sa marketing ay karaniwang nangangailangan ng pinakamaraming pananaliksik at ito ang pinagmumulan ng pinakamalaking pagkakamali.

Kapag nangongolekta ng data ng istatistika, maraming mga pagkukulang at problema ang lumitaw:

una, maaaring wala sa napagkasunduang lugar ang ilang respondent at kailangan silang makipag-ugnayan muli o palitan;

pangalawa, ang ilang mga sumasagot ay maaaring hindi kooperatiba o magbigay ng mga kampi, sadyang maling mga sagot.

Salamat sa makabagong computing at mga teknolohiya ng telekomunikasyon, ang mga paraan ng pagkolekta ng data ay umuunlad at bumubuti.

Ang ilang mga kumpanya ay nagsasagawa ng mga survey mula sa isang sentro. Sa kasong ito, ang mga propesyonal na tagapanayam ay nakaupo sa mga opisina at nag-dial ng mga random na numero ng telepono. Kung marinig nila ang tugon ng mga tumatawag, tatanungin ng tagapanayam ang taong sumagot ng telepono na sagutin ang ilang mga katanungan. Ang huli ay binabasa mula sa screen ng monitor ng computer at ang mga sagot ng mga respondent ay nai-type sa keyboard. Tinatanggal ng pamamaraang ito ang pangangailangan para sa pag-format at pag-encode ng data, binabawasan ang bilang ng mga error.