Discrete Probability Distribution. Binomial distribution ng isang discrete random variable

Sa kabila ng mga kakaibang pangalan, ang mga karaniwang pamamahagi ay nauugnay sa isa't isa sa medyo intuitive at mga kawili-wiling paraan na ginagawang madaling matandaan ang mga ito at pag-usapan ang tungkol sa kanila nang may kumpiyansa. Ang ilan ay natural na sumusunod, halimbawa, mula sa pamamahagi ng Bernoulli. Oras na para ipakita ang mapa ng mga koneksyong ito.

Ang bawat pamamahagi ay inilalarawan ng isang halimbawa ng distribution density function (DDF). Ang artikulong ito ay tungkol lamang sa mga pamamahagi na ang mga kinalabasan ay − iisang numero. Kaya, pahalang na aksis bawat graph ay isang set ng posibleng mga numero-kalabasan. Vertical - ang posibilidad ng bawat resulta. Ang ilang mga distribusyon ay discrete - ang kanilang mga kinalabasan ay dapat na mga integer, tulad ng 0 o 5. Ang mga ito ay ipinahiwatig ng mga kalat-kalat na linya, isa para sa bawat kinalabasan, na may taas na tumutugma sa posibilidad ng resultang ito. Ang ilan ay tuluy-tuloy, ang kanilang mga kinalabasan ay maaaring tumagal ng anuman numerical value, gaya ng -1.32 o 0.005. Ang mga ito ay ipinapakita bilang mga siksik na kurba na may mga lugar sa ilalim ng mga seksyon ng kurba na nagbibigay ng mga probabilidad. Ang kabuuan ng mga taas ng mga linya at lugar sa ilalim ng mga kurba ay palaging 1.

I-print ito, gupitin sa may tuldok-tuldok na linya, at dalhin ito sa iyong pitaka. Ito ang iyong gabay sa bansa ng mga pamamahagi at kanilang mga kamag-anak.

Bernoulli at uniporme

Natugunan mo na ang pamamahagi ng Bernoulli sa itaas, na may dalawang resulta - mga ulo o buntot. Isipin ito ngayon bilang isang pamamahagi sa 0 at 1, 0 ang mga ulo at 1 ang mga buntot. Tulad ng malinaw na, ang parehong mga resulta ay pantay na malamang, at ito ay makikita sa diagram. Ang Bernoulli PDF ay naglalaman ng dalawang linya parehong taas kumakatawan sa 2 pantay na malamang na mga resulta: 0 at 1, ayon sa pagkakabanggit.

Ang pamamahagi ng Bernoulli ay maaari ding kumatawan sa hindi pantay na mga resulta, tulad ng pag-flip ng maling barya. Kung gayon ang posibilidad ng mga ulo ay hindi 0.5, ngunit ang ilang iba pang halaga p, at ang posibilidad ng mga buntot ay magiging 1-p. Tulad ng maraming iba pang mga distribusyon, ito ay talagang isang buong pamilya ng mga distribusyon na binigyan ng ilang mga parameter, tulad ng p sa itaas. Kapag iniisip mo ang "Bernoulli" - isipin ang tungkol sa "paghagis ng isang (posibleng mali) na barya."

Kaya naman napaka maliit na hakbang bago magpresenta ng distribusyon sa ilang equiprobable na resulta: isang pare-parehong pamamahagi na nailalarawan sa pamamagitan ng isang patag na PDF. Kinakatawan ang tama dais. Ang kanyang mga resulta 1-6 ay pantay na malamang. Maaari itong itakda para sa anumang bilang ng mga kinalabasan n, at maging bilang tuluy-tuloy na pamamahagi.

pagisipan pare-parehong pamamahagi bilang isang "tamang dice".

Binomial at hypergeometric

Ang binomial distribution ay maaaring isipin bilang kabuuan ng mga kinalabasan ng mga bagay na sumusunod sa Bernoulli distribution.

I-flip ang isang matapat na barya ng dalawang beses - ilang beses ito magiging ulo? Ito ay isang numero na sumusunod sa binomial distribution. Ang mga parameter nito ay n, ang bilang ng mga pagsubok, at ang p ay ang posibilidad ng "tagumpay" (sa aming kaso, mga ulo o 1). Ang bawat roll ay isang resulta ng Bernoulli na ipinamahagi, o pagsubok. Gamitin binomial na pamamahagi kapag binibilang ang bilang ng mga tagumpay sa mga bagay tulad ng paghagis ng barya, kung saan ang bawat paghagis ay independiyente sa iba at may parehong posibilidad ng tagumpay.

O isipin ang isang urn na may parehong bilang ng puti at itim na bola. Ipikit ang iyong mga mata, bunutin ang bola, isulat ang kulay nito at ibalik ito. Ulitin. Ilang beses na nabunot ang itim na bola? Ang numerong ito ay sumusunod din sa binomial distribution.

Ito kakaibang sitwasyon ipinakilala namin upang mas madaling maunawaan ang kahulugan ng hypergeometric distribution. Ito ang pamamahagi ng parehong numero, ngunit sa isang sitwasyon kung tayo hindi ibalik ang mga bola. Tiyak na ito pinsan binomial distribution, ngunit hindi pareho, dahil ang posibilidad ng tagumpay ay nagbabago sa bawat bola na iginuhit. Kung ang bilang ng mga bola ay sapat na malaki kumpara sa bilang ng mga draw, kung gayon ang mga pamamahagi na ito ay halos pareho, dahil ang pagkakataon ng tagumpay ay nagbabago nang kaunti sa bawat draw.

Kapag ang isang tao ay nagsasalita tungkol sa pagguhit ng mga bola mula sa mga urn nang hindi bumabalik, halos palaging ligtas na sabihin ang "oo, hypergeometric distribution", dahil sa aking buhay ay wala pa akong nakikilalang sinuman na talagang pupunuin ang mga urn ng mga bola at pagkatapos ay ilabas ito at ibabalik. sila, o kabaliktaran. Wala man lang akong kaibigan na may urn. Mas madalas, ang distribusyon na ito ay dapat lumabas kapag pumipili ng makabuluhang subset ng ilang pangkalahatang populasyon bilang sample.

Tandaan. transl.

Maaaring hindi ito masyadong malinaw dito, ngunit dahil ang tutorial at ang express course para sa mga baguhan, ito ay kinakailangan upang ipaliwanag. Ang populasyon ay isang bagay na gusto nating suriin ayon sa istatistika. Upang matantya, pipili kami ng isang partikular na bahagi (subset) at gagawin ang kinakailangang pagtatantya dito (pagkatapos ang subset na ito ay tinatawag na sample), sa pag-aakalang magiging katulad ang pagtatantya para sa buong populasyon. Ngunit para ito ay maging totoo, ang mga karagdagang paghihigpit ay madalas na kinakailangan sa kahulugan ng isang subset ng sample (o vice versa, mula sa isang kilalang sample, kailangan nating suriin kung ito ay naglalarawan sa populasyon ng sapat na tumpak).

Isang praktikal na halimbawa - kailangan nating pumili ng mga kinatawan mula sa isang kumpanya ng 100 katao upang maglakbay sa E3. Nabatid na 10 katao na ang bumiyahe dito noong nakaraang taon (ngunit walang kinikilala). Gaano karaming minimum ang dapat kunin upang hindi bababa sa isang karanasang kasama ang malamang na nasa grupo? AT kasong ito populasyon- 100, pagpili - 10, mga kinakailangan sa pagpili - kahit isa na nakabiyahe na sa E3.

Ang Wikipedia ay may hindi gaanong nakakatawa ngunit mas praktikal na halimbawa tungkol sa mga may sira na bahagi sa isang batch.

lason

Paano ang bilang ng mga customer na tumatawag hotline sa teknikal na suporta bawat minuto? Ito ay isang kinalabasan na ang pamamahagi ay binomial sa unang tingin, kung isasaalang-alang namin ang bawat segundo bilang isang pagsubok sa Bernoulli, kung saan ang customer ay hindi tumatawag sa (0) o tumatawag sa (1). Ngunit alam na alam ng mga organisasyon ng suplay ng kuryente: kapag nakapatay ang kuryente, maaaring tumawag ang dalawang tao sa isang segundo. o kahit higit sa isang daan ng mga tao. Ang pagpapakita nito bilang 60,000 millisecond na mga pagsubok ay hindi rin nakakatulong - marami pang pagsubok, ang posibilidad ng isang tawag sa bawat millisecond ay mas mababa, kahit na hindi ka magbilang ng dalawa o higit pa sa parehong oras, ngunit, sa teknikal, ito ay hindi pa rin isang Pagsusulit ni Bernoulli. Gayunpaman, gumagana ang lohikal na pangangatwiran sa paglipat sa kawalang-hanggan. Hayaan n pumunta sa infinity at p pumunta sa 0, upang ang np ay pare-pareho. Ito ay tulad ng paghahati sa mas maliit at mas maliliit na bahagi ng oras na may mas kaunting pagkakataon na makatawag. Sa limitasyon, nakukuha namin ang pamamahagi ng Poisson.

Tulad ng binomial distribution, ang Poisson distribution ay isang quantity distribution: ang dami ng beses na may nangyari. Ito ay naparametrize hindi ng probabilidad p at ang bilang ng mga pagsubok n, ngunit sa pamamagitan ng average na intensity λ, na, sa pagkakatulad sa binomial, ay simpleng pare-pareho ang halaga n.p. Ang pamamahagi ng Poisson ay kung ano kailangan tandaan pagdating sa pagbibilang ng mga kaganapan para sa tiyak na oras sa isang palaging ibinigay na intensity.

Kapag may isang bagay tulad ng mga packet na dumarating sa isang router o mga customer na lumilitaw sa isang tindahan o isang bagay na naghihintay sa linya, isipin ang Poisson.

Geometric at negatibong binomial

Mula sa mga simpleng pagsubok Lumilitaw ang Bernoulli ng isa pang pamamahagi. Ilang beses lumalabas ang isang barya bago ito lumabas sa ulo? Ang bilang ng mga buntot ay sumusunod sa isang geometric na pamamahagi. Tulad ng pamamahagi ng Bernoulli, ito ay parametrized ng posibilidad ng isang matagumpay na resulta, p. Hindi ito naparametrize ng bilang n, ang bilang ng mga pagsubok, dahil ang bilang ng mga nabigong pagsubok ay tiyak ang kinalabasan.

Kung ang binomial distribution ay "ilang tagumpay", kung gayon ang geometric distribution ay "Ilang mga pagkabigo bago ang tagumpay?".

Ang negatibong binomial distribution ay isang simpleng generalization ng nauna. Ito ang bilang ng mga pagkabigo bago magkaroon ng r, hindi 1, mga tagumpay. Samakatuwid, ito ay karagdagang parametrized ng r na ito. Minsan ito ay inilalarawan bilang ang bilang ng mga tagumpay bago ang mga pagkabigo. Ngunit, gaya ng sabi ng aking coach sa buhay: "Ikaw ang magpapasya kung ano ang tagumpay at kung ano ang kabiguan", kaya ito ay pareho, kung hindi mo malilimutan na ang posibilidad p ay dapat ding tamang probabilidad tagumpay o kabiguan, ayon sa pagkakabanggit.

Kung kailangan mo ng biro para maibsan ang tensyon, maaari mong banggitin na ang binomial at hypergeometric distribution ay isang halatang pares, ngunit ang geometric at negatibong binomial distribution ay medyo magkapareho, at pagkatapos ay sabihin ang "Well, sino ang tumatawag sa kanilang lahat ng ganoon, ha? ”

Exponential at Weibull

Muli tungkol sa mga tawag sa teknikal na suporta: gaano katagal bago ang susunod na tawag? Ang pamamahagi ng oras ng paghihintay na ito ay tila geometriko, dahil bawat segundo hanggang sa walang tumatawag ay parang isang pagkabigo, hanggang sa pangalawa, hanggang sa tuluyang mangyari ang tawag. Ang bilang ng mga pagkabigo ay tulad ng bilang ng mga segundo hanggang sa walang tumawag, at ito ay halos oras hanggang sa susunod na tawag, ngunit "praktikal" ay hindi sapat para sa amin. Sa ilalim ng linya ay ang oras na ito ay ang kabuuan ng buong segundo, at sa gayon ay hindi posibleng kalkulahin ang paghihintay sa loob ng segundong ito hanggang sa mismong tawag.

Well, tulad ng dati, pumunta kami sa geometric na pamamahagi sa limitasyon, tungkol sa pagbabahagi ng oras - at voila. Nakakakuha kami ng exponential distribution , na tumpak na naglalarawan sa oras bago ang tawag. Ito ay patuloy na pamamahagi, nasa amin ang una, dahil hindi naman sa buong segundo ang kinalabasan. Tulad ng pamamahagi ng Poisson, ito ay naparametrize ng intensity λ.

Echoing ang koneksyon sa pagitan ng binomial at ang geometric, Poisson's "ilang mga kaganapan sa isang oras?" ay nauugnay sa exponential na "gaano katagal bago ang kaganapan?". Kung may mga kaganapan na ang bilang sa bawat yunit ng oras ay sumusunod sa pamamahagi ng Poisson, kung gayon ang oras sa pagitan ng mga ito ay sumusunod sa exponential distribution na may parehong parameter na λ. Ang sulat na ito sa pagitan ng dalawang distribusyon ay dapat tandaan kapag ang alinman ay tinalakay.

Dapat isipin ang exponential distribution kapag iniisip ang tungkol sa "time to event", marahil "time to failure". Sa katunayan, ito ay isang mahalagang sitwasyon kung kaya't mayroong higit pang mga pangkalahatang pamamahagi upang ilarawan ang MTBF, tulad ng pamamahagi ng Weibull. Bagama't naaangkop ang exponential distribution kapag ang wear o failure rate ay, halimbawa, pare-pareho, ang Weibull distribution ay maaaring magmodelo ng tumataas (o bumababa) na rate ng pagkabigo sa paglipas ng panahon. Exponential, sa pangkalahatan, isang espesyal na kaso.

Isipin ang Weibull pagdating sa MTBF.

Normal, lognormal, Student's at chi-square

Ang normal, o Gaussian, na pamamahagi ay marahil ang isa sa pinakamahalaga. Ang hugis ng kampana nito ay agad na nakikilala. Tulad ng , ito ay isang partikular na kakaibang nilalang na nagpapakita ng sarili saanman, kahit na mula sa pinaka panlabas mga simpleng mapagkukunan. Kumuha ng isang hanay ng mga halaga na sumusunod sa parehong pamamahagi - anuman! - at tiklupin ang mga ito. Ang pamamahagi ng kanilang kabuuan ay napapailalim sa (tinatayang) normal na pamamahagi. Ang mas maraming bagay ay summed up, mas malapit ang kanilang kabuuan ay tumutugma sa isang normal na distribusyon (panlinlang: ang distribusyon ng mga termino ay dapat na predictable, maging independyente, ito ay karaniwan lamang). Na ito ay gayon, sa kabila ng orihinal na pamamahagi, ay kamangha-manghang.

Tandaan. transl.

Nagulat ako na ang may-akda ay hindi sumulat tungkol sa pangangailangan para sa isang maihahambing na sukat ng mga summable distribution: kung ang isa ay makabuluhang nangingibabaw sa iba, ito ay magsasama-sama nang labis. At, sa pangkalahatan, hindi kinakailangan ang ganap na pagsasarili sa isa't isa, sapat na ang mahinang pagtitiwala.

Well, malamang para sa mga party, gaya ng isinulat niya.


Ito ay tinatawag na "central limit theorem", at kailangan mong malaman kung ano ito, kung bakit ito tinawag na iyon at kung ano ang ibig sabihin nito, kung hindi man ay agad nilang tatawanan ito.

Sa konteksto nito, ang normal ay nauugnay sa lahat ng distribusyon. Bagaman, karaniwang, ito ay nauugnay sa pamamahagi ng lahat ng mga halaga. Ang kabuuan ng mga pagsubok sa Bernoulli ay sumusunod sa isang binomial na distribusyon at, habang dumarami ang bilang ng mga pagsubok, ang binomial na pamamahagi na ito ay papalapit ng papalapit sa isang normal na distribusyon. Katulad nito, ang pinsan nito ay ang hypergeometric distribution. Ang distribusyon ng Poisson - ang naglilimita na anyo ng binomial - ay lumalapit din sa normal na may pagtaas ng parameter ng intensity.

Ang mga resulta na sumusunod sa isang pamamahagi ng lognormal ay nagbibigay ng mga halaga na ang logarithm ay karaniwang ipinamamahagi. O sa ibang paraan: ang exponent ng isang normal na distributed value ay lognormally distributed. Kung ang mga kabuuan ay karaniwang ipinamamahagi, pagkatapos ay tandaan din na ang mga produkto ay lognormal na ipinamamahagi.

Ang t-distribution ng mag-aaral ay ang batayan ng t-test, na pinag-aaralan ng maraming non-statistician sa ibang larangan. Ito ay ginagamit upang gumawa ng mga pagpapalagay tungkol sa mean ng isang normal na distribusyon at may posibilidad din sa isang normal na distribusyon habang tumataas ang parameter nito. Natatanging tampok Ang t-distribution ay ang mga buntot nito, na mas makapal kaysa sa normal na distribution.

Kung ang fat-tailed na anekdota ay hindi nayanig ang iyong kapitbahay, magpatuloy sa isang medyo nakakatawang kuwento ng beer. Mahigit 100 taon na ang nakalilipas, gumamit ang Guinness ng mga estadistika upang mapabuti ang pagiging mataba nito. Pagkatapos ay nag-imbento si William Seely Gosset ng isang ganap na bago istatistikal na teorya para sa pinabuting paglilinang ng barley. Nakumbinsi ni Gosset ang boss na hindi mauunawaan ng ibang mga brewer kung paano gamitin ang kanyang mga ideya at nakakuha ng pahintulot na i-publish ito, ngunit sa ilalim ng pseudonym na "Estudyante". Karamihan sikat na tagumpay Ang Gosset ay ang mismong t-distribution na ito, na, maaaring sabihin ng isa, ay ipinangalan sa kanya.

Panghuli, ang pamamahagi ng chi-square ay ang distribusyon ng mga kabuuan ng mga parisukat ng mga normal na ipinamamahaging dami. Ang isang chi-square na pagsubok ay binuo sa distribusyon na ito, batay mismo sa kabuuan ng mga squared na pagkakaiba, na dapat ay karaniwang ipinamamahagi.

Gamma at beta

Sa puntong ito, kung pinag-uusapan mo na ang tungkol sa isang bagay na chi-square, ang pag-uusap ay magsisimula nang taimtim. Malamang na nakikipag-usap ka na sa mga tunay na istatistika, at malamang na sulit na yumuko na, dahil maaaring lumitaw ang mga bagay tulad ng pamamahagi ng gamma. Ito ay isang paglalahat at exponential at pamamahagi ng chi-squared. Tulad ng exponential distribution, ginagamit ito para sa mga kumplikadong modelo ng latency. Halimbawa, lumilitaw ang pamamahagi ng gamma kapag na-simulate ang oras sa susunod na n kaganapan. Lumilitaw ito sa machine learning bilang isang "conjugate prior" sa ilang iba pang mga distribusyon.

Huwag pumasok sa pag-uusap tungkol sa mga conjugate distribution na ito, ngunit kung gagawin mo, huwag kalimutang banggitin ang beta distribution, dahil ito ang conjugate prior ng karamihan sa mga distribution na binanggit dito. Sigurado ang mga data scientist na ito mismo ang ginawa para dito. Banggitin ito nang hindi sinasadya at pumunta sa pintuan.

Ang Simula ng Karunungan

Ang mga pamamahagi ng posibilidad ay isang bagay na hindi mo masyadong alam. Ang tunay na interesado ay maaaring sumangguni sa super-detalyadong mapa na ito ng lahat ng probability distribution Magdagdag ng mga tag

Sa kabila ng kanilang mga kakaibang pangalan, ang mga karaniwang pamamahagi ay nauugnay sa isa't isa sa mga paraan na madaling maunawaan at sapat na kawili-wili upang gawing madaling matandaan at pag-usapan nang may kumpiyansa. Ang ilan ay natural na sumusunod, halimbawa, mula sa pamamahagi ng Bernoulli. Oras na para ipakita ang mapa ng mga koneksyong ito.

Ang bawat pamamahagi ay inilalarawan ng isang halimbawa ng distribution density function (DDF). Ang artikulong ito ay tungkol lamang sa mga pamamahagi na ang mga kinalabasan ay mga solong numero. Samakatuwid, ang pahalang na axis ng bawat graph ay isang hanay ng mga posibleng resulta ng mga numero. Vertical - ang posibilidad ng bawat resulta. Ang ilang mga distribusyon ay discrete - ang kanilang mga kinalabasan ay dapat na mga integer, tulad ng 0 o 5. Ang mga ito ay ipinahiwatig ng mga kalat-kalat na linya, isa para sa bawat kinalabasan, na may taas na tumutugma sa posibilidad ng resultang ito. Ang ilan ay tuluy-tuloy, ang kanilang mga kinalabasan ay maaaring tumagal sa anumang numerical na halaga, gaya ng -1.32 o 0.005. Ang mga ito ay ipinapakita bilang mga siksik na kurba na may mga lugar sa ilalim ng mga seksyon ng kurba na nagbibigay ng mga probabilidad. Ang kabuuan ng mga taas ng mga linya at lugar sa ilalim ng mga kurba ay palaging 1.

I-print ito, gupitin sa may tuldok-tuldok na linya, at dalhin ito sa iyong pitaka. Ito ang iyong gabay sa bansa ng mga pamamahagi at kanilang mga kamag-anak.

Bernoulli at uniporme

Natugunan mo na ang pamamahagi ng Bernoulli sa itaas, na may dalawang resulta - mga ulo o buntot. Isipin ito ngayon bilang isang pamamahagi sa 0 at 1, 0 ang mga ulo at 1 ang mga buntot. Tulad ng malinaw na, ang parehong mga resulta ay pantay na malamang, at ito ay makikita sa diagram. Ang Bernoulli FPR ay naglalaman ng dalawang linya ng parehong taas, na kumakatawan sa 2 pantay na malamang na mga resulta: 0 at 1, ayon sa pagkakabanggit.

Ang pamamahagi ng Bernoulli ay maaari ding kumatawan sa hindi pantay na mga resulta, tulad ng pag-flip ng maling barya. Kung gayon ang posibilidad ng mga ulo ay hindi 0.5, ngunit ang ilang iba pang halaga p, at ang posibilidad ng mga buntot ay magiging 1-p. Tulad ng maraming iba pang mga distribusyon, ito ay talagang isang buong pamilya ng mga distribusyon na binigyan ng ilang mga parameter, tulad ng p sa itaas. Kapag iniisip mo ang "Bernoulli" - isipin ang tungkol sa "paghagis ng isang (posibleng mali) na barya."

Mula dito ito ay isang napakaliit na hakbang upang kumatawan sa isang pamamahagi sa ilang equiprobable na mga resulta: isang pare-parehong pamamahagi na nailalarawan sa pamamagitan ng isang patag na PDF. Isipin ang tamang dice. Ang kanyang mga kinalabasan 1-6 ay pantay na malamang. Maaari itong itakda para sa anumang bilang ng mga kinalabasan n, at maging bilang tuluy-tuloy na pamamahagi.

Isipin ang pantay na pamamahagi bilang isang "tamang dice".

Binomial at hypergeometric

Ang binomial distribution ay maaaring isipin bilang kabuuan ng mga kinalabasan ng mga bagay na sumusunod sa Bernoulli distribution.

I-flip ang isang matapat na barya ng dalawang beses - ilang beses ito magiging ulo? Ito ay isang numero na sumusunod sa binomial distribution. Ang mga parameter nito ay n, ang bilang ng mga pagsubok, at ang p ay ang posibilidad ng "tagumpay" (sa aming kaso, mga ulo o 1). Ang bawat roll ay isang resulta ng Bernoulli na ipinamahagi, o pagsubok. Gamitin ang binomial distribution kapag binibilang ang bilang ng mga tagumpay sa mga bagay tulad ng paghagis ng barya, kung saan ang bawat paghagis ay independiyente sa iba at may parehong posibilidad ng tagumpay.

O isipin ang isang urn na may parehong bilang ng puti at itim na bola. Ipikit ang iyong mga mata, bunutin ang bola, isulat ang kulay nito at ibalik ito. Ulitin. Ilang beses na nabunot ang itim na bola? Ang numerong ito ay sumusunod din sa binomial distribution.

Iniharap namin ang kakaibang sitwasyong ito para mas madaling maunawaan ang kahulugan ng hypergeometric distribution. Ito ang pamamahagi ng parehong numero, ngunit sa isang sitwasyon kung tayo hindi ibalik ang mga bola. Ito ay tiyak na pinsan ng binomial distribution, ngunit hindi pareho, dahil ang posibilidad ng tagumpay ay nagbabago sa bawat bola na iginuhit. Kung ang bilang ng mga bola ay sapat na malaki kumpara sa bilang ng mga draw, kung gayon ang mga pamamahagi na ito ay halos pareho, dahil ang pagkakataon ng tagumpay ay nagbabago nang kaunti sa bawat draw.

Kapag ang isang tao ay nagsasalita tungkol sa pagguhit ng mga bola mula sa mga urn nang hindi bumabalik, halos palaging ligtas na sabihin ang "oo, hypergeometric distribution", dahil sa aking buhay ay wala pa akong nakikilalang sinuman na talagang pupunuin ang mga urn ng mga bola at pagkatapos ay ilabas ito at ibabalik. sila, o kabaliktaran. Wala man lang akong kaibigan na may urn. Mas madalas, ang distribusyon na ito ay dapat lumabas kapag pumipili ng makabuluhang subset ng ilang pangkalahatang populasyon bilang sample.

Tandaan. transl.

Maaaring hindi ito masyadong malinaw dito, ngunit dahil ang tutorial at ang express course para sa mga baguhan, ito ay kinakailangan upang ipaliwanag. Ang populasyon ay isang bagay na gusto nating suriin ayon sa istatistika. Upang matantya, pipili kami ng isang partikular na bahagi (subset) at gagawin ang kinakailangang pagtatantya dito (pagkatapos ang subset na ito ay tinatawag na sample), sa pag-aakalang magiging katulad ang pagtatantya para sa buong populasyon. Ngunit para ito ay maging totoo, ang mga karagdagang paghihigpit ay madalas na kinakailangan sa kahulugan ng isang subset ng sample (o vice versa, mula sa isang kilalang sample, kailangan nating suriin kung ito ay naglalarawan sa populasyon ng sapat na tumpak).

Isang praktikal na halimbawa - kailangan nating pumili ng mga kinatawan mula sa isang kumpanya ng 100 katao upang maglakbay sa E3. Nabatid na 10 katao na ang bumiyahe dito noong nakaraang taon (ngunit walang kinikilala). Gaano karaming minimum ang dapat kunin upang hindi bababa sa isang karanasang kasama ang malamang na nasa grupo? Sa kasong ito, ang populasyon ay 100, ang sample ay 10, at ang mga kinakailangan sa sample ay hindi bababa sa isa na nakasakay na sa E3.

Ang Wikipedia ay may hindi gaanong nakakatawa ngunit mas praktikal na halimbawa tungkol sa mga may sira na bahagi sa isang batch.

lason

Paano naman ang bilang ng mga customer na tumatawag sa hotline ng teknikal na suporta bawat minuto? Ito ay isang kinalabasan na ang pamamahagi ay binomial sa unang tingin, kung isasaalang-alang namin ang bawat segundo bilang isang pagsubok sa Bernoulli, kung saan ang customer ay hindi tumatawag sa (0) o tumatawag sa (1). Ngunit alam na alam ng mga organisasyon ng suplay ng kuryente: kapag nakapatay ang kuryente, maaaring tumawag ang dalawang tao sa isang segundo. o kahit higit sa isang daan ng mga tao. Ang pagpapakita nito bilang 60,000 millisecond na mga pagsubok ay hindi rin nakakatulong - marami pang pagsubok, ang posibilidad ng isang tawag sa bawat millisecond ay mas mababa, kahit na hindi ka magbilang ng dalawa o higit pa sa parehong oras, ngunit, sa teknikal, ito ay hindi pa rin isang Pagsusulit ni Bernoulli. Gayunpaman, gumagana ang lohikal na pangangatwiran sa paglipat sa kawalang-hanggan. Hayaan n pumunta sa infinity at p pumunta sa 0, upang ang np ay pare-pareho. Ito ay tulad ng paghahati sa mas maliit at mas maliliit na bahagi ng oras na may mas kaunting pagkakataon na makatawag. Sa limitasyon, nakukuha namin ang pamamahagi ng Poisson.

Tulad ng binomial distribution, ang Poisson distribution ay isang quantity distribution: ang dami ng beses na may nangyari. Hindi ito naparametrize ng probabilidad p at bilang ng mga pagsubok n, ngunit sa pamamagitan ng average na intensity λ, na, sa pagkakatulad sa binomial, ay isang pare-parehong halaga ng np. Ang pamamahagi ng Poisson ay kung ano kailangan tandaan pagdating sa pagbibilang ng mga kaganapan para sa isang tiyak na oras sa isang pare-parehong ibinigay na intensity.

Kapag may isang bagay tulad ng mga packet na dumarating sa isang router o mga customer na lumilitaw sa isang tindahan o isang bagay na naghihintay sa linya, isipin ang Poisson.

Geometric at negatibong binomial

Mula sa mga simpleng pagsubok sa Bernoulli, lumitaw ang isa pang pamamahagi. Ilang beses lumalabas ang isang barya bago ito lumabas sa ulo? Ang bilang ng mga buntot ay sumusunod sa isang geometric na pamamahagi. Tulad ng pamamahagi ng Bernoulli, ito ay parametrized ng posibilidad ng isang matagumpay na resulta, p. Hindi ito naparametrize ng bilang n, ang bilang ng mga pagsubok, dahil ang bilang ng mga nabigong pagsubok ay tiyak ang kinalabasan.

Kung ang binomial distribution ay "ilang tagumpay", kung gayon ang geometric distribution ay "Ilang mga pagkabigo bago ang tagumpay?".

Ang negatibong binomial distribution ay isang simpleng generalization ng nauna. Ito ang bilang ng mga pagkabigo bago magkaroon ng r, hindi 1, mga tagumpay. Samakatuwid, ito ay karagdagang parametrized ng r na ito. Minsan ito ay inilalarawan bilang ang bilang ng mga tagumpay bago ang mga pagkabigo. Ngunit, gaya ng sabi ng aking coach sa buhay: "Ikaw ang magpapasya kung ano ang tagumpay at kung ano ang kabiguan", kaya ito ay pareho, kung hindi mo malilimutan na ang posibilidad p ay dapat ding ang tamang posibilidad ng tagumpay o kabiguan, ayon sa pagkakabanggit.

Kung kailangan mo ng biro para maibsan ang tensyon, maaari mong banggitin na ang binomial at hypergeometric distribution ay isang halatang pares, ngunit ang geometric at negatibong binomial distribution ay medyo magkapareho, at pagkatapos ay sabihin ang "Well, sino ang tumatawag sa kanilang lahat ng ganoon, ha? ”

Exponential at Weibull

Muli tungkol sa mga tawag sa teknikal na suporta: gaano katagal bago ang susunod na tawag? Ang pamamahagi ng oras ng paghihintay na ito ay tila geometriko, dahil bawat segundo hanggang sa walang tumatawag ay parang isang pagkabigo, hanggang sa pangalawa, hanggang sa tuluyang mangyari ang tawag. Ang bilang ng mga pagkabigo ay tulad ng bilang ng mga segundo hanggang sa walang tumawag, at ito ay halos oras hanggang sa susunod na tawag, ngunit "praktikal" ay hindi sapat para sa amin. Sa ilalim ng linya ay ang oras na ito ay ang kabuuan ng buong segundo, at sa gayon ay hindi posibleng kalkulahin ang paghihintay sa loob ng segundong ito hanggang sa mismong tawag.

Well, tulad ng dati, pumasa kami sa geometric distribution sa limitasyon, na may paggalang sa mga fraction ng oras - at voila. Nakakakuha kami ng exponential distribution , na tumpak na naglalarawan sa oras bago ang tawag. Ito ay isang tuluy-tuloy na pamamahagi, ang una na mayroon kami, dahil ang kinalabasan ay hindi kinakailangan sa buong segundo. Tulad ng pamamahagi ng Poisson, ito ay naparametrize ng intensity λ.

Echoing ang koneksyon sa pagitan ng binomial at ang geometric, Poisson's "ilang mga kaganapan sa isang oras?" ay nauugnay sa exponential na "gaano katagal bago ang kaganapan?". Kung may mga kaganapan na ang bilang sa bawat yunit ng oras ay sumusunod sa pamamahagi ng Poisson, kung gayon ang oras sa pagitan ng mga ito ay sumusunod sa exponential distribution na may parehong parameter na λ. Ang sulat na ito sa pagitan ng dalawang distribusyon ay dapat tandaan kapag ang alinman ay tinalakay.

Dapat isipin ang exponential distribution kapag iniisip ang tungkol sa "time to event", marahil "time to failure". Sa katunayan, ito ay isang mahalagang sitwasyon kung kaya't mayroong higit pang mga pangkalahatang pamamahagi upang ilarawan ang MTBF, tulad ng pamamahagi ng Weibull. Bagama't naaangkop ang exponential distribution kapag ang wear o failure rate ay, halimbawa, pare-pareho, ang Weibull distribution ay maaaring magmodelo ng tumataas (o bumababa) na rate ng pagkabigo sa paglipas ng panahon. Exponential, sa pangkalahatan, isang espesyal na kaso.

Isipin ang Weibull pagdating sa MTBF.

Normal, lognormal, Student's at chi-square

Ang normal, o Gaussian, na pamamahagi ay marahil ang isa sa pinakamahalaga. Ang hugis ng kampana nito ay agad na nakikilala. Tulad ng , ito ay isang partikular na kakaibang nilalang na nagpapakita ng sarili saanman, kahit na mula sa tila pinakasimpleng mga mapagkukunan. Kumuha ng isang hanay ng mga halaga na sumusunod sa parehong pamamahagi - anuman! - at tiklupin ang mga ito. Ang pamamahagi ng kanilang kabuuan ay sumusunod sa isang (tinatayang) normal na pamamahagi. Ang mas maraming bagay ay summed up, mas malapit ang kanilang kabuuan ay tumutugma sa isang normal na distribusyon (panlinlang: ang distribusyon ng mga termino ay dapat na predictable, maging independyente, ito ay karaniwan lamang). Na ito ay gayon, sa kabila ng orihinal na pamamahagi, ay kamangha-manghang.

Tandaan. transl.

Nagulat ako na ang may-akda ay hindi sumulat tungkol sa pangangailangan para sa isang maihahambing na sukat ng mga summable distribution: kung ang isa ay makabuluhang nangingibabaw sa iba, ito ay magsasama-sama nang labis. At, sa pangkalahatan, hindi kinakailangan ang ganap na pagsasarili sa isa't isa, sapat na ang mahinang pagtitiwala.

Well, malamang para sa mga party, gaya ng isinulat niya.


Ito ay tinatawag na "central limit theorem", at kailangan mong malaman kung ano ito, kung bakit ito tinawag na iyon at kung ano ang ibig sabihin nito, kung hindi man ay agad nilang tatawanan ito.

Sa konteksto nito, ang normal ay nauugnay sa lahat ng distribusyon. Bagaman, karaniwang, ito ay nauugnay sa pamamahagi ng lahat ng mga halaga. Ang kabuuan ng mga pagsubok sa Bernoulli ay sumusunod sa isang binomial na distribusyon at, habang dumarami ang bilang ng mga pagsubok, ang binomial na pamamahagi na ito ay papalapit ng papalapit sa isang normal na distribusyon. Katulad nito, ang pinsan nito ay ang hypergeometric distribution. Ang distribusyon ng Poisson - ang naglilimita na anyo ng binomial - ay lumalapit din sa normal na may pagtaas ng parameter ng intensity.

Ang mga resulta na sumusunod sa isang pamamahagi ng lognormal ay nagbibigay ng mga halaga na ang logarithm ay karaniwang ipinamamahagi. O sa ibang paraan: ang exponent ng isang normal na distributed value ay lognormally distributed. Kung ang mga kabuuan ay karaniwang ipinamamahagi, pagkatapos ay tandaan din na ang mga produkto ay lognormal na ipinamamahagi.

Ang t-distribution ng mag-aaral ay ang batayan ng t-test, na pinag-aaralan ng maraming non-statistician sa ibang larangan. Ito ay ginagamit upang gumawa ng mga pagpapalagay tungkol sa mean ng isang normal na distribusyon at may posibilidad din sa isang normal na distribusyon habang tumataas ang parameter nito. Ang isang natatanging katangian ng t-distribution ay ang mga buntot nito, na mas makapal kaysa sa normal na distribution.

Kung ang fat-tailed na anekdota ay hindi nayanig ang iyong kapitbahay, magpatuloy sa isang medyo nakakatawang kuwento ng beer. Mahigit 100 taon na ang nakalilipas, gumamit ang Guinness ng mga estadistika upang mapabuti ang pagiging mataba nito. Noon ay naimbento ni William Seeley Gosset ang isang ganap na bagong istatistikal na teorya para sa pinabuting paglilinang ng barley. Nakumbinsi ni Gosset ang boss na hindi mauunawaan ng ibang mga brewer kung paano gamitin ang kanyang mga ideya at nakakuha ng pahintulot na i-publish ito, ngunit sa ilalim ng pseudonym na "Estudyante". Ang pinakatanyag na tagumpay ni Gosset ay ang mismong t-distribution na ito, na, maaaring sabihin ng isa, ay ipinangalan sa kanya.

Panghuli, ang pamamahagi ng chi-square ay ang distribusyon ng mga kabuuan ng mga parisukat ng mga normal na ipinamamahaging dami. Ang isang chi-square na pagsubok ay binuo sa distribusyon na ito, batay mismo sa kabuuan ng mga squared na pagkakaiba, na dapat ay karaniwang ipinamamahagi.

Gamma at beta

Sa puntong ito, kung pinag-uusapan mo na ang tungkol sa isang bagay na chi-square, ang pag-uusap ay magsisimula nang taimtim. Malamang na nakikipag-usap ka na sa mga tunay na istatistika, at malamang na sulit na yumuko na, dahil maaaring lumitaw ang mga bagay tulad ng pamamahagi ng gamma. Ito ay isang paglalahat at exponential at pamamahagi ng chi-squared. Tulad ng exponential distribution, ginagamit ito para sa mga kumplikadong modelo ng latency. Halimbawa, lumilitaw ang pamamahagi ng gamma kapag na-simulate ang oras sa susunod na n kaganapan. Lumilitaw ito sa machine learning bilang "adjoint prior" sa ilang iba pang distribusyon.

Huwag pumasok sa pag-uusap tungkol sa mga conjugate distribution na ito, ngunit kung gagawin mo, huwag kalimutang banggitin ang beta distribution, dahil ito ang conjugate prior ng karamihan sa mga distribution na binanggit dito. Sigurado ang mga data scientist na ito mismo ang ginawa para dito. Banggitin ito nang hindi sinasadya at pumunta sa pintuan.

Ang Simula ng Karunungan

Ang mga pamamahagi ng posibilidad ay isang bagay na hindi mo masyadong alam. Ang tunay na interesado ay maaaring sumangguni sa super-detalyadong mapa na ito ng lahat ng probability distribution Magdagdag ng mga tag

random na pangyayari ay anumang katotohanan na, bilang resulta ng isang pagsubok, ay maaaring mangyari o hindi. random na pangyayari ay ang resulta ng pagsusulit. Pagsubok- ito ay isang eksperimento, ang katuparan ng isang tiyak na hanay ng mga kondisyon kung saan ito o ang hindi pangkaraniwang bagay na iyon ay sinusunod, ito o ang resulta na iyon ay naayos.

Ang mga kaganapan ay ipinahiwatig ng malalaking titik ng Latin na alpabeto A, B, C.

Ang isang numerical na sukatan ng antas ng objectivity ng posibilidad ng isang kaganapan na nagaganap ay tinatawag ang posibilidad ng isang random na kaganapan.

Klasikong kahulugan mga posibilidad ng kaganapan A:

Ang posibilidad ng isang kaganapan A ay katumbas ng ratio ng bilang ng mga kaso na paborable sa kaganapang A(m) hanggang kabuuang bilang kaso (n).

Depinisyon ng istatistika mga probabilidad

Kaugnay na dalas ng kaganapan ay ang proporsyon ng mga aktwal na nagsagawa ng mga pagsusulit kung saan lumitaw ang kaganapan A W=P*(A)= m/n. Isa itong pang-eksperimentong katangiang pang-eksperimento, kung saan ang m ay ang bilang ng mga eksperimento kung saan lumitaw ang kaganapang A; n ay ang bilang ng lahat ng eksperimento na isinagawa.

Probability ng isang kaganapan ang numero sa paligid kung saan pinagsama-sama ang mga halaga ng dalas ay tinatawag ang kaganapang ito sa iba't ibang serye isang malaking bilang mga pagsubok P(A)=.

Tinatawag ang mga pangyayari hindi magkatugma kung ang paglitaw ng isa sa kanila ay hindi kasama ang hitsura ng isa pa. Kung hindi, ang mga kaganapan magkadugtong.

Sum ang dalawang kaganapan ay isang kaganapan kung saan lumilitaw ang hindi bababa sa isa sa mga kaganapang ito (A o B).

Kung ang A at B magkadugtong mga kaganapan, pagkatapos ang kanilang kabuuan A + B ay tumutukoy sa paglitaw ng kaganapan A o kaganapan B, o parehong mga kaganapan nang magkasama.

Kung ang A at B hindi magkatugma kaganapan, pagkatapos ang kabuuan A + B ay nangangahulugang ang paglitaw ng alinman sa kaganapan A o kaganapan B.

2. Ang konsepto ng dependent at independent na mga pangyayari. Conditional probability, batas (theorem) ng multiplication of probabilities. Formula ng Bayes.

Event B ang tawag malaya mula sa kaganapan A, kung ang paglitaw ng kaganapan A ay hindi nagbabago sa posibilidad ng paglitaw ng kaganapan B. Ang posibilidad ng paglitaw ng ilang malaya Ang mga kaganapan ay katumbas ng produkto ng mga probabilidad ng mga ito:

P(AB) = P(A)*P(B)

Para sa umaasa mga kaganapan:

P(AB) = P(A)*P(B/A).

Ang posibilidad ng produkto ng dalawang kaganapan ay katumbas ng produkto ng posibilidad ng isa sa mga ito sa pamamagitan ng kondisyon na maaaring mangyari isa pa, natagpuan sa ilalim ng pag-aakalang naganap ang unang kaganapan.

Kondisyon na maaaring mangyari Ang kaganapan B ay ang posibilidad ng kaganapan B, na makikita sa ilalim ng kundisyong naganap ang kaganapan A. Itinalagang P(B/A)

Trabaho ang dalawang pangyayari ay isang pangyayaring binubuo ng magkasanib na pangyayari ng mga pangyayaring ito (A at B)

Ginagamit ang formula ng Bayes upang muling suriin ang mga random na kaganapan

P(H/A) = (P(H)*P(A/H))/P(A)

P(H) - isang priori probability ng kaganapan H

Ang P(H/A) ay ang posterior probability ng hypothesis H, sa kondisyon na ang kaganapan A ay nangyari na

P(A/H) – ekspertong paghuhusga

P(A) - buong posibilidad ng kaganapan A

3. Distribusyon ng discrete at tuloy-tuloy na random variable at ang kanilang mga katangian: mathematical expectation, variance, standard deviation. Normal na batas ng pamamahagi ng tuluy-tuloy na random variable.

Random na halaga- ito ang halaga na, bilang resulta ng pagsubok, depende sa kaso, ay tumatagal ng isa sa posibleng hanay ng mga halaga nito.

discrete random na halaga ito ay isang random na variable kapag ito ay tumatagal sa isang hiwalay, hiwalay, mabibilang na hanay ng mga halaga.

Patuloy na random variable ay isang random na variable na kumukuha ng anumang halaga mula sa isang tiyak na agwat. Ang konsepto ng isang tuluy-tuloy na random na variable ay lumalabas sa panahon ng mga pagsukat.

Para sa isang discrete random variable, ang batas ng pamamahagi ay maaaring ibigay sa anyo mga mesa, analytically (bilang isang formula), at graphically.

mesa ito ang pinakasimpleng anyo ng pagtatakda ng batas sa pamamahagi

Mga kinakailangan:

para sa mga discrete random variable

Analytical:

1)F(x)=P(X

Distribution function = pinagsama-samang distribution function. Para sa discrete at tuloy-tuloy na random variable.

2)f(x) = F'(x)

Probability density = differential distribution function para sa tuluy-tuloy na random variable lamang.

Graphic:

S-va: 1) 0≤F(x)≤1

2) hindi bumababa para sa mga discrete random variable

S-va: 1) f(x)≥0 P(x)=

2) lugar S=1

para sa tuluy-tuloy na random variable

Mga katangian:

1. mathematical expectation - ang average na most probable event

Para sa mga discrete random variable.

Para sa tuluy-tuloy na random variable.

2) Dispersion - nakakalat sa paligid ng mathematical na inaasahan

Para sa mga discrete random variable:

D(x)=x i -M(x)) 2 *p i

Para sa tuluy-tuloy na random na mga variable:

D(x)=x-M(x)) 2 *f(x)dx

3) Pamantayang paglihis:

σ(x)=√(D(x))

σ - karaniwang paglihis o pamantayan

x ay ang arithmetic value ng square root ng variance nito

Batas sa normal na pamamahagi (NZR) - Batas ng Gaussian

Ang IRR ay ang probability decay ng isang tuluy-tuloy na random variable, na inilalarawan ng isang differential function

Seksyon 6. Mga karaniwang batas sa pamamahagi at numerical na katangian ng mga random na variable

Ang anyo ng mga function F(x), p(x), o ang enumeration p(x i) ay tinatawag na distribution law ng random variable. Bagama't maaaring isipin ng isang tao ang isang walang katapusang pagkakaiba-iba ng mga random na variable, mayroong mas kaunting mga batas ng pamamahagi. Una, ang iba't ibang mga random na variable ay maaaring magkaroon ng eksaktong parehong mga batas sa pamamahagi. Halimbawa: hayaan ang y na kumuha lamang ng 2 halaga 1 at -1 na may probabilidad na 0.5; ang halaga z = -y ay may eksaktong parehong batas sa pamamahagi.
Pangalawa, madalas na ang mga random na variable ay may magkatulad na mga batas sa pamamahagi, ibig sabihin, halimbawa, ang p(x) para sa kanila ay ipinahayag ng mga formula ng parehong anyo, na naiiba lamang sa isa o higit pang mga constant. Ang mga constant na ito ay tinatawag na mga parameter ng pamamahagi.

Bagama't sa prinsipyo ay posible ang isang malawak na iba't ibang mga batas ng pamamahagi, ang ilan sa mga pinakakaraniwang batas ay isasaalang-alang dito. Mahalagang bigyang-pansin ang mga kondisyon kung saan lumitaw ang mga ito, ang mga parameter at katangian ng mga distribusyon na ito.

isa. Unipormeng pamamahagi
Ito ang pangalan ng pamamahagi ng isang random na variable na maaaring kumuha ng anumang mga halaga sa pagitan (a,b), at ang posibilidad na mahulog sa anumang segment sa loob (a,b) ay proporsyonal sa haba ng segment at ay hindi nakasalalay sa posisyon nito, at ang posibilidad ng mga halaga sa labas (a,b) ay katumbas ng 0.


Fig 6.1 Function at density ng pare-parehong pamamahagi

Mga parameter ng pamamahagi: a , b

2. Normal na pamamahagi
Pamamahagi na may density na inilarawan ng formula

(6.1)

tinatawag na normal.
Mga parameter ng pamamahagi: a , σ


Figure 6.2 Karaniwang view ng density at normal na distribution function

3 . Pamamahagi ng Bernoulli
Kung ang isang serye ng mga independiyenteng pagsubok ay ginawa, sa bawat isa kung saan ang kaganapan A ay maaaring lumitaw na may parehong probabilidad p, kung gayon ang bilang ng mga paglitaw ng kaganapan ay isang random na variable na ibinahagi ayon sa batas ng Bernoulli, o ayon sa binomial na batas (isa pang pangalan ng pamamahagi).

Narito ang n ang bilang ng mga pagsubok sa serye, ang m ay isang random na variable (ang bilang ng mga paglitaw ng kaganapan A), ang P n (m) ay ang posibilidad na ang A ay mangyayari nang eksakto m beses, q \u003d 1 - p (ang posibilidad na ang A ay hindi lilitaw sa pagsusulit).

Halimbawa 1: Ang isang die ay iginulong ng 5 beses, ano ang posibilidad na ang isang 6 ay iginulong ng dalawang beses?
n=5, m=2, p=1/6, q=5/6

Mga parameter ng pamamahagi: n, p

4 . Pamamahagi ng Poisson
Ang distribusyon ng Poisson ay nakuha bilang isang limitadong kaso ng distribusyon ng Bernoulli kung ang p ay nagiging zero at ang n ay may posibilidad na infinity, ngunit sa paraang ang kanilang produkto ay nananatiling pare-pareho: np = a. Sa pormal, ang gayong pagpasa sa limitasyon ay humahantong sa formula

Parameter ng pamamahagi: a

Ang pamamahagi ng Poisson ay napapailalim sa maraming mga random na variable na nakatagpo sa agham at praktikal na buhay.

Halimbawa 2: Bilang ng mga tawag na natanggap sa istasyon ng ambulansya sa isang oras.
Hatiin natin ang agwat ng oras T (1 oras) sa maliliit na pagitan dt, upang ang posibilidad na makatanggap ng dalawa o higit pang mga tawag sa panahon ng dt ay bale-wala, at ang posibilidad ng isang tawag p ay proporsyonal sa dt: p = μdt ;
isasaalang-alang namin ang pagmamasid sa mga sandali ng dt bilang mga independiyenteng pagsubok, ang bilang ng mga naturang pagsubok sa panahong T: n = T / dt;
kung ipagpalagay natin na ang mga probabilidad ng pagtanggap ng mga tawag ay hindi nagbabago sa loob ng isang oras, ang kabuuang bilang ng mga tawag ay sumusunod sa batas ng Bernoulli na may mga parameter: n = T / dt, p = μdt. Hinahayaan ang dt na maging zero, makuha natin na ang n ay may posibilidad na infinity, at ang produkto n × p ay nananatiling pare-pareho: a = n × p = μT.

Halimbawa 3: bilang ng mga ideal na molekula ng gas sa ilang nakapirming dami V.
Hatiin natin ang volume V sa maliliit na volume dV upang ang posibilidad na makahanap ng dalawa o higit pang mga molekula sa dV ay bale-wala, at ang posibilidad na makahanap ng isang molekula ay proporsyonal sa dV: р = μdV; isasaalang-alang namin ang pagmamasid ng bawat volume dV bilang isang independiyenteng pagsubok, ang bilang ng mga naturang pagsubok ay n=V/dV; kung ipagpalagay natin na ang mga probabilidad ng paghahanap ng isang molekula saanman sa loob ng V ay pareho, ang kabuuang bilang ng mga molekula sa volume na V ay sumusunod sa batas ni Bernoulli na may mga parameter: n = V / dV, p = μdV. Hinahayaan ang dV na maging zero, makuha natin na ang n ay may posibilidad na infinity, at ang produkto n × p ay nananatiling pare-pareho: a = n × p = μV.

Mga de-numerong katangian ng mga random na variable

isa. Pag-asa sa matematika (average na halaga)

Kahulugan:
Ang inaasahan sa matematika ay
  (6.4)

Ang kabuuan ay kinuha sa lahat ng mga halaga na kinukuha ng random variable. Ang serye ay dapat na ganap na nagtatagpo (kung hindi, ang random na variable ay sinasabing walang mathematical na inaasahan)

;   (6.5)

Ang integral ay dapat na ganap na convergent (kung hindi, ang random variable ay sinasabing walang inaasahang halaga)


Mga katangian ng inaasahan sa matematika:

a. Kung ang C ay isang pare-parehong halaga, kung gayon ang MC = C
b. Mx = Smx
c. Ang pag-asa sa matematika ng kabuuan ng mga random na variable ay palaging katumbas ng kabuuan ng kanilang mga inaasahan sa matematika: М(х+y) = Мх + Мy d . Ang konsepto ng conditional mathematical expectation ay ipinakilala. Kung ang isang random na variable ay kumukuha ng mga halaga nito x i na may iba't ibang probabilities p(x i /H j) sa ilalim ng iba't ibang kundisyon H j , kung gayon ang conditional expectation ay tinutukoy ng

bilang o ;   (6.6)

Kung alam ang mga probabilidad ng mga pangyayari H j, ang kumpleto

inaasahang halaga: ;   (6.7)

Halimbawa 4: Ilang beses, sa karaniwan, kailangan mong maghagis ng barya bago lumitaw ang unang coat of arms? Ang problemang ito ay maaaring malutas "sa noo"

x i 1 2 3 ... k..
p(x i) :  ,

ngunit ang halagang ito ay kailangan pa ring kalkulahin. Magagawa mo ito nang mas madali, gamit ang mga konsepto ng conditional at full mathematical expectation. Isaalang-alang ang mga hypotheses H 1 - ang coat of arm ay nahulog sa unang pagkakataon, H 2 - hindi ito nahulog sa unang pagkakataon. Malinaw, p (H 1) \u003d p (H 2) \u003d ½; Mx / H 1 \u003d 1;
Ang Mx / H 2 ay 1 higit pa sa ninanais na buong inaasahan, dahil pagkatapos ng unang paghagis ng barya, ang sitwasyon ay hindi nagbago, ngunit sa sandaling ito ay naihagis na. Gamit ang formula ng buong pag-asa sa matematika, mayroon kaming Mx \u003d Mx / H 1 × p (H 1) + Mx / H 2 × p (H 2) \u003d 1 × 0.5 + (Mx + 1) × 0.5, paglutas ang equation para sa Mx, agad naming makuha ang Mx = 2.

e. Kung ang f(x) ay isang function ng isang random variable x, kung gayon ang konsepto ng mathematical expectation ng isang function ng isang random variable ay tinukoy:

Para sa isang discrete random variable: ;   (6.8)

Ang kabuuan ay kinuha sa lahat ng mga halaga na kinukuha ng random variable. Ang serye ay dapat na ganap na magkakaugnay.

Para sa tuluy-tuloy na random na variable: ;   (6.9)

Ang integral ay dapat na ganap na convergent.

2. Pagkakaiba ng isang random na variable
Kahulugan:
Ang dispersion ng random variable x ay ang mathematical expectation ng squared deviation ng value ng quantity mula sa mathematical expectation nito: Dx = M(x-Mx) 2

Para sa isang discrete random variable: ;   (6.10)

Ang kabuuan ay kinuha sa lahat ng mga halaga na kinukuha ng random variable. Ang serye ay dapat na convergent (kung hindi, ang random na variable ay sinasabing walang pagkakaiba)

Para sa tuluy-tuloy na random na variable: ;   (6.11)

Ang integral ay dapat magtagpo (kung hindi, ang random na variable ay sinasabing walang pagkakaiba)

Mga katangian ng pagpapakalat:
a. Kung ang C ay isang pare-parehong halaga, kung gayon ang DC = 0
b. DС = С 2 Dх
c. Ang pagkakaiba-iba ng kabuuan ng mga random na variable ay palaging katumbas ng kabuuan ng kanilang mga pagkakaiba-iba lamang kung ang mga variable na ito ay independyente (kahulugan ng mga independiyenteng variable)
d. Upang makalkula ang pagkakaiba-iba, maginhawang gamitin ang formula:

Dx = Mx 2 - (Mx) 2 (6.12)

Relasyon ng mga numerical na katangian
at mga parameter ng karaniwang mga distribusyon

pamamahagimga pagpipilianpormulaMxDx
unipormea , b (b+a) / 2(b-a) 2 / 12
normala , σ aσ2
Bernoullin,p npnpq
Poissona aa