Distribusi kemungkinan. Distribusi binomial dari variabel acak diskrit

Teori probabilitas adalah cabang matematika yang mempelajari pola fenomena acak: peristiwa acak, variabel acak, sifat dan operasinya.

Lama teori probabilitas tidak memiliki definisi yang jelas. Itu dirumuskan hanya pada tahun 1929. Munculnya teori probabilitas sebagai ilmu dikaitkan dengan Abad Pertengahan dan upaya pertama analisis matematis perjudian (lemparan, dadu, roulette). matematikawan Prancis Abad XVII Blaise Pascal dan Pierre Fermat, menjelajahi prediksi kemenangan di berjudi, menemukan pola probabilistik pertama yang muncul saat melempar dadu.

Teori probabilitas muncul sebagai ilmu dari keyakinan bahwa keteraturan tertentu mendasari peristiwa acak besar-besaran. Teori probabilitas mempelajari pola-pola ini.

Teori probabilitas berkaitan dengan studi tentang peristiwa, yang kejadiannya tidak diketahui secara pasti. Ini memungkinkan Anda untuk menilai tingkat kemungkinan terjadinya beberapa peristiwa dibandingkan dengan yang lain.

Sebagai contoh: tidak mungkin untuk menentukan dengan jelas hasil dari hilangnya "kepala" atau "ekor" sebagai akibat dari pelemparan koin, tetapi dengan pelemparan beberapa kali, kira-kira nomor yang sama kepala dan ekor, yang berarti ada kemungkinan 50% untuk mendapatkan kepala atau ekor.

uji dalam hal ini, implementasi dari serangkaian kondisi tertentu disebut, yaitu, di kasus ini lempar koin. Tantangannya dapat dimainkan dalam jumlah yang tidak terbatas. Dalam hal ini, kompleks kondisi mencakup faktor acak.

Hasil tesnya adalah peristiwa. Peristiwa terjadi:

  1. Dapat diandalkan (selalu terjadi sebagai hasil pengujian).
  2. Mustahil (tidak pernah terjadi).
  3. Acak (mungkin atau mungkin tidak terjadi sebagai akibat dari tes).

Misalnya, saat melempar koin peristiwa yang tidak mungkin- koin akan berada di tepi, peristiwa acak - hilangnya "kepala" atau "ekor". Hasil tes khusus disebut acara dasar. Sebagai hasil dari tes, hanya peristiwa dasar yang terjadi. Totalitas dari semua hasil tes yang mungkin, berbeda, dan spesifik disebut ruang acara dasar.

Konsep dasar teori

Kemungkinan- tingkat kemungkinan terjadinya peristiwa. Ketika alasan untuk beberapa peristiwa yang mungkin benar-benar terjadi lebih besar daripada alasan yang berlawanan, maka peristiwa ini disebut kemungkinan, jika tidak - tidak mungkin atau tidak mungkin.

Nilai acak- ini adalah nilai yang, sebagai hasil dari pengujian, dapat mengambil satu atau nilai lain, dan tidak diketahui sebelumnya yang mana. Misalnya: jumlah stasiun pemadam kebakaran per hari, jumlah tembakan dengan 10 tembakan, dll.

Variabel acak dapat dibagi menjadi dua kategori.

  1. Variabel acak diskrit disebut nilai seperti itu, yang sebagai hasil dari tes dapat mengambil nilai-nilai tertentu dengan probabilitas tertentu, membentuk himpunan yang dapat dihitung (set yang elemen-elemennya dapat diberi nomor). Himpunan ini bisa berhingga atau tak terhingga. Misalnya, jumlah tembakan sebelum pukulan pertama pada target adalah variabel acak diskrit, karena nilai ini dapat mengambil jumlah nilai yang tak terbatas, meskipun dapat dihitung.
  2. Variabel acak kontinu adalah besaran yang dapat mengambil nilai apa pun dari selang berhingga atau tak hingga. Jelas, jumlah nilai yang mungkin dari variabel acak kontinu tidak terbatas.

Ruang probabilitas- konsep yang diperkenalkan oleh A.N. Kolmogorov pada 30-an abad XX untuk meresmikan konsep probabilitas, yang memunculkan perkembangan yang cepat teori probabilitas sebagai disiplin matematika yang ketat.

Ruang probabilitas adalah tiga kali lipat (kadang-kadang dibingkai dalam kurung sudut: , di mana

Ini adalah himpunan arbitrer, yang elemen-elemennya disebut peristiwa dasar, hasil atau poin;
- sigma-aljabar himpunan bagian yang disebut peristiwa (acak);
- ukuran atau probabilitas probabilistik, mis. ukuran terbatas sigma-aditif sehingga .

Teorema De Moivre-Laplace- salah satu teorema pembatas teori probabilitas, yang dibuat oleh Laplace pada tahun 1812. Dia menyatakan bahwa jumlah keberhasilan dalam mengulangi percobaan acak yang sama dengan dua kemungkinan hasil berdistribusi hampir normal. Ini memungkinkan Anda untuk menemukan nilai perkiraan probabilitas.

Jika, untuk setiap percobaan bebas, peluang terjadinya suatu kejadian acak sama dengan () dan merupakan jumlah percobaan yang benar-benar terjadi, maka peluang validitas pertidaksamaan tersebut mendekati (untuk besar ) dengan nilai integral Laplace.

Fungsi distribusi dalam teori probabilitas- fungsi yang mencirikan distribusi variabel acak atau vektor acak; kemungkinan itu nilai acak X akan mengambil nilai kurang dari atau sama dengan x, di mana x adalah arbitrer bilangan asli. Dalam kondisi tertentu, itu sepenuhnya menentukan variabel acak.

Nilai yang diharapkan- nilai rata-rata dari variabel acak (ini adalah distribusi probabilitas dari variabel acak, dipertimbangkan dalam teori probabilitas). Dalam sastra Inggris, itu dilambangkan dengan, dalam bahasa Rusia -. Dalam statistik, notasi sering digunakan.

Biarkan ruang probabilitas dan variabel acak yang ditentukan di dalamnya diberikan. Artinya, menurut definisi, fungsi terukur. Kemudian, jika ada integral Lebesgue dari ruang , maka disebut harapan matematis, atau nilai rata-rata, dan dilambangkan dengan .

Varians dari variabel acak- ukuran penyebaran variabel acak yang diberikan, yaitu penyimpangannya dari ekspektasi matematis. Ditunjuk dalam sastra Rusia dan asing. Dalam statistika, sebutan atau sering digunakan. Akar pangkat dua varians disebut standar deviasi, standar deviasi, atau standar spread.

Membiarkan menjadi variabel acak yang didefinisikan pada beberapa ruang probabilitas. Kemudian

di mana simbol itu berdiri untuk nilai yang diharapkan.

Dalam teori probabilitas, dua kejadian acak ditelepon mandiri jika terjadinya salah satunya tidak mengubah kemungkinan terjadinya yang lain. Demikian pula, dua variabel acak disebut bergantung jika nilai salah satunya mempengaruhi probabilitas nilai yang lain.

Bentuk hukum yang paling sederhana angka besar- ini adalah teorema Bernoulli, yang menyatakan bahwa jika probabilitas suatu peristiwa adalah sama di semua percobaan, maka dengan peningkatan jumlah percobaan, frekuensi acara cenderung ke probabilitas acara dan berhenti menjadi acak.

Hukum bilangan besar dalam teori probabilitas menyatakan bahwa rata-rata aritmatika sampel hingga dari distribusi tetap dekat dengan rata-rata teoretis dari distribusi itu. Tergantung pada jenis konvergensi, hukum lemah bilangan besar dibedakan, ketika konvergensi dalam probabilitas terjadi, dan hukum kuat bilangan besar, ketika konvergensi hampir pasti terjadi.

Arti umum dari hukum bilangan besar - aksi bersama jumlah yang besar faktor acak identik dan independen mengarah ke hasil yang tidak tergantung pada kasus dalam batas.

Metode untuk memperkirakan probabilitas berdasarkan analisis sampel hingga didasarkan pada properti ini. contoh yang baik adalah prediksi hasil pemilu berdasarkan jajak pendapat dari sampel pemilih.

Teorema limit pusat- kelas teorema dalam teori probabilitas yang menyatakan bahwa jumlah dari sejumlah besar variabel acak bergantung lemah yang memiliki skala yang kira-kira sama (tidak ada istilah yang mendominasi, tidak memberikan kontribusi yang menentukan pada jumlah) memiliki distribusi yang mendekati normal.

Karena banyak variabel acak dalam aplikasi terbentuk di bawah pengaruh beberapa faktor acak yang bergantung lemah, distribusinya dianggap normal. Dalam hal ini harus diperhatikan kondisi bahwa tidak ada faktor yang dominan. Teorema limit pusat membenarkan penggunaan distribusi normal dalam kasus ini.

Bagian 6. Hukum distribusi tipikal dan karakteristik numerik dari variabel acak

Bentuk fungsi F(x), p(x), atau pencacahan p(x i) disebut hukum distribusi variabel acak. Sementara orang dapat membayangkan variasi tak terbatas dari variabel acak, ada hukum distribusi yang jauh lebih sedikit. Pertama, variabel acak yang berbeda dapat memiliki hukum distribusi yang persis sama. Misal: misalkan y ambil saja 2 nilai 1 dan -1 dengan probabilitas 0,5; nilai z = -y memiliki hukum distribusi yang sama persis.
Kedua, sangat sering variabel acak memiliki hukum distribusi yang serupa, yaitu, misalnya, p(x) untuk mereka dinyatakan oleh rumus dengan bentuk yang sama, hanya berbeda dalam satu atau lebih konstanta. Konstanta ini disebut parameter distribusi.

Meskipun, pada prinsipnya, yang paling hukum yang berbeda distribusi, beberapa hukum yang paling khas akan dipertimbangkan di sini. Penting untuk memperhatikan kondisi di mana mereka muncul, parameter dan sifat distribusi ini.

satu . Distribusi seragam
Ini adalah nama distribusi variabel acak yang dapat mengambil nilai apa pun dalam interval (a,b), dan probabilitas jatuh ke segmen mana pun di dalam (a,b) sebanding dengan panjang segmen dan tidak tergantung pada posisinya, dan probabilitas nilai di luar (a,b ) sama dengan 0.


Gambar 6.1 Fungsi dan densitas distribusi seragam

Parameter distribusi: a , b

2. Distribusi normal
Distribusi dengan kepadatan dijelaskan oleh rumus

(6.1)

disebut biasa.
Parameter distribusi: a ,


Gambar 6.2 Tampilan tipikal fungsi densitas dan distribusi normal

3 . Distribusi Bernoulli
Jika dilakukan serangkaian percobaan bebas, dimana setiap kejadian A dapat muncul dengan peluang p yang sama, maka banyaknya kejadian dari kejadian tersebut adalah peubah acak yang terdistribusi menurut hukum Bernoulli, atau menurut hukum binomial. (nama distribusi lain).

Di sini n adalah jumlah percobaan dalam deret, m adalah variabel acak (jumlah kemunculan peristiwa A), P n (m) adalah probabilitas bahwa A akan terjadi tepat m kali, q \u003d 1 - p ( probabilitas bahwa A tidak akan muncul dalam tes).

Contoh 1 Sebuah dadu dilempar 5 kali, berapa peluang terlemparnya 6 dadu dua kali?
n=5, m=2, p=1/6, q=5/6

Parameter distribusi: n, p

4 . distribusi racun
Distribusi Poisson diperoleh sebagai kasus pembatas dari distribusi Bernoulli jika p cenderung nol dan n cenderung tak hingga, tetapi sedemikian rupa sehingga produk mereka tetap konstan: np = a. Secara formal, seperti melewati batas mengarah ke rumus

Parameter distribusi: a

Distribusi Poisson tunduk pada banyak variabel acak yang ditemui dalam sains dan kehidupan praktis.

Contoh 2: Jumlah panggilan yang diterima di stasiun ambulans dalam satu jam.
Mari kita bagi interval waktu T (1 jam) menjadi interval kecil dt, sehingga probabilitas menerima dua atau lebih panggilan selama dt dapat diabaikan, dan probabilitas satu panggilan p sebanding dengan dt: p = dt ;
kita akan menganggap pengamatan selama momen dt sebagai percobaan bebas, jumlah percobaan tersebut selama waktu T: n = T / dt;
jika kita berasumsi bahwa probabilitas menerima panggilan tidak berubah selama satu jam, maka jumlah total panggilan mematuhi hukum Bernoulli dengan parameter: n = T / dt, p = dt. Membiarkan dt cenderung nol, kita mendapatkan bahwa n cenderung tak terhingga, dan produk n × p tetap konstan: a = n × p = T.

Contoh 3: jumlah molekul gas ideal dalam beberapa volume tetap V.
Mari kita bagi volume V menjadi volume kecil dV sedemikian rupa sehingga probabilitas menemukan dua atau lebih molekul dalam dV dapat diabaikan, dan probabilitas menemukan satu molekul sebanding dengan dV: = dV; kita akan mempertimbangkan pengamatan setiap volume dV sebagai tes mandiri, jumlah pengujian tersebut n=V/dV; jika kita berasumsi bahwa probabilitas menemukan molekul di manapun di dalam V adalah sama, jumlah total molekul dalam volume V mematuhi hukum Bernoulli dengan parameter: n = V / dV, p = dV. Membiarkan dV cenderung nol, kita mendapatkan bahwa n cenderung tak terhingga, dan produk n × p tetap konstan: a = n × p = V.

Karakteristik numerik dari variabel acak

satu . Harapan matematis (nilai rata-rata)

Definisi:
Harapan matematisnya adalah
  (6.4)

Jumlahnya diambil alih semua nilai yang diambil variabel acak. Deret tersebut harus benar-benar konvergen (jika tidak, variabel acak dikatakan tidak memiliki ekspektasi matematis)

;   (6.5)

Integral harus benar-benar konvergen (jika tidak, variabel acak dikatakan tidak memiliki nilai harapan)


Sifat-sifat ekspektasi matematis:

sebuah. Jika dengan - konstan, maka MS = C
b. Mx = Smx
c. Ekspektasi matematis dari jumlah variabel acak selalu sama dengan jumlah ekspektasi matematisnya: (х+y) = + y d . Konsep ekspektasi matematis bersyarat diperkenalkan. Jika sebuah variabel acak mengambil nilai x i dengan probabilitas yang berbeda p(x i /H j) di kondisi yang berbeda H j , maka ekspektasi bersyarat ditentukan

sebagai atau ;   (6.6)

Jika peluang kejadian Hj diketahui,

nilai yang diharapkan: ;   (6.7)

Contoh 4: Berapa kali, rata-rata, Anda perlu melempar koin sebelum lambang pertama muncul? Masalah ini dapat diselesaikan "di dahi"

x saya 1 2 3 ... k..
p(x i) :  ,

namun jumlah ini masih perlu dihitung. Anda dapat melakukannya dengan lebih mudah, menggunakan konsep ekspektasi matematis bersyarat dan penuh. Pertimbangkan hipotesis H 1 - lambang jatuh untuk pertama kalinya, H 2 - tidak rontok pertama kali. Jelas, p (H 1) \u003d p (H 2) \u003d ; Mx / H 1 \u003d 1;
Mx / H 2 lebih 1 dari harapan penuh yang diinginkan, karena setelah pelemparan koin pertama, situasinya tidak berubah, tetapi setelah koin dilempar. Menggunakan rumus harapan matematis penuh, kami memiliki Mx \u003d Mx / H 1 × p (H 1) + Mx / H 2 × p (H 2) \u003d 1 × 0,5 + (Mx + 1) × 0,5, memecahkan persamaan untuk Mx, kita langsung mendapatkan Mx = 2.

e. Jika f(x) adalah fungsi dari variabel acak x, maka konsep ekspektasi matematis dari fungsi variabel acak didefinisikan:

Untuk variabel acak diskrit: ;   (6.8)

Jumlahnya diambil alih semua nilai yang diambil variabel acak. Deret tersebut harus benar-benar konvergen.

Untuk variabel acak kontinu: ;   (6.9)

Integral harus benar-benar konvergen.

2. Varians dari variabel acak
Definisi:
Dispersi variabel acak x adalah ekspektasi matematis dari deviasi kuadrat nilai besaran dari ekspektasi matematisnya: Dx = M(x-Mx) 2

Untuk variabel acak diskrit: ;   (6.10)

Jumlahnya diambil alih semua nilai yang diambil variabel acak. Deret harus konvergen (jika tidak, variabel acak dikatakan tidak memiliki varians)

Untuk variabel acak kontinu: ;   (6.11)

Integral harus konvergen (jika tidak, variabel acak dikatakan tidak memiliki varians)

Sifat dispersi:
sebuah. Jika C adalah nilai konstan, maka DC = 0
b. DСх = 2 Dх
c. Varians jumlah variabel acak selalu sama dengan jumlah variansnya hanya jika variabel-variabel tersebut bebas (definisi variabel bebas)
d. Untuk menghitung varians, lebih mudah menggunakan rumus:

Dx = Mx 2 - (Mx) 2 (6,12)

Hubungan karakteristik numerik
dan parameter distribusi tipikal

distribusipilihanrumusMxDx
seragama , b (b+a) / 2(b-a) 2 / 12
normalsebuah , sebuah2
Bernoullin,p npnpq
Poisonsebuah sebuahsebuah

Dalam praktiknya, sebagian besar variabel acak dipengaruhi oleh sejumlah besar faktor acak, patuhi hukum biasa distribusi probabilitas. Oleh karena itu, dalam berbagai aplikasi teori probabilitas, hukum ini sangat penting.

Sebuah variabel acak $X$ mematuhi hukum distribusi probabilitas normal jika kepadatan distribusi probabilitasnya memiliki bentuk berikut:

$$f\left(x\right)=((1)\over (\sigma \sqrt(2\pi )))e^(-((\left(x-a\right))^2)\over ( 2(\sigma )^2)))$$

Secara skematis, grafik fungsi $f\left(x\right)$ ditunjukkan pada gambar dan diberi nama "kurva Gaussian". Di sebelah kanan grafik ini adalah uang kertas 10 Mark Jerman, yang digunakan bahkan sebelum euro diperkenalkan. Jika Anda perhatikan lebih dekat, Anda dapat melihat kurva Gaussian dan penemunya pada uang kertas ini matematikawan terhebat Carl Friedrich Gauss.

Mari kembali ke fungsi kepadatan $f\left(x\right)$ dan berikan penjelasan tentang parameter distribusi $a,\ (\sigma )^2$. Parameter $a$ mencirikan pusat dispersi dari nilai-nilai variabel acak, yaitu memiliki arti harapan matematis. Ketika parameter $a$ berubah dan parameter $(\sigma )^2$ tidak berubah, kita dapat mengamati pergeseran grafik fungsi $f\left(x\right)$ sepanjang sumbu absis, sedangkan densitas graf itu sendiri tidak berubah bentuknya.

Parameter $(\sigma )^2$ adalah varians dan mencirikan bentuk kurva kepadatan $f\left(x\right)$. Saat mengubah parameter $(\sigma )^2$ dengan parameter $a$ tidak berubah, kita dapat mengamati bagaimana grafik densitas berubah bentuk, menyusut atau meregang, sementara tidak bergeser sepanjang absis.

Probabilitas variabel acak terdistribusi normal yang jatuh ke dalam interval tertentu

Seperti diketahui, probabilitas bahwa variabel acak $X$ jatuh ke dalam interval $\left(\alpha ;\ \beta \right)$ dapat dihitung $P\left(\alpha< X < \beta \right)=\int^{\beta }_{\alpha }{f\left(x\right)dx}$. Для нормального распределения случайной величины $X$ с параметрами $a,\ \sigma $ справедлива следующая формула:

$$P\left(\alpha< X < \beta \right)=\Phi \left({{\beta -a}\over {\sigma }}\right)-\Phi \left({{\alpha -a}\over {\sigma }}\right)$$

Di sini fungsi $\Phi \left(x\right)=((1)\over (\sqrt(2\pi )))\int^x_0(e^(-t^2/2)dt)$ adalah Fungsi Laplace. Nilai fungsi ini diambil dari . Sifat-sifat berikut dari fungsi $\Phi \left(x\right)$ dapat dicatat.

1 . $\Phi \left(-x\right)=-\Phi \left(x\right)$, yaitu fungsi $\Phi \left(x\right)$ ganjil.

2 . $\Phi \left(x\right)$ adalah fungsi yang naik secara monoton.

3 . $(\mathop(lim)_(x\to +\infty ) \Phi \left(x\right)\ )=0.5$, $(\mathop(lim)_(x\to -\infty ) \ Phi \ kiri(x\kanan)\ )=-0,5$.

Untuk menghitung nilai fungsi $\Phi \left(x\right)$, Anda juga dapat menggunakan wizard fungsi $f_x$ dari paket Excel: $\Phi \left(x\right)=NORMDIST\left (x;0;1;1\kanan )-0,5$. Misalnya, mari kita hitung nilai fungsi $\Phi \left(x\right)$ untuk $x=2$.

Probabilitas bahwa variabel acak terdistribusi normal $X\in N\left(a;\ (\sigma )^2\right)$ jatuh ke dalam interval simetris terhadap ekspektasi $a$ dapat dihitung dengan rumus

$$P\left(\left|X-a\kanan|< \delta \right)=2\Phi \left({{\delta }\over {\sigma }}\right).$$

Aturan tiga sigma. Secara praktis dapat dipastikan bahwa variabel acak yang terdistribusi normal $X$ jatuh ke dalam interval $\left(a-3\sigma ;a+3\sigma \right)$.

Contoh 1 . Variabel acak $X$ tunduk pada hukum distribusi probabilitas normal dengan parameter $a=2,\ \sigma =3$. Temukan probabilitas bahwa $X$ masuk ke dalam interval $\left(0,5;1\right)$ dan probabilitas bahwa pertidaksamaan $\left|X-a\right|< 0,2$.

Menggunakan rumus

$$P\left(\alpha< X < \beta \right)=\Phi \left({{\beta -a}\over {\sigma }}\right)-\Phi \left({{\alpha -a}\over {\sigma }}\right),$$

cari $P\left(0,5;1\right)=\Phi \left(((1-2)\over (3))\right)-\Phi \left(((0,5-2)\ over (3))\right)=\Phi \left(-0.33\right)-\Phi \left(-0.5\right)=\Phi \left(0.5\right)-\Phi \ left(0.33\right) =0,191-0,129=$0,062.

$$P\left(\left|X-a\kanan|< 0,2\right)=2\Phi \left({{\delta }\over {\sigma }}\right)=2\Phi \left({{0,2}\over {3}}\right)=2\Phi \left(0,07\right)=2\cdot 0,028=0,056.$$

Contoh 2 . Misalkan selama tahun tersebut harga saham perusahaan tertentu adalah variabel acak yang didistribusikan menurut hukum normal dengan ekspektasi matematis sama dengan 50 unit moneter konvensional dan standar deviasi sama dengan 10. Berapa probabilitas bahwa, secara acak hari yang dipilih dari periode yang dibahas, harga saham akan menjadi:

a) lebih dari 70 unit moneter konvensional?

b) di bawah 50 per saham?

c) antara 45 dan 58 bersyarat satuan moneter per saham?

Biarkan variabel acak $X$ menjadi harga saham beberapa perusahaan. Dengan syarat, $X$ tunduk pada distribusi normal dengan parameter $a=50$ - ekspektasi matematis, $\sigma =10$ - simpangan baku. Probabilitas $P\left(\alpha< X < \beta \right)$ попадания $X$ в интервал $\left(\alpha ,\ \beta \right)$ будем находить по формуле:

$$P\left(\alpha< X < \beta \right)=\Phi \left({{\beta -a}\over {\sigma }}\right)-\Phi \left({{\alpha -a}\over {\sigma }}\right).$$

$$a)\ P\left(X>70\right)=\Phi \left(((\infty -50)\over (10))\right)-\Phi \left(((70-50)\ over (10))\right)=0.5-\Phi \left(2\right)=0.5-0.4772=0.0228.$$

$$b)\ P\kiri(X< 50\right)=\Phi \left({{50-50}\over {10}}\right)-\Phi \left({{-\infty -50}\over {10}}\right)=\Phi \left(0\right)+0,5=0+0,5=0,5.$$

$$c)\ P\kiri(45< X < 58\right)=\Phi \left({{58-50}\over {10}}\right)-\Phi \left({{45-50}\over {10}}\right)=\Phi \left(0,8\right)-\Phi \left(-0,5\right)=\Phi \left(0,8\right)+\Phi \left(0,5\right)=$$

Terlepas dari namanya yang eksotis, distribusi umum terkait satu sama lain dengan cara yang cukup intuitif dan cara yang menarik yang membuatnya mudah untuk mengingatnya dan membicarakannya dengan percaya diri. Beberapa secara alami mengikuti, misalnya, dari distribusi Bernoulli. Saatnya menunjukkan peta koneksi ini.

Setiap distribusi diilustrasikan dengan contoh fungsi densitas distribusi (DDF). Artikel ini hanya tentang distribusi yang hasilnya nomor tunggal. Jadi, sumbu horisontal setiap grafik adalah satu set kemungkinan angka-hasil. Vertikal - probabilitas setiap hasil. Beberapa distribusi bersifat diskrit - hasilnya harus bilangan bulat, seperti 0 atau 5. Ini ditunjukkan oleh garis renggang, satu untuk setiap hasil, dengan ketinggian yang sesuai dengan probabilitas hasil ini. Beberapa berkelanjutan, hasilnya dapat mengambil apa saja nilai numerik, seperti -1,32 atau 0,005. Ini ditunjukkan sebagai kurva padat dengan area di bawah bagian kurva yang memberikan probabilitas. Jumlah tinggi garis dan luas daerah di bawah kurva selalu 1.

Cetak, potong sepanjang garis putus-putus, dan bawa bersama Anda di dompet Anda. Ini adalah panduan Anda ke negara distribusi dan kerabat mereka.

Bernoulli dan seragam

Anda telah memenuhi distribusi Bernoulli di atas, dengan dua hasil - kepala atau ekor. Bayangkan sekarang sebagai distribusi lebih dari 0 dan 1, 0 menjadi kepala dan 1 menjadi ekor. Seperti yang sudah jelas, kedua hasil memiliki kemungkinan yang sama, dan ini tercermin dalam diagram. PDF Bernoulli berisi dua baris sama tinggi mewakili 2 kemungkinan hasil yang sama: 0 dan 1, masing-masing.

Distribusi Bernoulli juga dapat mewakili hasil yang tidak setara, seperti melempar koin yang salah. Maka probabilitas kepala tidak akan 0,5, tetapi beberapa nilai p lainnya, dan probabilitas ekor akan menjadi 1-p. Seperti banyak distribusi lainnya, sebenarnya ini adalah seluruh keluarga distribusi yang diberikan parameter tertentu, seperti p di atas. Ketika Anda berpikir "Bernoulli" - pikirkan tentang "melempar koin (mungkin salah)."

Oleh karena itu sangat langkah kecil sebelum menyajikan distribusi pada beberapa hasil yang tidak mungkin sama: distribusi seragam yang dicirikan oleh PDF datar. Mewakili yang benar dadu. Hasil nya 1-6 sama-sama mungkin. Itu dapat diatur untuk sejumlah hasil n, dan bahkan sebagai distribusi kontinu.

memikirkan tentang distribusi seragam sebagai "dadu yang benar".

Binomial dan hipergeometrik

Distribusi binomial dapat dianggap sebagai jumlah hasil dari hal-hal yang mengikuti distribusi Bernoulli.

Balikkan koin yang jujur ​​dua kali - berapa kali itu akan menjadi kepala? Ini adalah bilangan yang mematuhi distribusi binomial. Parameternya adalah n, jumlah percobaan, dan p adalah probabilitas "sukses" (dalam kasus kami, kepala atau 1). Setiap gulungan adalah hasil atau tes yang didistribusikan Bernoulli. Gunakan distribusi binomial saat menghitung jumlah keberhasilan dalam hal-hal seperti melempar koin, di mana setiap lemparan tidak tergantung pada yang lain dan memiliki peluang sukses yang sama.

Atau bayangkan sebuah guci dengan jumlah bola putih dan hitam yang sama. Tutup mata Anda, cabut bolanya, tuliskan warnanya dan kembalikan. Ulang. Berapa kali bola hitam diambil? Angka ini juga mengikuti distribusi binomial.

Ini situasi yang aneh telah kami perkenalkan untuk memudahkan memahami arti dari distribusi hipergeometrik. Ini adalah distribusi nomor yang sama, tetapi dalam situasi jika kita bukan mengembalikan bola. itu pasti sepupu distribusi binomial, tetapi tidak sama, karena probabilitas keberhasilan berubah dengan setiap bola yang diambil. Jika jumlah bola cukup besar dibandingkan dengan jumlah pengundian, maka distribusi ini hampir sama, karena peluang keberhasilan berubah sangat sedikit dengan setiap pengundian.

Ketika seseorang berbicara tentang menggambar bola dari guci tanpa kembali, hampir selalu aman untuk mengatakan "ya, distribusi hipergeometrik", karena dalam hidup saya, saya belum pernah bertemu orang yang benar-benar akan mengisi guci dengan bola dan kemudian mengeluarkannya dan kembali mereka, atau sebaliknya. Aku bahkan tidak punya teman dengan guci. Bahkan lebih sering, distribusi ini harus muncul ketika memilih subset yang signifikan dari beberapa populasi umum sebagai sampel.

Catatan. terjemahan

Mungkin tidak terlalu jelas di sini, tetapi karena tutorial dan kursus kilat untuk pemula, perlu dijelaskan. Populasi adalah sesuatu yang ingin kita evaluasi secara statistik. Untuk mengestimasi, kita memilih bagian tertentu (subset) dan membuat estimasi yang diperlukan (kemudian subset ini disebut sampel), dengan asumsi bahwa estimasi akan serupa untuk seluruh populasi. Tetapi agar ini benar, batasan tambahan sering diperlukan pada definisi subset sampel (atau sebaliknya, dari sampel yang diketahui, kita perlu mengevaluasi apakah itu menggambarkan populasi dengan cukup akurat).

Contoh praktis - kita perlu memilih perwakilan dari perusahaan yang terdiri dari 100 orang untuk melakukan perjalanan ke E3. Diketahui bahwa 10 orang telah melakukan perjalanan di dalamnya tahun lalu (tetapi tidak ada yang dikenali). Berapa banyak minimum yang harus diambil sehingga setidaknya satu kawan yang berpengalaman kemungkinan akan berada di grup? Pada kasus ini populasi- 100, seleksi - 10, persyaratan seleksi - setidaknya satu yang telah melakukan perjalanan ke E3.

Wikipedia memiliki contoh yang kurang lucu tetapi lebih praktis tentang suku cadang yang rusak dalam satu batch.

racun

Bagaimana dengan jumlah pelanggan yang menelepon? saluran telepon untuk dukungan teknis setiap menit? Ini adalah hasil yang distribusinya sekilas binomial, jika kita menganggap setiap detik sebagai percobaan Bernoulli, di mana pelanggan tidak menelepon (0) atau menelepon (1). Tetapi organisasi catu daya tahu betul: ketika listrik dimatikan, dua orang dapat menelepon dalam sedetik. atau bahkan lebih dari seratus dari orang-orang. Menyajikannya sebagai percobaan 60.000 milidetik juga tidak membantu - ada lebih banyak percobaan, kemungkinan panggilan per milidetik lebih kecil, bahkan jika Anda tidak menghitung dua atau lebih pada saat yang sama, tetapi, secara teknis, ini masih bukan Tes Bernoulli. Namun, penalaran logis bekerja dengan transisi ke tak terhingga. Biarkan n menuju tak terhingga dan p menuju 0, sehingga np konstan. Ini seperti membagi waktu menjadi lebih kecil dan lebih kecil dengan peluang panggilan yang semakin kecil. Dalam limitnya, kita mendapatkan distribusi Poisson.

Sama seperti distribusi binomial, distribusi Poisson adalah distribusi kuantitas: berapa kali sesuatu terjadi. Ini diparametrikan bukan oleh probabilitas p dan jumlah percobaan n, tetapi oleh intensitas rata-rata , yang, dalam analogi dengan binomial, secara sederhana nilai konstan n.p. Distribusi Poisson adalah diperlukan ingat ketika harus menghitung acara untuk waktu tertentu pada intensitas tertentu yang konstan.

Ketika ada sesuatu seperti paket yang tiba di router atau pelanggan yang muncul di toko atau sesuatu yang menunggu dalam antrean, pikirkan Poisson.

Binomial geometris dan negatif

Dari tes sederhana Bernoulli muncul distribusi lain. Berapa kali koin muncul ekor sebelum muncul kepala? Jumlah ekor mengikuti distribusi geometrik. Seperti distribusi Bernoulli, distribusi ini diparametrikan oleh probabilitas hasil yang sukses, hal. Itu tidak diparametrikan dengan jumlah n, jumlah percobaan, karena jumlah percobaan yang gagal justru adalah hasilnya.

Jika distribusi binomialnya adalah “berapa sukses”, maka distribusi geometriknya adalah “Berapa banyak kegagalan sebelum sukses?”.

Distribusi binomial negatif adalah generalisasi sederhana dari yang sebelumnya. Ini adalah jumlah kegagalan sebelum ada r, bukan 1, keberhasilan. Oleh karena itu, juga diparametrikan oleh r ini. Kadang-kadang digambarkan sebagai jumlah keberhasilan sebelum r kegagalan. Tapi, seperti yang dikatakan pelatih hidup saya: "Anda memutuskan apa itu sukses dan apa itu kegagalan", jadi ini sama, jika Anda tidak lupa bahwa probabilitas p juga harus probabilitas yang benar keberhasilan atau kegagalan, masing-masing.

Jika Anda membutuhkan lelucon untuk meredakan ketegangan, Anda dapat menyebutkan bahwa distribusi binomial dan hipergeometrik adalah pasangan yang jelas, tetapi distribusi binomial geometris dan negatif juga sangat mirip, dan kemudian menyatakan “Nah, siapa yang memanggil mereka semua seperti itu, ya? ”

Eksponensial dan Weibull

Sekali lagi tentang panggilan ke dukungan teknis: berapa lama waktu yang dibutuhkan sebelum panggilan berikutnya? Distribusi waktu tunggu ini seolah-olah geometris, karena setiap detik sampai tidak ada panggilan seperti gagal, sampai detik, hingga panggilan akhirnya terjadi. Jumlah kegagalan seperti jumlah detik sampai tidak ada yang menelepon, dan ini praktis waktu sampai panggilan berikutnya, tetapi "praktis" tidak cukup bagi kami. Intinya adalah bahwa waktu ini akan menjadi jumlah seluruh detik, dan dengan demikian tidak mungkin menghitung waktu tunggu dalam detik ini sampai panggilan itu sendiri.

Nah, seperti sebelumnya, kita pergi ke distribusi geometris sampai batasnya, mengenai pembagian waktu - dan voila. Kami mendapatkan distribusi eksponensial , yang secara akurat menggambarkan waktu sebelum panggilan. Ini distribusi berkelanjutan, kami memiliki yang pertama, karena hasilnya belum tentu dalam hitungan detik. Seperti distribusi Poisson, distribusi ini diparametrikan oleh intensitas .

Menggemakan hubungan antara binomial dan geometris, Poisson "berapa banyak peristiwa dalam satu waktu?" terkait dengan eksponensial "berapa lama sebelum acara?". Jika ada kejadian-kejadian yang jumlahnya per satuan waktu mengikuti distribusi Poisson, maka waktu antara keduanya mengikuti distribusi eksponensial dengan parameter yang sama. Korespondensi antara dua distribusi ini harus dicatat ketika salah satu dibahas.

Distribusi eksponensial harus diingat ketika berpikir tentang "waktu untuk acara", mungkin "waktu untuk gagal". Faktanya, ini adalah situasi yang penting sehingga ada distribusi yang lebih umum untuk menggambarkan MTBF, seperti distribusi Weibull. Sementara distribusi eksponensial sesuai ketika tingkat keausan atau kegagalan, misalnya, konstan, distribusi Weibull dapat memodelkan tingkat kegagalan yang meningkat (atau menurun) dari waktu ke waktu. Eksponensial, secara umum, kasus khusus.

Pikirkan Weibull dalam hal MTBF.

Normal, lognormal, Siswa dan chi-kuadrat

Distribusi normal, atau Gaussian, mungkin salah satu yang paling penting. Bentuknya yang berbentuk lonceng langsung dapat dikenali. Seperti , ini adalah entitas yang sangat ingin tahu yang memanifestasikan dirinya di mana-mana, bahkan dari yang paling luar sumber sederhana. Ambil satu set nilai yang mematuhi distribusi yang sama - apa saja! - dan lipat. Distribusi jumlah mereka tunduk pada (kurang-lebih) distribusi normal. Semakin banyak hal dijumlahkan, semakin dekat jumlah mereka dengan distribusi normal (trik: distribusi istilah harus dapat diprediksi, independen, cenderung hanya normal). Bahwa memang demikian, meskipun distribusi aslinya, sungguh menakjubkan.

Catatan. terjemahan

Saya terkejut bahwa penulis tidak menulis tentang perlunya skala yang sebanding dari distribusi yang dapat dijumlahkan: jika satu secara signifikan mendominasi yang lain, itu akan menyatu dengan sangat buruk. Dan, secara umum, kemandirian bersama yang mutlak tidak diperlukan, ketergantungan yang lemah sudah cukup.

Yah, itu mungkin untuk pesta, seperti yang dia tulis.


Ini disebut " teorema limit pusat", dan Anda perlu tahu apa itu, mengapa disebut demikian dan apa artinya, jika tidak mereka akan langsung menertawakannya.

Dalam konteksnya, normal terkait dengan semua distribusi. Meskipun pada dasarnya terkait dengan distribusi semua jumlah. Jumlah percobaan Bernouli mengikuti distribusi binomial dan, dengan bertambahnya jumlah percobaan, distribusi binomial ini semakin mendekati distribusi normal. Demikian pula, sepupunya adalah distribusi hipergeometrik. Distribusi racun - bentuk batas binomial - juga mendekati normal dengan peningkatan parameter intensitas.

Hasil yang mengikuti distribusi lognormal memberikan nilai yang logaritmanya terdistribusi normal. Atau dengan cara lain: eksponen dari nilai yang terdistribusi normal terdistribusi lognormal. Jika jumlahnya terdistribusi normal, maka ingat juga bahwa produk terdistribusi lognormal.

Distribusi-t siswa adalah dasar dari uji-t, yang dipelajari oleh banyak ahli non-statistik di bidang lain. Ini digunakan untuk membuat asumsi tentang rata-rata distribusi normal dan juga cenderung ke distribusi normal ketika parameternya meningkat. Ciri khas Distribusi t adalah ekornya yang lebih tebal dari pada distribusi normal.

Jika anekdot berekor gemuk belum cukup mengguncang tetangga Anda, lanjutkan ke kisah bir yang agak lucu. Lebih dari 100 tahun yang lalu, Guinness menggunakan statistik untuk meningkatkan kekuatannya. Kemudian William Seely Gosset menemukan yang benar-benar baru teori statistik untuk budidaya jelai yang lebih baik. Gosset meyakinkan bosnya bahwa pembuat bir lain tidak akan mengerti bagaimana menggunakan idenya dan mendapat izin untuk menerbitkannya, tetapi dengan nama samaran "Mahasiswa". Paling prestasi terkenal Gosset hanyalah distribusi-t ini, yang, bisa dikatakan, dinamai menurut namanya.

Akhirnya, distribusi chi-kuadrat adalah distribusi jumlah kuadrat dari kuantitas yang terdistribusi normal. Tes chi-kuadrat dibangun di atas distribusi ini, yang didasarkan pada jumlah perbedaan kuadrat, yang seharusnya terdistribusi secara normal.

Gamma dan beta

Pada titik ini, jika Anda sudah membicarakan sesuatu yang chi-kuadrat, percakapan dimulai dengan sungguh-sungguh. Anda mungkin sudah berbicara dengan ahli statistik nyata, dan mungkin ada baiknya untuk menyerah, karena hal-hal seperti distribusi gamma mungkin muncul. Ini adalah generalisasi dan eksponensial dan distribusi chi-kuadrat. Seperti distribusi eksponensial, ini digunakan untuk model latensi yang kompleks. Misalnya, distribusi gamma muncul ketika waktu ke n peristiwa berikutnya disimulasikan. Itu muncul di pembelajaran mesin sebagai "konjugasi sebelum" untuk beberapa distribusi lainnya.

Jangan masuk ke percakapan tentang distribusi konjugasi ini, tetapi jika Anda melakukannya, jangan lupa untuk menyebutkan distribusi beta, karena ini adalah konjugat sebelum sebagian besar distribusi yang disebutkan di sini. Ilmuwan data yakin bahwa untuk itulah ia dibuat. Sebutkan ini secara tidak sengaja dan pergi ke pintu.

Awal Kebijaksanaan

Distribusi probabilitas adalah sesuatu yang tidak dapat Anda ketahui terlalu banyak. Yang benar-benar tertarik dapat merujuk ke peta super-detail dari semua distribusi probabilitas. Tambahkan tag

Seperti diketahui, variabel acak ditelepon variabel, yang dapat mengambil nilai tertentu tergantung pada kasusnya. Variabel acak menunjukkan huruf kapital alfabet latin(X, Y, Z) dan nilainya dalam huruf kecil masing-masing (x, y, z). Variabel acak dibagi menjadi diskontinyu (diskrit) dan kontinu.

Variabel acak diskrit disebut variabel acak yang hanya mengambil himpunan nilai yang terbatas atau tak terbatas (dapat dihitung) dengan probabilitas tertentu yang bukan nol.

Hukum distribusi variabel acak diskrit adalah fungsi yang menghubungkan nilai-nilai variabel acak dengan probabilitas yang sesuai. Hukum distribusi dapat ditentukan dengan salah satu cara berikut.

1 . Hukum distribusi dapat diberikan oleh tabel:

dimana >0, k = 0, 1, 2, … .

di) melalui fungsi distribusi F(x) , yang menentukan untuk setiap nilai x probabilitas bahwa variabel acak X mengambil nilai kurang dari x, yaitu. F(x) = P(X< x).

Sifat-sifat fungsi F(x)

3 . Hukum distribusi dapat diatur secara grafis – poligon distribusi (poligon) (lihat soal 3).

Perhatikan bahwa untuk menyelesaikan beberapa masalah, tidak perlu mengetahui hukum distribusi. Dalam beberapa kasus, cukup mengetahui satu atau lebih angka yang paling mencerminkan fitur penting hukum distribusi. Itu bisa berupa angka yang memiliki arti "nilai rata-rata" dari variabel acak, atau angka yang menunjukkan ukuran rata-rata penyimpangan variabel acak dari nilai rata-ratanya. Bilangan semacam ini disebut karakteristik numerik dari variabel acak.

Utama karakteristik numerik variabel acak diskrit :

  • Harapan matematis (nilai rata-rata) dari variabel acak diskrit M(X)=Σ x i p i.
    Untuk distribusi binomial M(X)=np, untuk distribusi Poisson M(X)=λ
  • Penyebaran variabel acak diskrit D(X)=M2 atau D(X) = M(X 2) 2. Selisih X–M(X) disebut deviasi variabel acak dari ekspektasi matematisnya.
    Untuk distribusi binomial D(X)=npq, untuk distribusi Poisson D(X)=λ
  • Standar deviasi (deviasi standar) (X)=√D(X).

Contoh penyelesaian masalah dengan topik "Hukum distribusi variabel acak diskrit"

Tugas 1.

Dikeluarkan 1000 tiket lotere: 5 dari mereka mendapatkan kemenangan dalam jumlah 500 rubel, 10 - kemenangan 100 rubel, 20 - kemenangan 50 rubel, 50 - kemenangan 10 rubel. Tentukan hukum distribusi probabilitas dari variabel acak X - kemenangan per tiket.

Keputusan. Menurut kondisi masalahnya, itu mungkin nilai-nilai berikut variabel acak X: 0, 10, 50, 100 dan 500.

Jumlah tiket tanpa kemenangan adalah 1000 - (5+10+20+50) = 915, maka P(X=0) = 915/1000 = 0,915.

Demikian pula, kami menemukan semua probabilitas lainnya: P(X=0) = 50/1000=0,05, P(X=50) = 20/1000=0,02, P(X=100) = 10/1000=0,01 , P(X =500) = 5/1000=0,005. Kami menyajikan hukum yang dihasilkan dalam bentuk tabel:

Tentukan ekspektasi matematis dari X: M(X) = 1*1/6 + 2*1/6 + 3*1/6 + 4*1/6 + 5*1/6 + 6*1/6 = (1 + 2+3+4+5+6)/6 = 21/6 = 3,5

Tugas 3.

Perangkat ini terdiri dari tiga elemen yang beroperasi secara independen. Probabilitas kegagalan setiap elemen dalam satu percobaan adalah 0,1. Buatlah hukum distribusi untuk jumlah elemen yang gagal dalam satu percobaan, buat poligon distribusi. Temukan fungsi distribusi F(x) dan plotkan. Temukan ekspektasi matematis, varians dan standar deviasi dari variabel acak diskrit.

Keputusan. 1. Variabel acak diskrit X=(jumlah elemen yang gagal dalam satu percobaan) memiliki yang berikut: nilai yang mungkin: x 1 \u003d 0 (tidak ada elemen perangkat yang gagal), x 2 \u003d 1 (satu elemen gagal), x 3 \u003d 2 (dua elemen gagal) dan x 4 \u003d 3 (tiga elemen gagal).

Kegagalan elemen tidak tergantung satu sama lain, probabilitas kegagalan setiap elemen sama satu sama lain, oleh karena itu, ini berlaku rumus Bernoulli . Mengingat bahwa, dengan kondisi, n=3, p=0.1, q=1-p=0.9, kami menentukan probabilitas nilai:
P 3 (0) \u003d C 3 0 p 0 q 3-0 \u003d q 3 \u003d 0,9 3 \u003d 0,729;
P 3 (1) \u003d C 3 1 p 1 q 3-1 \u003d 3 * 0,1 * 0,9 2 \u003d 0,243;
P 3 (2) \u003d C 3 2 p 2 q 3-2 \u003d 3 * 0,1 2 * 0,9 \u003d 0,027;
P 3 (3) \u003d C 3 3 p 3 q 3-3 \u003d p 3 \u003d 0,1 3 \u003d 0,001;
Periksa: p i = 0,729+0,243+0,027+0,001=1.

Dengan demikian, hukum distribusi binomial X yang diinginkan memiliki bentuk:

Pada sumbu absis, kami memplot nilai yang mungkin x i, dan pada sumbu ordinat, probabilitas yang sesuai i . Mari kita buat titik M 1 (0; 0,729), M 2 (1; 0,243), M 3 (2; 0,027), M 4 (3; 0,001). Menghubungkan titik-titik ini dengan segmen garis, kami memperoleh poligon distribusi yang diinginkan.

3. Tentukan fungsi distribusi F(x) = P(X

Untuk x 0 kita memiliki F(x) = P(X<0) = 0;
untuk 0< x ≤1 имеем F(x) = Р(Х<1) = Р(Х = 0) = 0,729;
untuk 1< x ≤ 2 F(x) = Р(Х<2) = Р(Х=0) + Р(Х=1) =0,729+ 0,243 = 0,972;
untuk 2< x ≤ 3 F(x) = Р(Х<3) = Р(Х = 0) + Р(Х = 1) + Р(Х = 2) = 0,972+0,027 = 0,999;
untuk x > 3 menjadi F(x) = 1, karena peristiwa itu pasti.

Grafik fungsi F(x)

4. Untuk distribusi binomial X:
- ekspektasi matematis (X) = np = 3*0.1 = 0.3;
- dispersi D(X) = npq = 3*0.1*0.9 = 0.27;
- rata-rata simpangan baku(X) = D(X) = 0,27 0,52.