Distribusi Probabilitas Diskrit. Distribusi binomial dari variabel acak diskrit

Terlepas dari namanya yang eksotis, distribusi umum terkait satu sama lain dengan cara yang cukup intuitif dan cara yang menarik yang membuatnya mudah untuk mengingatnya dan membicarakannya dengan percaya diri. Beberapa secara alami mengikuti, misalnya, dari distribusi Bernoulli. Saatnya menunjukkan peta koneksi ini.

Setiap distribusi diilustrasikan dengan contoh fungsi densitas distribusi (DDF). Artikel ini hanya tentang distribusi yang hasilnya nomor tunggal. Jadi, sumbu horisontal setiap grafik adalah satu set kemungkinan angka-hasil. Vertikal - probabilitas setiap hasil. Beberapa distribusi bersifat diskrit - hasilnya harus bilangan bulat, seperti 0 atau 5. Ini ditunjukkan oleh garis renggang, satu untuk setiap hasil, dengan tinggi yang sesuai dengan probabilitas hasil ini. Beberapa berkelanjutan, hasilnya dapat mengambil apa saja nilai numerik, seperti -1,32 atau 0,005. Ini ditunjukkan sebagai kurva padat dengan area di bawah bagian kurva yang memberikan probabilitas. Jumlah tinggi garis dan luas daerah di bawah kurva selalu 1.

Cetak, potong sepanjang garis putus-putus, dan bawa bersama Anda di dompet Anda. Ini adalah panduan Anda ke negara distribusi dan kerabat mereka.

Bernoulli dan seragam

Anda telah memenuhi distribusi Bernoulli di atas, dengan dua hasil - kepala atau ekor. Bayangkan sekarang sebagai distribusi lebih dari 0 dan 1, 0 menjadi kepala dan 1 menjadi ekor. Seperti yang sudah jelas, kedua hasil memiliki kemungkinan yang sama, dan ini tercermin dalam diagram. PDF Bernoulli berisi dua baris sama tinggi mewakili 2 kemungkinan hasil yang sama: 0 dan 1, masing-masing.

Distribusi Bernoulli juga dapat mewakili hasil yang tidak setara, seperti melempar koin yang salah. Maka probabilitas kepala tidak akan 0,5, tetapi beberapa nilai p lainnya, dan probabilitas ekor akan menjadi 1-p. Seperti banyak distribusi lainnya, sebenarnya ini adalah seluruh keluarga distribusi yang diberikan parameter tertentu, seperti p di atas. Ketika Anda berpikir "Bernoulli" - pikirkan tentang "melempar koin (mungkin salah)."

Oleh karena itu sangat langkah kecil sebelum menyajikan distribusi pada beberapa hasil yang tidak mungkin sama: distribusi seragam yang dicirikan oleh PDF datar. Mewakili yang benar dadu. Hasil nya 1-6 sama-sama mungkin. Itu dapat diatur untuk sejumlah hasil n, dan bahkan sebagai distribusi kontinu.

memikirkan tentang distribusi seragam sebagai "dadu yang benar".

Binomial dan hipergeometrik

Distribusi binomial dapat dianggap sebagai jumlah hasil dari hal-hal yang mengikuti distribusi Bernoulli.

Balikkan koin yang jujur ​​dua kali - berapa kali itu akan menjadi kepala? Ini adalah bilangan yang mematuhi distribusi binomial. Parameternya adalah n, jumlah percobaan, dan p adalah probabilitas "sukses" (dalam kasus kami, kepala atau 1). Setiap gulungan adalah hasil atau tes yang didistribusikan Bernoulli. Menggunakan distribusi binomial ketika menghitung jumlah keberhasilan dalam hal-hal seperti melempar koin, di mana setiap lemparan independen dari yang lain dan memiliki kemungkinan sukses yang sama.

Atau bayangkan sebuah guci dengan jumlah bola putih dan hitam yang sama. Tutup mata Anda, cabut bolanya, tuliskan warnanya dan kembalikan. Ulang. Berapa kali bola hitam terambil? Angka ini juga mengikuti distribusi binomial.

Ini situasi yang aneh telah kami perkenalkan untuk memudahkan memahami arti dari distribusi hipergeometrik. Ini adalah distribusi nomor yang sama, tetapi dalam situasi jika kita bukan mengembalikan bola. itu pasti sepupu distribusi binomial, tetapi tidak sama, karena probabilitas keberhasilan berubah dengan setiap bola yang diambil. Jika jumlah bola cukup besar dibandingkan dengan jumlah undian, maka distribusi ini hampir sama, karena peluang keberhasilan berubah sangat sedikit dengan setiap undian.

Ketika seseorang berbicara tentang menggambar bola dari guci tanpa kembali, hampir selalu aman untuk mengatakan "ya, distribusi hipergeometrik", karena dalam hidup saya, saya belum pernah bertemu orang yang benar-benar akan mengisi guci dengan bola dan kemudian mengeluarkannya dan kembali mereka, atau sebaliknya. Aku bahkan tidak punya teman dengan guci. Bahkan lebih sering, distribusi ini harus muncul ketika memilih subset yang signifikan dari beberapa populasi umum sebagai sampel.

Catatan. terjemahan

Mungkin tidak terlalu jelas di sini, tetapi karena tutorial dan kursus kilat untuk pemula, perlu dijelaskan. Populasi adalah sesuatu yang ingin kita evaluasi secara statistik. Untuk mengestimasi, kita memilih bagian tertentu (subset) dan membuat estimasi yang diperlukan (kemudian subset ini disebut sampel), dengan asumsi bahwa estimasi akan serupa untuk seluruh populasi. Tetapi agar ini benar, batasan tambahan sering diperlukan pada definisi subset sampel (atau sebaliknya, dari sampel yang diketahui, kita perlu mengevaluasi apakah itu menggambarkan populasi dengan cukup akurat).

Contoh praktis - kita perlu memilih perwakilan dari perusahaan yang terdiri dari 100 orang untuk melakukan perjalanan ke E3. Diketahui bahwa 10 orang telah melakukan perjalanan di dalamnya tahun lalu (tetapi tidak ada yang dikenali). Berapa banyak minimum yang harus diambil sehingga setidaknya satu kawan yang berpengalaman kemungkinan akan berada di grup? PADA kasus ini populasi- 100, seleksi - 10, persyaratan seleksi - setidaknya satu yang telah melakukan perjalanan ke E3.

Wikipedia memiliki contoh yang kurang lucu tetapi lebih praktis tentang suku cadang yang rusak dalam satu batch.

racun

Bagaimana dengan jumlah pelanggan yang menelepon? saluran telepon untuk dukungan teknis setiap menit? Ini adalah hasil yang distribusinya sekilas binomial, jika kita menganggap setiap detik sebagai percobaan Bernoulli, di mana pelanggan tidak menelepon (0) atau menelepon (1). Tetapi organisasi catu daya tahu betul: ketika listrik dimatikan, dua orang dapat menelepon dalam sedetik. atau bahkan lebih dari seratus dari orang-orang. Menyajikannya sebagai percobaan 60.000 milidetik juga tidak membantu - ada lebih banyak percobaan, kemungkinan panggilan per milidetik lebih kecil, bahkan jika Anda tidak menghitung dua atau lebih pada saat yang sama, tetapi, secara teknis, ini masih bukan Tes Bernoulli. Namun, penalaran logis bekerja dengan transisi ke tak terhingga. Biarkan n menuju tak terhingga dan p menuju 0, sehingga np konstan. Ini seperti membagi waktu menjadi lebih kecil dan lebih kecil dengan peluang panggilan yang semakin kecil. Dalam limitnya, kita mendapatkan distribusi Poisson.

Sama seperti distribusi binomial, distribusi Poisson adalah distribusi kuantitas: berapa kali sesuatu terjadi. Ini diparametrikan bukan oleh probabilitas p dan jumlah percobaan n, tetapi oleh intensitas rata-rata , yang, dalam analogi dengan binomial, secara sederhana nilai konstan n.p. Distribusi Poisson adalah diperlukan ingat ketika harus menghitung acara untuk waktu tertentu pada intensitas tertentu yang konstan.

Ketika ada sesuatu seperti paket yang tiba di router atau pelanggan yang muncul di toko atau sesuatu yang menunggu dalam antrean, pikirkan Poisson.

Binomial geometris dan negatif

Dari tes sederhana Bernoulli muncul distribusi lain. Berapa kali koin muncul ekor sebelum muncul kepala? Jumlah ekor mengikuti distribusi geometrik. Seperti distribusi Bernoulli, distribusi ini diparametrikan oleh probabilitas hasil yang sukses, hal. Itu tidak diparametrikan dengan jumlah n, jumlah percobaan, karena jumlah percobaan yang gagal justru adalah hasilnya.

Jika distribusi binomialnya adalah “berapa sukses”, maka distribusi geometrisnya adalah “Berapa banyak kegagalan sebelum sukses?”.

Distribusi binomial negatif adalah generalisasi sederhana dari yang sebelumnya. Ini adalah jumlah kegagalan sebelum ada r, bukan 1, keberhasilan. Oleh karena itu, juga diparametrikan oleh r ini. Kadang-kadang digambarkan sebagai jumlah keberhasilan sebelum r kegagalan. Tapi, seperti yang dikatakan pelatih hidup saya: "Anda memutuskan apa itu sukses dan apa itu kegagalan", jadi ini sama, jika Anda tidak lupa bahwa probabilitas p juga harus probabilitas yang benar keberhasilan atau kegagalan, masing-masing.

Jika Anda membutuhkan lelucon untuk meredakan ketegangan, Anda dapat menyebutkan bahwa distribusi binomial dan hipergeometrik adalah pasangan yang jelas, tetapi distribusi binomial geometris dan negatif juga sangat mirip, dan kemudian menyatakan “Nah, siapa yang memanggil mereka semua seperti itu, ya? ”

Eksponensial dan Weibull

Sekali lagi tentang panggilan ke dukungan teknis: berapa lama waktu yang dibutuhkan sebelum panggilan berikutnya? Distribusi waktu tunggu ini tampaknya geometris, karena setiap detik sampai tidak ada panggilan seperti kegagalan, sampai detik, sampai akhirnya panggilan terjadi. Jumlah kegagalan seperti jumlah detik sampai tidak ada yang menelepon, dan ini praktis waktu sampai panggilan berikutnya, tetapi "praktis" tidak cukup bagi kami. Intinya adalah bahwa waktu ini akan menjadi jumlah seluruh detik, dan dengan demikian tidak mungkin menghitung waktu tunggu dalam detik ini sebelum panggilan itu sendiri.

Nah, seperti sebelumnya, kita pergi ke distribusi geometris sampai batasnya, mengenai pembagian waktu - dan voila. Kami mendapatkan distribusi eksponensial , yang secara akurat menggambarkan waktu sebelum panggilan. Ini distribusi berkelanjutan, kami memiliki yang pertama, karena hasilnya belum tentu dalam hitungan detik. Seperti distribusi Poisson, distribusi ini diparametrikan oleh intensitas .

Menggemakan hubungan antara binomial dan geometris, Poisson "berapa banyak peristiwa dalam satu waktu?" terkait dengan eksponensial "berapa lama sebelum acara?". Jika ada kejadian-kejadian yang jumlahnya per satuan waktu mengikuti distribusi Poisson, maka waktu antara keduanya mengikuti distribusi eksponensial dengan parameter yang sama. Korespondensi antara dua distribusi ini harus dicatat ketika salah satu dibahas.

Distribusi eksponensial harus diingat ketika berpikir tentang "waktu untuk acara", mungkin "waktu untuk gagal". Faktanya, ini adalah situasi yang penting sehingga ada distribusi yang lebih umum untuk menggambarkan MTBF, seperti distribusi Weibull. Sementara distribusi eksponensial sesuai ketika tingkat keausan atau kegagalan, misalnya, konstan, distribusi Weibull dapat memodelkan tingkat kegagalan yang meningkat (atau menurun) dari waktu ke waktu. Eksponensial, secara umum, kasus khusus.

Pikirkan Weibull dalam hal MTBF.

Normal, lognormal, Siswa dan chi-kuadrat

Distribusi normal, atau Gaussian, mungkin salah satu yang paling penting. Bentuknya yang berbentuk lonceng langsung dapat dikenali. Seperti , ini adalah entitas yang sangat ingin tahu yang memanifestasikan dirinya di mana-mana, bahkan dari yang paling luar sumber sederhana. Ambil satu set nilai yang mematuhi distribusi yang sama - apa saja! - dan lipat. Distribusi jumlah mereka tunduk pada (kurang-lebih) distribusi normal. Semakin banyak hal dijumlahkan, semakin dekat jumlah mereka dengan distribusi normal (trik: distribusi istilah harus dapat diprediksi, independen, cenderung hanya normal). Bahwa memang demikian, terlepas dari distribusi aslinya, sungguh menakjubkan.

Catatan. terjemahan

Saya terkejut bahwa penulis tidak menulis tentang perlunya skala yang sebanding dari distribusi yang dapat dijumlahkan: jika yang satu secara signifikan mendominasi yang lain, itu akan menyatu dengan sangat buruk. Dan, secara umum, kemandirian bersama yang mutlak tidak diperlukan, ketergantungan yang lemah sudah cukup.

Yah, itu mungkin untuk pesta, seperti yang dia tulis.


Ini disebut " teorema limit pusat", dan Anda perlu tahu apa itu, mengapa disebut demikian dan apa artinya, jika tidak mereka akan langsung menertawakannya.

Dalam konteksnya, normal terkait dengan semua distribusi. Meskipun pada dasarnya terkait dengan distribusi semua jumlah. Jumlah percobaan Bernoulli mengikuti distribusi binomial dan, dengan bertambahnya jumlah percobaan, distribusi binomial ini semakin mendekati distribusi normal. Demikian pula, sepupunya adalah distribusi hipergeometrik. Distribusi Poisson - bentuk pembatas dari binomial - juga mendekati normal dengan meningkatnya parameter intensitas.

Hasil yang mengikuti distribusi lognormal memberikan nilai yang logaritmanya terdistribusi normal. Atau dengan cara lain: eksponen dari nilai yang terdistribusi normal terdistribusi lognormal. Jika jumlahnya terdistribusi normal, maka ingat juga bahwa produk terdistribusi lognormal.

Distribusi-t siswa adalah dasar dari uji-t, yang dipelajari oleh banyak ahli non-statistik di bidang lain. Ini digunakan untuk membuat asumsi tentang rata-rata distribusi normal dan juga cenderung ke distribusi normal ketika parameternya meningkat. Ciri khas Distribusi t adalah ekornya yang lebih tebal dari pada distribusi normal.

Jika anekdot berekor gemuk belum cukup mengguncang tetangga Anda, lanjutkan ke kisah bir yang agak lucu. Lebih dari 100 tahun yang lalu, Guinness menggunakan statistik untuk meningkatkan kekuatannya. Kemudian William Seely Gosset menemukan yang benar-benar baru teori statistik untuk budidaya jelai yang lebih baik. Gosset meyakinkan bosnya bahwa pembuat bir lain tidak akan mengerti bagaimana menggunakan idenya dan mendapat izin untuk menerbitkannya, tetapi dengan nama samaran "Mahasiswa". Paling prestasi terkenal Gosset hanyalah distribusi-t ini, yang, bisa dikatakan, dinamai menurut namanya.

Akhirnya, distribusi chi-kuadrat adalah distribusi jumlah kuadrat dari kuantitas yang terdistribusi normal. Tes chi-kuadrat dibangun di atas distribusi ini, yang didasarkan pada jumlah perbedaan kuadrat, yang seharusnya terdistribusi secara normal.

Gamma dan beta

Pada titik ini, jika Anda sudah membicarakan sesuatu yang chi-kuadrat, percakapan dimulai dengan sungguh-sungguh. Anda mungkin sudah berbicara dengan ahli statistik nyata, dan mungkin ada baiknya untuk menyerah, karena hal-hal seperti distribusi gamma mungkin muncul. Ini adalah generalisasi dan eksponensial dan distribusi chi-kuadrat. Seperti distribusi eksponensial, ini digunakan untuk model latensi yang kompleks. Misalnya, distribusi gamma muncul ketika waktu ke n peristiwa berikutnya disimulasikan. Itu muncul di pembelajaran mesin sebagai "konjugasi sebelum" untuk beberapa distribusi lainnya.

Jangan masuk ke percakapan tentang distribusi konjugasi ini, tetapi jika Anda melakukannya, jangan lupa untuk menyebutkan distribusi beta, karena ini adalah konjugat sebelum sebagian besar distribusi yang disebutkan di sini. Ilmuwan data yakin bahwa untuk itulah ia dibuat. Sebutkan ini secara tidak sengaja dan pergi ke pintu.

Awal Kebijaksanaan

Distribusi probabilitas adalah sesuatu yang tidak dapat Anda ketahui terlalu banyak. Yang benar-benar tertarik dapat merujuk ke peta super-detail dari semua distribusi probabilitas. Tambahkan tag

Terlepas dari namanya yang eksotis, distribusi umum terkait satu sama lain dengan cara yang intuitif dan cukup menarik untuk membuatnya mudah diingat dan dibicarakan dengan percaya diri. Beberapa secara alami mengikuti, misalnya, dari distribusi Bernoulli. Saatnya menunjukkan peta koneksi ini.

Setiap distribusi diilustrasikan dengan contoh fungsi densitas distribusi (DDF). Artikel ini hanya tentang distribusi yang hasilnya berupa angka tunggal. Oleh karena itu, sumbu horizontal setiap grafik adalah himpunan kemungkinan angka-hasil. Vertikal - probabilitas setiap hasil. Beberapa distribusi bersifat diskrit - hasilnya harus bilangan bulat, seperti 0 atau 5. Ini ditunjukkan oleh garis renggang, satu untuk setiap hasil, dengan tinggi yang sesuai dengan probabilitas hasil ini. Beberapa kontinu, hasilnya dapat mengambil nilai numerik apa pun, seperti -1,32 atau 0,005. Ini ditunjukkan sebagai kurva padat dengan area di bawah bagian kurva yang memberikan probabilitas. Jumlah tinggi garis dan luas daerah di bawah kurva selalu 1.

Cetak, potong sepanjang garis putus-putus, dan bawa bersama Anda di dompet Anda. Ini adalah panduan Anda ke negara distribusi dan kerabat mereka.

Bernoulli dan seragam

Anda telah memenuhi distribusi Bernoulli di atas, dengan dua hasil - kepala atau ekor. Bayangkan sekarang sebagai distribusi lebih dari 0 dan 1, 0 menjadi kepala dan 1 menjadi ekor. Seperti yang sudah jelas, kedua hasil memiliki kemungkinan yang sama, dan ini tercermin dalam diagram. FPR Bernoulli berisi dua garis dengan ketinggian yang sama, mewakili 2 hasil yang kemungkinannya sama: 0 dan 1, masing-masing.

Distribusi Bernoulli juga dapat mewakili hasil yang tidak setara, seperti melempar koin yang salah. Maka probabilitas kepala tidak akan 0,5, tetapi beberapa nilai p lainnya, dan probabilitas ekor akan menjadi 1-p. Seperti banyak distribusi lainnya, sebenarnya ini adalah seluruh keluarga distribusi yang diberikan parameter tertentu, seperti p di atas. Ketika Anda berpikir "Bernoulli" - pikirkan tentang "melempar koin (mungkin salah)."

Dari sini, ini adalah langkah yang sangat kecil untuk menyajikan distribusi pada beberapa hasil yang tidak mungkin sama: distribusi seragam yang dicirikan oleh PDF datar. Bayangkan dadu yang benar. Hasil nya 1-6 sama-sama mungkin. Itu dapat diatur untuk sejumlah hasil n, dan bahkan sebagai distribusi kontinu.

Pikirkan distribusi genap sebagai "dadu yang benar".

Binomial dan hipergeometrik

Distribusi binomial dapat dianggap sebagai jumlah hasil dari hal-hal yang mengikuti distribusi Bernoulli.

Balikkan koin yang jujur ​​dua kali - berapa kali itu akan menjadi kepala? Ini adalah bilangan yang mematuhi distribusi binomial. Parameternya adalah n, jumlah percobaan, dan p adalah probabilitas "sukses" (dalam kasus kami, kepala atau 1). Setiap gulungan adalah hasil atau tes yang didistribusikan Bernoulli. Gunakan distribusi binomial ketika menghitung jumlah keberhasilan dalam hal-hal seperti melempar koin, di mana setiap lemparan tidak tergantung pada yang lain dan memiliki probabilitas keberhasilan yang sama.

Atau bayangkan sebuah guci dengan jumlah bola putih dan hitam yang sama. Tutup mata Anda, cabut bolanya, tuliskan warnanya dan kembalikan. Ulang. Berapa kali bola hitam terambil? Angka ini juga mengikuti distribusi binomial.

Kami menyajikan situasi aneh ini untuk memudahkan memahami arti dari distribusi hipergeometrik. Ini adalah distribusi nomor yang sama, tetapi dalam situasi jika kita bukan mengembalikan bola. Ini jelas merupakan sepupu dari distribusi binomial, tetapi tidak sama, karena probabilitas keberhasilan berubah dengan setiap bola yang ditarik. Jika jumlah bola cukup besar dibandingkan dengan jumlah undian, maka distribusi ini hampir sama, karena peluang keberhasilan berubah sangat sedikit dengan setiap undian.

Ketika seseorang berbicara tentang menggambar bola dari guci tanpa kembali, hampir selalu aman untuk mengatakan "ya, distribusi hipergeometrik", karena dalam hidup saya, saya belum pernah bertemu orang yang benar-benar akan mengisi guci dengan bola dan kemudian mengeluarkannya dan kembali mereka, atau sebaliknya. Aku bahkan tidak punya teman dengan guci. Bahkan lebih sering, distribusi ini harus muncul ketika memilih subset yang signifikan dari beberapa populasi umum sebagai sampel.

Catatan. terjemahan

Mungkin tidak terlalu jelas di sini, tetapi karena tutorial dan kursus kilat untuk pemula, perlu dijelaskan. Populasi adalah sesuatu yang ingin kita evaluasi secara statistik. Untuk mengestimasi, kita memilih bagian tertentu (subset) dan membuat estimasi yang diperlukan (kemudian subset ini disebut sampel), dengan asumsi bahwa estimasi akan serupa untuk seluruh populasi. Tetapi agar ini benar, batasan tambahan sering diperlukan pada definisi subset sampel (atau sebaliknya, dari sampel yang diketahui, kita perlu mengevaluasi apakah itu menggambarkan populasi dengan cukup akurat).

Contoh praktis - kita perlu memilih perwakilan dari perusahaan yang terdiri dari 100 orang untuk melakukan perjalanan ke E3. Diketahui bahwa 10 orang telah melakukan perjalanan di dalamnya tahun lalu (tetapi tidak ada yang dikenali). Berapa banyak minimum yang harus diambil sehingga setidaknya satu kawan yang berpengalaman kemungkinan akan berada di grup? Dalam hal ini populasinya 100, sampelnya 10, dan syarat sampelnya minimal satu orang yang sudah pernah menaiki E3.

Wikipedia memiliki contoh yang kurang lucu tetapi lebih praktis tentang suku cadang yang rusak dalam satu batch.

racun

Bagaimana dengan jumlah pelanggan yang menelepon hotline dukungan teknis setiap menit? Ini adalah hasil yang distribusinya sekilas binomial, jika kita menganggap setiap detik sebagai percobaan Bernoulli, di mana pelanggan tidak menelepon (0) atau menelepon (1). Tetapi organisasi catu daya tahu betul: ketika listrik dimatikan, dua orang dapat menelepon dalam sedetik. atau bahkan lebih dari seratus dari orang-orang. Menyajikannya sebagai percobaan 60.000 milidetik juga tidak membantu - ada lebih banyak percobaan, kemungkinan panggilan per milidetik lebih kecil, bahkan jika Anda tidak menghitung dua atau lebih pada saat yang sama, tetapi, secara teknis, ini masih bukan Tes Bernoulli. Namun, penalaran logis bekerja dengan transisi ke tak terhingga. Biarkan n menuju tak terhingga dan p menuju 0, sehingga np konstan. Ini seperti membagi waktu menjadi lebih kecil dan lebih kecil dengan peluang panggilan yang semakin kecil. Dalam limitnya, kita mendapatkan distribusi Poisson.

Sama seperti distribusi binomial, distribusi Poisson adalah distribusi kuantitas: berapa kali sesuatu terjadi. Ini diparametrikan bukan oleh probabilitas p dan jumlah percobaan n, tetapi oleh intensitas rata-rata , yang, dalam analogi dengan binomial, hanyalah nilai konstan np. Distribusi Poisson adalah diperlukan ingat ketika harus menghitung peristiwa untuk waktu tertentu pada intensitas tertentu yang konstan.

Ketika ada sesuatu seperti paket yang tiba di router atau pelanggan yang muncul di toko atau sesuatu yang menunggu dalam antrean, pikirkan Poisson.

Binomial geometris dan negatif

Dari percobaan Bernoulli sederhana, distribusi lain muncul. Berapa kali koin muncul ekor sebelum muncul kepala? Jumlah ekor mengikuti distribusi geometrik. Seperti distribusi Bernoulli, distribusi ini diparametrikan oleh probabilitas hasil yang sukses, hal. Itu tidak diparametrikan dengan jumlah n, jumlah percobaan, karena jumlah percobaan yang gagal justru adalah hasilnya.

Jika distribusi binomialnya adalah “berapa sukses”, maka distribusi geometrisnya adalah “Berapa banyak kegagalan sebelum sukses?”.

Distribusi binomial negatif adalah generalisasi sederhana dari yang sebelumnya. Ini adalah jumlah kegagalan sebelum ada r, bukan 1, keberhasilan. Oleh karena itu, juga diparametrikan oleh r ini. Kadang-kadang digambarkan sebagai jumlah keberhasilan sebelum r kegagalan. Tapi, seperti yang dikatakan pelatih hidup saya: "Anda memutuskan apa itu sukses dan apa itu kegagalan", jadi ini sama, jika Anda tidak lupa bahwa probabilitas p juga harus menjadi probabilitas yang benar untuk sukses atau gagal, masing-masing.

Jika Anda membutuhkan lelucon untuk meredakan ketegangan, Anda dapat menyebutkan bahwa distribusi binomial dan hipergeometrik adalah pasangan yang jelas, tetapi distribusi binomial geometris dan negatif juga sangat mirip, dan kemudian menyatakan “Nah, siapa yang memanggil mereka semua seperti itu, ya? ”

Eksponensial dan Weibull

Sekali lagi tentang panggilan ke dukungan teknis: berapa lama waktu yang dibutuhkan sebelum panggilan berikutnya? Distribusi waktu tunggu ini tampaknya geometris, karena setiap detik sampai tidak ada panggilan seperti kegagalan, sampai detik, sampai akhirnya panggilan terjadi. Jumlah kegagalan seperti jumlah detik sampai tidak ada yang menelepon, dan ini praktis waktu sampai panggilan berikutnya, tetapi "praktis" tidak cukup bagi kami. Intinya adalah bahwa waktu ini akan menjadi jumlah seluruh detik, dan dengan demikian tidak mungkin menghitung waktu tunggu dalam detik ini sebelum panggilan itu sendiri.

Nah, seperti sebelumnya, kita melewati distribusi geometrik ke limit, sehubungan dengan fraksi waktu - dan voila. Kami mendapatkan distribusi eksponensial , yang secara akurat menggambarkan waktu sebelum panggilan. Ini adalah distribusi kontinu, yang pertama kita miliki, karena hasilnya tidak harus dalam hitungan detik. Seperti distribusi Poisson, distribusi ini diparametrikan oleh intensitas .

Menggemakan hubungan antara binomial dan geometris, Poisson "berapa banyak peristiwa dalam satu waktu?" terkait dengan eksponensial "berapa lama sebelum acara?". Jika ada kejadian-kejadian yang jumlahnya per satuan waktu mengikuti distribusi Poisson, maka waktu antara keduanya mengikuti distribusi eksponensial dengan parameter yang sama. Korespondensi antara dua distribusi ini harus dicatat ketika salah satu dibahas.

Distribusi eksponensial harus diingat ketika berpikir tentang "waktu untuk acara", mungkin "waktu untuk gagal". Faktanya, ini adalah situasi yang penting sehingga ada distribusi yang lebih umum untuk menggambarkan MTBF, seperti distribusi Weibull. Sementara distribusi eksponensial sesuai ketika tingkat keausan atau kegagalan, misalnya, konstan, distribusi Weibull dapat memodelkan tingkat kegagalan yang meningkat (atau menurun) dari waktu ke waktu. Eksponensial, secara umum, kasus khusus.

Pikirkan Weibull dalam hal MTBF.

Normal, lognormal, Siswa dan chi-kuadrat

Distribusi normal, atau Gaussian, mungkin salah satu yang paling penting. Bentuknya yang berbentuk lonceng langsung dapat dikenali. Seperti , ini adalah entitas yang sangat ingin tahu yang memanifestasikan dirinya di mana-mana, bahkan dari sumber yang tampaknya paling sederhana. Ambil satu set nilai yang mematuhi distribusi yang sama - apa saja! - dan lipat. Distribusi jumlah mereka mengikuti distribusi (kurang lebih) normal. Semakin banyak hal dijumlahkan, semakin dekat jumlah mereka dengan distribusi normal (trik: distribusi istilah harus dapat diprediksi, independen, cenderung hanya normal). Bahwa memang demikian, terlepas dari distribusi aslinya, sungguh menakjubkan.

Catatan. terjemahan

Saya terkejut bahwa penulis tidak menulis tentang perlunya skala yang sebanding dari distribusi yang dapat dijumlahkan: jika yang satu secara signifikan mendominasi yang lain, itu akan menyatu dengan sangat buruk. Dan, secara umum, kemandirian bersama yang mutlak tidak diperlukan, ketergantungan yang lemah sudah cukup.

Yah, itu mungkin untuk pesta, seperti yang dia tulis.


Ini disebut " teorema limit pusat", dan Anda perlu tahu apa itu, mengapa disebut demikian dan apa artinya, jika tidak mereka akan langsung menertawakannya.

Dalam konteksnya, normal terkait dengan semua distribusi. Meskipun pada dasarnya terkait dengan distribusi semua jumlah. Jumlah percobaan Bernoulli mengikuti distribusi binomial dan, dengan bertambahnya jumlah percobaan, distribusi binomial ini semakin mendekati distribusi normal. Demikian pula, sepupunya adalah distribusi hipergeometrik. Distribusi Poisson - bentuk pembatas dari binomial - juga mendekati normal dengan meningkatnya parameter intensitas.

Hasil yang mengikuti distribusi lognormal memberikan nilai yang logaritmanya terdistribusi normal. Atau dengan cara lain: eksponen dari nilai yang terdistribusi normal terdistribusi lognormal. Jika jumlahnya terdistribusi normal, maka ingat juga bahwa produk terdistribusi lognormal.

Distribusi-t siswa adalah dasar dari uji-t, yang dipelajari oleh banyak ahli non-statistik di bidang lain. Ini digunakan untuk membuat asumsi tentang rata-rata distribusi normal dan juga cenderung ke distribusi normal ketika parameternya meningkat. Ciri khas dari distribusi t adalah ekornya yang lebih tebal dari pada distribusi normal.

Jika anekdot berekor gemuk belum cukup mengguncang tetangga Anda, lanjutkan ke kisah bir yang agak lucu. Lebih dari 100 tahun yang lalu, Guinness menggunakan statistik untuk meningkatkan kekuatannya. Saat itulah William Seeley Gosset menemukan teori statistik yang sama sekali baru untuk meningkatkan budidaya jelai. Gosset meyakinkan bosnya bahwa pembuat bir lain tidak akan mengerti bagaimana menggunakan idenya dan mendapat izin untuk menerbitkannya, tetapi dengan nama samaran "Mahasiswa". Pencapaian Gosset yang paling terkenal justru adalah distribusi-t ini, yang, bisa dikatakan, dinamai menurut namanya.

Akhirnya, distribusi chi-kuadrat adalah distribusi jumlah kuadrat dari kuantitas yang terdistribusi normal. Tes chi-kuadrat dibangun di atas distribusi ini, yang didasarkan pada jumlah perbedaan kuadrat, yang seharusnya terdistribusi secara normal.

Gamma dan beta

Pada titik ini, jika Anda sudah membicarakan sesuatu yang chi-kuadrat, percakapan dimulai dengan sungguh-sungguh. Anda mungkin sudah berbicara dengan ahli statistik nyata, dan mungkin ada baiknya untuk menyerah, karena hal-hal seperti distribusi gamma mungkin muncul. Ini adalah generalisasi dan eksponensial dan distribusi chi-kuadrat. Seperti distribusi eksponensial, ini digunakan untuk model latensi yang kompleks. Misalnya, distribusi gamma muncul ketika waktu ke n peristiwa berikutnya disimulasikan. Itu muncul dalam pembelajaran mesin sebagai "adjoint prior" untuk beberapa distribusi lainnya.

Jangan masuk ke percakapan tentang distribusi konjugasi ini, tetapi jika Anda melakukannya, jangan lupa untuk menyebutkan distribusi beta, karena ini adalah konjugat sebelum sebagian besar distribusi yang disebutkan di sini. Ilmuwan data yakin bahwa untuk itulah ia dibuat. Sebutkan ini secara tidak sengaja dan pergi ke pintu.

Awal Kebijaksanaan

Distribusi probabilitas adalah sesuatu yang tidak dapat Anda ketahui terlalu banyak. Yang benar-benar tertarik dapat merujuk ke peta super-detail dari semua distribusi probabilitas. Tambahkan tag

kejadian acak adalah setiap fakta yang, sebagai hasil dari suatu pengujian, dapat terjadi atau tidak. kejadian acak adalah hasil tes. Uji coba- ini adalah eksperimen, pemenuhan serangkaian kondisi tertentu di mana fenomena ini atau itu diamati, hasil ini atau itu tetap.

Peristiwa ditunjukkan dengan huruf kapital alfabet Latin A, B, C.

Ukuran numerik derajat objektivitas kemungkinan terjadinya suatu peristiwa disebut peluang suatu kejadian acak.

Definisi klasik peluang kejadian A:

Peluang suatu kejadian A sama dengan perbandingan banyaknya kasus yang menguntungkan kejadian A(m) terhadap jumlah total kasus (n).

Definisi statistik kemungkinan

Frekuensi kejadian relatif adalah proporsi dari tes yang benar-benar dilakukan di mana peristiwa A muncul W=P*(A)= m/n. Ini adalah karakteristik eksperimental eksperimental, di mana m adalah jumlah eksperimen di mana peristiwa A muncul; n adalah jumlah semua percobaan yang dilakukan.

Peluang suatu kejadian nomor di mana nilai frekuensi dikelompokkan disebut acara ini dalam berbagai seri jumlah yang besar uji P(A)=.

Peristiwa tersebut disebut tidak cocok jika terjadinya salah satunya meniadakan munculnya yang lain. Jika tidak, acara persendian.

Jumlah dua peristiwa adalah peristiwa di mana setidaknya satu dari peristiwa ini (A atau B) muncul.

Jika A dan B persendian peristiwa, maka jumlah mereka A + B menunjukkan terjadinya peristiwa A atau peristiwa B, atau kedua peristiwa bersama-sama.

Jika A dan B tidak cocok kejadian, maka jumlah A + B berarti terjadinya kejadian A atau kejadian B.

2. Konsep kejadian dependen dan independen. Probabilitas bersyarat, hukum (teorema) perkalian probabilitas. rumus Bayes.

Peristiwa B disebut mandiri dari peristiwa A, jika terjadinya peristiwa A tidak mengubah peluang terjadinya peristiwa B. Peluang terjadinya beberapa mandiri peristiwa sama dengan produk dari probabilitas ini:

P(AB) = P(A)*P(B)

Untuk bergantung acara:

P(AB) = P(A)*P(B/A).

Probabilitas produk dari dua peristiwa sama dengan produk dari probabilitas salah satu dari mereka dengan probabilitas bersyarat lain, ditemukan dengan asumsi bahwa peristiwa pertama terjadi.

Probabilitas Bersyarat kejadian B adalah peluang kejadian B, ditemukan dengan syarat kejadian A terjadi. Ditunjuk P(B/A)

Kerja dua kejadian adalah kejadian yang terdiri dari kejadian bersama dari kejadian tersebut (A dan B)

Rumus Bayes digunakan untuk mengevaluasi kembali kejadian acak

P(H/A) = (P(H)*P(A/H))/P(A)

P(H) - probabilitas apriori dari kejadian H

P(H/A) adalah probabilitas posterior dari hipotesis H, asalkan peristiwa A telah terjadi

P(A/H) – penilaian ahli

P(A) - probabilitas penuh dari kejadian A

3. Distribusi variabel acak diskrit dan kontinu serta karakteristiknya: ekspektasi matematis, varians, standar deviasi. Hukum normal distribusi variabel acak kontinu.

Nilai acak- ini adalah nilai yang, sebagai hasil dari pengujian, tergantung pada kasusnya, mengambil salah satu dari kumpulan nilainya yang mungkin.

Diskrit nilai acak itu adalah variabel acak ketika mengambil serangkaian nilai yang terpisah, terisolasi, dan dapat dihitung.

Variabel acak kontinu adalah variabel acak yang mengambil nilai dari interval tertentu. Konsep variabel acak kontinu muncul selama pengukuran.

Untuk diskrit variabel acak, hukum distribusi dapat diberikan dalam bentuk meja, secara analitis (sebagai rumus), dan secara grafis.

Meja ini adalah bentuk paling sederhana dari pengaturan hukum distribusi

Persyaratan:

untuk variabel acak diskrit

Analitis:

1)F(x)=P(X

Fungsi distribusi = fungsi distribusi kumulatif. Untuk variabel acak diskrit dan kontinu.

2)f(x) = F'(x)

Kerapatan probabilitas = fungsi distribusi diferensial untuk variabel acak kontinu saja.

Grafis:

S-va: 1) 0≤F(x)≤1

2) tidak menurun untuk variabel acak diskrit

S-va: 1) f(x)≥0 P(x)=

2) luas S=1

untuk variabel acak kontinu

Karakteristik:

1. ekspektasi matematis - rata-rata kejadian yang paling mungkin

Untuk variabel acak diskrit.

Untuk variabel acak kontinu.

2) Dispersi - hamburan di sekitar ekspektasi matematis

Untuk variabel acak diskrit:

D(x)=x i -M(x)) 2 *p i

Untuk variabel acak kontinu:

D(x)=x-M(x)) 2 *f(x)dx

3) Standar deviasi:

(x)=√(D(x))

- standar deviasi atau standar

x adalah nilai aritmatika dari akar kuadrat variansnya

Hukum distribusi normal (NZR) - hukum Gaussian

IRR adalah peluruhan probabilitas dari variabel acak kontinu, yang dijelaskan oleh fungsi diferensial

Bagian 6. Hukum distribusi tipikal dan karakteristik numerik dari variabel acak

Bentuk fungsi F(x), p(x), atau pencacahan p(x i) disebut hukum distribusi variabel acak. Sementara orang dapat membayangkan variasi tak terbatas dari variabel acak, ada hukum distribusi yang jauh lebih sedikit. Pertama, variabel acak yang berbeda dapat memiliki hukum distribusi yang sama persis. Misal: misalkan y ambil saja 2 nilai 1 dan -1 dengan probabilitas 0,5; nilai z = -y memiliki hukum distribusi yang sama persis.
Kedua, sangat sering variabel acak memiliki hukum distribusi yang serupa, yaitu, misalnya, p(x) untuk mereka dinyatakan oleh rumus dengan bentuk yang sama, hanya berbeda dalam satu atau lebih konstanta. Konstanta ini disebut parameter distribusi.

Meskipun pada prinsipnya berbagai macam hukum distribusi dimungkinkan, beberapa hukum yang paling umum akan dipertimbangkan di sini. Penting untuk memperhatikan kondisi di mana mereka muncul, parameter dan sifat distribusi ini.

satu . Distribusi seragam
Ini adalah nama distribusi variabel acak yang dapat mengambil nilai apa pun dalam interval (a,b), dan probabilitas jatuh ke segmen mana pun di dalam (a,b) sebanding dengan panjang segmen dan tidak tergantung pada posisinya, dan probabilitas nilai di luar (a,b ) sama dengan 0.


Gambar 6.1 Fungsi dan densitas distribusi seragam

Parameter distribusi: a , b

2. Distribusi normal
Distribusi dengan kepadatan dijelaskan oleh rumus

(6.1)

disebut biasa.
Parameter distribusi: a ,


Gambar 6.2 Tampilan tipikal fungsi densitas dan distribusi normal

3 . Distribusi Bernoulli
Jika dilakukan serangkaian percobaan bebas, dimana setiap kejadian A dapat muncul dengan peluang p yang sama, maka banyaknya kejadian dari kejadian tersebut adalah peubah acak yang terdistribusi menurut hukum Bernoulli, atau menurut hukum binomial. (nama distribusi lain).

Di sini n adalah jumlah percobaan dalam deret, m adalah variabel acak (jumlah kemunculan peristiwa A), P n (m) adalah probabilitas bahwa A akan terjadi tepat m kali, q \u003d 1 - p ( probabilitas bahwa A tidak muncul dalam tes).

Contoh 1 Sebuah dadu dilempar sebanyak 5 kali, berapa peluang sebuah dadu dilempar dua kali?
n=5, m=2, p=1/6, q=5/6

Parameter distribusi: n, p

4 . distribusi racun
Distribusi Poisson diperoleh sebagai kasus pembatas dari distribusi Bernoulli jika p cenderung nol dan n cenderung tak hingga, tetapi sedemikian rupa sehingga produk mereka tetap konstan: nр = a. Secara formal, jalan menuju batas seperti itu mengarah ke rumus

Parameter distribusi: a

Distribusi Poisson tunduk pada banyak variabel acak yang ditemui dalam sains dan kehidupan praktis.

Contoh 2: Jumlah panggilan yang diterima di stasiun ambulans dalam satu jam.
Mari kita bagi interval waktu T (1 jam) menjadi interval kecil dt, sehingga probabilitas menerima dua atau lebih panggilan selama dt dapat diabaikan, dan probabilitas satu panggilan p sebanding dengan dt: p = dt ;
kita akan menganggap pengamatan selama momen dt sebagai percobaan bebas, jumlah percobaan tersebut selama waktu T: n = T / dt;
jika kita berasumsi bahwa probabilitas menerima panggilan tidak berubah selama satu jam, maka jumlah panggilan mematuhi hukum Bernoulli dengan parameter: n = T / dt, p = dt. Membiarkan dt cenderung nol, kita mendapatkan bahwa n cenderung tak terhingga, dan produk n × p tetap konstan: a = n × p = T.

Contoh 3: jumlah molekul gas ideal dalam beberapa volume tetap V.
Mari kita bagi volume V menjadi volume kecil dV sedemikian rupa sehingga probabilitas menemukan dua atau lebih molekul dalam dV dapat diabaikan, dan probabilitas menemukan satu molekul sebanding dengan dV: = dV; kita akan menganggap pengamatan setiap volume dV sebagai pengujian independen, jumlah pengujian tersebut adalah n=V/dV; jika kita berasumsi bahwa probabilitas menemukan molekul di manapun di dalam V adalah sama, jumlah total molekul dalam volume V mematuhi hukum Bernoulli dengan parameter: n = V / dV, p = dV. Membiarkan dV cenderung nol, kita mendapatkan bahwa n cenderung tak terhingga, dan produk n × p tetap konstan: a = n × p = V.

Karakteristik numerik dari variabel acak

satu . Harapan matematis (nilai rata-rata)

Definisi:
Harapan matematisnya adalah
  (6.4)

Jumlahnya diambil alih semua nilai yang diambil variabel acak. Deret tersebut harus benar-benar konvergen (jika tidak, variabel acak dikatakan tidak memiliki ekspektasi matematis)

;   (6.5)

Integral harus benar-benar konvergen (jika tidak, variabel acak dikatakan tidak memiliki nilai harapan)


Sifat-sifat ekspektasi matematis:

sebuah. Jika C adalah nilai konstan, maka MC = C
b. Mx = Smx
c. Ekspektasi matematis dari jumlah variabel acak selalu sama dengan jumlah ekspektasi matematisnya: (х+y) = + y d . Konsep ekspektasi matematis bersyarat diperkenalkan. Jika variabel acak mengambil nilai x i dengan probabilitas yang berbeda p(x i /H j) di bawah kondisi yang berbeda H j , maka harapan bersyarat ditentukan oleh

sebagai atau ;   (6.6)

Jika peluang kejadian Hj diketahui, maka

nilai yang diharapkan: ;   (6.7)

Contoh 4: Berapa kali, rata-rata, Anda perlu melempar koin sebelum lambang pertama muncul? Masalah ini dapat diselesaikan "di dahi"

x saya 1 2 3 ... k..
p(x i) :  ,

namun jumlah ini masih perlu dihitung. Anda dapat melakukannya dengan lebih mudah, menggunakan konsep ekspektasi matematis bersyarat dan penuh. Pertimbangkan hipotesis H 1 - lambang jatuh untuk pertama kalinya, H 2 - tidak rontok pertama kali. Jelas, p (H 1) \u003d p (H 2) \u003d ; Mx / H 1 \u003d 1;
Mx / H 2 lebih 1 dari harapan penuh yang diinginkan, karena setelah pelemparan koin pertama, situasinya tidak berubah, tetapi setelah koin dilempar. Menggunakan rumus harapan matematis penuh, kami memiliki Mx \u003d Mx / H 1 × p (H 1) + Mx / H 2 × p (H 2) \u003d 1 × 0,5 + (Mx + 1) × 0,5, memecahkan persamaan untuk Mx, kita langsung mendapatkan Mx = 2.

e. Jika f(x) adalah fungsi dari variabel acak x, maka konsep ekspektasi matematis dari fungsi variabel acak didefinisikan:

Untuk variabel acak diskrit: ;   (6.8)

Jumlahnya diambil alih semua nilai yang diambil variabel acak. Deret tersebut harus benar-benar konvergen.

Untuk variabel acak kontinu: ;   (6.9)

Integral harus benar-benar konvergen.

2. Varians dari variabel acak
Definisi:
Dispersi variabel acak x adalah ekspektasi matematis dari deviasi kuadrat nilai besaran dari ekspektasi matematisnya: Dx = M(x-Mx) 2

Untuk variabel acak diskrit: ;   (6.10)

Jumlahnya diambil alih semua nilai yang diambil variabel acak. Deret harus konvergen (jika tidak, variabel acak dikatakan tidak memiliki varians)

Untuk variabel acak kontinu: ;   (6.11)

Integral harus konvergen (jika tidak, variabel acak dikatakan tidak memiliki varians)

Sifat dispersi:
sebuah. Jika C adalah nilai konstan, maka DC = 0
b. DСх = 2 Dх
c. Varians jumlah variabel acak selalu sama dengan jumlah variansnya hanya jika variabel-variabel tersebut bebas (definisi variabel bebas)
d. Untuk menghitung varians, lebih mudah menggunakan rumus:

Dx = Mx 2 - (Mx) 2 (6,12)

Hubungan karakteristik numerik
dan parameter distribusi tipikal

distribusipilihanrumusMxDx
seragama , b (b+a) / 2(b-a) 2 / 12
normalsebuah , sebuah2
Bernoullin,p npnpq
Poisonsebuah sebuahsebuah