Distribuția probabilității. Distribuția binomială a unei variabile aleatoare discrete

Teoria probabilității este o ramură a matematicii care studiază tiparele fenomenelor aleatoare: evenimente aleatoare, variabile aleatoare, proprietățile lor și operațiunile asupra lor.

Perioadă lungă de timp teoria probabilității nu avea o definiție clară. A fost formulat abia în 1929. Apariția teoriei probabilităților ca știință este atribuită Evului Mediu și primelor încercări analiză matematică jocuri de noroc (aruncare, zaruri, ruletă). matematicienii francezi Blaise Pascal și Pierre Fermat din secolul al XVII-lea, explorând predicția câștigurilor în jocuri de noroc, a descoperit primele modele probabilistice care apar la aruncarea zarurilor.

Teoria probabilității a apărut ca știință din credința că anumite regularități stau la baza evenimentelor aleatorii masive. Teoria probabilității studiază aceste modele.

Teoria probabilității se ocupă cu studiul evenimentelor, a căror apariție nu este cunoscută cu siguranță. Vă permite să judecați gradul de probabilitate a apariției unor evenimente în comparație cu altele.

De exemplu: este imposibil să se determine fără ambiguitate rezultatul pierderii „capetelor” sau „cozilor” ca urmare a aruncării unei monede, dar cu aruncări multiple, aproximativ acelasi numar cap și coadă, ceea ce înseamnă că există o șansă de 50% de a obține cap sau coadă.

Testîn acest caz, se numește implementarea unui anumit set de condiții, adică în acest caz aruncatul monedei. Provocarea poate fi jucată de un număr nelimitat de ori. În acest caz, complexul de condiții include factori aleatori.

Rezultatul testului este eveniment. Evenimentul are loc:

  1. Fiabil (apare întotdeauna ca rezultat al testării).
  2. Imposibil (nu se întâmplă niciodată).
  3. Aleatoriu (poate să apară sau nu ca rezultat al testului).

De exemplu, când arunci o monedă eveniment imposibil- moneda va fi pe muchie, un eveniment aleatoriu - pierderea de „capete” sau „cozi”. Rezultatul testului specific este numit eveniment elementar. În urma testului, apar doar evenimente elementare. Se numește totalitatea tuturor rezultatelor posibile, diferite, specifice ale testului spațiu de eveniment elementar.

Concepte de bază ale teoriei

Probabilitate- gradul de posibilitate a producerii evenimentului. Atunci când motivele pentru care un eveniment posibil să apară efectiv depășesc motivele opuse, atunci acest eveniment se numește probabil, în caz contrar - improbabil sau improbabil.

Valoare aleatoare- aceasta este o valoare care, în urma testului, poate lua una sau alta valoare și nu se știe dinainte care dintre ele. De exemplu: numărul de stații de pompieri pe zi, numărul de lovituri cu 10 lovituri etc.

Variabilele aleatoare pot fi împărțite în două categorii.

  1. Variabilă aleatoare discretă numită o astfel de valoare, care în urma testului poate lua anumite valori cu o anumită probabilitate, formând o mulțime numărabilă (mulțime ale cărei elemente pot fi numerotate). Acest set poate fi fie finit, fie infinit. De exemplu, numărul de lovituri înainte de prima lovitură asupra țintei este o variabilă aleatorie discretă, deoarece această valoare poate lua un număr infinit, deși numărabil, de valori.
  2. Variabilă aleatoare continuă este o mărime care poate lua orice valoare dintr-un interval finit sau infinit. Evident, numărul de valori posibile ale unei variabile aleatoare continue este infinit.

Spațiu de probabilitate- conceptul introdus de A.N. Kolmogorov în anii 30 ai secolului XX pentru a oficializa conceptul de probabilitate, care a dat naștere la dezvoltare rapida teoria probabilităţilor ca disciplină matematică riguroasă.

Spațiul de probabilitate este un triplu (uneori încadrat între paranteze unghiulare: , unde

Acesta este o mulțime arbitrară, ale cărei elemente sunt numite evenimente elementare, rezultate sau puncte;
- sigma-algebra de submultimi numite evenimente (aleatorie);
- măsură sau probabilitate probabilistă, i.e. măsură finită sigma-aditivă astfel încât .

Teorema lui De Moivre-Laplace- una dintre teoremele limitative ale teoriei probabilităților, stabilită de Laplace în 1812. Ea afirmă că numărul de succese în repetarea aceluiași experiment aleatoriu cu două rezultate posibile este distribuit aproximativ normal. Vă permite să găsiți o valoare aproximativă a probabilității.

Dacă, pentru fiecare dintre încercările independente, probabilitatea apariției unui eveniment aleatoriu este egală cu () și este numărul de încercări în care are loc efectiv, atunci probabilitatea de valabilitate a inegalității este apropiată (pentru mari ) la valoarea integralei Laplace.

Funcția de distribuție în teoria probabilităților- o funcţie care caracterizează distribuţia unei variabile aleatoare sau a unui vector aleator; probabilitatea ca valoare aleatorie X va lua o valoare mai mică sau egală cu x, unde x este arbitrar numar real. În anumite condiții, determină complet o variabilă aleatorie.

Valorea estimata- valoarea medie a unei variabile aleatoare (aceasta este distribuția de probabilitate a unei variabile aleatoare, considerată în teoria probabilității). În literatura engleză, este notat cu, în rusă -. În statistică, notația este adesea folosită.

Să fie date un spațiu de probabilitate și o variabilă aleatoare definite pe acesta. Adică, prin definiție, o funcție măsurabilă. Atunci, dacă există o integrală Lebesgue a supra-spațiului , atunci se numește așteptare matematică, sau valoare medie, și se notează cu .

Varianta unei variabile aleatoare- o măsură a răspândirii unei variabile aleatoare date, adică abaterea acesteia de la așteptările matematice. Desemnat în literatura rusă și în străinătate. În statistică, denumirea sau este adesea folosită. Rădăcină pătrată a varianței se numește abatere standard, abatere standard sau spread standard.

Fie o variabilă aleatoare definită pe unele spațiu de probabilitate. Apoi

unde simbolul reprezintă valorea estimata.

În teoria probabilității, doi evenimente aleatorii numit independent dacă apariţia unuia dintre ele nu modifică probabilitatea apariţiei celuilalt. În mod similar, sunt numite două variabile aleatoare dependent dacă valoarea unuia dintre ele afectează probabilitatea valorilor celuilalt.

Cea mai simplă formă de drept numere mari- aceasta este teorema lui Bernoulli, care afirmă că dacă probabilitatea unui eveniment este aceeași în toate încercările, atunci odată cu creșterea numărului de încercări, frecvența evenimentului tinde spre probabilitatea evenimentului și încetează să mai fie aleatorie.

Legea numerelor mari din teoria probabilității afirmă că media aritmetică a unui eșantion finit dintr-o distribuție fixă ​​este aproape de așteptarea medie teoretică a acelei distribuții. În funcție de tipul de convergență, se distinge o lege slabă a numerelor mari, când are loc convergența în probabilitate, și o lege puternică a numerelor mari, când convergența are loc aproape sigur.

Sensul general al legii numerelor mari - acțiune comună un numar mare factori aleatori identici și independenți duce la un rezultat care nu depinde de cazul în limită.

Metodele de estimare a probabilității pe baza analizei unui eșantion finit se bazează pe această proprietate. bun exemplu este o predicție a rezultatelor alegerilor bazată pe sondajul unui eșantion de alegători.

Teoreme limite centrale- o clasă de teoreme din teoria probabilităților care afirmă că suma unui număr suficient de mare de variabile aleatoare slab dependente care au aproximativ aceeași scară (niciunul dintre termeni nu domină, nu aduce o contribuție decisivă la sumă) are o distribuție apropiată de normal.

Deoarece multe variabile aleatorii din aplicații se formează sub influența mai multor factori aleatori slab dependenți, distribuția lor este considerată normală. În acest caz, trebuie observată condiția ca niciunul dintre factori să nu fie dominant. Teoremele limită centrale în aceste cazuri justifică aplicarea distribuției normale.

Secțiunea 6. Legile de distribuție tipice și caracteristicile numerice ale variabilelor aleatoare

Forma funcțiilor F(x), p(x) sau enumerarea p(x i) se numește legea de distribuție a variabilei aleatoare. Deși ne putem imagina o varietate infinită de variabile aleatoare, există mult mai puține legi ale distribuției. În primul rând, diferite variabile aleatoare pot avea exact aceleași legi de distribuție. De exemplu: să fie y să ia doar 2 valori 1 și -1 cu probabilități 0,5; valoarea z = -y are exact aceeași lege de distribuție.
În al doilea rând, de foarte multe ori variabilele aleatoare au legi de distribuție similare, adică, de exemplu, p(x) pentru ele este exprimat prin formule de aceeași formă, care diferă doar în una sau mai multe constante. Aceste constante sunt numite parametri de distribuție.

Deși, în principiu, cel mai mult legi diferite distribuție, unele dintre cele mai tipice legi vor fi luate în considerare aici. Este important să acordați atenție condițiilor în care apar, parametrilor și proprietăților acestor distribuții.

unu . Distributie uniforma
Acesta este numele distribuției unei variabile aleatoare care poate lua orice valoare în intervalul (a,b), iar probabilitatea de a cădea în orice segment din interiorul (a,b) este proporțională cu lungimea segmentului și nu depinde de poziția sa, iar probabilitatea valorilor din afara (a,b) este egală cu 0.


Fig 6.1 Funcția și densitatea distribuției uniforme

Parametri de distribuție: a , b

2. Distributie normala
Distribuția cu densitatea descrisă de formula

(6.1)

numit normal.
Parametri de distribuție: a , σ


Figura 6.2 Vedere tipică a densității și a funcției de distribuție normală

3 . distribuția Bernoulli
Dacă se efectuează o serie de încercări independente, în fiecare eveniment A poate apărea cu aceeași probabilitate p, atunci numărul de apariții ale evenimentului este o variabilă aleatorie distribuită conform legii Bernoulli, sau conform legii binomiale. (alt nume de distribuție).

Aici n este numărul de încercări din serie, m este o variabilă aleatorie (numărul de apariții ale evenimentului A), P n (m) este probabilitatea ca A să se întâmple exact de m ori, q \u003d 1 - p (cel probabilitatea ca A să nu apară în test ).

Exemplul 1: Un zar este aruncat de 5 ori, care este probabilitatea ca un 6 să fie aruncat de două ori?
n=5, m=2, p=1/6, q=5/6

Parametri de distribuție: n, p

4 . Distribuția Poisson
Distribuția Poisson se obține ca caz limitativ al distribuției Bernoulli dacă p tinde spre zero și n tinde spre infinit, dar în așa fel încât produsul lor să rămână constant: np = a. Formal, așa trecere la limită duce la formula

Parametru de distribuție: a

Distribuția Poisson este supusă multor variabile aleatorii întâlnite în știință și viața practică.

Exemplul 2: Numărul de apeluri primite la stația de ambulanță într-o oră.
Să împărțim intervalul de timp T (1 oră) în intervale mici dt, astfel încât probabilitatea de a primi două sau mai multe apeluri în timpul dt este neglijabilă, iar probabilitatea unui apel p este proporțională cu dt: p = μdt ;
vom considera observația din momentele dt ca încercări independente, numărul de astfel de încercări în timpul T: n = T / dt;
dacă presupunem că probabilitățile de a primi apeluri nu se modifică în timpul orei, atunci numărul total apelurile respectă legea lui Bernoulli cu parametrii: n = T / dt, p = μdt. Lăsând dt tinde spre zero, obținem că n tinde spre infinit, iar produsul n × p rămâne constant: a = n × p = μT.

Exemplul 3: numărul de molecule gaz idealîntr-un volum fix V.
Să împărțim volumul V în volume mici dV astfel încât probabilitatea de a găsi două sau mai multe molecule în dV este neglijabilă, iar probabilitatea de a găsi o moleculă este proporțională cu dV: р = μdV; vom considera observarea fiecărui volum dV ca test independent, numărul de astfel de teste n=V/dV; dacă presupunem că probabilitățile de a găsi o moleculă oriunde în interiorul lui V sunt aceleași, numărul total de molecule din volumul V respectă legea lui Bernoulli cu parametrii: n = V / dV, p = μdV. Dacă dV tinde spre zero, obținem că n tinde spre infinit, iar produsul n × p rămâne constant: a = n × p = μV.

Caracteristicile numerice ale variabilelor aleatoare

unu . Așteptări matematice (valoare medie)

Definiție:
Aşteptarea matematică este
  (6,4)

Suma este preluată peste toate valorile pe care le ia variabila aleatoare. Seria trebuie să fie absolut convergentă (în caz contrar, se spune că variabila aleatoare nu are așteptări matematice)

;   (6,5)

Integrala trebuie să fie absolut convergentă (altfel se spune că variabila aleatoare nu are valoare așteptată)


Proprietățile așteptărilor matematice:

A. Daca cu - constant, apoi MS = C
b. Mx = Smx
c. Așteptările matematice ale sumei variabilelor aleatoare este întotdeauna egală cu suma așteptărilor lor matematice: М(х+y) = Мх + Мy d . Este introdus conceptul de așteptare matematică condiționată. Dacă o variabilă aleatoare își ia valorile x i cu probabilități diferite p(x i /H j) la conditii diferite H j , atunci se determină așteptarea condiționată

la fel de sau ;   (6,6)

Dacă sunt cunoscute probabilitățile evenimentelor H j, complet

valorea estimata: ;   (6,7)

Exemplul 4: De câte ori, în medie, trebuie să arunci o monedă înainte de apariția primei steme? Această problemă poate fi rezolvată „pe frunte”

x i 1 2 3 ... k..
p(x i):  ,

dar această sumă mai trebuie calculată. O poți face mai ușor, folosind conceptele de așteptare matematică condiționată și completă. Luați în considerare ipotezele H 1 - stema a căzut pentru prima dată, H 2 - nu a căzut prima dată. Evident, p (H 1) \u003d p (H 2) \u003d ½; Mx / H 1 \u003d 1;
Mx / H 2 este cu 1 mai mult decât așteptările complete dorite, deoarece după prima aruncare a monedei, situația nu s-a schimbat, ci odată ce a fost deja aruncată. Folosind formula așteptărilor matematice complete, avem Mx \u003d Mx / H 1 × p (H 1) + Mx / H 2 × p (H 2) \u003d 1 × 0,5 + (Mx + 1) × 0,5, rezolvând ecuația pentru Mx, obținem imediat Mx = 2.

e. Dacă f(x) este o funcție a unei variabile aleatoare x, atunci conceptul de așteptare matematică a unei funcții a unei variabile aleatoare este definit:

Pentru o variabilă aleatoare discretă: ;   (6,8)

Suma este preluată peste toate valorile pe care le ia variabila aleatoare. Seria trebuie să fie absolut convergentă.

Pentru o variabilă aleatoare continuă: ;   (6,9)

Integrala trebuie să fie absolut convergentă.

2. Varianta unei variabile aleatoare
Definiție:
Dispersia unei variabile aleatoare x este așteptarea matematică a abaterii pătrate a valorii mărimii de la așteptarea sa matematică: Dx = M(x-Mx) 2

Pentru o variabilă aleatoare discretă: ;   (6.10)

Suma este preluată peste toate valorile pe care le ia variabila aleatoare. Seria trebuie să fie convergentă (altfel se spune că variabila aleatoare nu are varianță)

Pentru o variabilă aleatoare continuă: ;   (6.11)

Integrala trebuie să convergă (altfel se spune că variabila aleatoare nu are varianță)

Proprietăți de dispersie:
A. Dacă C este o valoare constantă, atunci DC = 0
b. DСх = С 2 Dх
c. Varianța sumei variabilelor aleatoare este întotdeauna egală cu suma variațiilor lor numai dacă aceste variabile sunt independente (definiția variabilelor independente)
d. Pentru a calcula varianța, este convenabil să folosiți formula:

Dx = Mx 2 - (Mx) 2 (6,12)

Relația caracteristicilor numerice
și parametrii distribuțiilor tipice

distributieOpțiuniformulăMxDx
uniformăa, b (b+a) / 2(b-a) 2 / 12
normala, σ Aσ2
Bernoullin,p npnpq
PoissonA AA

În practică, majoritatea variabilelor aleatoare sunt afectate de un numar mare de factori aleatori, ascultați legea normală distribuții de probabilitate. Prin urmare, în diverse aplicații ale teoriei probabilităților, această lege are o importanță deosebită.

O variabilă aleatorie $X$ respectă legea distribuției normale a probabilității dacă densitatea distribuției sale de probabilitate are următoarea formă

$$f\left(x\right)=((1)\over (\sigma \sqrt(2\pi )))e^(-(((\left(x-a\right))^2)\over ( 2(\sigma )^2)))$$

Schematic, graficul funcției $f\left(x\right)$ este prezentat în figură și poartă denumirea de „curbă gaussiană”. În dreapta acestui grafic se află bancnota germană de 10 mărci, care era folosită chiar înainte de introducerea monedei euro. Dacă te uiți cu atenție, poți vedea curba Gauss și descoperitorul ei pe această bancnotă cel mai mare matematician Carl Friedrich Gauss.

Să revenim la funcția noastră de densitate $f\left(x\right)$ și să dăm câteva explicații despre parametrii de distribuție $a,\ (\sigma )^2$. Parametrul $a$ caracterizează centrul de dispersie al valorilor variabilei aleatoare, adică are semnificația așteptării matematice. Când parametrul $a$ se modifică și parametrul $(\sigma )^2$ rămâne neschimbat, putem observa deplasarea graficului funcției $f\left(x\right)$ de-a lungul axei absciselor, în timp ce densitatea graficul în sine nu își schimbă forma.

Parametrul $(\sigma )^2$ este varianța și caracterizează forma curbei de densitate $f\left(x\right)$. La modificarea parametrului $(\sigma )^2$ cu parametrul $a$ neschimbat, putem observa cum graficul densității își schimbă forma, micșorându-se sau întinzându-se, fără a se deplasa de-a lungul abscisei.

Probabilitatea ca o variabilă aleatoare distribuită normal să se încadreze într-un interval dat

După cum se știe, probabilitatea ca o variabilă aleatoare $X$ să se încadreze în intervalul $\left(\alpha ;\ \beta \right)$ poate fi calculată $P\left(\alpha< X < \beta \right)=\int^{\beta }_{\alpha }{f\left(x\right)dx}$. Для нормального распределения случайной величины $X$ с параметрами $a,\ \sigma $ справедлива следующая формула:

$$P\left(\alpha< X < \beta \right)=\Phi \left({{\beta -a}\over {\sigma }}\right)-\Phi \left({{\alpha -a}\over {\sigma }}\right)$$

Aici funcția $\Phi \left(x\right)=((1)\over (\sqrt(2\pi )))\int^x_0(e^(-t^2/2)dt)$ este Funcția Laplace. Valorile acestei funcții sunt preluate din . Pot fi observate următoarele proprietăți ale funcției $\Phi \left(x\right)$.

1 . $\Phi \left(-x\right)=-\Phi \left(x\right)$, adică funcția $\Phi \left(x\right)$ este impară.

2 . $\Phi \left(x\right)$ este o funcție crescătoare monotonă.

3 . $(\mathop(lim)_(x\to +\infty ) \Phi \left(x\right)\ )=0.5$, $(\mathop(lim)_(x\to -\infty ) \ Phi \ stânga(x\dreapta)\ )=-0,5$.

Pentru a calcula valorile funcției $\Phi \left(x\right)$, puteți utiliza și vrăjitorul $f_x$ al pachetului Excel: $\Phi \left(x\right)=NORMDIST\left (x;0;1;1\right )-0,5$. De exemplu, să calculăm valorile funcției $\Phi \left(x\right)$ pentru $x=2$.

Probabilitatea ca o variabilă aleatoare distribuită normal $X\in N\left(a;\ (\sigma )^2\right)$ să cadă într-un interval simetric în raport cu așteptarea $a$ poate fi calculată prin formula

$$P\left(\left|X-a\right|< \delta \right)=2\Phi \left({{\delta }\over {\sigma }}\right).$$

Regula trei sigma. Este practic sigur că o variabilă aleatoare distribuită normal $X$ se încadrează în intervalul $\left(a-3\sigma ;a+3\sigma \right)$.

Exemplul 1 . Variabila aleatoare $X$ este supusă legii distribuției normale a probabilității cu parametrii $a=2,\ \sigma =3$. Aflați probabilitatea ca $X$ să se încadreze în intervalul $\left(0,5;1\right)$ și probabilitatea ca inegalitatea $\left|X-a\right|< 0,2$.

Folosind formula

$$P\left(\alpha< X < \beta \right)=\Phi \left({{\beta -a}\over {\sigma }}\right)-\Phi \left({{\alpha -a}\over {\sigma }}\right),$$

găsi $P\left(0,5;1\right)=\Phi \left(((1-2)\peste (3))\right)-\Phi \left((((0,5-2)\ peste (3))\right)=\Phi \left(-0.33\right)-\Phi \left(-0.5\right)=\Phi \left(0.5\right)-\Phi \stanga(0.33\right) =0,191-0,129=0,062 USD.

$$P\left(\left|X-a\right|< 0,2\right)=2\Phi \left({{\delta }\over {\sigma }}\right)=2\Phi \left({{0,2}\over {3}}\right)=2\Phi \left(0,07\right)=2\cdot 0,028=0,056.$$

Exemplul 2 . Să presupunem că în cursul anului prețul acțiunilor unei anumite companii este o variabilă aleatorie distribuită conform legii normale cu o așteptare matematică egală cu 50 de unități monetare convenționale și o abatere standard egală cu 10. Care este probabilitatea ca, în mod aleatoriu ziua aleasă din perioada în discuție, prețul acțiunii va fi:

a) mai mult de 70 de unități monetare convenționale?

b) sub 50 pe acţiune?

c) între 45 şi 58 condiţional unități monetare pe actiune?

Fie variabila aleatoare $X$ prețul acțiunilor unei companii. Prin condiție, $X$ este supus unei distribuții normale cu parametrii $a=50$ - așteptare matematică, $\sigma =10$ - deviație standard. Probabilitatea $P\left(\alpha< X < \beta \right)$ попадания $X$ в интервал $\left(\alpha ,\ \beta \right)$ будем находить по формуле:

$$P\left(\alpha< X < \beta \right)=\Phi \left({{\beta -a}\over {\sigma }}\right)-\Phi \left({{\alpha -a}\over {\sigma }}\right).$$

$$a)\ P\left(X>70\right)=\Phi \left(((\infty -50)\peste (10))\right)-\Phi \left(((70-50)\ peste (10))\right)=0,5-\Phi \left(2\right)=0,5-0,4772=0,0228.$$

$$b)\ P\left(X< 50\right)=\Phi \left({{50-50}\over {10}}\right)-\Phi \left({{-\infty -50}\over {10}}\right)=\Phi \left(0\right)+0,5=0+0,5=0,5.$$

$$c)\ P\left(45< X < 58\right)=\Phi \left({{58-50}\over {10}}\right)-\Phi \left({{45-50}\over {10}}\right)=\Phi \left(0,8\right)-\Phi \left(-0,5\right)=\Phi \left(0,8\right)+\Phi \left(0,5\right)=$$

În ciuda numelor exotice, distribuțiile comune sunt legate între ele în mod destul de intuitiv și moduri interesante care vă ajută să vă amintiți ușor și să vorbiți despre ele cu încredere. Unele urmează în mod natural, de exemplu, din distribuția Bernoulli. Este timpul să afișați harta acestor conexiuni.

Fiecare distribuție este ilustrată printr-un exemplu de funcție de densitate a distribuției (DDF). Acest articol este doar despre acele distribuții ale căror rezultate sunt − numere simple. Asa de, axă orizontală fiecare grafic este un set de numere-rezultate posibile. Verticală - probabilitatea fiecărui rezultat. Unele distribuții sunt discrete - rezultatele lor trebuie să fie numere întregi, cum ar fi 0 sau 5. Acestea sunt indicate prin linii rare, câte una pentru fiecare rezultat, cu o înălțime corespunzătoare probabilității acestui rezultat. Unele sunt continue, rezultatele lor pot lua orice valoare numerică, cum ar fi -1,32 sau 0,005. Acestea sunt prezentate ca curbe dense cu zone sub secțiunile curbei care dau probabilitățile. Suma înălțimilor liniilor și zonelor de sub curbe este întotdeauna 1.

Imprimați-l, tăiați-l de-a lungul liniei punctate și purtați-l cu dvs. în portofel. Acesta este ghidul dumneavoastră pentru țara distribuțiilor și rudele acestora.

Bernoulli și uniformă

Ați întâlnit deja distribuția Bernoulli de mai sus, cu două rezultate - cap sau coadă. Imaginați-vă acum ca o distribuție peste 0 și 1, 0 fiind capete și 1 fiind cozi. După cum este deja clar, ambele rezultate sunt la fel de probabile, iar acest lucru este reflectat în diagramă. PDF-ul Bernoulli conține două rânduri aceeasi inaltime reprezentând 2 rezultate la fel de probabile: 0 și, respectiv, 1.

Distribuția Bernoulli poate reprezenta, de asemenea, rezultate inegale, cum ar fi aruncarea unei monede greșite. Atunci probabilitatea capetelor nu va fi 0,5, ci o altă valoare p, iar probabilitatea cozilor va fi 1-p. Ca multe alte distribuții, este de fapt o întreagă familie de distribuții având în vedere anumiți parametri, cum ar fi p de mai sus. Când te gândești la „Bernoulli” – gândește-te la „aruncarea unei monede (posibil greșită)”.

Prin urmare foarte pas micînainte de a prezenta o distribuție pe mai multe rezultate echiprobabile: o distribuție uniformă caracterizată printr-un PDF plat. Reprezintă corect zaruri. Rezultatele lui 1-6 sunt la fel de probabile. Poate fi setat pentru orice număr de rezultate n și chiar ca o distribuție continuă.

gandeste-te distributie uniforma ca un „zar corect”.

Binomială și hipergeometrică

Distribuția binomială poate fi considerată ca suma rezultatelor acelor lucruri care urmează distribuția Bernoulli.

Aruncă o monedă sinceră de două ori - de câte ori vor fi capete? Acesta este un număr care se supune distribuției binomiale. Parametrii săi sunt n, numărul de încercări, iar p este probabilitatea de „succes” (în cazul nostru, capete sau 1). Fiecare rolă este un rezultat distribuit sau un test Bernoulli. Utilizați distribuția binomială atunci când numărați numărul de succese în lucruri precum aruncarea unei monede, unde fiecare aruncare este independentă de celelalte și are aceeași probabilitate de succes.

Sau imaginați-vă o urnă cu același număr de bile albe și negre. Închideți ochii, scoateți mingea, notați-i culoarea și întoarceți-o înapoi. Repeta. De câte ori a fost extras mingea neagră? Acest număr urmează și distribuția binomială.

Acest situație ciudată am introdus pentru a facilita înțelegerea sensului distribuției hipergeometrice. Aceasta este distribuția aceluiași număr, dar într-o situație dacă noi nuîntoarce bilele. Este sigur văr distribuție binomială, dar nu aceeași, deoarece probabilitatea de succes se schimbă cu fiecare minge extrasă. Dacă numărul de bile este suficient de mare în comparație cu numărul de extrageri, atunci aceste distribuții sunt aproape aceleași, deoarece șansele de succes se schimbă foarte puțin cu fiecare extragere.

Când cineva vorbește despre scoaterea bilelor din urne fără a se întoarce, este aproape întotdeauna sigur să spui „da, distribuție hipergeometrică”, pentru că în viața mea nu am întâlnit încă pe nimeni care să umple urne cu bile și apoi să le scoată și să se întoarcă. ei sau invers. Nici măcar nu am prieteni cu urne. Chiar mai des, această distribuție ar trebui să apară atunci când se alege un subset semnificativ al unei populații generale ca eșantion.

Notă. transl.

S-ar putea să nu fie foarte clar aici, dar din moment ce tutorialul și cursul expres pentru începători, ar fi necesar să explicăm. Populația este ceva pe care vrem să-l evaluăm statistic. Pentru a estima, selectăm o anumită parte (subset) și facem estimarea necesară asupra acesteia (atunci acest subset se numește eșantion), presupunând că estimarea va fi similară pentru întreaga populație. Dar pentru ca acest lucru să fie adevărat, sunt adesea necesare restricții suplimentare privind definirea unui subset al eșantionului (sau invers, dintr-un eșantion cunoscut, trebuie să evaluăm dacă descrie populația suficient de precis).

Un exemplu practic - trebuie să selectăm reprezentanți dintr-o companie de 100 de persoane pentru a călători la E3. Se știe că 10 persoane au călătorit deja în el anul trecut (dar nimeni nu este recunoscut). Cât minim ar trebui luat pentru ca cel puțin un tovarăș cu experiență să fie probabil în grup? În acest caz populatie- 100, selecție - 10, cerințe de selecție - cel puțin unul care a călătorit deja la E3.

Wikipedia are un exemplu mai puțin amuzant, dar mai practic, despre piesele defecte dintr-un lot.

poisson

Dar numărul de clienți care apelează linia fierbinte la suport tehnic în fiecare minut? Acesta este un rezultat a cărui distribuție este la prima vedere binom, dacă considerăm fiecare secundă ca un proces Bernoulli, în timpul căruia clientul fie nu sună (0) fie sună (1). Dar organizațiile de alimentare cu energie știu foarte bine: când electricitatea este oprită, două persoane pot suna într-o secundă. sau chiar mai mult de o sută al oamenilor. Prezentarea lui ca încercări de 60.000 de milisecunde nu ajută nici - există mai multe încercări, probabilitatea unui apel pe milisecundă este mai mică, chiar dacă nu numărați două sau mai multe în același timp, dar, din punct de vedere tehnic, acesta încă nu este un testul Bernoulli. Cu toate acestea, raționamentul logic funcționează cu trecerea la infinit. Fie n la infinit și p la 0, astfel încât np este constant. Este ca și cum te-ai împărți în fracțiuni din ce în ce mai mici de timp, cu șanse din ce în ce mai puține la un apel. În limită, obținem distribuția Poisson.

La fel ca distribuția binomială, distribuția Poisson este o distribuție de cantitate: de câte ori se întâmplă ceva. Este parametrizată nu de probabilitatea p și de numărul de încercări n, ci de intensitatea medie λ, care, în analogie cu binomul, este pur și simplu valoare constantă n.p. Distribuția Poisson este ceea ce necesar amintiți-vă când vine vorba de numărarea evenimentelor pentru anumit timp la o intensitate constantă dată.

Când există ceva de genul pachetelor care ajung la un router sau clienți care apar într-un magazin sau ceva care așteaptă la coadă, gândiți-vă la Poisson.

Binom geometric și negativ

Din teste simple Bernoulli apare o altă distribuție. De câte ori o monedă se ridică înainte de a ieși cu capul? Numărul de cozi urmează o distribuție geometrică. Ca și distribuția Bernoulli, este parametrizată de probabilitatea unui rezultat de succes, p. Nu este parametrizat de numărul n, numărul de încercări, deoarece numărul de încercări eșuate este tocmai rezultatul.

Dacă distribuția binomială este „câte succese”, atunci distribuția geometrică este „Câte eșecuri înainte de succes?”.

Distribuția binomială negativă este o simplă generalizare a celei anterioare. Acesta este numărul de eșecuri înainte de a exista r, nu 1, succese. Prin urmare, este parametrizată suplimentar de acest r. Uneori este descris ca numărul de succese înainte de r eșecuri. Dar, așa cum spune antrenorul meu de viață: „Tu decizi ce este succesul și ce este eșecul”, deci este același, dacă nu uiți că probabilitatea p trebuie, de asemenea, probabilitate corectă succes sau, respectiv, eșec.

Dacă aveți nevoie de o glumă pentru a scăpa de tensiune, puteți menționa că distribuțiile binomiale și hipergeometrice sunt o pereche evidentă, dar distribuțiile binomiale geometrice și negative sunt, de asemenea, destul de asemănătoare, apoi spuneți „Ei bine, cine le numește pe toate așa, nu? ”

Exponențial și Weibull

Din nou despre apelurile către suport tehnic: cât timp va dura până la următorul apel? Distribuția acestui timp de așteptare pare să fie geometrică, pentru că fiecare secundă până când nimeni nu sună este ca un eșec, până în a doua, până când apelul apare în sfârșit. Numărul de eșecuri este ca numărul de secunde până când nimeni nu a sunat, și asta este practic timp până la următorul apel, dar „practic” nu este suficient pentru noi. Concluzia este că acest timp va fi suma secundelor întregi și, prin urmare, nu va fi posibil să se calculeze așteptarea în această secundă până la apelul în sine.

Ei bine, ca și înainte, mergem la distribuție geometrică la limita, in ceea ce priveste cotele de timp - si voila. Obținem o distribuție exponențială, care descrie cu exactitate timpul înainte de apel. Aceasta este distributie continua, avem primul, pentru că rezultatul nu este neapărat în secunde întregi. Ca și distribuția Poisson, aceasta este parametrizată de intensitatea λ.

Reluând legătura dintre binom și geometric, „câte evenimente într-un timp” a lui Poisson? are legătură cu exponențialul „cu cât timp înainte de eveniment?”. Dacă există evenimente al căror număr pe unitatea de timp respectă distribuția Poisson, atunci timpul dintre ele respectă distribuția exponențială cu același parametru λ. Această corespondență între cele două distribuții trebuie remarcată atunci când se discută oricare dintre ele.

Distribuția exponențială ar trebui să vină în minte atunci când te gândești la „time to event”, poate „time to failure”. De fapt, aceasta este o situație atât de importantă încât există distribuții mai generalizate pentru a descrie MTBF, cum ar fi distribuția Weibull. În timp ce distribuția exponențială este adecvată atunci când rata de uzură sau defecțiune este, de exemplu, constantă, distribuția Weibull poate modela o rată de eșec în creștere (sau în scădere) în timp. Exponenţial, în general, un caz special.

Gândiți-vă la Weibull când vine vorba de MTBF.

Normal, lognormal, student și chi-pătrat

Distribuția normală, sau Gauss, este probabil una dintre cele mai importante. Forma sa în formă de clopot este imediat recunoscută. Ca, aceasta este o entitate deosebit de curioasă care se manifestă peste tot, chiar și din cel mai exterior surse simple. Luați un set de valori care respectă aceeași distribuție - oricare! - și pliați-le. Distribuția sumei lor este supusă (aproximativ) distributie normala. Cu cât lucrurile sunt însumate mai mult, cu atât suma lor corespunde mai aproape de o distribuție normală (truc: distribuția termenilor trebuie să fie previzibilă, să fie independentă, tinde doar spre normal). Că așa este, în ciuda distribuției originale, este uimitor.

Notă. transl.

Am fost surprins că autorul nu scrie despre necesitatea unei scale comparabile de distribuții sumabile: dacă una le domină semnificativ pe celelalte, va converge extrem de prost. Și, în general, independența reciprocă absolută nu este necesară, este suficientă o dependență slabă.

Ei bine, probabil că este pentru petreceri, așa cum a scris el.


Aceasta se numește „teorema limită centrală” și trebuie să știi ce este, de ce se numește așa și ce înseamnă, altfel vor râde instantaneu de ea.

În contextul său, normalul este legat de toate distribuțiile. Deși, practic, este asociat cu distribuirea tuturor sumelor. Suma încercărilor Bernoulli urmează o distribuție binomială și, pe măsură ce numărul de încercări crește, această distribuție binomială se apropie din ce în ce mai mult de o distribuție normală. În mod similar, vărul său este distribuția hipergeometrică. distribuție Poisson - formă limită binom - se apropie și de normal cu creșterea parametrului de intensitate.

Rezultatele care urmează o distribuție lognormală dau valori al căror logaritm este distribuit în mod normal. Sau într-un alt mod: exponentul unei valori distribuite normal este distribuit lognormal. Dacă sumele sunt distribuite în mod normal, atunci amintiți-vă și că produsele sunt distribuite lognormal.

Distribuția t a lui Student este baza testului t, pe care mulți non-statisticieni îl studiază în alte domenii. Este folosit pentru a face ipoteze despre media unei distribuții normale și, de asemenea, tinde către o distribuție normală pe măsură ce parametrul său crește. Trăsătură distinctivă Distribuția t este cozile sale, care sunt mai groase decât cele ale distribuției normale.

Dacă anecdota cu coada grasă nu ți-a zdruncinat suficient vecinul, treci la o poveste destul de amuzantă despre bere. Cu peste 100 de ani în urmă, Guinness a folosit statisticile pentru a-și îmbunătăți stout-ul. Apoi William Seely Gosset a inventat un cu totul nou teorie statistică pentru cultivarea îmbunătățită a orzului. Gosset l-a convins pe șeful că alți bereri nu ar înțelege cum să-și folosească ideile și a primit permisiunea de a le publica, dar sub pseudonimul „Student”. Cel mai realizare celebră Gosset este tocmai această distribuție t, care, s-ar putea spune, poartă numele lui.

În cele din urmă, distribuția chi-pătrat este distribuția sumelor pătratelor cantităților distribuite normal. Un test chi-pătrat este construit pe această distribuție, ea însăși bazată pe suma diferențelor pătrate, care ar trebui să fie distribuite în mod normal.

Gamma și beta

În acest moment, dacă vorbești deja despre ceva chi-pătrat, conversația începe serios. Probabil că vorbiți deja cu statisticieni adevărați și probabil că merită să vă înclinați deja, deoarece s-ar putea să apară lucruri precum distribuția gamma. Aceasta este o generalizare și exponenţială și distribuția chi-pătrat. La fel ca distribuția exponențială, este folosită pentru modele complexe de latență. De exemplu, distribuția gamma apare atunci când este simulat timpul până la următoarele n evenimente. Apare în învățare automată ca un „conjugat anterior” la câteva alte distribuții.

Nu intrați în conversația despre aceste distribuții conjugate, dar dacă o faceți, nu uitați să menționați distribuția beta, deoarece este anterioară conjugată a majorității distribuțiilor menționate aici. Oamenii de știință sunt siguri că pentru asta a fost făcut. Menționați acest lucru din neatenție și mergeți la ușă.

Începutul înțelepciunii

Distribuțiile de probabilitate sunt ceva despre care nu poți ști prea multe. Cei cu adevărat interesați se pot referi la această hartă super-detaliată a tuturor distribuțiilor de probabilitate Adaugă etichete

După cum se știe, variabilă aleatorie numit variabil, care poate lua anumite valori în funcție de caz. Variabile aleatoare denotă litere mari alfabet latin(X, Y, Z) și valorile acestora în literele lor mici (x, y, z). Variabilele aleatoare sunt împărțite în discontinue (discrete) și continue.

Variabilă aleatoare discretă se numește o variabilă aleatoare care ia doar un set finit sau infinit (numărabil) de valori cu anumite probabilități diferite de zero.

Legea distribuției unei variabile aleatoare discrete este o funcție care conectează valorile unei variabile aleatoare cu probabilitățile corespunzătoare. Legea distribuției poate fi specificată în una din următoarele moduri.

1 . Legea distribuției poate fi dată de tabelul:

unde λ>0, k = 0, 1, 2, … .

în) prin intermediul funcția de distribuție F(x) , care determină pentru fiecare valoare x probabilitatea ca variabila aleatoare X să ia o valoare mai mică decât x, adică. F(x) = P(X< x).

Proprietățile funcției F(x)

3 . Legea distribuției poate fi stabilită grafic – poligon de distribuție (poligon) (vezi problema 3).

Rețineți că pentru a rezolva unele probleme nu este necesar să cunoașteți legea distribuției. În unele cazuri, este suficient să cunoști unul sau mai multe numere care reflectă cel mai mult caracteristici importante legea distributiei. Poate fi un număr care are semnificația „valorii medii” a unei variabile aleatoare sau un număr care arată dimensiunea medie abaterea unei variabile aleatoare de la valoarea sa medie. Numerele de acest fel sunt numite caracteristici numerice ale unei variabile aleatorii.

Principal caracteristici numerice variabilă aleatoare discretă :

  • Așteptări matematice (valoarea medie) a unei variabile aleatoare discrete M(X)=Σ x i p i.
    Pentru distribuția binomială M(X)=np, pentru distribuția Poisson M(X)=λ
  • Dispersia variabilă aleatoare discretă D(X)=M2 sau D(X) = M(X 2) − 2. Diferența X–M(X) se numește abaterea unei variabile aleatoare de la așteptările ei matematice.
    Pentru distribuția binomială D(X)=npq, pentru distribuția Poisson D(X)=λ
  • Deviație standard (deviație standard) σ(X)=√D(X).

Exemple de rezolvare a problemelor pe tema „Legea distribuției unei variabile aleatoare discrete”

Sarcina 1.

Eliberat 1000 bilete la loterie: 5 dintre ei obțin un câștig în valoare de 500 de ruble, 10 - un câștig de 100 de ruble, 20 - un câștig de 50 de ruble, 50 - un câștig de 10 ruble. Determinați legea distribuției de probabilitate a variabilei aleatoare X - câștiguri pe bilet.

Decizie. În funcție de starea problemei, este posibil următoarele valori variabilă aleatoare X: 0, 10, 50, 100 și 500.

Numărul de bilete fără câștig este 1000 - (5+10+20+50) = 915, apoi P(X=0) = 915/1000 = 0,915.

În mod similar, găsim toate celelalte probabilități: P(X=0) = 50/1000=0,05, P(X=50) = 20/1000=0,02, P(X=100) = 10/1000=0,01, P(X=0,01). =500) = 5/1000=0,005. Prezentăm legea rezultată sub forma unui tabel:

Aflați așteptările matematice ale lui X: M(X) = 1*1/6 + 2*1/6 + 3*1/6 + 4*1/6 + 5*1/6 + 6*1/6 = (1 + 2+3+4+5+6)/6 = 21/6 = 3,5

Sarcina 3.

Dispozitivul este format din trei elemente de operare independentă. Probabilitatea de eșec a fiecărui element dintr-un experiment este de 0,1. Întocmește o lege de distribuție pentru numărul de elemente eșuate într-un experiment, construiește un poligon de distribuție. Găsiți funcția de distribuție F(x) și reprezentați-o grafic. Aflați așteptările matematice, varianța și abaterea standard a unei variabile aleatoare discrete.

Decizie. 1. Variabila aleatorie discretă X=(numărul de elemente eșuate într-un experiment) are următoarele valori posibile: x 1 \u003d 0 (niciunul dintre elementele dispozitivului nu a reușit), x 2 \u003d 1 (un element a eșuat), x 3 \u003d 2 (două elemente au eșuat) și x 4 \u003d 3 (trei elemente au eșuat).

Eșecurile elementelor sunt independente unele de altele, probabilitățile de eșec ale fiecărui element sunt egale între ele, prin urmare, este aplicabil formula lui Bernoulli . Având în vedere că, prin condiție, n=3, p=0,1, q=1-p=0,9, determinăm probabilitățile valorilor:
P 3 (0) \u003d C 3 0 p 0 q 3-0 \u003d q 3 \u003d 0,9 3 \u003d 0,729;
P 3 (1) \u003d C 3 1 p 1 q 3-1 \u003d 3 * 0,1 * 0,9 2 \u003d 0,243;
P 3 (2) \u003d C 3 2 p 2 q 3-2 \u003d 3 * 0,1 2 * 0,9 \u003d 0,027;
P 3 (3) \u003d C 3 3 p 3 q 3-3 \u003d p 3 \u003d 0,1 3 \u003d 0,001;
Verificați: ∑p i = 0,729+0,243+0,027+0,001=1.

Astfel, legea de distribuție binomială dorită X are forma:

Pe axa absciselor, graficăm valorile posibile x i, iar pe axa ordonatelor, probabilitățile corespunzătoare р i . Să construim punctele M 1 (0; 0,729), M 2 (1; 0,243), M 3 (2; 0,027), M 4 (3; 0,001). Conectând aceste puncte cu segmente de linie, obținem poligonul de distribuție dorit.

3. Găsiți funcția de distribuție F(x) = P(X

Pentru x ≤ 0 avem F(x) = P(X<0) = 0;
pentru 0< x ≤1 имеем F(x) = Р(Х<1) = Р(Х = 0) = 0,729;
pentru 1< x ≤ 2 F(x) = Р(Х<2) = Р(Х=0) + Р(Х=1) =0,729+ 0,243 = 0,972;
pentru 2< x ≤ 3 F(x) = Р(Х<3) = Р(Х = 0) + Р(Х = 1) + Р(Х = 2) = 0,972+0,027 = 0,999;
pentru x > 3 va fi F(x) = 1, deoarece evenimentul este sigur.

Graficul funcției F(x)

4. Pentru distribuția binomială X:
- așteptarea matematică М(X) = np = 3*0,1 = 0,3;
- dispersia D(X) = npq = 3*0,1*0,9 = 0,27;
- media deviație standardσ(X) = √D(X) = √0,27 ≈ 0,52.