Distribuição geométrica. Distribuições discretas no MS EXCEL

A estatística vem em nosso auxílio na resolução de muitos problemas, por exemplo: quando não é possível construir um modelo determinístico, quando há muitos fatores, ou quando precisamos estimar a probabilidade de um modelo construído levando em consideração os dados disponíveis. A relação com as estatísticas é ambígua. Acredita-se que existam três tipos de mentiras: mentiras, mentiras descaradas e estatísticas. Por outro lado, muitos "usuários" da estatística acreditam demais nela, não entendendo completamente como ela funciona: aplicando, por exemplo, um teste a qualquer dado sem verificar sua normalidade. Tal negligência pode gerar erros graves e transformar os “fãs” do teste em odiadores das estatísticas. Vamos tentar colocar correntes sobre i e descobrir quais modelos de variáveis ​​aleatórias devem ser usados ​​para descrever certos fenômenos e que tipo de relação genética existe entre eles.

Em primeiro lugar, este material será de interesse para estudantes que estudam teoria da probabilidade e estatística, embora especialistas "maduros" possam usá-lo como referência. Em um dos trabalhos a seguir, mostrarei um exemplo de uso de estatísticas para construir um teste para avaliar a significância de indicadores de estratégias de negociação em bolsa.

O trabalho considerará:


Ao final do artigo será dado para reflexão. Vou compartilhar meus pensamentos sobre isso no meu próximo artigo.

Algumas das distribuições contínuas dadas são casos especiais.

Distribuições discretas

Distribuições discretas são usadas para descrever eventos com características não diferenciáveis ​​definidas em pontos isolados. Simplificando, para eventos cujo resultado pode ser atribuído a alguma categoria discreta: sucesso ou fracasso, um número inteiro (por exemplo, um jogo de roleta, dados), cara ou coroa etc.

Uma distribuição discreta é descrita pela probabilidade de ocorrência de cada um dos resultados possíveis de um evento. Como para qualquer distribuição (incluindo contínua), os conceitos de expectativa e variância são definidos para eventos discretos. No entanto, deve-se entender que a expectativa para um evento aleatório discreto é geralmente irrealizável como o resultado de um único evento aleatório, mas sim como um valor para o qual a média aritmética dos resultados dos eventos tenderá a aumentar à medida que seu número aumenta.

Na modelagem de eventos aleatórios discretos, a combinatória desempenha um papel importante, pois a probabilidade do resultado de um evento pode ser definida como a razão entre o número de combinações que dão o resultado desejado e o número total de combinações. Por exemplo: há 3 bolas brancas e 7 pretas na cesta. Quando escolhemos 1 bola da cesta, podemos fazê-lo de 10 maneiras diferentes (número total de combinações), mas apenas 3 maneiras de escolher a bola branca (3 combinações que dão o resultado desejado). Assim, a probabilidade de escolher uma bola branca é: ().

Também é necessário distinguir entre amostras com reposição e sem reposição. Por exemplo, para descrever a probabilidade de escolher duas bolas brancas, é importante determinar se a primeira bola será devolvida à cesta. Se não, então estamos lidando com uma amostra sem reposição () e a probabilidade será a seguinte: - a probabilidade de escolher uma bola branca da amostra inicial multiplicada pela probabilidade de escolher novamente uma bola branca das restantes na cesta . Se a primeira bola for devolvida à cesta, então esta é uma busca de retorno (). Nesse caso, a probabilidade de escolher duas bolas brancas é .

Se formalizarmos ligeiramente o exemplo da cesta da seguinte forma: deixe o resultado de um evento assumir um dos dois valores 0 ou 1 com probabilidades e respectivamente, então a distribuição da probabilidade de obter cada um dos resultados propostos será chamada de distribuição de Bernoulli :

Tradicionalmente, um resultado com valor 1 é chamado de "sucesso" e um resultado com valor 0 é chamado de "falha". É óbvio que a obtenção do resultado “sucesso ou fracasso” ocorre com probabilidade.

Expectativa e variação da distribuição de Bernoulli:


O número de sucessos nas tentativas, cujo resultado é distribuído com a probabilidade de sucesso (por exemplo, devolver as bolas à cesta), é descrito pela distribuição binomial:


De outra forma, podemos dizer que a distribuição binomial descreve a soma de variáveis ​​aleatórias independentes que podem ser distribuídas com a probabilidade de sucesso.
Expectativa e variação:



A distribuição binomial é válida apenas para amostragem reentrante, ou seja, quando a probabilidade de sucesso permanece constante para toda a série de tentativas.

Se as quantidades e tiverem distribuições binomiais com parâmetros e respectivamente, então sua soma também será distribuída binomial com parâmetros .

Imagine uma situação em que tiramos bolas da cesta e as devolvemos até que uma bola branca seja retirada. O número de tais operações é descrito por uma distribuição geométrica. Em outras palavras: a distribuição geométrica descreve o número de tentativas até o primeiro sucesso dada a probabilidade de sucesso em cada tentativa. Se o número da tentativa em que ocorreu o sucesso estiver implícito, a distribuição geométrica será descrita pela seguinte fórmula:


Expectativa e variação da distribuição geométrica:

A distribuição geométrica está geneticamente relacionada à distribuição, que descreve uma variável aleatória contínua: o tempo anterior ao evento, com intensidade constante de eventos. A distribuição geométrica também é um caso especial.

A distribuição Pascal é uma generalização da distribuição: descreve a distribuição do número de falhas em tentativas independentes, cujo resultado é distribuído pela probabilidade de sucesso antes da soma dos sucessos. Para , obtemos uma distribuição para a quantidade .


onde é o número de combinações de até .

Expectativa e variância da distribuição binomial negativa:



A soma das variáveis ​​aleatórias independentes distribuídas de acordo com Pascal também é distribuída de acordo com Pascal: deixe ter distribuição , e - . Seja também independente, então sua soma terá distribuição

Até agora, vimos exemplos de amostras reentrantes, ou seja, a probabilidade de um resultado não muda de tentativa para tentativa.

Agora considere uma situação sem reposição e descreva a probabilidade do número de amostras bem-sucedidas da população com um número predeterminado de sucessos e fracassos (um número predeterminado de bolas brancas e pretas na cesta, trunfos no baralho, peças defeituosas no jogo, etc).

Deixe a coleção total conter objetos, dos quais são rotulados como "1" e como "0". Consideraremos a seleção de um objeto com o rótulo "1" como sucesso e com o rótulo "0" como falha. Vamos realizar n testes, e os objetos selecionados não participarão mais de outros testes. A probabilidade de sucesso seguirá uma distribuição hipergeométrica:


onde é o número de combinações de até .

Expectativa e variação:


Distribuição de veneno


(retirado daqui)

A distribuição de Poisson difere significativamente das distribuições consideradas acima em sua área de “assunto”: agora não é a probabilidade de um determinado resultado de teste que é considerado, mas a intensidade dos eventos, ou seja, o número médio de eventos por unidade de tempo.

A distribuição de Poisson descreve a probabilidade de ocorrência de eventos independentes ao longo do tempo com uma intensidade média de eventos:


A expectativa e variância da distribuição de Poisson:

A variância e a média da distribuição de Poisson são identicamente iguais.

A distribuição de Poisson em combinação com , que descreve os intervalos de tempo entre o início de eventos independentes, formam a base matemática da teoria da confiabilidade.

A densidade de probabilidade do produto das variáveis ​​aleatórias x e y () com distribuições e pode ser calculada da seguinte forma:

Algumas das distribuições abaixo são casos especiais da distribuição de Pearson, que por sua vez é uma solução para a equação:


onde e são parâmetros de distribuição. Existem 12 tipos de distribuição Pearson, dependendo dos valores dos parâmetros.

As distribuições que serão discutidas nesta seção têm relações estreitas entre si. Essas conexões são expressas no fato de que algumas distribuições são casos especiais de outras distribuições, ou descrevem transformações de variáveis ​​aleatórias com outras distribuições.

O diagrama abaixo mostra as relações entre algumas das distribuições contínuas que serão discutidas neste artigo. No diagrama, as setas sólidas mostram a transformação das variáveis ​​aleatórias (o início da seta indica a distribuição inicial, o final da seta - a resultante), e as setas pontilhadas mostram a relação de generalização (o início da seta indica a distribuição, que é um caso especial da indicada no final da seta). Para casos especiais da distribuição de Pearson acima das setas pontilhadas, o tipo correspondente da distribuição de Pearson é indicado.


A visão geral de distribuições a seguir cobre muitos casos que ocorrem na análise de dados e modelagem de processos, embora, é claro, não contenha absolutamente todas as distribuições conhecidas pela ciência.

Distribuição normal (distribuição gaussiana)


(retirado daqui)

A densidade de probabilidade de uma distribuição normal com parâmetros e é descrita pela função Gaussiana:

Se e , então tal distribuição é chamada de padrão.

Expectativa e variância da distribuição normal:



O domínio de definição de uma distribuição normal é o conjunto dos números reais.

A distribuição normal é uma distribuição do tipo VI.

A soma dos quadrados dos valores normais independentes tem , e a razão dos valores gaussianos independentes é distribuída por .

A distribuição normal é infinitamente divisível: a soma das quantidades normalmente distribuídas e com parâmetros e respectivamente também tem uma distribuição normal com parâmetros , onde e .

O poço de distribuição normal modela quantidades que descrevem fenômenos naturais, ruídos de natureza termodinâmica e erros de medição.

Além disso, de acordo com o teorema do limite central, a soma de um grande número de termos independentes de mesma ordem converge para uma distribuição normal, independentemente das distribuições dos termos. Devido a esta propriedade, a distribuição normal é popular na análise estatística, muitos testes estatísticos são projetados para dados normalmente distribuídos.

O teste z é baseado na divisibilidade infinita da distribuição normal. Este teste é usado para verificar se a expectativa de uma amostra de variáveis ​​normalmente distribuídas é igual a algum valor. O valor da variância deve ser conhecido. Se o valor da variância for desconhecido e for calculado com base na amostra analisada, então um teste t baseado em .

Vamos ter uma amostra de n valores independentes normalmente distribuídos da população geral com um desvio padrão, vamos supor que . Então o valor terá uma distribuição normal padrão. Ao comparar o valor de z obtido com os quantis da distribuição padrão, pode-se aceitar ou rejeitar a hipótese com o nível de significância exigido.

Devido à prevalência da distribuição gaussiana, muitos pesquisadores que não conhecem estatísticas muito bem esquecem de verificar os dados quanto à normalidade, ou avaliar o gráfico de densidade de distribuição "a olho", acreditando cegamente que estão lidando com dados gaussianos. Assim, aplicando ousadamente testes projetados para uma distribuição normal e obtendo resultados completamente incorretos. Provavelmente, foi daí que surgiu o boato sobre as estatísticas como o tipo mais terrível de mentira.

Considere um exemplo: precisamos medir a resistência de um conjunto de resistores de um determinado valor. A resistência tem uma natureza física, é lógico supor que a distribuição dos desvios de resistência do valor nominal será normal. Medimos, obtemos uma função de densidade de probabilidade em forma de sino para os valores medidos com um modo nas proximidades da classificação do resistor. Esta é uma distribuição normal? Se sim, procuraremos resistores defeituosos usando , ou um teste z se conhecermos a variância de distribuição antecipadamente. Eu acho que muitos vão fazer exatamente isso.

Mas vamos dar uma olhada mais de perto na tecnologia de medição de resistência: a resistência é definida como a razão entre a tensão aplicada e o fluxo de corrente. Medimos a corrente e a tensão com instrumentos que, por sua vez, apresentam erros normalmente distribuídos. Ou seja, os valores medidos de corrente e tensão são variáveis ​​aleatórias normalmente distribuídas com expectativas matemáticas correspondentes aos valores reais das quantidades medidas. E isso significa que os valores de resistência obtidos são distribuídos ao longo, e não de acordo com Gauss.

A distribuição descreve a soma dos quadrados de variáveis ​​aleatórias, cada uma das quais é distribuída de acordo com a lei normal padrão:

Onde é o número de graus de liberdade, .

A expectativa e variância da distribuição:



O domínio de definição é o conjunto dos números naturais não negativos. é uma distribuição infinitamente divisível. Se e - forem distribuídos e tiverem e graus de liberdade, respectivamente, então sua soma também será distribuída e terão graus de liberdade.

É um caso especial (e, portanto, uma distribuição do tipo III) e uma generalização. A razão de quantidades distribuídas sobre distribuídas sobre .

O teste de ajuste de Pearson é baseado na distribuição. Este critério pode ser usado para verificar se uma amostra de uma variável aleatória pertence a uma determinada distribuição teórica.

Suponha que temos uma amostra de alguma variável aleatória. Com base nessa amostra, calculamos as probabilidades de que os valores caiam nos intervalos (). Seja também uma suposição sobre a expressão analítica da distribuição, segundo a qual as probabilidades de cair nos intervalos selecionados devem ser . Então as quantidades serão distribuídas de acordo com a lei normal.

Trazemos para a distribuição normal padrão: ,
onde e .

As grandezas obtidas possuem distribuição normal com parâmetros (0, 1) e, portanto, a soma de seus quadrados é distribuída com um grau de liberdade. A diminuição do grau de liberdade está associada a uma restrição adicional na soma das probabilidades de valores que caem em intervalos: deve ser igual a 1.

Ao comparar o valor com os quantis da distribuição, pode-se aceitar ou rejeitar a hipótese sobre a distribuição teórica dos dados com o nível de significância exigido.

A distribuição de Student é usada para realizar um teste t: um teste para a igualdade do valor esperado de uma amostra de variáveis ​​aleatórias distribuídas a um determinado valor, ou a igualdade dos valores esperados de duas amostras com a mesma variância ( igualdade de variâncias deve ser verificada). A distribuição t de Student descreve a razão de uma variável aleatória distribuída para um valor distribuído sobre .

Sejam e variáveis ​​aleatórias independentes com graus de liberdade e respectivamente. Então a quantidade terá uma distribuição de Fisher com graus de liberdade, e a quantidade terá uma distribuição de Fisher com graus de liberdade.
A distribuição de Fisher é definida para argumentos não negativos reais e tem uma densidade de probabilidade:


Expectativa e variação da distribuição de Fisher:



A expectativa é definida para e a variância é definida para .

Vários testes estatísticos são baseados na distribuição de Fisher, como a avaliação da significância dos parâmetros de regressão, o teste de heterocedasticidade e o teste de igualdade de variâncias amostrais (teste f, a ser distinguido de exato teste de Fisher).

Teste F: sejam duas amostras independentes e volumes de dados distribuídos e respectivamente. Vamos apresentar uma hipótese sobre a igualdade das variâncias amostrais e testá-la estatisticamente.

Vamos calcular o valor. Terá uma distribuição de Fisher com graus de liberdade.

Ao comparar o valor com os quantis da distribuição de Fisher correspondente, podemos aceitar ou rejeitar a hipótese de que as variâncias amostrais sejam iguais ao nível de significância exigido.

Distribuição exponencial (exponencial) e distribuição de Laplace (exponencial dupla, exponencial dupla)


(retirado daqui)

A distribuição exponencial descreve os intervalos de tempo entre eventos independentes que ocorrem em intensidade média. O número de ocorrências de tal evento em um determinado período de tempo é descrito por discreto. A distribuição exponencial juntamente com formam a base matemática da teoria da confiabilidade.

Além da teoria da confiabilidade, a distribuição exponencial é utilizada na descrição de fenômenos sociais, na economia, na teoria das filas, na logística de transporte - onde for necessário modelar o fluxo de eventos.

A distribuição exponencial é um caso especial (para n=2) e, portanto, . Como a quantidade distribuída exponencialmente é uma quantidade qui-quadrado com 2 graus de liberdade, ela pode ser interpretada como a soma dos quadrados de duas quantidades independentes normalmente distribuídas.

Além disso, a distribuição exponencial é um caso honesto

Deixe o alvo ser disparado antes do primeiro acerto, com a probabilidade p acertar o alvo em cada tiro é o mesmo e não depende dos resultados dos tiros anteriores. Em outras palavras, o esquema de Bernoulli é implementado no experimento em consideração. Como variável aleatória X vamos considerar o número de tiros disparados. Obviamente, os valores possíveis da variável aleatória X são números naturais: x 1 =1, x 2 = 2, ... então a probabilidade de que k tiros serão iguais a

Colocando nesta fórmula k=1,2, ... obtemos uma progressão geométrica com o primeiro termo p e multiplicador q:

Por esta razão, a distribuição definida pela fórmula (6.11) é chamada geométrico .

Usando a fórmula da soma de uma progressão geométrica infinitamente decrescente, é fácil verificar que

.

Vamos encontrar as características numéricas da distribuição geométrica.

Pela definição de esperança matemática para DSW, temos

.

Calculamos a dispersão pela fórmula

.

Para isso encontramos

.

Consequentemente,

.

Assim, a esperança matemática e a variância da distribuição geométrica são

. (6.12)

6.4.* Função de geração

Ao resolver problemas relacionados ao DSV, métodos combinatórios são frequentemente usados. Um dos métodos teóricos de análise combinatória mais desenvolvidos é o método de geração de funções, que é um dos métodos mais poderosos em aplicações. Vamos conhecê-lo brevemente.

Se a variável aleatória  recebe apenas valores inteiros não negativos, ou seja,

,

então função geradora a distribuição de probabilidade de uma variável aleatória  é chamada de função

, (6.13)

Onde zé uma variável real ou complexa. Observe que entre o conjunto de funções geradoras  ( x)e muitas distribuições(P(= k)} existe uma correspondência um-para-um.

Seja a variável aleatória  distribuição binomial

.

Então, usando a fórmula binomial de Newton, obtemos

,

Essa. função geradora da distribuição binomial tem a forma

. (6.14)

Termo aditivo. Função geradora de distribuição de Poisson

tem a forma

. (6.15)

Função geradora de distribuição geométrica

tem a forma

. (6.16)

Com a ajuda de funções geradoras, é conveniente encontrar as principais características numéricas do DSW. Por exemplo, o primeiro e o segundo momentos iniciais estão relacionados à função geradora pelas seguintes igualdades:

, (6.17)

. (6.18)

O método de geração de funções geralmente é conveniente porque, em alguns casos, a função de distribuição do DSW é muito difícil de determinar, enquanto a função de geração às vezes é fácil de encontrar. Por exemplo, considere o esquema de tentativas independentes consecutivas de Bernoulli, mas faça uma alteração nele. Seja a probabilidade do evento UMA varia de teste para teste. Isso significa que a fórmula de Bernoulli para tal esquema se torna inaplicável. A tarefa de encontrar a função de distribuição neste caso apresenta dificuldades consideráveis. No entanto, para um determinado circuito, a função geradora é facilmente encontrada e, consequentemente, as características numéricas correspondentes também são facilmente encontradas.

O uso generalizado de funções geradoras baseia-se no fato de que o estudo de somas de variáveis ​​aleatórias pode ser substituído pelo estudo de produtos das funções geradoras correspondentes. Então, se  1 ,  2 , …,  n independente, então

Deixar p k =P k (UMA) é a probabilidade de "sucesso" em k-th teste no esquema de Bernoulli (respectivamente, q k =1–p k- a probabilidade de "fracasso" em kª prova). Então, de acordo com a fórmula (6.19), a função geradora terá a forma

. (6.20)

Usando esta função geradora, podemos escrever

.

Leva-se em conta aqui que p k + q k=1. Agora, usando a fórmula (6.1), encontramos o segundo momento inicial. Para fazer isso, primeiro calculamos

e
.

Em um caso particular p 1 =p 2 =…=p n =p(ou seja, no caso de uma distribuição binomial) segue das fórmulas obtidas que M= np, D= npq.

Na distribuição geométrica, os experimentos no esquema de Bernoulli são realizados até o primeiro sucesso, com probabilidade de sucesso p em um único experimento.
Exemplos de tais valores podem ser:

  • número de tiros antes do primeiro golpe;
  • número de testes do dispositivo antes da primeira falha;
  • o número de bolas antes da primeira ocorrência de branco. ver solução;
  • o número de lançamentos de uma moeda antes das primeiras coroas, etc.
A série de distribuição geométrica do DSW tem a forma:
X 1 2 3 m
p p qp q 2p qm-1p

As probabilidades formam uma progressão geométrica com o primeiro termo p e o denominador q.
A esperança matemática e a variância de uma variável aleatória X, que tem uma distribuição geométrica com parâmetro p, são iguais a:

Distribuição hipergeométrica

Uma variável aleatória discreta tem uma distribuição hipergeométrica com parâmetros n, k, m se tomar os valores 0, 1, 2, ... com probabilidades .
A distribuição hipergeométrica possui uma variável aleatória X, igual ao número de objetos com determinada propriedade, dentre m objetos extraídos aleatoriamente (sem reposição) de um conjunto de n objetos, k dos quais possuem essa propriedade.
Por exemplo:
  • Em um lote de 10 peças, 3 são defeituosas. 4 itens são removidos. X é o número de partes boas entre as extraídas. (m = 4, n = 10, k = 3). ver solução
A expectativa matemática de uma variável aleatória X, que tem uma distribuição hipergeométrica, e sua variância são iguais a:

Exemplo 1. Uma urna contém 2 bolas brancas e 3 pretas. As bolas são retiradas ao acaso da urna sem reposição até que uma bola branca apareça. Assim que isso acontece, o processo é interrompido. Faça uma tabela de distribuição de uma variável aleatória X - o número de experimentos realizados, encontre F(x), P(X ≤ 2), M(X), D(X).
Solução: Denote por A - o aparecimento de uma bola branca. Um experimento só pode ser realizado uma vez se a bola branca aparecer imediatamente: . Se na primeira vez a bola branca não apareceu, mas apareceu durante a segunda extração, então X=2. A probabilidade de tal evento é . De forma similar: , , . Vamos escrever os dados na tabela:


X

1

2

3

4

P

0,4

0,3

0,2

0,1

Encontre F(x):

Encontre P(X ≤ 2) = P(X = 1 ou X = 2) = 0,4 + 0,3 = 0,7
M(X) = 1 0,4 + 2 0,3 + 3 0,2 + 4 0,1 = 2.
D(X) = (1-2) 2 0,4 + (2-2) 2 0,3 + (3-2) 2 0,2 ​​+ (4-2) 2 0,1 = 1 .

Exemplo #2. A caixa contém 11 peças, 5 das quais com defeito. O montador sorteia 4 peças ao acaso.
1. Encontre a probabilidade de que entre as partes extraídas: uma) 4 defeituosos; b) um defeituoso; c) dois defeituosos; d) pelo menos um está com defeito.
2. Elabore a lei de distribuição de uma variável aleatória X- o número de peças defeituosas entre as extraídas.
3. Encontre M(X), D(X), σ(X).
4. Calcular P(1
Solução:
1. Encontre a probabilidade de que entre as partes extraídas:
uma) 4 defeituosos;

b) um defeituoso;
O número total de possíveis resultados elementares para esses testes é igual ao número de maneiras pelas quais 4 partes de 11 podem ser extraídas:

Vamos calcular o número de resultados que favorecem este evento (entre 4 peças, exatamente 1 peça é defeituosa):

As 3 partes restantes podem ser selecionadas de 7:

Portanto, o número de resultados favoráveis ​​é: 5*20 = 100
A probabilidade desejada é igual à razão entre o número de resultados que favorecem o evento e o número de todos os resultados elementares: P(1) = 100/330 = 0,303
c) dois defeituosos;

d) pelo menos um está com defeito.
Probabilidade de não haver peças defeituosas. X = 0.

Então a probabilidade de que pelo menos um defeituoso seja:
P = 1 - P(0) = 1 - 0,0455 = 0,95

2. Componha a lei de distribuição P(x), X - o número de peças defeituosas entre as extraídas.
Encontre a probabilidade de três produtos defeituosos.


X

0

1

2

3

4

P

0,0455

0,303

0,4545

0,182

0,015

2. Encontre M(X), D(X),σ(X).
A esperança matemática é encontrada pela fórmula m = ∑x i p i .
Expectativa matemática M[X].
M[x] = 0*0,0455 + 1*0,303 + 2*0,4545 + 3*0,182 + 4*0,015 = 1,818
A dispersão é encontrada pela fórmula d = ∑x 2 i p i - M[x] 2 .
Dispersão D[X].
D[X] = 0 2 *0,0455 + 1 2 *0,303 + 2 2 *0,4545 + 3 2 *0,182 + 4 2 *0,015 - 1,818 2 = 0,694
Desvio padrão σ(x).

3. Calcule P(1 F(x≤0) = 0
F(0< x ≤1) = 0.0455
F(1< x ≤2) = 0.303 + 0.0455 = 0.349
F(2< x ≤3) = 0.455 + 0.349 = 0.803
F(3< x ≤4) = 0.182 + 0.803 = 0.985
F(x>4) = 1
A probabilidade de um SW cair em um determinado intervalo é encontrada pela fórmula:
P(a ≤ X< b) = F(b) - F(a)
Encontre a probabilidade de que o SW esteja no intervalo 1 ≤ X< 4
P(1 ≤ X< 4) = F(4) - F(1) = 0.985 - 0.0455 = 0.9395

Exemplo #3. Há 7 peças no lote, 3 são defeituosas. O controlador extrai 4 peças aleatoriamente. Faça uma lei de distribuição para uma variável aleatória X - o número de peças boas na amostra. Encontre a esperança matemática e a variância X. Trace a função de distribuição.
Total de partes boas: 7-3 = 4
1. Encontre a probabilidade de que, entre as 4 peças selecionadas, uma seja reparável.
O número total de possíveis resultados elementares para essas tentativas é igual ao número de maneiras pelas quais 4 partes de 7 podem ser extraídas:

Vamos calcular o número de resultados que favorecem este evento.

Considere a distribuição geométrica, calcule sua expectativa matemática e variância. Usando a função OTRBINOM.DIST() do MS EXCEL, vamos plotar a função de distribuição e os gráficos de densidade de probabilidade.

Distribuição geométrica(Inglês) Distribuição geométrica) é um caso especial (para r=1).

Que sejam realizados testes, em cada um dos quais apenas o evento "sucesso" pode ocorrer com probabilidade p ou o evento "falha" com a probabilidade q =1-p().

Vamos definir x como o número do julgamento em que foi registrado o primeiro sucesso. Neste caso, a variável aleatória x terá Distribuição geométrica:

Distribuição geométrica em MS EXCEL

No MS EXCEL, a partir da versão 2010, para Negativo Distribuição binomial existe uma função NEGBINOM.DIST() , o nome em inglês é NEGBINOM.DIST(), que permite calcular a probabilidade de ocorrência número de falhas até que um determinado número de sucessos seja obtido para uma dada probabilidade de sucesso.

Por distribuição geométrica o segundo argumento para esta função deve ser 1, porque estamos interessados ​​apenas no primeiro sucesso.

Esta definição é um pouco diferente daquela acima, que calcula a probabilidade de que o primeiro sucesso ocorra após xtestes. A diferença se resume ao intervalo da mudança de intervalo x: se a probabilidade é definida em termos do número de tentativas, então X pode assumir valores a partir de 1, e se através do número de falhas, então a partir de 0. Portanto, a seguinte fórmula é válida: p(x_ falhas)=p(x_ testes-1). Cm. exemplo de folha de arquivo Exemplo, onde são fornecidos 2 métodos de cálculo.

A abordagem adotada na função MS EXCEL é utilizada abaixo: através do número de falhas.

Calcular função densidade de probabilidade p(x), veja a fórmula acima, você precisa definir o quarto argumento na função INTBINOM.DIST() como FALSE. Calcular , você deve definir o quarto argumento como TRUE.

Observação : Antes do MS EXCEL 2010, o EXCEL tinha uma função INTERBINOMDIST() que permite calcular apenas densidade de probabilidade. O arquivo de amostra contém uma fórmula baseada na função INTBINOMDIST() para calcular função de distribuição integral. Há também uma fórmula para calcular a probabilidade através da definição.

O arquivo de exemplo contém gráficos densidade de distribuição de probabilidade e função de distribuição integral.

Observação: Para a conveniência de escrever fórmulas para o parâmetro p, a .

Observação: Em função DISTBINOM.DIST( ) com valor não inteiro X, . Por exemplo, as fórmulas a seguir retornarão o mesmo valor:
DISTBINOM.DIST( 2 ; 1; 0,4; VERDADEIRO)=
DISTBINOM.DIST( 2,9 ; 1; 0,4; VERDADE)

Tarefas

As soluções dos problemas são dadas em arquivo de exemplo na planilha Exemplo.

Tarefa 1. Uma empresa petrolífera perfura poços para extrair petróleo. A probabilidade de encontrar petróleo em um poço é de 20%.
Qual é a probabilidade de que o primeiro óleo seja obtido na terceira tentativa?
Qual é a probabilidade de que sejam necessárias três tentativas para encontrar o primeiro óleo?
Solução1:
=INTERBINOM.DIST(3-1, 1, 0,2, FALSE)
=INTERBINOM.DIST(3-1, 1, 0,2, VERDADEIRO)

Tarefa 2. A agência de classificação faz uma pesquisa aleatória de transeuntes na cidade sobre sua marca favorita de carro. Que se saiba que 1% dos cidadãos tem um carro favorito LadaGranta. Qual é a probabilidade de você conhecer o primeiro admirador dessa marca de carro após uma pesquisa com 10 pessoas?
Solução2: \u003d OTRBINOM.DIST (10-1, 1, 0,01; VERDADE)=9,56%

Podemos destacar as leis mais comuns de distribuição de variáveis ​​aleatórias discretas:

  • Lei de distribuição binomial
  • lei de distribuição de Poisson
  • Lei de distribuição geométrica
  • Lei de distribuição hipergeométrica

Para determinadas distribuições de variáveis ​​aleatórias discretas, o cálculo das probabilidades de seus valores, bem como das características numéricas (expectativa matemática, variância, etc.) é realizado de acordo com certas "fórmulas". Portanto, é muito importante conhecer esses tipos de distribuições e suas propriedades básicas.


1. Lei de distribuição binomial.

Uma variável aleatória discreta $X$ está sujeita à distribuição de probabilidade binomial se assumir os valores $0,\ 1,\ 2,\ \dots ,\ n$ com probabilidades $P\left(X=k\right)= C^k_n\cdot p^k\cdot (\left(1-p\right))^(n-k)$. De fato, a variável aleatória $X$ é o número de ocorrências do evento $A$ em $n$ tentativas independentes. Lei de distribuição de probabilidade para a variável aleatória $X$:

$\begin(array)(|c|c|)
\hlinha
X_i & 0 & 1 & \pontos & n \\
\hlinha
p_i & P_n\left(0\right) & P_n\left(1\right) & \dots & P_n\left(n\right) \\
\hlinha
\end(matriz)$

Para tal variável aleatória, a expectativa é $M\left(X\right)=np$, a variância é $D\left(X\right)=np\left(1-p\right)$.

Exemplo . Há duas crianças na família. Assumindo as probabilidades de nascimento de um menino e uma menina iguais a $0,5$, encontre a lei de distribuição da variável aleatória $\xi $ - o número de meninos na família.

Seja a variável aleatória $\xi $ o número de meninos na família. Os valores que $\xi:\ 0,\ ​​1,\ 2$ podem assumir. As probabilidades desses valores podem ser encontradas pela fórmula $P\left(\xi =k\right)=C^k_n\cdot p^k\cdot (\left(1-p\right))^(n-k )$, onde $n =2$ - número de tentativas independentes, $p=0,5$ - probabilidade de ocorrência de um evento em uma série de $n$ tentativas. Nós temos:

$P\left(\xi =0\right)=C^0_2\cdot (0.5)^0\cdot (\left(1-0.5\right))^(2-0)=(0, 5)^2 =0,25;$

$P\left(\xi =1\right)=C^1_2\cdot 0.5\cdot (\left(1-0.5\right))^(2-1)=2\cdot 0.5\ cdot 0.5=0.5;$

$P\left(\xi =2\right)=C^2_2\cdot (0,5)^2\cdot (\left(1-0,5\right))^(2-2)=(0, 5)^2=0,25.$

Então a lei de distribuição da variável aleatória $\xi $ é a correspondência entre os valores $0,\ 1,\ 2$ e suas probabilidades, ou seja:

$\begin(array)(|c|c|)
\hlinha
\xi & 0 & 1 & 2 \\
\hlinha
P(\xi) & 0,25 & 0,5 & 0,25 \\
\hlinha
\end(matriz)$

A soma das probabilidades na lei de distribuição deve ser igual a $1$, ou seja, $\sum _(i=1)^(n)P(\xi _((\rm i)))=0,25+0,5+0, 25 =$1.

Expectativa $M\left(\xi \right)=np=2\cdot 0.5=1$, variação $D\left(\xi \right)=np\left(1-p\right)=2\ cdot 0.5\ cdot 0.5=0.5$, desvio padrão $\sigma \left(\xi \right)=\sqrt(D\left(\xi \right))=\sqrt(0.5 )\approx $0.707.

2. Lei de distribuição de Poisson.

Se uma variável aleatória discreta $X$ pode receber apenas valores inteiros não negativos $0,\ 1,\ 2,\ \dots ,\ n$ com probabilidades $P\left(X=k\right)=((( \lambda )^k )\over (k}\cdot e^{-\lambda }$, то говорят, что она подчинена закону распределения Пуассона с параметром $\lambda $. Для такой случайной величины математическое ожидание и дисперсия равны между собой и равны параметру $\lambda $, то есть $M\left(X\right)=D\left(X\right)=\lambda $.!}

Comente. A peculiaridade desta distribuição é que, com base em dados experimentais, encontramos as estimativas $M\left(X\right),\D\left(X\right)$, se as estimativas obtidas são próximas umas das outras, então temos têm motivos para afirmar que a variável aleatória está sujeita à lei de distribuição de Poisson.

Exemplo . Exemplos de variáveis ​​aleatórias sujeitas à lei de distribuição de Poisson podem ser: o número de carros que serão atendidos amanhã por um posto de gasolina; o número de itens defeituosos no produto fabricado.

Exemplo . A fábrica enviou $ 500$ em produtos para a base. A probabilidade de danos ao produto em trânsito é de $ 0,002 $. Encontre a lei de distribuição da variável aleatória $X$ igual ao número de produtos danificados; que é igual a $M\left(X\right),\D\left(X\right)$.

Seja uma variável aleatória discreta $X$ o número de produtos danificados. Tal variável aleatória está sujeita à lei de distribuição de Poisson com o parâmetro $\lambda =np=500\cdot 0.002=1$. As probabilidades dos valores são $P\left(X=k\right)=(((\lambda )^k)\over (k}\cdot e^{-\lambda }$. Очевидно, что все вероятности всех значений $X=0,\ 1,\ \dots ,\ 500$ перечислить невозможно, поэтому мы ограничимся лишь первыми несколькими значениями.!}

$P\esquerda(X=0\direita)=((1^0)\over (0}\cdot e^{-1}=0,368;$!}

$P\esquerda(X=1\direita)=((1^1)\over (1}\cdot e^{-1}=0,368;$!}

$P\esquerda(X=2\direita)=((1^2)\over (2}\cdot e^{-1}=0,184;$!}

$P\esquerda(X=3\direita)=((1^3)\over (3}\cdot e^{-1}=0,061;$!}

$P\esquerda(X=4\direita)=((1^4)\over (4}\cdot e^{-1}=0,015;$!}

$P\esquerda(X=5\direita)=((1^5)\over (5}\cdot e^{-1}=0,003;$!}

$P\esquerda(X=6\direita)=((1^6)\over (6}\cdot e^{-1}=0,001;$!}

$P\left(X=k\right)=(((\lambda )^k)\over (k}\cdot e^{-\lambda }$!}

A lei de distribuição da variável aleatória $X$:

$\begin(array)(|c|c|)
\hlinha
X_i & 0 & 1 & 2 & 3 & 4 & 5 & 6 & ... & k \\
\hlinha
P_i & 0,368; & 0,368 & 0,184 & 0,061 & 0,015 & 0,003 & 0,001 & ... & (((\lambda )^k)\over (k}\cdot e^{-\lambda } \\!}
\hlinha
\end(matriz)$

Para tal variável aleatória, a expectativa matemática e a variância são iguais entre si e iguais ao parâmetro $\lambda $, ou seja, $M\left(X\right)=D\left(X\right)=\lambda =1 $.

3. Lei geométrica da distribuição.

Se uma variável aleatória discreta $X$ pode assumir apenas valores naturais $1,\ 2,\ \dots ,\ n$ com probabilidades $P\left(X=k\right)=p(\left(1-p\ direito)) ^(k-1),\ k=1,\ 2,\ 3,\ \dots $, então dizemos que tal variável aleatória $X$ está sujeita à lei geométrica da distribuição de probabilidade. De fato, a distribuição geométrica parece ser as tentativas de Bernoulli para o primeiro sucesso.

Exemplo . Exemplos de variáveis ​​aleatórias que possuem distribuição geométrica podem ser: o número de tiros antes do primeiro acerto no alvo; número de testes do dispositivo antes da primeira falha; o número de lançamentos de moedas antes do primeiro heads-up, e assim por diante.

A expectativa matemática e a variância de uma variável aleatória sujeita a uma distribuição geométrica são respectivamente $M\left(X\right)=1/p$, $D\left(X\right)=\left(1-p\right) /p^ 2$.

Exemplo . No caminho do movimento dos peixes para o local de desova há um bloqueio de $ 4 $. A probabilidade de um peixe passar por cada eclusa é $p=3/5$. Construa uma série de distribuição da variável aleatória $X$ - o número de eclusas passadas pelo peixe antes da primeira parada na eclusa. Encontre $M\left(X\right),\ D\left(X\right),\ \sigma \left(X\right)$.

Seja a variável aleatória $X$ o número de comportas passadas pelo peixe antes da primeira parada na comporta. Tal variável aleatória está sujeita à lei geométrica da distribuição de probabilidade. Os valores que a variável aleatória $X pode assumir são: 1, 2, 3, 4. As probabilidades desses valores são calculadas pela fórmula: $P\left(X=k\right)=pq^( k-1)$, onde: $ p=2/5$ - probabilidade do peixe ser capturado pela eclusa, $q=1-p=3/5$ - probabilidade do peixe passar pela eclusa, $k=1, \ 2,\ 3,\ 4$.

$P\left(X=1\right)=((2)\over (5))\cdot (\left(((3)\over (5))\right))^0=((2)\ over(5))=0,4;$

$P\esquerda(X=2\direita)=((2)\sobre (5))\cdot ((3)\over (5))=((6)\over (25))=0,24; $

$P\left(X=3\right)=((2)\over (5))\cdot (\left(((3)\over (5))\right))^2=((2)\ sobre (5))\cdot ((9)\sobre (25))=((18)\sobre (125))=0,144;$

$P\left(X=4\right)=((2)\over (5))\cdot (\left(((3)\over (5))\right))^3+(\left(( (3)\acima de (5))\direita))^4=((27)\acima de (125))=0,216.$

$\begin(array)(|c|c|)
\hlinha
X_i & 1 & 2 & 3 & 4 \\
\hlinha
P\esquerda(X_i\direita) & 0,4 & 0,24 & 0,144 & 0,216 \\
\hlinha
\end(matriz)$

Valor esperado:

$M\left(X\right)=\sum^n_(i=1)(x_ip_i)=1\cdot 0.4+2\cdot 0.24+3\cdot 0.144+4\cdot 0.216=2.176.$

Dispersão:

$D\left(X\right)=\sum^n_(i=1)(p_i(\left(x_i-M\left(X\right)\right))^2=)0,4\cdot (\ left(1-2,176\right))^2+0,24\cdot (\left(2-2,176\right))^2+0,144\cdot (\left(3-2,176\right))^2+$

$+\ 0,216\cdot (\left(4-2,176\right))^2\approx 1,377.$

Desvio padrão:

$\sigma \left(X\right)=\sqrt(D\left(X\right))=\sqrt(1.377)\approx 1.173.$

4. Lei de distribuição hipergeométrica.

Se existem objetos $N$, entre os quais objetos $m$ possuem a propriedade dada. Aleatoriamente, sem reposição, são extraídos objetos $n$, dentre os quais há objetos $k$ que possuem determinada propriedade. A distribuição hipergeométrica permite estimar a probabilidade de que exatamente $k$ objetos em uma amostra tenham uma determinada propriedade. Seja a variável aleatória $X$ o número de objetos na amostra que possuem uma determinada propriedade. Então as probabilidades dos valores da variável aleatória $X$:

$P\esquerda(X=k\direita)=((C^k_mC^(n-k)_(N-m))\over (C^n_N))$

Comente. A função estatística HYPERGEOMET do Assistente de Função Excel $f_x$ permite determinar a probabilidade de que um certo número de tentativas seja bem-sucedido.

$f_x\para $ estatística$\para$ HIPERGEOMET$\para$ OK. Aparecerá uma caixa de diálogo que você precisa preencher. No gráfico Number_of_successes_in_sample especifique o valor de $k$. tamanho da amostraé igual a $n$. No gráfico Number_of_successes_in_population especifique o valor de $m$. Tamanho da populaçãoé igual a $N$.

A expectativa matemática e a variância de uma variável aleatória discreta $X$ sujeita a uma lei de distribuição geométrica são $M\left(X\right)=nm/N$, $D\left(X\right)=((nm\left) (1 -((m)\sobre (N))\right)\left(1-((n)\over (N))\right))\over (N-1))$.

Exemplo . O departamento de crédito do banco emprega 5 especialistas com formação financeira superior e 3 especialistas com formação jurídica superior. A direção do banco decidiu enviar 3 especialistas para treinamento avançado, selecionando-os aleatoriamente.

a) Fazer uma série de distribuição do número de especialistas com formação financeira superior que podem ser encaminhados para formação avançada;

b) Encontre as características numéricas desta distribuição.

Seja a variável aleatória $X$ o número de especialistas com maior formação financeira entre os três selecionados. Valores que $X:0,\ 1,\ 2,\ 3$ podem assumir. Esta variável aleatória $X$ é distribuída de acordo com a distribuição hipergeométrica com os seguintes parâmetros: $N=8$ - tamanho da população, $m=5$ - número de sucessos na população, $n=3$ - tamanho da amostra, $ k=0,\ 1, \ 2,\ 3$ - número de sucessos na amostra. Então as probabilidades $P\left(X=k\right)$ podem ser calculadas usando a fórmula: $P(X=k)=(C_(m)^(k) \cdot C_(N-m)^(n-k) \ sobre C_(N)^(n)) $. Nós temos:

$P\esquerda(X=0\direita)=((C^0_5\cdot C^3_3)\over (C^3_8))=((1)\over (56))\approx 0,018;$

$P\esquerda(X=1\direita)=((C^1_5\cdot C^2_3)\over (C^3_8))=((15)\over (56))\approx 0,268;$

$P\esquerda(X=2\direita)=((C^2_5\cdot C^1_3)\over (C^3_8))=((15)\over (28))\approx 0,536;$

$P\esquerda(X=3\direita)=((C^3_5\cdot C^0_3)\over (C^3_8))=((5)\over (28))\approx 0,179.$

Então a série de distribuição da variável aleatória $X$:

$\begin(array)(|c|c|)
\hlinha
X_i & 0 & 1 & 2 & 3 \\
\hlinha
p_i e 0,018 e 0,268 e 0,536 e 0,179 \\
\hlinha
\end(matriz)$

Vamos calcular as características numéricas da variável aleatória $X$ usando as fórmulas gerais da distribuição hipergeométrica.

$M\left(X\right)=((nm)\over (N))=((3\cdot 5)\over (8))=((15)\over (8))=1.875.$

$D\left(X\right)=((nm\left(1-((m)\over (N))\right)\left(1-((n)\over (N))\right)) \over (N-1))=((3\cdot 5\cdot \left(1-((5)\over (8))\right)\cdot \left(1-((3)\over (8) ))\right))\over (8-1))=((225)\over (448))\aprox 0,502.$

$\sigma \left(X\right)=\sqrt(D\left(X\right))=\sqrt(0,502)\approx 0,7085.$