Distribuição de Probabilidade Discreta. Distribuição binomial de uma variável aleatória discreta

Apesar dos nomes exóticos, as distribuições comuns se relacionam de forma bastante intuitiva e maneiras interessantes que tornam mais fácil lembrá-los e falar sobre eles com confiança. Alguns seguem naturalmente, por exemplo, a distribuição de Bernoulli. Hora de mostrar o mapa dessas conexões.

Cada distribuição é ilustrada por um exemplo de sua função de densidade de distribuição (DDF). Este artigo é apenas sobre as distribuições cujos resultados são - números únicos. É por isso, eixo horizontal cada gráfico é um conjunto de possíveis números-resultados. Vertical - a probabilidade de cada resultado. Algumas distribuições são discretas - seus resultados devem ser inteiros, como 0 ou 5. Estes são indicados por linhas esparsas, uma para cada resultado, com uma altura correspondente à probabilidade desse resultado. Alguns são contínuos, seus resultados podem levar qualquer valor numérico, como -1,32 ou 0,005. Elas são mostradas como curvas densas com áreas sob as seções da curva que fornecem as probabilidades. A soma das alturas das linhas e áreas sob as curvas é sempre 1.

Imprima-o, corte-o ao longo da linha pontilhada e carregue-o com você na carteira. Este é o seu guia para o país de distribuições e seus parentes.

Bernoulli e uniforme

Você já encontrou a distribuição de Bernoulli acima, com dois resultados - cara ou coroa. Imagine agora como uma distribuição sobre 0 e 1, 0 sendo cara e 1 sendo coroa. Como já está claro, ambos os resultados são igualmente prováveis, e isso se reflete no diagrama. O PDF de Bernoulli contém duas linhas a mesma altura representando 2 resultados igualmente prováveis: 0 e 1, respectivamente.

A distribuição de Bernoulli também pode representar resultados desiguais, como lançar a moeda errada. Então a probabilidade de cara não será 0,5, mas algum outro valor p, e a probabilidade de coroa será 1-p. Como muitas outras distribuições, na verdade é uma família inteira de distribuições com certos parâmetros, como p acima. Quando você pensa em "Bernoulli" - pense em "jogar uma moeda (possivelmente errada)".

Daí muito pequeno passo antes de apresentar uma distribuição sobre vários resultados equiprováveis: uma distribuição uniforme caracterizada por uma PDF plana. Represente o correto dados. Seus resultados 1-6 são igualmente prováveis. Pode ser definido para qualquer número de resultados n, e até mesmo como uma distribuição contínua.

pense sobre distribuição uniforme como um "dado correto".

Binomial e hipergeométrica

A distribuição binomial pode ser pensada como a soma dos resultados das coisas que seguem a distribuição de Bernoulli.

Jogue uma moeda honesta duas vezes - quantas vezes será cara? Este é um número que obedece à distribuição binomial. Seus parâmetros são n, o número de tentativas, e p é a probabilidade de "sucesso" (no nosso caso, cara ou 1). Cada rolo é um resultado distribuído de Bernoulli, ou teste. Usar distribuição binomial ao contar o número de sucessos em coisas como jogar uma moeda, onde cada lançamento é independente dos outros e tem a mesma probabilidade de sucesso.

Ou imagine uma urna com o mesmo número de bolas brancas e pretas. Feche os olhos, retire a bola, anote sua cor e devolva-a. Repetir. Quantas vezes a bola preta foi retirada? Este número também segue a distribuição binomial.

este situação estranha introduzimos para facilitar a compreensão do significado da distribuição hipergeométrica. Esta é a distribuição do mesmo número, mas em uma situação se não devolver as bolas. Certamente prima distribuição binomial, mas não a mesma, pois a probabilidade de sucesso muda a cada bola retirada. Se o número de bolas for grande o suficiente em comparação com o número de sorteios, essas distribuições são quase as mesmas, pois a chance de sucesso muda muito pouco a cada sorteio.

Quando alguém fala em tirar bolas de urnas sem devolver, quase sempre é seguro dizer “sim, distribuição hipergeométrica”, porque na minha vida ainda não conheci ninguém que realmente enchesse urnas com bolas e depois as tirasse e as devolvesse , ou vice-versa. Eu nem tenho amigos com urnas. Ainda mais frequentemente, essa distribuição deve surgir ao escolher um subconjunto significativo de alguma população geral como amostra.

Observação. tradução

Pode não estar muito claro aqui, mas desde o tutorial e o curso expresso para iniciantes, seria necessário explicar. A população é algo que queremos avaliar estatisticamente. Para estimar, selecionamos uma determinada parte (subconjunto) e fazemos a estimativa necessária sobre ela (então esse subconjunto é chamado de amostra), assumindo que a estimativa será semelhante para toda a população. Mas para que isso seja verdade, muitas vezes são necessárias restrições adicionais na definição de um subconjunto da amostra (ou vice-versa, de uma amostra conhecida, precisamos avaliar se ela descreve a população com precisão suficiente).

Um exemplo prático - precisamos selecionar representantes de uma empresa de 100 pessoas para viajar para a E3. Sabe-se que 10 pessoas já viajaram nele no ano passado (mas ninguém é reconhecido). Quanto mínimo deve ser tomado para que pelo menos um camarada experiente esteja no grupo? NO este caso população- 100, seleção - 10, requisitos de seleção - pelo menos um que já tenha viajado para o E3.

A Wikipedia tem um exemplo menos engraçado, mas mais prático, sobre peças defeituosas em um lote.

veneno

E quanto ao número de clientes ligando linha direta ao suporte técnico a cada minuto? Este é um resultado cuja distribuição é, à primeira vista, binomial, se considerarmos cada segundo como uma tentativa de Bernoulli, durante a qual o cliente não liga (0) ou liga (1). Mas as organizações de fornecimento de energia sabem muito bem: quando a eletricidade é desligada, duas pessoas podem ligar em um segundo. ou até mais de cem de pessoas. Apresentá-lo como tentativas de 60.000 milissegundos também não ajuda - há mais tentativas, a probabilidade de uma chamada por milissegundo é menor, mesmo que você não conte duas ou mais ao mesmo tempo, mas, tecnicamente, isso ainda não é um Teste de Bernoulli. No entanto, o raciocínio lógico funciona com a transição para o infinito. Seja n infinito e p 0, de modo que np seja constante. É como dividir em frações de tempo cada vez menores com cada vez menos chance de uma ligação. No limite, obtemos a distribuição de Poisson.

Assim como a distribuição binomial, a distribuição de Poisson é uma distribuição quantitativa: o número de vezes que algo acontece. Ele é parametrizado não pela probabilidade p e pelo número de tentativas n, mas pela intensidade média λ, que, em analogia com o binômio, é simplesmente valor constante s.p. A distribuição de Poisson é o que necessário lembre-se quando se trata de contar eventos para certo tempo com uma intensidade constante.

Quando há algo como pacotes chegando a um roteador ou clientes aparecendo em uma loja ou algo esperando na fila, pense em Poisson.

Binômio geométrico e negativo

A partir de testes simples Bernoulli aparece outra distribuição. Quantas vezes uma moeda dá coroa antes de dar cara? O número de caudas segue uma distribuição geométrica. Assim como a distribuição de Bernoulli, ela é parametrizada pela probabilidade de um resultado bem-sucedido, p. Não é parametrizado pelo número n, o número de tentativas, pois o número de tentativas com falha é precisamente o resultado.

Se a distribuição binomial é "quantos sucessos", então a distribuição geométrica é "Quantas falhas antes do sucesso?".

A distribuição binomial negativa é uma simples generalização da anterior. Este é o número de falhas antes que haja r, não 1, sucessos. Portanto, é adicionalmente parametrizado por este r. Às vezes é descrito como o número de sucessos antes de r falhas. Mas, como diz meu life coach: “Você decide o que é sucesso e o que é fracasso”, então é a mesma coisa, se você não esquecer que a probabilidade p também deve probabilidade correta sucesso ou fracasso, respectivamente.

Se você precisar de uma piada para aliviar a tensão, você pode mencionar que as distribuições binomial e hipergeométrica são um casal óbvio, mas as distribuições geométricas e binomiais negativas também são bastante semelhantes, e depois diga “Bem, quem chama todas assim, hein? ”

Exponencial e Weibull

Novamente sobre as chamadas para o suporte técnico: quanto tempo levará até a próxima chamada? A distribuição desse tempo de espera parece ser geométrica, pois cada segundo até que ninguém ligue é como uma falha, até o segundo, até que a chamada finalmente ocorra. O número de falhas é como o número de segundos até que ninguém ligou, e isso é praticamente tempo até a próxima chamada, mas "praticamente" não é suficiente para nós. A linha inferior é que este tempo será a soma de segundos inteiros e, portanto, não será possível calcular a espera dentro deste segundo até a chamada em si.

Bem, como antes, vamos para distribuição geométrica até o limite, em relação a timeshares - e voila. Obtemos uma distribuição exponencial , que descreve com precisão o tempo antes da chamada. isto distribuição contínua, temos o primeiro, pois o resultado não é necessariamente em segundos inteiros. Assim como a distribuição de Poisson, ela é parametrizada pela intensidade λ.

Ecoando a conexão entre o binômio e o geométrico, a pergunta de Poisson "quantos eventos em um tempo?" está relacionado ao exponencial "quanto tempo antes do evento?". Se existem eventos cujo número por unidade de tempo obedece à distribuição de Poisson, então o tempo entre eles obedece à distribuição exponencial com o mesmo parâmetro λ. Essa correspondência entre as duas distribuições deve ser notada quando uma delas for discutida.

A distribuição exponencial deve vir à mente quando se pensa em "tempo para evento", talvez "tempo para falha". De fato, esta é uma situação tão importante que existem distribuições mais generalizadas para descrever o MTBF, como a distribuição Weibull. Enquanto a distribuição exponencial é apropriada quando a taxa de desgaste ou falha é, por exemplo, constante, a distribuição Weibull pode modelar uma taxa de falha crescente (ou decrescente) ao longo do tempo. Exponencial, em geral, um caso especial.

Pense em Weibull quando se trata de MTBF.

Normal, lognormal, Student e qui-quadrado

A distribuição normal, ou gaussiana, é provavelmente uma das mais importantes. Sua forma em forma de sino é imediatamente reconhecível. Como , esta é uma entidade particularmente curiosa que se manifesta em todos os lugares, mesmo dos mais externos fontes simples. Pegue um conjunto de valores que obedecem a mesma distribuição - qualquer um! - e dobre-os. A distribuição da sua soma está sujeita a (aproximadamente) distribuição normal. Quanto mais coisas são somadas, mais próximo sua soma corresponde a uma distribuição normal (truque: a distribuição dos termos deve ser previsível, ser independente, tende apenas ao normal). Que assim seja, apesar da distribuição original, é incrível.

Observação. tradução

Fiquei surpreso que o autor não escreve sobre a necessidade de uma escala comparável de distribuições somáveis: se uma dominar significativamente as outras, convergirá extremamente mal. E, em geral, a independência mútua absoluta não é necessária, uma dependência fraca é suficiente.

Bem, provavelmente é para festas, como ele escreveu.


Isso é chamado de "teorema do limite central", e você precisa saber o que é, por que é chamado assim e o que significa, caso contrário, eles rirão instantaneamente.

Em seu contexto, a normal está relacionada a todas as distribuições. Embora, basicamente, esteja associado à distribuição de todos os valores. A soma das tentativas de Bernoulli segue uma distribuição binomial e, à medida que o número de tentativas aumenta, essa distribuição binomial se aproxima cada vez mais de uma distribuição normal. Da mesma forma, seu primo é a distribuição hipergeométrica. A distribuição de Poisson - a forma limite do binômio - também se aproxima da normal com o aumento do parâmetro de intensidade.

Os resultados que seguem uma distribuição lognormal fornecem valores cujo logaritmo é normalmente distribuído. Ou de outra forma: o expoente de um valor normalmente distribuído é lognormalmente distribuído. Se as somas forem normalmente distribuídas, lembre-se também de que os produtos são lognormalmente distribuídos.

A distribuição t de Student é a base do teste t, que muitos não estatísticos estudam em outros campos. É usado para fazer suposições sobre a média de uma distribuição normal e também tende a uma distribuição normal à medida que seu parâmetro aumenta. Recurso distintivo A distribuição t são suas caudas, que são mais espessas que as da distribuição normal.

Se a anedota do rabo gordo não abalou seu vizinho o suficiente, passe para um conto de cerveja bastante engraçado. Há mais de 100 anos, o Guinness usou estatísticas para melhorar sua robustez. Então William Seely Gosset inventou um teoria estatística para o cultivo melhorado de cevada. Gosset convenceu o patrão de que outros cervejeiros não entenderiam como usar suas ideias e obteve permissão para publicá-la, mas sob o pseudônimo de "Estudante". A maioria conquista famosa Gosset é apenas essa mesma distribuição t, que, pode-se dizer, recebeu o nome dele.

Finalmente, a distribuição qui-quadrado é a distribuição das somas dos quadrados de quantidades normalmente distribuídas. Um teste qui-quadrado é construído sobre esta distribuição, ele próprio baseado na soma das diferenças quadradas, que devem ser normalmente distribuídas.

Gama e beta

Neste ponto, se você já está falando sobre algo qui-quadrado, a conversa começa a sério. Você provavelmente já está conversando com estatísticos reais, e provavelmente vale a pena desistir já, pois coisas como a distribuição gama podem surgir. Isso é uma generalização e exponencial e distribuição qui-quadrado. Assim como a distribuição exponencial, ela é usada para modelos de latência complexos. Por exemplo, a distribuição gama aparece quando o tempo para os próximos n eventos é simulado. Ele aparece em aprendizado de máquina como um "conjugado anterior" a algumas outras distribuições.

Não entre na conversa sobre essas distribuições conjugadas, mas se o fizer, não se esqueça de mencionar a distribuição beta, porque é o conjugado anterior da maioria das distribuições mencionadas aqui. Os cientistas de dados têm certeza de que é exatamente para isso que foi feito. Mencione isso inadvertidamente e vá até a porta.

O Começo da Sabedoria

Distribuições de probabilidade são algo sobre o qual você não pode saber muito. Os realmente interessados ​​podem consultar este mapa super detalhado de todas as distribuições de probabilidade Adicionar tags

Apesar de seus nomes exóticos, as distribuições comuns estão relacionadas entre si de maneira intuitiva e interessante o suficiente para torná-las fáceis de lembrar e falar com confiança. Alguns seguem naturalmente, por exemplo, a distribuição de Bernoulli. Hora de mostrar o mapa dessas conexões.

Cada distribuição é ilustrada por um exemplo de sua função de densidade de distribuição (DDF). Este artigo é apenas sobre as distribuições cujos resultados são números únicos. Portanto, o eixo horizontal de cada gráfico é um conjunto de possíveis números-resultados. Vertical - a probabilidade de cada resultado. Algumas distribuições são discretas - seus resultados devem ser inteiros, como 0 ou 5. Estes são indicados por linhas esparsas, uma para cada resultado, com uma altura correspondente à probabilidade desse resultado. Alguns são contínuos, seus resultados podem assumir qualquer valor numérico, como -1,32 ou 0,005. Elas são mostradas como curvas densas com áreas sob as seções da curva que fornecem as probabilidades. A soma das alturas das linhas e áreas sob as curvas é sempre 1.

Imprima-o, corte-o ao longo da linha pontilhada e carregue-o com você na carteira. Este é o seu guia para o país de distribuições e seus parentes.

Bernoulli e uniforme

Você já encontrou a distribuição de Bernoulli acima, com dois resultados - cara ou coroa. Imagine agora como uma distribuição sobre 0 e 1, 0 sendo cara e 1 sendo coroa. Como já está claro, ambos os resultados são igualmente prováveis, e isso se reflete no diagrama. O FPR de Bernoulli contém duas linhas de mesma altura, representando 2 resultados igualmente prováveis: 0 e 1, respectivamente.

A distribuição de Bernoulli também pode representar resultados desiguais, como lançar a moeda errada. Então a probabilidade de cara não será 0,5, mas algum outro valor p, e a probabilidade de coroa será 1-p. Como muitas outras distribuições, na verdade é uma família inteira de distribuições com certos parâmetros, como p acima. Quando você pensa em "Bernoulli" - pense em "jogar uma moeda (possivelmente errada)".

A partir daqui, é um passo muito pequeno para representar uma distribuição sobre vários resultados equiprováveis: uma distribuição uniforme caracterizada por uma PDF plana. Imagine os dados corretos. Seus resultados 1-6 são igualmente prováveis. Pode ser definido para qualquer número de resultados n, e até mesmo como uma distribuição contínua.

Pense em uma distribuição uniforme como um "dado correto".

Binomial e hipergeométrica

A distribuição binomial pode ser pensada como a soma dos resultados das coisas que seguem a distribuição de Bernoulli.

Jogue uma moeda honesta duas vezes - quantas vezes será cara? Este é um número que obedece à distribuição binomial. Seus parâmetros são n, o número de tentativas, e p é a probabilidade de "sucesso" (no nosso caso, cara ou 1). Cada rolo é um resultado distribuído de Bernoulli, ou teste. Use a distribuição binomial ao contar o número de sucessos em coisas como jogar uma moeda, onde cada lançamento é independente dos outros e tem a mesma probabilidade de sucesso.

Ou imagine uma urna com o mesmo número de bolas brancas e pretas. Feche os olhos, retire a bola, anote sua cor e devolva-a. Repetir. Quantas vezes a bola preta foi retirada? Este número também segue a distribuição binomial.

Apresentamos essa estranha situação para facilitar o entendimento do significado da distribuição hipergeométrica. Esta é a distribuição do mesmo número, mas em uma situação se não devolver as bolas. É certamente um primo da distribuição binomial, mas não o mesmo, pois a probabilidade de sucesso muda a cada bola retirada. Se o número de bolas for grande o suficiente em comparação com o número de sorteios, essas distribuições são quase as mesmas, pois a chance de sucesso muda muito pouco a cada sorteio.

Quando alguém fala em tirar bolas de urnas sem devolver, quase sempre é seguro dizer “sim, distribuição hipergeométrica”, porque na minha vida ainda não conheci ninguém que realmente enchesse urnas com bolas e depois as tirasse e as devolvesse , ou vice-versa. Eu nem tenho amigos com urnas. Ainda mais frequentemente, essa distribuição deve surgir ao escolher um subconjunto significativo de alguma população geral como amostra.

Observação. tradução

Pode não estar muito claro aqui, mas desde o tutorial e o curso expresso para iniciantes, seria necessário explicar. A população é algo que queremos avaliar estatisticamente. Para estimar, selecionamos uma determinada parte (subconjunto) e fazemos a estimativa necessária sobre ela (então esse subconjunto é chamado de amostra), assumindo que a estimativa será semelhante para toda a população. Mas para que isso seja verdade, muitas vezes são necessárias restrições adicionais na definição de um subconjunto da amostra (ou vice-versa, de uma amostra conhecida, precisamos avaliar se ela descreve a população com precisão suficiente).

Um exemplo prático - precisamos selecionar representantes de uma empresa de 100 pessoas para viajar para a E3. Sabe-se que 10 pessoas já viajaram nele no ano passado (mas ninguém é reconhecido). Quanto mínimo deve ser tomado para que pelo menos um camarada experiente esteja no grupo? Nesse caso, a população é 100, a amostra é 10 e os requisitos da amostra são pelo menos alguém que já tenha pilotado o E3.

A Wikipedia tem um exemplo menos engraçado, mas mais prático, sobre peças defeituosas em um lote.

veneno

E quanto ao número de clientes que ligam para a linha direta de suporte técnico a cada minuto? Este é um resultado cuja distribuição é, à primeira vista, binomial, se considerarmos cada segundo como uma tentativa de Bernoulli, durante a qual o cliente não liga (0) ou liga (1). Mas as organizações de fornecimento de energia sabem muito bem: quando a eletricidade é desligada, duas pessoas podem ligar em um segundo. ou até mais de cem de pessoas. Apresentá-lo como tentativas de 60.000 milissegundos também não ajuda - há mais tentativas, a probabilidade de uma chamada por milissegundo é menor, mesmo que você não conte duas ou mais ao mesmo tempo, mas, tecnicamente, isso ainda não é um Teste de Bernoulli. No entanto, o raciocínio lógico funciona com a transição para o infinito. Seja n infinito e p 0, de modo que np seja constante. É como dividir em frações de tempo cada vez menores com cada vez menos chance de uma ligação. No limite, obtemos a distribuição de Poisson.

Assim como a distribuição binomial, a distribuição de Poisson é uma distribuição quantitativa: o número de vezes que algo acontece. Ele é parametrizado não pela probabilidade pe o número de tentativas n, mas pela intensidade média λ, que, em analogia com o binômio, é simplesmente um valor constante de np. A distribuição de Poisson é o que necessário lembre-se quando se trata de contar eventos por um certo tempo em uma intensidade constante.

Quando há algo como pacotes chegando a um roteador ou clientes aparecendo em uma loja ou algo esperando na fila, pense em Poisson.

Binômio geométrico e negativo

A partir de testes simples de Bernoulli, surge outra distribuição. Quantas vezes uma moeda dá coroa antes de dar cara? O número de caudas segue uma distribuição geométrica. Assim como a distribuição de Bernoulli, ela é parametrizada pela probabilidade de um resultado bem-sucedido, p. Não é parametrizado pelo número n, o número de tentativas, pois o número de tentativas com falha é precisamente o resultado.

Se a distribuição binomial é "quantos sucessos", então a distribuição geométrica é "Quantas falhas antes do sucesso?".

A distribuição binomial negativa é uma simples generalização da anterior. Este é o número de falhas antes que haja r, não 1, sucessos. Portanto, é adicionalmente parametrizado por este r. Às vezes é descrito como o número de sucessos antes de r falhas. Mas, como diz meu life coach: “Você decide o que é sucesso e o que é fracasso”, então é a mesma coisa, se você não esquecer que a probabilidade p também deve ser a probabilidade correta de sucesso ou fracasso, respectivamente.

Se você precisar de uma piada para aliviar a tensão, você pode mencionar que as distribuições binomial e hipergeométrica são um casal óbvio, mas as distribuições geométricas e binomiais negativas também são bastante semelhantes, e depois diga “Bem, quem chama todas assim, hein? ”

Exponencial e Weibull

Novamente sobre as chamadas para o suporte técnico: quanto tempo levará até a próxima chamada? A distribuição desse tempo de espera parece ser geométrica, pois cada segundo até que ninguém ligue é como uma falha, até o segundo, até que a chamada finalmente ocorra. O número de falhas é como o número de segundos até que ninguém ligou, e isso é praticamente tempo até a próxima chamada, mas "praticamente" não é suficiente para nós. A linha inferior é que este tempo será a soma de segundos inteiros e, portanto, não será possível calcular a espera dentro deste segundo até a chamada em si.

Bem, como antes, passamos a distribuição geométrica ao limite, com relação às frações de tempo - e voila. Obtemos uma distribuição exponencial , que descreve com precisão o tempo antes da chamada. Esta é uma distribuição contínua, a primeira que temos, porque o resultado não é necessariamente em segundos inteiros. Assim como a distribuição de Poisson, ela é parametrizada pela intensidade λ.

Ecoando a conexão entre o binômio e o geométrico, a pergunta de Poisson "quantos eventos em um tempo?" está relacionado ao exponencial "quanto tempo antes do evento?". Se existem eventos cujo número por unidade de tempo obedece à distribuição de Poisson, então o tempo entre eles obedece à distribuição exponencial com o mesmo parâmetro λ. Essa correspondência entre as duas distribuições deve ser notada quando uma delas for discutida.

A distribuição exponencial deve vir à mente quando se pensa em "tempo para evento", talvez "tempo para falha". De fato, esta é uma situação tão importante que existem distribuições mais generalizadas para descrever o MTBF, como a distribuição Weibull. Enquanto a distribuição exponencial é apropriada quando a taxa de desgaste ou falha é, por exemplo, constante, a distribuição Weibull pode modelar uma taxa de falha crescente (ou decrescente) ao longo do tempo. Exponencial, em geral, um caso especial.

Pense em Weibull quando se trata de MTBF.

Normal, lognormal, Student e qui-quadrado

A distribuição normal, ou gaussiana, é provavelmente uma das mais importantes. Sua forma em forma de sino é imediatamente reconhecível. Como , esta é uma entidade particularmente curiosa que se manifesta em todos os lugares, mesmo nas fontes aparentemente mais simples. Pegue um conjunto de valores que obedecem a mesma distribuição - qualquer um! - e dobre-os. A distribuição de sua soma segue uma distribuição (aproximadamente) normal. Quanto mais coisas são somadas, mais próximo sua soma corresponde a uma distribuição normal (truque: a distribuição dos termos deve ser previsível, ser independente, tende apenas ao normal). Que assim seja, apesar da distribuição original, é incrível.

Observação. tradução

Fiquei surpreso que o autor não escreve sobre a necessidade de uma escala comparável de distribuições somáveis: se uma dominar significativamente as outras, convergirá extremamente mal. E, em geral, a independência mútua absoluta não é necessária, uma dependência fraca é suficiente.

Bem, provavelmente é para festas, como ele escreveu.


Isso é chamado de "teorema do limite central", e você precisa saber o que é, por que é chamado assim e o que significa, caso contrário, eles rirão instantaneamente.

Em seu contexto, a normal está relacionada a todas as distribuições. Embora, basicamente, esteja associado à distribuição de todos os valores. A soma das tentativas de Bernoulli segue uma distribuição binomial e, à medida que o número de tentativas aumenta, essa distribuição binomial se aproxima cada vez mais de uma distribuição normal. Da mesma forma, seu primo é a distribuição hipergeométrica. A distribuição de Poisson - a forma limite do binômio - também se aproxima da normal com o aumento do parâmetro de intensidade.

Os resultados que seguem uma distribuição lognormal fornecem valores cujo logaritmo é normalmente distribuído. Ou de outra forma: o expoente de um valor normalmente distribuído é lognormalmente distribuído. Se as somas forem normalmente distribuídas, lembre-se também de que os produtos são lognormalmente distribuídos.

A distribuição t de Student é a base do teste t, que muitos não estatísticos estudam em outros campos. É usado para fazer suposições sobre a média de uma distribuição normal e também tende a uma distribuição normal à medida que seu parâmetro aumenta. Uma característica distintiva da distribuição t são suas caudas, que são mais espessas do que as de uma distribuição normal.

Se a anedota do rabo gordo não abalou seu vizinho o suficiente, passe para um conto de cerveja bastante engraçado. Há mais de 100 anos, o Guinness usou estatísticas para melhorar sua robustez. Foi então que William Seeley Gosset inventou uma teoria estatística completamente nova para melhorar o cultivo de cevada. Gosset convenceu o patrão de que outros cervejeiros não entenderiam como usar suas ideias e obteve permissão para publicá-la, mas sob o pseudônimo de "Estudante". A realização mais famosa de Gosset é precisamente essa distribuição t, que, pode-se dizer, recebeu seu nome.

Finalmente, a distribuição qui-quadrado é a distribuição das somas dos quadrados de quantidades normalmente distribuídas. Um teste qui-quadrado é construído sobre esta distribuição, ele próprio baseado na soma das diferenças quadradas, que devem ser normalmente distribuídas.

Gama e beta

Neste ponto, se você já está falando sobre algo qui-quadrado, a conversa começa a sério. Você provavelmente já está conversando com estatísticos reais, e provavelmente vale a pena desistir já, pois coisas como a distribuição gama podem surgir. Isso é uma generalização e exponencial e distribuição qui-quadrado. Assim como a distribuição exponencial, ela é usada para modelos de latência complexos. Por exemplo, a distribuição gama aparece quando o tempo para os próximos n eventos é simulado. Ele aparece no aprendizado de máquina como o "anterior adjunto" de algumas outras distribuições.

Não entre na conversa sobre essas distribuições conjugadas, mas se o fizer, não se esqueça de mencionar a distribuição beta, porque é o conjugado anterior da maioria das distribuições mencionadas aqui. Os cientistas de dados têm certeza de que é exatamente para isso que foi feito. Mencione isso inadvertidamente e vá até a porta.

O Começo da Sabedoria

Distribuições de probabilidade são algo sobre o qual você não pode saber muito. Os realmente interessados ​​podem consultar este mapa super detalhado de todas as distribuições de probabilidade Adicionar tags

evento aleatorioé qualquer fato que, como resultado de um teste, pode ou não ocorrer. evento aleatorioé o resultado do teste. Tentativas- este é um experimento, o cumprimento de um certo conjunto de condições em que este ou aquele fenômeno é observado, este ou aquele resultado é fixado.

Os eventos são indicados por letras maiúsculas do alfabeto latino A, B, C.

Uma medida numérica do grau de objetividade da possibilidade de um evento ocorrer é chamada de a probabilidade de um evento aleatório.

Definição clássica probabilidades do evento A:

A probabilidade de um evento A é igual à razão entre o número de casos favoráveis ​​ao evento A(m) e número total casos (n).

Definição estatística probabilidades

Frequência relativa do eventoé a proporção daqueles testes realmente realizados em que o evento A apareceu W=P*(A)= m/n. Esta é uma característica experimental experimental, onde m é o número de experimentos em que o evento A apareceu; n é o número de todos os experimentos realizados.

Probabilidade de um evento o número em torno do qual os valores de frequência são agrupados é chamado este evento em várias séries um grande número testes P(A)=.

Os eventos são chamados incompatível se a ocorrência de um deles exclui o aparecimento do outro. Caso contrário, os eventos articulação.

Soma dois eventos é um evento em que pelo menos um desses eventos (A ou B) aparece.

Se A e B articulação eventos, então sua soma A + B denota a ocorrência do evento A ou evento B, ou ambos os eventos juntos.

Se A e B incompatível evento, então a soma A + B significa a ocorrência do evento A ou do evento B.

2. O conceito de eventos dependentes e independentes. Probabilidade condicional, lei (teorema) da multiplicação de probabilidades. Fórmula de Bayes.

O evento B é chamado independente do evento A, se a ocorrência do evento A não alterar a probabilidade de ocorrência do evento B. A probabilidade de ocorrência de vários independente eventos é igual ao produto das probabilidades destes:

P(AB) = P(A)*P(B)

Por dependente eventos:

P(AB) = P(A)*P(B/A).

A probabilidade do produto de dois eventos é igual ao produto da probabilidade de um deles por Probabilidade Condicional outro, encontrado sob a suposição de que o primeiro evento ocorreu.

Probabilidade Condicional evento B é a probabilidade do evento B, encontrada sob a condição de que o evento A ocorreu. Designado P(B/A)

Trabalhar dois eventos é um evento que consiste na ocorrência conjunta desses eventos (A e B)

A fórmula de Bayes é usada para reavaliar eventos aleatórios

P(H/A) = (P(H)*P(A/H))/P(A)

P(H) - probabilidade a priori do evento H

P(H/A) é a probabilidade posterior da hipótese H, desde que o evento A já tenha ocorrido

P(A/H) - opinião especializada

P(A) - probabilidade total do evento A

3. Distribuição de variáveis ​​aleatórias discretas e contínuas e suas características: expectativa matemática, variância, desvio padrão. Lei normal de distribuição de variáveis ​​aleatórias contínuas.

Valor aleatório- este é o valor que, como resultado do teste, dependendo do caso, assume um dos possíveis conjuntos de seus valores.

Discreto valor aleatório é uma variável aleatória quando assume um conjunto de valores separado, isolado e contável.

Variável aleatória contínuaé uma variável aleatória que recebe qualquer valor de um determinado intervalo. O conceito de uma variável aleatória contínua surge durante as medições.

Para um discreto variável aleatória, a lei de distribuição pode ser dada na forma mesas, analiticamente (como uma fórmula), e graficamente.

Mesa esta é a forma mais simples de definir a lei de distribuição

Requisitos:

para variáveis ​​aleatórias discretas

Analítico:

1)F(x)=P(X

Função de distribuição = função de distribuição cumulativa. Para variáveis ​​aleatórias discretas e contínuas.

2)f(x) = F'(x)

Densidade de probabilidade = função de distribuição diferencial apenas para uma variável aleatória contínua.

Gráfico:

S-va: 1) 0≤F(x)≤1

2) não decrescente para variáveis ​​aleatórias discretas

S-va: 1) f(x)≥0 P(x)=

2) área S=1

para variáveis ​​aleatórias contínuas

Características:

1. expectativa matemática - o evento médio mais provável

Para variáveis ​​aleatórias discretas.

Para variáveis ​​aleatórias contínuas.

2) Dispersão - dispersão em torno da expectativa matemática

Para variáveis ​​aleatórias discretas:

D(x)=xi -M(x)) 2 *pi

Para variáveis ​​aleatórias contínuas:

D(x)=x-M(x)) 2 *f(x)dx

3) Desvio padrão:

σ(x)=√(D(x))

σ - desvio padrão ou padrão

x é o valor aritmético da raiz quadrada de sua variância

Lei de distribuição normal (NZR) - lei gaussiana

TIR é o decaimento de probabilidade de uma variável aleatória contínua, que é descrita por uma função diferencial

Seção 6. Leis típicas de distribuição e características numéricas de variáveis ​​aleatórias

A forma das funções F(x), p(x), ou a enumeração p(x i) é chamada de lei de distribuição da variável aleatória. Embora se possa imaginar uma variedade infinita de variáveis ​​aleatórias, há muito menos leis de distribuição. Primeiro, diferentes variáveis ​​aleatórias podem ter exatamente as mesmas leis de distribuição. Por exemplo: deixe y assumir apenas 2 valores 1 e -1 com probabilidades 0,5; o valor z = -y tem exatamente a mesma lei de distribuição.
Em segundo lugar, muitas vezes as variáveis ​​aleatórias têm leis de distribuição semelhantes, ou seja, por exemplo, p(x) para elas é expressa por fórmulas da mesma forma, diferindo apenas em uma ou mais constantes. Essas constantes são chamadas de parâmetros de distribuição.

Embora, em princípio, uma ampla variedade de leis de distribuição seja possível, algumas das leis mais típicas serão consideradas aqui. É importante atentar para as condições em que surgem, os parâmetros e propriedades dessas distribuições.

1 . Distribuição uniforme
Este é o nome da distribuição de uma variável aleatória que pode assumir qualquer valor no intervalo (a,b), e a probabilidade de cair em qualquer segmento dentro de (a,b) é proporcional ao comprimento do segmento e não depende de sua posição, e a probabilidade de valores fora (a,b) é igual a 0.


Fig 6.1 Função e densidade de distribuição uniforme

Parâmetros de distribuição: a , b

2. Distribuição normal
Distribuição com densidade descrita pela fórmula

(6.1)

chamados normais.
Parâmetros de distribuição: a , σ


Figura 6.2 Visão típica da densidade e função de distribuição normal

3 . Distribuição de Bernoulli
Se uma série de tentativas independentes for realizada, em cada uma das quais o evento A pode aparecer com a mesma probabilidade p, então o número de ocorrências do evento é uma variável aleatória distribuída de acordo com a lei de Bernoulli, ou de acordo com a lei binomial (outro nome de distribuição).

Aqui n é o número de tentativas na série, m é uma variável aleatória (o número de ocorrências do evento A), P n (m) é a probabilidade de que A aconteça exatamente m vezes, q \u003d 1 - p (o probabilidade de que A não apareça no teste).

Exemplo 1: Um dado é lançado 5 vezes, qual é a probabilidade de que um 6 seja lançado duas vezes?
n=5, m=2, p=1/6, q=5/6

Parâmetros de distribuição: n, p

quatro. Distribuição de veneno
A distribuição de Poisson é obtida como o caso limite da distribuição de Bernoulli se p tende a zero e n tende ao infinito, mas de tal forma que seu produto permaneça constante: np = a. Formalmente, tal passagem ao limite leva à fórmula

Parâmetro de distribuição: a

A distribuição de Poisson está sujeita a muitas variáveis ​​aleatórias encontradas na ciência e na vida prática.

Exemplo 2: Número de chamadas recebidas na estação de ambulância em uma hora.
Vamos dividir o intervalo de tempo T (1 hora) em pequenos intervalos dt, de modo que a probabilidade de duas ou mais chamadas durante dt seja desprezível, e a probabilidade de uma chamada p seja proporcional a dt: p = μdt ;
consideraremos a observação durante os momentos dt como tentativas independentes, o número de tais tentativas durante o tempo T: n = T / dt;
se assumirmos que as probabilidades de receber chamadas não mudam durante uma hora, então o número total de chamadas obedece à lei de Bernoulli com os parâmetros: n = T / dt, p = μdt. Deixando dt tender a zero, obtemos que n tende ao infinito, e o produto n × p permanece constante: a = n × p = μT.

Exemplo 3: número de moléculas de gás ideal em algum volume fixo V.
Vamos dividir o volume V em pequenos volumes dV tais que a probabilidade de encontrar duas ou mais moléculas em dV seja desprezível, e a probabilidade de encontrar uma molécula seja proporcional a dV: р = μdV; consideraremos a observação de cada volume dV como um teste independente, o número de tais testes é n=V/dV; se assumirmos que as probabilidades de encontrar uma molécula em qualquer lugar dentro de V são as mesmas, o número total de moléculas no volume V obedece à lei de Bernoulli com parâmetros: n = V / dV, p = μdV. Deixando dV tender a zero, obtemos que n tende ao infinito, e o produto n × p permanece constante: a = n × p = μV.

Características numéricas de variáveis ​​aleatórias

1 . Expectativa matemática (valor médio)

Definição:
A esperança matemática é
  (6.4)

A soma é tomada sobre todos os valores que a variável aleatória assume. A série deve ser absolutamente convergente (caso contrário, diz-se que a variável aleatória não tem expectativa matemática)

;   (6.5)

A integral deve ser absolutamente convergente (caso contrário, diz-se que a variável aleatória não tem valor esperado)


Propriedades da esperança matemática:

uma. Se C é um valor constante, então MC = C
b. Mx = Smx
c. A expectativa matemática da soma de variáveis ​​aleatórias é sempre igual à soma de suas expectativas matemáticas: М(х+y) = Мх + Мy d . O conceito de expectativa matemática condicional é introduzido. Se uma variável aleatória assume seus valores x i com diferentes probabilidades p(x i /H j) sob diferentes condições H j , então a expectativa condicional é determinada por

Como as ou ;   (6.6)

Se as probabilidades dos eventos H j forem conhecidas, a

valor esperado: ;   (6.7)

Exemplo 4: Quantas vezes, em média, você precisa jogar uma moeda antes que o primeiro brasão apareça? Este problema pode ser resolvido "na testa"

XI 1 2 3 ... k..
p(xi):  ,

mas esse valor ainda precisa ser calculado. Você pode fazer isso mais fácil, usando os conceitos de expectativa matemática condicional e total. Considere as hipóteses H 1 - o brasão caiu pela primeira vez, H 2 - não caiu pela primeira vez. Obviamente, p (H 1) \u003d p (H 2) \u003d ½; Mx / H 1 \u003d 1;
Mx / H 2 é 1 a mais do que a expectativa total desejada, porque após o primeiro lançamento da moeda, a situação não mudou, mas uma vez que já foi lançada. Usando a fórmula da expectativa matemática completa, temos Mx \u003d Mx / H 1 × p (H 1) + Mx / H 2 × p (H 2) \u003d 1 × 0,5 + (Mx + 1) × 0,5, resolvendo a equação para Mx, obtemos imediatamente Mx = 2.

e. Se f(x) é uma função de uma variável aleatória x, então o conceito da esperança matemática de uma função de uma variável aleatória é definido:

Para uma variável aleatória discreta: ;   (6.8)

A soma é tomada sobre todos os valores que a variável aleatória assume. A série deve ser absolutamente convergente.

Para uma variável aleatória contínua: ;   (6.9)

A integral deve ser absolutamente convergente.

2. Variação de uma variável aleatória
Definição:
A dispersão de uma variável aleatória x é a expectativa matemática do desvio quadrado do valor da quantidade de sua expectativa matemática: Dx = M(x-Mx) 2

Para uma variável aleatória discreta: ;   (6.10)

A soma é tomada sobre todos os valores que a variável aleatória assume. A série deve ser convergente (caso contrário, diz-se que a variável aleatória não tem variância)

Para uma variável aleatória contínua: ;   (6.11)

A integral deve convergir (caso contrário, diz-se que a variável aleatória não tem variância)

Propriedades de dispersão:
uma. Se C é um valor constante, então DC = 0
b. Dх = С 2 Dх
c. A variância da soma das variáveis ​​aleatórias é sempre igual à soma de suas variâncias somente se essas variáveis ​​forem independentes (definição de variáveis ​​independentes)
d. Para calcular a variância, é conveniente usar a fórmula:

Dx = Mx 2 - (Mx) 2 (6,12)

Relação de características numéricas
e parâmetros de distribuições típicas

distribuiçãoopçõesFórmulaMxDx
uniformea, b (b+a) / 2(b-a) 2/12
normala, σ umaσ2
Bernoullin,p npnpq
Poissonuma umauma