Distribuição normal. Por que nem tudo é normal com uma distribuição normal?

    Como gerenciar adequadamente as finanças do seu negócio se você não for um especialista na área de análise financeira - A análise financeira

    Gestão financeira - relações financeiras entre assuntos, gestão financeira em diferentes níveis, gestão de carteiras, métodos de gestão da movimentação de recursos financeiros - esta não é uma lista completa do assunto " Gestão financeira"

    Vamos falar sobre o que é treinar? Alguns acreditam que esta é uma marca burguesa, outros que é um avanço nos negócios modernos. Coaching é um conjunto de regras para negócios de sucesso, bem como a capacidade de gerenciar adequadamente essas regras.

4.1. A distribuição das observações costuma ser normal?

Nos modelos econométricos e económico-matemáticos utilizados, nomeadamente, no estudo e optimização dos processos de marketing e gestão, gestão empresarial e regional, rigor e estabilidade dos processos tecnológicos, em problemas de fiabilidade, segurança, incluindo segurança ambiental, funcionamento de dispositivos e objetos, o desenvolvimento de organogramas frequentemente aplica os conceitos e resultados da teoria das probabilidades e da estatística matemática. Nesse caso, certas famílias paramétricas de distribuições de probabilidade são frequentemente usadas. A mais popular é a distribuição normal. A distribuição log-normal, distribuição exponencial, distribuição gama, distribuição Weibull-Gnedenko, etc. também são usadas.

Obviamente, é sempre necessário verificar a conformidade dos modelos com a realidade. Há duas perguntas. As distribuições reais diferem daquelas usadas no modelo? Em que medida essa diferença afeta as conclusões?

Abaixo, usando o exemplo da distribuição normal e os métodos para rejeitar observações nitidamente diferentes (outliers) com base nela, mostra-se que as distribuições reais quase sempre diferem daquelas incluídas nas famílias paramétricas clássicas e os desvios existentes das famílias dadas tirar conclusões incorretas, no caso em apreço, sobre a rejeição com base no uso dessas famílias.

Existe alguma razão para assumir a priori a normalidade dos resultados da medição?

Às vezes é argumentado que no caso em que o erro de medição (ou outra variável aleatória) é determinado como resultado da ação cumulativa de muitos pequenos fatores, então, devido ao Teorema do Limite Central (CLT) da teoria da probabilidade, esse valor é bem aproximado (por distribuição) por uma variável aleatória normal. Esta afirmação é verdadeira se os pequenos fatores atuam de forma aditiva e independente um do outro. Se eles atuam multiplicativamente, então, devido ao mesmo CLT, é necessário aproximar por uma distribuição log-normal. Em problemas aplicados, geralmente não é possível fundamentar a aditividade ao invés da multiplicatividade da ação de pequenos fatores. Se a dependência é de natureza geral, não se reduz a uma forma aditiva ou multiplicativa, e não há fundamento para aceitar modelos que dêem distribuições exponenciais, Weibull-Gnedenko, gama ou outras, então praticamente nada se sabe sobre a distribuição da variável aleatória final, exceto para propriedades intramatemáticas como regularidade .

Ao processar dados específicos, às vezes acredita-se que os erros de medição têm uma distribuição normal. No pressuposto da normalidade, constroem-se modelos clássicos de regressão, dispersão, análise fatorial, modelos metrológicos, que ainda continuam a ser encontrados tanto na documentação regulatória e técnica nacional quanto nas normas internacionais. Os modelos de cálculo dos níveis máximos atingíveis de certas características utilizados no projeto de sistemas para garantir a segurança do funcionamento de estruturas econômicas, dispositivos técnicos e objetos são baseados na mesma premissa. No entanto, não há base teórica para tal suposição. É necessário estudar experimentalmente a distribuição dos erros.

O que os resultados experimentais mostram? O resumo dado na monografia permite afirmar que na maioria dos casos a distribuição dos erros de medição difere da normal. Assim, no Machine-Electrotechnical Institute (Varna, Bulgária), foi estudada a distribuição de erros de calibração para as escalas de instrumentos de medição elétrica analógica. Os dispositivos fabricados na Tchecoslováquia, URSS e Bulgária foram estudados. A lei de distribuição de erros acabou sendo a mesma. Tem uma densidade

Analisamos os dados sobre os parâmetros de 219 distribuições reais de erros, estudadas por diferentes autores, ao medir grandezas elétricas e não elétricas com uma ampla variedade de dispositivos (elétricos). Como resultado deste estudo, descobriu-se que 111 distribuições, ou seja, aproximadamente 50% pertencem à classe de distribuições com densidade

onde é o parâmetro de grau; b - parâmetro de deslocamento; - parâmetro de escala; - função gama do argumento;

(cm. ); 63 distribuições, ou seja, 30% têm densidades planas com declives longos e suaves e não podem ser descritos como normais ou, por exemplo, exponenciais. As 45 distribuições restantes acabaram sendo bimodais.

No livro do famoso metrologista prof. PV Novitsky apresenta os resultados de um estudo das leis de distribuição de vários tipos de erros de medição. Ele estudou a distribuição de erros de instrumentos eletromecânicos em núcleos, instrumentos eletrônicos para medição de temperaturas e forças, instrumentos digitais com balanceamento manual. O volume de amostras de dados experimentais para cada espécime foi de 100 a 400 leituras. Descobriu-se que 46 das 47 distribuições eram significativamente diferentes do normal. A forma da distribuição dos erros em 25 cópias de voltímetros digitais Shch-1411 em 10 pontos da faixa foi estudada. Os resultados são semelhantes. Mais informações estão contidas na monografia.

O Laboratório de Matemática Aplicada da Universidade Estadual de Tartu analisou 2.500 amostras do arquivo de dados estatísticos reais. Em 92%, a hipótese de normalidade teve que ser rejeitada.

As descrições acima dos dados experimentais mostram que os erros de medição na maioria dos casos têm distribuições que diferem das normais. Isto significa, em particular, que a maioria das aplicações do teste t de Student, análise de regressão clássica e outros métodos estatísticos baseados na teoria normal não são, estritamente falando, justificados, uma vez que o axioma subjacente da normalidade das distribuições do variáveis ​​está incorreta.

Obviamente, para justificar ou alterar razoavelmente a prática existente de análise de dados estatísticos, é necessário estudar as propriedades dos procedimentos de análise de dados em aplicações "ilegais". O estudo dos procedimentos de rejeição mostrou que eles são extremamente instáveis ​​a desvios da normalidade e, portanto, não é aconselhável utilizá-los para processamento de dados reais (veja abaixo); portanto, não se pode afirmar que um procedimento tomado arbitrariamente seja estável contra desvios da normalidade.

Às vezes é sugerido que antes de aplicar, por exemplo, o teste de Student para a homogeneidade de duas amostras, verifique a normalidade. Embora existam muitos critérios para isso, testar a normalidade é um procedimento estatístico mais complexo e demorado do que testar a homogeneidade (tanto com estatísticas do tipo Student quanto com testes não paramétricos). Um número bastante grande de observações é necessário para estabelecer a normalidade de forma suficientemente confiável. Assim, para garantir que a função de distribuição dos resultados das observações difere de alguma normal em não mais que 0,01 (para qualquer valor do argumento), são necessárias cerca de 2500 observações. Na maioria dos estudos econômicos, técnicos, biomédicos e outros estudos aplicados, o número de observações é significativamente menor. Isso é especialmente verdadeiro para os dados usados ​​no estudo de problemas relacionados à garantia da segurança do funcionamento de estruturas econômicas e objetos técnicos.

Às vezes eles tentam usar o CCT para aproximar a distribuição do erro ao normal, incluindo somadores especiais no esquema tecnológico do dispositivo de medição. Vamos avaliar a utilidade desta medida. Sejam Z1 , Z2 ,…, Zk variáveis ​​aleatórias independentes identicamente distribuídas com função de distribuição H = H(x) tal que Considere

O indicador de proximidade da normalidade fornecido pelo somador é

A desigualdade da direita na última relação decorre das estimativas da constante na desigualdade de Berry-Esseen obtida no livro, e a da esquerda, do exemplo da monografia. Para uma lei normal = 1,6, para uma lei uniforme = 1,3, para uma lei de dois pontos = 1 (este é o limite inferior para ). Portanto, para garantir a distância (na métrica de Kolmogorov) à distribuição normal não superior a 0,01 para distribuições "malsucedidas", são necessários pelo menos k0 termos, onde

Em somadores comumente usados, os termos são muito menores. Ao estreitar a classe de distribuições possíveis H, pode-se obter, como mostrado na monografia, uma convergência mais rápida, mas aqui a teoria ainda não se funde com a prática. Além disso, não está claro se a proximidade da distribuição à normal (em uma determinada métrica) também garante a proximidade da distribuição das estatísticas construídas a partir de variáveis ​​aleatórias com essa distribuição à distribuição das estatísticas correspondentes às observações normais. Aparentemente, para cada estatística específica, são necessários estudos teóricos especiais, esta é a conclusão a que chega o autor da monografia. Em problemas de rejeição de outliers, a resposta é: "Não fornece" (veja abaixo).

Observe que o resultado de qualquer medição real é registrado usando um número finito de casas decimais, geralmente pequeno (2-5), portanto, é aconselhável modelar qualquer dado real usando apenas variáveis ​​aleatórias discretas que assumem um número finito de valores. A distribuição normal é apenas uma aproximação da distribuição real. Assim, por exemplo, os dados de um estudo específico, dados no trabalho, assumem valores de 1,0 a 2,2, ou seja, são 13 valores possíveis no total. Segue-se do princípio de Dirichlet que em algum ponto a função de distribuição construída de acordo com os dados de trabalho difere da função de distribuição normal mais próxima em pelo menos 1/26, ou seja, por 0,04. Além disso, é óbvio que para uma distribuição normal de uma variável aleatória, a probabilidade de cair em um conjunto discreto de números decimais com um determinado número de casas decimais é 0.

Decorre do exposto que os resultados das medições e, em geral, os dados estatísticos têm propriedades que levam a que sejam modelados por variáveis ​​aleatórias com distribuições mais ou menos diferentes das normais. Na maioria dos casos, as distribuições diferem significativamente das distribuições normais; em outros, as distribuições normais aparentemente podem ser consideradas como algum tipo de aproximação, mas nunca há uma coincidência completa. Isso implica tanto a necessidade de estudar as propriedades dos procedimentos estatísticos clássicos em modelos probabilísticos não clássicos (à semelhança do que é feito abaixo para o critério de Student), quanto a necessidade de desenvolver estabilidade (levando em conta a presença de desvios da normalidade) e não paramétricos, incluindo procedimentos livres de distribuição, sua ampla introdução na prática do processamento de dados estatísticos.

As considerações aqui omitidas para outras famílias paramétricas levam a conclusões semelhantes. O resultado pode ser formulado da seguinte forma. Distribuições de dados reais quase nunca pertencem a nenhuma família paramétrica específica. As distribuições reais são sempre diferentes daquelas incluídas nas famílias paramétricas. As diferenças podem ser grandes ou pequenas, mas sempre existem. Vamos tentar entender a importância dessas diferenças para a análise econométrica.

Todos os direitos reservados. Os materiais deste site só podem ser usados ​​com um link para este site.

A distribuição normal (distribuição gaussiana) sempre desempenhou um papel central na teoria das probabilidades, pois surge muitas vezes como resultado da influência de muitos fatores, sendo a contribuição de qualquer um insignificante. O Teorema do Limite Central (CLT) encontra aplicação em praticamente todas as ciências aplicadas, tornando o aparato da estatística universal. No entanto, há casos muito frequentes em que sua aplicação é impossível, e os pesquisadores tentam de todas as maneiras organizar o ajuste dos resultados ao Gaussiano. Trata-se de uma abordagem alternativa no caso de influência na distribuição de muitos fatores, vou dizer agora.

Breve história do CPT. Enquanto Newton ainda estava vivo, Abraham de Moivre provou um teorema sobre a convergência de um número centrado e normalizado de observações de um evento em uma série de tentativas independentes para uma distribuição normal. Ao longo do século XIX e início do século XX, esse teorema serviu de modelo científico para generalizações. Laplace provou o caso de distribuição uniforme, Poisson - o teorema local para o caso com diferentes probabilidades. Poincaré, Legendre e Gauss desenvolveram uma rica teoria de erros observacionais e o método dos mínimos quadrados baseado na convergência de erros para uma distribuição normal. Chebyshev provou um teorema ainda mais forte para a soma de variáveis ​​aleatórias desenvolvendo o método dos momentos. Lyapunov em 1900, contando com Chebyshev e Markov, provou a CLT em sua forma atual, mas apenas com a existência de momentos de terceira ordem. E somente em 1934 Feller pôs fim a isso, mostrando que a existência de momentos de segunda ordem é uma condição necessária e suficiente.

A CLT pode ser formulada da seguinte forma: se as variáveis ​​aleatórias são independentes, igualmente distribuídas e possuem variância finita diferente de zero, então as somas (centradas e normalizadas) dessas variáveis ​​convergem para a lei normal. É desta forma que este teorema é ensinado nas universidades e é tão frequentemente usado por observadores e pesquisadores que não são profissionais em matemática. O que tem de errado com ela? De fato, o teorema tem excelentes aplicações nos campos em que Gauss, Poincaré, Chebyshev e outros gênios do século XIX trabalharam, a saber: a teoria dos erros observacionais, física estatística, mínimos quadrados, estudos demográficos e talvez outra coisa. Mas os cientistas que não têm a originalidade de descobrir, generalizar e querem aplicar esse teorema a tudo, ou simplesmente arrastar a distribuição normal pelos ouvidos, onde ela simplesmente não pode ser. Se você quiser exemplos, eu os tenho.

Quociente de inteligência QI. Inicialmente, isso implica que a inteligência das pessoas é normalmente distribuída. Eles realizam um teste que é pré-compilado de uma maneira que não leva em consideração habilidades excepcionais, mas é levado em consideração separadamente com os mesmos fatores fracionários: pensamento lógico, design mental, habilidades computacionais, pensamento abstrato e outra coisa. A capacidade de resolver problemas além do alcance da maioria, ou passar no teste em tempo ultrarrápido não é levado em conta de forma alguma, e passar no teste antes aumenta o resultado (mas não a inteligência) no futuro. E então os filisteus acreditam que "ninguém pode ser duas vezes mais inteligente do que eles", "vamos tirar isso dos sábios e compartilhá-lo".

O segundo exemplo: mudanças nos indicadores financeiros. O estudo das mudanças no preço das ações, cotações de moedas, opções de commodities requer o uso do aparato da estatística matemática e, especialmente aqui, é importante não errar com o tipo de distribuição. Caso em questão: em 1997, o Prêmio Nobel de Economia foi pago pela proposta do modelo Black-Scholes, baseado no pressuposto de uma distribuição normal do crescimento dos indicadores de ações (o chamado ruído branco). Ao mesmo tempo, os autores declararam explicitamente que esse modelo precisa ser refinado, mas tudo o que a maioria dos outros pesquisadores decidiu foi simplesmente adicionar a distribuição de Poisson à distribuição normal. Aqui, obviamente, haverá imprecisões no estudo de séries temporais longas, pois a distribuição de Poisson satisfaz muito bem a CLT, e mesmo com 20 termos é indistinguível da distribuição normal. Veja a foto abaixo (e é de um jornal econômico muito sério), ela mostra que, apesar de um número bastante grande de observações e distorções óbvias, a distribuição é considerada normal.


É bastante óbvio que a distribuição dos salários entre a população da cidade, o tamanho dos arquivos no disco, a população das cidades e países não serão normais.

As distribuições desses exemplos têm em comum a presença da chamada “cauda pesada”, ou seja, valores distantes da média, e uma assimetria perceptível, geralmente correta. Vamos considerar o que mais, além do normal, essas distribuições poderiam ser. Vamos começar com o Poisson mencionado anteriormente: ele tem uma cauda, ​​mas queremos que a lei seja repetida para um conjunto de grupos, em cada um dos quais é observado (calcular o tamanho dos arquivos para uma empresa, salário para várias cidades) ou dimensionado (aumentar ou diminuir arbitrariamente o intervalo do modelo Black-Scholes), como mostram as observações, caudas e assimetrias não desaparecem, mas a distribuição de Poisson, segundo a CLT, deve se normalizar. Pelas mesmas razões, a distribuição Erlang, beta, logonormal e todas as outras com dispersão não funcionarão. Resta apenas cortar a distribuição de Pareto, mas ela não se encaixa devido à coincidência da moda com o valor mínimo, o que quase nunca ocorre na análise dos dados amostrais.

Distribuições com as propriedades necessárias existem e são chamadas de distribuições estáveis. A história deles também é muito interessante, e o teorema principal foi provado um ano depois do trabalho de Feller, em 1935, pelos esforços conjuntos do matemático francês Paul Levy e do matemático soviético A.Ya. Khinchin. O CLT foi generalizado, a condição para a existência de dispersão foi removida dele. Ao contrário do normal, nem a densidade nem a função de distribuição de variáveis ​​aleatórias estáveis ​​são expressas (com uma rara exceção, que é discutida abaixo), tudo o que se sabe sobre elas é a função característica (a transformada inversa de Fourier da densidade de distribuição, mas para entender a essência, isso não pode ser conhecido).
Então, o teorema: se as variáveis ​​aleatórias são independentes, igualmente distribuídas, então as somas dessas variáveis ​​convergem para uma lei estável.

Agora a definição. Valor aleatório X será estável se e somente se o logaritmo de sua função característica puder ser representado como:

Onde .

Na verdade, não há nada muito complicado aqui, você só precisa explicar o significado dos quatro parâmetros. Os parâmetros sigma e mu são a escala e o deslocamento usuais, pois na distribuição normal, mu será igual à expectativa se for, e é quando alfa é maior que um. O parâmetro beta é a assimetria; se for igual a zero, a distribuição é simétrica. Mas alfa é um parâmetro característico, que indica em que ordem existem os momentos de uma quantidade, quanto mais próximo de dois, mais a distribuição parece normal, se for igual a dois, a distribuição se torna normal, e somente em neste caso tem momentos de grandes ordens, também no caso de distribuição normal, a assimetria degenera. No caso em que alfa é igual a um e beta igual a zero, obtém-se a distribuição de Cauchy, e no caso em que alfa é igual a metade e beta igual a um, a distribuição de Levy, nos demais casos não há representação em quadraturas para a densidade de distribuição de tais quantidades.
No século 20, uma rica teoria de quantidades e processos estáveis ​​(chamados processos de Levy) foi desenvolvida, sua conexão com integrais fracionárias foi mostrada, vários métodos de parametrização e modelagem foram introduzidos, parâmetros foram estimados de várias maneiras, e a consistência e estabilidade das estimativas foram mostradas. Veja a foto, ela mostra a trajetória simulada do processo Levy com um fragmento ampliado 15 vezes.


Foi ao lidar com esses processos e sua aplicação em finanças que Benoit Mandelbrot surgiu com fractais. No entanto, nem todos os lugares foram tão bons. A segunda metade do século XX passou sob a tendência geral das ciências aplicadas e cibernéticas, o que significou uma crise da matemática pura, todos queriam produzir, mas não queriam pensar, as humanidades ocupavam as esferas matemáticas com seu jornalismo. Exemplo: o livro "Cinquenta divertidos problemas probabilísticos com soluções" do americano Mosteller, problema número 11:


A solução do autor para este problema é simplesmente uma derrota do bom senso:

A mesma situação é com a tarefa 25, onde são dadas TRÊS respostas contraditórias.

Mas voltando às distribuições estáveis. No restante do artigo, tentarei mostrar que não deve haver dificuldades adicionais ao trabalhar com eles. Ou seja, existem métodos numéricos e estatísticos que permitem avaliar os parâmetros, calcular a função de distribuição e simulá-los, ou seja, funcionam da mesma forma que com qualquer outra distribuição.

Modelagem de variáveis ​​aleatórias estáveis. Como tudo é conhecido em comparação, deixe-me primeiro lembrar o método mais conveniente, do ponto de vista dos cálculos, para gerar um valor normal (o método de Box-Muller): if são variáveis ​​aleatórias básicas (distribuídas uniformemente em )