Calcule o intervalo de confiança. Métodos de Análise Quantitativa: Estimando Intervalos de Confiança

O intervalo de confiança veio até nós do campo da estatística. Isso é intervalo específico, que serve para estimar o parâmetro desconhecido com um alto grau confiabilidade. A maneira mais fácil de explicar isso é com um exemplo.

Suponha que você precise investigar alguma variável aleatória, por exemplo, a velocidade de resposta do servidor a uma solicitação de cliente. Cada vez que um usuário digita o endereço de um determinado site, o servidor responde em uma taxa diferente. Assim, o tempo de resposta investigado tem um caráter aleatório. Então aqui está intervalo de confiança permite determinar os limites deste parâmetro, e então será possível afirmar que com uma probabilidade de 95% o servidor estará na faixa calculada por nós.

Ou você precisa descobrir quantas pessoas sabem sobre marca comercial empresas. Quando o intervalo de confiança for calculado, será possível, por exemplo, dizer que com 95% de probabilidade a parcela de consumidores que sabem disso está na faixa de 27% a 34%.

Intimamente relacionado a este termo é nível de confiança. Representa a probabilidade de que o parâmetro desejado seja incluído no intervalo de confiança. Este valor determina quão grande será o nosso intervalo desejado. Quão maior valor aceita, mais estreito se torna o intervalo de confiança e vice-versa. Geralmente é definido como 90%, 95% ou 99%. O valor de 95% é o mais popular.

Este indicador também é influenciado pela variância das observações e sua definição é baseada na suposição de que a característica em estudo obedece, afirmação também conhecida como Lei de Gauss. Segundo ele, tal distribuição de todas as probabilidades de um contínuo variável aleatória, que pode ser descrito pela densidade de probabilidade. Se a suposição sobre distribuição normal provou ser errônea, então a estimativa pode estar incorreta.

Primeiro, vamos descobrir como calcular o intervalo de confiança para Aqui, dois casos são possíveis. A dispersão (o grau de dispersão de uma variável aleatória) pode ou não ser conhecida. Se for conhecido, nosso intervalo de confiança é calculado usando a seguinte fórmula:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - sinal,

t é um parâmetro da tabela de distribuição de Laplace,

σ é a raiz quadrada da dispersão.

Se a variação for desconhecida, ela poderá ser calculada se soubermos todos os valores do recurso desejado. Para isso, é utilizada a seguinte fórmula:

σ2 = х2ср - (хр)2, onde

х2ср - o valor médio dos quadrados da característica em estudo,

(xsr)2 é o quadrado desse recurso.

A fórmula pela qual o intervalo de confiança é calculado neste caso muda ligeiramente:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - média da amostra,

α - sinal,

t é um parâmetro encontrado usando a tabela de distribuição de Student t \u003d t (ɣ; n-1),

sqrt(n) é a raiz quadrada do tamanho total da amostra,

s é a raiz quadrada da variância.

Considere este exemplo. Suponha que, com base nos resultados de 7 medições, a característica em estudo foi determinada como 30 e a variância amostral igual a 36. É necessário encontrar, com uma probabilidade de 99%, um intervalo de confiança que contenha o valor verdadeiro de o parâmetro medido.

Primeiro, vamos determinar o que t é igual a: t \u003d t (0,99; 7-1) \u003d 3,71. Usando a fórmula acima, obtemos:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

O intervalo de confiança para a variância é calculado tanto no caso de uma média conhecida como quando não há dados sobre a expectativa matemática, e apenas o valor da estimativa pontual imparcial da variância é conhecido. Não daremos aqui as fórmulas para seu cálculo, pois são bastante complexas e, se desejado, sempre podem ser encontradas na rede.

Observamos apenas que é conveniente determinar o intervalo de confiança usando o programa Excel ou um serviço de rede, que é chamado assim.

Um dos métodos para resolver problemas estatísticos é o cálculo do intervalo de confiança. É usado como uma alternativa preferencial para a estimativa pontual quando o tamanho da amostra é pequeno. Deve-se notar que o processo de cálculo do intervalo de confiança é bastante complicado. Mas as ferramentas do programa Excel permitem simplificá-lo um pouco. Vamos descobrir como isso é feito na prática.

Este método é usado na estimativa de intervalo de várias grandezas estatísticas. A principal tarefa deste cálculo é livrar-se das incertezas da estimativa pontual.

No Excel, existem duas opções principais para fazer cálculos usando esse método: quando a variação é conhecida e quando é desconhecida. No primeiro caso, a função é usada para cálculos NORMA DE CONFIANÇA, e no segundo ESTUDANTE DE CONFIANÇA.

Método 1: Função NORMA DE CONFIANÇA

Operador NORMA DE CONFIANÇA, que se refere ao grupo estatístico de funções, apareceu pela primeira vez no Excel 2010. As versões anteriores deste programa usam sua contraparte CONFIAR EM. A tarefa deste operador é calcular um intervalo de confiança com distribuição normal para a média populacional.

Sua sintaxe é a seguinte:

NORMA DE CONFIANÇA(alfa, padrão_dev, tamanho)

"Alfa"é um argumento que indica o nível de significância usado para calcular o nível de confiança. O nível de confiança é igual à seguinte expressão:

(1-"Alfa")*100

"Desvio padrão"é um argumento, cuja essência é clara a partir do nome. Este é o desvio padrão da amostra proposta.

"O tamanho"é um argumento que determina o tamanho da amostra.

Todos os argumentos para este operador são obrigatórios.

Função CONFIAR EM tem exatamente os mesmos argumentos e possibilidades que o anterior. Sua sintaxe é:

TRUST(alfa, padrão_dev, tamanho)

Como você pode ver, as diferenças estão apenas no nome do operador. Essa função foi mantida no Excel 2010 e versões mais recentes em uma categoria especial por motivos de compatibilidade. "Compatibilidade". Nas versões do Excel 2007 e anteriores, está presente no grupo principal de operadores estatísticos.

O limite do intervalo de confiança é determinado usando a fórmula da seguinte forma:

X+(-)NORMA DE CONFIANÇA

Onde Xé a média amostral, localizada no meio do intervalo selecionado.

Agora vamos ver como calcular o intervalo de confiança usando um exemplo específico. Foram realizados 12 testes, resultando em resultados diferentes, que estão listados na tabela. Esta é a nossa totalidade. O desvio padrão é 8. Precisamos calcular o intervalo de confiança no nível de confiança de 97%.

  1. Selecione a célula onde será exibido o resultado do processamento de dados. Clicando no botão "Inserir Função".
  2. Parece Assistente de função. Ir para a categoria "Estatístico" e destaque o nome "CONFIANÇA.NORMA". Após isso clique no botão OK.
  3. A janela de argumentos é aberta. Seus campos correspondem naturalmente aos nomes dos argumentos.
    Defina o cursor para o primeiro campo - "Alfa". Aqui devemos especificar o nível de significância. Como lembramos, nosso nível de confiança é de 97%. Ao mesmo tempo, dissemos que é calculado da seguinte maneira:

    (1-nível de confiança)/100

    Ou seja, substituindo o valor, temos:

    Por cálculos simples, descobrimos que o argumento "Alfa"é igual a 0,03 . Insira este valor no campo.

    Como você sabe, o desvio padrão é igual a 8 . Portanto, no campo "Desvio padrão" basta anotar esse número.

    Em campo "O tamanho" você precisa inserir o número de elementos dos testes realizados. Como lembramos, eles 12 . Mas para automatizar a fórmula e não editá-la toda vez que um novo teste for realizado, vamos definir esse valor não para um número comum, mas usando o operador VERIFICA. Então, colocamos o cursor no campo "O tamanho" e, em seguida, clique no triângulo, localizado à esquerda da barra de fórmulas.

    Uma lista de funções usadas recentemente é exibida. Se o operador VERIFICA usado por você recentemente, ele deve estar nesta lista. Neste caso, você só precisa clicar em seu nome. Caso contrário, se você não encontrá-lo, vá para o ponto "Mais recursos...".

  4. Já nos parece familiar Assistente de função. Voltando ao grupo "Estatístico". Selecionamos o nome lá "VERIFICA". Clique no botão OK.
  5. A janela de argumentos para o operador acima é exibida. Esta função foi projetada para calcular o número de células no intervalo especificado que contêm valores numéricos. Sua sintaxe é a seguinte:

    COUNT(valor1, valor2,…)

    Grupo de argumentos "Valores"é uma referência ao intervalo no qual você deseja calcular o número de células preenchidas com dados numéricos. No total, pode haver até 255 argumentos, mas no nosso caso precisamos de apenas um.

    Definir o cursor no campo "Valor1" e, mantendo pressionado o botão esquerdo do mouse, selecione o intervalo na planilha que contém nossa população. Em seguida, seu endereço será exibido no campo. Clique no botão OK.

  6. Após isso, o aplicativo realizará o cálculo e exibirá o resultado na célula onde ele próprio se encontra. No nosso caso particular, a fórmula ficou assim:

    NORMA DE CONFIANÇA(0,03,8,CONTAGEM(B2:B13))

    O resultado geral dos cálculos foi 5,011609 .

  7. Mas isso não é tudo. Como lembramos, o limite do intervalo de confiança é calculado adicionando e subtraindo o valor médio da amostra do resultado do cálculo NORMA DE CONFIANÇA. Desta forma, os limites direito e esquerdo do intervalo de confiança são calculados, respectivamente. A própria média amostral pode ser calculada usando o operador MÉDIA.

    Este operador é projetado para calcular a média aritmética do intervalo de números selecionado. Ele tem a seguinte sintaxe bastante simples:

    MÉDIA(número1, número2,…)

    Argumento "Número" pode ser um único valor numérico ou uma referência a células ou até mesmo intervalos inteiros que os contêm.

    Assim, selecione a célula na qual será exibido o cálculo do valor médio e clique no botão "Inserir Função".

  8. abre Assistente de função. Voltar para a categoria "Estatístico" e selecione um nome na lista "MÉDIA". Como sempre, clique no botão OK.
  9. A janela de argumentos é iniciada. Definir o cursor no campo "Número 1" e com o botão esquerdo do mouse pressionado, selecione toda a faixa de valores. Após as coordenadas serem exibidas no campo, clique no botão OK.
  10. Depois disso MÉDIA emite o resultado do cálculo para um elemento de folha.
  11. Calculamos o limite direito do intervalo de confiança. Para fazer isso, selecione uma célula separada, coloque o sinal «=» e adicione o conteúdo dos elementos da planilha nos quais os resultados do cálculo das funções estão localizados MÉDIA e NORMA DE CONFIANÇA. Para realizar o cálculo, pressione o botão Entrar. No nosso caso, obtivemos a seguinte fórmula:

    Resultado do cálculo: 6,953276

  12. Da mesma forma, calculamos o limite esquerdo do intervalo de confiança, só que desta vez a partir do resultado do cálculo MÉDIA subtrair o resultado do cálculo do operador NORMA DE CONFIANÇA. Acontece que a fórmula para o nosso exemplo do seguinte tipo:

    Resultado do cálculo: -3,06994

  13. Tentamos descrever detalhadamente todas as etapas para calcular o intervalo de confiança, então descrevemos cada fórmula em detalhes. Mas você pode combinar todas as ações em uma fórmula. O cálculo do limite direito do intervalo de confiança pode ser escrito da seguinte forma:

    MÉDIA(B2:B13)+CONFIANÇA(0,03,8,CONTAGEM(B2:B13))

  14. Um cálculo semelhante da borda esquerda ficaria assim:

    MÉDIA(B2:B13)-CONFIANÇA.NORM(0,03,8,CONTAGEM(B2:B13))

Método 2: função CONFIANÇA.ESTUDANTE

Além disso, existe outra função no Excel que está relacionada ao cálculo do intervalo de confiança - ESTUDANTE DE CONFIANÇA. Aparece apenas desde o Excel 2010. Este operador realiza o cálculo do intervalo de confiança da população utilizando a distribuição de Student. É muito conveniente usá-lo no caso em que a variância e, portanto, o desvio padrão são desconhecidos. A sintaxe do operador é:

CONFIANÇA.ESTUDANTE(alfa,dev_padrão,tamanho)

Como você pode ver, os nomes dos operadores neste caso permaneceram inalterados.

Vamos ver como calcular os limites do intervalo de confiança com um desvio padrão desconhecido usando o exemplo da mesma população que consideramos no método anterior. O nível de confiança, como da última vez, levaremos 97%.

  1. Selecione a célula na qual o cálculo será feito. Clique no botão "Inserir Função".
  2. No aberto Assistente de função ir para a categoria "Estatístico". Escolha um nome "CONFIANÇA.ESTUDANTE". Clique no botão OK.
  3. A janela de argumentos para o operador especificado é iniciada.

    Em campo "Alfa", dado que o nível de confiança é de 97%, anotamos o número 0,03 . Na segunda vez, não nos deteremos nos princípios de cálculo desse parâmetro.

    Depois disso, defina o cursor no campo "Desvio padrão". Desta vez, este indicador é desconhecido para nós e precisa ser calculado. Isso é feito usando uma função especial - STDEV.B. Para chamar a janela deste operador, clique no triângulo à esquerda da barra de fórmulas. Se não encontrarmos o nome desejado na lista que se abre, vá para o item "Mais recursos...".

  4. está correndo Assistente de função. Movendo para a categoria "Estatístico" e marque o nome "STDEV.B". Em seguida, clique no botão OK.
  5. A janela de argumentos é aberta. tarefa do operador STDEV.Bé a definição de desvio padrão na amostragem. Sua sintaxe fica assim:

    STDEV.V(número1,número2,…)

    É fácil adivinhar que o argumento "Número"é o endereço do elemento de seleção. Se a seleção for colocada em uma única matriz, usando apenas um argumento, você poderá fornecer um link para esse intervalo.

    Definir o cursor no campo "Número 1" e, como sempre, mantendo pressionado o botão esquerdo do mouse, selecione o conjunto. Depois que as coordenadas estiverem no campo, não se apresse em pressionar o botão OK porque o resultado será incorreto. Primeiro precisamos retornar à janela de argumentos do operador ESTUDANTE DE CONFIANÇA para fazer o argumento final. Para fazer isso, clique no nome apropriado na barra de fórmulas.

  6. A janela de argumentos da função já familiar é aberta novamente. Definir o cursor no campo "O tamanho". Novamente, clique no triângulo já familiar para nós para ir para a escolha de operadores. Como você entende, precisamos de um nome "VERIFICA". Como usamos essa função nos cálculos do método anterior, ela está presente nesta lista, basta clicar nela. Se você não encontrá-lo, siga o algoritmo descrito no primeiro método.
  7. Entrando na janela de argumentos VERIFICA, coloque o cursor no campo "Número 1" e com o botão do mouse pressionado, selecione a coleção. Em seguida, clique no botão OK.
  8. Depois disso, o programa calcula e exibe o valor do intervalo de confiança.
  9. Para determinar os limites, precisaremos novamente calcular a média amostral. Mas, dado que o algoritmo de cálculo usando a fórmula MÉDIA o mesmo que no método anterior, e mesmo o resultado não mudou, não vamos nos debruçar sobre isso em detalhes uma segunda vez.
  10. Somando os resultados do cálculo MÉDIA e ESTUDANTE DE CONFIANÇA, obtemos o limite direito do intervalo de confiança.
  11. Subtraindo dos resultados do cálculo do operador MÉDIA resultado do cálculo ESTUDANTE DE CONFIANÇA, temos o limite esquerdo do intervalo de confiança.
  12. Se o cálculo estiver escrito em uma fórmula, o cálculo da borda direita no nosso caso ficará assim:

    MÉDIA(B2:B13)+CONFIANÇA DO ALUNO(0,03,STDV(B2:B13),CONTAGEM(B2:B13))

  13. Assim, a fórmula para calcular a borda esquerda ficará assim:

    MÉDIA(B2:B13)-CONFIANÇA DO ALUNO(0,03,STDV(B2:B13),CONTAGEM(B2:B13))

Como você pode ver, as ferramentas do programa Excel permitem facilitar significativamente o cálculo do intervalo de confiança e seus limites. Para esses fins, operadores separados são usados ​​para amostras cuja variação é conhecida e desconhecida.

E outras, todas são estimativas de suas contrapartes teóricas, que poderiam ser obtidas se não houvesse uma amostra, mas a população em geral. Mas, infelizmente, a população em geral é muito cara e muitas vezes indisponível.

O conceito de estimativa de intervalo

Qualquer estimativa amostral tem alguma dispersão, porque é uma variável aleatória dependendo dos valores em uma determinada amostra. Portanto, para inferências estatísticas mais confiáveis, deve-se conhecer não apenas a estimativa pontual, mas também o intervalo, que com alta probabilidade γ (gama) cobre o indicador estimado θ (teta).

Formalmente, esses são dois desses valores (estatísticas) T1(X) e T2(X), que T1< T 2 , para o qual em um determinado nível de probabilidade γ condição for atendida:

Em suma, é provável γ ou mais o valor verdadeiro está entre os pontos T1(X) e T2(X), que são chamados de limites inferior e superior intervalo de confiança.

Uma das condições para construir intervalos de confiança é sua estreiteza máxima, ou seja, deve ser o mais curto possível. O desejo é bastante natural, porque. o pesquisador tenta localizar com mais precisão a descoberta do parâmetro desejado.

Segue-se que o intervalo de confiança deve cobrir as probabilidades máximas da distribuição. e a pontuação em si estar no centro.

Ou seja, a probabilidade de desvio (do indicador verdadeiro da estimativa) para cima é igual à probabilidade de desvio para baixo. Deve-se notar também que para distribuições assimétricas, o intervalo à direita não é igual ao intervalo à esquerda.

A figura acima mostra claramente que quanto maior o nível de confiança, maior o intervalo - uma relação direta.

Esta foi uma pequena introdução à teoria da estimativa de intervalo de parâmetros desconhecidos. Vamos prosseguir para encontrar limites de confiança para a expectativa matemática.

Intervalo de confiança para expectativa matemática

Se os dados originais forem distribuídos por , a média será um valor normal. Isso decorre da regra de que uma combinação linear de valores normais também possui uma distribuição normal. Portanto, para calcular as probabilidades, poderíamos usar o aparato matemático da lei da distribuição normal.

No entanto, isso exigirá o conhecimento de dois parâmetros - o valor esperado e a variância, que geralmente não são conhecidos. Você pode, é claro, usar estimativas em vez de parâmetros (média aritmética e ), mas a distribuição da média não será totalmente normal, será ligeiramente achatada. O cidadão William Gosset, da Irlanda, notou habilmente esse fato quando publicou sua descoberta na edição de março de 1908 da Biometrica. Para fins de sigilo, Gosset assinou com Student. Foi assim que surgiu a distribuição t de Student.

No entanto, a distribuição normal dos dados, usada por K. Gauss na análise de erros em observações astronômicas, é extremamente rara na vida terrestre e é bastante difícil estabelecer isso (para alta precisão, são necessárias cerca de 2 mil observações). Portanto, é melhor abandonar a suposição de normalidade e usar métodos que não dependam da distribuição dos dados originais.

Surge a pergunta: qual é a distribuição da média aritmética se for calculada a partir dos dados de uma distribuição desconhecida? A resposta é dada pelo bem conhecido na teoria da probabilidade Teorema do limite central(CPT). Em matemática, existem várias versões dela (as formulações foram refinadas ao longo dos anos), mas todas elas, grosso modo, se resumem à afirmação de que a soma de um grande número de variáveis ​​aleatórias independentes obedece à lei da distribuição normal.

Ao calcular a média aritmética, é utilizada a soma das variáveis ​​aleatórias. A partir disso, verifica-se que a média aritmética tem uma distribuição normal, na qual o valor esperado é o valor esperado dos dados iniciais e a variância é .

Pessoas inteligentes sabem como provar a CLT, mas vamos verificar isso com a ajuda de um experimento realizado no Excel. Vamos simular uma amostra de 50 variáveis ​​aleatórias uniformemente distribuídas (usando a função do Excel RANDOMBETWEEN). Em seguida, faremos 1.000 dessas amostras e calcularemos a média aritmética para cada uma. Vejamos sua distribuição.

Pode-se observar que a distribuição da média está próxima da lei normal. Se o volume de amostras e seu número forem ainda maiores, a semelhança será ainda melhor.

Agora que vimos por nós mesmos a validade do CLT, podemos, usando , calcular os intervalos de confiança para a média aritmética, que cobrem a média verdadeira ou expectativa matemática com uma dada probabilidade.

Para estabelecer os limites superior e inferior, é necessário conhecer os parâmetros da distribuição normal. Como regra, eles não são, portanto, as estimativas são usadas: média aritmética e variação da amostra. Novamente, este método fornece uma boa aproximação apenas para amostras grandes. Quando as amostras são pequenas, geralmente é recomendado usar a distribuição de Student. Não acredite! A distribuição de Student para a média ocorre apenas quando os dados originais têm distribuição normal, ou seja, quase nunca. Portanto, é melhor definir imediatamente a barra mínima para a quantidade de dados necessários e usar métodos assintoticamente corretos. Dizem que 30 observações são suficientes. Take 50 - você não pode errar.

T 1.2 são os limites inferior e superior do intervalo de confiança

– média aritmética da amostra

s0– desvio padrão da amostra (sem viés)

n – tamanho da amostra

γ – nível de confiança (geralmente igual a 0,9, 0,95 ou 0,99)

c γ =Φ -1 ((1+γ)/2)é o recíproco da função de distribuição normal padrão. Em termos simples, este é o número de erros padrão da média aritmética para o limite inferior ou superior (as três probabilidades indicadas correspondem aos valores de 1,64, 1,96 e 2,58).

A essência da fórmula é que a média aritmética é tomada e, em seguida, uma certa quantidade é separada dela ( com γ) erros padrão ( s 0 /√n). Tudo é conhecido, pegue e conte.

Antes do uso em massa dos PCs, para obter os valores da função de distribuição normal e sua inversa, eles usavam . Eles ainda são usados, mas é mais eficiente recorrer a fórmulas prontas do Excel. Todos os elementos da fórmula acima ( , e ) podem ser facilmente calculados no Excel. Mas também existe uma fórmula pronta para calcular o intervalo de confiança - NORMA DE CONFIANÇA. Sua sintaxe é a seguinte.

NORMA DE CONFIANÇA(alfa, padrão_dev, tamanho)

alfa– nível de significância ou nível de confiança, que na notação acima é igual a 1-γ, ou seja, a probabilidade de que a matemáticaa expectativa estará fora do intervalo de confiança. Com um nível de confiança de 0,95, alfa é 0,05 e assim por diante.

padrão_desligadoé o desvio padrão dos dados da amostra. Você não precisa calcular o erro padrão, o Excel dividirá pela raiz de n.

o tamanho– tamanho da amostra (n).

O resultado da função CONFIDENCE.NORM é o segundo termo da fórmula para calcular o intervalo de confiança, ou seja, meio intervalo. Assim, os pontos inferior e superior são a média ± o valor obtido.

Assim, é possível construir um algoritmo universal para calcular intervalos de confiança para a média aritmética, que independe da distribuição dos dados iniciais. O preço da universalidade é sua natureza assintótica, ou seja, a necessidade de usar amostras relativamente grandes. No entanto, na era da tecnologia moderna, geralmente não é difícil coletar a quantidade certa de dados.

Testando hipóteses estatísticas usando um intervalo de confiança

(módulo 111)

Um dos principais problemas resolvidos em estatística é. Em poucas palavras, sua essência é essa. Assume-se, por exemplo, que a expectativa da população geral é igual a algum valor. Em seguida, é construída a distribuição das médias amostrais, que pode ser observada com uma determinada expectativa. Em seguida, veremos onde nesta distribuição condicional está localizada a média real. Se ultrapassar os limites permitidos, o aparecimento de tal média é muito improvável e, com uma única repetição do experimento, é quase impossível, o que contradiz a hipótese apresentada, que é rejeitada com sucesso. Se a média não ultrapassar o nível crítico, a hipótese não é rejeitada (mas também não é provada!).

Então, com a ajuda de intervalos de confiança, no nosso caso para a expectativa, você também pode testar algumas hipóteses. É muito fácil de fazer. Suponha que a média aritmética para alguma amostra seja 100. Está sendo testada a hipótese de que o valor esperado é, digamos, 90. Ou seja, se colocarmos a questão de forma primitiva, soa assim: será que com o valor verdadeiro da média igual a 90, a média observada foi de 100?

Para responder a esta pergunta, serão necessárias informações adicionais sobre o desvio padrão e o tamanho da amostra. Digamos que o desvio padrão seja 30 e o número de observações seja 64 (para extrair facilmente a raiz). Então o erro padrão da média é 30/8 ou 3,75. Para calcular o intervalo de confiança de 95%, você precisará separar dois erros padrão em ambos os lados da média (mais precisamente, 1,96). O intervalo de confiança será de aproximadamente 100 ± 7,5, ou de 92,5 a 107,5.

O raciocínio adicional é o seguinte. Se o valor testado estiver dentro do intervalo de confiança, então não contradiz a hipótese, uma vez que enquadra-se nos limites das flutuações aleatórias (com uma probabilidade de 95%). Se o ponto testado estiver fora do intervalo de confiança, então a probabilidade de tal evento é muito pequena, em qualquer caso abaixo do nível aceitável. Assim, a hipótese é rejeitada por contradizer os dados observados. No nosso caso, a hipótese de expectativa está fora do intervalo de confiança (o valor testado de 90 não está incluído no intervalo de 100±7,5), portanto deve ser rejeitada. Respondendo à pergunta primitiva acima, deve-se dizer: não, não pode, de qualquer forma, isso acontece muito raramente. Muitas vezes, isso indica uma probabilidade específica de rejeição errônea da hipótese (p-level), e não um determinado nível, segundo o qual o intervalo de confiança foi construído, mas mais sobre isso em outro momento.

Como você pode ver, não é difícil construir um intervalo de confiança para a média (ou expectativa matemática). O principal é pegar a essência, e então as coisas vão. Na prática, a maioria usa o intervalo de confiança de 95%, que é cerca de dois erros padrão de cada lado da média.

É tudo por agora. Tudo de bom!

Com este artigo você aprenderá:

    O que intervalo de confiança?

    Qual é o ponto regras 3 sigma?

    Como esse conhecimento pode ser colocado em prática?

Atualmente, devido a uma superabundância de informações associadas a um grande sortimento de produtos, direções de vendas, funcionários, atividades, etc., é difícil escolher o principal, que, antes de tudo, vale a pena prestar atenção e fazer esforços para gerenciar. Definição intervalo de confiança e análise de ir além de seus limites de valores reais - uma técnica que ajudá-lo a identificar situações, influenciando tendências. Você será capaz de desenvolver fatores positivos e reduzir a influência dos negativos. Esta tecnologia é usada em muitas empresas mundialmente conhecidas.

Existem os chamados alertas", que informar os gerentes afirmando que o próximo valor em uma determinada direção foi além intervalo de confiança. O que isto significa? Este é um sinal de que ocorreu algum evento fora do padrão, que pode alterar a tendência existente nessa direção. Este é o sinal para isso para resolver isso na situação e entender o que a influenciou.

Por exemplo, considere várias situações. Calculamos a previsão de vendas com limites de previsão para 100 itens de commodities para 2011 por meses e vendas reais em março:

  1. Para "óleo de girassol" eles ultrapassaram o limite superior da previsão e não caíram no intervalo de confiança.
  2. Para "fermento seco" ultrapassou o limite inferior da previsão.
  3. Em "Oatmeal Mingau" rompeu o limite superior.

Para o restante das mercadorias, as vendas reais estavam dentro dos limites de previsão especificados. Aqueles. suas vendas estavam de acordo com as expectativas. Assim, identificamos 3 produtos que iam além das fronteiras e começamos a descobrir o que influenciou a ir além das fronteiras:

  1. Com o Óleo de Girassol, entramos em uma nova rede de comercialização, o que nos proporcionou um volume de vendas adicional, o que nos levou a ultrapassar o limite superior. Para este produto, vale recalcular a previsão até o final do ano, levando em consideração a previsão de vendas para essa rede.
  2. Para o Dry Yeast, o carro ficou preso na alfândega, e houve desabastecimento em 5 dias, o que afetou a queda nas vendas e ultrapassando a fronteira inferior. Pode valer a pena descobrir o que causou a causa e tentar não repetir essa situação.
  3. Para o Oatmeal, foi lançada uma promoção de vendas, que resultou num aumento significativo das vendas e levou a uma ultrapassagem da previsão.

Identificamos 3 fatores que influenciaram o overshoot da previsão. Pode haver muito mais deles na vida.Para melhorar a precisão da previsão e do planejamento, os fatores que levam ao fato de que as vendas reais podem ir além do previsto, vale destacar e construir previsões e planos para eles separadamente. E então leve em consideração o impacto deles na principal previsão de vendas. Você também pode avaliar regularmente o impacto desses fatores e mudar a situação para melhor para reduzindo a influência de fatores negativos e aumentando a influência de fatores positivos.

Com um intervalo de confiança, podemos:

  1. Destaque destinos, que merecem atenção, pois eventos ocorreram nestas áreas que podem afetar mudança de tendência.
  2. Determinar Fatores que realmente fazem a diferença.
  3. Aceitar decisão ponderada(por exemplo, sobre compras, durante o planejamento, etc.).

Agora vamos ver o que é um intervalo de confiança e como calculá-lo no Excel usando um exemplo.

O que é um intervalo de confiança?

O intervalo de confiança são os limites de previsão (superior e inferior), dentro dos quais com uma dada probabilidade (sigma) obter os valores reais.

Aqueles. calculamos a previsão - esta é a nossa principal referência, mas entendemos que os valores reais dificilmente serão 100% iguais à nossa previsão. E surge a pergunta até que ponto pode obter valores reais, se a tendência atual continuar? E esta pergunta nos ajudará a responder cálculo do intervalo de confiança, ou seja - limites superior e inferior da previsão.

O que é um determinado sigma de probabilidade?

Ao calcular intervalo de confiança podemos definir probabilidade exitos valores reais dentro dos limites de previsão fornecidos. Como fazer isso? Para fazer isso, definimos o valor de sigma e, se sigma for igual a:

    3 sigma- então, a probabilidade de acertar o próximo valor real no intervalo de confiança será de 99,7%, ou 300 para 1, ou há uma probabilidade de 0,3% de ultrapassar os limites.

    2 sigma- então, a probabilidade de atingir o próximo valor dentro dos limites é ≈ 95,5%, ou seja as chances são de cerca de 20 para 1, ou há uma chance de 4,5% de sair dos limites.

    1 sigma- então, a probabilidade é ≈ 68,3%, ou seja. as chances são de cerca de 2 para 1, ou há uma chance de 31,7% de que o próximo valor fique fora do intervalo de confiança.

Nós formulamos Regra 3 Sigma,que diz que probabilidade de acerto outro valor aleatório no intervalo de confiança com um determinado valor três sigma é 99,7%.

O grande matemático russo Chebyshev provou um teorema de que há 10% de chance de ultrapassar os limites de uma previsão com um determinado valor de três sigma. Aqueles. a probabilidade de cair no intervalo de confiança de 3 sigma será de pelo menos 90%, enquanto uma tentativa de calcular a previsão e seus limites “a olho” está repleta de erros muito mais significativos.

Como calcular independentemente o intervalo de confiança no Excel?

Vamos considerar o cálculo do intervalo de confiança no Excel (ou seja, os limites superior e inferior da previsão) usando um exemplo. Temos uma série temporal - vendas por meses durante 5 anos. Veja o arquivo anexado.

Para calcular os limites da previsão, calculamos:

  1. Previsão de vendas().
  2. Sigma - desvio padrão modelos de previsão a partir de valores reais.
  3. Três Sigma.
  4. Intervalo de confiança.

1. Previsão de vendas.

=(RC[-14] (dados em séries temporais)-RC[-1] (valor do modelo))^2(quadrado)


3. Soma para cada mês os valores de desvio do estágio 8 Sum((Xi-Ximod)^2), ou seja, Vamos somar janeiro, fevereiro... para cada ano.

Para fazer isso, use a fórmula =SUMIF()

SUMIF(array com números de períodos dentro do ciclo (para meses de 1 a 12); referência ao número do período no ciclo; referência a um array com quadrados da diferença entre os dados iniciais e os valores do períodos)


4. Calcule o desvio padrão para cada período no ciclo de 1 a 12 (estágio 10 no arquivo anexo).

Para fazer isso, do valor calculado no estágio 9, extraímos a raiz e dividimos pelo número de períodos neste ciclo menos 1 = ROOT((Sum(Xi-Ximod)^2/(n-1))

Vamos usar fórmulas no Excel =ROOT(R8 (referência a (Soma(Xi-Ximod)^2)/(CONT.SE($O$8:$O$67 (referência a um array com números de ciclo); O8 (referência a um número de ciclo específico, que consideramos no array))-1))

Usando a fórmula do Excel = CONT.SE contamos o número n


Ao calcular o desvio padrão dos dados reais do modelo de previsão, obtivemos o valor sigma para cada mês - estágio 10 no arquivo anexo .

3. Calcule 3 sigma.

No estágio 11, definimos o número de sigmas - em nosso exemplo, "3" (estágio 11 no arquivo anexo):

Também valores sigma práticos:

1,64 sigma - 10% de chance de ultrapassar o limite (1 chance em 10);

1,96 sigma - 5% de chance de sair dos limites (1 chance em 20);

2,6 sigma - 1% de chance de sair dos limites (1 em 100 chances).

5) Calculamos três sigma, para isso multiplicamos os valores "sigma" de cada mês por "3".

3. Determine o intervalo de confiança.

  1. Limite superior de previsão- previsão de vendas considerando crescimento e sazonalidade + (mais) 3 sigma;
  2. Limite de previsão inferior- previsão de vendas considerando crescimento e sazonalidade - (menos) 3 sigma;

Para a conveniência de calcular o intervalo de confiança por um longo período (ver arquivo anexo), usamos a fórmula do Excel =Y8+PROCV(W8;$U$8:$V$19;2;0), Onde

Y8- previsão de vendas;

W8- o número do mês para o qual tomaremos o valor de 3 sigma;

Aqueles. Limite superior de previsão= "previsão de vendas" + "3 sigma" (no exemplo, PROCV(número do mês; tabela com valores 3 sigma; coluna da qual extraímos o valor sigma igual ao número do mês na linha correspondente; 0)).

Limite de previsão inferior= "previsão de vendas" menos "3 sigma".

Assim, calculamos o intervalo de confiança no Excel.

Agora temos uma previsão e um intervalo com limites dentro dos quais os valores reais cairão com um determinado sigma de probabilidade.

Neste artigo, analisamos o que são sigma e a regra de três sigma, como determinar um intervalo de confiança e para que você pode usar essa técnica na prática.

Previsões precisas e sucesso para você!

Quão O Forecast4AC PRO pode ajudá-loao calcular o intervalo de confiança?:

    O Forecast4AC PRO calculará automaticamente os limites de previsão superiores ou inferiores para mais de 1000 séries temporais ao mesmo tempo;

    A capacidade de analisar os limites da previsão em comparação com a previsão, tendência e vendas reais no gráfico com um toque de tecla;

No programa Forcast4AC PRO, é possível definir o valor sigma de 1 a 3.

Junte-se a nós!

Baixe aplicativos gratuitos de previsão e inteligência de negócios:


  • Novo Previsão Lite- automático cálculo de previsão dentro sobressair.
  • 4analítica- Análise ABC-XYZ e análise de emissões em Excel.
  • Qlik SenseÁrea de Trabalho e Qlik ViewPersonal Edition - Sistemas de BI para análise e visualização de dados.

Teste os recursos das soluções pagas:

  • Novo Previsão PRO- previsão em Excel para grandes matrizes de dados.

Muitas vezes o avaliador tem que analisar o mercado imobiliário do segmento em que o objeto da avaliação está localizado. Se o mercado for desenvolvido, pode ser difícil analisar todo o conjunto de objetos apresentados, portanto, uma amostra de objetos é usada para análise. Esta amostra nem sempre é homogênea, às vezes é necessário limpá-la de extremos - ofertas de mercado muito altas ou muito baixas. Para isso, aplica-se intervalo de confiança. O objetivo deste estudo é realizar uma análise comparativa de dois métodos para calcular o intervalo de confiança e escolher a melhor opção de cálculo ao trabalhar com diferentes amostras no sistema estimatica.pro.

Intervalo de confiança - calculado com base na amostra, o intervalo de valores do atributo, que com uma probabilidade conhecida contém o parâmetro estimado da população geral.

O significado de calcular o intervalo de confiança é construir tal intervalo com base nos dados da amostra para que possa ser afirmado com uma dada probabilidade de que o valor do parâmetro estimado esteja nesse intervalo. Em outras palavras, o intervalo de confiança com uma certa probabilidade contém o valor desconhecido da quantidade estimada. Quanto maior o intervalo, maior a imprecisão.

Existem diferentes métodos para determinar o intervalo de confiança. Neste artigo, consideraremos 2 maneiras:

  • pela mediana e desvio padrão;
  • através do valor crítico da estatística t (coeficiente de Student).

Etapas de uma análise comparativa de diferentes métodos de cálculo do IC:

1. formar uma amostra de dados;

2. processamos com métodos estatísticos: calculamos o valor médio, mediana, variância, etc.;

3. calculamos o intervalo de confiança de duas maneiras;

4. Analise as amostras limpas e os intervalos de confiança obtidos.

Etapa 1. Amostragem de dados

A amostra foi formada utilizando o sistema estimatica.pro. A amostra incluiu 91 ofertas de venda de apartamentos de 1 quarto na 3ª zona de preço com o tipo de planejamento "Khrushchev".

Tabela 1. Amostra inicial

O preço de 1 m², c.u.

Figura 1. Amostra inicial



Etapa 2. Processamento da amostra inicial

O processamento da amostra por métodos estatísticos requer o cálculo dos seguintes valores:

1. Média aritmética

2. Mediana - um número que caracteriza a amostra: exatamente metade dos elementos da amostra é maior que a mediana, a outra metade é menor que a mediana

(para uma amostra com um número ímpar de valores)

3. Intervalo - a diferença entre os valores máximo e mínimo na amostra

4. Variação - usada para estimar com mais precisão a variação nos dados

5. O desvio padrão da amostra (doravante denominado RMS) é o indicador mais comum da dispersão dos valores de ajuste em torno da média aritmética.

6. Coeficiente de variação - reflete o grau de dispersão dos valores de ajuste

7. coeficiente de oscilação - reflete a flutuação relativa dos valores extremos dos preços na amostra em torno da média

Tabela 2. Indicadores estatísticos da amostra original

O coeficiente de variação, que caracteriza a homogeneidade dos dados, é de 12,29%, mas o coeficiente de oscilação é muito grande. Assim, podemos afirmar que a amostra original não é homogênea, então passemos ao cálculo do intervalo de confiança.

Etapa 3. Cálculo do intervalo de confiança

Método 1. Cálculo através da mediana e desvio padrão.

O intervalo de confiança é determinado da seguinte forma: o valor mínimo - o desvio padrão é subtraído da mediana; o valor máximo - o desvio padrão é adicionado à mediana.

Assim, o intervalo de confiança (47179 CU; 60689 CU)

Arroz. 2. Valores dentro do intervalo de confiança 1.



Método 2. Construindo um intervalo de confiança através do valor crítico da estatística t (coeficiente de Student)

S.V. Gribovsky no livro "Métodos matemáticos para avaliar o valor da propriedade" descreve um método para calcular o intervalo de confiança através do coeficiente de Student. Ao calcular por este método, o próprio estimador deve definir o nível de significância ∝, que determina a probabilidade com que o intervalo de confiança será construído. Níveis de significância de 0,1 são comumente usados; 0,05 e 0,01. Correspondem a probabilidades de confiança de 0,9; 0,95 e 0,99. Com este método, os verdadeiros valores da expectativa matemática e da variância são considerados praticamente desconhecidos (o que quase sempre é verdade ao resolver problemas práticos de avaliação).

Fórmula do intervalo de confiança:

n - tamanho da amostra;

O valor crítico da estatística t (distribuições de Student) com um nível de significância ∝, o número de graus de liberdade n-1, que é determinado por tabelas estatísticas especiais ou usando o MS Excel (→"Estatístico"→ STUDRASPOBR);

∝ - nível de significância, tomamos ∝=0,01.

Arroz. 2. Valores dentro do intervalo de confiança 2.

Etapa 4. Análise de diferentes maneiras de calcular o intervalo de confiança

Dois métodos de cálculo do intervalo de confiança - através da mediana e do coeficiente de Student - levaram a valores diferentes dos intervalos. Assim, foram obtidas duas amostras purificadas diferentes.

Tabela 3. Indicadores estatísticos para três amostras.

Indicador

Amostra inicial

1 opção

opção 2

Quer dizer

Dispersão

Coef. variações

Coef. oscilações

Número de objetos retirados, unidades.

Com base nos cálculos realizados, podemos dizer que os valores dos intervalos de confiança obtidos por diferentes métodos se cruzam, portanto, você pode usar qualquer um dos métodos de cálculo a critério do avaliador.

No entanto, acreditamos que ao trabalhar no sistema estimatica.pro, é aconselhável escolher um método para calcular o intervalo de confiança, dependendo do grau de desenvolvimento do mercado:

  • se o mercado não for desenvolvido, aplique o método de cálculo através da mediana e desvio padrão, pois o número de objetos aposentados nesse caso é pequeno;
  • se o mercado for desenvolvido, aplique o cálculo através do valor crítico da estatística t (coeficiente de Student), pois é possível formar uma grande amostra inicial.

Na elaboração do artigo foram utilizados:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Métodos matemáticos de avaliação do valor de um imóvel. Moscou, 2014

2. Dados do sistema estimatica.pro