Quadrado médio. Calculando o desvio padrão no Microsoft Excel

Uma das principais ferramentas de análise estatística é o cálculo do desvio padrão. Este indicador permite fazer uma estimativa do desvio padrão para uma amostra ou para a população em geral. Vamos aprender a usar a fórmula de desvio padrão no Excel.

Vamos definir imediatamente qual é o desvio padrão e como é sua fórmula. Este valor é a raiz quadrada da média aritmética dos quadrados da diferença entre todos os valores da série e sua média aritmética. Existe um nome idêntico para este indicador - desvio padrão. Ambos os nomes são completamente equivalentes.

Mas, claro, no Excel, o usuário não precisa calcular isso, pois o programa faz tudo por ele. Vamos aprender a calcular o desvio padrão no Excel.

Cálculo no Excel

Você pode calcular o valor especificado no Excel usando duas funções especiais STDEV.B(de acordo com a amostra) e STDEV.G(de acordo com a população em geral). O princípio de seu funcionamento é absolutamente o mesmo, mas eles podem ser chamados de três maneiras, que discutiremos a seguir.

Método 1: Assistente de funções


Método 2: guia Fórmulas


Método 3: Inserindo a fórmula manualmente

Há também uma maneira em que você não precisa chamar a janela de argumentos. Para fazer isso, insira a fórmula manualmente.


Como você pode ver, o mecanismo para calcular o desvio padrão no Excel é muito simples. O usuário só precisa inserir números da população ou links para células que os contenham. Todos os cálculos são realizados pelo próprio programa. É muito mais difícil entender o que é o indicador calculado e como os resultados do cálculo podem ser aplicados na prática. Mas entender isso já pertence mais ao campo da estatística do que aprender a trabalhar com software.

Para calcular a média geométrica simples, utiliza-se a fórmula:

ponderado geométrico

Para determinar a média geométrica ponderada, utiliza-se a fórmula:

Os diâmetros médios de rodas, tubos, os lados médios dos quadrados são determinados usando a raiz quadrada média.

Os valores RMS são usados ​​para calcular alguns indicadores, como o coeficiente de variação, que caracteriza o ritmo de saída. Aqui, o desvio padrão da produção planejada para um determinado período é determinado pela seguinte fórmula:

Esses valores caracterizam com precisão a mudança nos indicadores econômicos em relação ao seu valor base, tomado em seu valor médio.

Simples quadrático

O quadrado médio simples é calculado pela fórmula:

Ponderado quadrático

A raiz quadrada média ponderada é:

22. Medidas absolutas de variação incluem:

faixa de variação

desvio linear médio

dispersão

desvio padrão

Faixa de variação (r)

Variação do intervaloé a diferença entre os valores máximo e mínimo do atributo

Mostra os limites em que o valor do atributo muda na população estudada.

A experiência de trabalho de cinco candidatos no trabalho anterior é: 2,3,4,7 e 9 anos. Solução: intervalo de variação = 9 - 2 = 7 anos.

Para uma característica generalizada das diferenças nos valores do atributo, os indicadores de variação média são calculados com base na provisão para desvios da média aritmética. A diferença é tomada como o desvio da média.

Ao mesmo tempo, para evitar transformar em zero a soma dos desvios das opções de traço da média (propriedade zero da média), deve-se ignorar os sinais do desvio, ou seja, tomar essa soma módulo , ou elevar ao quadrado os valores de desvio

Desvio médio linear e quadrado

Desvio linear médioé a média aritmética dos desvios absolutos dos valores individuais do atributo da média.

O desvio linear médio é simples:

A experiência de trabalho de cinco candidatos no trabalho anterior é: 2,3,4,7 e 9 anos.

Em nosso exemplo: anos;

Resposta: 2,4 anos.

Desvio linear médio ponderado aplica-se a dados agrupados:

O desvio linear médio, devido à sua condicionalidade, é utilizado relativamente raramente na prática (em particular, para caracterizar o cumprimento das obrigações contratuais em termos de uniformidade de entrega; na análise da qualidade do produto, tendo em conta as características tecnológicas de produção ).

Desvio padrão

A característica mais perfeita da variação é o desvio padrão, que é chamado de padrão (ou desvio padrão). Desvio padrão() é igual à raiz quadrada do quadrado médio dos desvios dos valores individuais do atributo da média aritmética:

O desvio padrão é simples:

O desvio padrão ponderado é aplicado para dados agrupados:

Entre o quadrado médio e os desvios lineares médios em condições de distribuição normal, ocorre a seguinte relação: ~ 1,25.

O desvio padrão, sendo a principal medida absoluta de variação, é usado na determinação dos valores das ordenadas da curva de distribuição normal, nos cálculos relacionados à organização da observação da amostra e no estabelecimento da precisão das características da amostra, bem como em avaliar os limites da variação de uma característica em uma população homogênea.

Instrução

Sejam vários números caracterizando - ou quantidades homogêneas. Por exemplo, os resultados de medições, pesagens, observações estatísticas, etc. Todas as grandezas apresentadas devem ser medidas pela mesma medida. Para encontrar o desvio padrão, faça o seguinte.

Determine a média aritmética de todos os números: some todos os números e divida a soma pelo número total de números.

Determine a dispersão (dispersão) dos números: some os quadrados dos desvios encontrados anteriormente e divida a soma resultante pelo número de números.

Há sete pacientes na enfermaria com temperatura de 34, 35, 36, 37, 38, 39 e 40 graus Celsius.

É necessário determinar o desvio médio da média.
Decisão:
"na ala": (34+35+36+37+38+39+40)/7=37 ºС;

Desvios de temperatura da média (neste caso, o valor normal): 34-37, 35-37, 36-37, 37-37, 38-37, 39-37, 40-37, verifica-se: -3, -2, -1 , 0, 1, 2, 3 (ºС);

Divida a soma dos números obtidos anteriormente pelo seu número. Para a precisão do cálculo, é melhor usar uma calculadora. O resultado da divisão é a média aritmética das somas.

Preste muita atenção em todas as etapas do cálculo, pois um erro em pelo menos um dos cálculos levará a um indicador final incorreto. Verifique os cálculos recebidos em cada etapa. A média aritmética tem o mesmo medidor que as somas dos números, ou seja, se você determinar a média de atendimento, todos os indicadores serão “pessoa”.

Este método de cálculo é usado apenas em cálculos matemáticos e estatísticos. Assim, por exemplo, a média aritmética em ciência da computação tem um algoritmo de cálculo diferente. A média aritmética é um indicador muito condicional. Mostra a probabilidade de um evento, desde que tenha apenas um fator ou indicador. Para uma análise mais aprofundada, muitos fatores devem ser levados em consideração. Para isso, é utilizado o cálculo de quantidades mais gerais.

A média aritmética é uma das medidas de tendência central, amplamente utilizada em matemática e cálculos estatísticos. Encontrar a média aritmética para vários valores​​​é muito simples, mas cada tarefa tem suas próprias nuances, que são simplesmente necessárias para realizar cálculos corretos.

Resultados quantitativos de tais experimentos.

Como encontrar a média aritmética

A busca da média aritmética para uma matriz de números deve começar com a determinação da soma algébrica desses valores. Por exemplo, se a matriz contém os números 23, 43, 10, 74 e 34, sua soma algébrica será igual a 184. Ao escrever, a média aritmética é denotada pela letra μ (mu) ou x (x com um bar). Em seguida, a soma algébrica deve ser dividida pelo número de números na matriz. Neste exemplo, havia cinco números, então a média aritmética será 184/5 e será 36,8.

Características de trabalhar com números negativos

Se houver números negativos na matriz, a média aritmética será encontrada usando um algoritmo semelhante. Há diferença apenas ao calcular no ambiente de programação ou se houver condições adicionais na tarefa. Nesses casos, encontrar a média aritmética de números com sinais diferentes se resume a três etapas:

1. Encontrar a média aritmética comum pelo método padrão;
2. Encontrar a média aritmética de números negativos.
3. Cálculo da média aritmética de números positivos.

As respostas de cada uma das ações são escritas separadas por vírgulas.

Frações naturais e decimais

Se a matriz de números é representada por frações decimais, a solução ocorre de acordo com o método de cálculo da média aritmética de inteiros, mas o resultado é reduzido de acordo com os requisitos da tarefa para a precisão da resposta.

Ao trabalhar com frações naturais, elas devem ser reduzidas a um denominador comum, que é multiplicado pelo número de números na matriz. O numerador da resposta será a soma dos numeradores dados dos elementos fracionários originais.

É usado naqueles casos em que, ao substituir valores individuais de um recurso por um valor médio, é necessário manter inalterada a soma dos quadrados dos valores originais.

A principal área de seu uso é a medição do grau de flutuação dos valores individuais de uma característica em relação à média aritmética (desvio padrão). Além disso, a raiz quadrada média é usada nos casos em que é necessário calcular o valor médio de um recurso expresso em unidades quadradas ou cúbicas (no cálculo do tamanho médio de seções quadradas, diâmetros médios de tubos, troncos, etc.).

raiz quadrada média calculado de duas formas:

- que simples

quão ponderado

(4.22)

Tudo médias de potência diferem entre si pelos valores do expoente. Em que,quanto maior o expoente, mais valor quantitativo da média :

Esta propriedade dos meios de potência é chamada de propriedade majoração médio.

Por isso,a escolha do tipo de indicador médio tem um impacto significativo no seu valor numérico. A escolha do tipo de média é determinada em cada caso individual, analisando a população do estudo, estudar o conteúdo do fenômeno. A média exponencial é escolhida corretamente, se em todas as etapas dos cálculos sua fórmula lógica não mudar , Essa. o conteúdo socioeconômico da média sinal.

Um tipo especial de médias médias estruturais. Eles são usados ​​no estudo da estrutura interna da série de distribuição de valores de características. Estes incluem moda e mediana.

A moda e a mediana caracterizam o valor de uma característica de uma unidade estatística que ocupa uma determinada posição na série de variação.

Moda (Mo) - o valor mais comum do recurso na população. O modo é amplamente utilizado na prática estatística para estudar a demanda do consumidor, registro de preços, etc.

Mediana ( Eu) - o valor de uma característica de uma unidade estatística que está no meio da série classificada e divide a população em duas partes iguais em número.

Para séries variacionais discretas Mo e Eu são selecionados de acordo com as definições: modo - como o valor do recurso com a frequência mais alta \ n eu ; a posição da mediana para um tamanho de população ímpar é determinada pelo seu número
, Onde N- o volume da população estatística. Para uma duração par da série, a mediana é igual à média das duas opções no meio da série.

A mediana é usada como o indicador mais confiável típica valores de uma população heterogênea, uma vez que é insensível a valores extremos da característica, que podem diferir significativamente de a matriz principal de seus valores. Além disso, a mediana encontra aplicação prática devido a uma propriedade matemática especial:
.

Considere a definição de moda e mediana nas seguintes exemplo:

Há uma série de distribuição de locais de trabalho por nível de habilidade. Os dados são mostrados na Tabela 4.4.

Tabela 4.4 - Distribuição das áreas de trabalho por nível de habilidade

Acumulado

O modo é selecionado de acordo com o valor de frequência máxima: em n máximo = 14, Mo= 4, ou seja a 4ª categoria é a mais comum. Para encontrar a mediana Eu unidades centrais são definidas ( N+1)/2. Estas são as 25ª e 26ª unidades. O grupo em que essas unidades se enquadram é determinado pelas frequências acumuladas. Este é o 4º grupo, no qual o valor do recurso é 4. Assim, Eu= 4, isso significa que metade dos trabalhadores tem uma classificação abaixo de 4 e a outra tem uma classificação acima de 4.

Nos valores da série de intervalo Mo e Eu calculado de forma mais complexa.

O modo é definido da seguinte forma:

O intervalo no qual o valor do modo está localizado é determinado pelo valor da frequência máxima. Chama-se modal.

Dentro do intervalo modal, o valor da moda é calculado pela fórmula:

Onde
- o limite inferior do intervalo modal;

uma Mo - largura do intervalo modal;

n Mo , n Mo-1 , n M+1 - respectivamente, a frequência dos intervalos modal, pré-modal (modal anterior) e pós-modal (modal seguinte).

A seguinte abordagem é usada para calcular a mediana em séries intervalares:

Com base nas frequências acumuladas, o intervalo mediano é encontrado.

A mediana é o intervalo que contém a unidade central.

Dentro do valor do intervalo mediano Eué determinado pela fórmula:

(4.25)

Onde
- o limite inferior do intervalo mediano;

uma Eu -largura do intervalo mediano;

Né o volume da população estatística;

N Eu-1- frequência acumulada do intervalo pré-mediano;

n Eu - frequência do intervalo mediano.

Consideremos o cálculo da moda e da mediana para a série intervalar de distribuição usando o exemplo de uma série de distribuição de trabalhadores por tempo de serviço (Tabela 4.5).

Tabela 4.5 - Distribuição da área de trabalho por tempo de serviço

Intervalo

uma eu

n eu

N eu

CálculoMo:

Frequência máxima n máximo = 13, corresponde ao quarto grupo, portanto, o intervalo com limites de 12 a 16 anos é modal.

A moda é calculada pela fórmula:

Na maioria das vezes, há trabalhadores com experiência de trabalho de cerca de 13 anos.

A moda não está localizada no meio do intervalo modal, é deslocada para sua borda inferior, isso se deve à estrutura dessa série de distribuição (a frequência do intervalo pré-modal é muito maior que a frequência do intervalo pós-modal).

Cálculo da mediana:

O intervalo mediano é determinado a partir do gráfico de frequência acumulada. Ele contém as 25ª e 26ª unidades estatísticas, que estão em grupos diferentes - na 3ª e 4ª. Para encontrar Eu você pode usar qualquer um deles. Faremos o cálculo para o 3º grupo:

Mesmo significado Eu pode ser obtido ao calculá-lo para o 4º grupo:

Com centro duplo Eu está sempre localizado na junção de intervalos contendo unidades centrais. Valor calculado Eu mostra que os primeiros 25 trabalhadores têm menos de 12 anos de experiência profissional e os 25 restantes, portanto, têm mais de 12 anos.

A moda pode ser determinada graficamente pelo polígono de distribuição em séries discretas, pelo histograma de distribuição - em séries intervalares, e a mediana - por cumulado.

Para encontrar a moda na série intervalar, o vértice direito do retângulo modal deve ser conectado ao canto superior direito do retângulo anterior e o vértice esquerdo ao canto superior esquerdo do próximo retângulo. A abcissa do ponto de intersecção dessas linhas será o modo de distribuição.

Para determinar a mediana, a altura da maior ordenada do cumulado, correspondente à população total, é dividida ao meio. Traça-se uma linha reta passando pelo ponto obtido, paralela ao eixo das abcissas, até cruzar com o cumulado. A abcissa do ponto de interseção é a mediana.

Exceto Mo e Eu na série variante, outras características estruturais - quantis - podem ser determinadas. Os quantis destinam-se a um estudo mais profundo da estrutura da série de distribuição. quantil- este é o valor de uma feição que ocupa um determinado lugar na população ordenada por esta feição. Existem os seguintes tipos de quantis:

- quartis– valores de atributos dividindo o conjunto ordenado em 4 partes iguais;

- decis– atribuir valores dividindo a população em 10 partes iguais;

- percentis- valores de atributo dividindo a população em 100 partes iguais.

Assim, para caracterizar a posição do centro da série de distribuição, podem ser utilizados 3 indicadores: quer dizersinal,modo, mediana.

Ao escolher o tipo e a forma de um indicador específico do centro de distribuição, é necessário seguir as seguintes recomendações:

Para processos socioeconômicos sustentáveis, a média aritmética é usada como indicador do centro. Tais processos são caracterizados por distribuições simétricas, nas quais

= Eu= Mo;

Para processos instáveis, a posição do centro de distribuição é caracterizada por Mo ou Eu. Para processos assimétricos, a característica preferencial do centro de distribuição é a mediana, pois ocupa uma posição entre a média aritmética e a moda.

Deve-se notar que esse cálculo da variância tem uma desvantagem - acaba sendo tendencioso, ou seja, sua expectativa matemática não é igual ao valor verdadeiro da variância. Mais sobre isso. Ao mesmo tempo, nem tudo é tão ruim. Com o aumento do tamanho da amostra, ainda se aproxima de sua contraparte teórica, ou seja, é assintoticamente imparcial. Portanto, ao lidar com grandes tamanhos de amostra, a fórmula acima pode ser usada.

É útil traduzir a linguagem dos sinais para a linguagem das palavras. Acontece que a variância é o quadrado médio dos desvios. Ou seja, o valor médio é calculado primeiro, depois a diferença entre cada valor original e médio é tirada, elevada ao quadrado, somada e depois dividida pelo número de valores nessa população. A diferença entre o valor individual e a média reflete a medida do desvio. Ele é elevado ao quadrado para garantir que todos os desvios se tornem exclusivamente números positivos e para evitar o cancelamento mútuo de desvios positivos e negativos quando somados. Então, dados os desvios quadrados, simplesmente calculamos a média aritmética. Média - quadrado - desvios. Os desvios são elevados ao quadrado e a média é considerada. A resposta está em apenas três palavras.

No entanto, em sua forma pura, como, por exemplo, a média aritmética, ou índice, a dispersão não é utilizada. É antes um indicador auxiliar e intermediário necessário para outros tipos de análise estatística. Ela nem sequer tem uma unidade de medida normal. A julgar pela fórmula, este é o quadrado da unidade de dados original. Sem uma garrafa, como se costuma dizer, você não vai entender.

(módulo 111)

Para devolver a dispersão à realidade, ou seja, utilizá-la para fins mais mundanos, dela é extraída uma raiz quadrada. Acontece o chamado desvio padrão (RMS). Existem nomes "desvio padrão" ou "sigma" (do nome da letra grega). A fórmula do desvio padrão é:

Para obter este indicador para a amostra, use a fórmula:

Tal como acontece com a variância, existe uma opção de cálculo ligeiramente diferente. Mas à medida que a amostra cresce, a diferença desaparece.

O desvio padrão, obviamente, também caracteriza a medida de dispersão dos dados, mas agora (ao contrário da dispersão) pode ser comparado com os dados originais, pois possuem as mesmas unidades de medida (isso fica claro pela fórmula de cálculo). Mas este indicador em sua forma pura não é muito informativo, pois contém muitos cálculos intermediários que são confusos (desvio, quadrado, soma, média, raiz). No entanto, já é possível trabalhar diretamente com o desvio padrão, pois as propriedades desse indicador são bem estudadas e conhecidas. Por exemplo, existe este regra de três sigma, que afirma que 997 pontos de dados de 1000 estão dentro de ±3 sigma da média aritmética. O desvio padrão, como medida de incerteza, também está envolvido em muitos cálculos estatísticos. Com sua ajuda, é estabelecido o grau de precisão de várias estimativas e previsões. Se a variação for muito grande, então o desvio padrão também será grande, portanto, a previsão será imprecisa, que será expressa, por exemplo, em intervalos de confiança muito amplos.

O coeficiente de variação

O desvio padrão dá uma estimativa absoluta da medida de spread. Portanto, para entender o quão grande é o spread em relação aos próprios valores (ou seja, independentemente de sua escala), é necessário um indicador relativo. Este indicador é chamado coeficiente de variação e é calculado pela seguinte fórmula:

O coeficiente de variação é medido em porcentagem (se multiplicado por 100%). Por este indicador, você pode comparar uma variedade de fenômenos, independentemente de sua escala e unidades de medida. Este fato é o que torna o coeficiente de variação tão popular.

Em estatística, aceita-se que se o valor do coeficiente de variação for inferior a 33%, então a população é considerada homogênea, se for superior a 33%, então é heterogênea. Difícil comentar aqui. Não sei quem e por que definiu assim, mas é considerado um axioma.

Sinto que me deixei levar por uma teoria seca e preciso trazer algo visual e figurativo. Por outro lado, todos os indicadores de variação descrevem aproximadamente a mesma coisa, só que são calculados de forma diferente. Portanto, é difícil brilhar com uma variedade de exemplos. Apenas os valores dos indicadores podem diferir, mas não sua essência. Então vamos comparar como os valores de diferentes indicadores de variação diferem para o mesmo conjunto de dados. Vamos dar um exemplo com o cálculo do desvio linear médio (de ). Seguem os dados originais:

E um gráfico de lembrete.

Com base nesses dados, calculamos vários indicadores de variação.

A média é a média aritmética usual.

A faixa de variação é a diferença entre o máximo e o mínimo:

O desvio linear médio é calculado pela fórmula:

Desvio padrão:

Resumimos o cálculo em uma tabela.

Como você pode ver, a média linear e o desvio padrão fornecem valores semelhantes para o grau de variação dos dados. A variância é sigma ao quadrado, então sempre será um número relativamente grande, o que, na verdade, não diz nada. A faixa de variação é a diferença entre os extremos e pode dizer muito.

Vamos resumir alguns resultados.

A variação de um indicador reflete a variabilidade de um processo ou fenômeno. Seu grau pode ser medido usando vários indicadores.

1. A faixa de variação é a diferença entre o máximo e o mínimo. Reflete o intervalo de valores possíveis.
2. Desvio linear médio - reflete a média dos desvios absolutos (módulos) de todos os valores da população analisada a partir de seu valor médio.
3. Dispersão - o quadrado médio dos desvios.
4. Desvio padrão - a raiz da variância (desvios quadráticos médios).
5. O coeficiente de variação é o indicador mais universal que reflete o grau de dispersão dos valores, independentemente de sua escala e unidades de medida. O coeficiente de variação é medido em porcentagem e pode ser usado para comparar a variação de vários processos e fenômenos.

Assim, na análise estatística existe um sistema de indicadores que refletem a homogeneidade dos fenômenos e a estabilidade dos processos. Muitas vezes, os indicadores de variação não têm significado independente e são usados ​​para análises de dados adicionais (cálculo de intervalos de confiança