Como encontrar a variância em uma série de números. Expectativa matemática de uma variável aleatória discreta

Para dados agrupados dispersão residual- média das dispersões intragrupo:

Onde σ 2 j é a variância intragrupo do j-ésimo grupo.

Para dados desagrupados dispersão residualé uma medida da precisão de aproximação, ou seja, aproximação da linha de regressão para os dados originais:
onde y(t) é a previsão de acordo com a equação de tendência; y t – série inicial de dinâmicas; n é o número de pontos; p é o número de coeficientes da equação de regressão (o número de variáveis ​​explicativas).
Neste exemplo é chamado estimativa imparcial de variância.

Exemplo 1. A distribuição dos trabalhadores de três empresas de uma associação por categorias tarifárias é caracterizada pelos seguintes dados:

Categoria salarial do trabalhadorNúmero de trabalhadores na empresa
empresa 1empresa 2empresa 3
1 50 20 40
2 100 80 60
3 150 150 200
4 350 300 400
5 200 150 250
6 150 100 150

Definir:
1. dispersão para cada empresa (dispersão intragrupo);
2. média das dispersões intragrupo;
3. dispersão intergrupal;
4. variância total.

Decisão.
Antes de prosseguir com a resolução do problema, é necessário descobrir qual característica é efetiva e qual é fatorial. No exemplo em consideração, o atributo efetivo é "Categoria tarifária" e o atributo do fator é "Número (nome) da empresa".
Então temos três grupos (empresas) para os quais é necessário calcular a média do grupo e as variâncias intragrupo:


Companhiamédia do grupo,variação dentro do grupo,
1 4 1,8

A média das variâncias intragrupo ( dispersão residual) calculado pela fórmula:


onde você pode calcular:
ou:


então:
A dispersão total será igual a: s 2 \u003d 1,6 + 0 \u003d 1,6.
A variância total também pode ser calculada usando uma das duas fórmulas a seguir:

Ao resolver problemas práticos, muitas vezes temos que lidar com um sinal que assume apenas dois valores alternativos. Nesse caso, eles não estão falando sobre o peso de um determinado valor de um recurso, mas sobre sua participação no agregado. Se a proporção de unidades populacionais que possuem a característica em estudo é denotada por " R", e não possuindo - através de" q”, então a dispersão pode ser calculada pela fórmula:
s 2 = p×q

Exemplo #2. Com base nos dados sobre a produção de seis trabalhadores da brigada, determine a variação intergrupos e avalie o impacto do turno de trabalho na produtividade do trabalho se a variação total for 12,2.

Nº da brigada de trabalhoSaída de trabalho, pcs.
no primeiro turnono 2º turno
1 18 13
2 19 14
3 22 15
4 20 17
5 24 16
6 23 15

Decisão. Dados iniciais

Xf1f23f4f5f6Total
1 18 19 22 20 24 23 126
2 13 14 15 17 16 15 90
Total 31 33 37 37 40 38

Então temos 6 grupos para os quais é necessário calcular a média do grupo e as variâncias intragrupo.
1. Encontre os valores médios de cada grupo.







2. Encontre o quadrado médio de cada grupo.







Resumimos os resultados do cálculo em uma tabela:
Número do grupoMédia do grupoVariação intragrupo
1 1.42 0.24
2 1.42 0.24
3 1.41 0.24
4 1.46 0.25
5 1.4 0.24
6 1.39 0.24

3. Variação intragrupo caracteriza a mudança (variação) do traço estudado (resultante) dentro do grupo sob a influência de todos os fatores, exceto o fator subjacente ao agrupamento:
Calculamos a média das dispersões intragrupo usando a fórmula:


4. Variação intergrupo caracteriza a mudança (variação) do traço estudado (resultante) sob a influência de um fator (traço fatorial) subjacente ao agrupamento.
A dispersão intergrupo é definida como:

Onde


Então

Variação total caracteriza a mudança (variação) do traço estudado (resultante) sob a influência de todos os fatores (traços fatoriais) sem exceção. Pela condição do problema, é igual a 12,2.
Relação de correlação empírica mede quanto da flutuação total do atributo resultante é causado pelo fator estudado. Esta é a razão da variância fatorial para a variância total:

Determinamos a relação de correlação empírica:

As relações entre as características podem ser fracas ou fortes (próximas). Seus critérios são avaliados na escala Chaddock:
0,1 0,3 0,5 0,7 0,9 Em nosso exemplo, a relação entre a característica Y fator X é fraca
Coeficiente de determinação.

Vamos definir o coeficiente de determinação:

Assim, 0,67% da variação se deve a diferenças entre as características e 99,37% a outros fatores.
Conclusão: neste caso, a saída dos trabalhadores não depende do trabalho em um determinado turno, ou seja, a influência do turno de trabalho na produtividade do trabalho não é significativa e deve-se a outros fatores.

Exemplo #3. Com base nos dados do salário médio e nos desvios quadrados de seu valor para dois grupos de trabalhadores, encontre a variância total aplicando a regra de adição de variância:

Decisão:
Média de variações dentro do grupo

A dispersão intergrupo é definida como:


A variação total será: 480 + 13824 = 14304

Dispersão nas estatísticasé encontrado como valores individuais do recurso no quadrado de . Dependendo dos dados iniciais, é determinado pelas fórmulas de variância simples e ponderada:

1. (para dados desagrupados) é calculado pela fórmula:

2. Variação ponderada (para uma série de variação):

onde n é a frequência (fator de repetibilidade X)

Um exemplo de encontrar a variância

Esta página descreve um exemplo padrão de encontrar a variação, você também pode ver outras tarefas para encontrá-la

Exemplo 1. Temos os seguintes dados para um grupo de 20 alunos por correspondência. É necessário construir uma série intervalar da distribuição de características, calcular o valor médio da característica e estudar sua variância

Vamos construir um agrupamento de intervalos. Vamos determinar o intervalo do intervalo pela fórmula:

onde X max é o valor máximo do recurso de agrupamento;
X min é o valor mínimo do recurso de agrupamento;
n é o número de intervalos:

Aceitamos n=5. A etapa é: h \u003d (192 - 159) / 5 \u003d 6,6

Vamos fazer um agrupamento de intervalos

Para cálculos adicionais, vamos construir uma tabela auxiliar:

X'i é o meio do intervalo. (por exemplo, o meio do intervalo 159 - 165,6 = 162,3)

O crescimento médio dos alunos é determinado pela fórmula da média aritmética ponderada:

Determinamos a dispersão pela fórmula:

A fórmula de variância pode ser convertida da seguinte forma:

Desta fórmula segue que a variação é a diferença entre a média dos quadrados das opções e o quadrado e a média.

Variação na série de variação com intervalos iguais de acordo com o método dos momentos pode ser calculado da seguinte maneira usando a segunda propriedade da dispersão (dividindo todas as opções pelo valor do intervalo). Definição de variação, calculado pelo método dos momentos, de acordo com a seguinte fórmula é menos demorado:

onde i é o valor do intervalo;
A - zero condicional, que é conveniente usar o meio do intervalo com a frequência mais alta;
m1 é o quadrado do momento de primeira ordem;
m2 - momento de segunda ordem

(se na população estatística o atributo muda de tal forma que existem apenas duas opções mutuamente exclusivas, então tal variabilidade é chamada de alternativa) pode ser calculada pela fórmula:

Substituindo nesta fórmula de dispersão q = 1- p, temos:

Tipos de dispersão

Variação total mede a variação de uma característica em toda a população como um todo sob a influência de todos os fatores que causam essa variação. É igual ao quadrado médio dos desvios dos valores individuais da característica x do valor médio total x e pode ser definido como variância simples ou variância ponderada.

caracteriza a variação aleatória, ou seja, parte da variação, que se deve à influência de fatores não contabilizados e não depende do fator de sinal subjacente ao agrupamento. Tal variância é igual ao quadrado médio dos desvios dos valores individuais de uma característica dentro do grupo X da média aritmética do grupo e pode ser calculada como uma variância simples ou como uma variância ponderada.

Por isso, medidas de variação dentro do grupo variação de uma característica dentro de um grupo e é determinada pela fórmula:

onde xi - média do grupo;
ni é o número de unidades no grupo.

Por exemplo, as variações intragrupo que precisam ser determinadas na tarefa de estudar a influência das qualificações dos trabalhadores no nível de produtividade do trabalho em uma oficina mostram variações na produção em cada grupo causadas por todos os fatores possíveis (condição técnica do equipamento, disponibilidade de ferramentas e materiais, idade dos trabalhadores, intensidade de trabalho, etc.), salvo diferenças na categoria de qualificação (dentro do grupo, todos os trabalhadores têm a mesma qualificação).

A média das variâncias intragrupo reflete o aleatório, ou seja, aquela parte da variação que ocorreu sob a influência de todos os outros fatores, com exceção do fator de agrupamento. É calculado pela fórmula:

Caracteriza a variação sistemática do traço resultante, que se deve à influência do fator traço subjacente ao agrupamento. É igual ao quadrado médio dos desvios das médias do grupo em relação à média geral. A variação intergrupo é calculada pela fórmula:

Regra de adição de variação nas estatísticas

De acordo com regra de adição de variância a variância total é igual à soma da média das variâncias intragrupo e intergrupo:

O significado desta regraé que a variância total que ocorre sob a influência de todos os fatores é igual à soma das variâncias que surgem sob a influência de todos os outros fatores e a variância que surge devido ao fator de agrupamento.

Usando a fórmula para adicionar variâncias, é possível determinar a terceira incógnita a partir de duas variâncias conhecidas e também julgar a força da influência do atributo de agrupamento.

Propriedades de dispersão

1. Se todos os valores do atributo forem reduzidos (aumentados) pelo mesmo valor constante, a variação não será alterada.
2. Se todos os valores do atributo forem reduzidos (aumentados) pelo mesmo número de vezes n, a variância diminuirá (aumentará) n^2 vezes.

Entre os muitos indicadores que são utilizados nas estatísticas, é necessário destacar o cálculo da variância. Deve-se notar que realizar manualmente esse cálculo é uma tarefa bastante tediosa. Felizmente, existem funções no Excel que permitem automatizar o procedimento de cálculo. Vamos descobrir o algoritmo para trabalhar com essas ferramentas.

A dispersão é um indicador de variação, que é o quadrado médio dos desvios da expectativa matemática. Assim, expressa a dispersão dos números em torno da média. O cálculo da dispersão pode ser realizado tanto para a população geral quanto para a amostra.

Método 1: cálculo na população geral

Para calcular este indicador no Excel para a população em geral, é utilizada a função DISP.G. A sintaxe para esta expressão é a seguinte:

DISP.G(Número1;Número2;…)

No total, de 1 a 255 argumentos podem ser aplicados. Os argumentos podem ser tanto valores numéricos quanto referências às células em que estão contidos.

Vamos ver como calcular esse valor para um intervalo de dados numéricos.


Método 2: cálculo amostral

Ao contrário do cálculo do valor para a população geral, no cálculo da amostra, o denominador não é o número total de números, mas um a menos. Isso é feito para corrigir o erro. O Excel leva em consideração essa nuance em uma função especial projetada para esse tipo de cálculo - DISP.V. Sua sintaxe é representada pela seguinte fórmula:

VAR.B(Número1;Número2;…)

O número de argumentos, como na função anterior, também pode variar de 1 a 255.


Como você pode ver, o programa Excel é capaz de facilitar bastante o cálculo da variância. Essa estatística pode ser calculada pelo aplicativo tanto para a população quanto para a amostra. Nesse caso, todas as ações do usuário são, na verdade, reduzidas apenas a especificar o intervalo de números a ser processado, e o próprio Excel faz o trabalho principal. Obviamente, isso economizará uma quantidade significativa de tempo para os usuários.

Vamos calcular emEMEXCELENTEvariância e desvio padrão da amostra. Também calculamos a variância de uma variável aleatória se sua distribuição for conhecida.

Primeiro considere dispersão, então desvio padrão.

Variação da amostra

Variação da amostra (variação da amostra,amostravariação) caracteriza a dispersão de valores na matriz em relação a .

Todas as 3 fórmulas são matematicamente equivalentes.

Pode-se ver pela primeira fórmula que variação da amostraé a soma dos desvios quadrados de cada valor na matriz da média dividido pelo tamanho da amostra menos 1.

dispersão amostras a função DISP() é usada, eng. o nome do VAR, ou seja, VARIAÇÃO. Desde MS EXCEL 2010, recomenda-se o uso de seu analógico DISP.V() , eng. o nome VARS, ou seja, Variação da amostra. Além disso, a partir da versão MS EXCEL 2010, existe uma função DISP.G(), eng. nome VARP, ou seja, VARIance Populacional que calcula dispersão por população. Toda a diferença se resume ao denominador: em vez de n-1 como DISP.V() , DISP.G() tem apenas n no denominador. Antes do MS EXCEL 2010, a função VARP() era usada para calcular a variação da população.

Variação da amostra
=QUADRADO(Amostra)/(CONTAGEM(Amostra)-1)
=(SUMSQ(Amostra)-COUNT(Amostra)*AVERAGE(Amostra)^2)/ (COUNT(Amostra)-1)- a fórmula usual
=SOMA((Amostra -MÉDIA(Amostra))^2)/ (CONTAGEM(Amostra)-1) –

Variação da amostraé igual a 0 somente se todos os valores são iguais entre si e, portanto, são iguais valor médio. Normalmente, quanto maior o valor dispersão, maior a dispersão de valores na matriz.

Variação da amostraé uma estimativa pontual dispersão distribuição da variável aleatória a partir da qual o amostra. Sobre a construção intervalos de confiança ao avaliar dispersão pode ser lido no artigo.

Variação de uma variável aleatória

Calcular dispersão variável aleatória, você precisa saber disso.

Por dispersão variável aleatória X geralmente usa a notação Var(X). Dispersãoé igual ao quadrado do desvio da média E(X): Var(X)=E[(X-E(X)) 2 ]

dispersão calculado pela fórmula:

onde x i é o valor que a variável aleatória pode assumir e μ é o valor médio (), p(x) é a probabilidade de a variável aleatória assumir o valor x.

Se a variável aleatória tem , então dispersão calculado pela fórmula:

Dimensão dispersão corresponde ao quadrado da unidade de medida dos valores originais. Por exemplo, se os valores da amostra forem medidas do peso da peça (em kg), a dimensão da variância seria kg 2 . Isso pode ser difícil de interpretar, portanto, para caracterizar a dispersão de valores, um valor igual à raiz quadrada de dispersãodesvio padrão.

Algumas propriedades dispersão:

Var(X+a)=Var(X), onde X é uma variável aleatória e a é uma constante.

Var(a)=a 2 Var(X)

Var(X)=E[(X-E(X)) 2 ]=E=E(X 2)-E(2*X*E(X))+(E(X)) 2=E(X 2)- 2*E(X)*E(X)+(E(X)) 2 =E(X 2)-(E(X)) 2

Esta propriedade de dispersão é usada em artigo sobre regressão linear.

Var(X+Y)=Var(X) + Var(Y) + 2*Cov(X;Y), onde X e Y são variáveis ​​aleatórias, Cov(X;Y) é a covariância dessas variáveis ​​aleatórias.

Se as variáveis ​​aleatórias são independentes, então suas covariânciaé 0 e, portanto, Var(X+Y)=Var(X)+Var(Y). Essa propriedade da variação é usada na saída.

Vamos mostrar que para quantidades independentes Var(X-Y)=Var(X+Y). De fato, Var(X-Y)= Var(X-Y)= Var(X+(-Y))= Var(X)+Var(-Y)= Var(X)+Var(-Y)= Var( X)+(- 1) 2 Var(Y)= Var(X)+Var(Y)= Var(X+Y). Esta propriedade da variância é usada para plotar .

Desvio padrão da amostra

Desvio padrão da amostraé uma medida de quão amplamente dispersos os valores na amostra estão em relação ao seu .

A-prior, desvio padrãoé igual a raiz quadrada de dispersão:

Desvio padrão não leva em conta a magnitude dos valores em amostragem, mas apenas o grau de dispersão dos valores ao seu redor meio. Vamos dar um exemplo para ilustrar isso.

Vamos calcular o desvio padrão para 2 amostras: (1; 5; 9) e (1001; 1005; 1009). Em ambos os casos, s=4. É óbvio que a proporção do desvio padrão para os valores da matriz é significativamente diferente para as amostras. Para tais casos, use O coeficiente de variação(Coeficiente de Variação, CV) - razão desvio padrão para a média aritmética, expresso em porcentagem.

No MS EXCEL 2007 e versões anteriores para cálculo Desvio padrão da amostra a função =STDEV() é usada, eng. o nome STDEV, ou seja, desvio padrão. Desde MS EXCEL 2010, recomenda-se usar seu análogo = STDEV.B() , eng. nome STDEV.S, ou seja, Exemplo de desvio padrão.

Além disso, a partir da versão do MS EXCEL 2010, existe uma função STDEV.G() , eng. nome STDEV.P, ou seja, Population STandard DEViation que calcula desvio padrão por população. Toda a diferença se resume ao denominador: em vez de n-1 como STDEV.V() , STDEV.G() tem apenas n no denominador.

Desvio padrão também pode ser calculado diretamente a partir das fórmulas abaixo (ver arquivo de exemplo)
=SQRT(SQUADROTIV(Amostra)/(CONTAGEM(Amostra)-1))
=SQRT((SUMSQ(Amostra)-COUNT(Amostra)*AVERAGE(Amostra)^2)/(COUNT(Amostra)-1))

Outras medidas de dispersão

A função SQUADRIVE() calcula com umm de desvios quadrados de valores de seus meio. Esta função retornará o mesmo resultado que a fórmula =VAR.G( Amostra)*VERIFICA( Amostra) , Onde Amostra- uma referência a um intervalo contendo uma matriz de valores de amostra ​​(). Os cálculos na função QUADROTIV() são feitos de acordo com a fórmula:

A função SROOT() também é uma medida da dispersão de um conjunto de dados. A função SIROTL() calcula a média dos valores absolutos dos desvios de valores de meio. Esta função retornará o mesmo resultado que a fórmula =SOMAPRODUTO(ABS(Amostra-MÉDIA(Amostra)))/CONTAGEM(Amostra), Onde Amostra- uma referência a um intervalo contendo uma matriz de valores de amostra.

Os cálculos na função SROOTKL() são feitos de acordo com a fórmula:

.

Por outro lado, se é um a.e. não negativo uma função tal que , então existe uma medida de probabilidade absolutamente contínua em tal que é sua densidade.

    Mudança de medida na integral de Lebesgue:

,

onde é qualquer função de Borel integrável em relação à medida de probabilidade .

Dispersão, tipos e propriedades de dispersão O conceito de dispersão

Dispersão nas estatísticasé encontrado como o desvio padrão dos valores individuais da característica ao quadrado da média aritmética. Dependendo dos dados iniciais, é determinado pelas fórmulas de variância simples e ponderada:

1. variação simples(para dados desagrupados) é calculado pela fórmula:

2. Variação ponderada (para uma série de variação):

onde n - frequência (fator de repetibilidade X)

Um exemplo de encontrar a variância

Esta página descreve um exemplo padrão de encontrar a variação, você também pode ver outras tarefas para encontrá-la

Exemplo 1. Determinação de grupo, média de grupo, entre grupos e variância total

Exemplo 2. Encontrando a variância e o coeficiente de variação em uma tabela de agrupamento

Exemplo 3. Encontrando a variância em uma série discreta

Exemplo 4. Temos os seguintes dados para um grupo de 20 alunos por correspondência. É necessário construir uma série intervalar da distribuição de características, calcular o valor médio da característica e estudar sua variância

Vamos construir um agrupamento de intervalos. Vamos determinar o intervalo do intervalo pela fórmula:

onde X max é o valor máximo do recurso de agrupamento; X min é o valor mínimo do recurso de agrupamento; n é o número de intervalos:

Aceitamos n=5. A etapa é: h \u003d (192 - 159) / 5 \u003d 6,6

Vamos fazer um agrupamento de intervalos

Para cálculos adicionais, vamos construir uma tabela auxiliar:

X "i - o meio do intervalo. (por exemplo, o meio do intervalo 159 - 165,6 \u003d 162,3)

O crescimento médio dos alunos é determinado pela fórmula da média aritmética ponderada:

Determinamos a dispersão pela fórmula:

A fórmula pode ser convertida assim:

Desta fórmula segue que a variação é a diferença entre a média dos quadrados das opções e o quadrado e a média.

Variação na série de variação com intervalos iguais de acordo com o método dos momentos pode ser calculado da seguinte maneira usando a segunda propriedade da dispersão (dividindo todas as opções pelo valor do intervalo). Definição de variação, calculado pelo método dos momentos, de acordo com a seguinte fórmula é menos demorado:

onde i é o valor do intervalo; A - zero condicional, que é conveniente usar o meio do intervalo com a frequência mais alta; m1 é o quadrado do momento de primeira ordem; m2 - momento de segunda ordem

Variação do recurso (se na população estatística o atributo muda de tal forma que existem apenas duas opções mutuamente exclusivas, então tal variabilidade é chamada de alternativa) pode ser calculada pela fórmula:

Substituindo nesta fórmula de dispersão q = 1- p, temos:

Tipos de dispersão

Variação total mede a variação de uma característica em toda a população como um todo sob a influência de todos os fatores que causam essa variação. É igual ao quadrado médio dos desvios dos valores individuais da característica x do valor médio total x e pode ser definido como variância simples ou variância ponderada.

Variação intragrupo caracteriza a variação aleatória, ou seja, parte da variação, que se deve à influência de fatores não contabilizados e não depende do fator de sinal subjacente ao agrupamento. Tal variância é igual ao quadrado médio dos desvios dos valores individuais de uma característica dentro do grupo X da média aritmética do grupo e pode ser calculada como uma variância simples ou como uma variância ponderada.

Por isso, medidas de variação dentro do grupo variação de uma característica dentro de um grupo e é determinada pela fórmula:

onde xi - média do grupo; ni é o número de unidades no grupo.

Por exemplo, as variações intragrupo que precisam ser determinadas na tarefa de estudar a influência das qualificações dos trabalhadores no nível de produtividade do trabalho em uma oficina mostram variações na produção em cada grupo causadas por todos os fatores possíveis (condição técnica do equipamento, disponibilidade de ferramentas e materiais, idade dos trabalhadores, intensidade de trabalho, etc.), salvo diferenças na categoria de qualificação (dentro do grupo, todos os trabalhadores têm a mesma qualificação).

A média das variâncias intragrupo reflete a variação aleatória, ou seja, aquela parte da variação que ocorreu sob a influência de todos os outros fatores, com exceção do fator de agrupamento. É calculado pela fórmula:

Variação intergrupo caracteriza a variação sistemática do traço resultante, que se deve à influência do fator traço subjacente ao agrupamento. É igual ao quadrado médio dos desvios das médias do grupo em relação à média geral. A variação intergrupo é calculada pela fórmula: