Como calcular o desvio padrão de uma amostra. Parâmetros estatísticos

Uma das principais ferramentas de análise estatística é o cálculo do desvio padrão. Este indicador permite fazer uma estimativa do desvio padrão para uma amostra ou para a população em geral. Vamos aprender a usar a fórmula de desvio padrão no Excel.

Vamos definir imediatamente qual é o desvio padrão e como é sua fórmula. Este valor é a raiz quadrada da média aritmética dos quadrados da diferença entre todos os valores da série e sua média aritmética. Existe um nome idêntico para este indicador - desvio padrão. Ambos os nomes são completamente equivalentes.

Mas, claro, no Excel, o usuário não precisa calcular isso, pois o programa faz tudo por ele. Vamos aprender a calcular o desvio padrão no Excel.

Cálculo no Excel

Você pode calcular o valor especificado no Excel usando duas funções especiais STDEV.V(de acordo com a amostra) e STDEV.G(de acordo com a população em geral). O princípio de seu funcionamento é absolutamente o mesmo, mas eles podem ser chamados de três maneiras, que discutiremos a seguir.

Método 1: Assistente de funções


Método 2: guia Fórmulas


Método 3: Inserindo a fórmula manualmente

Há também uma maneira em que você não precisa chamar a janela de argumentos. Para fazer isso, insira a fórmula manualmente.


Como você pode ver, o mecanismo para calcular o desvio padrão no Excel é muito simples. O usuário só precisa inserir números da população ou links para células que os contenham. Todos os cálculos são realizados pelo próprio programa. É muito mais difícil entender o que é o indicador calculado e como os resultados do cálculo podem ser aplicados na prática. Mas entender isso já pertence mais ao campo da estatística do que aprender a trabalhar com software.

Da Wikipédia, a enciclopédia livre

desvio padrão(sinônimos: desvio padrão, desvio padrão, desvio padrão; termos relacionados: desvio padrão, spread padrão) - em teoria de probabilidade e estatística, o indicador mais comum da dispersão dos valores de uma variável aleatória em relação à sua expectativa matemática. Com matrizes limitadas de amostras de valores, em vez da expectativa matemática, é utilizada a média aritmética da população de amostras.

Informação básica

O desvio padrão é medido em unidades da própria variável aleatória e é utilizado no cálculo do erro padrão da média aritmética, na construção de intervalos de confiança, no teste estatístico de hipóteses, na medição de uma relação linear entre variáveis ​​aleatórias. Definido como a raiz quadrada da variância de uma variável aleatória.

Desvio padrão:

\sigma=\sqrt(\frac(1)(n)\sum_(i=1)^n\left(x_i-\bar(x)\right)^2).

Desvio padrão(estimativa do desvio padrão de uma variável aleatória x em relação à sua expectativa matemática com base em uma estimativa imparcial de sua variância) s:

s=\sqrt(\frac(n)(n-1)\sigma^2)=\sqrt(\frac(1)(n-1)\sum_(i=1)^n\left(x_i-\bar (x)\direito)^2);

regra de três sigma

regra de três sigma (3\sigma) - quase todos os valores de uma variável aleatória normalmente distribuída estão no intervalo \left(\bar(x)-3\sigma;\bar(x)+3\sigma\right). Mais estritamente - aproximadamente com uma probabilidade de 0,9973, o valor de uma variável aleatória normalmente distribuída está no intervalo especificado (desde que o valor \bar(x) verdadeiro e não obtido como resultado do processamento da amostra).

Se o valor verdadeiro \bar(x) desconhecido, então você deve usar \sigma, uma s. Assim, a regra de três sigma é transformada na regra de três s .

Interpretação do valor do desvio padrão

Um valor maior do desvio padrão indica uma maior dispersão dos valores no conjunto apresentado com a média do conjunto; um valor menor, respectivamente, indica que os valores do conjunto estão agrupados em torno do valor médio.

Por exemplo, temos três conjuntos de números: (0, 0, 14, 14), (0, 6, 8, 14) e (6, 6, 8, 8). Todos os três conjuntos têm valores médios de 7 e desvios padrão de 7, 5 e 1, respectivamente. O último conjunto tem um pequeno desvio padrão porque os valores do conjunto estão agrupados em torno da média; o primeiro conjunto tem o maior valor do desvio padrão - os valores dentro do conjunto divergem fortemente do valor médio.

Em um sentido geral, o desvio padrão pode ser considerado uma medida de incerteza. Por exemplo, em física, o desvio padrão é usado para determinar o erro de uma série de medidas sucessivas de alguma quantidade. Este valor é muito importante para determinar a plausibilidade do fenômeno em estudo em comparação com o valor previsto pela teoria: se o valor médio das medições difere muito dos valores previstos pela teoria (grande desvio padrão), então o valores obtidos ou o método de obtê-los deve ser verificado novamente.

Uso pratico

Na prática, o desvio padrão permite estimar quantos valores de um conjunto podem diferir do valor médio.

Economia e finanças

Desvio padrão do retorno da carteira \sigma =\sqrt(D[X])é identificado com o risco da carteira.

Clima

Suponha que existam duas cidades com a mesma temperatura média máxima diária, mas uma localizada na costa e a outra na planície. As cidades costeiras são conhecidas por terem muitas temperaturas máximas diárias menores do que as cidades do interior. Portanto, o desvio padrão das temperaturas máximas diárias na cidade litorânea será menor do que na segunda cidade, apesar de o valor médio desse valor ser o mesmo para elas, o que na prática significa que a probabilidade de que a temperatura máxima do ar temperatura de cada dia particular do ano será mais forte diferente do valor médio, maior para uma cidade localizada dentro do continente.

Esporte

Vamos supor que existam vários times de futebol que são classificados de acordo com algum conjunto de parâmetros, por exemplo, o número de gols marcados e sofridos, chances de gol, etc. É mais provável que o melhor time deste grupo tenha o melhor valores em mais parâmetros. Quanto menor o desvio padrão da equipe para cada um dos parâmetros apresentados, mais previsível é o resultado da equipe, tais equipes são equilibradas. Por outro lado, uma equipe com grande desvio padrão tem dificuldade em prever o resultado, o que por sua vez é explicado por um desequilíbrio, por exemplo, uma defesa forte mas um ataque fraco.

A utilização do desvio padrão dos parâmetros da equipe permite prever até certo ponto o resultado da partida entre duas equipes, avaliando os pontos fortes e fracos das equipes e, consequentemente, os métodos de luta escolhidos.

Veja também

Escreva um comentário sobre o artigo "Desvio padrão"

Literatura

  • Borovikov V. ESTATISTICAS. A arte da análise de dados de computador: Para profissionais / V. Borovikov. - São Petersburgo. : Pedro, 2003. - 688 p. - ISBN 5-272-00078-1..

Um trecho caracterizando o desvio padrão

E, abrindo rapidamente a porta, ele saiu com passos resolutos para a varanda. A conversa cessou de repente, chapéus e bonés foram removidos e todos os olhos se voltaram para o conde que saiu.
- Olá, pessoal! disse a contagem rapidamente e em voz alta. - Obrigado por ter vindo. Vou assumi-lo agora, mas antes de tudo precisamos lidar com o vilão. Precisamos punir o vilão que matou Moscou. Espere por mim! - E o conde com a mesma rapidez voltou aos aposentos, batendo a porta com força.
Um murmúrio de aprovação percorreu a multidão. “Ele, então, controlará o uso dos vilões! E você diz um francês... ele vai desatar toda a distância para você! as pessoas diziam, como se repreendessem umas às outras por sua falta de fé.
Alguns minutos depois, um oficial saiu correndo pela porta da frente, ordenou alguma coisa, e os dragões se estenderam. A multidão moveu-se avidamente da sacada para a varanda. Saindo da varanda com passos rápidos e raivosos, Rostopchin olhou apressadamente ao redor, como se procurasse alguém.
- Onde ele está? - disse o conde, e no mesmo instante em que disse isso, viu da esquina da casa saindo entre dois dragões um jovem de pescoço comprido e fino, com a cabeça meio raspada e crescida. Este jovem estava vestido com o que costumava ser um casaco de pele de carneiro de raposa elegante, azul e surrado e com calças sujas de linho enfiadas em botas finas e sujas e gastas. As algemas penduravam pesadamente nas pernas finas e fracas, dificultando o andar hesitante do jovem.
- MAS! - disse Rostopchin, desviando os olhos apressadamente do rapaz de casaco de raposa e apontando para o último degrau da varanda. - Coloque aqui! - O jovem, acorrentada as algemas, pisou pesadamente no degrau indicado, segurando com o dedo a gola apertada do casaco de pele de carneiro, virou o pescoço comprido duas vezes e, suspirando, cruzou as mãos magras e inativas na frente do estômago com um gesto submisso.
Houve silêncio por alguns segundos enquanto o jovem se acomodava no degrau. Apenas nas fileiras de trás de pessoas se espremendo em um só lugar, gemidos, gemidos, solavancos e o barulho de pernas rearranjadas eram ouvidos.
Rostopchin, esperando que ele parasse no local indicado, franziu a testa com a mão.
- Rapazes! - disse Rostopchin com uma voz metálica, - este homem, Vereschagin, é o mesmo canalha de quem Moscou morreu.
O jovem de casaco de raposa estava em uma pose submissa, com as mãos entrelaçadas na frente do estômago e levemente curvadas. Emagrecido, com uma expressão de desesperança, desfigurado pela cabeça raspada, seu rosto jovem estava abaixado. Nas primeiras palavras da contagem, ele lentamente levantou a cabeça e olhou para a contagem, como se quisesse dizer algo para ele ou pelo menos encontrar seu olhar. Mas Rostopchin não olhou para ele. No pescoço longo e fino do jovem, como uma corda, uma veia atrás da orelha ficou tensa e ficou azul, e de repente seu rosto ficou vermelho.
Todos os olhos estavam fixos nele. Olhou para a multidão e, como que reconfortado pela expressão que lia nos rostos das pessoas, sorriu com tristeza e timidez, e baixando novamente a cabeça, endireitou os pés no degrau.
“Ele traiu seu czar e pátria, ele se entregou a Bonaparte, ele sozinho de todos os russos desonrou o nome de um russo, e Moscou está morrendo por ele”, disse Rastopchin com uma voz firme e afiada; mas de repente ele olhou rapidamente para Vereshchagin, que continuava na mesma pose submissa. Como se aquele olhar o explodisse, ele, levantando a mão, quase gritou, virando-se para o povo: - Lide com ele com seu julgamento! Eu te dou!
As pessoas estavam em silêncio e apenas pressionavam cada vez mais umas às outras. Abraçar um ao outro, respirar nessa proximidade infectada, não ter forças para se mexer e esperar por algo desconhecido, incompreensível e terrível tornou-se insuportável. As pessoas que estavam nas primeiras filas, que viam e ouviam tudo o que acontecia à sua frente, todos com os olhos arregalados de medo e bocas escancaradas, esforçando-se com todas as forças, mantinham a pressão dos de trás nas costas.
- Bata nele!.. Deixe o traidor morrer e não envergonhe o nome do russo! gritou Rastopchin. - Rubi! Eu ordeno! - Ouvindo não palavras, mas os sons raivosos da voz de Rostopchin, a multidão gemeu e avançou, mas novamente parou.
- Conde!... - disse a voz tímida e ao mesmo tempo teatral de Vereshchagin em meio a um silêncio momentâneo. "Conde, um deus está acima de nós..." disse Vereshchagin, levantando a cabeça, e novamente a veia grossa em seu pescoço fino se encheu de sangue, e a cor rapidamente saiu e fugiu de seu rosto. Ele não terminou o que queria dizer.
- Corte-o! Eu ordeno! .. - gritou Rostopchin, de repente ficando tão pálido quanto Vereshchagin.
- Sabres fora! gritou o oficial para os dragões, desembainhando ele mesmo o sabre.
Outra onda ainda mais forte passou por entre as pessoas e, tendo chegado às primeiras filas, essa onda moveu os da frente, cambaleando, levando-os até os degraus do alpendre. Um sujeito alto, com uma expressão petrificada no rosto e com a mão erguida, parou ao lado de Vereshchagin.
- Rubi! quase sussurrou um oficial para os dragões, e um dos soldados de repente, com um rosto distorcido de raiva, atingiu Vereschagin na cabeça com uma espada romba.
"MAS!" - Vereshchagin gritou curto e surpreso, olhando em volta assustado e como se não entendesse por que isso foi feito com ele. O mesmo gemido de surpresa e horror percorreu a multidão.
"Oh meu Deus!" - ouviu-se a exclamação triste de alguém.
Mas após a exclamação de surpresa que escapou de Vereschagin, ele gritou de dor, e esse grito o arruinou. Aquela barreira do sentimento humano, esticada ao mais alto grau, que ainda segurava a multidão, rompeu instantaneamente. O crime começou, era preciso completá-lo. O gemido lamentoso de reprovação foi abafado pelo rugido formidável e furioso da multidão. Como a última sétima onda quebrando navios, esta última onda imparável subiu das fileiras de trás, atingiu as da frente, derrubou-as e engoliu tudo. O dragão que atacou quis repetir o golpe. Vereshchagin com um grito de horror, protegendo-se com as mãos, correu para o povo. O sujeito alto, com quem ele tropeçou, agarrou o pescoço magro de Vereschagin com as mãos e, com um grito selvagem, junto com ele, caiu sob os pés das pessoas que rugiam que haviam se empilhado.
Alguns bateram e rasgaram em Vereshchagin, outros eram sujeitos altos. E os gritos das pessoas esmagadas e daqueles que tentaram salvar o sujeito alto apenas despertaram a raiva da multidão. Por muito tempo os dragões não conseguiram libertar o operário sangrento e espancado até a morte. E por muito tempo, apesar de toda a pressa febril com que a multidão tentava completar o trabalho uma vez iniciado, aquelas pessoas que espancaram, estrangularam e dilaceraram Vereschagin não conseguiram matá-lo; mas a multidão os esmagou de todos os lados, com eles no meio, como uma massa, balançando de um lado para o outro e não lhes deu a oportunidade de acabar com ele ou deixá-lo.

Os valores obtidos com a experiência inevitavelmente contêm erros por diversos motivos. Entre eles, os erros sistemáticos e aleatórios devem ser distinguidos. Os erros sistemáticos devem-se a causas que actuam de forma muito específica, podendo sempre ser eliminados ou tidos em conta com suficiente precisão. Erros aleatórios são causados ​​por um número muito grande de causas individuais que não podem ser contabilizadas com precisão e agem de forma diferente em cada medição individual. Esses erros não podem ser completamente descartados; eles podem ser levados em consideração apenas na média, para a qual é necessário conhecer as leis às quais os erros aleatórios estão sujeitos.

Vamos denotar o valor medido por A, e o erro aleatório na medida x. Como o erro x pode assumir qualquer valor, é uma variável aleatória contínua, totalmente caracterizada por sua própria lei de distribuição.

A realidade mais simples e que reflete com mais precisão (na grande maioria dos casos) é a chamada distribuição normal de erros:

Essa lei de distribuição pode ser obtida a partir de várias premissas teóricas, em particular, da exigência de que o valor mais provável de uma incógnita para a qual uma série de valores com o mesmo grau de precisão é obtida por medição direta seja a média aritmética de esses valores. O valor 2 é chamado dispersão desta lei normal.

Média

Determinação da dispersão de acordo com dados experimentais. Se para qualquer quantidade A, n valores a i forem obtidos por medição direta com o mesmo grau de precisão, e se os erros na quantidade A estiverem sujeitos à lei de distribuição normal, então o valor mais provável de A será média:

a - média aritmética,

a i - valor medido na i-ésima etapa.

Desvio do valor observado (para cada observação) a i do valor A de média aritmética: ai - a.

Para determinar a dispersão da distribuição normal de erros neste caso, use a fórmula:

2 - dispersão,
a - média aritmética,
n é o número de medições de parâmetros,

desvio padrão

desvio padrão mostra o desvio absoluto dos valores medidos de média aritmética. De acordo com a fórmula para a medida de precisão de combinação linear erro quadrático médio a média aritmética é determinada pela fórmula:

, Onde


a - média aritmética,
n é o número de medições de parâmetros,
a i - valor medido na i-ésima etapa.

O coeficiente de variação

O coeficiente de variação caracteriza o grau relativo de desvio dos valores medidos de média aritmética:

, Onde

V - coeficiente de variação,
- desvio padrão,
a - média aritmética.

Quanto maior o valor coeficiente de variação, quanto maior a dispersão e menor a uniformidade dos valores estudados. Se um o coeficiente de variação inferior a 10%, então a variabilidade da série de variação é considerada insignificante, de 10% a 20% refere-se à média, superior a 20% e inferior a 33% a significativa, e se o coeficiente de variação superior a 33%, isso indica a heterogeneidade das informações e a necessidade de excluir os maiores e menores valores.

Desvio linear médio

Um dos indicadores do alcance e intensidade da variação é desvio linear médio(módulo médio de desvio) da média aritmética. Desvio linear médio calculado pela fórmula:

, Onde

_
a - desvio linear médio,
a - média aritmética,
n é o número de medições de parâmetros,
a i - valor medido na i-ésima etapa.

Para verificar a conformidade dos valores estudados com a lei da distribuição normal, é utilizada a relação índice de assimetria ao seu erro e atitude indicador de curtose ao erro dele.

Índice de assimetria

Índice de assimetria(A) e seu erro (m a) é calculado usando as seguintes fórmulas:

, Onde

A - indicador de assimetria,
- desvio padrão,
a - média aritmética,
n é o número de medições de parâmetros,
a i - valor medido na i-ésima etapa.

Indicador de curtose

Indicador de curtose(E) e seu erro (m e) é calculado usando as seguintes fórmulas:

, Onde

A característica mais perfeita da variação é o desvio padrão, que é chamado de padrão (ou desvio padrão). Desvio padrão() é igual à raiz quadrada do quadrado médio dos desvios de valores de recursos individuais da média aritmética:

O desvio padrão é simples:

O desvio padrão ponderado é aplicado para dados agrupados:

Entre o quadrado médio e os desvios lineares médios em condições de distribuição normal, ocorre a seguinte relação: ~ 1,25.

O desvio padrão, sendo a principal medida absoluta de variação, é usado na determinação dos valores das ordenadas da curva de distribuição normal, nos cálculos relacionados à organização da observação da amostra e no estabelecimento da precisão das características da amostra, bem como em avaliar os limites da variação de uma característica em uma população homogênea.

Dispersão, seus tipos, desvio padrão.

Variação de uma variável aleatória- uma medida do spread de uma determinada variável aleatória, ou seja, seu desvio da expectativa matemática. Em estatística, a designação ou é frequentemente usada. A raiz quadrada da variância é chamada de desvio padrão, desvio padrão ou spread padrão.

Variação total (σ2) mede a variação de uma característica em toda a população sob a influência de todos os fatores que causaram essa variação. Ao mesmo tempo, graças ao método de agrupamento, é possível isolar e medir a variação devido ao recurso de agrupamento e a variação que ocorre sob a influência de fatores não contabilizados.

Variação intergrupo (σ 2 m.gr) caracteriza a variação sistemática, ou seja, diferenças na magnitude da característica estudada que surgem sob a influência da característica - o fator subjacente ao agrupamento.

desvio padrão(sinônimos: desvio padrão, desvio padrão, desvio padrão; termos semelhantes: desvio padrão, spread padrão) - na teoria da probabilidade e estatística, o indicador mais comum da dispersão dos valores de uma variável aleatória em relação à sua expectativa matemática. Com matrizes limitadas de amostras de valores, em vez da expectativa matemática, é utilizada a média aritmética do conjunto de amostras.

O desvio padrão é medido em unidades da própria variável aleatória e é utilizado no cálculo do erro padrão da média aritmética, na construção de intervalos de confiança, no teste estatístico de hipóteses e na medição da relação linear entre variáveis ​​aleatórias. É definida como a raiz quadrada da variância de uma variável aleatória.


Desvio padrão:

Desvio padrão(estimativa do desvio padrão de uma variável aleatória x em relação à sua expectativa matemática com base em uma estimativa imparcial de sua variância):

onde é a dispersão; — eu-ésimo elemento de amostra; — tamanho da amostra; - média aritmética da amostra:

Deve-se notar que ambas as estimativas são tendenciosas. No caso geral, é impossível construir uma estimativa imparcial. No entanto, uma estimativa baseada em uma estimativa de variância imparcial é consistente.

Essência, alcance e procedimento para determinar a moda e a mediana.

Além das médias de lei de potência em estatística, para uma característica relativa da magnitude de um atributo variável e da estrutura interna da série de distribuição, são usadas médias estruturais, que são representadas principalmente por moda e mediana.

Moda- Esta é a variante mais comum da série. A moda é usada, por exemplo, para determinar o tamanho de roupas, sapatos, que são mais procurados pelos compradores. A moda para uma série discreta é a variante com a maior frequência. Ao calcular a moda para a série de variação de intervalo, você deve primeiro determinar o intervalo modal (pela frequência máxima) e, em seguida, o valor do valor modal do atributo de acordo com a fórmula:

- - valor de moda

- - limite inferior do intervalo modal

- - valor do intervalo

- - frequência de intervalo modal

- - frequência do intervalo anterior ao modal

- - frequência do intervalo seguindo o modal

Mediana - este é o valor da característica subjacente à série classificada e divide esta série em duas partes iguais em número.

Para determinar a mediana em uma série discreta na presença de frequências, primeiro calcule a metade da soma das frequências e, em seguida, determine qual valor da variante cai sobre ela. (Se a linha classificada contiver um número ímpar de recursos, o número mediano será calculado pela fórmula:

M e \u003d (n (número de recursos no agregado) + 1) / 2,

no caso de um número par de características, a mediana será igual à média das duas características no meio da linha).

Ao calcular medianas para uma série de variação de intervalo, primeiro determine o intervalo mediano dentro do qual a mediana está localizada e, em seguida, o valor da mediana de acordo com a fórmula:

- é a mediana desejada

- é o limite inferior do intervalo que contém a mediana

- - valor do intervalo

- - a soma das frequências ou o número de membros da série

A soma das frequências acumuladas dos intervalos que antecedem a mediana

- é a frequência do intervalo mediano

Exemplo. Encontre a moda e a mediana.

Solução:
Neste exemplo, o intervalo modal está dentro da faixa etária de 25-30 anos, uma vez que esse intervalo representa a maior frequência (1054).

Vamos calcular o valor da moda:

Isso significa que a idade modal dos alunos é de 27 anos.

Calcule a mediana. O intervalo mediano está na faixa etária de 25-30 anos, pois dentro desse intervalo existe uma variante que divide a população em duas partes iguais (Σf i /2 = 3462/2 = 1731). Em seguida, substituímos os dados numéricos necessários na fórmula e obtemos o valor da mediana:

Isso significa que metade dos alunos tem menos de 27,4 anos e a outra metade tem mais de 27,4 anos.

Além da moda e da mediana, podem ser utilizados indicadores como quartis, dividindo a série ranqueada em 4 partes iguais, decis- 10 partes e percentis - por 100 partes.

O conceito de observação seletiva e seu alcance.

Observação seletiva aplica-se ao aplicar a observação contínua fisicamente impossível devido a uma grande quantidade de dados ou economicamente impraticável. A impossibilidade física ocorre, por exemplo, ao estudar fluxos de passageiros, preços de mercado, orçamentos familiares. A inconveniência econômica ocorre ao avaliar a qualidade dos bens associados à sua destruição, por exemplo, degustação, teste de resistência de tijolos, etc.

As unidades estatísticas selecionadas para observação compõem uma amostra ou amostra, e toda a sua matriz - a população geral (GS). Neste caso, o número de unidades na amostra denota n, e em todo o HS - N. Atitude s/n chamado de tamanho relativo ou proporção da amostra.

A qualidade dos resultados da amostragem depende da representatividade da amostra, ou seja, quão representativa ela é no SH. Para garantir a representatividade da amostra, é necessário observar princípio da seleção aleatória de unidades, que pressupõe que a inclusão de uma unidade de HS na amostra não pode ser influenciada por nenhum outro fator que não seja o acaso.

Existe 4 formas de seleção aleatória para provar:

  1. Na verdade aleatório seleção ou "método de loteria", quando números de série são atribuídos a valores estatísticos, inseridos em determinados objetos (por exemplo, barris), que são então misturados em algum recipiente (por exemplo, em um saco) e selecionados aleatoriamente. Na prática, este método é realizado usando um gerador de números aleatórios ou tabelas matemáticas de números aleatórios.
  2. Mecânico seleção, segundo a qual cada ( N/n)-ésimo valor da população geral. Por exemplo, se contiver 100.000 valores e você desejar selecionar 1.000, cada 100.000 / 1.000 = 100º valor cairá na amostra. Além disso, se eles não forem classificados, o primeiro será escolhido aleatoriamente entre os cem primeiros, e os números dos outros serão mais cem. Por exemplo, se o número da unidade 19 foi o primeiro, o número 119 deve ser o próximo, depois o número 219, depois o número 319 e assim por diante. Se as unidades populacionais forem classificadas, então #50 é selecionado primeiro, depois #150, depois #250 e assim por diante.
  3. A seleção de valores de uma matriz de dados heterogênea é realizada estratificado forma (estratificada), quando a população geral é previamente dividida em grupos homogêneos, aos quais se aplica a seleção aleatória ou mecânica.
  4. Um método de amostragem especial é serial seleção, em que não são escolhidas aleatoriamente ou mecanicamente quantidades individuais, mas suas séries (sequências de algum número a algum consecutivo), dentro das quais se realiza a observação contínua.

A qualidade das observações da amostra também depende tipo de amostragem: repetido ou Não repetitivo.

No nova seleção os valores estatísticos ou suas séries que caíram na amostra são devolvidos à população geral após o uso, tendo a chance de entrar em uma nova amostra. Ao mesmo tempo, todos os valores da população geral têm a mesma probabilidade de serem incluídos na amostra.

Seleção não repetitiva significa que os valores estatísticos ou suas séries incluídos na amostra não são devolvidos à população geral após o uso e, portanto, a probabilidade de entrar na próxima amostra aumenta para os valores restantes deste último.

A amostragem não repetitiva fornece resultados mais precisos, por isso é usada com mais frequência. Mas há situações em que não pode ser aplicado (estudo de fluxo de passageiros, demanda de consumidores, etc.) e então é feita uma re-seleção.

O erro marginal da amostra de observação, o erro médio da amostra, a ordem em que são calculados.

Vamos considerar em detalhes os métodos acima para formar uma população amostral e os erros que surgem neste caso. representatividade .
Na verdade aleatório a amostra baseia-se na seleção de unidades da população geral ao acaso, sem quaisquer elementos de consistência. Tecnicamente, a seleção aleatória adequada é realizada por sorteio (por exemplo, loterias) ou por uma tabela de números aleatórios.

A seleção realmente aleatória "em sua forma pura" na prática da observação seletiva raramente é usada, mas é a inicial entre outros tipos de seleção, ela implementa os princípios básicos da observação seletiva. Consideremos algumas questões da teoria do método de amostragem e a fórmula do erro para uma amostra aleatória simples.

Erro de amostragem- é a diferença entre o valor do parâmetro na população geral e seu valor calculado a partir dos resultados da observação da amostra. Para uma característica quantitativa média, o erro de amostragem é determinado por

O indicador é chamado de erro amostral marginal.
A média amostral é uma variável aleatória que pode assumir valores diferentes dependendo de quais unidades estão na amostra. Portanto, os erros de amostragem também são variáveis ​​aleatórias e podem assumir valores diferentes. Portanto, determine a média dos possíveis erros - erro médio de amostragem, que depende de:

Tamanho da amostra: quanto maior o número, menor o erro médio;

O grau de mudança da característica estudada: quanto menor a variação da característica e, consequentemente, a variância, menor o erro amostral médio.

No re-seleção aleatória o erro médio é calculado:
.
Na prática, a variância geral não é exatamente conhecida, mas em teoria da probabilidade provou que
.
Como o valor para n suficientemente grande é próximo de 1, podemos supor que . Então o erro médio de amostragem pode ser calculado:
.
Mas em casos de uma amostra pequena (para n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

No amostragem aleatória as fórmulas fornecidas são corrigidas pelo valor . Então o erro médio de não amostragem é:
e .
Porque é sempre menor que , então o fator () é sempre menor que 1. Isso significa que o erro médio na seleção não repetitiva é sempre menor do que na seleção repetida.
Amostragem mecânicaé usado quando a população geral é ordenada de alguma forma (por exemplo, listas de eleitores em ordem alfabética, números de telefone, números de casas, apartamentos). A seleção das unidades é realizada em um determinado intervalo, que é igual ao inverso do percentual da amostra. Assim, com uma amostra de 2%, a cada 50 unidades = 1/0,02 é selecionada, com 5%, cada 1/0,05 = 20 unidades da população geral.

A origem é escolhida de diferentes maneiras: aleatoriamente, a partir do meio do intervalo, com mudança na origem. O principal é evitar o erro sistemático. Por exemplo, com uma amostra de 5%, se a 13ª for escolhida como primeira unidade, então as próximas 33, 53, 73, etc.

Em termos de precisão, a seleção mecânica está próxima da amostragem aleatória adequada. Portanto, para determinar o erro médio da amostragem mecânica, são utilizadas fórmulas de seleção aleatória adequada.

No seleção típica a população pesquisada é dividida preliminarmente em grupos homogêneos de tipo único. Por exemplo, ao pesquisar empresas, estas podem ser indústrias, subsetores, enquanto estudam a população - áreas, grupos sociais ou etários. Em seguida, é feita uma seleção independente de cada grupo de forma mecânica ou aleatória própria.

A amostragem típica fornece resultados mais precisos do que outros métodos. A tipificação da população geral garante a representação de cada grupo tipológico na amostra, o que permite excluir a influência da variância intergrupos no erro amostral médio. Portanto, ao encontrar o erro de uma amostra típica de acordo com a regra de adição de variâncias (), é necessário levar em consideração apenas a média das variâncias do grupo. Então o erro amostral médio é:
em re-seleção
,
com seleção não recorrente
,
Onde é a média das variâncias intragrupo na amostra.

Seleção serial (ou aninhada) usado quando a população é dividida em séries ou grupos antes do início da pesquisa amostral. Essas séries podem ser pacotes de produtos acabados, grupos de estudantes, equipes. As séries para exame são selecionadas mecanicamente ou aleatoriamente, e dentro das séries é realizado um levantamento completo das unidades. Portanto, o erro amostral médio depende apenas da variância intergrupos (entre séries), que é calculada pela fórmula:

onde r é o número de séries selecionadas;
- a média da i-ésima série.

O erro médio de amostragem em série é calculado:

quando reselecionado:
,
com seleção não recorrente:
,
onde R é o número total de séries.

Combinado seleçãoé uma combinação dos métodos de seleção considerados.

O erro amostral médio para qualquer método de seleção depende principalmente do tamanho absoluto da amostra e, em menor grau, do percentual da amostra. Suponha que 225 observações sejam feitas no primeiro caso de uma população de 4.500 unidades e no segundo caso de 225.000 unidades. As variâncias em ambos os casos são iguais a 25. Então, no primeiro caso, com uma seleção de 5%, o erro amostral será:

No segundo caso, com uma seleção de 0,1%, será igual a:


Nesse caminho, com uma diminuição do percentual amostral em 50 vezes, o erro amostral aumentou ligeiramente, uma vez que o tamanho da amostra não mudou.
Suponha que o tamanho da amostra seja aumentado para 625 observações. Neste caso, o erro de amostragem é:

Um aumento da amostra em 2,8 vezes com o mesmo tamanho da população geral reduz o tamanho do erro amostral em mais de 1,6 vezes.

Métodos e meios de formação de uma população amostral.

Na estatística, são utilizados vários métodos de formação de conjuntos de amostras, o que é determinado pelos objetivos do estudo e depende das especificidades do objeto de estudo.

A principal condição para a realização de uma pesquisa amostral é evitar a ocorrência de erros sistemáticos decorrentes da violação do princípio da igualdade de oportunidades para cada unidade da população geral entrar na amostra. A prevenção de erros sistemáticos é alcançada como resultado da utilização de métodos cientificamente fundamentados para a formação de uma população amostral.

Existem as seguintes maneiras de selecionar unidades da população geral:

1) seleção individual - unidades individuais são selecionadas na amostra;

2) seleção de grupos - grupos ou séries de unidades em estudo qualitativamente homogêneos fazem parte da amostra;

3) a seleção combinada é uma combinação de seleção individual e de grupo.
Os métodos de seleção são determinados pelas regras de formação da população amostral.

A amostra pode ser:

  • aleatório adequado consiste no fato de que a amostra é formada como resultado da seleção aleatória (não intencional) de unidades individuais da população geral. Nesse caso, o número de unidades selecionadas no conjunto de amostra geralmente é determinado com base na proporção aceita da amostra. A parcela da amostra é a razão entre o número de unidades na população amostral n para o número de unidades na população geral N, ou seja,
  • mecânico consiste no fato de que a seleção das unidades da amostra é feita a partir da população geral, dividida em intervalos iguais (grupos). Nesse caso, o tamanho do intervalo na população geral é igual ao inverso da proporção da amostra. Assim, com uma amostra de 2%, a cada 50 unidades é selecionada (1:0,02), com uma amostra de 5%, a cada 20 unidades (1:0,05), etc. Assim, de acordo com a proporção aceita de seleção, a população geral é, por assim dizer, dividida mecanicamente em grupos iguais. Apenas uma unidade é selecionada de cada grupo na amostra.
  • típica - em que a população geral é primeiramente dividida em grupos típicos homogêneos. Então, de cada grupo típico, uma seleção individual de unidades na amostra é feita por uma amostra aleatória ou mecânica. Uma característica importante de uma amostra típica é que ela fornece resultados mais precisos em comparação com outros métodos de seleção de unidades em uma amostra;
  • serial- em que a população geral é dividida em grupos do mesmo tamanho - séries. As séries são selecionadas no conjunto de amostras. Dentro da série, é realizada uma observação contínua das unidades que se enquadram na série;
  • combinado- a amostragem pode ser em dois estágios. Nesse caso, a população geral é primeiro dividida em grupos. Em seguida, os grupos são selecionados e, dentro deste último, as unidades individuais são selecionadas.

Em estatística, distinguem-se os seguintes métodos de seleção de unidades em uma amostra::

  • estágio único amostra - cada unidade selecionada é imediatamente submetida a estudo em uma determinada base (na verdade, amostras aleatórias e seriadas);
  • multiestágio amostragem - a seleção é feita a partir da população geral de grupos individuais e as unidades individuais são selecionadas dos grupos (uma amostra típica com um método mecânico de seleção de unidades na população amostral).

Além disso, existem:

  • nova seleção- de acordo com o esquema da bola devolvida. Nesse caso, cada unidade ou série que caiu na amostra é devolvida à população geral e, portanto, tem chance de ser incluída novamente na amostra;
  • seleção não repetitiva- de acordo com o esquema da bola não devolvida. Tem resultados mais precisos para o mesmo tamanho de amostra.

Determinação do tamanho da amostra necessária (usando a tabela de Student).

Um dos princípios científicos da teoria da amostragem é garantir que um número suficiente de unidades seja selecionado. Teoricamente, a necessidade de atender a esse princípio é apresentada nas provas dos teoremas do limite da teoria da probabilidade, que permitem estabelecer quantas unidades devem ser selecionadas da população geral para que seja suficiente e garanta a representatividade da amostra.

Uma diminuição no erro padrão da amostra e, consequentemente, um aumento na precisão da estimativa está sempre associada a um aumento no tamanho da amostra, portanto, já na fase de organização de uma observação amostral, é necessário decidir qual deve ser o tamanho da amostra para garantir a precisão necessária dos resultados da observação. O cálculo do tamanho amostral necessário é construído por meio de fórmulas derivadas das fórmulas para os erros marginais de amostragem (A), correspondentes a um ou outro tipo e método de seleção. Assim, para um tamanho de amostra aleatório repetido (n), temos:

A essência desta fórmula é que, com uma nova seleção aleatória do número necessário, o tamanho da amostra é diretamente proporcional ao quadrado do coeficiente de confiança (t2) e variância da característica de variação (?2) e é inversamente proporcional ao quadrado do erro marginal de amostragem (?2). Em particular, dobrando o erro marginal, o tamanho da amostra necessária pode ser reduzido por um fator de quatro. Dos três parâmetros, dois (t e?) são definidos pelo pesquisador.

Ao mesmo tempo, o pesquisador Para fins da pesquisa amostral, deve-se decidir a questão: em que combinação quantitativa é melhor incluir esses parâmetros para fornecer a variante ótima? Em um caso, ele pode estar mais satisfeito com a confiabilidade dos resultados obtidos (t) do que com a medida de precisão (?), no outro - vice-versa. É mais difícil resolver a questão do valor do erro amostral marginal, uma vez que o pesquisador não possui esse indicador na fase de concepção de uma observação amostral, portanto, na prática, é costume definir o erro amostral marginal, pois como regra, dentro de 10% do nível médio esperado da característica. O estabelecimento de um nível médio presumido pode ser abordado de diferentes maneiras: usando dados de pesquisas anteriores semelhantes ou usando dados da base de amostragem e tomando uma pequena amostra piloto.

A coisa mais difícil de estabelecer ao projetar uma observação amostral é o terceiro parâmetro na fórmula (5.2) - a variância da população amostral. Nesse caso, é necessário utilizar todas as informações disponíveis ao investigador, obtidas em pesquisas anteriores semelhantes e piloto.

Questão de definição O tamanho da amostra necessária torna-se mais complicado se o levantamento amostral envolver o estudo de várias características das unidades amostrais. Neste caso, os níveis médios de cada uma das características e a sua variação, em regra, são diferentes, pelo que é possível decidir qual a dispersão de qual das características dar preferência apenas tendo em conta a finalidade e os objetivos da a pesquisa.

Ao projetar uma observação amostral, um valor predeterminado do erro amostral admissível é assumido de acordo com os objetivos de um estudo particular e a probabilidade de conclusões baseadas nos resultados da observação.

Em geral, a fórmula para o erro marginal do valor médio da amostra permite determinar:

A magnitude dos possíveis desvios dos indicadores da população geral em relação aos indicadores da população amostral;

O tamanho da amostra necessária, fornecendo a precisão necessária, na qual os limites de um possível erro não excederão um determinado valor especificado;

A probabilidade de que o erro na amostra tenha um determinado limite.

Distribuição do aluno na teoria da probabilidade, é uma família de um parâmetro de distribuições absolutamente contínuas.

Série de dinâmicas (intervalo, momento), fechamento de série de dinâmicas.

Série de dinâmicas- estes são os valores dos indicadores estatísticos que são apresentados em uma determinada sequência cronológica.

Cada série temporal contém dois componentes:

1) indicadores de períodos de tempo (anos, trimestres, meses, dias ou datas);

2) indicadores que caracterizam o objeto em estudo por períodos de tempo ou nas datas correspondentes, que são chamados de níveis da série.

Os níveis da série são expressos valores absolutos e médios ou relativos. Dependendo da natureza dos indicadores, são construídas séries dinâmicas de valores absolutos, relativos e médios. Séries dinâmicas de valores relativos e médios são construídas com base em séries derivadas de valores absolutos. Existem séries de intervalos e momentos da dinâmica.

Série de intervalo dinâmico contém os valores dos indicadores para determinados períodos de tempo. Na série intervalar, os níveis podem ser somados, obtendo-se o volume do fenômeno por um período maior, ou os chamados totais acumulados.

Série de momentos dinâmicos reflete os valores dos indicadores em um determinado momento (data de tempo). Nas séries de momentos, o pesquisador pode estar interessado apenas na diferença dos fenômenos, refletindo a mudança de nível da série entre determinadas datas, já que a soma dos níveis aqui não tem conteúdo real. Os totais cumulativos não são calculados aqui.

A condição mais importante para a correta construção de séries dinâmicas é a comparabilidade dos níveis das séries referentes a diferentes períodos. Os níveis devem ser apresentados em valores homogêneos, devendo haver a mesma completude de cobertura das várias partes do fenômeno.

Para Para não distorcer a dinâmica real, são realizados cálculos preliminares no estudo estatístico (fechamento da série dinâmica), que antecedem a análise estatística da série dinâmica. O fechamento de séries temporais é entendido como a combinação de duas ou mais séries em uma série, cujos níveis são calculados de acordo com metodologia diferente ou não correspondem a limites territoriais, etc. O fechamento da série de dinâmicas também pode implicar na redução dos níveis absolutos da série de dinâmicas a uma base comum, o que elimina a incompatibilidade dos níveis da série de dinâmicas.

O conceito de comparabilidade de séries temporais, coeficientes, crescimento e taxas de crescimento.

Série de dinâmicas- trata-se de uma série de indicadores estatísticos que caracterizam o desenvolvimento dos fenômenos naturais e sociais no tempo. As coleções estatísticas publicadas pelo Comitê Estadual de Estatística da Rússia contêm um grande número de séries temporais em forma de tabela. Séries de dinâmicas permitem revelar padrões de desenvolvimento dos fenômenos estudados.

As séries temporais contêm dois tipos de indicadores. Indicadores de tempo(anos, trimestres, meses, etc.) ou pontos no tempo (no início do ano, no início de cada mês, etc.). Indicadores de nível de linha. Os indicadores dos níveis de séries temporais podem ser expressos em valores absolutos (produção em toneladas ou rublos), valores relativos (parcela da população urbana em%) e valores médios (salários médios dos trabalhadores da indústria por anos, etc.). Na forma tabular, a série temporal contém duas colunas ou duas linhas.

A correta construção de séries temporais envolve o cumprimento de uma série de requisitos:

  1. todos os indicadores de uma série de dinâmicas devem ser comprovados cientificamente, confiáveis;
  2. indicadores de uma série de dinâmicas devem ser comparáveis ​​no tempo, ou seja, devem ser calculados para os mesmos períodos de tempo ou nas mesmas datas;
  3. indicadores de uma série de dinâmicas devem ser comparáveis ​​em todo o território;
  4. indicadores de uma série de dinâmicas devem ser comparáveis ​​em conteúdo, ou seja, calculado de acordo com uma única metodologia, da mesma forma;
  5. os indicadores de uma série de dinâmicas devem ser comparáveis ​​em toda a gama de fazendas consideradas. Todos os indicadores de uma série de dinâmicas devem ser dados nas mesmas unidades de medida.

Indicadores estatísticos pode caracterizar os resultados do processo em estudo durante um período de tempo, ou o estado do fenômeno em estudo em um determinado ponto no tempo, ou seja, os indicadores podem ser intervalares (periódicos) e instantâneos. Assim, inicialmente a série de dinâmicas pode ser intervalo ou momento. A série de momentos da dinâmica, por sua vez, pode ser com intervalos de tempo iguais e desiguais.

A série inicial de dinâmicas pode ser convertida em uma série de valores médios e uma série de valores relativos (cadeia e base). Essas séries temporais são chamadas de séries temporais derivadas.

O método de cálculo do nível médio na série de dinâmicas é diferente, devido ao tipo de série de dinâmicas. Usando exemplos, considere os tipos de séries temporais e fórmulas para calcular o nível médio.

Ganhos absolutos (Δy) mostram quantas unidades o nível subsequente da série mudou em relação ao anterior (coluna 3. - incrementos absolutos da cadeia) ou em relação ao nível inicial (coluna 4. - incrementos absolutos básicos). As fórmulas de cálculo podem ser escritas da seguinte forma:

Com uma diminuição nos valores absolutos da série, haverá uma “diminuição”, “diminuição”, respectivamente.

Os indicadores de crescimento absoluto indicam que, por exemplo, em 1998 a produção do produto "A" aumentou 4.000 toneladas em relação a 1997 e 34.000 toneladas em relação a 1994; para outros anos, ver tabela. 11,5 gr. 3 e 4.

Fator de crescimento mostra quantas vezes o nível da série mudou em relação ao anterior (coluna 5 - coeficientes de crescimento ou declínio da cadeia) ou em relação ao nível inicial (coluna 6 - coeficientes básicos de crescimento ou declínio). As fórmulas de cálculo podem ser escritas da seguinte forma:

Taxas de crescimento mostre quantos por cento o próximo nível da série está em comparação com o anterior (coluna 7 - taxas de crescimento da cadeia) ou em comparação com o nível inicial (coluna 8 - taxas de crescimento básico). As fórmulas de cálculo podem ser escritas da seguinte forma:

Assim, por exemplo, em 1997, o volume de produção do produto "A" em relação a 1996 foi de 105,5% (

Taxas de crescimento mostre quantos por cento o nível do período do relatório aumentou em comparação com o anterior (coluna 9 - taxas de crescimento da cadeia) ou em comparação com o nível inicial (coluna 10 - taxas de crescimento básicas). As fórmulas de cálculo podem ser escritas da seguinte forma:

T pr \u003d T p - 100% ou T pr \u003d aumento absoluto / nível do período anterior * 100%

Assim, por exemplo, em 1996, comparado a 1995, o produto "A" foi produzido mais em 3,8% (103,8% - 100%) ou (8:210) x 100%, e comparado a 1994. - em 9% ( 109% - 100%).

Se os níveis absolutos da série diminuirem, a taxa será inferior a 100% e, consequentemente, haverá uma taxa de declínio (taxa de crescimento com sinal negativo).

Valor absoluto de 1% de aumento(coluna 11) mostra quantas unidades devem ser produzidas em um determinado período para que o nível do período anterior aumente 1%. No nosso exemplo, em 1995 foi necessário produzir 2,0 mil toneladas, e em 1998 - 2,3 mil toneladas, ou seja, Muito maior.

Existem duas maneiras de determinar a magnitude do valor absoluto de 1% de crescimento:

Divida o nível do período anterior por 100;

Divida as taxas absolutas de crescimento da cadeia pelas taxas de crescimento da cadeia correspondentes.

Valor absoluto de 1% de aumento =

Na dinâmica, especialmente no longo prazo, é importante analisar conjuntamente a taxa de crescimento com o conteúdo de cada aumento ou diminuição percentual.

Observe que o método considerado para analisar séries temporais é aplicável tanto para séries temporais, cujos níveis são expressos em valores absolutos (t, mil rublos, número de funcionários etc.), quanto para séries temporais, os níveis de que são expressos em indicadores relativos (% de sucata, % teor de cinzas de carvão, etc.) ou valores médios (rendimento médio em c/ha, salários médios, etc.).

Juntamente com os indicadores analíticos considerados calculados para cada ano em comparação com o nível anterior ou inicial, ao analisar a série temporal, é necessário calcular os indicadores analíticos médios para o período: o nível médio da série, o aumento absoluto médio anual (diminuição) e a taxa média anual de crescimento e a taxa de crescimento.

Os métodos para calcular o nível médio de uma série de dinâmicas foram discutidos acima. Na série intervalar da dinâmica que estamos considerando, o nível médio da série é calculado pela fórmula da média aritmética simples:

A produção média anual do produto para 1994-1998. totalizou 218,4 mil toneladas.

O aumento absoluto médio anual também é calculado pela fórmula da média aritmética simples:

Os incrementos absolutos anuais variaram ao longo dos anos de 4 a 12 mil toneladas (ver coluna 3), e o aumento médio anual da produção no período 1995-1998. totalizou 8,5 mil toneladas.

Os métodos para calcular a taxa média de crescimento e a taxa média de crescimento requerem consideração mais detalhada. Vamos considerá-los no exemplo dos indicadores anuais do nível de série dado na tabela.

O nível médio da gama de dinâmicas.

Série de dinâmicas (ou séries temporais)- estes são os valores numéricos de um determinado indicador estatístico em sucessivos momentos ou períodos de tempo (ou seja, organizados em ordem cronológica).

Os valores numéricos de um determinado indicador estatístico que compõe uma série de dinâmicas são chamados níveis de um número e geralmente é indicado pela letra y. Primeiro membro da série 1 chamado inicial ou linha de base, e o último s n - final. Os momentos ou períodos de tempo a que os níveis se referem são indicados por t.

As séries dinâmicas, via de regra, são apresentadas em forma de tabela ou gráfico, e uma escala de tempo é construída ao longo do eixo das abcissas t, e ao longo da ordenada - a escala dos níveis da série y.

Indicadores médios de uma série de dinâmicas

Cada série de dinâmicas pode ser considerada como um determinado conjunto n indicadores variáveis ​​no tempo que podem ser resumidos como médias. Esses indicadores generalizados (médios) são especialmente necessários ao comparar mudanças em um ou outro indicador em diferentes períodos, em diferentes países, etc.

Uma característica generalizada de uma série de dinâmicas pode ser, em primeiro lugar, nível médio de linha. O método de cálculo do nível médio depende se é uma série de momentos ou uma série de intervalo (período).

Quando intervalo série, seu nível médio é determinado pela fórmula de uma média aritmética simples dos níveis da série, ou seja,

=
Se disponível momento linha contendo n níveis ( y1, y2, …, yn) com intervalos iguais entre datas (pontos de tempo), então essa série pode ser facilmente convertida em uma série de valores médios. Ao mesmo tempo, o indicador (nível) no início de cada período é simultaneamente o indicador no final do período anterior. Em seguida, o valor médio do indicador para cada período (intervalo entre as datas) pode ser calculado como uma meia soma dos valores no no início e no final do período, ou seja, Como as . O número de tais médias será . Como mencionado anteriormente, para séries de médias, o nível médio é calculado a partir da média aritmética.

Portanto, podemos escrever:
.
Depois de converter o numerador, temos:
,

Onde Y1 e Yn- o primeiro e o último nível da série; Yi- níveis intermediários.

Essa média é conhecida nas estatísticas como média cronológica para a série de momentos. Ela recebeu esse nome da palavra "cronos" (tempo, lat.), pois é calculado a partir de indicadores que mudam ao longo do tempo.

Em caso de desigualdade intervalos entre datas, a média cronológica para a série de momentos pode ser calculada como a média aritmética dos valores médios dos níveis para cada par de momentos, ponderada pelas distâncias (intervalos de tempo) entre as datas, ou seja,
.
Nesse caso supõe-se que nos intervalos entre as datas os níveis assumiram valores diferentes, e somos de dois conhecidos ( yi e yi+1) determinamos as médias, a partir das quais calculamos a média geral para todo o período analisado.
Se for assumido que cada valor yi permanece inalterado até o próximo (e+ 1)- º momento, ou seja a data exata da mudança nos níveis é conhecida, então o cálculo pode ser realizado usando a fórmula da média aritmética ponderada:
,

onde é o tempo durante o qual o nível permaneceu inalterado.

Além do nível médio na série de dinâmicas, outros indicadores médios também são calculados - a variação média nos níveis da série (por métodos básicos e em cadeia), a taxa média de variação.

Mudança absoluta média da linha de baseé o quociente da última mudança absoluta básica dividido pelo número de mudanças. Aquilo é

Cadeia significa mudança absoluta níveis de uma série é o quociente de dividir a soma de todas as mudanças absolutas da cadeia pelo número de mudanças, ou seja,

Pelo sinal das mudanças absolutas médias, a natureza da mudança no fenômeno também é julgada em média: crescimento, declínio ou estabilidade.

Da regra para controlar as mudanças básicas e absolutas da cadeia, segue-se que as mudanças básicas e médias da cadeia devem ser iguais.

Juntamente com a variação absoluta média, a relativa média também é calculada usando os métodos básico e em cadeia.

Mudança Relativa Média da Linha de Baseé determinado pela fórmula:

Mudança relativa média em cadeiaé determinado pela fórmula:

Naturalmente, as variações relativas da média básica e da cadeia devem ser as mesmas e, comparando-as com o valor do critério de 1, chega-se a uma conclusão sobre a natureza da variação do fenômeno em média: crescimento, declínio ou estabilidade.
Ao subtrair 1 da variação relativa média da base ou da cadeia, o valor correspondente taxa média de variação, pelo signo do qual também se pode julgar a natureza da mudança no fenômeno em estudo, refletida por essa série de dinâmicas.

Flutuações sazonais e índices de sazonalidade.

As flutuações sazonais são flutuações intra-anuais estáveis.

O princípio básico de conseguir obter o máximo efeito é a maximização das receitas e a minimização dos custos. Ao estudar as flutuações sazonais, resolve-se o problema da equação máxima em cada nível do ano.

Ao estudar flutuações sazonais, duas tarefas inter-relacionadas são resolvidas:

1. Identificação das especificidades do desenvolvimento do fenómeno na dinâmica intra-anual;

2. Medição das flutuações sazonais com a construção de um modelo de ondas sazonais;

Os perus sazonais são geralmente contados para medir a sazonalidade. Em linhas gerais, são determinadas pela razão entre as equações originais de uma série de dinâmicas e as equações teóricas que servem de base de comparação.

Como os desvios aleatórios são sobrepostos às flutuações sazonais, os índices de sazonalidade são calculados para eliminá-los.

Nesse caso, para cada período do ciclo anual, são determinados indicadores generalizados na forma de índices sazonais médios:

Os índices médios de flutuações sazonais estão livres da influência de desvios aleatórios da principal tendência de desenvolvimento.

Dependendo da natureza da tendência, a fórmula para o índice de sazonalidade médio pode assumir as seguintes formas:

1.Para séries de dinâmicas intra-anuais com tendência de desenvolvimento principal pronunciada:

2. Para as séries de dinâmicas intra-anuais em que não há tendência ascendente ou descendente, ou é insignificante:

Onde está a média geral;

Métodos de análise da tendência principal.

O desenvolvimento dos fenômenos ao longo do tempo é influenciado por fatores de natureza e força de influência diferentes. Alguns deles são de natureza aleatória, outros têm um efeito quase constante e formam uma certa tendência de desenvolvimento na série de dinâmicas.

Uma tarefa importante da estatística é identificar uma tendência na série de dinâmicas, livre da ação de vários fatores aleatórios. Para isso, as séries temporais são processadas pelos métodos de alargamento de intervalo, média móvel e alinhamento analítico, etc.

Método de engrossamento de intervalo baseia-se na ampliação dos períodos de tempo, que incluem os níveis de uma série de dinâmicas, ou seja, é a substituição de dados relativos a pequenos períodos de tempo por dados de períodos maiores. É especialmente eficaz quando os níveis iniciais da série são por curtos períodos de tempo. Por exemplo, séries de indicadores relacionados a eventos diários são substituídas por séries relacionadas a eventos semanais, mensais, etc. Isso mostrará mais claramente "Eixo de Desenvolvimento do Fenômeno". A média, calculada com base em intervalos alargados, permite identificar a direcção e o carácter (aceleração ou desaceleração do crescimento) da principal tendência de desenvolvimento.

método de média móvel semelhante ao anterior, mas neste caso, os níveis reais são substituídos por níveis médios calculados para intervalos ampliados sucessivamente móveis (deslizantes) cobrindo m níveis de linha.

Por exemplo se aceito m=3, então, primeiro, a média dos três primeiros níveis da série é calculada, depois - a partir do mesmo número de níveis, mas a partir do segundo consecutivo, depois - a partir do terceiro, etc. Assim, a média, por assim dizer, "desliza" ao longo da série de dinâmicas, movendo-se por um período. Calculado a partir de m os membros das médias móveis referem-se ao meio (centro) de cada intervalo.

Este método elimina apenas flutuações aleatórias. Se a série tiver uma onda sazonal, ela permanecerá após a suavização pelo método da média móvel.

Alinhamento analítico. Para eliminar flutuações aleatórias e identificar uma tendência, os níveis das séries são alinhados de acordo com fórmulas analíticas (ou alinhamento analítico). Sua essência é substituir os níveis empíricos (reais) pelos teóricos, que são calculados de acordo com uma determinada equação, tomada como modelo matemático da tendência, onde os níveis teóricos são considerados em função do tempo: . Neste caso, cada nível real é considerado como a soma de dois componentes: , onde é um componente sistemático e expresso por uma determinada equação, e é uma variável aleatória que causa flutuações em torno da tendência.

A tarefa do alinhamento analítico é a seguinte:

1. Determinar com base em dados reais o tipo de função hipotética que pode refletir mais adequadamente a tendência de evolução do indicador em estudo.

2. Encontrando os parâmetros da função especificada (equação) a partir de dados empíricos

3. Cálculo de acordo com a equação encontrada de níveis teóricos (nivelados).

A escolha de uma determinada função é realizada, via de regra, com base em uma representação gráfica de dados empíricos.

Os modelos são equações de regressão, cujos parâmetros são calculados pelo método dos mínimos quadrados

Abaixo estão as equações de regressão mais comumente usadas para nivelar séries temporais, indicando quais tendências de desenvolvimento elas são mais adequadas para refletir.

Para encontrar os parâmetros das equações acima, existem algoritmos especiais e programas de computador. Em particular, para encontrar os parâmetros da equação de uma linha reta, o seguinte algoritmo pode ser usado:

Se os períodos ou momentos de tempo forem numerados de modo que St = 0 seja obtido, os algoritmos acima serão significativamente simplificados e se transformarão em

Os níveis alinhados no gráfico estarão localizados em uma linha reta passando na distância mais próxima dos níveis reais desta série dinâmica. A soma dos desvios quadrados é um reflexo da influência de fatores aleatórios.

Com sua ajuda, calculamos o erro médio (padrão) da equação:

Aqui n é o número de observações e m é o número de parâmetros na equação (temos dois deles - b 1 e b 0).

A tendência principal (tendência) mostra como os fatores sistemáticos afetam os níveis da série temporal, e a flutuação dos níveis em torno da tendência () serve como medida do impacto dos fatores residuais.

Para avaliar a qualidade do modelo de série temporal utilizado, também é utilizado Teste F de Fisher. É a razão de duas variâncias, ou seja, a razão da variância causada pela regressão, ou seja, fator estudado, à dispersão causada por causas aleatórias, ou seja, variação residual:

Na forma expandida, a fórmula para este critério pode ser representada da seguinte forma:

onde n é o número de observações, ou seja. número de níveis de linha,

m é o número de parâmetros na equação, y é o nível real da série,

Nível alinhado da linha, - o nível médio da linha.

Mais bem-sucedido do que outros, o modelo pode nem sempre ser suficientemente satisfatório. Ele pode ser reconhecido como tal somente se o critério F para ele cruzar um certo limite crítico. Esse limite é definido usando tabelas de distribuição F.

Essência e classificação de índices.

Um índice em estatística é entendido como um indicador relativo que caracteriza a mudança na magnitude de um fenômeno no tempo, no espaço ou em comparação com qualquer padrão.

O elemento principal da relação de índice é o valor indexado. Entende-se por valor indexado o valor de um sinal de uma população estatística, cuja mudança é objeto de estudo.

Os índices servem a três propósitos principais:

1) avaliação de mudanças em um fenômeno complexo;

2) determinação da influência de fatores individuais na mudança de um fenômeno complexo;

3) comparação da magnitude de algum fenômeno com a magnitude do período passado, a magnitude de outro território, bem como com padrões, planos, previsões.

Os índices são classificados de acordo com 3 critérios:

2) pelo grau de cobertura dos elementos da população;

3) por métodos de cálculo de índices gerais.

Por conteúdo de valores indexados, os índices são divididos em índices de indicadores quantitativos (volumétricos) e índices de indicadores qualitativos. Índices de indicadores quantitativos - índices de volume físico de produção industrial, volume físico de vendas, número, etc. Índices de indicadores qualitativos - índices de preços, custos, produtividade do trabalho, salários médios, etc.

De acordo com o grau de cobertura das unidades da população, os índices são divididos em duas classes: individual e geral. Para caracterizá-los, introduzimos as seguintes convenções adotadas na prática de aplicação do método do índice:

q- quantidade (volume) de qualquer produto em espécie ; R- preço unitário de produção; z- custo unitário de produção; t- tempo gasto na produção de uma unidade de produto (intensidade de trabalho) ; W- produção em termos de valor por unidade de tempo; v- saída em termos físicos por unidade de tempo; T- tempo total gasto ou número de funcionários.

Para distinguir a qual período ou objeto os valores indexados pertencem, costuma-se colocar subscritos após o símbolo correspondente no canto inferior direito. Assim, por exemplo, nos índices de dinâmica, como regra, para os períodos comparados (corrente, reportado), o subscrito 1 é usado e para os períodos com os quais a comparação é feita,

Índices individuais servem para caracterizar a mudança em elementos individuais de um fenômeno complexo (por exemplo, uma mudança no volume de produção de um tipo de produto). Eles representam os valores relativos de dinâmica, cumprimento de obrigações, comparação de valores indexados.

O índice individual do volume físico de produção é determinado

Do ponto de vista analítico, os índices dinâmicos individuais dados são semelhantes aos coeficientes (taxas) de crescimento e caracterizam a variação do valor indexado no período atual em relação ao período base, ou seja, mostram quantas vezes ele aumentou (diminuiu ) ou quantos por cento é o crescimento (diminuição). Os valores do índice são expressos em coeficientes ou porcentagens.

Índice geral (composto) reflete a mudança em todos os elementos de um fenômeno complexo.

Índice agregadoé a forma básica do índice. É chamado de agregado porque seu numerador e denominador são um conjunto de "agregados"

Índices médios, sua definição.

Além dos índices agregados, outra forma deles é usada nas estatísticas - índices de média ponderada. Recorre-se ao seu cálculo quando a informação disponível não permite calcular o índice agregado geral. Portanto, se não houver dados sobre preços, mas houver informações sobre o custo dos produtos no período atual e forem conhecidos os índices de preços individuais para cada produto, o índice geral de preços não poderá ser determinado como agregado, mas é possível para calculá-lo como uma média dos individuais. Da mesma forma, se as quantidades de produtos individuais produzidos não são conhecidas, mas os índices individuais e o custo de produção do período base são conhecidos, então o índice geral do volume físico de produção pode ser determinado como uma média ponderada.

Índice médio - isto é um índice calculado como uma média de índices individuais. O índice agregado é a forma básica do índice geral, portanto, o índice médio deve ser idêntico ao índice agregado. Ao calcular índices médios, duas formas de médias são usadas: aritmética e harmônica.

O índice de média aritmética é idêntico ao índice agregado se os pesos dos índices individuais forem os termos do denominador do índice agregado. Somente neste caso o valor do índice calculado pela fórmula da média aritmética será igual ao índice agregado.

Ao testar estatísticas de hipóteses, ao medir uma relação linear entre variáveis ​​aleatórias.

Desvio padrão:

Desvio padrão(uma estimativa do desvio padrão da variável aleatória Piso, paredes ao nosso redor e teto, x em relação à sua expectativa matemática com base em uma estimativa imparcial de sua variância):

onde - variância; - O chão, as paredes à nossa volta e o teto, eu-ésimo elemento de amostra; - tamanho da amostra; - média aritmética da amostra:

Deve-se notar que ambas as estimativas são tendenciosas. No caso geral, é impossível construir uma estimativa imparcial. No entanto, uma estimativa baseada em uma estimativa de variância imparcial é consistente.

regra de três sigma

regra de três sigma() - quase todos os valores de uma variável aleatória normalmente distribuída estão no intervalo. Mais estritamente - com não menos de 99,7% de certeza, o valor de uma variável aleatória normalmente distribuída está no intervalo especificado (desde que o valor seja verdadeiro e não obtido como resultado do processamento da amostra).

Se o verdadeiro valor é desconhecido, então você não deve usar, mas o chão, as paredes ao nosso redor e o teto, s. Assim, a regra de três sigma se traduz na regra de três Piso, paredes ao nosso redor e o teto, s .

Interpretação do valor do desvio padrão

Um grande valor do desvio padrão mostra uma grande dispersão de valores no conjunto apresentado com o valor médio do conjunto; um valor pequeno, respectivamente, indica que os valores do conjunto estão agrupados em torno do valor médio.

Por exemplo, temos três conjuntos de números: (0, 0, 14, 14), (0, 6, 8, 14) e (6, 6, 8, 8). Todos os três conjuntos têm valores médios de 7 e desvios padrão de 7, 5 e 1, respectivamente. O último conjunto tem um pequeno desvio padrão porque os valores do conjunto estão agrupados em torno da média; o primeiro conjunto tem o maior valor do desvio padrão - os valores dentro do conjunto divergem fortemente do valor médio.

Em um sentido geral, o desvio padrão pode ser considerado uma medida de incerteza. Por exemplo, em física, o desvio padrão é usado para determinar o erro de uma série de medidas sucessivas de alguma quantidade. Este valor é muito importante para determinar a plausibilidade do fenômeno em estudo em comparação com o valor previsto pela teoria: se o valor médio das medições difere muito dos valores previstos pela teoria (grande desvio padrão), então o valores obtidos ou o método de obtê-los deve ser verificado novamente.

Uso pratico

Na prática, o desvio padrão permite determinar o quanto os valores no conjunto podem diferir do valor médio.

Clima

Suponha que existam duas cidades com a mesma temperatura máxima média diária, mas uma localizada no litoral e a outra no interior. As cidades costeiras são conhecidas por terem muitas temperaturas máximas diárias menores do que as cidades do interior. Portanto, o desvio padrão das temperaturas máximas diárias na cidade litorânea será menor do que na segunda cidade, apesar de o valor médio desse valor ser o mesmo para elas, o que na prática significa que a probabilidade de que a temperatura máxima do ar temperatura de cada dia particular do ano será mais forte diferente do valor médio, maior para uma cidade localizada dentro do continente.

Esporte

Vamos supor que existam vários times de futebol que são classificados de acordo com algum conjunto de parâmetros, por exemplo, o número de gols marcados e sofridos, chances de gol, etc. É mais provável que o melhor time deste grupo tenha o melhor valores em mais parâmetros. Quanto menor o desvio padrão da equipe para cada um dos parâmetros apresentados, mais previsível é o resultado da equipe, tais equipes são equilibradas. Por outro lado, uma equipe com grande desvio padrão tem dificuldade em prever o resultado, o que por sua vez é explicado por um desequilíbrio, por exemplo, uma defesa forte mas um ataque fraco.

A utilização do desvio padrão dos parâmetros da equipe permite prever até certo ponto o resultado da partida entre duas equipes, avaliando os pontos fortes e fracos das equipes e, consequentemente, os métodos de luta escolhidos.

Análise técnica

Veja também

Literatura

* Borovikov, V. ESTATISTICAS. A arte da análise de dados de computador: Para profissionais / V. Borovikov. - São Petersburgo. : Pedro, 2003. - 688 p. - ISBN 5-272-00078-1.