A série de variação é chamada. Definir uma série variacional

Série variacional, seus elementos.

Um pesquisador interessado na categoria tarifária dos trabalhadores mecânicos
loja, realizou uma pesquisa com 100 trabalhadores. Localize os valores observados
prêmio-naka em ordem crescente. Esta operação é chamada de classificação
dados tísticos. Como resultado, obtemos a seguinte série, que chama-
Xia classificado:

1,1,..1, 2,2..2, 3,3,..3, 4,4,..4, 5,5,..5, 6,6,..6.

Resulta da série ordenada que a característica estudada (tarifário
dígito) assumiu seis valores diferentes: 1, 2, 3, 4, 5 e 6.

Avançar vários significados prêmio-naka será chamado opção-
mi,
e abaixo variação - entender a mudança nos valores do atributo.

Dependendo dos valores assumidos pelo signo, os signos são divididos
sobre variando discretamente e variando continuamente.

A categoria tarifária é uma característica que varia discretamente. Número, impressões-
quantas vezes a variante x ocorre em uma série de observações é chamado hora-
brinquedo
opção m x .

Em vez da frequência da variante x, pode-se considerar sua relação com o geral
número de observações n, que é chamado muitas vezes variante e sua relação designação-começa w x .

w x =m x /n=m x /åm x

Uma tabela que permite julgar a distribuição de frequências (ou frequências) entre as opções é chamada séries de variações discretas.

Junto com o conceito de frequência, o conceito é usado frequência acumulada,
que é denotado t x acc. A hora acumulada mostra quantos
observações, o sinal assumiu valores menores que o valor dado x. Relativo
frequência acumulada para número total n observações são chamadas acumulado-
frequência
e denotar w x nac. é obvio que



w x nac =m x nac /n=m x nac /åm x .

Frequências acumuladas (frequências_ para uma série de variação discreta, calculada na tabela a seguir:

x m x m x nak w x nac
0+4=4 0,04
4+6=10 0,10
10+12=22 0,22
22+16=38 0,38
38+44=82 0,82
82+18=100 1,00
acima de 6

Seja necessário investigar a produção por trabalhador - um operador de máquina de uma oficina mecânica no ano de referência como uma porcentagem de ano anterior. Aqui, o recurso estudado x é a produção no ano de referência como uma porcentagem do ano anterior. Este é um sinal continuamente variável. Para identificar traços característicos As variações nos valores do atributo serão combinadas em grupos de trabalhadores cuja produção varie em 10%. Apresentaremos os dados agrupados na tabela:

Pesquisar Funcionalidade x Número de trabalhadores m Participação de trabalhadores w Acumulado frequência m x acc w x nac
80-90 8/117 8/117
90-100 15/117 8+15=23 23/117
100-110 46/117 23+46=69 69/117
110-120 29/117 69+29=98 98/117
120-130 13/117 98+13=111 111/117
130-140 3/117 111+3=114 114/117
140-150 3/117 114+3=117 117/117
å

Na tabela de frequência, m mostra quantas observações o recurso teve valores, pertencente a isso ou outro intervalo. Essa frequência é chamada intervalo, e sua razão para o número total de observações é frequência de intervalo w. Uma tabela que permite julgar a distribuição de frequências entre os intervalos de variação nos valores de um recurso é chamada série de variações intervalares.

A série de variação intervalar é construída de acordo com dados observacionais para
característica de variação descontínua, bem como discretamente variando, se
um grande número de opções observadas. Uma série variacional discreta é construída
apenas para um recurso de variável discreta

Às vezes, a série de variação do intervalo é substituída condicionalmente por uma discreta.
Então o valor do meio do intervalo é tomado como a opção x e, consequentemente,
frequência de intervalo - para tx.

Para determinar o intervalo constante ideal h é freqüentemente usado Fórmula de Sturgess:

h=(x máx – x min)/(1+3.322*lg n).

Construção de int.var.series

As frequências m mostram quantas observações o traço assumiu em valores pertencentes a um determinado intervalo. Tal frequência é chamada de frequência de intervalo, e sua razão para o número total de observações é a frequência de intervalo w. Uma tabela que permite julgar a distribuição de frequências (ou frequências) entre os intervalos de variação nos valores de um recurso é chamada de série de variação de intervalo.

Uma série variacional intervalar é construída de acordo com dados observacionais para uma característica variando continuamente, bem como para uma variando discretamente, se o número de variantes observadas for grande. Uma série variacional discreta é construída apenas para uma característica discretamente variável.

Às vezes, a série de variação do intervalo é substituída condicionalmente por uma discreta. Em seguida, o valor médio do intervalo é considerado como a variante x e a frequência do intervalo correspondente é considerada como mx

Para construir uma série de variação de intervalo, é necessário determinar o valor do intervalo, definir escala completa intervalos e, de acordo com ele, agrupar os resultados das observações.

Para determinar o intervalo constante ótimo h, a fórmula de Sturgess é frequentemente usada:

h = (xmax - xmin) /(1+ 3,322 log n) .

onde xmax xmin são as opções de máximo e mínimo, respectivamente. Se, como resultado dos cálculos, h for um número fracionário, o inteiro mais próximo ou a fração simples mais próxima deve ser considerado como o valor do intervalo.

Recomenda-se tomar o valor a1=xmin-h/2 como início do primeiro intervalo; o início do segundo intervalo coincide com o final do primeiro e é igual a a2=a1 +h; o início do terceiro intervalo coincide com o final do segundo e é igual a a3=a2 + h. A construção de intervalos continua até o início do próximo intervalo para que não seja maior que xmax. Após estabelecer a escala de intervalos, os resultados das observações devem ser agrupados.

5) O conceito, formas de expressão e tipos de indicadores estatísticos.

estatísticaé uma característica quantitativa dos fenômenos e processos socioeconômicos em termos de certeza qualitativa. A certeza qualitativa do indicador reside no fato de estar diretamente relacionado com conteúdo interno o fenômeno ou processo que está sendo estudado, sua essência.

Sistema de indicadores estatísticosé um conjunto de indicadores inter-relacionados que possui uma estrutura de nível único ou multinível e visa resolver um problema estatístico específico.

Ao contrário de um sinal, um indicador estatístico é obtido por cálculo. Isso pode ser uma simples contagem de unidades populacionais, a soma de seus valores de atributo, uma comparação de 2 ou mais valores ou cálculos mais complexos.

É feita uma distinção entre um indicador estatístico específico e uma categoria de indicador.

Estatística específica caracteriza o tamanho, magnitude do fenômeno ou processo que está sendo estudado em um determinado local e em Tempo dado. No entanto, em trabalhos teóricos e na fase de desenho da observação estatística, operam também com indicadores absolutos ou categorias de indicadores.

Indicadores de categoria refletem a essência, geral propriedades distintivas indicadores estatísticos específicos do mesmo tipo sem especificar o local, hora e valor numérico. Todos os indicadores estatísticos são divididos de acordo com a cobertura das unidades populacionais em individuais e gratuitas, e de acordo com a forma - em absoluto, relativo e médio.

Indicadores individuais caracterizar um objeto separado ou uma unidade separada da população - uma empresa, uma empresa, um banco, etc. Um exemplo é o número de pessoal industrial e de produção de uma empresa. Com base na correlação de dois indicadores absolutos individuais que caracterizam o mesmo objeto ou unidade, obtém-se um indicador relativo individual.

Indicadores de resumo ao contrário dos individuais, eles caracterizam um grupo de unidades, que é uma parte da população estatística ou toda a população como um todo. Esses indicadores são divididos em volumétricos e calculados.

Indicadores de volume são obtidos somando os valores do atributo de unidades individuais da população. O valor resultante, chamado de volume do atributo, pode atuar como um indicador de volume absoluto e pode ser comparado com outro valor absoluto de volume ou o volume da população. Nos últimos 2 casos, são obtidas médias relativas e volumétricas volumétricas.

Indicadores estimados, calculados por várias fórmulas, servem para resolver tarefas estatísticas análise - medição de variação, características de mudanças estruturais, avaliação da relação, etc. Eles também são divididos em absolutos, relativos ou médios.

Este grupo inclui índices, coeficientes de proximidade, erros de amostragem e outros indicadores.

A cobertura das unidades populacionais e a forma de expressão são as principais, mas não as únicas características de classificação dos indicadores estatísticos. importante recurso de classificação também é um fator de tempo. Os processos e fenômenos socioeconômicos são refletidos em indicadores estatísticos ou a partir de um certo momento tempo, geralmente determinada data, início ou fim de um mês, ano ou certo período- dia, semana, mês, trimestre, ano. No primeiro caso, os indicadores são momentâneo, no segundo - intervalo.

Dependendo de pertencer a um ou dois objetos de estudo, existem único objeto E indicadores interobjetos. Se as primeiras caracterizam apenas um objeto, as últimas são obtidas comparando duas quantidades relacionadas a objetos diferentes.

Do ponto de vista da certeza espacial, os indicadores estatísticos são divididos em todo-territorial caracterizando o objeto ou fenômeno estudado em todo o país, regionais e locais relativas a qualquer parte do território ou a um objeto separado.

6) Tipos e relação de indicadores relativos.

indicador relativo é o resultado da divisão de um indicador absoluto por outro e expressa a razão entre características quantitativas processos e fenómenos socioeconómicos. Portanto, em relação indicadores absolutos indicadores relativos ou indicadores na forma valores relativos são derivados.

Ao calcular um indicador relativo, o indicador absoluto que está no numerador da razão resultante é chamado atual ou comparável. O indicador com o qual a comparação é feita e que está no denominador é chamado de base ou base de comparação. Os indicadores relativos podem ser expressos como porcentagens, ppm, proporções ou podem ser nomeados como números.

Todos os indicadores relativos usados ​​na prática são divididos em:

dinâmica; plano; implementação do plano; estruturas; coordenação; Intensidade e nível de desenvolvimento do eco-go; comparações.

Indicador relativo de dinâmica pré-é a razão entre o nível do processo ou fenômeno em estudo por um determinado período de tempo e o nível do mesmo processo ou fenômeno no passado.

OPD = indicador atual / anterior. Ou linha de base.

O valor calculado desta forma mostra quantas vezes nível atual excede o anterior ou qual é a proporção do último. Se este indicador for expresso como uma razão múltipla, é chamado fator de crescimento, quando este coeficiente é multiplicado por 100%, obtemos taxa de crescimento.

Índice de estrutura relativa representa a relação entre as partes estruturais do objeto em estudo e seu todo. O indicador relativo da estrutura é expresso em frações de uma unidade ou em porcentagem. Os valores calculados \u200b\u200b(d i), respectivamente chamados de ações ou gravidade específica, mostram qual ação possui ou qual Gravidade Específica tem a i-ésima parte no total.

Indicadores relativos de coordenação caracterizam a proporção de partes individuais do todo entre si. Ao mesmo tempo, a parte que tem maior participação ou é prioritária do ponto de vista econômico, social ou qualquer outro é selecionada como base de comparação. O resultado é quantas unidades de cada peça estrutural correspondem a 1 unidade da peça estrutural básica.

Indicador de intensidade relativa caracteriza o grau de distribuição do processo ou fenômeno em estudo em seu ambiente inerente. Este indicador é calculado quando valor absoluto acaba por ser insuficiente para formular conclusões razoáveis ​​sobre a escala do fenômeno, seu tamanho, saturação e densidade de distribuição. Pode ser expresso como uma porcentagem, ppm ou ser um valor nomeado. Uma variedade de indicadores relativos de intensidade são indicadores relativos do nível de desenvolvimento ecológico, caracterizando a produção per capita e jogando papel importante na avaliação do desenvolvimento da economia do estado. Em termos de forma de expressão, estes indicadores aproximam-se dos indicadores médios, o que muitas vezes leva à sua confusão ou identificação. A diferença entre eles reside apenas no fato de que, ao calcular a média, estamos lidando com um conjunto de unidades, cada uma das quais portadora de um recurso médio.

Índice de Comparação Relativaé a proporção dos indicadores absolutos do mesmo nome caracterizando objetos diferentes(empresas, empresas, regiões, distritos, etc.)

indicadores de variação

O estudo da variação (mudança nos valores de uma característica dentro da população) tem grande importância em estatística e pesquisa social e econômica em geral. Os indicadores de variação absolutos e relativos, que caracterizam a flutuação dos valores de um atributo variável, permitem, nomeadamente, medir o grau de ligação e relação, avaliar o grau de homogeneidade da população, a tipicidade e estabilidade da média, e determinar a magnitude do possível erro de observação da amostra.

Os indicadores absolutos de variação incluem o intervalo de variação, a média desvio linear, variância, média desvio padrão e desvio trimestral.

A faixa de variação mostra o quanto o valor de um atributo que varia quantitativamente muda

R=xmax-xmin, onde xmax(xmin) é o valor máximo (mínimo) do atributo no agregado (na série de distribuição).

O desvio linear médio d é definido como valor médio dos desvios das opções de traço da média no primeiro grau, tomadas pelo módulo:

O desvio linear médio é relativamente raramente usado para avaliar a variação de uma característica. Normalmente, a variância e o desvio padrão são calculados.

Se for necessário comparar a flutuação de vários recursos em um conjunto ou o mesmo recurso em vários conjuntos com vários indicadores centro de distribuição, então use os indicadores relativos de variação.

Estes incluem os seguintes indicadores:

1. Coeficiente de oscilação:

2. Desvio linear relativo:

3. Coeficiente de variação:

4. Indicador relativo de variação quartil:

A medida de variação relativa mais comumente usada é o coeficiente de variação. Este indicador é utilizado não só para uma avaliação comparativa da variação, mas também como uma característica da homogeneidade da população. O conjunto é considerado homogêneo se<0,33.

Formulários.

1. Estat. o relatório é uma forma organizacional na qual as unidades de observáveis ​​fornecem informações sobre suas atividades na forma de formulários, um aparato regulador.

A peculiaridade do relatório é que é obrigatoriamente justificado, obrigatório na execução e legalmente confirmado pela assinatura do chefe ou responsável.

2. A observação especialmente organizada é o exemplo mais notável e simples dessa forma de observação. Censo. O censo geralmente é realizado em intervalos regulares, simultaneamente em toda a área de estudo ao mesmo tempo.

Os órgãos estatísticos russos realizam censos da população de certos tipos de assentamentos e organizações, recursos materiais, plantações perenes, objetos de construção da NZ, etc.

4. Forma de registo da observação - baseada na manutenção do registo estatístico. No registro cada unidade obl-I har-Xia número de indicadores. Na prática estatística doméstica, os registradores mais usados ​​são os registradores us-I e p/p.

Cadastro da população - realizado pelo cartório

Registro p / p - USREO lead.org. Estatisticas.

Tipos

podem ser divididos em grupos de acordo com o seguinte. apresentou:

a) no ato da inscrição

b) em termos de cobertura de unidades de custo-ti

Por tempo reg. eles são:

Atual (contínuo)

Descontínuo (periódico e único)

No atual obs. as mudanças nos fenômenos e processos são registradas à medida que são recebidas (registro de nascimento, morte, casamento, divórcio, etc.)

periódico obs. realizado através do intervalos (N censo a cada 10 anos)

Um tempo obs. realizada irregularmente ou apenas uma vez (referendo)

Por escopo cos.stat. obl. há:

sólido

descontínuo

Observação contínua. é uma pesquisa de todas as unidades de cos

Observação não contínua assume que apenas parte da pesquisa está sujeita a manutenção.

Existem vários tipos de observação descontínua:

método principal variedade

Seletivo (auto)

monográfico

Esse método é x-Xia porque, via de regra, são selecionadas mais criaturas, geralmente as maiores unidades. corujas em um gato. meio significa. parte de todos os sinais observáveis.

Com observação monográfica, cuidadosa an. estão sujeitos a unidades estude oh corujas ou m.b. ou típico para estas unidades cov-ti. ou representam algumas novas variedades de fenômenos.

Obs. realizados a fim de identificar ou tendências emergentes no desenvolvimento este fenômeno.

Caminhos

Observação direta

Documentário observ.

Chamado diretamente. tal observável com um gato os próprios registradores, por meio de medição direta, cálculo, contenção, estabelecem o fato objeto de registro e, com base nisso, fazem uma entrada no formulário.

Método documental obl. com base no uso de vários documentos como fontes de informação, como regra de contabilidade x-ra (ou seja, relatórios estatísticos)

A enquete é um método de persuasão com um gato. a informação necessária é obtida das palavras do entrevistado (ou seja, o entrevistado) (oral, correspondente, questionário, privado, etc.)

Determinação dos erros amostrais.

No processo de observação amostral, distinguem-se dois tipos de erros: registo e representatividade.

Erros de registro - desvios entre o valor do indicador obtido durante a observação estatística e o seu valor real. Esses erros podem aparecer durante a observação contínua e não contínua. Erros de registro ocorrem devido a informações incorretas ou imprecisas. As fontes desse tipo de erro podem ser um mal-entendido sobre a essência do problema, a desatenção do registrador, a omissão ou contagem repetida de unidades individuais de observação. Os erros de registro são divididos em sistemático devido a causas agindo em uma direção e suavizando os resultados do exame (arredondamento de números), e aleatório, que são o resultado da ação de vários fatores aleatórios (rearranjo de dígitos adjacentes). Os erros aleatórios têm direções diferentes e, com um volume suficientemente grande da população pesquisada, se anulam.

erros de representatividade - desvios dos valores do indicador da população pesquisada em relação ao seu valor na população inicial. Esses erros também são divididos em sistemático, aparecendo como resultado da violação dos princípios de seleção de unidades a serem observadas a partir da população inicial, e aleatório que surgem se a população selecionada reproduz incompletamente toda a população como um todo. A quantidade de erro aleatório pode ser estimada.

Erro de amostragem- a diferença entre o valor do atributo na população geral e seu valor calculado a partir dos resultados da observação seletiva. Na prática de pesquisas por amostragem, os erros médios e marginais de amostragem são determinados com mais frequência.

O erro médio de amostragem para diferentes métodos de seleção é calculado de forma diferente. Se for seleção aleatória ou mecânica, então

Para a média: m \u003d s 2 / (n) 1/2

Para fração: m = (w(1-w)/n) 1/ 2 , onde

m - erro médio de amostragem

s 2 - dispersão geral

n - volume quadro de amostragem

Se o conjunto amostral for formado com base em uma amostra típica e a seleção das unidades for realizada proporcionalmente ao volume de grupos típicos, então o erro médio é igual a:

Para o meio: m = (s i 2 / n) 1/2

Para compartilhar: m = (w i (1-w i) / n) 1/2 , Onde

s i 2 - a média das variâncias intragrupo

w i é a proporção de unidades em todo o grupo que possuem a característica em estudo.

s i 2 = ås 2 n i / ån i

O erro médio da amostragem serial é igual a:

Para o meio: m = (d x 2 / r) 1/2

Para compartilhar: m = (d 2 p/r) 1/2

d 2 w - variância intergrupo de participação

d x 2 - dispersão intergrupo de um traço quantitativo.

r é o número de séries selecionadas/

d 2 x \u003d å (x i -x) 2 / r

d 2 w \u003d å (w i - w) 2 / r

Se a seleção de unidades da população geral for realizada de forma não repetitiva, então é feita uma alteração nas fórmulas de erro médio: (1-n/N) 1/2

Erro de amostragem marginal D é calculado como o produto do fator de confiança t e o erro médio de amostragem: D = t*m. D está relacionado com o nível de probabilidade que o garante. Este nível determina o fator de confiança t, e vice-versa. Os valores de t são dados em tabelas matemáticas especiais.

Determinação do tamanho da amostra.

O tamanho da amostra é calculado, via de regra, na fase de desenho de uma pesquisa amostral. As fórmulas para determinar o tamanho da amostra seguem as fórmulas para os erros marginais de amostragem.

O volume de amostras repetidas aleatórias e mecânicas é determinado pelas fórmulas:

para médio n \u003d t 2 s 2 / D 2

Para compartilhar n \u003d t 2 w (1-w) / D 2

No caso de amostragem sem nova tentativa:

para médio n \u003d t 2 s 2 N / ND 2 + t 2 s 2

Para compartilhar n = t 2 w(1-w)N / ND 2 +t 2 w(1-w).

Os valores s 2 e c antes da observação aleatória são desconhecidos. Aproximadamente eles são encontrados assim:

1. retirado de pesquisas anteriores;

2. se os valores máximo e mínimo do atributo forem conhecidos, o desvio padrão é determinado de acordo com a regra dos “três sigma”:

s= xmax – xmin / 6

3. ao estudar um sinal alternativo, se não houver informações sobre sua participação na população em geral, o valor máximo possível w = 0,5 é considerado

Com seleção típica, proporcional ao tamanho dos grupos típicos, o tamanho da amostra para cada grupo é determinado pela fórmula : n i = n*N i / N, Onde

n eu- tamanho da amostra do i-ésimo grupo

N eu- o volume do i -ésimo grupo no gene-ésimo custo-ti.

Com uma amostra proporcional à variação da característica, o tamanho da amostra de cada grupo é encontrado da seguinte forma: n i = nN i s i /åN i s i .

Com uma reamostragem típica proporcional ao tamanho dos grupos, o tamanho total da amostra é encontrado da seguinte forma:

para médio n \u003d t 2 s 2 i / D 2

Para compartilhar n \u003d t 2 w (1-w) / D 2

No caso de amostragem típica não repetitiva:

para médio n = t 2 s 2 i N / D 2 N+t 2 s 2 i

Para compartilhar n = t 2 w(1-w)N / D 2 N+t 2 w(1-w)

Conceitos básicos e pré-requisitos para o uso de análise de correlação e regressão.

Correlaçãoé uma dependência estatística entre variáveis ​​aleatórias que não possuem caráter estritamente funcional, em que uma mudança em uma das variáveis ​​aleatórias leva a uma mudança na expectativa matemática do outro.

Análise de correlação- tem como tarefa a determinação quantitativa da proximidade da conexão entre dois signos e entre os signos efetivos e de muitos fatores. A estanqueidade da conexão é quantitativamente expressa pelo valor dos coeficientes de correlação.

Correlação-Regressão a análise como conceito geral inclui a medição da estanqueidade, a direção da comunicação e o estabelecimento de uma expressão analítica (forma) da comunicação (análise de regressão).

Análise de regressão consiste em determinar a expressão analítica da relação, na qual a mudança em um valor (chamado de traço dependente ou efetivo) se deve à influência de um ou mais valores independentes (fatores), e do conjunto de todos os outros fatores que também afetam o valor dependente, leva - labutas para valores constantes e médios. A regressão pode ser monofatorial (par) e multifatorial (múltipla).

O objetivo da análise de regressãoé uma avaliação da dependência funcional do valor médio condicional do atributo efetivo (Y) nos sinais fatoriais (x 1, x 2, ... x k).

A principal premissa da análise de regressãoé que apenas o sinal resultante (Y) obedece à lei de distribuição normal, e os sinais de fator x 1, x 2, ..., x k podem ter uma lei de distribuição arbitrária. Na análise de séries temporais, o tempo t atua como um sinal de fator. Ao mesmo tempo, na análise de regressão, a presença de relações causais entre os sinais efetivos (Y) fatoriais (x 1, x 2, ..., x k) é previamente implícita. A equação de regressão, ou modelo estatístico da relação dos fenômenos socioeconômicos, expressa pela função Y x \u003d f (x 1, x 2, ..., x k), é bastante adequada ao fenômeno ou processo real simulado se o seguinte for observado requisitos para sua construção.

1. A totalidade dos dados iniciais em estudo é homogênea e descrita matematicamente por funções contínuas.

2. A possibilidade de descrever o fenômeno simulado por uma ou mais equações de relações de causa e efeito.

3. Todos os sinais de fator devem ter uma expressão quantitativa (numérica).

4. A presença de um volume suficientemente grande da amostra em estudo.

5. As relações de causa e efeito entre fenômenos e processos devem ser descritas de forma linear ou linear de dependência.

6. Ausência de restrições quantitativas sobre os parâmetros do modelo de comunicação.

7. A constância da estrutura territorial e temporal da população estudada.

A validade teórica dos modelos de relacionamento construídos com base na análise de correlação e regressão é assegurada observando o seguinte condições básicas.

1. Todos os sinais e suas distribuições conjuntas devem obedecer à lei de distribuição normal;

2. A variância da característica modelada (Y) deve permanecer sempre constante ao alterar o valor (Y) e os valores das características dos fatores.

3. As observações separadas devem ser independentes, ou seja, os resultados obtidos na i-ésima observação não devem estar relacionados com as anteriores e conter informações sobre as observações subsequentes, bem como influenciá-las.

RESUMO OBJETIVOS E CONTEÚDO

a observação fornece informações sobre cada unidade do objeto em estudo. Os dados obtidos não são indicadores gerais. Com a ajuda deles, é impossível tirar conclusões sobre o objeto como um todo sem o processamento preliminar dos dados.

Portanto, o objetivo da próxima etapa da pesquisa estatística é sistematizar os dados primários e obter, com base nisso, uma característica resumida de todo o objeto com a ajuda de campos estatísticos generalizantes.

Resumo - um conjunto de operações sequenciais para generalizar fatos únicos específicos que formam um conjunto, para identificar características e padrões típicos inerentes ao fenômeno em estudo como um todo.

se durante a observação estatística forem coletados dados sobre cada unidade de um objeto, o resultado do resumo são dados detalhados que refletem toda a população como um todo

Um resumo estatístico deve ser realizado com base em uma análise teórica preliminar dos fenômenos e processos, para que durante o resumo as informações sobre o fenômeno em estudo não sejam perdidas e todos os resultados estatísticos reflitam as características mais importantes do objeto.

De acordo com a profundidade do processamento do material, o resumo pode ser simples e complexo.

Um resumo simples é a operação de cálculo dos totais para as mesmas unidades de observação.

Um resumo complexo é um conjunto de operações que inclui agrupar unidades de observação, contar os totais para cada grupo e para todo o objeto e apresentar os resultados do agrupamento e resumo na forma de tabelas estatísticas.

A síntese é precedida pelo desenvolvimento do seu programa, que consta das seguintes etapas: seleção das características do agrupamento; determinação da ordem de formação dos grupos; desenvolvimento de um sistema de pok-lei estatístico para caracterização de grupos e do objeto como um todo; desenvolvimento de um sistema de layouts de tabelas estatísticas em que os resultados do resumo devem ser apresentados.

De acordo com a forma de processamento do material, o resumo: descentralizado e centralizado.

Com um resumo descentralizado (é utilizado, em regra, no processamento de relatórios estatísticos), o desenvolvimento do material é realizado em etapas sucessivas. Assim, os relatórios das empresas são resumidos pelas autoridades estatísticas das entidades constituintes da Federação Russa, e os resultados da região já são enviados ao Comitê Estadual de Estatísticas da Rússia, onde determinam se a economia nacional do país como um todo está determinado.

Com um resumo centralizado, todo o material primário entra em uma organização, onde é processado do começo ao fim. O resumo centralizado geralmente é usado para processar materiais de pesquisas estatísticas únicas.

De acordo com a técnica de execução, o resumo estatístico é dividido em mecanizado e manual.

Resumo mecanizado - em que todas as operações são realizadas por meio de computadores eletrônicos. Com resumos manuais, todas as operações básicas (cálculo do grupo e totais totais) são realizadas manualmente.

Para realizar o resumo, é elaborado um plano que define questões organizacionais: por quem e quando serão realizadas todas as operações, o procedimento para realizá-las, a composição das informações a serem publicadas na imprensa periódica.

Fechando fileiras de din-ki

Ao analisar as linhas de din-ki, torna-se necessário fechá-las - combinar duas ou mais linhas em uma linha. O fechamento é necessário nos casos em que os níveis das séries são incomparáveis ​​por mudanças territoriais, por mudanças de preços e por mudanças na metodologia de cálculo dos níveis das séries. é necessário fechar (combinar) as duas linhas acima em uma. Isso pode ser feito usando o fator de comparabilidade. Multiplicando os dados do ano pelo coeficiente obtido, obtemos uma série fechada (comparável) de dinâmicas de valores absolutos , e após a mudança são considerados 100%, e o restante é recalculado como uma porcentagem relativa a esses níveis, respectivamente.

30. Linhas de alinhamento M-dy din-ki

Qualquer série de din-ki pode teoricamente ser representada como três componentes:

Tendência (a principal tendência e desenvolvimento da série dinâmica);

Flutuações cíclicas (periódicas), inclusive sazonais;

Flutuações aleatórias.

Uma das tarefas que surgem na análise de séries dinâmicas é estabelecer mudanças nos níveis do fenômeno em estudo. Em alguns casos, o padrão de mudanças nos níveis de uma série de din-ki é bastante claro, por exemplo, uma diminuição sistemática nos níveis de uma série ou seu aumento. às vezes os níveis da série sofrem uma variedade de mudanças (às vezes aumentam, às vezes diminuem). Neste caso, podemos apenas falar de uma tendência e desenvolvimento geral: ou para o crescimento ou para o declínio.

A identificação da tendência principal e o desenvolvimento (tendência) são chamados de alinhamento da série temporal e a identificação m-dy da tendência principal de nivelamento m-dy.

A seleção direta da tendência pode ser feita por três me-mi.

* Intervalos grosseiros Md. Este md baseia-se na ampliação das linhas do tempo, que incluem os níveis das séries. Por exemplo, uma linha de din-ki

a produção diária é substituída por uma série de projeções de produção mensal, e assim por diante.

* Md média móvel. Neste m-de, os níveis iniciais da série são substituídos por valores médios, que são obtidos a partir de um determinado nível e de vários outros simetricamente circundantes. O número inteiro de níveis sobre os quais o valor médio é calculado é chamado de intervalo de suavização. O intervalo de suavização pode ser ímpar (3, 5, 7, etc. pontos) ou par (2, 4, 6, etc. pontos). O cálculo das médias é feito pelo método deslizante, ou seja, excluindo gradativamente o primeiro nível do período deslizante aceito e incluindo o seguinte. Com a suavização ímpar, o valor médio aritmético resultante é atribuído ao meio do intervalo calculado.

A m-dika "-" de suavização por médias móveis consiste na convencionalidade de determinar níveis suavizados para pontos no início e no final da série.

* Alinhamento analítico - é a forma mais eficaz de identificar a principal tendência e evolução. Neste caso, os níveis de uma série de dinâmicas são expressos em função do tempo: Yt=f(t)

O objetivo do alinhamento analítico da série din-ésima é determinar o analito-ésima fábrica f(t). Na prática, de acordo com as séries temporais disponíveis, define-se a forma e encontram-se os parâmetros da função f(t), analisando-se então o comportamento dos desvios da tendência.

Em economia, uma função da forma é frequentemente usada: Уi = а0 +∑ ai +ti

Das funções da forma (3.12), na maioria das vezes ao nivelar, é utilizado o sistema linear / (*) \u003d ao + a1 * t ou a parabólica f (t) \u003d a0 + att + a2 t2.

Os coeficientes ao,a,a2,...,ap são encontrados na fórmula por mínimos quadrados.

De acordo com este método, para encontrar os parâmetros do polinômio de grau p, é necessário resolver o sistema das chamadas equações normais:

nao+a1∑t=∑Y

ao∑t+ a1∑t*t= ∑Y*t.

A tendência mostra como fatores sistemáticos afetam os níveis do din-ki. A flutuação dos níveis em torno da tendência serve como uma medida do impacto dos fatores residuais (aleatórios). Esse impacto pode ser avaliado

de acordo com a fórmula do desvio padrão.

Conceitos básicos de análise de correlação-regressão.

Nome do parâmetro Significado
Assunto do artigo: série de variação
Rubrica (categoria temática) Produção

Valores observados de uma variável aleatória x 1 , x 2 , …, x k chamado opções.

Frequência opções x eu sou chamado de número n eu (eu=1,…,k) mostrando quantas vezes essa variante ocorre na amostra.

Frequência(frequência relativa, ações) opções XI (eu=1,…,k) é geralmente chamado de razão de sua frequência n eu para o tamanho da amostra n.

Frequências e frequências são chamadas escalas.

Frequência acumulada costuma-se chamar o número de opções cujos valores são menores que um determinado x:

Frequência acumulada Costuma-se chamar a razão da frequência acumulada para o tamanho da amostra:

série de variação(série estatística) - costuma-se chamar uma sequência de opções escritas em ordem crescente e seus respectivos pesos.

A série de variações deve ser discreto(amostra de valores de uma variável aleatória discreta) e contínuo (intervalo)(seleção de valores de uma variável aleatória contínua).

A série variacional discreta tem a forma:

Quando o número de opções é grande ou o recurso é contínuo (uma variável aleatória pode assumir qualquer valor em um determinado intervalo), eles são intervalo série de variação.

Para construir uma série de variação intervalar, execute agrupamento opção - eles são divididos em intervalos separados:

O número de intervalos às vezes é determinado usando Fórmulas de Sturges:

Em seguida, o número de variantes que se enquadram em cada intervalo é calculado - frequências n eu(ou frequência n eu/n). Se a variante estiver na borda do intervalo, ela será anexada ao intervalo correto.

A série variacional intervalar tem a forma:

Opções
Frequências

Função de distribuição empírica (estatística) costuma-se chamar uma função cujo valor no ponto xé igual à frequência relativa que a variante assumirá em um valor menor que x(frequência cumulativa para x):

Polígono de freqüênciaé chamada de polilinha cujos segmentos conectam pontos com coordenadas ( x 1 ; n 1), (x 2 ; n 2), …, (x k; nk). O polígono de freqüência, que é o análogo estatístico do polígono de distribuição.

Vale dizer que para uma série variacional contínua, um polígono pode ser construído se os valores x 1 , x 2 , …, x k tomar os pontos médios dos intervalos.

Uma série de variação de intervalo geralmente é representada graficamente usando histogramas.

gráfico de barras- uma figura escalonada que consiste em retângulos cujas bases são intervalos de comprimento parcial h= XI +1 – XI, eu= 0,…,k-1, e as alturas são iguais às frequências (ou frequências) dos intervalos n eu (com eu).

Acumular(curva cumulativa) - curva de frequências acumuladas (frequências). Para série discreta o cumulate é uma linha quebrada conectando os pontos ou , . Para série intervalar cumular começa a partir do ponto, cuja abcissa é igual ao início do primeiro intervalo, e a ordenada é a frequência acumulada (frequência) igual a zero. Outros pontos desta linha quebrada correspondem às extremidades dos intervalos.

Série de variação - conceito e tipos. Classificação e características da categoria "Série de variação" 2017, 2018.

  • - Séries de variação da distribuição

    Distribuição do faturamento do comércio varejista na Federação Russa em 1995 por tipo de propriedade, milhões de rublos Tipos de séries de distribuição Aula VIII. Séries de distribuição Como resultado do processamento e sistematização de dados estatísticos primários, eles obtêm ....


  • - série de variações

    A transformação mais simples de dados estatísticos é sua ordenação por magnitude. Tamanho da amostra da população geral, ordenado em ordem não decrescente de elementos, ou seja, , é chamada de série de variação: . No caso em que o volume de observações ... .


  • - Tarefa 2. Série de variação de intervalo

    1. Com base em uma dada amostra correspondente à variante da tarefa, construa uma série de variações intervalares; construa um histograma e acumule (use dois métodos: inserir um gráfico do Excel e o modo "Histograma" do pacote "Análise de Dados"). 2. Analise o histograma resultante. ... .


  • - Compilar uma série de variação da variabilidade da característica de sementes de feijão ou folhas de qualquer planta da mesma idade. Revelar padrões de variabilidade de características.

    Uma população é uma unidade estrutural de uma espécie. O número de populações. Causas das flutuações populacionais. A relação de indivíduos em populações e entre diferentes populações da mesma espécie e diferentes. 1. Uma característica importante de uma espécie é sua distribuição em grupos, populações em ...

  • Séries de variação: definição, tipos, características principais. Método de cálculo
    moda, mediana, média aritmética em estudos médicos e estatísticos
    (Mostre em um exemplo condicional).

    Uma série variacional é uma série de valores numéricos da característica em estudo, que diferem entre si em sua magnitude e estão localizados em determinada sequência(em ordem crescente ou decrescente). Cada valor numérico da série é chamado de variante (V), e os números que mostram com que frequência essa ou aquela variante ocorre na composição dessa série são chamados de frequência (p).

    O número total de casos de observações, dos quais consiste a série de variação, é denotado pela letra n. A diferença no significado das características estudadas é chamada de variação. Se o sinal da variável não tiver uma medida quantitativa, a variação é chamada de qualitativa e a série de distribuição é chamada de atributiva (por exemplo, distribuição por desfecho de doença, estado de saúde, etc.).

    Se um sinal variável tem uma expressão quantitativa, tal variação é chamada quantitativa, e a série de distribuição é chamada variacional.

    As séries variacionais são divididas em descontínuas e contínuas - de acordo com a natureza do traço quantitativo, simples e ponderadas - de acordo com a frequência de ocorrência da variante.

    Em uma série variacional simples, cada variante ocorre apenas uma vez (p=1), em uma ponderada, a mesma variante ocorre várias vezes (p>1). Exemplos de tais séries serão discutidos mais adiante no texto. Se atributo quantitativoé contínua, ou seja entre números inteiros existem intermediários quantidades fracionárias, a série variacional é chamada de contínua.

    Por exemplo: 10,0 - 11,9

    14,0 - 15,9, etc.

    Se o sinal quantitativo for descontínuo, ou seja, seus valores individuais (variantes) diferem entre si por um número inteiro e não possuem intermediários valores fracionários, a série variacional é chamada de descontínua ou discreta.

    Usando os dados do exemplo anterior sobre a frequência cardíaca

    para 21 alunos, construiremos uma série de variações (Tabela 1).

    tabela 1

    Distribuição dos estudantes de medicina por frequência de pulso (bpm)

    Assim, construir uma série variacional significa que os valores numéricos(opções) sistematizar, simplificar, ou seja, organizar em uma determinada sequência (em ordem crescente ou decrescente) com suas frequências correspondentes. No exemplo em consideração, as opções são dispostas em ordem crescente e são expressas como inteiros descontínuos (discretos), cada opção ocorre várias vezes, ou seja, estamos lidando com uma série variacional ponderada, descontínua ou discreta.

    Via de regra, se o número de observações na população estatística que estamos estudando não for superior a 30, basta dispor todos os valores da característica em estudo em uma série variacional em ordem crescente, conforme a Tabela. 1, ou em ordem decrescente.

    No em grande número observações (n>30), o número de variantes que ocorrem pode ser muito grande, neste caso é compilado um intervalo ou série variacional agrupada, na qual, para simplificar o processamento posterior e esclarecer a natureza da distribuição, as variantes são combinadas em grupos .

    Normalmente número opção de grupo varia de 8 a 15.

    Deve haver pelo menos 5 deles, porque. caso contrário, será uma ampliação muito grosseira e excessiva, que distorce a imagem geral da variação e afeta muito a precisão dos valores médios. Quando o número de opções de grupo é superior a 20-25, a precisão do cálculo dos valores médios aumenta, mas as características da variação do atributo são significativamente distorcidas e o processamento matemático torna-se mais complicado.

    Ao compilar uma série agrupada, é necessário levar em consideração

    − grupos variantes devem ser colocados em uma ordem específica (crescente ou decrescente);

    - os intervalos nos grupos variantes devem ser os mesmos;

    − os valores dos limites dos intervalos não devem coincidir, pois não ficará claro em quais grupos atribuir opções individuais;

    - é necessário levar em consideração as características qualitativas do material coletado ao definir os limites dos intervalos (por exemplo, ao estudar o peso de adultos, um intervalo de 3-4 kg é aceitável e para crianças nos primeiros meses de vida não deve exceder 100 g.)

    Vamos construir uma série agrupada (intervalada) que caracterize os dados da pulsação (número de batimentos por minuto) de 55 estudantes de medicina antes do exame: 64, 66, 60, 62,

    64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

    64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

    79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

    Para construir uma série agrupada, você precisa:

    1. Determine o valor do intervalo;

    2. Determinar o meio, o início e o fim dos grupos da variante da série de variação.

    ● O valor do intervalo (i) é determinado pelo número de grupos esperados (r), cujo número é definido dependendo do número de observações (n) de acordo com uma tabela especial

    Número de grupos dependendo do número de observações:

    No nosso caso, para 55 alunos, é possível formar de 8 a 10 turmas.

    O valor do intervalo (i) é determinado pela seguinte fórmula -

    i = Vmax-Vmin/r

    Em nosso exemplo, o valor do intervalo é 82-58/8= 3.

    Se o valor do intervalo for um número fracionário, o resultado deve ser arredondado para um número inteiro.

    Existem vários tipos de médias:

    média aritmética,

    média geométrica,

    ● média harmônica,

    raiz quadrada média,

    ● progressiva média,

    ● mediano

    Nas estatísticas médicas, as médias aritméticas são usadas com mais frequência.

    Médio valor aritmético(M) é um valor generalizante que determina o típico que é característico de toda a população. Os principais métodos para calcular M são: o método da média aritmética e o método dos momentos (desvios condicionais).

    O método da média aritmética é usado para calcular a média aritmética simples e a média aritmética ponderada. A escolha do método de cálculo da média aritmética depende do tipo de série de variação. No caso de uma série variacional simples, em que cada variante ocorre apenas uma vez, a média aritmética simples é determinada pela fórmula:

    onde: М – valor médio aritmético;

    V é o valor do recurso variável (opções);

    Σ - indica a ação - soma;

    n é o número total de observações.

    Um exemplo de cálculo da média aritmética é simples. Frequência respiratória (número de respirações por minuto) em 9 homens de 35 anos: 20, 22, 19, 15, 16, 21, 17, 23, 18.

    Para determinar o nível médio da frequência respiratória em homens de 35 anos, é necessário:

    1. Construa uma série variacional, colocando todas as opções em ordem crescente ou decrescente. Obtemos uma série variacional simples, porque valores variantes ocorrem apenas uma vez.

    M = ∑V/n = 171/9 = 19 respirações por minuto

    Conclusão. A frequência respiratória em homens de 35 anos é em média 19 movimentos respiratórios em um minuto.

    Se os valores individuais de uma variante forem repetidos, não há necessidade de escrever cada variante em uma linha; basta listar os tamanhos da variante que ocorrem (V) e a seguir indicar o número de suas repetições (p ). tal série variacional, na qual as opções são, por assim dizer, ponderadas de acordo com o número de frequências correspondentes a elas, é chamada de série variacional ponderada, e o valor médio calculado é a média ponderada aritmética.

    A média aritmética ponderada é determinada pela fórmula: M= ∑Vp/n

    onde n é o número de observações, igual à soma frequências - Σr.

    Um exemplo de cálculo da média ponderada aritmética.

    Duração da incapacidade (em dias) em 35 pacientes com doenças respiratórias agudas (IRA) tratados por um médico local durante o primeiro trimestre ano atual foi: 6, 7, 5, 3, 9, 8, 7, 5, 6, 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6, 7 dias.

    A metodologia para determinar a duração média da incapacidade em pacientes com infecções respiratórias agudas é a seguinte:

    1. Vamos construir uma série variacional ponderada, porque valores variantes individuais são repetidos várias vezes. Para fazer isso, você pode organizar todas as opções em ordem crescente ou decrescente com suas frequências correspondentes.

    No nosso caso, as opções estão em ordem crescente.

    2. Calcule a média aritmética ponderada usando a fórmula: M = ∑Vp/n = 233/35 = 6,7 dias

    Distribuição de pacientes com infecções respiratórias agudas por duração da incapacidade:

    Duração da incapacidade para o trabalho (V) Número de pacientes (p) vp
    ∑p = n = 35 ∑Vp = 233

    Conclusão. A duração da incapacidade em pacientes com doenças respiratórias agudas foi em média de 6,7 dias.

    Modo (Mo) é a variante mais comum na série de variação. Para a distribuição apresentada na tabela, a moda corresponde à variante igual a 10, ocorre com mais frequência que outras - 6 vezes.

    Distribuição dos pacientes por tempo de internação cama de hospital(em dias)

    V
    p

    Às vezes é difícil determinar o valor exato da moda, pois pode haver várias observações nos dados em estudo que ocorrem “com mais frequência”.

    Mediana (Me) é um indicador não paramétrico que divide a série de variação em duas metades iguais: em ambos os lados da mediana está o mesmo número opção.

    Por exemplo, para a distribuição mostrada na tabela, a mediana é 10 porque em ambos os lados deste valor está localizado na 14ª opção, ou seja, o número 10 leva posição central nesta série é sua mediana.

    Dado que o número de observações neste exemplo é par (n=34), a mediana pode ser determinada da seguinte forma:

    Eu = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

    Isso significa que o meio da série recai sobre a décima sétima opção, que corresponde a uma mediana de 10. Para a distribuição apresentada na tabela, a média aritmética é:

    M = ∑Vp/n = 334/34 = 10,1

    Assim, para 34 observações da Tabela. 8, temos: Mo=10, Me=10, média aritmética (M) é 10,1. Em nosso exemplo, todos os três indicadores acabaram sendo iguais ou próximos entre si, embora sejam completamente diferentes.

    A média aritmética é a soma resultante de todas as influências; todas as variantes, sem exceção, participam de sua formação, inclusive as extremas, muitas vezes atípicas para um dado fenômeno ou conjunto.

    A moda e a mediana, ao contrário da média aritmética, não dependem do valor de todos valores individuais sinal variável (valores da variante extrema e o grau de dispersão da série). A média aritmética caracteriza toda a massa de observações, a moda e a mediana caracterizam o volume

    ​ Série de variação - uma série em que são comparados (em ordem crescente ou decrescente) opções e seus respectivos frequências

    Variantes são expressões quantitativas separadas de uma característica. Designada letra latina V . compreensão clássica o termo "variante" implica que cada valor único recurso, independentemente do número de repetições.

    Por exemplo, nas séries de variação dos indicadores de pressão sistólica pressão arterial medido em dez pacientes:

    110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

    apenas 6 valores são opções:

    110, 120, 130, 140, 160, 170.

    A frequência é um número que indica quantas vezes uma opção é repetida. Denotado por uma letra latina P . A soma de todas as frequências (que, obviamente, é igual ao número de todas as estudadas) é denotada como n.

      No nosso exemplo, as frequências assumirão os seguintes valores:
    • para a variante 110 frequência P = 1 (o valor 110 ocorre em um paciente),
    • para a variante 120 frequência P = 2 (o valor 120 ocorre em dois pacientes),
    • para a variante 130 frequência P = 3 (o valor 130 ocorre em três pacientes),
    • para a variante 140 frequência P = 2 (o valor 140 ocorre em dois pacientes),
    • para a variante 160 frequência P = 1 (o valor 160 ocorre em um paciente),
    • para a variante 170 frequência P = 1 (o valor 170 ocorre em um paciente),

    Tipos de séries de variações:

    1. simples- esta é uma série em que cada opção ocorre apenas uma vez (todas as frequências são iguais a 1);
    2. suspenso- uma série em que uma ou mais opções ocorrem repetidamente.

    A série de variação é usada para descrever grandes matrizes de números; é dessa forma que os dados coletados da maioria são inicialmente apresentados. pesquisa médica. Para caracterizar as séries de variação, são calculados indicadores especiais, incluindo valores médios, indicadores de variabilidade (a chamada dispersão), indicadores de representatividade dos dados amostrais.

    Indicadores de série de variação

    1) A média aritmética é um indicador generalizante que caracteriza o tamanho do traço estudado. A média aritmética é denotada como M , é o tipo mais comum de média. A média aritmética é calculada como a razão entre a soma dos valores dos indicadores de todas as unidades de observação e o número de todos examinados. O método de cálculo da média aritmética difere para uma série de variação simples e ponderada.

    Fórmula para cálculo média aritmética simples:

    Fórmula para cálculo média aritmética ponderada:

    M = Σ(V * P)/n

    ​ 2) Moda - outro valor médio da série de variação, correspondente à variante repetida com mais frequência. Ou, em outras palavras, esta é a opção que corresponde à frequência mais alta. Designado como mo . A moda é calculada apenas para séries ponderadas, pois em linhas simples nenhuma das opções é repetida e todas as frequências são iguais a um.

    Por exemplo, na série de variação dos valores da frequência cardíaca:

    80, 84, 84, 86, 86, 86, 90, 94;

    o valor da moda é 86, pois esta variante ocorre 3 vezes, portanto sua frequência é a mais alta.

    3) Mediana - o valor da opção, dividindo a série de variação ao meio: em ambos os lados é número igual opção. A mediana, assim como a média aritmética e a moda, referem-se a valores médios. Designado como Meu

    4) Desvio padrão (sinônimos: desvio padrão, desvio sigma, sigma) - uma medida da variabilidade da série de variação. É um indicador integral que combina todos os casos de desvio de uma variante da média. Na verdade, ele responde à pergunta: até que ponto e com que frequência as opções se distanciam da média aritmética. Denotado letra grega σ ("sigmas").

    Quando o tamanho da população é superior a 30 unidades, o desvio padrão é calculado usando a seguinte fórmula:

    Para populações pequenas - 30 unidades de observação ou menos - o desvio padrão é calculado usando uma fórmula diferente:

    Vamos chamar diferentes valores de amostra opções uma série de valores e denotam: x 1 , x 2, …. Primeiro de tudo, vamos fazer variando opções, ou seja organize-os em ordem crescente ou decrescente. Para cada opção, é indicado seu próprio peso, ou seja, número que caracteriza a contribuição desta opção para população total. Frequências ou frequências atuam como pesos.

    Frequência n eu opção XI chamou um número mostrando quantas vezes essa opção ocorre na população amostral considerada.

    Frequência ou frequência relativa com eu opção XI o número é chamado igual à razão frequência da variante à soma das frequências de todas as variantes. A frequência mostra que parte das unidades da população da amostra tem uma determinada variante.

    A sequência de opções com seus respectivos pesos (frequências ou frequências), escritas em ordem crescente (ou decrescente), é chamada série variacional.

    As séries variacionais são discretas e intervalares.

    Para uma série variacional discreta, os valores pontuais do atributo são especificados, para a série intervalar, os valores dos atributos são especificados na forma de intervalos. As séries de variação podem mostrar a distribuição de frequências ou frequências relativas(frequências), dependendo de qual valor é indicado para cada opção - frequência ou frequência.

    Série de variação discreta de distribuição de frequência parece:

    As frequências são encontradas pela fórmula , i = 1, 2, …, m.

    c 1 +c 2 + … + c m = 1.

    Exemplo 4.1. Para um determinado conjunto de números

    4, 6, 6, 3, 4, 9, 6, 4, 6, 6

    construir discreta série de variação distribuições de frequências e frequências.

    Solução . O volume da população é n= 10. A série de distribuição de frequência discreta tem a forma

    As séries intervaladas têm uma forma semelhante de registro.

    Série de variação de intervalo de distribuição de frequênciaé escrito como:

    A soma de todas as frequências é igual ao número total de observações, ou seja, volume total: n = n 1 +n 2 + … + n m .

    Série de variação de intervalo de distribuição de frequências relativas (frequências) parece:

    A frequência é encontrada pela fórmula , i = 1, 2, …, m.

    A soma de todas as frequências é igual a um: c 1 +c 2 + … + c m = 1.

    Na prática, na maioria das vezes, são usadas séries intervalares. Se houver muitos dados estatísticos de amostra e seus valores diferirem entre si arbitrariamente Pequena quantidade, então a série discreta para esses dados será bastante incômoda e inconveniente para mais pesquisa. Nesse caso, o agrupamento de dados é usado, ou seja, o intervalo contendo todos os valores do atributo é dividido em vários intervalos parciais e, calculada a frequência de cada intervalo, é obtida uma série de intervalos. Vamos escrever com mais detalhes o esquema para construir uma série intervalar, assumindo que os comprimentos dos intervalos parciais serão os mesmos.

    2.2 Construindo uma série intervalar

    Para construir uma série intervalar, você precisa:

    Determinar o número de intervalos;

    Determine a duração dos intervalos;

    Determine a localização dos intervalos no eixo.

    Para determinar número de intervalos k Existe uma fórmula de Sturges, segundo a qual

    ,

    Onde n- o volume da totalidade.

    Por exemplo, se houver 100 valores característicos (variante), é recomendável usar o número de intervalos igual aos intervalos para construir uma série de intervalos.

    Porém, muitas vezes na prática o número de intervalos é escolhido pelo próprio pesquisador, considerando que esse número não deve ser muito grande, para que a série não seja incômoda, mas também não muito pequeno, para não perder algumas propriedades do distribuição.

    Comprimento do intervalo h é determinado pela seguinte fórmula:

    ,

    Onde x máximo e x min é o maior e mais pequeno valor opções.

    O valor que chamado em grande escala linha.

    Para construir os próprios intervalos, eles procedem de maneiras diferentes. Um dos mais maneiras simplesé o seguinte. O valor é tomado como o início do primeiro intervalo
    . Então o resto dos limites dos intervalos são encontrados pela fórmula . Obviamente, o final do último intervalo a m+1 deve satisfazer a condição

    Depois que todos os limites dos intervalos são encontrados, as frequências (ou frequências) desses intervalos são determinadas. Para resolver esse problema, eles analisam todas as opções e determinam o número de opções que se enquadram em um determinado intervalo. construção completa Vejamos uma série intervalar usando um exemplo.

    Exemplo 4.2. Para as seguintes estatísticas, escritas em ordem crescente, construa uma série intervalar com o número de intervalos igual a 5:

    11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

    Solução. Total n=50 valores variantes.

    O número de intervalos é especificado na condição do problema, ou seja, k=5.

    A duração dos intervalos é
    .

    Vamos definir os limites dos intervalos:

    a 1 = 11 − 8,5 = 2,5; a 2 = 2,5 + 17 = 19,5; a 3 = 19,5 + 17 = 36,5;

    a 4 = 36,5 + 17 = 53,5; a 5 = 53,5 + 17 = 70,5; a 6 = 70,5 + 17 = 87,5;

    a 7 = 87,5 +17 = 104,5.

    Para determinar a frequência dos intervalos, contamos o número de opções que se enquadram nesse intervalo. Por exemplo, as opções 11, 12, 12, 14, 14, 15 caem no primeiro intervalo de 2,5 a 19,5. Seu número é 6, portanto, a frequência do primeiro intervalo é n 1=6. A frequência do primeiro intervalo é . As variantes 21, 21, 22, 23, 25, cujo número é 5, caem no segundo intervalo de 19,5 a 36,5. Portanto, a frequência do segundo intervalo é n 2 = 5, e a frequência . Tendo encontrado frequências e frequências semelhantes para todos os intervalos, obtemos a seguinte série de intervalos.

    A série intervalar da distribuição de frequência tem a forma:

    A soma das frequências é 6+5+9+11+8+11=50.

    A série intervalar da distribuição de frequência tem a forma:

    A soma das frequências é 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

    Na construção de séries intervalares, dependendo das condições específicas do problema em questão, podem ser aplicadas outras regras, nomeadamente

    1. A série de variação de intervalo pode consistir em intervalos parciais comprimentos diferentes. Comprimentos de intervalos desiguais tornam possível destacar as propriedades de uma população estatística com uma distribuição desigual de um recurso. Por exemplo, se os limites dos intervalos determinam o número de habitantes nas cidades, é aconselhável neste problema usar intervalos de comprimento desigual. É óbvio que para grandes cidades assuntos e não é uma grande diferença no número de habitantes, sendo que para as grandes cidades a diferença em dezenas e centenas de habitantes não é significativa. série intervalar com comprimentos desiguais de intervalos parciais são estudados principalmente em teoria geral estatísticas e sua consideração está além do escopo deste manual.

    2. Em estatísticas matemáticasàs vezes são consideradas séries intervalares, para as quais o limite esquerdo do primeiro intervalo é considerado igual a –∞, e o limite direito do último intervalo é +∞. Isso é feito para trazer distribuição estatística ao teórico.

    3. Ao construir séries intervalares, pode acontecer que o valor de alguma variante coincida exatamente com o limite do intervalo. A melhor coisa a fazer neste caso é a seguinte. Se houver apenas uma dessas coincidências, considere que a variante em consideração com sua frequência caiu no intervalo localizado mais próximo do meio da série de intervalos; se houver várias dessas variantes, todas elas serão atribuídas aos intervalos para à direita dessas variantes, ou todas à esquerda.

    4. Depois de determinar o número de intervalos e sua extensão, a localização dos intervalos pode ser feita de outra maneira. Encontre a média aritmética de todos os valores considerados das opções x cf. e construa o primeiro intervalo de forma que essa média amostral esteja dentro de algum intervalo. Assim, obtemos o intervalo de x cf. - 0,5 h antes x média + 0,5 h. Então esquerda e direita, adicionando o comprimento do intervalo, construímos os intervalos restantes até x min e x max não cairá no primeiro e no último intervalo, respectivamente.

    5. Série de intervalo para grandes númerosÉ conveniente escrever os intervalos verticalmente, ou seja, intervalos de registro não na primeira linha, mas na primeira coluna e frequências (ou frequências) na segunda coluna.

    Os dados da amostra podem ser considerados como valores de alguma variável aleatória x. Uma variável aleatória tem sua própria lei de distribuição. Sabe-se da teoria da probabilidade que a lei de distribuição de uma variável aleatória discreta pode ser especificada como uma série de distribuição, e para uma contínua, usando a função de densidade de distribuição. No entanto, existe uma lei de distribuição universal que vale para variáveis ​​aleatórias discretas e contínuas. Esta lei de distribuição é dada como uma função de distribuição F(x) = P(x<x). Para dados de amostra, você pode especificar um análogo da função de distribuição - a função de distribuição empírica.


    Informações semelhantes.