Definição de uma série de variações. Série de variação e suas características

série de variaçãoé uma série de valores numéricos de uma feição.

As principais características da série de variação: v - variante, p - a frequência de sua ocorrência.

Tipos de séries de variação:

    de acordo com a frequência de ocorrência das variantes: simples - a variante ocorre uma vez, ponderada - a variante ocorre duas ou mais vezes;

    opções por localização: classificadas - as opções são organizadas em ordem crescente e decrescente, não classificadas - as opções não são escritas em ordem específica;

    agrupando a opção em grupos: agrupados - as opções são combinadas em grupos, desagrupados - as opções não são agrupadas;

    por opções de valor: contínuo - as opções são expressas como um número inteiro e um número fracionário, discreto - as opções são expressas como um número inteiro, complexo - as opções são representadas por um valor relativo ou médio.

Uma série variacional é compilada e elaborada para calcular os valores médios.

Forma de notação de série de variações:

8. Valores médios, tipos, método de cálculo, aplicação na área da saúde

Valores médios- a característica generalizante total das características quantitativas. Aplicação de médias:

1. Caracterizar a organização do trabalho das instituições médicas e avaliar suas atividades:

a) na policlínica: indicadores de carga de trabalho dos médicos, número médio de atendimentos, número médio de residentes na área;

b) em hospital: número médio de dias de leito por ano; tempo médio de permanência no hospital;

c) no centro de higiene, epidemiologia e saúde pública: área média (ou capacidade cúbica) por 1 pessoa, padrões nutricionais médios (proteínas, gorduras, carboidratos, vitaminas, sais minerais, calorias), normas e padrões sanitários, etc. ;

2. Caracterizar o desenvolvimento físico (principais características antropométricas morfológicas e funcionais);

3. Determinar os parâmetros médicos e fisiológicos do corpo em condições normais e patológicas em estudos clínicos e experimentais.

4. Na investigação científica especial.

A diferença entre valores médios e indicadores:

1. Os coeficientes caracterizam uma característica alternativa que ocorre apenas em alguma parte da equipe estatística, podendo ou não ocorrer.

Os valores médios abrangem os sinais inerentes a todos os membros da equipe, mas em graus variados (peso, altura, dias de tratamento no hospital).

2. Os coeficientes são usados ​​para medir características qualitativas. Os valores médios são para características quantitativas variáveis.

Tipos de médias:

    média aritmética, suas características - desvio padrão e erro médio

    moda e mediana. Moda (Mo)- corresponde ao valor da característica mais frequente nesta população. mediano (eu)- o valor do atributo, que ocupa o valor mediano nesta população. Ele divide a série em 2 partes iguais de acordo com o número de observações. Valor médio aritmético (M)- ao contrário da moda e da mediana, depende de todas as observações feitas, portanto é uma característica importante para toda a distribuição.

    outros tipos de médias que são usados ​​em estudos especiais: raiz quadrada média, cúbica, harmônica, geométrica, progressiva.

Média aritmética caracteriza o nível médio da população estatística.

Para uma série simples onde

∑v – opção de soma,

n é o número de observações.

para uma série ponderada, onde

∑vr é a soma dos produtos de cada opção e a frequência de sua ocorrência

n é o número de observações.

Desvio padrão média aritmética ou sigma (σ) caracteriza a diversidade do recurso

- para uma linha simples

Σd 2 - a soma dos quadrados da diferença entre a média aritmética e cada opção (d = │M-V│)

n é o número de observações

- para série ponderada

∑d 2 p é a soma dos produtos dos quadrados da diferença entre a média aritmética e cada opção e a frequência de sua ocorrência,

n é o número de observações.

O grau de diversidade pode ser julgado pelo valor do coeficiente de variação
. Mais de 20% - diversidade forte, 10-20% - diversidade média, menos de 10% - diversidade fraca.

Se um sigma (M ± 1σ) for adicionado e subtraído da média aritmética, então com uma distribuição normal, pelo menos 68,3% de todas as variantes (observações) estarão dentro desses limites, o que é considerado a norma para o fenômeno em estudo . Se k 2 ± 2σ, então 95,5% de todas as observações estarão dentro desses limites, e se k M ± 3σ, então 99,7% de todas as observações estarão dentro desses limites. Assim, o desvio padrão é o desvio padrão, o que permite prever a probabilidade de ocorrência de tal valor da característica em estudo, que está dentro dos limites especificados.

Erro médio da média aritmética ou erro de representatividade. Para séries ponderadas simples e pela regra dos momentos:

.

Para calcular os valores médios, é necessário: a homogeneidade do material, um número suficiente de observações. Se o número de observações for menor que 30, n-1 é usado nas fórmulas para calcular σ e m.

Ao avaliar o resultado obtido pelo tamanho do erro médio, é utilizado um coeficiente de confiança, que permite determinar a probabilidade de resposta correta, ou seja, indica que o erro amostral resultante não será maior que o erro real resultado de uma observação contínua. Consequentemente, com o aumento da probabilidade de confiança, aumenta a largura do intervalo de confiança, o que, por sua vez, aumenta a confiança do julgamento, o suporte do resultado obtido.

Um lugar especial na análise estatística pertence à determinação do nível médio da característica ou fenômeno estudado. O nível médio de um recurso é medido por valores médios.

O valor médio caracteriza o nível quantitativo geral da característica estudada e é uma propriedade de grupo da população estatística. Ele nivela, enfraquece os desvios aleatórios de observações individuais em uma direção ou outra e destaca a principal propriedade típica da característica em estudo.

As médias são amplamente utilizadas:

1. Avaliar o estado de saúde da população: características de desenvolvimento físico (altura, peso, circunferência do tórax, etc.), identificando a prevalência e duração de várias doenças, analisando indicadores demográficos (movimento natural da população, expectativa média de vida, reprodução da população , população média e etc.).

2. Estudar a actividade das instituições médicas, pessoal médico e avaliar a qualidade do seu trabalho, planificando e determinando as necessidades da população nos vários tipos de cuidados médicos (número médio de pedidos ou visitas por habitante por ano, tempo médio de permanência de um paciente em um hospital, duração média do exame do paciente, provisão média com médicos, leitos, etc.).

3. Caracterizar o estado sanitário e epidemiológico (poeira média do ar na oficina, área média por pessoa, consumo médio de proteínas, gorduras e hidratos de carbono, etc.).

4. Determinar os parâmetros médicos e fisiológicos na norma e patologia, no processamento de dados laboratoriais, para estabelecer a confiabilidade dos resultados de um estudo seletivo em estudos sócio-higiênicos, clínicos e experimentais.

O cálculo dos valores médios é realizado com base nas séries de variação. série de variação- trata-se de um conjunto estatístico qualitativamente homogêneo, cujas unidades individuais caracterizam as diferenças quantitativas da característica ou fenômeno estudado.

A variação quantitativa pode ser de dois tipos: descontínua (discreta) e contínua.

Um sinal descontínuo (discreto) é expresso apenas como um número inteiro e não pode ter valores intermediários (por exemplo, número de visitas, população do local, número de filhos na família, gravidade da doença em pontos , etc).

Um sinal contínuo pode assumir qualquer valor dentro de certos limites, inclusive fracionários, e é expresso apenas aproximadamente (por exemplo, peso - para adultos, você pode limitar-se a quilogramas e para recém-nascidos - gramas; altura, pressão arterial, tempo gasto em ver um paciente, e etc.).



O valor digital de cada característica ou fenômeno individual incluído na série de variação é chamado de variante e é indicado pela letra V . Existem também outras notações na literatura matemática, por exemplo x ou y.

Uma série variacional, onde cada opção é indicada uma vez, é chamada de simples. Tais séries são usadas na maioria dos problemas estatísticos no caso de processamento de dados de computador.

Com o aumento do número de observações, via de regra, ocorrem valores repetidos da variante. Neste caso, ele cria série de variação agrupada, onde é indicado o número de repetições (frequência, denotada pela letra " R »).

Série de variação classificada consiste em opções dispostas em ordem crescente ou decrescente. Tanto as séries simples quanto as agrupadas podem ser compostas com classificação.

Série de variação de intervalo são elaborados para simplificar os cálculos posteriores realizados sem o uso de um computador, com um número muito grande de unidades de observação (mais de 1000).

Série de variação contínua inclui valores variantes, que podem ser qualquer valor.

Se na série de variação os valores do atributo (opções) forem fornecidos na forma de números específicos separados, essa série é chamada discreto.

As características gerais dos valores do atributo refletidos na série de variação são os valores médios. Dentre elas, as mais utilizadas são: a média aritmética M, moda mo e mediana Eu. Cada uma dessas características é única. Eles não podem substituir um ao outro, e apenas no agregado, de forma bastante completa e concisa, são as características da série variacional.

Moda (mo) nomeie o valor das opções que ocorrem com mais frequência.

Mediana (Eu) é o valor da variante dividindo a série variacional ao meio (em cada lado da mediana há uma metade da variante). Em casos raros, quando há uma série de variação simétrica, a moda e a mediana são iguais entre si e coincidem com o valor da média aritmética.

A característica mais típica dos valores variantes é média aritmética valor( M ). Na literatura matemática, é denotado .

Média aritmética (M, ) é uma característica quantitativa geral de uma determinada característica dos fenômenos estudados, que compõem um conjunto estatístico qualitativamente homogêneo. Diferencie média aritmética simples de média ponderada. A média aritmética simples é calculada para uma série variacional simples somando todas as opções e dividindo essa soma pelo número total de opções incluídas nessa série variacional. Os cálculos são realizados de acordo com a fórmula:

,

Onde: M - média aritmética simples;

Σ V - opção de quantidade;

n- número de observações.

Nas séries de variações agrupadas, determina-se uma média aritmética ponderada. A fórmula para o seu cálculo:

,

Onde: M - média aritmética ponderada;

Σ vp - a soma dos produtos de uma variante em suas frequências;

n- número de observações.

Com um grande número de observações no caso de cálculos manuais, pode-se utilizar o método dos momentos.

A média aritmética tem as seguintes propriedades:

a soma dos desvios da variante da média ( Σ d ) é igual a zero (ver Tabela 15);

Ao multiplicar (dividir) todas as opções pelo mesmo fator (divisor), a média aritmética é multiplicada (dividida) pelo mesmo fator (divisor);

Se você adicionar (subtrair) o mesmo número a todas as opções, a média aritmética aumenta (diminui) no mesmo número.

As médias aritméticas, tomadas isoladamente, sem levar em conta a variabilidade da série a partir da qual são calculadas, podem não refletir totalmente as propriedades da série de variação, principalmente quando a comparação com outras médias é necessária. Valores médios próximos em valor podem ser obtidos a partir de séries com diferentes graus de dispersão. Quanto mais próximas as opções individuais estiverem umas das outras em termos de suas características quantitativas, menos dispersão (flutuação, variabilidade) série, mais típica é sua média.

Os principais parâmetros que permitem avaliar a variabilidade de uma característica são:

· escopo;

Amplitude;

· Desvio padrão;

· O coeficiente de variação.

Aproximadamente, a flutuação de um traço pode ser julgada pelo escopo e amplitude da série de variação. A faixa indica as opções de máximo (V máx) e mínimo (V mín) da série. A amplitude (A m) é a diferença entre estas opções: A m = V max - V min .

A principal medida geralmente aceita da flutuação das séries variacionais são dispersão (D ). Mas o parâmetro mais conveniente é usado com mais frequência, calculado com base na variância - o desvio padrão ( σ ). Leva em consideração o valor do desvio ( d ) de cada variante da série de variação a partir de sua média aritmética ( d=V - M ).

Como os desvios da variante da média podem ser positivos e negativos, quando somados dão o valor "0" (S d=0). Para evitar isso, os valores de desvio ( d) são elevados à segunda potência e calculados como média. Assim, a variância da série variacional é o quadrado médio dos desvios da variante da média aritmética e é calculada pela fórmula:

.

É a característica mais importante da variabilidade e é usada para calcular muitos testes estatísticos.

Como a variância é expressa como o quadrado dos desvios, seu valor não pode ser usado em comparação com a média aritmética. Para esses fins, é utilizado desvio padrão, que é indicado pelo sinal "Sigma" ( σ ). Caracteriza o desvio médio de todas as variantes da série de variação da média aritmética nas mesmas unidades da própria média, para que possam ser utilizadas em conjunto.

O desvio padrão é determinado pela fórmula:

Esta fórmula é aplicada para o número de observações ( n ) é maior que 30. Com um número menor n o valor do desvio padrão terá um erro associado ao viés matemático ( n - 1). Nesse sentido, um resultado mais preciso pode ser obtido levando em consideração esse viés na fórmula de cálculo do desvio padrão:

desvio padrão (s ) é uma estimativa do desvio padrão da variável aleatória x em relação à sua expectativa matemática com base em uma estimativa imparcial de sua variância.

Para valores n > 30 desvio padrão ( σ ) e desvio padrão ( s ) será o mesmo ( σ=s ). Portanto, na maioria dos manuais práticos, esses critérios são tratados como tendo significados diferentes. No Excel, o cálculo do desvio padrão pode ser feito com a função =STDEV(range). E para calcular o desvio padrão, você precisa criar uma fórmula apropriada.

A raiz quadrada média ou desvio padrão permite determinar o quanto os valores de um recurso podem diferir do valor médio. Suponha que existam duas cidades com a mesma temperatura média diária no verão. Uma dessas cidades está localizada na costa e a outra no continente. Sabe-se que nas cidades localizadas no litoral, as diferenças nas temperaturas diurnas são menores do que nas cidades localizadas no interior. Portanto, o desvio padrão das temperaturas diurnas perto da cidade costeira será menor que o da segunda cidade. Na prática, isso significa que a temperatura média do ar de cada dia em uma cidade localizada no continente será mais diferente da média do que em uma cidade no litoral. Além disso, o desvio padrão permite estimar possíveis desvios de temperatura da média com o nível de probabilidade necessário.

Segundo a teoria da probabilidade, em fenômenos que obedecem à lei da distribuição normal, existe uma relação estrita entre os valores da média aritmética, desvio padrão e opções ( regra dos três sigmas). Por exemplo, 68,3% dos valores de um atributo variável estão dentro de M ± 1 σ , 95,5% - dentro de M ± 2 σ e 99,7% - dentro de M ± 3 σ .

O valor do desvio padrão permite julgar a natureza da homogeneidade da série de variação e do grupo em estudo. Se o valor do desvio padrão for pequeno, isso indica uma homogeneidade suficientemente alta do fenômeno em estudo. A média aritmética neste caso deve ser reconhecida como bastante característica desta série variacional. No entanto, um sigma muito pequeno faz pensar em uma seleção artificial de observações. Com um sigma muito grande, a média aritmética caracteriza em menor grau a série de variação, o que indica uma variabilidade significativa do traço ou fenômeno estudado ou a heterogeneidade do grupo de estudo. No entanto, a comparação do valor do desvio padrão só é possível para sinais da mesma dimensão. Com efeito, se compararmos a diversidade de peso de recém-nascidos e adultos, obteremos sempre valores de sigma mais elevados nos adultos.

A comparação da variabilidade de recursos de diferentes dimensões pode ser realizada usando coeficiente de variação. Expressa a diversidade como uma porcentagem da média, o que permite a comparação de diferentes características. O coeficiente de variação na literatura médica é indicado pelo sinal " Com ", e na matemática" v» e calculado pela fórmula:

.

Os valores do coeficiente de variação menores que 10% indicam uma pequena dispersão, de 10 a 20% - sobre a média, mais de 20% - sobre uma forte dispersão em torno da média aritmética.

A média aritmética é geralmente calculada com base em dados de amostra. Com estudos repetidos sob a influência de fenômenos aleatórios, a média aritmética pode mudar. Isso se deve ao fato de que, via de regra, apenas uma parte das possíveis unidades de observação, ou seja, uma população amostral, é investigada. Informações sobre todas as possíveis unidades representativas do fenômeno em estudo podem ser obtidas estudando toda a população em geral, o que nem sempre é possível. Ao mesmo tempo, para generalizar os dados experimentais, é interessante o valor da média na população em geral. Portanto, para formular uma conclusão geral sobre o fenômeno em estudo, os resultados obtidos com base na população amostral devem ser transferidos para a população geral por métodos estatísticos.

Para determinar o grau de concordância entre o estudo da amostra e a população em geral, é necessário estimar a quantidade de erro que inevitavelmente surge durante a observação da amostra. Tal erro é chamado erro de representatividade” ou “Erro médio da média aritmética”. É, na verdade, a diferença entre as médias obtidas a partir da observação estatística seletiva e valores semelhantes que seriam obtidos a partir de um estudo contínuo do mesmo objeto, ou seja, ao estudar a população em geral. Como a média amostral é uma variável aleatória, tal previsão é feita com um nível de probabilidade aceitável para o pesquisador. Na pesquisa médica, é de pelo menos 95%.

O erro de representatividade não deve ser confundido com erros de registro ou erros de atenção (erros de impressão, erros de cálculo, erros de impressão, etc.), que devem ser minimizados por uma metodologia e ferramentas adequadas utilizadas no experimento.

A magnitude do erro de representatividade depende tanto do tamanho da amostra quanto da variabilidade da característica. Quanto maior o número de observações, mais próxima a amostra da população geral e menor o erro. Quanto mais variável o recurso, maior o erro estatístico.

Na prática, a seguinte fórmula é utilizada para determinar o erro de representatividade em séries variacionais:

,

Onde: m – erro de representatividade;

σ - desvio padrão;

né o número de observações na amostra.

Pode-se ver pela fórmula que o tamanho do erro médio é diretamente proporcional ao desvio padrão, ou seja, a variabilidade da característica em estudo, e inversamente proporcional à raiz quadrada do número de observações.

Ao realizar análises estatísticas baseadas no cálculo de valores relativos, a construção de uma série de variações não é obrigatória. Nesse caso, a determinação do erro médio para indicadores relativos pode ser realizada por meio de uma fórmula simplificada:

,

Onde: R- o valor do indicador relativo, expresso em percentagem, ppm, etc.;

q- o recíproco de P e expresso como (1-P), (100-P), (1000-P), etc., dependendo da base para a qual o indicador é calculado;

né o número de observações na amostra.

Porém, a fórmula indicada para cálculo do erro de representatividade para valores relativos só pode ser aplicada quando o valor do indicador for menor que sua base. Em vários casos de cálculo de indicadores intensivos, essa condição não é atendida e o indicador pode ser expresso como um número superior a 100% ou 1000%o. Em tal situação, uma série de variação é construída e o erro de representatividade é calculado usando a fórmula para valores médios com base no desvio padrão.

A previsão do valor da média aritmética na população em geral é realizada com a indicação de dois valores - o mínimo e o máximo. Esses valores extremos de possíveis desvios, dentro dos quais o valor médio desejado da população em geral pode flutuar, são chamados de " Limites de confiança».

Os postulados da teoria da probabilidade provaram que com uma distribuição normal de uma feição com probabilidade de 99,7%, os valores extremos dos desvios da média não ultrapassarão o valor do triplo erro de representatividade ( M ± 3 m ); em 95,5% - não mais que o valor do erro médio dobrado do valor médio ( M ±2 m ); em 68,3% - não mais do que o valor de um erro médio ( M ± 1 m ) (Fig. 9).

P%

Arroz. 9. Densidade de probabilidade da distribuição normal.

Observe que a afirmação acima é verdadeira apenas para um recurso que obedece à lei de distribuição gaussiana normal.

A maioria dos estudos experimentais, inclusive no campo da medicina, está associada a medições, cujos resultados podem assumir quase qualquer valor em um determinado intervalo, portanto, via de regra, são descritos por um modelo de variáveis ​​​​aleatórias contínuas. Nesse sentido, a maioria dos métodos estatísticos considera distribuições contínuas. Uma dessas distribuições, que desempenha um papel fundamental na estatística matemática, é distribuição normal ou gaussiana.

Isto é devido a uma série de razões.

1. Em primeiro lugar, muitas observações experimentais podem ser descritas com sucesso usando uma distribuição normal. Deve-se notar desde já que não existem distribuições de dados empíricos que seriam exatamente normais, pois uma variável aleatória normalmente distribuída está no intervalo de a , o que nunca ocorre na prática. No entanto, a distribuição normal é muitas vezes uma boa aproximação.

Se as medições de peso, altura e outros parâmetros fisiológicos do corpo humano são realizadas - em todos os lugares, um grande número de fatores aleatórios (causas naturais e erros de medição) influenciam os resultados. E, via de regra, o efeito de cada um desses fatores é insignificante. A experiência mostra que os resultados em tais casos serão distribuídos aproximadamente normalmente.

2. Muitas distribuições associadas a uma amostra aleatória, com o aumento do volume desta, tornam-se normais.

3. A distribuição normal é adequada como uma descrição aproximada de outras distribuições contínuas (por exemplo, assimétricas).

4. A distribuição normal tem uma série de propriedades matemáticas favoráveis, o que garantiu amplamente seu uso generalizado em estatística.

Ao mesmo tempo, deve-se notar que em dados médicos existem muitas distribuições experimentais que não podem ser descritas pelo modelo de distribuição normal. Para fazer isso, a estatística desenvolveu métodos que são comumente chamados de "não paramétricos".

A escolha de um método estatístico adequado para processar os dados de um determinado experimento deve ser feita dependendo se os dados obtidos pertencem à lei de distribuição normal. O teste de hipótese para a subordinação de um sinal à lei de distribuição normal é realizado usando um histograma da distribuição de frequência (gráfico), bem como uma série de critérios estatísticos. Entre eles:

Critério de assimetria ( b );

Critérios para verificação de curtose ( g );

critério de Shapiro-Wilks ( C ) .

Uma análise da natureza da distribuição dos dados (também chamada de teste de normalidade da distribuição) é realizada para cada parâmetro. Para julgar com confiança a conformidade da distribuição de parâmetros com a lei normal, é necessário um número suficientemente grande de unidades de observação (pelo menos 30 valores).

Para uma distribuição normal, os critérios de assimetria e curtose assumem o valor 0. Se a distribuição for deslocada para a direita b > 0 (assimetria positiva), com b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. No g > 0 a curva de distribuição é mais nítida se g < 0 пик более сглаженный, чем функция нормального распределения.

Para testar a normalidade usando o teste de Shapiro-Wilks, é necessário encontrar o valor desse critério usando tabelas estatísticas no nível de significância exigido e dependendo do número de unidades de observação (graus de liberdade). Apêndice 1. A hipótese de normalidade é rejeitada para pequenos valores deste critério, via de regra, para W <0,8.

O conceito de uma série de variações. O primeiro passo para sistematizar os materiais de observação estatística é contar o número de unidades que possuem uma ou outra característica. Dispondo as unidades em ordem crescente ou decrescente de seu atributo quantitativo e contando o número de unidades com um valor específico do atributo, obtemos uma série de variações. A série de variação caracteriza a distribuição das unidades de uma determinada população estatística segundo algum atributo quantitativo.

A série de variação consiste em duas colunas, a coluna da esquerda contém os valores do atributo variável, chamados de variantes e denotados por (x), e a coluna da direita contém números absolutos mostrando quantas vezes cada variante ocorre. Os valores nesta coluna são chamados de frequências e são denotados por (f).

Esquematicamente, a série de variação pode ser representada na forma da Tabela 5.1:

Tabela 5.1

Tipo de série de variação

Opções (x)

Frequências (f)

Na coluna da direita, também podem ser usados ​​indicadores relativos que caracterizam a proporção da frequência de variantes individuais na quantidade total de frequências. Esses indicadores relativos são chamados de frequências e são convencionalmente denotados por , ou seja, . A soma de todas as frequências é igual a um. As frequências também podem ser expressas como uma porcentagem e, em seguida, sua soma será igual a 100%.

Os signos variáveis ​​podem ser de natureza diferente. As variantes de alguns sinais são expressas em números inteiros, por exemplo, o número de quartos em um apartamento, o número de livros publicados, etc. Esses sinais são chamados descontínuos ou discretos. Variantes de outros signos podem assumir quaisquer valores dentro de certos limites, como cumprimento de metas planejadas, salários, etc. Esses signos são chamados de contínuos.

Séries de variações discretas. Se as variantes da série variacional forem expressas como valores discretos, essa série variacional é chamada de discreta, sua aparência é apresentada na Tabela. 5.2:

Tabela 5.2

Distribuição dos alunos pelas notas obtidas no exame

Classificações (x)

Número de alunos (f)

Em % do total ()

A natureza da distribuição em séries discretas é representada graficamente como um polígono de distribuição, Fig.5.1.

Arroz. 5.1. Distribuição dos alunos pelas notas obtidas no exame.

Série de variação de intervalo. Para recursos contínuos, as séries de variação são construídas como séries intervalares, ou seja, os valores dos recursos neles são expressos como intervalos "de e para". Nesse caso, o valor mínimo de uma feição em tal intervalo é chamado de limite inferior do intervalo, e o valor máximo é chamado de limite superior do intervalo.

As séries variacionais intervalares são construídas tanto para feições descontínuas (discretas) quanto para aquelas que variam em uma grande faixa. As linhas de intervalo podem ter intervalos iguais e desiguais. Na prática econômica, na maioria das vezes, são usados ​​intervalos desiguais, aumentando ou diminuindo progressivamente. Tal necessidade surge especialmente nos casos em que a flutuação do sinal é realizada de forma desigual e dentro de grandes limites.

Considere o tipo de série intervalar com intervalos iguais, Tabela. 5.3:

Tabela 5.3

Distribuição de trabalhadores por produção

Saída, tr. (X)

Número de trabalhadores (f)

Frequência cumulativa (f')

A série de distribuição de intervalo é representada graficamente como um histograma, Fig.5.2.

Fig.5.2. Distribuição de trabalhadores por produção

Frequência acumulada (cumulativa). Na prática, há a necessidade de converter as séries de distribuição em linhas cumulativas, construído sobre as frequências acumuladas. Eles podem ser usados ​​para definir médias estruturais que facilitam a análise de dados de séries de distribuição.

As frequências cumulativas são determinadas adicionando sucessivamente às frequências (ou frequências) do primeiro grupo desses indicadores dos grupos subsequentes da série de distribuição. Cumulativos e ogivas são usados ​​para ilustrar a série de distribuição. Para construí-los, os valores de uma feição discreta (ou as extremidades dos intervalos) são marcados no eixo das abcissas, e os totais crescentes das frequências (acumulados) são marcados no eixo das ordenadas, Fig.5.3.

Arroz. 5.3. A distribuição cumulativa de trabalhadores por desenvolvimento

Se as escalas de frequências e variantes forem trocadas, ou seja, refletir as frequências acumuladas no eixo das abcissas e os valores​​das opções no eixo das ordenadas, então a curva que caracteriza a mudança nas frequências de grupo para grupo será chamada de ogiva de distribuição, Fig. 5.4.

Arroz. 5.4. Ogiva distribuição de trabalhadores para produção

Séries de variação com intervalos iguais fornecem um dos requisitos mais importantes para séries de distribuição estatística, garantindo sua comparabilidade no tempo e no espaço.

Densidade de distribuição. No entanto, as frequências de intervalos desiguais individuais nessas séries não são diretamente comparáveis. Nesses casos, para garantir a comparabilidade necessária, calcula-se a densidade de distribuição, ou seja, determinar quantas unidades em cada grupo são por unidade de valor de intervalo.

Ao construir um gráfico de distribuição de uma série variacional com intervalos desiguais, a altura dos retângulos é determinada proporcionalmente não às frequências, mas aos indicadores da densidade de distribuição dos valores da característica estudada nos intervalos correspondentes.

A compilação de uma série variacional e sua representação gráfica é o primeiro passo no processamento dos dados iniciais e o primeiro passo na análise da população estudada. O próximo passo na análise de séries variacionais é a determinação dos principais indicadores generalizantes, chamados de características da série. Essas características devem dar uma ideia do valor médio do atributo nas unidades da população.

valor médio. O valor médio é uma característica generalizada do traço estudado na população estudada, refletindo seu nível típico por unidade populacional em condições específicas de lugar e tempo.

O valor médio é sempre nomeado, tem a mesma dimensão que o atributo das unidades individuais da população.

Antes de calcular os valores médios, é necessário agrupar as unidades da população estudada, destacando grupos qualitativamente homogêneos.

A média calculada para a população como um todo é chamada de média geral e para cada grupo - médias de grupo.

Existem dois tipos de médias: potência (média aritmética, média harmônica, média geométrica, raiz média quadrática); estrutural (moda, mediana, quartis, decis).

A escolha da média para o cálculo depende do objetivo.

Tipos de médias de potência e métodos para o seu cálculo. Na prática do tratamento estatístico do material recolhido surgem vários problemas, para cuja solução são necessárias diferentes médias.

Estatísticas matemáticas derivam vários meios de fórmulas de potência média:

onde é o valor médio; x - opções individuais (valores de recursos); z - expoente (em z = 1 - média aritmética, z = 0 média geométrica, z = - 1 - média harmônica, z = 2 - média quadrática).

No entanto, a questão de que tipo de média deve ser aplicada em cada caso individual é resolvida por uma análise específica da população em estudo.

O tipo mais comum de média em estatísticas é média aritmética. É calculado nos casos em que o volume do atributo médio é formado como a soma de seus valores para unidades individuais da população estatística estudada.

Dependendo da natureza dos dados iniciais, a média aritmética é determinada de várias maneiras:

Se os dados forem desagrupados, o cálculo será realizado de acordo com a fórmula de um valor médio simples

Cálculo da média aritmética em uma série discreta ocorre de acordo com a fórmula 3.4.

Cálculo da média aritmética na série intervalar. Em uma série de variação de intervalo, onde o meio do intervalo é tomado condicionalmente como o valor de uma feição em cada grupo, a média aritmética pode diferir da média calculada a partir de dados não agrupados. Além disso, quanto maior o intervalo nos grupos, maiores os possíveis desvios da média calculada a partir dos dados agrupados da média calculada a partir dos dados não agrupados.

Ao calcular a média para uma série de variação intervalar, para realizar os cálculos necessários, passa-se dos intervalos aos seus pontos médios. E então calcule o valor médio pela fórmula da média ponderada aritmética.

Propriedades da média aritmética. A média aritmética possui algumas propriedades que nos permitem simplificar os cálculos, vamos considerá-las.

1. A média aritmética dos números constantes é igual a esse número constante.

Se x = a. Então .

2. Se os pesos de todas as opções forem alterados proporcionalmente, ou seja, aumentar ou diminuir o mesmo número de vezes, então a média aritmética da nova série não mudará disso.

Se todos os pesos f forem reduzidos k vezes, então .

3. A soma dos desvios positivos e negativos das opções individuais da média, multiplicada pelos pesos, é igual a zero, ou seja,

Se então . Daqui.

Se todas as opções forem reduzidas ou aumentadas em algum número, a média aritmética da nova série diminuirá ou aumentará na mesma proporção.

Reduzir todas as opções x sobre uma, ou seja x´ = xuma.

Então

A média aritmética da série inicial pode ser obtida adicionando à média reduzida o número anteriormente subtraído das variantes uma, ou seja .

5. Se todas as opções forem reduzidas ou aumentadas em k vezes, então a média aritmética da nova série diminuirá ou aumentará na mesma quantidade, ou seja, no k uma vez.

Deixe então .

Portanto, ou seja, para obter a média da série original, a média aritmética da nova série (com opções reduzidas) deve ser aumentada em k uma vez.

Harmônico médio. A média harmônica é o recíproco da média aritmética. É usado quando a informação estatística não contém frequências para opções individuais de população, mas é apresentada como seu produto (M = xf). A média harmônica será calculada usando a fórmula 3.5

A aplicação prática da média harmônica é calcular alguns índices, em particular, o índice de preços.

Média geométrica. Ao aplicar a média geométrica, os valores individuais do atributo são, via de regra, valores relativos da dinâmica, construídos na forma de valores em cadeia, em razão do nível anterior de cada nível da série dinâmica . A média, portanto, caracteriza a taxa média de crescimento.

A média geométrica também é utilizada para determinar o valor equidistante dos valores máximo e mínimo do atributo. Por exemplo, uma companhia de seguros celebra contratos para a prestação de serviços de seguros de automóveis. Dependendo do evento segurado específico, o pagamento do seguro pode variar de 10.000 a 100.000 dólares por ano. O pagamento médio do seguro é de US$.

A média geométrica é o valor utilizado como média das razões ou na série da distribuição, apresentada como uma progressão geométrica, quando z = 0. Esta média é conveniente de usar quando se presta atenção não às diferenças absolutas, mas às razões de dois números.

As fórmulas para cálculo são as seguintes

onde estão as variantes da feição média; - o produto das opções; f– frequência de opções.

A média geométrica é usada no cálculo das taxas médias de crescimento anual.

Quadrado médio. A fórmula da raiz quadrada média é usada para medir o grau de flutuação dos valores individuais de uma característica em torno da média aritmética na série de distribuição. Assim, ao calcular os indicadores de variação, a média é calculada a partir dos quadrados dos desvios dos valores individuais da característica da média aritmética.

O valor quadrado médio é calculado pela fórmula

Na pesquisa econômica, a forma modificada da raiz quadrada média é amplamente utilizada no cálculo de indicadores da variação de uma característica, como variância, desvio padrão.

Regra da maioria. Existe a seguinte relação entre as médias da lei de potência - quanto maior o expoente, maior o valor da média, Tabela 5.4:

Tabela 5.4

Relação entre médias

valor z

A razão entre as médias

Essa relação é chamada de regra de maioridade.

Médias estruturais. Para caracterizar a estrutura da população, são utilizados indicadores especiais, que podem ser chamados de médias estruturais. Essas medidas incluem moda, mediana, quartis e decis.

Moda. A moda (Mo) é o valor de ocorrência mais frequente de uma feição em unidades populacionais. A moda é o valor do atributo que corresponde ao ponto máximo da curva de distribuição teórica.

A moda é amplamente utilizada na prática comercial no estudo da demanda do consumidor (ao determinar os tamanhos de roupas e sapatos de grande demanda), registro de preços. Pode haver vários mods no total.

Cálculo da moda em uma série discreta. Em uma série discreta, a moda é a variante com maior frequência. Considere encontrar uma moda em uma série discreta.

Cálculo da moda em uma série intervalar. Na série de variação intervalar, a variante central do intervalo modal é aproximadamente considerada como sendo uma moda, ou seja, o intervalo que tem a maior frequência (frequência). Dentro do intervalo, é necessário encontrar o valor do atributo, que é a moda. Para uma série intervalar, a moda será determinada pela fórmula

onde é o limite inferior do intervalo modal; é o valor do intervalo modal; é a frequência correspondente ao intervalo modal; é a frequência que precede o intervalo modal; é a frequência do intervalo seguindo o modal.

Mediana. A mediana () é o valor do recurso na unidade intermediária da série classificada. Uma série classificada é uma série na qual os valores característicos são escritos em ordem crescente ou decrescente. Ou a mediana é um valor que divide o número de uma série variacional ordenada em duas partes iguais: uma parte tem um valor de um recurso variável menor que a variante média e a outra é grande.

Para encontrar a mediana, seu número de série é primeiro determinado. Para fazer isso, com um número ímpar de unidades, um é adicionado à soma de todas as frequências e tudo é dividido por dois. Com um número par de unidades, a mediana é encontrada como o valor do atributo da unidade, cujo número de série é determinado pela soma total das frequências dividida por dois. Conhecendo o número ordinal da mediana, é fácil encontrar seu valor a partir das frequências acumuladas.

Cálculo da mediana em uma série discreta. De acordo com o levantamento amostral, foram obtidos dados sobre a distribuição das famílias pelo número de filhos, Tabela. 5.5. Para determinar a mediana, primeiro determine seu número ordinal

Nessas famílias, o número de filhos é 2, portanto = 2. Assim, em 50% das famílias, o número de filhos não passa de 2.

–frequência acumulada precedendo o intervalo mediano;

Por um lado, esta é uma propriedade muito positiva. neste caso, considera-se o efeito de todas as causas que afetam todas as unidades da população em estudo. Por outro lado, mesmo uma observação que foi incluída acidentalmente nos dados iniciais pode distorcer significativamente a ideia do nível de desenvolvimento da característica em estudo na população em questão (especialmente em séries curtas).

Quartis e decis. Por analogia com encontrar a mediana em séries variacionais, pode-se encontrar o valor de um recurso em qualquer unidade de série classificada em ordem. Assim, em particular, pode-se encontrar o valor de um recurso para unidades dividindo a série em 4 partes iguais, em 10, etc.

Quartis. As variantes que dividem a série classificada em quatro partes iguais são chamadas de quartis.

Ao mesmo tempo, distinguem-se: o quartil inferior (ou primeiro) (Q1) - o valor do recurso na unidade da série ranqueada, dividindo a população na proporção de ¼ para ¾ e o superior (ou terceiro ) quartil (Q3) - o valor do recurso na unidade da série ranqueada, dividindo a população na proporção de ¾ para ¼.

– frequências de intervalos quartis (inferior e superior)

Os intervalos contendo Q1 e Q3 são determinados a partir das frequências (ou frequências) acumuladas.

Decis. Além dos quartis, são calculados os decis - opções que dividem a série ranqueada em 10 partes iguais.

Eles são indicados por D, o primeiro decil D1 divide a série na proporção de 1/10 e 9/10, o segundo D2 - 2/10 e 8/10, etc. Eles são calculados da mesma forma que a mediana e os quartis.

Tanto a mediana quanto os quartis e os decis pertencem à chamada estatística ordinal, que é entendida como uma variante que ocupa um determinado lugar ordinal em uma série ranqueada.

​ Série de variação - uma série em que são comparados (em ordem crescente ou decrescente) opções e seus respectivos frequências

Variantes são expressões quantitativas separadas de um recurso. Designado com uma letra latina V . A compreensão clássica do termo "variante" assume que cada valor único de uma característica é chamado de variante, independentemente do número de repetições.

Por exemplo, em uma série variacional de indicadores de pressão arterial sistólica medida em dez pacientes:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

apenas 6 valores são opções:

110, 120, 130, 140, 160, 170.

A frequência é um número que indica quantas vezes uma opção é repetida. Denotado por uma letra latina P . A soma de todas as frequências (que, obviamente, é igual ao número de todas as estudadas) é denotada como n.

    No nosso exemplo, as frequências assumirão os seguintes valores:
  • para a variante 110 frequência P = 1 (o valor 110 ocorre em um paciente),
  • para a variante 120 frequência P = 2 (o valor 120 ocorre em dois pacientes),
  • para a variante 130 frequência P = 3 (o valor 130 ocorre em três pacientes),
  • para a variante 140 frequência P = 2 (o valor 140 ocorre em dois pacientes),
  • para a variante 160 frequência P = 1 (o valor 160 ocorre em um paciente),
  • para a variante 170 frequência P = 1 (o valor 170 ocorre em um paciente),

Tipos de séries de variação:

  1. simples- esta é uma série em que cada opção ocorre apenas uma vez (todas as frequências são iguais a 1);
  2. suspenso- uma série em que uma ou mais opções ocorrem repetidamente.

A série de variação é usada para descrever grandes matrizes de números; é dessa forma que os dados coletados da maioria dos estudos médicos são inicialmente apresentados. Para caracterizar as séries de variação, são calculados indicadores especiais, incluindo valores médios, indicadores de variabilidade (a chamada dispersão), indicadores de representatividade dos dados amostrais.

Indicadores de série de variação

1) A média aritmética é um indicador generalizante que caracteriza o tamanho do traço estudado. A média aritmética é denotada como M , é o tipo mais comum de média. A média aritmética é calculada como a razão entre a soma dos valores dos indicadores de todas as unidades de observação e o número de todos examinados. O método de cálculo da média aritmética difere para uma série de variação simples e ponderada.

Fórmula para cálculo média aritmética simples:

Fórmula para cálculo média aritmética ponderada:

M = Σ(V * P)/ n

​ 2) Moda - outro valor médio da série de variação, correspondente à variante repetida com mais frequência. Ou, em outras palavras, esta é a opção que corresponde à frequência mais alta. Designado como mo . A moda é calculada apenas para séries ponderadas, pois nas séries simples nenhuma das opções se repete e todas as frequências são iguais a um.

Por exemplo, na série de variação dos valores da frequência cardíaca:

80, 84, 84, 86, 86, 86, 90, 94;

o valor da moda é 86, pois esta variante ocorre 3 vezes, portanto sua frequência é a mais alta.

3) Mediana - o valor da opção, dividindo a série de variação ao meio: em ambos os lados há igual número de opções. A mediana, assim como a média aritmética e a moda, referem-se a valores médios. Designado como Eu

4) Desvio padrão (sinônimos: desvio padrão, desvio sigma, sigma) - uma medida da variabilidade da série de variação. É um indicador integral que combina todos os casos de desvio de uma variante da média. Na verdade, ele responde à pergunta: até que ponto e com que frequência as opções se distanciam da média aritmética. Denotado por uma letra grega σ ("sigmas").

Quando o tamanho da população é superior a 30 unidades, o desvio padrão é calculado usando a seguinte fórmula:

Para populações pequenas - 30 unidades de observação ou menos - o desvio padrão é calculado usando uma fórmula diferente:

(definição de uma série variacional; componentes de uma série variacional; três formas de uma série variacional; conveniência de construir uma série intervalar; conclusões que podem ser tiradas da série construída)

Uma série variacional é uma sequência de todos os elementos de uma amostra dispostos em ordem não decrescente. Os mesmos elementos são repetidos

Variacional - são séries construídas em bases quantitativas.

As séries de distribuição variacional consistem em dois elementos: variantes e frequências:

Variantes são os valores numéricos de um traço quantitativo na série de variação da distribuição. Eles podem ser positivos ou negativos, absolutos ou relativos. Assim, ao agrupar as empresas de acordo com os resultados da atividade econômica, as opções são positivas - isso é lucro e números negativos - isso é uma perda.

As frequências são os números de variantes individuais ou cada grupo da série de variações, ou seja, são números que mostram com que frequência certas opções ocorrem em uma série de distribuição. A soma de todas as frequências é chamada de volume da população e é determinada pelo número de elementos de toda a população.

Frequências são frequências expressas como valores relativos (frações de unidades ou porcentagens). A soma das frequências é igual a um ou 100%. A substituição de frequências por frequências permite comparar séries variacionais com diferentes números de observações.

Existem três formas de séries de variação: série ranqueada, série discreta e série intervalar.

Uma série ranqueada é a distribuição de unidades individuais da população em ordem crescente ou decrescente da característica em estudo. A classificação facilita a divisão de dados quantitativos em grupos, detecta imediatamente os menores e maiores valores de um recurso, destaca os valores que são repetidos com mais frequência.

Outras formas da série de variação são tabelas de grupos compiladas de acordo com a natureza da variação nos valores da característica em estudo. Pela natureza da variação, distinguem-se sinais discretos (descontínuos) e contínuos.

Uma série discreta é uma série variacional, cuja construção é baseada em sinais com uma mudança descontínua (sinais discretos). Estes últimos incluem a categoria tarifária, o número de filhos na família, o número de funcionários da empresa, etc. Esses sinais podem assumir apenas um número finito de certos valores.

Uma série variacional discreta é uma tabela que consiste em duas colunas. A primeira coluna indica o valor específico do atributo e a segunda - o número de unidades populacionais com um valor específico do atributo.

Se um sinal tiver uma mudança contínua (quantidade de renda, experiência de trabalho, custo de ativos fixos de uma empresa, etc., que pode assumir qualquer valor dentro de certos limites), uma série de variação de intervalo deve ser construída para esse sinal.



A tabela de grupo aqui também tem duas colunas. O primeiro indica o valor do recurso no intervalo "de - para" (opções), o segundo - o número de unidades incluídas no intervalo (frequência).

Frequência (frequência de repetição) - o número de repetições de uma determinada variante dos valores do atributo, denotado por fi , e a soma das frequências igual ao volume da população estudada, denotada

Onde k é o número de opções de valor de atributo

Muitas vezes, a tabela é complementada com uma coluna na qual são calculadas as frequências acumuladas S, que mostram quantas unidades da população têm um valor de recurso não maior que esse valor.

Uma série de distribuição variacional discreta é uma série na qual os grupos são compostos de acordo com uma característica que varia discretamente e assume apenas valores inteiros.

A série de distribuição de variação de intervalo é uma série na qual o atributo de agrupamento, que forma a base do agrupamento, pode assumir quaisquer valores em um determinado intervalo, inclusive os fracionários.

Uma série variacional de intervalo é um conjunto ordenado de intervalos de variação dos valores de uma variável aleatória com as frequências ou frequências correspondentes dos valores da quantidade que caem em cada um deles.

É conveniente construir uma série de distribuição intervalar, em primeiro lugar, com uma variação contínua de um traço, e também se uma variação discreta se manifestar em uma ampla faixa, ou seja, o número de opções para um recurso discreto é bastante grande.

Várias conclusões já podem ser tiradas desta série. Por exemplo, o elemento médio de uma série de variação (mediana) pode ser uma estimativa do resultado mais provável de uma medição. O primeiro e o último elemento da série variacional (ou seja, o elemento mínimo e máximo da amostra) mostram a dispersão dos elementos da amostra. Às vezes, se o primeiro ou último elemento for muito diferente do restante da amostra, eles são excluídos dos resultados da medição, considerando que esses valores foram obtidos como resultado de algum tipo de falha grosseira, por exemplo, tecnologia.