Séries de variação discreta na definição estatística. Série de Variações

O conjunto de valores do parâmetro estudado em um determinado experimento ou observação, classificado por magnitude (aumento ou diminuição) é chamado de série de variação.

Vamos supor que medimos a pressão arterial de dez pacientes para obter um limiar de PA superior: pressão sistólica, ou seja, apenas um número.

Imagine que uma série de observações (população estatística) da pressão sistólica arterial em 10 observações tenha a seguinte forma (Tabela 1):

tabela 1

Os componentes de uma série variacional são chamados de variantes. As variantes representam o valor numérico da característica que está sendo estudada.

A construção de uma série variacional a partir de um conjunto estatístico de observações é apenas o primeiro passo para a compreensão das características de todo o conjunto. Em seguida, é necessário determinar o nível médio do traço quantitativo estudado (o nível médio de proteína no sangue, o peso médio dos pacientes, o tempo médio de início da anestesia etc.)

O nível médio é medido usando critérios que são chamados de médias. O valor médio é uma característica numérica generalizante de valores qualitativamente homogêneos, caracterizando por um número toda a população estatística de acordo com um atributo. O valor médio expressa o geral que é característico de um traço em um determinado conjunto de observações.

Existem três tipos de médias de uso comum: moda (), mediana () e média aritmética ().

Para determinar qualquer valor médio, é necessário utilizar os resultados das observações individuais, escrevendo-os na forma de uma série de variação (Tabela 2).

Moda- o valor que ocorre com mais frequência em uma série de observações. No nosso exemplo, moda = 120. Se não houver valores repetidos na série de variação, eles dizem que não há moda. Se vários valores forem repetidos o mesmo número de vezes, o menor deles será considerado a moda.

Mediana- o valor que divide a distribuição em duas partes iguais, o valor central ou mediano de uma série de observações ordenadas em ordem crescente ou decrescente. Então, se houver 5 valores na série variacional, então sua mediana é igual ao terceiro membro da série variacional, se houver um número par de membros na série, então a mediana é a média aritmética de seus dois observações centrais, ou seja, se houver 10 observações na série, então a mediana é igual à média aritmética de 5 e 6 observações. No nosso exemplo.

Observe uma característica importante da moda e da mediana: seus valores não são afetados pelos valores numéricos das variantes extremas.

Média aritmética calculado pela fórmula:

onde é o valor observado na -ésima observação e é o número de observações. Para o nosso caso.

A média aritmética tem três propriedades:

O do meio ocupa a posição intermediária na série de variação. Em uma linha estritamente simétrica.

A média é um valor generalizante e as flutuações aleatórias, as diferenças nos dados individuais não são visíveis por trás da média. Reflete o típico que é característico de toda a população.

A soma dos desvios de todas as variantes da média é igual a zero: . O desvio da variante da média é indicado.

A série de variação consiste em variantes e suas frequências correspondentes. Dos dez valores obtidos, o número 120 foi encontrado 6 vezes, 115 - 3 vezes, 125 - 1 vez. Frequência () - o número absoluto de opções individuais na população, indicando quantas vezes essa opção ocorre na série de variação.

A série de variação pode ser simples (frequências = 1) ou agrupada abreviada, 3-5 opções cada. Uma série simples é usada com um pequeno número de observações (), agrupadas - com um grande número de observações ().

Série de variação: definição, tipos, principais características. Método de cálculo
moda, mediana, média aritmética em estudos médicos e estatísticos
(Mostrar em um exemplo condicional).

Uma série variacional é uma série de valores numéricos da característica em estudo, que diferem entre si em sua magnitude e estão dispostos em uma determinada sequência (em ordem crescente ou decrescente). Cada valor numérico da série é chamado de variante (V), e os números que mostram a frequência com que essa ou aquela variante ocorre na composição dessa série é chamado de frequência (p).

O número total de casos de observações, dos quais consiste a série de variação, é indicado pela letra n. A diferença no significado das características estudadas é chamada de variação. Se o sinal da variável não tiver uma medida quantitativa, a variação é chamada de qualitativa e a série de distribuição é chamada de atributiva (por exemplo, distribuição por desfecho de doença, estado de saúde etc.).

Se um sinal de variável tem uma expressão quantitativa, tal variação é chamada de quantitativa e a série de distribuição é chamada de variacional.

As séries variacionais são divididas em descontínuas e contínuas - de acordo com a natureza do traço quantitativo, simples e ponderadas - de acordo com a frequência de ocorrência da variante.

Em uma série variacional simples, cada variante ocorre apenas uma vez (p=1), em uma ponderada, a mesma variante ocorre várias vezes (p>1). Exemplos de tais séries serão discutidos mais adiante no texto. Se o atributo quantitativo for contínuo, ou seja, entre valores inteiros existem valores fracionários intermediários, a série variacional é chamada de contínua.

Por exemplo: 10,0 - 11,9

14,0 - 15,9, etc.

Se o sinal quantitativo for descontínuo, ou seja, seus valores individuais (opções) diferem entre si por um inteiro e não possuem valores fracionários intermediários, a série de variação é chamada de descontínua ou discreta.

Usando os dados do exemplo anterior sobre a frequência cardíaca

para 21 alunos, construiremos uma série de variações (Tabela 1).

tabela 1

Distribuição dos estudantes de medicina por frequência de pulso (bpm)

Assim, construir uma série variacional significa sistematizar, racionalizar os valores numéricos existentes (opções), ou seja, organizar em uma certa sequência (em ordem crescente ou decrescente) com suas frequências correspondentes. No exemplo em consideração, as opções são organizadas em ordem crescente e são expressas como inteiros descontínuos (discretos), cada opção ocorre várias vezes, ou seja, estamos lidando com uma série variacional ponderada, descontínua ou discreta.

Como regra, se o número de observações na população estatística que estamos estudando não exceder 30, basta organizar todos os valores da característica em estudo em uma série variacional em ordem crescente, como na Tabela. 1, ou em ordem decrescente.

Com um grande número de observações (n>30), o número de variantes ocorrendo pode ser muito grande, neste caso é compilado um intervalo ou série variacional agrupada, na qual, para simplificar o processamento posterior e esclarecer a natureza da distribuição, o variantes são combinadas em grupos.

Normalmente, o número de opções de grupo varia de 8 a 15.

Deve haver pelo menos 5 deles, porque. caso contrário, será muito áspero, alargamento excessivo, o que distorce o quadro geral de variação e afeta muito a precisão dos valores médios. Quando o número de opções de grupo é superior a 20-25, a precisão do cálculo dos valores médios aumenta, mas os recursos da variação do atributo são significativamente distorcidos e o processamento matemático se torna mais complicado.

Ao compilar uma série agrupada, é necessário levar em consideração

− os grupos de variantes devem ser colocados em uma ordem específica (crescente ou decrescente);

- os intervalos nos grupos de variantes devem ser os mesmos;

− os valores dos limites dos intervalos não devem coincidir, pois não ficará claro em quais grupos atribuir opções individuais;

- é necessário levar em consideração as características qualitativas do material coletado ao definir os limites dos intervalos (por exemplo, ao estudar o peso de adultos, um intervalo de 3-4 kg é aceitável e para crianças nos primeiros meses de vida não deve exceder 100 g.)

Vamos construir uma série agrupada (intervalo) que caracterize os dados da pulsação (número de batimentos por minuto) para 55 estudantes de medicina antes do exame: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Para construir uma série agrupada, você precisa:

1. Determine o valor do intervalo;

2. Determinar o meio, início e fim dos grupos da variante da série de variação.

● O valor do intervalo (i) é determinado pelo número de grupos esperados (r), cujo número é definido dependendo do número de observações (n) de acordo com uma tabela especial

Número de grupos dependendo do número de observações:

No nosso caso, para 55 alunos, é possível formar de 8 a 10 grupos.

O valor do intervalo (i) é determinado pela seguinte fórmula -

i = Vmax-Vmin/r

Em nosso exemplo, o valor do intervalo é 82-58/8= 3.

Se o valor do intervalo for um número fracionário, o resultado deverá ser arredondado para um número inteiro.

Existem vários tipos de médias:

● média aritmética,

● média geométrica,

● média harmônica,

● raiz quadrada média,

● médio progressivo,

● mediana

Em estatísticas médicas, as médias aritméticas são mais frequentemente usadas.

A média aritmética (M) é um valor generalizante que determina o valor típico que é característico de toda a população. Os principais métodos de cálculo de M são: o método da média aritmética e o método dos momentos (desvios condicionais).

O método da média aritmética é usado para calcular a média aritmética simples e a média aritmética ponderada. A escolha do método de cálculo da média aritmética depende do tipo de série de variação. No caso de uma série variacional simples, em que cada variante ocorre apenas uma vez, a média aritmética simples é determinada pela fórmula:

onde: М – valor da média aritmética;

V é o valor da variável feature (opções);

Σ - indica a ação - somatória;

n é o número total de observações.

Um exemplo de cálculo da média aritmética é simples. Frequência respiratória (número de respirações por minuto) em 9 homens com 35 anos: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Para determinar o nível médio de frequência respiratória em homens de 35 anos, é necessário:

1. Construir uma série variacional, colocando todas as opções em ordem crescente ou decrescente. Obtivemos uma série variacional simples, porque os valores variantes ocorrem apenas uma vez.

M = ∑V/n = 171/9 = 19 respirações por minuto

Conclusão. A frequência respiratória em homens com 35 anos é, em média, 19 respirações por minuto.

Se os valores individuais de uma variante forem repetidos, não há necessidade de escrever cada variante em uma linha; basta listar os tamanhos da variante que ocorrem (V) e, em seguida, indicar o número de suas repetições (p ). tal série variacional, em que as opções são, por assim dizer, ponderadas de acordo com o número de frequências que lhes correspondem, é chamada de série variacional ponderada, e o valor médio calculado é a média aritmética ponderada.

A média aritmética ponderada é determinada pela fórmula: M= ∑Vp/n

onde n é o número de observações igual à soma das frequências - Σr.

Um exemplo de cálculo da média ponderada aritmética.

A duração da incapacidade (em dias) em 35 pacientes com doenças respiratórias agudas (IRA) atendidos por um médico local durante o primeiro trimestre do ano atual foi: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 dias.

A metodologia para determinar a duração média da incapacidade em pacientes com infecções respiratórias agudas é a seguinte:

1. Vamos construir uma série variacional ponderada, porque valores de variantes individuais são repetidos várias vezes. Para fazer isso, você pode organizar todas as opções em ordem crescente ou decrescente com suas frequências correspondentes.

No nosso caso, as opções estão em ordem crescente.

2. Calcule a média ponderada aritmética usando a fórmula: M = ∑Vp/n = 233/35 = 6,7 dias

Distribuição de pacientes com infecções respiratórias agudas por duração da incapacidade:

Duração da incapacidade para o trabalho (V) Número de pacientes (p) vp
∑p = n = 35 ∑Vp = 233

Conclusão. A duração da incapacidade em pacientes com doenças respiratórias agudas foi em média 6,7 ​​dias.

A Moda (Mo) é a variante mais comum na série de variação. Para a distribuição apresentada na tabela, a moda corresponde à variante igual a 10, ocorre com mais frequência que outras - 6 vezes.

Distribuição dos pacientes por tempo de permanência em leito hospitalar (em dias)

V
p

Às vezes é difícil determinar o valor exato da moda, pois pode haver várias observações nos dados em estudo que ocorrem “com mais frequência”.

A mediana (Me) é um indicador não paramétrico que divide a série de variação em duas metades iguais: o mesmo número de opções está localizado em ambos os lados da mediana.

Por exemplo, para a distribuição mostrada na tabela, a mediana é 10 porque em ambos os lados deste valor está localizado na 14ª opção, ou seja, o número 10 ocupa uma posição central nesta série e é sua mediana.

Dado que o número de observações neste exemplo é par (n=34), a mediana pode ser determinada da seguinte forma:

Eu = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Isso significa que o meio da série recai na décima sétima opção, que corresponde a uma mediana de 10. Para a distribuição apresentada na tabela, a média aritmética é:

M = ∑Vp/n = 334/34 = 10,1

Assim, para 34 observações da Tabela. 8, temos: Mo=10, Me=10, média aritmética (M) é 10,1. Em nosso exemplo, todos os três indicadores se mostraram iguais ou próximos uns dos outros, embora sejam completamente diferentes.

A média aritmética é a soma resultante de todas as influências; todas as variantes, sem exceção, participam de sua formação, inclusive as extremas, muitas vezes atípicas para um determinado fenômeno ou conjunto.

A moda e a mediana, em contraste com a média aritmética, não dependem do valor de todos os valores individuais do atributo variável (os valores das variantes extremas e o grau de dispersão da série). A média aritmética caracteriza toda a massa de observações, a moda e a mediana caracterizam a massa

O método de agrupamento também permite medir variação(variabilidade, flutuação) de sinais. Com um número relativamente pequeno de unidades populacionais, a variação é medida com base em uma série ordenada de unidades que compõem a população. A linha é chamada classificado se as unidades estiverem dispostas em característica ascendente (descendente).

No entanto, as séries classificadas são bastante indicativas quando uma característica comparativa de variação é necessária. Além disso, em muitos casos é preciso lidar com agregados estatísticos constituídos por um grande número de unidades, que são praticamente difíceis de representar na forma de uma série específica. Nesse sentido, para o conhecimento geral inicial dos dados estatísticos e principalmente para facilitar o estudo da variação dos sinais, os fenômenos e processos estudados geralmente são combinados em grupos, e os resultados do agrupamento são elaborados na forma de tabelas de grupos. .

Se houver apenas duas colunas na tabela de grupos - grupos de acordo com o recurso selecionado (opções) e o número de grupos (frequências ou frequências), é chamado próximo à distribuição.

Faixa de distribuição - o tipo mais simples de agrupamento estrutural de acordo com um atributo, exibido em uma tabela de grupos com duas colunas contendo variantes e frequências do atributo. Em muitos casos, com tal agrupamento estrutural, ou seja, com a compilação das séries de distribuição, inicia-se o estudo do material estatístico inicial.

O agrupamento estrutural na forma de série de distribuição pode se transformar em um verdadeiro agrupamento estrutural se os grupos selecionados forem caracterizados não apenas por frequências, mas também por outros indicadores estatísticos. O principal objetivo das séries de distribuição é estudar a variação das características. A teoria das séries de distribuição é desenvolvida em detalhes pela estatística matemática.

As séries de distribuição são divididas em atributivo(agrupamento por características atributivas, por exemplo, a divisão da população por sexo, nacionalidade, estado civil, etc.) e variacional(agrupamento por características quantitativas).

Série de variaçãoé uma tabela de grupo que contém duas colunas: um agrupamento de unidades de acordo com um atributo quantitativo e o número de unidades em cada grupo. Os intervalos na série de variação são geralmente formados iguais e fechados. A série de variação é o seguinte agrupamento da população russa em termos de renda monetária per capita média (Tabela 3.10).

Tabela 3.10

Distribuição da população da Rússia por renda média per capita em 2004-2009

Grupos populacionais por renda média em dinheiro per capita, rub./mês

População do grupo, em % do total

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Mais de 25.000,0

Toda a população

As séries variacionais, por sua vez, são divididas em discretas e intervalares. Discreto As séries de variação combinam variantes de recursos discretos que variam dentro de limites estreitos. Um exemplo de série de variação discreta é a distribuição das famílias russas de acordo com o número de filhos que têm.

Intervalo As séries variacionais combinam variantes de recursos contínuos ou discretos que mudam em uma ampla faixa. A série intervalar é a série variacional da distribuição da população russa em termos de renda monetária per capita média.

Séries variacionais discretas não são usadas com muita frequência na prática. Entretanto, compilá-los não é difícil, pois a composição dos grupos é determinada pelas variantes específicas que as características dos agrupamentos estudados realmente possuem.

As séries variacionais intervalares são mais difundidas. Ao compilá-los, surge a difícil questão do número de grupos, bem como o tamanho dos intervalos que devem ser estabelecidos.

Os princípios para a resolução desta questão são apresentados no capítulo sobre a metodologia de construção de agrupamentos estatísticos (ver ponto 3.3).

As séries de variação são um meio de recolher ou comprimir diversas informações em uma forma compacta; elas podem ser usadas para fazer um julgamento bastante claro sobre a natureza da variação, para estudar as diferenças nos sinais dos fenômenos incluídos no conjunto em estudo. Mas o significado mais importante da série variacional é que, com base nelas, são calculadas as características generalizantes especiais da variação (ver Capítulo 7).

Um lugar especial na análise estatística pertence à determinação do nível médio da característica ou fenômeno estudado. O nível médio de um recurso é medido por valores médios.

O valor médio caracteriza o nível quantitativo geral do traço estudado e é uma propriedade de grupo da população estatística. Ele nivela, enfraquece os desvios aleatórios de observações individuais em uma direção ou outra e destaca a propriedade principal e típica da característica em estudo.

As médias são amplamente utilizadas:

1. Avaliar o estado de saúde da população: características do desenvolvimento físico (altura, peso, circunferência torácica, etc.), identificar a prevalência e duração de várias doenças, analisar indicadores demográficos (movimento natural da população, esperança média de vida, reprodução da população , população média e etc.).

2. Estudar as atividades das instituições médicas, pessoal médico e avaliar a qualidade do seu trabalho, planejando e determinando as necessidades da população em vários tipos de cuidados médicos (número médio de pedidos ou visitas por habitante por ano, tempo médio de permanência de um paciente em um hospital, duração média do paciente de exame, provisão média de médicos, leitos, etc.).

3. Caracterizar o estado sanitário e epidemiológico (poeira média do ar na oficina, área média por pessoa, consumo médio de proteínas, gorduras e carboidratos, etc.).

4. Determinar os parâmetros médicos e fisiológicos na norma e patologia, no processamento de dados laboratoriais, para estabelecer a confiabilidade dos resultados de um estudo seletivo em estudos socio-higiênicos, clínicos e experimentais.

O cálculo dos valores médios é realizado com base nas séries de variação. Série de variação- trata-se de um conjunto estatístico qualitativamente homogêneo, cujas unidades individuais caracterizam as diferenças quantitativas da característica ou fenômeno estudado.

A variação quantitativa pode ser de dois tipos: descontínua (discreta) e contínua.

Um sinal descontínuo (discreto) é expresso apenas como um número inteiro e não pode ter valores intermediários (por exemplo, o número de visitas, a população do local, o número de filhos na família, a gravidade da doença em pontos , etc).

Um sinal contínuo pode assumir qualquer valor dentro de certos limites, incluindo fracionários, e é expresso apenas aproximadamente (por exemplo, peso - para adultos, você pode se limitar a quilogramas e para recém-nascidos - gramas; altura, pressão arterial, tempo gasto em ver um paciente, e etc.).



O valor digital de cada característica ou fenômeno individual incluído na série de variação é chamado de variante e é indicado pela letra V . Existem também outras notações na literatura matemática, por exemplo x ou sim

Uma série variacional, onde cada opção é indicada uma vez, é chamada de simples. Tais séries são usadas na maioria dos problemas estatísticos no caso de processamento de dados por computador.

Com um aumento no número de observações, como regra, há valores repetidos da variante. Neste caso, cria série de variação agrupada, onde é indicado o número de repetições (frequência, denotada pela letra " R »).

Série de variação classificada consiste em opções organizadas em ordem crescente ou decrescente. Tanto as séries simples quanto as agrupadas podem ser compostas com classificação.

Série de variação de intervalo são constituídos para simplificar cálculos posteriores realizados sem o uso de computador, com um número muito grande de unidades de observação (mais de 1000).

Série de variação contínua inclui valores variantes, que podem ser qualquer valor.

Se na série de variação os valores do atributo (opções) forem fornecidos na forma de números específicos separados, essa série será chamada discreto.

As características gerais dos valores do atributo refletidos na série de variação são os valores médios. Dentre eles, os mais utilizados são: a média aritmética M, moda Mo e mediana Eu. Cada uma dessas características é única. Eles não podem substituir um ao outro, e apenas no agregado, de forma bastante completa e concisa, são as características da série variacional.

Moda (Mo) nomeie o valor das opções que ocorrem com mais frequência.

Mediana (Eu) é o valor da variante dividindo a série variacional variada pela metade (em cada lado da mediana há uma metade da variante). Em casos raros, quando há uma série de variação simétrica, a moda e a mediana são iguais e coincidem com o valor da média aritmética.

A característica mais típica dos valores variantes é média aritmética valor( M ). Na literatura matemática, é denotado .

Média aritmética (M, ) é uma característica quantitativa geral de uma determinada característica dos fenômenos estudados, que compõem um conjunto estatístico qualitativamente homogêneo. Distinguir média aritmética simples e média ponderada. A média aritmética simples é calculada para uma série variacional simples somando todas as opções e dividindo esta soma pelo número total de opções incluídas nesta série variacional. Os cálculos são realizados de acordo com a fórmula:

,

Onde: M - média aritmética simples;

Σ V - opção de quantidade;

n- número de observações.

Na série de variação agrupada, é determinada uma média aritmética ponderada. A fórmula para o seu cálculo:

,

Onde: M - média aritmética ponderada;

Σ vp - a soma dos produtos de uma variante em suas frequências;

n- número de observações.

Com um grande número de observações no caso de cálculos manuais, o método dos momentos pode ser utilizado.

A média aritmética tem as seguintes propriedades:

a soma dos desvios da variante da média ( Σ d ) é igual a zero (ver Tabela 15);

Ao multiplicar (dividir) todas as opções pelo mesmo fator (divisor), a média aritmética é multiplicada (dividida) pelo mesmo fator (divisor);

Se você adicionar (subtrair) o mesmo número a todas as opções, a média aritmética aumentará (diminuirá) pelo mesmo número.

As médias aritméticas, tomadas por si mesmas, sem levar em conta a variabilidade das séries a partir das quais são calculadas, podem não refletir plenamente as propriedades das séries de variação, principalmente quando é necessária a comparação com outras médias. Valores médios próximos em valor podem ser obtidos a partir de séries com diferentes graus de dispersão. Quanto mais próximas as opções individuais estiverem umas das outras em termos de suas características quantitativas, menos espalhamento (flutuação, variabilidade) série, mais típica é a sua média.

Os principais parâmetros que permitem avaliar a variabilidade de uma característica são:

· alcance;

Amplitude;

· Desvio padrão;

· O coeficiente de variação.

Aproximadamente, a flutuação de uma característica pode ser julgada pelo escopo e amplitude da série de variação. A faixa indica as opções máxima (V max) e mínima (V min) na série. A amplitude (A m) é a diferença entre estas opções: A m = V max - V min .

A principal medida geralmente aceita da flutuação da série variacional é dispersão (D ). Mas o parâmetro mais conveniente é usado com mais frequência, calculado com base na variância - o desvio padrão ( σ ). Leva em consideração o valor do desvio ( d ) de cada variante da série de variação de sua média aritmética ( d=V - M ).

Como os desvios da variante da média podem ser positivos e negativos, quando somados dão o valor "0" (S d=0). Para evitar isso, os valores de desvio ( d) são elevados à segunda potência e calculados a média. Assim, a variância da série variacional é o quadrado médio dos desvios da variante da média aritmética e é calculada pela fórmula:

.

É a característica mais importante da variabilidade e é usada para calcular muitos testes estatísticos.

Como a variância é expressa como o quadrado dos desvios, seu valor não pode ser usado em comparação com a média aritmética. Para estes fins, utiliza-se desvio padrão, que é indicado pelo sinal "Sigma" ( σ ). Caracteriza o desvio médio de todas as variantes da série de variação da média aritmética nas mesmas unidades que a própria média, para que possam ser usadas em conjunto.

O desvio padrão é determinado pela fórmula:

Esta fórmula é aplicada para o número de observações ( n ) é maior que 30. Com um número menor n o valor do desvio padrão terá um erro associado ao viés matemático ( n - 1). A esse respeito, um resultado mais preciso pode ser obtido levando em consideração esse viés na fórmula para calcular o desvio padrão:

desvio padrão (s ) é uma estimativa do desvio padrão da variável aleatória X em relação à sua expectativa matemática com base em uma estimativa imparcial de sua variância.

Para valores n > 30 desvio padrão ( σ ) e desvio padrão ( s ) será o mesmo ( σ=s ). Portanto, na maioria dos manuais práticos, esses critérios são tratados como tendo significados diferentes. No Excel, o cálculo do desvio padrão pode ser feito com a função =STDEV(intervalo). E para calcular o desvio padrão, você precisa criar uma fórmula apropriada.

A raiz quadrada média ou desvio padrão permite determinar o quanto os valores de um recurso podem diferir do valor médio. Suponha que existam duas cidades com a mesma temperatura média diária no verão. Uma dessas cidades está localizada na costa e a outra no continente. Sabe-se que em cidades localizadas no litoral, as diferenças de temperaturas diurnas são menores do que em cidades localizadas no interior. Portanto, o desvio padrão das temperaturas diurnas perto da cidade litorânea será menor que o da segunda cidade. Na prática, isso significa que a temperatura média do ar de cada dia em uma cidade localizada no continente diferirá mais da média do que em uma cidade litorânea. Além disso, o desvio padrão permite estimar possíveis desvios de temperatura da média com o nível de probabilidade necessário.

De acordo com a teoria da probabilidade, em fenômenos que obedecem à lei da distribuição normal, existe uma relação estrita entre os valores da média aritmética, desvio padrão e opções ( regra de três sigma). Por exemplo, 68,3% dos valores de um atributo variável estão dentro de M ± 1 σ , 95,5% - dentro de M ± 2 σ e 99,7% - dentro de M ± 3 σ .

O valor do desvio padrão permite julgar a natureza da homogeneidade da série de variação e do grupo em estudo. Se o valor do desvio padrão for pequeno, isso indica uma homogeneidade suficientemente alta do fenômeno em estudo. A média aritmética neste caso deve ser reconhecida como bastante característica desta série variacional. No entanto, um sigma muito pequeno faz pensar em uma seleção artificial de observações. Com um sigma muito grande, a média aritmética caracteriza menos a série de variação, o que indica uma variabilidade significativa do traço ou fenômeno estudado ou a heterogeneidade do grupo de estudo. No entanto, a comparação do valor do desvio padrão só é possível para sinais da mesma dimensão. De fato, se compararmos a diversidade de peso de recém-nascidos e adultos, sempre obteremos valores sigma mais altos em adultos.

A comparação da variabilidade de recursos de diferentes dimensões pode ser realizada usando coeficiente de variação. Expressa a diversidade como uma porcentagem da média, o que permite a comparação de diferentes características. O coeficiente de variação na literatura médica é indicado pelo sinal " A PARTIR DE ", e na matemática " v» e calculado pela fórmula:

.

Os valores do coeficiente de variação inferiores a 10% indicam um pequeno espalhamento, de 10 a 20% - sobre a média, mais de 20% - sobre um forte espalhamento em torno da média aritmética.

A média aritmética é geralmente calculada com base nos dados da amostra. Com estudos repetidos sob a influência de fenômenos aleatórios, a média aritmética pode mudar. Isso se deve ao fato de que, via de regra, apenas uma parte das possíveis unidades de observação, ou seja, uma amostra populacional, é investigada. Informações sobre todas as unidades possíveis que representam o fenômeno em estudo podem ser obtidas estudando toda a população geral, o que nem sempre é possível. Ao mesmo tempo, para generalizar os dados experimentais, o valor da média na população geral é de interesse. Portanto, para formular uma conclusão geral sobre o fenômeno em estudo, os resultados obtidos com base na população amostral devem ser transferidos para a população geral por métodos estatísticos.

Para determinar o grau de concordância entre o estudo amostral e a população geral, é necessário estimar a quantidade de erro que inevitavelmente surge durante a observação da amostra. Tal erro é chamado erro de representatividade” ou “Erro médio da média aritmética”. É, na verdade, a diferença entre as médias obtidas a partir da observação estatística seletiva e valores semelhantes que seriam obtidos a partir de um estudo contínuo do mesmo objeto, ou seja, ao estudar a população em geral. Como a média amostral é uma variável aleatória, tal previsão é feita com um nível de probabilidade aceitável para o pesquisador. Na pesquisa médica, é de pelo menos 95%.

O erro de representatividade não deve ser confundido com erros de registro ou erros de atenção (erros de impressão, erros de cálculo, erros de impressão etc.), que devem ser minimizados por uma metodologia e ferramentas adequadas utilizadas no experimento.

A magnitude do erro de representatividade depende tanto do tamanho da amostra quanto da variabilidade da característica. Quanto maior o número de observações, mais próxima a amostra da população geral e menor o erro. Quanto mais variável a característica, maior o erro estatístico.

Na prática, a seguinte fórmula é usada para determinar o erro de representatividade em séries variacionais:

,

Onde: m – erro de representatividade;

σ - desvio padrão;

né o número de observações na amostra.

Pode-se ver pela fórmula que o tamanho do erro médio é diretamente proporcional ao desvio padrão, ou seja, a variabilidade da característica em estudo, e inversamente proporcional à raiz quadrada do número de observações.

Ao realizar a análise estatística com base no cálculo de valores relativos, não é obrigatória a construção de uma série de variação. Nesse caso, a determinação do erro médio para indicadores relativos pode ser realizada por meio de uma fórmula simplificada:

,

Onde: R- o valor do indicador relativo, expresso em percentagem, ppm, etc.;

q- o recíproco de P e expresso como (1-P), (100-P), (1000-P), etc., dependendo da base para a qual o indicador é calculado;

né o número de observações na amostra.

No entanto, a fórmula indicada para cálculo do erro de representatividade para valores relativos só pode ser aplicada quando o valor do indicador for menor que sua base. Em vários casos de cálculo de indicadores intensivos, essa condição não é atendida, e o indicador pode ser expresso como um número superior a 100% ou 1000%o. Em tal situação, uma série de variação é construída e o erro de representatividade é calculado usando a fórmula para valores médios com base no desvio padrão.

A previsão do valor da média aritmética na população geral é realizada com a indicação de dois valores - o mínimo e o máximo. Esses valores extremos de possíveis desvios, dentro dos quais o valor médio desejado da população geral pode flutuar, são chamados de " Limites de confiança».

Os postulados da teoria da probabilidade provaram que, com uma distribuição normal de um recurso com probabilidade de 99,7%, os valores extremos dos desvios da média não excederão o valor do triplo erro de representatividade ( M ± 3 m ); em 95,5% - não mais do que o valor do erro médio dobrado do valor médio ( M ±2 m ); em 68,3% - não mais do que o valor de um erro médio ( M ± 1 m ) (Fig. 9).

P%

Arroz. 9. Densidade de probabilidade de distribuição normal.

Observe que a afirmação acima é verdadeira apenas para uma característica que obedece à lei de distribuição gaussiana normal.

A maioria dos estudos experimentais, incluindo os da área da medicina, está associada a medidas, cujos resultados podem assumir praticamente qualquer valor em um determinado intervalo, portanto, via de regra, são descritos por um modelo de variáveis ​​aleatórias contínuas. Nesse sentido, a maioria dos métodos estatísticos considera distribuições contínuas. Uma dessas distribuições, que desempenha um papel fundamental na estatística matemática, é distribuição normal ou gaussiana.

Isto é devido a uma série de razões.

1. Em primeiro lugar, muitas observações experimentais podem ser descritas com sucesso usando uma distribuição normal. Deve-se notar imediatamente que não há distribuições de dados empíricos que seriam exatamente normais, uma vez que uma variável aleatória normalmente distribuída está na faixa de a , o que nunca ocorre na prática. No entanto, a distribuição normal é muitas vezes uma boa aproximação.

Se as medições de peso, altura e outros parâmetros fisiológicos do corpo humano são realizadas - em todos os lugares, um número muito grande de fatores aleatórios (causas naturais e erros de medição) influenciam os resultados. E, via de regra, o efeito de cada um desses fatores é insignificante. A experiência mostra que os resultados nesses casos serão distribuídos aproximadamente normalmente.

2. Muitas distribuições associadas a uma amostra aleatória, com aumento do volume desta, tornam-se normais.

3. A distribuição normal é adequada como uma descrição aproximada de outras distribuições contínuas (por exemplo, assimétricas).

4. A distribuição normal tem uma série de propriedades matemáticas favoráveis, que em grande parte garantiram seu uso generalizado em estatística.

Ao mesmo tempo, deve-se notar que em dados médicos existem muitas distribuições experimentais que não podem ser descritas pelo modelo de distribuição normal. Para fazer isso, as estatísticas desenvolveram métodos que são comumente chamados de "não paramétricos".

A escolha de um método estatístico adequado para processar os dados de um determinado experimento deve ser feita dependendo se os dados obtidos pertencem à lei de distribuição normal. O teste de hipóteses para a subordinação de um sinal à lei da distribuição normal é realizado usando um histograma da distribuição de frequência (gráfico), bem como uma série de critérios estatísticos. Entre eles:

Critério de assimetria ( b );

Critérios para verificação de curtose ( g );

Critério de Shapiro-Wilks ( C ) .

Uma análise da natureza da distribuição dos dados (também chamada de teste de normalidade da distribuição) é realizada para cada parâmetro. Para julgar com confiança a conformidade da distribuição de parâmetros com a lei normal, é necessário um número suficientemente grande de unidades de observação (pelo menos 30 valores).

Para uma distribuição normal, os critérios de assimetria e curtose assumem o valor 0. Se a distribuição for deslocada para a direita b > 0 (assimetria positiva), com b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. No g > 0 a curva de distribuição é mais nítida se g < 0 пик более сглаженный, чем функция нормального распределения.

Para testar a normalidade usando o teste de Shapiro-Wilks, é necessário encontrar o valor desse critério usando tabelas estatísticas no nível de significância exigido e dependendo do número de unidades de observação (graus de liberdade). Anexo 1. A hipótese de normalidade é rejeitada para valores pequenos deste critério, via de regra, para W <0,8.

(definição de uma série variacional; componentes de uma série variacional; três formas de uma série variacional; conveniência de construir uma série intervalar; conclusões que podem ser tiradas da série construída)

Uma série variacional é uma sequência de todos os elementos de uma amostra dispostos em ordem não decrescente. Os mesmos elementos se repetem

Variacional - são séries construídas em uma base quantitativa.

As séries de distribuição variacional consistem em dois elementos: variantes e frequências:

Variantes são os valores numéricos de uma característica quantitativa na série de variação da distribuição. Eles podem ser positivos ou negativos, absolutos ou relativos. Portanto, ao agrupar empresas de acordo com os resultados da atividade econômica, as opções são positivas - isso é lucro e números negativos - isso é uma perda.

As frequências são os números de variantes individuais ou cada grupo da série de variação, ou seja, estes são números que mostram a frequência com que certas opções ocorrem em uma série de distribuição. A soma de todas as frequências é chamada de volume da população e é determinada pelo número de elementos de toda a população.

Frequências são frequências expressas como valores relativos (frações de unidades ou porcentagens). A soma das frequências é igual a um ou 100%. A substituição de frequências por frequências permite comparar séries variacionais com diferentes números de observações.

Existem três formas de série de variação: séries ordenadas, séries discretas e séries intervalares.

Uma série classificada é a distribuição de unidades individuais da população em ordem crescente ou decrescente da característica em estudo. A classificação facilita a divisão de dados quantitativos em grupos, detecta imediatamente os menores e maiores valores de um recurso, destaca os valores que são repetidos com mais frequência.

Outras formas da série de variação são tabelas de grupo compiladas de acordo com a natureza da variação nos valores da característica em estudo. Pela natureza da variação, distinguem-se sinais discretos (descontínuos) e contínuos.

Uma série discreta é uma série variacional, cuja construção é baseada em signos com uma mudança descontínua (sinais discretos). Estes últimos incluem a categoria tarifária, o número de filhos na família, o número de funcionários da empresa, etc. Esses sinais podem assumir apenas um número finito de certos valores.

Uma série variacional discreta é uma tabela que consiste em duas colunas. A primeira coluna indica o valor específico do atributo e a segunda - o número de unidades populacionais com um valor específico do atributo.

Se um signo tem uma mudança contínua (o valor da renda, experiência de trabalho, o custo dos ativos fixos de uma empresa, etc., que pode assumir qualquer valor dentro de certos limites), então uma série de variação de intervalo deve ser construída para este signo.



A tabela de grupo aqui também tem duas colunas. O primeiro indica o valor do recurso no intervalo "de - até" (opções), o segundo - o número de unidades incluídas no intervalo (frequência).

Frequência (frequência de repetição) - o número de repetições de uma determinada variante dos valores do atributo, denotado fi , e a soma das frequências igual ao volume da população estudada, denotado

Onde k é o número de opções de valor de atributo

Muitas vezes, a tabela é complementada com uma coluna na qual são calculadas as frequências acumuladas S, que mostram quantas unidades da população têm um valor de característica não superior a esse valor.

Uma série de distribuição variacional discreta é uma série na qual os grupos são compostos de acordo com uma característica que varia discretamente e recebe apenas valores inteiros.

A série de distribuição de variação de intervalo é uma série em que o atributo de agrupamento, que forma a base do agrupamento, pode assumir quaisquer valores em um determinado intervalo, inclusive fracionários.

Uma série variacional de intervalo é um conjunto ordenado de intervalos de variação dos valores de uma variável aleatória com as frequências ou frequências correspondentes dos valores da quantidade que cai em cada um deles.

É conveniente construir uma série de distribuição intervalar, em primeiro lugar, com uma variação contínua de um traço, e também se uma variação discreta se manifestar em uma ampla faixa, ou seja, o número de opções para um recurso discreto é bastante grande.

Várias conclusões já podem ser tiradas desta série. Por exemplo, o elemento médio de uma série de variação (mediana) pode ser uma estimativa do resultado mais provável de uma medição. O primeiro e o último elemento da série variacional (ou seja, o elemento mínimo e máximo da amostra) mostra a dispersão dos elementos da amostra. Às vezes, se o primeiro ou o último elemento for muito diferente do restante da amostra, eles serão excluídos dos resultados da medição, considerando que esses valores foram obtidos como resultado de algum tipo de falha grosseira, por exemplo, tecnologia.