Métodos de análise estatística. Análise de Dados: Métodos de Pesquisa Estatística

Enviar seu bom trabalho na base de conhecimento é simples. Use o formulário abaixo

Estudantes, estudantes de pós-graduação, jovens cientistas que usam a base de conhecimento em seus estudos e trabalhos ficarão muito gratos a você.

Hospedado em http://www.allbest.ru/

  • 3. Série de dinâmicas
  • Literatura

1. Valores absolutos e relativos

Como resultado do resumo e agrupamento material estatístico nas mãos do pesquisador estão as mais diversas informações sobre os fenômenos e processos estudados. No entanto, deter-se nos resultados obtidos seria um grande erro, pois mesmo agrupados de acordo com determinados critérios e refletidos de forma tabular ou gráfica, esses dados ainda são apenas uma espécie de ilustração, resultado intermediário, que deve ser analisado - neste caso, estatístico. Estatísticaanálise - Esse atuação estudado objeto dentro qualidade desmembrado sistemas, Essa. complexo elementos e conexões, gerando dentro seu interação orgânico inteira.

Como resultado de tal análise, deve-se construir um modelo do objeto em estudo e, já que estamos falando de estatística, elementos e relações estatisticamente significativos devem ser utilizados na construção do modelo.

Na verdade, a análise estatística visa identificar tais elementos e relacionamentos significativos.

Absolutoindicadores(valores) - valores totais calculados ou retirados de relatórios estatísticos resumidos sem nenhuma transformação. Os indicadores absolutos são sempre nominais e reflectem-se nas unidades de medida que foram definidas aquando da compilação do programa de observação estatística (o número de processos criminais iniciados, o número de crimes cometidos, o número de divórcios, etc.).

Os indicadores absolutos são básicos para quaisquer outras operações estatísticas, mas eles próprios são de pouca utilidade para a análise. Em termos absolutos, por exemplo, é difícil julgar o nível de criminalidade em cidades diferentes ou regiões e é praticamente impossível responder à pergunta onde a criminalidade é maior e onde é menor, uma vez que as cidades ou regiões podem diferir significativamente em população, território e outros parâmetros importantes.

relativoquantidades em estatística, são indicadores generalizantes que revelam a forma numérica da razão de dois valores estatísticos comparados. Ao calcular valores relativos, dois valores absolutos são mais frequentemente comparados, mas os valores médios e relativos podem ser comparados, obtendo novos indicadores relativos. O exemplo mais simples de cálculo de um valor relativo é a resposta à pergunta: quantas vezes um número é maior que outro?

Começando a considerar os valores relativos, é necessário levar em conta o seguinte. Em princípio, tudo pode ser comparado, até as dimensões lineares de uma folha de papel A4 com o número de produtos fabricados pela Fábrica de Porcelana Lomonosov. No entanto, tal comparação não nos dará nada. A condição mais importante para um cálculo frutífero de quantidades relativas pode ser formulada da seguinte forma:

1. As unidades de medida das grandezas comparadas devem ser as mesmas ou bastante comparáveis. Os números de crimes, processos criminais e condenados são indicadores correlacionados, ou seja, relacionados, mas não comparáveis ​​em termos de unidades de medida. Em um processo criminal, vários crimes podem ser considerados e um grupo de pessoas condenadas; Vários condenados podem cometer um crime e, inversamente, um condenado pode cometer muitos atos. Os números de crimes, casos e condenações são comparáveis ​​com a população, o número de funcionários do sistema de justiça criminal, o padrão de vida das pessoas e outros dados do mesmo ano. Além disso, dentro de um ano os indicadores considerados são bastante comparáveis ​​entre si.

2. Os dados comparáveis ​​devem necessariamente corresponder entre si em termos de tempo ou território de seu recebimento, ou ambos.

Absoluto valor, com que comparado outro dentroemáscaras, chamado base ou base comparações, uma comparareesculpido indicador - magnitude comparações. Por exemplo, ao calcular a proporção da dinâmica do crime na Rússia em 2000-2010. Os dados de 2000 serão a linha de base. Eles podem ser tomados como uma unidade (então valor relativo será expresso como um fator), por 100 (em porcentagem). Dependendo da dimensão dos valores comparados, é escolhida a forma mais conveniente, indicativa e visual da expressão do valor relativo.

Se o valor que está sendo comparado for muito maior que a base, a razão resultante é melhor expressa em termos de coeficientes. Por exemplo, o crime em um determinado período (em anos) aumentou 2,6 vezes. A expressão em tempos neste caso será mais indicativa do que em porcentagem. Em porcentagem, os valores relativos são expressos quando o valor de comparação não difere muito da base.

Os valores relativos usados ​​nas estatísticas, inclusive os legais, são tipos diferentes. Os seguintes tipos de valores relativos são usados ​​em estatísticas legais:

1. relações que caracterizam a estrutura da população, ou relações de distribuição;

2. a relação da parte com o todo, ou a relação de intensidade;

3. relações que caracterizam a dinâmica;

4. relações de grau e comparação.

Relativomagnitudedistribuição - Esse relativo valor, expresso dentro por cento Individual partes agregados estudado fenômenos(crimes, criminosos, processos civis, ações judiciais, causas, medidas preventivas, etc.) para eles em geral total, aceitaram atras do 100% . Este é o tipo mais comum (e mais simples) de dados relativos usados ​​em estatísticas. Estas são, por exemplo, a estrutura do crime (por tipos de crimes), a estrutura das condenações (por tipos de crimes, por idade dos condenados), etc.

valor absoluto da análise estatística

Atitudeintensidade(razão parte-todo) - um valor relativo generalizante que reflete a prevalência de uma característica particular no agregados.

O indicador de intensidade mais comum usado nas estatísticas legais é a intensidade do crime. . A intensidade do crime geralmente é refletida pela taxa de criminalidade , Essa. o número de crimes por 100 ou 10 mil habitantes.

KP \u003d (P * 100000) / N

onde P- número absoluto crimes registrados, H é o número absoluto da população.

Um pré-requisito que determina a própria possibilidade de calcular tais indicadores, como mencionado acima, é que todos os indicadores absolutos utilizados sejam tomados em um território e por um período de tempo.

Relações,caracterizandodinâmica, representam generalizando relativo quantidades, mostrando mudança dentro Tempo Essa ou outro indicadores jurídico Estatisticas. O intervalo de tempo é geralmente considerado como um ano.

Para a base (base) igual a 1, ou 100%, são tomadas informações sobre a feição estudada de um determinado ano, que foi algo característico do fenômeno em estudo. Os dados do ano base funcionam como uma base fixa, à qual são percentuais os indicadores dos anos subsequentes.

As tarefas de análise estatística geralmente exigem comparações anuais (ou outros períodos) quando base aceitaram dados todos anterior Do ano(mês ou outro período). Essa base é chamada Móvel. Isso geralmente é usado na análise de séries temporais (séries de dinâmicas).

Relaçõesgrauecomparações permitem comparar diferentes indicadores para identificar qual valor é muito maior que o outro, em que medida um fenômeno difere de outro ou é semelhante a ele, o que é comum e diferente nos processos estatísticos observados, etc.

Um índice é um indicador relativo de comparação especialmente criado (no tempo, no espaço, quando comparado com uma previsão, etc.), mostrando quantas vezes o nível do fenômeno em estudo em algumas condições difere do nível do mesmo fenômeno em outras. condições. Os índices mais comuns estão nas estatísticas econômicas, embora também desempenhem um certo papel na análise dos fenômenos jurídicos.

Os índices são indispensáveis ​​nos casos em que é necessário comparar indicadores díspares, cuja simples soma é impossível. Portanto, os índices são geralmente definidos como números-indicadoresporMedidasmeiocaixas de somagregadosheterogêneoelementos.

Em estatística, os índices são geralmente denotados pela letra I (i). Letra maiúscula ou capital - depende se estamos falando de um índice individual (privado) ou é geral.

Individualíndices(i) refletem a relação entre o indicador do período atual e o indicador correspondente do período que está sendo comparado.

Consolidadoíndices são utilizados na análise da correlação de fenômenos socioeconômicos complexos e consistem em duas partes: o valor real indexado e a co-medição ("peso").

2. Médias e sua aplicação em estatísticas jurídicas

O resultado do processamento de indicadores absolutos e relativos é a construção de séries de distribuição. Linha distribuição - Esseordenadoemqualidadeouquantitativoapresentoudistribuiçãounidadesagregados. A análise dessas séries é a base de qualquer análise estatística, por mais complexa que seja no futuro.

Uma série de distribuição pode ser construída com base em características qualitativas ou quantitativas. No primeiro caso é chamado atributivo, no segundo - variacional. Nesse caso, a diferença em uma característica quantitativa é chamada de variação, e este próprio sinal - opção. É com as séries variacionais que a estatística jurídica tem que lidar com mais frequência.

Uma série variacional sempre consiste em duas colunas (gráfico). Um indica o valor de um atributo quantitativo em ordem crescente, que, na verdade, são chamados de opções, que são indicadas x. A outra coluna (coluna) indica o número de unidades características de uma ou outra variante. Eles são chamados de frequências e são denotados pela letra latina f.

Tabela 2.1

Opção x

Frequência f

A frequência de manifestação de um ou outro traço é muito importante no cálculo de outros indicadores estatísticos significativos, a saber, as médias e os indicadores de variação.

As séries de variação, por sua vez, podem ser discreto ou intervalo. Séries discretas, como o nome indica, são construídas com base em características que variam discretamente, e séries intervalares são construídas com base em variações contínuas. Assim, por exemplo, a distribuição dos infratores por idade pode ser discreta (18, 19,20 anos etc.) ou contínua (até 18 anos, 18-25 anos, 25-30 anos etc.). Além disso, as próprias séries intervalares podem ser construídas tanto de acordo com princípio contínuo. No primeiro caso, os limites dos intervalos adjacentes não se repetem; em nosso exemplo, os intervalos ficarão assim: até 18 anos, 18-25, 26-30, 31-35, etc. Tal série é chamada contínuodiscretofileira. intervalofileiracomcontínuovariação assume a coincidência do limite superior do intervalo anterior com limite inferior subseqüente.

O primeiro indicador que descreve a série variacional é médio quantidades. Eles desempenham um papel importante nas estatísticas jurídicas, pois somente com sua ajuda é possível caracterizar as populações de acordo com um sinal de variável quantitativa, pelo qual elas podem ser comparadas. Com a ajuda de valores médios, é possível comparar conjuntos de fenômenos juridicamente significativos que nos interessam de acordo com certas características quantitativas e tirar as conclusões necessárias dessas comparações.

Médioquantidades refletir a maioria em geral tendência (regularidade), inerente a toda a massa de fenômenos estudados. Ela se manifesta em típica característica quantitativa, ou seja, no valor médio de todos os indicadores (variáveis) disponíveis.

A estatística desenvolveu muitos tipos de médias: aritméticas, geométricas, cúbicas, harmônicas, etc. No entanto, eles praticamente não são usados ​​​​em estatísticas legais, portanto, consideraremos apenas dois tipos de médias - a média aritmética e a média geométrica.

A média mais comum e conhecida é médiaaritmética. Para calculá-lo, a soma dos indicadores é calculada e dividida por número total indicadores. Por exemplo, uma família de 4 pessoas é composta por pais de 38 e 40 anos e duas crianças de 7 e 10 anos. Somamos a idade: 38 + 40 + 7 + 10 e dividimos a soma resultante de 95 por 4. O resultado idade Média família - 23,75 anos. Ou vamos calcular a carga de trabalho média mensal dos investigadores se um departamento de 8 pessoas resolve 25 casos por mês. Divida 25 por 8 e obtenha 3.125 casos por mês por investigador.

Nas estatísticas jurídicas, a média aritmética é usada no cálculo da carga de trabalho dos funcionários (investigadores, promotores, juízes etc.), no cálculo do aumento absoluto da criminalidade, no cálculo da amostra etc.

No entanto, no exemplo acima, a carga de trabalho média mensal por investigador foi calculada incorretamente. O fato é que a média aritmética simples não leva em conta frequência traço estudado. Em nosso exemplo, a carga de trabalho mensal média de um investigador é tão correta e informativa quanto a "temperatura média em um hospital" de uma anedota bem conhecida, que, como você sabe, é a temperatura ambiente. A fim de levar em conta a frequência de manifestações do traço estudado no cálculo da média aritmética, é usado da seguinte forma médiaaritméticapesada ou média para séries variacionais discretas. (Série variacional discreta - a sequência de mudança de um sinal de acordo com indicadores discretos (descontínuos)).

Média ponderada aritmética ( média ponderada) não tem diferenças fundamentais da média aritmética simples. Nele, a soma do mesmo valor é substituída pela multiplicação desse valor pela sua frequência, ou seja, neste caso, cada valor (variante) é ponderado pela frequência de ocorrência.

Assim, calculando a carga de trabalho média dos investigadores, devemos multiplicar o número de casos pelo número de investigadores que investigaram exatamente esse número de casos. Geralmente é conveniente apresentar esses cálculos na forma de tabelas:

Tabela 2.2

Número de casos

(opção X)

Número de investigadores (frequência f)

Opção de arte

para frequências ( Xf)

2. Calcule a média ponderada real pela fórmula:

Onde x- o número de processos criminais, e f- número de investigadores.

Assim, a média ponderada não é 3,125, mas 4,375. Se você pensar bem, é assim que deveria ser: a carga de cada investigador individual aumenta devido ao fato de que um investigador em nosso departamento hipotético acabou sendo um ocioso - ou, pelo contrário, estava investigando um assunto particularmente importante e caso complexo. Mas a questão de interpretar os resultados de um estudo estatístico será considerada em próximo tópico. Em alguns casos, nomeadamente, nos casos de frequências agrupadas distribuição discreta- o cálculo da média, à primeira vista, não é óbvio. Suponha que precisamos calcular a média aritmética para a distribuição de pessoas condenadas por vandalismo por idade. A distribuição fica assim:

Tabela 2.3

(opção X)

Número de condenados (frequência f)

Ponto médio do intervalo

Opção de arte

para frequências ( Xf)

(21-18) /2+18=19,5

Além disso, a média é calculada de acordo com a regra geral e é de 23,6 anos para esta série discreta. No caso do chamado. linhas abertas, ou seja, em situações em que os intervalos extremos são determinados por "menor que x" ou mais x", o valor dos intervalos extremos é definido de forma semelhante a outros intervalos.

3. Série de dinâmicas

Os fenômenos sociais estudados pela estatística estão em desenvolvimento constante e mudar. Os indicadores sociojurídicos podem se apresentar não apenas de forma estática, refletindo determinado fenômeno, mas também como um processo que ocorre no tempo e no espaço, bem como na forma de interação das características em estudo. Em outras palavras, as séries temporais mostram o desenvolvimento de uma característica, ou seja, sua mudança no tempo, espaço ou dependendo das condições ambientais.

Esta série é uma sequência de valores médios nos períodos de tempo especificados (para cada ano civil).

Para um estudo mais aprofundado dos fenômenos sociais e sua análise, não basta uma simples comparação dos níveis de uma série de dinâmicas; é necessário calcular os indicadores derivados de uma série de dinâmicas: crescimento absoluto, taxa de crescimento, taxa de crescimento, média crescimento e taxas de crescimento, o conteúdo absoluto de um por cento de aumento.

O cálculo dos indicadores da série de dinâmicas é realizado com base na comparação de seus níveis. Nesse caso, existem duas maneiras de comparar os níveis da série dinâmica:

indicadores básicos, quando todos os níveis subsequentes são comparados com algum inicial, tomado como base;

indicadores de cadeia, quando cada nível subsequente de uma série de dinâmicas é comparado com o anterior.

O crescimento absoluto mostra quantas unidades o nível do período atual é maior ou menor do que o nível da base ou do período anterior para um período de tempo específico.

O crescimento absoluto (P) é calculado como a diferença entre os níveis comparados.

Crescimento absoluto básico:

P b = y eu - y bases . (f.1).

Crescimento Absoluto da Cadeia:

P c = y eu - y eu -1 (f.2).

A taxa de crescimento (Tr) mostra quantas vezes (por qual porcentagem) o nível do período atual é maior ou menor que o nível da base ou do período anterior:

Taxa de crescimento básica:

(f.3)

Taxa de crescimento da cadeia:

(f.4)

A taxa de crescimento (Tpr) mostra quantos por cento o nível do período atual é maior ou menor do que o nível da base ou do período anterior, tomado como base de comparação, e é calculado como a razão entre o crescimento absoluto e o nível absoluto , tomado como base.

A taxa de crescimento também pode ser calculada subtraindo 100% da taxa de crescimento.

Taxa de crescimento básica:

ou (f.5)

Taxa de crescimento da cadeia:

ou (f.6)

A taxa média de crescimento é calculada pela fórmula da média geométrica das taxas de crescimento de uma série de dinâmicas:

(formulário 7)

onde é a taxa média de crescimento;

- taxas de crescimento para determinados períodos;

n- o número de taxas de crescimento.

Problemas semelhantes com um expoente raiz maior que três, como regra, são resolvidos usando o logaritmo. Sabe-se da álgebra que o logaritmo da raiz é igual ao logaritmo valor da raiz dividido pelo expoente da raiz, e que o logaritmo do produto de vários fatores é igual à soma logaritmos desses fatores.

Assim, a taxa média de crescimento é calculada tomando a raiz n grau das obras de indivíduos n- taxas de crescimento da cadeia. A taxa média de crescimento é a diferença entre a taxa média de crescimento e um (), ou 100% quando a taxa de crescimento é expressa em porcentagem:

ou

Na ausência de uma série dinâmica níveis intermediários crescimento médio e as taxas de crescimento são determinadas pela seguinte fórmula:

(f.8)

onde é o nível final da série dinâmica;

- o nível inicial da série dinâmica;

n - número de níveis (datas).

É óbvio que os indicadores de taxas médias de crescimento e de crescimento, calculados pelas fórmulas (f.7 e f.8), possuem os mesmos valores numéricos.

O conteúdo absoluto de 1% de crescimento mostra qual valor absoluto contém 1% de crescimento e é calculado como a razão entre o crescimento absoluto e a taxa de crescimento.

Teor absoluto de 1% de aumento:

básico: (f.9)

cadeia: (f.10)

Cálculo e análise valor absoluto cada aumento percentual contribui para uma compreensão mais profunda da natureza do desenvolvimento do fenômeno em estudo. Os dados do nosso exemplo mostram que, apesar das flutuações nas taxas de crescimento e crescimento ao longo anos individuais, os indicadores básicos do conteúdo absoluto de 1% de crescimento permanecem inalterados, enquanto os indicadores de cadeia que caracterizam as mudanças no valor absoluto de um por cento de crescimento em cada ano subsequente em relação ao anterior aumentam continuamente.

Ao construir, processar e analisar séries temporais, muitas vezes há a necessidade de determinar os níveis médios dos fenômenos estudados para determinados períodos de tempo. A série de intervalos cronológicos médios é calculada em intervalos iguais pela fórmula da média aritmética simples, com intervalos desiguais - pela média aritmética ponderada:

Onde - nível médio série intervalar;

- níveis iniciais da série;

n- número de níveis.

Para a série de momentos da dinâmica, desde que os intervalos de tempo entre as datas sejam iguais, o nível médio é calculado usando a fórmula da média cronológica:

(f.11)

onde é o valor cronológico médio;

y 1 ,., y n- o nível absoluto da série;

n - o número de níveis absolutos da série de dinâmicas.

A média cronológica dos níveis da série de momentos da dinâmica é igual à soma dos indicadores desta série, dividida pelo número de indicadores sem um; neste caso, os níveis inicial e final devem ser tomados pela metade, pois o número de datas (momentos) costuma ser um a mais que o número de períodos.

Dependendo do conteúdo e da forma de apresentação dos dados iniciais (intervalo ou série de momentos da dinâmica, intervalos de tempo iguais ou inexistentes) calcular vários indicadores sociais, por exemplo, o número médio anual de crimes e ofensas (por tipo), o tamanho médio dos saldos de capital de giro, o número médio de infratores, etc., use as expressões analíticas apropriadas.

4. Métodos estatísticos interrelações

Nas questões anteriores, consideramos, se assim posso dizer, a análise de distribuições "unidimensionais" - séries variacionais. Este é um tipo muito importante, mas longe de ser o único tipo de análise estatística. A análise de séries variacionais é a base para tipos mais "avançados" de análise estatística, principalmente para estudarinterconexões. Como resultado de tal estudo, são reveladas relações de causa e efeito entre os fenômenos, o que permite determinar quais mudanças nos sinais afetam as variações dos fenômenos e processos estudados. Ao mesmo tempo, os sinais que causam uma mudança nos outros são chamados fatoriais (fatores), e os sinais que mudam sob sua influência são chamados de efetivos.

Na ciência estatística, existem dois tipos de relações entre vários sinais e suas informações - conexão funcional (determinada rigidamente) e estatística (estocástica).

Por funcionalconexões a correspondência total entre a mudança no atributo do fator e a mudança no valor efetivo é característica. Essa relação se manifesta igualmente em todas as unidades de qualquer população. O exemplo mais simples: um aumento de temperatura é refletido no volume de mercúrio em um termômetro. Nesse caso, a temperatura ambiente atua como um fator e o volume de mercúrio - como um recurso efetivo.

As relações funcionais são típicas de fenômenos estudados por ciências como química, física, mecânica, nas quais é possível estabelecer experimentos "puros", nos quais a influência de fatores estranhos é eliminada. O fato é que conexão funcional entre os dois só é possível se o segundo valor (o atributo resultante) depende e exclusivamente desde o primeiro. Em eventos públicos, isso é extremamente raro.

Processos sócio-jurídicos, que são o resultado do impacto simultâneo um grande número fatores são descritos por meio de relações estatísticas, ou seja, relações estocasticamente (por acaso) determinista quando valores diferentes de uma variável correspondem a valores diferentes de outra variável.

O caso mais importante (e comum) de dependência estocástica é correlaçãovício. Com tal dependência, a causa determina o efeito não de forma inequívoca, mas apenas com um certo grau de probabilidade. Um tipo separado de análise estatística é dedicado à identificação de tais relacionamentos - análise de correlação.

Principal tarefa análise de correlação - com base em métodos estritamente matemáticos para estabelecer uma expressão quantitativa da relação existente entre as características estudadas. Existem várias abordagens de como exatamente a correlação é calculada e, consequentemente, vários tipos de coeficientes de correlação: o coeficiente de contingência A.A. Chuprov (para medir a relação entre características qualitativas), o coeficiente de associação de K. Pearson, bem como os coeficientes de correlação de classificação de Spearman e Kendall. No caso geral, tais coeficientes mostram a probabilidade com que aparecem as relações estudadas. Assim, quanto maior o coeficiente, mais pronunciada é a relação entre as características.

Tanto correlações diretas quanto inversas podem existir entre os fatores estudados. Em linha retacorrelaçãovício observado nos casos em que a mudança nos valores do fator corresponde às mesmas mudanças no valor do atributo resultante, ou seja, quando o valor do atributo do fator aumenta, o valor do atributo efetivo também aumenta, e vice-versa vice-versa. Por exemplo, existe uma correlação direta entre fatores criminógenos e crime ( com um sinal "+"). Se um aumento nos valores de um atributo causar alterações reversas nos valores de outro, esse relacionamento é chamado reverter. Por exemplo, quanto maior o controle social em uma sociedade, menor a taxa de criminalidade (conexão com o sinal "-").

Tanto o direto quanto o feedback podem ser retos e curvilíneos.

Retilíneo ( linear) as relações aparecem quando, com um aumento nos valores do atributo-fator, há um aumento (direto) ou diminuição (reversa) no valor do atributo-consequência. Matematicamente, tal relação é expressa pela equação de regressão: no = uma + bX, Onde no - sinal-consequência; uma e b - coeficientes de acoplamento correspondentes; X - fator de sinal.

Curvilíneo conexões são diferentes. Um aumento no valor de um atributo de fator tem um efeito desigual no valor do atributo resultante. Inicialmente, essa relação pode ser direta e depois reversa. Um exemplo bem conhecido é a relação dos crimes com a idade dos infratores. Primeiro, a atividade criminosa das pessoas cresce em proporção direta ao aumento da idade dos infratores (até aproximadamente 30 anos), e então, com o aumento da idade, a atividade criminosa diminui. Além disso, o pico da curva de distribuição de infratores por idade é deslocado da média para a esquerda (em direção a uma idade mais jovem) e é assimétrico.

Os links diretos de correlação podem ser 1cerca defatorial, quando a relação entre um sinal-fator e um sinal-consequência é investigada (correlação de pares). Eles também podem ser multifatorial, quando se estuda a influência de muitos fatores-sinais em interação na consequência-sinal (correlação múltipla).

Mas, seja qual for o coeficiente de correlação utilizado, seja qual for a correlação estudada, é impossível estabelecer uma relação entre os sinais com base apenas em indicadores estatísticos. A análise inicial dos indicadores é sempre uma análise qualitativo, durante o qual se estuda e compreende a natureza sócio-jurídica do fenômeno. Neste caso, são usados ​​os métodos e abordagens científicas que são característicos do ramo da ciência que estuda esse fenômeno (sociologia, direito, psicologia etc.). Em seguida, a análise de agrupamentos e médias permite apresentar hipóteses, construir modelos, determinar o tipo de conexão e dependência. Só depois disso é determinada a característica quantitativa da dependência - na verdade, o coeficiente de correlação.

Literatura

1. Avanesov G.A. Fundamentos da previsão criminológica. Tutorial. Moscou: Escola Superior do Ministério de Assuntos Internos da URSS, 1970.

2. Avrutin K.E., Gilinsky Ya.I. Análise criminológica do crime na região: metodologia, técnica, técnica. L., 1991.

3. Adamov E. et al. Economia e estatística das empresas: Textbook / Ed. SD. Ilyenkova. M.: Finanças e estatísticas, 2008.

4. Balakina N.N. Estatísticas: Proc. - método. complexo. Khabarovsk: IVESEP, filial em Khabarovsk, 2008.

5. Bluvshtein Yu.D., Volkov G.I. Série Temporal Crime: Um Guia de Estudo. Minsk, 1984.

6. Borovikov V.P., Borovikov I.P. STATISTICA - Análise estatística e tratamento de dados em Ambiente Windows. M.: Editora e informação "Filin", 1997.

7. Borodin S.V. Combate ao crime: Modelo teórico programa abrangente. Moscou: Nauka, 1990.

8. Questões de estatística // Revista mensal científica e informativa do Comitê Estadual de Estatística da Federação Russa M., 2002-2009.

9. Gusarov V.M. Estatísticas: Proc. subsídio para universidades. M.: UNITI-DANA, 2009.

10. Dobrynina N.V., Nimenya I.N. Estatísticas: Proc. - método. abono. São Petersburgo: SPbGIEU, 2009.

11. Eliseeva I.I., Yuzbashev M.M. Teoria geral estatísticas: livro didático para universidades / Ed.I. I. Eliseeva, 4ª ed. M.: Finanças e estatísticas, 1999.

12. Eliseeva I.I., Yuzbashev M.M. Teoria Geral da Estatística: Manual. - M.: Finanças e Estatística, 1995.

13. Eremina T., Matyatina V., Plushevskaya Yu. Problemas de desenvolvimento de setores da economia russa // Questões de Economia. 2009. Nº 7.

14. Efimova M.R., Ganchenko O.I., Petrova E.V. Workshop sobre a teoria geral da estatística: Proc. 2ª ed., revisada. e adicional M.: Finanças e estatísticas, 2009.

15. Efimova M.R., Petrova E.V., Rumyantsev V.N. Teoria Geral da Estatística: Manual. - M.: INFRA-M, 1998.

16. Kirílov L.A. Estudo criminológico e prevenção ao crime por órgãos de assuntos internos M., 1992.

17. Kosoplechev N.P., Métodos de pesquisa criminológica. M., 1984.

18. Lee D.A. Crime na Rússia: análise do sistema. M., 1997.

19. Lee D.A. Contabilidade estatística criminal: padrões estruturais e funcionais. M.: Agência de informação e publicação "Russian World", 1998.

20. Makarova N.V., Trofimets V.Ya. Estatística em Excel: Proc. abono. M.: Finanças e estatísticas, 2009.

21. Nesterov L.I. Novas tendências nas estatísticas da riqueza nacional // Questões estatísticas. 2008. Nº 11.

22. Petrova E.V. e outros Workshop sobre estatísticas de transporte: Proc. abono. M.: Finanças e estatísticas, 2008.

23. Crime na Rússia nos anos noventa e alguns aspectos da legalidade e a luta contra ele. M., 1995.

24. Crime, estatísticas, direito // Ed. prof. IA Dívida. Moscou: Associação Criminológica, 1997.

25. Rostov K.T. Crime nas regiões da Rússia (análise social e criminológica). São Petersburgo: Academia de São Petersburgo do Ministério de Assuntos Internos da Rússia, 1998.

26. Diretrizes para o recenseador sobre o procedimento para conduzir o Censo da População de Toda a Rússia de 2002 e preencher os documentos do censo. M.: PIK "Offset", 2003.

27. Savyuk L.K. Estatísticas jurídicas: livro didático. M.: Jurista, 1999.

28. Salin V.N., Shpakovskaya E.P. Estatísticas socioeconômicas: livro didático para universidades. Moscou: Gardanika Advogado, 2008.

29. Sidenko A.V., Popov G.Yu., Matveeva V.M. Estatística: livro didático. Moscou: Negócios e Serviços, 2008.

30. Prevenção social de delitos: conselhos, recomendações // Ed. SIM. Kerimov. M., 1989.

31. estatísticas sociais: Livro didático para universidades // Ed. I.I. Eliseeva. 3ª edição. M.: Finanças e estatísticas, 2009.

Hospedado em Allbest.ru

Documentos Semelhantes

    Consideração dos principais métodos de análise estatística. Estudo do distrito municipal de Kungursky. Realização de cálculos de acordo com os indicadores do anuário. Análise da demografia e desenvolvimento socioeconómico da área com base nos resultados da aplicação.

    trabalho de conclusão de curso, adicionado em 24/06/2015

    Valor médio - característica livre regularidades do processo nas condições em que ele ocorre. Formas e métodos de cálculo de valores médios. Aplicando médias na prática: calculando a diferenciação remunerações por setores da economia.

    trabalho de conclusão de curso, adicionado em 12/04/2007

    Métodos estatísticos de análise de divórcio. Análise estatística de divórcios na região de Amur. Análise da dinâmica e estrutura dos divórcios. Agrupamento de cidades e bairros da região de Amur pelo número de divórcios por ano. Cálculo de valores médios e indicadores de variação.

    trabalho de conclusão de curso, adicionado em 12/04/2014

    Aspectos da análise estatística da oferta habitacional. Aplicação de métodos estatísticos para a análise da oferta habitacional da população. Análise da homogeneidade da população dos distritos em termos do factor de carga demográfica. Análise de correlação-regressão.

    trabalho de conclusão de curso, adicionado em 18/01/2009

    Organização estatísticas estaduais na Rússia. Requisitos para os dados coletados. Formas, tipos e métodos de observação estatística. Elaboração de observação estatística. Erros de observação estatística. Métodos de monitoramento de estatísticas.

    resumo, adicionado em 02.12.2007

    Desenvolvimento de um programa de monitoramento de estatísticas de direito penal, suas principais etapas e requisitos, métodos e procedimentos de implementação. Determinar o estado do crime na área de estudo. Regras para registro dos resultados da observação estatística.

    teste, adicionado em 18/05/2010

    Classificação da documentação estatística. Tipos de documentos: escritos, iconográficos, estatísticos e fonéticos. Métodos e formas de análise de materiais: não formalizados (tradicionais) e formalizados. O procedimento para a implementação da análise de conteúdo.

    apresentação, adicionada em 16/02/2014

    conceito tamanho médio. O método das médias no estudo dos fenômenos sociais. A relevância da aplicação do método das médias no estudo dos fenômenos sociais é assegurada pela possibilidade de passar do singular ao geral, do aleatório ao regular.

    trabalho de conclusão de curso, adicionado em 13/01/2009

    O conceito de observação estatística. Análise de retilíneos e curvilíneos correlações. Conhecimento de fórmulas e valores de observação estatística. Análise de cálculos da relação de índices, construção de um histograma, elementos de uma série de distribuição.

    teste, adicionado em 27/03/2012

    Características dos principais indicadores de análise estatística condicionamento social saúde pública dentro Federação Russa. Níveis de avaliação da saúde do ponto de vista da medicina social. Classificação da parcela infantil da população por grupos de saúde.

Suficientemente detalhado em literatura doméstica. Enquanto isso, na prática das empresas russas, apenas algumas delas são usadas. Considere a seguir alguns métodos processamento estatístico.

Informação geral

Na prática das empresas nacionais, é predominantemente comum métodos de controle estatístico. Se falamos sobre a regulação do processo tecnológico, isso é notado extremamente raramente. Aplicação de métodos estatísticos prevê que seja formado na empresa um grupo de especialistas com as qualificações adequadas.

Significado

De acordo com a ISO ser. 9000, o fornecedor precisa determinar a necessidade de métodos estatísticos que são aplicados durante o desenvolvimento, regulamentação e teste de oportunidades processo de produção e características do produto. Os métodos utilizados são baseados na teoria da probabilidade e cálculos matemáticos. Métodos estatísticos para análise de dados pode ser implementado em qualquer fase do ciclo de vida do produto. Eles fornecem uma avaliação e conta do grau de heterogeneidade dos produtos ou da variabilidade de suas propriedades em relação aos valores nominais estabelecidos ou valores exigidos, bem como a variabilidade do processo de sua criação. Os métodos estatísticos são métodos pelos quais você pode dada precisão e confiabilidade para julgar o estado dos fenômenos que estão sendo investigados. Eles permitem que você preveja certos problemas, desenvolva soluções ideais com base nas informações factuais estudadas, tendências e padrões.

Instruções de uso

As principais áreas em que há ampla métodos estatísticos são:


Prática dos países desenvolvidos

Os métodos estatísticos são uma base que garante a criação de produtos com altas características de consumo. Essas técnicas são amplamente utilizadas em países industrializados. Os métodos estatísticos são, de fato, garantias de que os consumidores recebem produtos que atendem aos requisitos estabelecidos. O efeito de seu uso foi comprovado pela prática. empresas industriais Japão. Foram eles que contribuíram para a conquista do mais alto nível de produção neste país. A experiência de longo prazo de países estrangeiros mostra como essas técnicas são eficazes. Em particular, sabe-se que a Hewlelt Packard, usando métodos estatísticos, conseguiu reduzir o número de casamentos por mês de 9.000 para 45 unidades em um dos casos.

Dificuldades de implementação

Na prática doméstica, há uma série de obstáculos que não permitem o uso métodos estatísticos de estudo indicadores. As dificuldades surgem devido a:


Desenvolvimento do programa

Deve-se dizer que determinar a necessidade de certos métodos estatísticos no campo da qualidade, escolher, dominar técnicas específicas é um trabalho bastante complicado e demorado para qualquer empresa doméstica. Para sua efetiva implementação, é aconselhável desenvolver um programa especial de longo prazo. Deverá prever a formação de um serviço cujas tarefas incluirão a organização e guia metodológico aplicação de métodos estatísticos. No âmbito do programa, é necessário dotar os meios técnicos adequados, formar especialistas e determinar a composição das tarefas de produção que devem ser resolvidas com os métodos selecionados. A masterização é recomendada para começar usando as abordagens mais simples. Por exemplo, você pode usar a conhecida produção elementar. Posteriormente, é aconselhável passar para outros métodos. Por exemplo, pode ser análise de variância, processamento seletivo de informações, regulação de processos, planejamento de pesquisas e experimentos fatoriais, etc.

Classificação

Os métodos estatísticos de análise econômica incluem truques diferentes. Escusado será dizer que existem alguns deles. No entanto, um dos principais especialistas na área de gestão da qualidade no Japão, K. Ishikawa, recomenda o uso de sete métodos básicos:

  1. Gráficos de Pareto.
  2. Agrupamento de informações de acordo com características comuns.
  3. Cartões de controle.
  4. Diagramas de causa e efeito.
  5. Histogramas.
  6. Folhas de controle.
  7. Gráficos de dispersão.

Com base em sua própria experiência na área de gestão, Ishikawa afirma que 95% de todas as questões e problemas da empresa podem ser resolvidos usando essas sete abordagens.

Diagrama de pareto

Este é baseado em uma certa proporção. Foi chamado de "Princípio de Pareto". Segundo ele, de 20% das causas, aparecem 80% das consequências. mostra de forma clara e compreensível a influência relativa de cada circunstância problema comum por ordem decrescente. Esse impacto pode ser investigado no número de perdas, defeitos, provocados por cada causa. O impacto relativo é ilustrado por barras, o impacto cumulativo dos fatores por linha reta cumulativa.

diagrama de causa e efeito

Nele, o problema em estudo é convencionalmente representado na forma de uma seta reta horizontal, e as condições e fatores que o afetam direta ou indiretamente estão na forma de setas oblíquas. Ao construir, mesmo circunstâncias aparentemente insignificantes devem ser levadas em consideração. Isso se deve ao fato de que, na prática, muitas vezes existem casos em que a solução do problema é garantida pela exclusão de vários fatores aparentemente insignificantes. As razões que influenciam as principais circunstâncias (de primeira ordem e subsequentes) são representadas no diagrama por setas curtas horizontais. O diagrama detalhado terá a forma de um esqueleto de peixe.

Informações de agrupamento

Esse método econômico-estatísticoé usado para organizar um conjunto de indicadores que foram obtidos avaliando e medindo um ou mais parâmetros de um objeto. Como regra, tais informações são apresentadas na forma de uma sequência não ordenada de valores. Estas podem ser as dimensões lineares da peça de trabalho, o ponto de fusão, a dureza do material, o número de defeitos e assim por diante. Com base em tal sistema, é difícil tirar conclusões sobre as propriedades do produto ou os processos de sua criação. O pedido é feito usando gráficos de linha. Eles mostram claramente as mudanças nos parâmetros observados ao longo de um determinado período.

Folha de controle

Como regra, é apresentado na forma de uma tabela de distribuição de frequência para a ocorrência dos valores medidos dos parâmetros do objeto nos intervalos correspondentes. Listas de verificação são compiladas dependendo do objetivo do estudo. O intervalo de valores do indicador é dividido em intervalos iguais. Seu número é geralmente escolhido igual à raiz quadrada do número de medições realizadas. O formulário deve ser simples para eliminar problemas no preenchimento, leitura, verificação.

gráfico de barras

É apresentado na forma de um polígono escalonado. Ele ilustra claramente a distribuição dos indicadores de medição. Alcance definir valoresé dividido em intervalos iguais, que são colocados ao longo do eixo x. Um retângulo é construído para cada intervalo. Sua altura é igual à frequência de ocorrência do valor no intervalo dado.

Gráficos de dispersão

Eles são usados ​​para testar a hipótese sobre a relação entre dois variáveis. O modelo é construído da seguinte forma. O valor de um parâmetro é plotado no eixo das abcissas e o valor de outro indicador é plotado nas ordenadas. Como resultado, um ponto aparece no gráfico. Essas ações são repetidas para todos os valores das variáveis. Se houver um relacionamento, o campo de correlação será estendido e a direção não coincidirá com a direção do eixo y. Se não houver restrição, ela será paralela a um dos eixos ou terá a forma de um círculo.

Cartões de controle

Eles são usados ​​ao avaliar um processo durante um período específico. A formação de gráficos de controle é baseada nas seguintes disposições:

  1. Todos os processos se desviam dos parâmetros definidos ao longo do tempo.
  2. O curso instável do fenômeno não muda por acaso. Desvios que ultrapassam os limites dos limites esperados não são aleatórios.
  3. Mudanças individuais podem ser previstas.
  4. Um processo estável pode desviar-se aleatoriamente dentro dos limites esperados.

Uso na prática de empresas russas

Deve-se dizer que a experiência nacional e estrangeira mostra que o método estatístico mais eficaz para avaliar a estabilidade e precisão de equipamentos e processos tecnológicos é a compilação de cartas de controle. Este método também é utilizado na regulação das capacidades potenciais de produção. Ao construir mapas, é necessário escolher corretamente o parâmetro em estudo. Recomenda-se dar preferência aos indicadores que estejam diretamente relacionados ao uso pretendido do produto, que possam ser facilmente medidos e que possam ser influenciados pelo controle do processo. Caso tal escolha seja difícil ou não se justifique, é possível avaliar os valores correlacionados (interrelacionados) com o parâmetro controlado.

Nuances

Se a medição dos indicadores com a precisão necessária para o mapeamento de acordo com um critério quantitativo não for economicamente ou tecnicamente possível, é utilizado um sinal alternativo. Termos como "casamento" e "defeito" estão associados a ele. Este último é entendido como cada não conformidade separada do produto com os requisitos estabelecidos. O casamento é um produto, cuja oferta não é permitida aos consumidores, devido à presença de defeitos nele.

Peculiaridades

Cada tipo de cartão tem suas próprias especificidades. Deve ser levado em consideração ao escolhê-los para um caso particular. Os cartões por critério quantitativo são considerados mais sensíveis a mudanças de processo do que aqueles que utilizam um recurso alternativo. No entanto, os primeiros são mais trabalhosos. Eles são usados ​​para:

  1. Depuração de processos.
  2. Avaliar as possibilidades de introdução de tecnologia.
  3. Verificação da precisão do equipamento.
  4. Definições de tolerância.
  5. Vários mapeamentos maneiras aceitáveis criação do produto.

Adicionalmente

Se a desordem do processo difere pelo deslocamento do parâmetro controlado, é necessário usar mapas X. Se houver um aumento na dispersão dos valores, os modelos R ou S devem ser escolhidos. É necessário, no entanto, levar em conta uma série de características. Em particular, o uso de gráficos S permitirá estabelecer com mais precisão e rapidez a desordem do processo do que os modelos R com os mesmos. Ao mesmo tempo, a construção destes últimos não requer cálculos complexos.

Conclusão

Na economia, é possível explorar os fatores que se revelam no decorrer avaliação qualitativa, no espaço e na dinâmica. Eles podem ser usados ​​para realizar cálculos preditivos. Os métodos estatísticos de análise econômica não incluem métodos para avaliar as relações de causa e efeito de processos e eventos econômicos, identificando reservas promissoras e inexploradas para melhorar o desempenho. Em outras palavras, as técnicas fatoriais não estão incluídas nas abordagens consideradas.

Estatisticas"bioestatística".

1. nominal;
2. ordinal;
3. intervalo;

amostras

representante

quadro de amostra amostra aleatória simples amostragem de intervalo

amostragem estratificada

cacho e cota de amostragem

hipótese nula

hipótese alternativa potência

nível de confiança».


Título: Fundamentos da análise estatística de dados
Descrição detalhada:

Após a conclusão de qualquer pesquisa científica, fundamental ou experimental, é realizada uma análise estatística dos dados obtidos. Para que a análise estatística seja realizada com sucesso e resolva as tarefas, o estudo deve ser devidamente planejado. Portanto, sem entender os fundamentos da estatística, é impossível planejar e processar os resultados de um experimento científico. No entanto, Educação médica não fornece apenas conhecimento de estatística, mas também o básico matemática superior. Portanto, muitas vezes pode-se encontrar a opinião de que apenas um estatístico deve lidar com o processamento estatístico na pesquisa biomédica, e um pesquisador médico deve se concentrar em questões médicas próprias. trabalho científico. Tal divisão de trabalho, implicando auxílio na análise dos dados, é plenamente justificada. No entanto, é necessária uma compreensão dos princípios da estatística, pelo menos para evitar a configuração incorreta do problema para um especialista, a comunicação com quem antes do início do estudo é tão importante quanto na fase de processamento dos dados.

Antes de falar sobre os fundamentos da análise estatística, é necessário esclarecer o significado do termo " Estatisticas". Existem muitas definições, mas a mais completa e concisa, em nossa opinião, é a definição de estatística como “a ciência de coletar, apresentar e analisar dados”. Por sua vez, o uso de estatísticas em aplicações ao mundo vivo é chamado de "biometria" ou " bioestatística".

Deve-se notar que muitas vezes a estatística se reduz apenas ao processamento de dados experimentais, sem prestar atenção ao estágio de obtenção dos mesmos. No entanto, o conhecimento estatístico é necessário já durante o planejamento do experimento, para que os indicadores obtidos durante o mesmo possam dar ao pesquisador Informação confiável. Portanto, podemos dizer que a análise estatística dos resultados do experimento começa antes mesmo do início do estudo.

Já na fase de desenvolvimento de um plano, o pesquisador deve entender claramente que tipo de variáveis ​​estarão em seu trabalho. Todas as variáveis ​​podem ser divididas em duas classes: qualitativas e quantitativas. O intervalo que uma variável pode tomar depende da escala de medição. Existem quatro escalas principais:

1. nominal;
2. ordinal;
3. intervalo;
4. racional (escala de relações).

Na escala nominal (a escala de “nomes”) existem apenas símbolos para descrever algumas classes de objetos, por exemplo, “gênero” ou “profissão do paciente”. A escala nominal implica que a variável assumirá valores, relações quantitativas entre as quais não podem ser determinadas. Assim, é impossível estabelecer uma relação matemática entre os sexos masculino e feminino. As designações numéricas convencionais (mulheres - 0, homens - 1 ou vice-versa) são fornecidas de forma absolutamente arbitrária e destinam-se apenas ao processamento do computador. A escala nominal é qualitativa em sua forma mais pura; as categorias individuais nesta escala são expressas por frequências (o número ou proporção de observações, porcentagens).

A escala ordinal (ordinal) prevê que as categorias individuais nela podem ser organizadas em ordem crescente ou decrescente. Nas estatísticas médicas, um exemplo clássico de escala ordinal é a gradação da gravidade de uma doença. Nesse caso, podemos construir a gravidade em ordem crescente, mas ainda não temos a capacidade de especificar relações quantitativas, ou seja, a distância entre os valores medidos na escala ordinal é desconhecida ou não importa. É fácil estabelecer a ordem dos valores da variável “gravidade”, mas é impossível determinar quantas vezes uma condição grave difere de uma condição moderada.

A escala ordinal se refere ao gênero tipos quantitativos dados, e suas gradações podem ser descritas tanto por frequências (como em uma escala qualitativa) quanto por medidas valores centrais nos quais nos concentraremos a seguir.

Escalas intervalares e racionais são tipos de dados puramente quantitativos. Na escala intervalar, já podemos determinar o quanto um valor de uma variável difere de outro. Assim, um aumento na temperatura corporal em 1 grau Celsius sempre significa um aumento no calor liberado por um número fixo de unidades. No entanto, na escala intervalar, há valores positivos e valores negativos(sem zero absoluto). A este respeito, é impossível dizer que 20 graus Celsius é duas vezes mais quente que 10. Podemos apenas afirmar que 20 graus é tanto mais quente que 10 quanto 30 é mais quente que 20.

A escala racional (a escala de razão) tem um ponto de referência e apenas valores positivos. Na medicina, as escalas mais racionais são concentrações. Por exemplo, um nível de glicose de 10 mmol/L é o dobro da concentração em comparação com 5 mmol/L. Para a temperatura, a escala racional é a escala Kelvin, onde há zero absoluto (ausência de calor).

Deve-se acrescentar que qualquer variável quantitativa pode ser contínua, como no caso da medição da temperatura corporal (esta é uma escala de intervalo contínuo), ou discreta, se contarmos o número de células sanguíneas ou a descendência de animais de laboratório (esta é uma escala escala racional discreta).

Essas diferenças são de importância decisiva para a escolha dos métodos de análise estatística dos resultados experimentais. Assim, para dados nominais, aplica-se o teste do qui-quadrado, e o conhecido teste de Student exige que a variável (intervalo ou racional) seja contínua.

Depois de resolvida a questão do tipo da variável, é necessário começar a formar amostras. Uma amostra é um pequeno grupo de objetos de uma determinada classe (na medicina, uma população). Para obter dados absolutamente precisos, é necessário estudar todos os objetos de uma determinada classe, porém, por motivos práticos (muitas vezes financeiros), apenas uma parte da população, que é chamada de amostra, é estudada. No futuro, a análise estatística permite ao pesquisador estender os padrões obtidos para toda a população com certo grau de precisão. De fato, toda estatística biomédica visa obter os resultados mais precisos a partir do menor número possível de observações, pois na pesquisa em humanos também é importante uma questão ética. Não podemos arriscar grande quantidade pacientes do que o necessário.

A criação de uma amostra é regulada por uma série de requisitos obrigatórios, cuja violação pode levar a conclusões errôneas dos resultados do estudo. Primeiro, o tamanho da amostra é importante. A precisão da estimativa dos parâmetros estudados depende do tamanho da amostra. A palavra "precisão" deve ser levada em conta aqui. Quão mais tamanhos dos grupos estudados, os resultados mais precisos (mas não necessariamente corretos) o cientista recebe. Para que os resultados dos estudos de amostragem sejam transferíveis para toda a população como um todo, a amostra deve ser representante. A representatividade da amostra implica que ela reflita todas as propriedades essenciais da população. Ou seja, nos grupos estudados, pessoas de diferentes sexos, idades, profissões, status social etc. são encontradas com a mesma frequência que em toda a população.

No entanto, antes de iniciar a seleção do grupo de estudo, deve-se decidir sobre a necessidade de estudar uma determinada população. Um exemplo de população pode ser todos os pacientes com certa nosologia ou pessoas em idade produtiva, etc. Assim, os resultados obtidos para uma população de jovens em idade militar dificilmente podem ser extrapolados para mulheres na pós-menopausa. O conjunto de características que o grupo de estudo terá determina a "generalização" dos dados do estudo.

As amostras podem ser geradas de várias maneiras. O mais fácil é escolher com um gerador de números aleatórios. quantidade necessária objetos de uma população ou quadro de amostra(quadro de amostragem). Este método é chamado amostra aleatória simples". Se você escolher aleatoriamente um ponto de partida no quadro de amostragem e, em seguida, pegar cada segundo, quinto ou décimo objeto (dependendo do tamanho de grupo necessário no estudo), você obtém amostragem de intervalo. A amostragem por intervalo não é aleatória, uma vez que a possibilidade de repetições periódicas de dados dentro do quadro de amostragem nunca é excluída.

É possível criar o chamado " amostragem estratificada”, que assume que a população é composta por vários grupos diferentes e essa estrutura deve ser reproduzida no grupo experimental. Por exemplo, se a proporção de homens para mulheres em uma população for 30:70, em uma amostra estratificada, a proporção deve ser a mesma. No esta abordagemÉ extremamente importante não balancear excessivamente a amostra, ou seja, evitar a homogeneidade de suas características, caso contrário o pesquisador pode perder a chance de encontrar diferenças ou relações nos dados.

Além dos métodos descritos de formação de grupos, existem também cacho e cota de amostragem. A primeira é utilizada quando a obtenção de informações completas sobre o quadro amostral é difícil devido ao seu tamanho. Em seguida, a amostra é formada a partir de vários grupos incluídos na população. A segunda - cota - é semelhante a uma amostra estratificada, mas aqui a distribuição dos objetos não corresponde à da população.

Voltando ao tamanho da amostra, deve-se dizer que está intimamente relacionado com a probabilidade de erros estatísticos de primeiro e segundo tipo. Erros estatísticos podem ser devidos ao fato de o estudo não estudar toda a população, mas parte dela. O erro tipo I é o desvio errôneo hipótese nula. Por sua vez, a hipótese nula é a suposição de que todos os grupos estudados são retirados de uma mesma população geral, o que significa que as diferenças ou relações entre eles são aleatórias. Se fizermos uma analogia com os testes de diagnóstico, um erro tipo I é um resultado falso positivo.

O erro tipo II é um desvio incorreto hipótese alternativa, cujo significado reside no fato de que as diferenças ou relações entre os grupos se devem não a uma coincidência aleatória, mas à influência dos fatores estudados. E, novamente, a analogia com o diagnóstico: um erro do segundo tipo é um resultado falso negativo. Relacionado a este erro está a noção potência, que informa sobre a eficácia de um determinado método estatístico sob determinadas condições, sobre sua sensibilidade. A potência é calculada pela fórmula: 1-β, onde β é a probabilidade de um erro tipo II. Este indicador depende principalmente do tamanho da amostra. Quanto maior o tamanho dos grupos, menor a probabilidade de erro tipo II e maior o poder dos testes estatísticos. Essa dependência é no mínimo quadrática, ou seja, reduzir o tamanho da amostra pela metade levará a uma queda no poder pelo menos quatro vezes. A potência mínima permitida é considerada de 80%, e o nível máximo de erro permitido do primeiro tipo é de 5%. No entanto, deve-se sempre lembrar que esses limites são arbitrários e podem mudar dependendo da natureza e dos objetivos do estudo. Como regra, a comunidade científica reconhece uma mudança arbitrária no poder, mas na esmagadora maioria dos casos, o nível de erro do primeiro tipo não pode exceder 5%.

Tudo isso está diretamente relacionado à etapa de planejamento da pesquisa. No entanto, muitos pesquisadores erroneamente referem-se ao processamento de dados estatísticos apenas como algum tipo de manipulação realizada após a conclusão da parte principal do trabalho. Muitas vezes, após o término de um experimento que não foi planejado de forma alguma, há um desejo irresistível de solicitar uma análise de dados estatísticos ao lado. Mas será muito difícil até para um estatístico extrair do “montão de lixo” o resultado esperado pelo pesquisador. Portanto, com conhecimento insuficiente de bioestatística, é necessário buscar auxílio na análise estatística antes mesmo do início do experimento.

Voltando ao procedimento de análise propriamente dito, destacam-se dois tipos principais de técnicas estatísticas: as descritivas e as baseadas em evidências (analíticas). As técnicas descritivas incluem técnicas para apresentar dados de forma compacta e de fácil compreensão. Estes incluem tabelas, gráficos, frequências (absolutas e relativas), medidas de tendência central (média, mediana, moda) e medidas de dispersão de dados (variância, desvio padrão, intervalo interquartil, etc.). Em outras palavras, métodos descritivos caracterizam as amostras estudadas.

A maneira mais popular (embora muitas vezes enganosa) de descrever os dados quantitativos disponíveis é definir os seguintes indicadores:

  • o número de observações na amostra ou seu tamanho;
  • valor médio (média aritmética);
  • o desvio padrão é uma medida de quão amplamente os valores das variáveis ​​mudam.

É importante lembrar que a média aritmética e o desvio padrão são medidas de tendência central e dispersão em um número bastante pequeno de amostras. Em tais amostras, os valores da maioria dos objetos com igualmente provável desviado da média, e sua distribuição forma um "sino" simétrico (curva Gaussiana ou Gauss-Laplace). Essa distribuição também é chamada de “normal”, mas na prática de um experimento médico ocorre apenas em 30% dos casos. Se os valores da variável estiverem distribuídos de forma assimétrica em torno do centro, os grupos serão melhor descritos usando a mediana e os quantis (percentis, quartis, decis).

Concluída a descrição dos grupos, é necessário responder à pergunta sobre suas relações e a possibilidade de generalização dos resultados do estudo para toda a população. Para isso, são utilizados métodos de bioestatística baseados em evidências. É sobre eles que os pesquisadores se lembram antes de tudo quando se trata de processamento de dados estatísticos. Normalmente esta etapa do trabalho é chamada de "teste de hipóteses estatísticas".

As tarefas do teste de hipóteses podem ser divididas em duas grandes grupos. O primeiro grupo responde à questão de saber se há diferenças entre os grupos em relação ao nível de algum indicador, por exemplo, diferenças no nível de transaminases hepáticas em pacientes com hepatite e pessoas saudáveis. O segundo grupo permite comprovar a existência de uma relação entre dois ou mais indicadores, por exemplo, a função do fígado e o sistema imunológico.

Em termos práticos, as tarefas do primeiro grupo podem ser divididas em dois subtipos:

  • comparação do indicador em apenas dois grupos (saudáveis ​​e doentes, homens e mulheres);
  • comparação de três ou mais grupos (estudo de diferentes doses da droga).

Deve-se levar em conta que os métodos estatísticos diferem significativamente para dados qualitativos e quantitativos.

Em uma situação em que a variável em estudo é qualitativa e apenas dois grupos estão sendo comparados, o teste do qui-quadrado pode ser utilizado. Este é um critério bastante poderoso e amplamente conhecido, no entanto, não é suficientemente eficaz se o número de observações for pequeno. Para resolver este problema, existem vários métodos, como a correção de Yates para continuidade e o método exato de Fisher.

Se a variável em estudo for quantitativa, então um dos dois tipos de testes estatísticos pode ser usado. Os critérios do primeiro tipo são baseados em um tipo específico de distribuição da população geral e operam com os parâmetros dessa população. Tais critérios são chamados de "paramétricos" e geralmente se baseiam na suposição de uma distribuição normal de valores. Os testes não paramétricos não se baseiam na suposição sobre o tipo de distribuição da população geral e não utilizam seus parâmetros. Às vezes, esses critérios são chamados de "testes sem distribuição". Até certo ponto, isso é errôneo, pois qualquer teste não paramétrico pressupõe que as distribuições em todos os grupos comparados serão as mesmas, caso contrário, resultados falso-positivos podem ser obtidos.

Existem dois testes paramétricos aplicados a dados extraídos de uma população normalmente distribuída: o teste t de Student para comparar dois grupos e o teste F de Fisher para testar a igualdade de variâncias (também conhecido como ANOVA). Há muito mais critérios não paramétricos. Testes diferentes diferem uns dos outros nos pressupostos em que se baseiam, na complexidade dos cálculos, no poder estatístico, etc. No entanto, o teste de Wilcoxon (para grupos relacionados) e o teste de Mann-Whitney, também conhecido como teste Wilcoxon para amostras independentes. Esses testes são convenientes porque não exigem suposições sobre a natureza da distribuição dos dados. Mas se as amostras forem retiradas de uma população geral normalmente distribuída, seu poder estatístico não diferirá significativamente daquele para o teste de Student.

Uma descrição completa dos métodos estatísticos pode ser encontrada em literatura especial, no entanto, o ponto chave é que cada teste estatístico requer um conjunto de regras (suposições) e condições para seu uso, e a enumeração mecânica de vários métodos para encontrar o resultado “desejado” é absolutamente inaceitável com ponto científico visão. Nesse sentido, os testes estatísticos se aproximam dos medicamentos - cada um tem indicações e contraindicações, efeitos colaterais e a probabilidade de falha. E tão perigoso quanto o uso descontrolado de testes estatísticos, porque neles se baseiam hipóteses e conclusões.

Para uma compreensão mais completa da questão da precisão da análise estatística, é necessário definir e analisar o conceito de " nível de confiança." A probabilidade de confiança é um valor tomado como um limite entre eventos prováveis ​​e improváveis. Tradicionalmente, é denotado pela letra "p". Para muitos pesquisadores, o único propósito de realizar uma análise estatística é calcular o cobiçado valor p, que parece colocar vírgulas em frase famosa"a execução não pode ser perdoada." O nível de confiança máximo permitido é 0,05. Deve-se lembrar que o nível de confiança não é a probabilidade de algum evento, mas uma questão de confiança. Ao expor a probabilidade de confiança antes de iniciar a análise, determinamos o grau de confiança nos resultados de nossa pesquisa. E, como você sabe, credulidade excessiva e suspeita excessiva afetam negativamente os resultados de qualquer trabalho.

O nível de confiança indica a probabilidade máxima de erro tipo I que o pesquisador considera aceitável. Diminuir o nível de confiança, ou seja, apertar as condições para testar hipóteses, aumenta a probabilidade de erros do tipo II. Portanto, a escolha do nível de confiança deve ser feita levando-se em consideração os possíveis danos decorrentes da ocorrência de erros de primeiro e segundo tipo. Por exemplo, os limites rígidos adotados nas estatísticas biomédicas, que determinam a proporção de resultados falsos positivos de não mais que 5%, é uma necessidade severa, porque novos tratamentos são introduzidos ou rejeitados com base nos resultados de pesquisas médicas, e isso é uma questão de vida para muitos milhares de pessoas.

Deve-se ter em mente que o valor de p em si não é muito informativo para um médico, pois apenas informa sobre a probabilidade de uma rejeição errônea da hipótese nula. Este indicador não diz nada, por exemplo, sobre o tamanho do efeito terapêutico ao usar o medicamento em estudo na população geral. Portanto, há uma opinião de que ao invés do nível de confiança, seria melhor avaliar os resultados do estudo pelo tamanho do intervalo de confiança. Intervalo de confiançaé o intervalo de valores dentro do qual o valor real da população (para média, mediana ou frequência) está contido com uma certa probabilidade. Na prática, é mais conveniente ter esses dois valores, o que permite julgar com mais segurança a aplicabilidade dos resultados obtidos à população como um todo.

Em conclusão, algumas palavras devem ser ditas sobre as ferramentas usadas por um estatístico ou um pesquisador que analisa os dados de forma independente. Os cálculos manuais desapareceram há muito tempo. Os programas de computador estatísticos que existem hoje permitem realizar análises estatísticas sem ter um sério treinamento matemático. Sistemas poderosos como SPSS, SAS, R, etc. permitem ao pesquisador usar métodos estatísticos complexos e poderosos. No entanto, isso nem sempre é uma coisa boa. Sem saber o grau de aplicabilidade dos testes estatísticos utilizados para dados experimentais específicos, o pesquisador pode fazer cálculos e até obter alguns números na saída, mas o resultado será muito duvidoso. Então, pré-requisito para realizar o processamento estatístico dos resultados do experimento, deve haver um bom conhecimento fundamentos matemáticos Estatisticas.


Métodos estatísticos - métodos de análise de dados estatísticos. Alocar métodos de estatística aplicada que podem ser aplicados em todas as áreas pesquisa científica e quaisquer indústrias economia nacional, e outros métodos estatísticos, cuja aplicabilidade é limitada a uma área específica. Refere-se a métodos como controle estatístico de aceitação, controle estatístico de processos tecnológicos, confiabilidade e testes e projeto de experimentos.

Métodos estatísticos de análise de dados são usados ​​em quase todas as áreas da atividade humana. Eles são usados ​​sempre que é necessário obter e fundamentar quaisquer julgamentos sobre um grupo (objetos ou sujeitos) com alguma heterogeneidade interna. É aconselhável distinguir três tipos de atividades científicas e aplicadas no campo dos métodos estatísticos de análise de dados (de acordo com o grau de especificidade dos métodos associados à imersão em problemas específicos):

a) desenvolvimento e pesquisa de métodos de uso geral, sem levar em conta as especificidades do campo de aplicação;

b) desenvolvimento e pesquisa de modelos estatísticos fenômenos reais e processos de acordo com as necessidades de uma determinada área de atividade;

c) aplicação de métodos e modelos estatísticos para análise estatística de dados específicos.

Análise de dispersão. A análise de variância (do latim Dispersio - dispersão / em inglês Analysis Of Variance - ANOVA) é utilizada para estudar a influência de uma ou mais variáveis ​​qualitativas (fatores) em uma variável quantitativa dependente (resposta). A análise de variância é baseada em a suposição de que algumas variáveis ​​podem ser consideradas como causas (fatores, variáveis ​​independentes) e outras como consequências (variáveis ​​dependentes). As variáveis ​​independentes às vezes são chamadas de fatores ajustáveis justamente porque no experimento o pesquisador tem a oportunidade de variá-los e analisar o resultado resultante.

objetivo principal análise de variância (ANOVA) é o estudo da significância das diferenças entre médias por meio de uma comparação (análise) de variâncias. Dividir a variância total em várias fontes permite comparar a variância devido à diferença intergrupo com a variância devido à variabilidade dentro do grupo. Se a hipótese nula for verdadeira (sobre a igualdade de médias em vários grupos de observações selecionadas da população geral), a estimativa da variância associada à variabilidade intragrupo deve ser próxima da estimativa da variância intergrupo. Se você está apenas comparando as médias de duas amostras, a análise de variância dará o mesmo resultado que um teste t de amostra independente regular (se você estiver comparando duas grupos independentes objetos ou observações) ou um teste t para amostras dependentes (se duas variáveis ​​são comparadas no mesmo conjunto de objetos ou observações).


A essência da análise de variância consiste em dividir a variância total da característica estudada em componentes separados devido à influência de fatores específicos e testar hipóteses sobre a significância da influência desses fatores na característica estudada. Comparando os componentes da variância entre si usando o teste F de Fisher, é possível determinar qual proporção da variabilidade total do traço resultante é devido à ação de fatores ajustáveis.

material de início para análise de variância, são utilizados os dados do estudo de três ou mais amostras, que podem ser iguais ou desiguais em número, tanto conectadas quanto desconectadas. De acordo com o número de fatores ajustáveis ​​identificados, a análise de variância pode ser de fator único (neste caso, estuda-se a influência de um fator nos resultados do experimento), de dois fatores (ao estudar a influência de dois fatores) e multifatorial (permite avaliar não só a influência de cada um dos fatores separadamente, mas também sua interação).

A análise de variação se aplica ao grupo de métodos paramétricos e, portanto, só deve ser aplicado quando for comprovado que a distribuição é normal.

A análise de variância é usada, se a variável dependente for medida em uma escala de razões, intervalos ou ordem, e as variáveis ​​influenciadoras forem de natureza não numérica (escala de nomes).

Exemplos de tarefas. Em tarefas que estão sendo resolvidas análise de variação, há uma resposta de natureza numérica, que é afetada por diversas variáveis ​​de natureza nominal. Por exemplo, vários tipos de rações de engorda de gado ou duas formas de mantê-los, etc.

Exemplo 1: Durante a semana, vários quiosques de farmácia funcionaram em três locais diferentes. No futuro, podemos deixar apenas um. É necessário determinar se existe uma estatística diferença significante entre os volumes de vendas de medicamentos em quiosques. Se sim, selecionaremos o quiosque com maior volume médio diário de vendas. Se a diferença no volume de vendas for estatisticamente insignificante, outros indicadores devem ser a base para a escolha de um quiosque.

Exemplo 2: Comparação de contrastes de médias de grupo. As sete filiações políticas são ordenadas de extremamente liberais a extremamente conservadoras, e o contraste linear é usado para testar se há uma tendência ascendente diferente de zero nas médias dos grupos, ou seja, se há um aumento linear significativo na média de idade ao considerar grupos ordenados em a direção do liberal para o conservador.

Exemplo 3: Análise de variância bidirecional. O número de vendas de produtos, além do tamanho da loja, muitas vezes é afetado pela localização das prateleiras com o produto. Este exemplo contém números de vendas semanais caracterizados por quatro layouts de prateleiras e três tamanhos de loja. Os resultados da análise mostram que ambos os fatores – a localização das gôndolas com as mercadorias e o tamanho da loja – afetam o número de vendas, mas sua interação não é significativa.

Exemplo 4: ANOVA univariada: Desenho randomizado de dois tratamentos em bloco completo. A influência de todas as combinações possíveis de três gorduras e três estripadores de massa no cozimento do pão é investigada. Quatro amostras de farinha retiradas de quatro fontes diferentes serviram como fatores de bloqueio. É necessário identificar o significado da interação gordura-estripador. Depois disso, determinar as várias opções para escolher contrastes, permitindo descobrir quais combinações de níveis de fatores diferem.

Exemplo 5: Modelo de um plano hierárquico (aninhado) com efeitos mistos. Estuda-se a influência de quatro cabeças selecionadas aleatoriamente montadas em uma máquina-ferramenta na deformação de porta-catodos de vidro fabricados. (Os cabeçotes estão embutidos na máquina, portanto, o mesmo cabeçote não pode ser usado em máquinas diferentes.) O efeito de cabeça é tratado como um fator aleatório. As estatísticas ANOVA mostram que não há diferenças significativas entre as máquinas, mas há indícios de que os cabeçotes podem diferir. A diferença entre todas as máquinas não é significativa, mas para duas delas a diferença entre os tipos de cabeças é significativa.

Exemplo 6: Análise univariada de medidas repetidas usando um plano de parcelas subdivididas. Este experimento foi conduzido para determinar o efeito da classificação de ansiedade de um indivíduo no desempenho do exame em quatro tentativas consecutivas. Os dados são organizados para que possam ser considerados como grupos de subconjuntos de todo o conjunto de dados ("o gráfico inteiro"). O efeito da ansiedade não foi significativo, enquanto o efeito de tentar foi significativo.

Análise de covariância. Análise de covariância - um conjunto de métodos de estatística matemática relacionados à análise de modelos da dependência do valor médio de alguma variável aleatória simultaneamente em um conjunto de fatores qualitativos (básicos) e fatores quantitativos (associados). Os fatores F estabelecem combinações de condições sob as quais as observações X, Y foram obtidas e são descritas usando variáveis ​​indicadoras, e entre as variáveis ​​acompanhantes e indicadoras pode haver tanto aleatórias quanto não aleatórias (controladas no experimento).

Se a variável aleatória Y é um vetor, então se fala de uma análise multivariada de covariância.

A análise de covariância é frequentemente usada antes da análise de variância, para verificar a homogeneidade (homogeneidade, representatividade) da amostra de observações X,Y para todos os fatores concomitantes.