Série discreta online. Construção de uma série de variação de intervalo para dados quantitativos contínuos

Trabalho de laboratório №1. Processamento primário de dados estatísticos

Construção de séries de distribuição

A distribuição ordenada de unidades populacionais em grupos de acordo com qualquer atributo é chamada perto da distribuição . Nesse caso, o sinal pode ser tanto quantitativo, então a série é chamada variacional , e qualitativa, então a série é chamada atributivo . Assim, por exemplo, a população de uma cidade pode ser distribuída de acordo com as faixas etárias em uma série de variação, ou de acordo com a afiliação profissional em uma série de atributos (é claro que muito mais características qualitativas e quantitativas podem ser propostas para a construção de séries de distribuição, a a escolha do recurso é determinada pela tarefa de pesquisa estatística).

Qualquer série de distribuição é caracterizada por dois elementos:

- opção(XI) - estes são valores individuais do atributo de unidades da população amostral. Para uma série variacional, a variante assume valores numéricos, para uma série atributiva - qualitativa (por exemplo, x = "funcionário público");

- frequência(n eu) é um número que mostra quantas vezes esse ou aquele valor de recurso ocorre. Se a frequência for expressa como um número relativo (ou seja, a proporção de elementos da população correspondente a um determinado valor de opções no volume total da população), então ela é chamada frequência relativa ou frequência.

A série de variação pode ser:

- discreto quando a característica em estudo é caracterizada por um certo número (geralmente um número inteiro).

- intervalo quando os limites "de" e "para" são definidos para um recurso continuamente variável. Uma série de intervalos também é construída se o conjunto de valores de um recurso de variável discreta for grande.

Uma série intervalar pode ser construída tanto com intervalos de igual comprimento (igual interval series) quanto com intervalos desiguais, se isso for ditado pelas condições do estudo estatístico. Por exemplo, uma série de distribuição de renda da população com os seguintes intervalos pode ser considerada:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



onde k é o número de intervalos, n é o tamanho da amostra. (É claro que a fórmula geralmente fornece um número fracionário, e o número inteiro mais próximo do número resultante é escolhido como o número de intervalos.) O comprimento do intervalo neste caso é determinado pela fórmula

.

Graficamente, a série variacional pode ser representada como histogramas(uma "coluna" de altura correspondente à frequência neste intervalo é construída acima de cada intervalo da série intervalar), área de distribuição(linha quebrada conectando pontos ( XI;eu) ou acumula(construído de acordo com as frequências acumuladas, ou seja, para cada valor do atributo, é tomada a frequência de ocorrência no conjunto de objetos com valor do atributo menor que o dado).

Ao trabalhar no Excel, as seguintes funções podem ser usadas para construir séries variacionais:

VERIFICA( matriz de dados) – para determinar o tamanho da amostra. O argumento é o intervalo de células que contém os dados de amostra.

CONT.SE( variar; critério) - pode ser usado para construir um atributo ou uma série de variação. Os argumentos são o intervalo da matriz de valores de amostra do atributo e o critério - o valor numérico ou de texto do atributo ou o número da célula em que ele está localizado. O resultado é a frequência de ocorrência desse valor na amostra.

FREQUÊNCIA( matriz de dados; matriz de intervalo) – para construir uma série variacional. Os argumentos são o intervalo da matriz de dados de amostra e a coluna de intervalos. Se for necessário construir uma série discreta, os valores das opções são indicados aqui, se for intervalo, os limites superiores dos intervalos (também são chamados de "bolsões"). Como o resultado é uma coluna de frequências, a introdução da função deve ser concluída pressionando a combinação de teclas CTRL+SHIFT+ENTER. Observe que ao definir uma matriz de intervalos ao introduzir uma função, o último valor nela pode ser omitido - todos os valores que não caíram nos "bolsões" anteriores serão colocados no "bolso" correspondente. Isso às vezes ajuda a evitar o erro de que o maior valor de amostra não é colocado automaticamente no último "bolso".

Além disso, para agrupamentos complexos (segundo diversos critérios), é utilizada a ferramenta “tabelas dinâmicas”. Eles também podem ser usados ​​para construir séries de atributos e variações, mas isso complica desnecessariamente a tarefa. Além disso, para construir uma série de variações e um histograma, existe um procedimento de “histograma” do add-in “Analysis Package” (para usar add-ins no Excel, você deve primeiro baixá-los, eles não são instalados por padrão)

Ilustramos o processo de processamento de dados primários com os exemplos a seguir.

Exemplo 1.1. há dados sobre a composição quantitativa de 60 famílias.

Construir uma série de variação e um polígono de distribuição

Solução.

Vamos abrir as planilhas do Excel. Vamos inserir uma matriz de dados no intervalo A1:L5. Se estiver estudando um documento em formato eletrônico (em formato Word, por exemplo), basta selecionar uma tabela com dados e copiá-la para a área de transferência, selecionar a célula A1 e colar os dados - eles ocuparão automaticamente a intervalo apropriado. Vamos calcular o tamanho da amostra n - o número de dados da amostra, para isso, na célula B7, digite a fórmula = COUNT (A1:L5). Observe que, para inserir o intervalo desejado na fórmula, não é necessário inserir sua designação no teclado, basta selecioná-lo. Vamos determinar os valores mínimo e máximo na amostra inserindo a fórmula =MIN(A1:L5) na célula B8 e na célula B9: =MAX(A1:L5).

Fig.1.1 Exemplo 1. Processamento primário de dados estatísticos em tabelas do Excel

Em seguida, vamos preparar uma tabela para construir uma série de variação inserindo nomes para a coluna de intervalo (valores de variante) e a coluna de frequência. Na coluna de intervalos, insira os valores do atributo do mínimo (1) ao máximo (6), ocupando o intervalo B12:B17. Selecione a coluna de frequência, insira a fórmula =FREQUENCY(A1:L5;B12:B17) e pressione a combinação de teclas CTRL+SHIFT+ENTER

Fig.1.2 Exemplo 1. Construção de uma série de variação

Para controle, calculamos a soma das frequências usando a função SUM (ícone da função S no grupo Editing na guia Home), a soma calculada deve corresponder ao tamanho da amostra calculado anteriormente na célula B7.

Agora vamos construir um polígono: tendo selecionado a faixa de frequência resultante, selecione o comando "Gráfico" na guia "Inserir". Por padrão, os valores no eixo horizontal serão números ordinais - no nosso caso, de 1 a 6, que coincide com os valores das opções (números de categorias tarifárias).

O nome da série do gráfico “série 1” pode ser alterado usando a mesma opção “selecionar dados” na guia “Designer” ou simplesmente excluído.

Fig.1.3. Exemplo 1. Construindo um polígono de frequência

Exemplo 1.2. Os dados estão disponíveis sobre as emissões de poluentes de 50 fontes:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Compile uma série de intervalos iguais, construa um histograma

Solução

Vamos adicionar uma matriz de dados a uma planilha do Excel, ela ocupará o intervalo A1:J5 Como na tarefa anterior, determinaremos o tamanho da amostra n, os valores mínimo e máximo na amostra. Como agora não precisamos de uma série discreta, mas de intervalos, e o número de intervalos no problema não é especificado, calculamos o número de intervalos k usando a fórmula de Sturgess. Para fazer isso, na célula B10, insira a fórmula =1+3,322*LOG10(B7).

Fig.1.4. Exemplo 2. Construção de uma série de intervalos iguais

O valor resultante não é um número inteiro, é aproximadamente 6,64. Como para k=7 o comprimento dos intervalos será expresso como um inteiro (ao contrário do caso de k=6), escolheremos k=7 inserindo esse valor na célula C10. Calculamos o comprimento do intervalo d na célula B11 inserindo a fórmula = (B9-B8) / C10.

Vamos definir um array de intervalos, especificando o limite superior para cada um dos 7 intervalos. Para fazer isso, na célula E8, calcule o limite superior do primeiro intervalo digitando a fórmula =B8+B11; na célula E9 o limite superior do segundo intervalo inserindo a fórmula =E8+B11. Para calcular os valores restantes dos limites superiores dos intervalos, fixamos o número da célula B11 na fórmula inserida usando o sinal $, para que a fórmula na célula E9 se torne =E8+B$11 e copiamos o conteúdo de célula E9 para células E10-E14. O último valor obtido é igual ao valor máximo na amostra calculado anteriormente na célula B9.

Fig.1.5. Exemplo 2. Construção de uma série de intervalos iguais


Agora vamos preencher o array de "bolsos" usando a função FREQUENCY, como foi feito no exemplo 1.

Fig.1.6. Exemplo 2. Construção de uma série de intervalos iguais

Com base na série variacional resultante, construiremos um histograma: selecione a coluna de frequência e selecione "Histograma" na guia "Inserir". Tendo recebido o histograma, alteraremos os rótulos do eixo horizontal nele para valores no intervalo de intervalos, para isso selecionamos a opção "Selecionar dados" da guia "Designer". Na janela que aparece, selecione o comando "Alterar" para a seção "Rótulos do eixo horizontal" e insira o intervalo de valores das variantes selecionando-o com o "mouse".

Fig.1.7. Exemplo 2. Construindo um histograma

Fig.1.8. Exemplo 2. Construindo um histograma

Uma série variacional discreta é construída para características discretas.

Para construir uma série de variação discreta, você precisa fazer o seguinte: 1) ordenar as unidades de observação em ordem crescente do valor do atributo estudado,

2) determine todos os valores possíveis do atributo x i , ordene-os em ordem crescente,

valor do sinal, eu .

frequência do valor do recurso e denotar f eu . A soma de todas as frequências da série é igual ao número de elementos na população estudada.

Exemplo 1 .

Lista de notas obtidas pelos alunos em exames: 3; quatro; 3; 5; quatro; 2; 2; quatro; quatro; 3; 5; 2; quatro; 5; quatro; 3; quatro; 3; 3; quatro; quatro; 2; 2; 5; 5; quatro; 5; 2; 3; quatro; quatro; 3; quatro; 5; 2; 5; 5; quatro; 3; 3; quatro; 2; quatro; quatro; 5; quatro; 3; 5; 3; 5; quatro; quatro; 5; quatro; quatro; 5; quatro; 5; 5; 5.

Aqui o número X - avaliaré uma variável aleatória discreta, e a lista resultante de estimativas édados estatísticos (observados) .

    ordene as unidades de observação em ordem crescente do valor estudado do recurso:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) determine todos os valores possíveis do atributo x i , ordene-os em ordem crescente:

Neste exemplo, todas as pontuações podem ser divididas em quatro grupos com os seguintes valores: 2; 3; quatro; 5.

O valor de uma variável aleatória correspondente a um grupo separado de dados observados é chamado valor do sinal, variante (opção) e designar x eu .

O número que mostra quantas vezes o valor da característica correspondente ocorre em uma série de observações é chamado frequência do valor do recurso e denotar f eu .

Para o nosso exemplo

a pontuação 2 ocorre - 8 vezes,

a pontuação 3 ocorre - 12 vezes,

a pontuação 4 ocorre - 23 vezes,

pontuação 5 ocorre - 17 vezes.

São 60 avaliações no total.

4) escreva os dados recebidos em uma tabela de duas linhas (colunas) - xi e f i .

Com base nesses dados, é possível construir uma série variacional discreta

Série de variação discreta - esta é uma tabela na qual os valores de ocorrência do traço estudado são indicados como valores separados em ordem crescente e suas frequências

  1. Construção de uma série de variação de intervalo

Além de uma série variacional discreta, muitas vezes existe uma maneira de agrupar dados como uma série variacional de intervalo.

Uma série intervalar é construída se:

    o signo tem uma natureza contínua de mudança;

    existem muitos valores discretos (mais de 10)

    frequências de valores discretos são muito pequenas (não excedam 1-3 com um número relativamente grande de unidades de observação);

    muitos valores discretos de um recurso com as mesmas frequências.

Uma série de variação de intervalo é uma forma de agrupar dados na forma de uma tabela que possui duas colunas (valores de recurso na forma de um intervalo de valores e a frequência de cada intervalo).

Ao contrário de uma série discreta, os valores da característica de uma série intervalar não são representados por valores individuais, mas por um intervalo de valores ("de - até").

O número que mostra quantas unidades de observação caíram em cada intervalo selecionado é chamado frequência do valor do recurso e denotar f eu . A soma de todas as frequências da série é igual ao número de elementos (unidades de observação) na população estudada.

Se uma unidade tiver um valor de característica igual ao valor do limite superior do intervalo, ela deve ser referida ao próximo intervalo.

Por exemplo, uma criança com uma altura de 100 cm cairá no 2º intervalo e não no primeiro; e uma criança com uma altura de 130 cm cairá no último intervalo, e não no terceiro.

Com base nesses dados, é possível construir uma série de variação intervalar.

Cada intervalo tem um limite inferior (x n), um limite superior (x in) e uma largura de intervalo ( eu).

Um limite de intervalo é um valor de recurso que fica na borda de dois intervalos.

altura das crianças (cm)

altura das crianças (cm)

quantidade de filhos

mais de 130

Se um intervalo tem um limite superior e inferior, então ele é chamado intervalo fechado. Se o intervalo tiver apenas um limite inferior ou superior, então isso é - intervalo aberto. Apenas o primeiro ou o último intervalo pode ser aberto. No exemplo acima, o último intervalo está aberto.

Largura do intervalo (eu) é a diferença entre os limites superior e inferior.

eu = x n - x em

A largura de um intervalo aberto é considerada igual à largura de um intervalo fechado adjacente.

altura das crianças (cm)

quantidade de filhos

Largura do intervalo (i)

para cálculos 130+20=150

20 (porque a largura do intervalo fechado adjacente é 20)

Todas as séries intervalares são divididas em séries intervalares com intervalos iguais e séries intervalares com intervalos desiguais. . Em linhas de intervalo com intervalos iguais, a largura de todos os intervalos é a mesma. Em séries intervalares com intervalos desiguais, a largura dos intervalos é diferente.

Neste exemplo, uma série de intervalos com intervalos desiguais.

Formação profissional superior

"ACADEMIA RUSSA DE ECONOMIA DO POVO E

SERVIÇO CIVIL SOB O PRESIDENTE

FEDERAÇÃO RUSSA"

(filial Kaluga)

Departamento de Ciências Naturais e Disciplinas Matemáticas

TESTE

Assunto "Estatísticas"

Aluno ___ Mayboroda Galina Yurievna ______

Corpo docente do departamento de correspondência Grupo de gestão estadual e municipal G-12-V

Palestrante ____________________ Hamer G.V.

Doutorado, Professor Associado

Kaluga-2013

Tarefa 1.

Tarefa 1.1. quatro

Tarefa 1.2. 16

Tarefa 1.3. 24

Tarefa 1.4. 33

Tarefa 2.

Tarefa 2.1. 43

Tarefa 2.2. 48

Tarefa 2.3. 53

Tarefa 2.4. 58

Tarefa 3.

Tarefa 3.1. 63

Tarefa 3.2. 68

Tarefa 3.3. 73

Tarefa 3.4. 79

Tarefa 4.

Problema 4.1. 85

Tarefa 4.2. 88

Tarefa 4.3. 90

Tarefa 4.4. 93

Lista de fontes usadas. 96

Tarefa 1.

Tarefa 1.1.

Existem os seguintes dados sobre a produção e o valor do lucro das empresas da região (tabela 1).

tabela 1

Dados sobre a produção e a quantidade de lucro das empresas

número da empresa Saída, milhões de rublos Lucro, milhões de rublos número da empresa Saída, milhões de rublos Lucro, milhões de rublos
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

De acordo com os dados originais:

1. Construir uma série estatística de distribuição das empresas por produção, formando cinco grupos em intervalos iguais.

Construir gráficos de séries de distribuição: polígono, histograma, cumular. Determine graficamente o valor da moda e da mediana.

2. Calcular as características de uma série de distribuição de empresas por produção: média aritmética, dispersão, desvio padrão, coeficiente de variação.

Faça uma conclusão.

3. Usando o método de agrupamento analítico, estabeleça a presença e a natureza da correlação entre o custo dos produtos manufaturados e o valor do lucro por empresa.

4. Meça a rigidez da correlação entre o custo de produção e a quantidade de lucro pela correlação empírica.

Tire conclusões gerais.

Solução:

Vamos construir uma série estatística de distribuição

Para construir uma série de variação intervalar que caracterize a distribuição das empresas em termos de produção, é necessário calcular o valor e os limites dos intervalos da série.

Ao construir uma série com intervalos iguais, o valor do intervalo hé determinado pela fórmula:

x máx. e x min- os maiores e menores valores do atributo no conjunto de empresas estudado;

k- número de grupos de séries intervalares.

Número de grupos k especificado na atribuição. k= 5.

x máx.= 81 milhões de rublos, x min= 21 milhões de rublos

Cálculo do valor do intervalo:

milhão de rublos

Adicionando sucessivamente o valor do intervalo h = 12 milhões de rublos. para o limite inferior do intervalo, obtemos os seguintes grupos:

1 grupo: 21 - 33 milhões de rublos.

2 grupo: 33 - 45 milhões de rublos;

Grupo 3: 45 - 57 milhões de rublos.

Grupo 4: 57 - 69 milhões de rublos.

Grupo 5: 69 - 81 milhões de rublos.

Para construir uma série intervalar, é necessário calcular o número de empresas incluídas em cada grupo ( frequências de grupo).

O processo de agrupamento das empresas por volume de produção é apresentado na tabela auxiliar 2. A coluna 4 desta tabela é necessária para construir um agrupamento analítico (parágrafo 3 da tarefa).

mesa 2

Tabela para construir uma série de distribuição de intervalos e

agrupamento analítico

Grupos de empresas por produção, milhões de rublos número da empresa Saída, milhões de rublos Lucro, milhões de rublos
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
Total 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
Total 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
Total 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
Total 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
Total 229,0 26,9
Total 183,1

Com base nas linhas de resumo do grupo da tabela "Total" 3, forma-se a tabela final 3, representando a série intervalar da distribuição das empresas por produção.

Tabela 3

Um número de distribuição de empresas por volume de produção

Conclusão. O agrupamento construído mostra que a distribuição das empresas em termos de produção não é uniforme. As empresas mais comuns com um volume de produção de 45 a 57 milhões de rublos. (12 empresas). As menos comuns são as empresas com produção de 69 a 81 milhões de rublos. (3 empresas).

Vamos construir gráficos da série de distribuição.

Polígono frequentemente usado para representar séries discretas. Para construir um polígono em um sistema de coordenadas retangulares, os valores do argumento são plotados no eixo de abcissas, ou seja, opções (para séries variacionais de intervalo, o meio do intervalo é tomado como argumento) e no eixo de ordenadas - frequência valores. Além disso, neste sistema de coordenadas, são construídos pontos, cujas coordenadas são pares de números correspondentes da série de variação. Os pontos resultantes são conectados em série por segmentos de linha reta. O polígono é mostrado na Figura 1.

gráfico de barras - gráfico de barras. Ele permite que você avalie a simetria da distribuição. O histograma é mostrado na Figura 2.

Figura 1 - Distribuição poligonal dos empreendimentos por volume

resultado

Moda

Figura 2 - Histograma da distribuição dos empreendimentos por volume

resultado

Moda- o valor da característica que ocorre com mais frequência na população de estudo.

Para uma série intervalar, o modo pode ser determinado graficamente a partir do histograma (Figura 2). Para isso, é selecionado o retângulo mais alto, que neste caso é modal (45 a 57 milhões de rublos). Em seguida, o vértice direito do retângulo modal é conectado ao canto superior direito do retângulo anterior. E o vértice esquerdo do retângulo modal está com o canto superior esquerdo do retângulo subsequente. Além disso, a partir do ponto de sua interseção, uma perpendicular é abaixada ao eixo das abcissas. A abcissa do ponto de intersecção dessas linhas será o modo de distribuição.

Milhão esfregar.

Conclusão. No conjunto considerado de empresas, as empresas com produção de 52 milhões de rublos são as mais comuns.

Acumular - curva quebrada. É construído sobre as frequências acumuladas (calculadas na Tabela 4). O cumulado começa no limite inferior do primeiro intervalo (21 milhões de rublos), a frequência acumulada é depositada no limite superior do intervalo. O acumulado é mostrado na Figura 3.

Mediana

Figura 3 - Distribuição acumulada dos empreendimentos por volume

resultado

Eu medianoé o valor do recurso que cai no meio da série classificada. Há o mesmo número de unidades populacionais em ambos os lados da mediana.

Em uma série intervalar, a mediana pode ser determinada graficamente a partir de uma curva cumulativa. Para determinar a mediana a partir de um ponto da escala de frequência acumulada correspondente a 50% (30:2 = 15), traça-se uma linha reta paralela ao eixo das abcissas até cruzar com o cumulado. Então, a partir do ponto de intersecção da linha reta especificada com o cumulado, uma perpendicular é abaixada ao eixo das abcissas. A abcissa do ponto de interseção é a mediana.

Milhão esfregar.

Conclusão. No conjunto considerado de empresas, metade das empresas tem um volume de produção não superior a 52 milhões de rublos e a outra metade - não inferior a 52 milhões de rublos.


Informações semelhantes.


Ao processar grandes quantidades de informações, o que é especialmente importante na condução de desenvolvimentos científicos modernos, o pesquisador enfrenta a séria tarefa de agrupar corretamente os dados iniciais. Se os dados forem discretos, como vimos, não há problemas - você só precisa calcular a frequência de cada recurso. Se a característica em estudo tiver contínuo(o que é mais comum na prática), então a escolha do número ideal de intervalos para agrupar um recurso não é uma tarefa trivial.

Para agrupar variáveis ​​aleatórias contínuas, todo o intervalo de variação do recurso é dividido em um certo número de intervalos para.

Intervalo agrupado (contínuo) série variacional chamados intervalos classificados pelo valor do recurso (), onde indicado juntamente com as frequências correspondentes () o número de observações que caiu no intervalo r "th, ou frequências relativas ():

Intervalos de valor característico

frequência mi

gráfico de barras e cumular (ogiva), já discutidos em detalhes por nós, são uma excelente ferramenta de visualização de dados que permite obter uma compreensão primária da estrutura de dados. Tais gráficos (Fig. 1.15) são construídos para dados contínuos da mesma forma que para dados discretos, apenas levando em consideração o fato de que dados contínuos preenchem completamente a área de seus valores possíveis, tomando quaisquer valores.

Arroz. 1.15.

É por isso as colunas do histograma e o cumulado devem estar em contato, não ter áreas onde os valores dos atributos não se enquadrem em todos os possíveis(ou seja, o histograma e o cumulado não devem ter “buracos” ao longo do eixo das abcissas, nos quais não caiam os valores da variável em estudo, como na Fig. 1.16). A altura da barra corresponde à frequência - o número de observações que caem no intervalo dado, ou a frequência relativa - a proporção de observações. Intervalos não deve atravessar e geralmente têm a mesma largura.

Arroz. 1.16.

O histograma e o polígono são aproximações da curva de densidade de probabilidade (função diferencial) f(x) distribuição teórica, considerada no curso da teoria das probabilidades. Portanto, sua construção é de tamanha importância no processamento estatístico primário de dados quantitativos contínuos - por sua forma pode-se julgar a lei de distribuição hipotética.

Acumulado - a curva das frequências acumuladas (frequências) da série de variação intervalar. O gráfico da função de distribuição integral é comparado com o cumulado F(x), também considerado no curso da teoria das probabilidades.

Basicamente, os conceitos de histograma e cumulados são associados precisamente a dados contínuos e suas séries de variação intervalar, uma vez que seus gráficos são estimativas empíricas da função densidade de probabilidade e função distribuição, respectivamente.

A construção de uma série de variação intervalar começa com a determinação do número de intervalos k. E esta tarefa é talvez a mais difícil, importante e controversa no tema em estudo.

O número de intervalos não deve ser muito pequeno, pois o histograma será muito suave ( alisado), perde todas as características da variabilidade dos dados iniciais - na Fig. 1.17 você pode ver como os mesmos dados nos quais os gráficos da Fig. 1.15 são usados ​​para construir um histograma com um número menor de intervalos (gráfico da esquerda).

Ao mesmo tempo, o número de intervalos não deve ser muito grande - caso contrário, não poderemos estimar a densidade de distribuição dos dados em estudo ao longo do eixo numérico: o histograma acabará sendo suavizado (suavizado) com intervalos não preenchidos, irregulares (ver Fig. 1.17, gráfico à direita).

Arroz. 1.17.

Como determinar o número preferido de intervalos?

Em 1926, Herbert Sturges propôs uma fórmula para calcular o número de intervalos em que é necessário dividir o conjunto inicial de valores do atributo estudado. Essa fórmula realmente se tornou super popular - a maioria dos livros de estatística a oferece, e muitos pacotes estatísticos a usam por padrão. Se isso é justificado e em todos os casos é uma questão muito séria.

Então, em que se baseia a fórmula de Sturges?

Considere a distribuição binomial)