O que é amostragem em estatística. Problemas sobre a quota geral

O número total de objetos de observação (pessoas, domicílios, empresas, assentamentos, etc.) que possuem um determinado conjunto de características (gênero, idade, renda, número, volume de negócios etc.), limitados no espaço e no tempo. Exemplos de população

  • Todos os residentes de Moscou (10,6 milhões de pessoas de acordo com o censo de 2002)
  • homens moscovitas (4,9 milhões de acordo com o censo de 2002)
  • Pessoas jurídicas russas (2,2 milhões no início de 2005)
  • Pontos de venda de produtos alimentares (20 mil no início de 2008), etc.

Amostra (população da amostra)

Uma porção de objetos de uma população selecionada para estudo a fim de tirar uma conclusão sobre toda a população. Para que a conclusão obtida pelo estudo da amostra seja estendida a toda a população, a amostra deve ter a propriedade de ser representativa.

Representatividade da amostra

A propriedade da amostra para refletir corretamente a população geral. A mesma amostra pode ou não ser representativa de diferentes populações.
Exemplo:

  • Uma amostra composta inteiramente de moscovitas que possuem um carro não representa toda a população de Moscou.
  • A amostra de empresas russas com até 100 funcionários não representa todas as empresas na Rússia.
  • A amostra de moscovitas que fazem compras no mercado não representa o comportamento de compra de todos os moscovitas.

Ao mesmo tempo, essas amostras (sujeitas a outras condições) podem representar perfeitamente proprietários de carros moscovitas, pequenas e médias empresas russas e compradores que fazem compras nos mercados, respectivamente.
É importante entender que a representatividade da amostra e o erro amostral são fenômenos diferentes. A representatividade, ao contrário do erro, não depende do tamanho da amostra.
Exemplo:
Não importa o quanto aumentemos o número de proprietários de carros moscovitas pesquisados, não seremos capazes de representar todos os moscovitas com esta amostra.

Erro de amostragem (intervalo de confiança)

O desvio dos resultados obtidos com a ajuda da observação amostral dos dados reais da população geral.
Existem dois tipos de erro amostral: estatístico e sistemático. O erro estatístico depende do tamanho da amostra. Quanto maior o tamanho da amostra, menor ela é.
Exemplo:
Para uma amostra aleatória simples de 400 unidades, o erro estatístico máximo (com 95% de confiança) é de 5%, para uma amostra de 600 unidades - 4%, para uma amostra de 1100 unidades - 3%.
O erro sistemático depende de vários fatores que têm um impacto constante no estudo e enviesam os resultados do estudo em uma determinada direção.
Exemplo:

  • O uso de qualquer amostra probabilística subestima a proporção de pessoas de alta renda que são ativas. Isso acontece devido ao fato de que essas pessoas são muito mais difíceis de encontrar em qualquer lugar específico (por exemplo, em casa).
  • O problema dos entrevistados que se recusam a responder a perguntas (a parcela de “refuseniks” em Moscou, para diferentes pesquisas, varia de 50% a 80%)

Em alguns casos, quando as distribuições verdadeiras são conhecidas, o viés pode ser nivelado introduzindo cotas ou reponderando os dados, mas na maioria dos estudos reais, até mesmo estimar isso pode ser bastante problemático.

Tipos de amostra

As amostras são divididas em dois tipos:

  • probabilístico
  • improbabilidade

1. Amostras de probabilidade
1.1 Amostragem aleatória (seleção aleatória simples)
Tal amostra pressupõe a homogeneidade da população geral, a mesma probabilidade de disponibilidade de todos os elementos, a presença de uma lista completa de todos os elementos. Ao selecionar elementos, como regra, é usada uma tabela de números aleatórios.
1.2 Amostragem mecânica (sistemática)
Uma espécie de amostra aleatória, ordenada por algum atributo (ordem alfabética, número de telefone, data de nascimento, etc.). O primeiro elemento é selecionado aleatoriamente, então cada 'k'ésimo elemento é selecionado em incrementos de 'n'. O tamanho da população geral, enquanto - N=n*k
1.3 Estratificado (zonado)
É usado em caso de heterogeneidade da população em geral. A população geral é dividida em grupos (estratos). Em cada estrato, a seleção é feita aleatoriamente ou mecanicamente.
1.4 Amostragem em série (aninhada ou agrupada)
Com a amostragem em série, as unidades de seleção não são os objetos em si, mas os grupos (clusters ou ninhos). Os grupos são selecionados aleatoriamente. Objetos dentro de grupos são pesquisados ​​por toda parte.

2. Amostras incríveis
A seleção em tal amostra é realizada não de acordo com os princípios do acaso, mas de acordo com critérios subjetivos - acessibilidade, tipicidade, representação igualitária etc.
2.1. Amostragem de cotas
Inicialmente, um certo número de grupos de objetos é alocado (por exemplo, homens de 20 a 30 anos, 31 a 45 anos e 46 a 60 anos; pessoas com renda de até 30 mil rublos, com renda de 30 a 60 mil rublos e com renda superior a 60 mil rublos ) Para cada grupo, é especificado o número de objetos a serem pesquisados. O número de objetos que devem cair em cada um dos grupos é definido, na maioria das vezes, proporcionalmente à participação previamente conhecida do grupo na população geral, ou o mesmo para cada grupo. Dentro dos grupos, os objetos são selecionados aleatoriamente. A amostragem por cotas é usada com bastante frequência.
2.2. Método Bola de Neve
A amostra é construída da seguinte forma. A cada respondente, a partir do primeiro, é solicitado que contate seus amigos, colegas, conhecidos que se enquadrariam nas condições de seleção e poderiam participar do estudo. Assim, com exceção da primeira etapa, a amostra é formada com a participação dos próprios objetos de estudo. O método é frequentemente utilizado quando é necessário encontrar e entrevistar grupos de inquiridos de difícil acesso (por exemplo, inquiridos com rendimentos elevados, inquiridos pertencentes ao mesmo grupo profissional, inquiridos que tenham alguns hobbies/paixões semelhantes, etc. )
2.3 Amostragem espontânea
Os entrevistados mais acessíveis são pesquisados. Exemplos típicos de amostras espontâneas estão em jornais/revistas dados aos entrevistados para autopreenchimento, a maioria das pesquisas na Internet. O tamanho e a composição das amostras espontâneas não são conhecidos antecipadamente e são determinados por apenas um parâmetro - a atividade dos entrevistados.
2.4 Amostra de casos típicos
São selecionadas unidades da população geral que possuem um valor médio (típico) do atributo. Isso levanta o problema de escolher um recurso e determinar seu valor típico.

Curso de palestras sobre a teoria da estatística

Informações mais detalhadas sobre observações de amostra podem ser obtidas visualizando.

Pesquisa seletiva.

O conceito de método de amostragem.

Observação seletiva- esta é uma observação não contínua em que a seleção de unidades da população a ser estudada é realizada aleatoriamente, a parte selecionada é submetida à pesquisa, após o que os resultados são distribuídos para toda a população.

O método de amostragem é usado quando

1 quando a própria observação estiver associada a danos ou destruição das unidades observadas (fio para tempero, lâmpada elétrica para produto de combustão)

2 grandes volumes agregados

3 altos custos (financeiros e trabalhistas).

Normalmente, 5-10% da população total é submetida a uma pesquisa por amostragem, menos frequentemente 15-25%.

O objetivo da amostragem é determinar as características da média geral e da proporção geral (P). Características da população amostral - média amostral e a fração amostral (w) diferem das características gerais pela quantidade de erro amostral ( ). Portanto, é necessário calcular o erro amostral ou o erro de representatividade, que é determinado por fórmulas desenvolvidas na teoria da probabilidade para cada tipo de amostra e método de seleção.

Existem as seguintes maneiras de selecionar unidades:

1 seleção de bola de retorno, comumente referida como reamostragem.

Com a seleção repetida, a probabilidade de obter cada unidade individual na amostra permanece constante, porque após selecionar uma unidade, ela é devolvida à população novamente e pode ser selecionada novamente.

2 seleção de acordo com o esquema de bola não devolvida, chamado amostragem aleatória. Nesse caso, cada unidade selecionada não é devolvida, e a probabilidade de obter unidades individuais na amostra muda o tempo todo (para as unidades restantes, aumentará) (lote), tabelas de números aleatórios, por exemplo, 75 de 780.

Tipos de amostra.

1 Na verdade - aleatório.

Esta é aquela em que a seleção das unidades da amostra é feita diretamente de toda a massa de unidades da população geral.

Nesse caso, o número de unidades selecionadas geralmente é determinado com base na proporção aceita da amostra.

Para uma amostra, existe a razão entre o número de unidades na população amostral e o número de unidades na população geral N.

Assim, com uma amostra de 5% de um lote de 2.000 unidades, o tamanho da amostra n é de 100 unidades. (
), e com uma amostra de 20% serão 400 unidades.

(
)

Uma condição importante para uma amostra aleatória adequada que cada unidade da população tenha a mesma oportunidade de ser incluída na amostra.

Com a seleção aleatória, o erro marginal de amostragem para a média é igual a

- variância de amostragem

n - tamanho da amostra

t é o fator de confiança, que é determinado a partir da tabela de valores da função integral de Laplace para uma determinada probabilidade P.

Com amostragem não repetitiva, o erro de amostragem marginal é determinado pela fórmula para a média

onde N é o tamanho da população geral da parcela

Para determinar o teor de cinzas do carvão, 100 amostras de carvão foram examinadas aleatoriamente. Como resultado da pesquisa, verificou-se que o teor médio de cinzas do carvão na amostra é de 16%, = 5%. Em 10 amostras, o teor de cinzas de carvão foi > 20% com probabilidade de 0,954 para determinar os limites em que o teor médio de cinzas de carvão no depósito e a proporção de carvão com teor de cinzas > 20% serão

Conteúdo médio de cinzas

determinar o erro de amostragem marginal


2*0.5=1%

em p=0,954 t=2

quota de carvão com teor de cinzas >20%

a parcela da amostra é determinada

onde m é a proporção de unidades que têm uma característica

erro de amostragem para compartilhamento

Com uma probabilidade de 0,954, pode-se argumentar que a proporção de carvão com teor de cinzas superior a 20% no depósito estará dentro de

P= 10%+(-)6% ou

amostragem mecânica.

Este é um tipo de fato - aleatório. Nesse caso, toda a população é dividida em n partes iguais e, em seguida, uma unidade é selecionada de cada parte.

Todas as unidades da população devem ser organizadas em uma determinada ordem. Ao mesmo tempo, em relação ao indicador em estudo, as unidades da população geral podem ser ordenadas de acordo com uma característica significativa, secundária ou neutra. Neste caso, a unidade que está no meio de cada grupo deve ser selecionada de cada grupo. Isso evita viés de amostragem.

Aplicar: ao examinar compradores em lojas, visitantes em clínicas, a cada 5,4,3, etc.

Exemplo de amostragem mecânica

Para determinar o prazo médio de utilização de um empréstimo de curto prazo em um banco, será feita uma amostra mecânica de 5%, que inclui 100 contas. Como resultado da pesquisa, verificou-se que o prazo médio para utilização de um empréstimo de curto prazo é de 30 dias com
9 dias em 5 contas Prazo > 60 dias.

Erro de amostragem

Essa. com uma probabilidade de 0,954 pode-se argumentar que o prazo de utilização do empréstimo flutua

1 dentro de 30 dias + (-) 2 dias, ou seja

2 ações de empréstimos com prazo > 60 dias.

a parte da amostra será

determinar o erro de compartilhamento

com uma probabilidade de 0,954, pode-se argumentar que a parcela de empréstimos bancários com vencimento superior a 60 dias será de

Amostra típica.

A população geral é dividida em grupos típicos homogêneos. Então, de cada grupo típico, uma seleção individual de unidades na amostra é feita por uma amostra aleatória ou mecânica.

Por exemplo: pr. tr. trabalhadores, constituídos por grupos separados por qualificação.

Recurso importante- dá resultados mais precisos em comparação com outros, tk. a amostra inclui uma unidade tipológica.

A seleção das unidades de observação no conjunto amostral é realizada por vários métodos. Considere uma amostra típica com seleção proporcional dentro de grupos típicos.

O tamanho da amostra de um grupo típico na seleção proporcional ao número de grupos típicos é determinado pela fórmula

Onde =V amostras do grupo típico

= V do grupo típico.

O erro marginal da média e proporção da amostra para um método de seleção aleatória e mecânica não repetitiva dentro de grupos típicos é calculado pelas fórmulas


Onde = variação da amostra

Exemplo: amostra típica

Para determinar a idade média dos homens que ingressam no casamento, foi feita uma amostra de 5% no distrito com a seleção de unidades em proporção ao número de grupos típicos

A seleção mecânica foi usada dentro dos grupos

Com uma probabilidade de 0,954, determine os limites dentro dos quais se situará a média de idade dos homens que se casaram e a proporção de homens que se casaram novamente.

idade média de casamento para os homens da amostra

erro de amostragem marginal

com uma probabilidade de 0,954, pode-se argumentar que a idade média dos homens que se casam estará dentro de

para os homens que entram em um segundo casamento estar dentro

a parcela da amostra é determinada

a variância da amostra do recurso alternativo é

com uma probabilidade de 0,954 pode-se argumentar que a proporção daqueles que se casam pela segunda vez está dentro de

amostragem seriada.

Com a amostragem seriada, a população é dividida em grupos de mesmo tamanho - série. A população amostral é uma série selecionada. Dentro da série, é realizada uma observação contínua das unidades que se enquadram na série.

Com seleção repetitiva e determinado pela fórmula

Onde
- variância entre séries

Onde
média amostral da série

média amostral da amostra em série

R- número de séries da população geral

r - número de séries selecionadas

Exemplo: na oficina de 10 brigadas, para estudar a produtividade da mão-de-obra, será realizada uma amostra seriada de 20%, que incluiu 2 brigadas. Como resultado do levantamento, foi constatado que

com uma probabilidade de 0,997 para determinar os limites dentro dos quais será a produção média dos trabalhadores da loja.

a média amostral de uma amostra em série é determinada pela fórmula

com uma probabilidade de 0,997, pode-se argumentar que a produção média dos trabalhadores da loja está dentro

São 200 caixas de peças, 40 peças em cada caixa, no armazém de produto acabado da oficina. Será feita uma amostragem em série de 10% para verificar a qualidade dos produtos acabados. Como resultado da amostragem, verificou-se que para peças defeituosas é de 15%. A variância da amostra em série é 0,0049.

Com uma probabilidade de 0,997, determine os limites nos quais a proporção de produtos defeituosos em um lote de caixas é

A proporção de peças defeituosas estará dentro de

determine o erro amostral marginal para a parcela pela fórmula

com uma probabilidade de 0,997, pode-se argumentar que a proporção de peças defeituosas

na festa está dentro

Na prática de projetar observação amostral, há a necessidade de encontrar o tamanho da amostra, o que é necessário para garantir uma certa precisão no cálculo das características gerais - a média e a proporção.

O erro marginal de amostragem, a probabilidade de sua ocorrência e a variação da característica são conhecidos antecipadamente.

Com aleatório nova seleção o tamanho da amostra é determinado pela fórmula

com seleção aleatória não repetitiva e mecânica, o tamanho da amostra

para uma amostra típica

para amostragem em série

Por exemplo, 2.000 famílias vivem no distrito.

Prevê-se a realização de um levantamento amostral deles pelo método de seleção aleatória não repetitiva para encontrar o tamanho médio das famílias.

Determine o tamanho da amostra necessária, desde que com uma probabilidade de 0,954 o erro amostral não exceda 1 pessoa com um desvio padrão de 3 pessoas.

10 mil pessoas vivem na cidade. famílias. Por meio de amostragem mecânica, propõe-se determinar a proporção de famílias com três ou mais filhos. Qual deve ser o tamanho da amostra para um erro amostral menor que 0,02 com uma probabilidade P=0,954 se a variância for 0,02 de pesquisas anteriores?

Plano:

1. Problemas de estatística matemática.

2. Tipos de amostra.

3. Métodos de seleção.

4. Distribuição estatística da amostra.

5. Função de distribuição empírica.

6. Polígono e histograma.

7. Características numéricas da série de variação.

8. Estimativas estatísticas de parâmetros de distribuição.

9. Estimativas de intervalo de parâmetros de distribuição.

1. Tarefas e métodos de estatística matemática

Estatísticas matemáticas é um ramo da matemática dedicado aos métodos de coleta, análise e processamento dos resultados de dados estatísticos observacionais para fins científicos e práticos.

Que seja necessário estudar um conjunto de objetos homogêneos em relação a alguma característica qualitativa ou quantitativa que caracteriza esses objetos. Por exemplo, se houver um lote de peças, o padrão da peça pode servir como um sinal qualitativo e o tamanho controlado da peça pode servir como um sinal quantitativo.

Às vezes, é realizado um estudo contínuo, ou seja, examine cada objeto em relação à característica desejada. Na prática, uma pesquisa abrangente raramente é usada. Por exemplo, se a população contém um número muito grande de objetos, é fisicamente impossível realizar um levantamento contínuo. Se o levantamento do objeto estiver associado à sua destruição ou exigir grandes custos de material, não faz sentido realizar um levantamento completo. Nesses casos, um número limitado de objetos (conjunto de amostras) é selecionado aleatoriamente de toda a população e submetido ao seu estudo.

A principal tarefa da estatística matemática é estudar toda a população com base em dados amostrais, dependendo do objetivo, ou seja, o estudo das propriedades probabilísticas da população: a lei da distribuição, características numéricas, etc. para tomar decisões gerenciais em condições de incerteza.

2. Tipos de amostra

População é o conjunto de objetos a partir do qual a amostra é feita.

População da amostra (amostra) é uma coleção de objetos selecionados aleatoriamente.

Tamanho da população é o número de objetos nesta coleção. O volume da população geral é indicado N, seletivo - n.

Exemplo:

Se de 1000 peças 100 peças forem selecionadas para exame, então o volume da população geral N = 1000, e o tamanho da amostra n = 100.

A amostragem pode ser feita de duas maneiras: após o objeto ser selecionado e observado sobre ele, ele pode ser devolvido ou não à população em geral. Este. As amostras são divididas em repetidas e não repetidas.

Repetidochamado amostragem, no qual o objeto selecionado (antes de selecionar o próximo) é devolvido à população geral.

Não repetitivochamado amostragem, em que o objeto selecionado não é retornado para a população geral.

Na prática, a seleção aleatória não repetitiva é geralmente usada.

Para que os dados da amostra sejam suficientemente confiáveis ​​para julgar a característica de interesse na população geral, é necessário que os objetos da amostra a representem corretamente. A amostra deve representar corretamente as proporções da população. A amostra deve ser representante (representante).

Em virtude da lei dos grandes números, pode-se argumentar que a amostra será representativa se for realizada aleatoriamente.

Se o tamanho da população geral for grande o suficiente e a amostra for apenas uma pequena parte dessa população, a distinção entre amostras repetidas e não repetidas será apagada; no caso limite, quando se considera uma população geral infinita, e a amostra tem tamanho finito, essa diferença desaparece.

Exemplo:

Na revista americana Literary Review, usando métodos estatísticos, foi feito um estudo de previsões sobre o resultado da próxima eleição presidencial dos EUA em 1936. Os candidatos a este cargo foram F.D. Roosevelt e A. M. Landon. As listas telefônicas foram tomadas como fonte para a população geral dos americanos estudados. Destes, 4 milhões de endereços foram selecionados aleatoriamente, aos quais os editores da revista enviaram cartões postais pedindo que expressassem sua atitude em relação aos candidatos à presidência. Depois de processar os resultados da pesquisa, a revista publicou uma previsão sociológica de que Landon venceria as próximas eleições com grande margem. E... eu estava errado: Roosevelt ganhou.
Este exemplo pode ser visto como um exemplo de uma amostra não representativa. O fato é que nos Estados Unidos da primeira metade do século XX, apenas a parcela abastada da população, que apoiava as opiniões de Landon, tinha telefone.

3. Métodos de seleção

Na prática, são utilizados vários métodos de seleção, que podem ser divididos em 2 tipos:

1. A seleção não requer a divisão da população em partes (a) simples aleatório sem repetição; b) repetição aleatória simples).

2. Seleção, na qual a população geral é dividida em partes. (uma) seleção típica; b) seleção mecânica; dentro) serial seleção).

Simples aleatório chame isso seleção, em que os objetos são extraídos um a um de toda a população geral (aleatoriamente).

Típicachamado seleção, em que os objetos são selecionados não de toda a população geral, mas de cada uma de suas partes “típicas”. Por exemplo, se uma peça é fabricada em várias máquinas, a seleção não é feita a partir de todo o conjunto de peças produzidas por todas as máquinas, mas dos produtos de cada máquina separadamente. Essa seleção é usada quando a característica que está sendo examinada flutua visivelmente em várias partes "típicas" da população geral.

Mecânicochamado seleção, em que a população geral é "mecanicamente" dividida em tantos grupos quantos os objetos a serem incluídos na amostra, e um objeto é selecionado de cada grupo. Por exemplo, se você precisar selecionar 20% das peças feitas pela máquina, cada 5 peças serão selecionadas; se for necessário selecionar 5% das peças - a cada 20, etc. Às vezes, essa seleção pode não garantir uma amostra representativa (se a cada 20 rolos giratórios for selecionado e o cortador for substituído imediatamente após a seleção, todos os rolos girados com cortadores sem corte serão selecionados).

Serialchamado seleção, em que os objetos são selecionados da população geral não um de cada vez, mas em “séries”, que são submetidos a um levantamento contínuo. Por exemplo, se os produtos são fabricados por um grande grupo de máquinas automáticas, os produtos de apenas algumas máquinas são submetidos a um exame contínuo.

Na prática, a seleção combinada é frequentemente usada, na qual os métodos acima são combinados.

4. Distribuição estatística da amostra

Seja uma amostra da população geral, e o valor x 1-observado uma vez, x 2 -n 2 vezes, ... x k - n k vezes. n= n 1 +n 2 +...+n k é o tamanho da amostra. Valores observadoschamado opções, e a sequência é uma variante escrita em ordem crescente - série variacional. Número de observaçõeschamado frequências (frequências absolutas), e sua relação com o tamanho da amostra- frequências relativas ou probabilidades estatísticas.

Se o número de opções for grande ou a amostra for feita a partir de uma população geral contínua, a série de variação será compilada não por valores de pontos individuais, mas por intervalos de valores da população geral. Tal série é chamada intervalo. Os comprimentos dos intervalos devem ser iguais.

A distribuição estatística da amostra chamada de lista de opções e suas frequências correspondentes ou frequências relativas.

A distribuição estatística também pode ser especificada como uma sequência de intervalos e suas frequências correspondentes (a soma das frequências que se enquadram nesse intervalo de valores)

A série de variação pontual de frequências pode ser representada por uma tabela:

XI
x 1
x2

xk
eu
n 1
nº 2

nk

Da mesma forma, pode-se representar uma série variacional pontual de frequências relativas.

E:

Exemplo:

O número de letras em algum texto X acabou sendo igual a 1000. A primeira letra era "i", a segunda - a letra "i", a terceira - a letra "a", a quarta - "u". Depois vieram as letras "o", "e", "y", "e", "s".

Vamos anotar os lugares que ocupam no alfabeto, respectivamente, temos: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Depois de ordenar esses números em ordem crescente, obtemos uma série de variações: 1, 6, 10, 16, 21, 29, 31, 32, 33.

As frequências do aparecimento de letras no texto: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7", eu "- 22.

Compomos uma série variacional pontual de frequências:

Exemplo:

Distribuição de frequência de amostragem de volume especificada n = 20.

Faça uma série de variação pontual de frequências relativas.

XI

2

6

12

eu

3

10

7

Solução:

Encontre as frequências relativas:


XI

2

6

12

eu

0,15

0,5

0,35

Ao construir uma distribuição de intervalos, existem regras para escolher o número de intervalos ou o tamanho de cada intervalo. O critério aqui é a relação ótima: com o aumento do número de intervalos, a representatividade melhora, mas a quantidade de dados e o tempo para processá-los aumentam. Diferença x max - x min entre o maior e o menor valor é chamado de variante em grande escala amostras.

Para contar o número de intervalos k geralmente aplicam a fórmula empírica de Sturgess (implicando arredondamento para o inteiro conveniente mais próximo): k = 1 + 3,322 logn.

Assim, o valor de cada intervalo h pode ser calculado pela fórmula:

5. Função de distribuição empírica

Considere algumas amostras da população geral. Seja conhecida a distribuição estatística das frequências do atributo quantitativo X. Vamos introduzir a notação: n xé o número de observações em que um valor de característica menor que x foi observado; n é o número total de observações (tamanho da amostra). Frequência relativa do evento X<х равна n x /n. Se x muda, então a frequência relativa também muda, ou seja, frequência relativan x /né uma função de x. Porque é encontrado empiricamente, é chamado empírico.

Função de distribuição empírica (função de distribuição de amostra) chame a função, que determina para cada x a frequência relativa do evento X<х.


onde é o número de opções menor que x,

n - tamanho da amostra.

Ao contrário da função de distribuição empírica da amostra, a função de distribuição F(x) da população é chamada função de distribuição teórica.

A diferença entre as funções de distribuição empírica e teórica é que a função teórica F(x) determina a probabilidade de um evento X F*(x) tende em probabilidade para a probabilidade F(x) deste evento. Ou seja, para n grande F*(x) e F(x) diferem pouco um do outro.

Este. é aconselhável usar a função de distribuição empírica da amostra para uma representação aproximada da função de distribuição teórica (integral) da população geral.

F*(x) tem todas as propriedades F(x).

1. Valores F*(x) pertencem ao intervalo.

2. F*(x) é uma função não decrescente.

3. Se for a menor variante, então F*(x) = 0, em x < x1; se x k é a maior variante, então F*(x) = 1, para x > x k .

Aqueles. F*(x) serve para estimar F(x).

Se a amostra é dada por uma série variacional, então a função empírica tem a forma:

O gráfico da função empírica é chamado de cumulativo.

Exemplo:

Trace uma função empírica sobre a distribuição amostral dada.


Solução:

Tamanho da amostra n = 12 + 18 +30 = 60. A menor opção é 2, ou seja. em x < 2. Evento X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2às 2 < x < 6. Evento X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Porque x=10 é a maior opção, então F*(x) = 1 em x>10. A função empírica desejada tem a forma:

Acumular:


O cumulado permite entender as informações apresentadas graficamente, por exemplo, para responder às questões: “Determine o número de observações em que o valor do atributo foi menor que 6 ou não menor que 6. F*(6) = 0,2 » Então o número de observações em que o valor da característica observada foi menor que 6 é 0,2* n \u003d 0,2 * 60 \u003d 12. O número de observações em que o valor do recurso observado não foi inferior a 6 é (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Se uma série de variação de intervalo é dada, então para compilar a função de distribuição empírica, os pontos médios dos intervalos são encontrados e a função de distribuição empírica é obtida a partir deles de forma semelhante à série de variação de ponto.

6. Polígono e histograma

Para maior clareza, vários gráficos da distribuição estatística são construídos: polinômios e histogramas

Polígono de freqüência- esta é uma linha quebrada, cujos segmentos ligam os pontos ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), onde estão as opções, são as frequências correspondentes a elas.

Polígono de frequências relativas - esta é uma linha quebrada, cujos segmentos conectam os pontos ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), onde x i são opções, wi são frequências relativas correspondentes a elas.

Exemplo:

Plote o polinômio de frequência relativa sobre a distribuição de amostra dada:

Solução:

No caso de uma feição contínua, é aconselhável construir um histograma, para o qual o intervalo, que contém todos os valores observados da feição, seja dividido em vários intervalos parciais de comprimento h e para cada intervalo parcial n i seja encontrado - a soma das frequências variantes que caem no intervalo i-ésimo. (Por exemplo, ao medir a altura ou o peso de uma pessoa, estamos lidando com um sinal contínuo).

Histograma de frequência - esta é uma figura escalonada, consistindo de retângulos, cujas bases são intervalos parciais de comprimento h, e as alturas são iguais à razão (densidade de frequência).

Quadrado i-ésimo retângulo parcial é igual à soma das frequências da variante do i-ésimo intervalo, ou seja a área do histograma de frequência é igual à soma de todas as frequências, ou seja, tamanho da amostra.

Exemplo:

Os resultados da mudança de tensão (em volts) na rede elétrica são fornecidos. Componha uma série de variação, construa um polígono e um histograma de frequência se os valores de tensão forem os seguintes: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Solução:

Vamos criar uma série de variações. Temos n = 20, x min = 212, x max = 232.

Vamos usar a fórmula de Sturgess para calcular o número de intervalos.

A série variacional intervalar de frequências tem a forma:


Densidade de Frequência

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Vamos construir um histograma de frequências:

Vamos construir um polígono de frequências primeiro encontrando os pontos médios dos intervalos:


Histograma de frequências relativas chame uma figura escalonada consistindo de retângulos, cujas bases são intervalos parciais de comprimento h, e as alturas são iguais à razão w eu/h (densidade de frequência relativa).

Quadrado O i-ésimo retângulo parcial é igual à frequência relativa da variante que caiu no i-ésimo intervalo. Aqueles. a área do histograma de frequências relativas é igual à soma de todas as frequências relativas, ou seja, unidade.

7. Características numéricas da série de variação

Considere as principais características das populações geral e amostral.

Secundário geralé chamado de média aritmética dos valores da característica da população geral.

Para valores diferentes x 1 , x 2 , x 3 , …, x n . sinal da população geral de volume N temos:

Se os valores de atributo tiverem frequências correspondentes N 1 +N 2 +…+N k =N , então


média da amostraé chamado de média aritmética dos valores da característica da população amostral.

Se os valores dos atributos tiverem frequências correspondentes n 1 +n 2 +…+n k = n, então


Exemplo:

Calcule a média amostral para a amostra: x 1 = 51,12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52,93; x 5 \u003d 51,1; x 6 \u003d 52,98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Solução:

Variação geralé chamado de média aritmética dos desvios quadrados dos valores da característica X da população geral da média geral.

Para valores diferentes x 1 , x 2 , x 3 , …, x N do sinal da população de volume N temos:

Se os valores de atributo tiverem frequências correspondentes N 1 +N 2 +…+N k =N , então

Desvio padrão geral (padrão) chamada de raiz quadrada da variância geral

Variação da amostraé chamado de média aritmética dos desvios quadrados dos valores observados do recurso do valor médio.

Para valores diferentes x 1 , x 2 , x 3 , ..., x n do sinal da população amostral de volume n temos:


Se os valores dos atributos tiverem frequências correspondentes n 1 +n 2 +…+n k = n, então


Desvio padrão da amostra (padrão)é chamada de raiz quadrada da variância da amostra.


Exemplo:

O conjunto amostral é dado pela tabela de distribuição. Encontre a variância da amostra.


Solução:

Teorema: A variância é igual à diferença entre a média dos quadrados dos valores das características e o quadrado da média total.

Exemplo:

Encontre a variância para esta distribuição.



Solução:

8. Estimativas estatísticas de parâmetros de distribuição

Seja a população geral estudada por alguma amostra. Nesse caso, é possível obter apenas um valor aproximado do parâmetro desconhecido Q, que serve como sua estimativa. É óbvio que as estimativas podem variar de uma amostra para outra.

Avaliação estatísticaP* o parâmetro desconhecido da distribuição teórica é chamado de função f, que depende dos valores observados da amostra. A tarefa de estimativa estatística de parâmetros desconhecidos de uma amostra é construir tal função a partir dos dados disponíveis de observações estatísticas, o que forneceria os valores aproximados mais precisos de valores reais, desconhecidos para o pesquisador, desses parâmetros.

As estimativas estatísticas são divididas em ponto e intervalo, dependendo da forma como são fornecidas (número ou intervalo).

Uma estimativa pontual é chamada de estimativa estatística. parâmetro Q da distribuição teórica determinada por um valor do parâmetro Q *=f (x 1 , x 2 , ..., x n), ondex 1 , x 2 , ..., xn- os resultados de observações empíricas sobre o atributo quantitativo X de uma determinada amostra.

Tais estimativas de parâmetros obtidas de diferentes amostras na maioria das vezes diferem umas das outras. A diferença absoluta /Q *-Q / é chamada erro amostral (estimativa).

Para que as estimativas estatísticas forneçam resultados confiáveis ​​sobre os parâmetros estimados, é necessário que sejam imparciais, eficientes e consistentes.

Estimativa de pontos, cuja expectativa matemática é igual (não igual) ao parâmetro estimado, é chamado não deslocado (deslocado). M(Q*)=Q.

Diferença M( Q *)-Q é chamado viés ou erro sistemático. Para estimativas imparciais, o erro sistemático é 0.

eficiente avaliação Q *, que, para um determinado tamanho de amostra n, tem a menor variância possível: D min(n = const). O estimador efetivo tem o menor spread em comparação com outros estimadores imparciais e consistentes.

Prósperoé chamado de estatística avaliação Q*, que para ntende em probabilidade ao parâmetro estimado Q , ou seja com o aumento do tamanho da amostra n a estimativa tende em probabilidade ao valor verdadeiro do parâmetro Q.

O requisito de consistência é consistente com a lei dos grandes números: quanto mais informações iniciais sobre o objeto em estudo, mais preciso será o resultado. Se o tamanho da amostra for pequeno, a estimativa pontual do parâmetro pode levar a erros graves.

Algum amostra (volumen) pode ser pensado como um conjunto ordenadox 1 , x 2 , ..., xn variáveis ​​aleatórias independentes identicamente distribuídas.

Médias de amostra para diferentes amostras de volume n da mesma população será diferente. Ou seja, a média amostral pode ser considerada como uma variável aleatória, o que significa que podemos falar sobre a distribuição da média amostral e suas características numéricas.

A média amostral atende a todos os requisitos impostos às estimativas estatísticas, ou seja, fornece uma estimativa imparcial, eficiente e consistente da média populacional.

Pode-se provar que. Assim, a variância amostral é uma estimativa tendenciosa da variância geral, dando-lhe um valor subestimado. Ou seja, com um tamanho amostral pequeno, dará um erro sistemático. Para uma estimativa imparcial e consistente, basta tomar a quantidade, que é chamada de variância corrigida. ou seja

Na prática, para estimar a variância geral, a variância corrigida é usada quando n < 30. Em outros casos ( n > 30) desvio de dificilmente perceptível. Portanto, para grandes valores n erro de viés pode ser desprezado.

Pode-se provar também que a frequência relativan i / n é uma estimativa de probabilidade imparcial e consistente P(X=xi ). Função de distribuição empírica F*(x ) é uma estimativa imparcial e consistente da função de distribuição teórica F(x)=P(X< x ).

Exemplo:

Encontre as estimativas imparciais da média e variância da tabela de amostra.

XI
eu

Solução:

Tamanho da amostra n=20.

A estimativa imparcial da expectativa matemática é a média amostral.


Para calcular a estimativa imparcial da variância, primeiro encontramos a variância da amostra:

Agora vamos encontrar a estimativa imparcial:

9. Estimativas de intervalo de parâmetros de distribuição

Um intervalo é uma estimativa estatística determinada por dois valores numéricos - as extremidades do intervalo em estudo.

Número> 0, onde | Q - Q*|< , caracteriza a precisão da estimativa do intervalo.

Confiávelchamado intervalo , que com uma dada probabilidadecobre valor de parâmetro desconhecido Q . Complementando o intervalo de confiança ao conjunto de todos os valores de parâmetros possíveis Q chamado área crítica. Se a região crítica está localizada em apenas um lado do intervalo de confiança, então o intervalo de confiança é chamado unilateral: lado esquerdo, se a região crítica existe apenas à esquerda, e destro menos à direita. Caso contrário, o intervalo de confiança é chamado bilateral.

Confiabilidade, ou nível de confiança, Q estimativas (usando Q *) nomeie a probabilidade com que a seguinte desigualdade é satisfeita: | Q - Q*|< .

Na maioria das vezes, a probabilidade de confiança é definida antecipadamente (0,95; 0,99; 0,999) e o requisito é imposto a ela para estar próximo de um.

Probabilidadechamado a probabilidade de erro, ou o nível de significância.

Deixe | Q - Q*|< , então. Isso significa que com uma probabilidadepode-se argumentar que o verdadeiro valor do parâmetro Q pertence ao intervalo. Quanto menor o desvio, mais precisa será a estimativa.

Os limites (extremidades) do intervalo de confiança são chamados limites de confiança ou limites críticos.

Os valores dos limites do intervalo de confiança dependem da lei de distribuição do parâmetro Q*.

Valor de desviometade da largura do intervalo de confiança é chamada precisão da avaliação.

Os métodos para construir intervalos de confiança foram desenvolvidos pela primeira vez pelo estatístico americano Y. Neumann. Precisão da estimativa, probabilidade de confiança e tamanho da amostra m interligados. Portanto, conhecendo os valores específicos de duas quantidades, você sempre pode calcular a terceira.

Encontrar o intervalo de confiança para estimar a expectativa matemática de uma distribuição normal se o desvio padrão for conhecido.

Seja feita uma amostra da população geral, sujeita à lei da distribuição normal. Seja conhecido o desvio padrão geral, mas a expectativa matemática da distribuição teórica é desconhecida uma().

A seguinte fórmula é válida:

Aqueles. de acordo com o valor de desvio especificadoé possível encontrar com que probabilidade a média geral desconhecida pertence ao intervalo. E vice versa. Pode-se ver pela fórmula que com um aumento no tamanho da amostra e um valor fixo da probabilidade de confiança, o valor- diminui, ou seja a precisão da estimativa é aumentada. Com um aumento na confiabilidade (probabilidade de confiança), o valor-aumenta, ou seja, a precisão da estimativa diminui.

Exemplo:

Como resultado dos testes, foram obtidos os seguintes valores -25, 34, -20, 10, 21. Sabe-se que eles obedecem à lei de distribuição normal com desvio padrão de 2. Encontre a estimativa a * para o esperança matemática a. Trace um intervalo de confiança de 90% para ele.

Solução:

Vamos encontrar a estimativa imparcial

Então


O intervalo de confiança para a tem a forma: 4 - 1,47< uma< 4+ 1,47 или 2,53 < a < 5, 47

Encontrar o intervalo de confiança para estimar a expectativa matemática de uma distribuição normal se o desvio padrão for desconhecido.

Que se saiba que a população em geral está sujeita à lei da distribuição normal, onde a e. Precisão da Cobertura do Intervalo de Confiança com Confiabilidadeo valor verdadeiro do parâmetro a, neste caso, é calculado pela fórmula:

, onde n é o tamanho da amostra, , - Coeficiente de Student (deve ser encontrado a partir dos valores fornecidos n e da tabela "Pontos críticos da distribuição do Aluno").

Exemplo:

Como resultado dos testes, foram obtidos os seguintes valores -35, -32, -26, -35, -30, -17. Sabe-se que obedecem à lei da distribuição normal. Encontre o intervalo de confiança para a média populacional a com um nível de confiança de 0,9.

Solução:

Vamos encontrar a estimativa imparcial.

Vamos encontrar.

Então

O intervalo de confiança terá a forma(-29,2 - 5,62; -29,2 + 5,62) ou (-34,82; -23,58).

Encontrando o intervalo de confiança para a variância e o desvio padrão de uma distribuição normal

Deixe uma amostra aleatória de volume ser retirada de algum conjunto geral de valores distribuídos de acordo com a lei normaln < 30 para os quais as variâncias da amostra são calculadas: tendenciosae corrigiu s 2. Então, para encontrar estimativas de intervalo com uma determinada confiabilidadepara dispersão geralDdesvio padrão geralas seguintes fórmulas são usadas.


ou,

Valores- encontre usando a tabela de valores de pontos críticosdistribuições de Pearson.

O intervalo de confiança para a variância é encontrado a partir dessas desigualdades elevando ao quadrado todas as partes da desigualdade.

Exemplo:

A qualidade de 15 parafusos foi verificada. Assumindo que o erro em sua fabricação está sujeito à lei de distribuição normal, e o desvio padrão amostraligual a 5 mm, determine com confiabilidadeintervalo de confiança para parâmetro desconhecido

Representamos os limites do intervalo como uma dupla desigualdade:

As extremidades do intervalo de confiança bilateral para a variância podem ser determinadas sem realizar operações aritméticas para um determinado nível de confiança e tamanho da amostra usando a tabela correspondente (Limites dos intervalos de confiança para a variância dependendo do número de graus de liberdade e confiabilidade ). Para fazer isso, as extremidades do intervalo obtido da tabela são multiplicadas pela variância corrigida s 2.

Exemplo:

Vamos resolver o problema anterior de uma maneira diferente.

Solução:

Vamos encontrar a variância corrigida:

De acordo com a tabela "Limites dos intervalos de confiança para a variância dependendo do número de graus de liberdade e confiabilidade", encontramos os limites do intervalo de confiança para a variância emk=14 e: limite inferior 0,513 e limite superior 2,354.

Multiplique os limites obtidos pors 2 e extraia a raiz (porque precisamos de um intervalo de confiança não para a variância, mas para o desvio padrão).

Como pode ser visto nos exemplos, o valor do intervalo de confiança depende do método de sua construção e fornece resultados próximos, mas diferentes.

Para amostras de tamanho suficientemente grande (n>30) os limites do intervalo de confiança para o desvio padrão geral podem ser determinados pela fórmula: - algum número, que é tabulado e dado na tabela de referência correspondente.

Se 1- q<1, то формула имеет вид:

Exemplo:

Vamos resolver o problema anterior da terceira maneira.

Solução:

Encontrado anteriormentes= 5,17. q(0,95; 15) = 0,46 - encontramos de acordo com a tabela.

Então:

População- um conjunto de unidades que possuem caráter de massa, tipicidade, uniformidade qualitativa e presença de variação.

A população estatística consiste em objetos materialmente existentes (funcionários, empresas, países, regiões), é um objeto.

Unidade populacional- cada unidade específica da população estatística.

Uma mesma população estatística pode ser homogênea em uma característica e heterogênea em outra.

Uniformidade qualitativa- a semelhança de todas as unidades da população para qualquer característica e dissimilaridade para todo o resto.

Em uma população estatística, as diferenças entre uma unidade da população e outra são mais frequentemente de natureza quantitativa. Mudanças quantitativas nos valores do atributo de diferentes unidades da população são chamadas de variação.

Variação de recurso- mudança quantitativa de um sinal (para um sinal quantitativo) durante a transição de uma unidade da população para outra.

sinal- esta é uma propriedade, característica ou outra característica de unidades, objetos e fenômenos que podem ser observados ou medidos. Os signos são divididos em quantitativos e qualitativos. A diversidade e variabilidade do valor de uma característica em unidades individuais da população é chamada variação.

As características atributivas (qualitativas) não são quantificáveis ​​(composição da população por sexo). As características quantitativas têm uma expressão numérica (composição da população por idade).

Índice- esta é uma característica quantitativa e qualitativa generalizante de qualquer propriedade de unidades ou agregados para o efeito em condições específicas de tempo e lugar.

Tabela de desempenhoé um conjunto de indicadores que refletem de forma abrangente o fenômeno em estudo.

Por exemplo, considere o salário:
  • Sinal - salários
  • População estatística - todos os funcionários
  • A unidade da população é cada trabalhador
  • Homogeneidade qualitativa - salário acumulado
  • Variação de recursos - uma série de números

População geral e amostra dela

A base é um conjunto de dados obtidos como resultado da medição de uma ou mais características. O conjunto de objetos realmente observado, representado estatisticamente por uma série de observações de uma variável aleatória, é amostragem, e o hipoteticamente existente (pensado) - população geral. A população geral pode ser finita (número de observações N = const) ou infinito ( N = ∞), e uma amostra da população geral é sempre o resultado de um número limitado de observações. O número de observações que compõem uma amostra é chamado tamanho da amostra. Se o tamanho da amostra for grande o suficiente n→∞) a amostra é considerada grande, caso contrário é chamado de amostra volume limitado. A amostra é considerada pequena, se, ao medir uma variável aleatória unidimensional, o tamanho da amostra não exceder 30 ( n<= 30 ), e ao medir simultaneamente vários ( k) características em uma relação espacial multidimensional n para k Menor que 10 (n/k< 10) . Os formulários de amostra série de variação se seus membros estatísticas de pedidos, ou seja, valores amostrais da variável aleatória X são classificados em ordem crescente (classificados), os valores do atributo são chamados opções.

Exemplo. Quase o mesmo conjunto de objetos selecionados aleatoriamente - bancos comerciais de um distrito administrativo de Moscou, pode ser considerado como uma amostra da população geral de todos os bancos comerciais deste distrito e como uma amostra da população geral de todos os bancos comerciais de Moscou , bem como uma amostra de bancos comerciais do país e etc.

Métodos básicos de amostragem

A confiabilidade das conclusões estatísticas e a interpretação significativa dos resultados dependem de representatividade amostras, ou seja completude e adequação da representação das propriedades da população geral, em relação à qual esta amostra pode ser considerada representativa. O estudo das propriedades estatísticas da população pode ser organizado de duas maneiras: contínuo e descontínuo. Observação contínua inclui o exame de todos unidades estudado agregados, uma observação não contínua (seletiva)- apenas partes dele.

Existem cinco maneiras principais de organizar a amostragem:

1. seleção aleatória simples, em que os objetos são extraídos aleatoriamente da população geral de objetos (por exemplo, usando uma tabela ou um gerador de números aleatórios), e cada uma das amostras possíveis tem a mesma probabilidade. Tais amostras são chamadas realmente aleatório;

2. seleção simples através de um procedimento regularé realizado usando um componente mecânico (por exemplo, datas, dias da semana, números de apartamentos, letras do alfabeto, etc.) mecânico;

3. estratificado a seleção consiste no fato de que a população geral de volume é subdividida em subconjuntos ou camadas (estratos) de volume de modo que . Os estratos são objetos homogêneos em termos de características estatísticas (por exemplo, a população é dividida em estratos por faixa etária ou classe social; empresas por setor). Nesse caso, as amostras são chamadas de estratificado(por outro lado, estratificado, típico, zonado);

4. métodos serial seleção são usados ​​para formar serial ou amostras aninhadas. Eles são convenientes se for necessário examinar um "bloco" ou uma série de objetos de uma só vez (por exemplo, uma remessa de mercadorias, produtos de uma determinada série ou a população na divisão territorial-administrativa do país). A seleção de séries pode ser feita de forma aleatória ou mecânica. Ao mesmo tempo, é realizado um levantamento contínuo de um determinado lote de mercadorias ou de uma unidade territorial inteira (um edifício residencial ou um bairro);

5. combinado a seleção (em etapas) pode combinar vários métodos de seleção ao mesmo tempo (por exemplo, estratificado e aleatório ou aleatório e mecânico); tal amostra é chamada combinado.

Tipos de seleção

Por mente há seleção individual, grupal e combinada. No seleção individual unidades individuais da população geral são selecionadas no conjunto de amostra, com seleção de grupo são grupos qualitativamente homogêneos (séries) de unidades, e seleção combinada envolve uma combinação do primeiro e do segundo tipos.

Por método seleção distinguir repetido e não repetitivo amostra.

Irrepetível chamada de seleção, na qual a unidade que caiu na amostra não retorna à população original e não participa da nova seleção; enquanto o número de unidades da população em geral N reduzido durante o processo de seleção. No repetido seleção apanhado na amostra, a unidade após o registro é devolvida à população em geral e, assim, mantém a mesma oportunidade, juntamente com outras unidades, de ser usada no processo de seleção posterior; enquanto o número de unidades da população em geral N permanece inalterado (o método raramente é usado em estudos socioeconômicos). No entanto, com uma grande N (N → ∞) fórmulas para não repetido seleção estão próximos daqueles para repetido seleção e os últimos são usados ​​quase com mais frequência ( N = const).

As principais características dos parâmetros da população geral e amostral

A base das conclusões estatísticas do estudo é a distribuição de uma variável aleatória , enquanto os valores observados . (x 1, x 2, ..., x n) são chamados de realizações da variável aleatória X(n é o tamanho da amostra). A distribuição de uma variável aleatória na população geral é teórica, ideal por natureza, e seu análogo amostral é empírico distribuição. Algumas distribuições teóricas são dadas analiticamente, ou seja, eles opções determine o valor da função de distribuição em cada ponto no espaço de valores possíveis da variável aleatória. Para uma amostra, é difícil, e às vezes impossível, determinar a função de distribuição, portanto opções são estimados a partir de dados empíricos e, em seguida, são substituídos em uma expressão analítica que descreve a distribuição teórica. Neste caso, a suposição (ou hipótese) sobre o tipo de distribuição pode ser estatisticamente correto e errôneo. Mas, em qualquer caso, a distribuição empírica reconstruída a partir da amostra caracteriza apenas grosseiramente a verdadeira. Os parâmetros de distribuição mais importantes são valor esperado e dispersão.

Por sua própria natureza, as distribuições são contínuo e discreto. A distribuição contínua mais conhecida é normal. Análogos seletivos de parâmetros e para isso são: valor médio e variância empírica. Entre os discretos em estudos socioeconômicos, o mais comumente usado alternativa (dicotômica) distribuição. O parâmetro de expectativa desta distribuição expressa o valor relativo (ou compartilhar) unidades da população que possuem a característica em estudo (é indicada pela letra ); a proporção da população que não possui essa característica é denotada pela letra q (q = 1 - p). A variância da distribuição alternativa também tem um análogo empírico.

Dependendo do tipo de distribuição e do método de seleção das unidades populacionais, as características dos parâmetros de distribuição são calculadas de forma diferente. As principais para as distribuições teóricas e empíricas são apresentadas na Tabela. 9.1.

Compartilhamento de amostra k né a razão entre o número de unidades da população da amostra e o número de unidades da população geral:

k n = n/N.

Compartilhamento de amostra wé a razão de unidades que têm a característica em estudo x ao tamanho da amostra n:

w = n n / n.

Exemplo. Em um lote de mercadorias contendo 1000 unidades, com uma amostra de 5% fração de amostra k n em valor absoluto é de 50 unidades. (n = N*0,05); se 2 produtos defeituosos forem encontrados nesta amostra, então fração de amostra w será 0,04 (w = 2/50 = 0,04 ou 4%).

Como a população amostral é diferente da população geral, existem erros de amostragem.

Tabela 9.1 Principais parâmetros das populações geral e amostral

Erros de amostragem

Com quaisquer erros (sólidos e seletivos) podem ocorrer dois tipos: registro e representatividade. Erros cadastro podem ter aleatória e sistemático personagem. Aleatório os erros são compostos de muitas causas incontroláveis ​​diferentes, são de natureza não intencional e geralmente se equilibram em combinação (por exemplo, mudanças nas leituras do instrumento devido a flutuações de temperatura na sala).

Sistemático os erros são tendenciosos, pois violam as regras de seleção de objetos na amostra (por exemplo, desvios nas medições ao alterar as configurações do dispositivo de medição).

Exemplo. Para avaliar a situação social da população da cidade, está previsto examinar 25% das famílias. Se, no entanto, a seleção de cada quarto apartamento for baseada em seu número, existe o perigo de selecionar todos os apartamentos de apenas um tipo (por exemplo, apartamentos de um quarto), o que introduzirá um erro sistemático e distorcerá os resultados; a escolha do número do apartamento por lote é mais preferível, pois o erro será aleatório.

Erros de representatividade inerentes apenas à observação seletiva, eles não podem ser evitados e surgem como resultado do fato de a amostra não reproduzir integralmente a geral. Os valores dos indicadores obtidos da amostra diferem dos indicadores dos mesmos valores na população geral (ou obtidos durante a observação contínua).

Erro de amostragemé a diferença entre o valor do parâmetro na população geral e seu valor amostral. Para o valor médio de um atributo quantitativo, é igual a: , e para o compartilhamento (atributo alternativo) - .

Erros de amostragem são inerentes apenas em observações de amostra. Quanto maiores esses erros, mais a distribuição empírica difere da teórica. Os parâmetros da distribuição empírica e são variáveis ​​aleatórias, portanto, erros de amostragem também são variáveis ​​aleatórias, podem levar valores diferentes para amostras diferentes e, portanto, é costume calcular erro médio.

Erro médio de amostragemé um valor que expressa o desvio padrão da média amostral da expectativa matemática. Esse valor, sujeito ao princípio da seleção aleatória, depende principalmente do tamanho da amostra e do grau de variação da característica: quanto maior e menor a variação da característica (portanto, o valor de ), menor o valor de o erro médio de amostragem. A razão entre as variâncias das populações geral e amostral é expressa pela fórmula:

Essa. para suficientemente grande, podemos supor que . O erro amostral médio mostra os possíveis desvios do parâmetro da população amostral em relação ao parâmetro da população geral. Na tabela. 9.2 mostra expressões para calcular o erro médio de amostragem para diferentes métodos de organização da observação.

Tabela 9.2 Erro médio (m) da média e proporção da amostra para diferentes tipos de amostra

Onde é a média das variâncias da amostra intragrupo para uma característica contínua;

A média das dispersões intragrupo da ação;

— número de séries selecionadas, — número total de séries;

,

onde é a média da ª série;

- a média geral de toda a amostra para uma característica contínua;

,

onde é a proporção do traço na ª série;

— a participação total da característica em toda a amostra.

No entanto, a magnitude do erro médio só pode ser julgada com uma certa probabilidade Р (Р ≤ 1). Lyapunov A. M. provou que a distribuição das médias amostrais e, portanto, seus desvios da média geral, com um número suficientemente grande, obedece aproximadamente à lei da distribuição normal, desde que a população geral tenha média finita e variância limitada.

Matematicamente, esta afirmação para a média é expressa como:

e para a fração, a expressão (1) terá a forma:

Onde - erro de amostragem marginal, que é um múltiplo do erro de amostragem médio , e o fator de multiplicidade é o critério de Student ("fator de confiança"), proposto por W.S. Gosset (pseudônimo "Estudante"); valores para diferentes tamanhos de amostra são armazenados em uma tabela especial.

Os valores da função Ф(t) para alguns valores de t são:

Portanto, a expressão (3) pode ser lida da seguinte forma: com probabilidade P = 0,683 (68,3%) pode-se argumentar que a diferença entre a amostra e a média geral não excederá um valor do erro médio m(t=1), com probabilidade P = 0,954 (95,4%)— que não exceda o valor de dois erros médios m (t = 2), com probabilidade P = 0,997 (99,7%)- não excederá três valores m (t = 3). Assim, a probabilidade de que essa diferença ultrapasse três vezes o valor do erro médio determina nível de erro e não é mais do que 0,3% .

Na tabela. 9.3 são fornecidas fórmulas para calcular o erro amostral marginal.

Tabela 9.3 Erro de amostragem marginal (D) para média e proporção (p) para diferentes tipos de amostragem

Estendendo os resultados da amostra para a população

O objetivo final da observação amostral é caracterizar a população em geral. Para tamanhos de amostra pequenos, as estimativas empíricas dos parâmetros ( e ) podem se desviar significativamente de seus valores verdadeiros ( e ). Portanto, torna-se necessário estabelecer os limites dentro dos quais para os valores amostrais dos parâmetros ( e ) os valores verdadeiros ( e ) se encontram.

Intervalo de confiança de qualquer parâmetro θ da população geral é chamado de intervalo aleatório de valores desse parâmetro, que com probabilidade próxima a 1 ( confiabilidade) contém o valor verdadeiro desse parâmetro.

erro marginal amostras Δ permite determinar os valores limite das características da população em geral e seus intervalos de confiança, que são iguais a:

Resultado final intervalo de confiança obtido subtraindo erro marginal da média amostral (compartilhamento), e o superior somando-o.

Intervalo de confiança para a média, usa-se o erro amostral marginal e para um dado nível de confiança é determinado pela fórmula:

Isso significa que com uma dada probabilidade R, que é chamado de nível de confiança e é determinado exclusivamente pelo valor t, pode-se argumentar que o verdadeiro valor da média está na faixa de , e o valor real da ação está na faixa de

Ao calcular o intervalo de confiança para os três níveis de confiança padrão P=95%, P=99% e P=99,9% valor é selecionado por . Aplicações dependendo do número de graus de liberdade. Se o tamanho da amostra for grande o suficiente, os valores correspondentes a essas probabilidades t são iguais: 1,96, 2,58 e 3,29 . Assim, o erro amostral marginal permite determinar os valores marginais das características da população geral e seus intervalos de confiança:

A distribuição dos resultados da observação seletiva para a população geral em estudos socioeconômicos tem características próprias, pois exige a completude da representatividade de todos os seus tipos e grupos. A base para a possibilidade de tal distribuição é o cálculo erro relativo:

Onde Δ % - erro amostral marginal relativo; , .

Existem dois métodos principais para estender uma observação amostral à população: conversão direta e método de coeficientes.

Essência conversão diretaé multiplicar a média amostral!!\overline(x) pelo tamanho da população .

Exemplo. Deixe que o número médio de crianças na cidade seja estimado por um método de amostragem e chegue a uma pessoa. Se houver 1.000 famílias jovens na cidade, o número de vagas necessárias na creche municipal é obtido multiplicando-se essa média pelo tamanho da população geral N = 1.000, ou seja, serão 1200 lugares.

Método de coeficientesé aconselhável usar no caso em que a observação seletiva é realizada para esclarecer os dados da observação contínua.

Para isso, usa-se a fórmula:

onde todas as variáveis ​​são o tamanho da população:

Tamanho de amostra necessário

Tabela 9.4 Tamanho de amostra necessário (n) para diferentes tipos de organização de amostragem

Ao planejar uma pesquisa por amostragem com um valor predeterminado do erro de amostragem permitido, é necessário estimar corretamente o tamanho da amostra. Este valor pode ser determinado com base no erro admissível durante a observação seletiva com base em uma determinada probabilidade que garante um nível de erro aceitável (tendo em conta a forma como a observação está organizada). As fórmulas para determinar o tamanho amostral necessário n podem ser facilmente obtidas diretamente das fórmulas para o erro amostral marginal. Então, da expressão para o erro marginal:

o tamanho da amostra é determinado diretamente n:

Esta fórmula mostra que com a diminuição do erro de amostragem marginal Δ aumenta significativamente o tamanho da amostra necessária, que é proporcional à variância e ao quadrado do teste t de Student.

Para um método específico de organização da observação, o tamanho da amostra necessário é calculado de acordo com as fórmulas fornecidas na Tabela. 9.4.

Exemplos Práticos de Cálculo

Exemplo 1. Cálculo do valor médio e intervalo de confiança para uma característica quantitativa contínua.

Para avaliar a velocidade de liquidação com credores no banco, foi realizada uma amostra aleatória de 10 documentos de pagamento. Seus valores acabaram sendo iguais (em dias): 10; 3; quinze; quinze; 22; 7; oito; 1; 19; vinte.

Obrigatório com probabilidade P = 0,954 determinar o erro marginal Δ média amostral e limites de confiança do tempo médio de cálculo.

Solução. O valor médio é calculado pela fórmula da Tabela. 9.1 para a população da amostra

A dispersão é calculada de acordo com a fórmula da Tabela. 9.1.

O erro quadrático médio do dia.

O erro da média é calculado pela fórmula:

Essa. valor médio é x ± m = 12,0 ± 2,3 dias.

A confiabilidade da média foi

O erro limite é calculado pela fórmula da Tabela. 9.3 para resseleção, uma vez que o tamanho da população é desconhecido, e para P = 0,954 nível de confiança.

Assim, o valor médio é `x ± D = `x ± 2m = 12,0 ± 4,6, ou seja, seu verdadeiro valor está na faixa de 7,4 a 16,6 dias.

Utilização da tabela do Aluno. A aplicação permite concluir que para n = 10 - 1 = 9 graus de liberdade o valor obtido é confiável com nível de significância a £ 0,001, ou seja o valor médio resultante é significativamente diferente de 0.

Exemplo 2. Estimativa da probabilidade (participação geral) r.

Com um método de amostragem mecânica de levantamento da condição social de 1.000 famílias, foi revelado que a proporção de famílias de baixa renda era w = 0,3 (30%)(a amostra foi 2% , ou seja n/N = 0,02). Requerido com nível de confiança p = 0,997 definir um indicador R famílias de baixa renda em toda a região.

Solução. De acordo com os valores de função apresentados Ф(t) encontrar para um determinado nível de confiança P = 0,997 significado t=3(ver fórmula 3). Erro de compartilhamento marginal W determinar pela fórmula da Tabela. 9.3 para amostragem sem repetição (amostragem mecânica é sempre sem repetição):

Limitando o erro de amostragem relativo em % vai ser:

A probabilidade (parcela geral) de famílias de baixa renda na região será p=w±Δw, e os limites de confiança p são calculados com base na dupla desigualdade:

w — Δw ≤ p ≤ w — Δw, ou seja o verdadeiro valor de p está dentro de:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Assim, com uma probabilidade de 0,997, pode-se argumentar que a proporção de famílias de baixa renda entre todas as famílias da região varia de 28,6% a 31,4%.

Exemplo 3 Cálculo do valor médio e intervalo de confiança para uma característica discreta especificada por uma série de intervalos.

Na tabela. 9.5. é definida a distribuição das aplicações para a produção de encomendas de acordo com o calendário da sua implementação pela empresa.

Tabela 9.5 Distribuição das observações por tempo de ocorrência

Solução. O tempo médio de conclusão do pedido é calculado pela fórmula:

O tempo médio será:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 meses

Obtemos a mesma resposta se usarmos os dados sobre pi da penúltima coluna da Tabela. 9.5 usando a fórmula:

Observe que o meio do intervalo para a última gradação é encontrado complementando-o artificialmente com a largura do intervalo da gradação anterior igual a 60 - 36 = 24 meses.

A dispersão é calculada pela fórmula

Onde XI- o meio da série intervalar.

Portanto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) e o erro padrão é .

O erro da média é calculado pela fórmula para meses, ou seja, a média é!!\overline(x) ± m = 23,1 ± 13,4.

O erro limite é calculado pela fórmula da Tabela. 9.3 para reseleção porque o tamanho da população é desconhecido, para um nível de confiança de 0,954:

Então a média é:

Essa. seu verdadeiro valor está na faixa de 0 a 50 meses.

Exemplo 4 Para determinar a velocidade de liquidação com credores de N = 500 empresas da corporação em um banco comercial, é necessário realizar um estudo seletivo usando o método de seleção aleatória não repetitiva. Determine o tamanho amostral necessário n para que, com uma probabilidade P = 0,954, o erro da média amostral não exceda 3 dias, se as estimativas do ensaio mostraram que o desvio padrão s foi de 10 dias.

Solução. Para determinar o número de estudos necessários n, usamos a fórmula para seleção não repetitiva da Tabela. 9.4:

Nele, o valor de t é determinado a partir do nível de confiança P = 0,954. É igual a 2. O valor quadrado médio s = 10, o tamanho da população N = 500 e o erro marginal da média Δ x = 3. Substituindo esses valores na fórmula, obtemos:

Essa. basta fazer uma amostra de 41 empresas para estimar o parâmetro necessário - a velocidade das liquidações com os credores.

Observação seletiva aplica-se ao aplicar a observação contínua fisicamente impossível devido a uma grande quantidade de dados ou economicamente impraticável. A impossibilidade física ocorre, por exemplo, ao estudar fluxos de passageiros, preços de mercado, orçamentos familiares. A inconveniência econômica ocorre ao avaliar a qualidade dos bens associados à sua destruição, por exemplo, degustação, teste de resistência de tijolos, etc.

As unidades estatísticas selecionadas para observação são quadro de amostragem ou amostragem, e toda a sua matriz - população geral(GS). Em que número de unidades na amostra designar n, e em todo o HS - N. Atitude s/n chamado tamanho relativo ou compartilhamento de amostra.

A qualidade dos resultados da amostragem depende representatividade da amostra, ou seja, de quão representativa ela é na SG. Para garantir a representatividade da amostra, é necessário observar princípio da seleção aleatória de unidades, que pressupõe que a inclusão de uma unidade de HS na amostra não pode ser influenciada por nenhum outro fator que não seja o acaso.

Existe 4 formas de seleção aleatória para provar:

  1. Na verdade aleatório seleção ou "método de loteria", quando os números de série são atribuídos a valores estatísticos, inseridos em determinados objetos (por exemplo, barris), que são então misturados em um determinado recipiente (por exemplo, em uma bolsa) e selecionados aleatoriamente. Na prática, este método é realizado usando um gerador de números aleatórios ou tabelas matemáticas de números aleatórios.
  2. Mecânico seleção, segundo a qual cada ( N/n)-ésimo valor da população geral. Por exemplo, se ele contiver 100.000 valores e você quiser selecionar 1.000, cada 100.000 / 1.000 = 100º valor cairá na amostra. Além disso, se eles não forem classificados, o primeiro será escolhido aleatoriamente entre os cem primeiros, e os números dos outros serão mais cem. Por exemplo, se o número da unidade 19 foi o primeiro, o número 119 deve ser o próximo, depois o número 219, depois o número 319 e assim por diante. Se as unidades populacionais forem classificadas, então #50 é selecionado primeiro, depois #150, depois #250 e assim por diante.
  3. A seleção de valores de uma matriz de dados heterogênea é realizada estratificado forma (estratificada), quando a população geral é previamente dividida em grupos homogêneos, aos quais se aplica a seleção aleatória ou mecânica.
  4. Um método de amostragem especial é serial seleção, em que não são escolhidas aleatoriamente ou mecanicamente quantidades individuais, mas suas séries (sequências de algum número a algum consecutivo), dentro das quais se realiza a observação contínua.

A qualidade das observações da amostra também depende tipo de amostragem: repetido ou Não repetitivo.
No nova seleção os valores estatísticos ou suas séries que caíram na amostra são devolvidos à população geral após o uso, tendo a chance de entrar em uma nova amostra. Ao mesmo tempo, todos os valores da população geral têm a mesma probabilidade de serem incluídos na amostra.
Seleção não repetitiva significa que os valores estatísticos ou suas séries incluídos na amostra não são devolvidos à população geral após o uso e, portanto, a probabilidade de entrar na próxima amostra aumenta para os valores restantes deste último.

A amostragem não repetitiva fornece resultados mais precisos, por isso é usada com mais frequência. Mas há situações em que não pode ser aplicado (estudo de fluxo de passageiros, demanda de consumidores, etc.) e então é feita uma re-seleção.

Erros de amostragem

O conjunto de amostragem pode ser formado com base em um sinal quantitativo de valores estatísticos, bem como em uma base alternativa ou atributiva. No primeiro caso, a característica generalizadora da amostra é o valor denotado por , e no segundo - compartilhamento de amostra quantidades, denotadas W. Na população geral, respectivamente: média geral e compartilhamento geral p.

Diferenças - e CR chamado erro de amostragem, que é dividido por Erro de Registo e erro de representatividade. A primeira parte do erro de amostragem ocorre devido a informações incorretas ou imprecisas devido à incompreensão da essência do problema, descuido do registrador ao preencher questionários, formulários etc. É bastante fácil de detectar e corrigir. A segunda parte do erro decorre do descumprimento constante ou espontâneo do princípio da seleção aleatória. É difícil de detectar e eliminar, é muito maior que o primeiro e, portanto, a atenção principal é dada a ele.

O valor do erro amostral pode ser diferente para diferentes amostras da mesma população geral, portanto, em estatística é determinado erro médio de reamostragem e não amostragem de acordo com as fórmulas:

Repetido;

- Não repetitivo;

Onde Dv é a variância da amostra.

Por exemplo, em uma fábrica com 1000 funcionários. Foi realizada amostragem aleatória não repetitiva de 5% para determinar o tempo médio de serviço dos funcionários. Os resultados da observação amostral são apresentados nas duas primeiras colunas da tabela a seguir:

X , anos
(experiência de trabalho)

f , pers.
(número de funcionários na amostra)

X e

X e f

Na 3ª coluna, os pontos médios dos intervalos X são definidos (como metade da soma dos limites inferior e superior do intervalo), e na 4ª coluna, os produtos de X e f para encontrar a média amostral usando a aritmética ponderada fórmula média:

143,0/50 = 2,86 (anos).

Calcule a variância da amostra ponderada:
= 105,520/50 = 2,110.

Agora vamos encontrar o erro médio sem reteste:
= 0,200 (anos).

Pelas fórmulas dos erros médios de amostragem, pode-se observar que o erro é menor com amostragem não repetitiva e, como comprovado na teoria da probabilidade, ocorre com uma probabilidade de 0,683 (ou seja, se você pegar 1.000 amostras de um população, então em 683 deles o erro não excederá o erro amostral médio). Esta probabilidade (0,683) não é alta, por isso é de pouca utilidade para cálculos práticos onde uma probabilidade maior é necessária. Para determinar o erro de amostragem com uma probabilidade superior a 0,683, calcule erro de amostragem marginal:

Onde t– coeficiente de confiança, em função da probabilidade com que se determina o erro marginal de amostragem.

Valores do fator de confiança t calculados para diferentes probabilidades e estão disponíveis em tabelas especiais (integral de Laplace), das quais as seguintes combinações são amplamente utilizadas em estatística:

Probabilidade 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
t 1 1,5 1,96 2 2,5 2,58 3 3,5

Dado um nível específico de probabilidade, o valor correspondente a ele é selecionado da tabela t e determine o erro amostral marginal pela fórmula.
Neste caso, = 0,95 e t= 1,96, ou seja, eles acreditam que com uma probabilidade de 95%, o erro amostral marginal é 1,96 vezes maior que a média. Esta probabilidade (0,95) é considerada padrão e é aplicado por padrão nos cálculos.

Em nosso , definimos o erro marginal de amostragem na probabilidade padrão de 95% (de tomar t= 1,96 para 95% de chance): = 1,96*0,200 = 0,392 (anos).

Após calcular o erro marginal, encontra-se intervalo de confiança da característica generalizante da população em geral. Tal intervalo para a média geral tem a forma
Ou seja, o tempo médio de serviço dos trabalhadores de toda a fábrica situa-se na faixa de 2.468 a 3.252 anos.

Determinando o tamanho da amostra

Ao desenvolver um programa de observação seletiva, às vezes eles recebem um valor específico do erro marginal com um nível de probabilidade. O tamanho mínimo da amostra que fornece a precisão fornecida permanece desconhecido. Pode ser obtido a partir das fórmulas dos erros médios e marginais, dependendo do tipo de amostra. Então, substituindo e em e, resolvendo em relação ao tamanho da amostra, obtemos as seguintes fórmulas:
para reamostragem n =
sem reamostragem n = .

Além disso, para valores estatísticos com características quantitativas, deve-se conhecer também a variância da amostra, mas no início dos cálculos também não se sabe. Portanto, aceita-se aproximadamente um dos seguintes caminhos(em ordem de prioridade):

Ao estudar características não numéricas, mesmo que não haja informações aproximadas sobre a fração amostral, aceita-se W= 0,5, que, de acordo com a fórmula de dispersão de ações, corresponde à dispersão da amostra no tamanho máximo Dv = 0,5*(1-0,5) = 0,25.