A amostra pode ser. Um exemplo de uma amostra não representativa

Estimativa de intervalo de probabilidade de evento. Fórmulas para calcular o número de amostras no caso de um método de seleção aleatória.

Para determinar as probabilidades dos eventos de nosso interesse, usamos o método de amostragem: realizamos n experimentos independentes, em cada um dos quais o evento A pode ocorrer (ou não ocorrer) (probabilidade R ocorrência do evento A em cada experimento é constante). Então a frequência relativa p* de ocorrências de eventos MAS em uma série de n testes é tomado como uma estimativa pontual para a probabilidade p ocorrência de um evento MAS em um teste separado. Neste caso, o valor p* é chamado compartilhamento de amostra ocorrências de eventos MAS, e r- participação geral .

Em virtude do corolário do teorema do limite central (o teorema de Moivre-Laplace), a frequência relativa de um evento com grande tamanho amostral pode ser considerada normalmente distribuída com os parâmetros M(p*)=p e

Portanto, para n>30, o intervalo de confiança para a fração geral pode ser construído usando as fórmulas:


onde u cr é encontrado de acordo com as tabelas da função de Laplace, levando em consideração a probabilidade de confiança dada γ: 2Ф(u cr)=γ.

Com um tamanho de amostra pequeno n≤30, o erro marginal ε é determinado a partir da tabela de distribuição de Student:
onde t cr =t(k; α) e o número de graus de liberdade k=n-1 probabilidade α=1-γ (área bilateral).

As fórmulas são válidas se a seleção foi feita aleatoriamente de forma repetida (a população geral é infinita), caso contrário é necessário fazer uma correção para a seleção não repetitiva (tabela).

Erro de amostragem médio para a proporção geral

PopulaçãoSem fimvolume final N
Tipo de seleçãoRepetidonão repetitivo
Erro médio de amostragem

Fórmulas para calcular o tamanho da amostra com um método de seleção aleatória adequado

Método de seleçãoFórmulas de tamanho de amostra
para o meiopara compartilhar
Repetido
não repetitivo
Parcela de unidades w = . Precisão ε = . Probabilidade γ =

Problemas sobre a quota geral

Para a pergunta "O valor dado de p 0 cobre o intervalo de confiança?" - pode ser respondida testando a hipótese estatística H 0:p=p 0 . Assume-se que os experimentos são realizados de acordo com o esquema de teste de Bernoulli (independente, probabilidade p ocorrência de um evento MAS constante). Por amostra de volume n determinar a frequência relativa p* de ocorrência do evento A: onde m- número de ocorrências do evento MAS em uma série de n testes. Para testar a hipótese H 0, são utilizadas estatísticas que, com tamanho amostral suficientemente grande, possuem distribuição normal padrão (Tabela 1).
Tabela 1 - Hipóteses sobre a participação geral

Hipótese

H0:p=p0H 0:p 1 \u003d p 2
SuposiçõesEsquema de teste de BernoulliEsquema de teste de Bernoulli
Estimativas de amostra
Estatisticas K
Distribuição de estatísticas K Padrão normal N(0,1)

Exemplo 1. Usando reamostragem aleatória, a administração da empresa realizou uma pesquisa aleatória de 900 de seus funcionários. Havia 270 mulheres entre os entrevistados. Trace um intervalo de confiança que, com probabilidade de 0,95, cubra a verdadeira proporção de mulheres em toda a equipe da empresa.
Decisão. Por condição, a proporção amostral de mulheres é (a frequência relativa de mulheres entre todos os entrevistados). Como a seleção é repetida e o tamanho da amostra é grande (n=900), o erro amostral marginal é determinado pela fórmula

O valor de u cr é encontrado na tabela da função de Laplace a partir da relação 2Ф(u cr)=γ, ou seja. A função de Laplace (Apêndice 1) assume o valor 0,475 em u cr = 1,96. Portanto, o erro marginal e o intervalo de confiança desejado
(p – ε, p + ε) = (0,3 – 0,18; 0,3 + 0,18) = (0,12; 0,48)
Assim, com uma probabilidade de 0,95, pode-se garantir que a proporção de mulheres em toda a equipe da empresa está na faixa de 0,12 a 0,48.

Exemplo #2. O proprietário do estacionamento considera o dia de "sorte" se o estacionamento estiver mais de 80% cheio. Durante o ano, foram realizadas 40 inspeções de estacionamento, das quais 24 foram “bem sucedidas”. Com uma probabilidade de 0,98, encontre o intervalo de confiança para estimar a verdadeira porcentagem de dias de "sorte" durante o ano.
Decisão. A fração amostral de dias “bons” é
De acordo com a tabela da função de Laplace, encontramos o valor de u cr para um dado
nível de confiança
Ф(2,23) = 0,49, ucr = 2,33.
Considerando a seleção não repetitiva (ou seja, não foram realizadas duas verificações no mesmo dia), encontramos o erro marginal:
onde n=40, N=365 (dias). Daqui
e intervalo de confiança para a fração geral: (p – ε, p + ε) = (0,6 – 0,17; 0,6 + 0,17) = (0,43; 0,77)
Com uma probabilidade de 0,98, pode-se esperar que a proporção de dias “bons” durante o ano esteja na faixa de 0,43 a 0,77.

Exemplo #3. Depois de verificar 2.500 itens no lote, eles descobriram que 400 itens eram da nota mais alta, mas n–m não. Quantos produtos você precisa verificar para determinar a participação do grau premium com uma precisão de 0,01 com 95% de certeza?
Estamos procurando uma solução de acordo com a fórmula para determinar o tamanho da amostra para re-seleção.

Ф(t) = γ/2 = 0,95/2 = 0,475 e de acordo com a tabela de Laplace este valor corresponde a t=1,96
Fração amostral w = 0,16; erro de amostragem ε = 0,01

Exemplo #4. Um lote de produtos é aceito se a probabilidade de o produto atender ao padrão for de pelo menos 0,97. Entre os 200 produtos selecionados aleatoriamente do lote testado, 193 produtos atenderam ao padrão. É possível aceitar o lote no nível de significância α=0,02?
Decisão. Formulamos as hipóteses principais e alternativas.
H 0: p \u003d p 0 \u003d 0,97 - compartilhamento geral desconhecido p igual ao valor especificado p 0 =0,97. Em relação à condição - a probabilidade de que a peça do lote testado esteja de acordo com a norma é de 0,97; Essa. lote de produtos podem ser aceitos.
H1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Valor estatístico observado K(tabela) calcular para valores dados p 0 =0,97, n=200, m=193


O valor crítico é encontrado na tabela da função de Laplace da igualdade


De acordo com a condição α=0,02, portanto F(Kcr)=0,48 e Kcr=2,05. A região crítica é canhota, ou seja, é o intervalo (-∞;-K kp)= (-∞;-2,05). O valor observado Kobs = -0,415 não pertence à região crítica, portanto, neste nível de significância, não há razão para rejeitar a hipótese principal. Um lote de produtos pode ser aceito.

Exemplo número 5. Duas fábricas produzem o mesmo tipo de peças. Para avaliar sua qualidade, foram retiradas amostras dos produtos dessas fábricas e os seguintes resultados foram obtidos. Entre os 200 produtos selecionados da primeira fábrica, 20 estavam com defeito, e entre os 300 produtos da segunda fábrica, 15 estavam com defeito.
A um nível de significância de 0,025, descubra se há uma diferença significativa na qualidade das peças fabricadas por essas fábricas.

De acordo com a condição α=0,025, portanto F(Kcr)=0,4875 e Kcr=2,24. Com uma alternativa bilateral, a área de valores admissíveis tem a forma (-2,24; 2,24). O valor observado Kobs = 2,15 está dentro desse intervalo, ou seja, nesse nível de significância, não há razão para rejeitar a hipótese principal. As fábricas produzem produtos da mesma qualidade.

Plano:

1. Problemas de estatística matemática.

2. Tipos de amostra.

3. Métodos de seleção.

4. Distribuição estatística da amostra.

5. Função de distribuição empírica.

6. Polígono e histograma.

7. Características numéricas da série de variação.

8. Estimativas estatísticas de parâmetros de distribuição.

9. Estimativas de intervalo de parâmetros de distribuição.

1. Tarefas e métodos de estatística matemática

Estatísticas matemáticas é um ramo da matemática dedicado aos métodos de coleta, análise e processamento dos resultados de dados estatísticos observacionais para fins científicos e práticos.

Que seja necessário estudar um conjunto de objetos homogêneos em relação a alguma característica qualitativa ou quantitativa que caracteriza esses objetos. Por exemplo, se houver um lote de peças, o padrão da peça pode servir como um sinal qualitativo e o tamanho controlado da peça pode servir como um sinal quantitativo.

Às vezes, é realizado um estudo contínuo, ou seja, examine cada objeto em relação à característica desejada. Na prática, uma pesquisa abrangente raramente é usada. Por exemplo, se a população contém um número muito grande de objetos, é fisicamente impossível realizar um levantamento contínuo. Se o levantamento do objeto estiver associado à sua destruição ou exigir grandes custos de material, não faz sentido realizar um levantamento completo. Nesses casos, um número limitado de objetos (conjunto de amostras) é selecionado aleatoriamente de toda a população e submetido ao seu estudo.

A principal tarefa da estatística matemática é estudar toda a população com base em dados amostrais, dependendo do objetivo, ou seja, o estudo das propriedades probabilísticas da população: a lei da distribuição, características numéricas, etc. para tomar decisões gerenciais em condições de incerteza.

2. Tipos de amostra

População é o conjunto de objetos a partir do qual a amostra é feita.

População da amostra (amostra) é uma coleção de objetos selecionados aleatoriamente.

Tamanho da população é o número de objetos nesta coleção. O volume da população geral é indicado N, seletivo - n.

Exemplo:

Se de 1000 peças 100 peças forem selecionadas para exame, então o volume da população geral N = 1000, e o tamanho da amostra n = 100.

A amostragem pode ser feita de duas maneiras: após o objeto ser selecionado e observado sobre ele, ele pode ser devolvido ou não à população em geral. Que. As amostras são divididas em repetidas e não repetidas.

Repetidochamado amostragem, no qual o objeto selecionado (antes de selecionar o próximo) é devolvido à população geral.

Não repetitivochamado amostragem, em que o objeto selecionado não é retornado para a população geral.

Na prática, a seleção aleatória não repetitiva é geralmente usada.

Para que os dados da amostra sejam suficientemente confiáveis ​​para julgar a característica de interesse na população geral, é necessário que os objetos da amostra a representem corretamente. A amostra deve representar corretamente as proporções da população. A amostra deve ser representante (representante).

Em virtude da lei dos grandes números, pode-se argumentar que a amostra será representativa se for realizada aleatoriamente.

Se o tamanho da população geral for grande o suficiente e a amostra for apenas uma pequena parte dessa população, a distinção entre amostras repetidas e não repetidas será apagada; no caso limite, quando se considera uma população geral infinita, e a amostra tem tamanho finito, essa diferença desaparece.

Exemplo:

Na revista americana Literary Review, usando métodos estatísticos, foi feito um estudo de previsões sobre o resultado da próxima eleição presidencial dos EUA em 1936. Os candidatos a este cargo foram F.D. Roosevelt e A. M. Landon. Livros de referência de assinantes de telefone foram tomados como fonte para a população geral dos americanos estudados. Destes, 4 milhões de endereços foram selecionados aleatoriamente, aos quais os editores da revista enviaram cartões postais pedindo que expressassem sua atitude em relação aos candidatos à presidência. Depois de processar os resultados da pesquisa, a revista publicou uma previsão sociológica de que Landon venceria as próximas eleições com grande margem. E... eu estava errado: Roosevelt ganhou.
Este exemplo pode ser visto como um exemplo de uma amostra não representativa. O fato é que nos Estados Unidos da primeira metade do século XX, apenas a parcela abastada da população, que apoiava as opiniões de Landon, tinha telefone.

3. Métodos de seleção

Na prática, são utilizados vários métodos de seleção, que podem ser divididos em 2 tipos:

1. A seleção não requer a divisão da população em partes (a) simples aleatório sem repetição; b) repetição aleatória simples).

2. Seleção, na qual a população geral é dividida em partes. (uma) seleção típica; b) seleção mecânica; dentro) serial seleção).

Simples aleatório chame isso seleção, em que os objetos são extraídos um a um de toda a população geral (aleatoriamente).

Típicachamado seleção, em que os objetos são selecionados não de toda a população geral, mas de cada uma de suas partes “típicas”. Por exemplo, se uma peça é fabricada em várias máquinas, a seleção não é feita a partir de todo o conjunto de peças produzidas por todas as máquinas, mas dos produtos de cada máquina separadamente. Essa seleção é usada quando a característica que está sendo examinada flutua visivelmente em várias partes "típicas" da população geral.

Mecânicochamado seleção, em que a população geral é "mecanicamente" dividida em tantos grupos quantos os objetos a serem incluídos na amostra, e um objeto é selecionado de cada grupo. Por exemplo, se você precisar selecionar 20% das peças feitas pela máquina, cada 5 peças serão selecionadas; se for necessário selecionar 5% das peças - a cada 20, etc. Às vezes, essa seleção pode não garantir uma amostra representativa (se a cada 20 rolos giratórios for selecionado e o cortador for substituído imediatamente após a seleção, todos os rolos girados com cortadores sem corte serão selecionados).

Serialchamado seleção, em que os objetos são selecionados da população geral não um de cada vez, mas em “séries”, que são submetidos a um levantamento contínuo. Por exemplo, se os produtos são fabricados por um grande grupo de máquinas automáticas, os produtos de apenas algumas máquinas são submetidos a um exame contínuo.

Na prática, a seleção combinada é frequentemente usada, na qual os métodos acima são combinados.

4. Distribuição estatística da amostra

Seja uma amostra da população geral, e o valor x 1-observado uma vez, x 2 -n 2 vezes, ... x k - n k vezes. n= n 1 +n 2 +...+n k é o tamanho da amostra. Valores observadoschamado opções, e a sequência é uma variante escrita em ordem crescente - série variacional. Número de observaçõeschamado frequências (frequências absolutas), e sua relação com o tamanho da amostra- frequências relativas ou probabilidades estatísticas.

Se o número de opções for grande ou a amostra for feita a partir de uma população geral contínua, a série de variação será compilada não por valores de pontos individuais, mas por intervalos de valores da população geral. Tal série é chamada intervalo. Os comprimentos dos intervalos devem ser iguais.

A distribuição estatística da amostra chamada de lista de opções e suas frequências correspondentes ou frequências relativas.

A distribuição estatística também pode ser especificada como uma sequência de intervalos e suas frequências correspondentes (a soma das frequências que se enquadram nesse intervalo de valores)

A série de variação pontual de frequências pode ser representada por uma tabela:

XI
x 1
x2

xk
eu
n 1
nº 2

nk

Da mesma forma, pode-se representar uma série variacional pontual de frequências relativas.

E:

Exemplo:

O número de letras em algum texto X acabou sendo igual a 1000. A primeira letra era "i", a segunda - a letra "i", a terceira - a letra "a", a quarta - "u". Depois vieram as letras "o", "e", "y", "e", "s".

Vamos anotar os lugares que eles ocupam no alfabeto, respectivamente, temos: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Depois de ordenar esses números em ordem crescente, obtemos uma série de variações: 1, 6, 10, 16, 21, 29, 31, 32, 33.

As frequências do aparecimento de letras no texto: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7", eu "- 22.

Compomos uma série variacional pontual de frequências:

Exemplo:

Distribuição de frequência de amostragem de volume especificada n = 20.

Faça uma série de variação pontual de frequências relativas.

XI

2

6

12

eu

3

10

7

Decisão:

Encontre as frequências relativas:


XI

2

6

12

eu

0,15

0,5

0,35

Ao construir uma distribuição intervalar, existem regras para escolher o número de intervalos ou o tamanho de cada intervalo. O critério aqui é a relação ótima: com o aumento do número de intervalos, a representatividade melhora, mas a quantidade de dados e o tempo para processá-los aumentam. Diferença x max - x min entre o maior e o menor valor é chamado de variante em grande escala amostras.

Para contar o número de intervalos k geralmente aplicam a fórmula empírica de Sturgess (implicando arredondamento para o inteiro conveniente mais próximo): k = 1 + 3,322 logn.

Assim, o valor de cada intervalo h pode ser calculado pela fórmula:

5. Função de distribuição empírica

Considere algumas amostras da população geral. Seja conhecida a distribuição estatística das frequências do atributo quantitativo X. Vamos introduzir a notação: n xé o número de observações em que um valor de característica menor que x foi observado; n é o número total de observações (tamanho da amostra). Frequência relativa do evento X<х равна n x /n. Se x muda, então a frequência relativa também muda, ou seja, frequência relativan x /né uma função de x. Porque é encontrado empiricamente, é chamado empírico.

Função de distribuição empírica (função de distribuição de amostra) chame a função, que determina para cada x a frequência relativa do evento X<х.


onde é o número de opções menor que x,

n - tamanho da amostra.

Ao contrário da função de distribuição empírica da amostra, a função de distribuição F(x) da população é chamada função de distribuição teórica.

A diferença entre as funções de distribuição empírica e teórica é que a função teórica F(x) determina a probabilidade de um evento X F*(x) tende em probabilidade para a probabilidade F(x) deste evento. Ou seja, para n grande F*(x) e F(x) diferem pouco um do outro.

Que. é aconselhável usar a função de distribuição empírica da amostra para uma representação aproximada da função de distribuição teórica (integral) da população geral.

F*(x) tem todas as propriedades F(x).

1. Valores F*(x) pertencem ao intervalo.

2. F*(x) é uma função não decrescente.

3. Se for a menor variante, então F*(x) = 0, em x < x1; se x k é a maior variante, então F*(x) = 1, para x > x k .

Aqueles. F*(x) serve para estimar F(x).

Se a amostra é dada por uma série variacional, então a função empírica tem a forma:

O gráfico da função empírica é chamado de cumulativo.

Exemplo:

Trace uma função empírica sobre a distribuição amostral dada.


Decisão:

Tamanho da amostra n = 12 + 18 +30 = 60. A menor opção é 2, ou seja. em x < 2. Evento X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2às 2 < x < 6. Evento X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Porque x=10 é a maior opção, então F*(x) = 1 em x>10. A função empírica desejada tem a forma:

Acumular:


O cumulado permite entender as informações apresentadas graficamente, por exemplo, para responder às questões: “Determine o número de observações em que o valor do atributo foi menor que 6 ou não menor que 6. F*(6) = 0,2 » Então o número de observações em que o valor da característica observada foi menor que 6 é 0,2* n \u003d 0,2 * 60 \u003d 12. O número de observações em que o valor do recurso observado não foi inferior a 6 é (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Se uma série de variação de intervalo é dada, então para compilar a função de distribuição empírica, os pontos médios dos intervalos são encontrados e a função de distribuição empírica é obtida a partir deles de forma semelhante à série de variação de ponto.

6. Polígono e histograma

Para maior clareza, vários gráficos da distribuição estatística são construídos: polinômios e histogramas

Polígono de freqüência- esta é uma linha quebrada, cujos segmentos ligam os pontos ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), onde estão as opções, são as frequências correspondentes a elas.

Polígono de frequências relativas - esta é uma linha quebrada, cujos segmentos conectam os pontos ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), onde x i são opções, wi são frequências relativas correspondentes a elas.

Exemplo:

Plote o polinômio de frequência relativa sobre a distribuição de amostra dada:

Decisão:

No caso de uma feição contínua, é aconselhável construir um histograma, para o qual o intervalo, que contém todos os valores observados da feição, seja dividido em vários intervalos parciais de comprimento h e para cada intervalo parcial n i seja encontrado - a soma das frequências variantes que caem no intervalo i-ésimo. (Por exemplo, ao medir a altura ou o peso de uma pessoa, estamos lidando com um sinal contínuo).

Histograma de frequência - esta é uma figura escalonada, consistindo de retângulos, cujas bases são intervalos parciais de comprimento h, e as alturas são iguais à razão (densidade de frequência).

Quadrado i-ésimo retângulo parcial é igual à soma das frequências da variante do i-ésimo intervalo, ou seja a área do histograma de frequência é igual à soma de todas as frequências, ou seja, tamanho da amostra.

Exemplo:

Os resultados da mudança de tensão (em volts) na rede elétrica são fornecidos. Componha uma série de variação, construa um polígono e um histograma de frequência se os valores de tensão forem os seguintes: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Decisão:

Vamos criar uma série de variações. Temos n = 20, x min = 212, x max = 232.

Vamos usar a fórmula de Sturgess para calcular o número de intervalos.

A série variacional intervalar de frequências tem a forma:


Densidade de Frequência

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Vamos construir um histograma de frequências:

Vamos construir um polígono de frequências primeiro encontrando os pontos médios dos intervalos:


Histograma de frequências relativas chame uma figura escalonada consistindo de retângulos, cujas bases são intervalos parciais de comprimento h, e as alturas são iguais à razão w eu/h (densidade de frequência relativa).

Quadrado O i-ésimo retângulo parcial é igual à frequência relativa da variante que caiu no i-ésimo intervalo. Aqueles. a área do histograma de frequências relativas é igual à soma de todas as frequências relativas, ou seja, unidade.

7. Características numéricas da série de variação

Considere as principais características das populações geral e amostral.

Secundário geralé chamado de média aritmética dos valores da característica da população geral.

Para valores diferentes x 1 , x 2 , x 3 , …, x n . sinal da população geral de volume N temos:

Se os valores de atributo tiverem frequências correspondentes N 1 +N 2 +…+N k =N , então


média da amostraé chamado de média aritmética dos valores da característica da população amostral.

Se os valores dos atributos tiverem frequências correspondentes n 1 +n 2 +…+n k = n, então


Exemplo:

Calcule a média amostral para a amostra: x 1 = 51,12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52,93; x 5 \u003d 51,1; x 6 \u003d 52,98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Decisão:

Variação geralé chamado de média aritmética dos desvios quadrados dos valores da característica X da população geral da média geral.

Para valores diferentes x 1 , x 2 , x 3 , …, x N do sinal da população de volume N temos:

Se os valores de atributo tiverem frequências correspondentes N 1 +N 2 +…+N k =N , então

Desvio padrão geral (padrão) chamada de raiz quadrada da variância geral

Variação da amostraé chamado de média aritmética dos desvios quadrados dos valores observados do recurso do valor médio.

Para valores diferentes x 1 , x 2 , x 3 , ..., x n do sinal da população amostral de volume n temos:


Se os valores dos atributos tiverem frequências correspondentes n 1 +n 2 +…+n k = n, então


Desvio padrão da amostra (padrão)é chamada de raiz quadrada da variância da amostra.


Exemplo:

O conjunto amostral é dado pela tabela de distribuição. Encontre a variância da amostra.


Decisão:

Teorema: A variância é igual à diferença entre a média dos quadrados dos valores das características e o quadrado da média total.

Exemplo:

Encontre a variância para esta distribuição.



Decisão:

8. Estimativas estatísticas de parâmetros de distribuição

Seja a população geral estudada por alguma amostra. Nesse caso, é possível obter apenas um valor aproximado do parâmetro desconhecido Q, que serve como sua estimativa. É óbvio que as estimativas podem variar de uma amostra para outra.

Avaliação estatísticaP* o parâmetro desconhecido da distribuição teórica é chamado de função f, que depende dos valores observados da amostra. A tarefa de estimativa estatística de parâmetros desconhecidos de uma amostra é construir tal função a partir dos dados disponíveis de observações estatísticas, o que forneceria os valores aproximados mais precisos de valores reais, desconhecidos para o pesquisador, desses parâmetros.

As estimativas estatísticas são divididas em ponto e intervalo, dependendo da forma como são fornecidas (número ou intervalo).

Uma estimativa pontual é chamada de estimativa estatística. parâmetro Q da distribuição teórica determinada por um valor do parâmetro Q *=f (x 1 , x 2 , ..., x n), ondex 1 , x 2 , ..., xn- os resultados de observações empíricas sobre o atributo quantitativo X de uma determinada amostra.

Tais estimativas de parâmetros obtidas de diferentes amostras na maioria das vezes diferem umas das outras. A diferença absoluta /Q *-Q / é chamada erro amostral (estimativa).

Para que as estimativas estatísticas forneçam resultados confiáveis ​​sobre os parâmetros estimados, é necessário que sejam imparciais, eficientes e consistentes.

Estimativa de pontos, cuja expectativa matemática é igual (não igual) ao parâmetro estimado, é chamado não deslocado (deslocado). M(Q*)=Q.

Diferença M( Q *)-Q é chamado viés ou erro sistemático. Para estimativas imparciais, o erro sistemático é 0.

eficiente avaliação Q *, que, para um determinado tamanho de amostra n, tem a menor variância possível: D min(n = const). O estimador efetivo tem o menor spread em comparação com outros estimadores imparciais e consistentes.

Prósperoé chamado de estatística avaliação Q*, que para ntende em probabilidade ao parâmetro estimado Q , ou seja com o aumento do tamanho da amostra n a estimativa tende em probabilidade ao valor verdadeiro do parâmetro Q.

O requisito de consistência é consistente com a lei dos grandes números: quanto mais informações iniciais sobre o objeto em estudo, mais preciso será o resultado. Se o tamanho da amostra for pequeno, a estimativa pontual do parâmetro pode levar a erros graves.

Algum amostra (volumen) pode ser pensado como um conjunto ordenadox 1 , x 2 , ..., xn variáveis ​​aleatórias independentes identicamente distribuídas.

Médias de amostra para diferentes amostras de volume n da mesma população será diferente. Ou seja, a média amostral pode ser considerada como uma variável aleatória, o que significa que podemos falar sobre a distribuição da média amostral e suas características numéricas.

A média amostral atende a todos os requisitos impostos às estimativas estatísticas, ou seja, fornece uma estimativa imparcial, eficiente e consistente da média populacional.

Pode-se provar que. Assim, a variância amostral é uma estimativa tendenciosa da variância geral, dando-lhe um valor subestimado. Ou seja, com um tamanho amostral pequeno, dará um erro sistemático. Para uma estimativa imparcial e consistente, basta tomar a quantidade, que é chamada de variância corrigida. ou seja

Na prática, para estimar a variância geral, a variância corrigida é usada quando n < 30. Em outros casos ( n > 30) desvio de dificilmente perceptível. Portanto, para grandes valores n erro de viés pode ser desprezado.

Pode-se provar também que a frequência relativan i / n é uma estimativa de probabilidade imparcial e consistente P(X=xi ). Função de distribuição empírica F*(x ) é uma estimativa imparcial e consistente da função de distribuição teórica F(x)=P(X< x ).

Exemplo:

Encontre as estimativas imparciais da média e variância da tabela de amostra.

XI
eu

Decisão:

Tamanho da amostra n=20.

A estimativa imparcial da expectativa matemática é a média amostral.


Para calcular a estimativa imparcial da variância, primeiro encontramos a variância da amostra:

Agora vamos encontrar a estimativa imparcial:

9. Estimativas de intervalo de parâmetros de distribuição

Um intervalo é uma estimativa estatística determinada por dois valores numéricos - as extremidades do intervalo em estudo.

Número> 0, onde | Q - Q*|< , caracteriza a precisão da estimativa do intervalo.

Confiávelchamado intervalo , que com uma dada probabilidadecobre valor de parâmetro desconhecido Q . Complementando o intervalo de confiança para o conjunto de todos os valores de parâmetros possíveis Q chamado área crítica. Se a região crítica está localizada em apenas um lado do intervalo de confiança, então o intervalo de confiança é chamado unilateral: lado esquerdo, se a região crítica existe apenas à esquerda, e destro menos à direita. Caso contrário, o intervalo de confiança é chamado bilateral.

Confiabilidade, ou nível de confiança, Q estimativas (usando Q *) nomeie a probabilidade com que a seguinte desigualdade é satisfeita: | Q - Q*|< .

Na maioria das vezes, a probabilidade de confiança é definida antecipadamente (0,95; 0,99; 0,999) e o requisito é imposto a ela para estar próximo de um.

Probabilidadechamado a probabilidade de erro, ou o nível de significância.

Deixe | Q - Q*|< , então. Isso significa que com uma probabilidadepode-se argumentar que o verdadeiro valor do parâmetro Q pertence ao intervalo. Quanto menor o desvio, mais precisa será a estimativa.

Os limites (extremidades) do intervalo de confiança são chamados limites de confiança ou limites críticos.

Os valores dos limites do intervalo de confiança dependem da lei de distribuição do parâmetro Q*.

Valor de desviometade da largura do intervalo de confiança é chamada precisão da avaliação.

Os métodos para construir intervalos de confiança foram desenvolvidos pela primeira vez pelo estatístico americano Y. Neumann. Precisão da estimativa, probabilidade de confiança e tamanho da amostra m interligados. Portanto, conhecendo os valores específicos de duas quantidades, você sempre pode calcular a terceira.

Encontrar o intervalo de confiança para estimar a expectativa matemática de uma distribuição normal se o desvio padrão for conhecido.

Seja feita uma amostra da população geral, sujeita à lei da distribuição normal. Seja conhecido o desvio padrão geral, mas a expectativa matemática da distribuição teórica é desconhecida uma().

A seguinte fórmula é válida:

Aqueles. de acordo com o valor de desvio especificadoé possível encontrar com que probabilidade a média geral desconhecida pertence ao intervalo. E vice versa. Pode-se ver pela fórmula que com um aumento no tamanho da amostra e um valor fixo da probabilidade de confiança, o valor- diminui, ou seja a precisão da estimativa é aumentada. Com um aumento na confiabilidade (probabilidade de confiança), o valor-aumenta, ou seja, a precisão da estimativa diminui.

Exemplo:

Como resultado dos testes, foram obtidos os seguintes valores -25, 34, -20, 10, 21. Sabe-se que eles obedecem à lei de distribuição normal com desvio padrão de 2. Encontre a estimativa a * para o esperança matemática a. Trace um intervalo de confiança de 90% para ele.

Decisão:

Vamos encontrar a estimativa imparcial

Então


O intervalo de confiança para a tem a forma: 4 - 1,47< uma< 4+ 1,47 или 2,53 < a < 5, 47

Encontrar o intervalo de confiança para estimar a expectativa matemática de uma distribuição normal se o desvio padrão for desconhecido.

Que se saiba que a população em geral está sujeita à lei da distribuição normal, onde a e. Precisão da Cobertura do Intervalo de Confiança com Confiabilidadeo valor verdadeiro do parâmetro a, neste caso, é calculado pela fórmula:

, onde n é o tamanho da amostra, , - Coeficiente de Student (deve ser encontrado a partir dos valores fornecidos n e da tabela "Pontos críticos da distribuição do Aluno").

Exemplo:

Como resultado dos testes, foram obtidos os seguintes valores -35, -32, -26, -35, -30, -17. Sabe-se que obedecem à lei da distribuição normal. Encontre o intervalo de confiança para a média populacional a com um nível de confiança de 0,9.

Decisão:

Vamos encontrar a estimativa imparcial.

Vamos encontrar.

Então

O intervalo de confiança terá a forma(-29,2 - 5,62; -29,2 + 5,62) ou (-34,82; -23,58).

Encontrando o intervalo de confiança para a variância e o desvio padrão de uma distribuição normal

Deixe uma amostra aleatória de volume ser retirada de algum conjunto geral de valores distribuídos de acordo com a lei normaln < 30 para os quais as variâncias da amostra são calculadas: tendenciosae corrigiu s 2. Então, para encontrar estimativas de intervalo com uma determinada confiabilidadepara dispersão geralDdesvio padrão geralas seguintes fórmulas são usadas.


ou,

Valores- encontre usando a tabela de valores de pontos críticosdistribuições de Pearson.

O intervalo de confiança para a variância é encontrado a partir dessas desigualdades elevando ao quadrado todas as partes da desigualdade.

Exemplo:

A qualidade de 15 parafusos foi verificada. Assumindo que o erro em sua fabricação está sujeito à lei de distribuição normal, e o desvio padrão amostraligual a 5 mm, determine com confiabilidadeintervalo de confiança para parâmetro desconhecido

Representamos os limites do intervalo como uma dupla desigualdade:

As extremidades do intervalo de confiança bilateral para a variância podem ser determinadas sem realizar operações aritméticas para um determinado nível de confiança e tamanho da amostra usando a tabela correspondente (Limites dos intervalos de confiança para a variância dependendo do número de graus de liberdade e confiabilidade ). Para fazer isso, as extremidades do intervalo obtido da tabela são multiplicadas pela variância corrigida s 2.

Exemplo:

Vamos resolver o problema anterior de uma maneira diferente.

Decisão:

Vamos encontrar a variância corrigida:

De acordo com a tabela "Limites do intervalo de confiança para a variância dependendo do número de graus de liberdade e confiabilidade", encontramos os limites do intervalo de confiança para a variância emk=14 e: limite inferior 0,513 e limite superior 2,354.

Multiplique os limites obtidos pors 2 e extraia a raiz (porque precisamos de um intervalo de confiança não para a variância, mas para o desvio padrão).

Como pode ser visto nos exemplos, o valor do intervalo de confiança depende do método de sua construção e fornece resultados próximos, mas diferentes.

Para amostras de tamanho suficientemente grande (n>30) os limites do intervalo de confiança para o desvio padrão geral podem ser determinados pela fórmula: - algum número, que é tabulado e dado na tabela de referência correspondente.

Se 1- q<1, то формула имеет вид:

Exemplo:

Vamos resolver o problema anterior da terceira maneira.

Decisão:

Encontrado anteriormentes= 5,17. q(0,95; 15) = 0,46 - encontramos de acordo com a tabela.

Então:

Muitas vezes acontece que é necessário analisar um determinado fenômeno social e obter informações sobre ele. Tais tarefas surgem frequentemente em estatística e em pesquisa estatística. A verificação de um fenômeno social totalmente definido é muitas vezes impossível. Por exemplo, como saber a opinião da população ou de todos os moradores de uma determinada cidade sobre qualquer assunto? Perguntar a absolutamente todo mundo é quase impossível e muito trabalhoso. Nesses casos, precisamos de uma amostra. Este é exatamente o conceito em que quase todas as pesquisas e análises se baseiam.

O que é uma amostra

Ao analisar um determinado fenômeno social, é necessário obter informações sobre ele. Se tomarmos qualquer estudo, podemos ver que nem toda unidade da totalidade do objeto de estudo está sujeita a pesquisa e análise. Apenas uma certa parte dessa totalidade é levada em consideração. Este processo é a amostragem: quando apenas algumas unidades do conjunto são examinadas.

Claro, muito depende do tipo de amostra. Mas também existem regras básicas. A principal diz que a seleção da população deve ser absolutamente aleatória. As unidades populacionais a serem utilizadas não devem ser selecionadas por nenhum critério. Grosso modo, se for necessário coletar uma população da população de uma determinada cidade e selecionar apenas homens, haverá um erro no estudo, pois a seleção não foi feita aleatoriamente, mas foi selecionada de acordo com o gênero. Quase todos os métodos de amostragem são baseados nesta regra.

Regras de amostragem

Para que o conjunto selecionado reflita as principais qualidades de todo o fenômeno, ele deve ser construído de acordo com leis específicas, onde deve-se dar atenção principal às seguintes categorias:

  • amostra (população amostral);
  • população geral;
  • representatividade;
  • erro de representatividade;
  • unidade populacional;
  • métodos de amostragem.

As características da observação seletiva e amostragem são as seguintes:

  1. Todos os resultados obtidos são baseados em leis e regras matemáticas, ou seja, com a correta condução do estudo e com os cálculos corretos, os resultados não serão distorcidos de forma subjetiva
  2. Permite obter um resultado muito mais rápido e com menos tempo e recursos, estudando não toda a gama de eventos, mas apenas uma parte deles.
  3. Ele pode ser usado para estudar vários objetos: desde questões específicas, por exemplo, idade, sexo do grupo de interesse para nós, até o estudo da opinião pública ou o nível de suporte material da população.

Observação seletiva

Seletiva - esta é uma observação estatística na qual nem toda a população do estudo é submetida à pesquisa, mas apenas uma parte dela, selecionada de uma certa maneira, e os resultados do estudo dessa parte se aplicam a toda a população. Essa parte é chamada de quadro de amostragem. Esta é a única maneira de estudar uma grande variedade do objeto de estudo.

Mas a observação seletiva pode ser usada apenas nos casos em que é necessário estudar apenas um pequeno grupo de unidades. Por exemplo, ao estudar a proporção de homens para mulheres no mundo, a observação seletiva será usada. Por razões óbvias, é impossível levar em conta todos os habitantes do nosso planeta.

Mas com o mesmo estudo, mas não de todos os habitantes da terra, mas de uma determinada classe 2 "A" em uma determinada escola, uma determinada cidade, um determinado país, a observação seletiva pode ser dispensada. Afinal, é bem possível analisar toda a matriz do objeto de estudo. É necessário contar os meninos e meninas desta classe - essa será a proporção.

Amostra e população

Na verdade, não é tão difícil quanto parece. Em qualquer objeto de estudo existem dois sistemas: população geral e amostral. O que é isso? Todas as unidades pertencem ao general. E para a amostra - aquelas unidades da população total que foram tomadas para a amostra. Se tudo for feito corretamente, a parte selecionada será um layout reduzido de toda a população (geral).

Se falamos sobre a população geral, podemos distinguir apenas duas de suas variedades: população geral definida e indefinida. Depende se o número total de unidades de um determinado sistema é conhecido ou não. Se for uma determinada população, a amostragem será mais fácil devido ao fato de se saber qual porcentagem do número total de unidades será amostrada.

Esse momento é muito necessário na pesquisa. Por exemplo, se for necessário investigar a porcentagem de produtos de confeitaria de baixa qualidade em uma determinada fábrica. Suponha que a população já tenha sido definida. Sabe-se com certeza que esta empresa produz 1000 produtos de confeitaria por ano. Se fizermos uma amostra de 100 produtos de confeitaria aleatórios desses mil e os enviarmos para exame, o erro será mínimo. A grosso modo, 10% de todos os produtos foram objeto de pesquisa, e com base nos resultados, levando em conta o erro de representatividade, podemos falar de má qualidade de todos os produtos.

E se você fizer uma amostra de 100 produtos de confeitaria de uma população geral indefinida, onde na verdade havia, digamos, 1 milhão de unidades, então o resultado da amostra e o próprio estudo serão criticamente implausíveis e imprecisos. Sinta a diferença? Portanto, a certeza da população geral na maioria dos casos é extremamente importante e afeta muito o resultado do estudo.

Representatividade da população

Então, agora uma das questões mais importantes - qual deve ser a amostra? Este é o ponto mais importante do estudo. Nesta fase, é necessário calcular a amostra e selecionar unidades do número total nela. A população foi selecionada corretamente se certas características e características da população geral permanecerem na amostra. Isso se chama representatividade.

Em outras palavras, se, após a seleção, uma parte mantém as mesmas tendências e características de toda a quantidade examinada, essa população é chamada de representativa. Mas nem toda amostra específica pode ser selecionada de uma população representativa. Existem também tais objetos de pesquisa, cuja amostra simplesmente não pode ser representativa. É daí que vem o conceito de erro de representatividade. Mas vamos falar um pouco mais sobre isso.

Como fazer uma seleção

Assim, para maximizar a representatividade, existem três regras básicas de amostragem:


Erro (erro) de representatividade

A principal característica da qualidade da amostra selecionada é o conceito de "erro de representatividade". O que é isso? São certas discrepâncias entre os indicadores de observação seletiva e contínua. De acordo com os indicadores de erro, a representatividade é dividida em confiável, ordinária e aproximada. Ou seja, desvios de até 3%, de 3 a 10% e de 10 a 20%, respectivamente, são aceitáveis. Embora nas estatísticas seja desejável que o erro não exceda 5-6%. Caso contrário, há razão para falar sobre a representatividade insuficiente da amostra. Para calcular o erro de representatividade e como ele afeta uma amostra ou população, muitos fatores são levados em consideração:

  1. A probabilidade com que um resultado preciso deve ser obtido.
  2. Número de unidades de amostragem. Conforme mencionado anteriormente, quanto menor o número de unidades da amostra, maior será o erro de representatividade e vice-versa.
  3. Homogeneidade da população de estudo. Quanto mais heterogênea a população, maior será o erro de representatividade. A capacidade de uma população ser representativa depende da homogeneidade de todas as suas unidades constituintes.
  4. Um método de seleção de unidades em uma população de amostra.

Em estudos específicos, o erro percentual da média geralmente é definido pelo próprio pesquisador, com base no programa de observação e de acordo com dados de estudos anteriores. Como regra, o erro de amostragem máximo (erro de representatividade) dentro de 3-5% é considerado aceitável.

Mais nem sempre é melhor

Também vale lembrar que o principal na organização da observação seletiva é trazer seu volume a um mínimo aceitável. Ao mesmo tempo, não se deve procurar reduzir excessivamente os limites de erro amostral, pois isso pode levar a um aumento injustificado da quantidade de dados amostrais e, consequentemente, a um aumento no custo da amostragem.

Ao mesmo tempo, o tamanho do erro de representatividade não deve ser excessivamente aumentado. Afinal, neste caso, embora haja uma diminuição no tamanho da amostra, isso levará a uma deterioração na confiabilidade dos resultados obtidos.

Que perguntas costumam ser feitas pelo pesquisador?

Qualquer pesquisa, se realizada, é para algum propósito e para obter alguns resultados. Ao realizar uma pesquisa por amostragem, via de regra, as perguntas iniciais são:


Métodos para selecionar unidades de pesquisa na amostra

Nem toda amostra é representativa. Às vezes, um e o mesmo signo se expressa de maneira diferente no todo e em sua parte. Para atingir os requisitos de representatividade, é aconselhável usar vários métodos de amostragem. Além disso, o uso de um método ou outro depende das circunstâncias específicas. Alguns desses métodos de amostragem incluem:

  • seleção aleatória;
  • seleção mecânica;
  • seleção típica;
  • seleção serial (aninhada).

A seleção aleatória é um sistema de atividades que visa a seleção aleatória de unidades populacionais, quando a probabilidade de inclusão na amostra é igual para todas as unidades da população geral. Esta técnica é aconselhável aplicar apenas no caso de uniformidade e um pequeno número de suas características inerentes. Caso contrário, alguns traços característicos correm o risco de não serem refletidos na amostra. As características da seleção aleatória estão subjacentes a todos os outros métodos de amostragem.

Com a seleção mecânica de unidades é realizada em um determinado intervalo. Caso seja necessário formar uma amostra de crimes específicos, é possível retirar cada 5º, 10º ou 15º cartão de todos os registos estatísticos de crimes registados, dependendo do seu número total e tamanhos de amostra disponíveis. A desvantagem desse método é que antes da seleção é necessário ter uma conta completa das unidades da população, então é necessário realizar um ranking, e somente depois disso é possível amostrar com determinado intervalo. Este método leva muito tempo, por isso não é usado com frequência.

A seleção típica (regionalizada) é um tipo de amostra em que a população geral é dividida em grupos homogêneos de acordo com um determinado atributo. Às vezes, os pesquisadores usam outros termos em vez de "grupos": "distritos" e "zonas". Então, de cada grupo, um certo número de unidades é selecionado aleatoriamente em proporção à participação do grupo na população total. Uma seleção típica geralmente é realizada em várias etapas.

A amostragem seriada é um método no qual a seleção das unidades é realizada em grupos (séries) e todas as unidades do grupo selecionado (séries) são submetidas a exame. A vantagem desse método é que às vezes é mais difícil selecionar unidades individuais do que séries, por exemplo, ao estudar uma pessoa que está cumprindo pena. Dentro das áreas, zonas selecionadas, aplica-se o estudo de todas as unidades sem exceção, por exemplo, o estudo de todas as pessoas cumprindo pena em uma determinada instituição.

Parte dos objetos da população selecionada para estudo a fim de tirar uma conclusão sobre toda a população. Para que a conclusão obtida pelo estudo da amostra seja estendida a toda a população, a amostra deve ter a propriedade de ser representativa.

Representatividade da amostra

A propriedade da amostra para refletir corretamente a população geral. A mesma amostra pode ou não ser representativa de diferentes populações.
Exemplo:

Uma amostra composta inteiramente de moscovitas que possuem um carro não representa toda a população de Moscou.

A amostra de empresas russas com até 100 funcionários não representa todas as empresas na Rússia.

A amostra de moscovitas que fazem compras no mercado não representa o comportamento de compra de todos os moscovitas.

Ao mesmo tempo, essas amostras (sujeitas a outras condições) podem representar perfeitamente proprietários de carros moscovitas, pequenas e médias empresas russas e compradores que fazem compras nos mercados, respectivamente.

É importante entender que a representatividade da amostra e o erro amostral são fenômenos diferentes. A representatividade, ao contrário do erro, não depende do tamanho da amostra.

Não importa o quanto aumentemos o número de proprietários de carros moscovitas pesquisados, não seremos capazes de representar todos os moscovitas com esta amostra.

Erro de amostragem (intervalo de confiança)

O desvio dos resultados obtidos com a ajuda da observação amostral dos dados reais da população geral.

Existem dois tipos de erro amostral: estatístico e sistemático. O erro estatístico depende do tamanho da amostra. Quanto maior o tamanho da amostra, menor ela é.

Exemplo:
Para uma amostra aleatória simples de 400 unidades, o erro estatístico máximo (com 95% de confiança) é de 5%, para uma amostra de 600 unidades - 4%, para uma amostra de 1100 unidades - 3%.

O erro sistemático depende de vários fatores que têm um impacto constante no estudo e enviesam os resultados do estudo em uma determinada direção.

Exemplo:
- O uso de qualquer amostra probabilística subestima a proporção de pessoas de alta renda que levam um estilo de vida ativo. Isso acontece devido ao fato de que essas pessoas são muito mais difíceis de encontrar em qualquer lugar específico (por exemplo, em casa).

O problema dos entrevistados que se recusam a responder às perguntas do questionário (a parcela de "refuseniks" em Moscou, para diferentes pesquisas, varia de 50% a 80%)

Em alguns casos, quando as distribuições verdadeiras são conhecidas, o viés pode ser nivelado introduzindo cotas ou reponderando os dados, mas na maioria dos estudos reais, até mesmo estimar isso pode ser bastante problemático.

Tipos de amostra

As amostras são divididas em dois tipos:

probabilístico

improbabilidade

Amostras de probabilidade

1.1 Amostragem aleatória (seleção aleatória simples)

Tal amostra pressupõe a homogeneidade da população geral, a mesma probabilidade de disponibilidade de todos os elementos, a presença de uma lista completa de todos os elementos. Ao selecionar elementos, como regra, é usada uma tabela de números aleatórios.
1.2 Amostragem mecânica (sistemática)

Uma espécie de amostra aleatória, ordenada por algum atributo (ordem alfabética, número de telefone, data de nascimento, etc.). O primeiro elemento é selecionado aleatoriamente, então cada 'k'ésimo elemento é selecionado em incrementos de 'n'. O tamanho da população geral, enquanto - N=n*k

1.3 Estratificado (zonado)

É usado em caso de heterogeneidade da população em geral. A população geral é dividida em grupos (estratos). Em cada estrato, a seleção é feita aleatoriamente ou mecanicamente.

1.4 Amostragem em série (aninhada ou agrupada)

Com a amostragem em série, as unidades de seleção não são os objetos em si, mas os grupos (clusters ou ninhos). Os grupos são selecionados aleatoriamente. Objetos dentro de grupos são pesquisados ​​por toda parte.

Amostras incríveis

A seleção em tal amostra é realizada não de acordo com os princípios do acaso, mas de acordo com critérios subjetivos - acessibilidade, tipicidade, representação igualitária etc.

Amostragem de cotas

Inicialmente, um certo número de grupos de objetos é alocado (por exemplo, homens de 20 a 30 anos, 31 a 45 anos e 46 a 60 anos; pessoas com renda de até 30 mil rublos, com renda de 30 a 60 mil rublos e com renda superior a 60 mil rublos ) Para cada grupo, é especificado o número de objetos a serem pesquisados. O número de objetos que devem cair em cada um dos grupos é definido, na maioria das vezes, proporcionalmente à participação previamente conhecida do grupo na população geral, ou o mesmo para cada grupo. Dentro dos grupos, os objetos são selecionados aleatoriamente. Amostras de cotas são usadas com bastante frequência em pesquisas de marketing.

Método Bola de Neve

A amostra é construída da seguinte forma. A cada respondente, a partir do primeiro, é solicitado que contate seus amigos, colegas, conhecidos que se enquadrariam nas condições de seleção e poderiam participar do estudo. Assim, com exceção da primeira etapa, a amostra é formada com a participação dos próprios objetos de estudo. O método é frequentemente utilizado quando é necessário encontrar e entrevistar grupos de inquiridos de difícil acesso (por exemplo, inquiridos com rendimentos elevados, inquiridos pertencentes ao mesmo grupo profissional, inquiridos que tenham alguns hobbies/paixões semelhantes, etc. )
2.3 Amostragem espontânea

Os entrevistados mais acessíveis são pesquisados. Exemplos típicos de amostragem espontânea são pesquisas em jornais/revistas, questionários dados aos entrevistados para autopreenchimento, a maioria das pesquisas na Internet. O tamanho e a composição das amostras espontâneas não são conhecidos antecipadamente e são determinados por apenas um parâmetro - a atividade dos entrevistados.
2.4 Amostra de casos típicos

São selecionadas unidades da população geral que possuem um valor médio (típico) do atributo. Isso levanta o problema de escolher um recurso e determinar seu valor típico.

Implementação do plano de pesquisa

Essa etapa, lembramos, inclui a coleta de informações e sua análise. O processo de implementação de um plano de pesquisa de marketing normalmente requer mais pesquisa e é a fonte do maior erro.

Ao coletar dados estatísticos, surgem várias deficiências e problemas:

em primeiro lugar, alguns respondentes podem não estar no local acordado e precisam ser contatados novamente ou substituídos;

em segundo lugar, alguns entrevistados podem não cooperar ou dar respostas tendenciosas, sabidamente falsas.

Graças às modernas tecnologias de computação e telecomunicações, os métodos de coleta de dados estão se desenvolvendo e melhorando.

Algumas empresas realizam pesquisas a partir de um único centro. Nesse caso, entrevistadores profissionais ficam em escritórios e discam números de telefone aleatórios. Se ouvirem a resposta dos chamadores, o entrevistador pede à pessoa que atendeu o telefone para responder a algumas perguntas. As últimas são lidas na tela do monitor do computador e as respostas dos entrevistados são digitadas no teclado. Este método elimina a necessidade de formatação e codificação de dados, reduz o número de erros.