Exemplo representativo. Amostra

metas de aprendizagem

  1. É clara a distinção entre os conceitos de censo (qualificação) e amostragem.
  2. Conheça a essência e a sequência das seis etapas implementadas pelos pesquisadores para obter uma amostra populacional.
  3. Defina o conceito de "quadro de amostragem".
  4. Explique a diferença entre amostragem probabilística e determinística.
  5. Distinguir entre amostragem de tamanho fixo e amostragem multiestágio (consecutiva).
  6. Explique o que é amostragem deliberada e descreva seus pontos fortes e fracos.
  7. Defina o conceito de amostragem por quotas.
  8. Explique o que é um parâmetro em um procedimento de seleção.
  9. Explique o que é um conjunto derivado.
  10. Explique por que o conceito de distribuição amostral é o conceito mais importante da estatística.

Assim, o pesquisador definiu com precisão o problema e garantiu o projeto de pesquisa apropriado e as ferramentas de coleta de dados para resolvê-lo. O próximo passo no processo de pesquisa deve ser a seleção dos elementos a serem examinados. É possível examinar cada elemento de uma determinada população fazendo um censo completo dessa população. Um levantamento completo da população é chamado de censo (qualificação). Há outra possibilidade. Uma certa parte da população, uma amostra de elementos de um grande grupo, é submetida a exame estatístico e, de acordo com os dados obtidos neste subconjunto, são tiradas certas conclusões sobre todo o grupo. A capacidade de generalizar os resultados obtidos dos dados da amostra para um grande grupo depende do método pelo qual a amostra foi coletada. Grande parte deste capítulo será dedicada a como a amostra deve ser extraída e por quê.

Censo (qualificação)
Censo completo da população (população).
Amostra
Uma coleção de elementos de um subconjunto de um grupo maior de objetos.

O conceito de "população" ou "coleção" pode referir-se não apenas a pessoas, mas também a empresas que atuam na indústria manufatureira, a varejistas ou atacadistas, ou mesmo a objetos completamente inanimados, como peças produzidas pela empresa; este conceito é definido como todo o conjunto de elementos que satisfazem determinadas condições. Essas condições definem exclusivamente os elementos pertencentes ao grupo-alvo e os elementos que devem ser excluídos da consideração.

Um estudo que visa determinar o perfil demográfico dos consumidores de pizza congelada deve começar identificando quem deve e quem não deve ser classificado como tal. As pessoas que experimentaram essa pizza pelo menos uma vez pertencem a essa categoria? Indivíduos que compram pelo menos uma pizza por mês? Na semana? Indivíduos que comem mais do que uma certa quantidade mínima de pizza em um mês? O pesquisador deve ser muito preciso na determinação do grupo-alvo. Deve-se também ter o cuidado de garantir que a amostra seja retirada da população-alvo e não de “alguma” população, o que ocorre quando a base de amostragem é inadequada ou incompleta. Este último é uma lista de elementos a partir dos quais uma amostra real será formada.

Um pesquisador pode preferir uma abordagem de amostragem a uma pesquisa de toda a população por várias razões. Primeiro, um levantamento completo de uma população, mesmo de tamanho relativamente pequeno, requer custos de material e tempo muito grandes. Muitas vezes, quando o censo é concluído e os dados são processados, as informações já estão desatualizadas. Em alguns casos, a qualificação é simplesmente impossível. Digamos que os pesquisadores se proponham a verificar a conformidade da vida útil real das lâmpadas incandescentes elétricas com a calculada, para a qual precisam mantê-las acesas até que falhem. Se você examinar todo o suprimento de lâmpadas dessa maneira, dados confiáveis ​​​​serão obtidos, mas não haverá nada para negociar.

Por fim, para grande espanto dos iniciantes, o pesquisador pode preferir a amostragem ao censo, primando pela precisão dos resultados. Os censos exigem uma equipe grande, o que aumenta a probabilidade de erros de viés (sem amostragem). Essa circunstância é uma das razões pelas quais o US Census Bureau usa pesquisas por amostragem para testar a precisão de vários tipos de censos. Você leu certo: pesquisas de amostra podem ser realizadas para testar a precisão dos dados de qualificação.

Etapas de design de amostra

Na fig. A Figura 15.1 mostra uma sequência de seis etapas que um pesquisador pode seguir ao projetar uma amostra. Em primeiro lugar, é necessário determinar a população-alvo ou conjunto de elementos sobre os quais o pesquisador deseja saber algo.

Por exemplo, ao estudar as preferências das crianças, os pesquisadores precisam decidir se a população-alvo consistirá de apenas filhos, apenas pais ou ambos.

Agregado (população)
Um conjunto de elementos que satisfazem certas condições dadas.
Quadro de amostragem (base)
A lista de elementos a partir dos quais será feita a seleção; pode consistir em unidades territoriais, organizações, pessoas e outros elementos.

Uma certa empresa testou suas "corridas" elétricas apenas em crianças. As crianças ficaram completamente encantadas. Os pais reagiram de forma diferente à novidade. As mães não gostaram do fato de o passeio não ensinar as crianças a serem amigas do carro, e os pais não gostaram do fato de o produto ser feito como um brinquedo.
A situação inversa também é possível. Uma empresa lançou um novo produto alimentar e lançou uma campanha publicitária nacional focada na criança precoce.A empresa testou a eficácia dos comerciais apenas em mães que ficaram emocionadas. As crianças, por outro lado, acharam repugnante essa "aceleração", e com ela o próprio produto anunciado. Produto finalizado 1 .

O pesquisador deve decidir quem ou o que a população relevante será composta: indivíduos, famílias, empresas, outras organizações, transações de cartão de crédito, etc. Ao tomar tais decisões, é necessário determinar os elementos que devem ser excluídos das populações. Devem ser feitas referências temporais e geográficas de elementos, que em alguns casos podem estar sujeitas a condições ou restrições adicionais. Por exemplo, se estamos falando de indivíduos, a população desejada pode consistir apenas de pessoas com mais de 18 anos, ou apenas de mulheres, ou apenas de pessoas com pelo menos o ensino médio.

A tarefa de determinar os limites geográficos para a população-alvo na pesquisa de marketing internacional pode ser um problema particular, pois aumenta a heterogeneidade do sistema em consideração. Por exemplo, a proporção relativa de áreas urbanas e rurais pode variar significativamente de país para país. O aspecto territorial tem um sério impacto na composição da população e dentro de um mesmo país. Por exemplo, no norte do Chile, uma população predominantemente indiana vive de forma compacta, enquanto nas regiões do sul do país vivem principalmente descendentes de europeus.

Cobertura (incidente)
A porcentagem de membros de uma população ou grupo que atende às condições de inclusão na amostra.

De modo geral, quanto mais simples for definida a população-alvo, maior será sua cobertura (incidência) e mais fácil e barato será o procedimento de amostragem. Cobertura (incidente) corresponde à proporção de elementos de uma população ou grupo, expressa em percentagem, que satisfaz as condições de inclusão na amostra. A cobertura afeta diretamente os custos de tempo e material necessários para realizar uma pesquisa. Se a cobertura for grande (ou seja, a maioria dos elementos da população atende a um ou mais dos critérios simples usados ​​para identificar potenciais respondentes), o tempo e o custo necessários para coletar dados são minimizados. Por outro lado, com um aumento no número de critérios que os potenciais respondentes devem atender, os custos de material e tempo aumentam.

Na fig. 15.2 mostra a proporção da população adulta envolvida em certos esportes. Os dados da figura indicam que é muito mais difícil e caro examinar pessoas que andam de motociclismo (apenas 3,6% do número total de adultos) do que examinar pessoas que fazem caminhadas recreativas regulares (27,4% do número total de adultos). O principal é que o pesquisador seja preciso ao determinar quais elementos devem ser incluídos na população do estudo e quais devem ser excluídos dela. Uma declaração clara do objetivo do estudo facilita muito a solução deste problema. O segundo passo no processo de amostragem é determinar a base de amostragem, que, como você já sabe, é a lista de elementos a partir da qual a amostra será extraída. Seja a população-alvo de um determinado estudo todas as famílias que vivem na área de Dallas. À primeira vista, a lista telefônica de Dallas pode ser uma base de amostragem boa e de fácil acesso. No entanto, após um exame mais atento, torna-se óbvio que a lista de famílias contida no diretório não está totalmente correta, pois nele são omitidos os números de algumas famílias (claro, não inclui as famílias que não possuem telefone), enquanto algumas famílias têm vários números de telefone. As pessoas que mudaram recentemente de residência e, consequentemente, de número de telefone, também não estão presentes na lista.

Pesquisadores experientes chegam à conclusão de que uma correspondência exata entre a base de amostragem e a população-alvo de interesse é muito rara. Um dos passos mais criativos na concepção de uma amostra é determinar um quadro de amostragem apropriado nos casos em que é difícil listar os membros da população. Isso pode exigir amostragem de blocos de trabalho e prefixos quando, por exemplo, a discagem aleatória é usada devido a falhas nas listas telefônicas. No entanto, o aumento significativo de unidades de trabalho nos últimos 10 anos tornou essa tarefa mais difícil. Situações semelhantes também podem surgir no caso de observação seletiva de zonas ou organizações territoriais, seguida de subamostras, quando, digamos, a população-alvo são indivíduos, mas não há uma lista exata e atualizada deles.

Fonte: com base em dados contidos no SSI- Leve TM: eu ow Incidência T visadas S ampling" (Fairfield, Conn.: Survey Sampling, Inc., 1994).

A terceira etapa do procedimento de amostragem está intimamente relacionada à determinação da base de amostragem. A escolha do método ou procedimento de amostragem depende em grande parte do quadro de amostragem adotado pelo pesquisador. Diferentes tipos de amostras requerem diferentes tipos de estruturas de amostragem. Este e o próximo capítulo fornecerão uma visão geral dos principais tipos de amostras usadas na pesquisa de marketing. Ao descrevê-los, a conexão entre o quadro de amostragem e o método de sua formação deve se tornar óbvia.

O quarto passo no procedimento de amostragem é determinar o tamanho da amostra. Este problema é discutido no Cap. 17. Na quinta etapa, o pesquisador precisa selecionar de fato os elementos que serão submetidos à pesquisa. O método utilizado para isso é determinado pelo tipo de amostra escolhido; ao discutir métodos de amostragem, também falaremos sobre a seleção de seus elementos. E, finalmente, o pesquisador precisa realmente examinar os entrevistados identificados. Nesta fase, há uma alta probabilidade de cometer uma série de erros.
Esses problemas e alguns métodos para sua resolução são discutidos no Cap. dezoito.

Tipos de planos de amostragem (amostragem)

Todos os métodos de amostragem podem ser divididos em duas categorias: observação de amostras probabilísticas e observação de amostras determinísticas. Em uma amostra probabilística, cada membro da população pode ser incluído com uma certa probabilidade especificada diferente de zero. A probabilidade de incluir certos membros da população na amostra pode ser diferente, mas a probabilidade de incluir cada elemento nela é conhecida. Essa probabilidade é determinada por um procedimento mecânico especial usado para selecionar os membros da amostra.

Para amostras determinísticas, torna-se impossível estimar a probabilidade de incluir qualquer elemento na amostra. A representatividade de tal amostra não pode ser garantida. Por exemplo, Allstate Corporation estava desenvolvendo um sistema para processar os dados de sinistros de 14 milhões de domicílios (seus clientes). A empresa planeja usar esses dados para determinar padrões de demanda por seus serviços, como a probabilidade de uma família que possui um Mercedes Benz também possuir uma casa de férias (o que exigirá seguro). Embora o banco de dados seja muito grande, a empresa não tem meios para estimar a probabilidade de um determinado cliente fazer uma reclamação. A empresa, portanto, não pode ter certeza de que os dados do cliente que fazem a reclamação são representativos de todos os clientes da empresa; e em menor grau - em relação aos clientes em potencial.

Todas as amostras determinísticas são baseadas na posição pessoal, julgamento ou preferência do pesquisador, e não em um procedimento mecânico de seleção dos membros da amostra. Tais preferências às vezes podem fornecer boas estimativas das características da população, mas não há como determinar objetivamente a adequação da amostra para a tarefa. Uma avaliação da exatidão dos resultados da amostra só pode ser feita se forem conhecidas as probabilidades de seleção de determinados elementos. Por esta razão, trabalhar com amostragem probabilística é geralmente considerado o melhor método para estimar a magnitude do erro amostral. As amostras também podem ser subdivididas em amostras de tamanho fixo e amostras sequenciais. Ao trabalhar com amostras de tamanho fixo, o tamanho da amostra é determinado antes do início da pesquisa, e a análise dos resultados é precedida pela coleta de todos os dados necessários. Estaremos interessados ​​principalmente em amostras de tamanho fixo, uma vez que esse tipo geralmente é usado em pesquisa de marketing.

Amostragem probabilística
Uma amostra na qual cada elemento da população pode ser incluído com alguma probabilidade conhecida diferente de zero.
Amostragem determinística
Amostragem baseada em algumas preferências ou julgamentos particulares que determinam a seleção de determinados elementos; ao mesmo tempo, torna-se impossível estimar a probabilidade de incluir um elemento arbitrário da população na amostra.

No entanto, não se deve esquecer que também existem amostras sequenciais que podem ser usadas com cada um dos desenhos básicos de amostragem discutidos abaixo.

Em uma amostra sequencial, o número de elementos selecionados não é conhecido antecipadamente, é determinado com base em uma série de decisões sequenciais. Se um levantamento de uma pequena amostra não levar a um resultado confiável, a gama de elementos a serem examinados é ampliada. Se o resultado permanecer inconclusivo depois disso, o tamanho da amostra é aumentado novamente. Em cada etapa, é tomada a decisão de considerar o resultado obtido suficientemente convincente ou de continuar coletando dados. Trabalhar com amostragem sequencial permite avaliar a tendência (tendência) dos dados à medida que são coletados, o que reduz os custos associados a observações adicionais nos casos em que sua conveniência diminui.

Os planos de amostragem probabilísticos e determinísticos se enquadram em vários tipos. Por exemplo, amostras determinísticas podem ser não representativas (convenientes), intencionais ou por cotas; amostras probabilísticas são divididas em aleatórias simples, estratificadas ou em grupo (cluster), elas, por sua vez, podem ser divididas em subtipos. Na fig. A Figura 15.3 mostra os tipos de amostras que serão discutidas neste e no próximo capítulo.

Amostra Fixa (Amostra Fixa)
Uma amostra cujo tamanho é determinado a priori; as informações necessárias são determinadas pelos elementos selecionados.
Amostragem sequencial
Uma amostra formada com base em uma série de decisões sequenciais. Se, após considerar uma amostra pequena, o resultado for inconclusivo, considera-se uma amostra maior; se esta etapa não levar a um resultado, o tamanho da amostra aumenta novamente, etc. Assim, em cada etapa, é tomada uma decisão sobre se o resultado obtido pode ser considerado suficientemente convincente.

Deve-se lembrar que os tipos básicos de amostras podem ser combinados para formar planos de amostragem mais complexos. Se você aprender seus tipos iniciais básicos, será mais fácil lidar com combinações mais complexas.

Seleções determinísticas

Como já mencionado, ao selecionar elementos de uma amostra determinística, as estimativas ou decisões privadas desempenham um papel decisivo. Às vezes, essas estimativas vêm do pesquisador e, em outros casos, a seleção dos elementos da população é dada à equipe de campo. Como os elementos não são selecionados mecanicamente, torna-se impossível determinar a probabilidade de inclusão de um elemento arbitrário na amostra e, consequentemente, o erro amostral. O desconhecimento do erro devido ao procedimento de amostragem escolhido impede que os pesquisadores avaliem a precisão de suas estimativas.

Amostras não representativas (conveniência)

Amostras não representativas (conveniência) por vezes referido como aleatório, uma vez que a seleção dos elementos da amostra é realizada de forma “aleatória” - são selecionados os elementos que são ou parecem ser os mais acessíveis durante o período de seleção.

Nossa vida diária está repleta de exemplos de tais seleções. Conversamos com amigos e, com base em suas reações e posições, tiramos conclusões sobre as predileções políticas predominantes na sociedade; uma estação de rádio local incentiva as pessoas a expressarem sua opinião sobre algum assunto controverso, sua opinião é interpretada como prevalecente; pedimos a cooperação de voluntários e trabalhamos com aqueles que se voluntariam para nos ajudar. O problema com amostras de conveniência é óbvio - não podemos ter certeza de que amostras desse tipo realmente representem a população-alvo. Ainda podemos duvidar que as opiniões de nossos amigos reflitam corretamente as visões políticas predominantes na sociedade, mas muitas vezes estamos muito ansiosos para acreditar que amostras maiores, selecionadas dessa maneira, sejam representativas. Vamos mostrar a falácia de tal suposição com um exemplo.
Há alguns anos, uma das emissoras de televisão locais da cidade onde mora o autor deste livro realizava diariamente uma pesquisa de opinião pública sobre temas de interesse da comunidade local. As pesquisas, chamadas "The Madison Pulse", foram conduzidas da seguinte forma. Todas as noites, durante o noticiário das seis, a emissora fazia uma pergunta aos telespectadores sobre um assunto polêmico específico, para o qual era necessário dar uma resposta positiva ou negativa.

No caso de resposta positiva, era necessário ligar, no caso de resposta negativa, para outro número de telefone. O número de votos "a favor" e "contra" foi contabilizado automaticamente. O noticiário das dez horas relatou os resultados da pesquisa por telefone. Todas as noites entre 500 e 1000 pessoas ligavam para o estúdio para expressar sua posição sobre este ou aquele assunto; o comentarista de televisão interpretou os resultados da pesquisa como a opinião predominante na sociedade.

Amostra não representativa (conveniência)
Às vezes chamado de aleatório, porque a seleção dos elementos da amostra é realizada de maneira “aleatória” - são selecionados os elementos que são ou parecem ser os mais acessíveis durante o período de seleção.

Em um dos episódios de seis horas, os espectadores fizeram a seguinte pergunta: "Você não acha que a idade para beber em Madison deveria ser reduzida para 18?" A habilitação legal existente correspondia a 21 anos. O público reagiu a essa pergunta com uma atividade extraordinária - quase 4.000 pessoas ligaram para o estúdio naquela noite, das quais 78% eram a favor da redução do limite de idade. Parece claro que uma amostra de 4.000 "deve ser representativa" de uma comunidade de 180.000. Nada disso. Como você deve ter adivinhado, certas faixas etárias estavam mais interessadas em um resultado conhecido do que outras. Assim, não é de estranhar que na discussão desta questão, que decorreu algumas semanas depois, se tenha verificado que, durante o tempo atribuído ao inquérito, os alunos actuaram em concertação. Eles ligaram para a televisão por sua vez, cada um várias vezes. Assim, nem o tamanho da amostra nem o percentual de defensores da liberalização da lei foi algo surpreendente. A amostra não foi representativa.

O simples aumento do tamanho da amostra não a torna representativa. A representatividade da amostra é assegurada não pelo tamanho, mas pelo procedimento adequado de seleção dos elementos. Quando os participantes da pesquisa são selecionados voluntariamente ou os itens da amostra são selecionados com base em sua disponibilidade, o plano de amostragem não garante a representatividade da amostra. Evidências empíricas sugerem que amostras escolhidas por conveniência raramente são representativas (independentemente de seu tamanho). As pesquisas por telefone, que consideram 800 a 900 votos, são a forma mais comum de amostras grandes, mas não representativas.

Amostragem intencional
Amostragem determinística (direcionada), cujos elementos são selecionados manualmente; são selecionados aqueles elementos que, na opinião do pesquisador, atendem aos objetivos da pesquisa.
Amostragem intencional, dependendo da capacidade do pesquisador em definir o conjunto inicial de respondentes com as características desejadas; em seguida, esses entrevistados são usados ​​como informantes que determinam a seleção adicional de indivíduos.

Infelizmente, muitas pessoas tratam os resultados de tais pesquisas com confiança. Um dos exemplos mais típicos do uso de amostras não representativas na pesquisa de marketing internacional é a pesquisa de determinados países com base em uma amostra composta por estrangeiros que vivem atualmente no território do país que iniciou a pesquisa (por exemplo, escandinavos que vivem em os Estados Unidos). Embora tais amostras possam lançar alguma luz sobre certos aspectos da população em questão, deve-se lembrar que esses indivíduos geralmente representam uma elite "americanizada", cuja conexão com seu próprio país pode ser bastante arbitrária. O uso de amostras não representativas não é recomendado para pesquisas descritivas ou causais. Eles são aceitáveis ​​apenas em pesquisas exploratórias destinadas a testar certas ideias ou ideias, mas mesmo neste caso é preferível usar amostras deliberadas.

Seleções intencionais

Amostras intencionais são algumas vezes chamadas de desfocado; seus elementos, que, na opinião do pesquisador, atendem aos objetivos do estudo, são selecionados manualmente. Procter & Gamble usou esse método ao exibir anúncios para pessoas de 13 a 17 anos que moram perto de sua sede em Cincinnati. A divisão de alimentos e bebidas da empresa contratou esse grupo de adolescentes para servir como uma espécie de amostra de consumo. Trabalhando 10 horas por semana em troca de US$ 1.000 e indo a um show, eles assistiam a comerciais de televisão, visitavam supermercados com gerentes da empresa para ver expositores de produtos, testaram novos produtos e discutiram o comportamento de compra. Ao selecionar representantes para a amostra por meio de um processo de “contratação” em vez de aleatoriamente, uma empresa pode se concentrar em características que considera úteis, como a capacidade de um adolescente se expressar com clareza, sob o risco de que suas opiniões não sejam representativas de sua faixa etária .

Como já mencionado, a característica distintiva da amostragem deliberada é a seleção direcional de seus elementos. Em alguns casos, os itens da amostra são selecionados não porque sejam representativos, mas porque podem fornecer aos pesquisadores informações de seu interesse. Quando o tribunal se orienta pelo depoimento de um perito, ele, em certo sentido, recorre ao uso de uma seleção deliberada. Posição semelhante pode prevalecer no desenvolvimento de projetos de pesquisa. Durante o estudo inicial da questão, o pesquisador está principalmente interessado em determinar as perspectivas para o estudo, o que determina a seleção dos elementos da amostra.

Amostragem de bola de neveé um tipo de amostragem deliberada usada ao lidar com tipos específicos de populações. Essa amostra depende da habilidade do pesquisador em especificar um conjunto inicial de respondentes com as características desejadas. Esses entrevistados são então usados ​​como informantes para determinar uma seleção adicional de indivíduos.

Imagine, por exemplo, que uma empresa queira avaliar a necessidade de um produto que permita que surdos se comuniquem pelo telefone. Os pesquisadores podem começar a desenvolver esse problema identificando figuras-chave na comunidade surda; este último poderia nomear outros membros do grupo que concordassem em participar da pesquisa. Com essa tática, a amostra cresce como uma bola de neve.

Enquanto o pesquisador está nos estágios iniciais de resolução de problemas, quando as perspectivas e possíveis limitações da pesquisa planejada estão sendo determinadas, o uso da amostragem intencional pode ser muito eficaz. Mas em nenhum caso devemos esquecer as fragilidades desse tipo de amostra, pois ela também pode ser utilizada pelo pesquisador em estudos descritivos ou causais, que não tardarão a afetar a qualidade de seus resultados. Um exemplo clássico desse esquecimento é o índice de preços ao consumidor (“IPC”). Como Südman aponta ( Sudman): “O IPC é determinado apenas para 56 cidades e regiões metropolitanas, cuja seleção também é influenciada pelo fator político. Na verdade, essas cidades só podem representar a si mesmas, enquanto o índice é chamado índice de preços ao consumidor para moradores da cidade que ganham salários por hora*, e funcionários e aparece para a maioria das pessoas como um índice que reflete o nível de preços em qualquer área dos Estados Unidos. A escolha dos pontos de venda também é feita de forma não aleatória, pelo que a estimativa de um possível erro de amostragem torna-se impossível» (grifos nossos) 2 .

* Ou seja, trabalhadores. - Observação. por.

Amostras de cota

O terceiro tipo de amostragem determinística - amostras de cota; sua representatividade conhecida é alcançada ao incluir nele a mesma proporção de elementos que possuem certas características que na população pesquisada (ver "Janela de pesquisa 15.1"). Como exemplo, considere tentar criar uma amostra representativa de estudantes que vivem no campus. Se não houver um único aluno finalista em uma determinada amostra de 500 indivíduos, teremos o direito de duvidar de sua representatividade e validade de aplicar os resultados obtidos nesta amostra à população em estudo. Ao trabalhar com amostragem proporcional, o pesquisador pode garantir que a proporção de graduandos na amostra corresponda à sua proporção no total de alunos.

Suponha que um pesquisador conduza um estudo seletivo de estudantes universitários, enquanto ele está interessado no fato de que a amostra reflete não apenas sua pertença a um ou outro gênero, mas também sua distribuição por cursos. Seja o número total de alunos 10.000: 3.200 calouros, 2.600 alunos do segundo ano, 2.200 alunos do terceiro ano e 2.000 alunos do quarto ano; dos quais 7.000 meninos e 3.000 meninas. Para uma amostra de 1.000, o plano de amostragem proporcional requer 320 calouros, 260 alunos do segundo ano, 220 alunos do terceiro ano e 200 graduados, 700 meninos e 300 meninas. O pesquisador pode implementar esse plano dando a cada entrevistador uma determinada cota, que determinará quais alunos ele deve contatar.

Amostragem de cotas Uma amostra determinística, selecionada de forma que a proporção de elementos amostrais com determinadas características corresponda aproximadamente à proporção dos mesmos elementos na população em estudo; cada trabalhador de campo recebe uma cota que determina as características da população com a qual deve entrar em contato.

Um entrevistador que deve realizar 20 entrevistas pode ser instruído a perguntar:

            • seis alunos do primeiro ano - cinco meninos e uma menina;
            • seis alunos do segundo ano - quatro meninos e duas meninas;
            • quatro alunos do terceiro ano - três meninos e uma menina;
            • quatro alunos do quarto ano - dois meninos e duas meninas.

Note-se que a seleção de elementos amostrais específicos não é determinada pelo plano de pesquisa, mas pela escolha do entrevistador, que é chamado a cumprir apenas as condições estabelecidas pela cota: entrevistar cinco calouros, um calouro etc.

Observe também que essa cota reflete com precisão a distribuição de gênero da população estudantil, mas distorce um pouco a distribuição dos alunos entre os cursos; 70% (14 de 20) entrevistas são com meninos, mas apenas 30% (6 de 20) com alunos do primeiro ano, enquanto eles representam 32% do número total de alunos. A cota alocada para cada entrevistador individual pode não refletir, e geralmente não reflete a distribuição das características de controle na população – apenas a amostra final deve ser proporcional.

Deve-se lembrar que a amostragem proporcional depende mais de atitudes ou julgamentos pessoais e subjetivos do que de um procedimento de amostragem objetiva. Além disso, em contraste com a amostragem deliberada, o julgamento pessoal aqui não pertence ao desenvolvedor do projeto, mas ao entrevistador. Coloca-se a questão de saber se amostras proporcionais podem ser consideradas representativas, mesmo que reproduzam a proporção de componentes inerentes à população que possuem certas características de controle. Nesse sentido, três observações precisam ser feitas.

Primeiro, a amostra pode ser muito diferente da população em algumas outras características importantes, o que pode ter um sério impacto no resultado. Por exemplo, se o estudo é dedicado ao problema do preconceito racial entre estudantes, não pode ser indiferente a circunstância de onde os respondentes vieram: da cidade ou do campo. Como a cota para a característica "da cidade/rural" não foi designada, uma representação precisa dessa característica torna-se improvável. É claro que existe essa alternativa: definir cotas para todas as características potencialmente significativas. No entanto, um aumento no número de características de controle leva a uma complicação da especificação. Isso, por sua vez, complica - e às vezes até impossibilita - a seleção dos elementos da amostra e, em qualquer caso, leva ao aumento do preço. Se, por exemplo, a afiliação urbana ou rural e o status socioeconômico também forem relevantes para o estudo, o entrevistador pode ter que procurar um aluno do primeiro ano que seja urbano e de classe alta ou média. Concordo que encontrar apenas um calouro do sexo masculino é muito mais fácil.

Em segundo lugar, é muito difícil garantir que esta amostra seja realmente representativa. Claro, você pode verificar a amostra para ver se a distribuição das características que não estão incluídas no controle, sua distribuição na população. No entanto, tal teste só pode levar a conclusões negativas. É possível revelar apenas a divergência de distribuições. Se as distribuições da amostra e da população para cada uma dessas características se repetirem, existe a possibilidade de a amostra diferir da população em alguma outra característica não especificada explicitamente.

E finalmente, em terceiro lugar. Os entrevistadores, sendo deixados por conta própria, são propensos a certas ações. Eles muitas vezes recorrem a questionar seus amigos. Uma vez que muitas vezes acabam por ser como os próprios entrevistadores, existe o perigo de erro. Evidências da Inglaterra sugerem que as amostras de cotas tendem a:

  1. exagero do papel dos elementos mais acessíveis;
  2. minimizar o papel das pequenas famílias;
  3. exagero do papel das famílias com crianças;
  4. minimizar o papel dos trabalhadores industriais;
  5. menosprezar o papel daqueles com rendas mais altas e mais baixas;
  6. minimizar o papel dos cidadãos com baixa escolaridade;
  7. minimizando o papel das pessoas que ocupam uma posição social inferior.
Os entrevistadores que selecionam cotas predeterminadas parando transeuntes aleatórios provavelmente se concentrarão em áreas com um grande número de entrevistados em potencial, como shopping centers, estações ferroviárias e aeroportos, entradas de grandes supermercados e similares. Essa prática leva a uma sobrerrepresentação dos grupos de pessoas que visitam esses lugares com mais frequência. Quando as visitas domiciliares são necessárias, os entrevistadores geralmente são motivados pela conveniência.
Por exemplo, eles podem realizar pesquisas apenas durante o dia, o que leva a uma subestimação da opinião dos trabalhadores. Entre outras coisas, eles não entram em prédios em ruínas e, via de regra, não sobem aos andares superiores de prédios que não possuem elevadores.

Dependendo das especificidades do problema em estudo, essas tendências podem levar a vários tipos de erros, enquanto corrigi-los na fase de análise dos dados parece ser muito, muito difícil. Por outro lado, com uma seleção objetiva dos elementos amostrais, os pesquisadores têm à sua disposição algumas ferramentas que permitem simplificar o procedimento de avaliação da representatividade de uma determinada amostra. Ao analisar o problema da representatividade de tais amostras, o pesquisador considera não tanto a composição da amostra quanto o procedimento de seleção de seus elementos.

Janela de Pesquisa: Brilhante! Mas quem vai ler?

Todos os anos, os anunciantes gastam milhões de dólares em anúncios que aparecem nas páginas de inúmeras publicações, desde a Era da Publicidade até o Yankee. Uma certa avaliação do texto e da imagem pode ser feita antes de sua publicação, como se costuma dizer, em casa, em uma agência de publicidade; ele não é realmente testado e julgado até que o anúncio seja publicado, cercado por dezenas de anúncios igualmente cuidadosamente elaborados competindo pela atenção do leitor.

Companhia Amido Roper em todo o mundo avalia a legibilidade de anúncios colocados em revistas e jornais de consumo, negócios, comércio e profissionais. Os resultados da pesquisa são levados ao conhecimento de anunciantes e agências - é claro, por uma taxa apropriada. Como os anunciantes se esforçam todos os dias para transmitir seus anúncios ao consumidor, a empresa Amido decidiu criar uma amostra que desse aos assinantes informações oportunas e precisas sobre a eficácia da publicidade. Todos os anos a empresa Amido entrevistou mais de 50.000 pessoas, considerando cerca de 20.000 anúncios. Cerca de 500 publicações individuais foram estudadas anualmente.

Starch utilizou amostragem proporcional, com um mínimo de 100 leitores de um gênero e 100 leitores do outro gênero. Starch concluiu que, com esse tamanho de amostra, os principais desvios no nível de legibilidade se estabilizaram. Leitores maiores de 18 anos foram entrevistados pessoalmente, e todas as publicações foram consideradas, exceto aquelas destinadas a populações especiais (digamos, meninas da idade apropriada foram entrevistadas para avaliar as publicações da revista Seventeen).

Ao realizar pesquisas, a área de distribuição de uma determinada publicação foi levada em consideração. Digamos que o estudo da revista Los Angeles tenha analisado os leitores que vivem no sul da Califórnia. "Tempo" foi estudado em todo o país. A pesquisa foi dedicada a edições individuais da revista e foi realizada em 20 a 30 cidades ao mesmo tempo.

Cada entrevistador recebeu uma pequena cota de entrevistas, que serviu para minimizar a variação dos resultados da pesquisa. Os questionários foram distribuídos entre pessoas de diferentes profissões e idades com diferentes rendas. Cada um desses estudos tornou possível apresentar posições a um público bastante amplo. Ao considerar uma série de publicações profissionais, empresariais e industriais, as especificidades de sua assinatura e distribuição também foram levadas em consideração. As listas de assinaturas dedicadas a publicações de circulação bastante restrita permitiram selecionar respondentes aceitáveis.

Em cada pesquisa, os entrevistadores pediam aos entrevistados que navegassem pela publicação e perguntavam se haviam notado algum anúncio. Se a resposta fosse sim, o registrador fazia uma série de perguntas para avaliar o grau de aceitação do anúncio.

Essa avaliação pode ser tripla:

  • Preste atenção: aqueles que já prestaram atenção ao próprio fato do aparecimento de tal anúncio.
  • Conhecido: quem se lembrou de alguma parte do anúncio, que tratasse da marca ou do anunciante anunciado.
  • Ler: pessoas que leram pelo menos metade do anúncio.

Após examinar todos os anúncios, os entrevistadores registraram as principais informações de classificação: sexo, idade, ocupação, estado civil, nacionalidade, renda, tamanho da família e composição familiar, o que permitiu a tabulação cruzada do grau de interesse do leitor.

Quando usados ​​corretamente, os dados da empresa Amido permitem que anunciantes e agências identifiquem tipos de esquemas de publicidade malsucedidos e bem-sucedidos que atraem e prendem a atenção do leitor. Informações desse tipo são extremamente valiosas para anunciantes que estão principalmente interessados ​​na eficácia de sua campanha publicitária.

Fonte: Roper Starch Worldwide, Mamaronek, NY 10543.

Amostras de probabilidade

O pesquisador pode determinar a probabilidade de incluir qualquer elemento da população na amostra probabilística, uma vez que a seleção de seus elementos é realizada com base em algum processo objetivo e não depende dos caprichos e predileções do pesquisador ou do trabalhador de campo. Como o procedimento de seleção de elementos é objetivo, o pesquisador pode avaliar a confiabilidade dos resultados obtidos, o que era impossível no caso de amostras determinísticas, por mais cuidadosa que tenha sido a seleção dos elementos desta última.

Não se deve pensar que as amostras probabilísticas são sempre mais representativas do que as determinísticas. De fato, uma amostra determinística também pode ser mais representativa. A vantagem das amostras probabilísticas é que elas permitem uma estimativa do erro amostral potencial. Se o pesquisador trabalha com uma amostra determinística, ele não possui um método objetivo para avaliar sua adequação aos objetivos do estudo.

Amostragem aleatória simples

A maioria das pessoas se depara com amostras aleatórias simples de uma forma ou de outra, seja como parte de um curso de estatística no instituto, ou lendo sobre os resultados de estudos relevantes em jornais ou revistas. Em uma amostra aleatória simples, cada elemento incluído na amostra tem a mesma probabilidade dada de estar entre os elementos em estudo, e qualquer combinação de elementos na população original pode se tornar uma amostra. Por exemplo, se quisermos fazer uma amostra aleatória simples de todos os alunos matriculados em uma determinada faculdade, basta fazer uma lista de todos os alunos, atribuir um número a cada nome e usar um computador para selecionar aleatoriamente um determinado número de elementos.

População

População
Um conjunto de elementos que satisfazem certas condições especificadas; também chamada de população do estudo (alvo).
Parâmetro
Uma determinada característica ou indicador da população geral ou estudada.

Geral, ou estudado, definidoé a coleção da qual a seleção é feita. Essa população (população) pode ser descrita por uma série de parâmetros específicos que são características da população geral, cada um dos quais é um determinado indicador quantitativo que distingue uma população da outra.

Imagine que a população estudada seja toda a população adulta de Cincinnati. Vários parâmetros podem ser usados ​​para descrever essa população: idade mediana, proporção da população com ensino superior, nível de renda, etc. Observe que todos esses indicadores têm um determinado valor fixo. Claro, podemos calculá-los realizando um censo completo da população em estudo. Normalmente, não contamos com a qualificação, mas com a amostra que selecionamos e usamos os valores obtidos durante a observação seletiva para determinar os parâmetros desejados da população.

Ilustramos o que foi dito dado na Tabela. 15.1 um exemplo de uma população hipotética de 20 pessoas. Trabalhar com uma pequena população hipotética como essa tem várias vantagens. Primeiro, o pequeno tamanho da amostra facilita o cálculo dos parâmetros populacionais que podem ser usados ​​para descrevê-la. Em segundo lugar, este volume permite entender o que pode acontecer quando um determinado plano de amostragem é adotado. Ambos os recursos facilitam a comparação dos resultados da amostra com o valor "verdadeiro" e, neste caso, conhecido da população, o que não é o caso da situação típica em que o valor real da população é desconhecido. A comparação da avaliação com o valor "verdadeiro" neste caso adquire uma clareza especial.

Suponha que queremos estimar, a partir de dois itens selecionados aleatoriamente, a renda média dos indivíduos da população original. A renda média será seu parâmetro. Para estimar esse valor médio, que designamos como μ, devemos dividir a soma de todos os valores pelo seu número:

Média da população μ = Soma dos elementos da população / Número de elementos.

No nosso caso, os cálculos dão:

População derivada

População derivada consiste em todas as amostras possíveis que podem ser selecionadas da população geral de acordo com um determinado plano de amostragem (plano de amostragem). Estatisticasé uma característica, ou indicador, da amostra. O valor estatístico da amostra é usado para estimar um determinado parâmetro populacional. Amostras diferentes fornecem estatísticas ou estimativas diferentes para o mesmo parâmetro populacional.

População derivada
O conjunto de todas as amostras distinguíveis possíveis que podem ser selecionadas da população geral de acordo com um determinado plano de amostragem. Estatística Uma característica ou medida de uma amostra.

Considere o conjunto derivado de todas as amostras possíveis que podem ser selecionadas de nossa população hipotética de 20 indivíduos por um plano de amostragem que assume que o tamanho da amostra é n=2 pode ser obtido por seleção aleatória não repetitiva.

Suponhamos por um momento que os dados para cada unidade da população - no nosso caso, o nome e a renda de um indivíduo - sejam escritos em círculos, após o que sejam colocados em uma jarra e misturados. O pesquisador retira um círculo do jarro, anota as informações dele e o coloca de lado. Ele faz o mesmo com a segunda caneca tirada do jarro. Em seguida, o pesquisador devolve as duas canecas ao jarro, mistura seu conteúdo e repete a mesma sequência de ações. Na tabela. 15.2 mostra os possíveis resultados do procedimento nomeado. Para 20 círculos, 190 dessas combinações de pares são possíveis.

Para cada combinação, você pode calcular a renda média. Digamos para amostragem AB (k = 1)

k-e Média da Amostra = Soma das Amostras / Número de Amostras =

Na fig. 15.4 mostra a estimativa da renda média para toda a população e a quantidade de erro para cada estimativa para as amostras k = 25, 62.108.147 e 189 .

Antes de passar a considerar a relação entre a renda média amostral (estatística) e a renda média populacional (um parâmetro que precisa ser estimado), vamos dizer algumas palavras sobre a população derivada. Primeiro, na prática, não compilamos agregados desse tipo. Exigiria muito tempo e esforço. O praticante está limitado a compilar apenas uma amostra do tamanho necessário. O pesquisador usa conceito população derivada e o conceito associado de distribuição amostral na formulação das conclusões finais.

Como será mostrado abaixo. Em segundo lugar, deve-se lembrar que uma população derivada é definida como a totalidade de todas as diferentes amostras possíveis que podem ser selecionadas da população geral de acordo com um determinado plano de amostragem. Quando qualquer parte do plano de amostragem é alterada, a população derivada também muda. Assim, se, ao escolher os círculos, o pesquisador devolver o primeiro dos discos retirados ao jarro antes de retirar o segundo, o conjunto derivado será incluído.

amostras AA, BB, etc. Se o número de amostras não repetidas for 3 em vez de 2, haverá amostras do tipo ABC, e serão 1140 delas, não 190, como no caso anterior. Quando a seleção aleatória simples é alterada para qualquer outro método de determinação dos elementos da amostra, a população derivada também muda.

Também deve ser lembrado que a seleção de uma amostra de um determinado tamanho da população geral é equivalente à seleção de um elemento (1 em 190) da população derivada. Este fato nos permite tirar muitas conclusões estatísticas.

Média da amostra e média geral

Podemos igualar a média da amostra com a verdadeira média da população? Em qualquer caso, partimos do fato de que eles estão interligados. No entanto, também acreditamos que haverá um erro. Por exemplo, pode-se supor que as informações recebidas dos usuários da Internet diferirão significativamente dos resultados de uma pesquisa da população "comum". Em outros casos, podemos assumir uma correspondência bastante precisa, caso contrário, não poderíamos usar o valor da amostra para estimar o valor geral. Mas quão grande pode ser o erro que cometemos ao fazê-lo?

Vamos somar todas as médias de amostra contidas na Tabela. 15.2, e divida a soma resultante pelo número de amostras, ou seja, vamos calcular a média das médias.
Teremos o seguinte resultado:

Coincide com o valor médio da população em geral. Eles dizem que neste caso estamos lidando com estatística imparcial.

Uma estatística é chamada imparcial se sua média em todas as amostras possíveis for igual ao parâmetro populacional estimado. Observe que não estamos falando de um valor específico aqui. A estimativa parcial pode estar muito longe do valor real - tome, por exemplo, as amostras AB ou ST. Em alguns casos, o verdadeiro valor da população pode não ser alcançável ao considerar qualquer amostra possível, mesmo que as estatísticas sejam imparciais. No nosso caso, este não é o caso: um número de amostras possíveis - por exemplo, AT - fornece uma média amostral igual à média populacional verdadeira.

Faz sentido considerar a distribuição dessas estimativas amostrais e, em particular, a relação entre essa dispersão de estimativas e a variação do nível de renda da população. A variância da população geral é usada como medida de variação. Para determinar a variância da população geral, devemos calcular o desvio de cada valor da média, somar os quadrados de todos os desvios e dividir a soma resultante pelo número de termos. Denote por a^ a variância da população geral. Então:

Variação da população σ 2 = Soma das diferenças quadradas de cada elemento
população e média da população / Número de elementos da população =

Dispersão valor médio nível de renda pode ser definido da mesma maneira. Ou seja, podemos encontrá-lo determinando os desvios de cada média em relação à média total, somando os quadrados dos desvios e dividindo a soma resultante pelo número de termos.

Também podemos definir a variância do nível médio de renda de outra forma, utilizando a variância dos níveis de renda da população geral, pois existe uma relação direta entre os dois. Para ser mais preciso, nos casos em que a amostra representa apenas uma pequena parte da população, a variância da média amostral é igual à variância da população dividida pelo tamanho da amostra:

onde σ x 2 é a variância do valor médio da amostra do nível de renda, σ 2 é a variância do nível de renda na população geral, n- tamanho da amostra.

Agora vamos comparar a distribuição dos resultados com a distribuição de uma característica quantitativa na população geral. A Figura 15.5 mostra que a distribuição da característica populacional mostrada na caixa A é multi-vértice (cada um dos 20 valores aparece apenas uma vez) e é simétrica em relação à verdadeira média populacional de 9400.

Distribuição de amostras
A distribuição dos valores de uma determinada estatística calculada para todas as possíveis amostras distinguíveis que podem ser extraídas da população sob um determinado plano de amostragem.

A distribuição das notas apresentadas no campo B é baseada nos dados da Tabela. 15.3, que, por sua vez, foi compilado atribuindo valores da Tabela. 15.2 a um ou outro grupo, consoante a sua dimensão, com posterior apuramento do seu número no grupo. O campo B é um histograma tradicional, considerado logo no início do curso de estudos de estatística, que representa distribuição de amostras Estatisticas. Notamos de passagem o seguinte: o conceito de distribuição amostral é o conceito mais importante da estatística, é a pedra angular da construção das inferências estatísticas. De acordo com a distribuição amostral conhecida das estatísticas estudadas, podemos concluir sobre o parâmetro correspondente da população geral. Se apenas se sabe que a estimativa amostral muda de amostra para amostra, mas a natureza dessa mudança é desconhecida, torna-se impossível determinar o erro amostral associado a essa estimativa. Como a distribuição amostral de uma estimativa descreve como ela muda de amostra para amostra, ela fornece uma base para determinar a validade de uma estimativa amostral. É por esta razão que um projeto de amostragem probabilística é tão importante para a inferência estatística.

Dadas as probabilidades conhecidas de incluir cada membro da população na amostra, os entrevistadores podem encontrar a distribuição amostral de várias estatísticas. É nessas distribuições que os pesquisadores confiam – seja a média amostral, fração amostral, variância amostral ou alguma outra estatística – ao estender o resultado de uma observação amostral para a população em geral. Observe também que para amostras de tamanho 2, a distribuição das médias amostrais é unimodal e simétrica em relação à média verdadeira.

Então mostramos que:

  1. A média de todas as médias amostrais possíveis é igual à média geral.
  2. A variância das médias amostrais está relacionada de alguma forma com a variância geral.
  3. A distribuição das médias amostrais é unimodal, enquanto a distribuição dos valores de um atributo quantitativo na população geral é multimodal.

Teorema do limite central

Um teorema dizendo que para amostras aleatórias simples de tamanho n, isolado da população geral com a média geral μ e variância σ 2 , em geral n a distribuição da média amostral x aproxima-se da normal com um centro igual a μ e uma variância σ 2 . A precisão desta aproximação aumenta com o n.

Teorema do limite central. A distribuição unimodal das estimativas pode ser considerada como uma manifestação do teorema do limite central, que afirma que para amostras aleatórias simples de volume n, selecionado da população geral com a verdadeira média μ e variância σ 2 , para grandes n a distribuição das médias da amostra se aproxima do normal com um centro igual à média verdadeira e uma variância igual à razão da variância da população para o tamanho da amostra, ou seja:

Essa aproximação se torna cada vez mais precisa à medida que n. Lembre-se disso. Independentemente do tipo de população, a distribuição das médias amostrais será normal para amostras de tamanho suficientemente grande. O que significa um volume suficientemente grande? Se a distribuição de valores de um atributo quantitativo da população em geral for normal, então a distribuição das médias amostrais para amostras com um volume de n=1. Se a distribuição de uma variável (atributo quantitativo) na população for simétrica, mas não normal, amostras de tamanho muito pequeno darão uma distribuição normal das médias amostrais. Se a distribuição de um atributo quantitativo da população em geral apresenta uma assimetria pronunciada, há necessidade de amostras maiores. E, no entanto, a distribuição da média amostral só pode ser considerada normal se estivermos lidando com uma amostra de tamanho suficiente.

Para construir conclusões usando uma curva normal, não é necessário proceder da condição de normalidade da distribuição de valores de um atributo quantitativo da população em geral. Em vez disso, contamos com o teorema do limite central e, dependendo da distribuição da população, determinamos um tamanho de amostra que nos permita trabalhar com uma curva normal. Felizmente, a distribuição normal das estatísticas é fornecida por amostras de tamanho relativamente pequeno - Fig. 15.6 demonstra claramente esta circunstância. Estimativas de intervalo de confiança. O acima pode nos ajudar a tirar certas conclusões sobre a média geral? De fato, na prática, selecionamos apenas uma, e não todas as amostras possíveis de um determinado tamanho e, com base nos dados obtidos, tiramos certas conclusões sobre o grupo-alvo.

Como isso acontece? Como você sabe, com uma distribuição normal, uma certa porcentagem de todas as observações tem um certo desvio padrão; digamos que 95% das observações se encaixam dentro de ±1,96 desvios padrão da média. A distribuição normal das médias amostrais, à qual pode ser aplicado o teorema do limite central, não é exceção nesse sentido. A média de tal distribuição amostral é igual à média geral μ, e seu desvio padrão é chamado de erro padrão da média:

Acontece que:

  • 68,26% das médias da amostra se desviam da média geral em não mais que ± σ x ;
  • 95,45% das médias da amostra se desviam da média geral em não mais que ±σ x ;
  • 99,73% das médias da amostra se desviam da média geral em não mais que ± σ x ,

ou seja, uma certa proporção de médias da amostra dependendo do valor escolhido z será incluído no intervalo determinado pelo valor z. Esta expressão pode ser reescrita como uma desigualdade:

Média geral - z < Среднее по выборке < Генеральное среднее + z(Erro padrão da média)

assim, a média amostral com uma certa probabilidade está no intervalo, cujos limites são a soma e a diferença do valor médio da distribuição e um certo número de desvios padrão. Essa desigualdade pode ser convertida para a forma:

Média da amostra - z(Erro padrão da média)< Генеральное среднее < Среднее по выборке + z(Erro padrão da média)

Se a razão 15,1 for observada, por exemplo, em 95% dos casos ( z= 1,96), então em 95% dos casos a razão 15,2 também é observada. Nos casos em que a conclusão é baseada em uma única média amostral, usamos a expressão 15.2.

É importante lembrar que a expressão 15.2 não significa que o intervalo correspondente a uma dada amostra deva necessariamente incluir a média geral. O intervalo tem mais a ver com o processo de seleção. O intervalo construído em torno desta média pode ou não incluir a verdadeira média populacional. Nossa confiança na exatidão das conclusões feitas baseia-se no fato de que 95% de todos os intervalos construídos de acordo com o plano de amostragem selecionado conterão a verdadeira média. Acreditamos que nossa amostra pertença a esses 95%.

Para ilustrar esse ponto importante, imagine por um momento que a distribuição das médias amostrais para amostras de tamanho n= 2 em nosso exemplo hipotético é normal. A Tabela 15.4 ilustra graficamente o resultado para as primeiras 10 das 190 amostras possíveis que podem ser selecionadas de acordo com o desenho dado. Observe que apenas 7 de 10 intervalos incluem uma média geral ou verdadeira. A confiança na exatidão da conclusão não se deve a alguma avaliação particular, mas precisamente procedimento estimativas. Este procedimento é tal que para 100 amostras para as quais a média amostral e o intervalo de confiança serão calculados, em 95 casos este intervalo incluirá o verdadeiro valor geral. A precisão desta amostra é determinada pelo procedimento pelo qual a amostra foi formada. Um desenho de amostragem representativo não garante a representatividade de todas as amostras. Os procedimentos de inferência estatística são baseados na representatividade do plano de amostragem, razão pela qual esse procedimento é tão crítico para amostras probabilísticas.

A amostragem probabilística permite avaliar a acurácia dos resultados conforme a proximidade das estimativas produzidas ao valor verdadeiro. Quanto maior o erro padrão das estatísticas, maior o grau de dispersão das estimativas e menor a precisão do procedimento.

Alguns podem se confundir pelo fato de o nível de confiança estar relacionado ao procedimento e não a um determinado valor amostral, mas deve-se lembrar que o valor do nível de confiança da estimativa do valor geral pode ser ajustado pelo pesquisador. Se você não quer correr riscos e tem medo de encontrar um dos cinco intervalos amostrais escolhidos que não inclua a média populacional, você pode escolher um intervalo de confiança de 99% onde apenas um dos cem intervalos amostrais não incluir a média populacional. Além disso, se você puder aumentar o tamanho da amostra, aumentará o grau de confiança no resultado, fornecendo a precisão desejada da estimativa do valor da população. Falaremos sobre isso com mais detalhes no Cap. 17.

O procedimento que estamos descrevendo tem mais um componente, que pode causar certo constrangimento. Ao estimar o intervalo de confiança, três quantidades são usadas: x , z e σx. A média amostral x é calculada a partir dos dados amostrais, zé escolhido com base no nível de confiança desejado. Mas e a raiz do erro quadrático médio da média σ x ? É igual a:

e, portanto, para determiná-lo, precisamos perguntar o desvio padrão do atributo quantitativo da população geral, ou seja, 5. O que fazer nos casos em que o desvio padrão s desconhecido? Este problema não surge por duas razões. Primeiro, geralmente para a maioria das características quantitativas usadas na pesquisa de marketing, a variação muda muito mais lentamente do que o nível da maioria das variáveis ​​de interesse do profissional de marketing. Assim, se o estudo for repetido, podemos usar o valor anterior de s obtido anteriormente nos cálculos. Em segundo lugar, uma vez que a amostra é selecionada e os dados obtidos, podemos estimar a variância da população determinando a variância da amostra. A variância da amostra imparcial é definida como:

Variação da amostra ŝ 2 = Soma dos desvios quadrados da média amostral / (número de itens amostrados -1). Para determinar a variância amostral, primeiro precisamos encontrar a média amostral. Em seguida, são encontradas as diferenças entre cada um dos valores amostrais e a média amostral; essas diferenças são elevadas ao quadrado, somadas e divididas por um número igual ao número de observações da amostra menos um. A variância da amostra não apenas fornece uma estimativa da variância total, mas também pode ser usada para estimar o erro padrão da média. Quando a variância geral σ 2 é conhecida, o erro quadrático médio σ x também é conhecido, porque:

Quando a variância geral é desconhecida, o erro padrão da média só pode ser estimado. Esta estimativa é dada ŝ x , que é igual ao desvio padrão da amostra dividido pela raiz quadrada do tamanho da amostra, ou seja, . A estimativa é determinada da mesma forma que a estimativa do valor verdadeiro foi determinada, mas em vez do desvio padrão geral, o desvio padrão da amostra é substituído na fórmula de cálculo. Então, digamos que para a amostra AB com uma média amostral de 5800:

Assim, ŝ = 283, e

e o espaçamento de 95% é agora

que é menor que o valor anterior.

Na tabela. 15.5 resume as fórmulas de cálculo para várias médias e dispersões, que foram discutidas neste capítulo. Formação de uma amostra aleatória simples. Em nosso exemplo, a seleção dos elementos amostrais foi realizada por meio de um jarro, que continha todos os elementos da população original. Isso nos permitiu visualizar os conceitos de população derivada e distribuição amostral. Não recomendamos o uso de tal método na prática, pois isso aumenta a probabilidade de erro. As canecas podem diferir em tamanho e textura, o que em certos casos pode levar à preferência por uma sobre a outra. A seleção dos participantes da campanha vietnamita, realizada por meio de sorteio, pode servir de exemplo de um erro desse tipo.

A seleção foi realizada puxando discos com datas de nascimento do tambor grande. A televisão transmitiu esse procedimento em todo o país. Infelizmente, os discos foram carregados no tambor de forma sistemática, com as datas de janeiro chegando primeiro e as datas de dezembro por último. Embora o tambor tenha sido submetido a intensa rotação, as datas de dezembro caíram com muito mais frequência do que janeiro. Posteriormente, esse procedimento foi revisado de forma que a probabilidade de tais erros sistemáticos fosse significativamente reduzida. O método preferido para gerar uma amostra aleatória simples é baseado no uso de uma tabela de números aleatórios.

O uso de tal tabela envolve a seguinte sequência de etapas. Primeiro, os elementos da população devem ser atribuídos números consecutivos de 1 a N; em nossa população hipotética para o elemento MAS o número 1 será atribuído ao elemento B- número 2, etc. Em segundo lugar, o número de dígitos na tabela de números aleatórios deve ser o mesmo do número N. Por N= 20 números de dois dígitos serão usados; por N entre 100 e 999 - números de três dígitos, etc. Em terceiro lugar, a posição inicial deve ser determinada aleatoriamente. Podemos abrir a tabela correspondente de números aleatórios e, fechando os olhos, como se costuma dizer, enfiar o dedo nela. Como os números na tabela de números aleatórios estão em ordem aleatória, a posição inicial não importa.

E, finalmente, podemos nos mover em qualquer direção escolhida arbitrariamente - para cima, para baixo ou para o outro lado, selecionando os elementos cujos números corresponderão aos números aleatórios da tabela. Para ilustrar o que foi dito, considere a tabela abreviada de números aleatórios (Tabela 15.6). Na medida em que N= 20, só devemos trabalhar com números de dois dígitos. Nesse sentido, a Tab. 15.6 nos convém perfeitamente. Suponha que tenhamos decidido antecipadamente descer a coluna, a posição inicial está na interseção da décima primeira linha e da quarta coluna, onde está localizado o número 77. Esse número é muito grande e, portanto, deve ser descartado. Os próximos dois números também serão descartados, enquanto o quarto valor 02 será usado, pois 2 é o número do elemento NO.

Os próximos cinco números também serão descartados por serem muito grandes, enquanto o número 05 indicará o elemento E. Então os elementos NO e E se tornará nossa amostra de dois elementos, pela qual julgaremos o nível de renda dessa população. Uma estratégia alternativa também é possível, na qual um programa de computador gerando números aleatórios será usado como base para a seleção. Publicações recentes indicam que os números gerados por tais programas não são completamente aleatórios, o que pode se manifestar de certa forma na construção de modelos matemáticos complexos, mas podem ser utilizados para a maioria das pesquisas de marketing aplicadas. Observe novamente que uma amostra aleatória simples requer a compilação de uma lista numerada sequencial de elementos da população geral.

Em outras palavras, cada membro da população original deve ser identificado. Para algumas populações, isso não é difícil de fazer, por exemplo, em um estudo das 500 maiores corporações americanas, cuja lista é apresentada na revista Fortune. Esta lista já foi compilada, portanto, a formação de uma amostra aleatória simples neste caso não será difícil. Para outras populações iniciais (por exemplo, para todas as famílias que vivem em uma determinada cidade), compilar uma lista geral é extremamente difícil, o que obriga os pesquisadores a recorrer a outros esquemas de pesquisa amostral.

Resumo

Objetivo de aprendizagem 1
Distinguir claramente entre os conceitos de censo (qualificação) e amostragem

Um censo completo da população (população) é chamado qualificado. Amostra conjunto, formado a partir dos elementos selecionados.

Objetivo de aprendizagem 2
Conheça a essência e a sequência das seis etapas implementadas pelos pesquisadores para obter uma amostra populacional

O processo de amostragem é dividido em seis etapas:

  1. atribuição populacional;
  2. determinação da base de amostragem;
  3. escolha do procedimento de seleção;
  4. determinação do tamanho da amostra;
  5. seleção de elementos amostrais;
  6. exame dos elementos selecionados.

Objetivo de aprendizagem 3
Defina o conceito de "quadro de amostragem"

O quadro de amostragem é a lista de itens dos quais a amostra será retirada.

Objetivo de aprendizagem 4
Explique a diferença entre amostragem probabilística e determinística

Em uma amostra probabilística, cada membro da população pode ser incluído com um certo dado diferente de zero probabilidade. As probabilidades de incluir certos membros da população na amostra podem diferir entre si, mas a probabilidade de incluir cada elemento nela é conhecida. Para amostras determinísticas, torna-se impossível estimar a probabilidade de incluir qualquer elemento na amostra. A representatividade de tal amostra não pode ser garantida. Todas as seleções determinísticas são baseadas, em vez disso, em uma posição, julgamento ou preferência pessoal. Tais preferências às vezes podem fornecer boas estimativas das características da população, mas não há como determinar objetivamente a adequação da amostra para a tarefa.

Objetivo de aprendizagem 5
Distinguir entre amostragem de tamanho fixo e amostragem de vários estágios (consecutiva)

Ao trabalhar com amostras de tamanho fixo, o tamanho da amostra é determinado antes do início da pesquisa e a análise dos resultados é precedida pela coleta de todos os dados necessários. Em uma amostra sequencial, o número de elementos selecionados não é conhecido antecipadamente, é determinado com base em uma série de decisões sequenciais.

Objetivo de aprendizagem 6
Explique o que é amostragem deliberada e descreva seus pontos fortes e fracos

Os itens de amostragem intencional são selecionados a dedo e apresentados ao pesquisador conforme apropriado para os propósitos da pesquisa. Assume-se que os elementos selecionados podem dar uma visão completa da população estudada. Enquanto o pesquisador estiver nos estágios iniciais de resolução de problemas, quando as perspectivas e possíveis limitações da pesquisa planejada estiverem sendo determinadas, o uso da amostragem intencional pode ser muito eficaz. Mas em nenhum caso devemos esquecer as fragilidades desse tipo de amostra, pois ela também pode ser utilizada pelo pesquisador em estudos descritivos ou causais, que não tardarão a afetar a qualidade de seus resultados.

Objetivo de aprendizagem 7
Defina o conceito de amostragem por cotas

A amostragem proporcional é selecionada de forma que a proporção de elementos amostrais com determinadas características corresponda aproximadamente à proporção dos mesmos elementos na população em estudo; para isso, cada contador recebe uma cota que determina as características da população com a qual deve entrar em contato.

Objetivo de aprendizagem 8
Explicar o que é um parâmetro em um procedimento de seleção

Parâmetro - uma determinada característica ou indicador da população geral ou estudada; um determinado indicador quantitativo que distingue um conjunto de outro.

Objetivo de aprendizagem 9
Explique o que é um conjunto derivado

A população derivada consiste em todas as amostras possíveis que podem ser selecionadas da população geral de acordo com um determinado plano de amostragem.

Objetivo de aprendizagem 10
Explique por que o conceito de distribuição amostral é o conceito mais importante da estatística.

O conceito de distribuição amostral é a pedra angular da inferência estatística. De acordo com a distribuição amostral conhecida das estatísticas estudadas, podemos concluir sobre o parâmetro correspondente da população geral. Se apenas se sabe que a estimativa amostral muda de amostra para amostra, mas a natureza dessa mudança é desconhecida, torna-se impossível determinar o erro amostral associado a essa estimativa. Como a distribuição amostral de uma estimativa descreve como ela muda de amostra para amostra, ela fornece uma base para determinar a validade de uma estimativa amostral.

Os empíricos são considerados um dos principais meios de estudo das relações e processos sociais. Eles fornecem informações confiáveis, completas e representativas.

Especificidade das técnicas

Empíricos fornecem a obtenção de conhecimento de fixação de fatos. Eles contribuem para o estabelecimento e generalização das circunstâncias por meio do registro indireto ou direto de eventos inerentes às relações, objetos, fenômenos estudados. Os métodos empíricos diferem dos teóricos, pois o assunto da análise é:

  1. Comportamento dos indivíduos e seus grupos.
  2. Produtos da atividade humana.
  3. Ações verbais de indivíduos, seus julgamentos, pontos de vista, opiniões.

Estudos de amostra

O estudo empírico está sempre focado na obtenção de informações objetivas e precisas, dados quantitativos. Nesse sentido, quando realizado, é necessário garantir a representatividade das informações. De acordo com isso, correto conjunto de amostragem. Isso é Isso significa que a seleção deve ser feita de forma que os dados obtidos de um grupo restrito reflitam as tendências que ocorrem na massa geral de respondentes. Por exemplo, ao pesquisar 200-300 pessoas, os dados obtidos podem ser extrapolados para toda a população urbana. Os indicadores do conjunto amostral permitem uma abordagem diferenciada ao estudo dos processos socioeconômicos na região, no país como um todo.

Terminologia

Para melhor compreender as questões relacionadas às pesquisas por amostragem, algumas definições precisam ser esclarecidas. A unidade de observação é a fonte direta de informação. Pode ser um indivíduo, um grupo, um documento, uma organização e assim por diante. A população geral é conjunto de unidades de observação. Todos eles devem ser relevantes para o problema que está sendo estudado. sujeito a análise direta. O estudo é realizado de acordo com os métodos de recolha de informação desenvolvidos. Para determinar essa proporção de todo o conjunto de respondentes, use o conceito de "amostra". Sua propriedade de refletir os parâmetros-chave da massa total de pessoas é chamada de representatividade. Em alguns casos, não há correspondências. Então se fala de um erro de representatividade.

Garantir a representatividade

As questões relacionadas a ele são consideradas em detalhes no âmbito das estatísticas. Os problemas são complexos porque, por um lado, estamos falando em fornecer uma representação quantitativa que dê a população em geral. Isso é significa, em particular, que os grupos de respondentes devem ser representados em um número ótimo. A quantidade deve ser suficiente para uma representação normal. Por outro lado, também significa representação qualitativa. Pressupõe uma certa composição de sujeito, que forma conjunto de amostragem. Isso é significa que, por exemplo, a representatividade não pode ser discutida se forem entrevistados apenas homens ou apenas mulheres, idosos ou jovens. O estudo deve ser realizado dentro de todos os grupos representados.

Característica da amostra

Este termo é considerado em dois aspectos. Em primeiro lugar, é definido como um complexo de elementos do conjunto geral de pessoas cuja opinião está sendo estudada - isso é conjunto de amostragem. Isso é também o processo de criação de uma determinada categoria de respondentes com a representatividade necessária. Na prática, existem vários tipos e tipos de seleção. Vamos considerá-los.

Tipos

Há três deles:

  1. espontâneo conjunto de amostragem. Isso é um conjunto de respondentes selecionados voluntariamente. Ao mesmo tempo, é assegurada a acessibilidade da entrada de unidades da massa total de pessoas em um grupo de estudo específico. A seleção espontânea na prática é usada com bastante frequência. Por exemplo, em pesquisas na imprensa, pelo correio. No entanto, esta abordagem tem uma desvantagem significativa. É impossível representar qualitativamente todo o volume da amostra geral. Esta técnica é aplicada no que diz respeito à economia. Em algumas pesquisas, esta opção é a única possível.
  2. espontâneo conjunto de amostragem. Isso é um dos principais métodos utilizados no estudo. O princípio-chave dessa seleção é fornecer uma oportunidade para cada unidade de observação passar da massa geral de indivíduos para um grupo restrito. Para isso, são utilizados diferentes métodos. Por exemplo, pode ser uma loteria, seleção mecânica, uma tabela de números aleatórios.
  3. Amostragem estratificada (cotas). Baseia-se na formação de um modelo qualitativo da massa total de respondentes. Em seguida, é realizada a seleção das unidades na população amostral. Por exemplo, é realizado de acordo com a idade ou sexo, de acordo com grupos populacionais e assim por diante.

Tipos

Existem as seguintes seleções:

Adicionalmente

As amostras também podem ser dependentes e independentes. No primeiro caso, o procedimento do experimento e os resultados que serão obtidos durante ele para um grupo de respondentes têm certo impacto no outro. Assim, amostras independentes não implicam tal impacto. Aqui, no entanto, um ponto importante deve ser observado. Um grupo de sujeitos, em relação ao qual o exame psicológico foi realizado duas vezes (mesmo que tenha sido destinado a estudar diferentes qualidades, características, sinais), por padrão, será considerado dependente.

Seleções probabilísticas

Considere alguns tipos de amostras:

  1. Aleatório. Assume-se a homogeneidade da população total, uma probabilidade da disponibilidade de todos os componentes, bem como a presença de uma lista completa de elementos. Como regra, uma tabela com números aleatórios é usada no processo de seleção.
  2. Mecânico. Esse tipo de amostragem aleatória envolve a ordenação de acordo com um determinado atributo. Por exemplo, por número de telefone, por ordem alfabética, por data de nascimento e assim por diante. O primeiro componente é escolhido aleatoriamente. Em seguida, cada elemento k é selecionado com um passo n. O valor da população total será N=k*n.
  3. Estratificado. Essa amostra é usada quando a população total é heterogênea. Este último é dividido em estratos (grupos). Em cada um deles, a seleção é realizada mecanicamente ou aleatoriamente.
  4. Serial. Os grupos são selecionados aleatoriamente. Dentro deles, os objetos são estudados até o fim.

Seleções incríveis

Eles envolvem amostragem não com base na aleatoriedade, mas em fundamentos subjetivos: tipicidade, acessibilidade, representação igual e assim por diante. As seleções nesta categoria incluem:

Nuance

Uma lista precisa e completa de unidades populacionais é necessária para garantir a representatividade. Os objetos de observação, via de regra, são uma pessoa. A seleção da lista é melhor feita numerando as unidades e usando uma tabela com números aleatórios. Mas o método quase aleatório também é frequentemente usado. Ele assume a seleção da lista de cada n elemento.

Fatores de influência

O volume de uma população é o número de suas unidades. Segundo especialistas, não precisa ser grande. Sem dúvida, quanto maior o número de respondentes, mais preciso é o resultado. No entanto, ao mesmo tempo, um grande volume nem sempre garante o sucesso. Por exemplo, isso acontece quando a matriz total de respondentes é heterogênea. Será considerado homogêneo aquele conjunto onde o parâmetro controlado, por exemplo, o nível de alfabetização, esteja distribuído de maneira uniforme, ou seja, não haja vazios ou condensações. Neste caso, será suficiente entrevistar várias pessoas. Com base nos resultados da pesquisa, será possível concluir que a maioria das pessoas possui um nível normal de alfabetização. Disso decorre que a representatividade da informação é influenciada não por características quantitativas, mas pelas características qualitativas da população - o nível de sua homogeneidade, em particular.

Erros

Eles representam o desvio dos parâmetros médios da população amostral dos valores da massa total de respondentes. Na prática, os erros são determinados por correspondência. Ao pesquisar adultos, geralmente são usados ​​dados de censos, registros estatísticos e resultados de pesquisas anteriores. Os parâmetros de controle geralmente são a comparação dos valores médios das populações (geral e amostral), a determinação do erro de acordo com isso e a redução desse desvio é chamado de controle de representatividade.

descobertas

A pesquisa por amostragem é uma forma de coletar dados sobre as atitudes e o comportamento das pessoas por meio de uma pesquisa com grupos de entrevistados especialmente selecionados. Esta técnica é considerada confiável e econômica, embora exija uma certa técnica. A amostra é a base. Atua como uma certa proporção da massa total de pessoas. A seleção é feita por meio de técnicas especiais e visa obter informações sobre toda a população. Este último, por sua vez, é representado por todos os objetos sociais possíveis ou pelo grupo que será estudado. Muitas vezes, a população é tão grande que seria muito caro e trabalhoso realizar um levantamento de cada um de seus membros. Portanto, um modelo reduzido é usado. A amostra inclui todos aqueles que recebem questionários, que são chamados de respondentes, que, de fato, atuam como objeto de estudo. Simplificando, é composto por muitas pessoas que estão sendo entrevistadas.

Conclusão

Os objetivos da pesquisa são determinados por categorias específicas incluídas na população. Quanto a uma parcela específica da massa total de pessoas, ela é composta por sujeitos incluídos em grupos por meio de cálculos matemáticos. Para a seleção das unidades, é necessária uma descrição do objeto da população inicial. Após determinar o número de sujeitos, determina-se a recepção ou método de formação dos grupos. Os resultados da pesquisa nos permitirão descrever o traço em estudo em relação a todos os representantes da massa geral de pessoas. Como mostra a prática, são realizados principalmente estudos seletivos e não contínuos.

Os estudos estatísticos são muito demorados e caros, por isso surgiu a ideia de substituir a observação contínua por uma seletiva.

O objetivo principal da observação não contínua é obter as características da população estatística em estudo para a parte examinada.

Observação seletiva- este é um método de pesquisa estatística, em que os indicadores generalizantes da população são estabelecidos apenas para uma única parte, com base nas disposições da seleção aleatória.

No método de amostragem, apenas uma determinada parte da população em estudo é estudada, enquanto a população estatística a ser estudada é chamada de população geral.

Uma amostra ou simplesmente uma amostra pode ser chamada de parte das unidades selecionadas da população geral, que serão submetidas à pesquisa estatística.

O valor do método de amostragem: com um número mínimo de unidades em estudo, a pesquisa estatística será realizada em períodos mais curtos de tempo e com o menor custo de recursos e mão de obra.

Na população geral, a proporção de unidades que possuem a característica em estudo é chamada de proporção geral (denotada R), e o valor médio da variável característica estudada é a média geral (denotada X).

Na população amostral, a parcela da característica estudada é chamada de parcela amostral, ou parte (denotada por w), o valor médio na amostra é média da amostra.

Se durante o período da pesquisa forem observadas todas as regras de sua organização científica, o método de amostragem fornecerá resultados bastante precisos e, portanto, é aconselhável usar esse método para verificar os dados de observação contínua.

Este método tem se difundido nas estatísticas estaduais e não departamentais, pois ao estudar o número mínimo de unidades em estudo, permite um estudo minucioso e preciso.

A população estatística estudada é composta por unidades com características variadas. A composição da amostra pode diferir da composição da população geral, esta discrepância entre as características da amostra e da população geral constitui o erro amostral.

Erros inerentes à observação seletiva caracterizam o tamanho da discrepância entre os dados da observação seletiva e toda a população. Os erros que ocorrem durante a amostragem são chamados de erros de representatividade e são divididos em aleatórios e sistemáticos.

Se a população da amostra não reproduzir com precisão toda a população devido à natureza não contínua da observação, isso é chamado de erros aleatórios e seus tamanhos são determinados com precisão suficiente com base na lei dos grandes números e na teoria da probabilidade.

Erros sistemáticos surgem como resultado da violação do princípio de seleção aleatória de unidades populacionais para observação.

2. Tipos e esquemas de seleção

O tamanho do erro de amostragem e os métodos para determiná-lo dependem do tipo e do esquema de seleção.

Existem quatro tipos de seleção de um conjunto de unidades de observação:

1) aleatório;

2) mecânico;

3) típico;

4) serial (aninhado).

seleção aleatória- o método mais comum de seleção em uma amostra aleatória, também é chamado de método de loteria, no qual é preparado um bilhete com um número de série para cada unidade da população estatística.

Em seguida, o número necessário de unidades da população estatística é selecionado aleatoriamente. Nessas condições, cada um deles tem a mesma probabilidade de entrar na amostra, por exemplo, sorteios de prêmios, quando uma certa parte dos números que contabilizam os ganhos é selecionada aleatoriamente do número total de bilhetes emitidos. Nesse caso, todos os números têm a mesma oportunidade de entrar na amostra.

Seleção mecânica- este é um método quando toda a população é dividida em grupos de tamanho homogêneo de forma aleatória, então apenas uma unidade é retirada de cada grupo. Todas as unidades da população estatística estudada são pré-arranjadas em uma determinada ordem, mas dependendo o tamanho da amostra, o número necessário de unidades é selecionado mecanicamente em um determinado intervalo.

Seleção típica - este é um método no qual a população estatística em estudo é dividida de acordo com uma característica essencial e típica em grupos qualitativamente homogêneos, semelhantes, então um certo número de unidades é selecionado aleatoriamente de cada um desse grupo, proporcional à participação do grupo em toda a população.

A seleção típica fornece resultados mais precisos, pois inclui representantes de todos os grupos típicos da amostra.

Seleção serial (aninhamento). Grupos inteiros (séries, ninhos), selecionados aleatoriamente ou mecanicamente, estão sujeitos a seleção. Para cada um desses grupos, séries, observações contínuas são realizadas e os resultados são transferidos para toda a população.

A precisão da amostragem também depende do esquema de seleção. A amostragem pode ser realizada de acordo com o esquema de seleção repetida e não repetida.

Nova seleção. Cada unidade ou série selecionada é devolvida a toda a população e pode ser reamostrada, o chamado esquema de bola devolvida.

Seleção repetitiva. Cada unidade pesquisada é retirada e não devolvida à população, portanto não é re-pesquisada. Este esquema é chamado de bola não devolvida.

A seleção não repetitiva dá resultados mais precisos, pois com o mesmo tamanho de amostra, a observação abrange mais unidades da população estudada.

Seleção combinada pode passar por uma ou mais etapas. Uma amostra é chamada de estágio único se as unidades da população selecionadas uma vez forem submetidas ao estudo.

Uma amostra é chamada de multiestágio se a seleção da população passa por estágios, estágios sucessivos, e cada estágio, estágio de seleção, possui sua própria unidade de seleção.

Amostragem multifásica - em todos os estágios de amostragem, a mesma unidade amostral é mantida, mas são realizados vários estágios, fases de pesquisas amostrais, que diferem umas das outras na amplitude do programa de pesquisa e no tamanho da amostra.

As características dos parâmetros das populações geral e amostral são indicadas pelos seguintes símbolos:

N- o volume da população em geral;

n– tamanho da amostra;

X- média geral;

Xé a média amostral;

R– participação geral;

W - parcela da amostra;

2 - variância geral (dispersão de uma característica na população geral);

2 - variância amostral da mesma característica;

? - desvio padrão na população geral;

? é o desvio padrão na amostra.

3. Erros de amostragem

Cada unidade em uma amostra de observação deve ter a mesma oportunidade de ser selecionada com as outras - esta é a base de uma amostra aleatória.

Amostragem auto-aleatória - trata-se da seleção de unidades de toda a população geral por sorteio ou de outra forma semelhante.

O princípio da aleatoriedade é que a inclusão ou exclusão de um objeto da amostra não pode ser influenciada por nenhum fator que não seja o acaso.

Compartilhamento de amostraé a razão entre o número de unidades na amostra e o número de unidades na população geral:


A seleção auto-aleatória em sua forma pura é a inicial entre todos os outros tipos de seleção; ela contém e implementa os princípios básicos da observação estatística seletiva.

Os dois principais tipos de indicadores generalizantes usados ​​no método de amostragem são o valor médio de um atributo quantitativo e o valor relativo de um atributo alternativo.

A parcela da amostra (w), ou particularidade, é determinada pela razão entre o número de unidades que possuem a característica em estudo m, ao número total de unidades de amostragem (n):


Para caracterizar a confiabilidade dos indicadores amostrais, distinguem-se os erros médio e marginal da amostra.

O erro amostral, também chamado de erro de representatividade, é a diferença entre a amostra correspondente e as características gerais:

?x = | x - x |;

?w =|х – p|.

Apenas observações amostradas têm erro de amostragem

Média da amostra e proporção da amostra- são variáveis ​​aleatórias que assumem valores diferentes dependendo das unidades da população estatística estudada que foram incluídas na amostra. Assim, os erros de amostragem também são variáveis ​​aleatórias e também podem assumir valores diferentes. Portanto, a média de possíveis erros é determinada - o erro médio de amostragem.

O erro amostral médio é determinado pelo tamanho da amostra: quanto maior a população, todas as outras coisas sendo iguais, menor o erro amostral médio. Cobrindo uma pesquisa amostral com um número crescente de unidades da população geral, caracterizamos cada vez mais com precisão toda a população.

O erro amostral médio depende do grau de variação da característica estudada, por sua vez, o grau de variação é caracterizado pela variância? 2 ou w(l - w)- para um sinal alternativo. Quanto menor a variação e a variância do recurso, menor o erro amostral médio e vice-versa.

Para reamostragem aleatória, os erros médios são calculados teoricamente usando as seguintes fórmulas:

1) para a característica quantitativa média:


Onde? 2 - o valor médio da dispersão de uma característica quantitativa.

2) para uma ação (sinal alternativo):


Então, como é a variância da característica na população? 2 não é exatamente conhecido, na prática eles usam o valor da variância S 2 calculada para a população amostral com base na lei dos grandes números, segundo a qual a população amostral com tamanho amostral suficientemente grande reproduz com precisão as características do população geral.

As fórmulas para o erro médio de amostragem para reamostragem aleatória são as seguintes. Para o valor médio de um atributo quantitativo: a variância geral é expressa através da eletiva pela seguinte razão:


onde S 2 é o valor de dispersão.

Amostragem mecânica- esta é a seleção de unidades em um conjunto de amostra do geral, que é dividido em grupos iguais de acordo com um critério neutro; é feito de tal forma que apenas uma unidade é selecionada de cada um desses grupos na amostra.

Com a seleção mecânica, as unidades da população estatística em estudo são dispostas preliminarmente em uma determinada ordem, após o que um determinado número de unidades é selecionado mecanicamente em um determinado intervalo. Nesse caso, o tamanho do intervalo na população geral é igual ao recíproco da parcela da amostra.

Com uma população suficientemente grande, a seleção mecânica em termos de acurácia dos resultados é próxima da aleatória, portanto, para determinar o erro médio da amostragem mecânica, são utilizadas as fórmulas da amostragem aleatória não repetitiva.

Para selecionar unidades de uma população heterogênea, utiliza-se a chamada amostra típica, que é utilizada quando todas as unidades da população geral podem ser divididas em vários grupos qualitativamente homogêneos, semelhantes de acordo com as características das quais dependem os indicadores em estudo.

Então, de cada grupo típico, uma seleção individual de unidades na amostra é feita por uma amostra aleatória ou mecânica.

A amostragem típica é geralmente usada no estudo de populações estatísticas complexas.

A amostragem típica fornece resultados mais precisos. A tipificação da população geral garante a representatividade dessa amostra, a representação de cada grupo tipológico nela, o que permite excluir a influência da dispersão intergrupos no erro amostral médio. Portanto, ao determinar o erro médio de uma amostra típica, a média das variâncias intragrupo atua como um indicador de variação.

A amostragem em série envolve a seleção aleatória de uma população geral de grupos de tamanhos iguais para submeter todas as unidades, sem exceção, à observação em tais grupos.

Como todas as unidades, sem exceção, são examinadas dentro de grupos (séries), o erro amostral médio (ao selecionar séries iguais) depende apenas da dispersão intergrupos (entre séries).

4. Formas de estender os resultados da amostra à população

A caracterização da população geral com base nos resultados amostrais é o objetivo final da observação amostral.

O método de amostragem é utilizado para obter as características da população geral para determinados indicadores da amostra. Dependendo dos objetivos do estudo, isso é realizado pelo recálculo direto dos indicadores amostrais para a população geral ou pelo método de cálculo dos fatores de correção.

O método de recálculo direto é que com ele os indicadores da parcela da amostra W ou médio X são estendidos à população geral, levando-se em conta o erro amostral.

O método dos fatores de correção é utilizado quando o objetivo do método de amostragem é refinar os resultados da contabilidade completa. Este método é usado para refinar os dados dos censos anuais de gado da população.

O conceito de "representatividade" em relação às pesquisas sociológicas - pesquisas de opinião pública - tem um efeito quase mágico nas pessoas. O próprio termo “representação” tem, além de científico, também um significado claramente político.

Qual é a razão? O fato é que se supõe que a amostra (um grupo de pessoas selecionadas para a pesquisa) pode representar (representar) toda a população. A população geral no caso de pesquisas de toda a Rússia é toda a população do país. Agora vamos imaginar que estamos falando de uma decisão política - apoiar um projeto de lei ou votar em uma eleição. Com a ajuda de uma pesquisa por amostragem, obtemos um excelente mecanismo de representação política - um mecanismo em que um pequeno grupo de pessoas pode representar a opinião ou posição de toda a população do país. Portanto, a representatividade do estudo ocupa um lugar tão importante.

O conceito de representatividade é usado, é claro, não apenas em estudos políticos. O termo é quase sempre usado quando se fala em grandes estudos, seja na área de marketing, comportamento econômico ou educação.

Metodologia de pesquisas representativas

Como, tendo entrevistado 1.500 pessoas, pode-se tirar conclusões sobre todos os russos, dos quais existem mais de 140 milhões (e mesmo eleitores mais de 110 milhões)? A tecnologia por trás das pesquisas representativas é baseada em leis estatísticas. A razão mais próxima é a lei dos grandes números, ou teorema de Bernoulli.

Simplificado, seu significado pode ser transmitido da seguinte forma. Suponha que tenhamos alguma característica, por exemplo, a quantidade de precipitação por dia em Yekaterinburg durante o século 20. Se escrevermos todos os seus valores junto com sua frequência (isso é chamado de distribuição) e, em seguida, pegarmos aleatoriamente um número suficientemente grande de casos (ou seja, não todos os dias do século XX, mas bastante), então veremos que a distribuição em nossa amostra será muito semelhante à distribuição para todo o século XX. Assim, se selecionarmos algumas unidades da população, elas podem de fato representar toda a população, não sendo realmente necessário coletar dados para todos os casos.

No entanto, há uma condição chave: isso só é verdade se a seleção for estritamente aleatória. O único problema aqui pode ser o desvio da aleatoriedade. Então, se pegarmos apenas dados de precipitação de anos recentes (por exemplo, porque esses dados são mais fáceis de encontrar) ou entrevistarmos 1500 de nossos conhecidos (porque é mais fácil contatá-los), e não pessoas aleatórias, então a amostra certamente não ser representativo.

Imagine que, de 143,5 milhões de russos, você seleciona aleatoriamente as 1.500 pessoas de que precisa. Então, por exemplo, a proporção de gerentes de nível médio entre eles será aproximadamente igual à proporção de gerentes de nível médio na população geral, o que mostra que sua amostra pode representar toda a população. Pode acontecer que esses dois indicadores sejam muito diferentes? Por exemplo, entre os russos é de 14%, mas na amostra será de apenas 1%? Teoricamente, isso é possível, mas a probabilidade disso é tão pequena que pode ser desprezada (como encontrar um dragão na rua).

Além disso, o mais agradável dessa probabilidade nem é que ela seja pequena, mas que para processos aleatórios essa probabilidade pode ser calculada. Podemos dizer com que probabilidade nosso valor amostral se desviará do valor da população geral em 13% (como no exemplo acima), e com isso, digamos, em 2,5%. Geralmente, no entanto, eles fazem o oposto: primeiro, eles determinam a probabilidade com a qual queremos que nosso valor não se desvie do valor na população geral (na maioria das vezes é fixado no nível de 95%), e depois analisam a magnitude do desvio para amostras de um determinado tamanho. Esse desvio é chamado de intervalo de confiança, às vezes chamado de erro de amostragem ou erro estatístico, e geralmente é listado ao lado dos resultados da pesquisa.

Assim, a probabilidade de desvio, a quantidade de desvio (intervalo de confiança) e o tamanho da amostra estão relacionados. Com base nisso, a fórmula para calcular o tamanho da amostra é a seguinte:

onde n é o tamanho da amostra, Δ é o intervalo de confiança, z é o valor da função de distribuição normal para uma dada probabilidade de rejeição (para uma probabilidade de 5%, esse valor é 1,96).

Esta é uma fórmula simplificada, pesquisas reais usam fórmulas um pouco mais complexas. Essa fórmula também pode falhar se o valor do indicador for muito diferente de 50% (portanto, por exemplo, essa fórmula não é adequada para estimar a proporção de pacientes com doença rara em um país).

Veja o que acontece se você substituir alguns valores nessa fórmula:

Em outras palavras, se pegarmos uma amostra aleatória de russos com tamanho de 1600 pessoas e estimarmos algum indicador, por exemplo, a vontade de votar em um determinado político, então com uma probabilidade de 95% nossa estimativa não diferirá da vontade para votar nele entre todos os russos por mais de 2, 45%.

Tamanho da amostra

Assim, quanto maior o tamanho da amostra, maior a probabilidade de estarmos mais próximos de uma parcela da população. Parece que isso significa que precisamos tentar aproximar a amostra de 143,5 milhões. De fato, como você pode ver na tabela, a natureza dos processos aleatórios é tal que, a partir de um certo momento, a probabilidade de cair no intervalo começa a aumentar muito lentamente (e esse momento chega bem rápido). Depois de amostrarmos 1.500 unidades, não importa o quanto aumentemos o tamanho da amostra, a probabilidade de nosso valor amostral cair no valor populacional aumentará muito, muito lentamente.

Na verdade, quase não há diferença entre 1.500 e 10.000 entrevistados. Em algum lugar por volta de 1500 já podemos dizer que nossas estimativas diferirão da participação na população geral em 2-3%. Se aumentarmos ainda mais a amostra, esse possível erro diminuirá, mas muito ligeiramente. Em outras palavras, uma amostra de 100.000 é melhor do que uma amostra de 2.500, mas a diferença é tão pequena que não faz sentido e, no caso de pesquisas sociais, não se justifica economicamente. Normalmente, aumentar a amostra é caro e, portanto, não faz sentido inflar para ganhar um ponto percentual no valor do intervalo de confiança.

É importante que o tamanho da população geral não apareça na fórmula. O fato é que quando a população é grande (mais de 20.000), tem pouco ou nenhum efeito sobre o tamanho da amostra. Assim, não precisamos saber quantas pessoas vivem na Rússia para construir uma amostra representativa. É claro que escolher 1.500 de 2.000 provavelmente não faz sentido - é mais fácil examinar 2.000 e obter uma estimativa precisa. Mas, se necessário, fazendo uma amostra, temos a oportunidade de generalizar seus resultados para a população em geral. E pela mesma razão, o tamanho da amostra não será diferente para países grandes e pequenos.

Representatividade e Precisão

Para entender o significado do conceito de "representatividade", vamos considerar uma amostra de 15 pessoas. Curiosamente, se você o fez por acidente, também é representativo. Além disso, você pode fazer uma amostra de uma unidade. Imagine uma caixa de bolas da qual você tira uma bola aleatoriamente. Se for uma bola selecionada aleatoriamente, ela também representará todas as bolas que estão nesta caixa. Ele apenas irá representá-los. não exatamente. Por quê? Porque há uma probabilidade muito alta de estar errado. Da próxima vez podemos desenhar outra bola e ter uma ideia diferente das bolas na caixa. Representar de forma imprecisa significa ter uma ampla gama de estimativas.

Da mesma forma, 15 pessoas representam qualquer população geral, mas a representam de forma imprecisa, porque o erro, o intervalo de confiança, é muito grande. Teremos que adicionar +/- 33% para ter 95% de chance de cairmos no intervalo. Se estivermos prontos para admitir isso, pegamos 15 pessoas, descobrimos que 7 delas são gerentes de nível médio e obtemos uma estimativa de que 7/15 do total, ou seja, 47% +/- 33%, é a parcela estimada de gerentes na população geral, e esta é uma conclusão absolutamente correta. Simplesmente não tem valor. Isso poderíamos dizer sem exame. Portanto, ao planejar uma amostra, faz sentido atingir um volume adequado em termos de custo-benefício.

Todos os itens acima destinam-se a transmitir uma ideia simples, que muitas vezes não é realizada: tamanho da amostra não está relacionado à sua representatividade.

Uma pequena amostra é imprecisa, mas ainda pode ser representativa. Os tamanhos de amostra que são usados ​​hoje em pesquisas de massa na Rússia quase sempre têm uma precisão bastante alta.

A representatividade da amostra é ameaçada não pelo seu tamanho, mas pelo viés, ou seja, desvio do princípio da aleatoriedade.

Violação do princípio da aleatoriedade

Se começarmos a escolher unidades de forma não aleatória, a amostra torna-se não representativa. Por exemplo, se algo nos impede de selecioná-los aleatoriamente. Imagine que queremos selecionar bolas de nossa caixa aleatoriamente, mas acontece que algumas das bolas mordem. O mecanismo pelo qual pegaremos apenas as bolinhas que nos são dadas é um mecanismo que viola a aleatoriedade e, portanto, viola a representatividade. Nesse caso, não importa quantas bolinhas tiremos da caixa (mesmo que peguemos todas as bolinhas que não mordem), teremos uma amostra não representativa, pois não levaremos em consideração nenhuma das que mordem - elas simplesmente ignore nossa amostra.

O maior problema de morder bolas é que elas podem ser diferentes daquelas que entram em nossas mãos, e diferem exatamente na forma que nos interessa. Essa situação é chamada de viés de amostragem.

É necessário distinguir a situação de representação imprecisa, que descrevemos acima, da situação de não representação. São problemas diferentes e têm soluções diferentes. Você não pode resolver um deles resolvendo o outro. Se a amostra não tiver representatividade, é inútil aumentá-la. Além disso, grandes amostras em pesquisas sociais tendem a acumular erros, de modo que o problema de representação só pode ser agravado por um grande aumento no tamanho da amostra.

Por que a representatividade é impossível?

Nas notas às tabelas com os resultados das pesquisas, muitas vezes pode-se ver que "o tamanho da amostra é de 1600 pessoas, a amostra é representativa de sexo e idade". Pelo que foi dito acima, é óbvio que se trata de dois parâmetros diferentes: uma indicação de representatividade não está relacionada ao tamanho da amostra. De fato, o que se quer dizer aqui é que certos procedimentos foram seguidos para garantir a correspondência entre a amostra e a população. Por exemplo, para garantir a representatividade por sexo, homens e mulheres são recrutados para a amostra nas mesmas proporções que existem entre os russos de acordo com os dados do censo. Mas representatividade por sexo não significa representatividade, por exemplo, por visões políticas.

Por que é necessário alinhar a amostra por gênero e outras categorias sociodemográficas? Porque apenas uma amostra aleatória pode fornecer uma representatividade verdadeira, e é impossível implementá-la na prática por vários motivos. Assim que você tentar fazer isso, você terá muitos problemas - não importa qual método você escolha usar. Alguns respondentes não estarão disponíveis para o seu método (por exemplo, para entrevistas pessoais, casas com interfones e segurança são um grande problema), outra parte estará ausente, não respondendo, ou prefere cuidar de seus negócios. Há pessoas que têm problemas de linguagem e não podem falar conosco. Há pessoas que não entendem por que isso é necessário e não querem falar conosco. Tudo isso são graves violações da aleatoriedade, que impossibilitam sua realização.

Aqueles que reduzem o problema da representação em pesquisas de massa a estatísticas esquecem que as pessoas são bolas de gude muito específicas. Há bolas que correm e se escondem. Há bolas que mordem. Eles não são objetos passivos, eles contra-atacam. Eles dizem: "Eu não quero participar da sua pesquisa", violando assim a aleatoriedade. Portanto, no sentido estrito da palavra, a representatividade em pesquisas de massa, é claro, é impossível de qualquer forma.

Foi desenvolvido um mecanismo pelo qual a aparência de representatividade geralmente é garantida: alinhamos a amostra em algumas categorias e fingimos que ela também está alinhada em todas as outras categorias possíveis. Na verdade, não temos motivos para afirmar isso. Mas o problema é que não há como verificar isso - novamente, devido ao fato de algumas bolas morderem. Para verificar o viés, o examinador teria que ir até aqueles que não entrevistamos e entrevistá-los. Mas eles, como lembramos, não querem ser questionados. É impossível interrogar aqueles que categoricamente não respondem. Portanto, todos trabalham com a suposição de que, se alinharmos a amostra em dois ou três parâmetros, ela representará toda a população, embora não haja base séria para essa suposição.

A amostragem representativa é uma tecnologia emprestada pelos sociólogos da estatística. Portanto, inevitavelmente carrega elementos do quadro matemático e estatístico do mundo. Talvez a suposição mais forte seja que a própria pesquisa por amostragem é política e sociologicamente neutra: participação e não participação na pesquisa não tem significado político e não está relacionada a outros parâmetros sociologicamente importantes. Mas hoje, as pesquisas se tornaram uma das principais instituições políticas e se tornaram um intermediário fundamental entre grandes corporações e consumidores. Nessas condições, não é mais possível acreditar em sua esterilidade política. No entanto, ainda sabemos pouco sobre como as pesquisas são entendidas nas sociedades contemporâneas e o que elas realmente representam.

Um dos principais componentes de um estudo bem desenhado é a definição da amostra e o que é uma amostra representativa. É como o exemplo do bolo. Afinal, não é necessário comer a sobremesa inteira para entender seu sabor? Uma pequena parte é suficiente.

Então, o bolo é população (ou seja, todos os entrevistados que se qualificam para a pesquisa). Pode ser expresso territorialmente, por exemplo, apenas moradores da região de Moscou. Gênero - apenas mulheres. Ou tenha restrições de idade - os russos têm mais de 65 anos.

É difícil calcular a população: você precisa ter dados do censo populacional ou pesquisas de avaliação preliminares. Portanto, geralmente a população geral é “estimada”, e a partir do número resultante eles calculam quadro de amostragem ou amostragem.

O que é uma amostra representativa?

Amostraé um número bem definido de respondentes. A sua estrutura deve coincidir tanto quanto possível com a estrutura da população em geral em termos das principais características da seleção.

Por exemplo, se os entrevistados em potencial são toda a população da Rússia, onde 54% são mulheres e 46% são homens, a amostra deve conter exatamente a mesma porcentagem. Se os parâmetros corresponderem, a amostra poderá ser chamada de representativa. Isso significa que imprecisões e erros no estudo são minimizados.

O tamanho da amostra é determinado levando em consideração os requisitos de precisão e economia. Esses requisitos são inversamente proporcionais entre si: quanto maior o tamanho da amostra, mais preciso é o resultado. Além disso, quanto maior a precisão, mais custos correspondentes são necessários para o estudo. E vice-versa, quanto menor a amostra, menor o custo, menos precisa e mais aleatoriamente são reproduzidas as propriedades da população geral.

Portanto, para calcular a quantidade de escolha, os sociólogos inventaram uma fórmula e criaram calculadora especial:

Probabilidade de confiança e erro de confiança

O que os termos " nível de confiança" e " erro de confiança"? O nível de confiança é uma medida da precisão das medições. Um erro de confiança é um possível erro nos resultados do estudo. Por exemplo, com uma população geral de mais de 500,00 pessoas (por exemplo, vivendo em Novokuznetsk), a amostra será de 384 pessoas com um nível de confiança de 95% e um erro de 5% OR (com um intervalo de confiança de 95 ± 5%).

O que se segue disso? Ao realizar 100 estudos com essa amostra (384 pessoas), em 95% dos casos, as respostas recebidas, de acordo com as leis da estatística, estarão dentro de ± 5% do original. E obteremos uma amostra representativa com uma probabilidade mínima de erro estatístico.

Após o cálculo do tamanho da amostra, você pode ver se há um número suficiente de respondentes na versão de demonstração do Painel do Questionário. Você pode aprender mais sobre como conduzir uma pesquisa de painel.