Sampel yang representatif. Sampel

tujuan belajar

  1. Jelas dibedakan antara konsep sensus (kualifikasi) dan sampling.
  2. Mengetahui intisari dan urutan keenam tahapan yang dilakukan peneliti untuk mendapatkan populasi sampel.
  3. Mendefinisikan konsep "sampling frame".
  4. Jelaskan perbedaan antara sampling probabilistik dan deterministik.
  5. Bedakan antara pengambilan sampel ukuran tetap dan pengambilan sampel multitahap (berturut-turut).
  6. Jelaskan apa yang dimaksud dengan pengambilan sampel yang disengaja dan jelaskan kekuatan dan kelemahannya.
  7. Mendefinisikan konsep sampling kuota.
  8. Jelaskan apa yang dimaksud dengan parameter dalam prosedur seleksi.
  9. Jelaskan apa yang dimaksud dengan himpunan turunan!
  10. Jelaskan mengapa konsep distribusi sampling merupakan konsep statistik yang paling penting.

Jadi, peneliti telah secara tepat mendefinisikan masalah dan mengamankan desain penelitian dan alat pengumpulan data yang tepat untuk memecahkannya. Langkah selanjutnya dalam proses penelitian adalah pemilihan elemen-elemen yang akan diperiksa. Hal ini dimungkinkan untuk memeriksa setiap elemen dari populasi tertentu dengan membuat sensus lengkap dari populasi ini. Survei penduduk yang lengkap disebut sensus (kualifikasi). Ada kemungkinan lain. Bagian tertentu dari populasi, sampel elemen dari kelompok besar, dikenakan pemeriksaan statistik, dan menurut data yang diperoleh pada subset ini, kesimpulan tertentu ditarik mengenai seluruh kelompok. Kemampuan untuk menggeneralisasi hasil yang diperoleh dari data sampel ke kelompok besar tergantung pada metode pengambilan sampel. Sebagian besar bab ini akan dikhususkan untuk bagaimana sampel harus diambil dan mengapa.

Sensus (kualifikasi)
Sensus penduduk lengkap (penduduk).
Sampel
Kumpulan elemen dari subset dari kelompok objek yang lebih besar.

Konsep "penduduk" atau "pengumpulan" dapat merujuk tidak hanya pada orang, tetapi juga pada perusahaan yang beroperasi di industri manufaktur, pengecer atau pedagang grosir, atau bahkan benda mati sama sekali, seperti suku cadang yang diproduksi oleh perusahaan; konsep ini didefinisikan sebagai seluruh rangkaian elemen yang memenuhi kondisi tertentu yang diberikan. Kondisi ini secara unik mendefinisikan elemen yang termasuk dalam kelompok sasaran dan elemen yang harus dikeluarkan dari pertimbangan.

Sebuah studi yang bertujuan untuk mengetahui profil demografis konsumen pizza beku harus dimulai dengan mengidentifikasi siapa yang harus dan tidak boleh diklasifikasikan seperti itu. Apakah orang yang telah mencoba pizza seperti itu setidaknya sekali termasuk dalam kategori ini? Individu yang membeli setidaknya satu pizza per bulan? Dalam Minggu? Individu yang makan pizza lebih dari jumlah minimum tertentu dalam sebulan? Peneliti harus sangat tepat dalam menentukan kelompok sasaran. Kehati-hatian juga harus diambil untuk memastikan bahwa sampel diambil dari populasi sasaran dan bukan dari “beberapa” populasi, yang terjadi ketika kerangka pengambilan sampel tidak memadai atau tidak lengkap. Yang terakhir adalah daftar elemen dari mana sampel nyata akan dibentuk.

Seorang peneliti mungkin lebih memilih pendekatan sampling untuk survei seluruh populasi karena beberapa alasan. Pertama, pemeriksaan menyeluruh terhadap suatu populasi, bahkan dalam ukuran yang relatif kecil, membutuhkan biaya bahan dan waktu yang sangat besar. Seringkali, pada saat sensus selesai dan data diproses, informasinya sudah ketinggalan zaman. Dalam beberapa kasus, kualifikasi tidak mungkin. Katakanlah para peneliti berangkat untuk memeriksa kepatuhan kehidupan nyata lampu pijar listrik dengan yang dihitung, yang mereka harus tetap menyala sampai gagal. Jika Anda memeriksa seluruh pasokan lampu dengan cara ini, data yang andal akan diperoleh, tetapi tidak akan ada yang diperdagangkan.

Akhirnya, yang sangat mengejutkan bagi para pemula, peneliti mungkin lebih memilih pengambilan sampel daripada sensus, berjuang untuk keakuratan hasil. Sensus membutuhkan staf yang besar, yang meningkatkan kemungkinan kesalahan bias (non-sampling). Keadaan ini menjadi salah satu alasan mengapa Biro Sensus AS menggunakan sampel survei untuk menguji keakuratan berbagai jenis sensus. Anda membacanya dengan benar: survei sampel dapat dilakukan untuk menguji keakuratan data kualifikasi.

Contoh langkah desain

pada gambar. Gambar 15.1 menunjukkan urutan enam langkah yang dapat diikuti peneliti saat merancang sampel. Pertama-tama, perlu untuk menentukan populasi sasaran atau serangkaian elemen yang ingin diketahui oleh peneliti.

Misalnya, ketika mempelajari preferensi anak-anak, peneliti perlu memutuskan apakah populasi sasaran akan terdiri dari hanya anak-anak, hanya orang tua, atau keduanya.

Agregat (populasi)
Sekumpulan elemen yang memenuhi kondisi tertentu.
Kerangka sampel (dasar)
Daftar elemen dari mana pemilihan akan dilakukan; dapat terdiri dari unit teritorial, organisasi, orang, dan elemen lainnya.

Sebuah perusahaan tertentu menguji "balapan" listriknya hanya pada anak-anak. Anak-anak benar-benar terpesona. Orang tua bereaksi berbeda terhadap hal baru. Para ibu tidak menyukai kenyataan bahwa perjalanan tidak mengajarkan anak-anak untuk menjadi ramah mobil, dan para ayah tidak menyukai kenyataan bahwa produk itu dibuat seperti mainan.
Situasi sebaliknya juga mungkin terjadi. Sebuah perusahaan meluncurkan produk makanan baru dan meluncurkan kampanye iklan nasional yang berfokus pada anak yang dewasa sebelum waktunya.Perusahaan tersebut menguji keefektifan iklan hanya pada ibu yang senang. Anak-anak, di sisi lain, menemukan "percepatan" ini, dan dengan itu produk yang diiklankan itu sendiri, menjijikkan. Produk berakhir 1 .

Peneliti harus memutuskan siapa atau apa populasi yang relevan akan terdiri dari: individu, keluarga, perusahaan, organisasi lain, transaksi kartu kredit, dll. Dalam membuat keputusan tersebut, perlu untuk menentukan elemen yang harus dikeluarkan dari populasi. Referensi temporal dan geografis elemen harus dibuat, yang dalam beberapa kasus mungkin tunduk pada kondisi atau batasan tambahan. Misalnya, jika kita berbicara tentang individu, populasi yang diinginkan mungkin hanya terdiri dari orang yang berusia di atas 18 tahun, atau hanya wanita, atau hanya orang dengan pendidikan minimal sekolah menengah.

Tugas menentukan batas-batas geografis untuk populasi sasaran dalam riset pemasaran internasional dapat menjadi masalah khusus, karena hal ini meningkatkan heterogenitas sistem yang sedang dipertimbangkan. Misalnya, rasio relatif daerah perkotaan dan pedesaan dapat bervariasi secara signifikan dari satu negara ke negara lain. Aspek teritorial berdampak serius pada komposisi penduduk dan dalam negara yang sama. Misalnya, di bagian utara Chili, sebagian besar penduduk India hidup kompak, sementara di wilayah selatan negara itu, sebagian besar keturunan orang Eropa tinggal.

Cakupan (insiden)
Persentase anggota populasi atau kelompok yang memenuhi syarat untuk dimasukkan dalam sampel.

Secara umum, semakin sederhana populasi sasaran didefinisikan, semakin tinggi cakupannya (insiden) dan semakin mudah dan murah prosedur pengambilan sampel. Cakupan (insiden) sesuai dengan proporsi elemen populasi atau kelompok, dinyatakan sebagai persentase, yang memenuhi kondisi untuk dimasukkan dalam sampel. Cakupan secara langsung mempengaruhi waktu dan biaya material yang dibutuhkan untuk melakukan survei. Jika cakupannya besar (yaitu, sebagian besar elemen populasi memenuhi satu atau lebih kriteria sederhana yang digunakan untuk mengidentifikasi calon responden), waktu dan biaya yang diperlukan untuk mengumpulkan data diminimalkan. Sebaliknya, dengan bertambahnya jumlah kriteria yang harus dipenuhi oleh calon responden, baik biaya material maupun waktu meningkat.

pada gambar. 15.2 menunjukkan proporsi penduduk dewasa yang terlibat dalam olahraga tertentu. Data pada gambar menunjukkan bahwa pemeriksaan orang yang bersepeda motor jauh lebih sulit dan mahal (hanya 3,6% dari jumlah total orang dewasa) daripada memeriksa orang yang melakukan perjalanan rekreasi biasa (27,4% dari total jumlah orang dewasa). dewasa). Yang utama adalah peneliti harus tepat dalam menentukan elemen mana yang harus dimasukkan dalam populasi penelitian dan elemen mana yang harus dikeluarkan darinya. Pernyataan yang jelas tentang tujuan penelitian sangat memudahkan pemecahan masalah ini. Langkah kedua dalam proses pengambilan sampel adalah menentukan kerangka pengambilan sampel, yang, seperti yang telah Anda ketahui, adalah daftar elemen dari mana sampel akan diambil. Biarkan populasi target penelitian tertentu adalah semua keluarga yang tinggal di daerah Dallas. Sepintas, direktori telepon Dallas mungkin merupakan kerangka sampling yang baik dan mudah diakses. Namun demikian, setelah dicermati lebih dekat, ternyata daftar keluarga yang terdapat dalam direktori tersebut tidak sepenuhnya benar, karena nomor beberapa keluarga dihilangkan di dalamnya (tentu saja tidak termasuk keluarga yang tidak memiliki telepon), sedangkan beberapa keluarga memiliki beberapa nomor telepon. Orang-orang yang baru saja mengubah tempat tinggal mereka dan, karenanya, nomor telepon mereka, juga tidak ada dalam direktori.

Peneliti berpengalaman sampai pada kesimpulan bahwa kecocokan yang tepat antara kerangka sampling dan populasi target yang diinginkan sangat jarang. Salah satu langkah paling kreatif dalam merancang sampel adalah menentukan kerangka sampling yang tepat dalam kasus di mana daftar anggota populasi sulit. Ini mungkin memerlukan pengambilan sampel dari blok kerja dan awalan ketika, misalnya, panggilan acak digunakan karena kekurangan dalam direktori telepon. Namun, peningkatan unit kerja yang signifikan selama 10 tahun terakhir membuat tugas ini semakin sulit. Situasi serupa juga dapat muncul dalam kasus pengamatan selektif zona atau organisasi teritorial, diikuti dengan pengambilan subsampel, ketika, katakanlah, populasi target adalah individu, tetapi tidak ada daftar terbaru yang pasti dari mereka.

Sumber: berdasarkan data yang terdapat di SSI- Ringan TM: L ow Insiden T ditargetkan S ampling" (Fairfield, Conn.: Survey Sampling, Inc., 1994).

Langkah ketiga dalam prosedur sampling sangat erat kaitannya dengan penentuan kerangka sampling. Pilihan metode atau prosedur pengambilan sampel sangat tergantung pada kerangka pengambilan sampel yang diadopsi oleh peneliti. Jenis sampel yang berbeda memerlukan jenis kerangka pengambilan sampel yang berbeda. Bab ini dan bab berikutnya akan memberikan gambaran umum tentang jenis sampel utama yang digunakan dalam riset pemasaran. Saat menggambarkannya, hubungan antara kerangka sampling dan metode pembentukannya harus menjadi jelas.

Langkah keempat dalam prosedur pengambilan sampel adalah menentukan ukuran sampel. Masalah ini dibahas dalam Bab. 17. Pada tahap kelima, peneliti perlu benar-benar memilih elemen-elemen yang akan dijadikan sasaran survei. Metode yang digunakan untuk ini ditentukan oleh jenis sampel yang dipilih; ketika membahas metode pengambilan sampel, kita juga akan berbicara tentang pemilihan elemennya. Dan akhirnya, peneliti perlu benar-benar memeriksa responden yang diidentifikasi. Pada tahap ini, ada kemungkinan besar melakukan sejumlah kesalahan.
Masalah-masalah ini dan beberapa metode untuk penyelesaiannya dibahas dalam Bab. delapan belas.

Jenis rencana pengambilan sampel (sampling)

Semua metode pengambilan sampel dapat dibagi menjadi dua kategori: pengamatan sampel probabilitas dan pengamatan sampel deterministik. Dalam sampel probabilistik, setiap anggota populasi dapat dimasukkan dengan probabilitas tertentu yang tidak nol. Probabilitas memasukkan anggota populasi tertentu ke dalam sampel mungkin berbeda, tetapi probabilitas memasukkan setiap elemen di dalamnya diketahui. Probabilitas ini ditentukan oleh prosedur mekanis khusus yang digunakan untuk memilih anggota sampel.

Untuk sampel deterministik, memperkirakan probabilitas memasukkan elemen apa pun dalam sampel menjadi tidak mungkin. Keterwakilan sampel semacam itu tidak dapat dijamin. Sebagai contoh, Perusahaan Allstate sedang mengembangkan sistem untuk memproses data klaim dari 14 juta rumah tangga (kliennya). Perusahaan berencana menggunakan data ini untuk menentukan pola permintaan atas layanannya, seperti kemungkinan rumah tangga yang memiliki Mercedes Benz juga akan memiliki rumah liburan (yang memerlukan asuransi). Meskipun basis datanya sangat besar, perusahaan tidak memiliki sarana untuk memperkirakan kemungkinan bahwa pelanggan tertentu akan mengajukan klaim. Dengan demikian perusahaan tidak dapat memastikan bahwa data pelanggan yang mengajukan klaim mewakili semua pelanggan perusahaan; dan pada tingkat yang lebih rendah lagi - dalam kaitannya dengan pelanggan potensial.

Semua sampel deterministik didasarkan pada posisi pribadi, penilaian, atau preferensi peneliti, bukan pada prosedur pemilihan mekanis untuk anggota sampel. Preferensi semacam itu terkadang dapat memberikan perkiraan yang baik tentang karakteristik populasi, tetapi tidak ada cara untuk secara objektif menentukan kesesuaian sampel untuk tugas tersebut. Penilaian akurasi hasil sampling hanya dapat dilakukan jika probabilitas pemilihan elemen tertentu diketahui. Untuk alasan ini, bekerja dengan sampling probabilitas umumnya dianggap sebagai metode yang lebih baik untuk memperkirakan besarnya kesalahan sampling. Sampel juga dapat dibagi lagi menjadi sampel ukuran tetap dan sampel berurutan. Saat bekerja dengan sampel berukuran tetap, ukuran sampel ditentukan sebelum dimulainya survei, dan analisis hasil didahului dengan pengumpulan semua data yang diperlukan. Kami terutama akan tertarik pada sampel ukuran tetap, karena jenis ini biasanya digunakan dalam riset pemasaran.

Sampling probabilitas
Sampel di mana setiap elemen populasi dapat dimasukkan dengan beberapa probabilitas non-nol yang diketahui.
Pengambilan sampel deterministik
Pengambilan sampel berdasarkan beberapa preferensi atau penilaian tertentu yang menentukan pemilihan elemen tertentu; pada saat yang sama, menjadi tidak mungkin untuk memperkirakan probabilitas memasukkan elemen populasi yang sewenang-wenang dalam sampel.

Namun, tidak boleh dilupakan bahwa ada juga sampel sekuensial yang dapat digunakan dengan masing-masing desain pengambilan sampel dasar yang dibahas di bawah ini.

Dalam sampel sekuensial, jumlah elemen yang dipilih tidak diketahui sebelumnya, ditentukan berdasarkan serangkaian keputusan berurutan. Jika survei sampel kecil tidak menghasilkan hasil yang andal, rentang elemen yang akan diperiksa diperluas. Jika hasilnya tetap tidak meyakinkan setelah itu, ukuran sampel ditingkatkan lagi. Pada setiap tahap, keputusan dibuat apakah akan mempertimbangkan hasil yang diperoleh cukup meyakinkan atau apakah akan melanjutkan pengumpulan data. Bekerja dengan pengambilan sampel sekuensial memungkinkan untuk menilai tren (tren) data saat dikumpulkan, yang memungkinkan Anda untuk mengurangi biaya yang terkait dengan pengamatan tambahan dalam kasus di mana kemanfaatannya menjadi sia-sia.

Baik rencana pengambilan sampel probabilistik dan deterministik terbagi dalam beberapa jenis. Misalnya, sampel deterministik dapat non-representatif (nyaman), disengaja atau kuota; sampel probabilistik dibagi menjadi acak sederhana, bertingkat atau kelompok (cluster), mereka, pada gilirannya, dapat dibagi menjadi subtipe. pada gambar. Gambar 15.3 menunjukkan jenis sampel yang akan dibahas dalam bab ini dan bab berikutnya.

Sampel Tetap (Sampel Tetap)
Sampel yang ukurannya ditentukan secara apriori; informasi yang dibutuhkan ditentukan oleh elemen yang dipilih.
Pengambilan sampel berurutan
Sebuah sampel dibentuk atas dasar serangkaian keputusan berurutan. Jika, setelah mempertimbangkan sampel kecil, hasilnya tidak meyakinkan, sampel yang lebih besar dipertimbangkan; jika langkah ini tidak membuahkan hasil, ukuran sampel bertambah lagi, dll. Jadi, pada setiap tahap, keputusan dibuat apakah hasil yang diperoleh dapat dianggap cukup meyakinkan.

Harus diingat bahwa tipe dasar sampel dapat digabungkan untuk membentuk desain pengambilan sampel yang lebih kompleks. Jika Anda mempelajari tipe awal dasar mereka, akan lebih mudah bagi Anda untuk menangani kombinasi yang lebih kompleks.

Pilihan deterministik

Seperti yang telah disebutkan, ketika memilih elemen sampel deterministik, perkiraan atau keputusan pribadi memainkan peran yang menentukan. Terkadang penilaian ini datang dari peneliti, sedangkan dalam kasus lain pemilihan elemen populasi diberikan kepada staf lapangan. Karena elemen tidak dipilih secara mekanis, menjadi tidak mungkin untuk menentukan probabilitas memasukkan elemen sembarang dalam sampel dan, karenanya, kesalahan pengambilan sampel. Ketidaktahuan kesalahan karena prosedur pengambilan sampel yang dipilih mencegah peneliti menilai keakuratan perkiraan mereka.

Sampel non-representatif (kenyamanan)

Sampel non-representatif (kenyamanan) kadang-kadang disebut sebagai acak, karena pemilihan elemen sampel dilakukan dengan cara "acak" - elemen-elemen yang atau tampak paling mudah diakses selama periode pemilihan dipilih.

Kehidupan kita sehari-hari penuh dengan contoh pilihan seperti itu. Kami berbicara dengan teman-teman dan, berdasarkan reaksi dan posisi mereka, kami menarik kesimpulan tentang kecenderungan politik yang berlaku di masyarakat; stasiun radio lokal mendorong orang untuk mengungkapkan pendapat mereka tentang beberapa masalah kontroversial, pendapat mereka ditafsirkan sebagai yang berlaku; kami menyerukan kerjasama para relawan dan bekerja dengan mereka yang secara sukarela membantu kami. Masalah dengan sampel praktis sudah jelas—kita tidak dapat memastikan bahwa sampel semacam ini benar-benar mewakili populasi sasaran. Kita masih dapat meragukan pendapat teman-teman kita dengan benar mencerminkan pandangan politik yang berlaku di masyarakat, tetapi kita sering sangat ingin percaya bahwa sampel yang lebih besar, yang dipilih dengan cara ini, adalah perwakilan. Mari kita tunjukkan kekeliruan asumsi semacam itu dengan sebuah contoh.
Beberapa tahun yang lalu, salah satu stasiun televisi lokal di kota tempat penulis buku ini tinggal mengadakan jajak pendapat publik setiap hari tentang topik-topik yang menarik bagi masyarakat setempat. Jajak pendapat, yang disebut "The Madison Pulse", dilakukan sebagai berikut. Setiap malam selama siaran berita pukul enam, stasiun itu mengajukan pertanyaan kepada pemirsa tentang masalah kontroversial tertentu, yang perlu dijawab secara positif atau negatif.

Dalam hal jawaban positif, perlu untuk memanggil satu, dalam hal jawaban negatif - ke nomor telepon lain. Jumlah suara "untuk" dan "menentang" dihitung secara otomatis. Siaran berita pukul sepuluh melaporkan hasil survei telepon. Setiap malam antara 500 dan 1000 orang menelepon studio untuk menyatakan posisi mereka tentang masalah ini atau itu; komentator televisi menafsirkan hasil jajak pendapat sebagai opini yang berlaku di masyarakat.

Sampel non-representatif (kenyamanan)
Kadang-kadang disebut acak, karena pemilihan elemen sampel dilakukan dengan cara "acak" - elemen-elemen yang atau tampak paling mudah diakses selama periode pemilihan dipilih.

Dalam salah satu episode enam jam, pemirsa ditanya pertanyaan berikut: "Tidakkah menurut Anda usia minum di Madison harus diturunkan menjadi 18?" Kualifikasi hukum yang ada sesuai dengan 21 tahun. Penonton bereaksi terhadap pertanyaan ini dengan aktivitas yang luar biasa - hampir 4.000 orang menelepon studio malam itu, di mana 78% di antaranya mendukung penurunan batas usia. Tampak jelas bahwa sampel 4.000 "harus mewakili" komunitas 180.000. Tidak ada yang seperti itu. Seperti yang Anda duga, kelompok usia tertentu lebih tertarik pada hasil yang diketahui daripada yang lain. Oleh karena itu, tidak mengherankan jika dalam pembahasan masalah ini, yang berlangsung beberapa minggu kemudian, ternyata selama waktu yang ditentukan untuk survei, para siswa bertindak secara kompak. Mereka menelepon televisi secara bergantian, masing-masing beberapa kali. Dengan demikian, baik ukuran sampel maupun persentase pendukung liberalisasi undang-undang bukanlah sesuatu yang mengejutkan. Sampel tidak representatif.

Hanya meningkatkan ukuran sampel tidak membuatnya representatif. Keterwakilan sampel dipastikan bukan oleh ukuran, tetapi oleh prosedur yang tepat untuk memilih elemen. Ketika peserta survei dipilih secara sukarela atau item sampel dipilih berdasarkan ketersediaannya, rencana pengambilan sampel tidak menjamin keterwakilan sampel. Bukti empiris menunjukkan bahwa sampel yang dipilih untuk kenyamanan jarang mewakili (terlepas dari ukurannya). Jajak pendapat telepon, yang mempertimbangkan 800-900 suara, adalah bentuk paling umum dari sampel besar tetapi tidak representatif.

Pengambilan sampel yang disengaja
Pengambilan sampel deterministik (bertarget), elemen-elemennya dipilih secara manual; elemen-elemen tersebut dipilih yang, menurut pendapat peneliti, memenuhi tujuan survei.
Intentional sampling, tergantung pada kemampuan peneliti untuk menetapkan set awal responden dengan karakteristik yang diinginkan; kemudian responden tersebut digunakan sebagai informan yang menentukan pemilihan individu selanjutnya.

Sayangnya, banyak orang memperlakukan hasil survei semacam itu dengan percaya diri. Salah satu contoh paling umum dari penggunaan sampel non-representatif dalam riset pemasaran internasional adalah survei negara-negara tertentu berdasarkan sampel yang terdiri dari orang asing yang saat ini tinggal di wilayah negara yang memulai survei (misalnya, orang Skandinavia yang tinggal di Amerika Serikat). Meskipun sampel-sampel tersebut dapat menjelaskan beberapa aspek tertentu dari populasi yang sedang dipertimbangkan, harus diingat bahwa individu-individu ini biasanya mewakili elit "Amerikanisasi", yang hubungannya dengan negara mereka sendiri mungkin agak sewenang-wenang. Penggunaan sampel yang tidak representatif tidak direkomendasikan untuk survei deskriptif atau kausal. Mereka hanya dapat diterima dalam penelitian eksplorasi yang ditujukan untuk menguji ide atau gagasan tertentu, tetapi bahkan dalam kasus ini lebih baik menggunakan sampel yang disengaja.

Pilihan yang disengaja

Sampel yang disengaja kadang-kadang disebut sebagai tidak fokus; unsur-unsurnya, yang menurut pendapat peneliti, memenuhi tujuan penelitian, dipilih secara manual. Prokter & Judi menggunakan metode ini saat menampilkan iklan kepada orang berusia 13 hingga 17 tahun yang tinggal di dekat kantor pusatnya di Cincinnati. Divisi makanan dan minuman perusahaan mempekerjakan kelompok remaja ini untuk dijadikan semacam sampel konsumen. Bekerja 10 jam seminggu dengan imbalan $1.000 dan pergi ke konser, mereka menonton iklan televisi, mengunjungi supermarket dengan manajer perusahaan untuk melihat tampilan produk, menguji produk baru, dan mendiskusikan perilaku pembelian. Dengan memilih perwakilan untuk sampel melalui proses “perekrutan” daripada secara acak, perusahaan dapat berfokus pada sifat yang dianggap berguna, seperti kemampuan remaja untuk mengekspresikan diri dengan jelas, dengan risiko pandangan mereka mungkin tidak mewakili kelompok usia mereka. .

Seperti yang telah disebutkan, ciri pembeda dari pengambilan sampel yang disengaja adalah pemilihan terarah dari elemen-elemennya. Dalam beberapa kasus, item sampel dipilih bukan karena mereka representatif, tetapi karena mereka dapat memberikan informasi yang menarik bagi peneliti. Ketika pengadilan dipandu oleh kesaksian seorang ahli, dalam arti tertentu, menggunakan pemilihan yang disengaja. Posisi serupa mungkin berlaku dalam pengembangan proyek penelitian. Selama studi awal masalah, peneliti terutama tertarik untuk menentukan prospek penelitian, yang menentukan pemilihan elemen sampel.

Pengambilan sampel bola salju adalah jenis pengambilan sampel yang disengaja yang digunakan ketika berhadapan dengan jenis populasi tertentu. Sampel ini tergantung pada kemampuan peneliti untuk menentukan sekumpulan responden awal dengan karakteristik yang diinginkan. Responden tersebut kemudian dijadikan sebagai informan untuk menentukan seleksi individu selanjutnya.

Bayangkan, misalnya, sebuah perusahaan ingin mengevaluasi kebutuhan akan produk yang memungkinkan penyandang tunarungu berkomunikasi melalui telepon. Para peneliti dapat mulai mengembangkan masalah ini dengan mengidentifikasi tokoh-tokoh kunci dalam komunitas tunarungu; yang terakhir bisa menyebutkan anggota lain dari kelompok yang akan setuju untuk mengambil bagian dalam survei. Dengan taktik ini, sampel tumbuh seperti bola salju.

Selama peneliti berada pada tahap awal pemecahan masalah, ketika prospek dan kemungkinan keterbatasan survei yang direncanakan sedang ditentukan, penggunaan sampling yang disengaja bisa sangat efektif. Tetapi dalam hal apapun kita tidak boleh melupakan kelemahan dari sampel jenis ini, karena sampel ini juga dapat digunakan oleh peneliti dalam studi deskriptif atau kausal, yang tidak akan lambat mempengaruhi kualitas hasil mereka. Contoh klasik dari kelupaan ini adalah indeks harga konsumen (“CPI”). Seperti yang ditunjukkan Südman ( Sudman): “IHK ditentukan hanya untuk 56 kota dan wilayah metropolitan, yang pemilihannya juga dipengaruhi oleh faktor politik. Faktanya, kota-kota ini hanya dapat mewakili diri mereka sendiri, sedangkan indeksnya disebut indeks harga konsumen untuk penduduk kota yang mendapatkan upah per jam*, dan para karyawan dan tampak bagi kebanyakan orang sebagai indeks yang mencerminkan tingkat harga di wilayah mana pun di Amerika Serikat. Pilihan gerai ritel juga dibuat secara tidak acak, sebagai akibatnya estimasi kemungkinan kesalahan pengambilan sampel menjadi tidak mungkin» (cetak miring kami) 2 .

* Artinya, pekerja. - Catatan. per.

sampel kuota

Tipe ketiga dari sampling deterministik sampel kuota; keterwakilannya yang diketahui dicapai dengan memasukkan di dalamnya proporsi elemen yang sama dengan karakteristik tertentu seperti pada populasi yang disurvei (lihat "Jendela penelitian 15.1"). Sebagai contoh, pertimbangkan untuk mencoba membuat sampel yang representatif dari siswa yang tinggal di kampus. Jika tidak ada satu pun siswa senior dalam sampel tertentu yang terdiri dari 500 individu, kita berhak meragukan keterwakilannya dan validitas penerapan hasil yang diperoleh pada sampel ini pada populasi yang diperiksa. Ketika bekerja dengan sampling proporsional, peneliti dapat memastikan bahwa proporsi mahasiswa dalam sampel sesuai dengan proporsi mereka dalam jumlah total mahasiswa.

Misalkan seorang peneliti melakukan studi selektif terhadap mahasiswa, sementara dia tertarik pada fakta bahwa sampel tidak hanya mencerminkan kepemilikan mereka pada satu atau beberapa jenis kelamin, tetapi juga distribusi mereka berdasarkan kursus. Misalkan jumlah total siswa adalah 10.000: 3.200 mahasiswa baru, 2.600 mahasiswa tingkat dua, 2.200 mahasiswa tahun ketiga, dan 2.000 mahasiswa tahun keempat; yang terdiri dari 7.000 anak laki-laki dan 3.000 anak perempuan. Untuk ukuran sampel 1.000, rencana sampling proporsional membutuhkan 320 mahasiswa baru, 260 mahasiswa tahun kedua, 220 tahun ketiga dan 200 lulusan, 700 anak laki-laki dan 300 perempuan. Peneliti dapat menerapkan rencana ini dengan memberikan kuota tertentu kepada setiap pewawancara, yang akan menentukan siswa mana yang harus ia hubungi.

Pengambilan sampel kuota Sampel deterministik, dipilih sedemikian rupa sehingga proporsi elemen sampel dengan karakteristik tertentu kira-kira sesuai dengan proporsi elemen yang sama dalam populasi yang diteliti; setiap pekerja lapangan diberi kuota yang menentukan karakteristik populasi yang harus dihubunginya.

Seorang pewawancara yang akan melakukan 20 wawancara dapat diminta untuk menanyakan:

            • enam siswa tahun pertama - lima laki-laki dan satu perempuan;
            • enam siswa kelas dua - empat laki-laki dan dua perempuan;
            • empat siswa tahun ketiga - tiga laki-laki dan satu perempuan;
            • empat siswa tahun keempat - dua laki-laki dan dua perempuan.

Perhatikan bahwa pemilihan elemen sampel tertentu tidak ditentukan oleh desain penelitian, tetapi oleh pilihan pewawancara, yang dipanggil untuk mematuhi hanya kondisi yang ditentukan oleh kuota: mewawancarai lima mahasiswa baru, satu mahasiswa baru, dll.

Perhatikan juga bahwa kuota ini secara akurat mencerminkan distribusi gender dari populasi siswa, tetapi agak mendistorsi distribusi siswa di seluruh kursus; 70% (14 dari 20) wawancara dilakukan dengan anak laki-laki, tetapi hanya 30% (6 dari 20) dengan siswa tahun pertama, sementara mereka merupakan 32% dari total jumlah siswa. Kuota yang dialokasikan untuk setiap pewawancara individu mungkin tidak, dan biasanya tidak, mencerminkan distribusi karakteristik kontrol dalam populasi—hanya sampel akhir yang harus proporsional.

Harus diingat bahwa pengambilan sampel proporsional lebih bergantung pada sikap atau penilaian pribadi, subjektif daripada pada prosedur pengambilan sampel objektif. Selain itu, berbeda dengan pengambilan sampel yang disengaja, penilaian pribadi di sini bukan milik pengembang proyek, tetapi milik pewawancara. Timbul pertanyaan apakah sampel proporsional dapat dianggap representatif, bahkan jika sampel tersebut mereproduksi rasio komponen yang melekat dalam populasi yang memiliki karakteristik kontrol tertentu. Dalam hal ini, tiga catatan perlu dibuat.

Pertama, sampel mungkin sangat berbeda dari populasi dalam beberapa karakteristik penting lainnya, yang dapat berdampak serius pada hasil. Misalnya, jika studi dikhususkan untuk masalah prasangka rasial di kalangan siswa, mungkin bukan keadaan acuh tak acuh dari mana responden berasal: dari kota atau dari pedesaan. Karena kuota untuk karakteristik "dari kota/pedesaan" belum ditentukan, representasi yang akurat dari karakteristik ini menjadi tidak mungkin. Tentu saja, ada alternatif seperti itu: untuk menentukan kuota untuk semua karakteristik yang berpotensi signifikan. Namun, peningkatan jumlah karakteristik kontrol menyebabkan komplikasi spesifikasi. Ini, pada gilirannya, memperumit - dan kadang-kadang bahkan membuat tidak mungkin - pemilihan elemen sampel dan, dalam hal apa pun, menyebabkan kenaikan harganya. Jika, misalnya, afiliasi perkotaan atau pedesaan dan status sosial ekonomi juga relevan dengan penelitian, maka pewawancara mungkin harus mencari siswa tahun pertama yang perkotaan dan kelas atas atau menengah. Saya setuju bahwa menemukan mahasiswa baru laki-laki jauh lebih mudah.

Kedua, sangat sulit untuk memastikan bahwa sampel ini benar-benar representatif. Tentu saja, Anda dapat memeriksa sampel untuk melihat apakah distribusi karakteristik yang tidak termasuk dalam kontrol, distribusinya dalam populasi. Namun, tes semacam itu hanya dapat mengarah pada kesimpulan negatif. Hal ini dimungkinkan untuk mengungkapkan hanya divergensi distribusi. Jika distribusi sampel dan populasi untuk masing-masing karakteristik ini berulang satu sama lain, ada kemungkinan bahwa sampel berbeda dari populasi dalam beberapa fitur lain yang tidak ditentukan secara eksplisit.

Dan akhirnya, ketiga. Pewawancara, yang dibiarkan sendiri, rentan terhadap tindakan tertentu. Mereka terlalu sering mengajukan pertanyaan kepada teman-teman mereka. Karena mereka sering menjadi seperti pewawancara itu sendiri, ada bahaya kesalahan. Bukti dari Inggris menunjukkan bahwa sampel kuota cenderung:

  1. berlebihan dari peran elemen yang paling mudah diakses;
  2. meremehkan peran keluarga kecil;
  3. berlebihan dari peran keluarga dengan anak-anak;
  4. meremehkan peran pekerja industri;
  5. meremehkan peran mereka yang berpenghasilan tertinggi dan terendah;
  6. meremehkan peran warga yang berpendidikan rendah;
  7. meremehkan peran orang-orang yang menempati posisi sosial yang rendah.
Pewawancara yang memilih kuota yang telah ditentukan dengan menghentikan orang yang lewat secara acak cenderung berfokus pada area dengan jumlah responden potensial yang besar, seperti pusat perbelanjaan, stasiun kereta api dan bandara, pintu masuk ke supermarket besar, dan sejenisnya. Praktik ini mengarah pada representasi berlebihan dari kelompok orang yang paling sering mengunjungi tempat-tempat seperti itu. Ketika kunjungan rumah diperlukan, pewawancara sering didorong oleh kenyamanan.
Misalnya, mereka mungkin melakukan survei hanya pada siang hari, yang mengarah pada meremehkan pendapat pekerja. Antara lain, mereka tidak memasuki gedung bobrok dan, sebagai aturan, tidak naik ke lantai atas gedung yang tidak memiliki lift.

Tergantung pada spesifik masalah yang diteliti, kecenderungan ini dapat menyebabkan berbagai jenis kesalahan, sementara memperbaikinya pada tahap analisis data tampaknya sangat, sangat sulit. Di sisi lain, dengan pemilihan elemen sampel yang objektif, peneliti memiliki alat tertentu yang memungkinkan untuk menyederhanakan prosedur untuk menilai keterwakilan sampel yang diberikan. Ketika menganalisis masalah keterwakilan sampel tersebut, peneliti tidak terlalu mempertimbangkan komposisi sampel sebagai prosedur untuk memilih elemen-elemennya.

Jendela Penelitian: Brilian! Tapi siapa yang akan membacanya?

Setiap tahun, pengiklan menghabiskan jutaan dolar untuk iklan yang muncul di halaman publikasi yang tak terhitung jumlahnya dari Zaman Periklanan hingga Yankee. Penilaian tertentu dari teks dan gambar dapat dilakukan sebelum publikasi, seperti yang mereka katakan, di rumah, di biro iklan; itu tidak benar-benar diuji dan dinilai sampai setelah iklan diterbitkan, dikelilingi oleh lusinan iklan yang dibuat dengan cermat yang bersaing untuk menarik perhatian pembaca.

Perusahaan Roper Starch Di Seluruh Dunia mengevaluasi keterbacaan iklan yang ditempatkan di majalah dan surat kabar konsumen, bisnis, perdagangan dan profesional. Hasil penelitian dibawa ke perhatian pengiklan dan agensi - tentu saja, dengan biaya yang sesuai. Karena pengiklan berusaha keras setiap hari untuk menyampaikan iklan mereka kepada konsumen, perusahaan Pati memutuskan untuk membuat sampel yang akan memberi pelanggan informasi yang tepat waktu dan akurat tentang efektivitas iklan. Setiap tahun perusahaan Pati mewawancarai lebih dari 50.000 orang, sambil mempertimbangkan sekitar 20.000 iklan. Sekitar 500 publikasi individu dipelajari setiap tahun.

Pati menggunakan sampling proporsional, dengan minimal 100 pembaca dari satu jenis kelamin dan 100 pembaca dari jenis kelamin lainnya. Starch menyimpulkan bahwa dengan ukuran sampel ini, penyimpangan utama dalam tingkat keterbacaan menjadi stabil. Pembaca yang berusia di atas 18 tahun diwawancarai secara langsung, dan semua publikasi dipertimbangkan, kecuali yang ditujukan untuk populasi khusus (misalnya, anak perempuan dengan usia yang sesuai diwawancarai untuk mengevaluasi publikasi dari majalah Seventeen).

Saat melakukan survei, area distribusi publikasi tertentu diperhitungkan. Katakanlah studi majalah Los Angeles melihat pembaca yang tinggal di California selatan. "Waktu" dipelajari secara nasional. Survei dikhususkan untuk masalah individu majalah dan dilakukan di 20-30 kota pada waktu yang sama.

Setiap pewawancara diberi sedikit kuota wawancara, yang bertujuan untuk meminimalkan varians hasil survei. Kuesioner dibagikan kepada orang-orang dari berbagai profesi dan usia dengan pendapatan yang berbeda. Setiap studi semacam itu memungkinkan untuk menyajikan posisi kepada pembaca yang cukup luas. Ketika mempertimbangkan sejumlah publikasi profesional, bisnis dan industri, kekhususan langganan dan distribusi mereka juga diperhitungkan. Daftar langganan yang didedikasikan untuk publikasi dengan sirkulasi yang cukup sempit memungkinkan untuk memilih responden yang dapat diterima.

Dalam setiap survei, pewawancara meminta responden untuk menelusuri publikasi dan menanyakan apakah mereka melihat iklan apa pun. Jika jawabannya ya, pendaftar mengajukan serangkaian pertanyaan untuk menilai tingkat penerimaan iklan.

Penilaian ini bisa tiga kali lipat:

  • Perhatikan: mereka yang telah memperhatikan fakta kemunculan pengumuman semacam itu.
  • Mengenal: mereka yang mengingat bagian mana pun dari iklan, yang berhubungan dengan merek dagang atau pengiklan yang diiklankan.
  • Baca: orang yang membaca setidaknya setengah dari iklan.

Setelah mensurvei semua iklan, pewawancara mencatat informasi klasifikasi kunci: jenis kelamin, usia, pekerjaan, status perkawinan, kebangsaan, pendapatan, ukuran keluarga, dan komposisi keluarga, yang memungkinkan tabulasi silang tingkat minat pembaca.

Ketika digunakan dengan benar, data perusahaan Pati memungkinkan pengiklan dan agensi untuk mengidentifikasi jenis skema periklanan yang gagal dan berhasil yang menarik dan menarik perhatian pembaca. Informasi semacam ini sangat berharga bagi pengiklan yang terutama tertarik pada efektivitas kampanye iklan mereka.

Sumber: Roper Starch Worldwide, Mamaronek, NY 10543.

sampel probabilitas

Peneliti dapat menentukan probabilitas memasukkan setiap elemen populasi ke dalam sampel probabilitas, karena pemilihan elemennya dilakukan atas dasar beberapa proses objektif dan tidak bergantung pada keinginan dan kesukaan peneliti atau pekerja lapangan. Karena prosedur pemilihan elemen bersifat objektif, peneliti dapat menilai keandalan hasil yang diperoleh, yang tidak mungkin dilakukan dalam kasus sampel deterministik, tidak peduli seberapa hati-hati pemilihan elemen yang terakhir.

Seharusnya tidak dianggap bahwa sampel probabilistik selalu lebih representatif daripada sampel deterministik. Bahkan, sampel deterministik mungkin juga lebih representatif. Keuntungan dari sampel probabilitas adalah bahwa mereka memungkinkan perkiraan kesalahan sampling potensial. Jika peneliti bekerja dengan sampel deterministik, ia tidak memiliki metode objektif untuk menilai kecukupannya terhadap tujuan penelitian.

Contoh acak sederhana

Kebanyakan orang menemukan sampel acak sederhana dalam satu atau lain cara, baik sebagai bagian dari kursus statistik di institut, atau dengan membaca tentang hasil studi yang relevan di surat kabar atau majalah. Dalam sampel acak sederhana, setiap elemen yang termasuk dalam sampel memiliki probabilitas yang sama untuk berada di antara elemen-elemen yang diteliti, dan setiap kombinasi elemen dalam populasi asli berpotensi menjadi sampel. Misalnya, jika kita ingin membuat sampel acak sederhana dari semua siswa yang terdaftar di perguruan tinggi tertentu, kita hanya perlu membuat daftar semua siswa, menetapkan nomor untuk setiap nama di dalamnya, dan menggunakan komputer untuk secara acak memilih yang diberikan. jumlah elemen.

Populasi

Populasi
Satu set elemen yang memenuhi kondisi tertentu tertentu; disebut juga populasi penelitian (target).
Parameter
Karakteristik atau indikator tertentu dari populasi umum atau yang dipelajari.

Umum, atau dipelajari, ditetapkan adalah koleksi dari mana seleksi dibuat. Populasi (populasi) ini dapat digambarkan dengan sejumlah parameter tertentu yang merupakan karakteristik populasi umum, yang masing-masing merupakan indikator kuantitatif tertentu yang membedakan satu populasi dengan populasi lainnya.

Bayangkan bahwa populasi yang diteliti adalah seluruh populasi dewasa Cincinnati. Sejumlah parameter dapat digunakan untuk menggambarkan populasi ini: usia rata-rata, proporsi penduduk dengan pendidikan tinggi, tingkat pendapatan, dll. Perhatikan bahwa semua indikator ini memiliki nilai tetap tertentu. Tentu saja, kita dapat menghitungnya dengan melakukan sensus lengkap terhadap populasi yang diteliti. Biasanya, kami tidak mengandalkan kualifikasi, tetapi pada sampel kami memilih dan menggunakan nilai yang diperoleh selama pengamatan selektif untuk menentukan parameter populasi yang diinginkan.

Kami menggambarkan apa yang telah dikatakan diberikan dalam Tabel. 15.1 contoh populasi hipotetis 20 orang. Bekerja dengan populasi hipotetis kecil seperti ini memiliki sejumlah keuntungan. Pertama, ukuran sampel yang kecil memudahkan untuk menghitung parameter populasi yang dapat digunakan untuk menggambarkannya. Kedua, volume ini memungkinkan Anda untuk memahami apa yang dapat terjadi ketika rencana pengambilan sampel tertentu diadopsi. Kedua fitur ini memudahkan untuk membandingkan hasil sampel dengan "benar" dan dalam hal ini nilai populasi diketahui, yang tidak terjadi dalam situasi khas di mana nilai populasi sebenarnya tidak diketahui. Perbandingan penilaian dengan nilai "sebenarnya" dalam hal ini memperoleh kejelasan khusus.

Misalkan kita ingin memperkirakan, dari dua item yang dipilih secara acak, pendapatan rata-rata individu dalam populasi asli. Pendapatan rata-rata akan menjadi parameternya. Untuk memperkirakan nilai rata-rata ini, yang kita nyatakan sebagai , kita harus membagi jumlah semua nilai dengan jumlahnya:

Rata-rata populasi = Jumlah elemen populasi / Jumlah elemen.

Dalam kasus kami, perhitungan memberikan:

Populasi turunan

Populasi turunan terdiri dari semua kemungkinan sampel yang dapat dipilih dari populasi umum menurut rencana pengambilan sampel (sampling plan) yang diberikan. Statistik adalah karakteristik, atau indikator, sampel. Nilai statistik sampel digunakan untuk mengestimasi parameter populasi tertentu. Sampel yang berbeda memberikan statistik atau perkiraan yang berbeda untuk parameter populasi yang sama.

Populasi turunan
Himpunan semua sampel yang mungkin dapat dibedakan yang dapat dipilih dari populasi umum menurut rencana pengambilan sampel yang diberikan. Statistik Sebuah karakteristik atau ukuran sampel.

Pertimbangkan himpunan turunan dari semua sampel yang mungkin yang dapat dipilih dari populasi hipotetis kami dari 20 individu di bawah rencana pengambilan sampel yang mengasumsikan bahwa ukuran sampel adalah n=2 diperoleh dengan seleksi acak non-repetitif.

Misalkan sejenak bahwa data untuk setiap unit populasi - dalam kasus kami, nama dan pendapatan individu - ditulis pada lingkaran, setelah itu diturunkan ke dalam kendi dan dicampur. Peneliti mengeluarkan satu lingkaran dari kendi, menghapus informasi darinya dan mengesampingkannya. Dia melakukan hal yang sama dengan cangkir kedua yang diambil dari kendi. Kemudian peneliti mengembalikan kedua cangkir ke kendi, mencampur isinya dan mengulangi urutan tindakan yang sama. Di meja. 15.2 menunjukkan hasil yang mungkin dari prosedur yang disebutkan. Untuk 20 lingkaran, 190 kombinasi pasangan seperti itu dimungkinkan.

Untuk setiap kombinasi, Anda dapat menghitung pendapatan rata-rata. Katakanlah untuk pengambilan sampel AB (k=1)

k-e Rata-Rata Sampel = Jumlah Sampel / Jumlah Sampel =

pada gambar. 15.4 menunjukkan perkiraan pendapatan rata-rata untuk seluruh populasi dan jumlah kesalahan untuk setiap perkiraan untuk sampel k = 25, 62.108.147 dan 189 .

Sebelum melanjutkan untuk mempertimbangkan hubungan antara pendapatan rata-rata sampel (statistik) dan pendapatan rata-rata populasi (parameter yang perlu diestimasi), katakanlah beberapa kata tentang populasi turunan. Pertama, dalam praktiknya kami tidak mengkompilasi agregat semacam ini. Itu akan membutuhkan terlalu banyak waktu dan usaha. Praktisi dibatasi untuk mengumpulkan hanya satu sampel dengan ukuran yang diperlukan. Peneliti menggunakan konsep populasi turunan dan konsep terkait distribusi sampling ketika merumuskan kesimpulan akhir.

Bagaimana akan ditampilkan di bawah ini. Kedua, harus diingat bahwa populasi turunan didefinisikan sebagai totalitas dari semua kemungkinan sampel berbeda yang dapat dipilih dari populasi umum menurut rencana pengambilan sampel yang diberikan. Ketika setiap bagian dari rencana pengambilan sampel diubah, populasi turunan juga berubah. Jadi, jika, ketika memilih lingkaran, peneliti mengembalikan yang pertama dari disk yang dikeluarkan ke kendi sebelum mengeluarkan yang kedua, himpunan turunan akan disertakan.

sampel AA, BB, dll. Jika jumlah sampel yang tidak diulang adalah 3 bukannya 2, akan ada sampel tipe ABC, dan akan ada 1140, bukan 190, seperti yang terjadi pada kasus sebelumnya. Ketika pemilihan acak sederhana diubah ke metode lain untuk menentukan elemen sampel, populasi turunan juga berubah.

Juga harus diingat bahwa pemilihan sampel dengan ukuran tertentu dari populasi umum sama dengan pemilihan satu elemen (1 dari 190) dari populasi turunan. Fakta ini memungkinkan kita untuk menarik banyak kesimpulan statistik.

Rata-rata sampel dan rata-rata umum

Bisakah kita menyamakan rata-rata sampel dengan rata-rata populasi yang sebenarnya? Bagaimanapun, kami melanjutkan dari fakta bahwa mereka saling berhubungan. Namun, kami juga percaya bahwa akan ada kesalahan. Misalnya, dapat diasumsikan bahwa informasi yang diterima dari pengguna Internet akan berbeda secara signifikan dari hasil survei populasi "biasa". Dalam kasus lain, kita dapat mengasumsikan kecocokan yang cukup akurat, jika tidak, kita tidak dapat menggunakan nilai sampel untuk memperkirakan nilai yang umum. Tapi seberapa besar kesalahan yang kita buat dalam melakukannya?

Mari kita jumlahkan semua rata-rata sampel yang terkandung dalam Tabel. 15.2, dan bagi jumlah yang dihasilkan dengan jumlah sampel, yaitu, mari kita rata-ratakan rata-ratanya.
Kita akan mendapatkan hasil sebagai berikut:

Itu bertepatan dengan nilai rata-rata populasi umum. Mereka mengatakan bahwa dalam kasus ini kita berurusan dengan statistik yang tidak bias.

Suatu statistik disebut tidak bias jika rata-ratanya atas semua sampel yang mungkin sama dengan parameter populasi yang diestimasi. Perhatikan bahwa kita tidak berbicara tentang nilai tertentu di sini. Perkiraan parsial bisa sangat jauh dari nilai sebenarnya - ambil, misalnya, sampel AB atau ST. Dalam beberapa kasus, nilai sebenarnya dari populasi mungkin tidak dapat dicapai ketika mempertimbangkan sampel yang mungkin, bahkan jika statistiknya tidak bias. Dalam kasus kami, ini tidak terjadi: sejumlah sampel yang mungkin - misalnya, AT - memberikan rata-rata sampel yang sama dengan rata-rata populasi yang sebenarnya.

Masuk akal untuk mempertimbangkan distribusi perkiraan sampel ini, dan khususnya hubungan antara penyebaran perkiraan ini dan variasi tingkat pendapatan dalam populasi. Varians dari populasi umum digunakan sebagai ukuran variasi. Untuk menentukan varians dari populasi umum, kita harus menghitung deviasi setiap nilai dari mean, menjumlahkan kuadrat dari semua deviasi dan membagi jumlah yang dihasilkan dengan jumlah suku. Dilambangkan dengan a^ varians dari populasi umum. Kemudian:

Varians populasi 2 = Jumlah selisih kuadrat setiap elemen
populasi dan rata-rata populasi / Jumlah elemen populasi =

Penyebaran nilai rata-rata tingkat pendapatan dapat didefinisikan dengan cara yang sama. Artinya, kita dapat menemukannya dengan menentukan deviasi setiap mean dari mean totalnya, menjumlahkan kuadrat deviasinya, dan membagi jumlah yang dihasilkan dengan jumlah suku.

Kita juga dapat mendefinisikan varians dari tingkat pendapatan rata-rata dengan cara lain, menggunakan varians dari tingkat pendapatan dalam populasi umum, karena ada hubungan langsung antara keduanya. Tepatnya, dalam kasus di mana sampel hanya mewakili sebagian kecil dari populasi, varians mean sampel sama dengan varians populasi dibagi dengan ukuran sampel:

di mana x 2 adalah varians dari rata-rata nilai sampel tingkat pendapatan, 2 adalah varians dari tingkat pendapatan dalam populasi umum, n- ukuran sampel.

Sekarang mari kita bandingkan distribusi hasil dengan distribusi sifat kuantitatif pada populasi umum. Gambar 15.5 menunjukkan bahwa distribusi sifat populasi yang ditunjukkan pada kotak A adalah multi-simpul (masing-masing dari 20 nilai muncul hanya sekali) dan simetris tentang rata-rata populasi sebenarnya dari 9400.

Distribusi sampel
Distribusi nilai statistik tertentu yang dihitung untuk semua sampel yang mungkin dapat dibedakan yang dapat diekstraksi dari populasi di bawah rencana pengambilan sampel yang diberikan.

Distribusi nilai yang ditunjukkan pada bidang B didasarkan pada data pada Tabel. 15.3, yang, pada gilirannya, dikompilasi dengan menetapkan nilai dari Tabel. 15.2 ke satu atau kelompok lain, tergantung pada ukurannya, dengan perhitungan selanjutnya dari jumlah mereka dalam kelompok. Bidang B adalah histogram tradisional, dianggap pada awal studi kursus statistik, yang mewakili: distribusi sampel statistik. Kami mencatat secara sepintas sebagai berikut: konsep distribusi sampling adalah konsep statistik yang paling penting, ini adalah landasan konstruksi inferensi statistik. Menurut distribusi sampel yang diketahui dari statistik yang dipelajari, kita dapat menyimpulkan tentang parameter yang sesuai dari populasi umum. Jika hanya diketahui bahwa perkiraan sampel berubah dari sampel ke sampel, tetapi sifat dari perubahan ini tidak diketahui, menjadi tidak mungkin untuk menentukan kesalahan pengambilan sampel yang terkait dengan perkiraan ini. Karena distribusi sampling dari suatu estimasi menjelaskan bagaimana perubahan dari sampel ke sampel, maka distribusi tersebut memberikan dasar untuk menentukan validitas estimasi sampel. Karena alasan inilah desain sampling probabilitas sangat penting untuk inferensi statistik.

Mengingat probabilitas yang diketahui untuk memasukkan setiap anggota populasi ke dalam sampel, pewawancara dapat menemukan distribusi sampel dari berbagai statistik. Distribusi inilah yang diandalkan oleh peneliti—apakah itu rata-rata sampel, fraksi sampel, varians sampel, atau statistik lain—ketika memperluas hasil pengamatan sampel ke populasi umum. Perhatikan juga bahwa untuk sampel berukuran 2, distribusi rata-rata sampel adalah unimodal dan simetris terhadap rata-rata sebenarnya.

Jadi kami telah menunjukkan bahwa:

  1. Rata-rata dari semua rata-rata sampel yang mungkin sama dengan rata-rata umum.
  2. Varians rata-rata sampel terkait dalam beberapa cara dengan varians umum.
  3. Distribusi rata-rata sampel adalah unimodal, sedangkan distribusi nilai atribut kuantitatif dalam populasi umum adalah multimodal.

teorema limit pusat

Sebuah teorema yang mengatakan bahwa untuk sampel acak sederhana berukuran n, diisolasi dari populasi umum dengan rata-rata umum dan varians 2 , pada umumnya n distribusi mean sampel x mendekati normal dengan pusat sama dengan dan varians 2 . Keakuratan perkiraan ini meningkat dengan meningkatnya n.

Teorema limit pusat. Distribusi estimasi unimodal dapat dianggap sebagai manifestasi dari teorema limit pusat, yang menyatakan bahwa untuk sampel volume acak sederhana n, dipilih dari populasi umum dengan mean sebenarnya dan varians 2 , untuk besar n distribusi rata-rata sampel mendekati normal dengan pusat sama dengan rata-rata sebenarnya dan varians sama dengan rasio varians populasi dengan ukuran sampel, yaitu:

Perkiraan ini menjadi lebih dan lebih akurat karena n. Ingat ini. Terlepas dari jenis populasi, distribusi rata-rata sampel akan normal untuk sampel dengan ukuran yang cukup besar. Apa yang dimaksud dengan volume yang cukup besar? Jika distribusi nilai suatu atribut kuantitatif dari populasi umum adalah normal, maka distribusi sampel berarti untuk sampel dengan volume n=1. Jika distribusi variabel (atribut kuantitatif) dalam populasi simetris tetapi tidak normal, sampel dengan ukuran yang sangat kecil akan memberikan distribusi rata-rata sampel yang normal. Jika distribusi atribut kuantitatif dari populasi umum memiliki asimetri yang jelas, ada kebutuhan untuk sampel yang lebih besar. Namun, distribusi rata-rata sampel hanya dapat diambil sebagai normal jika kita berhadapan dengan sampel dengan ukuran yang cukup.

Untuk menarik kesimpulan menggunakan kurva normal, sama sekali tidak perlu melanjutkan dari kondisi normalitas distribusi nilai-nilai atribut kuantitatif dari populasi umum. Sebaliknya, kita mengandalkan teorema limit pusat dan, tergantung pada distribusi populasi, menentukan ukuran sampel yang memungkinkan kita bekerja dengan kurva normal. Untungnya, distribusi statistik normal disediakan oleh sampel dengan ukuran yang relatif kecil - Gambar. 15.6 dengan jelas menunjukkan keadaan ini. Perkiraan interval kepercayaan. Bisakah hal di atas membantu kita membuat kesimpulan tertentu tentang rata-rata umum? Memang, dalam praktiknya, kami hanya memilih satu, dan tidak semua sampel yang mungkin dengan ukuran tertentu, dan berdasarkan data yang diperoleh, kami menarik kesimpulan tertentu mengenai kelompok sasaran.

Bagaimana itu terjadi? Seperti yang Anda ketahui, dengan distribusi normal, persentase tertentu dari semua pengamatan memiliki standar deviasi tertentu; mengatakan 95% dari pengamatan cocok dalam ± 1,96 standar deviasi dari mean. Distribusi normal rata-rata sampel, di mana teorema limit pusat dapat diterapkan, tidak terkecuali dalam pengertian ini. Rata-rata dari distribusi sampel seperti itu sama dengan rata-rata umum , dan simpangan bakunya disebut kesalahan standar rata-rata:

Ternyata:

  • 68,26% rata-rata sampel menyimpang dari rata-rata umum tidak lebih dari ± x ;
  • 95,45% rata-rata sampel menyimpang dari rata-rata umum tidak lebih dari ±σ x ;
  • 99,73% mean sampel menyimpang dari mean umum tidak lebih dari ± x ,

yaitu proporsi tertentu dari sampel berarti tergantung pada nilai yang dipilih z akan dilampirkan dalam interval yang ditentukan oleh nilai z. Ekspresi ini dapat ditulis ulang sebagai ketidaksetaraan:

Rata-rata umum - z < Среднее по выборке < Генеральное среднее + z(Kesalahan standar rata-rata)

dengan demikian, rata-rata sampel dengan probabilitas tertentu berada dalam interval, yang batas-batasnya adalah jumlah dan selisih nilai rata-rata distribusi dan sejumlah standar deviasi tertentu. Pertidaksamaan ini dapat diubah menjadi bentuk:

Sampel rata-rata - z(Kesalahan standar rata-rata)< Генеральное среднее < Среднее по выборке + z(Kesalahan standar rata-rata)

Jika rasio 15,1 diamati, misalnya, dalam 95% kasus ( z= 1,96), maka dalam 95% kasus rasio 15,2 juga diamati. Dalam kasus di mana kesimpulan didasarkan pada rata-rata sampel tunggal, kami menggunakan ekspresi 15.2.

Penting untuk diingat ungkapan itu 15.2 tidak berarti bahwa interval yang sesuai dengan sampel yang diberikan harus mencakup rata-rata umum. Interval lebih berkaitan dengan prosedur pemilihan. Interval yang dibangun di sekitar mean ini mungkin atau mungkin tidak termasuk mean populasi sebenarnya. Keyakinan kami pada kebenaran kesimpulan yang dibuat didasarkan pada fakta bahwa 95% dari semua interval yang dibangun menurut rencana pengambilan sampel yang dipilih akan berisi rata-rata yang sebenarnya. Kami percaya bahwa sampel kami termasuk dalam 95% ini.

Untuk mengilustrasikan poin penting ini, bayangkan sejenak bahwa distribusi sampel berarti untuk sampel ukuran n= 2 dalam contoh hipotetis kami adalah normal. Tabel 15.4 secara grafis menggambarkan hasil untuk 10 pertama dari 190 sampel yang mungkin dapat dipilih sesuai dengan desain yang diberikan. Perhatikan bahwa hanya 7 dari 10 interval yang menyertakan rata-rata umum atau benar. Keyakinan akan kebenaran kesimpulan itu bukan karena penilaian pribadi, tetapi justru prosedur perkiraan. Prosedur ini sedemikian rupa sehingga untuk 100 sampel yang rata-rata sampel dan interval kepercayaannya akan dihitung, dalam 95 kasus interval ini akan mencakup nilai umum yang sebenarnya. Keakuratan sampel ini ditentukan oleh prosedur di mana sampel dibentuk. Rancangan pengambilan sampel yang representatif tidak menjamin keterwakilan semua sampel. Prosedur inferensi statistik didasarkan pada keterwakilan desain pengambilan sampel, itulah sebabnya mengapa prosedur ini sangat penting untuk sampel probabilitas.

Pengambilan sampel probabilistik memungkinkan kita untuk mengevaluasi keakuratan hasil sebagai kedekatan perkiraan yang dihasilkan dengan nilai sebenarnya. Semakin besar kesalahan standar statistik, semakin tinggi tingkat penyebaran perkiraan dan semakin rendah akurasi prosedur.

Beberapa mungkin bingung dengan fakta bahwa tingkat kepercayaan terkait dengan prosedur dan bukan dengan nilai sampel tertentu, tetapi harus diingat bahwa nilai tingkat kepercayaan dari perkiraan nilai umum dapat disesuaikan oleh peneliti. Jika Anda tidak ingin mengambil risiko dan takut bahwa Anda mungkin menemukan salah satu dari lima interval sampel yang dipilih yang tidak termasuk rata-rata populasi, Anda dapat memilih interval kepercayaan 99% di mana hanya satu dari seratus interval sampel tidak termasuk rata-rata populasi. Selanjutnya, jika Anda dapat meningkatkan ukuran sampel, Anda akan meningkatkan tingkat kepercayaan pada hasilnya, memberikan akurasi yang diinginkan dari perkiraan nilai populasi. Kami akan membicarakan ini secara lebih rinci di Bab. 17.

Prosedur yang kami jelaskan memiliki satu komponen lagi, yang dapat menyebabkan rasa malu tertentu. Saat menaksir selang kepercayaan, tiga besaran digunakan: x , z dan x . Rata-rata sampel x dihitung dari data sampel, z dipilih berdasarkan tingkat kepercayaan yang diinginkan. Tetapi bagaimana dengan kesalahan kuadrat rata-rata akar dari rata-rata x ? Ini sama dengan:

dan oleh karena itu, untuk menentukannya, kita perlu menanyakan standar deviasi dari atribut kuantitatif dari populasi umum, yaitu 5. Apa yang harus dilakukan dalam kasus di mana standar deviasi s tidak dikenal? Masalah ini tidak muncul karena dua alasan. Pertama, biasanya untuk sebagian besar karakteristik kuantitatif yang digunakan dalam riset pemasaran, variasi berubah jauh lebih lambat daripada tingkat sebagian besar variabel yang menarik bagi pemasar. Dengan demikian, jika penelitian diulang, kita dapat menggunakan nilai s yang diperoleh sebelumnya dalam perhitungan. Kedua, setelah sampel dipilih dan data diperoleh, kita dapat memperkirakan varians populasi dengan menentukan varians sampel. Varians sampel yang tidak bias didefinisikan sebagai:

Varians sampel ŝ 2 = Jumlah deviasi kuadrat dari mean sampel / (jumlah item sampel -1). Untuk menentukan varians sampel, pertama-tama kita perlu mencari mean sampel. Kemudian perbedaan antara masing-masing nilai sampel dan rata-rata sampel ditemukan; perbedaan ini dikuadratkan, dijumlahkan, dan dibagi dengan angka yang sama dengan jumlah sampel pengamatan dikurangi satu. Varians sampel tidak hanya memberikan perkiraan varians total, tetapi juga dapat digunakan untuk memperkirakan kesalahan standar mean. Jika varians umum 2 diketahui, kesalahan akar kuadrat rata-rata x juga diketahui, karena:

Ketika varians umum tidak diketahui, kesalahan standar rata-rata hanya dapat diperkirakan. Perkiraan ini diberikan ŝ x , yang sama dengan simpangan baku sampel dibagi dengan akar kuadrat dari ukuran sampel, yaitu . Estimasi ditentukan dengan cara yang sama seperti estimasi nilai sebenarnya ditentukan, tetapi sebagai ganti standar deviasi umum, standar deviasi sampel diganti ke dalam rumus perhitungan. Jadi, misalkan untuk sampel AB dengan rata-rata sampel 5800:

Dengan demikian, = 283, dan

dan jarak 95% sekarang

yang lebih kecil dari nilai sebelumnya.

Di meja. 15.5 merangkum rumus perhitungan untuk berbagai rata-rata dan dispersi, yang dibahas dalam bab ini. Pembentukan sampel acak sederhana. Dalam contoh kita, pemilihan elemen sampel dilakukan dengan menggunakan kendi, yang berisi semua elemen populasi asli. Ini memungkinkan kami untuk memvisualisasikan konsep populasi turunan dan distribusi sampel. Kami tidak menyarankan menggunakan metode seperti itu dalam praktik, karena ini meningkatkan kemungkinan kesalahan. Mug dapat berbeda dalam ukuran dan tekstur, yang dalam kasus tertentu dapat menyebabkan preferensi untuk satu dari yang lain. Pemilihan peserta dalam kampanye Vietnam, yang dilakukan melalui undian, dapat menjadi contoh kesalahan semacam ini.

Seleksi dilakukan dengan menarik cakram-cakram bertanggal lahir dari drum besar. Televisi menyiarkan prosedur ini ke seluruh negeri. Sayangnya, disk dimasukkan ke dalam drum secara sistematis, dengan tanggal Januari didahulukan dan tanggal Desember terakhir. Meskipun drum mengalami pemintalan yang intens, tanggal Desember jatuh lebih sering daripada Januari. Selanjutnya, prosedur ini direvisi sedemikian rupa sehingga kemungkinan kesalahan sistematis seperti itu berkurang secara signifikan. Metode yang disukai untuk menghasilkan sampel acak sederhana didasarkan pada penggunaan tabel bilangan acak.

Menggunakan tabel seperti itu melibatkan urutan langkah-langkah berikut. Pertama, elemen populasi harus diberi nomor berurutan dari 1 hingga N; dalam populasi hipotetis kami ke elemen TETAPI nomor 1 akan ditugaskan ke elemen B- angka 2, dst. Kedua, jumlah angka pada tabel bilangan acak harus sama dengan angka tersebut N. Untuk N= 20 angka dua digit akan digunakan; untuk N antara 100 dan 999 - angka tiga digit, dll. Ketiga, posisi awal harus ditentukan secara acak. Kita dapat membuka tabel angka acak yang sesuai dan, menutup mata kita, seperti yang mereka katakan, menyodoknya dengan jari. Karena angka-angka dalam tabel angka acak dalam urutan acak, posisi awal tidak terlalu penting.

Dan akhirnya, kita dapat bergerak ke segala arah yang dipilih secara sewenang-wenang - ke atas, ke bawah atau ke seberang, memilih elemen-elemen yang jumlahnya akan sesuai dengan angka acak dari tabel. Untuk mengilustrasikan apa yang telah dikatakan, perhatikan tabel singkatan bilangan acak (Tabel 15.6). Karena N= 20, kita hanya bekerja dengan angka dua digit. Dalam pengertian ini, Tab. 15.6 sangat cocok untuk kita. Misalkan kita telah memutuskan sebelumnya untuk bergerak ke bawah kolom, posisi awal berada di persimpangan baris kesebelas dan kolom keempat, di mana angka 77 berada.Jumlah ini terlalu besar dan oleh karena itu harus dibuang. Dua angka berikutnya juga akan dibuang, sedangkan nilai keempat 02 akan digunakan karena 2 adalah angka elemen PADA.

Lima angka berikutnya juga akan dibuang karena terlalu besar, sedangkan angka 05 akan menunjukkan elemennya E. Jadi elemennya PADA dan E akan menjadi sampel dua elemen kami, yang dengannya kami akan menilai tingkat pendapatan populasi ini. Strategi alternatif juga dimungkinkan, di mana program komputer yang menghasilkan angka acak akan digunakan sebagai dasar pemilihan. Publikasi terbaru menunjukkan bahwa angka yang dihasilkan oleh program semacam itu tidak sepenuhnya acak, yang dapat memanifestasikan dirinya dengan cara tertentu ketika membangun model matematika yang kompleks, tetapi angka tersebut dapat digunakan untuk sebagian besar riset pemasaran terapan. Perhatikan lagi bahwa sampel acak sederhana memerlukan kompilasi daftar elemen populasi umum yang diberi nomor urut.

Dengan kata lain, setiap anggota populasi asli harus diidentifikasi. Untuk beberapa populasi, ini tidak sulit untuk dilakukan, misalnya, dalam studi terhadap 500 perusahaan Amerika terbesar, yang daftarnya diberikan di majalah Fortune. Daftar ini sudah disusun, sehingga pembentukan sampel acak sederhana dalam hal ini tidak akan sulit. Untuk populasi awal lainnya (misalnya, untuk semua keluarga yang tinggal di kota tertentu), menyusun daftar umum sangat sulit, yang memaksa peneliti untuk menggunakan skema survei sampel lainnya.

Ringkasan

Tujuan pembelajaran 1
Bedakan dengan jelas antara konsep sensus (kualifikasi) dan sampling

Sensus penduduk (penduduk) yang lengkap disebut memenuhi syarat. Sampel set, dibentuk dari elemen yang dipilih.

Tujuan pembelajaran 2
Mengetahui intisari dan urutan keenam tahapan yang dilakukan peneliti untuk mendapatkan populasi sampel

Proses pengambilan sampel dibagi menjadi enam langkah:

  1. penugasan penduduk;
  2. penentuan kerangka sampling;
  3. pilihan prosedur seleksi;
  4. penentuan ukuran sampel;
  5. pemilihan elemen sampel;
  6. pemeriksaan elemen yang dipilih.

Tujuan pembelajaran 3
Mendefinisikan konsep "sampling frame"

Kerangka pengambilan sampel adalah daftar item dari mana sampel akan diambil.

Tujuan pembelajaran 4
Jelaskan perbedaan antara sampling probabilistik dan deterministik!

Dalam sampel probabilistik, setiap anggota populasi dapat dimasukkan dengan diberikan bukan nol kemungkinan. Probabilitas memasukkan anggota populasi tertentu ke dalam sampel mungkin berbeda satu sama lain, tetapi probabilitas memasukkan setiap elemen di dalamnya diketahui. Untuk sampel deterministik, memperkirakan probabilitas memasukkan elemen apa pun dalam sampel menjadi tidak mungkin. Keterwakilan sampel semacam itu tidak dapat dijamin. Semua pilihan deterministik didasarkan, lebih tepatnya, pada posisi, penilaian, atau preferensi pribadi. Preferensi semacam itu terkadang dapat memberikan perkiraan yang baik tentang karakteristik populasi, tetapi tidak ada cara untuk secara objektif menentukan kesesuaian sampel untuk tugas tersebut.

Tujuan pembelajaran 5
Bedakan antara pengambilan sampel ukuran tetap dan pengambilan sampel multi-tahap (berturut-turut)

Saat bekerja dengan sampel berukuran tetap, ukuran sampel ditentukan sebelum dimulainya survei dan analisis hasil didahului dengan pengumpulan semua data yang diperlukan. Dalam sampel sekuensial, jumlah elemen yang dipilih tidak diketahui sebelumnya, ditentukan berdasarkan serangkaian keputusan berurutan.

Tujuan pembelajaran 6
Jelaskan apa yang dimaksud dengan pengambilan sampel yang disengaja dan jelaskan kekuatan dan kelemahannya

Item sampling yang disengaja dipilih dengan tangan dan disajikan kepada peneliti yang sesuai untuk tujuan survei. Diasumsikan bahwa elemen-elemen yang dipilih dapat memberikan gambaran yang utuh tentang populasi yang diteliti. Selama peneliti berada pada tahap awal pemecahan masalah, ketika prospek dan kemungkinan keterbatasan survei yang direncanakan sedang ditentukan, penggunaan sampling yang disengaja bisa sangat efektif. Tetapi dalam hal apapun kita tidak boleh melupakan kelemahan dari sampel jenis ini, karena sampel ini juga dapat digunakan oleh peneliti dalam studi deskriptif atau kausal, yang tidak akan lambat mempengaruhi kualitas hasil mereka.

Tujuan pembelajaran 7
Jelaskan konsep pengambilan sampel kuota

Pengambilan sampel proporsional dipilih sedemikian rupa sehingga proporsi elemen sampel dengan karakteristik tertentu kira-kira sesuai dengan proporsi elemen yang sama dalam populasi yang diteliti; untuk melakukan ini, setiap konter diberi kuota yang menentukan karakteristik populasi yang harus dihubungi.

Tujuan pembelajaran 8
Jelaskan apa yang dimaksud dengan parameter dalam prosedur pemilihan

Parameter - karakteristik atau indikator tertentu dari populasi umum atau yang dipelajari; indikator kuantitatif tertentu yang membedakan satu set dari yang lain.

Tujuan pembelajaran 9
Jelaskan apa yang dimaksud dengan himpunan turunan!

Populasi turunan terdiri dari semua kemungkinan sampel yang dapat dipilih dari populasi umum menurut rencana pengambilan sampel yang diberikan.

Tujuan pembelajaran 10
Jelaskan mengapa konsep distribusi sampling merupakan konsep statistik yang paling penting.

Konsep distribusi sampling adalah landasan inferensi statistik. Menurut distribusi sampel yang diketahui dari statistik yang dipelajari, kita dapat menyimpulkan tentang parameter yang sesuai dari populasi umum. Jika hanya diketahui bahwa perkiraan sampel berubah dari sampel ke sampel, tetapi sifat dari perubahan ini tidak diketahui, menjadi tidak mungkin untuk menentukan kesalahan pengambilan sampel yang terkait dengan perkiraan ini. Karena distribusi sampling dari suatu estimasi menjelaskan bagaimana perubahan dari sampel ke sampel, maka distribusi tersebut memberikan dasar untuk menentukan validitas estimasi sampel.

Empiris dianggap sebagai salah satu cara utama mempelajari hubungan dan proses sosial. Mereka memberikan informasi yang andal, lengkap, dan representatif.

Kekhususan teknik

Empiris memberikan pengetahuan yang memfiksasi fakta. Mereka berkontribusi pada pembentukan dan generalisasi keadaan melalui pendaftaran tidak langsung atau langsung dari peristiwa yang melekat dalam hubungan yang dipelajari, objek, fenomena. Metode empiris berbeda dari metode teoritis dalam hal pokok analisisnya adalah:

  1. Perilaku individu dan kelompoknya.
  2. Produk aktivitas manusia.
  3. Tindakan verbal individu, penilaian, pandangan, pendapat mereka.

Studi sampel

Kajian empiris selalu menitikberatkan pada perolehan informasi yang objektif dan akurat, data kuantitatif. Dalam hal ini, ketika dilakukan, perlu untuk memastikan keterwakilan informasi. Dengan demikian, benar kumpulan sampel. dia Artinya pemilihan harus dilakukan sedemikian rupa sehingga data yang diperoleh dari kelompok sempit mencerminkan kecenderungan yang terjadi pada massa responden secara umum. Misalnya, ketika polling 200-300 orang, data yang diperoleh dapat diekstrapolasi ke seluruh penduduk perkotaan. Indikator dari kumpulan sampel memungkinkan pendekatan yang berbeda untuk mempelajari proses sosial-ekonomi di wilayah tersebut, di negara secara keseluruhan.

Terminologi

Untuk lebih memahami isu-isu yang terkait dengan survei sampel, beberapa definisi perlu diklarifikasi. Unit observasi adalah sumber informasi langsung. Itu bisa berupa individu, kelompok, dokumen, organisasi, dan sebagainya. populasi umum adalah kumpulan unit pengamatan. Semuanya harus relevan dengan masalah yang sedang dipelajari. tunduk pada analisis langsung. Kajian dilakukan sesuai dengan metode pengumpulan informasi yang dikembangkan. Untuk menentukan proporsi seluruh rangkaian responden ini, gunakan konsep "sampel". Propertinya untuk mencerminkan parameter kunci dari total massa orang disebut keterwakilan. Dalam beberapa kasus tidak ada kecocokan. Kemudian seseorang berbicara tentang kesalahan keterwakilan.

Memastikan keterwakilan

Isu-isu yang terkait dengannya dipertimbangkan secara rinci dalam kerangka statistik. Masalahnya kompleks karena, di satu sisi, kita berbicara tentang memberikan representasi kuantitatif yang memberikan populasi umum. dia berarti, khususnya, kelompok responden harus terwakili dalam jumlah yang optimal. Kuantitas harus cukup untuk representasi normal. Di sisi lain, itu juga berarti representasi kualitatif. Ini mengandaikan komposisi subjek tertentu, yang membentuk kumpulan sampel. dia artinya, misalnya, keterwakilan tidak bisa dibicarakan jika hanya laki-laki atau perempuan saja yang diwawancarai. Studi harus dilakukan dalam semua kelompok yang diwakili.

Karakteristik sampel

Istilah ini dipertimbangkan dalam dua aspek. Pertama-tama, itu didefinisikan sebagai kompleks elemen dari susunan umum orang yang pendapatnya sedang dipelajari - ini adalah kumpulan sampel. dia juga proses menciptakan kategori responden tertentu dengan keterwakilan yang dibutuhkan. Dalam prakteknya, ada beberapa jenis dan jenis seleksi. Mari kita pertimbangkan mereka.

Jenis

Ada tiga di antaranya:

  1. spontan kumpulan sampel. dia sekumpulan responden yang dipilih secara sukarela. Pada saat yang sama, aksesibilitas masuknya unit dari total massa orang ke dalam kelompok studi tertentu dipastikan. Seleksi spontan dalam praktiknya cukup sering digunakan. Misalnya, dalam survei di pers, melalui surat. Namun, pendekatan ini memiliki kelemahan yang signifikan. Tidak mungkin untuk secara kualitatif mewakili seluruh volume sampel umum. Teknik ini diterapkan berkaitan dengan ekonomi. Dalam beberapa survei, opsi ini adalah satu-satunya yang memungkinkan.
  2. spontan kumpulan sampel. dia salah satu metode utama yang digunakan dalam penelitian ini. Prinsip utama dari seleksi tersebut adalah penyediaan kesempatan untuk setiap unit pengamatan untuk mendapatkan dari massa umum individu ke dalam kelompok sempit. Untuk ini, metode yang berbeda digunakan. Misalnya, itu bisa berupa lotere, seleksi mekanis, tabel angka acak.
  3. Pengambilan sampel bertingkat (kuota). Hal ini didasarkan pada pembentukan model kualitatif dari total massa responden. Setelah itu dilakukan pemilihan unit dalam populasi sampel. Misalnya dilakukan menurut umur atau jenis kelamin, menurut golongan penduduk, dan sebagainya.

jenis

Ada pilihan berikut:

Selain itu

Sampel juga dapat bersifat dependen dan independen. Dalam kasus pertama, prosedur percobaan dan hasil yang akan diperoleh selama itu untuk satu kelompok responden memiliki dampak tertentu pada yang lain. Dengan demikian, sampel independen tidak menyiratkan dampak seperti itu. Di sini, bagaimanapun, satu poin penting harus dicatat. Satu kelompok mata pelajaran, yang pemeriksaan psikologisnya dilakukan dua kali (bahkan jika itu ditujukan untuk mempelajari kualitas, fitur, tanda yang berbeda), secara default, akan dianggap tergantung.

Pilihan probabilistik

Pertimbangkan beberapa jenis sampel:

  1. Acak. Ini mengasumsikan homogenitas total populasi, satu kemungkinan ketersediaan semua komponen, serta adanya daftar elemen yang lengkap. Sebagai aturan, tabel dengan nomor acak digunakan dalam proses pemilihan.
  2. Mekanis. Pengambilan sampel acak semacam ini melibatkan pengurutan menurut atribut tertentu. Misalnya berdasarkan nomor telepon, menurut abjad, berdasarkan tanggal lahir, dan sebagainya. Komponen pertama dipilih secara acak. Selanjutnya, setiap k elemen dipilih dengan langkah n. Nilai dari total populasi adalah N=k*n.
  3. bertingkat. Sampel ini digunakan jika jumlah populasinya heterogen. Yang terakhir ini dibagi menjadi strata (kelompok). Di masing-masing dari mereka, pemilihan dilakukan secara mekanis atau acak.
  4. Serial. Kelompok dipilih secara acak. Di dalamnya, objek dipelajari sepanjang jalan.

Pilihan yang luar biasa

Mereka melibatkan pengambilan sampel bukan atas dasar keacakan, tetapi atas dasar subjektif: kekhasan, aksesibilitas, representasi yang setara, dan sebagainya. Pilihan dalam kategori ini meliputi:

Nuansa

Daftar unit populasi yang akurat dan lengkap diperlukan untuk memastikan keterwakilan. Objek pengamatan, sebagai suatu peraturan, adalah satu orang. Pemilihan dari daftar paling baik dilakukan dengan penomoran satuan dan menggunakan tabel dengan angka acak. Tetapi metode kuasi-acak juga sering digunakan. Ini mengasumsikan seleksi dari daftar setiap elemen n.

Faktor yang mempengaruhi

Volume suatu populasi adalah jumlah unitnya. Menurut para ahli, tidak harus besar. Tidak diragukan lagi, semakin besar jumlah responden, semakin akurat hasilnya. Namun, pada saat yang sama, volume besar tidak selalu menjamin kesuksesan. Misalnya, hal ini terjadi ketika total array responden adalah heterogen. Homogen akan dianggap sebagai set di mana parameter yang dikontrol, misalnya, tingkat melek huruf, didistribusikan secara merata, yaitu, tidak ada rongga atau kondensasi. Dalam hal ini, itu akan cukup untuk mewawancarai beberapa orang. Berdasarkan hasil survei tersebut dapat disimpulkan bahwa mayoritas masyarakat memiliki tingkat literasi yang normal. Dari sini dapat disimpulkan bahwa keterwakilan informasi tidak dipengaruhi oleh karakteristik kuantitatif, tetapi oleh karakteristik kualitatif populasi - tingkat homogenitasnya, khususnya.

kesalahan

Mereka mewakili penyimpangan parameter rata-rata populasi sampel dari nilai massa total responden. Dalam prakteknya, kesalahan ditentukan oleh pencocokan. Saat mensurvei orang dewasa, biasanya digunakan data dari sensus, catatan statistik, dan hasil survei sebelumnya. Parameter kontrol biasanya Perbandingan nilai rata-rata populasi (umum dan sampel), penentuan kesalahan sesuai dengan ini dan pengurangan penyimpangan ini disebut kontrol keterwakilan.

kesimpulan

Penelitian sampel adalah cara mengumpulkan data tentang sikap dan perilaku masyarakat melalui survei terhadap kelompok responden yang dipilih secara khusus. Teknik ini dianggap handal dan ekonomis, meskipun membutuhkan teknik tertentu. Sampel adalah dasarnya. Ini bertindak sebagai proporsi tertentu dari total massa orang. Pemilihan dilakukan dengan menggunakan teknik khusus dan bertujuan untuk memperoleh informasi tentang seluruh populasi. Yang terakhir, pada gilirannya, diwakili oleh semua objek sosial yang mungkin atau oleh kelompok yang akan dipelajari. Seringkali, populasinya sangat besar sehingga membutuhkan biaya dan kerumitan untuk melakukan survei terhadap setiap anggotanya. Oleh karena itu, model yang direduksi digunakan. Sampel meliputi semua orang yang menerima kuisioner, yang disebut responden, yang sebenarnya bertindak sebagai objek penelitian. Sederhananya, itu terdiri dari banyak orang yang diwawancarai.

Kesimpulan

Tujuan survei ditentukan oleh kategori tertentu yang termasuk dalam populasi. Adapun bagian tertentu dari total massa orang, itu terdiri dari mata pelajaran yang termasuk dalam kelompok menggunakan perhitungan matematis. Untuk pemilihan unit, diperlukan deskripsi objek populasi awal. Setelah menentukan jumlah mata pelajaran, selanjutnya ditentukan penerimaan atau metode pembentukan kelompok. Hasil survei akan memungkinkan kami untuk menggambarkan sifat yang diteliti dalam kaitannya dengan semua perwakilan dari massa umum orang. Seperti yang ditunjukkan oleh praktik, studi selektif daripada studi berkelanjutan terutama dilakukan.

Studi statistik sangat memakan waktu dan mahal, sehingga muncul ide untuk mengganti observasi berkelanjutan dengan observasi selektif.

Tujuan utama dari observasi non-kontinyu adalah untuk mendapatkan karakteristik statistik populasi yang diteliti untuk bagian yang diperiksa.

Pengamatan selektif- ini adalah metode penelitian statistik, di mana indikator generalisasi populasi ditetapkan hanya untuk satu bagian, berdasarkan ketentuan pemilihan acak.

Dalam metode pengambilan sampel, hanya sebagian tertentu dari populasi yang diteliti yang dipelajari, sedangkan populasi statistik yang akan diteliti disebut populasi umum.

Sampel atau sederhananya sampel dapat disebut sebagai bagian dari unit-unit yang dipilih dari populasi umum, yang akan dijadikan sasaran penelitian statistik.

Nilai metode pengambilan sampel: dengan jumlah unit yang diteliti minimum, penelitian statistik akan dilakukan dalam periode waktu yang lebih singkat dan dengan biaya dana dan tenaga yang paling rendah.

Dalam populasi umum, proporsi satuan yang memiliki sifat yang diteliti disebut proporsi umum (dilambangkan R), dan nilai rata-rata sifat variabel yang diteliti adalah rata-rata umum (dilambangkan X).

Dalam populasi sampel, bagian dari sifat yang dipelajari disebut bagian sampel, atau bagian (dilambangkan dengan w), nilai rata-rata dalam sampel adalah sampel berarti.

Jika selama periode survei semua aturan organisasi ilmiahnya dipatuhi, maka metode pengambilan sampel akan memberikan hasil yang cukup akurat, dan oleh karena itu disarankan untuk menggunakan metode ini untuk memverifikasi data pengamatan berkelanjutan.

Metode ini telah menyebar luas di statistik negara bagian dan non-departemen, karena ketika mempelajari jumlah minimum unit yang diteliti, memungkinkan untuk studi yang menyeluruh dan akurat.

Populasi statistik yang diteliti terdiri dari satuan-satuan dengan karakteristik yang berbeda-beda. Komposisi sampel mungkin berbeda dari komposisi populasi umum, perbedaan antara karakteristik sampel dan populasi umum ini merupakan kesalahan pengambilan sampel.

Kesalahan yang melekat dalam pengamatan selektif mencirikan ukuran perbedaan antara data pengamatan selektif dan seluruh populasi. Kesalahan yang terjadi selama pengambilan sampel disebut kesalahan keterwakilan dan dibagi menjadi acak dan sistematis.

Jika populasi sampel tidak secara akurat mereproduksi seluruh populasi karena sifat pengamatan yang tidak kontinu, maka ini disebut kesalahan acak, dan ukurannya ditentukan dengan akurasi yang cukup berdasarkan hukum bilangan besar dan teori probabilitas.

Kesalahan sistematis muncul sebagai akibat dari pelanggaran prinsip pemilihan acak unit populasi untuk pengamatan.

2. Jenis dan skema seleksi

Besarnya kesalahan pengambilan sampel dan metode untuk menentukannya tergantung pada jenis dan skema pemilihan.

Ada empat jenis pemilihan satu set unit pengamatan:

1) acak;

2) mekanis;

3) khas;

4) serial (bersarang).

seleksi acak- metode pemilihan yang paling umum dalam sampel acak, ini juga disebut metode lotere, di mana tiket dengan nomor seri disiapkan untuk setiap unit populasi statistik.

Selanjutnya, jumlah unit populasi statistik yang diperlukan dipilih secara acak. Di bawah kondisi ini, masing-masing dari mereka memiliki kemungkinan yang sama untuk masuk ke sampel, misalnya, undian kemenangan, ketika bagian tertentu dari angka yang memperhitungkan kemenangan dipilih secara acak dari jumlah total tiket yang dikeluarkan. Dalam hal ini, semua nomor diberikan kesempatan yang sama untuk masuk ke dalam sampel.

Seleksi mekanis- ini adalah metode ketika seluruh populasi dibagi menjadi kelompok-kelompok berukuran homogen secara acak, maka hanya satu unit yang diambil dari setiap kelompok. Semua unit populasi statistik yang dipelajari telah diatur sebelumnya dalam urutan tertentu, tetapi tergantung pada ukuran sampel, jumlah unit yang diperlukan dipilih secara mekanis pada interval tertentu.

Pilihan tipikal - ini adalah metode di mana populasi statistik yang diteliti dibagi menurut ciri khas yang esensial ke dalam kelompok-kelompok serupa yang homogen secara kualitatif, kemudian sejumlah unit tertentu dipilih secara acak dari masing-masing kelompok ini, sebanding dengan bagian kelompok dalam seluruh populasi.

Pemilihan tipikal memberikan hasil yang lebih akurat, karena mencakup perwakilan dari semua kelompok tipikal dalam sampel.

Pemilihan serial (bersarang). Seluruh grup (seri, sarang), dipilih secara acak atau mekanis, tunduk pada seleksi. Untuk setiap kelompok tersebut, dilakukan pengamatan seri, terus menerus, dan hasilnya ditransfer ke seluruh populasi.

Akurasi sampling juga tergantung pada skema pemilihan. Pengambilan sampel dapat dilakukan sesuai dengan skema seleksi berulang dan tidak berulang.

Pemilihan ulang. Setiap unit atau seri yang dipilih dikembalikan ke seluruh populasi dan dapat diambil sampelnya kembali, inilah yang disebut skema bola kembali.

Seleksi berulang. Setiap unit yang disurvei ditarik dan tidak dikembalikan ke populasi, sehingga tidak disurvei ulang. Skema ini disebut bola yang tidak dikembalikan.

Seleksi non-repetitif memberikan hasil yang lebih akurat, karena dengan ukuran sampel yang sama, pengamatan mencakup lebih banyak unit populasi yang diteliti.

Pilihan gabungan dapat melalui satu atau lebih langkah. Sampel disebut satu tahap jika unit-unit populasi yang dipilih sekali menjadi sasaran penelitian.

Suatu sampel disebut multitahap jika pemilihan populasinya melewati tahapan-tahapan, tahapan-tahapan yang berurutan, dan setiap tahapan, tahapan seleksi memiliki unit seleksinya sendiri-sendiri.

Pengambilan sampel multi-fase - pada semua tahap pengambilan sampel, unit pengambilan sampel yang sama dipertahankan, tetapi beberapa tahap, fase survei sampel dilakukan, yang berbeda satu sama lain dalam luas program survei dan ukuran sampel.

Karakteristik parameter populasi umum dan sampel ditunjukkan dengan simbol-simbol berikut:

N- volume populasi umum;

n- ukuran sampel;

X- Rata-rata umum;

X adalah rata-rata sampel;

R– bagian umum;

w - bagian sampel;

2 - varians umum (dispersi fitur dalam populasi umum);

2 - varians sampel dari fitur yang sama;

? - simpangan baku pada populasi umum;

adalah simpangan baku dalam sampel.

3. Kesalahan pengambilan sampel

Setiap unit dalam pengamatan sampel harus memiliki kesempatan yang sama untuk dipilih dengan yang lain - ini adalah dasar dari sampel acak.

Pengambilan sampel secara acak sendiri - ini adalah pemilihan unit dari seluruh populasi umum dengan lotere atau dengan cara lain yang serupa.

Prinsip keacakan adalah bahwa dimasukkan atau dikeluarkannya suatu objek dari sampel tidak dapat dipengaruhi oleh faktor apa pun selain kebetulan.

Berbagi sampel adalah rasio jumlah unit dalam sampel dengan jumlah unit dalam populasi umum:


Seleksi acak mandiri dalam bentuknya yang murni adalah yang pertama di antara semua jenis seleksi lainnya; ia berisi dan menerapkan prinsip-prinsip dasar pengamatan statistik selektif.

Dua jenis utama indikator generalisasi yang digunakan dalam metode pengambilan sampel adalah nilai rata-rata atribut kuantitatif dan nilai relatif atribut alternatif.

Bagian sampel (w), atau kekhususan, ditentukan oleh rasio jumlah unit yang memiliki sifat yang diteliti m, dengan jumlah total unit pengambilan sampel (n):


Untuk mengkarakterisasi keandalan indikator sampel, kesalahan rata-rata dan marjinal sampel dibedakan.

Kesalahan pengambilan sampel, juga disebut kesalahan keterwakilan, adalah perbedaan antara sampel yang sesuai dan karakteristik umum:

?x = | x - x |;

?w =|х – p|.

Hanya pengamatan sampel yang memiliki kesalahan pengambilan sampel

Rata-rata sampel dan proporsi sampel- ini adalah variabel acak yang mengambil nilai berbeda tergantung pada unit populasi statistik yang dipelajari yang dimasukkan dalam sampel. Dengan demikian, kesalahan pengambilan sampel juga merupakan variabel acak dan juga dapat mengambil nilai yang berbeda. Oleh karena itu, rata-rata kesalahan yang mungkin ditentukan - kesalahan pengambilan sampel rata-rata.

Rata-rata kesalahan pengambilan sampel ditentukan oleh ukuran sampel: semakin besar populasi, semua hal lain dianggap sama, semakin kecil kesalahan pengambilan sampel rata-rata. Meliputi survei sampel dengan peningkatan jumlah unit populasi umum, kami semakin akurat mencirikan seluruh populasi.

Rata-rata kesalahan pengambilan sampel tergantung pada tingkat variasi sifat yang dipelajari, pada gilirannya, tingkat variasi dicirikan oleh varians? 2 atau w(l - w)- untuk tanda alternatif. Semakin kecil variasi fitur dan varians, semakin kecil mean sampling error, dan sebaliknya.

Untuk pengambilan sampel ulang acak, kesalahan rata-rata secara teoritis dihitung menggunakan rumus berikut:

1) untuk sifat kuantitatif rata-rata:


di mana? 2 - nilai rata-rata dispersi sifat kuantitatif.

2) untuk berbagi (tanda alternatif):


Jadi bagaimana varians dari sifat dalam populasi? 2 tidak diketahui secara pasti, dalam praktiknya mereka menggunakan nilai varians S 2 yang dihitung untuk populasi sampel berdasarkan hukum bilangan besar, yang menurutnya populasi sampel dengan ukuran sampel yang cukup besar secara akurat mereproduksi karakteristik populasi umum.

Rumus untuk mean sampling error untuk random resampling adalah sebagai berikut. Untuk nilai rata-rata atribut kuantitatif: varians umum dinyatakan melalui pilihan dengan rasio berikut:


di mana S2 adalah nilai dispersi.

Pengambilan sampel mekanis- ini adalah pemilihan unit dalam kumpulan sampel dari umum, yang dibagi menjadi kelompok yang sama sesuai dengan kriteria netral; dilakukan sedemikian rupa sehingga hanya satu unit yang dipilih dari setiap kelompok tersebut dalam sampel.

Dengan seleksi mekanis, unit populasi statistik yang diteliti sebelumnya diatur dalam urutan tertentu, setelah itu sejumlah unit tertentu dipilih secara mekanis pada interval tertentu. Dalam hal ini, ukuran interval dalam populasi umum sama dengan kebalikan dari bagian sampel.

Dengan populasi yang cukup besar, pemilihan mekanis dalam hal akurasi hasil mendekati yang acak, oleh karena itu untuk menentukan kesalahan rata-rata dari sampling mekanis digunakan rumus random non-repetitive sampling.

Untuk memilih unit dari populasi yang heterogen, yang disebut sampel tipikal digunakan, digunakan ketika semua unit populasi umum dapat dibagi menjadi beberapa kelompok yang homogen secara kualitatif dan serupa sesuai dengan karakteristik di mana indikator yang dipelajari bergantung.

Kemudian, dari setiap kelompok tipikal, pemilihan unit individual ke dalam sampel dibuat dengan sampel acak atau mekanis.

Sampling tipikal biasanya digunakan dalam studi populasi statistik yang kompleks.

Sampling tipikal memberikan hasil yang lebih akurat. Tipifikasi populasi umum memastikan keterwakilan sampel semacam itu, representasi setiap kelompok tipologis di dalamnya, yang memungkinkan untuk mengecualikan pengaruh dispersi antarkelompok pada kesalahan sampel rata-rata. Oleh karena itu, ketika menentukan kesalahan rata-rata sampel tipikal, rata-rata varians intragrup bertindak sebagai indikator variasi.

Pengambilan sampel serial melibatkan pemilihan acak dari populasi umum dari kelompok berukuran sama untuk menjadikan semua unit subjek tanpa kecuali untuk pengamatan dalam kelompok tersebut.

Karena semua unit tanpa kecuali diperiksa dalam kelompok (deret), kesalahan pengambilan sampel rata-rata (ketika memilih deret berukuran sama) hanya bergantung pada varians antargrup (antarseri).

4. Cara memperluas hasil sampel ke populasi

Karakterisasi populasi umum berdasarkan hasil sampel adalah tujuan akhir dari pengamatan sampel.

Metode pengambilan sampel digunakan untuk memperoleh karakteristik populasi umum untuk indikator sampel tertentu. Tergantung pada tujuan penelitian, ini dilakukan dengan penghitungan ulang langsung indikator sampel untuk populasi umum atau dengan metode penghitungan faktor koreksi.

Metode penghitungan ulang langsung adalah bahwa dengan itu indikator bagian sampel w atau sedang X diperluas ke populasi umum, dengan mempertimbangkan kesalahan pengambilan sampel.

Metode faktor koreksi digunakan bila tujuan metode pengambilan sampel adalah untuk menyempurnakan hasil akuntansi yang lengkap. Metode ini digunakan untuk menyempurnakan data sensus ternak tahunan penduduk.

Konsep "keterwakilan" dalam kaitannya dengan jajak pendapat sosiologis - jajak pendapat publik - memiliki efek yang hampir ajaib pada orang-orang. Istilah “representasi” itu sendiri, selain secara ilmiah, juga memiliki makna politis yang jelas.

Apa alasannya? Masalahnya diasumsikan bahwa sampel (sekelompok orang yang dipilih untuk survei) dapat mewakili (mewakili) seluruh populasi. Populasi umum dalam kasus survei semua-Rusia adalah seluruh populasi negara. Sekarang mari kita bayangkan bahwa kita berbicara tentang keputusan politik - mendukung RUU atau memberikan suara dalam pemilihan. Dengan bantuan survei sampel, kami mendapatkan mekanisme representasi politik yang sangat baik - sebuah mekanisme di mana sekelompok kecil orang dapat mewakili pendapat atau posisi seluruh penduduk negara. Oleh karena itu, keterwakilan penelitian diberikan tempat yang begitu penting.

Konsep keterwakilan digunakan, tentu saja, tidak hanya dalam studi politik. Istilah ini hampir selalu digunakan ketika berbicara tentang studi besar, baik di bidang pemasaran, perilaku ekonomi, atau pendidikan.

Metodologi survei representatif

Bagaimana, setelah jajak pendapat 1.500 orang, dapat menarik kesimpulan tentang semua orang Rusia, di antaranya ada lebih dari 140 juta (dan bahkan pemilih lebih dari 110 juta)? Teknologi di balik jajak pendapat perwakilan didasarkan pada undang-undang statistik. Alasan terdekat adalah hukum bilangan besar, atau teorema Bernoulli.

Secara sederhana, maknanya dapat disampaikan sebagai berikut. Misalkan kita memiliki beberapa fitur, misalnya, jumlah curah hujan per hari di Yekaterinburg selama abad ke-20. Jika kita menuliskan semua nilainya bersama dengan frekuensinya (ini disebut distribusi), dan kemudian secara acak mengambil sejumlah besar kasus (yaitu, tidak semua hari di abad kedua puluh, tetapi cukup banyak), maka kita akan melihat bahwa distribusi dalam sampel kita akan sangat mirip dengan distribusi untuk seluruh abad kedua puluh. Jadi, jika kita memilih beberapa unit dari populasi, mereka mungkin memang mewakili seluruh populasi, dan tidak perlu mengumpulkan data untuk semua kasus.

Namun, ada syarat utama: ini benar hanya jika pemilihannya benar-benar acak. Satu-satunya masalah di sini mungkin penyimpangan dari keacakan. Jadi, jika kita hanya mengambil data curah hujan untuk beberapa tahun terakhir (misalnya, karena data ini lebih mudah ditemukan) atau mewawancarai 1500 kenalan kita (karena lebih mudah untuk menghubungi mereka), dan bukan orang acak, maka sampelnya tentu tidak akan menjadi perwakilan.

Bayangkan bahwa dari 143,5 juta orang Rusia, Anda secara acak memilih 1.500 orang yang Anda butuhkan. Kemudian, misalnya, proporsi manajer menengah di antara mereka akan kira-kira sama dengan proporsi manajer menengah dalam populasi umum, yang menunjukkan bahwa sampel Anda dapat mewakili seluruh populasi. Mungkinkah kedua indikator ini akan sangat berbeda? Misalnya, di antara orang Rusia 14%, tetapi dalam sampel hanya 1%? Secara teoritis, ini mungkin, tetapi kemungkinannya sangat kecil sehingga dapat diabaikan (seperti bertemu naga di jalan).

Selain itu, hal yang paling menyenangkan tentang probabilitas ini bukanlah kecil, tetapi untuk proses acak, probabilitas ini dapat dihitung. Kita dapat mengatakan dengan probabilitas berapa nilai sampel kita akan menyimpang dari nilai dalam populasi umum sebesar 13% (seperti dalam contoh di atas), dan dengan itu, katakanlah, sebesar 2,5%. Biasanya, bagaimanapun, mereka melakukan yang sebaliknya: pertama, mereka menentukan probabilitas yang kita inginkan agar nilai kita tidak menyimpang dari nilai dalam populasi umum (paling sering ditetapkan pada tingkat 95%), dan kemudian mereka melihat apa penyimpangan untuk sampel ukuran tertentu. Penyimpangan ini disebut interval kepercayaan, kadang-kadang disebut sebagai kesalahan pengambilan sampel atau kesalahan statistik, dan sering dicantumkan di samping hasil survei.

Jadi, probabilitas penyimpangan, jumlah penyimpangan (interval kepercayaan) dan ukuran sampel saling berhubungan. Berdasarkan hal tersebut, rumus untuk menghitung ukuran sampel adalah sebagai berikut:

di mana n adalah ukuran sampel, adalah interval kepercayaan, z adalah nilai fungsi distribusi normal untuk probabilitas penolakan tertentu (untuk probabilitas 5%, nilai ini adalah 1,96).

Ini adalah formula yang disederhanakan, survei nyata menggunakan formula yang sedikit lebih kompleks. Rumus ini juga bisa gagal jika nilai indikatornya sangat berbeda dari 50% (jadi, misalnya, rumus ini tidak cocok untuk memperkirakan proporsi penderita penyakit langka di suatu negara).

Inilah yang terjadi jika Anda mengganti beberapa nilai dalam rumus ini:

Dengan kata lain, jika kita mengambil sampel acak orang Rusia dengan ukuran 1600 orang dan memperkirakan beberapa indikator, misalnya, kesediaan untuk memilih politisi tertentu, maka dengan probabilitas 95% perkiraan kami tidak akan berbeda dengan kesediaan untuk memilih dia di antara semua orang Rusia dengan lebih dari 2, 45%.

Ukuran sampel

Jadi, semakin besar ukuran sampel, semakin besar kemungkinan kita untuk lebih dekat dengan bagian dalam populasi. Tampaknya ini berarti bahwa kita perlu mencoba membawa sampel lebih dekat ke 143,5 juta Faktanya, seperti yang Anda lihat dari tabel, sifat proses acak sedemikian rupa sehingga dari saat tertentu kemungkinan jatuh ke dalam interval mulai meningkat sangat lambat (dan momen ini datang cukup cepat). Setelah kami mengambil sampel 1500 unit, tidak peduli seberapa besar kami meningkatkan ukuran sampel, kemungkinan nilai sampel kami akan jatuh ke dalam nilai populasi akan meningkat sangat, sangat lambat.

Faktanya, hampir tidak ada perbedaan antara 1.500 dan 10.000 responden. Di suatu tempat pada tahun 1500 kita sudah dapat mengatakan bahwa perkiraan kita akan berbeda dari bagian populasi umum sebesar 2-3%. Jika kita menambah sampel lebih jauh, maka kemungkinan kesalahan ini akan berkurang, tetapi sangat sedikit. Dengan kata lain, sampel 100.000 lebih baik daripada sampel 2500, tetapi perbedaannya sangat kecil sehingga tidak masuk akal dan, dalam kasus survei sosial, tidak dapat dibenarkan secara ekonomi. Biasanya, menambah sampel itu mahal, dan oleh karena itu tidak masuk akal untuk mengembangnya untuk mendapatkan satu poin persentase dalam nilai interval kepercayaan.

Adalah penting bahwa ukuran populasi umum tidak muncul dalam rumus sama sekali. Faktanya adalah bahwa ketika populasinya besar (lebih dari 20.000), itu memiliki sedikit atau tidak berpengaruh pada ukuran sampel. Jadi, kita tidak perlu tahu berapa banyak orang yang tinggal di Rusia untuk membuat sampel yang representatif. Jelas bahwa memilih 1500 dari 2000 kemungkinan besar tidak masuk akal - lebih mudah untuk memeriksa 2000 dan mendapatkan perkiraan yang akurat. Tapi, jika perlu, membuat sampel, kita mendapat kesempatan untuk menggeneralisasikan hasilnya untuk populasi umum. Dan untuk alasan yang sama, ukuran sampel tidak akan berbeda untuk negara besar dan kecil.

Keterwakilan dan Akurasi

Untuk memahami arti dari konsep "keterwakilan", mari kita pertimbangkan sampel 15 orang. Anehnya, jika Anda membuatnya secara tidak sengaja, itu juga representatif. Selain itu, Anda dapat membuat sampel satu unit. Bayangkan sebuah kotak bola dari mana Anda mengambil satu bola secara acak. Jika itu adalah bola yang dipilih secara acak, maka itu juga akan mewakili semua bola yang ada di dalam kotak ini. Dia hanya akan mewakili mereka. tidak persis. Mengapa? Karena kemungkinan salahnya sangat besar. Lain kali kita bisa menggambar bola lain dan mendapatkan ide yang berbeda tentang bola di dalam kotak. Mewakili secara tidak akurat berarti memiliki kisaran perkiraan yang luas.

Dengan cara yang sama, 15 orang mewakili populasi umum mana pun, tetapi mereka mewakilinya secara tidak akurat, karena kesalahannya, interval kepercayaannya, sangat besar. Kita harus menambahkan +/- 33% untuk mendapatkan 95% kemungkinan bahwa kita akan jatuh ke dalam interval. Jika kita siap untuk mengakui ini, maka kita ambil 15 orang, cari tahu bahwa 7 di antaranya adalah manajer menengah, dan kita mendapatkan perkiraan bahwa 7/15 dari total, yaitu, 47% +/- 33%, adalah perkiraan bagian manajer dalam populasi umum, dan ini adalah kesimpulan yang benar-benar tepat. Itu hanya tidak memiliki nilai. Ini bisa kita katakan tanpa pemeriksaan. Oleh karena itu, ketika merencanakan sampel, masuk akal untuk mencapai ukuran yang sesuai dalam hal efektivitas biaya.

Semua hal di atas dimaksudkan untuk menyampaikan satu ide sederhana, yang sangat sering tidak disadari: ukuran sampel tidak terkait dengan keterwakilannya.

Sampel kecil tidak tepat, tetapi masih bisa mewakili. Ukuran sampel yang digunakan saat ini dalam survei massal di Rusia hampir selalu memiliki akurasi yang cukup tinggi.

Keterwakilan sampel terancam bukan oleh ukurannya, tetapi oleh bias, yaitu penyimpangan dari prinsip keacakan.

Pelanggaran prinsip keacakan

Jika kita mulai memilih unit secara non-acak, sampel menjadi tidak representatif. Misalnya, jika ada sesuatu yang menghalangi kita untuk memilihnya secara acak. Bayangkan kita ingin memilih bola dari kotak kita secara acak, tetapi ternyata beberapa bola menggigit. Mekanisme di mana kita hanya akan mengambil kelereng yang diberikan kepada kita adalah mekanisme yang melanggar keacakan dan karena itu melanggar keterwakilan. Dalam hal ini, tidak peduli berapa banyak kelereng yang kita ambil dari kotak (bahkan jika kita mengambil semua kelereng yang tidak menggigit), kita akan memiliki sampel yang tidak representatif, karena kita tidak akan memperhitungkan yang menggigit - mereka hanya melewati sampel kami.

Masalah terbesar dengan menggigit bola adalah bahwa mereka dapat berbeda dari yang datang ke tangan kita, dan berbeda dalam cara kita tertarik. Situasi ini disebut bias sampling.

Perlu untuk membedakan situasi representasi yang tidak akurat, yang kami jelaskan di atas, dari situasi non-representasi. Ini adalah masalah yang berbeda dan mereka memiliki solusi yang berbeda. Anda tidak dapat menyelesaikan salah satunya dengan menyelesaikan yang lain. Jika sampel tidak memiliki keterwakilan, tidak ada gunanya meningkatkannya. Selain itu, sampel besar dalam survei sosial cenderung menumpuk kesalahan, sehingga masalah representasi hanya dapat diperburuk oleh peningkatan sampel yang besar.

Mengapa keterwakilan tidak mungkin?

Dalam catatan tabel hasil survei, sering terlihat bahwa "ukuran sampel adalah 1600 orang, sampel tersebut mewakili jenis kelamin dan usia." Dari apa yang telah dikatakan di atas, jelas bahwa ini adalah dua parameter yang berbeda: indikasi keterwakilan tidak terkait dengan ukuran sampel. Sebenarnya, yang dimaksud di sini adalah bahwa prosedur-prosedur tertentu diikuti untuk menjamin kesesuaian antara sampel dan populasi. Misalnya, untuk memastikan keterwakilan berdasarkan jenis kelamin, pria dan wanita direkrut ke dalam sampel dalam proporsi yang sama yang ada di antara orang Rusia menurut data sensus. Tetapi keterwakilan menurut jenis kelamin tidak berarti keterwakilan, misalnya, menurut pandangan politik.

Mengapa perlu untuk menyelaraskan sampel berdasarkan jenis kelamin dan kategori sosio-demografis lainnya? Karena hanya sampel acak yang dapat memberikan keterwakilan yang benar, dan tidak mungkin menerapkannya dalam praktik karena berbagai alasan. Segera setelah Anda mencoba melakukan ini, Anda akan mengalami banyak masalah - tidak peduli metode mana yang Anda pilih untuk digunakan. Beberapa responden tidak akan tersedia untuk metode Anda sama sekali (misalnya, untuk wawancara pribadi, rumah dengan interkom dan keamanan adalah masalah besar), bagian lain akan absen, tidak menjawab, atau lebih memilih untuk menjalankan bisnis mereka. Ada orang yang memiliki masalah bahasa dan tidak dapat berbicara dengan kami. Ada orang yang tidak mengerti mengapa ini perlu, dan mereka tidak mau berbicara dengan kita. Semua ini adalah pelanggaran serius terhadap keacakan, yang membuat realisasinya tidak mungkin.

Mereka yang mereduksi masalah representasi dalam survei massal menjadi statistik lupa bahwa orang adalah kelereng yang sangat spesifik. Ada bola yang lari dan bersembunyi. Ada bola yang menggigit. Mereka bukan objek pasif, mereka membalas. Mereka berkata, "Saya tidak ingin berpartisipasi dalam survei Anda," sehingga melanggar keacakan. Oleh karena itu, dalam arti kata yang sempit, keterwakilan dalam survei massal, tentu saja, tidak mungkin dilakukan dalam bentuk apa pun.

Sebuah mekanisme telah dikembangkan di mana penampilan keterwakilan biasanya dipastikan: kami menyelaraskan sampel dalam beberapa kategori dan berpura-pura bahwa itu juga disejajarkan dalam semua kategori lain yang mungkin. Sebenarnya, kami tidak punya alasan untuk menegaskan hal ini. Tetapi masalahnya adalah tidak ada cara untuk memeriksa ini - sekali lagi, karena fakta bahwa beberapa bola menggigit. Untuk memeriksa bias, pemeriksa harus mendatangi orang-orang yang tidak kami wawancarai dan mewawancarai mereka. Tapi mereka, seperti yang kita ingat, tidak mau ditanyai sama sekali. Tidak mungkin untuk menginterogasi mereka yang dengan tegas tidak menjawab. Oleh karena itu, setiap orang bekerja dengan asumsi bahwa jika kita menyelaraskan sampel pada dua atau tiga parameter, itu mewakili seluruh populasi, meskipun tidak ada dasar yang serius untuk asumsi ini.

Sampling representatif adalah teknologi yang dipinjam oleh sosiolog dari statistik. Oleh karena itu, ia pasti membawa unsur-unsur gambaran matematika dan statistik dunia. Mungkin asumsi yang paling kuat adalah bahwa sampel survei itu sendiri secara politik dan sosiologis netral: partisipasi dan non-partisipasi dalam survei tidak membawa makna politik dan tidak terkait dengan parameter sosiologis penting lainnya. Tapi hari ini, jajak pendapat telah menjadi salah satu lembaga politik utama dan telah menjadi perantara utama antara perusahaan besar dan konsumen. Dalam kondisi seperti ini, tidak mungkin lagi mempercayai sterilitas politik mereka. Namun, kita masih tahu sedikit tentang bagaimana jajak pendapat dipahami dalam masyarakat kontemporer dan apa yang sebenarnya diwakilinya.

Salah satu komponen utama dari studi yang dirancang dengan baik adalah definisi sampel dan apa itu sampel yang representatif. Ini seperti contoh kue. Lagi pula, tidak perlu memakan seluruh makanan penutup untuk memahami rasanya? Sebagian kecil sudah cukup.

Jadi, kuenya adalah populasi (yaitu, semua responden yang memenuhi syarat untuk survei). Itu dapat diekspresikan secara teritorial, misalnya, hanya penduduk wilayah Moskow. Jenis Kelamin - hanya wanita. Atau memiliki batasan usia - orang Rusia berusia di atas 65 tahun.

Sulit untuk menghitung populasi: Anda perlu memiliki data dari sensus penduduk atau survei penilaian awal. Oleh karena itu, biasanya populasi umum "diperkirakan", dan dari jumlah yang dihasilkan mereka menghitung kerangka sampel atau contoh.

Apa itu sampel yang representatif?

Sampel adalah jumlah responden yang ditentukan dengan baik. Strukturnya harus sedapat mungkin bertepatan dengan struktur populasi umum dalam hal karakteristik utama seleksi.

Misalnya, jika calon responden adalah seluruh penduduk Rusia, di mana 54% adalah perempuan dan 46% adalah laki-laki, maka sampel harus mengandung persentase yang sama persis. Jika parameternya cocok, maka sampel tersebut dapat disebut representatif. Ini berarti bahwa ketidakakuratan dan kesalahan dalam penelitian diminimalkan.

Ukuran sampel ditentukan dengan mempertimbangkan persyaratan akurasi dan ekonomi. Persyaratan ini berbanding terbalik satu sama lain: semakin besar ukuran sampel, semakin akurat hasilnya. Selain itu, semakin tinggi akurasi, semakin banyak biaya yang diperlukan untuk penelitian ini. Dan sebaliknya, semakin kecil sampelnya, semakin sedikit biayanya, semakin tidak akurat dan semakin acak sifat-sifat populasi umum direproduksi.

Oleh karena itu, untuk menghitung jumlah pilihan, sosiolog menemukan formula dan menciptakan kalkulator khusus:

Probabilitas keyakinan dan kesalahan kepercayaan

Apa syarat" tingkat kepercayaan diri" dan " kesalahan kepercayaan"? Tingkat kepercayaan adalah ukuran keakuratan pengukuran. Kesalahan kepercayaan adalah kemungkinan kesalahan dalam hasil penelitian. Misalnya, dengan populasi umum lebih dari 500,00 orang (misalnya, tinggal di Novokuznetsk), sampelnya adalah 384 orang dengan tingkat kepercayaan 95% dan kesalahan 5% OR (dengan interval kepercayaan 95 ± 5%).

Apa yang mengikuti dari ini? Saat melakukan 100 studi dengan sampel seperti itu (384 orang), dalam 95 persen kasus, jawaban yang diterima, menurut hukum statistik, akan berada dalam ± 5% dari aslinya. Dan kita akan mendapatkan sampel yang representatif dengan probabilitas kesalahan statistik yang minimum.

Setelah perhitungan ukuran sampel selesai, Anda dapat melihat apakah ada cukup responden dalam versi demo Panel Kuesioner. Anda dapat mempelajari lebih lanjut tentang cara melakukan survei panel.