Sampel yang representatif. Persyaratan sampel

Tujuan akhir mempelajari populasi sampel adalah selalu untuk memperoleh informasi tentang populasi tersebut. Untuk melakukan ini, studi sampel harus memenuhi persyaratan tertentu. Salah satu syarat utama keterwakilan (representativeness) sampel. Seperti dibahas sebelumnya, perbedaan dibuat antara keterwakilan kualitatif dan kuantitatif.

Keacakan, yang menjamin keterwakilan kualitatif (struktural) studi statistik, dicapai dengan memenuhi sejumlah kondisi untuk pembentukan kelompok sampel (set):

1. Setiap anggota populasi harus memiliki peluang yang sama untuk dimasukkan dalam sampel.

2. Pemilihan unit pengamatan dari populasi umum harus dilakukan tanpa memperhatikan sifat yang diteliti. Jika seleksi dilakukan dengan sengaja, maka perlu juga memperhatikan kondisi independensi distribusi sifat yang diteliti.

3. Seleksi harus dilakukan dari kelompok yang homogen.

Kepatuhan terhadap kondisi yang menjamin kedekatan maksimum sampel dan populasi umum dipastikan dengan metode seleksi khusus. Tergantung pada metode pembentukannya, sampel berikut dibedakan:

1. Sampel yang tidak memerlukan pembagian populasi umum menjadi bagian-bagian (sebenarnya, sampling acak berulang atau tidak berulang).

2. Sampel yang memerlukan pemisahan populasi umum menjadi beberapa bagian (sampel mekanis, tipologis atau tipologis, kohort, sampel berpasangan-konjugasi).

Sebenarnya, sampel acak dibentuk oleh pemilihan acak - secara acak. Pemilihan acak didasarkan pada pencampuran. Misalnya: memilih bola dalam lotre olahraga setelah mencampur semua bola, memilih nomor lotre yang menang, secara acak memilih kartu pasien untuk penelitian, dll. Kadang-kadang digunakan angka acak, diperoleh dari tabel angka acak atau menggunakan generator angka acak. Menurut angka-angka ini, dari susunan populasi umum yang telah diberi nomor sebelumnya, unit pengamatan dengan angka yang sesuai dengan angka acak yang telah jatuh dipilih.

Saat menyusun sampel acak, setelah objek dipilih dan semua data yang diperlukan tentangnya terdaftar, Anda dapat melakukan dua hal: objek dapat dikembalikan, atau tidak dikembalikan ke populasi umum. Mengenai ini sampel disebut berulang(objek dikembalikan ke populasi) atau tidak berulang(objek tidak dikembalikan ke populasi). Karena dalam sebagian besar studi statistik praktis tidak ada perbedaan antara sampel berulang dan tidak berulang, maka syaratnya adalah diterima secara apriori bahwa sampel berulang.

Memperkirakan ukuran sampel yang dibutuhkan

Agar sampel dapat mewakili populasi umum secara kuantitatif, perlu terlebih dahulu memperkirakan jumlah data yang akan dimasukkan dalam sampel.

Dengan ukuran populasi umum yang tidak diketahui jumlah resampling yang menjamin hasil yang representatif jika hasilnya tercermin dalam indikator sebagai nilai relatif (bagi), ditentukan dengan rumus:

di mana p adalah nilai indikator sifat yang diteliti, dalam %; q = (100- p) ;

t adalah koefisien kepercayaan yang menunjukkan berapa probabilitas bahwa ukuran indikator tidak akan melampaui batas kesalahan marginal (biasanya diambil t = 2, yang memberikan probabilitas 95% dari perkiraan bebas kesalahan);

- kesalahan marginal indikator.

Sebagai contoh: salah satu indikator yang mencirikan kesehatan pekerja di perusahaan industri adalah persentase pekerja yang tidak sakit sepanjang tahun. Misalkan untuk sektor industri tempat perusahaan yang disurvei berada, indikator ini adalah 25%. Marginal error yang diperbolehkan agar spread nilai indikator tidak melebihi batas wajar adalah 5%. Dalam hal ini, indikator dapat mengambil nilai 25% ± 5%, yaitu. dari 20% menjadi 30%. Dengan asumsi t = 2, kita dapatkan

Dalam hal itu, jika indikatornya adalah nilai rata-rata, maka banyaknya pengamatan dapat ditentukan dengan rumus :

di mana adalah standar deviasi, yang dapat diperoleh dari studi sebelumnya, atau berdasarkan studi percobaan (pilot).

Dengan pilihan berulang dan di bawah kondisi populasi umum yang diketahui untuk menentukan ukuran sampel acak yang diperlukan jika digunakan nilai relatif (saham) rumus yang diterapkan:

untuk nilai rata-rata rumus yang digunakan:

di mana N adalah ukuran populasi umum.

Berdasarkan kondisi contoh di atas dan dengan asumsi ukuran populasi umum N=500 pekerja, kita peroleh:

Sangat mudah untuk melihat bahwa ukuran sampel yang diperlukan untuk pengambilan sampel non-berulang lebih kecil daripada pengambilan sampel berulang (masing-masing, 188 dan 300 pekerja).

Secara umum, jumlah pengamatan yang diperlukan untuk mendapatkan data yang representatif bervariasi berbanding terbalik dengan kuadrat kesalahan yang diizinkan.

Pengambilan sampel mekanis- pengambilan sampel, ketika unit pengamatan dipilih secara mekanis dari populasi yang disurvei. Misalnya: pemilihan setiap pekerja kelima atau kesepuluh sesuai dengan kartu departemen personalia perusahaan atau sesuai dengan kartu rawat jalan poliklinik unit medis.

tipologis, tipologis atau dikategorikan pengambilan sampel melibatkan pemecahan populasi umum menjadi sejumlah kelompok yang secara kualitatif homogen. Misalnya: ketika mempelajari insiden mahasiswa untuk pemeriksaan mendalam di setiap kursus, kelompok mahasiswa yang khas dalam komposisinya dipilih. Seringkali metode seleksi ini dikombinasikan dengan metode lain. Misalnya: wilayah kota dibagi menjadi daerah-daerah khas tergantung pada tingkat polusi, di daerah-daerah ini, kelompok pengamatan dibentuk dengan pemilihan acak.

pemilihan kelompok mengacu pada pemilihan yang ditargetkan. Dengan metode ini, individu dipilih dari populasi umum (distribusi ke dalam subkelompok tidak acak), disatukan oleh saat munculnya tanda apa pun atau efek yang dipelajari yang memainkan peran penting dalam penelitian (tahun kelahiran, onset penyakit, minum obat, dll).

Studi kasus-kontrol(SC) adalah jenis studi epidemiologi di mana distribusi faktor risiko dibandingkan antara kelompok pasien dengan penyakit dan kelompok kontrol. Studi (SC) mengacu pada retrospektif, karena peneliti, membagi pasien ke dalam kelompok menurut apakah mereka memiliki penyakit atau tidak, menemukan informasi dari masa lalu dari mereka.

Kita harus membahas secara terpisah penggunaan metode pengambilan sampel dalam statistik sanitasi ketika mempelajari morbiditas umum populasi. Premis teoretis dari metode pengambilan sampel telah diuji selama studi khusus. Jadi, V.S. Bykhovsky dkk. pada tahun 1928 mereka membuat pemrosesan paralel 132,8 ribu kartu dengan data penyakit dengan metode kontinu dan dengan metode seleksi mekanis setiap kartu kelima. Analisis hasil pengolahan ini menunjukkan keterwakilan data yang tinggi dari studi selektif morbiditas. Namun, hingga hari ini, tidak ada pendekatan metodologis terpadu untuk melakukan studi statistik sanitasi selektif dalam praktik luas.

Populasi- satu set unit yang memiliki karakter massa, kekhasan, keseragaman kualitatif dan adanya variasi.

Populasi statistik terdiri dari objek material yang ada (Karyawan, perusahaan, negara, wilayah), adalah objek.

Satuan populasi- setiap unit tertentu dari populasi statistik.

Satu dan populasi statistik yang sama dapat homogen dalam satu fitur dan heterogen di fitur lainnya.

Keseragaman kualitatif- kesamaan semua unit populasi untuk fitur apa pun dan ketidaksamaan untuk semua yang lain.

Dalam populasi statistik, perbedaan satu unit populasi dari yang lain lebih sering bersifat kuantitatif. Perubahan kuantitatif dalam nilai atribut unit yang berbeda dari populasi disebut variasi.

Variasi Fitur- perubahan kuantitatif dalam suatu sifat (untuk sifat kuantitatif) dalam transisi dari satu unit populasi ke unit lainnya.

tanda- ini adalah properti, karakteristik atau fitur lain dari unit, objek, dan fenomena yang dapat diamati atau diukur. Tanda dibagi menjadi kuantitatif dan kualitatif. Keanekaragaman dan keragaman nilai suatu ciri dalam satuan individu populasi disebut variasi.

Ciri-ciri atributif (kualitatif) tidak dapat diukur (komposisi populasi menurut jenis kelamin). Karakteristik kuantitatif memiliki ekspresi numerik (komposisi populasi berdasarkan usia).

Indikator- ini adalah karakteristik kuantitatif dan kualitatif generalisasi dari setiap properti unit atau agregat untuk tujuan dalam kondisi waktu dan tempat tertentu.

Kartu catatan angka adalah seperangkat indikator yang secara komprehensif mencerminkan fenomena yang diteliti.

Misalnya, pertimbangkan gaji:

Tanda - upah
Populasi statistik - semua karyawan
Satuan dari populasi adalah setiap pekerja
Homogenitas kualitatif - gaji yang masih harus dibayar
Variasi fitur - serangkaian angka

Populasi umum dan sampel darinya

Basis adalah sekumpulan data yang diperoleh sebagai hasil pengukuran satu atau lebih fitur. Himpunan objek yang benar-benar diamati, secara statistik diwakili oleh sejumlah pengamatan dari variabel acak , adalah contoh, dan yang ada secara hipotetis (dipikirkan) - populasi umum. Populasi umum dapat berhingga (jumlah observasi N = konstanta) atau tak terbatas ( N =), dan sampel dari populasi umum selalu merupakan hasil pengamatan dalam jumlah terbatas. Banyaknya pengamatan yang membentuk sampel disebut ukuran sampel. Jika ukuran sampel cukup besar n→∞) sampel dianggap besar, jika tidak maka disebut sampel volume terbatas. Sampel dianggap kecil, jika, ketika mengukur variabel acak satu dimensi, ukuran sampel tidak melebihi 30 ( n<= 30 ), dan ketika mengukur secara bersamaan beberapa ( k) fitur dalam hubungan ruang multidimensi n ke k kurang dari 10 (n/k< 10) . Contoh formulir seri variasi jika anggotanya adalah statistik pesanan, yaitu, nilai sampel dari variabel acak X diurutkan dalam urutan menaik (diperingkat), nilai-nilai atribut disebut pilihan.

Contoh. Kumpulan objek yang dipilih secara acak yang hampir sama - bank komersial dari satu distrik administratif Moskow, dapat dianggap sebagai sampel dari populasi umum semua bank komersial di distrik ini, dan sebagai sampel dari populasi umum semua bank komersial di Moskow , serta contoh bank komersial di negara ini dan lain-lain.

Metode pengambilan sampel dasar

Keandalan kesimpulan statistik dan interpretasi hasil yang bermakna tergantung pada: keterwakilan sampel, yaitu kelengkapan dan kecukupan representasi sifat-sifat populasi umum, yang dengannya sampel ini dapat dianggap representatif. Studi tentang sifat statistik populasi dapat diatur dalam dua cara: menggunakan kontinu dan terputus-putus. Pengamatan terus menerus termasuk pemeriksaan semua unit dipelajari agregat, sebuah observasi non-kontinyu (selektif)- hanya sebagian saja.

Ada lima cara utama untuk mengatur pengambilan sampel:

1. pilihan acak sederhana, di mana objek diekstraksi secara acak dari populasi umum objek (misalnya, menggunakan tabel atau generator angka acak), dan masing-masing sampel yang mungkin memiliki probabilitas yang sama. Sampel seperti itu disebut sebenarnya acak;

2. seleksi sederhana melalui prosedur reguler dilakukan dengan menggunakan komponen mekanis (misalnya, tanggal, hari dalam seminggu, nomor apartemen, huruf alfabet, dll.) dan sampel yang diperoleh dengan cara ini disebut mekanis;

3. bertingkat seleksi terdiri dari fakta bahwa populasi umum volume dibagi menjadi himpunan bagian atau lapisan (strata) volume sehingga . Strata adalah objek homogen dalam hal karakteristik statistik (misalnya, populasi dibagi menjadi strata menurut kelompok umur atau kelas sosial; perusahaan menurut industri). Dalam hal ini, sampel disebut bertingkat(sebaliknya, bertingkat, khas, dikategorikan);

4. metode serial seleksi digunakan untuk membentuk serial atau sampel bersarang. Mereka nyaman jika perlu untuk memeriksa "blok" atau serangkaian objek sekaligus (misalnya, kiriman barang, produk dari seri tertentu, atau populasi di divisi teritorial-administrasi negara). Pemilihan seri dapat dilakukan secara acak atau mekanis. Pada saat yang sama, survei berkelanjutan terhadap sejumlah barang tertentu, atau seluruh unit teritorial (bangunan tempat tinggal atau seperempat) dilakukan;

5. gabungan(melangkah) seleksi dapat menggabungkan beberapa metode seleksi sekaligus (misalnya, bertingkat dan acak atau acak dan mekanis); sampel seperti itu disebut gabungan.

Jenis pilihan

Oleh pikiran ada seleksi individu, kelompok dan gabungan. Pada seleksi individu unit individu dari populasi umum dipilih dalam kumpulan sampel, dengan pemilihan grup adalah kelompok (deret) unit yang secara kualitatif homogen, dan seleksi gabungan melibatkan kombinasi dari tipe pertama dan kedua.

Oleh metode seleksi membedakan berulang dan tidak berulang Sampel.

tidak bisa diulang disebut seleksi, di mana unit yang masuk ke dalam sampel tidak kembali ke populasi semula dan tidak ikut seleksi lebih lanjut; sedangkan jumlah unit populasi umum N berkurang selama proses seleksi. Pada ulang pilihan tertangkap dalam sampel, unit setelah pendaftaran dikembalikan ke populasi umum dan dengan demikian mempertahankan kesempatan yang sama, bersama dengan unit lain, untuk digunakan dalam prosedur seleksi lebih lanjut; sedangkan jumlah unit populasi umum N tetap tidak berubah (metode ini jarang digunakan dalam studi sosio-ekonomi). Namun, dengan besar N (N → ) rumus untuk tidak berulang pilihan dekat dengan mereka untuk ulang seleksi dan yang terakhir digunakan hampir lebih sering ( N = konstanta).

Karakteristik utama dari parameter populasi umum dan sampel

Dasar dari kesimpulan statistik penelitian adalah distribusi variabel acak , sedangkan nilai-nilai yang diamati (x 1, x 2, ..., x n) disebut realisasi dari variabel acak X(n adalah ukuran sampel). Distribusi variabel acak dalam populasi umum bersifat teoretis, ideal, dan analog sampelnya adalah empiris distribusi. Beberapa distribusi teoritis diberikan secara analitis, yaitu mereka pilihan tentukan nilai fungsi distribusi pada setiap titik dalam ruang kemungkinan nilai variabel acak . Untuk sampel, sulit, dan terkadang tidak mungkin, untuk menentukan fungsi distribusi, oleh karena itu pilihan diestimasi dari data empiris, dan kemudian disubstitusikan ke dalam ekspresi analitis yang menggambarkan distribusi teoretis. Dalam hal ini, asumsi (atau hipotesa) tentang jenis distribusi dapat benar dan salah secara statistik. Tetapi bagaimanapun juga, distribusi empiris yang direkonstruksi dari sampel hanya secara kasar mencirikan distribusi yang sebenarnya. Parameter distribusi yang paling penting adalah nilai yang diharapkan dan dispersi.

Menurut sifatnya, distribusi adalah kontinu dan diskrit. Distribusi kontinu yang paling dikenal adalah normal. Analog selektif parameter dan untuk itu adalah: nilai rata-rata dan varians empiris. Di antara diskrit dalam studi sosial-ekonomi, yang paling umum digunakan alternatif (dikotomis) distribusi. Parameter ekspektasi dari distribusi ini menyatakan nilai relatif (atau Bagikan) satuan populasi yang mempunyai sifat yang diteliti (ditunjukkan dengan huruf ); proporsi populasi yang tidak memiliki ciri tersebut dilambangkan dengan huruf q (q = 1 - p). Varians dari distribusi alternatif juga memiliki analog empiris.

Tergantung pada jenis distribusi dan metode pemilihan unit populasi, karakteristik parameter distribusi dihitung secara berbeda. Yang utama untuk distribusi teoritis dan empiris diberikan dalam Tabel. 9.1.

Contoh berbagi k n adalah rasio jumlah unit populasi sampel dengan jumlah unit populasi umum:

k n = n/N.

Berbagi sampel adalah rasio unit yang memiliki sifat yang dipelajari x untuk ukuran sampel n:

w = n n / n.

Contoh. Dalam batch barang yang berisi 1000 unit, dengan sampel 5% pecahan sampel k n dalam nilai absolut adalah 50 unit. (n = N*0,05); jika 2 produk cacat ditemukan dalam sampel ini, maka pecahan sampel w akan menjadi 0,04 (w = 2/50 = 0,04 atau 4%).

Karena populasi sampel berbeda dengan populasi umum, maka kesalahan pengambilan sampel.

Tabel 9.1 Parameter utama populasi umum dan sampel

Kesalahan pengambilan sampel

Dengan apapun (padat dan selektif) kesalahan dari dua jenis dapat terjadi: pendaftaran dan keterwakilan. kesalahan Registrasi bisa memperoleh acak dan sistematis karakter. Acak kesalahan terdiri dari banyak penyebab tak terkendali yang berbeda, tidak disengaja di alam, dan biasanya menyeimbangkan satu sama lain dalam kombinasi (misalnya, perubahan pembacaan instrumen karena fluktuasi suhu di dalam ruangan).

Sistematis kesalahan bias, karena melanggar aturan untuk memilih objek dalam sampel (misalnya, penyimpangan dalam pengukuran saat mengubah pengaturan alat pengukur).

Contoh. Untuk menilai status sosial penduduk di kota direncanakan pemeriksaan 25% keluarga. Namun, jika pemilihan setiap apartemen keempat didasarkan pada jumlahnya, maka ada bahaya memilih semua apartemen hanya dari satu jenis (misalnya, apartemen satu kamar), yang akan menimbulkan kesalahan sistematis dan mendistorsi hasil; pilihan nomor apartemen berdasarkan lot lebih disukai, karena kesalahannya akan acak.

Kesalahan keterwakilan melekat hanya dalam pengamatan selektif, mereka tidak dapat dihindari dan mereka muncul sebagai akibat dari fakta bahwa sampel tidak sepenuhnya mereproduksi yang umum. Nilai indikator yang diperoleh dari sampel berbeda dengan indikator nilai yang sama pada populasi umum (atau diperoleh selama pengamatan terus menerus).

Kesalahan pengambilan sampel adalah perbedaan antara nilai parameter dalam populasi umum dan nilai sampelnya. Untuk nilai rata-rata atribut kuantitatif sama dengan: , dan untuk share (atribut alternatif) - .

Kesalahan pengambilan sampel hanya melekat pada pengamatan sampel. Semakin besar kesalahan ini, semakin banyak distribusi empiris berbeda dari yang teoritis. Parameter distribusi empiris dan merupakan variabel acak, oleh karena itu, kesalahan pengambilan sampel juga merupakan variabel acak, mereka dapat mengambil nilai yang berbeda untuk sampel yang berbeda, dan oleh karena itu merupakan kebiasaan untuk menghitung kesalahan rata-rata.

Rata-rata kesalahan pengambilan sampel adalah nilai yang menyatakan simpangan baku rata-rata sampel dari ekspektasi matematis. Nilai ini, tunduk pada prinsip pemilihan acak, terutama bergantung pada ukuran sampel dan tingkat variasi sifat: semakin besar dan semakin kecil variasi sifat (karenanya, nilai ), semakin kecil nilai kesalahan sampling rata-rata. Rasio antara varians dari populasi umum dan sampel dinyatakan dengan rumus:

itu. untuk cukup besar, kita dapat mengasumsikan bahwa . Rata-rata kesalahan sampling menunjukkan kemungkinan penyimpangan parameter populasi sampel dari parameter populasi umum. Di meja. 9.2 menunjukkan ekspresi untuk menghitung rata-rata kesalahan pengambilan sampel untuk berbagai metode pengorganisasian observasi.

Tabel 9.2 Rata-rata kesalahan (m) rata-rata sampel dan proporsi untuk jenis sampel yang berbeda

Dimana rata-rata varians sampel intragroup untuk fitur kontinu;

Rata-rata dispersi intra-grup saham;

— jumlah seri yang dipilih, — jumlah total seri;

di mana rata-rata deret ke-th;

- rata-rata umum di seluruh sampel untuk fitur berkelanjutan;

dimana proporsi sifat pada deret ke-th;

— bagian total sifat di seluruh sampel.

Namun, besarnya kesalahan rata-rata hanya dapat dinilai dengan probabilitas tertentu (Р 1). Lyapunov A.M. membuktikan bahwa distribusi rata-rata sampel, dan karenanya penyimpangannya dari rata-rata umum, dengan jumlah yang cukup besar, kira-kira mematuhi hukum distribusi normal, asalkan populasi umum memiliki rata-rata berhingga dan varians terbatas.

Secara matematis, pernyataan untuk mean ini dinyatakan sebagai:

dan untuk pecahan, ekspresi (1) akan berbentuk:

di mana - ada kesalahan pengambilan sampel marjinal, yang merupakan kelipatan dari rata-rata kesalahan pengambilan sampel , dan faktor multiplisitas adalah kriteria Student ("faktor kepercayaan"), diusulkan oleh W.S. Gosset (nama samaran "Mahasiswa"); nilai untuk ukuran sampel yang berbeda disimpan dalam tabel khusus.

Nilai fungsi (t) untuk beberapa nilai t adalah:

Oleh karena itu, ekspresi (3) dapat dibaca sebagai berikut: dengan probabilitas P = 0,683 (68,3%) dapat dikatakan bahwa perbedaan antara sampel dan rata-rata umum tidak akan melebihi satu nilai kesalahan rata-rata m(t=1), dengan probabilitas P = 0,954 (95,4%)— bahwa itu tidak melebihi nilai dua kesalahan rata-rata m (t = 2) , dengan kemungkinan P = 0,997 (99,7%)- tidak akan melebihi tiga nilai m (t = 3) . Jadi, probabilitas bahwa perbedaan ini akan melebihi tiga kali nilai kesalahan rata-rata menentukan: tingkat kesalahan dan tidak lebih dari 0,3% .

Di meja. 9.3 rumus untuk menghitung kesalahan sampling marginal diberikan.

Tabel 9.3 Kesalahan pengambilan sampel marginal (D) untuk rata-rata dan proporsi (p) untuk berbagai jenis pengambilan sampel

Memperluas Hasil Sampel ke Populasi

Tujuan akhir dari observasi sampel adalah untuk mengkarakterisasi populasi umum. Untuk ukuran sampel kecil, perkiraan empiris dari parameter ( dan ) dapat menyimpang secara signifikan dari nilai sebenarnya ( dan ). Oleh karena itu, menjadi perlu untuk menetapkan batas-batas di mana nilai sebenarnya ( dan ) terletak untuk nilai sampel parameter ( dan ).

Interval kepercayaan dari beberapa parameter dari populasi umum disebut rentang nilai acak dari parameter ini, yang dengan probabilitas mendekati 1 ( keandalan) berisi nilai sebenarnya dari parameter ini.

kesalahan marginal sampel Δ memungkinkan Anda untuk menentukan nilai batas karakteristik populasi umum dan mereka interval kepercayaan, yang sama dengan:

Intinya selang kepercayaan diperoleh dengan mengurangkan kesalahan marginal dari mean sampel (share), dan yang teratas dengan menambahkannya.

Interval kepercayaan untuk mean, ia menggunakan kesalahan sampling marginal dan untuk tingkat kepercayaan tertentu ditentukan oleh rumus:

Ini berarti bahwa dengan probabilitas tertentu R, yang disebut tingkat kepercayaan dan secara unik ditentukan oleh nilai t, dapat dikatakan bahwa nilai sebenarnya dari mean terletak pada rentang dari , dan nilai sebenarnya dari saham tersebut berada dalam kisaran dari

Saat menghitung interval kepercayaan untuk tiga tingkat kepercayaan standar P=95%, P=99% dan P=99,9% nilai dipilih oleh . Aplikasi tergantung pada jumlah derajat kebebasan. Jika ukuran sampel cukup besar, maka nilai-nilai yang sesuai dengan probabilitas ini t adalah sama: 1,96, 2,58 dan 3,29 . Dengan demikian, kesalahan pengambilan sampel marjinal memungkinkan kita untuk menentukan nilai marjinal dari karakteristik populasi umum dan interval kepercayaannya:

Distribusi hasil pengamatan selektif kepada masyarakat umum dalam kajian sosial ekonomi mempunyai ciri tersendiri, karena memerlukan kelengkapan keterwakilan dari semua jenis dan golongannya. Dasar dari kemungkinan distribusi seperti itu adalah perhitungannya Kesalahan relatif:

di mana Δ % - kesalahan sampling marginal relatif; , .

Ada dua metode utama untuk memperluas pengamatan sampel ke populasi: konversi langsung dan metode koefisien.

Esensi konversi langsung adalah mengalikan mean sampel!!\overline(x) dengan ukuran populasi .

Contoh. Biarkan rata-rata jumlah balita di kota diperkirakan dengan metode sampling dan jumlah seseorang. Jika ada 1000 keluarga muda di kota, maka jumlah tempat yang dibutuhkan di pembibitan kota diperoleh dengan mengalikan rata-rata ini dengan ukuran populasi umum N = 1000, yaitu. akan menjadi 1200 kursi.

Metode koefisien disarankan untuk digunakan jika pengamatan selektif dilakukan untuk memperjelas data pengamatan berkelanjutan.

Dalam melakukannya, rumus yang digunakan:

di mana semua variabel adalah ukuran populasi:

Ukuran sampel yang diperlukan

Tabel 9.4 Ukuran sampel yang diperlukan (n) untuk berbagai jenis organisasi pengambilan sampel

Saat merencanakan survei pengambilan sampel dengan nilai kesalahan pengambilan sampel yang diizinkan sebelumnya, perlu untuk memperkirakan dengan benar yang diperlukan ukuran sampel. Jumlah ini dapat ditentukan berdasarkan kesalahan yang diizinkan selama pengamatan selektif berdasarkan probabilitas tertentu yang menjamin tingkat kesalahan yang dapat diterima (dengan mempertimbangkan cara pengamatan diatur). Rumus untuk menentukan ukuran sampel yang diperlukan n dapat dengan mudah diperoleh langsung dari rumus untuk kesalahan pengambilan sampel marginal. Jadi, dari ekspresi untuk kesalahan marginal:

ukuran sampel ditentukan secara langsung n:

Rumus ini menunjukkan bahwa dengan menurunnya kesalahan sampling marginal Δ secara signifikan meningkatkan ukuran sampel yang diperlukan, yang sebanding dengan varians dan kuadrat dari uji-t Student.

Untuk metode tertentu dalam mengatur observasi, ukuran sampel yang dibutuhkan dihitung menurut rumus yang diberikan dalam Tabel. 9.4.

Contoh Perhitungan Praktis

Contoh 1. Perhitungan nilai rata-rata dan interval kepercayaan untuk karakteristik kuantitatif kontinu.

Untuk menilai kecepatan penyelesaian dengan kreditur di bank, sampel acak dari 10 dokumen pembayaran dilakukan. Nilai mereka ternyata sama (dalam hari): 10; 3; limabelas; limabelas; 22; 7; delapan; satu; sembilan belas; 20.

Diperlukan dengan probabilitas P = 0,954 tentukan kesalahan marginal Δ rata-rata sampel dan batas kepercayaan waktu kalkulasi rata-rata.

Keputusan. Nilai rata-rata dihitung dengan rumus dari Tabel. 9.1 untuk populasi sampel

Dispersi dihitung menurut rumus dari Tabel. 9.1.

Kesalahan kuadrat rata-rata hari ini.

Kesalahan mean dihitung dengan rumus:

itu. nilai rata-rata adalah x ± m = 12,0 ± 2,3 hari.

Keandalan rata-rata adalah

Kesalahan pembatas dihitung dengan rumus dari Tabel. 9.3 untuk pemilihan ulang, karena ukuran populasi tidak diketahui, dan untuk P = 0,954 tingkat kepercayaan diri.

Jadi, nilai rata-ratanya adalah `x ± D = `x ± 2m = 12,0 ± 4,6, mis. nilai sebenarnya terletak pada kisaran 7,4 hingga 16,6 hari.

Penggunaan meja Siswa. Aplikasi ini memungkinkan kita untuk menyimpulkan bahwa untuk n = 10 - 1 = 9 derajat kebebasan, nilai yang diperoleh dapat diandalkan dengan tingkat signifikansi a £ 0,001, yaitu. nilai mean yang dihasilkan berbeda nyata dengan 0.

Contoh 2. Estimasi Probabilitas (Bagian Umum) r.

Dengan metode sampling mekanis yang mensurvei status sosial 1000 keluarga, terungkap bahwa proporsi keluarga berpenghasilan rendah adalah w = 0,3 (30%)(sampelnya adalah 2% , yaitu n/N = 0,02). Diperlukan dengan tingkat kepercayaan diri p = 0,997 tentukan indikator R keluarga berpenghasilan rendah di seluruh wilayah.

Keputusan. Menurut nilai fungsi yang disajikan (t) temukan untuk tingkat kepercayaan yang diberikan P = 0,997 berarti t=3(lihat rumus 3). Kesalahan pembagian marjinal w tentukan dengan rumus dari Tabel. 9.3 untuk pengambilan sampel yang tidak berulang (pengambilan sampel mekanis selalu tidak berulang):

Membatasi kesalahan pengambilan sampel relatif dalam % akan:

Probabilitas (pangsa umum) keluarga berpenghasilan rendah di wilayah tersebut adalah p=w±w, dan batas kepercayaan p dihitung berdasarkan pertidaksamaan ganda:

w — w p w — w, yaitu nilai sebenarnya dari p terletak di dalam:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Dengan demikian, dengan probabilitas 0,997, dapat dikatakan bahwa proporsi keluarga berpenghasilan rendah di antara semua keluarga di wilayah tersebut berkisar antara 28,6% hingga 31,4%.

Contoh 3 Perhitungan nilai rata-rata dan interval kepercayaan untuk fitur diskrit yang ditentukan oleh deret interval.

Di meja. 9.5. distribusi aplikasi untuk produksi pesanan sesuai dengan waktu implementasinya oleh perusahaan diatur.

Tabel 9.5 Distribusi observasi berdasarkan waktu kejadian

Keputusan. Rata-rata waktu penyelesaian pesanan dihitung dengan rumus:

Waktu rata-rata akan menjadi:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 bulan

Kami mendapatkan jawaban yang sama jika kami menggunakan data pada p i dari kolom kedua dari belakang Tabel. 9.5 menggunakan rumus:

Perhatikan bahwa pertengahan interval gradasi terakhir ditemukan dengan melengkapinya secara artifisial dengan lebar interval gradasi sebelumnya yang sama dengan 60 - 36 = 24 bulan.

Dispersi dihitung dengan rumus

di mana x saya- tengah seri interval.

Oleh karena itu!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) dan kesalahan standarnya adalah .

Kesalahan rata-rata dihitung dengan rumus selama berbulan-bulan, mis. rata-ratanya adalah!!\overline(x) ± m = 23,1 ± 13,4.

Kesalahan pembatas dihitung dengan rumus dari Tabel. 9,3 untuk pemilihan ulang karena ukuran populasi tidak diketahui, untuk tingkat kepercayaan 0,954:

Jadi maksudnya adalah:

itu. nilai sebenarnya terletak pada kisaran 0 hingga 50 bulan.

Contoh 4 Untuk mengetahui kecepatan pelunasan dengan kreditur N = 500 badan usaha pada bank umum perlu dilakukan studi selektif dengan menggunakan metode random non-repetitive selection. Tentukan ukuran sampel yang diperlukan n sehingga dengan probabilitas P = 0,954 kesalahan rata-rata sampel tidak melebihi 3 hari, jika perkiraan percobaan menunjukkan bahwa standar deviasi s adalah 10 hari.

Keputusan. Untuk menentukan jumlah studi yang diperlukan n, kami menggunakan rumus untuk seleksi non-berulang dari Tabel. 9.4:

Di dalamnya, nilai t ditentukan dari untuk tingkat kepercayaan = 0,954. Sama dengan 2. Nilai kuadrat rata-rata s = 10, ukuran populasi N = 500, dan kesalahan marginal rata-rata Δ x = 3. Substitusikan nilai-nilai ini ke dalam rumus, kita dapatkan:

itu. cukup membuat sampel 41 perusahaan untuk memperkirakan parameter yang diperlukan - kecepatan penyelesaian dengan kreditur.

Sampel adalah sekumpulan data yang diambil dengan menggunakan prosedur tertentu dari populasi umum untuk analisis eksplorasi. Keterwakilan adalah properti mereproduksi representasi keseluruhan di bagiannya. Dengan kata lain, itu adalah kemungkinan untuk memperluas gagasan tentang suatu bagian menjadi keseluruhan, yang mencakup bagian ini.

Keterwakilan sampel merupakan indikator bahwa sampel harus sepenuhnya dan dapat diandalkan mencerminkan karakteristik populasi yang menjadi bagiannya. Hal ini juga dapat didefinisikan sebagai properti sampel untuk paling sepenuhnya mewakili karakteristik populasi umum yang signifikan dari sudut pandang tujuan penelitian.

Mari kita asumsikan bahwa populasi umum adalah semua siswa sekolah (900 orang dari 30 kelas, 30 orang di setiap kelas). Objek penelitian adalah sikap anak sekolah terhadap rokok. Sampel 90 siswa hanya akan mewakili seluruh populasi jauh lebih buruk daripada sampel 90 siswa yang sama, yang akan mencakup 3 siswa dari setiap kelas. Alasan utamanya adalah distribusi yang tidak merata berdasarkan usia. Dengan demikian, dalam kasus pertama, keterwakilan sampel akan rendah. Dalam kasus kedua - tinggi.

Dalam sosiologi, mereka mengatakan bahwa ada keterwakilan sampel dan ketidakterwakilannya.

Contoh sampel yang tidak representatif adalah kasus klasik yang terjadi pada tahun 1936 di Amerika Serikat pada saat pemilihan presiden.

Literary Digest, yang selama ini sangat berhasil memprediksi hasil pemilu sebelumnya, kali ini salah, meskipun mengirimkan beberapa juta pertanyaan tertulis kepada pelanggan serta responden yang mereka pilih dari buku telepon dan daftar registrasi mobil. Dalam 1/4 surat suara yang kembali terisi, suara didistribusikan sebagai berikut: 57% memilih kandidat Partai Republik bernama Alf Landon, dan 41% memilih petahana Demokrat Franklin Roosevelt.

Faktanya, F. Roosevelt memenangkan pemilihan dengan hampir 60% suara. Kesalahan "Intisari Sastra" adalah sebagai berikut. Mereka ingin meningkatkan keterwakilan sampel . Dan karena mereka tahu bahwa mayoritas pelanggan mereka mengidentifikasi diri mereka sebagai Partai Republik, mereka memutuskan untuk memperluas sampel dengan responden yang dipilih oleh mereka dari buku telepon dan daftar registrasi mobil. Tetapi mereka tidak memperhitungkan kenyataan yang ada dan malah memilih lebih banyak pendukung Partai Republik, karena pada saat itu kelas menengah dan atas mampu memiliki mobil dan telepon. Dan mereka kebanyakan Republikan, bukan Demokrat.

Ada berbagai jenis pengambilan sampel: acak sederhana, serial, tipikal, mekanis, dan gabungan.

Pengambilan sampel acak sederhana terdiri dari pemilihan dari seluruh populasi unit yang dipelajari secara acak tanpa sistem apa pun.

Sampling mekanis digunakan bila ada keteraturan dalam populasi umum, misalnya ada urutan unit pekerja tertentu, daftar pemilih, nomor telepon responden, jumlah apartemen dan rumah, dll.).

Seleksi tipikal digunakan ketika seluruh populasi dapat dibagi menjadi kelompok-kelompok menurut jenisnya. Ketika bekerja dengan populasi, ini dapat berupa, misalnya, pendidikan, usia, kelompok sosial; ketika mempelajari perusahaan, mereka dapat menjadi industri atau organisasi terpisah, dll.

Pemilihan seri berguna ketika unit dikelompokkan ke dalam seri atau grup kecil. Seri semacam itu dapat berupa kumpulan produk jadi, kelas sekolah, dan kelompok lain.

Pengambilan sampel gabungan melibatkan penggunaan semua jenis pengambilan sampel sebelumnya dalam satu kombinasi atau lainnya.

Ada dua jenis sampel utama: representatif dan non-representatif. Apa artinya ini dan mengapa penting untuk membedakan di antara mereka?

Sampel yang representatif(dari bahasa Inggris, mewakili - untuk mewakili) sedemikian rupa sehingga memberi kami kesempatan untuk mendistribusikan baik kualitas tinggi maupun kuantitatif hasil penelitiannya pada populasi tertentu yang besar. Dalam konteks jajak pendapat, sampel yang representatif adalah sampel yang memungkinkan kami untuk berkembang kuantitatif hasil wawancara tidak hanya pada peserta penelitian, tetapi juga pada banyak orang lain.

Misalnya, berdasarkan survei, kami menemukan bahwa 18% responden yang termasuk dalam sampel kami, yang mewakili populasi dewasa Ukraina, memiliki pendapat X. Jadi, kita dapat mengatakan bahwa sekitar 18% dari populasi orang dewasa Ukraina berpendapat X. Jika sampelnya tidak representatif, maka kita hanya bisa menganggap:"minoritas penduduk dewasa Ukraina memiliki opini X", "kurang dari sepertiga memiliki opini X", "kurang dari seperempat memiliki opini X". Tapi asumsi ini bisa memeriksa hanya berkat perwakilan survei. Jadi, dalam konteks meneliti pandangan orang, sampel yang tidak representatif juga merupakan sampel kuantitatif hasil studi yang BUKAN dapat diperluas ke orang lain selain mereka yang mengambil bagian dalam penelitian. Atau lebih umum: pengambilan sampel yang tidak representatif - itu adalah salah satu yang membuat tidak mungkin untuk memperluas hasil kuantitatif penelitiannya ke populasi besar tertentu.

Mari kita bayangkan bahwa pada hari musim panas yang hangat kita pergi ke luar dan bertanya kepada 10 orang yang lewat di rumah atau kantor kita apakah mereka menyukai cuaca seperti sekarang. Biarkan 7 mengatakan apa yang mereka suka; 1 ragu dengan jawaban, 2 menunjukkan bahwa mereka tidak menyukai cuaca seperti itu dan merasa lebih nyaman pada suhu yang lebih rendah. Berdasarkan survei ini, kami BUKAN bisa dikatakan 70% orang menyukai cuaca seperti sekarang ini. Dan bahkan BUKAN kita dapat menjadi yakin paling orang menyukai cuaca seperti sekarang. Kita bisa mengekspresikan anggapan, bahwa kebanyakan orang menyukainya, tapi kita tidak bisa tahu pasti. Dulu tidak representatif Sampel.

Salah satu kesalahpahaman tentang pengambilan sampel adalah bahwa setiap sampel besar adalah representatif; Semakin banyak kita polling, semakin representatif. Ini tidak benar. Jika kita melanjutkan survei cuaca jalanan sampai kita mewawancarai 100 atau bahkan 1000 orang, kita masih belum bisa mengatakan dengan pasti tentang mereka yang tidak ditanya. Mengapa demikian? Bukankah 100, apalagi 1000 orang tidak cukup untuk menarik kesimpulan pasti tentang preferensi orang lain?

Faktanya adalah bahwa untuk memastikan keterwakilan, penting tidak hanya jumlah responden, tetapi juga bagaimana dan "x adalah terpilih. Dalam contoh di atas, kami tidak berpikir siapa, dimana dan bagaimana dipilih, tetapi hanya mulai berkomunikasi dengan orang yang lewat. Mari kita lihat sekeliling. Mungkin kita berada di dekat universitas pada hari sekolah? Kemudian, di antara orang yang lewat, ada sebagian besar anak muda yang, secara keseluruhan, lebih mudah mentolerir panas daripada orang yang lebih tua, dan oleh karena itu persentase orang yang puas dengan cuaca mungkin menjadi tinggi secara artifisial. Atau mungkin kita telah berakhir di tempat di mana ada lebih banyak orang tua di antara orang yang lewat, yang mungkin merasa sulit untuk menahan pengapnya hari-hari musim panas? Kemudian persentase mereka yang puas dengan cuaca dapat diremehkan dibandingkan dengan semua penduduk pemukiman.

Sampel Perwakilan

Sampel representatif adalah sampel yang memiliki distribusi karakteristik relatif yang sama dengan populasi umum.

Dalam Bahasa Inggris: sampel yang representatif

Lihat juga: Populasi sampel

Kamus Finam Keuangan.

Lihat apa itu "Contoh Representatif" di kamus lain:

Sampel Perwakilan- Sekelompok partisipan yang kurang lebih mewakili komposisi populasi yang diteliti. Sampel dapat mencerminkan distribusi menurut karakteristik usia dan jenis kelamin, serta karakteristik lain yang memengaruhi hasil eksperimen dalam hal ... ...

sampel yang representatif- — [Glosarium bahasa Inggris-Rusia istilah dasar tentang vaksinologi dan imunisasi. Organisasi Kesehatan Dunia, 2009] Topik Vaccinology, Immunization EN representatif sampling … Buku Pegangan Penerjemah Teknis

SAMPEL PERWAKILAN- (sampel representatif) sampel yang (atau dianggap) merupakan cerminan sebenarnya dari populasi orang tua, yaitu memiliki profil fitur yang sama, misalnya, struktur usia, struktur kelas, tingkat pendidikan. Perwakilan ... ... Kamus sosiologis penjelas besar

SAMPEL PERWAKILAN- Lihat perwakilan sampel... Kamus Penjelasan Psikologi

SAMPEL PERWAKILAN- sampel seperti itu di mana semua fitur utama dari populasi umum dari mana sampel yang diberikan diambil diwakili kira-kira dalam proporsi yang sama atau dengan frekuensi yang sama dengan fitur ini muncul dalam populasi umum ini ... Kamus Ensiklopedis Psikologi dan Pedagogi

Sampel Perwakilan- ini adalah sampel di mana semua fitur utama dari populasi umum dari mana sampel ini diekstraksi diwakili kira-kira dalam proporsi yang sama atau dengan frekuensi yang sama dengan mana fitur ini muncul dalam umum ini ... ... Kamus Sosiologi Socium

Sampel Perwakilan- (sampel representatif). Sampel yang secara akurat mencerminkan keadaan dan sifat seluruh populasi... Psikologi perkembangan. Kamus per buku

sampel yang representatif- (sampel representatif) sampel yang dibuat menurut aturan, yaitu sedemikian rupa sehingga mencerminkan kekhasan populasi umum baik dari segi komposisi maupun karakteristik individu dari mata pelajaran yang disertakan. Kamus psikolog praktis. G.: AST, ... ... Ensiklopedia Psikologi Hebat

Bahasa inggris pengambilan sampel, perwakilan; Jerman Stichprobe, perwakilan. Sampel yang pada dasarnya memiliki distribusi karakteristik relatif yang sama dengan populasi. Antinazi. Ensiklopedia Sosiologi, 2009 ... Ensiklopedia Sosiologi

Sampel representatif Sampel yang memiliki distribusi karakteristik relatif yang sama dengan populasi Kosa kata istilah bisnis. Akademik.ru. 2001 ... Daftar istilah bisnis

Portal untuk siswa. Latihan mandiri