Sampelnya representatif. Keterwakilan - apa itu? Pengambilan sampel acak sistematis

Sebenarnya, kita akan mulai dengan bukan hanya satu, tetapi tiga pertanyaan: apa itu sampel? kapan representatif? apa yang dia wakili?

Agregat- ini adalah sekelompok orang, organisasi, acara yang menarik bagi kami, yang ingin kami tarik kesimpulannya, dan kejadian, atau objek, - elemen apa pun dari koleksi semacam itu.

Sampel- setiap subkelompok dari kumpulan kasus (objek) yang dipilih untuk analisis.

Jika kita ingin mempelajari aktivitas pengambilan keputusan legislator negara bagian, kita dapat memeriksa aktivitas tersebut di legislatif negara bagian Virginia, Carolina Utara, dan Carolina Selatan, dan tidak di semua lima puluh negara bagian, dan, berdasarkan ini, mendistribusikan menerima data tentang populasi dari mana ketiga negara bagian ini dipilih. Jika kita ingin menyelidiki sistem preferensi pemilih Pennsylvania, kita dapat melakukannya dengan mewawancarai 50 pekerja AS. S. Steele di Pittsburgh dan membagikan hasil polling kepada semua pemilih di negara bagian tersebut.

Demikian pula Jika kita ingin mengukur kecerdasan mahasiswa, kita bisa menguji semua pemain bertahan yang terdaftar di Ohio State pada musim sepak bola tertentu dan kemudian memperluas hasilnya ke populasi di mana mereka menjadi bagiannya. Dalam setiap contoh, kami melanjutkan sebagai berikut: kami menetapkan subkelompok dalam populasi, mempelajari subkelompok ini, atau sampel, dalam beberapa detail, dan memperluas hasil kami ke seluruh populasi. Ini adalah tahapan utama pengambilan sampel.

Namun tampaknya Cukup jelas bahwa masing-masing sampel ini memiliki kelemahan yang signifikan. Misalnya, meskipun badan legislatif Virginia, Carolina Utara, dan Carolina Selatan adalah bagian dari konstelasi badan legislatif negara bagian, mereka, karena alasan historis, geografis, dan politik, cenderung beroperasi dengan cara yang sangat mirip dan sangat berbeda dari badan legislatif yang berbeda tersebut. .negara bagian seperti New York, Nebraska dan Alaska. Sementara lima puluh pekerja baja di Pittsburgh mungkin benar-benar pemilih di Pennsylvania, mereka mungkin, berdasarkan status sosial ekonomi, pendidikan, dan pengalaman hidup mereka, memiliki pandangan yang berbeda dari banyak orang lain yang menjadi pemilih dengan cara yang sama.

Demikian juga, meskipun pemain sepak bola Ohio State adalah mahasiswa, mereka mungkin berbeda dari siswa lain karena berbagai alasan. Dengan kata lain, meskipun masing-masing subkelompok ini memang sampel, anggota dari masing-masing subkelompok secara sistematis berbeda dari sebagian besar anggota populasi lainnya dari mana mereka dipilih. Sebagai kelompok yang terpisah, tidak satu pun dari mereka yang khas dalam hal distribusi fitur pendapat, motif perilaku, dan karakteristik dalam populasi umum yang terkait dengannya. Dengan demikian, para ilmuwan politik akan mengatakan bahwa tidak satu pun dari sampel ini yang representatif.


Sampel Perwakilan- ini adalah sampel di mana semua fitur utama dari populasi umum dari mana sampel yang diberikan diambil disajikan kira-kira dalam proporsi yang sama atau dengan frekuensi yang sama dengan fitur ini muncul dalam populasi umum ini. Jadi, jika 50% dari semua legislatif negara bagian bertemu hanya sekali setiap dua tahun, sekitar setengah dari sampel perwakilan legislatif negara bagian harus dari jenis ini. Jika 30% pemilih Pennsylvania adalah kerah biru, sekitar 30% dari sampel yang representatif dari pemilih tersebut (bukan 100% seperti pada contoh di atas) harus kerah biru.

Dan jika 2% dari semua mahasiswa adalah atlet, kira-kira proporsi yang sama dari sampel representatif mahasiswa harus menjadi atlet. Dengan kata lain, sampel yang representatif adalah mikrokosmos, model populasi yang lebih kecil namun akurat yang ingin diwakilinya. Sejauh sampel tersebut representatif, kesimpulan berdasarkan studi sampel ini dapat dianggap aman untuk diterapkan pada populasi asli. Distribusi hasil inilah yang kita sebut generalisasi.

Mungkin ilustrasi grafis akan membantu memperjelas hal ini. Misalkan kita ingin mempelajari pola keanggotaan kelompok politik di antara orang dewasa AS. Gambar 5.1 menunjukkan tiga lingkaran yang dibagi menjadi enam sektor yang sama besar. Gambar 5.1a mewakili seluruh populasi yang dipertimbangkan. Anggota populasi diklasifikasikan menurut kelompok politik (seperti partai dan kelompok kepentingan) di mana mereka berasal.

Dalam contoh ini setiap orang dewasa menjadi anggota setidaknya satu dan tidak lebih dari enam kelompok politik; dan enam tingkat keanggotaan ini sama-sama umum secara agregat (oleh karena itu sektor-sektor yang sama). Misalkan kita ingin menyelidiki motif orang untuk bergabung dengan suatu kelompok, pilihan kelompok, dan pola partisipasi, tetapi karena keterbatasan sumber daya, kita hanya dapat memeriksa satu dari setiap enam anggota populasi. Siapa yang harus dipilih untuk analisis?

Beras. 5.1. Pembentukan sampel dari populasi umum

Salah satu sampel yang mungkin dari ukuran tertentu diilustrasikan oleh area yang diarsir pada Gambar. 5.1b, bagaimanapun, itu jelas tidak mencerminkan struktur populasi.

Jika kita membuat generalisasi berdasarkan sampel ini, kita akan menyimpulkan:

1) bahwa semua orang dewasa Amerika termasuk dalam lima kelompok politik dan

2) bahwa seluruh perilaku kelompok orang Amerika bertepatan dengan perilaku orang-orang yang secara tepat termasuk dalam lima kelompok.

Namun, kita tahu bahwa kesimpulan pertama tidak benar, dan ini dapat menyebabkan kita meragukan validitas kesimpulan kedua.

Dengan demikian, sampel yang ditunjukkan pada Gambar 5.1b tidak representatif karena tidak mencerminkan distribusi properti populasi tertentu (sering disebut parameter) menurut distribusi sebenarnya. Contoh seperti itu dikatakan bergeser ke arah anggota dari lima kelompok atau bergeser dari semua model keanggotaan kelompok lainnya. Berdasarkan pengambilan sampel yang bias seperti itu, kita biasanya sampai pada kesimpulan yang salah tentang populasi.

Hal ini paling jelas ditunjukkan oleh contoh bencana yang menimpa majalah Literary Digest pada 1930-an, yang menyelenggarakan jajak pendapat publik tentang hasil pemilu. “ Intisari Sastra” adalah terbitan berkala yang mencetak ulang tajuk rencana dari surat kabar dan materi lain yang mencerminkan opini publik; majalah ini sangat populer di awal abad ini.

Sejak 1920. Majalah itu mengadakan jajak pendapat nasional yang luas di mana lebih dari satu juta orang dikirimi surat suara meminta mereka untuk menandai kandidat pilihan mereka untuk pemilihan presiden mendatang. Selama beberapa tahun, hasil jajak pendapat majalah itu begitu akurat sehingga jajak pendapat September tampaknya membuat pemilihan November tidak relevan.

Dan bagaimana bisa terjadi kesalahan dengan sampel sebesar itu? Namun, pada tahun 1936, inilah yang terjadi: dengan mayoritas suara (60:40), kemenangan diprediksi oleh kandidat Partai Republik Alf Landon. Dalam pemilihan, Landon kalah dari orang cacat - Franklin D. Roosevelt- praktis dengan hasil yang sama dengan yang seharusnya dia menangkan. Kredibilitas The Literary Digest sangat dirusak sehingga majalah itu segera tidak dicetak lagi. Apa yang terjadi? Ini sangat sederhana: polling Digest menggunakan sampel yang bias. Kartu pos dikirim ke orang-orang yang namanya diambil dari dua sumber: direktori telepon dan daftar registrasi mobil.

Meskipun metode pemilihan ini tidak jauh berbeda dari metode lain sebelumnya, sekarang sangat berbeda, selama Depresi Hebat tahun 1936, ketika pemilih yang kurang mampu, andalan Roosevelt, tidak mampu membeli telepon, apalagi mobil. Jadi, faktanya, sampel yang digunakan dalam jajak pendapat Digest itu bias terhadap mereka yang kemungkinan besar akan mencalonkan diri untuk Partai Republik, dan masih mengejutkan bahwa Roosevelt mendapatkan hasil yang begitu baik.

Bagaimana cara mengatasi masalah ini? Kembali ke contoh kita, mari kita bandingkan sampel pada Gambar. 5.1b dengan pilihan pada gambar. 5.1c. Dalam kasus terakhir, seperenam dari populasi juga dipilih untuk analisis, tetapi masing-masing jenis utama populasi diwakili dalam sampel dalam proporsi yang diwakilinya di seluruh populasi. Sampel seperti itu menunjukkan bahwa satu dari setiap enam orang dewasa Amerika termasuk dalam satu kelompok politik, satu dari enam hingga dua, dan seterusnya. Sampel seperti itu juga akan mengungkapkan perbedaan lain di antara anggotanya yang dapat dikaitkan dengan partisipasi dalam jumlah kelompok yang berbeda. Dengan demikian, sampel yang disajikan pada Gambar 5.1c adalah sampel yang representatif untuk populasi yang dipertimbangkan.

Tentu saja, contoh ini adalah disederhanakan dari setidaknya dua sudut pandang yang sangat penting. Pertama, sebagian besar populasi yang menarik bagi ilmuwan politik lebih beragam daripada yang ada di contoh. Orang, dokumen, pemerintah, organisasi, keputusan, dll. berbeda satu sama lain bukan dalam satu, tetapi dalam jumlah karakteristik yang jauh lebih besar. Oleh karena itu, sampel yang representatif harus sedemikian rupa sehingga setiap dari inti, wilayah yang berbeda diwakili secara proporsional dengan bagiannya dalam populasi.

Kedua, situasi di mana sebaran sebenarnya dari variabel-variabel, atau karakteristik yang ingin kita ukur, tidak diketahui sebelumnya, jauh lebih umum daripada sebaliknya - mungkin tidak diukur dalam sensus penduduk sebelumnya. Dengan demikian, sampel yang representatif harus dirancang sedemikian rupa sehingga dapat secara akurat mencerminkan distribusi yang ada bahkan ketika kita tidak dapat menilai validitasnya secara langsung. Prosedur pengambilan sampel harus memiliki logika internal yang mampu meyakinkan kita bahwa, jika kita mampu membandingkan sampel dengan sensus, memang akan representatif.

Untuk memberikan kesempatan refleksi akurat dari organisasi kompleks dari populasi tertentu dan tingkat kepercayaan tertentu bahwa prosedur yang diusulkan mampu melakukan ini, para peneliti beralih ke metode statistik. Dalam melakukannya, mereka beroperasi dalam dua arah. Pertama, dengan menggunakan aturan tertentu (logika internal), peneliti memutuskan objek tertentu mana yang akan dipelajari, apa sebenarnya yang akan dimasukkan dalam sampel tertentu. Kedua, menggunakan aturan yang sangat berbeda, mereka memutuskan berapa banyak objek yang akan dipilih. Kami tidak akan mempelajari banyak aturan ini secara rinci, kami hanya akan mempertimbangkan perannya dalam penelitian ilmu politik. Mari kita mulai dengan strategi untuk memilih objek yang membentuk sampel yang representatif.

Tujuan akhir mempelajari populasi sampel adalah selalu untuk memperoleh informasi tentang populasi tersebut. Untuk melakukan ini, studi sampel harus memenuhi persyaratan tertentu. Salah satu syarat utama keterwakilan (representativeness) sampel. Seperti dibahas sebelumnya, perbedaan dibuat antara keterwakilan kualitatif dan kuantitatif.

Keacakan, yang menjamin keterwakilan kualitatif (struktural) studi statistik, dicapai dengan memenuhi sejumlah kondisi untuk pembentukan kelompok sampel (set):

1. Setiap anggota populasi harus memiliki peluang yang sama untuk dimasukkan dalam sampel.

2. Pemilihan unit pengamatan dari populasi umum harus dilakukan tanpa memperhatikan sifat yang diteliti. Jika seleksi dilakukan dengan sengaja, maka perlu juga memperhatikan kondisi independensi distribusi sifat yang diteliti.

3. Seleksi harus dilakukan dari kelompok yang homogen.

Kepatuhan terhadap kondisi yang menjamin kedekatan maksimum sampel dan populasi umum dipastikan dengan metode seleksi khusus. Tergantung pada metode pembentukannya, sampel berikut dibedakan:

1. Sampel yang tidak memerlukan pembagian populasi umum menjadi bagian-bagian (sebenarnya, sampling acak berulang atau tidak berulang).

2. Sampel yang memerlukan pemisahan populasi umum menjadi beberapa bagian (sampel mekanis, tipologis atau tipologis, kohort, sampel berpasangan-konjugasi).

Sebenarnya, sampel acak dibentuk oleh pemilihan acak - secara acak. Pemilihan acak didasarkan pada pencampuran. Misalnya: memilih bola dalam lotre olahraga setelah mencampur semua bola, memilih nomor lotre yang menang, secara acak memilih kartu pasien untuk penelitian, dll. Kadang-kadang digunakan angka acak, diperoleh dari tabel angka acak atau menggunakan generator angka acak. Menurut angka-angka ini, dari susunan populasi umum yang telah diberi nomor sebelumnya, unit pengamatan dengan angka yang sesuai dengan angka acak yang telah jatuh dipilih.

Saat menyusun sampel acak, setelah objek dipilih dan semua data yang diperlukan tentangnya terdaftar, Anda dapat melakukan dua hal: objek dapat dikembalikan, atau tidak dikembalikan ke populasi umum. Mengenai ini sampel disebut berulang(objek dikembalikan ke populasi) atau tidak berulang(objek tidak dikembalikan ke populasi). Karena dalam sebagian besar studi statistik praktis tidak ada perbedaan antara sampel berulang dan tidak berulang, maka syaratnya adalah diterima secara apriori bahwa sampel berulang.

Memperkirakan ukuran sampel yang dibutuhkan

Agar sampel dapat mewakili populasi umum secara kuantitatif, perlu terlebih dahulu memperkirakan jumlah data yang akan dimasukkan dalam sampel.

Dengan ukuran populasi umum yang tidak diketahui jumlah resampling yang menjamin hasil yang representatif jika hasilnya tercermin dalam indikator sebagai nilai relatif (bagi), ditentukan dengan rumus:

di mana p adalah nilai indikator sifat yang diteliti, dalam %; q = (100- p) ;

t adalah koefisien kepercayaan yang menunjukkan berapa probabilitas bahwa ukuran indikator tidak akan melampaui batas kesalahan marginal (biasanya diambil t = 2, yang memberikan probabilitas 95% dari perkiraan bebas kesalahan);

- kesalahan marginal indikator.

Sebagai contoh: salah satu indikator yang mencirikan kesehatan pekerja di perusahaan industri adalah persentase pekerja yang tidak sakit sepanjang tahun. Misalkan untuk sektor industri tempat perusahaan yang disurvei berada, indikator ini adalah 25%. Marginal error yang diperbolehkan agar spread nilai indikator tidak melebihi batas wajar adalah 5%. Dalam hal ini, indikator dapat mengambil nilai 25% ± 5%, yaitu. dari 20% menjadi 30%. Dengan asumsi t = 2, kita dapatkan

Dalam hal itu, jika indikatornya adalah nilai rata-rata, maka banyaknya pengamatan dapat ditentukan dengan rumus :

di mana adalah standar deviasi, yang dapat diperoleh dari studi sebelumnya, atau berdasarkan studi percobaan (pilot).

Dengan pilihan berulang dan di bawah kondisi populasi umum yang diketahui untuk menentukan ukuran sampel acak yang diperlukan jika digunakan nilai relatif (saham) rumus yang diterapkan:

untuk nilai rata-rata rumus yang digunakan:

di mana N adalah ukuran populasi umum.

Berdasarkan kondisi contoh di atas dan dengan asumsi ukuran populasi umum N=500 pekerja, kita mendapatkan:

Sangat mudah untuk melihat bahwa ukuran sampel yang diperlukan untuk pengambilan sampel non-berulang lebih kecil daripada pengambilan sampel berulang (masing-masing, 188 dan 300 pekerja).

Secara umum, jumlah pengamatan yang diperlukan untuk mendapatkan data yang representatif bervariasi berbanding terbalik dengan kuadrat kesalahan yang diizinkan.

Pengambilan sampel mekanis- pengambilan sampel, ketika unit pengamatan dipilih secara mekanis dari populasi yang disurvei. Misalnya: pemilihan setiap pekerja kelima atau kesepuluh sesuai dengan kartu departemen personalia perusahaan atau sesuai dengan kartu rawat jalan poliklinik unit medis.

tipologis, tipologis atau dikategorikan pengambilan sampel melibatkan pemecahan populasi umum menjadi sejumlah kelompok yang secara kualitatif homogen. Misalnya: ketika mempelajari insiden mahasiswa untuk pemeriksaan mendalam di setiap kursus, kelompok mahasiswa yang khas dalam komposisinya dipilih. Seringkali metode seleksi ini dikombinasikan dengan metode lain. Misalnya: wilayah kota dibagi menjadi daerah-daerah khas tergantung pada tingkat polusi, di daerah-daerah ini, kelompok pengamatan dibentuk dengan pemilihan acak.

pemilihan kelompok mengacu pada pemilihan yang ditargetkan. Dengan metode ini, individu dipilih dari populasi umum (distribusi ke dalam subkelompok tidak acak), disatukan oleh saat munculnya tanda apa pun atau efek yang dipelajari yang memainkan peran penting dalam penelitian (tahun kelahiran, onset penyakit, minum obat, dll).

Studi kasus-kontrol(SC) adalah jenis studi epidemiologi di mana distribusi faktor risiko dibandingkan antara kelompok pasien dengan penyakit dan kelompok kontrol. Studi (SC) mengacu pada retrospektif, karena peneliti, membagi pasien ke dalam kelompok, menurut apakah mereka memiliki penyakit atau tidak, menemukan informasi dari masa lalu dari mereka.

Kita harus membahas secara terpisah penggunaan metode pengambilan sampel dalam statistik sanitasi ketika mempelajari morbiditas umum populasi. Premis teoretis dari metode pengambilan sampel telah diuji selama studi khusus. Jadi, V.S. Bykhovsky dkk. pada tahun 1928 mereka membuat pemrosesan paralel 132,8 ribu kartu dengan data penyakit dengan metode kontinu dan dengan metode seleksi mekanis setiap kartu kelima. Analisis hasil pengolahan ini menunjukkan keterwakilan data yang tinggi dari studi selektif morbiditas. Namun, hingga saat ini, tidak ada pendekatan metodologis terpadu untuk melakukan studi statistik sanitasi selektif dalam praktik luas.

Keterwakilan sampel

Nama parameter Berarti
Subjek artikel: Keterwakilan sampel
Rubrik (kategori tematik) Psikologi

Persyaratan sampel

Sejumlah persyaratan wajib diterapkan pada sampel, ditentukan, pertama-tama, oleh tujuan dan sasaran penelitian. Merencanakan eksperimen harus mencakup mempertimbangkan ukuran sampel dan sejumlah fiturnya. Jadi, dalam penelitian psikologi, persyaratan Homogenitas sampel. Artinya, psikolog yang mempelajari, misalnya remaja, tidak dapat memasukkan orang dewasa dalam sampel yang sama. Sebaliknya, penelitian yang dilakukan dengan metode pemotongan usia pada prinsipnya mengasumsikan adanya subjek dari berbagai usia. Pada saat yang sama, dalam hal ini, homogenitas sampel harus diperhatikan, tetapi menurut kriteria lain, terutama seperti usia dan jenis kelamin. Dasar pembentukan sampel yang homogen dapat berupa karakteristik yang berbeda, seperti tingkat kecerdasan, kebangsaan, tidak adanya penyakit tertentu, dll, berdasarkan tujuan penelitian.

Dalam statistik umum, ada konsep ulang dan tidak berulang pilihan, atau, dengan kata lain, pilihan dengan pengembalian dan tanpa pengembalian. Sebagai contoh, sebagai aturan, pilihan bola yang diambil dari wadah diberikan. Dalam kasus seri dengan pengembalian, setiap bola yang dipilih dikembalikan lagi ke wadah dan, oleh karena itu, harus dipilih lagi. Dengan pemilihan non-repetitif, bola yang pernah dipilih akan dikesampingkan dan tidak dapat lagi berpartisipasi dalam pemilihan. Dalam penelitian psikologis, seseorang dapat menemukan analogi dari metode semacam ini dalam mengatur penelitian selektif, karena seorang psikolog sering kali harus menguji subjek yang sama beberapa kali menggunakan metodologi yang sama. Pada saat yang sama, sebenarnya, prosedur pengujian diulang dalam kasus ini. Sampel subjek dengan identitas lengkap komposisi dalam kasus studi berulang akan selalu memiliki beberapa perbedaan karena variabilitas fungsional dan usia yang melekat pada semua orang. Pemilihan seperti itu berdasarkan sifat prosedurnya diulang, meskipun arti istilah di sini jelas berbeda dari pada kasus bola.

Penting untuk ditekankan bahwa semua persyaratan untuk sampel apa pun bermuara pada fakta bahwa atas dasar itu psikolog harus memperoleh informasi yang paling lengkap dan tidak terdistorsi tentang karakteristik populasi umum dari mana sampel ini diambil. Dengan kata lain, sampel harus mencerminkan semaksimal mungkin karakteristik populasi umum yang diteliti.

Komposisi sampel eksperimen harus mewakili (model) populasi umum, karena kesimpulan yang diperoleh dalam eksperimen seharusnya ditransfer ke seluruh populasi umum di masa depan. Untuk alasan ini, sampel harus memiliki kualitas khusus - keterwakilan, memungkinkan untuk memperluas kesimpulan yang diperoleh ke seluruh populasi umum.

Keterwakilan sampel sangat penting, namun untuk alasan obyektif, sangat sulit untuk mempertahankannya. Dengan demikian, adalah fakta yang diketahui bahwa dari 70% hingga 90% dari semua studi psikologis tentang perilaku manusia dilakukan di AS pada tahun 60-an abad XX dengan mahasiswa, kebanyakan dari mereka adalah mahasiswa psikologi. Dalam penelitian laboratorium yang dilakukan pada hewan, objek penelitian yang paling umum adalah tikus. Karena alasan ini, bukanlah suatu kebetulan bahwa psikologi dulu disebut ilmu tentang siswa kelas dua dan tikus putihʼʼ. Mahasiswa psikologi perguruan tinggi hanya 3% dari total populasi AS. Jelas, sampel siswa tidak representatif sebagai model yang mengklaim mewakili seluruh populasi negara.

Perwakilan sampel, atau, seperti yang mereka katakan, perwakilan sampel adalah sampel di mana semua fitur utama dari populasi umum diwakili dalam proporsi yang kira-kira sama dan dengan frekuensi yang sama dengan fitur ini muncul dalam populasi umum ini. Dengan kata lain, sampel yang representatif adalah model populasi yang lebih kecil tetapi akurat yang dimaksudkan untuk diwakili. Sejauh sampel tersebut representatif, kesimpulan berdasarkan studi sampel ini dapat dianggap dengan tingkat kepastian yang tinggi berlaku untuk seluruh populasi. Penyebaran hasil ini disebut generalisasi.

Idealnya, sampel yang representatif harus sedemikian rupa sehingga setiap karakteristik dasar yang dipelajari oleh psikolog, sifat, sifat kepribadian, dll. akan diwakili di dalamnya secara proporsional dengan fitur yang sama dalam populasi umum. Menurut persyaratan ini, prosedur pengambilan sampel harus memiliki logika internal yang dapat meyakinkan peneliti bahwa, jika dibandingkan dengan populasi umum, itu memang akan menjadi representatif, representatif.

Dalam aktivitas spesifiknya, psikolog bertindak sebagai berikut: ia menetapkan subkelompok (sampel) dalam populasi umum, mempelajari sampel ini secara terperinci (melakukan pekerjaan eksperimental dengannya), dan kemudian, jika hasil analisis statistik memungkinkan, memperluas temuan untuk seluruh populasi. Ini adalah tahapan utama pekerjaan seorang psikolog dengan sampel.

Psikolog pemula harus mengingat kesalahan yang sering diulang: setiap kali dia mengumpulkan data apa pun dengan metode apa pun dan dari sumber apa pun, dia selalu tergoda untuk memperluas kesimpulannya ke seluruh populasi. Untuk menghindari kesalahan seperti itu, seseorang tidak hanya harus memiliki akal sehat, tetapi, di atas segalanya, memiliki perintah yang baik tentang konsep dasar statistik matematika.

Keterwakilan sampel - konsep dan tipe. Klasifikasi dan fitur kategori "Keterwakilan sampel" 2017, 2018.

Konsep keterwakilan sering ditemukan dalam pelaporan statistik dan dalam penyusunan pidato dan laporan. Mungkin, tanpa itu, sulit membayangkan jenis penyajian informasi apa pun untuk ditinjau.

Keterwakilan - apa itu?

Keterwakilan mencerminkan bagaimana objek atau bagian yang dipilih sesuai dengan konten dan makna kumpulan data dari mana mereka dipilih.

Definisi lain

Konsep keterwakilan dapat dikembangkan dalam konteks yang berbeda. Tetapi dalam pengertiannya, keterwakilan adalah korespondensi fitur dan properti unit yang dipilih dari populasi umum, yang secara akurat mencerminkan karakteristik seluruh basis data umum secara keseluruhan.

Juga, keterwakilan informasi didefinisikan sebagai kemampuan data sampel untuk mewakili parameter dan sifat populasi yang penting dari sudut pandang studi yang sedang berlangsung.

Sampel Perwakilan

Prinsip pengambilan sampel adalah memilih yang paling penting dan secara akurat mencerminkan sifat-sifat dari kumpulan data total. Untuk ini, berbagai metode digunakan yang memungkinkan untuk memperoleh hasil yang akurat dan gambaran umum hanya menggunakan bahan selektif yang menggambarkan kualitas semua data.

Dengan demikian, tidak perlu mempelajari keseluruhan materi, tetapi cukup mempertimbangkan keterwakilan sampel. Apa itu? Ini adalah pilihan data individu untuk mendapatkan gambaran tentang massa total informasi.

Tergantung pada metodenya, mereka dibedakan sebagai probabilistik dan tidak mungkin. Probabilistik adalah sampel yang dibuat dengan menghitung data yang paling penting dan menarik, yang selanjutnya mewakili populasi umum. Ini adalah pilihan yang disengaja atau pilihan acak, bagaimanapun, dibenarkan oleh isinya.

Luar biasa - ini adalah salah satu varietas pengambilan sampel acak, disusun sesuai dengan prinsip lotere biasa. Dalam hal ini, pendapat orang yang membuat sampel seperti itu tidak diperhitungkan. Hanya lot buta yang digunakan.

Sampling probabilitas

Sampel probabilitas juga dapat dibagi menjadi beberapa jenis:

  • Salah satu prinsip yang paling sederhana dan paling mudah dipahami adalah non-representative sampling. Misalnya, metode ini sering digunakan dalam survei sosial. Pada saat yang sama, peserta survei tidak dipilih dari kerumunan dengan alasan tertentu, dan informasi diperoleh dari 50 orang pertama yang mengikutinya.
  • Sampel yang disengaja berbeda dalam hal mereka memiliki sejumlah persyaratan dan kondisi dalam pemilihan, tetapi masih mengandalkan kebetulan acak, tidak mengejar tujuan mencapai statistik yang baik.
  • Pengambilan sampel berbasis kuota adalah variasi lain dari pengambilan sampel non-probabilistik yang sering digunakan untuk memeriksa kumpulan data yang besar. Ini menggunakan banyak syarat dan ketentuan. Objek dipilih yang harus sesuai dengan mereka. Artinya, dengan menggunakan contoh survei sosial, dapat diasumsikan bahwa 100 orang akan diwawancarai, tetapi hanya pendapat sejumlah orang tertentu yang memenuhi persyaratan yang akan diperhitungkan saat menyusun laporan statistik.

sampel probabilitas

Untuk sampel probabilistik, sejumlah parameter dihitung bahwa objek dalam sampel akan sesuai dengan, dan di antara mereka, dengan cara yang berbeda, fakta dan data yang akan disajikan sebagai keterwakilan data sampel dapat dipilih. Cara menghitung data yang diperlukan seperti itu dapat berupa:

  • Sebuah sampel acak sederhana. Ini terdiri dari fakta bahwa di antara segmen yang dipilih, metode lotre yang sepenuhnya acak memilih jumlah data yang diperlukan, yang akan menjadi sampel yang representatif.
  • Pengambilan sampel secara sistematis dan acak memungkinkan untuk menyusun sistem untuk menghitung data yang diperlukan berdasarkan segmen yang dipilih secara acak. Jadi, jika bilangan acak pertama yang menunjukkan nomor urut data yang dipilih dari total populasi adalah 5, maka data berikutnya yang akan dipilih dapat berupa, misalnya 15, 25, 35, dan seterusnya. Contoh ini dengan jelas menjelaskan bahwa bahkan pilihan acak dapat didasarkan pada perhitungan sistematis dari data masukan yang diperlukan.

Contoh konsumen

Pengambilan sampel yang disengaja adalah metode yang terdiri dari mempertimbangkan setiap segmen individu, dan berdasarkan penilaiannya, suatu populasi disusun yang mencerminkan karakteristik dan sifat database secara keseluruhan. Dengan cara ini, lebih banyak data dikumpulkan yang memenuhi persyaratan sampel yang representatif. Sangat mudah untuk memilih sejumlah opsi yang tidak akan dimasukkan dalam jumlah total, tanpa kehilangan kualitas data yang dipilih yang mewakili total populasi. Dengan cara ini, keterwakilan hasil penelitian ditentukan.

Ukuran sampel

Bukan masalah terakhir yang akan dibahas adalah ukuran sampel untuk representasi representatif dari populasi. Ukuran sampel tidak selalu bergantung pada jumlah sumber dalam populasi umum. Namun, keterwakilan populasi sampel secara langsung tergantung pada berapa banyak segmen hasil yang harus dibagi. Semakin banyak segmen seperti itu, semakin banyak data yang masuk ke sampel yang dihasilkan. Jika hasil memerlukan notasi umum dan tidak memerlukan kekhususan, maka dengan demikian sampel menjadi lebih kecil, karena tanpa merinci informasi yang disajikan lebih dangkal, yang berarti pembacaannya akan bersifat umum.

Konsep kesalahan keterwakilan

Kesalahan keterwakilan adalah ketidaksesuaian khusus antara karakteristik populasi dan data sampel. Ketika melakukan studi sampel apa pun, tidak mungkin untuk mendapatkan data yang benar-benar akurat, seperti dalam studi populasi umum yang lengkap dan sampel yang diberikan hanya dengan sebagian informasi dan parameter, sementara studi yang lebih rinci hanya mungkin dilakukan ketika mempelajari seluruh populasi. Dengan demikian, beberapa kesalahan dan kesalahan tidak dapat dihindari.

Jenis kesalahan

Ada beberapa kesalahan yang terjadi saat menyusun sampel yang representatif:

  • Sistematis.
  • Acak.
  • Disengaja.
  • Tak disengaja.
  • Standar.
  • Membatasi.

Alasan munculnya kesalahan acak mungkin karena sifat studi populasi umum yang terputus-putus. Biasanya, kesalahan acak keterwakilan memiliki ukuran dan sifat yang dapat diabaikan.

Sedangkan kesalahan sistematik muncul ketika aturan pemilihan data dari total populasi dilanggar.

Kesalahan rata-rata adalah perbedaan antara rata-rata sampel dan populasi yang mendasarinya. Itu tidak tergantung pada jumlah unit dalam sampel. Berbanding terbalik, maka semakin besar volumenya maka semakin kecil nilai rata-rata errornya.

Marginal error adalah selisih terbesar yang mungkin antara nilai rata-rata sampel yang dibuat dengan total populasi. Kesalahan seperti itu dicirikan sebagai kesalahan maksimum yang mungkin terjadi dalam kondisi tertentu dari kemunculannya.

Kesalahan keterwakilan yang disengaja dan tidak disengaja

Kesalahan offset data bisa disengaja atau tidak disengaja.

Kemudian alasan munculnya kesalahan yang disengaja adalah pendekatan pemilihan data dengan metode penentuan tren. Kesalahan yang tidak disengaja terjadi bahkan pada tahap persiapan pengamatan sampel, membentuk sampel yang representatif. Untuk menghindari kesalahan tersebut, perlu dibuat kerangka sampling yang baik untuk membuat daftar unit sampling. Itu harus sepenuhnya sesuai dengan tujuan pengambilan sampel, dapat diandalkan, mencakup semua aspek penelitian.

Validitas, reliabilitas, keterwakilan. Perhitungan Kesalahan

Perhitungan kesalahan keterwakilan (Mm) dari mean aritmatika (M).

Standar deviasi: ukuran sampel (>30).

Kesalahan representatif (Mr) dan (R): ukuran sampel (n>30).

Dalam kasus ketika Anda harus mempelajari populasi yang jumlah sampelnya sedikit dan kurang dari 30 unit, maka jumlah pengamatan akan berkurang satu unit.

Besarnya kesalahan berbanding lurus dengan ukuran sampel. Keterwakilan informasi dan perhitungan tingkat kemungkinan membuat ramalan yang akurat mencerminkan sejumlah kesalahan marjinal tertentu.

Sistem representasi

Tidak hanya sampel yang representatif yang digunakan dalam proses evaluasi penyajian informasi, tetapi orang yang menerima informasi itu sendiri menggunakan sistem perwakilan. Dengan demikian, otak memproses beberapa dengan membuat sampel yang representatif dari seluruh aliran informasi untuk mengevaluasi data yang dikirimkan secara kualitatif dan cepat dan memahami esensi masalah. Jawab pertanyaan: "Keterwakilan - apa itu?" - pada skala kesadaran manusia cukup sederhana. Untuk melakukan ini, otak menggunakan semua subjek, tergantung pada jenis informasi apa yang perlu diisolasi dari arus umum. Dengan demikian, mereka membedakan:

  • Sistem representasi visual, di mana organ-organ persepsi visual mata terlibat. Orang yang sering menggunakan sistem seperti itu disebut visual. Dengan bantuan sistem ini, seseorang mengolah informasi yang datang berupa gambar.
  • sistem representasi pendengaran. Organ utama yang digunakan adalah pendengaran. Informasi yang diberikan dalam bentuk file suara atau ucapan diproses oleh sistem khusus ini. Orang yang mempersepsikan informasi lebih baik melalui telinga disebut auditori.
  • Sistem representasi kinestetik adalah pemrosesan aliran informasi dengan mempersepsikannya melalui saluran penciuman dan taktil.
  • Sistem representasi digital digunakan bersama-sama dengan yang lain sebagai sarana untuk memperoleh informasi dari luar. persepsi dan pemahaman dari data yang diterima.

Jadi, keterwakilan - apa itu? Pilihan sederhana dari banyak atau prosedur integral dalam pemrosesan informasi? Kita dapat dengan pasti mengatakan bahwa keterwakilan sangat menentukan persepsi kita tentang aliran data, membantu mengisolasi yang paling signifikan dan signifikan darinya.

Populasi- satu set unit yang memiliki karakter massa, kekhasan, keseragaman kualitatif dan adanya variasi.

Populasi statistik terdiri dari objek material yang ada (Karyawan, perusahaan, negara, wilayah), adalah objek.

Satuan populasi- setiap unit tertentu dari populasi statistik.

Satu dan populasi statistik yang sama dapat homogen dalam satu fitur dan heterogen di fitur lainnya.

Keseragaman kualitatif- kesamaan semua unit populasi untuk fitur apa pun dan ketidaksamaan untuk semua yang lain.

Dalam populasi statistik, perbedaan antara satu unit populasi dan yang lain lebih sering bersifat kuantitatif. Perubahan kuantitatif dalam nilai atribut unit yang berbeda dari populasi disebut variasi.

Variasi Fitur- perubahan kuantitatif suatu tanda (untuk tanda kuantitatif) selama transisi dari satu unit populasi ke unit lainnya.

tanda- ini adalah properti, karakteristik atau fitur lain dari unit, objek, dan fenomena yang dapat diamati atau diukur. Tanda dibagi menjadi kuantitatif dan kualitatif. Keanekaragaman dan keragaman nilai suatu ciri dalam satuan individu populasi disebut variasi.

Ciri-ciri atributif (kualitatif) tidak dapat diukur (komposisi populasi menurut jenis kelamin). Karakteristik kuantitatif memiliki ekspresi numerik (komposisi populasi berdasarkan usia).

Indikator- ini adalah karakteristik kuantitatif dan kualitatif generalisasi dari setiap properti unit atau agregat untuk tujuan dalam kondisi waktu dan tempat tertentu.

Kartu catatan angka adalah seperangkat indikator yang secara komprehensif mencerminkan fenomena yang diteliti.

Misalnya, pertimbangkan gaji:
  • Tanda - upah
  • Populasi statistik - semua karyawan
  • Satuan dari populasi adalah setiap pekerja
  • Homogenitas kualitatif - gaji yang masih harus dibayar
  • Variasi fitur - serangkaian angka

Populasi umum dan sampel darinya

Basis adalah sekumpulan data yang diperoleh sebagai hasil pengukuran satu atau lebih fitur. Himpunan objek yang benar-benar diamati, secara statistik diwakili oleh serangkaian pengamatan variabel acak , adalah contoh, dan yang ada secara hipotetis (dipikirkan) - populasi umum. Populasi umum dapat berhingga (jumlah observasi N = konstanta) atau tak terbatas ( N =), dan sampel dari populasi umum selalu merupakan hasil pengamatan dalam jumlah terbatas. Banyaknya pengamatan yang membentuk sampel disebut ukuran sampel. Jika ukuran sampel cukup besar n→∞) sampel dianggap besar, jika tidak maka disebut sampel volume terbatas. Sampel dianggap kecil, jika, ketika mengukur variabel acak satu dimensi, ukuran sampel tidak melebihi 30 ( n<= 30 ), dan ketika mengukur secara bersamaan beberapa ( k) fitur dalam hubungan ruang multidimensi n ke k kurang dari 10 (n/k< 10) . Contoh formulir seri variasi jika anggotanya adalah statistik pesanan, yaitu, nilai sampel dari variabel acak X diurutkan dalam urutan menaik (diperingkat), nilai-nilai atribut disebut pilihan.

Contoh. Kumpulan objek yang dipilih secara acak yang hampir sama - bank komersial dari satu distrik administratif Moskow, dapat dianggap sebagai sampel dari populasi umum semua bank komersial di distrik ini, dan sebagai sampel dari populasi umum semua bank komersial di Moskow , serta contoh bank komersial di negara ini dan lain-lain.

Metode pengambilan sampel dasar

Keandalan kesimpulan statistik dan interpretasi hasil yang bermakna tergantung pada: keterwakilan sampel, yaitu kelengkapan dan kecukupan penyajian sifat-sifat populasi umum, yang dengannya sampel ini dapat dianggap representatif. Studi tentang sifat statistik populasi dapat diatur dalam dua cara: menggunakan kontinu dan terputus-putus. Pengamatan terus menerus termasuk pemeriksaan semua unit dipelajari agregat, sebuah observasi non-kontinyu (selektif)- hanya sebagian saja.

Ada lima cara utama untuk mengatur pengambilan sampel:

1. pilihan acak sederhana, di mana objek diekstraksi secara acak dari populasi umum objek (misalnya, menggunakan tabel atau generator angka acak), dan masing-masing sampel yang mungkin memiliki probabilitas yang sama. Sampel seperti itu disebut sebenarnya acak;

2. seleksi sederhana melalui prosedur reguler dilakukan dengan menggunakan komponen mekanis (misalnya, tanggal, hari dalam seminggu, nomor apartemen, huruf alfabet, dll.) dan sampel yang diperoleh dengan cara ini disebut mekanis;

3. bertingkat seleksi terdiri dari kenyataan bahwa populasi umum volume dibagi menjadi himpunan bagian atau lapisan (strata) volume sehingga . Strata adalah objek homogen dalam hal karakteristik statistik (misalnya, populasi dibagi menjadi strata menurut kelompok umur atau kelas sosial; perusahaan menurut industri). Dalam hal ini, sampel disebut bertingkat(sebaliknya, bertingkat, khas, dikategorikan);

4. metode serial seleksi digunakan untuk membentuk serial atau sampel bersarang. Mereka nyaman jika perlu untuk memeriksa "blok" atau serangkaian objek sekaligus (misalnya, kiriman barang, produk dari seri tertentu, atau populasi di divisi teritorial-administrasi negara). Pemilihan seri dapat dilakukan secara acak atau mekanis. Pada saat yang sama, survei berkelanjutan terhadap sejumlah barang tertentu, atau seluruh unit teritorial (bangunan tempat tinggal atau seperempat) dilakukan;

5. gabungan(melangkah) seleksi dapat menggabungkan beberapa metode seleksi sekaligus (misalnya, bertingkat dan acak atau acak dan mekanis); sampel seperti itu disebut gabungan.

Jenis pilihan

Oleh pikiran ada seleksi individu, kelompok dan gabungan. Pada seleksi individu unit individu dari populasi umum dipilih dalam kumpulan sampel, dengan pemilihan grup adalah kelompok (deret) unit yang secara kualitatif homogen, dan seleksi gabungan melibatkan kombinasi dari tipe pertama dan kedua.

Oleh metode seleksi membedakan berulang dan tidak berulang Sampel.

tidak bisa diulang disebut seleksi, di mana unit yang masuk ke dalam sampel tidak kembali ke populasi semula dan tidak ikut seleksi lebih lanjut; sedangkan jumlah unit populasi umum N berkurang selama proses seleksi. Pada ulang pilihan tertangkap dalam sampel, unit setelah pendaftaran dikembalikan ke populasi umum dan dengan demikian mempertahankan kesempatan yang sama, bersama dengan unit lain, untuk digunakan dalam prosedur seleksi lebih lanjut; sedangkan jumlah unit populasi umum N tetap tidak berubah (metode ini jarang digunakan dalam studi sosio-ekonomi). Namun, dengan besar N (N → ) rumus untuk tidak berulang pilihan dekat dengan mereka untuk ulang seleksi dan yang terakhir digunakan hampir lebih sering ( N = konstanta).

Karakteristik utama dari parameter populasi umum dan sampel

Dasar dari kesimpulan statistik penelitian adalah distribusi variabel acak , sedangkan nilai-nilai yang diamati (x 1, x 2, ..., x n) disebut realisasi dari variabel acak X(n adalah ukuran sampel). Distribusi variabel acak dalam populasi umum bersifat teoretis, ideal, dan analog sampelnya adalah empiris distribusi. Beberapa distribusi teoritis diberikan secara analitis, yaitu mereka pilihan tentukan nilai fungsi distribusi pada setiap titik dalam ruang kemungkinan nilai variabel acak . Untuk sampel, sulit, dan terkadang tidak mungkin, untuk menentukan fungsi distribusi, oleh karena itu pilihan diestimasi dari data empiris, dan kemudian disubstitusikan ke dalam ekspresi analitis yang menggambarkan distribusi teoretis. Dalam hal ini, asumsi (atau hipotesa) tentang jenis distribusi dapat benar dan salah secara statistik. Tetapi bagaimanapun juga, distribusi empiris yang direkonstruksi dari sampel hanya secara kasar mencirikan distribusi yang sebenarnya. Parameter distribusi yang paling penting adalah nilai yang diharapkan dan dispersi.

Menurut sifatnya, distribusi adalah kontinu dan diskrit. Distribusi kontinu yang paling dikenal adalah normal. Analog selektif parameter dan untuk itu adalah: nilai rata-rata dan varians empiris. Di antara diskrit dalam studi sosial-ekonomi, yang paling umum digunakan alternatif (dikotomis) distribusi. Parameter ekspektasi dari distribusi ini menyatakan nilai relatif (atau Bagikan) satuan populasi yang mempunyai sifat yang diteliti (ditunjukkan dengan huruf ); proporsi populasi yang tidak memiliki ciri tersebut dilambangkan dengan huruf q (q = 1 - p). Varians dari distribusi alternatif juga memiliki analog empiris.

Tergantung pada jenis distribusi dan metode pemilihan unit populasi, karakteristik parameter distribusi dihitung secara berbeda. Yang utama untuk distribusi teoritis dan empiris diberikan dalam Tabel. 9.1.

Contoh berbagi k n adalah rasio jumlah unit populasi sampel dengan jumlah unit populasi umum:

k n = n/N.

Berbagi sampel adalah rasio unit yang memiliki sifat yang dipelajari x untuk ukuran sampel n:

w = n n / n.

Contoh. Dalam batch barang yang berisi 1000 unit, dengan sampel 5% pecahan sampel k n dalam nilai absolut adalah 50 unit. (n = N*0,05); jika 2 produk cacat ditemukan dalam sampel ini, maka pecahan sampel w akan menjadi 0,04 (w = 2/50 = 0,04 atau 4%).

Karena populasi sampel berbeda dengan populasi umum, maka kesalahan pengambilan sampel.

Tabel 9.1 Parameter utama populasi umum dan sampel

Kesalahan pengambilan sampel

Dengan apapun (padat dan selektif) kesalahan dari dua jenis dapat terjadi: pendaftaran dan keterwakilan. kesalahan Registrasi bisa memperoleh acak dan sistematis karakter. Acak kesalahan terdiri dari banyak penyebab tak terkendali yang berbeda, tidak disengaja di alam, dan biasanya menyeimbangkan satu sama lain dalam kombinasi (misalnya, perubahan pembacaan instrumen karena fluktuasi suhu di dalam ruangan).

Sistematis kesalahan bias, karena melanggar aturan untuk memilih objek dalam sampel (misalnya, penyimpangan dalam pengukuran saat mengubah pengaturan alat pengukur).

Contoh. Untuk menilai status sosial penduduk di kota direncanakan pemeriksaan 25% keluarga. Namun, jika pemilihan setiap apartemen keempat didasarkan pada jumlahnya, maka ada bahaya memilih semua apartemen hanya dari satu jenis (misalnya, apartemen satu kamar), yang akan menimbulkan kesalahan sistematis dan mendistorsi hasil; pilihan nomor apartemen berdasarkan lot lebih disukai, karena kesalahannya akan acak.

Kesalahan keterwakilan melekat hanya dalam pengamatan selektif, mereka tidak dapat dihindari dan mereka muncul sebagai akibat dari fakta bahwa sampel tidak sepenuhnya mereproduksi yang umum. Nilai indikator yang diperoleh dari sampel berbeda dengan indikator nilai yang sama pada populasi umum (atau diperoleh selama pengamatan terus menerus).

Kesalahan pengambilan sampel adalah perbedaan antara nilai parameter dalam populasi umum dan nilai sampelnya. Untuk nilai rata-rata atribut kuantitatif sama dengan: , dan untuk share (atribut alternatif) - .

Kesalahan pengambilan sampel hanya melekat pada pengamatan sampel. Semakin besar kesalahan ini, semakin banyak distribusi empiris berbeda dari yang teoritis. Parameter distribusi empiris dan merupakan variabel acak, oleh karena itu, kesalahan pengambilan sampel juga merupakan variabel acak, mereka dapat mengambil nilai yang berbeda untuk sampel yang berbeda, dan oleh karena itu merupakan kebiasaan untuk menghitung kesalahan rata-rata.

Rata-rata kesalahan pengambilan sampel adalah nilai yang menyatakan simpangan baku rata-rata sampel dari ekspektasi matematis. Nilai ini, tunduk pada prinsip pemilihan acak, terutama bergantung pada ukuran sampel dan tingkat variasi sifat: semakin besar dan semakin kecil variasi sifat (karenanya, nilai ), semakin kecil nilai kesalahan sampling rata-rata. Rasio antara varians dari populasi umum dan sampel dinyatakan dengan rumus:

itu. untuk cukup besar, kita dapat mengasumsikan bahwa . Rata-rata kesalahan sampling menunjukkan kemungkinan penyimpangan parameter populasi sampel dari parameter populasi umum. Di meja. 9.2 menunjukkan ekspresi untuk menghitung kesalahan pengambilan sampel rata-rata untuk berbagai metode pengorganisasian observasi.

Tabel 9.2 Rata-rata kesalahan (m) rata-rata sampel dan proporsi untuk jenis sampel yang berbeda

Dimana rata-rata varians sampel intragroup untuk fitur kontinu;

Rata-rata dispersi intra-grup saham;

— jumlah seri yang dipilih, — jumlah total seri;

,

di mana rata-rata deret ke-th;

- rata-rata umum di seluruh sampel untuk fitur berkelanjutan;

,

dimana proporsi sifat pada deret ke-th;

— bagian total sifat di seluruh sampel.

Namun, besarnya kesalahan rata-rata hanya dapat dinilai dengan probabilitas tertentu (Р 1). Lyapunov A.M. membuktikan bahwa distribusi rata-rata sampel, dan karenanya penyimpangannya dari rata-rata umum, dengan jumlah yang cukup besar, kira-kira mematuhi hukum distribusi normal, asalkan populasi umum memiliki rata-rata berhingga dan varians terbatas.

Secara matematis, pernyataan untuk mean ini dinyatakan sebagai:

dan untuk pecahan, ekspresi (1) akan berbentuk:

di mana - ada kesalahan pengambilan sampel marjinal, yang merupakan kelipatan dari rata-rata kesalahan pengambilan sampel , dan faktor multiplisitas adalah kriteria Student ("faktor kepercayaan"), diusulkan oleh W.S. Gosset (nama samaran "Mahasiswa"); nilai untuk ukuran sampel yang berbeda disimpan dalam tabel khusus.

Nilai fungsi (t) untuk beberapa nilai t adalah:

Oleh karena itu, ekspresi (3) dapat dibaca sebagai berikut: dengan probabilitas P = 0,683 (68,3%) dapat dikatakan bahwa perbedaan antara sampel dan rata-rata umum tidak akan melebihi satu nilai kesalahan rata-rata m(t=1), dengan probabilitas P = 0,954 (95,4%)— bahwa itu tidak melebihi nilai dua kesalahan rata-rata m (t = 2) , dengan kemungkinan P = 0,997 (99,7%)- tidak akan melebihi tiga nilai m (t = 3) . Jadi, probabilitas bahwa perbedaan ini akan melebihi tiga kali nilai kesalahan rata-rata menentukan: tingkat kesalahan dan tidak lebih dari 0,3% .

Di meja. 9.3 rumus untuk menghitung kesalahan sampling marginal diberikan.

Tabel 9.3 Kesalahan pengambilan sampel marginal (D) untuk rata-rata dan proporsi (p) untuk berbagai jenis pengambilan sampel

Memperluas Hasil Sampel ke Populasi

Tujuan akhir dari observasi sampel adalah untuk mengkarakterisasi populasi umum. Untuk ukuran sampel kecil, perkiraan empiris dari parameter ( dan ) dapat menyimpang secara signifikan dari nilai sebenarnya ( dan ). Oleh karena itu, menjadi perlu untuk menetapkan batas-batas di mana nilai sebenarnya ( dan ) terletak untuk nilai sampel parameter ( dan ).

Interval kepercayaan dari beberapa parameter dari populasi umum disebut rentang nilai acak dari parameter ini, yang dengan probabilitas mendekati 1 ( keandalan) berisi nilai sebenarnya dari parameter ini.

kesalahan marginal sampel Δ memungkinkan Anda untuk menentukan nilai batas karakteristik populasi umum dan mereka interval kepercayaan, yang sama dengan:

Intinya selang kepercayaan diperoleh dengan mengurangkan kesalahan marginal dari mean sampel (share), dan yang teratas dengan menambahkannya.

Interval kepercayaan untuk mean, ia menggunakan kesalahan sampling marginal dan untuk tingkat kepercayaan tertentu ditentukan oleh rumus:

Ini berarti bahwa dengan probabilitas tertentu R, yang disebut tingkat kepercayaan dan secara unik ditentukan oleh nilai t, dapat dikatakan bahwa nilai sebenarnya dari mean terletak pada rentang dari , dan nilai sebenarnya dari saham tersebut berada dalam kisaran dari

Saat menghitung interval kepercayaan untuk tiga tingkat kepercayaan standar P=95%, P=99% dan P=99,9% nilai dipilih oleh . Aplikasi tergantung pada jumlah derajat kebebasan. Jika ukuran sampel cukup besar, maka nilai-nilai yang sesuai dengan probabilitas ini t adalah sama: 1,96, 2,58 dan 3,29 . Dengan demikian, kesalahan pengambilan sampel marjinal memungkinkan kita untuk menentukan nilai marjinal dari karakteristik populasi umum dan interval kepercayaannya:

Distribusi hasil pengamatan selektif kepada masyarakat umum dalam kajian sosial ekonomi mempunyai ciri tersendiri, karena memerlukan kelengkapan keterwakilan dari semua jenis dan golongannya. Dasar dari kemungkinan distribusi seperti itu adalah perhitungannya Kesalahan relatif:

di mana Δ % - kesalahan sampling marginal relatif; , .

Ada dua metode utama untuk memperluas pengamatan sampel ke populasi: konversi langsung dan metode koefisien.

Esensi konversi langsung adalah mengalikan mean sampel!!\overline(x) dengan ukuran populasi .

Contoh. Biarkan rata-rata jumlah balita di kota diperkirakan dengan metode sampling dan jumlah seseorang. Jika ada 1000 keluarga muda di kota, maka jumlah tempat yang dibutuhkan di pembibitan kota diperoleh dengan mengalikan rata-rata ini dengan ukuran populasi umum N = 1000, yaitu. akan menjadi 1200 kursi.

Metode koefisien disarankan untuk digunakan jika pengamatan selektif dilakukan untuk memperjelas data pengamatan berkelanjutan.

Dalam melakukannya, rumus yang digunakan:

di mana semua variabel adalah ukuran populasi:

Ukuran sampel yang diperlukan

Tabel 9.4 Ukuran sampel yang diperlukan (n) untuk berbagai jenis organisasi pengambilan sampel

Saat merencanakan survei pengambilan sampel dengan nilai kesalahan pengambilan sampel yang diizinkan sebelumnya, perlu untuk memperkirakan dengan benar yang diperlukan ukuran sampel. Jumlah ini dapat ditentukan berdasarkan kesalahan yang diizinkan selama pengamatan selektif berdasarkan probabilitas tertentu yang menjamin tingkat kesalahan yang dapat diterima (dengan mempertimbangkan cara pengamatan diatur). Rumus untuk menentukan ukuran sampel yang diperlukan n dapat dengan mudah diperoleh langsung dari rumus untuk kesalahan pengambilan sampel marginal. Jadi, dari ekspresi untuk kesalahan marginal:

ukuran sampel ditentukan secara langsung n:

Rumus ini menunjukkan bahwa dengan menurunnya kesalahan sampling marginal Δ secara signifikan meningkatkan ukuran sampel yang diperlukan, yang sebanding dengan varians dan kuadrat dari uji-t Student.

Untuk metode khusus pengorganisasian observasi, ukuran sampel yang diperlukan dihitung sesuai dengan rumus yang diberikan dalam Tabel. 9.4.

Contoh Perhitungan Praktis

Contoh 1. Perhitungan nilai rata-rata dan interval kepercayaan untuk karakteristik kuantitatif kontinu.

Untuk menilai kecepatan penyelesaian dengan kreditur di bank, sampel acak dari 10 dokumen pembayaran dilakukan. Nilai mereka ternyata sama (dalam hari): 10; 3; limabelas; limabelas; 22; 7; delapan; satu; sembilan belas; 20.

Diperlukan dengan probabilitas P = 0,954 tentukan kesalahan marginal Δ rata-rata sampel dan batas kepercayaan waktu kalkulasi rata-rata.

Keputusan. Nilai rata-rata dihitung dengan rumus dari Tabel. 9.1 untuk populasi sampel

Dispersi dihitung menurut rumus dari Tabel. 9.1.

Kesalahan kuadrat rata-rata hari ini.

Kesalahan mean dihitung dengan rumus:

itu. nilai rata-rata adalah x ± m = 12,0 ± 2,3 hari.

Keandalan rata-rata adalah

Kesalahan pembatas dihitung dengan rumus dari Tabel. 9.3 untuk pemilihan ulang, karena ukuran populasi tidak diketahui, dan untuk P = 0,954 tingkat kepercayaan diri.

Jadi, nilai rata-ratanya adalah `x ± D = `x ± 2m = 12,0 ± 4,6, mis. nilai sebenarnya terletak pada kisaran 7,4 hingga 16,6 hari.

Penggunaan meja Siswa. Aplikasi ini memungkinkan kita untuk menyimpulkan bahwa untuk n = 10 - 1 = 9 derajat kebebasan, nilai yang diperoleh dapat diandalkan dengan tingkat signifikansi a £ 0,001, yaitu. nilai mean yang dihasilkan berbeda nyata dengan 0.

Contoh 2. Estimasi Probabilitas (Bagian Umum) r.

Dengan metode sampling mekanis yang mensurvei status sosial 1000 keluarga, terungkap bahwa proporsi keluarga berpenghasilan rendah adalah w = 0,3 (30%)(sampelnya adalah 2% , yaitu n/N = 0,02). Diperlukan dengan tingkat kepercayaan diri p = 0,997 tentukan indikator R keluarga berpenghasilan rendah di seluruh wilayah.

Keputusan. Menurut nilai fungsi yang disajikan (t) temukan untuk tingkat kepercayaan yang diberikan P = 0,997 berarti t=3(lihat rumus 3). Kesalahan pembagian marjinal w tentukan dengan rumus dari Tabel. 9.3 untuk pengambilan sampel yang tidak berulang (pengambilan sampel mekanis selalu tidak berulang):

Membatasi kesalahan pengambilan sampel relatif dalam % akan:

Probabilitas (pangsa umum) keluarga berpenghasilan rendah di wilayah tersebut adalah p=w±w, dan batas kepercayaan p dihitung berdasarkan pertidaksamaan ganda:

w — w p w — w, yaitu nilai sebenarnya dari p terletak di dalam:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Dengan demikian, dengan probabilitas 0,997, dapat dikatakan bahwa proporsi keluarga berpenghasilan rendah di antara semua keluarga di wilayah tersebut berkisar antara 28,6% hingga 31,4%.

Contoh 3 Perhitungan nilai rata-rata dan interval kepercayaan untuk fitur diskrit yang ditentukan oleh deret interval.

Di meja. 9.5. distribusi aplikasi untuk produksi pesanan sesuai dengan waktu implementasinya oleh perusahaan diatur.

Tabel 9.5 Distribusi observasi berdasarkan waktu kejadian

Keputusan. Rata-rata waktu penyelesaian pesanan dihitung dengan rumus:

Waktu rata-rata akan menjadi:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 bulan

Kami mendapatkan jawaban yang sama jika kami menggunakan data pada p i dari kolom kedua dari belakang Tabel. 9.5 menggunakan rumus:

Perhatikan bahwa pertengahan interval gradasi terakhir ditemukan dengan melengkapinya secara artifisial dengan lebar interval gradasi sebelumnya yang sama dengan 60 - 36 = 24 bulan.

Dispersi dihitung dengan rumus

di mana x saya- tengah seri interval.

Oleh karena itu!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) dan kesalahan standarnya adalah .

Kesalahan rata-rata dihitung dengan rumus selama berbulan-bulan, mis. rata-ratanya adalah!!\overline(x) ± m = 23,1 ± 13,4.

Kesalahan pembatas dihitung dengan rumus dari Tabel. 9,3 untuk pemilihan ulang karena ukuran populasi tidak diketahui, untuk tingkat kepercayaan 0,954:

Jadi maksudnya adalah:

itu. nilai sebenarnya terletak pada kisaran 0 hingga 50 bulan.

Contoh 4 Untuk mengetahui kecepatan pelunasan dengan kreditur N = 500 badan usaha pada bank umum perlu dilakukan studi selektif dengan menggunakan metode random non-repetitive selection. Tentukan ukuran sampel yang diperlukan n sehingga dengan probabilitas P = 0,954 kesalahan rata-rata sampel tidak melebihi 3 hari, jika perkiraan percobaan menunjukkan bahwa standar deviasi s adalah 10 hari.

Keputusan. Untuk menentukan jumlah studi yang diperlukan n, kami menggunakan rumus untuk seleksi non-berulang dari Tabel. 9.4:

Di dalamnya, nilai t ditentukan dari untuk tingkat kepercayaan = 0,954. Sama dengan 2. Nilai kuadrat rata-rata s = 10, ukuran populasi N = 500, dan kesalahan marginal rata-rata Δ x = 3. Substitusikan nilai-nilai ini ke dalam rumus, kita dapatkan:

itu. cukup untuk membuat sampel 41 perusahaan untuk memperkirakan parameter yang diperlukan - kecepatan penyelesaian dengan kreditur.