Apa itu sampling dalam statistik. Masalah tentang bagian umum

Jumlah objek pengamatan (orang, rumah tangga, perusahaan, pemukiman, dll.) yang memiliki seperangkat karakteristik tertentu (jenis kelamin, usia, pendapatan, jumlah, omset, dll.), terbatas dalam ruang dan waktu. Contoh populasi

  • Semua penduduk Moskow (10,6 juta orang menurut sensus 2002)
  • Pria Moskow (4,9 juta menurut sensus 2002)
  • Badan hukum Rusia (2,2 juta pada awal 2005)
  • Gerai ritel yang menjual produk makanan (20 ribu di awal 2008), dll.

Sampel (Populasi sampel)

Sebagian objek dari suatu populasi dipilih untuk diteliti guna menarik suatu kesimpulan tentang keseluruhan populasi. Agar kesimpulan yang diperoleh dengan mempelajari sampel dapat diperluas ke seluruh populasi, sampel harus memiliki sifat representatif.

Keterwakilan sampel

Properti sampel untuk mencerminkan populasi umum dengan benar. Sampel yang sama mungkin atau mungkin tidak mewakili populasi yang berbeda.
Contoh:

  • Sampel yang seluruhnya terdiri dari orang Moskow yang memiliki mobil tidak mewakili seluruh populasi Moskow.
  • Sampel perusahaan Rusia dengan hingga 100 karyawan tidak mewakili semua perusahaan di Rusia.
  • Sampel orang Moskow yang melakukan pembelian di pasar tidak mewakili perilaku pembelian semua orang Moskow.

Pada saat yang sama, sampel ini (tergantung pada kondisi lain) dapat dengan sempurna mewakili pemilik mobil Moskow, perusahaan Rusia kecil dan menengah, dan pembeli yang melakukan pembelian di pasar.
Penting untuk dipahami bahwa keterwakilan sampel dan kesalahan pengambilan sampel adalah dua hal yang berbeda. Keterwakilan, tidak seperti kesalahan, tidak bergantung pada ukuran sampel.
Contoh:
Tidak peduli seberapa banyak kami meningkatkan jumlah pemilik mobil Moskow yang disurvei, kami tidak akan dapat mewakili semua orang Moskow dengan sampel ini.

Kesalahan pengambilan sampel (interval kepercayaan)

Penyimpangan hasil yang diperoleh dengan bantuan observasi sampel dari data sebenarnya dari populasi umum.
Ada dua jenis kesalahan pengambilan sampel: statistik dan sistematis. Kesalahan statistik tergantung pada ukuran sampel. Semakin besar ukuran sampel, semakin rendah.
Contoh:
Untuk sampel acak sederhana 400 unit, kesalahan statistik maksimum (dengan kepercayaan 95%) adalah 5%, untuk sampel 600 unit - 4%, untuk sampel 1100 unit - 3% .
Kesalahan sistematis tergantung pada berbagai faktor yang memiliki dampak konstan pada penelitian dan bias hasil penelitian ke arah tertentu.
Contoh:

  • Penggunaan sampel probabilitas apa pun meremehkan proporsi orang berpenghasilan tinggi yang aktif. Ini terjadi karena fakta bahwa orang-orang seperti itu jauh lebih sulit ditemukan di tempat tertentu (misalnya, di rumah).
  • Masalah responden yang menolak menjawab pertanyaan (bagian "refuseniks" di Moskow, untuk survei yang berbeda, berkisar antara 50% hingga 80%)

Dalam beberapa kasus, ketika distribusi yang benar diketahui, bias dapat disamakan dengan memperkenalkan kuota atau pembobotan ulang data, tetapi dalam kebanyakan studi nyata, bahkan memperkirakannya bisa sangat bermasalah.

Jenis sampel

Sampel dibagi menjadi dua jenis:

  • probabilistik
  • ketidakmungkinan

1. Sampel probabilitas
1.1 Pengambilan sampel secara acak (seleksi acak sederhana)
Sampel semacam itu mengasumsikan homogenitas populasi umum, probabilitas ketersediaan semua elemen yang sama, keberadaan daftar lengkap semua elemen. Saat memilih elemen, sebagai aturan, tabel angka acak digunakan.
1.2 Pengambilan sampel mekanis (sistematis)
Semacam sampel acak, diurutkan berdasarkan beberapa atribut (urutan abjad, nomor telepon, tanggal lahir, dll.). Elemen pertama dipilih secara acak, kemudian setiap elemen 'k' dipilih dengan kelipatan 'n'. Ukuran populasi umum, sedangkan - N=n*k
1.3 Bertingkat (berzonasi)
Ini digunakan dalam kasus heterogenitas populasi umum. Populasi umum dibagi menjadi kelompok-kelompok (strata). Pada setiap strata, seleksi dilakukan secara acak atau mekanis.
1.4 Pengambilan sampel serial (bersarang atau berkerumun)
Dengan pengambilan sampel serial, unit seleksi bukanlah objek itu sendiri, tetapi kelompok (cluster atau sarang). Kelompok dipilih secara acak. Objek dalam kelompok disurvei ke mana-mana.

2. Sampel yang luar biasa
Pemilihan sampel semacam itu dilakukan tidak sesuai dengan prinsip peluang, tetapi sesuai dengan kriteria subjektif - aksesibilitas, kekhasan, representasi yang setara, dll.
2.1. Pengambilan sampel kuota
Awalnya, sejumlah kelompok objek dialokasikan (misalnya, pria berusia 20-30 tahun, 31-45 tahun dan 46-60 tahun; orang dengan pendapatan hingga 30 ribu rubel, dengan pendapatan 30 hingga 60 tahun). ribu rubel dan dengan pendapatan lebih dari 60 ribu rubel ) Untuk setiap kelompok, jumlah objek yang akan disurvei ditentukan. Jumlah objek yang harus masuk ke dalam masing-masing kelompok ditetapkan, paling sering, baik secara proporsional dengan bagian kelompok yang diketahui sebelumnya dalam populasi umum, atau sama untuk setiap kelompok. Di dalam grup, objek dipilih secara acak. Pengambilan sampel kuota cukup sering digunakan.
2.2. Metode Bola Salju
Sampel dibangun sebagai berikut. Setiap responden, mulai dari yang pertama, diminta untuk menghubungi teman, kolega, kenalannya yang sesuai dengan syarat seleksi dan dapat mengikuti penelitian. Jadi, dengan pengecualian langkah pertama, sampel dibentuk dengan partisipasi dari objek studi itu sendiri. Metode ini sering digunakan ketika diperlukan untuk mencari dan mewawancarai kelompok responden yang sulit dijangkau (misalnya, responden berpenghasilan tinggi, responden dari kelompok profesi yang sama, responden yang memiliki hobi/kegemaran yang sama, dll. )
2.3 Pengambilan sampel spontan
Responden yang paling mudah diakses disurvei. Contoh tipikal sampel spontan ada di surat kabar/majalah yang diberikan kepada responden untuk diisi sendiri, sebagian besar survei Internet. Ukuran dan komposisi sampel acak tidak diketahui sebelumnya, dan hanya ditentukan oleh satu parameter - aktivitas responden.
2.4 Contoh kasus tipikal
Unit populasi umum dipilih yang memiliki nilai rata-rata (tipikal) atribut. Hal ini menimbulkan masalah dalam memilih fitur dan menentukan nilai tipikalnya.

Mata kuliah teori statistika

Informasi lebih rinci tentang pengamatan sampel dapat diperoleh dengan melihat.

Penelitian selektif.

Konsep metode pengambilan sampel.

Pengamatan selektif- Observasi non-kontinyu ini dimana pemilihan unit populasi yang akan diteliti dilakukan secara acak, bagian yang terpilih dijadikan objek penelitian, setelah itu hasilnya didistribusikan ke seluruh populasi.

Metode pengambilan sampel digunakan ketika

1 ketika pengamatan itu sendiri dikaitkan dengan kerusakan atau kehancuran unit yang diamati (benang untuk bumbu, bola lampu listrik untuk produk pembakaran)

2 volume agregat besar

3 biaya tinggi (keuangan dan tenaga kerja).

Biasanya, 5-10% dari total populasi menjadi sasaran survei sampel, lebih jarang 15-25%.

Tujuan pengambilan sampel adalah untuk menentukan karakteristik rata-rata keseluruhan dan proporsi keseluruhan (P). Karakteristik populasi sampel - mean sampel dan fraksi sampel (w) berbeda dari karakteristik umum dengan jumlah kesalahan pengambilan sampel ( ). Oleh karena itu, perlu untuk menghitung kesalahan sampling atau kesalahan keterwakilan, yang ditentukan oleh rumus-rumus yang dikembangkan dalam teori probabilitas untuk setiap jenis sampel dan metode pemilihan.

Ada cara berikut untuk memilih unit:

1 pilihan bola kembali, biasa disebut sebagai pengambilan sampel ulang.

Dengan pemilihan berulang, probabilitas memasukkan setiap unit individu ke dalam sampel tetap konstan, karena setelah memilih suatu unit, maka dikembalikan ke populasi lagi dan dapat dipilih kembali.

2 pemilihan sesuai dengan skema bola yang tidak dikembalikan, disebut pengambilan sampel secara acak. Dalam hal ini, setiap unit yang dipilih tidak dikembalikan, dan kemungkinan memasukkan unit individu ke dalam sampel berubah sepanjang waktu (untuk unit yang tersisa akan meningkat) (lot), tabel angka acak, misalnya, 75 dari 780.

Jenis sampel.

1 Sebenarnya - acak.

Ini adalah salah satu di mana pemilihan unit dalam sampel dibuat langsung dari seluruh massa unit dalam populasi umum.

Dalam hal ini, jumlah unit yang dipilih biasanya ditentukan berdasarkan proporsi sampel yang diterima.

Untuk sampel, ada rasio jumlah unit dalam populasi sampel dan jumlah unit dalam populasi umum N.

Jadi, dengan sampel 5% dari batch barang 2000 unit, ukuran sampel n adalah 100 unit. (
), dan dengan sampel 20% akan menjadi 400 unit.

(
)

Kondisi penting untuk sampel acak yang tepat bahwa setiap unit populasi diberi kesempatan yang sama untuk diikutsertakan dalam sampel.

Dengan pemilihan acak, kesalahan sampling marginal untuk mean adalah sama dengan

- varians sampling

n - ukuran sampel

t adalah faktor kepercayaan, yang ditentukan dari tabel nilai fungsi integral Laplace untuk probabilitas P yang diberikan.

Dengan pengambilan sampel yang tidak berulang, kesalahan pengambilan sampel marjinal ditentukan oleh rumus untuk rata-rata

di mana N adalah ukuran populasi umum dari bagian tersebut

Untuk mengetahui kadar abu batubara, 100 sampel batubara diperiksa secara acak. Dari hasil survey diketahui bahwa rata-rata kadar abu batubara dalam sampel adalah 16%, = 5%. Dalam 10 sampel, kadar abu batubara > 20% dengan probabilitas 0,954 untuk menentukan batas rata-rata kadar abu batubara dalam deposit dan proporsi batubara dengan kadar abu > 20% akan menjadi

Kandungan abu rata-rata

tentukan kesalahan sampling marginal


2*0.5=1%

pada p=0,954 t=2

bagian batubara dengan kadar abu >20%

bagian sampel ditentukan

di mana m adalah proporsi unit yang memiliki fitur

kesalahan pengambilan sampel untuk dibagikan

Dengan probabilitas 0,954, dapat dikatakan bahwa proporsi batubara dengan kadar abu lebih dari 20% dalam deposit akan berada dalam batas

P= 10%+(-)6% atau

pengambilan sampel mekanis.

Ini adalah jenis sebenarnya - acak. Dalam hal ini, seluruh populasi dibagi menjadi n bagian yang sama, dan kemudian satu unit dipilih dari setiap bagian.

Semua unit populasi harus diatur dalam urutan tertentu. Pada saat yang sama, sehubungan dengan indikator yang diteliti, unit populasi umum dapat diurutkan menurut fitur yang signifikan, sekunder atau netral. Dalam hal ini, unit yang berada di tengah setiap kelompok harus dipilih dari masing-masing kelompok. Ini menghindari bias pengambilan sampel.

Terapkan: saat memeriksa pembeli di toko, pengunjung di klinik, setiap 5,4,3, dll.

Contoh pengambilan sampel mekanis

Untuk menentukan jangka waktu rata-rata penggunaan pinjaman jangka pendek di bank, sampel mekanis 5% akan dibuat, yang mencakup 100 rekening. Dari hasil survey diketahui bahwa rata-rata jangka waktu penggunaan pinjaman jangka pendek adalah 30 hari dengan
9 hari di 5 akun Jangka waktu pinjaman > 60 hari.

Kesalahan pengambilan sampel

itu. dengan probabilitas 0,954 dapat dikatakan bahwa jangka waktu penggunaan pinjaman berfluktuasi

1 dalam 30 hari+(-)2hari, mis.

2 saham pinjaman dengan jangka waktu > 60 hari.

bagian sampel akan menjadi

tentukan kesalahan berbagi

dengan probabilitas 0,954, dapat dikatakan bahwa porsi pinjaman bank dengan jatuh tempo >60 hari akan berada dalam batas

Sampel tipikal.

Populasi umum dibagi menjadi kelompok-kelompok khas yang homogen. Kemudian, dari setiap kelompok tipikal, pemilihan unit individual ke dalam sampel dibuat dengan sampel acak atau mekanis.

Contoh: pr.tr. pekerja, yang terdiri dari kelompok-kelompok terpisah berdasarkan kualifikasi.

Fitur penting- memberikan hasil yang lebih akurat dibandingkan yang lain, tk. sampel termasuk unit tipologis.

Pemilihan unit pengamatan dalam himpunan sampel dilakukan dengan berbagai metode. Pertimbangkan sampel tipikal dengan pemilihan proporsional dalam kelompok tipikal.

Ukuran sampel dari kelompok tipikal dalam pemilihan sebanding dengan jumlah grup tipikal ditentukan oleh rumus:

di mana =V sampel dari kelompok tipikal

= V dari grup tipikal.

Kesalahan marjinal rata-rata sampel dan proporsi untuk metode pemilihan acak dan mekanis non-repetitif dalam kelompok tipikal dihitung dengan rumus


di mana = varians sampel

Contoh: sampel khas

Untuk menentukan rata-rata usia laki-laki memasuki perkawinan, diambil sampel 5% di kecamatan dengan pemilihan satuan sebanding dengan jumlah tipikal kelompok.

Seleksi mekanis digunakan dalam kelompok

Dengan probabilitas 0,954, tentukan batas-batas di mana rata-rata usia pria yang telah menikah dan proporsi pria yang telah menikah lagi akan berbohong.

usia rata-rata menikah untuk pria dalam sampel

kesalahan pengambilan sampel marjinal

dengan probabilitas 0,954 dapat dikatakan bahwa rata-rata usia pria yang akan menikah akan berada dalam

untuk pria yang memasuki pernikahan kedua berada di dalam

bagian sampel ditentukan

varians sampel dari fitur alternatif adalah

dengan probabilitas 0,954 dapat dikatakan bahwa proporsi mereka yang menikah untuk kedua kalinya adalah dalam

pengambilan sampel serial.

Dengan sampling serial, populasi dibagi menjadi kelompok-kelompok dengan ukuran yang sama – seri. Populasi sampel adalah seri terpilih. Di dalam deret tersebut, dilakukan pengamatan terus menerus terhadap satuan-satuan yang termasuk ke dalam deret tersebut.

Dengan pilihan berulang dan ditentukan oleh rumus

di mana
- varians interseri

di mana
contoh rata-rata dari seri

rata-rata sampel dari sampel serial

R- jumlah deret populasi umum

r - jumlah seri yang dipilih

Contoh: di bengkel 10 brigade, untuk mempelajari produktivitas kerja mereka, sampel serial 20% akan dilakukan, yang mencakup 2 brigade. Sebagai hasil dari survei, ditemukan bahwa

dengan probabilitas 0,997 untuk menentukan batas di mana output rata-rata pekerja toko akan berada.

rata-rata sampel dari sampel serial ditentukan oleh rumus

dengan probabilitas 0,997 dapat dikatakan bahwa output rata-rata pekerja toko berada dalam

Ada 200 kotak suku cadang, 40 buah di setiap kotak, di gudang produk jadi bengkel. Pengambilan sampel serial 10% akan dilakukan untuk memeriksa kualitas produk jadi. Dari hasil sampling didapatkan bahwa untuk part yang cacat adalah 15%. Varians sampel serial adalah 0,0049.

Dengan probabilitas 0,997, tentukan batas proporsi produk cacat dalam sekumpulan kotak adalah

Proporsi bagian yang rusak akan berada dalam

tentukan kesalahan pengambilan sampel marjinal untuk bagian dengan rumus

dengan probabilitas 0,997 dapat dikatakan bahwa proporsi bagian yang rusak

di dalam pesta ada di dalam

Dalam praktek merancang pengamatan sampel, ada kebutuhan untuk menemukan ukuran sampel, yang diperlukan untuk memastikan akurasi tertentu dalam perhitungan karakteristik umum - rata-rata dan proporsi.

Kesalahan sampling marjinal, probabilitas kemunculannya, dan variasi fitur diketahui sebelumnya.

Dengan acak pemilihan ulang ukuran sampel ditentukan oleh rumus

dengan pemilihan non-repetitif dan mekanis acak, ukuran sampel

untuk sampel tipikal

untuk pengambilan sampel serial

Misalnya, 2000 keluarga tinggal di distrik itu.

Direncanakan akan dilakukan survey sampel terhadap mereka dengan metode random non-repetitive selection untuk mencari rata-rata jumlah anggota keluarga.

Tentukan ukuran sampel yang diperlukan, asalkan dengan probabilitas 0,954 kesalahan pengambilan sampel tidak melebihi 1 orang dengan standar deviasi 3 orang.

10 ribu orang tinggal di kota. keluarga. Dengan menggunakan sampling mekanis, diusulkan untuk menentukan proporsi keluarga dengan tiga anak atau lebih. Berapa ukuran sampel untuk kesalahan sampel kurang dari 0,02 dengan probabilitas P=0,954 jika varians diketahui 0,02 dari survei sebelumnya?

Rencana:

1. Masalah statistik matematika.

2. Jenis sampel.

3. Metode seleksi.

4. Distribusi statistik sampel.

5. Fungsi distribusi empiris.

6. poligon dan histogram.

7. Karakteristik numerik dari deret variasi.

8. Estimasi statistik parameter distribusi.

9. Estimasi interval parameter distribusi.

1. Tugas dan metode statistik matematika

statistik matematika adalah cabang matematika yang dikhususkan untuk metode pengumpulan, analisis, dan pemrosesan hasil data pengamatan statistik untuk tujuan ilmiah dan praktis.

Biarkan diperlukan untuk mempelajari satu set objek homogen sehubungan dengan beberapa fitur kualitatif atau kuantitatif yang mencirikan objek ini. Misalnya, jika ada sekumpulan bagian, maka standar bagian dapat berfungsi sebagai tanda kualitatif, dan ukuran bagian yang dikontrol dapat berfungsi sebagai tanda kuantitatif.

Terkadang studi berkelanjutan dilakukan, mis. memeriksa setiap objek sehubungan dengan fitur yang diinginkan. Dalam praktiknya, survei yang komprehensif jarang digunakan. Misalnya, jika populasi berisi jumlah objek yang sangat besar, maka secara fisik tidak mungkin untuk melakukan survei secara terus menerus. Jika survei objek dikaitkan dengan kehancurannya atau membutuhkan biaya material yang besar, maka tidak masuk akal untuk melakukan survei lengkap. Dalam kasus seperti itu, sejumlah objek (kumpulan sampel) yang terbatas dipilih secara acak dari seluruh populasi dan menjadi sasaran studi mereka.

Tugas utama statistik matematika adalah mempelajari seluruh populasi berdasarkan data sampel, tergantung pada tujuannya, yaitu. studi tentang sifat-sifat probabilistik populasi: hukum distribusi, karakteristik numerik, dll. untuk membuat keputusan manajerial dalam kondisi ketidakpastian.

2. Jenis sampel

Populasi adalah himpunan objek dari mana sampel dibuat.

Populasi sampel (sampel) adalah kumpulan objek yang dipilih secara acak.

Ukuran populasi adalah jumlah objek dalam koleksi ini. Volume populasi umum dilambangkan N, selektif - n.

Contoh:

Jika dari 1000 bagian 100 bagian dipilih untuk diperiksa, maka volume populasi umum N = 1000, dan ukuran sampel n = 100.

Pengambilan sampel dapat dilakukan dengan dua cara: setelah objek dipilih dan diamati di atasnya, dapat dikembalikan atau tidak dikembalikan ke populasi umum. Itu. Sampel dibagi menjadi berulang dan tidak berulang.

Ulangditelepon contoh, di mana objek yang dipilih (sebelum memilih yang berikutnya) dikembalikan ke populasi umum.

Tidak berulangditelepon contoh, di mana objek yang dipilih tidak dikembalikan ke populasi umum.

Dalam prakteknya, seleksi acak non-repetitif biasanya digunakan.

Agar data sampel cukup percaya diri dalam menilai fitur yang menarik dalam populasi umum, objek sampel perlu mewakilinya dengan benar. Sampel harus benar-benar mewakili proporsi populasi. Sampel harus perwakilan (representatif).

Berdasarkan hukum bilangan besar, dapat dikatakan bahwa sampel akan representatif jika dilakukan secara acak.

Jika ukuran populasi umum cukup besar, dan sampel hanya sebagian kecil dari populasi ini, maka perbedaan antara sampel berulang dan tidak berulang dihapus; dalam kasus yang membatasi, ketika populasi umum yang tak terbatas dipertimbangkan, dan sampel memiliki ukuran yang terbatas, perbedaan ini menghilang.

Contoh:

Dalam jurnal American Literary Review, dengan menggunakan metode statistik, sebuah studi dibuat tentang ramalan mengenai hasil pemilihan presiden AS yang akan datang pada tahun 1936. Pelamar untuk posting ini adalah F.D. Roosevelt dan A.M. Landon. Direktori telepon diambil sebagai sumber untuk populasi umum orang Amerika yang diteliti. Dari jumlah tersebut, 4 juta alamat dipilih secara acak, di mana editor majalah mengirimkan kartu pos yang meminta mereka untuk mengekspresikan sikap mereka terhadap calon presiden. Setelah memproses hasil jajak pendapat, majalah itu menerbitkan perkiraan sosiologis bahwa Landon akan memenangkan pemilihan mendatang dengan margin besar. Dan ... saya salah: Roosevelt menang.
Contoh ini dapat dilihat sebagai contoh sampel yang tidak representatif. Faktanya adalah bahwa di Amerika Serikat pada paruh pertama abad kedua puluh, hanya sebagian besar penduduk, yang mendukung pandangan Landon, yang memiliki telepon.

3. Metode pemilihan

Dalam prakteknya, berbagai metode seleksi digunakan, yang dapat dibagi menjadi 2 jenis:

1. Seleksi tidak memerlukan pembagian populasi menjadi beberapa bagian (a) acak sederhana tanpa pengulangan; b) pengulangan acak sederhana).

2. Seleksi, dimana populasi umum dibagi menjadi beberapa bagian. (sebuah) pilihan khas; b) seleksi mekanis; di) serial pilihan).

Acak sederhana panggil ini pilihan, di mana objek diekstraksi satu per satu dari seluruh populasi umum (secara acak).

Khasditelepon pilihan, di mana objek dipilih bukan dari seluruh populasi umum, tetapi dari masing-masing bagian "khas"-nya. Misalnya, jika suatu suku cadang diproduksi pada beberapa mesin, maka pemilihan tidak dilakukan dari seluruh rangkaian suku cadang yang diproduksi oleh semua mesin, tetapi dari produk setiap mesin secara terpisah. Seleksi semacam itu digunakan ketika sifat yang diperiksa berfluktuasi secara nyata di berbagai bagian "khas" dari populasi umum.

Mekanisditelepon pilihan, di mana populasi umum secara "mekanis" dibagi menjadi kelompok sebanyak objek yang akan dimasukkan dalam sampel, dan satu objek dipilih dari setiap kelompok. Misalnya, jika Anda perlu memilih 20% bagian yang dibuat oleh mesin, maka setiap bagian ke-5 dipilih; jika diperlukan untuk memilih 5% dari bagian - setiap tanggal 20, dll. Terkadang pemilihan seperti itu mungkin tidak memastikan sampel yang representatif (jika setiap rol putar ke-20 dipilih, dan pemotong segera diganti setelah pemilihan, maka semua rol yang diputar dengan pemotong tumpul akan dipilih).

Serialditelepon pilihan, di mana objek dipilih dari populasi umum tidak satu per satu, tetapi dalam "seri", yang dikenakan survei terus menerus. Misalnya, jika produk diproduksi oleh sekelompok besar mesin otomatis, maka produk dari beberapa mesin saja yang akan menjalani pemeriksaan terus menerus.

Dalam praktiknya, seleksi gabungan sering digunakan, di mana metode di atas digabungkan.

4. Distribusi statistik sampel

Biarkan sampel diambil dari populasi umum, dan nilainya x 1-diamati sekali, x 2 -n 2 kali, ... x k - n k kali. n= n 1 +n 2 +...+n k adalah ukuran sampel. Nilai yang diamatiditelepon pilihan, dan urutannya adalah varian yang ditulis dalam urutan menaik - seri variasi. Jumlah pengamatanditelepon frekuensi (frekuensi absolut), dan hubungannya dengan ukuran sampel- frekuensi relatif atau probabilitas statistik.

Jika jumlah opsi besar atau sampel dibuat dari populasi umum kontinu, maka deret variasi tidak disusun oleh nilai poin individu, tetapi oleh interval nilai populasi umum. Rangkaian seperti itu disebut selang. Panjang interval harus sama.

Distribusi statistik sampel disebut daftar opsi dan frekuensi yang sesuai atau frekuensi relatif.

Distribusi statistik juga dapat ditentukan sebagai urutan interval dan frekuensi yang sesuai (jumlah frekuensi yang termasuk dalam interval nilai ini)

Deret frekuensi variasi titik dapat direpresentasikan dengan tabel:

x saya
x 1
x2

x k
dan aku
n 1
n 2

nk

Demikian pula, seseorang dapat mewakili serangkaian variasi titik frekuensi relatif.

Dan:

Contoh:

Jumlah huruf dalam beberapa teks X ternyata sama dengan 1000. Huruf pertama adalah "i", yang kedua - huruf "i", yang ketiga - huruf "a", yang keempat - "u". Kemudian muncul huruf "o", "e", "y", "e", "s".

Mari kita tuliskan tempat-tempat yang mereka tempati dalam alfabet, masing-masing, kita memiliki: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Setelah mengurutkan angka-angka ini dalam urutan menaik, kami mendapatkan seri variasi: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Frekuensi kemunculan huruf dalam teks: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7," aku "- 22.

Kami menyusun rangkaian frekuensi variasi titik:

Contoh:

Distribusi frekuensi pengambilan sampel volume ditentukan n = 20.

Buatlah deret variasi titik dari frekuensi relatif.

x saya

2

6

12

dan aku

3

10

7

Keputusan:

Temukan frekuensi relatif:


x saya

2

6

12

aku

0,15

0,5

0,35

Saat membangun distribusi interval, ada aturan untuk memilih jumlah interval atau ukuran setiap interval. Kriteria di sini adalah rasio optimal: dengan peningkatan jumlah interval, keterwakilan meningkat, tetapi jumlah data dan waktu pemrosesan meningkat. Perbedaan x max - x min antara varian nilai terbesar dan terkecil disebut dalam skala besar sampel.

Untuk menghitung jumlah interval k biasanya menerapkan rumus empiris Sturgess (menyiratkan pembulatan ke bilangan bulat terdekat yang sesuai): k = 1 + 3,322 log n .

Dengan demikian, nilai setiap interval h dapat dihitung dengan menggunakan rumus:

5. Fungsi distribusi empiris

Pertimbangkan beberapa sampel dari populasi umum. Biarkan distribusi statistik frekuensi atribut kuantitatif X diketahui. Mari kita perkenalkan notasi: n xadalah jumlah pengamatan di mana nilai fitur kurang dari x diamati; n adalah jumlah total pengamatan (ukuran sampel). Frekuensi kejadian relatif X<х равна nx /n . Jika x berubah, maka frekuensi relatif juga berubah, yaitu Frekuensi relatifn x /nadalah fungsi dari x. Karena itu ditemukan secara empiris, itu disebut empiris.

Fungsi distribusi empiris (fungsi distribusi sampel) panggil fungsinya, yang menentukan untuk setiap x frekuensi relatif dari peristiwa X<х.


di mana jumlah opsi kurang dari x,

n - ukuran sampel.

Berbeda dengan fungsi distribusi empiris sampel, fungsi distribusi F(x) dari populasi disebut fungsi distribusi teoritis.

Perbedaan antara fungsi distribusi empiris dan teoritis adalah bahwa fungsi teoritis F (x) menentukan probabilitas suatu peristiwa X F*(x) cenderung dalam probabilitas dengan probabilitas F (x) dari peristiwa ini. Artinya, untuk n besar F*(x) dan F(x) sedikit berbeda satu sama lain.

Itu. disarankan untuk menggunakan fungsi distribusi empiris sampel untuk representasi perkiraan fungsi distribusi teoretis (integral) dari populasi umum.

F*(x) memiliki semua properti F(x).

1. Nilai F*(x) tergolong dalam interval.

2. F*(x) adalah fungsi tak-turun.

3. Jika adalah varian terkecil, maka F*(x) = 0, pada x < x1; jika x k adalah varian terbesar, maka F*(x) = 1, untuk x > x k .

Itu. F*(x) berfungsi untuk memperkirakan F(x).

Jika sampel diberikan oleh deret variasi, maka fungsi empiris memiliki bentuk:

Grafik fungsi empiris disebut kumulatif.

Contoh:

Plot fungsi empiris pada distribusi sampel yang diberikan.


Keputusan:

Ukuran sampel n = 12 + 18 +30 = 60. Opsi terkecil adalah 2, yaitu. di x < 2. Peristiwa X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0.2 pada 2 < x < 6. Acara X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Karena x=10 adalah pilihan terbesar, maka F*(x) = 1 pada x>10. Fungsi empiris yang diinginkan memiliki bentuk:

Mengumpul:


Kumulasi memungkinkan untuk memahami informasi yang disajikan secara grafis, misalnya, untuk menjawab pertanyaan: “Tentukan jumlah pengamatan yang nilai fiturnya kurang dari 6 atau tidak kurang dari 6. F*(6) = 0.2 » Maka jumlah observasi yang nilai fitur yang diamati kurang dari 6 adalah 0.2* n \u003d 0.2 * 60 \u003d 12. Jumlah pengamatan di mana nilai fitur yang diamati tidak kurang dari 6 adalah (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Jika deret variasi interval diberikan, maka untuk mengkompilasi fungsi distribusi empiris, titik tengah interval ditemukan dan fungsi distribusi empiris diperoleh darinya sama dengan deret variasi titik.

6. Poligon dan histogram

Untuk kejelasan, berbagai grafik distribusi statistik dibangun: polinomial dan histogram

Poligon frekuensi- ini adalah garis putus-putus, segmen yang menghubungkan titik-titik ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), di mana opsinya, adalah frekuensi yang sesuai dengannya.

Poligon frekuensi relatif - ini adalah garis putus-putus, segmen-segmen yang menghubungkan titik-titik ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), di mana x i adalah opsi, w i adalah frekuensi relatif yang sesuai dengannya.

Contoh:

Plot polinomial frekuensi relatif di atas distribusi sampel yang diberikan:

Keputusan:

Dalam kasus fitur kontinu, disarankan untuk membuat histogram, yang intervalnya, yang berisi semua nilai yang diamati dari fitur, dibagi menjadi beberapa interval parsial dengan panjang h dan untuk setiap interval parsial n i ditemukan - jumlah frekuensi varian yang termasuk dalam interval ke-i. (Misalnya, ketika mengukur tinggi atau berat badan seseorang, kita berhadapan dengan tanda kontinu).

Histogram frekuensi- ini adalah gambar berundak, terdiri dari persegi panjang, yang alasnya adalah interval parsial dengan panjang h, dan tingginya sama dengan rasio (kerapatan frekuensi).

Kotak Persegi panjang parsial ke-i sama dengan jumlah frekuensi varian interval ke-i, yaitu. luas histogram frekuensi sama dengan jumlah semua frekuensi, mis. ukuran sampel.

Contoh:

Hasil perubahan tegangan (dalam volt) dalam jaringan listrik diberikan. Susun rangkaian variasi, bangun poligon dan histogram frekuensi jika nilai tegangannya sebagai berikut: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Keputusan:

Mari kita buat serangkaian variasi. Kami memiliki n = 20, x min =212, x maks =232.

Mari gunakan rumus Sturgess untuk menghitung jumlah interval.

Deret frekuensi variasi interval memiliki bentuk:


Kepadatan Frekuensi

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Mari kita buat histogram frekuensi:

Mari kita buat poligon frekuensi dengan terlebih dahulu mencari titik tengah interval:


Histogram frekuensi relatif panggil gambar berundak yang terdiri dari persegi panjang, yang alasnya adalah interval parsial dengan panjang h, dan tingginya sama dengan rasio w saya/ jam (kepadatan frekuensi relatif).

Kotak Persegi panjang parsial ke-i sama dengan frekuensi relatif dari varian yang jatuh ke dalam interval ke-i. Itu. luas histogram frekuensi relatif sama dengan jumlah semua frekuensi relatif, mis. satuan.

7. Karakteristik numerik dari seri variasi

Pertimbangkan karakteristik utama dari populasi umum dan sampel.

Sekunder umum disebut rata-rata aritmatika dari nilai-nilai fitur dari populasi umum.

Untuk nilai yang berbeda x 1 , x 2 , x 3 , …, x n . tanda populasi umum volume N kita miliki:

Jika nilai atribut memiliki frekuensi yang sesuai N 1 +N 2 +…+N k =N , maka


sampel berarti disebut mean aritmatika dari nilai-nilai fitur dari populasi sampel.

Jika nilai atribut memiliki frekuensi yang sesuai n 1 +n 2 +…+n k = n, maka


Contoh:

Hitung mean sampel untuk sampel: x 1 = 51,12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52.93; x 5 \u003d 51.1; x 6 \u003d 52.98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Keputusan:

Varians umum disebut rata-rata aritmatika dari deviasi kuadrat dari nilai-nilai karakteristik X dari populasi umum dari rata-rata umum.

Untuk nilai yang berbeda x 1 , x 2 , x 3 , …, x N dari tanda populasi volume N kita miliki:

Jika nilai atribut memiliki frekuensi yang sesuai N 1 +N 2 +…+N k =N , maka

Standar deviasi umum (standar) disebut akar kuadrat dari varians umum

Varians sampel disebut rata-rata aritmatika dari deviasi kuadrat dari nilai-nilai yang diamati dari fitur dari nilai rata-rata.

Untuk nilai beda x 1 , x 2 , x 3 , ..., x n dari tanda populasi sampel volume n kita peroleh :


Jika nilai atribut memiliki frekuensi yang sesuai n 1 +n 2 +…+n k = n, maka


Standar deviasi sampel (standar) disebut akar kuadrat dari varians sampel.


Contoh:

Himpunan sampling diberikan oleh tabel distribusi. Temukan varians sampel.


Keputusan:

Dalil: Varians sama dengan selisih antara rerata kuadrat nilai fitur dan kuadrat rerata total.

Contoh:

Temukan varians untuk distribusi ini.



Keputusan:

8. Perkiraan statistik parameter distribusi

Biarkan populasi umum dipelajari oleh beberapa sampel. Dalam hal ini, dimungkinkan untuk mendapatkan hanya nilai perkiraan dari parameter Q yang tidak diketahui, yang berfungsi sebagai perkiraannya. Jelas bahwa perkiraan dapat bervariasi dari satu sampel ke sampel lainnya.

Evaluasi statistikQ* parameter yang tidak diketahui dari distribusi teoretis disebut fungsi f, yang tergantung pada nilai sampel yang diamati. Tugas estimasi statistik parameter yang tidak diketahui dari sampel adalah untuk membangun fungsi seperti itu dari data pengamatan statistik yang tersedia, yang akan memberikan nilai perkiraan paling akurat dari nilai nyata, yang tidak diketahui peneliti, dari parameter ini.

Perkiraan statistik dibagi menjadi titik dan interval, tergantung pada cara mereka disediakan (angka atau interval).

Estimasi titik disebut estimasi statistik. parameter Q dari distribusi teoritis ditentukan oleh satu nilai parameter Q *=f (x 1 , x 2 , ..., x n), dimanax 1 , x 2 , ...,xn- hasil pengamatan empiris pada atribut kuantitatif X dari sampel tertentu.

Estimasi parameter tersebut diperoleh dari sampel yang berbeda paling sering berbeda satu sama lain. Selisih mutlak /Q *-Q / disebut kesalahan pengambilan sampel (estimasi).

Agar estimasi statistik memberikan hasil yang andal tentang parameter yang diestimasi, parameter tersebut harus tidak bias, efisien, dan konsisten.

Estimasi Poin, harapan matematis yang sama (tidak sama) dengan parameter yang diestimasi, disebut tidak bergeser (bergeser). M(Q *)=Q .

Selisih M( Q *)-Q disebut bias atau kesalahan sistematis. Untuk estimasi tak bias, kesalahan sistematik adalah 0.

efisien evaluasi Q*, yang untuk ukuran sampel tertentu n, memiliki kemungkinan varians terkecil: D min(n = konstan). Penduga efektif memiliki spread paling kecil dibandingkan dengan penduga tak bias dan konsisten lainnya.

Kayadisebut statistik seperti itu evaluasi Q *, dimana untuk ncenderung dalam probabilitas ke parameter yang diestimasi Q , yaitu dengan peningkatan ukuran sampel n perkiraan cenderung dalam probabilitas ke nilai sebenarnya dari parameter Q.

Persyaratan konsistensi konsisten dengan hukum bilangan besar: semakin banyak informasi awal tentang objek yang diteliti, semakin akurat hasilnya. Jika ukuran sampel kecil, maka estimasi titik parameter dapat menyebabkan kesalahan serius.

Setiap sampel (volumen) dapat dianggap sebagai himpunan terurutx 1 , x 2 , ...,xn variabel acak independen yang terdistribusi identik.

Sampel berarti untuk sampel volume yang berbeda n dari populasi yang sama akan berbeda. Artinya, mean sampel dapat dianggap sebagai variabel acak, yang berarti bahwa kita dapat berbicara tentang distribusi mean sampel dan karakteristik numeriknya.

Rata-rata sampel memenuhi semua persyaratan yang dikenakan pada perkiraan statistik, mis. memberikan perkiraan rata-rata populasi yang tidak bias, efisien, dan konsisten.

Dapat dibuktikan bahwa. Dengan demikian, varians sampel adalah estimasi bias dari varians umum, memberikan nilai yang diremehkan. Artinya, dengan ukuran sampel yang kecil akan memberikan kesalahan sistematis. Untuk perkiraan yang tidak bias dan konsisten, cukup dengan mengambil kuantitasnya, yang disebut varian terkoreksi. yaitu

Dalam praktiknya, untuk memperkirakan varians umum, varians terkoreksi digunakan ketika: n < 30. Dalam kasus lain ( n >30) penyimpangan dari hampir tidak terlihat. Oleh karena itu, untuk nilai besar n kesalahan bias dapat diabaikan.

Kita juga dapat membuktikan bahwa frekuensi relatifn i / n adalah estimasi probabilitas yang tidak bias dan konsisten P(X=x i ). Fungsi distribusi empiris F*(x ) adalah estimasi yang tidak bias dan konsisten dari fungsi distribusi teoritis F(x)=P(X< x ).

Contoh:

Temukan estimasi tak bias dari mean dan varians dari tabel sampel.

x saya
dan aku

Keputusan:

Ukuran sampel n=20.

Estimasi tak bias dari ekspektasi matematis adalah mean sampel.


Untuk menghitung estimasi varians yang tidak bias, pertama-tama kita temukan varians sampel:

Sekarang mari kita cari taksiran tak bias:

9. Perkiraan interval parameter distribusi

Interval adalah perkiraan statistik yang ditentukan oleh dua nilai numerik - ujung interval yang dipelajari.

Nomor> 0, dimana | T - T*|< , mencirikan keakuratan estimasi interval.

Tepercayaditelepon selang , yang dengan probabilitas tertentumencakup nilai parameter yang tidak diketahui Q . Melengkapi interval kepercayaan ke himpunan semua nilai parameter yang mungkin Q ditelepon daerah kritis. Jika daerah kritis terletak hanya pada satu sisi selang kepercayaan, maka selang kepercayaan disebut sepihak: sisi kiri, jika daerah kritis hanya ada di sebelah kiri, dan Pengguna tangan kanan kecuali di sebelah kanan. Jika tidak, interval kepercayaan disebut bilateral.

Keandalan, atau tingkat kepercayaan, Perkiraan Q (menggunakan Q *) sebutkan peluang terpenuhinya pertidaksamaan berikut: | T - T*|< .

Paling sering, probabilitas kepercayaan ditetapkan terlebih dahulu (0,95; 0,99; 0,999) dan persyaratannya harus mendekati satu.

Kemungkinanditelepon probabilitas kesalahan, atau tingkat signifikansi.

Biarkan | T - T*|< , kemudian. Ini berarti bahwa dengan probabilitasdapat dikatakan bahwa nilai sebenarnya dari parameter Q termasuk dalam interval. Semakin kecil deviasi, semakin akurat perkiraannya.

Batas (ujung) selang kepercayaan disebut batas kepercayaan, atau batas kritis.

Nilai batas interval kepercayaan tergantung pada hukum distribusi parameter Q*.

Nilai penyimpangansetengah lebar selang kepercayaan disebut akurasi penilaian.

Metode untuk membangun interval kepercayaan pertama kali dikembangkan oleh ahli statistik Amerika Y. Neumann. Akurasi Estimasi, probabilitas kepercayaan dan ukuran sampel n saling berhubungan. Karena itu, mengetahui nilai spesifik dari dua kuantitas, Anda selalu dapat menghitung yang ketiga.

Menemukan interval kepercayaan untuk memperkirakan ekspektasi matematis dari distribusi normal jika standar deviasi diketahui.

Biarkan sampel dibuat dari populasi umum, tunduk pada hukum distribusi normal. Biarkan standar deviasi umum diketahui, tetapi ekspektasi matematis dari distribusi teoretis tidak diketahui sebuah().

Rumus berikut ini valid:

Itu. sesuai dengan nilai deviasi yang ditentukanadalah mungkin untuk menemukan dengan probabilitas berapa rata-rata umum yang tidak diketahui milik interval. Dan sebaliknya. Dapat dilihat dari rumus bahwa dengan peningkatan ukuran sampel dan nilai probabilitas kepercayaan yang tetap, nilai- berkurang, mis. akurasi perkiraan meningkat. Dengan peningkatan keandalan (probabilitas kepercayaan), nilai-meningkat, mis. akurasi perkiraan menurun.

Contoh:

Sebagai hasil dari pengujian, diperoleh nilai-nilai berikut -25, 34, -20, 10, 21. Diketahui bahwa mereka mematuhi hukum distribusi normal dengan standar deviasi 2. Temukan perkiraan a* untuk harapan matematis a. Plot interval kepercayaan 90% untuk itu.

Keputusan:

Mari kita cari taksiran yang tidak bias

Kemudian


Interval kepercayaan untuk a memiliki bentuk: 4 - 1,47< sebuah< 4+ 1,47 или 2,53 < a < 5, 47

Menemukan interval kepercayaan untuk memperkirakan ekspektasi matematis dari distribusi normal jika standar deviasi tidak diketahui.

Diketahui bahwa populasi umum tunduk pada hukum distribusi normal, di mana a dan. Akurasi Interval Keyakinan Menutupi dengan Keandalannilai sebenarnya dari parameter a, dalam hal ini, dihitung dengan rumus:

, di mana n adalah ukuran sampel, , - Koefisien siswa (harus ditemukan dari nilai yang diberikan n dan dari tabel "Titik kritis distribusi Siswa").

Contoh:

Sebagai hasil dari pengujian, nilai-nilai berikut diperoleh -35, -32, -26, -35, -30, -17. Diketahui bahwa mereka mematuhi hukum distribusi normal. Tentukan selang kepercayaan untuk mean populasi a dengan tingkat kepercayaan 0,9.

Keputusan:

Mari kita cari taksiran yang tidak bias.

Ayo temukan.

Kemudian

Interval kepercayaan akan berbentuk(-29.2 - 5.62; -29.2 + 5.62) atau (-34.82; -23.58).

Menemukan interval kepercayaan untuk varians dan standar deviasi dari distribusi normal

Biarkan sampel volume acak diambil dari beberapa himpunan nilai umum yang didistribusikan menurut hukum normaln < 30 yang varian sampelnya dihitung: biasdan dikoreksi s 2. Kemudian untuk menemukan perkiraan interval dengan keandalan yang diberikanuntuk dispersi umumDsimpangan baku umumrumus berikut digunakan.


atau,

Nilai- temukan menggunakan tabel nilai titik kritisdistribusi Pearson.

Interval kepercayaan untuk varians ditemukan dari pertidaksamaan ini dengan mengkuadratkan semua bagian pertidaksamaan.

Contoh:

Kualitas 15 baut diperiksa. Dengan asumsi bahwa kesalahan dalam pembuatannya tunduk pada hukum distribusi normal, dan standar deviasi sampelsama dengan 5 mm, tentukan dengan keandalaninterval kepercayaan untuk parameter yang tidak diketahui

Kami mewakili batas-batas interval sebagai ketidaksetaraan ganda:

Ujung interval kepercayaan dua sisi untuk varians dapat ditentukan tanpa melakukan operasi aritmatika untuk tingkat kepercayaan tertentu dan ukuran sampel menggunakan tabel yang sesuai (Batas interval kepercayaan untuk varians tergantung pada jumlah derajat kebebasan dan keandalan ). Untuk melakukan ini, ujung interval yang diperoleh dari tabel dikalikan dengan varian terkoreksi s 2.

Contoh:

Mari kita selesaikan masalah sebelumnya dengan cara yang berbeda.

Keputusan:

Mari kita cari varians yang dikoreksi:

Menurut tabel "Batas interval kepercayaan untuk varians tergantung pada jumlah derajat kebebasan dan keandalan", kami menemukan batas-batas interval kepercayaan untuk varians dik=14 dan: batas bawah 0,513 dan batas atas 2,354.

Kalikan batas yang diperoleh dengans 2 dan ekstrak akarnya (karena kita membutuhkan interval kepercayaan bukan untuk varians, tetapi untuk standar deviasi).

Seperti dapat dilihat dari contoh, nilai selang kepercayaan bergantung pada metode konstruksinya dan memberikan hasil yang hampir sama tetapi berbeda.

Untuk sampel berukuran cukup besar (n>30) batas-batas selang kepercayaan untuk simpangan baku umum dapat ditentukan dengan rumus: - beberapa nomor, yang ditabulasi dan diberikan dalam tabel referensi yang sesuai.

Jika 1- q<1, то формула имеет вид:

Contoh:

Mari kita selesaikan masalah sebelumnya dengan cara ketiga.

Keputusan:

Sebelumnya ditemukans= 5,17. q(0,95; 15) = 0,46 - kami menemukan menurut tabel.

Kemudian:

Populasi- satu set unit yang memiliki karakter massa, kekhasan, keseragaman kualitatif dan adanya variasi.

Populasi statistik terdiri dari objek material yang ada (Karyawan, perusahaan, negara, wilayah), adalah objek.

Satuan populasi- setiap unit tertentu dari populasi statistik.

Satu dan populasi statistik yang sama dapat homogen dalam satu fitur dan heterogen di fitur lainnya.

Keseragaman kualitatif- kesamaan semua unit populasi untuk fitur apa pun dan ketidaksamaan untuk semua yang lain.

Dalam populasi statistik, perbedaan antara satu unit populasi dan yang lain lebih sering bersifat kuantitatif. Perubahan kuantitatif dalam nilai atribut unit yang berbeda dari populasi disebut variasi.

Variasi Fitur- perubahan kuantitatif suatu tanda (untuk tanda kuantitatif) selama transisi dari satu unit populasi ke unit lainnya.

tanda- ini adalah properti, karakteristik atau fitur lain dari unit, objek, dan fenomena yang dapat diamati atau diukur. Tanda dibagi menjadi kuantitatif dan kualitatif. Keanekaragaman dan keragaman nilai suatu ciri dalam satuan individu populasi disebut variasi.

Ciri-ciri atributif (kualitatif) tidak dapat diukur (komposisi populasi menurut jenis kelamin). Karakteristik kuantitatif memiliki ekspresi numerik (komposisi populasi berdasarkan usia).

Indikator- ini adalah karakteristik kuantitatif dan kualitatif generalisasi dari setiap properti unit atau agregat untuk tujuan dalam kondisi waktu dan tempat tertentu.

Kartu catatan angka adalah seperangkat indikator yang secara komprehensif mencerminkan fenomena yang diteliti.

Misalnya, pertimbangkan gaji:
  • Tanda - upah
  • Populasi statistik - semua karyawan
  • Satuan dari populasi adalah setiap pekerja
  • Homogenitas kualitatif - gaji yang masih harus dibayar
  • Variasi fitur - serangkaian angka

Populasi umum dan sampel darinya

Basis adalah sekumpulan data yang diperoleh sebagai hasil pengukuran satu atau lebih fitur. Himpunan objek yang benar-benar diamati, secara statistik diwakili oleh serangkaian pengamatan variabel acak , adalah contoh, dan yang ada secara hipotetis (dipikirkan) - populasi umum. Populasi umum dapat berhingga (jumlah observasi N = konstanta) atau tak terbatas ( N =), dan sampel dari populasi umum selalu merupakan hasil pengamatan dalam jumlah terbatas. Banyaknya pengamatan yang membentuk sampel disebut ukuran sampel. Jika ukuran sampel cukup besar n→∞) sampel dianggap besar, jika tidak maka disebut sampel volume terbatas. Sampel dianggap kecil, jika, ketika mengukur variabel acak satu dimensi, ukuran sampel tidak melebihi 30 ( n<= 30 ), dan ketika mengukur secara bersamaan beberapa ( k) fitur dalam hubungan ruang multidimensi n ke k kurang dari 10 (n/k< 10) . Contoh formulir seri variasi jika anggotanya adalah statistik pesanan, yaitu, nilai sampel dari variabel acak X diurutkan dalam urutan menaik (diperingkat), nilai-nilai atribut disebut pilihan.

Contoh. Kumpulan objek yang dipilih secara acak yang hampir sama - bank komersial dari satu distrik administratif Moskow, dapat dianggap sebagai sampel dari populasi umum semua bank komersial di distrik ini, dan sebagai sampel dari populasi umum semua bank komersial di Moskow , serta contoh bank komersial di negara ini dan lain-lain.

Metode pengambilan sampel dasar

Keandalan kesimpulan statistik dan interpretasi hasil yang bermakna tergantung pada: keterwakilan sampel, yaitu kelengkapan dan kecukupan representasi sifat-sifat populasi umum, yang dengannya sampel ini dapat dianggap representatif. Studi tentang sifat statistik populasi dapat diatur dalam dua cara: menggunakan kontinu dan terputus-putus. Pengamatan terus menerus termasuk pemeriksaan semua unit dipelajari agregat, sebuah observasi non-kontinyu (selektif)- hanya sebagian saja.

Ada lima cara utama untuk mengatur pengambilan sampel:

1. pilihan acak sederhana, di mana objek dipilih secara acak dari populasi umum objek (misalnya, menggunakan tabel atau generator angka acak), dan masing-masing sampel yang mungkin memiliki probabilitas yang sama. Sampel seperti itu disebut sebenarnya acak;

2. seleksi sederhana melalui prosedur reguler dilakukan dengan menggunakan komponen mekanis (misalnya, tanggal, hari dalam seminggu, nomor apartemen, huruf alfabet, dll.) dan sampel yang diperoleh dengan cara ini disebut mekanis;

3. bertingkat seleksi terdiri dari kenyataan bahwa populasi umum volume dibagi menjadi himpunan bagian atau lapisan (strata) volume sehingga . Strata adalah objek homogen dalam hal karakteristik statistik (misalnya, populasi dibagi menjadi strata menurut kelompok umur atau kelas sosial; perusahaan menurut industri). Dalam hal ini, sampel disebut bertingkat(sebaliknya, bertingkat, khas, dikategorikan);

4. metode serial seleksi digunakan untuk membentuk serial atau sampel bersarang. Mereka nyaman jika perlu untuk memeriksa "blok" atau serangkaian objek sekaligus (misalnya, kiriman barang, produk dari seri tertentu, atau populasi di divisi teritorial-administrasi negara). Pemilihan seri dapat dilakukan secara acak atau mekanis. Pada saat yang sama, survei berkelanjutan terhadap sejumlah barang tertentu, atau seluruh unit teritorial (bangunan tempat tinggal atau seperempat) dilakukan;

5. gabungan(melangkah) seleksi dapat menggabungkan beberapa metode seleksi sekaligus (misalnya, bertingkat dan acak atau acak dan mekanis); sampel seperti itu disebut gabungan.

Jenis pilihan

Oleh pikiran ada seleksi individu, kelompok dan gabungan. Pada seleksi individu unit individu dari populasi umum dipilih dalam kumpulan sampel, dengan pemilihan grup adalah kelompok (deret) unit yang secara kualitatif homogen, dan seleksi gabungan melibatkan kombinasi dari tipe pertama dan kedua.

Oleh metode seleksi membedakan berulang dan tidak berulang Sampel.

tidak bisa diulang disebut seleksi, di mana unit yang masuk ke dalam sampel tidak kembali ke populasi semula dan tidak ikut seleksi lebih lanjut; sedangkan jumlah unit populasi umum N berkurang selama proses seleksi. Pada ulang pilihan tertangkap dalam sampel, unit setelah pendaftaran dikembalikan ke populasi umum dan dengan demikian mempertahankan kesempatan yang sama, bersama dengan unit lain, untuk digunakan dalam prosedur seleksi lebih lanjut; sedangkan jumlah unit populasi umum N tetap tidak berubah (metode ini jarang digunakan dalam studi sosio-ekonomi). Namun, dengan besar N (N → ) rumus untuk tidak berulang pilihan dekat dengan mereka untuk ulang seleksi dan yang terakhir digunakan hampir lebih sering ( N = konstanta).

Karakteristik utama dari parameter populasi umum dan sampel

Dasar dari kesimpulan statistik penelitian adalah distribusi variabel acak , sedangkan nilai-nilai yang diamati (x 1, x 2, ..., x n) disebut realisasi dari variabel acak X(n adalah ukuran sampel). Distribusi variabel acak dalam populasi umum bersifat teoretis, ideal, dan analog sampelnya adalah empiris distribusi. Beberapa distribusi teoritis diberikan secara analitis, yaitu mereka pilihan tentukan nilai fungsi distribusi pada setiap titik dalam ruang kemungkinan nilai variabel acak . Untuk sampel, sulit, dan terkadang tidak mungkin, untuk menentukan fungsi distribusi, oleh karena itu pilihan diestimasi dari data empiris, dan kemudian disubstitusikan ke dalam ekspresi analitis yang menggambarkan distribusi teoretis. Dalam hal ini, asumsi (atau hipotesa) tentang jenis distribusi dapat benar dan salah secara statistik. Tetapi bagaimanapun juga, distribusi empiris yang direkonstruksi dari sampel hanya secara kasar mencirikan distribusi yang sebenarnya. Parameter distribusi yang paling penting adalah nilai yang diharapkan dan dispersi.

Menurut sifatnya, distribusi adalah kontinu dan diskrit. Distribusi kontinu yang paling dikenal adalah normal. Analog selektif parameter dan untuk itu adalah: nilai rata-rata dan varians empiris. Di antara diskrit dalam studi sosial-ekonomi, yang paling umum digunakan alternatif (dikotomis) distribusi. Parameter ekspektasi dari distribusi ini menyatakan nilai relatif (atau Bagikan) satuan populasi yang mempunyai sifat yang diteliti (ditunjukkan dengan huruf ); Proporsi penduduk yang tidak memiliki ciri tersebut dilambangkan dengan huruf q (q = 1 - p). Varians dari distribusi alternatif juga memiliki analog empiris.

Tergantung pada jenis distribusi dan metode pemilihan unit populasi, karakteristik parameter distribusi dihitung secara berbeda. Yang utama untuk distribusi teoritis dan empiris diberikan dalam Tabel. 9.1.

Contoh berbagi k n adalah rasio jumlah unit populasi sampel dengan jumlah unit populasi umum:

k n = n/N.

Berbagi sampel adalah rasio unit yang memiliki sifat yang dipelajari x untuk ukuran sampel n:

w = n n / n.

Contoh. Dalam batch barang yang berisi 1000 unit, dengan sampel 5% pecahan sampel k n dalam nilai absolut adalah 50 unit. (n = N*0,05); jika 2 produk cacat ditemukan dalam sampel ini, maka pecahan sampel w akan menjadi 0,04 (w = 2/50 = 0,04 atau 4%).

Karena populasi sampel berbeda dengan populasi umum, maka kesalahan pengambilan sampel.

Tabel 9.1 Parameter utama populasi umum dan sampel

Kesalahan pengambilan sampel

Dengan apapun (padat dan selektif) kesalahan dari dua jenis dapat terjadi: pendaftaran dan keterwakilan. kesalahan Registrasi bisa memperoleh acak dan sistematis karakter. Acak kesalahan terdiri dari banyak penyebab tak terkendali yang berbeda, tidak disengaja di alam, dan biasanya menyeimbangkan satu sama lain dalam kombinasi (misalnya, perubahan pembacaan instrumen karena fluktuasi suhu di dalam ruangan).

Sistematis kesalahan bias, karena melanggar aturan untuk memilih objek dalam sampel (misalnya, penyimpangan dalam pengukuran saat mengubah pengaturan alat pengukur).

Contoh. Untuk menilai status sosial penduduk di kota direncanakan pemeriksaan 25% keluarga. Namun, jika pemilihan setiap apartemen keempat didasarkan pada jumlahnya, maka ada bahaya memilih semua apartemen hanya dari satu jenis (misalnya, apartemen satu kamar), yang akan menimbulkan kesalahan sistematis dan mendistorsi hasil; pilihan nomor apartemen berdasarkan lot lebih disukai, karena kesalahannya akan acak.

Kesalahan keterwakilan melekat hanya dalam pengamatan selektif, mereka tidak dapat dihindari dan mereka muncul sebagai akibat dari fakta bahwa sampel tidak sepenuhnya mereproduksi yang umum. Nilai indikator yang diperoleh dari sampel berbeda dengan indikator nilai yang sama pada populasi umum (atau diperoleh selama pengamatan terus menerus).

Kesalahan pengambilan sampel adalah perbedaan antara nilai parameter dalam populasi umum dan nilai sampelnya. Untuk nilai rata-rata atribut kuantitatif sama dengan: , dan untuk share (atribut alternatif) - .

Kesalahan pengambilan sampel hanya melekat pada pengamatan sampel. Semakin besar kesalahan ini, semakin banyak distribusi empiris berbeda dari yang teoritis. Parameter distribusi empiris dan merupakan variabel acak, oleh karena itu, kesalahan pengambilan sampel juga merupakan variabel acak, mereka dapat mengambil nilai yang berbeda untuk sampel yang berbeda, dan oleh karena itu merupakan kebiasaan untuk menghitung kesalahan rata-rata.

Rata-rata kesalahan pengambilan sampel adalah nilai yang menyatakan simpangan baku rata-rata sampel dari ekspektasi matematis. Nilai ini, tunduk pada prinsip pemilihan acak, terutama bergantung pada ukuran sampel dan tingkat variasi sifat: semakin besar dan semakin kecil variasi sifat (karenanya, nilai ), semakin kecil nilai kesalahan sampling rata-rata. Rasio antara varians dari populasi umum dan sampel dinyatakan dengan rumus:

itu. untuk cukup besar, kita dapat mengasumsikan bahwa . Rata-rata kesalahan sampling menunjukkan kemungkinan penyimpangan parameter populasi sampel dari parameter populasi umum. Di meja. 9.2 menunjukkan ekspresi untuk menghitung kesalahan pengambilan sampel rata-rata untuk berbagai metode pengorganisasian observasi.

Tabel 9.2 Rata-rata kesalahan (m) rata-rata sampel dan proporsi untuk jenis sampel yang berbeda

Dimana rata-rata varians sampel intragroup untuk fitur kontinu;

Rata-rata dispersi intra-grup saham;

— jumlah seri yang dipilih, — jumlah total seri;

,

di mana rata-rata deret ke-th;

- rata-rata umum di seluruh sampel untuk fitur berkelanjutan;

,

dimana proporsi sifat pada deret ke-th;

— bagian total sifat di seluruh sampel.

Namun, besarnya kesalahan rata-rata hanya dapat dinilai dengan probabilitas tertentu (Р 1). Lyapunov A.M. membuktikan bahwa distribusi rata-rata sampel, dan karenanya penyimpangannya dari rata-rata umum, dengan jumlah yang cukup besar, kira-kira mematuhi hukum distribusi normal, asalkan populasi umum memiliki rata-rata berhingga dan varians terbatas.

Secara matematis, pernyataan untuk mean ini dinyatakan sebagai:

dan untuk pecahan, ekspresi (1) akan berbentuk:

di mana - ada kesalahan pengambilan sampel marjinal, yang merupakan kelipatan dari rata-rata kesalahan pengambilan sampel , dan faktor multiplisitas adalah kriteria Student ("faktor kepercayaan"), diusulkan oleh W.S. Gosset (nama samaran "Mahasiswa"); nilai untuk ukuran sampel yang berbeda disimpan dalam tabel khusus.

Nilai fungsi (t) untuk beberapa nilai t adalah:

Oleh karena itu, ekspresi (3) dapat dibaca sebagai berikut: dengan probabilitas P = 0,683 (68,3%) dapat dikatakan bahwa perbedaan antara sampel dan rata-rata umum tidak akan melebihi satu nilai kesalahan rata-rata m(t=1), dengan probabilitas P = 0,954 (95,4%)— bahwa itu tidak melebihi nilai dua kesalahan rata-rata m (t = 2) , dengan kemungkinan P = 0,997 (99,7%)- tidak akan melebihi tiga nilai m (t = 3) . Jadi, probabilitas bahwa perbedaan ini akan melebihi tiga kali nilai kesalahan rata-rata menentukan: tingkat kesalahan dan tidak lebih dari 0,3% .

Di meja. 9.3 rumus untuk menghitung kesalahan sampling marginal diberikan.

Tabel 9.3 Kesalahan pengambilan sampel marginal (D) untuk rata-rata dan proporsi (p) untuk berbagai jenis pengambilan sampel

Memperluas Hasil Sampel ke Populasi

Tujuan akhir dari observasi sampel adalah untuk mengkarakterisasi populasi umum. Untuk ukuran sampel kecil, perkiraan empiris dari parameter ( dan ) dapat menyimpang secara signifikan dari nilai sebenarnya ( dan ). Oleh karena itu, menjadi perlu untuk menetapkan batas-batas di mana nilai sebenarnya ( dan ) terletak untuk nilai sampel parameter ( dan ).

Interval kepercayaan dari beberapa parameter dari populasi umum disebut rentang nilai acak dari parameter ini, yang dengan probabilitas mendekati 1 ( keandalan) berisi nilai sebenarnya dari parameter ini.

kesalahan marginal sampel Δ memungkinkan Anda untuk menentukan nilai batas karakteristik populasi umum dan mereka interval kepercayaan, yang sama dengan:

Intinya selang kepercayaan diperoleh dengan mengurangkan kesalahan marginal dari mean sampel (share), dan yang teratas dengan menambahkannya.

Interval kepercayaan untuk mean, ia menggunakan kesalahan sampling marginal dan untuk tingkat kepercayaan tertentu ditentukan oleh rumus:

Ini berarti bahwa dengan probabilitas tertentu R, yang disebut tingkat kepercayaan dan secara unik ditentukan oleh nilai t, dapat dikatakan bahwa nilai sebenarnya dari mean terletak pada rentang dari , dan nilai sebenarnya dari saham tersebut berada dalam kisaran dari

Saat menghitung interval kepercayaan untuk tiga tingkat kepercayaan standar P=95%, P=99% dan P=99,9% nilai dipilih oleh . Aplikasi tergantung pada jumlah derajat kebebasan. Jika ukuran sampel cukup besar, maka nilai-nilai yang sesuai dengan probabilitas ini t adalah sama: 1,96, 2,58 dan 3,29 . Dengan demikian, kesalahan pengambilan sampel marjinal memungkinkan kita untuk menentukan nilai marjinal dari karakteristik populasi umum dan interval kepercayaannya:

Distribusi hasil pengamatan selektif kepada masyarakat umum dalam kajian sosial ekonomi mempunyai ciri tersendiri, karena memerlukan kelengkapan keterwakilan dari semua jenis dan golongannya. Dasar dari kemungkinan distribusi seperti itu adalah perhitungannya Kesalahan relatif:

di mana Δ % - kesalahan sampling marginal relatif; , .

Ada dua metode utama untuk memperluas pengamatan sampel ke populasi: konversi langsung dan metode koefisien.

Esensi konversi langsung adalah mengalikan mean sampel!!\overline(x) dengan ukuran populasi .

Contoh. Biarkan rata-rata jumlah balita di kota diperkirakan dengan metode sampling dan jumlah seseorang. Jika ada 1000 keluarga muda di kota, maka jumlah tempat yang dibutuhkan di pembibitan kota diperoleh dengan mengalikan rata-rata ini dengan ukuran populasi umum N = 1000, yaitu. akan menjadi 1200 kursi.

Metode koefisien disarankan untuk digunakan jika pengamatan selektif dilakukan untuk memperjelas data pengamatan berkelanjutan.

Dalam melakukannya, rumus yang digunakan:

di mana semua variabel adalah ukuran populasi:

Ukuran sampel yang diperlukan

Tabel 9.4 Ukuran sampel yang diperlukan (n) untuk berbagai jenis organisasi pengambilan sampel

Saat merencanakan survei pengambilan sampel dengan nilai kesalahan pengambilan sampel yang diizinkan sebelumnya, perlu untuk memperkirakan dengan benar yang diperlukan ukuran sampel. Jumlah ini dapat ditentukan berdasarkan kesalahan yang diizinkan selama pengamatan selektif berdasarkan probabilitas tertentu yang menjamin tingkat kesalahan yang dapat diterima (dengan mempertimbangkan cara pengamatan diatur). Rumus untuk menentukan ukuran sampel yang diperlukan n dapat dengan mudah diperoleh langsung dari rumus untuk kesalahan pengambilan sampel marginal. Jadi, dari ekspresi untuk kesalahan marginal:

ukuran sampel ditentukan secara langsung n:

Rumus ini menunjukkan bahwa dengan menurunnya kesalahan sampling marginal Δ secara signifikan meningkatkan ukuran sampel yang diperlukan, yang sebanding dengan varians dan kuadrat dari uji-t Student.

Untuk metode khusus pengorganisasian observasi, ukuran sampel yang diperlukan dihitung sesuai dengan rumus yang diberikan dalam Tabel. 9.4.

Contoh Perhitungan Praktis

Contoh 1. Perhitungan nilai rata-rata dan interval kepercayaan untuk karakteristik kuantitatif kontinu.

Untuk menilai kecepatan penyelesaian dengan kreditur di bank, sampel acak dari 10 dokumen pembayaran dilakukan. Nilai mereka ternyata sama (dalam hari): 10; 3; limabelas; limabelas; 22; 7; delapan; satu; sembilan belas; 20.

Diperlukan dengan probabilitas P = 0,954 tentukan kesalahan marginal Δ rata-rata sampel dan batas kepercayaan waktu kalkulasi rata-rata.

Keputusan. Nilai rata-rata dihitung dengan rumus dari Tabel. 9.1 untuk populasi sampel

Dispersi dihitung menurut rumus dari Tabel. 9.1.

Kesalahan kuadrat rata-rata hari ini.

Kesalahan mean dihitung dengan rumus:

itu. nilai rata-rata adalah x ± m = 12,0 ± 2,3 hari.

Keandalan rata-rata adalah

Kesalahan pembatas dihitung dengan rumus dari Tabel. 9.3 untuk pemilihan ulang, karena ukuran populasi tidak diketahui, dan untuk P = 0,954 tingkat kepercayaan diri.

Jadi, nilai rata-ratanya adalah `x ± D = `x ± 2m = 12,0 ± 4,6, mis. nilai sebenarnya terletak pada kisaran 7,4 hingga 16,6 hari.

Penggunaan meja Siswa. Aplikasi ini memungkinkan kita untuk menyimpulkan bahwa untuk n = 10 - 1 = 9 derajat kebebasan, nilai yang diperoleh dapat diandalkan dengan tingkat signifikansi a £ 0,001, yaitu. nilai mean yang dihasilkan berbeda nyata dengan 0.

Contoh 2. Estimasi Probabilitas (Bagian Umum) r.

Dengan metode sampling mekanis yang mensurvei status sosial 1000 keluarga, terungkap bahwa proporsi keluarga berpenghasilan rendah adalah w = 0,3 (30%)(sampelnya adalah 2% , yaitu n/N = 0,02). Diperlukan dengan tingkat kepercayaan diri p = 0,997 tentukan indikator R keluarga berpenghasilan rendah di seluruh wilayah.

Keputusan. Menurut nilai fungsi yang disajikan (t) temukan untuk tingkat kepercayaan yang diberikan P = 0,997 berarti t=3(lihat rumus 3). Kesalahan pembagian marjinal w tentukan dengan rumus dari Tabel. 9.3 untuk pengambilan sampel yang tidak berulang (pengambilan sampel mekanis selalu tidak berulang):

Membatasi kesalahan pengambilan sampel relatif dalam % akan:

Probabilitas (pangsa umum) keluarga berpenghasilan rendah di wilayah tersebut adalah p=w±w, dan batas kepercayaan p dihitung berdasarkan pertidaksamaan ganda:

w — w p w — w, yaitu nilai sebenarnya dari p terletak di dalam:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Dengan demikian, dengan probabilitas 0,997, dapat dikatakan bahwa proporsi keluarga berpenghasilan rendah di antara semua keluarga di wilayah tersebut berkisar antara 28,6% hingga 31,4%.

Contoh 3 Perhitungan nilai rata-rata dan interval kepercayaan untuk fitur diskrit yang ditentukan oleh deret interval.

Di meja. 9.5. distribusi aplikasi untuk produksi pesanan sesuai dengan waktu implementasinya oleh perusahaan diatur.

Tabel 9.5 Distribusi observasi berdasarkan waktu kejadian

Keputusan. Rata-rata waktu penyelesaian pesanan dihitung dengan rumus:

Waktu rata-rata akan menjadi:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 bulan

Kami mendapatkan jawaban yang sama jika kami menggunakan data pada p i dari kolom kedua dari belakang Tabel. 9.5 menggunakan rumus:

Perhatikan bahwa pertengahan interval gradasi terakhir ditemukan dengan melengkapinya secara artifisial dengan lebar interval gradasi sebelumnya yang sama dengan 60 - 36 = 24 bulan.

Dispersi dihitung dengan rumus

di mana x saya- tengah seri interval.

Oleh karena itu!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) dan kesalahan standarnya adalah .

Kesalahan rata-rata dihitung dengan rumus selama berbulan-bulan, mis. rata-ratanya adalah!!\overline(x) ± m = 23,1 ± 13,4.

Kesalahan pembatas dihitung dengan rumus dari Tabel. 9,3 untuk pemilihan ulang karena ukuran populasi tidak diketahui, untuk tingkat kepercayaan 0,954:

Jadi maksudnya adalah:

itu. nilai sebenarnya terletak pada kisaran 0 hingga 50 bulan.

Contoh 4 Untuk mengetahui kecepatan pelunasan dengan kreditur N = 500 badan usaha pada bank umum perlu dilakukan studi selektif dengan menggunakan metode random non-repetitive selection. Tentukan ukuran sampel yang diperlukan n sehingga dengan probabilitas P = 0,954 kesalahan rata-rata sampel tidak melebihi 3 hari, jika perkiraan percobaan menunjukkan bahwa standar deviasi s adalah 10 hari.

Keputusan. Untuk menentukan jumlah studi yang diperlukan n, kami menggunakan rumus untuk seleksi non-berulang dari Tabel. 9.4:

Di dalamnya, nilai t ditentukan dari untuk tingkat kepercayaan P = 0,954. Sama dengan 2. Nilai kuadrat rata-rata s = 10, ukuran populasi N = 500, dan kesalahan marginal rata-rata Δ x = 3. Substitusikan nilai-nilai ini ke dalam rumus, kita dapatkan:

itu. cukup membuat sampel 41 perusahaan untuk memperkirakan parameter yang diperlukan - kecepatan penyelesaian dengan kreditur.

Pengamatan selektif berlaku ketika menerapkan pengamatan terus menerus secara fisik tidak mungkin karena banyaknya data atau tidak praktis secara ekonomi. Ketidakmungkinan fisik terjadi, misalnya, ketika mempelajari arus penumpang, harga pasar, anggaran keluarga. Ketidakmanfaatan ekonomi terjadi ketika menilai kualitas barang yang terkait dengan kehancurannya, misalnya, mencicipi, menguji kekuatan batu bata, dll.

Satuan statistik yang dipilih untuk observasi adalah kerangka sampel atau contoh, dan seluruh lariknya - populasi umum(GS). Di mana jumlah unit dalam sampel menunjuk n, dan di seluruh HS - N. Sikap t/n ditelepon ukuran relatif atau berbagi sampel.

Kualitas hasil sampling tergantung pada keterwakilan sampel, yaitu, seberapa representatifnya di GS. Untuk memastikan keterwakilan sampel, perlu diperhatikan: prinsip pemilihan unit secara acak, yang mengasumsikan bahwa penyertaan unit HS dalam sampel tidak dapat dipengaruhi oleh faktor lain selain kebetulan.

Ada 4 cara pemilihan acak untuk sampel:

  1. Sebenarnya acak seleksi atau "metode lotre", ketika nomor seri ditetapkan ke nilai statistik, dimasukkan pada objek tertentu (misalnya, tong), yang kemudian dicampur dalam beberapa wadah (misalnya, dalam tas) dan dipilih secara acak. Dalam prakteknya, metode ini dilakukan dengan menggunakan pembangkit bilangan acak atau tabel matematika bilangan acak.
  2. Mekanis seleksi, yang menurut masing-masing ( T/n)-nilai populasi umum. Misalnya, jika berisi 100.000 nilai, dan Anda ingin memilih 1.000, maka setiap 100.000 / 1000 = nilai ke-100 akan masuk ke dalam sampel. Apalagi jika mereka tidak diberi peringkat, maka yang pertama dipilih secara acak dari seratus pertama, dan jumlah yang lain akan menjadi seratus lebih. Misalnya, jika unit nomor 19 adalah yang pertama, maka nomor 119 harus menjadi yang berikutnya, kemudian nomor 219, lalu nomor 319, dan seterusnya. Jika unit populasi diberi peringkat, maka #50 dipilih terlebih dahulu, kemudian #150, lalu #250, dan seterusnya.
  3. Pemilihan nilai dari array data heterogen dilakukan bertingkat(berstratifikasi), ketika populasi umum sebelumnya dibagi menjadi kelompok-kelompok homogen, yang dipilih secara acak atau mekanis.
  4. Metode pengambilan sampel khusus adalah serial seleksi, di mana tidak jumlah individu dipilih secara acak atau mekanis, tetapi seri mereka (urutan dari beberapa nomor ke beberapa berturut-turut), di mana pengamatan terus menerus dilakukan.

Kualitas pengamatan sampel juga tergantung pada jenis pengambilan sampel: ulang atau tidak berulang.
Pada pemilihan ulang nilai statistik atau deretnya yang masuk ke dalam sampel dikembalikan ke populasi umum setelah digunakan, memiliki peluang untuk masuk ke sampel baru. Pada saat yang sama, semua nilai populasi umum memiliki peluang yang sama untuk dimasukkan ke dalam sampel.
Pilihan yang tidak berulang berarti bahwa nilai statistik atau deretnya yang termasuk dalam sampel tidak dikembalikan ke populasi umum setelah digunakan, dan oleh karena itu kemungkinan untuk masuk ke sampel berikutnya meningkat untuk nilai yang tersisa dari yang terakhir.

Pengambilan sampel non-repetitif memberikan hasil yang lebih akurat, sehingga lebih sering digunakan. Namun ada situasi yang tidak bisa diterapkan (studi arus penumpang, permintaan konsumen, dll) kemudian dilakukan seleksi ulang.

Kesalahan pengambilan sampel

Himpunan sampel dapat dibentuk atas dasar tanda kuantitatif nilai statistik, serta atas dasar alternatif atau atributif. Dalam kasus pertama, karakteristik generalisasi sampel adalah nilai yang dilambangkan dengan , dan di detik - berbagi sampel kuantitas, dilambangkan w. Pada populasi umum, masing-masing: Rata-rata umum dan saham umum p.

Perbedaan - dan WR ditelepon kesalahan pengambilan sampel, yang dibagi dengan kesalahan pendaftaran dan kesalahan keterwakilan. Bagian pertama dari kesalahan pengambilan sampel terjadi karena informasi yang salah atau tidak akurat karena kesalahpahaman tentang esensi masalah, kecerobohan registrar saat mengisi kuesioner, formulir, dll. Cukup mudah untuk mendeteksi dan memperbaikinya. Bagian kedua dari kesalahan muncul dari ketidakpatuhan konstan atau spontan dengan prinsip pemilihan acak. Sulit untuk dideteksi dan dihilangkan, itu jauh lebih besar daripada yang pertama dan oleh karena itu perhatian utama diberikan padanya.

Nilai kesalahan pengambilan sampel mungkin berbeda untuk sampel yang berbeda dari populasi umum yang sama, oleh karena itu, dalam statistik ditentukan rata-rata kesalahan resampling dan non-sampling menurut rumus:

Ulang;

- tidak berulang;

Dimana Dv adalah varians sampel.

Misalnya, di sebuah pabrik dengan 1000 karyawan. 5% random non-repetitive sampling dilakukan untuk menentukan rata-rata lama kerja karyawan. Hasil pengamatan sampling diberikan dalam dua kolom pertama dari tabel berikut:

X , bertahun-tahun
(pengalaman kerja)

f , pers.
(jumlah karyawan dalam sampel)

X dan

X dan f

Di kolom ke-3, titik tengah interval X didefinisikan (sebagai setengah jumlah dari batas bawah dan batas atas interval), dan di kolom ke-4, hasil kali X dan f untuk menemukan mean sampel menggunakan aritmatika berbobot berarti rumus:

143,0/50 = 2,86 (tahun).

Hitung varians sampel tertimbang:
= 105,520/50 = 2,110.

Sekarang mari kita cari kesalahan non-pengujian ulang rata-rata:
= 0,200 (tahun).

Dari rumus untuk rata-rata kesalahan sampling, dapat dilihat bahwa kesalahan lebih kecil dengan non-repetitive sampling, dan, sebagaimana dibuktikan dalam teori probabilitas, itu terjadi dengan probabilitas 0,683 (yaitu, jika Anda mengambil 1000 sampel dari satu umum populasi, maka dalam 683 diantaranya kesalahan tidak akan melebihi rata-rata kesalahan sampling). Probabilitas (0,683) ini tidak tinggi, sehingga tidak banyak digunakan untuk perhitungan praktis di mana probabilitas yang lebih tinggi diperlukan. Untuk menentukan kesalahan pengambilan sampel dengan probabilitas lebih tinggi dari 0,683, hitung kesalahan pengambilan sampel marjinal:

Di mana t– koefisien kepercayaan, tergantung pada probabilitas dimana kesalahan sampling marginal ditentukan.

Nilai Faktor Keyakinan t dihitung untuk probabilitas yang berbeda dan tersedia dalam tabel khusus (integral Laplace), di mana kombinasi berikut ini banyak digunakan dalam statistik:

Kemungkinan 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
t 1 1,5 1,96 2 2,5 2,58 3 3,5

Diberikan tingkat probabilitas tertentu, nilai yang sesuai dengannya dipilih dari tabel t dan tentukan kesalahan sampling marginal dengan rumus.
Dalam hal ini, = 0,95 dan t= 1,96, yaitu, mereka percaya bahwa dengan probabilitas 95%, kesalahan pengambilan sampel marginal adalah 1,96 kali lebih besar dari rata-rata. Probabilitas ini (0,95) dianggap standar dan diterapkan secara default dalam perhitungan.

Dalam , kami mendefinisikan kesalahan pengambilan sampel marginal pada probabilitas standar 95% (dari pengambilan t= 1,96 untuk 95% peluang): = 1,96*0,200 = 0,392 (tahun).

Setelah menghitung kesalahan marjinal, ditemukan: interval kepercayaan dari karakteristik generalisasi dari populasi umum. Interval seperti itu untuk rata-rata umum memiliki bentuk
Artinya, rata-rata lama kerja pekerja di seluruh pabrik terletak pada kisaran 2,468 hingga 3,252 tahun.

Menentukan ukuran sampel

Saat mengembangkan program pengamatan selektif, terkadang mereka diberi nilai spesifik dari kesalahan marginal dengan tingkat probabilitas. Ukuran sampel minimum yang memberikan akurasi yang diberikan tetap tidak diketahui. Ini dapat diperoleh dari rumus kesalahan rata-rata dan marginal, tergantung pada jenis sampelnya. Jadi, dengan mensubstitusi dan ke dalam dan, menyelesaikannya sehubungan dengan ukuran sampel, kami memperoleh rumus berikut:
untuk pengambilan sampel ulang n =
tanpa pengambilan sampel ulang n = .

Selain itu, untuk nilai statistik yang bersifat kuantitatif juga harus diketahui varians sampelnya, tetapi pada awal perhitungan juga tidak diketahui. Oleh karena itu, diterima sekitar satu dari berikut cara(dalam urutan prioritas):

Saat mempelajari karakteristik non-numerik, bahkan jika tidak ada informasi perkiraan tentang pecahan sampel, itu diterima w= 0,5, yang menurut rumus dispersi bagian, sesuai dengan dispersi sampel dalam ukuran maksimum Dv = 0,5*(1-0,5) = 0,25.