Sampel mungkin. Contoh sampel yang tidak representatif

Estimasi interval peluang kejadian. Rumus untuk menghitung jumlah sampel dalam kasus metode pemilihan acak.

Untuk menentukan probabilitas kejadian yang menarik bagi kami, kami menggunakan metode pengambilan sampel: kami melakukan n percobaan independen, di mana setiap peristiwa A dapat terjadi (atau tidak terjadi) (probabilitas R terjadinya peristiwa A dalam setiap percobaan adalah konstan). Maka frekuensi relatif p* dari kejadian-kejadian TETAPI dalam serangkaian n tes diambil sebagai perkiraan titik untuk probabilitas p terjadinya suatu peristiwa TETAPI dalam tes terpisah. Dalam hal ini, nilai p* disebut berbagi sampel kejadian acara TETAPI, dan r- bagian umum .

Berdasarkan akibat wajar dari teorema limit pusat (teorema Moivre-Laplace), frekuensi relatif dari suatu peristiwa dengan ukuran sampel yang besar dapat dianggap terdistribusi normal dengan parameter M(p*)=p dan

Oleh karena itu, untuk n>30, interval kepercayaan untuk pecahan umum dapat dibangun dengan menggunakan rumus:


di mana u cr ditemukan sesuai dengan tabel fungsi Laplace, dengan mempertimbangkan probabilitas kepercayaan yang diberikan : 2Ф(u cr)=γ.

Dengan ukuran sampel kecil n≤30, kesalahan marjinal ditentukan dari tabel distribusi Student:
di mana t cr =t(k; ) dan jumlah derajat kebebasan k=n-1 probabilitas =1-γ (luas dua sisi).

Rumus tersebut valid jika pemilihan dilakukan secara acak dengan cara berulang (populasi umum tidak terbatas), jika tidak maka perlu dilakukan koreksi untuk pemilihan yang tidak berulang (tabel).

Kesalahan pengambilan sampel rata-rata untuk proporsi umum

Populasitak berujungvolume akhir N
Jenis pilihanUlangtidak berulang
Rata-rata kesalahan pengambilan sampel

Rumus untuk menghitung ukuran sampel dengan metode pemilihan acak yang tepat

Metode pemilihanRumus ukuran sampel
untuk tengahuntuk berbagi
Ulang
tidak berulang
Bagian unit w = . Akurasi = . Probabilitas =

Masalah tentang bagian umum

Untuk pertanyaan "Apakah nilai p 0 yang diberikan mencakup selang kepercayaan?" - dapat dijawab dengan menguji hipotesis statistik H 0:p=p 0 . Diasumsikan bahwa percobaan dilakukan sesuai dengan skema uji Bernoulli (independen, probabilitas p terjadinya suatu peristiwa TETAPI konstan). Dengan sampel volume n tentukan frekuensi relatif p* dari kejadian A: dimana m- jumlah kemunculan acara TETAPI dalam serangkaian n tes. Untuk menguji hipotesis H 0, digunakan statistik yang, dengan ukuran sampel yang cukup besar, memiliki distribusi normal standar (Tabel 1).
Tabel 1 - Hipotesis tentang pangsa umum

Hipotesa

H0:p=p0H 0:p 1 \u003d p 2
AsumsiSkema tes BernoulliSkema tes Bernoulli
Perkiraan sampel
Statistik K
Distribusi statistik K Standar normal N (0,1)

Contoh 1. Dengan menggunakan pengambilan sampel ulang secara acak, manajemen perusahaan melakukan survei acak terhadap 900 karyawannya. Ada 270 wanita di antara responden. Plot interval kepercayaan yang, dengan probabilitas 0,95, mencakup proporsi wanita yang sebenarnya di seluruh tim perusahaan.
Larutan. Dengan syarat, proporsi sampel perempuan adalah (frekuensi relatif perempuan di antara semua responden). Karena pemilihan diulang dan ukuran sampel besar (n=900), kesalahan pengambilan sampel marjinal ditentukan oleh rumus:

Nilai u cr ditemukan dari tabel fungsi Laplace dari relasi 2Ф(u cr)=γ, yaitu. Fungsi Laplace (Lampiran 1) mengambil nilai 0,475 pada u cr = 1,96. Oleh karena itu, kesalahan marginal dan interval kepercayaan yang diinginkan
(p – , p + ) = (0,3 – 0,18; 0,3 + 0,18) = (0,12; 0,48)
Jadi, dengan probabilitas 0,95, dapat dipastikan bahwa proporsi wanita di seluruh tim perusahaan berada dalam kisaran 0,12 hingga 0,48.

Contoh #2. Pemilik parkir mobil menganggap hari itu "beruntung" jika parkir mobil lebih dari 80% penuh. Selama tahun ini, 40 inspeksi tempat parkir telah dilakukan, 24 di antaranya “berhasil”. Dengan probabilitas 0,98, temukan interval kepercayaan untuk memperkirakan persentase sebenarnya dari hari "keberuntungan" sepanjang tahun.
Larutan. Pecahan sampel hari-hari “baik” adalah
Menurut tabel fungsi Laplace, kita menemukan nilai u cr untuk suatu
tingkat kepercayaan diri
(2.23) = 0.49, u cr = 2.33.
Mengingat pemilihan tidak berulang (yaitu, dua pemeriksaan tidak dilakukan pada hari yang sama), kami menemukan kesalahan marjinal:
dimana n=40 , N = 365 (hari). Dari sini
dan selang kepercayaan untuk pecahan umum: (p – , p + ) = (0,6 – 0,17; 0,6 + 0,17) = (0,43; 0,77)
Dengan probabilitas 0,98, dapat diharapkan bahwa proporsi hari "baik" sepanjang tahun berada dalam kisaran 0,43 hingga 0,77.

Contoh #3. Setelah memeriksa 2500 item dalam batch, mereka menemukan bahwa 400 item memiliki nilai tertinggi, tetapi n–m tidak. Berapa banyak produk yang perlu Anda periksa untuk menentukan pangsa kelas premium dengan akurasi 0,01 dengan kepastian 95%?
Kami mencari solusi sesuai dengan rumus untuk menentukan ukuran sampel untuk pemilihan ulang.

(t) = /2 = 0.95/2 = 0.475 dan menurut tabel Laplace nilai ini sesuai dengan t=1.96
Fraksi sampel w = 0,16; kesalahan pengambilan sampel = 0,01

Contoh #4. Sebuah batch produk diterima jika probabilitas bahwa produk tersebut akan memenuhi standar setidaknya 0,97. Di antara 200 produk yang dipilih secara acak dari lot yang diuji, 193 produk ditemukan memenuhi standar. Apakah mungkin untuk menerima batch pada tingkat signifikansi =0,02?
Larutan. Kami merumuskan hipotesis utama dan alternatif.
H 0: p \u003d p 0 \u003d 0,97 - bagian umum yang tidak diketahui p sama dengan nilai yang ditentukan p 0 = 0,97. Sehubungan dengan kondisi - probabilitas bahwa bagian dari lot yang diuji akan sesuai dengan standar adalah 0,97; itu. batch produk dapat diterima.
H1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Nilai statistik yang diamati K(tabel) hitung untuk nilai yang diberikan p 0 =0,97, n=200, m=193


Nilai kritis ditemukan dari tabel fungsi Laplace dari persamaan


Berdasarkan kondisi =0,02, maka F(Kcr)=0,48 dan Kcr=2,05. Daerah kritis adalah kidal, mis. adalah interval (-∞;-K kp)= (-∞;-2.05). Nilai pengamatan Kobs = -0,415 tidak termasuk ke dalam daerah kritis, oleh karena itu pada tingkat signifikansi ini tidak ada alasan untuk menolak hipotesis utama. Batch produk dapat diterima.

Contoh nomor 5. Dua pabrik memproduksi jenis suku cadang yang sama. Untuk menilai kualitasnya, sampel diambil dari produk pabrik-pabrik ini dan diperoleh hasil sebagai berikut. Di antara 200 produk yang dipilih dari pabrik pertama, 20 rusak, dan di antara 300 produk pabrik kedua, 15 rusak.
Pada tingkat signifikansi 0,025, cari tahu apakah ada perbedaan yang signifikan dalam kualitas suku cadang yang diproduksi oleh pabrik-pabrik tersebut.

Berdasarkan kondisi =0,025, maka F(Kcr)=0,4875 dan Kcr=2,24. Dengan alternatif dua sisi, luas nilai yang dapat diterima memiliki bentuk (-2.24; 2.24). Nilai yang diamati Kobs = 2,15 termasuk dalam interval ini, yaitu. pada tingkat signifikansi ini, tidak ada alasan untuk menolak hipotesis utama. Pabrik menghasilkan produk dengan kualitas yang sama.

Rencana:

1. Masalah statistik matematika.

2. Jenis sampel.

3. Metode seleksi.

4. Distribusi statistik sampel.

5. Fungsi distribusi empiris.

6. poligon dan histogram.

7. Karakteristik numerik dari seri variasi.

8. Estimasi statistik parameter distribusi.

9. Estimasi interval parameter distribusi.

1. Tugas dan metode statistik matematika

Statistik matematika adalah cabang matematika yang dikhususkan untuk metode pengumpulan, analisis, dan pemrosesan hasil data pengamatan statistik untuk tujuan ilmiah dan praktis.

Biarkan diperlukan untuk mempelajari satu set objek homogen sehubungan dengan beberapa fitur kualitatif atau kuantitatif yang mencirikan objek ini. Misalnya, jika ada sekumpulan bagian, maka standar bagian dapat berfungsi sebagai tanda kualitatif, dan ukuran bagian yang terkontrol dapat berfungsi sebagai tanda kuantitatif.

Terkadang studi berkelanjutan dilakukan, mis. memeriksa setiap objek sehubungan dengan fitur yang diinginkan. Dalam praktiknya, survei yang komprehensif jarang digunakan. Misalnya, jika populasi berisi jumlah objek yang sangat besar, maka secara fisik tidak mungkin untuk melakukan survei terus menerus. Jika survei objek dikaitkan dengan kehancurannya atau membutuhkan biaya material yang besar, maka tidak masuk akal untuk melakukan survei lengkap. Dalam kasus seperti itu, sejumlah objek (kumpulan sampel) yang terbatas dipilih secara acak dari seluruh populasi dan menjadi sasaran studi mereka.

Tugas utama statistik matematika adalah mempelajari seluruh populasi berdasarkan data sampel, tergantung pada tujuannya, yaitu. studi tentang sifat-sifat probabilistik populasi: hukum distribusi, karakteristik numerik, dll. untuk membuat keputusan manajerial dalam kondisi ketidakpastian.

2. Jenis sampel

Populasi adalah himpunan objek dari mana sampel dibuat.

Populasi sampel (sampel) adalah kumpulan objek yang dipilih secara acak.

Ukuran populasi adalah jumlah objek dalam koleksi ini. Volume populasi umum dilambangkan N, selektif - n.

Contoh:

Jika dari 1000 bagian 100 bagian dipilih untuk diperiksa, maka volume populasi umum N = 1000, dan ukuran sampel n = 100.

Pengambilan sampel dapat dilakukan dengan dua cara: setelah objek dipilih dan diamati di atasnya, dapat dikembalikan atau tidak dikembalikan ke populasi umum. Itu. Sampel dibagi menjadi berulang dan tidak berulang.

Ulangditelepon contoh, di mana objek yang dipilih (sebelum memilih yang berikutnya) dikembalikan ke populasi umum.

Tidak berulangditelepon contoh, di mana objek yang dipilih tidak dikembalikan ke populasi umum.

Dalam prakteknya, pemilihan acak non-repetitif biasanya digunakan.

Agar data sampel dapat menilai dengan cukup yakin tentang fitur yang menarik dalam populasi umum, objek sampel harus mewakilinya dengan benar. Sampel harus benar-benar mewakili proporsi populasi. Sampel harus perwakilan (representatif).

Berdasarkan hukum bilangan besar, dapat dikatakan bahwa sampel akan representatif jika dilakukan secara acak.

Jika ukuran populasi umum cukup besar, dan sampel hanya sebagian kecil dari populasi ini, maka perbedaan antara sampel berulang dan tidak berulang dihapus; dalam kasus yang membatasi, ketika populasi umum yang tidak terbatas dipertimbangkan, dan sampel memiliki ukuran yang terbatas, perbedaan ini menghilang.

Contoh:

Dalam jurnal Amerika Literary Review, dengan menggunakan metode statistik, sebuah studi dibuat tentang ramalan mengenai hasil pemilihan presiden AS yang akan datang pada tahun 1936. Pelamar untuk posting ini adalah F.D. Roosevelt dan A.M. Landon. Buku referensi pelanggan telepon diambil sebagai sumber untuk populasi umum orang Amerika yang diteliti. Dari jumlah tersebut, 4 juta alamat dipilih secara acak, di mana editor majalah mengirimkan kartu pos yang meminta mereka untuk mengekspresikan sikap mereka terhadap calon presiden. Setelah memproses hasil jajak pendapat, majalah itu menerbitkan perkiraan sosiologis bahwa Landon akan memenangkan pemilihan mendatang dengan margin besar. Dan ... saya salah: Roosevelt menang.
Contoh ini dapat dilihat sebagai contoh sampel yang tidak representatif. Faktanya adalah bahwa di Amerika Serikat pada paruh pertama abad kedua puluh, hanya sebagian besar penduduk, yang mendukung pandangan Landon, memiliki telepon.

3. Metode pemilihan

Dalam prakteknya, berbagai metode seleksi digunakan, yang dapat dibagi menjadi 2 jenis:

1. Seleksi tidak mengharuskan pembagian populasi menjadi beberapa bagian (a) acak sederhana tanpa pengulangan; b) pengulangan acak sederhana).

2. Seleksi, dimana populasi umum dibagi menjadi beberapa bagian. (sebuah) pilihan khas; b) seleksi mekanis; di) serial pilihan).

Acak sederhana panggil ini pilihan, di mana objek diekstraksi satu per satu dari seluruh populasi umum (secara acak).

Khasditelepon pilihan, di mana objek dipilih bukan dari seluruh populasi umum, tetapi dari masing-masing bagian "khas"-nya. Misalnya, jika suatu suku cadang dibuat pada beberapa mesin, maka pemilihan tidak dilakukan dari seluruh rangkaian suku cadang yang diproduksi oleh semua mesin, tetapi dari produk masing-masing mesin secara terpisah. Seleksi semacam itu digunakan ketika sifat yang diperiksa berfluktuasi secara nyata di berbagai bagian "khas" dari populasi umum.

Mekanisditelepon pilihan, di mana populasi umum "secara mekanis" dibagi menjadi kelompok sebanyak objek yang akan dimasukkan dalam sampel, dan satu objek dipilih dari setiap kelompok. Misalnya, jika Anda perlu memilih 20% bagian yang dibuat oleh mesin, maka setiap bagian ke-5 dipilih; jika diperlukan untuk memilih 5% dari bagian - setiap tanggal 20, dll. Terkadang pemilihan seperti itu mungkin tidak memastikan sampel yang representatif (jika setiap rol putar ke-20 dipilih, dan pemotong segera diganti setelah pemilihan, maka semua rol yang diputar dengan pemotong tumpul akan dipilih).

Serialditelepon pilihan, di mana objek dipilih dari populasi umum tidak satu per satu, tetapi dalam "seri", yang menjadi sasaran survei berkelanjutan. Misalnya, jika produk dibuat oleh sekelompok besar mesin otomatis, maka produk dari beberapa mesin saja yang akan menjalani pemeriksaan terus-menerus.

Dalam praktiknya, seleksi gabungan sering digunakan, di mana metode di atas digabungkan.

4. Distribusi statistik sampel

Biarkan sampel diambil dari populasi umum, dan nilainya x 1-diamati sekali, x 2 -n 2 kali, ... x k - n k kali. n= n 1 +n 2 +...+n k adalah ukuran sampel. Nilai yang diamatiditelepon pilihan, dan urutannya adalah varian yang ditulis dalam urutan menaik - seri variasi. Jumlah pengamatanditelepon frekuensi (frekuensi absolut), dan hubungannya dengan ukuran sampel- frekuensi relatif atau probabilitas statistik.

Jika jumlah opsi besar atau sampel dibuat dari populasi umum kontinu, maka deret variasi tidak disusun oleh nilai poin individu, tetapi oleh interval nilai populasi umum. Rangkaian seperti itu disebut selang. Panjang interval harus sama.

Distribusi statistik sampel disebut daftar opsi dan frekuensi yang sesuai atau frekuensi relatif.

Distribusi statistik juga dapat ditentukan sebagai urutan interval dan frekuensi yang sesuai (jumlah frekuensi yang termasuk dalam interval nilai ini)

Deret frekuensi variasi titik dapat direpresentasikan dengan tabel:

x saya
x 1
x2

x k
dan aku
n 1
n 2

nk

Demikian pula, seseorang dapat mewakili serangkaian variasi titik frekuensi relatif.

Dan:

Contoh:

Jumlah huruf dalam beberapa teks X ternyata sama dengan 1000. Huruf pertama adalah "i", yang kedua - huruf "i", yang ketiga - huruf "a", yang keempat - "u". Kemudian muncul huruf "o", "e", "y", "e", "s".

Mari kita tuliskan tempat-tempat yang mereka tempati dalam alfabet, masing-masing, kita memiliki: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Setelah mengurutkan angka-angka ini dalam urutan menaik, kami mendapatkan seri variasi: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Frekuensi kemunculan huruf dalam teks: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7," aku "- 22.

Kami menyusun rangkaian frekuensi variasi titik:

Contoh:

Distribusi frekuensi pengambilan sampel volume ditentukan n = 20.

Buatlah deret variasi titik dari frekuensi relatif.

x saya

2

6

12

dan aku

3

10

7

Larutan:

Cari frekuensi relatif:


x saya

2

6

12

aku

0,15

0,5

0,35

Saat membangun distribusi interval, ada aturan untuk memilih jumlah interval atau ukuran setiap interval. Kriteria di sini adalah rasio optimal: dengan peningkatan jumlah interval, keterwakilan meningkat, tetapi jumlah data dan waktu untuk memprosesnya meningkat. Perbedaan x max - x min antara varian nilai terbesar dan terkecil disebut dalam skala besar sampel.

Untuk menghitung jumlah interval k biasanya menerapkan rumus empiris Sturgess (menyiratkan pembulatan ke bilangan bulat terdekat yang sesuai): k = 1 + 3,322 log n .

Dengan demikian, nilai setiap interval h dapat dihitung dengan menggunakan rumus:

5. Fungsi distribusi empiris

Pertimbangkan beberapa sampel dari populasi umum. Biarkan distribusi statistik frekuensi atribut kuantitatif X diketahui. Mari kita perkenalkan notasi: n xadalah jumlah pengamatan di mana nilai fitur kurang dari x diamati; n adalah jumlah total pengamatan (ukuran sampel). Frekuensi kejadian relatif X<х равна nx /n . Jika x berubah, maka frekuensi relatif juga berubah, yaitu Frekuensi relatifn x /nadalah fungsi dari x. Karena itu ditemukan secara empiris, itu disebut empiris.

Fungsi distribusi empiris (fungsi distribusi sampel) panggil fungsinya, yang menentukan untuk setiap x frekuensi relatif dari peristiwa X<х.


di mana jumlah opsi kurang dari x,

n - ukuran sampel.

Berbeda dengan fungsi distribusi empiris sampel, fungsi distribusi F(x) dari populasi disebut fungsi distribusi teoritis.

Perbedaan antara fungsi distribusi empiris dan teoritis adalah bahwa fungsi teoritis F (x) menentukan probabilitas suatu peristiwa X F*(x) cenderung dalam probabilitas ke probabilitas F (x) dari peristiwa ini. Artinya, untuk n besar F*(x) dan F(x) sedikit berbeda satu sama lain.

Itu. disarankan untuk menggunakan fungsi distribusi empiris sampel untuk representasi perkiraan fungsi distribusi teoritis (integral) dari populasi umum.

F*(x) memiliki semua properti F(x).

1. Nilai F*(x) tergolong dalam interval.

2. F*(x) adalah fungsi tak turun.

3. Jika adalah varian terkecil, maka F*(x) = 0, pada x < x1; jika x k adalah varian terbesar, maka F*(x) = 1, untuk x > x k .

Itu. F*(x) berfungsi untuk memperkirakan F(x).

Jika sampel diberikan oleh deret variasi, maka fungsi empiris memiliki bentuk:

Grafik fungsi empiris disebut kumulatif.

Contoh:

Plot fungsi empiris pada distribusi sampel yang diberikan.


Larutan:

Ukuran sampel n = 12 + 18 +30 = 60. Opsi terkecil adalah 2, yaitu. di x < 2. Peristiwa X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0.2 di 2 < x < 6. Acara X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Karena x=10 adalah pilihan terbesar, maka F*(x) = 1 pada x>10. Fungsi empiris yang diinginkan memiliki bentuk:

Mengumpul:


Kumulasi memungkinkan untuk memahami informasi yang disajikan secara grafis, misalnya, untuk menjawab pertanyaan: “Tentukan jumlah pengamatan yang nilai atributnya kurang dari 6 atau tidak kurang dari 6. F*(6) = 0.2 » Maka jumlah observasi dimana nilai fitur yang diamati kurang dari 6 adalah 0.2* n \u003d 0.2 * 60 \u003d 12. Jumlah pengamatan di mana nilai fitur yang diamati tidak kurang dari 6 adalah (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Jika deret variasi interval diberikan, maka untuk mengkompilasi fungsi distribusi empiris, titik tengah interval ditemukan dan fungsi distribusi empiris diperoleh darinya sama dengan deret variasi titik.

6. Poligon dan histogram

Untuk kejelasan, berbagai grafik distribusi statistik dibangun: polinomial dan histogram

Poligon frekuensi- ini adalah garis putus-putus, segmen yang menghubungkan titik-titik ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), di mana opsinya, adalah frekuensi yang sesuai dengannya.

Poligon frekuensi relatif - ini adalah garis putus-putus, segmen-segmen yang menghubungkan titik-titik ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), di mana x i adalah opsi, w i adalah frekuensi relatif yang sesuai dengannya.

Contoh:

Plot polinomial frekuensi relatif di atas distribusi sampel yang diberikan:

Larutan:

Dalam kasus fitur kontinu, disarankan untuk membuat histogram, yang intervalnya, yang berisi semua nilai yang diamati dari fitur, dibagi menjadi beberapa interval parsial dengan panjang h dan untuk setiap interval parsial n i ditemukan - jumlah frekuensi varian yang termasuk dalam interval ke-i. (Misalnya, ketika mengukur tinggi atau berat badan seseorang, kita berhadapan dengan tanda kontinu).

Histogram frekuensi- ini adalah gambar berundak, terdiri dari persegi panjang, yang alasnya adalah interval parsial dengan panjang h, dan tingginya sama dengan rasio (kerapatan frekuensi).

Kotak Persegi panjang parsial ke-i sama dengan jumlah frekuensi varian interval ke-i, yaitu. area histogram frekuensi sama dengan jumlah semua frekuensi, mis. ukuran sampel.

Contoh:

Hasil perubahan tegangan (dalam volt) dalam jaringan listrik diberikan. Susun rangkaian variasi, bangun poligon dan histogram frekuensi jika nilai tegangannya sebagai berikut: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Larutan:

Mari kita buat serangkaian variasi. Kami memiliki n = 20, x min =212, x maks =232.

Mari gunakan rumus Sturgess untuk menghitung jumlah interval.

Deret frekuensi variasi interval memiliki bentuk:


Kepadatan Frekuensi

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Mari kita buat histogram frekuensi:

Mari kita buat poligon frekuensi dengan terlebih dahulu mencari titik tengah interval:


Histogram frekuensi relatif sebut gambar langkah yang terdiri dari persegi panjang, yang alasnya adalah interval parsial dengan panjang h, dan tingginya sama dengan rasio w saya/ jam (kepadatan frekuensi relatif).

Kotak Persegi panjang parsial ke-i sama dengan frekuensi relatif dari varian yang jatuh ke dalam interval ke-i. Itu. luas histogram frekuensi relatif sama dengan jumlah semua frekuensi relatif, mis. satuan.

7. Karakteristik numerik dari seri variasi

Pertimbangkan karakteristik utama dari populasi umum dan sampel.

Sekunder umum disebut rata-rata aritmatika dari nilai-nilai fitur dari populasi umum.

Untuk nilai yang berbeda x 1 , x 2 , x 3 , …, x n . tanda populasi umum volume N kita miliki:

Jika nilai atribut memiliki frekuensi yang sesuai N 1 +N 2 +…+N k =N , maka


sampel berarti disebut mean aritmatika dari nilai-nilai fitur dari populasi sampel.

Jika nilai atribut memiliki frekuensi yang sesuai n 1 +n 2 +…+n k = n, maka


Contoh:

Hitung mean sampel untuk sampel: x 1 = 51,12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52,93; x 5 \u003d 51.1; x 6 \u003d 52,98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Larutan:

Varians umum disebut rata-rata aritmatika dari deviasi kuadrat dari nilai-nilai karakteristik X dari populasi umum dari rata-rata umum.

Untuk nilai yang berbeda x 1 , x 2 , x 3 , …, x N dari tanda populasi volume N kita miliki:

Jika nilai atribut memiliki frekuensi yang sesuai N 1 +N 2 +…+N k =N , maka

Standar deviasi umum (standar) disebut akar kuadrat dari varians umum

Varians sampel disebut rata-rata aritmatika dari deviasi kuadrat dari nilai-nilai yang diamati dari fitur dari nilai rata-rata.

Untuk nilai yang berbeda x 1 , x 2 , x 3 , ..., x n dari tanda populasi sampel volume n kita miliki:


Jika nilai atribut memiliki frekuensi yang sesuai n 1 +n 2 +…+n k = n, maka


Standar deviasi sampel (standar) disebut akar kuadrat dari varians sampel.


Contoh:

Himpunan sampling diberikan oleh tabel distribusi. Temukan varians sampel.


Larutan:

Dalil: Varians sama dengan selisih antara rerata kuadrat nilai fitur dan kuadrat rerata total.

Contoh:

Temukan varians untuk distribusi ini.



Larutan:

8. Perkiraan statistik parameter distribusi

Biarkan populasi umum dipelajari oleh beberapa sampel. Dalam hal ini, dimungkinkan untuk hanya memperoleh nilai perkiraan dari parameter Q yang tidak diketahui, yang berfungsi sebagai perkiraannya. Jelas bahwa perkiraan dapat bervariasi dari satu sampel ke sampel lainnya.

Evaluasi statistikQ* parameter yang tidak diketahui dari distribusi teoretis disebut fungsi f, yang tergantung pada nilai sampel yang diamati. Tugas estimasi statistik parameter yang tidak diketahui dari sampel adalah untuk membangun fungsi seperti itu dari data pengamatan statistik yang tersedia yang akan memberikan nilai perkiraan paling akurat dari nilai nyata, yang tidak diketahui oleh peneliti, dari parameter ini.

Perkiraan statistik dibagi menjadi titik dan interval, tergantung pada cara mereka disediakan (angka atau interval).

Estimasi titik disebut estimasi statistik. parameter Q dari distribusi teoritis ditentukan oleh satu nilai parameter Q *=f (x 1 , x 2 , ..., x n), dimanax 1 , x 2 , ...,xn- hasil pengamatan empiris pada atribut kuantitatif X dari sampel tertentu.

Estimasi parameter tersebut diperoleh dari sampel yang berbeda paling sering berbeda satu sama lain. Selisih mutlak /Q *-Q / disebut kesalahan pengambilan sampel (estimasi).

Agar estimasi statistik memberikan hasil yang andal tentang parameter yang diestimasi, parameter tersebut harus tidak bias, efisien, dan konsisten.

Estimasi Poin, harapan matematis yang sama (tidak sama) dengan parameter yang diestimasi, disebut tidak tergeser (bergeser). M(Q *)=Q .

Selisih M( Q *)-Q disebut bias atau kesalahan sistematis. Untuk estimasi tak bias, kesalahan sistematisnya adalah 0.

efisien penilaian Q *, yang, untuk ukuran sampel tertentu n, memiliki varians terkecil yang mungkin: D min(n = konstan). Penduga efektif memiliki spread paling kecil dibandingkan dengan penduga tak bias dan konsisten lainnya.

Kayadisebut statistik seperti itu penilaian Q *, dimana untuk ncenderung dalam probabilitas ke parameter yang diestimasi Q , yaitu dengan peningkatan ukuran sampel n perkiraan cenderung dalam probabilitas ke nilai sebenarnya dari parameter Q.

Persyaratan konsistensi konsisten dengan hukum bilangan besar: semakin banyak informasi awal tentang objek yang diteliti, semakin akurat hasilnya. Jika ukuran sampel kecil, maka estimasi titik parameter dapat menyebabkan kesalahan serius.

Setiap sampel (volumen) dapat dianggap sebagai himpunan terurutx 1 , x 2 , ...,xn variabel acak independen yang terdistribusi identik.

Sampel berarti untuk sampel volume yang berbeda n dari populasi yang sama akan berbeda. Artinya, mean sampel dapat dianggap sebagai variabel acak, yang berarti bahwa kita dapat berbicara tentang distribusi mean sampel dan karakteristik numeriknya.

Rata-rata sampel memenuhi semua persyaratan yang dikenakan pada perkiraan statistik, yaitu memberikan perkiraan rata-rata populasi yang tidak bias, efisien, dan konsisten.

Dapat dibuktikan bahwa. Dengan demikian, varians sampel adalah estimasi bias dari varians umum, memberikan nilai yang diremehkan. Artinya, dengan ukuran sampel yang kecil akan memberikan kesalahan sistematis. Untuk perkiraan yang tidak bias dan konsisten, cukup dengan mengambil kuantitasnya, yang disebut varian terkoreksi. yaitu

Dalam praktiknya, untuk memperkirakan varians umum, varians terkoreksi digunakan ketika: n < 30. Dalam kasus lain ( n >30) penyimpangan dari hampir tidak terlihat. Oleh karena itu, untuk nilai besar n kesalahan bias dapat diabaikan.

Kita juga dapat membuktikan bahwa frekuensi relatifn i / n adalah estimasi probabilitas yang tidak bias dan konsisten P(X=x i ). Fungsi distribusi empiris F*(x ) adalah estimasi yang tidak bias dan konsisten dari fungsi distribusi teoritis F(x)=P(X< x ).

Contoh:

Temukan estimasi tak bias dari mean dan varians dari tabel sampel.

x saya
dan aku

Larutan:

Ukuran sampel n=20.

Estimasi tak bias dari ekspektasi matematis adalah mean sampel.


Untuk menghitung estimasi varians yang tidak bias, pertama-tama kita temukan varians sampel:

Sekarang mari kita cari taksiran tak bias:

9. Estimasi interval parameter distribusi

Interval adalah perkiraan statistik yang ditentukan oleh dua nilai numerik - ujung interval yang dipelajari.

Nomor> 0, dimana | Q - Q*|< , mencirikan keakuratan estimasi interval.

Tepercayaditelepon selang , yang dengan probabilitas tertentumencakup nilai parameter yang tidak diketahui Q . Melengkapi interval kepercayaan ke himpunan semua nilai parameter yang mungkin Q ditelepon daerah kritis. Jika daerah kritis terletak hanya pada satu sisi selang kepercayaan, maka selang kepercayaan disebut sepihak: sisi kiri, jika daerah kritis hanya ada di sebelah kiri, dan Pengguna tangan kanan kecuali di sebelah kanan. Jika tidak, interval kepercayaan disebut bilateral.

Keandalan, atau tingkat kepercayaan, Perkiraan Q (menggunakan Q *) sebutkan peluang terpenuhinya pertidaksamaan berikut: | Q - Q*|< .

Paling sering, probabilitas kepercayaan ditetapkan terlebih dahulu (0,95; 0,99; 0,999) dan persyaratannya harus mendekati satu.

Kemungkinanditelepon probabilitas kesalahan, atau tingkat signifikansi.

Biarkan | Q - Q*|< , kemudian. Ini berarti bahwa dengan probabilitasdapat dikatakan bahwa nilai sebenarnya dari parameter Q termasuk dalam interval. Semakin kecil deviasi, semakin akurat perkiraannya.

Batas-batas (ujung) dari selang kepercayaan disebut batas kepercayaan, atau batas kritis.

Nilai batas interval kepercayaan tergantung pada hukum distribusi parameter Q*.

Nilai penyimpangansetengah lebar selang kepercayaan disebut akurasi penilaian.

Metode untuk membangun interval kepercayaan pertama kali dikembangkan oleh ahli statistik Amerika Y. Neumann. Akurasi Estimasi, probabilitas kepercayaan dan ukuran sampel n saling berhubungan. Karena itu, mengetahui nilai spesifik dari dua kuantitas, Anda selalu dapat menghitung yang ketiga.

Menemukan interval kepercayaan untuk memperkirakan ekspektasi matematis dari distribusi normal jika standar deviasi diketahui.

Biarkan sampel dibuat dari populasi umum, tunduk pada hukum distribusi normal. Biarkan standar deviasi umum diketahui, tetapi ekspektasi matematis dari distribusi teoretis tidak diketahui sebuah().

Rumus berikut ini valid:

Itu. sesuai dengan nilai deviasi yang ditentukanadalah mungkin untuk menemukan dengan probabilitas berapa rata-rata umum yang tidak diketahui milik interval. Dan sebaliknya. Hal ini dapat dilihat dari rumus bahwa dengan peningkatan ukuran sampel dan nilai probabilitas kepercayaan yang tetap, nilai- berkurang, mis. akurasi perkiraan meningkat. Dengan peningkatan keandalan (probabilitas kepercayaan), nilai-meningkat, mis. akurasi perkiraan menurun.

Contoh:

Sebagai hasil dari pengujian, diperoleh nilai-nilai berikut -25, 34, -20, 10, 21. Diketahui bahwa mereka mematuhi hukum distribusi normal dengan standar deviasi 2. Temukan perkiraan a* untuk harapan matematis a. Plot interval kepercayaan 90% untuk itu.

Larutan:

Mari kita cari taksiran yang tidak bias

Kemudian


Interval kepercayaan untuk a memiliki bentuk: 4 - 1,47< sebuah< 4+ 1,47 или 2,53 < a < 5, 47

Menemukan interval kepercayaan untuk memperkirakan ekspektasi matematis dari distribusi normal jika standar deviasi tidak diketahui.

Diketahui bahwa populasi umum tunduk pada hukum distribusi normal, di mana a dan. Akurasi Interval Keyakinan Menutupi dengan Keandalannilai sebenarnya dari parameter a, dalam hal ini, dihitung dengan rumus:

, di mana n adalah ukuran sampel, , - Koefisien siswa (harus ditemukan dari nilai yang diberikan n dan dari tabel "Titik kritis distribusi Siswa").

Contoh:

Sebagai hasil dari pengujian, nilai-nilai berikut diperoleh -35, -32, -26, -35, -30, -17. Diketahui bahwa mereka mematuhi hukum distribusi normal. Carilah selang kepercayaan untuk rata-rata populasi a dengan tingkat kepercayaan 0,9.

Larutan:

Mari kita cari taksiran yang tidak bias.

Ayo temukan.

Kemudian

Interval kepercayaan akan berbentuk(-29.2 - 5.62; -29.2 + 5.62) atau (-34.82; -23.58).

Menemukan selang kepercayaan untuk varians dan standar deviasi dari distribusi normal

Biarkan sampel volume acak diambil dari beberapa himpunan nilai umum yang didistribusikan menurut hukum normaln < 30 yang varian sampelnya dihitung: biasdan dikoreksi s 2. Kemudian untuk menemukan perkiraan interval dengan keandalan yang diberikanuntuk dispersi umumDsimpangan baku umumrumus berikut digunakan.


atau,

Nilai- temukan menggunakan tabel nilai titik kritisdistribusi Pearson.

Interval kepercayaan untuk varians ditemukan dari pertidaksamaan ini dengan mengkuadratkan semua bagian pertidaksamaan.

Contoh:

Kualitas 15 baut diperiksa. Dengan asumsi bahwa kesalahan dalam pembuatannya tunduk pada hukum distribusi normal, dan standar deviasi sampelsama dengan 5 mm, tentukan dengan keandalaninterval kepercayaan untuk parameter yang tidak diketahui

Kami mewakili batas-batas interval sebagai ketidaksetaraan ganda:

Ujung interval kepercayaan dua sisi untuk varians dapat ditentukan tanpa melakukan aritmatika untuk tingkat kepercayaan dan ukuran sampel tertentu menggunakan tabel yang sesuai (Batas interval kepercayaan untuk varians tergantung pada jumlah derajat kebebasan dan keandalan) . Untuk melakukan ini, ujung interval yang diperoleh dari tabel dikalikan dengan varian terkoreksi s 2.

Contoh:

Mari kita selesaikan masalah sebelumnya dengan cara yang berbeda.

Larutan:

Mari kita cari varians yang dikoreksi:

Menurut tabel "Batas interval kepercayaan untuk varians tergantung pada jumlah derajat kebebasan dan keandalan", kami menemukan batas-batas interval kepercayaan untuk varians dik=14 dan: batas bawah 0,513 dan batas atas 2,354.

Kalikan batas yang diperoleh dengans 2 dan ekstrak akarnya (karena kita membutuhkan interval kepercayaan bukan untuk varians, tetapi untuk standar deviasi).

Seperti yang dapat dilihat dari contoh, nilai interval kepercayaan tergantung pada metode konstruksinya dan memberikan hasil yang dekat tetapi berbeda.

Untuk sampel berukuran cukup besar (n>30) batas-batas selang kepercayaan untuk simpangan baku umum dapat ditentukan dengan rumus: - beberapa nomor, yang ditabulasi dan diberikan dalam tabel referensi yang sesuai.

Jika 1- q<1, то формула имеет вид:

Contoh:

Mari kita selesaikan masalah sebelumnya dengan cara ketiga.

Larutan:

Sebelumnya ditemukans= 5,17. q(0,95; 15) = 0,46 - kami menemukan menurut tabel.

Kemudian:

Sering terjadi bahwa perlu untuk menganalisis fenomena sosial tertentu dan memperoleh informasi tentangnya. Tugas seperti itu sering muncul dalam statistik dan penelitian statistik. Verifikasi atas fenomena sosial yang terdefinisikan secara penuh seringkali tidak mungkin dilakukan. Misalnya, bagaimana cara mengetahui pendapat penduduk atau semua penduduk kota tertentu tentang masalah apa pun? Bertanya kepada semua orang hampir tidak mungkin dan sangat melelahkan. Dalam kasus seperti itu, kita membutuhkan sampel. Inilah persisnya konsep yang menjadi dasar hampir semua penelitian dan analisis.

Apa itu sampel?

Ketika menganalisis fenomena sosial tertentu, perlu untuk mendapatkan informasi tentangnya. Jika kita mengambil studi apapun, kita dapat melihat bahwa tidak setiap unit dari totalitas objek studi tunduk pada penelitian dan analisis. Hanya bagian tertentu dari totalitas ini yang diperhitungkan. Proses ini adalah sampling: ketika hanya unit tertentu dari himpunan yang diperiksa.

Tentu saja, banyak tergantung pada jenis sampelnya. Tetapi ada juga aturan dasar. Yang utama mengatakan bahwa pemilihan dari populasi harus benar-benar acak. Unit populasi yang akan digunakan tidak boleh dipilih karena kriteria apa pun. Secara kasar, jika perlu mengumpulkan populasi dari populasi kota tertentu dan hanya memilih laki-laki, maka akan terjadi kesalahan dalam penelitian, karena pemilihan tidak dilakukan secara acak, tetapi dipilih berdasarkan jenis kelamin. Hampir semua metode pengambilan sampel didasarkan pada aturan ini.

Aturan pengambilan sampel

Agar set yang dipilih untuk mencerminkan kualitas utama dari seluruh fenomena, itu harus dibangun sesuai dengan hukum tertentu, di mana perhatian utama harus diberikan pada kategori berikut:

  • sampel (populasi sampel);
  • populasi umum;
  • keterwakilan;
  • kesalahan keterwakilan;
  • satuan penduduk;
  • metode pengambilan sampel.

Ciri-ciri pengamatan selektif dan pengambilan sampel adalah sebagai berikut:

  1. Semua hasil yang diperoleh didasarkan pada hukum dan aturan matematika, yaitu, dengan melakukan studi yang benar dan dengan perhitungan yang benar, hasilnya tidak akan terdistorsi secara subjektif.
  2. Itu memungkinkan untuk mendapatkan hasil lebih cepat dan dengan lebih sedikit waktu dan sumber daya, mempelajari bukan seluruh rangkaian acara, tetapi hanya sebagian dari mereka.
  3. Ini dapat digunakan untuk mempelajari berbagai objek: dari masalah tertentu, misalnya, usia, jenis kelamin kelompok yang menarik bagi kami, hingga studi tentang opini publik atau tingkat dukungan material dari populasi.

Pengamatan selektif

Selektif - ini adalah pengamatan statistik di mana tidak seluruh populasi yang diteliti menjadi sasaran penelitian, tetapi hanya sebagian darinya, dipilih dengan cara tertentu, dan hasil studi dari bagian ini berlaku untuk seluruh populasi. Bagian ini disebut kerangka sampling. Ini adalah satu-satunya cara untuk mempelajari sejumlah besar objek studi.

Tetapi pengamatan selektif hanya dapat digunakan dalam kasus-kasus di mana perlu untuk mempelajari hanya sekelompok kecil unit. Misalnya, ketika mempelajari rasio pria dan wanita di dunia, observasi selektif akan digunakan. Untuk alasan yang jelas, tidak mungkin untuk memperhitungkan setiap penghuni planet kita.

Tetapi dengan studi yang sama, tetapi tidak dari semua penduduk bumi, tetapi dari 2 kelas "A" tertentu di sekolah tertentu, kota tertentu, negara tertentu, pengamatan selektif dapat ditiadakan. Bagaimanapun, sangat mungkin untuk menganalisis seluruh susunan objek penelitian. Penting untuk menghitung anak laki-laki dan perempuan di kelas ini - itu akan menjadi rasio.

Sampel dan populasi

Ini sebenarnya tidak sesulit kedengarannya. Dalam setiap objek penelitian terdapat dua sistem yaitu populasi umum dan sampel. Apa itu? Semua unit milik jenderal. Dan untuk sampel - unit-unit dari total populasi yang diambil untuk sampel. Jika semuanya dilakukan dengan benar, maka bagian yang dipilih akan menjadi tata letak yang dikurangi dari seluruh populasi (umum).

Jika kita berbicara tentang populasi umum, maka kita hanya dapat membedakan dua varietasnya: populasi umum pasti dan tidak terbatas. Tergantung pada apakah jumlah unit sistem yang diberikan diketahui atau tidak. Jika suatu populasi tertentu, maka pengambilan sampel akan lebih mudah karena diketahui berapa persen dari jumlah keseluruhan unit yang akan dijadikan sampel.

Momen ini sangat diperlukan dalam penelitian. Misalnya, jika perlu untuk menyelidiki persentase produk gula-gula berkualitas rendah di pabrik tertentu. Asumsikan bahwa populasi telah ditentukan. Diketahui secara pasti bahwa perusahaan ini menghasilkan 1000 produk gula-gula per tahun. Jika kita membuat sampel 100 produk gula-gula acak dari ribuan ini dan mengirimkannya untuk diperiksa, maka kesalahannya akan minimal. Secara kasar, 10% dari semua produk menjadi subjek penelitian, dan berdasarkan hasil, dengan mempertimbangkan kesalahan keterwakilan, kita dapat berbicara tentang kualitas semua produk yang buruk.

Dan jika Anda mengambil sampel 100 produk gula-gula dari populasi umum yang tidak terbatas, di mana sebenarnya ada, katakanlah, 1 juta unit, maka hasil sampel dan penelitian itu sendiri akan sangat tidak masuk akal dan tidak akurat. Rasakan perbedaan nya? Oleh karena itu, kepastian populasi umum dalam banyak kasus sangat penting dan sangat mempengaruhi hasil penelitian.

Keterwakilan populasi

Jadi, sekarang salah satu pertanyaan terpenting - apa yang harus menjadi sampel? Ini adalah poin terpenting dari penelitian ini. Pada tahap ini, perlu untuk menghitung sampel dan memilih unit dari jumlah total ke dalamnya. Populasi dipilih dengan benar jika ciri dan karakteristik tertentu dari populasi umum tetap ada dalam sampel. Ini disebut keterwakilan.

Dengan kata lain, jika, setelah seleksi, suatu bagian mempertahankan kecenderungan dan karakteristik yang sama dengan seluruh kuantitas yang diperiksa, maka populasi seperti itu disebut representatif. Tetapi tidak setiap sampel spesifik dapat dipilih dari populasi yang representatif. Ada juga objek penelitian seperti itu, yang sampelnya tidak bisa mewakili. Dari sinilah konsep kesalahan keterwakilan berasal. Tapi mari kita bicarakan ini sedikit lagi.

Cara membuat pilihan

Jadi, untuk memaksimalkan keterwakilan, ada tiga aturan pengambilan sampel dasar:


Kesalahan (error) keterwakilan

Karakteristik utama dari kualitas sampel yang dipilih adalah konsep "kesalahan keterwakilan". Apa itu? Ini adalah perbedaan tertentu antara indikator pengamatan selektif dan terus menerus. Menurut indikator kesalahan, keterwakilan dibagi menjadi dapat diandalkan, biasa dan perkiraan. Dengan kata lain, penyimpangan masing-masing hingga 3%, dari 3 hingga 10% dan dari 10 hingga 20%, dapat diterima. Meskipun dalam statistik diinginkan bahwa kesalahan tidak melebihi 5-6%. Jika tidak, ada alasan untuk berbicara tentang keterwakilan sampel yang tidak mencukupi. Untuk menghitung kesalahan keterwakilan dan bagaimana hal itu mempengaruhi sampel atau populasi, banyak faktor yang diperhitungkan:

  1. Probabilitas dengan mana hasil yang akurat akan diperoleh.
  2. Jumlah unit sampling. Seperti disebutkan sebelumnya, semakin kecil jumlah unit dalam sampel, semakin besar kesalahan keterwakilan, dan sebaliknya.
  3. Homogenitas populasi penelitian. Semakin heterogen populasi, semakin besar kesalahan keterwakilan. Kemampuan suatu populasi untuk menjadi perwakilan tergantung pada homogenitas semua unit penyusunnya.
  4. Metode pemilihan unit dalam populasi sampel.

Dalam penelitian khusus, persentase kesalahan rata-rata biasanya ditentukan oleh peneliti sendiri, berdasarkan program pengamatan dan menurut data dari penelitian sebelumnya. Sebagai aturan, kesalahan pengambilan sampel maksimum (kesalahan keterwakilan) dalam 3-5% dianggap dapat diterima.

Lebih tidak selalu lebih baik

Perlu juga diingat bahwa hal utama dalam mengatur pengamatan selektif adalah membawa volumenya ke minimum yang dapat diterima. Pada saat yang sama, seseorang tidak boleh berusaha untuk mengurangi batas kesalahan pengambilan sampel secara berlebihan, karena ini dapat menyebabkan peningkatan jumlah data sampel yang tidak dapat dibenarkan dan, akibatnya, pada peningkatan biaya pengambilan sampel.

Pada saat yang sama, ukuran kesalahan keterwakilan tidak boleh terlalu ditingkatkan. Lagi pula, dalam hal ini, meskipun akan ada penurunan ukuran sampel, ini akan menyebabkan penurunan keandalan hasil yang diperoleh.

Pertanyaan apa yang biasanya ditanyakan oleh peneliti?

Setiap penelitian, jika dilakukan, adalah untuk beberapa tujuan dan untuk mendapatkan beberapa hasil. Saat melakukan survei sampel, sebagai aturan, pertanyaan awal adalah:


Metode untuk memilih unit penelitian dalam sampel

Tidak semua sampel representatif. Terkadang satu dan tanda yang sama diekspresikan secara berbeda secara keseluruhan dan sebagian. Untuk mencapai persyaratan keterwakilan, disarankan untuk menggunakan berbagai teknik pengambilan sampel. Selain itu, penggunaan satu metode atau lainnya tergantung pada keadaan tertentu. Beberapa metode pengambilan sampel tersebut antara lain:

  • seleksi acak;
  • seleksi mekanis;
  • seleksi tipikal;
  • seleksi serial (bersarang).

Seleksi acak adalah sistem kegiatan yang ditujukan untuk pemilihan unit populasi secara acak, ketika probabilitas untuk dimasukkan dalam sampel sama untuk semua unit populasi umum. Teknik ini disarankan untuk diterapkan hanya dalam kasus homogenitas dan sejumlah kecil fitur bawaannya. Jika tidak, beberapa fitur karakteristik berisiko tidak tercermin dalam sampel. Fitur pemilihan acak mendasari semua metode pengambilan sampel lainnya.

Dengan pemilihan unit secara mekanis dilakukan pada interval tertentu. Jika perlu untuk membentuk sampel kejahatan tertentu, dimungkinkan untuk menghapus setiap kartu ke-5, ke-10 atau ke-15 dari semua catatan statistik kejahatan yang tercatat, tergantung pada jumlah total dan ukuran sampel yang tersedia. Kerugian dari metode ini adalah bahwa sebelum pemilihan perlu memiliki akun lengkap unit populasi, kemudian perlu dilakukan peringkat, dan hanya setelah itu dimungkinkan untuk mengambil sampel pada interval tertentu. Cara ini memakan banyak waktu, sehingga tidak sering digunakan.

Pemilihan tipikal (terregionalisasi) adalah jenis sampel di mana populasi umum dibagi menjadi kelompok-kelompok homogen menurut atribut tertentu. Terkadang peneliti menggunakan istilah lain selain "kelompok": "distrik" dan "zona". Kemudian, dari setiap kelompok, sejumlah unit tertentu dipilih secara acak sebanding dengan bagian kelompok dalam total populasi. Seleksi tipikal sering dilakukan dalam beberapa tahap.

Pengambilan sampel secara serial adalah suatu metode dimana pemilihan unit dilakukan secara berkelompok (seri) dan semua unit dari kelompok yang dipilih (seri) tersebut dilakukan pemeriksaan. Keuntungan dari metode ini adalah terkadang lebih sulit untuk memilih unit individu daripada seri, misalnya, ketika mempelajari seseorang yang sedang menjalani hukuman. Di dalam wilayah-wilayah yang dipilih, zona-zona, studi semua unit tanpa kecuali diterapkan, misalnya, studi tentang semua orang yang menjalani hukuman di lembaga tertentu.

Bagian dari objek-objek dari populasi dipilih untuk diteliti guna menarik suatu kesimpulan tentang keseluruhan populasi. Agar kesimpulan yang diperoleh dengan mempelajari sampel dapat diperluas ke seluruh populasi, sampel harus memiliki sifat representatif.

Keterwakilan sampel

Properti sampel untuk mencerminkan populasi umum dengan benar. Sampel yang sama mungkin atau mungkin tidak mewakili populasi yang berbeda.
Contoh:

Sampel yang seluruhnya terdiri dari orang Moskow yang memiliki mobil tidak mewakili seluruh populasi Moskow.

Sampel perusahaan Rusia dengan hingga 100 karyawan tidak mewakili semua perusahaan di Rusia.

Sampel orang Moskow yang melakukan pembelian di pasar tidak mewakili perilaku pembelian semua orang Moskow.

Pada saat yang sama, sampel ini (tergantung pada kondisi lain) dapat dengan sempurna mewakili pemilik mobil Moskow, perusahaan kecil dan menengah Rusia, dan pembeli yang melakukan pembelian di pasar.

Penting untuk dipahami bahwa keterwakilan sampel dan kesalahan pengambilan sampel adalah fenomena yang berbeda. Keterwakilan, tidak seperti kesalahan, tidak bergantung pada ukuran sampel.

Tidak peduli seberapa banyak kami meningkatkan jumlah pemilik mobil Moskow yang disurvei, kami tidak akan dapat mewakili semua orang Moskow dengan sampel ini.

Kesalahan pengambilan sampel (interval kepercayaan)

Penyimpangan hasil yang diperoleh dengan bantuan observasi sampel dari data sebenarnya dari populasi umum.

Ada dua jenis kesalahan pengambilan sampel: statistik dan sistematis. Kesalahan statistik tergantung pada ukuran sampel. Semakin besar ukuran sampel, semakin rendah.

Contoh:
Untuk sampel acak sederhana 400 unit, kesalahan statistik maksimum (dengan kepercayaan 95%) adalah 5%, untuk sampel 600 unit - 4%, untuk sampel 1100 unit - 3% .

Kesalahan sistematis tergantung pada berbagai faktor yang memiliki dampak konstan pada penelitian dan bias hasil penelitian ke arah tertentu.

Contoh:
- Penggunaan sampel probabilitas apa pun meremehkan proporsi orang berpenghasilan tinggi yang menjalani gaya hidup aktif. Ini terjadi karena fakta bahwa orang-orang seperti itu jauh lebih sulit ditemukan di tempat tertentu (misalnya, di rumah).

Masalah responden yang menolak menjawab pertanyaan kuesioner (bagian "refusenik" di Moskow, untuk survei yang berbeda, berkisar antara 50% hingga 80%)

Dalam beberapa kasus, ketika distribusi yang benar diketahui, bias dapat diratakan dengan memperkenalkan kuota atau pembobotan ulang data, tetapi dalam kebanyakan studi nyata, bahkan memperkirakannya bisa sangat bermasalah.

Jenis sampel

Sampel dibagi menjadi dua jenis:

probabilistik

ketidakmungkinan

sampel probabilitas

1.1 Pengambilan sampel secara acak (seleksi acak sederhana)

Sampel semacam itu mengasumsikan homogenitas populasi umum, probabilitas ketersediaan semua elemen yang sama, keberadaan daftar lengkap semua elemen. Saat memilih elemen, sebagai aturan, tabel angka acak digunakan.
1.2 Pengambilan sampel mekanis (sistematis)

Semacam sampel acak, diurutkan berdasarkan beberapa atribut (urutan abjad, nomor telepon, tanggal lahir, dll.). Elemen pertama dipilih secara acak, kemudian setiap elemen 'k' dipilih dengan kelipatan 'n'. Ukuran populasi umum, sedangkan - N=n*k

1.3 Bertingkat (berzonasi)

Ini digunakan dalam kasus heterogenitas populasi umum. Populasi umum dibagi menjadi kelompok-kelompok (strata). Pada setiap strata, seleksi dilakukan secara acak atau mekanis.

1.4 Pengambilan sampel serial (bersarang atau berkerumun)

Dengan pengambilan sampel serial, unit seleksi bukanlah objek itu sendiri, tetapi kelompok (cluster atau sarang). Kelompok dipilih secara acak. Objek dalam kelompok disurvei di mana-mana.

Sampel Luar Biasa

Pemilihan sampel semacam itu dilakukan tidak sesuai dengan prinsip peluang, tetapi sesuai dengan kriteria subjektif - aksesibilitas, kekhasan, representasi yang setara, dll.

Pengambilan sampel kuota

Awalnya, sejumlah kelompok objek dialokasikan (misalnya, pria berusia 20-30 tahun, 31-45 tahun dan 46-60 tahun; orang dengan pendapatan hingga 30 ribu rubel, dengan pendapatan 30 hingga 60 tahun). ribu rubel dan dengan pendapatan lebih dari 60 ribu rubel ) Untuk setiap kelompok, jumlah objek yang akan disurvei ditentukan. Jumlah objek yang harus masuk ke dalam masing-masing kelompok ditetapkan, paling sering, baik secara proporsional dengan bagian kelompok yang diketahui sebelumnya dalam populasi umum, atau sama untuk setiap kelompok. Di dalam grup, objek dipilih secara acak. Sampel kuota cukup sering digunakan dalam riset pemasaran.

Metode Bola Salju

Sampel dibangun sebagai berikut. Setiap responden, mulai dari yang pertama, diminta untuk menghubungi teman, kolega, kenalannya yang sesuai dengan syarat seleksi dan dapat mengikuti penelitian. Jadi, dengan pengecualian langkah pertama, sampel dibentuk dengan partisipasi dari objek studi itu sendiri. Metode ini sering digunakan ketika diperlukan untuk mencari dan mewawancarai kelompok responden yang sulit dijangkau (misalnya, responden berpenghasilan tinggi, responden dari kelompok profesi yang sama, responden yang memiliki hobi/kegemaran yang sama, dll. )
2.3 Pengambilan sampel spontan

Responden yang paling mudah diakses disurvei. Contoh tipikal sampling spontan adalah survei di surat kabar/majalah, kuesioner yang diberikan kepada responden untuk diisi sendiri, sebagian besar survei internet. Ukuran dan komposisi sampel spontan tidak diketahui sebelumnya, dan hanya ditentukan oleh satu parameter - aktivitas responden.
2.4 Contoh kasus tipikal

Unit populasi umum dipilih yang memiliki nilai rata-rata (tipikal) dari atribut tersebut. Hal ini menimbulkan masalah dalam memilih fitur dan menentukan nilai tipikalnya.

Implementasi rencana penelitian

Tahap ini, kami ingat, mencakup pengumpulan informasi dan analisisnya. Proses penerapan rencana riset pemasaran biasanya membutuhkan riset paling banyak dan merupakan sumber kesalahan terbesar.

Saat mengumpulkan data statistik, sejumlah kekurangan dan masalah muncul:

pertama, beberapa responden mungkin tidak berada di tempat yang disepakati dan harus dihubungi kembali atau diganti;

kedua, beberapa responden mungkin tidak kooperatif atau memberikan jawaban yang bias dan sengaja salah.

Berkat teknologi komputasi dan telekomunikasi modern, metode pengumpulan data berkembang dan meningkat.

Beberapa perusahaan melakukan survei dari satu pusat. Dalam hal ini, pewawancara profesional duduk di kantor dan memutar nomor telepon secara acak. Jika mereka mendengar jawaban dari penelepon, pewawancara meminta orang yang menjawab telepon untuk menjawab beberapa pertanyaan. Yang terakhir dibaca dari layar monitor komputer dan jawaban responden diketik di keyboard. Metode ini menghilangkan kebutuhan untuk memformat dan menyandikan data, mengurangi jumlah kesalahan.