Indikator populasi selektif. Contoh Perhitungan Praktis

Sering terjadi bahwa perlu untuk menganalisis fenomena sosial tertentu dan memperoleh informasi tentangnya. Tugas seperti itu sering muncul dalam statistik dan penelitian statistik. Verifikasi fenomena sosial yang terdefinisikan secara penuh seringkali tidak mungkin dilakukan. Misalnya, bagaimana cara mengetahui pendapat penduduk atau semua penduduk kota tertentu tentang masalah apa pun? Bertanya kepada semua orang hampir tidak mungkin dan sangat melelahkan. Dalam kasus seperti itu, kita membutuhkan sampel. Inilah persisnya konsep yang menjadi dasar hampir semua penelitian dan analisis.

Apa itu sampel?

Ketika menganalisis fenomena sosial tertentu, perlu untuk mendapatkan informasi tentangnya. Jika kita mengambil studi apapun, kita dapat melihat bahwa tidak setiap unit dari totalitas objek studi tunduk pada penelitian dan analisis. Hanya bagian tertentu dari totalitas ini yang diperhitungkan. Proses ini adalah sampling: ketika hanya unit-unit tertentu dari himpunan yang diperiksa.

Tentu saja, banyak tergantung pada jenis sampelnya. Tetapi ada juga aturan dasar. Yang utama mengatakan bahwa pemilihan dari populasi harus benar-benar acak. Unit populasi yang akan digunakan tidak boleh dipilih karena kriteria apa pun. Secara kasar, jika perlu mengumpulkan populasi dari populasi kota tertentu dan hanya memilih laki-laki, maka akan terjadi kesalahan dalam penelitian, karena pemilihan tidak dilakukan secara acak, tetapi dipilih berdasarkan jenis kelamin. Hampir semua metode pengambilan sampel didasarkan pada aturan ini.

Aturan pengambilan sampel

Agar set yang dipilih mencerminkan kualitas utama dari seluruh fenomena, itu harus dibangun sesuai dengan hukum tertentu, di mana perhatian utama harus diberikan pada kategori berikut:

  • sampel (populasi sampel);
  • populasi umum;
  • keterwakilan;
  • kesalahan keterwakilan;
  • satuan penduduk;
  • metode pengambilan sampel.

Ciri-ciri pengamatan selektif dan pengambilan sampel adalah sebagai berikut:

  1. Semua hasil yang diperoleh didasarkan pada hukum dan aturan matematika, yaitu dengan melakukan studi yang benar dan dengan perhitungan yang benar, hasilnya tidak akan terdistorsi secara subjektif.
  2. Itu memungkinkan untuk mendapatkan hasil lebih cepat dan dengan lebih sedikit waktu dan sumber daya, mempelajari tidak seluruh rangkaian acara, tetapi hanya sebagian dari mereka.
  3. Ini dapat digunakan untuk mempelajari berbagai objek: dari masalah tertentu, misalnya, usia, jenis kelamin kelompok yang menarik bagi kami, hingga studi tentang opini publik atau tingkat dukungan material dari populasi.

Pengamatan selektif

Selektif - ini adalah pengamatan statistik di mana tidak seluruh populasi yang diteliti menjadi sasaran penelitian, tetapi hanya sebagian darinya, dipilih dengan cara tertentu, dan hasil studi dari bagian ini berlaku untuk seluruh populasi. Bagian ini disebut kerangka sampling. Ini adalah satu-satunya cara untuk mempelajari sejumlah besar objek studi.

Tetapi pengamatan selektif hanya dapat digunakan dalam kasus-kasus di mana perlu untuk mempelajari hanya sekelompok kecil unit. Misalnya, ketika mempelajari rasio pria dan wanita di dunia, observasi selektif akan digunakan. Untuk alasan yang jelas, tidak mungkin untuk memperhitungkan setiap penghuni planet kita.

Tetapi dengan studi yang sama, tetapi tidak dari semua penduduk bumi, tetapi dari 2 kelas "A" tertentu di sekolah tertentu, kota tertentu, negara tertentu, pengamatan selektif dapat ditiadakan. Bagaimanapun, sangat mungkin untuk menganalisis seluruh susunan objek penelitian. Penting untuk menghitung anak laki-laki dan perempuan di kelas ini - itu akan menjadi rasio.


Sampel dan populasi

Ini sebenarnya tidak sesulit kedengarannya. Dalam setiap objek penelitian terdapat dua sistem yaitu populasi umum dan sampel. Apa itu? Semua unit milik jenderal. Dan untuk sampel - unit-unit dari total populasi yang diambil untuk sampel. Jika semuanya dilakukan dengan benar, maka bagian yang dipilih akan menjadi tata letak yang dikurangi dari seluruh populasi (umum).

Jika kita berbicara tentang populasi umum, maka kita hanya dapat membedakan dua varietasnya: populasi umum pasti dan tidak terbatas. Tergantung pada apakah jumlah total unit dari sistem yang diberikan diketahui atau tidak. Jika suatu populasi tertentu, maka pengambilan sampel akan lebih mudah karena diketahui berapa persen dari jumlah keseluruhan unit yang akan dijadikan sampel.

Momen ini sangat diperlukan dalam penelitian. Misalnya, jika perlu untuk menyelidiki persentase produk gula-gula berkualitas rendah di pabrik tertentu. Asumsikan bahwa populasi telah ditentukan. Diketahui secara pasti bahwa perusahaan ini menghasilkan 1000 produk gula-gula per tahun. Jika kita membuat sampel 100 produk gula-gula acak dari ribuan ini dan mengirimkannya untuk diperiksa, maka kesalahannya akan minimal. Secara kasar, 10% dari semua produk menjadi subjek penelitian, dan berdasarkan hasil, dengan mempertimbangkan kesalahan keterwakilan, kita dapat berbicara tentang kualitas semua produk yang buruk.

Dan jika Anda mengambil sampel 100 produk gula-gula dari populasi umum yang tidak terbatas, di mana sebenarnya ada, katakanlah, 1 juta unit, maka hasil sampel dan penelitian itu sendiri akan sangat tidak masuk akal dan tidak akurat. Rasakan perbedaan nya? Oleh karena itu, kepastian populasi umum dalam banyak kasus sangat penting dan sangat mempengaruhi hasil penelitian.


Keterwakilan populasi

Jadi, sekarang salah satu pertanyaan terpenting - apa yang harus menjadi sampel? Ini adalah poin terpenting dari penelitian ini. Pada tahap ini, perlu untuk menghitung sampel dan memilih unit dari jumlah total yang ada di dalamnya. Populasi dipilih dengan benar jika ciri dan karakteristik tertentu dari populasi umum tetap ada dalam sampel. Ini disebut keterwakilan.

Dengan kata lain, jika, setelah seleksi, suatu bagian mempertahankan kecenderungan dan karakteristik yang sama dengan seluruh kuantitas yang diperiksa, maka populasi seperti itu disebut representatif. Tetapi tidak setiap sampel tertentu dapat dipilih dari populasi yang representatif. Ada juga objek penelitian seperti itu, yang sampelnya tidak bisa mewakili. Dari sinilah konsep kesalahan keterwakilan berasal. Tapi mari kita bicarakan ini sedikit lagi.

Cara membuat sampel

Jadi, untuk memaksimalkan keterwakilan, ada tiga aturan pengambilan sampel dasar:

  1. Indikator paling unik dari nomor sampel dianggap 20%. Sampel statistik 20% hampir selalu memberikan hasil yang sedekat mungkin dengan kenyataan. Pada saat yang sama, tidak perlu mentransfer ke bagian yang lebih besar yang dikumpulkan dari populasi umum. 20% dari sampel adalah angka yang telah dikembangkan oleh banyak penelitian. Mari kita lihat beberapa teori lagi. Semakin besar sampel, semakin kecil kesalahan keterwakilan dan semakin akurat hasil penelitian. Semakin dekat populasi sampel dengan populasi umum dalam hal jumlah unit, semakin akurat dan benar hasilnya. Lagi pula, jika Anda memeriksa seluruh sistem, maka hasilnya adalah 100%. Tapi tidak ada pilihan di sini. Ini adalah studi di mana seluruh array diperiksa, semua unit, jadi ini tidak menarik bagi kami.
  2. Dalam hal ketidakmampuan mengolah 20% dari populasi umum, diperbolehkan untuk mempelajari unit populasi dalam jumlah setidaknya 1001. Ini juga merupakan salah satu indikator studi tentang susunan objek penelitian , yang berkembang dari waktu ke waktu. Tentu saja, itu tidak akan memberikan hasil yang akurat dengan rangkaian penelitian yang besar, tetapi itu akan membawanya sedekat mungkin dengan akurasi sampel yang mungkin.
  3. Ada banyak rumus dan tabulasi dalam statistik. Bergantung pada objek studi dan kriteria pengambilan sampel, adalah bijaksana untuk memilih satu atau beberapa formula. Tetapi item ini digunakan dalam studi yang kompleks dan multi-tahap.

Kesalahan (error) keterwakilan

Karakteristik utama dari kualitas sampel yang dipilih adalah konsep "kesalahan keterwakilan". Apa itu? Ini adalah perbedaan tertentu antara indikator pengamatan selektif dan terus menerus. Menurut indikator kesalahan, keterwakilan dibagi menjadi dapat diandalkan, biasa dan perkiraan. Dengan kata lain, penyimpangan masing-masing hingga 3%, dari 3 hingga 10% dan dari 10 hingga 20%, dapat diterima. Meskipun dalam statistik diinginkan bahwa kesalahan tidak melebihi 5-6%. Jika tidak, ada alasan untuk berbicara tentang keterwakilan sampel yang tidak mencukupi. Untuk menghitung kesalahan keterwakilan dan bagaimana hal itu mempengaruhi sampel atau populasi, banyak faktor yang diperhitungkan:

  1. Probabilitas dengan mana hasil yang akurat akan diperoleh.
  2. Jumlah unit sampling. Seperti disebutkan sebelumnya, semakin kecil jumlah unit dalam sampel, semakin besar kesalahan keterwakilan, dan sebaliknya.
  3. Homogenitas populasi penelitian. Semakin heterogen populasi, semakin besar kesalahan keterwakilan. Kemampuan suatu populasi untuk menjadi perwakilan tergantung pada homogenitas semua unit penyusunnya.
  4. Metode pemilihan unit dalam populasi sampel.

Dalam penelitian khusus, persentase kesalahan rata-rata biasanya ditentukan oleh peneliti sendiri, berdasarkan program pengamatan dan menurut data dari penelitian sebelumnya. Sebagai aturan, kesalahan pengambilan sampel maksimum (kesalahan keterwakilan) dalam 3-5% dianggap dapat diterima.


Lebih tidak selalu lebih baik

Perlu juga diingat bahwa hal utama dalam mengatur pengamatan selektif adalah membawa volumenya ke minimum yang dapat diterima. Pada saat yang sama, seseorang tidak boleh berusaha untuk mengurangi batas kesalahan pengambilan sampel secara berlebihan, karena ini dapat menyebabkan peningkatan jumlah data sampel yang tidak dapat dibenarkan dan, akibatnya, peningkatan biaya pengambilan sampel.

Pada saat yang sama, ukuran kesalahan keterwakilan tidak boleh terlalu ditingkatkan. Lagi pula, dalam hal ini, meskipun akan ada penurunan ukuran sampel, ini akan menyebabkan penurunan keandalan hasil yang diperoleh.

Pertanyaan apa yang biasanya ditanyakan oleh peneliti?

Setiap penelitian, jika dilakukan, adalah untuk beberapa tujuan dan untuk mendapatkan beberapa hasil. Saat melakukan survei sampel, sebagai aturan, pertanyaan awal adalah:

  1. Penentuan jumlah unit sampling yang dibutuhkan, yaitu berapa unit yang akan diperiksa. Selain itu, untuk penelitian yang akurat, populasi harus representatif.
  2. Perhitungan kesalahan keterwakilan dengan tingkat probabilitas yang ditetapkan. Harus segera dicatat bahwa studi selektif tidak terjadi dengan tingkat probabilitas 100%. Jika otoritas yang melakukan studi segmen tertentu mengklaim bahwa hasil mereka akurat dengan probabilitas 100%, maka ini bohong. Bertahun-tahun praktek telah menetapkan persentase kemungkinan studi sampel yang dilakukan dengan benar. Angka ini adalah 95,4%.

Metode pemilihan unit penelitian dalam sampel

Tidak setiap sampel representatif. Terkadang satu dan tanda yang sama diekspresikan secara berbeda secara keseluruhan dan sebagian. Untuk mencapai persyaratan keterwakilan, disarankan untuk menggunakan berbagai teknik pengambilan sampel. Selain itu, penggunaan satu metode atau lainnya tergantung pada keadaan tertentu. Beberapa metode pengambilan sampel tersebut antara lain:

  • seleksi acak;
  • seleksi mekanis;
  • seleksi tipikal;
  • seleksi serial (bersarang).

Seleksi acak adalah sistem kegiatan yang ditujukan untuk pemilihan unit populasi secara acak, ketika probabilitas untuk dimasukkan dalam sampel sama untuk semua unit populasi umum. Teknik ini disarankan untuk diterapkan hanya dalam kasus homogenitas dan sejumlah kecil fitur bawaannya. Jika tidak, beberapa fitur karakteristik berisiko tidak tercermin dalam sampel. Ciri-ciri pemilihan acak mendasari semua metode pengambilan sampel lainnya.

Dengan pemilihan unit secara mekanis dilakukan pada interval tertentu. Jika perlu untuk membentuk sampel kejahatan tertentu, dimungkinkan untuk menghapus setiap kartu ke-5, ke-10 atau ke-15 dari semua catatan statistik kejahatan yang tercatat, tergantung pada jumlah total dan ukuran sampel yang tersedia. Kerugian dari metode ini adalah bahwa sebelum pemilihan perlu memiliki akun lengkap unit populasi, kemudian perlu dilakukan peringkat, dan hanya setelah itu dimungkinkan untuk mengambil sampel dengan interval tertentu. Cara ini memakan banyak waktu, sehingga tidak sering digunakan.


Pemilihan tipikal (regional) adalah jenis sampel di mana populasi umum dibagi menjadi kelompok-kelompok homogen menurut atribut tertentu. Terkadang peneliti menggunakan istilah lain selain "kelompok": "distrik" dan "zona". Kemudian, dari setiap kelompok, sejumlah unit tertentu dipilih secara acak sebanding dengan bagian kelompok dalam total populasi. Seleksi tipikal sering dilakukan dalam beberapa tahap.

Pengambilan sampel secara serial adalah suatu metode dimana pemilihan unit dilakukan secara berkelompok (seri) dan semua unit dari kelompok yang dipilih (seri) dikenakan pemeriksaan. Keuntungan dari metode ini adalah terkadang lebih sulit untuk memilih unit individu daripada seri, misalnya, ketika mempelajari seseorang yang sedang menjalani hukuman. Di dalam wilayah-wilayah tertentu, zona-zona, studi semua unit tanpa kecuali diterapkan, misalnya, studi tentang semua orang yang menjalani hukuman di lembaga tertentu.

Topik: Pengambilan sampel dalam statistik

1. Konsep pengamatan selektif, tugasnya

Pengamatan statistik dapat diselenggarakan secara terus menerus dan tidak terus menerus. Pengamatan terus menerus melibatkan survei terhadap semua unit populasi yang diteliti dan dikaitkan dengan biaya tenaga kerja dan material yang besar. Studi tidak semua unit populasi, tetapi hanya beberapa bagian, yang dengannya seseorang harus menilai sifat-sifat seluruh populasi secara keseluruhan, dapat dilakukan. terputus-putus pengamatan. Dalam praktik statistik, yang paling umum adalah pengamatan selektif.

Pengamatan selektif - Ini adalah jenis observasi non-kontinyu di mana pemilihan unit yang akan disurvei dilakukan secara acak, bagian yang dipilih dipelajari, dan hasilnya didistribusikan ke seluruh populasi asli. Pengamatan diatur sedemikian rupa sehingga bagian dari unit yang dipilih ini dalam skala yang dikurangi mewakili(mewakili) seluruh populasi.

Populasi dari mana pemilihan dibuat disebut umum, umum.

Himpunan unit yang dipilih disebut kumpulan sampel, dan semua indikator umumnya - selektif.

Ada sejumlah alasan mengapa, dalam banyak kasus, observasi selektif lebih disukai daripada observasi berkelanjutan. Yang paling signifikan dari mereka adalah sebagai berikut:

Menghemat waktu dan uang sebagai akibat dari pengurangan jumlah pekerjaan;

Meminimalkan kerusakan atau kehancuran objek yang diteliti (menentukan kekuatan benang putus, menguji bola lampu listrik selama pembakaran, memeriksa makanan kaleng untuk kualitas yang baik);

Perlunya studi rinci setiap unit pengamatan bila tidak mungkin mencakup semua unit (bila mempelajari anggaran keluarga);

Mencapai akurasi yang lebih besar dari hasil survei dengan mengurangi kesalahan pendaftaran.

Keuntungan dari pengamatan selektif dibandingkan pengamatan terus menerus dapat diwujudkan jika diatur dan dilakukan sesuai dengan prinsip-prinsip ilmiah. teori metode pengambilan sampel. Prinsip-prinsip tersebut adalah: memastikan peluang(peluang yang sama untuk dimasukkan dalam sampel) pemilihan unit dan jumlah yang cukup dari mereka. Kepatuhan terhadap prinsip-prinsip ini memungkinkan untuk memperoleh jaminan obyektif dari keterwakilan sampel yang dihasilkan. konsep keterwakilan Populasi yang dipilih tidak harus dipahami sebagai representasinya dalam hal semua karakteristik populasi yang diteliti, tetapi hanya dalam kaitannya dengan karakteristik yang dipelajari atau yang berdampak signifikan pada pembentukan karakteristik generalisasi ringkasan.

Tugas utama observasi sampel dalam ilmu ekonomi adalah memperoleh penilaian yang andal tentang indikator rata-rata dan pangsa dalam populasi umum berdasarkan karakteristik populasi sampel (rata-rata dan pangsa). Pada saat yang sama, harus diingat bahwa dalam studi statistik apa pun (padat dan selektif) ada dua jenis kesalahan: pendaftaran dan keterwakilan.

Kesalahan pendaftaran bisa memperoleh acak(tidak disengaja) dan sistematis(tendentious) karakter. Bug acak biasanya saling menyeimbangkan, karena tidak memiliki arah dominan ke arah melebih-lebihkan atau meremehkan nilai indikator yang diteliti. Kesalahan sistematis diarahkan ke satu arah karena pelanggaran aturan seleksi yang disengaja (target bias). Mereka dapat dihindari dengan organisasi dan pemantauan yang tepat.

Kesalahan keterwakilan melekat hanya dalam pengamatan selektif dan muncul karena fakta bahwa sampel tidak sepenuhnya mereproduksi yang umum. Mereka mewakili perbedaan antara nilai indikator yang diperoleh dari sampel dan nilai indikator dari nilai yang sama yang akan diperoleh dengan pengamatan terus menerus yang dilakukan dengan tingkat akurasi yang sama, yaitu antara nilai-nilai yang dipilih dan indikator umum yang sesuai.

Untuk setiap pengamatan sampel tertentu, nilai kesalahan keterwakilan dapat ditentukan dengan rumus yang sesuai, yang bergantung pada jenis, metode dan cara pembentukan sampel.

Berdasarkan jenis Ada seleksi individu, kelompok dan gabungan. Pada seleksi individu unit individu dari populasi umum dipilih dalam sampel; pada pemilihan grup- kelompok atau rangkaian unit yang secara kualitatif homogen yang diteliti; seleksi gabungan melibatkan kombinasi dari tipe pertama dan kedua.

Dengan metode seleksi membedakan ulang dan pengambilan sampel yang tidak berulang.

Pada pengambilan sampel ulang jumlah total unit populasi dalam proses pengambilan sampel tetap tidak berubah. Satu atau lain unit yang menjadi sampel, setelah registrasi, dikembalikan ke populasi umum lagi, dan tetap memiliki kesempatan yang sama dengan semua unit lain ketika unit dipilih kembali untuk masuk ke sampel ("seleksi menurut skema bola yang dikembalikan"). Pengambilan sampel ulang dalam kehidupan sosial ekonomi jarang terjadi. Biasanya, pengambilan sampel diatur menurut skema pengambilan sampel yang tidak berulang.

Pada tidak ada pengambilan sampel ulang unit populasi yang menjadi sampel tidak dikembalikan ke populasi umum dan tidak menjadi sampel di kemudian hari; yaitu, sampel berikutnya diambil dari populasi umum tanpa unit yang dipilih sebelumnya ("seleksi menurut skema bola yang tidak dikembalikan"). Jadi, dengan pengambilan sampel non-repetitif, jumlah unit dalam populasi umum berkurang dalam proses penelitian.

Metode pemilihan mendefinisikan mekanisme atau prosedur khusus untuk memilih unit dari suatu populasi.

Menurut tingkat cakupan unit populasi, ada: besar dan kecil (n <30) выборки.

Dalam praktik studi sampel, jenis pengambilan sampel berikut ini paling banyak digunakan: tepat acak, mekanis, khas, serial, gabungan.

Karakteristik utama dari parameter populasi umum dan sampel ditunjukkan dengan simbol:

N-volume populasi umum (jumlah unit yang termasuk di dalamnya);

P - ukuran sampel (jumlah unit yang disurvei);

- rata-rata umum (nilai rata-rata atribut dalam populasi umum);

- rata-rata sampel;

P- bagian umum (bagian unit yang memiliki nilai atribut tertentu dalam jumlah total unit populasi umum);

w - bagian sampel;

- varians umum (varians fitur dalam populasi umum);

S 2 - varians sampel dari fitur yang sama;

- standar deviasi pada populasi umum;

S- simpangan baku dalam sampel.

2. Kesalahan pengambilan sampel

Selama pengamatan selektif, harus dipastikan peluang pemilihan satuan. Setiap unit harus memiliki kesempatan yang sama untuk dipilih dengan yang lain. Inilah yang menjadi dasar pengambilan sampel acak.

Ke sampel acak yang tepat mengacu pada pemilihan unit dari seluruh populasi umum (tanpa terlebih dahulu membaginya ke dalam kelompok mana pun) dengan lotere (terutama) atau metode serupa lainnya, misalnya, menggunakan tabel angka acak. Seleksi acak - pemilihan ini tidak acak. Prinsip keacakan menunjukkan bahwa dimasukkan atau dikeluarkannya suatu objek dari sampel tidak dapat dipengaruhi oleh faktor apa pun selain kebetulan. Sebuah contoh sebenarnya acak Undian kemenangan dapat berfungsi sebagai pilihan: dari jumlah total tiket yang diterbitkan, bagian tertentu dari angka yang memperhitungkan kemenangan dipilih secara acak. Selain itu, semua nomor diberikan kesempatan yang sama untuk masuk ke sampel. Dalam hal ini, jumlah unit yang dipilih dalam kumpulan sampel biasanya ditentukan berdasarkan proporsi sampel yang diterima.

Bagikan, sampel adalah rasio jumlah unit dalam sampel dengan jumlah unit dalam populasi umum:

Jadi, dengan sampel 5% dari sekumpulan suku cadang dalam 1000 unit. ukuran sampel P adalah 50 unit, dan dengan sampel 10% -100 unit. dll. Dengan organisasi sampling ilmiah yang tepat, kesalahan keterwakilan dapat dikurangi hingga nilai minimum, sebagai hasilnya, pengamatan selektif menjadi cukup akurat.

Seleksi acak-sendiri "dalam bentuknya yang murni" jarang digunakan dalam praktik pengamatan selektif, tetapi ini adalah awal di antara semua jenis seleksi lainnya, ia berisi dan menerapkan prinsip-prinsip dasar pengamatan selektif.

Mari kita pertimbangkan beberapa pertanyaan tentang teori metode pengambilan sampel dan rumus kesalahan untuk sampel acak sederhana.

Saat menerapkan metode pengambilan sampel dalam statistik, dua jenis utama indikator generalisasi biasanya digunakan: nilai rata-rata sifat kuantitatif dan nilai relatif dari fitur alternatif(proporsi atau proporsi unit dalam populasi statistik yang berbeda dari semua unit lain dari populasi ini hanya dengan adanya sifat yang dipelajari).

Berbagi sampel ( w ), atau frekuensi, ditentukan oleh perbandingan jumlah satuan yang mempunyai sifat yang diteliti t, dengan jumlah total unit sampling P:

Estimasi interval peluang kejadian. Rumus untuk menghitung jumlah sampel dalam kasus metode pemilihan acak.

Untuk menentukan probabilitas peristiwa yang menarik bagi kami, kami menggunakan metode pengambilan sampel: kami melakukan n percobaan independen, di mana setiap peristiwa A dapat terjadi (atau tidak terjadi) (probabilitas R terjadinya peristiwa A dalam setiap percobaan adalah konstan). Maka frekuensi relatif p* dari kejadian-kejadian TETAPI dalam serangkaian n tes diambil sebagai perkiraan titik untuk probabilitas p terjadinya suatu peristiwa TETAPI dalam tes terpisah. Dalam hal ini, nilai p* disebut berbagi sampel kejadian acara TETAPI, dan r- bagian umum .

Berdasarkan akibat wajar dari teorema limit pusat (teorema Moivre-Laplace), frekuensi relatif dari suatu peristiwa dengan ukuran sampel yang besar dapat dianggap terdistribusi normal dengan parameter M(p*)=p dan

Oleh karena itu, untuk n>30, interval kepercayaan untuk pecahan umum dapat dibangun dengan menggunakan rumus:


di mana u cr ditemukan sesuai dengan tabel fungsi Laplace, dengan mempertimbangkan probabilitas kepercayaan yang diberikan : 2Ф(u cr)=γ.

Dengan ukuran sampel kecil n≤30, kesalahan marjinal ditentukan dari tabel distribusi Student:
di mana t cr =t(k; ) dan jumlah derajat kebebasan k=n-1 probabilitas =1-γ (luas dua sisi).

Rumus tersebut valid jika pemilihan dilakukan secara acak secara berulang (populasi umum tidak terbatas), jika tidak maka perlu dilakukan koreksi untuk pemilihan yang tidak berulang (tabel).

Kesalahan pengambilan sampel rata-rata untuk proporsi umum

Populasitak berujungvolume akhir N
Jenis pilihanUlangtidak berulang
Rata-rata kesalahan pengambilan sampel

Rumus untuk menghitung ukuran sampel dengan metode pemilihan acak yang tepat

Metode pemilihanRumus ukuran sampel
untuk tengahuntuk berbagi
Ulang
tidak berulang
Bagian unit w = . Akurasi = . Probabilitas =

Masalah tentang bagian umum

Untuk pertanyaan "Apakah nilai p 0 yang diberikan mencakup selang kepercayaan?" - dapat dijawab dengan menguji hipotesis statistik H 0:p=p 0 . Diasumsikan bahwa percobaan dilakukan sesuai dengan skema uji Bernoulli (independen, probabilitas p terjadinya suatu peristiwa TETAPI konstan). Dengan sampel volume n tentukan frekuensi relatif p* dari kejadian A: dimana m- jumlah kemunculan acara TETAPI dalam serangkaian n tes. Untuk menguji hipotesis H 0, digunakan statistik yang, dengan ukuran sampel yang cukup besar, memiliki distribusi normal standar (Tabel 1).
Tabel 1 - Hipotesis tentang pangsa umum

Hipotesa

H0:p=p0H 0:p 1 \u003d p 2
AsumsiSkema tes BernoulliSkema tes Bernoulli
Perkiraan sampel
Statistik K
Distribusi statistik K Standar normal N (0,1)

Contoh 1. Dengan menggunakan pengambilan sampel ulang secara acak, manajemen perusahaan melakukan survei acak terhadap 900 karyawannya. Ada 270 wanita di antara responden. Plot interval kepercayaan yang, dengan probabilitas 0,95, mencakup proporsi wanita yang sebenarnya di seluruh tim perusahaan.
Larutan. Dengan syarat, proporsi sampel perempuan adalah (frekuensi relatif perempuan di antara semua responden). Karena pemilihan diulang dan ukuran sampel besar (n=900), kesalahan pengambilan sampel marjinal ditentukan oleh rumus:

Nilai u cr ditemukan dari tabel fungsi Laplace dari relasi 2Ф(u cr)=γ, yaitu. Fungsi Laplace (Lampiran 1) mengambil nilai 0,475 pada u cr = 1,96. Oleh karena itu, kesalahan marginal dan interval kepercayaan yang diinginkan
(p – , p + ) = (0,3 – 0,18; 0,3 + 0,18) = (0,12; 0,48)
Jadi, dengan probabilitas 0,95, dapat dipastikan bahwa proporsi wanita di seluruh tim perusahaan berada dalam kisaran 0,12 hingga 0,48.

Contoh #2. Pemilik tempat parkir menganggap hari itu “beruntung” jika tempat parkir mobil lebih dari 80% penuh. Selama tahun ini, 40 inspeksi tempat parkir telah dilakukan, 24 di antaranya “berhasil”. Dengan probabilitas 0,98, temukan interval kepercayaan untuk memperkirakan persentase sebenarnya dari hari "keberuntungan" sepanjang tahun.
Larutan. Pecahan sampel hari “baik” adalah
Menurut tabel fungsi Laplace, kita menemukan nilai u cr untuk suatu
tingkat kepercayaan diri
(2.23) = 0.49, u cr = 2.33.
Mengingat pemilihan tidak berulang (yaitu, dua pemeriksaan tidak dilakukan pada hari yang sama), kami menemukan kesalahan marginal:
dimana n=40 , N = 365 (hari). Dari sini
dan selang kepercayaan untuk pecahan umum: (p – , p + ) = (0,6 – 0,17; 0,6 + 0,17) = (0,43; 0,77)
Dengan probabilitas 0,98, dapat diharapkan bahwa proporsi hari "baik" sepanjang tahun berada dalam kisaran 0,43 hingga 0,77.

Contoh #3. Setelah memeriksa 2500 item dalam batch, mereka menemukan bahwa 400 item memiliki nilai tertinggi, tetapi n–m tidak. Berapa banyak produk yang perlu Anda periksa untuk menentukan pangsa kelas premium dengan akurasi 0,01 dengan kepastian 95%?
Kami mencari solusi sesuai dengan rumus untuk menentukan ukuran sampel untuk pemilihan ulang.

(t) = /2 = 0.95/2 = 0.475 dan menurut tabel Laplace nilai ini sesuai dengan t=1.96
Fraksi sampel w = 0,16; kesalahan pengambilan sampel = 0,01

Contoh #4. Sebuah batch produk diterima jika probabilitas bahwa produk tersebut akan memenuhi standar setidaknya 0,97. Di antara 200 produk yang dipilih secara acak dari lot yang diuji, 193 produk ditemukan memenuhi standar. Apakah mungkin untuk menerima batch pada tingkat signifikansi =0,02?
Larutan. Kami merumuskan hipotesis utama dan alternatif.
H 0: p \u003d p 0 \u003d 0,97 - bagian umum yang tidak diketahui p sama dengan nilai yang ditentukan p 0 = 0,97. Sehubungan dengan kondisi - probabilitas bahwa bagian dari lot yang diuji akan sesuai dengan standar adalah 0,97; itu. batch produk dapat diterima.
H1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Nilai statistik yang diamati K(tabel) hitung untuk nilai yang diberikan p 0 =0,97, n=200, m=193


Nilai kritis ditemukan dari tabel fungsi Laplace dari persamaan


Berdasarkan kondisi =0,02, maka F(Kcr)=0,48 dan Kcr=2,05. Daerah kritis adalah kidal, mis. adalah interval (-∞;-K kp)= (-∞;-2.05). Nilai pengamatan Kobs = -0,415 tidak termasuk ke dalam daerah kritis, oleh karena itu pada tingkat signifikansi ini tidak ada alasan untuk menolak hipotesis utama. Batch produk dapat diterima.

Contoh nomor 5. Dua pabrik memproduksi jenis suku cadang yang sama. Untuk menilai kualitasnya, sampel diambil dari produk pabrik-pabrik ini dan diperoleh hasil sebagai berikut. Di antara 200 produk yang dipilih dari pabrik pertama, 20 rusak, dan di antara 300 produk pabrik kedua, 15 rusak.
Pada tingkat signifikansi 0,025, cari tahu apakah ada perbedaan yang signifikan dalam kualitas suku cadang yang diproduksi oleh pabrik-pabrik tersebut.

Berdasarkan kondisi =0,025, maka F(Kcr)=0,4875 dan Kcr=2,24. Dengan alternatif dua sisi, luas nilai yang dapat diterima memiliki bentuk (-2.24; 2.24). Nilai yang diamati Kobs = 2,15 termasuk dalam interval ini, yaitu. pada tingkat signifikansi ini, tidak ada alasan untuk menolak hipotesis utama. Pabrik menghasilkan produk dengan kualitas yang sama.

Penelitian selektif.

Konsep metode pengambilan sampel.

Pengamatan selektif- Observasi non-kontinyu ini dimana pemilihan unit populasi yang akan diteliti dilakukan secara acak, bagian yang terpilih dijadikan objek penelitian, setelah itu hasilnya didistribusikan ke seluruh populasi.

Metode pengambilan sampel digunakan ketika

1 ketika pengamatan itu sendiri dikaitkan dengan kerusakan atau kehancuran unit yang diamati (benang untuk bumbu, bola lampu listrik untuk produk pembakaran)

2 volume agregat besar

3 biaya tinggi (keuangan dan tenaga kerja).

Biasanya, 5-10% dari total populasi menjadi sasaran survei sampel, lebih jarang 15-25%.

Tujuan pengambilan sampel adalah untuk menentukan karakteristik rata-rata keseluruhan dan proporsi keseluruhan (P). Karakteristik populasi sampel - mean sampel dan fraksi sampel (w) berbeda dari karakteristik umum dengan jumlah kesalahan pengambilan sampel ( ). Oleh karena itu, perlu untuk menghitung kesalahan sampling atau kesalahan keterwakilan, yang ditentukan oleh rumus-rumus yang dikembangkan dalam teori probabilitas untuk setiap jenis sampel dan metode pemilihan.

Ada cara berikut untuk memilih unit:

1 pilihan bola kembali, biasa disebut sebagai pengambilan sampel ulang.

Dengan pemilihan berulang, probabilitas memasukkan setiap unit individu ke dalam sampel tetap konstan, karena setelah memilih suatu unit, maka dikembalikan ke populasi lagi dan dapat dipilih kembali.

2 pemilihan sesuai dengan skema bola yang tidak dikembalikan, disebut pengambilan sampel secara acak. Dalam hal ini, setiap unit yang dipilih tidak dikembalikan, dan kemungkinan memasukkan unit individu ke dalam sampel berubah sepanjang waktu (untuk unit yang tersisa akan meningkat) (lot), tabel angka acak, misalnya, 75 dari 780.

Jenis sampel.

1 Sebenarnya - acak.

Ini adalah salah satu di mana pemilihan unit dalam sampel dibuat langsung dari seluruh massa unit dalam populasi umum.

Dalam hal ini, jumlah unit yang dipilih biasanya ditentukan berdasarkan proporsi sampel yang diterima.

Untuk sampel, ada rasio jumlah unit dalam populasi sampel dan jumlah unit dalam populasi umum N.

Jadi, dengan sampel 5% dari batch barang 2000 unit, ukuran sampel n adalah 100 unit. (
), dan dengan sampel 20% akan menjadi 400 unit.

(
)

Kondisi penting untuk sampel acak yang tepat bahwa setiap unit populasi diberi kesempatan yang sama untuk diikutsertakan dalam sampel.

Dengan pemilihan acak, kesalahan sampling marginal untuk mean adalah sama dengan

- varians sampling

n - ukuran sampel

t adalah faktor kepercayaan, yang ditentukan dari tabel nilai fungsi integral Laplace untuk probabilitas P yang diberikan.

Dengan pengambilan sampel yang tidak berulang, kesalahan pengambilan sampel marjinal ditentukan oleh rumus untuk rata-rata

di mana N adalah ukuran populasi umum dari bagian tersebut

Untuk mengetahui kadar abu batubara, 100 sampel batubara diperiksa secara acak. Dari hasil survey diketahui bahwa rata-rata kadar abu batubara dalam sampel adalah 16%, = 5%. Dalam 10 sampel, kadar abu batubara > 20% dengan probabilitas 0,954 untuk menentukan batas rata-rata kadar abu batubara dalam deposit dan proporsi batubara dengan kadar abu > 20% akan menjadi

Kandungan abu rata-rata

tentukan kesalahan sampling marginal


2*0.5=1%

pada p=0,954 t=2

bagian batubara dengan kadar abu >20%

bagian sampel ditentukan

di mana m adalah proporsi unit yang memiliki fitur

kesalahan pengambilan sampel untuk dibagikan

Dengan probabilitas 0,954, dapat dikatakan bahwa proporsi batubara dengan kadar abu lebih dari 20% dalam deposit akan berada dalam batas

P= 10%+(-)6% atau

pengambilan sampel mekanis.

Ini adalah jenis sebenarnya - acak. Dalam hal ini, seluruh populasi dibagi menjadi n bagian yang sama, dan kemudian satu unit dipilih dari setiap bagian.

Semua unit populasi harus diatur dalam urutan tertentu. Pada saat yang sama, sehubungan dengan indikator yang diteliti, unit populasi umum dapat diurutkan menurut fitur yang signifikan, sekunder atau netral. Dalam hal ini, unit yang berada di tengah setiap kelompok harus dipilih dari masing-masing kelompok. Ini menghindari bias pengambilan sampel.

Terapkan: saat memeriksa pembeli di toko, pengunjung di klinik, setiap 5,4,3, dll.

Contoh pengambilan sampel mekanis

Untuk menentukan jangka waktu rata-rata penggunaan pinjaman jangka pendek di bank, sampel mekanis 5% akan dibuat, yang mencakup 100 rekening. Dari hasil survey diketahui bahwa rata-rata jangka waktu penggunaan pinjaman jangka pendek adalah 30 hari dengan
9 hari di 5 akun Jangka waktu pinjaman > 60 hari.

Kesalahan pengambilan sampel

itu. dengan probabilitas 0,954 dapat dikatakan bahwa jangka waktu penggunaan pinjaman berfluktuasi

1 dalam 30 hari+(-)2hari, mis.

2 saham pinjaman dengan jangka waktu > 60 hari.

bagian sampel akan menjadi

tentukan kesalahan berbagi

dengan probabilitas 0,954, dapat dikatakan bahwa porsi pinjaman bank dengan jatuh tempo >60 hari akan berada dalam batas

Sampel tipikal.

Populasi umum dibagi menjadi kelompok-kelompok khas yang homogen. Kemudian, dari setiap kelompok tipikal, pemilihan unit individual ke dalam sampel dibuat dengan sampel acak atau mekanis.

Contoh: pr.tr. pekerja, yang terdiri dari kelompok-kelompok terpisah berdasarkan kualifikasi.

Fitur penting- memberikan hasil yang lebih akurat dibandingkan yang lain, tk. sampel termasuk unit tipologis.

Pemilihan unit pengamatan dalam himpunan sampel dilakukan dengan berbagai metode. Pertimbangkan sampel tipikal dengan pemilihan proporsional dalam kelompok tipikal.

Ukuran sampel dari kelompok tipikal dalam pemilihan sebanding dengan jumlah grup tipikal ditentukan oleh rumus:

di mana =V sampel dari kelompok tipikal

= V dari grup tipikal.

Kesalahan marjinal rata-rata sampel dan proporsi untuk metode pemilihan acak dan mekanis non-repetitif dalam kelompok tipikal dihitung dengan rumus


di mana = varians sampel

Contoh: sampel khas

Untuk menentukan rata-rata usia laki-laki memasuki perkawinan, diambil sampel 5% di kecamatan dengan pemilihan satuan sebanding dengan jumlah tipikal kelompok.

Seleksi mekanis digunakan dalam kelompok

Dengan probabilitas 0,954, tentukan batas-batas di mana rata-rata usia pria yang telah menikah dan proporsi pria yang telah menikah lagi akan berbohong.

usia rata-rata menikah untuk pria dalam sampel

kesalahan pengambilan sampel marjinal

dengan probabilitas 0,954 dapat dikatakan bahwa rata-rata usia pria yang akan menikah akan berada dalam

untuk pria yang memasuki pernikahan kedua berada di dalam

bagian sampel ditentukan

varians sampel dari fitur alternatif adalah

dengan probabilitas 0,954 dapat dikatakan bahwa proporsi mereka yang menikah untuk kedua kalinya adalah dalam

pengambilan sampel serial.

Dengan sampling serial, populasi dibagi menjadi kelompok-kelompok dengan ukuran yang sama – seri. Populasi sampel adalah seri terpilih. Di dalam deret tersebut, dilakukan pengamatan terus menerus terhadap satuan-satuan yang termasuk ke dalam deret tersebut.

Dengan pilihan berulang dan ditentukan oleh rumus

di mana
- varians interseri

di mana
contoh rata-rata dari seri

rata-rata sampel dari sampel serial

R- jumlah deret populasi umum

r - jumlah seri yang dipilih

Contoh: di bengkel 10 brigade, untuk mempelajari produktivitas kerja mereka, sampel serial 20% akan dilakukan, yang mencakup 2 brigade. Sebagai hasil dari survei, ditemukan bahwa

dengan probabilitas 0,997 untuk menentukan batas di mana output rata-rata pekerja toko akan berada.

mean sampel dari sampel serial ditentukan oleh rumus

dengan probabilitas 0,997 dapat dikatakan bahwa output rata-rata pekerja toko berada dalam

Ada 200 kotak suku cadang, 40 buah di setiap kotak, di gudang produk jadi bengkel. Pengambilan sampel serial 10% akan dilakukan untuk memeriksa kualitas produk jadi. Dari hasil sampling didapatkan bahwa untuk part yang cacat adalah 15%. Varians sampel serial adalah 0,0049.

Dengan probabilitas 0,997, tentukan batas proporsi produk cacat dalam sekumpulan kotak adalah

Proporsi bagian yang rusak akan berada dalam

tentukan kesalahan pengambilan sampel marjinal untuk bagian dengan rumus

dengan probabilitas 0,997 dapat dikatakan bahwa proporsi bagian yang rusak

di dalam pesta ada di dalam

Dalam praktek merancang pengamatan sampel, ada kebutuhan untuk menemukan ukuran sampel, yang diperlukan untuk memastikan akurasi tertentu dalam perhitungan karakteristik umum - rata-rata dan proporsi.

Kesalahan sampling marjinal, probabilitas kemunculannya, dan variasi fitur diketahui sebelumnya.

Dengan acak pemilihan ulang ukuran sampel ditentukan oleh rumus

dengan pemilihan non-repetitif dan mekanis acak, ukuran sampel

untuk sampel tipikal

untuk pengambilan sampel serial

Misalnya, 2000 keluarga tinggal di distrik tersebut.

Direncanakan akan dilakukan survey sampel terhadap mereka dengan metode random non-repetitive selection untuk mencari rata-rata jumlah anggota keluarga.

Tentukan ukuran sampel yang diperlukan, asalkan dengan probabilitas 0,954 kesalahan pengambilan sampel tidak melebihi 1 orang dengan standar deviasi 3 orang.

10 ribu orang tinggal di kota. keluarga. Dengan menggunakan sampling mekanis, diusulkan untuk menentukan proporsi keluarga dengan tiga anak atau lebih. Berapa ukuran sampel agar kesalahan pengambilan sampel kurang dari 0,02 dengan probabilitas P=0,954 jika varians diketahui 0,02 dari survei sebelumnya?

Rencana:

1. Masalah statistik matematika.

2. Jenis sampel.

3. Metode seleksi.

4. Distribusi statistik sampel.

5. Fungsi distribusi empiris.

6. poligon dan histogram.

7. Karakteristik numerik dari deret variasi.

8. Estimasi statistik parameter distribusi.

9. Estimasi interval parameter distribusi.

1. Tugas dan metode statistik matematika

statistik matematika adalah cabang matematika yang dikhususkan untuk metode pengumpulan, analisis, dan pemrosesan hasil data pengamatan statistik untuk tujuan ilmiah dan praktis.

Biarkan diperlukan untuk mempelajari satu set objek homogen sehubungan dengan beberapa fitur kualitatif atau kuantitatif yang mencirikan objek ini. Misalnya, jika ada sekumpulan bagian, maka standar bagian dapat berfungsi sebagai tanda kualitatif, dan ukuran bagian yang dikontrol dapat berfungsi sebagai tanda kuantitatif.

Terkadang studi berkelanjutan dilakukan, mis. memeriksa setiap objek sehubungan dengan fitur yang diinginkan. Dalam praktiknya, survei yang komprehensif jarang digunakan. Misalnya, jika populasi berisi jumlah objek yang sangat besar, maka secara fisik tidak mungkin untuk melakukan survei secara terus menerus. Jika survei objek dikaitkan dengan kehancurannya atau membutuhkan biaya material yang besar, maka tidak masuk akal untuk melakukan survei lengkap. Dalam kasus seperti itu, sejumlah objek (kumpulan sampel) yang terbatas dipilih secara acak dari seluruh populasi dan menjadi sasaran studi mereka.

Tugas utama statistik matematika adalah mempelajari seluruh populasi berdasarkan data sampel, tergantung pada tujuannya, yaitu. studi tentang sifat-sifat probabilistik populasi: hukum distribusi, karakteristik numerik, dll. untuk membuat keputusan manajerial dalam kondisi ketidakpastian.

2. Jenis sampel

Populasi adalah himpunan objek dari mana sampel dibuat.

Populasi sampel (sampel) adalah kumpulan objek yang dipilih secara acak.

Ukuran populasi adalah jumlah objek dalam koleksi ini. Volume populasi umum dilambangkan N, selektif - n.

Contoh:

Jika dari 1000 bagian 100 bagian dipilih untuk diperiksa, maka volume populasi umum N = 1000, dan ukuran sampel n = 100.

Pengambilan sampel dapat dilakukan dengan dua cara: setelah objek dipilih dan diamati di atasnya, dapat dikembalikan atau tidak dikembalikan ke populasi umum. Itu. Sampel dibagi menjadi berulang dan tidak berulang.

Ulangditelepon contoh, di mana objek yang dipilih (sebelum memilih yang berikutnya) dikembalikan ke populasi umum.

Tidak berulangditelepon contoh, di mana objek yang dipilih tidak dikembalikan ke populasi umum.

Dalam prakteknya, seleksi acak non-repetitif biasanya digunakan.

Agar data sampel dapat menilai dengan cukup yakin tentang fitur yang menarik dalam populasi umum, objek sampel harus mewakilinya dengan benar. Sampel harus benar-benar mewakili proporsi populasi. Sampel harus perwakilan (representatif).

Berdasarkan hukum bilangan besar, dapat dikatakan bahwa sampel akan representatif jika dilakukan secara acak.

Jika ukuran populasi umum cukup besar, dan sampel hanya sebagian kecil dari populasi ini, maka perbedaan antara sampel berulang dan tidak berulang dihapus; dalam kasus yang membatasi, ketika populasi umum yang tak terbatas dipertimbangkan, dan sampel memiliki ukuran yang terbatas, perbedaan ini menghilang.

Contoh:

Dalam jurnal American Literary Review, dengan menggunakan metode statistik, sebuah studi dibuat tentang ramalan mengenai hasil pemilihan presiden AS yang akan datang pada tahun 1936. Pelamar untuk posting ini adalah F.D. Roosevelt dan A.M. Landon. Buku referensi pelanggan telepon diambil sebagai sumber untuk populasi umum orang Amerika yang diteliti. Dari jumlah tersebut, 4 juta alamat dipilih secara acak, di mana editor majalah mengirimkan kartu pos yang meminta mereka untuk mengekspresikan sikap mereka terhadap calon presiden. Setelah memproses hasil jajak pendapat, majalah itu menerbitkan perkiraan sosiologis bahwa Landon akan memenangkan pemilihan mendatang dengan margin besar. Dan ... saya salah: Roosevelt menang.
Contoh ini dapat dilihat sebagai contoh sampel yang tidak representatif. Faktanya adalah bahwa di Amerika Serikat pada paruh pertama abad kedua puluh, hanya sebagian besar penduduk, yang mendukung pandangan Landon, yang memiliki telepon.

3. Metode pemilihan

Dalam prakteknya, berbagai metode seleksi digunakan, yang dapat dibagi menjadi 2 jenis:

1. Seleksi tidak memerlukan pembagian populasi menjadi beberapa bagian (a) acak sederhana tanpa pengulangan; b) pengulangan acak sederhana).

2. Seleksi, dimana populasi umum dibagi menjadi beberapa bagian. (sebuah) pilihan khas; b) seleksi mekanis; di) serial pilihan).

Acak sederhana panggil ini pilihan, di mana objek diekstraksi satu per satu dari seluruh populasi umum (secara acak).

Khasditelepon pilihan, di mana objek dipilih bukan dari seluruh populasi umum, tetapi dari masing-masing bagian "khas"-nya. Misalnya, jika suatu suku cadang diproduksi pada beberapa mesin, maka pemilihan tidak dilakukan dari seluruh rangkaian suku cadang yang diproduksi oleh semua mesin, tetapi dari produk setiap mesin secara terpisah. Seleksi semacam itu digunakan ketika sifat yang diperiksa berfluktuasi secara nyata di berbagai bagian "khas" dari populasi umum.

Mekanisditelepon pilihan, di mana populasi umum secara "mekanis" dibagi menjadi kelompok sebanyak objek yang akan dimasukkan dalam sampel, dan satu objek dipilih dari setiap kelompok. Misalnya, jika Anda perlu memilih 20% bagian yang dibuat oleh mesin, maka setiap bagian ke-5 dipilih; jika diperlukan untuk memilih 5% dari bagian - setiap tanggal 20, dll. Terkadang pemilihan seperti itu mungkin tidak memastikan sampel yang representatif (jika setiap rol putar ke-20 dipilih, dan pemotong segera diganti setelah pemilihan, maka semua rol yang diputar dengan pemotong tumpul akan dipilih).

Serialditelepon pilihan, di mana objek dipilih dari populasi umum tidak satu per satu, tetapi dalam "seri", yang dikenakan survei terus menerus. Misalnya, jika produk diproduksi oleh sekelompok besar mesin otomatis, maka produk dari beberapa mesin saja yang akan menjalani pemeriksaan terus menerus.

Dalam praktiknya, seleksi gabungan sering digunakan, di mana metode di atas digabungkan.

4. Distribusi statistik sampel

Biarkan sampel diambil dari populasi umum, dan nilainya x 1-diamati sekali, x 2 -n 2 kali, ... x k - n k kali. n= n 1 +n 2 +...+n k adalah ukuran sampel. Nilai yang diamatiditelepon pilihan, dan urutannya adalah varian yang ditulis dalam urutan menaik - seri variasi. Jumlah pengamatanditelepon frekuensi (frekuensi absolut), dan hubungannya dengan ukuran sampel- frekuensi relatif atau probabilitas statistik.

Jika jumlah opsi besar atau sampel dibuat dari populasi umum kontinu, maka deret variasi tidak disusun oleh nilai poin individu, tetapi oleh interval nilai populasi umum. Rangkaian seperti itu disebut selang. Panjang interval harus sama.

Distribusi statistik sampel disebut daftar opsi dan frekuensi yang sesuai atau frekuensi relatif.

Distribusi statistik juga dapat ditentukan sebagai urutan interval dan frekuensi yang sesuai (jumlah frekuensi yang termasuk dalam interval nilai ini)

Deret frekuensi variasi titik dapat direpresentasikan dengan tabel:

x saya
x 1
x2

x k
dan aku
n 1
n 2

nk

Demikian pula, seseorang dapat mewakili serangkaian variasi titik frekuensi relatif.

Dan:

Contoh:

Jumlah huruf dalam beberapa teks X ternyata sama dengan 1000. Huruf pertama adalah "i", yang kedua - huruf "i", yang ketiga - huruf "a", yang keempat - "u". Kemudian muncul huruf "o", "e", "y", "e", "s".

Mari kita tuliskan tempat-tempat yang mereka tempati dalam alfabet, masing-masing, kita memiliki: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Setelah mengurutkan angka-angka ini dalam urutan menaik, kami mendapatkan seri variasi: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Frekuensi kemunculan huruf dalam teks: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7," aku "- 22.

Kami menyusun rangkaian frekuensi variasi titik:

Contoh:

Distribusi frekuensi pengambilan sampel volume ditentukan n = 20.

Buatlah deret variasi titik dari frekuensi relatif.

x saya

2

6

12

dan aku

3

10

7

Larutan:

Temukan frekuensi relatif:


x saya

2

6

12

aku

0,15

0,5

0,35

Saat membangun distribusi interval, ada aturan untuk memilih jumlah interval atau ukuran setiap interval. Kriteria di sini adalah rasio optimal: dengan peningkatan jumlah interval, keterwakilan meningkat, tetapi jumlah data dan waktu pemrosesan meningkat. Perbedaan x max - x min antara varian nilai terbesar dan terkecil disebut dalam skala besar sampel.

Untuk menghitung jumlah interval k biasanya menerapkan rumus empiris Sturgess (menyiratkan pembulatan ke bilangan bulat terdekat yang sesuai): k = 1 + 3,322 log n .

Dengan demikian, nilai setiap interval h dapat dihitung dengan menggunakan rumus:

5. Fungsi distribusi empiris

Pertimbangkan beberapa sampel dari populasi umum. Biarkan distribusi statistik frekuensi atribut kuantitatif X diketahui. Mari kita perkenalkan notasi: n xadalah jumlah pengamatan di mana nilai fitur kurang dari x diamati; n adalah jumlah total pengamatan (ukuran sampel). Frekuensi kejadian relatif X<х равна nx /n . Jika x berubah, maka frekuensi relatif juga berubah, yaitu Frekuensi relatifn x /nadalah fungsi dari x. Karena itu ditemukan secara empiris, itu disebut empiris.

Fungsi distribusi empiris (fungsi distribusi sampel) panggil fungsinya, yang menentukan untuk setiap x frekuensi relatif dari peristiwa X<х.


di mana jumlah opsi kurang dari x,

n - ukuran sampel.

Berbeda dengan fungsi distribusi empiris sampel, fungsi distribusi F(x) dari populasi disebut fungsi distribusi teoritis.

Perbedaan antara fungsi distribusi empiris dan teoritis adalah bahwa fungsi teoritis F (x) menentukan probabilitas suatu peristiwa X F*(x) cenderung dalam probabilitas ke probabilitas F (x) dari peristiwa ini. Artinya, untuk n besar F*(x) dan F(x) sedikit berbeda satu sama lain.

Itu. disarankan untuk menggunakan fungsi distribusi empiris sampel untuk representasi perkiraan dari fungsi distribusi teoretis (integral) dari populasi umum.

F*(x) memiliki semua properti F(x).

1. Nilai F*(x) milik interval.

2. F*(x) adalah fungsi tak turun.

3. Jika adalah varian terkecil, maka F*(x) = 0, pada x < x1; jika x k adalah varian terbesar, maka F*(x) = 1, untuk x > x k .

Itu. F*(x) berfungsi untuk memperkirakan F(x).

Jika sampel diberikan oleh deret variasi, maka fungsi empiris memiliki bentuk:

Grafik fungsi empiris disebut kumulatif.

Contoh:

Plot fungsi empiris pada distribusi sampel yang diberikan.


Larutan:

Ukuran sampel n = 12 + 18 +30 = 60. Opsi terkecil adalah 2, yaitu. di x < 2. Peristiwa X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0.2 pada 2 < x < 6. Acara X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Karena x=10 adalah pilihan terbesar, maka F*(x) = 1 pada x>10. Fungsi empiris yang diinginkan memiliki bentuk:

Mengumpul:


Kumulasi memungkinkan untuk memahami informasi yang disajikan secara grafis, misalnya, untuk menjawab pertanyaan: “Tentukan jumlah pengamatan yang nilai fiturnya kurang dari 6 atau tidak kurang dari 6. F*(6) = 0.2 » Maka jumlah observasi yang nilai fitur yang diamati kurang dari 6 adalah 0.2* n \u003d 0.2 * 60 \u003d 12. Jumlah pengamatan di mana nilai fitur yang diamati tidak kurang dari 6 adalah (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Jika deret variasi interval diberikan, maka untuk mengkompilasi fungsi distribusi empiris, titik tengah interval ditemukan dan fungsi distribusi empiris diperoleh darinya sama dengan deret variasi titik.

6. Poligon dan histogram

Untuk kejelasan, berbagai grafik distribusi statistik dibangun: polinomial dan histogram

Poligon frekuensi- ini adalah garis putus-putus, segmen yang menghubungkan titik-titik ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), di mana opsinya, adalah frekuensi yang sesuai dengannya.

Poligon frekuensi relatif - ini adalah garis putus-putus, segmen yang menghubungkan titik-titik ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), di mana x i adalah opsi, w i adalah frekuensi relatif yang sesuai dengannya.

Contoh:

Plot polinomial frekuensi relatif di atas distribusi sampel yang diberikan:

Larutan:

Dalam kasus fitur kontinu, disarankan untuk membuat histogram, yang intervalnya, yang berisi semua nilai yang diamati dari fitur, dibagi menjadi beberapa interval parsial dengan panjang h dan untuk setiap interval parsial n i ditemukan - jumlah frekuensi varian yang termasuk dalam interval ke-i. (Misalnya, ketika mengukur tinggi atau berat badan seseorang, kita berhadapan dengan tanda kontinu).

Histogram frekuensi- ini adalah gambar berundak, terdiri dari persegi panjang, yang alasnya adalah interval parsial dengan panjang h, dan tingginya sama dengan rasio (kerapatan frekuensi).

Kotak Persegi panjang parsial ke-i sama dengan jumlah frekuensi varian interval ke-i, yaitu. luas histogram frekuensi sama dengan jumlah semua frekuensi, mis. ukuran sampel.

Contoh:

Hasil perubahan tegangan (dalam volt) dalam jaringan listrik diberikan. Susun rangkaian variasi, bangun poligon dan histogram frekuensi jika nilai tegangannya sebagai berikut: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Larutan:

Mari kita buat serangkaian variasi. Kami memiliki n = 20, x min =212, x maks =232.

Mari gunakan rumus Sturgess untuk menghitung jumlah interval.

Deret frekuensi variasi interval memiliki bentuk:


Kepadatan Frekuensi

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Mari kita buat histogram frekuensi:

Mari kita buat poligon frekuensi dengan terlebih dahulu mencari titik tengah interval:


Histogram frekuensi relatif panggil gambar langkah yang terdiri dari persegi panjang, yang alasnya adalah interval parsial dengan panjang h, dan tingginya sama dengan rasio w saya/ jam (kepadatan frekuensi relatif).

Kotak Persegi panjang parsial ke-i sama dengan frekuensi relatif dari varian yang jatuh ke dalam interval ke-i. Itu. luas histogram frekuensi relatif sama dengan jumlah semua frekuensi relatif, mis. satuan.

7. Karakteristik numerik dari seri variasi

Pertimbangkan karakteristik utama dari populasi umum dan sampel.

Sekunder umum disebut rata-rata aritmatika dari nilai-nilai fitur dari populasi umum.

Untuk nilai yang berbeda x 1 , x 2 , x 3 , …, x n . tanda populasi umum volume N kita miliki:

Jika nilai atribut memiliki frekuensi yang sesuai N 1 +N 2 +…+N k =N , maka


sampel berarti disebut mean aritmatika dari nilai-nilai fitur dari populasi sampel.

Jika nilai atribut memiliki frekuensi yang sesuai n 1 +n 2 +…+n k = n, maka


Contoh:

Hitung mean sampel untuk sampel: x 1 = 51,12; x 2 \u003d 51,07; x 3 \u003d 52,95; x 4 \u003d 52.93; x 5 \u003d 51.1; x 6 \u003d 52.98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Larutan:

Varians umum disebut rata-rata aritmatika dari deviasi kuadrat dari nilai-nilai karakteristik X dari populasi umum dari rata-rata umum.

Untuk nilai yang berbeda x 1 , x 2 , x 3 , …, x N dari tanda populasi volume N kita miliki:

Jika nilai atribut memiliki frekuensi yang sesuai N 1 +N 2 +…+N k =N , maka

Standar deviasi umum (standar) disebut akar kuadrat dari varians umum

Varians sampel disebut rata-rata aritmatika dari deviasi kuadrat dari nilai-nilai yang diamati dari fitur dari nilai rata-rata.

Untuk nilai beda x 1 , x 2 , x 3 , ..., x n dari tanda populasi sampel volume n kita peroleh :


Jika nilai atribut memiliki frekuensi yang sesuai n 1 +n 2 +…+n k = n, maka


Standar deviasi sampel (standar) disebut akar kuadrat dari varians sampel.


Contoh:

Himpunan sampling diberikan oleh tabel distribusi. Temukan varians sampel.


Larutan:

Dalil: Varians sama dengan selisih antara rerata kuadrat nilai fitur dan kuadrat rerata total.

Contoh:

Temukan varians untuk distribusi ini.



Larutan:

8. Perkiraan statistik parameter distribusi

Biarkan populasi umum dipelajari oleh beberapa sampel. Dalam hal ini, dimungkinkan untuk mendapatkan hanya nilai perkiraan dari parameter Q yang tidak diketahui, yang berfungsi sebagai perkiraannya. Jelas bahwa perkiraan dapat bervariasi dari satu sampel ke sampel lainnya.

Evaluasi statistikQ* parameter yang tidak diketahui dari distribusi teoretis disebut fungsi f, yang tergantung pada nilai sampel yang diamati. Tugas estimasi statistik parameter yang tidak diketahui dari sampel adalah untuk membangun fungsi seperti itu dari data pengamatan statistik yang tersedia, yang akan memberikan nilai perkiraan paling akurat dari nilai nyata, yang tidak diketahui peneliti, dari parameter ini.

Perkiraan statistik dibagi menjadi titik dan interval, tergantung pada cara mereka disediakan (angka atau interval).

Estimasi titik disebut estimasi statistik. parameter Q dari distribusi teoritis ditentukan oleh satu nilai parameter Q *=f (x 1 , x 2 , ..., x n), dimanax 1 , x 2 , ...,xn- hasil pengamatan empiris pada atribut kuantitatif X dari sampel tertentu.

Estimasi parameter tersebut diperoleh dari sampel yang berbeda paling sering berbeda satu sama lain. Selisih mutlak /Q *-Q / disebut kesalahan pengambilan sampel (estimasi).

Agar estimasi statistik memberikan hasil yang andal tentang parameter yang diestimasi, parameter tersebut harus tidak bias, efisien, dan konsisten.

Estimasi Poin, harapan matematis yang sama (tidak sama) dengan parameter yang diestimasi, disebut tidak bergeser (bergeser). M(Q *)=Q .

Selisih M( Q *)-Q disebut bias atau kesalahan sistematis. Untuk estimasi tak bias, kesalahan sistematik adalah 0.

efisien evaluasi Q *, yang, untuk ukuran sampel tertentu n, memiliki kemungkinan varians terkecil: D min(n = konstan). Penduga efektif memiliki spread paling kecil dibandingkan dengan penduga tak bias dan konsisten lainnya.

Kayadisebut statistik seperti itu evaluasi Q *, dimana untuk ncenderung dalam probabilitas ke parameter yang diestimasi Q , yaitu dengan peningkatan ukuran sampel n perkiraan cenderung dalam probabilitas ke nilai sebenarnya dari parameter Q.

Persyaratan konsistensi konsisten dengan hukum bilangan besar: semakin banyak informasi awal tentang objek yang diteliti, semakin akurat hasilnya. Jika ukuran sampel kecil, maka estimasi titik parameter dapat menyebabkan kesalahan serius.

Setiap sampel (volumen) dapat dianggap sebagai himpunan terurutx 1 , x 2 , ...,xn variabel acak independen yang terdistribusi identik.

Sampel berarti untuk sampel volume yang berbeda n dari populasi yang sama akan berbeda. Artinya, mean sampel dapat dianggap sebagai variabel acak, yang berarti bahwa kita dapat berbicara tentang distribusi mean sampel dan karakteristik numeriknya.

Rata-rata sampel memenuhi semua persyaratan yang dikenakan pada perkiraan statistik, mis. memberikan perkiraan rata-rata populasi yang tidak bias, efisien, dan konsisten.

Dapat dibuktikan bahwa. Dengan demikian, varians sampel adalah estimasi bias dari varians umum, memberikan nilai yang diremehkan. Artinya, dengan ukuran sampel yang kecil akan memberikan kesalahan sistematis. Untuk perkiraan yang tidak bias dan konsisten, cukup dengan mengambil kuantitasnya, yang disebut varian terkoreksi. yaitu

Dalam praktiknya, untuk memperkirakan varians umum, varians terkoreksi digunakan ketika: n < 30. Dalam kasus lain ( n >30) penyimpangan dari hampir tidak terlihat. Oleh karena itu, untuk nilai besar n kesalahan bias dapat diabaikan.

Kita juga dapat membuktikan bahwa frekuensi relatifn i / n adalah estimasi probabilitas yang tidak bias dan konsisten P(X=x i ). Fungsi distribusi empiris F*(x ) adalah estimasi yang tidak bias dan konsisten dari fungsi distribusi teoritis F(x)=P(X< x ).

Contoh:

Temukan estimasi tak bias dari mean dan varians dari tabel sampel.

x saya
dan aku

Larutan:

Ukuran sampel n=20.

Estimasi tak bias dari ekspektasi matematis adalah mean sampel.


Untuk menghitung estimasi varians yang tidak bias, pertama-tama kita temukan varians sampel:

Sekarang mari kita cari taksiran tak bias:

9. Perkiraan interval parameter distribusi

Interval adalah perkiraan statistik yang ditentukan oleh dua nilai numerik - ujung interval yang dipelajari.

Nomor> 0, dimana | T - T*|< , mencirikan keakuratan estimasi interval.

Tepercayaditelepon selang , yang dengan probabilitas tertentumencakup nilai parameter yang tidak diketahui Q . Melengkapi interval kepercayaan ke himpunan semua nilai parameter yang mungkin Q ditelepon daerah kritis. Jika daerah kritis terletak hanya pada satu sisi selang kepercayaan, maka selang kepercayaan disebut sepihak: sisi kiri, jika daerah kritis hanya ada di sebelah kiri, dan Pengguna tangan kanan kecuali di sebelah kanan. Jika tidak, interval kepercayaan disebut bilateral.

Keandalan, atau tingkat kepercayaan, Perkiraan Q (menggunakan Q *) sebutkan peluang terpenuhinya pertidaksamaan berikut: | T - T*|< .

Paling sering, probabilitas kepercayaan ditetapkan terlebih dahulu (0,95; 0,99; 0,999) dan persyaratannya harus mendekati satu.

Kemungkinanditelepon probabilitas kesalahan, atau tingkat signifikansi.

Biarkan | T - T*|< , kemudian. Ini berarti bahwa dengan probabilitasdapat dikatakan bahwa nilai sebenarnya dari parameter Q termasuk dalam interval. Semakin kecil deviasi, semakin akurat perkiraannya.

Batas (ujung) selang kepercayaan disebut batas kepercayaan, atau batas kritis.

Nilai batas interval kepercayaan tergantung pada hukum distribusi parameter Q*.

Nilai penyimpangansetengah lebar selang kepercayaan disebut akurasi penilaian.

Metode untuk membangun interval kepercayaan pertama kali dikembangkan oleh ahli statistik Amerika Y. Neumann. Akurasi Estimasi, probabilitas kepercayaan dan ukuran sampel n saling berhubungan. Karena itu, mengetahui nilai spesifik dari dua kuantitas, Anda selalu dapat menghitung yang ketiga.

Menemukan interval kepercayaan untuk memperkirakan ekspektasi matematis dari distribusi normal jika standar deviasi diketahui.

Biarkan sampel dibuat dari populasi umum, tunduk pada hukum distribusi normal. Biarkan standar deviasi umum diketahui, tetapi ekspektasi matematis dari distribusi teoretis tidak diketahui sebuah().

Rumus berikut ini valid:

Itu. sesuai dengan nilai deviasi yang ditentukanadalah mungkin untuk menemukan dengan probabilitas berapa rata-rata umum yang tidak diketahui milik interval. Dan sebaliknya. Dapat dilihat dari rumus bahwa dengan peningkatan ukuran sampel dan nilai probabilitas kepercayaan yang tetap, nilai- berkurang, mis. akurasi perkiraan meningkat. Dengan peningkatan keandalan (probabilitas kepercayaan), nilai-meningkat, mis. akurasi perkiraan menurun.

Contoh:

Sebagai hasil dari pengujian, diperoleh nilai-nilai berikut -25, 34, -20, 10, 21. Diketahui bahwa mereka mematuhi hukum distribusi normal dengan standar deviasi 2. Temukan perkiraan a* untuk harapan matematis a. Plot interval kepercayaan 90% untuk itu.

Larutan:

Mari kita cari taksiran yang tidak bias

Kemudian


Interval kepercayaan untuk a memiliki bentuk: 4 - 1,47< sebuah< 4+ 1,47 или 2,53 < a < 5, 47

Menemukan interval kepercayaan untuk memperkirakan ekspektasi matematis dari distribusi normal jika standar deviasi tidak diketahui.

Diketahui bahwa populasi umum tunduk pada hukum distribusi normal, di mana a dan. Akurasi Interval Keyakinan Menutupi dengan Keandalannilai sebenarnya dari parameter a, dalam hal ini, dihitung dengan rumus:

, di mana n adalah ukuran sampel, , - Koefisien siswa (harus ditemukan dari nilai yang diberikan n dan dari tabel "Titik kritis distribusi Siswa").

Contoh:

Sebagai hasil dari pengujian, nilai-nilai berikut diperoleh -35, -32, -26, -35, -30, -17. Diketahui bahwa mereka mematuhi hukum distribusi normal. Tentukan selang kepercayaan untuk mean populasi a dengan tingkat kepercayaan 0,9.

Larutan:

Mari kita cari taksiran yang tidak bias.

Ayo temukan.

Kemudian

Interval kepercayaan akan berbentuk(-29.2 - 5.62; -29.2 + 5.62) atau (-34.82; -23.58).

Menemukan interval kepercayaan untuk varians dan standar deviasi dari distribusi normal

Biarkan sampel volume acak diambil dari beberapa himpunan nilai umum yang didistribusikan menurut hukum normaln < 30 yang varian sampelnya dihitung: biasdan dikoreksi s 2. Kemudian untuk menemukan perkiraan interval dengan keandalan yang diberikanuntuk dispersi umumDsimpangan baku umumrumus berikut digunakan.


atau,

Nilai- temukan menggunakan tabel nilai titik kritisdistribusi Pearson.

Interval kepercayaan untuk varians ditemukan dari pertidaksamaan ini dengan mengkuadratkan semua bagian pertidaksamaan.

Contoh:

Kualitas 15 baut diperiksa. Dengan asumsi bahwa kesalahan dalam pembuatannya tunduk pada hukum distribusi normal, dan standar deviasi sampelsama dengan 5 mm, tentukan dengan keandalaninterval kepercayaan untuk parameter yang tidak diketahui

Kami mewakili batas-batas interval sebagai ketidaksetaraan ganda:

Ujung interval kepercayaan dua sisi untuk varians dapat ditentukan tanpa melakukan operasi aritmatika untuk tingkat kepercayaan tertentu dan ukuran sampel menggunakan tabel yang sesuai (Batas interval kepercayaan untuk varians tergantung pada jumlah derajat kebebasan dan keandalan ). Untuk melakukan ini, ujung interval yang diperoleh dari tabel dikalikan dengan varian terkoreksi s 2.

Contoh:

Mari kita selesaikan masalah sebelumnya dengan cara yang berbeda.

Larutan:

Mari kita cari varians yang dikoreksi:

Menurut tabel "Batas interval kepercayaan untuk varians tergantung pada jumlah derajat kebebasan dan keandalan", kami menemukan batas-batas interval kepercayaan untuk varians dik=14 dan: batas bawah 0,513 dan batas atas 2,354.

Kalikan batas yang diperoleh dengans 2 dan ekstrak akarnya (karena kita membutuhkan interval kepercayaan bukan untuk varians, tetapi untuk standar deviasi).

Seperti yang dapat dilihat dari contoh, nilai selang kepercayaan tergantung pada metode konstruksinya dan memberikan hasil yang dekat tetapi berbeda.

Untuk sampel berukuran cukup besar (n>30) batas-batas selang kepercayaan untuk simpangan baku umum dapat ditentukan dengan rumus: - beberapa nomor, yang ditabulasi dan diberikan dalam tabel referensi yang sesuai.

Jika 1- q<1, то формула имеет вид:

Contoh:

Mari kita selesaikan masalah sebelumnya dengan cara ketiga.

Larutan:

Sebelumnya ditemukans= 5,17. q(0,95; 15) = 0,46 - kami menemukan menurut tabel.

Kemudian: