Seri variasi disebut. Tentukan deret variasi

Deret variasi, elemennya.

Seorang peneliti tertarik pada kategori tarif pekerja mekanik
toko, melakukan survei terhadap 100 pekerja. Temukan nilai yang diamati
hadiah-naka dalam urutan menaik. Operasi ini disebut peringkat
data tistik. Akibatnya, kami mendapatkan seri berikut, yang menyebut-
Xia peringkat:

1,1,..1, 2,2..2, 3,3,..3, 4,4,..4, 5,5,..5, 6,6,..6.

Ini mengikuti dari seri peringkat bahwa fitur yang dipelajari (tarif
digit) mengambil enam nilai berbeda: 1, 2, 3, 4, 5, dan 6.

Lebih jauh berbagai arti hadiah-naka akan dipanggil pilihan-
mi,
dan dibawah variasi - memahami perubahan nilai atribut.

Tergantung pada nilai yang diambil oleh tanda, tanda-tanda dibagi
pada bervariasi secara diskrit dan terus menerus bervariasi.

Kategori tarif adalah fitur yang sangat bervariasi. Jumlah, tayangan-
berapa kali varian x muncul dalam serangkaian pengamatan disebut jam-
totoi
pilihan mx.

Alih-alih frekuensi varian x, seseorang dapat mempertimbangkan hubungannya dengan umum
jumlah pengamatan n, yang disebut sering varian dan penunjukan hubungannya-dimulai wx .

w x =m x /n=m x /åm x

Tabel yang memungkinkan Anda untuk menilai distribusi frekuensi (atau frekuensi) di antara opsi disebut seri variasi diskrit.

Seiring dengan konsep frekuensi, konsep tersebut digunakan akumulasi frekuensi,
yang dilambangkan tx acc. Akumulasi jam menunjukkan berapa banyak
pengamatan, tanda mengambil nilai kurang dari nilai x yang diberikan. Relatif
akumulasi frekuensi ke jumlah total n pengamatan disebut akumulasi-
frekuensi
dan menunjukkan w x nac. Jelas bahwa



w x nac =m x nac /n=m x nac /åm x .

Akumulasi frekuensi (frekuensi_ untuk seri variasi diskrit, dihitung dalam tabel berikut:

X mx m x nak w x nak
0+4=4 0,04
4+6=10 0,10
10+12=22 0,22
22+16=38 0,38
38+44=82 0,82
82+18=100 1,00
Di atas 6

Biarkan perlu untuk menyelidiki output per pekerja - operator mesin dari toko mekanik pada tahun pelaporan sebagai persentase dari tahun sebelumnya. Di sini, fitur yang dipelajari x adalah output pada tahun pelaporan sebagai persentase dari yang sebelumnya. Ini adalah tanda yang terus berubah. Untuk mengidentifikasi ciri ciri Variasi nilai atribut akan digabungkan ke dalam kelompok pekerja yang outputnya bervariasi dalam 10%. Kami akan menyajikan data yang dikelompokkan dalam tabel:

Riset Fitur x Jumlah pekerja m Bagian dari pekerja w Akumulasi frekuensi m x acc w x nak
80-90 8/117 8/117
90-100 15/117 8+15=23 23/117
100-110 46/117 23+46=69 69/117
110-120 29/117 69+29=98 98/117
120-130 13/117 98+13=111 111/117
130-140 3/117 111+3=114 114/117
140-150 3/117 114+3=117 117/117
å

Dalam tabel frekuensi, m menunjukkan berapa banyak pengamatan yang diambil fitur tersebut, milik itu atau interval lainnya. Frekuensi ini disebut selang, dan rasionya terhadap jumlah pengamatan adalah frekuensi interval w. Tabel yang memungkinkan Anda untuk menilai distribusi frekuensi antara interval variasi dalam nilai fitur disebut seri variasi interval.

Deret variasi interval dibangun sesuai dengan data observasi untuk
fitur yang bervariasi secara terputus-putus, serta bervariasi secara diskrit, jika
sejumlah besar opsi yang diamati. Sebuah seri variasi diskrit dibangun
hanya untuk fitur variabel diskrit

Kadang-kadang deret variasi interval diganti secara kondisional dengan deret diskrit.
Kemudian nilai tengah interval diambil sebagai opsi x, dan, karenanya,
frekuensi interval - untuk tx.

Untuk menentukan interval konstan optimal h sering digunakan Rumus Sturgess:

h=(x maks – x mnt)/(1+3,322*lg n).

Konstruksi int.var.series

Frekuensi m menunjukkan berapa banyak pengamatan yang dilakukan sifat tersebut pada nilai-nilai milik interval tertentu. Frekuensi seperti itu disebut frekuensi interval, dan rasionya terhadap jumlah total pengamatan adalah frekuensi interval w. Tabel yang memungkinkan untuk menilai distribusi frekuensi (atau frekuensi) antara interval variasi dalam nilai fitur disebut deret variasi interval.

Deret variasi interval dibangun sesuai dengan data pengamatan untuk sifat yang terus berubah, serta untuk sifat yang bervariasi secara diskrit, jika jumlah varian yang diamati besar. Seri variasi diskrit dibuat hanya untuk fitur yang bervariasi secara diskrit.

Kadang-kadang deret variasi interval diganti secara kondisional dengan deret diskrit. Kemudian nilai tengah interval diambil sebagai varian x, dan frekuensi interval yang sesuai diambil sebagai mx

Untuk menyusun deret variasi interval, perlu ditentukan nilai intervalnya, set skala penuh interval dan, sesuai dengan itu, kelompokkan hasil pengamatan.

Untuk menentukan interval konstan optimal h, rumus Sturgess sering digunakan:

h = (xmax - xmin) /(1+ 3.322 log n) .

di mana xmax xmin masing-masing adalah opsi maksimum dan minimum. Jika, sebagai hasil perhitungan, h ternyata bilangan pecahan, maka bilangan bulat terdekat atau pecahan sederhana terdekat harus diambil sebagai nilai interval.

Direkomendasikan untuk mengambil nilai a1=xmin-h/2 sebagai awal dari interval pertama; awal interval kedua bertepatan dengan akhir interval pertama dan sama dengan a2=a1 +h; awal interval ketiga bertepatan dengan akhir detik dan sama dengan a3=a2 + h. Konstruksi interval berlanjut sampai awal interval berikutnya dengan urutan tidak lebih besar dari xmax. Setelah menetapkan skala interval, hasil pengamatan harus dikelompokkan.

5) Konsep, bentuk ekspresi dan jenis indikator statistik.

statistik adalah karakteristik kuantitatif dari fenomena dan proses sosial-ekonomi dalam hal kepastian kualitatif. Kepastian kualitatif dari indikator tersebut terletak pada kenyataan bahwa indikator tersebut berhubungan langsung dengan konten internal fenomena atau proses yang sedang dipelajari, esensinya.

Sistem indikator statistik adalah seperangkat indikator yang saling terkait yang memiliki struktur level tunggal atau multi level dan ditujukan untuk memecahkan masalah statistik tertentu.

Tidak seperti tanda, indikator statistik diperoleh dengan perhitungan. Ini bisa berupa hitungan sederhana unit populasi, penjumlahan nilai atributnya, perbandingan 2 nilai atau lebih, atau perhitungan yang lebih kompleks.

Sebuah perbedaan dibuat antara indikator statistik tertentu dan kategori-indikator.

Statistik spesifik mencirikan ukuran, besarnya fenomena atau proses yang dipelajari di tempat tertentu dan dalam waktu yang diberikan. Namun, di karya teoretis dan pada tahap desain observasi statistik, mereka juga beroperasi dengan indikator absolut atau kategori indikator.

Indikator kategori mencerminkan esensi, umum sifat khas indikator statistik tertentu dari jenis yang sama tanpa menentukan tempat, waktu dan nilai numerik. Semua indikator statistik dibagi menurut cakupan unit populasi menjadi individu dan bebas, dan menurut bentuknya - menjadi absolut, relatif dan rata-rata.

Indikator individu mencirikan objek yang terpisah atau unit populasi yang terpisah - perusahaan, perusahaan, bank, dll. Contohnya adalah jumlah personel industri dan produksi suatu perusahaan. Atas dasar korelasi dua indikator absolut individu yang mencirikan objek atau unit yang sama, diperoleh indikator relatif individu.

Indikator ringkasan tidak seperti yang individu, mereka mencirikan sekelompok unit, yang merupakan bagian dari populasi statistik atau seluruh populasi secara keseluruhan. Indikator-indikator ini dibagi menjadi yang volumetrik dan yang dihitung.

Indikator volume diperoleh dengan menambahkan nilai-nilai atribut unit individu populasi. Nilai yang dihasilkan, yang disebut volume atribut, dapat bertindak sebagai indikator volume absolut, dan dapat dibandingkan dengan nilai absolut volume lain atau volume populasi. Dalam 2 kasus terakhir, volumetrik relatif dan rata-rata volumetrik diperoleh.

Perkiraan indikator, dihitung dengan berbagai rumus, berfungsi untuk memecahkan individu tugas statistik analisis - pengukuran variasi, karakteristik perubahan struktural, penilaian hubungan, dll. Mereka juga dibagi menjadi absolut, relatif atau rata-rata.

Kelompok ini mencakup indeks, koefisien kedekatan, kesalahan pengambilan sampel dan indikator lainnya.

Cakupan unit populasi dan bentuk ekspresi adalah yang utama, tetapi bukan satu-satunya fitur klasifikasi indikator statistik. penting fitur klasifikasi juga merupakan faktor waktu. Proses dan fenomena sosial-ekonomi tercermin dalam indikator statistik atau pada saat tertentu waktu, biasanya tanggal tertentu, awal atau akhir bulan, tahun, atau periode tertentu- hari, minggu, bulan, kuartal, tahun. Dalam kasus pertama, indikatornya adalah sejenak, di kedua - selang.

Tergantung pada milik satu atau dua objek studi, ada: objek tunggal dan indikator antar-objek. Jika yang pertama mencirikan hanya satu objek, maka yang terakhir diperoleh dengan membandingkan dua kuantitas yang terkait dengan objek yang berbeda.

Dari sudut kepastian spasial, indikator statistik dibagi menjadi: semua teritorial mencirikan objek atau fenomena yang dipelajari di seluruh negeri, regional dan lokal berkaitan dengan setiap bagian dari wilayah atau objek yang terpisah.

6) Jenis dan hubungan indikator relatif.

Indikator relatif adalah hasil dari membagi satu indikator mutlak dengan yang lain dan menyatakan rasio antara karakteristik kuantitatif proses dan fenomena sosial-ekonomi. Oleh karena itu, dalam kaitannya dengan indikator mutlak indikator relatif atau indikator dalam bentuk nilai relatif adalah turunan.

Saat menghitung indikator relatif, indikator absolut yang ada di pembilang dari rasio yang dihasilkan disebut saat ini atau sebanding. Indikator yang dijadikan perbandingan dan yang menjadi penyebutnya disebut dasar atau dasar perbandingan. Indikator relatif dapat dinyatakan sebagai persentase, ppm, rasio, atau dapat disebut angka.

Semua indikator relatif yang digunakan dalam praktik dibagi menjadi:

dinamika; rencana; pelaksanaan rencana; struktur; koordinasi; Intensitas dan tingkat pengembangan eco-go; perbandingan.

Indikator relatif dinamika pra-adalah rasio tingkat proses atau fenomena yang diteliti untuk periode waktu tertentu dengan tingkat proses atau fenomena yang sama di masa lalu.

OPD = indikator saat ini / sebelumnya. Atau garis dasar.

Nilai yang dihitung dengan cara ini menunjukkan berapa kali level saat ini melebihi yang sebelumnya atau berapa proporsi yang terakhir. Jika indikator ini dinyatakan sebagai rasio kelipatan, itu disebut faktor pertumbuhan, ketika koefisien ini dikalikan dengan 100%, kita mendapatkan tingkat pertumbuhan.

Indeks struktur relatif mewakili rasio bagian struktural dari objek yang diteliti dan keseluruhannya. Indikator relatif struktur dinyatakan dalam pecahan unit atau sebagai persentase. Nilai yang dihitung (d i), masing-masing disebut bagian atau berat jenis, menunjukkan bagian mana yang memiliki atau yang berat jenis memiliki bagian ke-i secara total.

Indikator relatif koordinasi mencirikan rasio bagian-bagian individu dari keseluruhan satu sama lain. Dalam hal ini, bagian yang memiliki pangsa terbesar atau merupakan prioritas dari sudut pandang ekonomi, sosial atau lainnya dipilih sebagai dasar perbandingan. Hasilnya adalah berapa banyak unit setiap bagian struktural yang dihitung untuk 1 unit bagian struktural dasar.

Indikator intensitas relatif mencirikan tingkat distribusi proses atau fenomena yang diteliti dalam lingkungan yang melekat. Indikator ini dihitung ketika nilai mutlak ternyata tidak cukup untuk merumuskan kesimpulan yang masuk akal tentang skala fenomena, ukurannya, kejenuhan, dan kepadatan distribusinya. Hal ini dapat dinyatakan sebagai persentase, ppm atau menjadi nilai bernama. Berbagai indikator intensitas relatif adalah indikator relatif dari tingkat pembangunan ramah lingkungan, mencirikan produksi per kapita dan bermain peran penting dalam menilai perkembangan perekonomian negara. Dari segi bentuk ekspresi, indikator-indikator ini mendekati indikator rata-rata, yang sering menyebabkan kebingungan atau identifikasi mereka. Perbedaan di antara mereka hanya terletak pada kenyataan bahwa ketika menghitung rata-rata, kita berurusan dengan satu set unit, yang masing-masing merupakan pembawa fitur rata-rata.

Indeks Perbandingan Relatif adalah rasio indikator absolut dengan nama yang sama yang mencirikan objek yang berbeda(perusahaan, firma, wilayah, distrik, dll.)

Indikator variasi

Studi tentang variasi (perubahan nilai suatu sifat dalam populasi) memiliki sangat penting dalam statistik dan penelitian sosial dan ekonomi pada umumnya. Indikator variasi absolut dan relatif, yang mencirikan fluktuasi nilai-nilai atribut yang bervariasi, memungkinkan, khususnya, untuk mengukur tingkat koneksi dan hubungan, untuk menilai tingkat homogenitas populasi, kekhasan dan stabilitas rata-rata, dan untuk menentukan besarnya kemungkinan kesalahan pengamatan sampel.

Indikator mutlak variasi meliputi kisaran variasi, rata-rata deviasi linier, varians, rata-rata simpangan baku dan deviasi triwulanan.

Rentang variasi menunjukkan seberapa besar nilai perubahan atribut yang bervariasi secara kuantitatif

R=xmax-xmin, di mana xmax(xmin) adalah nilai maksimum (minimum) atribut dalam agregat (dalam deret distribusi).

Deviasi linier rata-rata d didefinisikan sebagai nilai rata-rata dari penyimpangan opsi sifat dari rata-rata di tingkat pertama, diambil oleh modulo:

Deviasi linier rata-rata relatif jarang digunakan untuk menilai variasi suatu sifat. Biasanya, varians dan standar deviasi dihitung.

Jika perlu membandingkan fluktuasi beberapa fitur dalam satu set atau fitur yang sama di beberapa set dengan berbagai indikator pusat distribusi, kemudian gunakan indikator variasi relatif.

Ini termasuk indikator berikut:

1. Koefisien osilasi:

2. Deviasi linier relatif:

3. Koefisien variasi:

4. Indikator relatif variasi kuartil:

Ukuran variasi relatif yang paling umum digunakan adalah koefisien variasi. Indikator ini tidak hanya digunakan untuk penilaian komparatif variasi, tetapi juga sebagai karakteristik homogenitas populasi. Himpunan dikatakan homogen jika<0,33.

Formulir.

1. Stat. pelaporan adalah suatu bentuk organisasi di mana unit yang dapat diobservasi memberikan informasi tentang kegiatan mereka dalam bentuk, aparat pengatur.

Kekhasan pelaporan adalah bahwa hal itu wajib dibenarkan, wajib dalam pelaksanaan dan secara hukum dikonfirmasi oleh tanda tangan kepala atau orang yang bertanggung jawab.

2. Pengamatan yang diorganisir secara khusus adalah contoh paling mencolok dan sederhana dari bentuk pengamatan ini. sensus. Pencacahan biasanya dilakukan secara berkala, serentak di seluruh wilayah studi dalam waktu yang bersamaan.

Badan statistik Rusia melakukan sensus populasi jenis pemukiman dan organisasi tertentu, sumber daya material, perkebunan abadi, objek konstruksi NZ, dll.

4. Formulir pendaftaran observasi - berdasarkan pemeliharaan register statistik. Di register masing-masing unit obl-I har-Xia sejumlah indikator. Dalam praktik statistik dalam negeri, register yang paling banyak digunakan adalah register us-I dan p/p.

Pendaftaran penduduk - dilakukan oleh kantor pendaftaran

Pendaftaran p / p - USREO lead.org. statistik.

jenis.

dapat dibagi menjadi beberapa kelompok sebagai berikut. unggulan:

a) pada saat pendaftaran

b) dalam hal cakupan unit cost-ti

Menurut waktu reg. mereka:

Saat ini (terus menerus)

Terputus-putus (berkala dan satu kali)

Saat ini ob. perubahan fenomena dan proses dicatat pada saat diterima (pencatatan kelahiran, kematian, perkawinan, perceraian, dll)

Berkala ob. dilakukan melalui interval (N sensus setiap 10 tahun)

Satu kali ob. diadakan baik tidak teratur atau hanya sekali (referendum)

Berdasarkan ruang lingkup cos.stat.obl. Ada:

padat

terputus-putus

Pengamatan terus menerus adalah survei dari semua unit cos

Pengamatan non-kontinyu mengasumsikan bahwa hanya sebagian dari penelitian yang dapat dipertahankan.

Ada beberapa jenis observasi terputus-putus:

Metode utama Himpunan

Selektif (sendiri)

monografi

Metode ini adalah x-Xia dalam hal, sebagai aturan, makhluk paling banyak dipilih, biasanya unit terbesar. burung hantu pada kucing. sarana tengah. bagian dari semua tanda yang dapat diamati.

Dengan pengamatan monografi, hati-hati. dikenakan unit belajar oh burung hantu atau m.b. atau tipikal untuk unit cov-ti ini. atau mewakili beberapa jenis fenomena baru.

Obs. dilakukan untuk mengidentifikasi atau tren yang muncul dalam pembangunan fenomena ini.

cara

Observasi langsung

Observasi dokumenter.

Langsung dipanggil. dapat diamati seperti itu dengan kucing pencatat sendiri, melalui pengukuran langsung, perhitungan, penahanan, menetapkan fakta yang tunduk pada pendaftaran dan, atas dasar ini, membuat entri dalam formulir.

Metode dokumenter obl. berdasarkan penggunaan berbagai dokumen sebagai sumber informasi, sebagai aturan akuntansi x-ra (yaitu pelaporan statistik)

Poll adalah metode persuasi dengan kucing. informasi yang diperlukan diperoleh dari kata-kata responden (yaitu, responden) (lisan, koresponden, kuesioner, pribadi, dll.)

Penentuan kesalahan pengambilan sampel.

Dalam proses pengamatan sampling, dua jenis kesalahan dibedakan: registrasi dan keterwakilan.

Kesalahan pendaftaran - penyimpangan antara nilai indikator yang diperoleh selama pengamatan statistik dan nilai sebenarnya. Kesalahan ini dapat muncul baik selama pengamatan terus menerus dan non-kontinyu. Kesalahan pendaftaran terjadi karena informasi yang salah atau tidak akurat. Sumber kesalahan jenis ini dapat berupa kesalahpahaman tentang esensi masalah, kurangnya perhatian registrar, kelalaian atau penghitungan berulang unit pengamatan individu. Kesalahan pendaftaran dibagi menjadi: sistematis karena sebab-sebab yang satu arah dan pemulusan hasil pemeriksaan (pembulatan bilangan), dan acak, yang merupakan hasil aksi berbagai faktor acak (penataan ulang angka-angka yang berdekatan). Kesalahan acak memiliki arah yang berbeda dan, dengan volume populasi yang disurvei yang cukup besar, saling meniadakan.

Kesalahan keterwakilan - penyimpangan nilai indikator populasi yang disurvei dari nilainya pada populasi awal. Kesalahan ini juga dibagi menjadi sistematis, muncul sebagai akibat dari pelanggaran prinsip pemilihan unit yang akan diamati dari populasi awal, dan acak yang muncul jika populasi yang dipilih secara tidak lengkap mereproduksi seluruh populasi secara keseluruhan. Jumlah kesalahan acak dapat diperkirakan.

Kesalahan pengambilan sampel- selisih antara nilai atribut pada populasi umum dengan nilai yang dihitung dari hasil pengamatan selektif. Dalam praktik survei sampel, kesalahan pengambilan sampel rata-rata dan marginal paling sering ditentukan.

Rata-rata kesalahan pengambilan sampel untuk metode pemilihan yang berbeda dihitung secara berbeda. Jika pemilihan acak atau mekanis, maka

Untuk rata-rata: m \u003d s 2 / (n) 1/2

Untuk pecahan: m = (w(1-w)/n) 1/2 , dimana

m - kesalahan pengambilan sampel rata-rata

s 2 - dispersi umum

n - volume kerangka sampel

Jika himpunan pengambilan sampel dibentuk berdasarkan sampel tipikal dan pemilihan unit dilakukan secara proporsional dengan volume grup tipikal, maka kesalahan rata-rata sama dengan:

Untuk tengah: m = (s i 2 / n) 1/2

Untuk berbagi: m = (w i (1-w i) / n) 1/2 , di mana

s i 2 - rata-rata varians intra-grup

w i adalah proporsi unit di seluruh kelompok yang memiliki sifat yang diteliti.

s i 2 = s 2 n i / n i

Rata-rata kesalahan pengambilan sampel serial sama dengan:

Untuk tengah: m = (d x 2 / r) 1/2

Untuk berbagi: m = (d 2 w / r) 1/2

d 2 w - varians saham antarkelompok

dx2 - dispersi antarkelompok dari sifat kuantitatif.

r adalah jumlah seri yang dipilih/

d 2 x \u003d (x i -x) 2 / r

d 2 w \u003d (w i - w) 2 / r

Jika pemilihan satuan dari populasi umum dilakukan secara non-repetitif, maka dilakukan perubahan pada rumus kesalahan rata-rata: (1-n/N) 1/2

Kesalahan pengambilan sampel marginal D dihitung sebagai produk dari faktor kepercayaan t dan rata-rata kesalahan sampling: D = t*m. D berhubungan dengan tingkat probabilitas yang menjaminnya. Tingkat ini menentukan faktor kepercayaan t, dan sebaliknya. Nilai t diberikan dalam tabel matematika khusus.

Menentukan ukuran sampel.

Ukuran sampel dihitung, sebagai suatu peraturan, pada tahap merancang survei sampel. Rumus untuk menentukan ukuran sampel mengikuti rumus untuk kesalahan pengambilan sampel marginal.

Volume sampel acak dan berulang mekanis ditentukan oleh rumus:

Untuk rata-rata n \u003d t 2 dtk 2 / H 2

Untuk berbagi n \u003d t 2 w (1-w) / D 2

Dalam hal pengambilan sampel non-coba lagi:

Untuk rata-rata n \u003d t 2 s 2 N / ND 2 + t 2 s 2

Untuk berbagi n = t 2 w(1-w)N / ND 2 +t 2 w(1-w).

Nilai s 2 dan w sebelum pengamatan acak tidak diketahui. Kira-kira mereka ditemukan seperti ini:

1. diambil dari survei sebelumnya;

2. jika nilai maksimum dan minimum atribut diketahui, maka standar deviasi ditentukan sesuai dengan aturan "tiga sigma":

s = xmax – xmin / 6

3. ketika mempelajari tanda alternatif, jika tidak ada informasi tentang bagiannya dalam populasi umum, diambil nilai maksimum yang mungkin w=0,5

Dengan pemilihan tipikal, sebanding dengan ukuran grup tipikal, ukuran sampel untuk setiap grup ditentukan oleh rumus: : n i = n*N i / N, di mana

aku - ukuran sampel dari kelompok ke-i

tidak ada- volume grup ke-i dalam gen ke-cos-ti.

Dengan sampel sebanding dengan variasi sifat, ukuran sampel dari masing-masing kelompok ditemukan sebagai berikut: n i = nN i s i /åN i s i .

Dengan resampling tipikal yang proporsional dengan ukuran kelompok, total ukuran sampel ditemukan sebagai berikut:

Untuk rata-rata n \u003d t 2 s 2 i / D 2

Untuk berbagi n \u003d t 2 w (1-w) / D 2

Dalam hal pengambilan sampel tipikal yang tidak berulang:

Untuk rata-rata n = t 2 s 2 i N / D 2 N+t 2 s 2 i

Untuk berbagi n = t 2 w(1-w)N / D 2 N+t 2 w(1-w)

Konsep dasar dan prasyarat penggunaan analisis korelasi dan regresi.

Korelasi adalah ketergantungan statistik antara variabel acak yang tidak memiliki karakter fungsional yang ketat, di mana perubahan di salah satu variabel acak menyebabkan perubahan dalam ekspektasi matematis yang lain.

Analisis korelasi- memiliki tugasnya penentuan kuantitatif kedekatan hubungan antara dua tanda dan antara tanda-tanda yang efektif dan banyak faktor. Ketatnya hubungan secara kuantitatif dinyatakan dengan nilai koefisien korelasi.

Korelasi-Regresi analisis sebagai konsep umum meliputi pengukuran keketatan, arah komunikasi dan pembentukan ekspresi analitis (bentuk) komunikasi (analisis regresi).

Analisis regresi terdiri dalam menentukan ekspresi analitis dari hubungan, di mana perubahan dalam satu nilai (disebut fitur dependen atau efektif) disebabkan oleh pengaruh satu atau lebih variabel independen (faktor), dan himpunan semua faktor lain yang juga mempengaruhi nilai dependen, membutuhkan - kerja keras untuk nilai konstan dan rata-rata. Regresi dapat berupa faktor tunggal (pair) dan faktor ganda (multiple).

Tujuan dari analisis regresi adalah penilaian ketergantungan fungsional dari nilai rata-rata bersyarat dari atribut efektif (Y) pada tanda-tanda faktorial (x 1, x 2, ... x k).

Premis utama analisis regresi adalah bahwa hanya tanda resultan (Y) yang mematuhi hukum distribusi normal, dan tanda faktor x 1, x 2, ..., x k dapat memiliki hukum distribusi arbitrer. Dalam analisis deret waktu, waktu t bertindak sebagai tanda faktor. Pada saat yang sama, dalam analisis regresi, adanya hubungan kausal antara tanda-tanda faktorial (Y) yang efektif (x 1, x 2, ..., x k) tersirat sebelumnya. Persamaan regresi, atau model statistik hubungan fenomena sosial-ekonomi, yang dinyatakan dengan fungsi Y x \u003d f (x 1, x 2, ..., x k), cukup memadai untuk fenomena atau proses simulasi yang sebenarnya jika hal-hal berikut diperhatikan: persyaratan untuk konstruksi mereka.

1. Totalitas data awal yang diteliti adalah homogen dan digambarkan secara matematis dengan fungsi kontinu.

2. Kemungkinan menggambarkan fenomena yang disimulasikan dengan satu atau lebih persamaan hubungan sebab-akibat.

3. Semua karakteristik faktor harus memiliki ekspresi kuantitatif (numerik).

4. Adanya sampel yang diteliti dalam jumlah yang cukup besar.

5. Hubungan sebab-akibat antara fenomena dan proses harus digambarkan dalam bentuk ketergantungan linier atau linier.

6. Tidak adanya batasan kuantitatif pada parameter model komunikasi.

7. Keteguhan struktur teritorial dan temporal populasi yang diteliti.

Validitas teoretis dari model hubungan yang dibangun berdasarkan analisis korelasi dan regresi dipastikan dengan mengamati hal-hal berikut: kondisi dasar.

1. Semua tanda dan distribusi bersamanya harus mematuhi hukum distribusi normal;

2. Varians dari sifat yang dimodelkan (Y) harus selalu konstan ketika mengubah nilai (Y) dan nilai-nilai dari sifat-sifat faktor.

3. Pengamatan terpisah harus independen, yaitu hasil yang diperoleh pada pengamatan ke-i tidak boleh berhubungan dengan pengamatan sebelumnya dan mengandung informasi tentang pengamatan selanjutnya, serta mempengaruhinya.

RINGKASAN TUJUAN DAN ISI

Observasi memberikan informasi pada setiap unit objek yang diteliti. Data yang diperoleh bukanlah indikator umum. Dengan bantuan mereka, tidak mungkin untuk menarik kesimpulan tentang objek secara keseluruhan tanpa pemrosesan data awal.

Oleh karena itu, tujuan dari tahap selanjutnya dari penelitian statistik adalah untuk mensistematisasikan data primer dan memperoleh, atas dasar ini, karakteristik ringkasan dari seluruh objek dengan menggunakan data statistik generalisasi.

Ringkasan - satu set operasi berurutan untuk menggeneralisasi fakta tunggal tertentu yang membentuk satu set, untuk mengidentifikasi fitur dan pola khas yang melekat pada fenomena yang diteliti secara keseluruhan.

jika selama pengamatan statistik dikumpulkan data tentang setiap unit suatu objek, maka hasil ringkasannya adalah data terperinci yang mencerminkan seluruh populasi secara keseluruhan

Ringkasan statistik harus dilakukan berdasarkan analisis teoretis awal dari fenomena dan proses sehingga selama ringkasan informasi tentang fenomena yang diteliti tidak hilang dan semua hasil statistik mencerminkan fitur karakteristik yang paling penting dari objek.

Menurut kedalaman pemrosesan materi, ringkasannya bisa sederhana dan kompleks.

Ringkasan sederhana adalah operasi penghitungan total untuk unit pengamatan yang sama.

Ringkasan kompleks adalah seperangkat operasi yang mencakup pengelompokan unit pengamatan, penghitungan total untuk setiap kelompok dan untuk keseluruhan objek, dan penyajian hasil pengelompokan dan ringkasan dalam bentuk tabel statistik.

Rangkuman tersebut didahului dengan pengembangan programnya, yang terdiri dari tahapan sebagai berikut: pemilihan karakteristik pengelompokan; penetapan urutan pembentukan kelompok; pengembangan sistem statistik pok-lei untuk mengkarakterisasi kelompok dan objek secara keseluruhan; pengembangan sistem tata letak tabel statistik di mana hasil ringkasan harus disajikan.

Menurut bentuk pengolahan bahan, ringkasan: terdesentralisasi dan terpusat.

Dengan ringkasan terdesentralisasi (biasanya digunakan dalam pemrosesan pelaporan statistik), pengembangan materi dilakukan secara bertahap. Dengan demikian, laporan perusahaan dirangkum oleh otoritas statistik entitas konstituen Federasi Rusia, dan hasilnya untuk wilayah tersebut telah dikirim ke Komite Statistik Negara Rusia, dan di sana mereka ditentukan untuk seluruh ekonomi nasional Rusia. negara.

Dengan ringkasan terpusat, semua materi utama memasuki satu organisasi, di mana ia diproses dari awal hingga akhir. Ringkasan terpusat biasanya digunakan untuk memproses materi dari survei statistik satu kali.

Menurut teknik pelaksanaannya, ringkasan statistik dibagi menjadi mekanis dan manual.

Ringkasan mekanis - di mana semua operasi dilakukan menggunakan komputer elektronik. Dengan ringkasan manual, semua operasi dasar (perhitungan grup dan total total) dilakukan secara manual.

Untuk melakukan ringkasan, sebuah rencana disusun yang menetapkan masalah organisasi: oleh siapa dan kapan semua operasi akan dilakukan, prosedur untuk melakukannya, komposisi informasi yang akan dipublikasikan di pers berkala.

Menutup baris din-ki

Saat menganalisis baris din-ki, menjadi perlu untuk menutupnya-menggabungkan dua baris atau lebih menjadi satu baris. Penutupan diperlukan dalam kasus di mana level seri tidak dapat dibandingkan karena perubahan wilayah, karena perubahan harga dan karena perubahan metodologi untuk menghitung level seri. perlu untuk menutup (menggabungkan) dua baris di atas menjadi satu. Ini dapat dilakukan dengan menggunakan faktor komparatif. Mengalikan data untuk tahun ini dengan koefisien yang diperoleh, kami mendapatkan serangkaian dinamika tertutup (sebanding) dari nilai absolut , dan setelah perubahan diambil sebagai 100%, dan sisanya dihitung ulang sebagai persentase relatif terhadap level ini, masing-masing.

30. Baris penyelarasan M-dy din-ki

Setiap rangkaian din-ki secara teoritis dapat direpresentasikan sebagai tiga komponen:

Trend (tren utama dan perkembangan rangkaian dinamis);

Fluktuasi siklik (berkala), termasuk fluktuasi musiman;

Fluktuasi acak.

Salah satu tugas yang muncul dalam analisis deret dinamis adalah menetapkan perubahan tingkat fenomena yang diteliti. Dalam beberapa kasus, pola perubahan tingkatan-tingkatan suatu deret din-ki cukup jelas, misalnya, penurunan tingkat-tingkat suatu deret secara sistematis, atau peningkatannya. terkadang level seri mengalami berbagai perubahan (terkadang meningkat, terkadang menurun). Dalam hal ini, kita hanya dapat berbicara tentang tren dan perkembangan umum: baik pertumbuhan atau penurunan.

Identifikasi tren utama dan perkembangannya (trend) disebut penyelarasan time series, dan identifikasi m-dy dari tren utama m-dy leveling.

Pemilihan tren secara langsung dapat dilakukan dengan tiga me-mi.

* Interval kasar md. Md ini didasarkan pada pembesaran garis waktu, yang mencakup level seri. Misalnya, deretan din-ki

keluaran harian diganti dengan serangkaian proyeksi keluaran bulanan, dan seterusnya.

* Rata-rata bergerak Md. Dalam m-de ini, level awal dari deret tersebut digantikan oleh nilai rata-rata, yang diperoleh dari level tertentu dan beberapa yang mengelilinginya secara simetris. Jumlah bilangan bulat dari tingkat di mana nilai rata-rata dihitung disebut interval pemulusan. Interval pemulusan bisa ganjil (3, 5, 7, dst. poin) atau genap (2, 4, 6, dst. poin). Perhitungan rata-rata dilakukan dengan metode geser, yaitu dengan secara bertahap mengeluarkan tingkat pertama dari periode geser yang diterima dan memasukkan yang berikutnya. Dengan pemulusan ganjil, nilai rata-rata aritmatika yang dihasilkan ditempatkan di tengah interval yang dihitung.

M-dika "-" dari pemulusan dengan rata-rata bergerak terdiri dari konvensionalitas dalam menentukan level yang dihaluskan untuk titik di awal dan akhir deret.

* Penyelarasan analitis - adalah cara paling efektif untuk mengidentifikasi tren dan perkembangan utama. Dalam hal ini, tingkat dari serangkaian dinamika dinyatakan sebagai fungsi waktu: Yt=f(t)

Tujuan dari keselarasan analitis deret ke-din adalah untuk menentukan pabrik ke-an analit f(t). Dalam praktiknya, menurut deret waktu yang tersedia, formulir ditetapkan dan parameter fungsi f(t) ditemukan, dan kemudian perilaku penyimpangan dari tren dianalisis.

Dalam ekonomi, fungsi bentuk sering digunakan: i = а0 +∑ ai +ti

Dari fungsi bentuk (3.12), paling sering ketika meratakan, sistem linier / (*) \u003d ao + a1 * t atau parabola f (t) \u003d a0 + att + a2 t2 digunakan.

Koefisien ao,a,a2,...,ap ditemukan dalam rumus dengan kuadrat terkecil.

Menurut metode ini, untuk menemukan parameter polinomial derajat ke-p, perlu untuk memecahkan sistem yang disebut persamaan normal:

nao+a1∑t=∑Y

ao∑t+ a1∑t*t= Y*t.

Tren menunjukkan bagaimana faktor sistematis mempengaruhi tingkat din-ki. Fluktuasi level di sekitar tren berfungsi sebagai ukuran dampak faktor residual (acak). Dampak ini dapat dinilai

sesuai dengan rumus simpangan baku.

Konsep dasar analisis korelasi-regresi.

Nama parameter Berarti
Subjek artikel: Seri variasi
Rubrik (kategori tematik) Produksi

Nilai yang diamati dari variabel acak X 1 , X 2 , …, x k ditelepon pilihan.

Frekuensi pilihan X saya dipanggil nomor dan aku (saya=1,…,k) menunjukkan berapa kali varian ini muncul dalam sampel.

Frekuensi(frekuensi relatif, pembagian) opsi x saya (saya=1,…,k) biasanya disebut rasio frekuensinya dan aku untuk ukuran sampel n.

Frekuensi dan frekuensi disebut timbangan.

Akumulasi frekuensi itu adalah kebiasaan untuk memanggil sejumlah opsi, yang nilainya kurang dari yang diberikan X:

Akumulasi frekuensi Merupakan kebiasaan untuk menyebut rasio frekuensi akumulasi dengan ukuran sampel:

seri variasi(seri statistik) - merupakan kebiasaan untuk memanggil urutan opsi yang ditulis dalam urutan menaik dan bobotnya yang sesuai.

Seri variasi seharusnya diskrit(contoh nilai variabel acak diskrit) dan terus menerus (interval)(pemilihan nilai variabel acak kontinu).

Deret variasi diskrit memiliki bentuk:

Ketika jumlah opsi besar atau fiturnya kontinu (variabel acak dapat mengambil nilai apa pun dalam interval tertentu), mereka adalah selang seri variasi.

Untuk membangun deret variasi interval, lakukan pengelompokan opsi - mereka dibagi menjadi interval terpisah:

Jumlah interval kadang-kadang ditentukan menggunakan Rumus Sturges:

Kemudian jumlah varian yang termasuk dalam setiap interval dihitung - frekuensi dan aku(atau frekuensi dan aku/n). Jika varian berada di perbatasan interval, maka itu dilampirkan ke interval yang tepat.

Deret variasi interval memiliki bentuk:

Pilihan
frekuensi

Fungsi distribusi empiris (statistik) itu adalah kebiasaan untuk memanggil fungsi yang nilainya di titik X sama dengan frekuensi relatif bahwa varian akan mengambil nilai kurang dari X(frekuensi kumulatif untuk X):

Poligon frekuensi disebut polyline yang segmennya menghubungkan titik-titik dengan koordinat ( X 1 ; n 1), (X 2 ; n 2), …, (x k; nk). Itu poligon frekuensi, yang merupakan analog statistik dari poligon distribusi.

Patut dikatakan bahwa untuk deret variasi kontinu, poligon dapat dibangun jika nilainya X 1 , X 2 , …, x k ambil titik tengah interval.

Deret variasi interval biasanya digambarkan secara grafis menggunakan histogram.

grafik batang- sosok melangkah yang terdiri dari persegi panjang yang alasnya adalah interval panjang parsial h= x saya +1 – x saya, saya= 0,…,k-1, dan tingginya sama dengan frekuensi (atau frekuensi) interval dan aku (aku).

Mengumpul(kurva kumulatif) - kurva akumulasi frekuensi (frekuensi). Untuk seri diskrit cumulate adalah garis putus-putus yang menghubungkan titik-titik atau , . Untuk seri interval kumulasi dimulai dari titik, absisnya sama dengan awal interval pertama, dan ordinatnya adalah akumulasi frekuensi (frekuensi) sama dengan nol. Titik-titik lain dari garis putus-putus ini berhubungan dengan ujung-ujung interval.

Seri variasi - konsep dan tipe. Klasifikasi dan fitur kategori "Seri variasi" 2017, 2018.

  • - Variasi rangkaian distribusi

    Distribusi omset perdagangan ritel di Federasi Rusia pada tahun 1995 berdasarkan jenis kepemilikan, juta rubel Jenis-Jenis Distribusi Seri Kuliah VIII. Deret distribusi Sebagai hasil dari pemrosesan dan sistematisasi data statistik primer, mereka memperoleh ....


  • - Variasi seri

    Transformasi paling sederhana dari data statistik adalah urutannya berdasarkan besarnya. Ukuran sampel dari populasi umum, diurutkan dalam urutan elemen yang tidak berkurang, mis. , disebut deret variasi: . Dalam kasus ketika volume pengamatan ... .


  • - Tugas 2. Seri variasi interval

    1. Berdasarkan sampel tertentu yang sesuai dengan varian tugas, buat rangkaian variasi interval; buat histogram dan kumulasi (gunakan dua metode: menyisipkan bagan Excel dan mode "Histogram" dari paket "Analisis Data"). 2. Analisis histogram yang dihasilkan. ... .


  • - Menyusun seri variasi variabilitas sifat biji kacang atau daun tanaman apa pun pada usia yang sama. Mengungkapkan pola variabilitas sifat.

    Populasi adalah unit struktural dari suatu spesies. Jumlah populasi. Penyebab fluktuasi populasi. Hubungan individu dalam populasi dan antara populasi yang berbeda dari spesies yang sama dan berbeda. 1. Ciri penting suatu spesies adalah distribusinya dalam kelompok, populasi dalam ...

  • Seri variasi: definisi, jenis, karakteristik utama. Metode perhitungan
    mode, median, rata-rata aritmatika dalam studi medis dan statistik
    (Tunjukkan pada contoh bersyarat).

    Deret variasi adalah deret nilai numerik dari sifat yang diteliti, yang besarnya berbeda satu sama lain dan terletak di urutan tertentu(dalam urutan menaik atau menurun). Setiap nilai numerik dari deret tersebut disebut varian (V), dan angka yang menunjukkan seberapa sering varian ini atau itu muncul dalam komposisi deret ini disebut frekuensi (p).

    Jumlah total kasus pengamatan, yang terdiri dari seri variasi, dilambangkan dengan huruf n. Perbedaan makna dari ciri-ciri yang dipelajari disebut variasi. Jika tanda variabel tidak memiliki ukuran kuantitatif, variasinya disebut kualitatif, dan rangkaian distribusinya disebut atribut (misalnya, distribusi menurut hasil penyakit, status kesehatan, dll.).

    Jika tanda variabel memiliki ekspresi kuantitatif, variasi seperti itu disebut kuantitatif, dan deret distribusinya disebut variasi.

    Deret variasi dibagi menjadi terputus-putus dan kontinu - menurut sifat sifat kuantitatif, sederhana dan berbobot - menurut frekuensi kemunculan varian.

    Pada deret variasi sederhana, setiap varian hanya muncul satu kali (p=1), pada deret berbobot, varian yang sama muncul beberapa kali (p>1). Contoh seri tersebut akan dibahas nanti dalam teks. Jika sebuah atribut kuantitatif berkelanjutan, yaitu antara bilangan bulat ada perantara besaran pecahan, deret variasi disebut kontinu.

    Misalnya: 10.0 - 11.9

    14.0 - 15.9, dst.

    Jika tanda kuantitatif terputus-putus, mis. nilai individualnya (varian) berbeda satu sama lain dengan bilangan bulat dan tidak memiliki perantara nilai pecahan, deret variasi disebut diskontinu atau diskrit.

    Menggunakan data dari contoh sebelumnya tentang detak jantung

    untuk 21 siswa, kami akan membuat seri variasi (Tabel 1).

    Tabel 1

    Distribusi mahasiswa kedokteran berdasarkan denyut nadi (bpm)

    Jadi, untuk membangun seri variasi berarti tersedia nilai numerik(opsi) mensistematisasikan, merampingkan, mis. mengatur dalam urutan tertentu (dalam urutan menaik atau menurun) dengan frekuensi yang sesuai. Dalam contoh yang sedang dipertimbangkan, opsi disusun dalam urutan menaik dan dinyatakan sebagai bilangan bulat diskontinyu (diskrit), setiap opsi muncul beberapa kali, mis. kita berurusan dengan seri variasi tertimbang, diskontinu atau diskrit.

    Sebagai aturan, jika jumlah pengamatan dalam populasi statistik yang kita pelajari tidak melebihi 30, maka cukup untuk mengatur semua nilai sifat yang dipelajari dalam deret variasi dalam urutan meningkat, seperti pada Tabel. 1, atau dalam urutan menurun.

    Pada dalam jumlah besar pengamatan (n>30), jumlah varian yang terjadi bisa sangat besar, dalam hal ini interval atau deret variasi berkelompok disusun, di mana, untuk menyederhanakan pemrosesan selanjutnya dan memperjelas sifat distribusi, varian digabungkan ke dalam kelompok .

    Biasanya angka opsi grup berkisar antara 8 sampai 15.

    Harus ada setidaknya 5 dari mereka, karena. jika tidak, itu akan menjadi terlalu kasar, pembesaran berlebihan, yang mendistorsi gambaran keseluruhan variasi dan sangat mempengaruhi keakuratan nilai rata-rata. Ketika jumlah opsi grup lebih dari 20-25, akurasi penghitungan nilai rata-rata meningkat, tetapi fitur variasi atribut terdistorsi secara signifikan dan pemrosesan matematika menjadi lebih rumit.

    Saat menyusun seri yang dikelompokkan, perlu diperhitungkan

    kelompok varian harus ditempatkan dalam urutan tertentu (naik atau turun);

    - interval dalam kelompok varian harus sama;

    nilai batas interval tidak boleh bertepatan, karena tidak akan jelas kelompok mana yang akan mengatribusikan pilihan individu;

    - perlu mempertimbangkan fitur kualitatif dari bahan yang dikumpulkan saat menetapkan batas interval (misalnya, saat mempelajari berat orang dewasa, interval 3-4 kg dapat diterima, dan untuk anak-anak di bulan-bulan pertama kehidupan itu tidak boleh melebihi 100 g.)

    Mari kita buat rangkaian (interval) berkelompok yang mencirikan data denyut nadi (jumlah denyut per menit) untuk 55 mahasiswa kedokteran sebelum ujian: 64, 66, 60, 62,

    64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

    64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

    79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

    Untuk membuat seri yang dikelompokkan, Anda memerlukan:

    1. Tentukan nilai intervalnya;

    2. Tentukan tengah, awal, dan akhir grup varian dari deret variasi.

    ● Nilai interval (i) ditentukan oleh jumlah kelompok yang diharapkan (r), yang jumlahnya ditentukan tergantung pada jumlah pengamatan (n) menurut tabel khusus

    Jumlah kelompok tergantung pada jumlah pengamatan:

    Dalam kasus kami, untuk 55 siswa, dimungkinkan untuk membuat 8 hingga 10 kelompok.

    Nilai interval (i) ditentukan oleh rumus berikut -

    i = Vmax-Vmin/r

    Dalam contoh kita, nilai intervalnya adalah 82-58/8= 3.

    Jika nilai intervalnya adalah bilangan pecahan, hasilnya harus dibulatkan menjadi bilangan bulat.

    Ada beberapa jenis rata-rata:

    rata-rata aritmatika,

    rata-rata geometris,

    ● rata-rata harmonik,

    akar rata-rata kuadrat,

    ● progresif sedang,

    ● median

    Dalam statistik medis, rata-rata aritmatika paling sering digunakan.

    Medium nilai aritmatika(M) adalah nilai generalisasi yang menentukan tipikal yang menjadi ciri khas seluruh populasi. Metode utama untuk menghitung M adalah: metode rata-rata aritmatika dan metode momen (deviasi bersyarat).

    Metode rata-rata aritmatika digunakan untuk menghitung rata-rata aritmatika sederhana dan rata-rata aritmatika berbobot. Pilihan metode untuk menghitung nilai rata-rata aritmatika tergantung pada jenis deret variasi. Dalam kasus deret variasi sederhana, di mana setiap varian hanya muncul satu kali, mean aritmatika sederhana ditentukan oleh rumus:

    dimana: – nilai rata-rata aritmatika;

    V adalah nilai fitur variabel (opsi);

    - menunjukkan tindakan - penjumlahan;

    n adalah jumlah total pengamatan.

    Contoh menghitung mean aritmatika sederhana. Laju pernapasan (jumlah napas per menit) pada 9 pria berusia 35: 20, 22, 19, 15, 16, 21, 17, 23, 18.

    Untuk menentukan tingkat rata-rata frekuensi pernapasan pada pria berusia 35 tahun, perlu:

    1. Buat deret variasi, tempatkan semua opsi dalam urutan menaik atau menurun. Kami mendapatkan deret variasi sederhana, karena nilai varian hanya terjadi sekali.

    M = V/n = 171/9 = 19 napas per menit

    Kesimpulan. Frekuensi pernapasan pada pria berusia 35 tahun rata-rata 19 gerakan pernapasan dalam semenit.

    Jika nilai individu dari suatu varian diulang, tidak perlu menuliskan setiap varian dalam satu baris; cukup dengan mencantumkan ukuran varian yang muncul (V) dan selanjutnya menunjukkan jumlah pengulangannya (hal. ). deret variasi seperti itu, di mana varian-variannya, seolah-olah, berbobot menurut jumlah frekuensi yang sesuai dengannya, disebut deret variasi tertimbang, dan nilai rata-rata yang dihitung adalah rata-rata tertimbang aritmatika.

    Rata-rata tertimbang aritmatika ditentukan dengan rumus: M= Vp/n

    di mana n adalah jumlah pengamatan, sama dengan jumlah frekuensi - r.

    Contoh menghitung rata-rata tertimbang aritmatika.

    Durasi kecacatan (dalam hari) pada 35 pasien penyakit saluran pernapasan akut (ISPA) yang dirawat oleh dokter setempat selama triwulan pertama tahun ini adalah: 6, 7, 5, 3, 9, 8, 7, 5, 6, 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6, 7 hari.

    Metodologi untuk menentukan durasi rata-rata kecacatan pada pasien dengan infeksi saluran pernapasan akut adalah sebagai berikut:

    1. Mari kita buat deret variasi berbobot, karena nilai varian individu diulang beberapa kali. Untuk melakukan ini, Anda dapat mengatur semua opsi dalam urutan menaik atau menurun dengan frekuensi yang sesuai.

    Dalam kasus kami, opsi berada dalam urutan menaik.

    2. Hitung rata-rata tertimbang aritmatika dengan menggunakan rumus: M = Vp/n = 233/35 = 6,7 hari

    Distribusi pasien dengan infeksi saluran pernapasan akut berdasarkan durasi kecacatan:

    Lama tidak mampu bekerja (V) Jumlah pasien (p) vp
    p = n = 35 Vp = 233

    Kesimpulan. Durasi kecacatan pada pasien penyakit saluran pernapasan akut rata-rata 6,7 ​​hari.

    Mode (Mo) adalah varian paling umum dalam seri variasi. Untuk distribusi yang disajikan dalam tabel, mode sesuai dengan varian yang sama dengan 10, itu terjadi lebih sering daripada yang lain - 6 kali.

    Distribusi pasien berdasarkan lama rawat inap kasur rumah sakit(dalam hari)

    V
    p

    Kadang-kadang sulit untuk menentukan nilai yang tepat dari modus, karena mungkin ada beberapa pengamatan dalam data yang dipelajari yang terjadi "paling sering".

    Median (Me) adalah indikator non-parametrik yang membagi deret variasi menjadi dua bagian yang sama besar: di kedua sisi median adalah nomor yang sama pilihan.

    Misalnya, untuk distribusi yang ditunjukkan pada tabel, mediannya adalah 10 karena di kedua sisi nilai ini terletak pada opsi ke-14, yaitu. nomor 10 mengambil posisi tengah dalam seri ini adalah median-nya.

    Mengingat banyaknya observasi dalam contoh ini adalah genap (n=34), median dapat ditentukan sebagai berikut:

    Saya = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

    Ini berarti bahwa bagian tengah deret berada pada opsi ketujuh belas, yang sesuai dengan median 10. Untuk distribusi yang disajikan dalam tabel, mean aritmatika adalah:

    M = Vp/n = 334/34 = 10.1

    Jadi, untuk 34 pengamatan dari Tabel. 8, kita mendapatkan: Mo=10, Me=10, mean aritmatika (M) adalah 10,1. Dalam contoh kami, ketiga indikator ternyata sama atau dekat satu sama lain, meskipun sangat berbeda.

    Rata-rata aritmatika adalah jumlah yang dihasilkan dari semua pengaruh; semua opsi, tanpa kecuali, mengambil bagian dalam pembentukannya, termasuk yang ekstrem, sering kali tidak lazim untuk fenomena atau himpunan tertentu.

    Modus dan median, berbeda dengan mean aritmatika, tidak bergantung pada nilai semua nilai individu tanda variabel (nilai varian ekstrim dan tingkat hamburan deret). Rata-rata aritmatika mencirikan seluruh massa pengamatan, modus dan median mencirikan massal

    ​ Seri variasi - seri di mana mereka dibandingkan (dalam urutan menaik atau menurun) pilihan dan masing-masing frekuensi

    Varian adalah ekspresi kuantitatif yang terpisah dari suatu sifat. Ditunjuk huruf latin V . pemahaman klasik istilah "varian" menyiratkan bahwa setiap nilai unik fitur, terlepas dari jumlah pengulangan.

    Misalnya, dalam rangkaian variasi indikator sistolik tekanan darah diukur pada sepuluh pasien:

    110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

    hanya 6 nilai yang menjadi opsi:

    110, 120, 130, 140, 160, 170.

    Frekuensi adalah angka yang menunjukkan berapa kali opsi diulang. Dilambangkan dengan huruf latin P . Jumlah semua frekuensi (yang, tentu saja, sama dengan jumlah semua yang dipelajari) dilambangkan sebagai n.

      Dalam contoh kita, frekuensi akan mengambil nilai berikut:
    • untuk varian 110 frekuensi P = 1 (nilai 110 terjadi pada satu pasien),
    • untuk varian 120 frekuensi P = 2 (nilai 120 terjadi pada dua pasien),
    • untuk varian 130 frekuensi P = 3 (nilai 130 terjadi pada tiga pasien),
    • untuk varian 140 frekuensi P = 2 (nilai 140 terjadi pada dua pasien),
    • untuk varian 160 frekuensi P = 1 (nilai 160 terjadi pada satu pasien),
    • untuk varian 170 frekuensi P = 1 (nilai 170 terjadi pada satu pasien),

    Jenis seri variasi:

    1. sederhana- ini adalah seri di mana setiap opsi hanya muncul sekali (semua frekuensi sama dengan 1);
    2. tergantung- rangkaian di mana satu atau lebih opsi muncul berulang kali.

    Seri variasi digunakan untuk menggambarkan susunan angka yang besar; dalam bentuk inilah data yang dikumpulkan dari mayoritas awalnya disajikan. penelitian medis. Untuk mengkarakterisasi seri variasi, indikator khusus dihitung, termasuk nilai rata-rata, indikator variabilitas (yang disebut dispersi), indikator keterwakilan data sampel.

    Indikator seri variasi

    1) Rata-rata aritmatika adalah indikator generalisasi yang mencirikan ukuran sifat yang dipelajari. Rata-rata aritmatika dilambangkan sebagai M , adalah jenis rata-rata yang paling umum. Rata-rata aritmatika dihitung sebagai rasio jumlah nilai indikator semua unit pengamatan dengan jumlah semua yang diperiksa. Metode untuk menghitung mean aritmatika berbeda untuk deret variasi sederhana dan deret berbobot.

    Rumus untuk perhitungan rata-rata aritmatika sederhana:

    Rumus untuk perhitungan rata-rata aritmatika berbobot:

    M = (V * P)/ n

    ​ 2) Mode - nilai rata-rata lain dari seri variasi, sesuai dengan varian yang paling sering diulang. Atau, dengan kata lain, ini adalah opsi yang sesuai dengan frekuensi tertinggi. Ditunjuk sebagai mo . Modus dihitung hanya untuk deret berbobot, karena dalam baris sederhana tidak ada opsi yang diulang dan semua frekuensi sama dengan satu.

    Misalnya, dalam rangkaian variasi nilai detak jantung:

    80, 84, 84, 86, 86, 86, 90, 94;

    nilai mode adalah 86, karena varian ini muncul 3 kali, oleh karena itu frekuensinya adalah yang tertinggi.

    3) Median - nilai opsi, membagi seri variasi menjadi dua: di kedua sisinya adalah angka yang sama pilihan. Median, serta mean dan modus aritmatika, mengacu pada nilai rata-rata. Ditunjuk sebagai Saya

    4) Standar deviasi (sinonim: simpangan baku, deviasi sigma, sigma) - ukuran variabilitas seri variasi. Ini adalah indikator integral yang menggabungkan semua kasus penyimpangan varian dari mean. Faktanya, ini menjawab pertanyaan: seberapa jauh dan seberapa sering opsi menyebar dari mean aritmatika. Dilambangkan huruf Yunani σ ("sigma").

    Ketika ukuran populasi lebih dari 30 unit, standar deviasi dihitung menggunakan rumus berikut:

    Untuk populasi kecil - 30 unit pengamatan atau kurang - standar deviasi dihitung menggunakan rumus yang berbeda:

    Mari kita sebut nilai sampel yang berbeda pilihan serangkaian nilai dan menunjukkan: X 1 , X 2, …. Pertama-tama, mari kita buat mulai pilihan, yaitu mengatur mereka dalam urutan menaik atau menurun. Untuk setiap opsi, bobotnya sendiri ditunjukkan, mis. nomor yang mencirikan kontribusi opsi ini untuk jumlah penduduk. Frekuensi atau frekuensi bertindak sebagai bobot.

    Frekuensi dan aku pilihan x saya disebut angka yang menunjukkan berapa kali opsi ini terjadi pada populasi sampel yang dipertimbangkan.

    Frekuensi atau frekuensi relatif aku pilihan x saya nomor tersebut disebut sama dengan rasio frekuensi varian dengan jumlah frekuensi semua varian. Frekuensi menunjukkan bagian mana dari unit populasi sampel yang memiliki varian tertentu.

    Urutan opsi dengan bobot (frekuensi atau frekuensi) yang sesuai, ditulis dalam urutan menaik (atau menurun), disebut seri variasi.

    Deret variasi bersifat diskrit dan interval.

    Untuk deret variasi diskrit, nilai titik atribut ditentukan, untuk deret interval, nilai atribut ditentukan dalam bentuk interval. Deret variasi dapat menunjukkan distribusi frekuensi atau frekuensi relatif(frekuensi), tergantung pada nilai yang ditunjukkan untuk setiap opsi - frekuensi atau frekuensi.

    Seri variasi diskrit dari distribusi frekuensi seperti:

    Frekuensi dicari dengan rumus , i = 1, 2, …, m.

    w 1 +w 2 + … + w m = 1.

    Contoh 4.1. Untuk satu set angka tertentu

    4, 6, 6, 3, 4, 9, 6, 4, 6, 6

    membangun diskrit seri variasi distribusi frekuensi dan frekuensi.

    Keputusan . Volume penduduk adalah n= 10. Deret distribusi frekuensi diskrit berbentuk

    Seri interval memiliki bentuk perekaman yang serupa.

    Variasi interval seri distribusi frekuensi ditulis sebagai:

    Jumlah semua frekuensi sama dengan jumlah total pengamatan, mis. jumlah total: n = n 1 +n 2 + … + n m .

    Variasi interval deret distribusi frekuensi relatif (frekuensi) seperti:

    Frekuensi dicari dengan rumus , i = 1, 2, …, m.

    Jumlah semua frekuensi sama dengan satu: w 1 +w 2 + … + w m = 1.

    Paling sering dalam praktiknya, seri interval digunakan. Jika ada banyak data sampel statistik dan nilainya berbeda satu sama lain secara sewenang-wenang jumlah kecil, maka deret diskrit untuk data ini akan sangat merepotkan dan merepotkan untuk penelitian lebih lanjut. Dalam hal ini digunakan pengelompokan data, yaitu interval yang berisi semua nilai atribut dibagi menjadi beberapa interval parsial dan, setelah menghitung frekuensi untuk setiap interval, diperoleh seri interval. Mari kita tuliskan secara lebih rinci skema untuk membangun deret interval, dengan asumsi bahwa panjang interval parsial akan sama.

    2.2 Membangun deret interval

    Untuk membangun seri interval, Anda perlu:

    Tentukan jumlah interval;

    Tentukan panjang interval;

    Tentukan letak interval pada sumbu.

    Untuk menentukan jumlah interval k Ada formula Sturges, yang menurutnya

    ,

    di mana n- volume totalitas.

    Misalnya, jika ada 100 nilai fitur (varian), maka disarankan untuk mengambil jumlah interval yang sama dengan interval untuk membangun deret interval.

    Namun, sangat sering dalam praktiknya, jumlah interval dipilih oleh peneliti sendiri, mengingat jumlah ini tidak boleh terlalu besar sehingga deretnya tidak rumit, tetapi juga tidak terlalu kecil, agar tidak kehilangan beberapa sifat dari distribusi.

    Panjang interval h ditentukan dengan rumus berikut:

    ,

    di mana x maks dan x min adalah yang terbesar dan terbanyak nilai kecil pilihan.

    nilai ditelepon dalam skala besar baris.

    Untuk membangun interval itu sendiri, mereka melanjutkan dengan cara yang berbeda. Salah satu yang paling cara sederhana adalah sebagai berikut. Nilai diambil sebagai awal dari interval pertama
    . Kemudian sisa batas interval ditemukan dengan rumus . Jelas, akhir dari interval terakhir sebuah m+1 harus memenuhi syarat

    Setelah semua batas interval ditemukan, frekuensi (atau frekuensi) interval ini ditentukan. Untuk mengatasi masalah ini, mereka melihat semua opsi dan menentukan jumlah opsi yang termasuk dalam interval tertentu. Membangun penuh Mari kita lihat deret interval menggunakan contoh.

    Contoh 4.2. Untuk statistik berikut, yang ditulis dalam urutan menaik, buatlah deret interval dengan jumlah interval sama dengan 5:

    11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

    Keputusan. Total n=50 nilai varian.

    Jumlah interval ditentukan dalam kondisi masalah, yaitu. k=5.

    Panjang intervalnya adalah
    .

    Mari kita tentukan batas-batas interval:

    sebuah 1 = 11 − 8,5 = 2,5; sebuah 2 = 2,5 + 17 = 19,5; sebuah 3 = 19,5 + 17 = 36,5;

    sebuah 4 = 36,5 + 17 = 53,5; sebuah 5 = 53,5 + 17 = 70,5; sebuah 6 = 70,5 + 17 = 87,5;

    sebuah 7 = 87,5 +17 = 104,5.

    Untuk menentukan frekuensi interval, kami menghitung jumlah opsi yang termasuk dalam interval ini. Misalnya, opsi 11, 12, 12, 14, 14, 15 termasuk dalam interval pertama dari 2,5 hingga 19,5. Jumlahnya adalah 6, oleh karena itu, frekuensi interval pertama adalah n 1=6. Frekuensi selang pertama adalah . Varian 21, 21, 22, 23, 25, yang jumlahnya 5, masuk ke dalam interval kedua dari 19,5 menjadi 36,5, jadi frekuensi interval kedua adalah n 2 = 5, dan frekuensi . Setelah menemukan frekuensi dan frekuensi yang sama untuk semua interval, kami memperoleh seri interval berikut.

    Deret interval dari distribusi frekuensi memiliki bentuk:

    Jumlah frekuensinya adalah 6+5+9+11+8+11=50.

    Deret interval dari distribusi frekuensi memiliki bentuk:

    Jumlah frekuensinya adalah 0,12+0,1+0,18+0,22+0,16+0,22=1.

    Ketika membangun deret interval, tergantung pada kondisi spesifik dari masalah yang sedang dipertimbangkan, aturan lain dapat diterapkan, yaitu:

    1. Deret variasi interval dapat terdiri dari interval parsial panjang yang berbeda. Panjang interval yang tidak sama memungkinkan untuk memilih properti dari populasi statistik dengan distribusi fitur yang tidak merata. Misalnya, jika batas-batas interval menentukan jumlah penduduk di kota-kota, maka dalam masalah ini disarankan untuk menggunakan interval yang tidak sama panjangnya. Jelas bahwa untuk kota-kota besar penting dan bukan perbedaan besar dalam jumlah penduduk, dan untuk kota-kota besar perbedaan puluhan dan ratusan penduduk tidak signifikan. seri interval dengan panjang yang tidak sama dari interval parsial dipelajari terutama di teori umum statistik dan pertimbangannya berada di luar cakupan manual ini.

    2. Dalam statistik matematika kadang-kadang deret interval dipertimbangkan, di mana batas kiri interval pertama diasumsikan sama dengan –∞, dan batas kanan interval terakhir adalah +∞. Hal ini dilakukan untuk membawa distribusi statistik ke teoritis.

    3. Saat menyusun deret interval, ternyata nilai beberapa varian tepat sama dengan batas interval. Hal terbaik untuk dilakukan dalam hal ini adalah sebagai berikut. Jika hanya ada satu kebetulan seperti itu, maka pertimbangkan bahwa varian yang dipertimbangkan, dengan frekuensinya, jatuh ke interval yang lebih dekat ke tengah deret interval, jika ada beberapa varian seperti itu, maka semuanya dikaitkan dengan interval di sebelah kanan varian ini, atau semua di sebelah kiri.

    4. Setelah menentukan jumlah interval dan panjangnya, penempatan interval dapat dilakukan dengan cara lain. Temukan rata-rata aritmatika dari semua nilai opsi yang dipertimbangkan X lihat dan bangun interval pertama sedemikian rupa sehingga rata-rata sampel ini akan berada di dalam beberapa interval. Dengan demikian, kita mendapatkan interval dari X lihat – 0,5 h sebelum X rata-rata + 0,5 h. Kemudian kiri dan kanan, menambahkan panjang interval, kami membangun interval yang tersisa sampai x menit dan x max tidak akan jatuh ke dalam interval pertama dan terakhir, masing-masing.

    5. Deret interval untuk angka besar Lebih mudah untuk menulis interval secara vertikal, mis. merekam interval tidak di baris pertama, tetapi di kolom pertama, dan frekuensi (atau frekuensi) di kolom kedua.

    Data sampel dapat dianggap sebagai nilai dari beberapa variabel acak X. Variabel acak memiliki hukum distribusinya sendiri. Dari teori probabilitas diketahui bahwa hukum distribusi variabel acak diskrit dapat ditetapkan sebagai deret distribusi, dan untuk deret kontinu, menggunakan fungsi kerapatan distribusi. Namun, ada hukum distribusi universal yang berlaku untuk variabel acak diskrit dan kontinu. Hukum distribusi ini diberikan sebagai fungsi distribusi F(x) = P(X<x). Untuk data sampel, Anda dapat menentukan analog dari fungsi distribusi - fungsi distribusi empiris.


    Informasi serupa.