Seri variasi diskrit dalam definisi statistik. Seri Variasi

Himpunan nilai parameter yang dipelajari dalam eksperimen atau pengamatan tertentu, yang diberi peringkat berdasarkan besarnya (kenaikan atau penurunan) disebut deret variasi.

Mari kita asumsikan bahwa kita mengukur tekanan darah sepuluh pasien untuk mendapatkan ambang batas atas BP: tekanan sistolik, yaitu. hanya satu nomor.

Bayangkan bahwa serangkaian pengamatan (statistik populasi) tekanan sistolik arteri dalam 10 pengamatan memiliki bentuk sebagai berikut (Tabel 1):

Tabel 1

Komponen deret variasi disebut varian. Varian mewakili nilai numerik dari sifat yang sedang dipelajari.

Konstruksi deret variasi dari sekumpulan pengamatan statistik hanyalah langkah pertama untuk memahami fitur dari seluruh himpunan. Selanjutnya, perlu untuk menentukan tingkat rata-rata dari sifat kuantitatif yang dipelajari (tingkat rata-rata protein darah, berat rata-rata pasien, waktu rata-rata onset anestesi, dll.)

Tingkat rata-rata diukur dengan menggunakan kriteria yang disebut rata-rata. Nilai rata-rata adalah karakteristik numerik yang digeneralisasi dari nilai-nilai yang secara kualitatif homogen, yang dicirikan oleh satu angka dari seluruh populasi statistik menurut satu atribut. Nilai rata-rata mengungkapkan umum yang merupakan karakteristik suatu sifat dalam serangkaian pengamatan tertentu.

Ada tiga jenis rata-rata yang umum digunakan: modus (), median () dan mean aritmatika ().

Untuk menentukan nilai rata-rata, perlu menggunakan hasil pengamatan individu, menuliskannya dalam bentuk deret variasi (Tabel 2).

Mode- nilai yang paling sering muncul dalam serangkaian pengamatan. Dalam contoh kami, mode = 120. Jika tidak ada nilai berulang dalam seri variasi, maka mereka mengatakan bahwa tidak ada mode. Jika beberapa nilai diulang dengan jumlah yang sama, maka yang terkecil diambil sebagai mode.

median- nilai yang membagi distribusi menjadi dua bagian yang sama, nilai pusat atau median dari serangkaian pengamatan yang diurutkan dalam urutan menaik atau menurun. Jadi, jika ada 5 nilai dalam deret variasi, maka mediannya sama dengan anggota ketiga dari deret variasi, jika ada banyak anggota dalam deret itu, maka median adalah rata-rata aritmatika dari keduanya. pengamatan sentral, yaitu jika ada 10 pengamatan dalam deret tersebut, maka median sama dengan rata-rata aritmatika dari 5 dan 6 pengamatan. Dalam contoh kita.

Perhatikan fitur penting dari mode dan median: nilainya tidak terpengaruh oleh nilai numerik dari varian ekstrem.

Rata-rata aritmatika dihitung dengan rumus:

di mana adalah nilai yang diamati pada pengamatan ke-, dan adalah jumlah pengamatan. Untuk kasus kami.

Rata-rata aritmatika memiliki tiga sifat:

Yang tengah menempati posisi tengah dalam seri variasi. Dalam baris yang sangat simetris.

Rata-rata adalah nilai generalisasi dan fluktuasi acak, perbedaan data individu tidak terlihat di belakang rata-rata. Ini mencerminkan kekhasan yang menjadi ciri khas seluruh penduduk.

Jumlah deviasi semua varian dari mean sama dengan nol: . Penyimpangan varian dari mean ditunjukkan.

Seri variasi terdiri dari varian dan frekuensi yang sesuai. Dari sepuluh nilai yang didapat, angka 120 ditemui 6 kali, 115 - 3 kali, 125 - 1 kali. Frekuensi () - jumlah absolut opsi individu dalam populasi, yang menunjukkan berapa kali opsi ini muncul dalam rangkaian variasi.

Seri variasi bisa sederhana (frekuensi = 1) atau dikelompokkan dipersingkat, masing-masing 3-5 opsi. Deret sederhana digunakan dengan sejumlah kecil pengamatan (), dikelompokkan - dengan sejumlah besar pengamatan ().

Seri variasi: definisi, jenis, karakteristik utama. Metode perhitungan
mode, median, rata-rata aritmatika dalam studi medis dan statistik
(Tunjukkan pada contoh bersyarat).

Deret variasi adalah deret nilai numerik dari sifat yang diteliti, yang besarnya berbeda satu sama lain dan disusun dalam urutan tertentu (dalam urutan menaik atau menurun). Setiap nilai numerik dari deret tersebut disebut varian (V), dan angka yang menunjukkan seberapa sering varian ini atau itu muncul dalam komposisi deret ini disebut frekuensi (p).

Jumlah total kasus pengamatan, yang terdiri dari seri variasi, dilambangkan dengan huruf n. Perbedaan makna dari ciri-ciri yang dipelajari disebut variasi. Jika tanda variabel tidak memiliki ukuran kuantitatif, variasinya disebut kualitatif, dan rangkaian distribusinya disebut atribut (misalnya, distribusi menurut hasil penyakit, status kesehatan, dll.).

Jika tanda variabel memiliki ekspresi kuantitatif, variasi seperti itu disebut kuantitatif, dan deret distribusinya disebut variasi.

Deret variasi dibagi menjadi terputus-putus dan kontinu - menurut sifat sifat kuantitatif, sederhana dan berbobot - menurut frekuensi kemunculan varian.

Pada deret variasi sederhana, setiap varian hanya muncul satu kali (p=1), pada deret berbobot, varian yang sama muncul beberapa kali (p>1). Contoh seri tersebut akan dibahas nanti dalam teks. Jika atribut kuantitatif kontinu, mis. antara nilai bilangan bulat ada nilai pecahan menengah, deret variasi disebut kontinu.

Misalnya: 10.0 - 11.9

14.0 - 15.9, dst.

Jika tanda kuantitatif terputus-putus, mis. nilai individualnya (opsi) berbeda satu sama lain dengan bilangan bulat dan tidak memiliki nilai pecahan menengah, deret variasi disebut diskontinyu atau diskrit.

Menggunakan data dari contoh sebelumnya tentang detak jantung

untuk 21 siswa, kami akan membuat seri variasi (Tabel 1).

Tabel 1

Distribusi mahasiswa kedokteran berdasarkan denyut nadi (bpm)

Jadi, membangun deret variasi berarti mensistematisasikan, merampingkan nilai numerik yang ada (opsi), mis. mengatur dalam urutan tertentu (dalam urutan menaik atau menurun) dengan frekuensi yang sesuai. Dalam contoh yang sedang dipertimbangkan, opsi disusun dalam urutan menaik dan dinyatakan sebagai bilangan bulat diskontinyu (diskrit), setiap opsi muncul beberapa kali, mis. kita berurusan dengan seri variasi tertimbang, diskontinu atau diskrit.

Sebagai aturan, jika jumlah pengamatan dalam populasi statistik yang kita pelajari tidak melebihi 30, maka cukup untuk mengatur semua nilai sifat yang dipelajari dalam deret variasi dalam urutan meningkat, seperti pada Tabel. 1, atau dalam urutan menurun.

Dengan jumlah observasi yang besar (n>30), jumlah varian yang terjadi bisa sangat besar, dalam hal ini disusun suatu interval atau deret variasi yang dikelompokkan, dimana, untuk menyederhanakan pemrosesan selanjutnya dan memperjelas sifat distribusi, varian digabungkan ke dalam kelompok.

Biasanya jumlah opsi grup berkisar antara 8 hingga 15.

Harus ada setidaknya 5 dari mereka, karena. jika tidak, itu akan menjadi terlalu kasar, pembesaran berlebihan, yang mendistorsi gambaran keseluruhan variasi dan sangat mempengaruhi keakuratan nilai rata-rata. Ketika jumlah opsi grup lebih dari 20-25, akurasi penghitungan nilai rata-rata meningkat, tetapi fitur variasi fitur terdistorsi secara signifikan dan pemrosesan matematika menjadi lebih rumit.

Saat menyusun seri yang dikelompokkan, perlu diperhitungkan

kelompok varian harus ditempatkan dalam urutan tertentu (naik atau turun);

- interval dalam kelompok varian harus sama;

nilai batas interval tidak boleh bertepatan, karena tidak akan jelas kelompok mana yang akan mengatribusikan pilihan individu;

- perlu mempertimbangkan fitur kualitatif dari bahan yang dikumpulkan saat menetapkan batas interval (misalnya, saat mempelajari berat orang dewasa, interval 3-4 kg dapat diterima, dan untuk anak-anak di bulan-bulan pertama kehidupan itu tidak boleh melebihi 100 g.)

Mari kita buat rangkaian (interval) berkelompok yang mencirikan data denyut nadi (jumlah denyut per menit) untuk 55 mahasiswa kedokteran sebelum ujian: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Untuk membuat seri yang dikelompokkan, Anda memerlukan:

1. Tentukan nilai intervalnya;

2. Tentukan tengah, awal, dan akhir grup varian dari deret variasi.

● Nilai interval (i) ditentukan oleh jumlah kelompok yang diharapkan (r), yang jumlahnya ditentukan tergantung pada jumlah pengamatan (n) menurut tabel khusus

Jumlah kelompok tergantung pada jumlah pengamatan:

Dalam kasus kami, untuk 55 siswa, dimungkinkan untuk membuat 8 hingga 10 kelompok.

Nilai interval (i) ditentukan oleh rumus berikut -

i = Vmax-Vmin/r

Dalam contoh kita, nilai intervalnya adalah 82-58/8= 3.

Jika nilai interval adalah bilangan pecahan, hasilnya harus dibulatkan menjadi bilangan bulat.

Ada beberapa jenis rata-rata:

● rata-rata aritmatika,

● rata-rata geometris,

● rata-rata harmonik,

● akar rata-rata kuadrat,

● progresif sedang,

● median

Dalam statistik medis, rata-rata aritmatika paling sering digunakan.

Mean aritmatika (M) adalah nilai generalisasi yang menentukan nilai tipikal yang menjadi ciri seluruh populasi. Metode utama untuk menghitung M adalah: metode rata-rata aritmatika dan metode momen (deviasi bersyarat).

Metode rata-rata aritmatika digunakan untuk menghitung rata-rata aritmatika sederhana dan rata-rata aritmatika berbobot. Pilihan metode untuk menghitung nilai rata-rata aritmatika tergantung pada jenis deret variasi. Dalam kasus deret variasi sederhana, di mana setiap varian hanya muncul satu kali, mean aritmatika sederhana ditentukan oleh rumus:

dimana: – nilai rata-rata aritmatika;

V adalah nilai fitur variabel (opsi);

- menunjukkan tindakan - penjumlahan;

n adalah jumlah total pengamatan.

Contoh menghitung mean aritmatika sederhana. Laju pernapasan (jumlah napas per menit) pada 9 pria berusia 35: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Untuk menentukan tingkat rata-rata frekuensi pernapasan pada pria berusia 35 tahun, perlu:

1. Buat deret variasi, tempatkan semua opsi dalam urutan menaik atau menurun. Kami mendapatkan deret variasi sederhana, karena nilai varian hanya terjadi sekali.

M = V/n = 171/9 = 19 napas per menit

Kesimpulan. Frekuensi pernapasan pada pria usia 35 tahun rata-rata 19 kali per menit.

Jika nilai individu dari suatu varian diulang, tidak perlu menuliskan setiap varian dalam satu baris; cukup dengan mencantumkan ukuran varian yang muncul (V) dan selanjutnya menunjukkan jumlah pengulangannya (hal. ). deret variasi seperti itu, di mana varian-variannya, seolah-olah, berbobot menurut jumlah frekuensi yang sesuai dengannya, disebut deret variasi tertimbang, dan nilai rata-rata yang dihitung adalah rata-rata tertimbang aritmatika.

Rata-rata tertimbang aritmatika ditentukan dengan rumus: M= Vp/n

di mana n adalah jumlah pengamatan sama dengan jumlah frekuensi - r.

Contoh menghitung rata-rata tertimbang aritmatika.

Durasi kecacatan (dalam hari) pada 35 pasien penyakit saluran pernapasan akut (ISPA) yang dirawat oleh dokter setempat selama triwulan pertama tahun berjalan adalah: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 hari .

Metodologi untuk menentukan durasi rata-rata kecacatan pada pasien dengan infeksi saluran pernapasan akut adalah sebagai berikut:

1. Mari kita buat deret variasi berbobot, karena nilai varian individu diulang beberapa kali. Untuk melakukan ini, Anda dapat mengatur semua opsi dalam urutan menaik atau menurun dengan frekuensi yang sesuai.

Dalam kasus kami, opsi berada dalam urutan menaik.

2. Hitung rata-rata tertimbang aritmatika dengan menggunakan rumus: M = Vp/n = 233/35 = 6,7 hari

Distribusi pasien dengan infeksi saluran pernapasan akut berdasarkan durasi kecacatan:

Lama tidak mampu bekerja (V) Jumlah pasien (p) vp
p = n = 35 Vp = 233

Kesimpulan. Durasi kecacatan pada pasien penyakit saluran pernapasan akut rata-rata 6,7 ​​hari.

Mode (Mo) adalah varian paling umum dalam seri variasi. Untuk distribusi yang disajikan dalam tabel, mode sesuai dengan varian yang sama dengan 10, itu terjadi lebih sering daripada yang lain - 6 kali.

Distribusi pasien berdasarkan lama tinggal di tempat tidur rumah sakit (dalam hari)

V
p

Kadang-kadang sulit untuk menentukan nilai yang tepat dari modus, karena mungkin ada beberapa pengamatan dalam data yang sedang dipelajari yang terjadi "paling sering".

Median (Me) adalah indikator non-parametrik yang membagi seri variasi menjadi dua bagian yang sama: jumlah opsi yang sama terletak di kedua sisi median.

Misalnya, untuk distribusi yang ditunjukkan pada tabel, mediannya adalah 10 karena di kedua sisi nilai ini terletak pada opsi ke-14, yaitu. angka 10 menempati posisi sentral dalam deret ini dan merupakan mediannya.

Mengingat banyaknya observasi dalam contoh ini adalah genap (n=34), median dapat ditentukan sebagai berikut:

Saya = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Ini berarti bahwa bagian tengah deret berada pada opsi ketujuh belas, yang sesuai dengan median 10. Untuk distribusi yang disajikan dalam tabel, mean aritmatika adalah:

M = Vp/n = 334/34 = 10.1

Jadi, untuk 34 pengamatan dari Tabel. 8, kita dapatkan: Mo=10, Me=10, rata-rata aritmatika (M) adalah 10,1. Dalam contoh kami, ketiga indikator ternyata sama atau dekat satu sama lain, meskipun sangat berbeda.

Rata-rata aritmatika adalah jumlah yang dihasilkan dari semua pengaruh; semua opsi, tanpa kecuali, mengambil bagian dalam pembentukannya, termasuk yang ekstrem, sering tidak khas untuk fenomena atau himpunan tertentu.

Mode dan median, berbeda dengan mean aritmatika, tidak bergantung pada nilai semua nilai individu dari atribut variabel (nilai varian ekstrem dan tingkat hamburan deret). Rata-rata aritmatika mencirikan seluruh massa pengamatan, modus dan median mencirikan massal

Metode pengelompokan juga memungkinkan Anda untuk mengukur variasi(variabilitas, fluktuasi) tanda. Dengan jumlah unit populasi yang relatif kecil, variasi diukur berdasarkan rangkaian peringkat unit yang membentuk populasi. Baris disebut peringkat jika unit disusun dalam fitur menaik (menurun).

Namun, seri peringkat agak indikatif ketika karakteristik komparatif variasi diperlukan. Selain itu, dalam banyak kasus kita harus berurusan dengan agregat statistik yang terdiri dari sejumlah besar unit, yang secara praktis sulit untuk direpresentasikan dalam bentuk deret tertentu. Dalam hal ini, untuk pengenalan umum awal dengan data statistik dan terutama untuk memfasilitasi studi tentang variasi tanda, fenomena dan proses yang dipelajari biasanya digabungkan ke dalam kelompok, dan hasil pengelompokan tersebut disusun dalam bentuk tabel kelompok. .

Jika hanya ada dua kolom dalam tabel grup - grup sesuai dengan fitur yang dipilih (opsi) dan jumlah grup (frekuensi atau frekuensi), itu disebut dekat distribusi.

Rentang distribusi - jenis pengelompokan struktural paling sederhana menurut satu atribut, ditampilkan dalam tabel grup dengan dua kolom yang berisi varian dan frekuensi atribut. Dalam banyak kasus, dengan pengelompokan struktural seperti itu, mis. dengan penyusunan deret distribusi, kajian materi statistik awal dimulai.

Pengelompokan struktural dalam bentuk deret distribusi dapat diubah menjadi pengelompokan struktural sejati jika grup yang dipilih tidak hanya dicirikan oleh frekuensi, tetapi juga oleh indikator statistik lainnya. Tujuan utama dari deret distribusi adalah untuk mempelajari variasi fitur. Teori deret distribusi dikembangkan secara rinci oleh statistik matematika.

Seri distribusi dibagi menjadi: atributif(pengelompokan berdasarkan karakteristik atributif, misalnya, pembagian populasi berdasarkan jenis kelamin, kebangsaan, status perkawinan, dll.) dan variasi(pengelompokan berdasarkan karakteristik kuantitatif).

Seri variasi adalah tabel grup yang berisi dua kolom: pengelompokan unit menurut satu atribut kuantitatif dan jumlah unit di setiap grup. Interval dalam deret variasi biasanya dibentuk sama dan tertutup. Seri variasi adalah pengelompokan penduduk Rusia berikut dalam hal pendapatan tunai rata-rata per kapita (Tabel 3.10).

Tabel 3.10

Distribusi populasi Rusia berdasarkan pendapatan per kapita rata-rata pada tahun 2004-2009

Kelompok penduduk menurut rata-rata pendapatan tunai per kapita, gosok/bulan

Populasi dalam kelompok, dalam % dari total

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Lebih dari 25.000.0

Semua populasi

Deret variasi, pada gilirannya, dibagi menjadi diskrit dan interval. Diskrit seri variasi menggabungkan varian fitur diskrit yang bervariasi dalam batas yang sempit. Contoh deret variasi diskrit adalah distribusi keluarga Rusia menurut jumlah anak yang mereka miliki.

Selang seri variasi menggabungkan varian fitur kontinu atau fitur diskrit yang berubah dalam rentang yang luas. Deret interval adalah deret variasi dari distribusi penduduk Rusia dalam hal pendapatan tunai rata-rata per kapita.

Deret variasi diskrit tidak terlalu sering digunakan dalam praktik. Sedangkan untuk menyusunnya tidaklah sulit, karena komposisi kelompok ditentukan oleh varian-varian tertentu yang sebenarnya dimiliki oleh ciri-ciri pengelompokan yang dipelajari.

Deret variasi interval lebih tersebar luas. Dalam menyusunnya, muncul pertanyaan sulit tentang jumlah kelompok, serta ukuran interval yang harus ditetapkan.

Prinsip-prinsip untuk menyelesaikan masalah ini ditetapkan dalam bab tentang metodologi untuk menyusun pengelompokan statistik (lihat paragraf 3.3).

Deret variasi adalah sarana untuk meruntuhkan atau memadatkan informasi yang beragam ke dalam bentuk yang ringkas; deret variasi dapat digunakan untuk membuat penilaian yang cukup jelas tentang sifat variasi, untuk mempelajari perbedaan tanda-tanda fenomena yang termasuk dalam himpunan yang diteliti. Tetapi signifikansi terpenting dari deret variasi adalah bahwa atas dasar mereka, karakteristik generalisasi khusus dari variasi dihitung (lihat Bab 7).

Tempat khusus dalam analisis statistik termasuk dalam penentuan tingkat rata-rata dari sifat atau fenomena yang dipelajari. Tingkat rata-rata fitur diukur dengan nilai rata-rata.

Nilai rata-rata mencirikan tingkat kuantitatif umum dari sifat yang dipelajari dan merupakan properti kelompok dari populasi statistik. Ini meratakan, melemahkan penyimpangan acak dari pengamatan individu dalam satu arah atau yang lain dan menyoroti sifat utama dan khas dari sifat yang diteliti.

Rata-rata banyak digunakan:

1. Mengkaji status kesehatan penduduk: ciri-ciri perkembangan fisik (tinggi badan, berat badan, lingkar dada, dll), mengidentifikasi prevalensi dan durasi berbagai penyakit, menganalisis indikator demografi (perpindahan penduduk alami, harapan hidup rata-rata, reproduksi penduduk , rata-rata populasi dan lain-lain).

2. Mempelajari kegiatan institusi medis, tenaga medis dan menilai kualitas pekerjaannya, merencanakan dan menentukan kebutuhan penduduk di berbagai jenis perawatan medis (rata-rata jumlah permintaan atau kunjungan per penduduk per tahun, rata-rata lama tinggal). pasien di rumah sakit, rata-rata lama pemeriksaan pasien, rata-rata penyediaan dokter, tempat tidur, dll).

3. Untuk mengkarakterisasi keadaan sanitasi dan epidemiologis (rata-rata debu udara di bengkel, rata-rata area per orang, konsumsi rata-rata protein, lemak dan karbohidrat, dll.).

4. Untuk menentukan parameter medis dan fisiologis dalam norma dan patologi, dalam pemrosesan data laboratorium, untuk menetapkan keandalan hasil studi selektif dalam studi sosio-higienis, klinis, eksperimental.

Perhitungan nilai rata-rata dilakukan berdasarkan seri variasi. Seri variasi- ini adalah kumpulan statistik yang homogen secara kualitatif, unit individual yang mencirikan perbedaan kuantitatif dari fitur atau fenomena yang dipelajari.

Variasi kuantitatif dapat terdiri dari dua jenis: diskontinyu (diskrit) dan kontinu.

Tanda diskontinyu (diskrit) hanya dinyatakan sebagai bilangan bulat dan tidak dapat memiliki nilai antara (misalnya, jumlah kunjungan, populasi situs, jumlah anak dalam keluarga, tingkat keparahan penyakit dalam poin , dll.).

Tanda kontinu dapat mengambil nilai apa pun dalam batas tertentu, termasuk yang pecahan, dan hanya diekspresikan kira-kira (misalnya, berat - untuk orang dewasa dapat dibatasi hingga kilogram, dan untuk bayi baru lahir - gram; tinggi, tekanan darah, waktu dihabiskan untuk melihat pasien, dan lain-lain).



Nilai digital dari setiap fitur atau fenomena individu yang termasuk dalam seri variasi disebut varian dan ditunjukkan dengan huruf V . Ada juga notasi lain dalam literatur matematika, misalnya x atau y.

Serangkaian variasi, di mana setiap opsi ditunjukkan satu kali, disebut sederhana. Deret tersebut digunakan di sebagian besar masalah statistik dalam hal pemrosesan data komputer.

Dengan peningkatan jumlah pengamatan, sebagai aturan, ada nilai varian yang berulang. Dalam hal ini, itu menciptakan seri variasi berkelompok, di mana jumlah pengulangan ditunjukkan (frekuensi, dilambangkan dengan huruf " R »).

Seri variasi peringkat terdiri dari opsi yang diatur dalam urutan menaik atau menurun. Seri sederhana dan berkelompok dapat disusun dengan peringkat.

Seri variasi interval dibuat untuk menyederhanakan perhitungan selanjutnya yang dilakukan tanpa menggunakan komputer, dengan jumlah unit pengamatan yang sangat besar (lebih dari 1000).

Seri variasi berkelanjutan menyertakan nilai varian, yang dapat berupa nilai apa pun.

Jika dalam deret variasi nilai-nilai atribut (pilihan) diberikan dalam bentuk angka-angka tertentu yang terpisah, maka deret semacam itu disebut diskrit.

Ciri-ciri umum dari nilai-nilai atribut yang dicerminkan dalam deret variasi adalah nilai rata-rata. Di antara mereka, yang paling banyak digunakan adalah: mean aritmatika M, mode mo dan median Saya. Masing-masing karakteristik ini unik. Mereka tidak dapat menggantikan satu sama lain, dan hanya dalam agregat, cukup lengkap dan dalam bentuk yang ringkas, adalah fitur dari seri variasi.

Mode (bulan) sebutkan nilai opsi yang paling sering muncul.

median (Saya) adalah nilai varian yang membagi deret variasi terentang menjadi dua (di setiap sisi median ada setengah varian). Dalam kasus yang jarang terjadi, ketika ada deret variasi simetris, modus dan median sama satu sama lain dan bertepatan dengan nilai rata-rata aritmatika.

Karakteristik paling khas dari nilai varian adalah rata-rata aritmatika nilai( M ). Dalam literatur matematika, ini dilambangkan .

Rata-rata aritmatika (M, ) adalah karakteristik kuantitatif umum dari fitur tertentu dari fenomena yang dipelajari, yang membentuk kumpulan statistik yang homogen secara kualitatif. Bedakan antara mean aritmatika sederhana dan mean tertimbang. Mean aritmatika sederhana dihitung untuk deret variasi sederhana dengan menjumlahkan semua opsi dan membagi jumlah ini dengan jumlah opsi yang termasuk dalam deret variasi ini. Perhitungan dilakukan sesuai dengan rumus:

,

di mana: M - rata-rata aritmatika sederhana;

Σ V - opsi jumlah;

n- jumlah pengamatan.

Dalam deret variasi berkelompok, rata-rata aritmatika berbobot ditentukan. Rumus untuk perhitungannya:

,

di mana: M - rata-rata tertimbang aritmatika;

Σ vp - jumlah produk varian pada frekuensinya;

n- jumlah pengamatan.

Dengan banyaknya pengamatan dalam kasus perhitungan manual, metode momen dapat digunakan.

Rata-rata aritmatika memiliki sifat-sifat berikut:

jumlah deviasi varian dari mean ( Σ d ) sama dengan nol (lihat Tabel 15);

Saat mengalikan (membagi) semua opsi dengan faktor yang sama (pembagi), mean aritmatika dikalikan (dibagi) dengan faktor yang sama (pembagi);

Jika Anda menambahkan (mengurangi) angka yang sama ke semua opsi, rata-rata aritmatika meningkat (menurun) dengan angka yang sama.

Rata-rata aritmatika, yang diambil dengan sendirinya, tanpa memperhitungkan variabilitas deret dari mana mereka dihitung, mungkin tidak sepenuhnya mencerminkan sifat deret variasi, terutama bila perbandingan dengan rata-rata lain diperlukan. Nilai rata-rata mendekati nilai dapat diperoleh dari deret dengan derajat dispersi yang berbeda. Semakin dekat pilihan individu satu sama lain dalam hal karakteristik kuantitatifnya, semakin sedikit hamburan (fluktuasi, variabilitas) seri, semakin khas rata-ratanya.

Parameter utama yang memungkinkan penilaian variabilitas suatu sifat adalah:

· ruang lingkup;

Amplitudo;

· Standar deviasi;

· Koefisien variasi.

Kira-kira, fluktuasi suatu sifat dapat dinilai dari cakupan dan amplitudo rangkaian variasi. Rentang menunjukkan opsi maksimum (V max) dan minimum (V min) dalam rangkaian. Amplitudo (A m) adalah perbedaan antara opsi ini: A m = V max - V min .

Ukuran utama yang diterima secara umum dari fluktuasi deret variasi adalah: penyebaran (D ). Tetapi parameter yang lebih nyaman paling sering digunakan, dihitung berdasarkan varians - standar deviasi ( σ ). Ini memperhitungkan nilai deviasi ( d ) dari setiap varian deret variasi dari mean aritmatikanya ( d=V - M ).

Karena penyimpangan varian dari mean bisa positif dan negatif, ketika dijumlahkan mereka memberikan nilai "0" (S d=0). Untuk menghindari hal ini, nilai deviasi ( d) dipangkatkan kedua dan dirata-ratakan. Jadi, varians dari deret variasi adalah kuadrat rata-rata dari deviasi varian dari mean aritmatika dan dihitung dengan rumus:

.

Ini adalah karakteristik variabilitas yang paling penting dan digunakan untuk menghitung banyak uji statistik.

Karena varians dinyatakan sebagai kuadrat deviasi, nilainya tidak dapat digunakan dibandingkan dengan mean aritmatika. Untuk tujuan ini, digunakan simpangan baku, yang dilambangkan dengan tanda "Sigma" ( σ ). Ini mencirikan penyimpangan rata-rata semua varian dari seri variasi dari rata-rata aritmatika dalam unit yang sama dengan rata-rata itu sendiri, sehingga mereka dapat digunakan bersama-sama.

Standar deviasi ditentukan oleh rumus:

Rumus ini diterapkan untuk jumlah pengamatan ( n ) lebih besar dari 30. Dengan angka yang lebih kecil n nilai standar deviasi akan memiliki kesalahan yang terkait dengan bias matematika ( n - satu). Dalam hal ini, hasil yang lebih akurat dapat diperoleh dengan memperhitungkan bias seperti itu dalam rumus untuk menghitung deviasi standar:

simpangan baku (s ) adalah perkiraan simpangan baku variabel acak X relatif terhadap ekspektasi matematisnya berdasarkan estimasi variansnya yang tidak bias.

Untuk nilai n > 30 simpangan baku ( σ ) dan simpangan baku ( s ) akan tetap sama ( =s ). Oleh karena itu, dalam sebagian besar manual praktis, kriteria ini dianggap memiliki arti yang berbeda. Di Excel, perhitungan simpangan baku dapat dilakukan dengan fungsi =STDEV(range). Dan untuk menghitung simpangan baku, Anda perlu membuat rumus yang sesuai.

Kuadrat rata-rata akar atau simpangan baku memungkinkan Anda menentukan seberapa besar nilai suatu fitur dapat berbeda dari nilai rata-rata. Misalkan ada dua kota dengan suhu rata-rata harian yang sama di musim panas. Salah satu kota ini terletak di pantai, dan yang lainnya di benua. Diketahui bahwa di kota-kota yang terletak di pantai, perbedaan suhu siang hari lebih sedikit daripada di kota-kota yang terletak di pedalaman. Oleh karena itu, standar deviasi suhu siang hari di dekat kota pesisir akan lebih kecil dari kota kedua. Dalam praktiknya, ini berarti bahwa suhu udara rata-rata setiap hari tertentu di kota yang terletak di benua akan lebih berbeda dari nilai rata-rata daripada di kota di pantai. Selain itu, standar deviasi memungkinkan untuk memperkirakan kemungkinan penyimpangan suhu dari rata-rata dengan tingkat probabilitas yang diperlukan.

Menurut teori probabilitas, dalam fenomena yang mematuhi hukum distribusi normal, ada hubungan yang ketat antara nilai rata-rata aritmatika, standar deviasi dan opsi ( aturan tiga sigma). Misalnya, 68,3% dari nilai atribut variabel berada dalam M ± 1 σ , 95,5% - dalam M ± 2 σ dan 99,7% - dalam M ± 3 σ .

Nilai simpangan baku memungkinkan untuk menilai sifat homogenitas deret variasi dan kelompok yang diteliti. Jika nilai simpangan bakunya kecil, maka hal ini menunjukkan homogenitas yang cukup tinggi dari fenomena yang diteliti. Rata-rata aritmatika dalam hal ini harus diakui sebagai karakteristik yang cukup dari deret variasi ini. Namun, sigma yang terlalu kecil membuat orang berpikir tentang seleksi pengamatan buatan. Dengan sigma yang sangat besar, mean aritmatika mencirikan seri variasi pada tingkat yang lebih rendah, yang menunjukkan variabilitas signifikan dari sifat atau fenomena yang dipelajari atau heterogenitas kelompok studi. Namun, perbandingan nilai simpangan baku hanya mungkin untuk tanda-tanda dengan dimensi yang sama. Memang jika kita membandingkan keragaman berat badan bayi baru lahir dan orang dewasa, kita akan selalu mendapatkan nilai sigma yang lebih tinggi pada orang dewasa.

Perbandingan variabilitas fitur dari dimensi yang berbeda dapat dilakukan dengan menggunakan koefisien variasi. Ini mengungkapkan keragaman sebagai persentase dari rata-rata, yang memungkinkan perbandingan sifat-sifat yang berbeda. Koefisien variasi dalam literatur medis ditunjukkan dengan tanda " Dengan ", dan dalam matematika" v» dan dihitung dengan rumus:

.

Nilai koefisien variasi kurang dari 10% menunjukkan hamburan kecil, dari 10 hingga 20% - tentang rata-rata, lebih dari 20% - tentang hamburan kuat di sekitar rata-rata aritmatika.

Rata-rata aritmatika biasanya dihitung berdasarkan data sampel. Dengan studi berulang di bawah pengaruh fenomena acak, rata-rata aritmatika dapat berubah. Hal ini disebabkan oleh fakta bahwa, sebagai suatu peraturan, hanya sebagian dari unit pengamatan yang mungkin, yaitu populasi sampel, yang diselidiki. Informasi tentang semua unit yang mungkin mewakili fenomena yang diteliti dapat diperoleh dengan mempelajari seluruh populasi umum, yang tidak selalu mungkin. Pada saat yang sama, untuk menggeneralisasi data eksperimen, nilai rata-rata dalam populasi umum menarik. Oleh karena itu, untuk merumuskan kesimpulan umum tentang fenomena yang diteliti, hasil yang diperoleh atas dasar populasi sampel harus ditransfer ke populasi umum dengan metode statistik.

Untuk menentukan tingkat kebetulan antara studi sampel dan populasi umum, perlu untuk memperkirakan jumlah kesalahan yang pasti muncul selama pengamatan sampel. Kesalahan seperti itu disebut kesalahan keterwakilan” atau “Kesalahan rata-rata dari rata-rata aritmatika”. Faktanya, perbedaan antara rata-rata yang diperoleh dari pengamatan statistik selektif dan nilai serupa yang akan diperoleh dari studi berkelanjutan dari objek yang sama, yaitu. ketika mempelajari populasi umum. Karena rata-rata sampel adalah variabel acak, ramalan semacam itu dibuat dengan tingkat probabilitas yang dapat diterima oleh peneliti. Dalam penelitian medis, setidaknya 95%.

Kesalahan keterwakilan tidak boleh dikacaukan dengan kesalahan pendaftaran atau kesalahan perhatian (salah cetak, salah perhitungan, salah cetak, dll.), yang harus diminimalkan dengan metodologi dan alat yang memadai yang digunakan dalam percobaan.

Besarnya kesalahan keterwakilan tergantung pada ukuran sampel dan variabilitas sifat. Semakin besar jumlah pengamatan, semakin dekat sampel dengan populasi umum dan semakin kecil kesalahannya. Semakin banyak variabel fitur, semakin besar kesalahan statistik.

Dalam praktiknya, rumus berikut digunakan untuk menentukan kesalahan keterwakilan dalam deret variasi:

,

di mana: m – kesalahan keterwakilan;

σ – simpangan baku;

n adalah jumlah pengamatan dalam sampel.

Dapat dilihat dari rumus bahwa ukuran kesalahan rata-rata berbanding lurus dengan standar deviasi, yaitu variabilitas sifat yang diteliti, dan berbanding terbalik dengan akar kuadrat dari jumlah pengamatan.

Saat melakukan analisis statistik berdasarkan perhitungan nilai relatif, konstruksi deret variasi tidak wajib. Dalam hal ini, penentuan kesalahan rata-rata untuk indikator relatif dapat dilakukan dengan menggunakan rumus yang disederhanakan:

,

di mana: R- nilai indikator relatif, dinyatakan sebagai persentase, ppm, dll.;

q- kebalikan dari P dan dinyatakan sebagai (1-P), (100-P), (1000-P), dll., tergantung pada dasar penghitungan indikator;

n adalah jumlah pengamatan dalam sampel.

Namun, rumus yang ditunjukkan untuk menghitung kesalahan keterwakilan untuk nilai relatif hanya dapat diterapkan ketika nilai indikator kurang dari basisnya. Dalam beberapa kasus penghitungan indikator intensif, kondisi ini tidak terpenuhi, dan indikator tersebut dapat dinyatakan sebagai angka lebih dari 100% atau 1000%o. Dalam situasi seperti itu, seri variasi dibangun dan kesalahan keterwakilan dihitung menggunakan rumus untuk nilai rata-rata berdasarkan standar deviasi.

Peramalan nilai rata-rata aritmatika dalam populasi umum dilakukan dengan indikasi dua nilai - minimum dan maksimum. Nilai ekstrim dari kemungkinan penyimpangan, di mana nilai rata-rata yang diinginkan dari populasi umum dapat berfluktuasi, disebut " Batas kepercayaan».

Dalil-dalil teori probabilitas membuktikan bahwa dengan distribusi normal suatu fitur dengan probabilitas 99,7%, nilai ekstrim deviasi mean tidak akan melebihi nilai triple error of representativeness ( M ± 3 m ); di 95,5% - tidak lebih dari nilai kesalahan rata-rata dua kali lipat dari nilai rata-rata ( M ±2 m ); di 68,3% - tidak lebih dari nilai satu kesalahan rata-rata ( M ± 1 m ) (Gbr. 9).

P%

Beras. 9. Probabilitas kepadatan distribusi normal.

Perhatikan bahwa pernyataan di atas hanya berlaku untuk fitur yang mematuhi hukum distribusi Gaussian normal.

Sebagian besar studi eksperimental, termasuk di bidang kedokteran, dikaitkan dengan pengukuran, yang hasilnya dapat mengambil hampir semua nilai dalam interval tertentu, oleh karena itu, sebagai suatu peraturan, mereka dijelaskan oleh model variabel acak kontinu. Dalam hal ini, sebagian besar metode statistik mempertimbangkan distribusi kontinu. Salah satu distribusi ini, yang memainkan peran mendasar dalam statistik matematika, adalah distribusi normal, atau Gaussian.

Hal ini disebabkan oleh beberapa alasan.

1. Pertama-tama, banyak pengamatan eksperimental dapat berhasil dijelaskan dengan menggunakan distribusi normal. Harus segera dicatat bahwa tidak ada distribusi data empiris yang benar-benar normal, karena variabel acak terdistribusi normal berada dalam rentang dari , yang tidak pernah terjadi dalam praktik. Namun, distribusi normal seringkali merupakan pendekatan yang baik.

Apakah pengukuran berat badan, tinggi badan, dan parameter fisiologis lainnya dari tubuh manusia dilakukan - di mana-mana sejumlah besar faktor acak (penyebab alami dan kesalahan pengukuran) memengaruhi hasil. Dan, sebagai aturan, efek dari masing-masing faktor ini tidak signifikan. Pengalaman menunjukkan bahwa hasil dalam kasus seperti itu akan didistribusikan kira-kira secara normal.

2. Banyak distribusi yang terkait dengan sampel acak, dengan peningkatan volume yang terakhir, menjadi normal.

3. Distribusi normal sangat cocok sebagai deskripsi perkiraan distribusi kontinu lainnya (misalnya, yang asimetris).

4. Distribusi normal memiliki sejumlah sifat matematika yang menguntungkan, yang sebagian besar memastikan penggunaannya secara luas dalam statistik.

Pada saat yang sama, perlu dicatat bahwa dalam data medis ada banyak distribusi eksperimental yang tidak dapat digambarkan dengan model distribusi normal. Untuk melakukan ini, statistik telah mengembangkan metode yang biasa disebut "Nonparametrik".

Pilihan metode statistik yang cocok untuk memproses data dari eksperimen tertentu harus dibuat tergantung pada apakah data yang diperoleh termasuk dalam hukum distribusi normal. Pengujian hipotesis untuk subordinasi tanda ke hukum distribusi normal dilakukan dengan menggunakan histogram dari distribusi frekuensi (grafik), serta sejumlah kriteria statistik. Diantara mereka:

Kriteria asimetri ( b );

Kriteria untuk memeriksa kurtosis ( g );

Kriteria Shapiro–Wilks ( W ) .

Analisis sifat distribusi data (juga disebut uji normalitas distribusi) dilakukan untuk setiap parameter. Untuk menilai dengan yakin kepatuhan distribusi parameter dengan hukum normal, diperlukan jumlah unit pengamatan yang cukup besar (setidaknya 30 nilai).

Untuk distribusi normal, kriteria skewness dan kurtosis mengambil nilai 0. Jika distribusi digeser ke kanan b > 0 (asimetri positif), dengan b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. Pada g > 0 kurva distribusi lebih tajam jika g < 0 пик более сглаженный, чем функция нормального распределения.

Untuk menguji normalitas menggunakan uji Shapiro-Wilks, perlu dicari nilai kriteria ini menggunakan tabel statistik pada tingkat signifikansi yang dipersyaratkan dan tergantung pada jumlah satuan pengamatan (derajat bebas). Lampiran 1. Hipotesis normalitas ditolak untuk nilai-nilai kecil dari kriteria ini, sebagai aturan, untuk w <0,8.

(definisi deret variasi; komponen deret variasi; tiga bentuk deret variasi; kemanfaatan membangun deret interval; kesimpulan yang dapat ditarik dari deret yang dibangun)

Deret variasi adalah barisan semua elemen sampel yang disusun dalam urutan yang tidak menurun. Elemen yang sama diulang

Variasi - ini adalah seri yang dibangun secara kuantitatif.

Deret distribusi variasi terdiri dari dua elemen: varian dan frekuensi:

Varian adalah nilai numerik dari sifat kuantitatif dalam deret variasi distribusi. Mereka bisa positif atau negatif, absolut atau relatif. Jadi, ketika mengelompokkan perusahaan sesuai dengan hasil kegiatan ekonomi, opsinya positif - ini untung, dan angka negatif - ini rugi.

Frekuensi adalah jumlah varian individu atau setiap kelompok dari seri variasi, mis. ini adalah angka yang menunjukkan seberapa sering opsi tertentu muncul dalam rangkaian distribusi. Jumlah semua frekuensi disebut volume populasi dan ditentukan oleh jumlah elemen dari seluruh populasi.

Frekuensi adalah frekuensi yang dinyatakan sebagai nilai relatif (fraksi satuan atau persentase). Jumlah frekuensi sama dengan satu atau 100%. Penggantian frekuensi dengan frekuensi memungkinkan untuk membandingkan deret variasi dengan jumlah pengamatan yang berbeda.

Ada tiga bentuk seri variasi: deret peringkat, deret diskrit, dan deret interval.

Seri peringkat adalah distribusi unit individu dari populasi dalam urutan menaik atau menurun dari sifat yang diteliti. Pemeringkatan memudahkan untuk membagi data kuantitatif ke dalam kelompok, segera mendeteksi nilai terkecil dan terbesar dari suatu fitur, dan menyoroti nilai yang paling sering diulang.

Bentuk lain dari deret variasi adalah tabel kelompok yang disusun menurut sifat variasi nilai sifat yang diteliti. Berdasarkan sifat variasinya, tanda-tanda diskrit (terputus-putus) dan kontinu dibedakan.

Deret diskrit adalah deret variasional yang konstruksinya didasarkan pada tanda-tanda dengan perubahan terputus-putus (tanda-tanda diskrit). Yang terakhir termasuk kategori tarif, jumlah anak dalam keluarga, jumlah karyawan di perusahaan, dll. Tanda-tanda ini hanya dapat mengambil sejumlah nilai tertentu yang terbatas.

Deret variasi diskrit adalah tabel yang terdiri dari dua kolom. Kolom pertama menunjukkan nilai spesifik atribut, dan yang kedua - jumlah unit populasi dengan nilai spesifik atribut.

Jika sebuah tanda memiliki perubahan yang terus-menerus (jumlah pendapatan, pengalaman kerja, biaya aset tetap suatu perusahaan, dll., yang dapat mengambil nilai berapa pun dalam batas-batas tertentu), maka rangkaian variasi interval harus dibangun untuk tanda ini.



Tabel grup di sini juga memiliki dua kolom. Yang pertama menunjukkan nilai fitur dalam interval "dari - ke" (opsi), yang kedua - jumlah unit yang termasuk dalam interval (frekuensi).

Frekuensi (frekuensi pengulangan) - jumlah pengulangan varian tertentu dari nilai atribut, dilambangkan fi , dan jumlah frekuensi yang sama dengan volume populasi yang dipelajari, dilambangkan

Di mana k adalah jumlah opsi nilai atribut

Sangat sering, tabel dilengkapi dengan kolom di mana akumulasi frekuensi S dihitung, yang menunjukkan berapa banyak unit populasi yang memiliki nilai fitur tidak lebih besar dari nilai ini.

Deret distribusi variasi diskrit adalah deret yang grupnya disusun menurut fitur yang bervariasi secara diskrit dan hanya mengambil nilai integer.

Deret distribusi variasi interval adalah deret di mana atribut pengelompokan, yang menjadi dasar pengelompokan, dapat mengambil nilai apa pun dalam interval tertentu, termasuk pecahan.

Deret variasi interval adalah himpunan interval variasi terurut dari nilai-nilai variabel acak dengan frekuensi yang sesuai atau frekuensi nilai kuantitas yang jatuh ke masing-masingnya.

Adalah bijaksana untuk membangun deret distribusi interval, pertama-tama, dengan variasi berkelanjutan dari suatu sifat, dan juga jika variasi diskrit memanifestasikan dirinya pada rentang yang luas, mis. jumlah opsi untuk fitur diskrit cukup besar.

Beberapa kesimpulan sudah dapat ditarik dari seri ini. Misalnya, elemen rata-rata dari deret variasi (median) dapat menjadi perkiraan hasil pengukuran yang paling mungkin. Elemen pertama dan terakhir dari deret variasi (yaitu, elemen minimum dan maksimum sampel) menunjukkan penyebaran elemen sampel. Terkadang, jika elemen pertama atau terakhir sangat berbeda dari sampel lainnya, maka mereka dikeluarkan dari hasil pengukuran, mengingat nilai-nilai ini diperoleh sebagai akibat dari beberapa jenis kegagalan kotor, misalnya, teknologi.