Seri diskrit online. Konstruksi seri variasi interval untuk data kuantitatif kontinu

Pekerjaan laboratorium 1. Pemrosesan utama data statistik

Konstruksi seri distribusi

Distribusi teratur unit-unit populasi ke dalam kelompok-kelompok menurut salah satu atribut disebut dekat distribusi . Dalam hal ini, tandanya dapat bersifat kuantitatif, maka deret tersebut disebut variasi , dan kualitatif, maka deret tersebut disebut atributif . Jadi, misalnya, penduduk sebuah kota dapat didistribusikan menurut kelompok umur dalam rangkaian variasi, atau menurut afiliasi profesional dalam rangkaian atribut (tentu saja, lebih banyak fitur kualitatif dan kuantitatif dapat diusulkan untuk membangun rangkaian distribusi, pilihan fitur ditentukan oleh tugas penelitian statistik).

Setiap seri distribusi dicirikan oleh dua elemen:

- pilihan(x saya) - ini adalah nilai individu dari atribut unit populasi sampel. Untuk deret variasi, varian mengambil nilai numerik, untuk deret atributif - deret kualitatif (misalnya, x = "pegawai negeri");

- frekuensi(n saya) adalah angka yang menunjukkan berapa kali nilai fitur ini atau itu muncul. Jika frekuensi dinyatakan sebagai angka relatif (yaitu, proporsi elemen populasi yang sesuai dengan nilai opsi yang diberikan dalam total volume populasi), maka ini disebut Frekuensi relatif atau frekuensi.

Seri variasi dapat berupa:

- diskrit ketika sifat yang diteliti ditandai dengan angka tertentu (biasanya bilangan bulat).

- selang ketika batas "dari" dan "ke" didefinisikan untuk fitur variabel kontinu. Seri interval juga dibangun jika himpunan nilai fitur variabel diskrit besar.

Deret interval dapat dibangun baik dengan interval dengan panjang yang sama (deret interval yang sama) dan dengan interval yang tidak sama, jika ini ditentukan oleh kondisi studi statistik. Misalnya, serangkaian distribusi pendapatan penduduk dengan interval berikut dapat dipertimbangkan:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



di mana k adalah jumlah interval, n adalah ukuran sampel. (Tentu saja, rumus biasanya memberikan bilangan pecahan, dan bilangan bulat terdekat dengan nomor yang dihasilkan dipilih sebagai jumlah interval.) Panjang interval dalam hal ini ditentukan oleh rumus

.

Secara grafis, deret variasi dapat direpresentasikan sebagai: histogram("kolom" tinggi yang sesuai dengan frekuensi dalam interval ini dibangun di atas setiap interval dari seri interval), daerah distribusi(titik penghubung garis putus-putus ( x saya;dan aku) atau terakumulasi(dibangun menurut frekuensi akumulasi, yaitu untuk setiap nilai atribut, frekuensi kemunculan dalam himpunan objek dengan nilai atribut kurang dari yang diberikan diambil).

Saat bekerja di Excel, fungsi berikut dapat digunakan untuk membuat seri variasi:

MEMERIKSA( susunan data) – untuk menentukan ukuran sampel. Argumen adalah rentang sel yang berisi data sampel.

COUNTIF( jangkauan; kriteria) - dapat digunakan untuk membuat rangkaian atribut atau variasi. Argumen adalah rentang array nilai sampel atribut dan kriteria - nilai numerik atau teks dari atribut atau jumlah sel di mana ia berada. Hasilnya adalah frekuensi kemunculan nilai tersebut dalam sampel.

FREKUENSI( susunan data; larik interval) – untuk membuat rangkaian variasi. Argumennya adalah rentang array data sampel dan kolom interval. Jika diperlukan untuk membangun seri diskrit, maka nilai opsi ditunjukkan di sini, jika itu adalah seri interval, maka batas atas interval (mereka juga disebut "kantong"). Karena hasilnya adalah kolom frekuensi, pengenalan fungsi harus diselesaikan dengan menekan kombinasi tombol CTRL+SHIFT+ENTER. Perhatikan bahwa ketika mengatur larik interval saat memperkenalkan suatu fungsi, nilai terakhir di dalamnya dapat dihilangkan - semua nilai yang tidak termasuk dalam "kantong" sebelumnya akan ditempatkan di "kantong" yang sesuai. Ini terkadang membantu untuk menghindari kesalahan bahwa nilai sampel terbesar tidak secara otomatis ditempatkan di "kantong" terakhir.

Selain itu, untuk pengelompokan kompleks (menurut beberapa kriteria), alat "tabel pivot" digunakan. Mereka juga dapat digunakan untuk membangun rangkaian atribut dan variasi, tetapi hal ini tidak perlu memperumit tugas. Juga, untuk membangun seri variasi dan histogram, ada prosedur "histogram" dari add-in "Paket Analisis" (untuk menggunakan add-in di Excel, Anda harus mengunduhnya terlebih dahulu, mereka tidak diinstal secara default)

Kami menggambarkan proses pengolahan data primer dengan contoh-contoh berikut.

Contoh 1.1. ada data komposisi kuantitatif 60 keluarga.

Buat deret variasi dan poligon distribusi

Keputusan.

Mari kita buka spreadsheet Excel. Mari masukkan array data dalam rentang A1:L5. Jika Anda mempelajari dokumen dalam bentuk elektronik (dalam format Word, misalnya), yang perlu Anda lakukan hanyalah memilih tabel dengan data dan menyalinnya ke clipboard, lalu pilih sel A1 dan tempel data - mereka akan secara otomatis menempati kisaran yang sesuai. Mari kita hitung ukuran sampel n - jumlah data sampel, untuk ini, di sel B7, masukkan rumus = COUNT (A1: L5). Perhatikan bahwa untuk memasukkan rentang yang diinginkan ke dalam rumus, tidak perlu memasukkan penunjukannya dari keyboard, cukup dengan memilihnya. Mari kita tentukan nilai minimum dan maksimum dalam sampel dengan memasukkan rumus =MIN(A1:L5) ke dalam sel B8, dan ke dalam sel B9: =MAX(A1:L5).

Gbr.1.1 Contoh 1. Pemrosesan utama data statistik dalam tabel Excel

Selanjutnya, mari kita siapkan tabel untuk membangun deret variasi dengan memasukkan nama untuk kolom interval (nilai opsi) dan kolom frekuensi. Di kolom interval, masukkan nilai atribut dari minimum (1) hingga maksimum (6), menempati rentang B12:B17. Pilih kolom frekuensi, masukkan rumus =FREQUENCY(A1:L5;B12:B17) dan tekan kombinasi tombol CTRL+SHIFT+ENTER

Gbr.1.2 Contoh 1. Konstruksi deret variasi

Untuk kontrol, kami menghitung jumlah frekuensi menggunakan fungsi SUM (ikon fungsi S di grup Pengeditan pada tab Beranda), jumlah yang dihitung harus cocok dengan ukuran sampel yang dihitung sebelumnya di sel B7.

Sekarang mari kita buat poligon: setelah memilih rentang frekuensi yang dihasilkan, pilih perintah "Grafik" pada tab "Sisipkan". Secara default, nilai pada sumbu horizontal akan menjadi angka urut - dalam kasus kami, dari 1 hingga 6, yang bertepatan dengan nilai opsi (jumlah kategori tarif).

Nama seri bagan "seri 1" dapat diubah menggunakan opsi "pilih data" yang sama pada tab "Desainer", atau cukup dihapus.

Gbr.1.3. Contoh 1. Membangun poligon frekuensi

Contoh 1.2. Data tersedia tentang emisi polutan dari 50 sumber:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Kompilasi seri interval yang sama, buat histogram

Keputusan

Mari kita tambahkan array data ke lembar Excel, itu akan menempati rentang A1:J5 Seperti pada tugas sebelumnya, kita akan menentukan ukuran sampel n, nilai minimum dan maksimum dalam sampel. Karena sekarang kita tidak memerlukan diskrit, tetapi deret interval, dan jumlah interval dalam soal tidak ditentukan, kita menghitung jumlah interval k menggunakan rumus Sturgess. Untuk melakukannya, di sel B10, masukkan rumus =1+3.322*LOG10(B7).

Gbr.1.4. Contoh 2. Konstruksi deret interval yang sama

Nilai yang dihasilkan bukan bilangan bulat, kira-kira 6,64. Karena untuk k=7 panjang interval akan dinyatakan sebagai bilangan bulat (berlawanan dengan kasus k=6), kita akan memilih k=7 dengan memasukkan nilai ini di sel C10. Kami menghitung panjang interval d di sel B11 dengan memasukkan rumus = (B9-B8) / C10.

Mari kita definisikan larik interval, dengan menetapkan batas atas untuk masing-masing dari 7 interval. Untuk melakukannya, di sel E8, hitung batas atas interval pertama dengan memasukkan rumus =B8+B11; di sel E9 batas atas interval kedua dengan memasukkan rumus =E8+B11. Untuk menghitung nilai sisa batas atas interval, kami memperbaiki jumlah sel B11 dalam rumus yang dimasukkan menggunakan tanda $, sehingga rumus di sel E9 menjadi =E8+B$11, dan salin konten sel E9 ke sel E10-E14. Nilai terakhir yang diperoleh sama dengan nilai maksimum pada sampel yang dihitung sebelumnya di sel B9.

Gambar 1.5. Contoh 2. Konstruksi deret interval yang sama


Sekarang mari kita isi array "kantong" menggunakan fungsi FREQUENCY, seperti yang dilakukan pada contoh 1.

Gambar 1.6. Contoh 2. Konstruksi deret interval yang sama

Berdasarkan rangkaian variasi yang dihasilkan, kami akan membuat histogram: pilih kolom frekuensi dan pilih "Histogram" pada tab "Sisipkan". Setelah menerima histogram, kami akan mengubah label sumbu horizontal di dalamnya menjadi nilai dalam rentang interval, untuk ini kami memilih opsi "Pilih data" dari tab "Desainer". Di jendela yang muncul, pilih perintah "Ubah" untuk bagian "Label sumbu horizontal" dan masukkan rentang varian nilai dengan memilihnya dengan "mouse".

Gambar 1.7. Contoh 2. Membangun histogram

Gambar 1.8. Contoh 2. Membangun histogram

Sebuah seri variasi diskrit dibangun untuk fitur diskrit.

Untuk membangun deret variasi diskrit, Anda perlu melakukan hal berikut: 1) mengurutkan unit pengamatan dalam urutan menaik dari nilai atribut yang dipelajari,

2) tentukan semua nilai yang mungkin dari atribut x i , urutkan dalam urutan menaik,

nilai tanda, saya .

frekuensi nilai fitur dan menunjukkan f saya . Jumlah semua frekuensi deret tersebut sama dengan jumlah elemen dalam populasi yang diteliti.

Contoh 1 .

Daftar nilai yang diperoleh siswa dalam ujian: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Ini nomornya X - nilaiadalah variabel acak diskrit, dan daftar perkiraan yang dihasilkan adalahdata statistik (diamati) .

    urutkan unit pengamatan dalam urutan menaik dari nilai fitur yang dipelajari:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) tentukan semua nilai yang mungkin dari atribut x i , urutkan dalam urutan menaik:

Dalam contoh ini, semua skor dapat dibagi menjadi empat kelompok dengan nilai sebagai berikut: 2; 3; 4; 5.

Nilai variabel acak yang sesuai dengan kelompok terpisah dari data yang diamati disebut nilai tanda, varian (opsi) dan tentukan x saya .

Angka yang menunjukkan berapa kali nilai ciri yang sesuai muncul dalam serangkaian pengamatan disebut frekuensi nilai fitur dan menunjukkan f saya .

Untuk contoh kita

skor 2 terjadi - 8 kali,

skor 3 terjadi - 12 kali,

skor 4 terjadi - 23 kali,

skor 5 terjadi - 17 kali.

Total ada 60 peringkat.

4) tulis data yang diterima ke dalam tabel dua baris (kolom) - x i dan f i .

Berdasarkan data ini, dimungkinkan untuk membangun deret variasi diskrit

Seri variasi diskrit - ini adalah tabel di mana nilai yang terjadi dari sifat yang dipelajari ditunjukkan sebagai nilai terpisah dalam urutan menaik dan frekuensinya

  1. Konstruksi deret variasi interval

Selain deret variasi diskrit, sering ada cara pengelompokan data sebagai deret variasi interval.

Deret interval dibangun jika:

    tanda itu memiliki sifat perubahan yang terus menerus;

    ada banyak nilai diskrit (lebih dari 10)

    frekuensi nilai diskrit sangat kecil (tidak melebihi 1-3 dengan jumlah unit pengamatan yang relatif besar);

    banyak nilai diskrit dari suatu fitur dengan frekuensi yang sama.

Deret variasi interval adalah cara pengelompokan data dalam bentuk tabel yang memiliki dua kolom (nilai ciri berupa interval nilai dan frekuensi setiap interval).

Tidak seperti deret diskrit, nilai tanda deret interval tidak diwakili oleh nilai individual, tetapi oleh interval nilai ("dari - ke").

Bilangan yang menunjukkan banyaknya satuan pengamatan yang terdapat pada setiap interval yang dipilih disebut frekuensi nilai fitur dan menunjukkan f saya . Jumlah semua frekuensi deret tersebut sama dengan jumlah elemen (satuan pengamatan) dalam populasi yang diteliti.

Jika suatu unit memiliki nilai ciri yang sama dengan nilai batas atas interval, maka harus dirujuk ke interval berikutnya.

Misalnya, seorang anak dengan tinggi 100 cm akan jatuh ke interval ke-2, dan bukan ke interval pertama; dan seorang anak dengan tinggi 130 cm akan jatuh ke dalam interval terakhir, dan bukan ke dalam yang ketiga.

Berdasarkan data ini, dimungkinkan untuk membuat deret variasi interval.

Setiap interval memiliki batas bawah (x n), batas atas (x in) dan lebar interval ( saya).

Batas interval adalah nilai fitur yang terletak di perbatasan dua interval.

tinggi badan anak (cm)

tinggi badan anak (cm)

jumlah anak

lebih dari 130

Jika suatu interval memiliki batas atas dan batas bawah, maka disebut interval tertutup. Jika interval hanya memiliki batas bawah atau hanya batas atas, maka ini adalah - interval terbuka. Hanya interval pertama atau terakhir yang bisa dibuka. Dalam contoh di atas, interval terakhir terbuka.

Lebar interval (saya) adalah perbedaan antara batas atas dan batas bawah.

saya = x n - x in

Lebar interval terbuka diasumsikan sama dengan lebar interval tertutup yang berdekatan.

tinggi badan anak (cm)

jumlah anak

Lebar interval (i)

untuk perhitungan 130+20=150

20 (karena lebar interval tertutup yang berdekatan adalah 20)

Semua deret interval dibagi menjadi deret interval dengan interval yang sama dan deret interval dengan interval yang tidak sama. . Dalam baris interval dengan interval yang sama, lebar semua interval adalah sama. Dalam deret interval dengan interval yang tidak sama, lebar intervalnya berbeda.

Dalam contoh ini, deret interval dengan interval yang tidak sama.

Pendidikan profesional yang lebih tinggi

"AKADEMI EKONOMI RAKYAT RUSIA DAN

PNS DI BAWAH PRESIDEN

FEDERASI RUSIA"

(cabang Kaluga)

Departemen Ilmu Pengetahuan Alam dan Disiplin Matematika

UJI

Subjek "Statistik"

Siswa ___ Mayboroda Galina Yurievna ______

Fakultas departemen korespondensi Kelompok manajemen negara bagian dan kotamadya G-12-V

Dosen _________ Hamer G.V.

PhD, Associate Professor

Kaluga-2013

Tugas 1.

Tugas 1.1. 4

Tugas 1.2. enambelas

Tugas 1.3. 24

Tugas 1.4. 33

Tugas 2.

Tugas 2.1. 43

Tugas 2.2. 48

Tugas 2.3. 53

Tugas 2.4. 58

Tugas 3.

Tugas 3.1. 63

Tugas 3.2. 68

Tugas 3.3. 73

Tugas 3.4. 79

Tugas 4.

Soal 4.1. 85

Tugas 4.2. 88

Tugas 4.3. 90

Tugas 4.4. 93

Daftar sumber yang digunakan. 96

Tugas 1.

Tugas 1.1.

Berikut adalah data output dan besaran keuntungan yang diperoleh perusahaan daerah (tabel 1).

Tabel 1

Data hasil produksi dan jumlah keuntungan perusahaan

nomor perusahaan Keluaran, juta rubel Untung, juta rubel nomor perusahaan Keluaran, juta rubel Untung, juta rubel
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

Menurut data asli:

1. Bangun serangkaian distribusi statistik perusahaan berdasarkan output, membentuk lima kelompok pada interval yang sama.

Bangun grafik deret distribusi: poligon, histogram, kumulasi. Tentukan nilai modus dan median secara grafis.

2. Hitung karakteristik serangkaian distribusi perusahaan dengan output: rata-rata aritmatika, dispersi, standar deviasi, koefisien variasi.

Buatlah kesimpulan.

3. Dengan menggunakan metode pengelompokan analitis, tentukan keberadaan dan sifat korelasi antara biaya produksi produk dan jumlah laba per perusahaan.

4. Mengukur ketatnya korelasi antara biaya produksi dan jumlah keuntungan dengan korelasi empiris.

Menarik kesimpulan umum.

Keputusan:

Mari kita buat rangkaian distribusi statistik

Untuk menyusun deret variasi interval yang mencirikan distribusi perusahaan dalam hal output, perlu untuk menghitung nilai dan batas interval deret tersebut.

Saat membuat deret dengan interval yang sama, nilai interval h ditentukan dengan rumus:

x maks dan x menit- nilai atribut terbesar dan terkecil dalam kumpulan perusahaan yang dipelajari;

k- jumlah grup seri interval.

Jumlah grup k ditentukan dalam penugasan. k= 5.

x maks= 81 juta rubel, x menit= 21 juta rubel

Perhitungan nilai interval:

juta rubel

Dengan berturut-turut menambahkan nilai interval h = 12 juta rubel. ke batas bawah interval, kami memperoleh grup berikut:

1 grup: 21 - 33 juta rubel.

2 grup: 33 - 45 juta rubel;

Grup 3: 45 - 57 juta rubel.

Grup 4: 57 - 69 juta rubel.

Grup 5: 69 - 81 juta rubel.

Untuk menyusun deret interval, perlu dihitung jumlah perusahaan yang termasuk dalam setiap kelompok ( frekuensi grup).

Proses pengelompokan perusahaan berdasarkan volume output disajikan dalam tabel tambahan 2. Kolom 4 dari tabel ini diperlukan untuk membangun pengelompokan analitis (paragraf 3 tugas).

Meja 2

Tabel untuk membuat deret distribusi interval dan

pengelompokan analitis

Grup perusahaan berdasarkan output, juta rubel nomor perusahaan Keluaran, juta rubel Untung, juta rubel
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
Total 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
Total 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
Total 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
Total 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
Total 229,0 26,9
Total 183,1

Berdasarkan baris ringkasan grup dari tabel "Total" 3, tabel akhir 3 dibentuk, mewakili seri interval distribusi perusahaan berdasarkan output.

Tabel 3

Sejumlah distribusi perusahaan berdasarkan volume keluaran

Kesimpulan. Pengelompokan yang dibangun menunjukkan bahwa distribusi perusahaan dalam hal output tidak seragam. Perusahaan paling umum dengan volume produksi 45 hingga 57 juta rubel. (12 perusahaan). Yang paling tidak umum adalah perusahaan dengan output dari 69 hingga 81 juta rubel. (3 perusahaan).

Mari kita buat grafik deret distribusi.

Poligon sering digunakan untuk mewakili deret diskrit. Untuk membangun poligon dalam sistem koordinat persegi panjang, nilai argumen diplot pada sumbu absis, yaitu opsi (untuk deret variasi interval, bagian tengah interval diambil sebagai argumen) dan pada sumbu ordinat - frekuensi nilai-nilai. Selanjutnya, dalam sistem koordinat ini, titik-titik dibangun, yang koordinatnya merupakan pasangan angka yang sesuai dari deret variasi. Titik-titik yang dihasilkan dihubungkan secara seri oleh segmen garis lurus. Poligon ditunjukkan pada Gambar 1.

grafik batang - grafik batang. Ini memungkinkan Anda untuk mengevaluasi simetri distribusi. Histogramnya ditunjukkan pada Gambar 2.

Gambar 1 - Distribusi poligon perusahaan berdasarkan volume

keluaran

Mode

Gambar 2 - Histogram distribusi perusahaan berdasarkan volume

keluaran

Mode- nilai sifat yang paling sering muncul dalam populasi penelitian.

Untuk deret interval, mode dapat ditentukan secara grafis dari histogram (Gambar 2). Untuk ini, persegi panjang tertinggi dipilih, yang dalam hal ini adalah modal (45–57 juta rubel). Kemudian simpul kanan persegi panjang modal terhubung ke sudut kanan atas persegi panjang sebelumnya. Dan simpul kiri dari persegi panjang modal adalah dengan sudut kiri atas dari persegi panjang berikutnya. Selanjutnya, dari titik perpotongannya, tegak lurus diturunkan ke sumbu absis. Absis titik perpotongan garis-garis ini akan menjadi mode distribusi.

Juta menggosok.

Kesimpulan. Dalam kumpulan perusahaan yang dipertimbangkan, perusahaan dengan output 52 juta rubel adalah yang paling umum.

Mengumpul - kurva patah. Itu dibangun di atas akumulasi frekuensi (dihitung dalam Tabel 4). Kumulasi dimulai dari batas bawah interval pertama (21 juta rubel), frekuensi yang terakumulasi disimpan di batas atas interval. Kumulat ditunjukkan pada Gambar 3.

median

Gambar 3 - Distribusi kumulatif perusahaan berdasarkan volume

keluaran

Median Saya adalah nilai fitur yang berada di tengah-tengah seri peringkat. Ada banyak unit populasi yang sama di kedua sisi median.

Dalam deret interval, median dapat ditentukan secara grafis dari kurva kumulatif. Untuk menentukan median dari titik pada skala frekuensi kumulatif yang sesuai dengan 50% (30:2 = 15), ditarik garis lurus sejajar dengan sumbu absis sampai berpotongan dengan kumulasi. Kemudian, dari titik perpotongan garis lurus yang ditentukan dengan kumulasi, sebuah garis tegak lurus diturunkan ke sumbu absis. Absis titik potong adalah median.

Juta menggosok.

Kesimpulan. Dalam kumpulan perusahaan yang dipertimbangkan, setengah dari perusahaan memiliki volume produksi tidak lebih dari 52 juta rubel, dan setengah lainnya - tidak kurang dari 52 juta rubel.


Informasi serupa.


Saat memproses informasi dalam jumlah besar, yang sangat penting ketika melakukan perkembangan ilmiah modern, peneliti menghadapi tugas serius untuk mengelompokkan data awal dengan benar. Jika datanya diskrit, maka, seperti yang telah kita lihat, tidak ada masalah - Anda hanya perlu menghitung frekuensi setiap fitur. Jika sifat yang diteliti memiliki kontinu karakter (yang lebih umum dalam praktik), maka pilihan jumlah interval optimal untuk mengelompokkan fitur bukanlah tugas yang sepele.

Untuk mengelompokkan variabel acak kontinu, seluruh rentang variasi fitur dibagi menjadi sejumlah interval tertentu ke.

Interval yang dikelompokkan (kontinu) seri variasi disebut interval yang diberi peringkat oleh nilai fitur (), di mana ditunjukkan bersama dengan frekuensi yang sesuai () jumlah pengamatan yang jatuh ke dalam interval ke-r, atau frekuensi relatif ():

Interval nilai karakteristik

frekuensi mi

grafik batang dan kumulasi (ogiva), sudah dibahas secara rinci oleh kami, adalah alat visualisasi data yang sangat baik yang memungkinkan Anda untuk mendapatkan pemahaman utama tentang struktur data. Grafik semacam itu (Gbr. 1.15) dibuat untuk data kontinu dengan cara yang sama seperti untuk data diskrit, hanya dengan mempertimbangkan fakta bahwa data kontinu sepenuhnya mengisi area nilai yang mungkin, dengan mengambil nilai apa pun.

Beras. 1.15.

Jadi kolom pada histogram dan cumulate harus bersentuhan, tidak memiliki area di mana nilai atribut tidak termasuk dalam semua kemungkinan(yaitu, histogram dan cumulate tidak boleh memiliki "lubang" di sepanjang sumbu absis, di mana nilai variabel yang diteliti tidak jatuh, seperti pada Gambar 1.16). Ketinggian bar sesuai dengan frekuensi - jumlah pengamatan yang masuk ke dalam interval yang diberikan, atau frekuensi relatif - proporsi pengamatan. Interval tidak boleh menyeberang dan biasanya lebarnya sama.

Beras. 1.16.

Histogram dan poligon adalah perkiraan kurva kepadatan probabilitas (fungsi diferensial) f(x) distribusi teoretis, dipertimbangkan dalam teori probabilitas. Oleh karena itu, konstruksi mereka sangat penting dalam pemrosesan statistik utama dari data kontinu kuantitatif - dengan bentuknya orang dapat menilai hukum distribusi hipotetis.

Cumulate - kurva akumulasi frekuensi (frekuensi) dari seri variasi interval. Grafik fungsi distribusi integral dibandingkan dengan cumulate F(x), juga dipertimbangkan dalam teori probabilitas.

Pada dasarnya, konsep histogram dan kumulasi dikaitkan secara tepat dengan data kontinu dan deret variasi intervalnya, karena grafiknya masing-masing merupakan estimasi empiris dari fungsi kerapatan probabilitas dan fungsi distribusi.

Konstruksi deret variasi interval dimulai dengan menentukan jumlah interval k. Dan tugas ini mungkin yang paling sulit, penting dan kontroversial dalam masalah yang diteliti.

Jumlah interval tidak boleh terlalu kecil, karena histogram akan terlalu halus ( dihaluskan), kehilangan semua fitur variabilitas data awal - pada Gambar. 1.17 Anda dapat melihat bagaimana data yang sama di mana grafik Gambar. 1,15 digunakan untuk membangun histogram dengan jumlah interval yang lebih kecil (grafik kiri).

Pada saat yang sama, jumlah interval tidak boleh terlalu besar - jika tidak, kami tidak akan dapat memperkirakan kepadatan distribusi data yang diteliti di sepanjang sumbu numerik: histogram akan menjadi kurang mulus (dihaluskan) dengan interval yang tidak terisi, tidak rata (lihat Gambar 1.17, grafik kanan).

Beras. 1.17.

Bagaimana cara menentukan jumlah interval yang paling disukai?

Kembali pada tahun 1926, Herbert Sturges mengusulkan formula untuk menghitung jumlah interval di mana perlu untuk membagi set nilai awal dari atribut yang dipelajari. Rumus ini benar-benar menjadi sangat populer - sebagian besar buku teks statistik menawarkannya, dan banyak paket statistik menggunakannya secara default. Apakah ini dibenarkan dan dalam semua kasus adalah pertanyaan yang sangat serius.

Jadi berdasarkan apa formula Sturges?

Perhatikan distribusi binomial )