Hitung interval kepercayaan. Menghitung Interval Keyakinan di Microsoft Excel

"Gaya Katren" terus menerbitkan siklus Konstantin Kravchik tentang statistik medis. Pada dua artikel sebelumnya, penulis menyinggung tentang penjelasan konsep-konsep seperti dan.

Konstantin Kravchik

Matematikawan-analis. Spesialis di bidang penelitian statistik dalam kedokteran dan humaniora

kota Moskow

Sangat sering dalam artikel tentang uji klinis Anda dapat menemukan frasa misterius: "interval kepercayaan" (95% CI atau 95% CI - interval kepercayaan). Misalnya, sebuah artikel mungkin mengatakan: "Uji-t siswa digunakan untuk menilai signifikansi perbedaan, dengan interval kepercayaan 95% dihitung."

Berapa nilai "interval kepercayaan 95%" dan mengapa menghitungnya?

Apa itu interval kepercayaan? - Ini adalah kisaran di mana nilai rata-rata sebenarnya dalam populasi turun. Dan apa, ada rata-rata yang "tidak benar"? Dalam arti tertentu, ya, mereka melakukannya. Dalam kami dijelaskan bahwa tidak mungkin untuk mengukur parameter yang menarik di seluruh populasi, sehingga peneliti puas dengan sampel yang terbatas. Dalam sampel ini (misalnya, berdasarkan berat badan) ada satu nilai rata-rata (berat tertentu), yang dengannya kita menilai nilai rata-rata di seluruh populasi umum. Namun, tidak mungkin bahwa berat rata-rata dalam sampel (terutama yang kecil) akan bertepatan dengan berat rata-rata dalam populasi umum. Oleh karena itu, lebih tepat untuk menghitung dan menggunakan rentang nilai rata-rata populasi umum.

Misalnya, interval kepercayaan 95% (95% CI) untuk hemoglobin adalah antara 110 dan 122 g/L. Ini berarti bahwa dengan probabilitas 95 %, nilai rata-rata sebenarnya untuk hemoglobin pada populasi umum akan berada dalam kisaran 110 hingga 122 g/L. Dengan kata lain, kami tidak mengetahui rata-rata hemoglobin pada populasi umum, tetapi kami dapat menunjukkan kisaran nilai untuk fitur ini dengan probabilitas 95%.

Interval kepercayaan sangat relevan dengan perbedaan rata-rata antar kelompok, atau apa yang disebut ukuran efek.

Misalkan kita membandingkan keefektifan dua sediaan besi: yang sudah lama beredar di pasaran dan yang baru didaftarkan. Setelah terapi, konsentrasi hemoglobin pada kelompok pasien yang diteliti dinilai, dan program statistik menghitung untuk kami bahwa perbedaan antara nilai rata-rata kedua kelompok dengan probabilitas 95% berada dalam kisaran dari 1,72 hingga 14,36 g/l (Tabel 1).

tab. 1. Kriteria sampel independen
(kelompok dibandingkan dengan tingkat hemoglobin)

Ini harus ditafsirkan sebagai berikut: pada sebagian pasien dalam populasi umum yang menggunakan obat baru, hemoglobin rata-rata akan lebih tinggi sebesar 1,72-14,36 g/l dibandingkan mereka yang menggunakan obat yang sudah dikenal.

Dengan kata lain, pada populasi umum, perbedaan nilai rata-rata hemoglobin dalam kelompok dengan probabilitas 95% berada dalam batas-batas ini. Terserah peneliti untuk menilai apakah ini banyak atau sedikit. Inti dari semua ini adalah bahwa kami tidak bekerja dengan satu nilai rata-rata, tetapi dengan rentang nilai, oleh karena itu, kami lebih andal memperkirakan perbedaan parameter antar kelompok.

Dalam paket statistik, atas kebijaksanaan peneliti, seseorang dapat secara mandiri mempersempit atau memperluas batas-batas interval kepercayaan. Dengan menurunkan probabilitas interval kepercayaan, kami mempersempit kisaran rata-rata. Misalnya, pada 90% CI, kisaran rata-rata (atau perbedaan rata-rata) akan lebih sempit daripada 95% CI.

Sebaliknya, meningkatkan probabilitas hingga 99% memperlebar rentang nilai. Saat membandingkan kelompok, batas bawah CI dapat melewati tanda nol. Misalnya, jika kita memperpanjang batas interval kepercayaan hingga 99 %, maka batas interval berkisar antara -1 hingga 16 g/L. Ini berarti bahwa dalam populasi umum terdapat kelompok, selisih antara rata-rata untuk sifat yang dipelajari adalah 0 (M=0).

Interval kepercayaan dapat digunakan untuk menguji hipotesis statistik. Jika selang kepercayaan melewati nol, maka hipotesis nol, yang mengasumsikan bahwa kelompok-kelompok tidak berbeda dalam parameter yang dipelajari, adalah benar. Sebuah contoh dijelaskan di atas, ketika kami memperluas batas hingga 99%. Di suatu tempat dalam populasi umum, kami menemukan kelompok yang tidak berbeda dengan cara apa pun.

95% interval kepercayaan perbedaan hemoglobin, (g/l)


Gambar garis menunjukkan interval kepercayaan 95% untuk perbedaan nilai rata-rata hemoglobin antara kedua kelompok. Garis melewati tanda nol, oleh karena itu, ada perbedaan antara rata-rata sama dengan nol, yang menegaskan hipotesis nol bahwa kelompok tidak berbeda. Perbedaan antar kelompok berkisar antara -2 sampai 5 g/l, yang berarti hemoglobin dapat turun 2 g/l atau meningkat 5 g/l.

Interval kepercayaan adalah indikator yang sangat penting. Berkat itu, Anda dapat melihat apakah perbedaan dalam kelompok itu benar-benar karena perbedaan sarana atau karena sampel yang besar, karena dengan sampel yang besar, kemungkinan menemukan perbedaan lebih besar daripada dengan yang kecil.

Dalam praktiknya, mungkin terlihat seperti ini. Kami mengambil sampel 1000 orang, mengukur kadar hemoglobin dan menemukan bahwa interval kepercayaan untuk perbedaan rata-rata terletak dari 1,2 hingga 1,5 g/L. Tingkat signifikansi statistik dalam hal ini p

Kami melihat bahwa konsentrasi hemoglobin meningkat, tetapi hampir tidak terlihat, oleh karena itu, signifikansi statistik muncul tepat karena ukuran sampel.

Interval kepercayaan dapat dihitung tidak hanya untuk rata-rata, tetapi juga untuk proporsi (dan rasio risiko). Misalnya, kami tertarik pada interval kepercayaan dari proporsi pasien yang mencapai remisi saat menggunakan obat yang dikembangkan. Asumsikan bahwa 95% CI untuk proporsi, yaitu untuk proporsi pasien tersebut, berada dalam kisaran 0,60-0,80. Dengan demikian, kami dapat mengatakan bahwa obat kami memiliki efek terapeutik pada 60 hingga 80% kasus.

Pikiran tidak hanya dalam pengetahuan, tetapi juga dalam kemampuan untuk menerapkan pengetahuan dalam praktik. (Aristoteles)

Interval kepercayaan

tinjauan umum

Mengambil sampel dari populasi, kita akan memperoleh estimasi titik dari parameter yang kita minati dan menghitung kesalahan standar untuk menunjukkan keakuratan estimasi.

Namun, untuk kebanyakan kasus, kesalahan standar seperti itu tidak dapat diterima. Jauh lebih berguna untuk menggabungkan ukuran presisi ini dengan perkiraan interval untuk parameter populasi.

Hal ini dapat dilakukan dengan menggunakan pengetahuan tentang distribusi probabilitas teoritis dari statistik sampel (parameter) untuk menghitung interval kepercayaan (CI - Interval Keyakinan, CI - Interval Keyakinan) untuk parameter.

Secara umum, interval kepercayaan memperluas perkiraan di kedua arah dengan beberapa kelipatan kesalahan standar (dari parameter yang diberikan); dua nilai (batas kepercayaan) yang menentukan interval biasanya dipisahkan dengan koma dan diapit dalam tanda kurung.

Interval kepercayaan untuk mean

Menggunakan distribusi normal

Rata-rata sampel memiliki distribusi normal jika ukuran sampel besar, sehingga pengetahuan tentang distribusi normal dapat diterapkan ketika mempertimbangkan rata-rata sampel.

Secara khusus, 95% dari distribusi rata-rata sampel berada dalam 1,96 standar deviasi (SD) dari rata-rata populasi.

Ketika kita hanya memiliki satu sampel, kita menyebutnya kesalahan standar mean (SEM) dan menghitung interval kepercayaan 95% untuk mean sebagai berikut:

Jika percobaan ini diulang beberapa kali, maka interval akan berisi rata-rata populasi sebenarnya 95% dari waktu.

Ini biasanya interval kepercayaan, seperti rentang nilai di mana rata-rata populasi sebenarnya (rata-rata umum) terletak dengan tingkat kepercayaan 95%.

Meskipun tidak cukup ketat (rata-rata populasi adalah nilai tetap dan karena itu tidak dapat memiliki probabilitas yang terkait dengannya) untuk menafsirkan interval kepercayaan dengan cara ini, secara konseptual lebih mudah untuk dipahami.

Penggunaan t- distribusi

Anda dapat menggunakan distribusi normal jika Anda mengetahui nilai varians dalam populasi. Juga, ketika ukuran sampel kecil, rata-rata sampel mengikuti distribusi normal jika data yang mendasari populasi terdistribusi normal.

Jika data yang mendasari populasi tidak terdistribusi normal dan/atau varians umum (varians populasi) tidak diketahui, mean sampel mematuhi distribusi-t siswa.

Hitung interval kepercayaan 95% untuk mean populasi sebagai berikut:

Dimana - poin persentase (persentil) t- Distribusi siswa dengan (n-1) derajat kebebasan, yang memberikan probabilitas dua sisi 0,05.

Secara umum, ini memberikan interval yang lebih luas daripada ketika menggunakan distribusi normal, karena memperhitungkan ketidakpastian tambahan yang diperkenalkan dengan memperkirakan deviasi standar populasi dan/atau karena ukuran sampel yang kecil.

Ketika ukuran sampel besar (berurutan 100 atau lebih), perbedaan antara dua distribusi ( t-mahasiswa dan normal) diabaikan. Namun, selalu gunakan t- distribusi ketika menghitung interval kepercayaan, bahkan jika ukuran sampel besar.

Biasanya 95% CI diberikan. Interval kepercayaan lainnya dapat dihitung, seperti 99% CI untuk mean.

Alih-alih produk dari kesalahan standar dan nilai tabel t- distribusi yang sesuai dengan probabilitas dua sisi 0,05 kalikan (kesalahan standar) dengan nilai yang sesuai dengan probabilitas dua sisi 0,01. Ini adalah interval kepercayaan yang lebih luas daripada kasus 95% karena mencerminkan peningkatan kepercayaan bahwa interval tersebut memang mencakup rata-rata populasi.

Interval kepercayaan untuk proporsi

Distribusi sampling proporsi memiliki distribusi binomial. Namun, jika ukuran sampel n cukup besar, maka proporsi distribusi sampel mendekati normal dengan mean .

Estimasi dengan rasio sampling p=r/n(di mana r- jumlah individu dalam sampel dengan karakteristik yang menarik bagi kami), dan kesalahan standar diperkirakan:

Interval kepercayaan 95% untuk proporsi diperkirakan:

Jika ukuran sampel kecil (biasanya ketika np atau n(1-p) lebih kecil 5 ), maka distribusi binomial harus digunakan untuk menghitung interval kepercayaan yang tepat.

Perhatikan bahwa jika p dinyatakan dalam persentase, maka (1-p) digantikan oleh (100p).

Interpretasi interval kepercayaan

Saat menafsirkan interval kepercayaan, kami tertarik pada pertanyaan berikut:

Berapa lebar selang kepercayaan?

Interval kepercayaan yang lebar menunjukkan bahwa estimasi tersebut tidak tepat; sempit menunjukkan perkiraan yang bagus.

Lebar interval kepercayaan tergantung pada ukuran kesalahan standar, yang pada gilirannya tergantung pada ukuran sampel, dan ketika mempertimbangkan variabel numerik dari variabilitas data, berikan interval kepercayaan yang lebih luas daripada studi kumpulan data besar yang terdiri dari beberapa orang. variabel.

Apakah CI menyertakan nilai minat tertentu?

Anda dapat memeriksa apakah nilai kemungkinan untuk parameter populasi berada dalam interval kepercayaan. Jika ya, maka hasilnya konsisten dengan kemungkinan nilai ini. Jika tidak, maka kecil kemungkinannya (untuk interval kepercayaan 95%, peluangnya hampir 5%) parameter memiliki nilai ini.

Misalkan kita memiliki sejumlah besar barang dengan distribusi normal dari beberapa karakteristik (misalnya, gudang penuh dari jenis sayuran yang sama, ukuran dan beratnya bervariasi). Anda ingin mengetahui karakteristik rata-rata dari seluruh kelompok barang, tetapi Anda tidak memiliki waktu maupun keinginan untuk mengukur dan menimbang setiap sayuran. Anda mengerti bahwa ini tidak perlu. Tetapi berapa banyak potongan yang perlu Anda ambil untuk pemeriksaan acak?

Sebelum memberikan beberapa rumus yang berguna untuk situasi ini, kita ingat beberapa notasi.

Pertama, jika kita mengukur seluruh gudang sayuran (kumpulan elemen ini disebut populasi umum), maka kita akan mengetahui dengan semua akurasi yang tersedia bagi kita nilai rata-rata berat seluruh batch. Sebut saja ini rata-rata X cf .g en . - Rata-rata umum. Kita telah mengetahui apa yang sepenuhnya ditentukan jika nilai rata-rata dan deviasinya diketahui . Benar, sejauh ini kita bukan rata-rata X maupun s kita tidak tahu populasi umum. Kami hanya dapat mengambil beberapa sampel, mengukur nilai yang kami butuhkan dan menghitung untuk sampel ini baik nilai rata-rata X sr. dalam sampel maupun standar deviasi S sb.

Diketahui bahwa jika pemeriksaan khusus kami berisi sejumlah besar elemen (biasanya n lebih besar dari 30), dan mereka diambil benar-benar acak, lalu s populasi umum hampir tidak akan berbeda dari S ..

Selain itu, untuk kasus distribusi normal, kita dapat menggunakan rumus berikut:

Dengan kemungkinan 95%


Dengan kemungkinan 99%



Secara umum, dengan probabilitas (t)


Hubungan antara nilai t dan nilai peluang P(t) yang ingin diketahui selang kepercayaannya, dapat diambil dari tabel berikut:


Jadi, kami telah menentukan dalam rentang berapa nilai rata-rata untuk populasi umum (dengan probabilitas tertentu).

Kecuali kita memiliki sampel yang cukup besar, kita tidak dapat mengklaim bahwa populasi memiliki s = S sel. Selain itu, dalam hal ini, kedekatan sampel dengan distribusi normal bermasalah. Dalam hal ini, gunakan juga S sb sebagai gantinya s dalam rumus:




tetapi nilai t untuk probabilitas tetap P(t) akan bergantung pada jumlah elemen dalam sampel n. Semakin besar n, semakin dekat interval kepercayaan yang dihasilkan dengan nilai yang diberikan oleh rumus (1). Nilai t dalam hal ini diambil dari tabel lain (Student's t-test), yang kami sediakan di bawah ini:

Nilai Student's t-test untuk probabilitas 0.95 dan 0.99


Contoh 3 30 orang dipilih secara acak dari karyawan perusahaan. Menurut sampel, ternyata gaji rata-rata (per bulan) adalah 30 ribu rubel dengan deviasi persegi rata-rata 5 ribu rubel. Dengan probabilitas 0,99 tentukan gaji rata-rata di perusahaan tersebut.

Keputusan: Dengan syarat, kita memiliki n = 30, X lih. =30000, S=5000, P=0,99. Untuk mencari selang kepercayaan, kami menggunakan rumus yang sesuai dengan kriteria Siswa. Menurut tabel untuk n \u003d 30 dan P \u003d 0,99 kami menemukan t \u003d 2,756, oleh karena itu,


itu. kepercayaan yang diinginkan selang 27484< Х ср.ген < 32516.

Jadi, dengan probabilitas 0,99, dapat dikatakan bahwa interval (27484; 32516) berisi gaji rata-rata di perusahaan.

Kami berharap Anda akan menggunakan metode ini tanpa harus selalu membawa spreadsheet. Perhitungan dapat dilakukan secara otomatis di Excel. Saat berada di file Excel, klik tombol fx di menu atas. Kemudian, pilih di antara fungsi jenis "statistik", dan dari daftar yang diusulkan di dalam kotak - STEUDRASP. Kemudian, pada prompt, menempatkan kursor di bidang "probabilitas", ketik nilai probabilitas timbal balik (yaitu, dalam kasus kami, alih-alih probabilitas 0,95, Anda perlu mengetikkan probabilitas 0,05). Rupanya, spreadsheet dirancang agar hasilnya menjawab pertanyaan seberapa besar kemungkinan kita bisa salah. Demikian pula, di bidang "derajat kebebasan", masukkan nilai (n-1) untuk sampel Anda.

Salah satu metode untuk memecahkan masalah statistik adalah dengan menghitung interval kepercayaan. Ini digunakan sebagai alternatif yang lebih disukai untuk estimasi titik ketika ukuran sampel kecil. Perlu dicatat bahwa proses menghitung interval kepercayaan agak rumit. Tetapi alat program Excel memungkinkan Anda untuk menyederhanakannya. Mari kita cari tahu bagaimana ini dilakukan dalam praktik.

Metode ini digunakan dalam estimasi interval berbagai besaran statistik. Tugas utama perhitungan ini adalah menghilangkan ketidakpastian estimasi titik.

Di Excel, ada dua opsi utama untuk menghitung menggunakan metode ini: ketika varians diketahui, dan ketika tidak diketahui. Dalam kasus pertama, fungsi tersebut digunakan untuk perhitungan PERCAYA DIRI NORM, dan yang kedua KEPERCAYAAN. SISWA.

Metode 1: Fungsi CONFIDENCE NORM

Operator PERCAYA DIRI NORM, yang mengacu pada kelompok fungsi statistik, pertama kali muncul di Excel 2010. Versi sebelumnya dari program ini menggunakan mitranya MEMERCAYAI. Tugas operator ini adalah menghitung selang kepercayaan dengan distribusi normal untuk rata-rata populasi.

Sintaksnya adalah sebagai berikut:

NORM PERCAYA DIRI (alfa, standard_dev, ukuran)

"Alfa" adalah argumen yang menunjukkan tingkat signifikansi yang digunakan untuk menghitung tingkat kepercayaan. Tingkat kepercayaan sama dengan ekspresi berikut:

(1-"Alfa")*100

"Standar deviasi" adalah argumen, yang esensinya jelas dari namanya. Ini adalah standar deviasi dari sampel yang diusulkan.

"Ukuran" adalah argumen yang menentukan ukuran sampel.

Semua argumen untuk operator ini diperlukan.

Fungsi MEMERCAYAI memiliki argumen dan kemungkinan yang sama persis dengan yang sebelumnya. Sintaksnya adalah:

KEPERCAYAAN(alfa, standar_dev, ukuran)

Seperti yang Anda lihat, perbedaannya hanya pada nama operator. Fitur ini telah dipertahankan di Excel 2010 dan versi yang lebih baru dalam kategori khusus untuk alasan kompatibilitas. "Kesesuaian". Di versi Excel 2007 dan sebelumnya, ini ada di grup utama operator statistik.

Batas interval kepercayaan ditentukan dengan menggunakan rumus bentuk berikut:

X+(-)PERCAYA DIRI NORM

Di mana X adalah mean sampel, yang terletak di tengah rentang yang dipilih.

Sekarang mari kita lihat bagaimana menghitung interval kepercayaan menggunakan contoh spesifik. 12 tes dilakukan, menghasilkan hasil yang berbeda, yang tercantum dalam tabel. Inilah totalitas kita. Standar deviasinya adalah 8. Kita perlu menghitung interval kepercayaan pada tingkat kepercayaan 97%.

  1. Pilih sel tempat hasil pemrosesan data akan ditampilkan. Mengklik tombol "Sisipkan Fungsi".
  2. muncul Penyihir Fungsi. Masuk ke kategori "Statistik" dan sorot namanya "PERCAYA DIRI.NORM". Setelah itu klik tombol Oke.
  3. Jendela argumen terbuka. Bidangnya secara alami sesuai dengan nama argumen.
    Atur kursor ke bidang pertama - "Alfa". Di sini kita harus menentukan tingkat signifikansi. Seperti yang kita ingat, tingkat kepercayaan kita adalah 97%. Pada saat yang sama, kami mengatakan bahwa itu dihitung dengan cara ini:

    (1 tingkat kepercayaan)/100

    Artinya, dengan mengganti nilai, kita mendapatkan:

    Dengan perhitungan sederhana, kami menemukan bahwa argumen "Alfa" sama dengan 0,03 . Masukkan nilai ini di bidang.

    Seperti yang Anda ketahui, standar deviasi sama dengan 8 . Oleh karena itu, di lapangan "Standar deviasi" tulis saja nomor itu.

    di lapangan "Ukuran" Anda harus memasukkan jumlah elemen tes yang dilakukan. Seperti yang kita ingat, mereka 12 . Tetapi untuk mengotomatiskan rumus dan tidak mengeditnya setiap kali tes baru dilakukan, mari kita atur nilai ini bukan ke angka biasa, tetapi menggunakan operator MEMERIKSA. Jadi, kami mengatur kursor di lapangan "Ukuran", lalu klik segitiga yang terletak di sebelah kiri bilah rumus.

    Daftar fungsi yang baru saja digunakan akan muncul. Jika operator MEMERIKSA digunakan oleh Anda baru-baru ini, itu harus ada di daftar ini. Dalam hal ini, Anda hanya perlu mengklik namanya. Kalau tidak, jika Anda tidak menemukannya, lanjutkan ke intinya "Lebih banyak fitur...".

  4. Tampaknya sudah akrab bagi kita Penyihir Fungsi. Pindah kembali ke grup "Statistik". Kami memilih nama di sana "MEMERIKSA". Klik pada tombol Oke.
  5. Jendela argumen untuk operator di atas muncul. Fungsi ini dirancang untuk menghitung jumlah sel dalam rentang tertentu yang berisi nilai numerik. Sintaksnya adalah sebagai berikut:

    COUNT(nilai1, nilai2,…)

    Grup argumen "Nilai" adalah referensi ke rentang di mana Anda ingin menghitung jumlah sel yang diisi dengan data numerik. Secara total, mungkin ada hingga 255 argumen seperti itu, tetapi dalam kasus kami, kami hanya membutuhkan satu.

    Atur kursor di lapangan "Nilai1" dan, dengan menahan tombol kiri mouse, pilih rentang pada lembar yang berisi populasi kita. Kemudian alamatnya akan ditampilkan di lapangan. Klik pada tombol Oke.

  6. Setelah itu, aplikasi akan melakukan perhitungan dan menampilkan hasilnya di sel tempatnya berada. Dalam kasus khusus kami, rumusnya ternyata seperti ini:

    NORM PERCAYA DIRI(0.03,8,COUNT(B2:B13))

    Hasil keseluruhan dari perhitungan adalah 5,011609 .

  7. Tapi itu tidak semua. Seperti yang kita ingat, batas selang kepercayaan dihitung dengan menjumlahkan dan mengurangkan dari nilai sampel rata-rata hasil perhitungan PERCAYA DIRI NORM. Dengan cara ini, batas kanan dan kiri interval kepercayaan dihitung, masing-masing. Rata-rata sampel itu sendiri dapat dihitung menggunakan operator RATA-RATA.

    Operator ini dirancang untuk menghitung rata-rata aritmatika dari rentang angka yang dipilih. Ini memiliki sintaks yang agak sederhana berikut:

    RATA-RATA(angka1, angka2,…)

    Argumen "Nomor" dapat berupa nilai numerik tunggal atau referensi ke sel atau bahkan seluruh rentang yang memuatnya.

    Jadi, pilih sel di mana perhitungan nilai rata-rata akan ditampilkan, dan klik tombol "Sisipkan Fungsi".

  8. terbuka Penyihir Fungsi. Kembali ke kategori "Statistik" dan pilih nama dari daftar "RATA-RATA". Seperti biasa, klik tombol Oke.
  9. Jendela argumen diluncurkan. Atur kursor di lapangan "Nomor 1" dan dengan menekan tombol kiri mouse, pilih seluruh rentang nilai. Setelah koordinat ditampilkan di lapangan, klik tombol Oke.
  10. Setelah itu RATA-RATA menampilkan hasil perhitungan ke elemen lembar.
  11. Kami menghitung batas yang tepat dari interval kepercayaan. Untuk melakukan ini, pilih sel yang terpisah, beri tanda «=» dan tambahkan konten elemen lembar tempat hasil perhitungan fungsi berada RATA-RATA dan PERCAYA DIRI NORM. Untuk melakukan perhitungan, tekan tombol Memasuki. Dalam kasus kami, kami mendapatkan rumus berikut:

    Hasil perhitungan: 6,953276

  12. Dengan cara yang sama, kita menghitung batas kiri interval kepercayaan, hanya kali ini dari hasil perhitungan RATA-RATA kurangi hasil perhitungan operator PERCAYA DIRI NORM. Ternyata rumus untuk contoh kita jenis berikut ini:

    Hasil perhitungan: -3,06994

  13. Kami mencoba menjelaskan secara rinci semua langkah untuk menghitung interval kepercayaan, jadi kami menjelaskan setiap rumus secara rinci. Tapi Anda bisa menggabungkan semua tindakan dalam satu formula. Perhitungan batas kanan selang kepercayaan dapat ditulis sebagai berikut:

    RATA-RATA(B2:B13)+PERCAYA DIRI(0.03,8,JUMLAH(B2:B13))

  14. Perhitungan serupa dari batas kiri akan terlihat seperti ini:

    RATA-RATA(B2:B13)-PERCAYA DIRI.NORM(0.03,8,JUMLAH(B2:B13))

Metode 2: Fungsi TRUST.STUDENT

Selain itu, ada fungsi lain di Excel yang terkait dengan perhitungan interval kepercayaan - KEPERCAYAAN. SISWA. Itu baru muncul sejak Excel 2010. Operator ini melakukan perhitungan interval kepercayaan populasi menggunakan distribusi Student. Sangat nyaman untuk menggunakannya dalam kasus ketika varians dan, karenanya, standar deviasi tidak diketahui. Sintaks operatornya adalah:

TRUST.SISWA(alfa,standard_dev,ukuran)

Seperti yang Anda lihat, nama-nama operator dalam kasus ini tetap tidak berubah.

Mari kita lihat bagaimana menghitung batas-batas interval kepercayaan dengan standar deviasi yang tidak diketahui menggunakan contoh populasi yang sama yang kita pertimbangkan pada metode sebelumnya. Tingkat kepercayaan, seperti terakhir kali, kami akan mengambil 97%.

  1. Pilih sel di mana perhitungan akan dilakukan. Klik pada tombol "Sisipkan Fungsi".
  2. Di buka Penyihir Fungsi masuk ke kategori "Statistik". Pilih nama "PERCAYA. SISWA". Klik pada tombol Oke.
  3. Jendela argumen untuk operator tertentu diluncurkan.

    di lapangan "Alfa", mengingat tingkat kepercayaannya adalah 97%, kami menuliskan angkanya 0,03 . Kali kedua kita tidak akan memikirkan prinsip-prinsip penghitungan parameter ini.

    Setelah itu, atur kursor di bidang "Standar deviasi". Kali ini, indikator ini tidak kita ketahui dan perlu dihitung. Ini dilakukan dengan menggunakan fungsi khusus - STDEV.B. Untuk memanggil jendela operator ini, klik segitiga di sebelah kiri bilah rumus. Jika kami tidak menemukan nama yang diinginkan dalam daftar yang terbuka, buka item "Lebih banyak fitur...".

  4. sedang berlari Penyihir Fungsi. Pindah ke kategori "Statistik" dan tandai namanya "STDEV.B". Kemudian klik tombol Oke.
  5. Jendela argumen terbuka. tugas operator STDEV.B adalah definisi simpangan baku dalam pengambilan sampel. Sintaksnya terlihat seperti ini:

    STDEV.V(nomor1,nomor2,…)

    Mudah ditebak bahwa argumennya "Nomor" adalah alamat dari elemen seleksi. Jika pilihan ditempatkan dalam satu larik, maka hanya menggunakan satu argumen, Anda dapat memberikan tautan ke rentang ini.

    Atur kursor di lapangan "Nomor 1" dan, seperti biasa, menahan tombol kiri mouse, pilih set. Setelah koordinat ada di lapangan, jangan buru-buru menekan tombol Oke karena hasilnya akan salah. Pertama kita perlu kembali ke jendela argumen operator KEPERCAYAAN. SISWA untuk membuat argumen terakhir. Untuk melakukan ini, klik nama yang sesuai di bilah rumus.

  6. Jendela argumen dari fungsi yang sudah dikenal terbuka lagi. Atur kursor di lapangan "Ukuran". Sekali lagi, klik pada segitiga yang sudah tidak asing lagi bagi kita untuk menuju ke pilihan operator. Seperti yang Anda pahami, kami membutuhkan nama "MEMERIKSA". Karena kami menggunakan fungsi ini dalam perhitungan di metode sebelumnya, fungsi ini ada dalam daftar ini, jadi klik saja. Jika Anda tidak menemukannya, ikuti algoritma yang dijelaskan dalam metode pertama.
  7. Masuk ke jendela argumen MEMERIKSA, letakkan kursor di bidang "Nomor 1" dan dengan menekan tombol mouse, pilih koleksi. Kemudian klik tombol Oke.
  8. Setelah itu, program menghitung dan menampilkan nilai interval kepercayaan.
  9. Untuk menentukan batas, kita perlu menghitung mean sampel lagi. Tapi, mengingat algoritma perhitungannya menggunakan rumus RATA-RATA sama seperti pada metode sebelumnya, dan bahkan hasilnya tidak berubah, kami tidak akan membahas ini secara mendetail untuk kedua kalinya.
  10. Menjumlahkan hasil perhitungan RATA-RATA dan KEPERCAYAAN. SISWA, kita memperoleh batas yang tepat dari selang kepercayaan.
  11. Dikurangi dari hasil perhitungan operator RATA-RATA hasil perhitungan KEPERCAYAAN. SISWA, kita memiliki batas kiri interval kepercayaan.
  12. Jika perhitungan ditulis dalam satu rumus, maka perhitungan batas kanan dalam kasus kami akan terlihat seperti ini:

    RATA-RATA(B2:B13)+PERCAYA DIRI SISWA(0.03,STDV(B2:B13),JUMLAH(B2:B13))

  13. Dengan demikian, rumus untuk menghitung batas kiri akan terlihat seperti ini:

    RATA-RATA(B2:B13)-PERCAYA DIRI SISWA(0.03,STDV(B2:B13),JUMLAH(B2:B13))

Seperti yang Anda lihat, alat program Excel memungkinkan untuk secara signifikan memfasilitasi perhitungan interval kepercayaan dan batas-batasnya. Untuk tujuan ini, operator terpisah digunakan untuk sampel yang variansnya diketahui dan tidak diketahui.

Dan lain-lain.Semuanya adalah perkiraan rekan teoretis mereka, yang dapat diperoleh jika tidak ada sampel, tetapi populasi umum. Namun sayang, populasi umum sangat mahal dan seringkali tidak tersedia.

Konsep estimasi interval

Setiap estimasi sampel memiliki beberapa pencar, karena adalah variabel acak tergantung pada nilai dalam sampel tertentu. Oleh karena itu, untuk inferensi statistik yang lebih andal, seseorang harus mengetahui tidak hanya perkiraan titik, tetapi juga intervalnya, yang dengan probabilitas tinggi γ (gamma) mencakup perkiraan indikator θ (theta).

Secara formal, ini adalah dua nilai seperti itu (statistik) T1(X) dan T2(X), Apa T1< T 2 , yang pada tingkat probabilitas tertentu γ kondisi terpenuhi:

Singkatnya, itu mungkin γ atau lebih nilai sebenarnya berada di antara titik-titik T1(X) dan T2(X), yang disebut batas bawah dan batas atas selang kepercayaan.

Salah satu syarat untuk membangun interval kepercayaan adalah kesempitan maksimumnya, yaitu itu harus sesingkat mungkin. Keinginan itu cukup alami, karena. peneliti mencoba untuk lebih akurat melokalisasi temuan parameter yang diinginkan.

Oleh karena itu, interval kepercayaan harus mencakup probabilitas distribusi maksimum. dan skor itu sendiri berada di tengah.

Artinya, probabilitas deviasi (indikator sebenarnya dari perkiraan) ke atas sama dengan probabilitas deviasi ke bawah. Perlu juga dicatat bahwa untuk distribusi miring, interval di sebelah kanan tidak sama dengan interval di sebelah kiri.

Gambar di atas dengan jelas menunjukkan bahwa semakin besar tingkat kepercayaan, semakin lebar interval - hubungan langsung.

Ini adalah pengantar kecil untuk teori estimasi interval parameter yang tidak diketahui. Mari kita beralih ke menemukan batas kepercayaan untuk ekspektasi matematis.

Interval kepercayaan untuk ekspektasi matematis

Jika data asli didistribusikan lebih dari , maka rata-rata akan menjadi nilai normal. Ini mengikuti dari aturan bahwa kombinasi linier dari nilai normal juga memiliki distribusi normal. Oleh karena itu, untuk menghitung probabilitas, kita dapat menggunakan perangkat matematika dari hukum distribusi normal.

Namun, ini akan membutuhkan pengetahuan tentang dua parameter - nilai yang diharapkan dan varians, yang biasanya tidak diketahui. Anda tentu saja dapat menggunakan perkiraan alih-alih parameter (rata-rata aritmatika dan ), tetapi kemudian distribusi rata-rata tidak akan terlalu normal, itu akan sedikit diratakan. Warga negara William Gosset dari Irlandia dengan cerdik mencatat fakta ini ketika ia mempublikasikan penemuannya dalam Biometrica edisi Maret 1908. Untuk tujuan kerahasiaan, Gosset menandatangani kontrak dengan Student. Ini adalah bagaimana distribusi-t Student muncul.

Namun, distribusi normal data, yang digunakan oleh K. Gauss dalam analisis kesalahan dalam pengamatan astronomi, sangat jarang dalam kehidupan terestrial dan cukup sulit untuk menetapkan ini (untuk akurasi tinggi, diperlukan sekitar 2 ribu pengamatan). Oleh karena itu, yang terbaik adalah membuang asumsi normalitas dan menggunakan metode yang tidak bergantung pada distribusi data asli.

Timbul pertanyaan: apa distribusi mean aritmatika jika dihitung dari data distribusi yang tidak diketahui? Jawabannya diberikan oleh teori probabilitas yang terkenal teorema limit pusat(CPT). Dalam matematika, ada beberapa versi (formulasi telah disempurnakan selama bertahun-tahun), tetapi semuanya, secara kasar, sampai pada pernyataan bahwa jumlah sejumlah besar variabel acak independen mematuhi hukum distribusi normal.

Saat menghitung mean aritmatika, jumlah variabel acak digunakan. Dari sini ternyata rata-rata aritmatika memiliki distribusi normal, dimana nilai harapan adalah nilai harapan dari data asli, dan variansnya adalah .

Orang pintar tahu cara membuktikan CLT, tetapi kami akan memverifikasi ini dengan bantuan eksperimen yang dilakukan di Excel. Mari kita simulasikan sampel 50 variabel acak terdistribusi seragam (menggunakan fungsi Excel RANDOMBETWEEN). Kemudian kita akan membuat 1000 sampel seperti itu dan menghitung rata-rata aritmatika untuk masing-masing sampel. Mari kita lihat distribusinya.

Terlihat bahwa distribusi rata-ratanya mendekati hukum normal. Jika volume sampel dan jumlahnya dibuat lebih besar, maka kemiripannya akan lebih baik.

Sekarang kita telah melihat sendiri validitas CLT, kita dapat, menggunakan , menghitung interval kepercayaan untuk mean aritmatika, yang mencakup mean sebenarnya atau ekspektasi matematis dengan probabilitas tertentu.

Untuk menetapkan batas atas dan batas bawah, perlu diketahui parameter dari distribusi normal. Sebagai aturan, mereka tidak, oleh karena itu, perkiraan digunakan: rata-rata aritmatika dan varians sampel. Sekali lagi, metode ini memberikan perkiraan yang baik hanya untuk sampel besar. Jika sampelnya kecil, sering disarankan untuk menggunakan distribusi Student. Jangan percaya! Distribusi siswa untuk mean hanya terjadi jika data asli memiliki distribusi normal, yaitu hampir tidak pernah. Oleh karena itu, lebih baik segera mengatur bilah minimum untuk jumlah data yang diperlukan dan menggunakan metode yang benar secara asimtotik. Mereka mengatakan 30 pengamatan sudah cukup. Ambil 50 - Anda tidak bisa salah.

T 1.2 adalah batas bawah dan batas atas interval kepercayaan

– sampel rata-rata aritmatika

s0– simpangan baku sampel (tidak bias)

n - ukuran sampel

γ – tingkat kepercayaan (biasanya sama dengan 0,9, 0,95 atau 0,99)

c =Φ -1 ((1+γ)/2) adalah kebalikan dari fungsi distribusi normal standar. Secara sederhana, ini adalah jumlah kesalahan standar dari rata-rata aritmatika ke batas bawah atau atas (tiga probabilitas yang ditunjukkan sesuai dengan nilai 1,64, 1,96 dan 2,58).

Inti dari rumusnya adalah bahwa rata-rata aritmatika diambil dan kemudian sejumlah tertentu disisihkan darinya ( dengan) kesalahan standar ( s 0 /√n). Semuanya diketahui, ambil dan hitung.

Sebelum penggunaan PC secara massal, untuk mendapatkan nilai fungsi distribusi normal dan kebalikannya, mereka menggunakan . Mereka masih digunakan, tetapi lebih efisien untuk beralih ke formula Excel yang sudah jadi. Semua elemen dari rumus di atas ( , dan ) dapat dengan mudah dihitung di Excel. Tetapi ada juga formula siap pakai untuk menghitung interval kepercayaan - PERCAYA DIRI NORM. Sintaksnya adalah sebagai berikut.

NORM PERCAYA DIRI (alfa, standard_dev, ukuran)

alfa– tingkat signifikansi atau tingkat kepercayaan, yang dalam notasi di atas sama dengan 1-γ, yaitu. probabilitas bahwa matematisharapan akan berada di luar selang kepercayaan. Dengan tingkat kepercayaan 0,95, alpha 0,05, dan seterusnya.

standar_off adalah simpangan baku dari data sampel. Anda tidak perlu menghitung kesalahan standar, Excel akan membagi dengan akar n.

ukuran– ukuran sampel (n).

Hasil dari fungsi CONFIDENCE.NORM adalah suku kedua dari rumus untuk menghitung interval kepercayaan, yaitu. setengah interval. Dengan demikian, titik bawah dan atas adalah rata-rata ± nilai yang diperoleh.

Dengan demikian, dimungkinkan untuk membangun algoritma universal untuk menghitung interval kepercayaan untuk rata-rata aritmatika, yang tidak bergantung pada distribusi data awal. Harga untuk universalitas adalah sifatnya yang asimtotik, yaitu. kebutuhan untuk menggunakan sampel yang relatif besar. Namun, di era teknologi modern, mengumpulkan jumlah data yang tepat biasanya tidak sulit.

Menguji Hipotesis Statistik Menggunakan Interval Keyakinan

(modul 111)

Salah satu masalah utama yang dipecahkan dalam statistik adalah. Singkatnya, esensinya adalah ini. Sebuah asumsi dibuat, misalnya, bahwa harapan dari populasi umum sama dengan beberapa nilai. Kemudian distribusi sarana sampel dibangun, yang dapat diamati dengan harapan tertentu. Selanjutnya, kita melihat di mana dalam distribusi bersyarat ini rata-rata sebenarnya berada. Jika melampaui batas yang diizinkan, maka kemunculan rata-rata seperti itu sangat tidak mungkin, dan dengan satu pengulangan percobaan hampir tidak mungkin, yang bertentangan dengan hipotesis yang diajukan, yang berhasil ditolak. Jika rata-rata tidak melampaui tingkat kritis, maka hipotesis tidak ditolak (tetapi juga tidak terbukti!).

Jadi, dengan bantuan interval kepercayaan, dalam kasus kami untuk harapan, Anda juga dapat menguji beberapa hipotesis. Ini sangat mudah dilakukan. Misalkan rata-rata aritmatika untuk beberapa sampel adalah 100. Hipotesis sedang diuji bahwa nilai yang diharapkan adalah, katakanlah, 90. Artinya, jika kita mengajukan pertanyaan secara primitif, kedengarannya seperti ini: mungkinkah dengan nilai sebenarnya dari rata-rata sama dengan 90, rata-rata yang diamati adalah 100?

Untuk menjawab pertanyaan ini, informasi tambahan tentang standar deviasi dan ukuran sampel akan diperlukan. Katakanlah standar deviasi adalah 30, dan jumlah pengamatan adalah 64 (untuk mengekstrak akar dengan mudah). Maka standar error rata-ratanya adalah 30/8 atau 3,75. Untuk menghitung interval kepercayaan 95%, Anda perlu menyisihkan dua kesalahan standar di kedua sisi rata-rata (lebih tepatnya, 1,96). Interval kepercayaan akan menjadi sekitar 100 ± 7,5, atau dari 92,5 hingga 107,5.

Alasan selanjutnya adalah sebagai berikut. Jika nilai yang diuji berada dalam interval kepercayaan, maka itu tidak bertentangan dengan hipotesis, karena cocok dalam batas fluktuasi acak (dengan probabilitas 95%). Jika titik yang diuji berada di luar interval kepercayaan, maka probabilitas kejadian seperti itu sangat kecil, dalam hal apa pun di bawah tingkat yang dapat diterima. Oleh karena itu, hipotesis ditolak karena bertentangan dengan data yang diamati. Dalam kasus kami, hipotesis harapan berada di luar interval kepercayaan (nilai yang diuji dari 90 tidak termasuk dalam interval 100 ± 7,5), sehingga harus ditolak. Menjawab pertanyaan primitif di atas, orang harus mengatakan: tidak, tidak bisa, dalam hal apa pun, ini sangat jarang terjadi. Seringkali, ini menunjukkan probabilitas spesifik penolakan hipotesis yang salah (level-p), dan bukan level tertentu, yang dengannya interval kepercayaan dibangun, tetapi lebih pada itu di lain waktu.

Seperti yang Anda lihat, tidak sulit untuk membangun interval kepercayaan untuk mean (atau ekspektasi matematis). Hal utama adalah menangkap esensi, dan kemudian semuanya akan berjalan. Dalam praktiknya, sebagian besar menggunakan interval kepercayaan 95%, yaitu sekitar dua kesalahan standar yang lebar di kedua sisi rata-rata.

Itu saja untuk saat ini. Semua yang terbaik!