Hukum normal distribusi probabilitas. Analisis statistik nilai numerik (statistik non-parametrik)

    Bagaimana mengelola keuangan bisnis Anda dengan benar jika Anda bukan ahli dalam bidang analisis keuangan - Analisis keuangan

    Manajemen keuangan - hubungan keuangan antara mata pelajaran, manajemen keuangan pada tingkat yang berbeda, manajemen portofolio, metode mengelola pergerakan sumber daya keuangan - ini bukan daftar lengkap subjek " Manajemen keuangan"

    Mari kita bicara tentang apa itu pelatihan? Beberapa percaya bahwa ini adalah merek borjuis, yang lain adalah terobosan dengan bisnis modern. Coaching adalah seperangkat aturan untuk bisnis yang sukses, serta kemampuan untuk mengelola aturan ini dengan benar.

4.1. Apakah distribusi pengamatan sering normal?

Dalam model ekonometrik dan ekonomi-matematis yang digunakan, khususnya, dalam studi dan optimalisasi proses pemasaran dan manajemen, manajemen perusahaan dan regional, akurasi dan stabilitas proses teknologi, dalam masalah keandalan, keamanan, termasuk keselamatan lingkungan, fungsi teknis perangkat dan objek , pengembangan bagan organisasi sering menerapkan konsep dan hasil teori probabilitas dan statistik matematika. Dalam hal ini, keluarga parametrik tertentu dari distribusi probabilitas sering digunakan. Yang paling populer adalah distribusi normal. Distribusi log-normal, distribusi eksponensial, distribusi gamma, distribusi Weibull-Gnedenko, dll. juga digunakan.

Jelas, selalu perlu untuk memeriksa kesesuaian model dengan kenyataan. Ada dua pertanyaan. Apakah distribusi aktual berbeda dari yang digunakan dalam model? Sejauh mana perbedaan ini mempengaruhi kesimpulan?

Di bawah ini, dengan menggunakan contoh distribusi normal dan metode untuk menolak pengamatan yang sangat berbeda (pencilan) berdasarkan itu, ditunjukkan bahwa distribusi nyata hampir selalu berbeda dari yang termasuk dalam keluarga parametrik klasik, dan penyimpangan yang ada dari keluarga yang diberikan membuat kesimpulan yang salah, dalam kasus yang sedang dipertimbangkan, tentang penolakan berdasarkan penggunaan keluarga-keluarga ini.

Apakah ada alasan untuk mengasumsikan secara apriori normalitas hasil pengukuran?

Kadang-kadang dikatakan bahwa dalam kasus ketika kesalahan pengukuran (atau variabel acak lainnya) ditentukan sebagai akibat dari tindakan kumulatif dari banyak faktor kecil, maka, karena Teorema Batas Pusat (CLT) dari teori probabilitas, nilai ini adalah didekati dengan baik (berdasarkan distribusi) oleh variabel acak normal. Pernyataan ini benar jika faktor-faktor kecil bertindak secara aditif dan independen satu sama lain. Jika mereka bertindak secara perkalian, maka, karena CLT yang sama, perlu didekati dengan distribusi log-normal. Dalam masalah yang diterapkan, biasanya tidak mungkin untuk membuktikan aditif daripada multiplikasi dari tindakan faktor-faktor kecil. Jika ketergantungan bersifat umum, tidak direduksi menjadi bentuk aditif atau perkalian, dan tidak ada alasan untuk menerima model yang memberikan distribusi eksponensial, Weibull-Gnedenko, gamma atau lainnya, maka praktis tidak ada yang diketahui tentang distribusi variabel acak akhir, kecuali untuk sifat intra-matematis seperti keteraturan .

Saat memproses data tertentu, terkadang diyakini bahwa kesalahan pengukuran memiliki distribusi normal. Atas asumsi normalitas, model klasik regresi, dispersi, analisis faktor, model metrologi dibangun, yang masih terus ditemukan baik dalam peraturan domestik dan dokumentasi teknis maupun dalam standar internasional. Model untuk menghitung tingkat maksimum yang dapat dicapai dari karakteristik tertentu yang digunakan dalam desain sistem untuk memastikan keamanan fungsi struktur ekonomi, perangkat teknis, dan objek didasarkan pada asumsi yang sama. Namun, tidak ada dasar teoretis untuk asumsi semacam itu. Penting untuk mempelajari distribusi kesalahan secara eksperimental.

Apa yang ditunjukkan oleh hasil eksperimen? Ringkasan yang diberikan dalam monografi memungkinkan kita untuk menyatakan bahwa dalam banyak kasus distribusi kesalahan pengukuran berbeda dari yang normal. Dengan demikian, di Machine-Electrotechnical Institute (Varna, Bulgaria), distribusi kesalahan kalibrasi untuk skala alat ukur listrik analog dipelajari. Perangkat yang diproduksi di Cekoslowakia, Uni Soviet, dan Bulgaria dipelajari. Hukum distribusi kesalahan ternyata sama. Ini memiliki kepadatan

Kami menganalisis data pada parameter dari 219 distribusi kesalahan aktual, dipelajari oleh penulis yang berbeda, ketika mengukur kuantitas listrik dan non-listrik dengan berbagai perangkat (listrik). Dari hasil penelitian ini, ternyata terdapat 111 distro, yaitu sekitar 50% termasuk dalam kelas distribusi dengan kepadatan

di mana adalah parameter derajat; b - parameter pergeseran; - parameter skala; - fungsi gamma dari argumen;

(cm.); 63 distribusi, yaitu 30%, memiliki kerapatan bagian atas datar dengan kemiringan yang panjang dan landai, dan tidak dapat digambarkan sebagai normal atau, misalnya, eksponensial. Sisanya 45 distribusi ternyata bimodal.

Dalam buku ahli metrologi terkenal prof. PV Novitsky menyajikan hasil studi tentang hukum distribusi berbagai macam kesalahan pengukuran. Dia mempelajari distribusi kesalahan instrumen elektromekanis pada inti, instrumen elektronik untuk mengukur suhu dan gaya, instrumen digital dengan penyeimbangan manual. Volume sampel data eksperimen untuk setiap spesimen adalah 100-400 bacaan. Ternyata 46 dari 47 distribusi berbeda nyata dari normal. Bentuk distribusi kesalahan dalam 25 salinan voltmeter digital Shch-1411 pada 10 titik jangkauan dipelajari. Hasilnya serupa. Informasi lebih lanjut terdapat dalam monografi.

Laboratorium Matematika Terapan Universitas Negeri Tartu menganalisis 2.500 sampel dari arsip data statistik nyata. Dalam 92%, hipotesis normalitas harus ditolak.

Uraian data eksperimen di atas menunjukkan bahwa kesalahan pengukuran dalam banyak kasus memiliki distribusi yang berbeda dari yang normal. Ini berarti, khususnya, bahwa sebagian besar penerapan uji-t Student, analisis regresi klasik, dan metode statistik lain yang didasarkan pada teori normal, secara tegas, tidak dibenarkan, karena aksioma yang mendasari normalitas distribusi dari distribusi acak yang sesuai. variabel tidak benar.

Jelas, untuk membenarkan atau secara wajar mengubah praktik analisis data statistik yang ada, perlu mempelajari sifat-sifat prosedur analisis data dalam aplikasi "ilegal". Studi tentang prosedur penolakan telah menunjukkan bahwa mereka sangat tidak stabil terhadap penyimpangan dari normalitas, dan oleh karena itu tidak disarankan untuk menggunakannya untuk memproses data nyata (lihat di bawah); oleh karena itu, seseorang tidak dapat menyatakan bahwa prosedur yang diambil secara sewenang-wenang stabil terhadap penyimpangan dari normalitas.

Kadang-kadang disarankan bahwa sebelum menerapkan, misalnya, uji Student untuk homogenitas dua sampel, periksa normalitasnya. Meskipun ada banyak kriteria untuk ini, pengujian untuk normalitas adalah prosedur statistik yang lebih kompleks dan memakan waktu daripada pengujian untuk homogenitas (baik dengan statistik tipe Siswa dan dengan tes non-parametrik). Jumlah pengamatan yang cukup besar diperlukan untuk menetapkan normalitas yang cukup andal. Jadi, untuk menjamin bahwa fungsi distribusi hasil pengamatan berbeda dari beberapa normal tidak lebih dari 0,01 (untuk nilai argumen apa pun), diperlukan sekitar 2500 pengamatan. Dalam sebagian besar studi ekonomi, teknis, biomedis, dan studi terapan lainnya, jumlah pengamatan jauh lebih sedikit. Ini terutama berlaku untuk data yang digunakan dalam studi masalah yang terkait dengan memastikan keamanan fungsi struktur ekonomi dan objek teknis.

Terkadang mereka mencoba menggunakan CCT untuk memperkirakan distribusi kesalahan ke yang normal, termasuk penambah khusus dalam skema teknologi alat pengukur. Mari kita evaluasi kegunaan ukuran ini. Misalkan Z1 , Z2 ,…, Zk adalah variabel acak yang terdistribusi identik secara independen dengan fungsi distribusi H = H(x) sehingga Pertimbangkan

Indikator kedekatan dengan normalitas yang diberikan oleh penambah adalah

Pertidaksamaan kanan dalam hubungan terakhir mengikuti perkiraan konstanta dalam pertidaksamaan Berry-Esseen yang diperoleh dalam buku ini, dan pertidaksamaan kiri dari contoh dalam monografi. Untuk hukum normal = 1,6, untuk hukum seragam = 1,3, untuk hukum dua titik = 1 (ini adalah batas bawah untuk ). Oleh karena itu, untuk memastikan jarak (dalam metrik Kolmogorov) ke distribusi normal tidak lebih dari 0,01 untuk distribusi "tidak berhasil", setidaknya diperlukan k0, di mana

Dalam penambah yang umum digunakan, istilahnya jauh lebih kecil. Dengan mempersempit kelas kemungkinan distribusi H, seseorang dapat memperoleh, seperti yang ditunjukkan dalam monograf, konvergensi yang lebih cepat, tetapi di sini teori belum menyatu dengan praktik. Selain itu, tidak jelas apakah kedekatan distribusi ke normal (dalam metrik tertentu) juga memastikan kedekatan distribusi statistik yang dibangun dari variabel acak dengan distribusi ini ke distribusi statistik yang sesuai dengan pengamatan normal. Rupanya, untuk setiap statistik tertentu, diperlukan studi teoretis khusus.Inilah kesimpulan penulis monografi itu. Dalam masalah penolakan outlier, jawabannya adalah: "Tidak menyediakan" (lihat di bawah).

Perhatikan bahwa hasil dari pengukuran nyata apa pun dicatat menggunakan sejumlah tempat desimal yang terbatas, biasanya kecil (2-5), jadi disarankan untuk memodelkan data nyata apa pun hanya dengan menggunakan variabel acak diskrit yang mengambil jumlah nilai yang terbatas. Distribusi normal hanyalah perkiraan dari distribusi nyata. Jadi, misalnya, data studi tertentu, yang diberikan dalam karya, mengambil nilai dari 1,0 hingga 2,2, mis. ada 13 kemungkinan nilai secara total. Ini mengikuti dari prinsip Dirichlet bahwa di beberapa titik fungsi distribusi yang dibangun menurut data kerja berbeda dari fungsi distribusi normal terdekat setidaknya 1/26, yaitu dengan 0,04. Selain itu, jelas bahwa untuk distribusi normal dari variabel acak, probabilitas jatuh ke dalam himpunan diskrit angka desimal dengan sejumlah tempat desimal adalah 0.

Dari penjelasan di atas dapat disimpulkan bahwa hasil pengukuran dan, secara umum, data statistik memiliki sifat yang mengarah pada fakta bahwa mereka harus dimodelkan oleh variabel acak dengan distribusi yang kurang lebih berbeda dari yang normal. Dalam kebanyakan kasus, distribusi berbeda secara signifikan dari distribusi normal; di lain, distribusi normal tampaknya dapat dianggap sebagai semacam pendekatan, tetapi tidak pernah ada kebetulan yang lengkap. Ini menyiratkan baik kebutuhan untuk mempelajari sifat-sifat prosedur statistik klasik dalam model probabilistik non-klasik (mirip dengan apa yang dilakukan di bawah untuk kriteria Siswa), dan kebutuhan untuk mengembangkan stabil (dengan mempertimbangkan adanya penyimpangan dari normalitas) dan nonparametrik, termasuk prosedur bebas distribusi, pengenalannya yang luas ke dalam praktik pemrosesan data statistik.

Pertimbangan dihilangkan di sini untuk keluarga parametrik lainnya mengarah pada kesimpulan yang sama. Hasilnya dapat dirumuskan sebagai berikut. Distribusi data nyata hampir tidak pernah menjadi milik keluarga parametrik tertentu. Distribusi nyata selalu berbeda dari yang termasuk dalam keluarga parametrik. Perbedaannya bisa besar atau kecil, tetapi selalu ada. Mari kita coba memahami betapa pentingnya perbedaan ini untuk analisis ekonometrik.

Seluruh hak cipta. Materi di situs ini hanya dapat digunakan dengan tautan ke situs ini.

Orlov A.I. Apakah distribusi pengamatan sering normal? - Majalah "Laboratorium Pabrik". 1991 T.57. No.7 H.64-66.

Apakah distribusi pengamatan sering normal?

A.I.Orlov

Hasil pengukuran dan, secara umum, data statistik memiliki sifat yang mengarah pada fakta bahwa mereka harus dimodelkan oleh variabel acak dengan distribusi yang kurang lebih berbeda dari normal. Dalam kebanyakan kasus, distribusi berbeda secara signifikan dari normal. Di lain, distribusi normal tampaknya dapat dianggap sebagai semacam pendekatan. Tapi tidak pernah ada pasangan yang sempurna. Ini menyiratkan kebutuhan untuk mempelajari sifat-sifat prosedur statistik klasik dalam model probabilistik non-klasik, dan kebutuhan untuk mengembangkan stabil (dengan mempertimbangkan adanya penyimpangan dari normalitas) dan non-parametrik, termasuk prosedur bebas distribusi, luasnya pengantar ke dalam praktek pengolahan data statistik.

Dalam model ekonometrik dan ekonomi-matematis yang digunakan, khususnya, dalam studi dan optimalisasi proses pemasaran dan manajemen, manajemen perusahaan dan regional, akurasi dan stabilitas proses teknologi, dalam masalah keandalan, keamanan, termasuk keselamatan lingkungan, fungsi teknis perangkat dan objek , pengembangan bagan organisasi sering menerapkan konsep dan hasil teori probabilitas dan statistik matematika. Dalam hal ini, keluarga parametrik tertentu dari distribusi probabilitas sering digunakan. Yang paling populer adalah distribusi normal. Distribusi log-normal, distribusi eksponensial, distribusi gamma, distribusi Weibull-Gnedenko, dll. juga digunakan.

Jelas, selalu perlu untuk memeriksa kesesuaian model dengan kenyataan. Ada dua pertanyaan. Apakah distribusi aktual berbeda dari yang digunakan dalam model? Sejauh mana perbedaan ini mempengaruhi kesimpulan?

Di bawah ini, dengan menggunakan contoh distribusi normal dan metode untuk menolak pengamatan yang sangat berbeda (pencilan) berdasarkan itu, ditunjukkan bahwa distribusi nyata hampir selalu berbeda dari yang termasuk dalam keluarga parametrik klasik, dan penyimpangan yang ada dari keluarga yang diberikan membuat kesimpulan yang salah, dalam kasus yang sedang dipertimbangkan, tentang penolakan berdasarkan penggunaan keluarga-keluarga ini.

Apakah ada alasan untuk mengasumsikan secara apriori normalitas hasil pengukuran?

Kadang-kadang dikatakan bahwa dalam kasus ketika kesalahan pengukuran (atau variabel acak lainnya) ditentukan sebagai akibat dari tindakan kumulatif dari banyak faktor kecil, maka, karena Teorema Batas Pusat (CLT) dari teori probabilitas, nilai ini adalah didekati dengan baik (berdasarkan distribusi) oleh variabel acak normal. Pernyataan ini benar jika faktor-faktor kecil bertindak secara aditif dan independen satu sama lain. Jika mereka bertindak secara perkalian, maka, karena CLT yang sama, perlu didekati dengan distribusi log-normal. Dalam masalah yang diterapkan, biasanya tidak mungkin untuk membuktikan aditif daripada multiplikasi dari tindakan faktor-faktor kecil. Jika ketergantungan bersifat umum, tidak direduksi menjadi bentuk aditif atau perkalian, dan tidak ada alasan untuk menerima model yang memberikan distribusi eksponensial, Weibull-Gnedenko, gamma atau lainnya, maka praktis tidak ada yang diketahui tentang distribusi variabel acak akhir, kecuali untuk sifat intra-matematis seperti keteraturan .

Saat memproses data tertentu, terkadang diyakini bahwa kesalahan pengukuran memiliki distribusi normal. Atas asumsi normalitas, model klasik regresi, dispersi, analisis faktor, model metrologi dibangun, yang masih terus ditemukan baik dalam peraturan domestik dan dokumentasi teknis maupun dalam standar internasional. Model untuk menghitung tingkat maksimum yang dapat dicapai dari karakteristik tertentu yang digunakan dalam desain sistem untuk memastikan keamanan fungsi struktur ekonomi, perangkat teknis, dan objek didasarkan pada asumsi yang sama. Namun, tidak ada dasar teoretis untuk asumsi semacam itu. Penting untuk mempelajari distribusi kesalahan secara eksperimental.

Apa yang ditunjukkan oleh hasil eksperimen? Ringkasan yang diberikan dalam monografi memungkinkan kita untuk menyatakan bahwa dalam banyak kasus distribusi kesalahan pengukuran berbeda dari yang normal. Dengan demikian, di Machine-Electrotechnical Institute (Varna, Bulgaria), distribusi kesalahan kalibrasi untuk skala alat ukur listrik analog dipelajari. Perangkat yang diproduksi di Cekoslowakia, Uni Soviet, dan Bulgaria dipelajari. Hukum distribusi kesalahan ternyata sama. Ini memiliki kepadatan

Kami menganalisis data pada parameter dari 219 distribusi kesalahan aktual, dipelajari oleh penulis yang berbeda, ketika mengukur kuantitas listrik dan non-listrik dengan berbagai perangkat (listrik). Dari hasil penelitian ini, ternyata 111 distro, yaitu. sekitar 50% termasuk dalam kelas distribusi dengan kepadatan

di mana adalah parameter derajat; b- parameter pergeseran; - parameter skala - fungsi gamma dari argumen;

(cm.); 63 distribusi, yaitu 30% memiliki kerapatan bagian atas datar dengan lereng yang panjang dan landai dan tidak dapat digambarkan sebagai normal atau, misalnya, eksponensial. Sisanya 45 distribusi ternyata bimodal.

Dalam buku ahli metrologi terkenal prof. PV Novitsky menyajikan hasil studi tentang hukum distribusi dari berbagai macam kesalahan pengukuran. Dia mempelajari distribusi kesalahan instrumen elektromekanis pada inti, instrumen elektronik untuk mengukur suhu dan gaya, instrumen digital dengan penyeimbangan manual. Volume sampel data eksperimen untuk setiap spesimen adalah 100-400 bacaan. Ternyata 46 dari 47 distribusi berbeda nyata dari normal. Bentuk distribusi kesalahan dalam 25 salinan voltmeter digital Shch-1411 pada 10 titik jangkauan dipelajari. Hasilnya serupa. Informasi lebih lanjut terdapat dalam monografi.

Laboratorium Matematika Terapan Universitas Negeri Tartu menganalisis 2.500 sampel dari arsip data statistik nyata. Dalam 92%, hipotesis normalitas harus ditolak.

Uraian data eksperimen di atas menunjukkan bahwa kesalahan pengukuran dalam banyak kasus memiliki distribusi yang berbeda dari yang normal. Ini berarti, khususnya, bahwa sebagian besar penerapan uji-t Student, analisis regresi klasik, dan metode statistik lain yang didasarkan pada teori normal, secara tegas, tidak dibenarkan, karena aksioma yang mendasari normalitas distribusi dari distribusi acak yang sesuai. variabel tidak benar.

Jelas, untuk membenarkan atau secara wajar mengubah praktik analisis data statistik yang ada, perlu mempelajari sifat-sifat prosedur analisis data dalam aplikasi "ilegal". Studi tentang prosedur penolakan telah menunjukkan bahwa mereka sangat tidak stabil terhadap penyimpangan dari normalitas, dan oleh karena itu tidak disarankan untuk menggunakannya untuk memproses data nyata (lihat di bawah); oleh karena itu, seseorang tidak dapat menyatakan bahwa prosedur yang diambil secara sewenang-wenang stabil terhadap penyimpangan dari normalitas.

Kadang-kadang disarankan bahwa sebelum menerapkan, misalnya, uji Student untuk homogenitas dua sampel, periksa normalitasnya. Meskipun ada banyak kriteria untuk ini, pengujian untuk normalitas adalah prosedur statistik yang lebih kompleks dan memakan waktu daripada pengujian untuk homogenitas (baik dengan statistik tipe Siswa dan dengan tes non-parametrik). Jumlah pengamatan yang cukup besar diperlukan untuk menetapkan normalitas yang cukup andal. Jadi, untuk menjamin bahwa fungsi distribusi hasil pengamatan berbeda dari beberapa normal tidak lebih dari 0,01 (untuk nilai argumen apa pun), diperlukan sekitar 2500 pengamatan. Dalam sebagian besar studi ekonomi, teknis, biomedis, dan studi terapan lainnya, jumlah pengamatan jauh lebih sedikit. Ini terutama berlaku untuk data yang digunakan dalam studi masalah yang terkait dengan memastikan keamanan fungsi struktur ekonomi dan objek teknis.

Terkadang mereka mencoba menggunakan CCT untuk memperkirakan distribusi kesalahan ke yang normal, termasuk penambah khusus dalam skema teknologi alat pengukur. Mari kita evaluasi kegunaan ukuran ini. Biarlah Z 1 , Z 2 ,…, Z k- variabel acak independen yang terdistribusi identik dengan fungsi distribusi H =H(x) sedemikian rupa sehingga mempertimbangkan

Indikator kedekatan dengan normalitas yang diberikan oleh penambah adalah

Pertidaksamaan kanan dalam hubungan terakhir mengikuti perkiraan konstanta dalam pertidaksamaan Berry-Esseen yang diperoleh dalam buku ini, dan pertidaksamaan kiri dari contoh dalam monografi. Untuk hukum normal = 1,6, untuk hukum seragam = 1,3, untuk hukum dua titik = 1 (ini adalah batas bawah). Oleh karena itu, untuk memastikan jarak (dalam metrik Kolmogorov) ke distribusi normal tidak lebih dari 0,01 untuk distribusi "tidak berhasil", setidaknya k 0 istilah, dimana

Dalam penambah yang umum digunakan, istilahnya jauh lebih kecil. Mempersempit kelas kemungkinan distribusi H, adalah mungkin untuk memperoleh, seperti yang ditunjukkan dalam monograf, konvergensi yang lebih cepat, tetapi di sini teorinya belum menyatu dengan praktik. Selain itu, tidak jelas apakah kedekatan distribusi ke normal (dalam metrik tertentu) juga memastikan kedekatan distribusi statistik yang dibangun dari variabel acak dengan distribusi ini ke distribusi statistik yang sesuai dengan pengamatan normal. Rupanya, untuk setiap statistik tertentu, diperlukan studi teoretis khusus.Inilah kesimpulan penulis monografi itu. Dalam masalah penolakan outlier, jawabannya adalah: "Tidak menyediakan" (lihat di bawah).

Perhatikan bahwa hasil dari pengukuran nyata apa pun dicatat menggunakan sejumlah tempat desimal yang terbatas, biasanya kecil (2-5), jadi disarankan untuk memodelkan data nyata apa pun hanya dengan menggunakan variabel acak diskrit yang mengambil jumlah nilai yang terbatas. Distribusi normal hanyalah perkiraan dari distribusi nyata. Jadi, misalnya, data studi tertentu, yang diberikan dalam karya, mengambil nilai dari 1,0 hingga 2,2, mis. ada 13 kemungkinan nilai secara total. Ini mengikuti prinsip Dirichlet bahwa di beberapa titik fungsi distribusi yang dibangun menurut data kerja berbeda dari fungsi distribusi normal terdekat setidaknya 1/26, yaitu dengan 0,04. Selain itu, jelas bahwa untuk distribusi normal dari variabel acak, probabilitas jatuh ke dalam himpunan diskrit bilangan desimal dengan sejumlah tempat desimal adalah 0.

Dari penjelasan di atas dapat disimpulkan bahwa hasil pengukuran dan, secara umum, data statistik memiliki sifat yang mengarah pada fakta bahwa mereka harus dimodelkan oleh variabel acak dengan distribusi yang kurang lebih berbeda dari yang normal. Dalam kebanyakan kasus, distribusi berbeda secara signifikan dari distribusi normal; di lain, distribusi normal tampaknya dapat dianggap sebagai semacam pendekatan, tetapi tidak pernah ada kebetulan yang lengkap. Ini menyiratkan baik kebutuhan untuk mempelajari sifat-sifat prosedur statistik klasik dalam model probabilistik non-klasik (mirip dengan apa yang dilakukan di bawah untuk kriteria Siswa), dan kebutuhan untuk mengembangkan stabil (dengan mempertimbangkan adanya penyimpangan dari normalitas) dan nonparametrik, termasuk prosedur bebas distribusi, pengenalannya yang luas ke dalam praktik pemrosesan data statistik.

literatur

1. Novitsky P.V., Zograf I.A. Estimasi kesalahan dalam hasil pengukuran. - L.: Energoatomizdat, 1985. - 248 hal.

2. Novitsky P.V. Dasar-dasar teori informasi alat ukur. - L.: energi, 1968. - 248 hal.

3. Borovkov A.A. Teori probabilitas. - M.: Nauka, 1976. - 352 hal.

4. Petrov V.V. Jumlah variabel acak independen. - M.: Nauka, 1972. - 416 hal.

5. Zolotarev V.M. Teori modern penjumlahan variabel acak independen. - M.: Nauka, 1986. - 416 hal.

6. Egorova L.A., Kharitonov Yu.S., Sokolovskaya L.V. // Laboratorium pabrik. - 1976. V.42. 10. S.1237.

Pertimbangkan dua variabel acak independen dan , tunduk pada hukum normal:

, (12.6.1)

. (12.6.2)

Diperlukan untuk membuat komposisi hukum-hukum ini, yaitu, untuk menemukan hukum distribusi kuantitas:

Kami menerapkan rumus umum (12.5.3) untuk komposisi hukum distribusi:

. (12.6.3)

Jika kita membuka tanda kurung di eksponen integran dan membawa suku-suku serupa, kita memperoleh:

,

;

;

.

Mengganti ekspresi ini ke dalam rumus (9.1.3) yang telah kita temui:

, (12.6.4)

setelah transformasi kita mendapatkan:

, (12.6.5)

dan ini tidak lain adalah hukum normal dengan pusat dispersi

dan simpangan baku

. (12.6.7)

Kesimpulan yang sama dapat dicapai dengan lebih mudah dengan bantuan penalaran kualitatif berikut.

Tanpa membuka kurung dan tanpa melakukan transformasi pada integral (12.6.3), kita langsung sampai pada kesimpulan bahwa eksponen adalah trinomial persegi terhadap bentuk

,

di mana nilainya tidak termasuk dalam koefisien sama sekali, itu termasuk dalam koefisien di tingkat pertama, dan dalam koefisien - di alun-alun. Dengan mengingat hal ini dan menerapkan rumus (12.6.4), kami sampai pada kesimpulan bahwa ada fungsi eksponensial, eksponennya adalah trinomial kuadrat terhadap , dan kerapatan distribusi jenis ini sesuai dengan hukum normal. Jadi, kita sampai pada kesimpulan kualitatif murni: hukum distribusi kuantitas harus normal.

Untuk menemukan parameter hukum ini - dan - kita menggunakan teorema penambahan ekspektasi matematis dan teorema penambahan varians. Menurut teorema penjumlahan ekspektasi matematis

Menurut teorema penambahan varians

dari mana rumus (12.6.7) berikut.

Beralih dari deviasi standar ke deviasi yang mungkin sebanding dengannya, kami memperoleh:

Jadi, kita telah sampai pada aturan berikut: ketika hukum normal disusun, hukum normal diperoleh kembali, dan ekspektasi matematika dan varians (atau kemungkinan deviasi kuadrat) dijumlahkan.

Aturan komposisi untuk hukum normal dapat digeneralisasi untuk kasus sejumlah variabel acak independen yang berubah-ubah.

Jika ada variabel acak independen:

tunduk pada hukum normal dengan pusat hamburan

dan simpangan baku

,

maka nilainya

juga mematuhi hukum normal dengan parameter

Alih-alih rumus (12.6.12), Anda dapat menggunakan rumus yang setara:

Jika sistem variabel acak terdistribusi menurut hukum normal, tetapi kuantitasnya bergantung, maka mudah untuk membuktikan, seperti sebelumnya, berdasarkan rumus umum (12.5.1), bahwa hukum distribusi kuantitas

ada juga hukum biasa. Pusat hamburan masih ditambahkan secara aljabar, tetapi untuk standar deviasi aturannya menjadi lebih rumit:

, (12.6.14)

dimana adalah koefisien korelasi dari nilai dan .

Ketika menambahkan beberapa variabel acak dependen, yang dalam totalitasnya mematuhi hukum normal, hukum distribusi jumlah juga ternyata normal dengan parameter

, (12.6.16)

atau kemungkinan penyimpangan

, (12.6.17)

di mana adalah koefisien korelasi dari nilai-nilai, dan penjumlahan meluas ke semua kombinasi berpasangan yang berbeda dari nilai-nilai.

Kita telah melihat sifat yang sangat penting dari hukum normal: ketika hukum normal digabungkan, satu lagi memperoleh hukum normal. Inilah yang disebut "properti stabilitas". Suatu hukum distribusi dikatakan stabil jika, dengan menyusun dua hukum yang bertipe ini, diperoleh kembali suatu hukum yang bertipe sama. Kami telah menunjukkan di atas bahwa hukum normal adalah stabil. Sangat sedikit hukum distribusi yang memiliki sifat stabilitas. Pada yang sebelumnya (Contoh 2), kami memastikan bahwa, misalnya, hukum kerapatan seragam tidak stabil: ketika menyusun dua hukum kerapatan seragam di bagian dari 0 hingga 1, kami memperoleh hukum Simpson.

Stabilitas hukum normal adalah salah satu syarat penting untuk penerapannya yang luas dalam praktik. Namun, sifat stabilitas, selain yang normal, juga dimiliki oleh beberapa hukum distribusi lainnya. Ciri dari hukum normal adalah bahwa ketika sejumlah besar hukum distribusi arbitrer praktis disusun, hukum total ternyata secara sewenang-wenang mendekati hukum normal, terlepas dari apa hukum distribusi istilah itu. Ini dapat diilustrasikan, misalnya, dengan menyusun tiga hukum kerapatan seragam di bagian dari 0 hingga 1. Hukum distribusi yang dihasilkan ditunjukkan pada gambar. 12.6.1. Seperti yang dapat dilihat dari gambar, grafik fungsi sangat mirip dengan grafik hukum normal.

4.1. Apakah distribusi pengamatan sering normal?

Dalam model ekonometrik dan ekonomi-matematis yang digunakan, khususnya, dalam studi dan optimalisasi proses pemasaran dan manajemen, manajemen perusahaan dan regional, akurasi dan stabilitas proses teknologi, dalam masalah keandalan, keamanan, termasuk keselamatan lingkungan, fungsi teknis perangkat dan objek , pengembangan bagan organisasi sering menerapkan konsep dan hasil teori probabilitas dan statistik matematika. Dalam hal ini, keluarga parametrik tertentu dari distribusi probabilitas sering digunakan. Yang paling populer adalah distribusi normal. Distribusi log-normal, distribusi eksponensial, distribusi gamma, distribusi Weibull-Gnedenko, dll. juga digunakan.

Jelas, selalu perlu untuk memeriksa kesesuaian model dengan kenyataan. Ada dua pertanyaan. Apakah distribusi aktual berbeda dari yang digunakan dalam model? Sejauh mana perbedaan ini mempengaruhi kesimpulan?

Di bawah ini, dengan menggunakan contoh distribusi normal dan metode untuk menolak pengamatan yang sangat berbeda (pencilan) berdasarkan itu, ditunjukkan bahwa distribusi nyata hampir selalu berbeda dari yang termasuk dalam keluarga parametrik klasik, dan penyimpangan yang ada dari keluarga yang diberikan membuat kesimpulan yang salah, dalam kasus yang sedang dipertimbangkan, tentang penolakan berdasarkan penggunaan keluarga-keluarga ini.

Apakah ada alasan untuk mengasumsikan secara apriori normalitas hasil pengukuran?

Kadang-kadang dikatakan bahwa dalam kasus ketika kesalahan pengukuran (atau variabel acak lainnya) ditentukan sebagai akibat dari tindakan kumulatif dari banyak faktor kecil, maka, karena Teorema Batas Pusat (CLT) dari teori probabilitas, nilai ini adalah didekati dengan baik (berdasarkan distribusi) oleh variabel acak normal. Pernyataan ini benar jika faktor-faktor kecil bertindak secara aditif dan independen satu sama lain. Jika mereka bertindak secara perkalian, maka, karena CLT yang sama, perlu didekati dengan distribusi log-normal. Dalam masalah yang diterapkan, biasanya tidak mungkin untuk membuktikan aditif daripada multiplikasi dari tindakan faktor-faktor kecil. Jika ketergantungan bersifat umum, tidak direduksi menjadi bentuk aditif atau perkalian, dan tidak ada alasan untuk menerima model yang memberikan distribusi eksponensial, Weibull-Gnedenko, gamma atau lainnya, maka praktis tidak ada yang diketahui tentang distribusi variabel acak akhir, kecuali untuk sifat intra-matematis seperti keteraturan .

Saat memproses data tertentu, terkadang diyakini bahwa kesalahan pengukuran memiliki distribusi normal. Atas asumsi normalitas, model klasik regresi, dispersi, analisis faktor, model metrologi dibangun, yang masih terus ditemukan baik dalam peraturan domestik dan dokumentasi teknis maupun dalam standar internasional. Model untuk menghitung tingkat maksimum yang dapat dicapai dari karakteristik tertentu yang digunakan dalam desain sistem untuk memastikan keamanan fungsi struktur ekonomi, perangkat teknis, dan objek didasarkan pada asumsi yang sama. Namun, tidak ada dasar teoretis untuk asumsi semacam itu. Penting untuk mempelajari distribusi kesalahan secara eksperimental.

Apa yang ditunjukkan oleh hasil eksperimen? Ringkasan yang diberikan dalam monografi memungkinkan kita untuk menyatakan bahwa dalam banyak kasus distribusi kesalahan pengukuran berbeda dari yang normal. Dengan demikian, di Machine-Electrotechnical Institute (Varna, Bulgaria), distribusi kesalahan kalibrasi untuk skala alat ukur listrik analog dipelajari. Perangkat yang diproduksi di Cekoslowakia, Uni Soviet, dan Bulgaria dipelajari. Hukum distribusi kesalahan ternyata sama. Ini memiliki kepadatan

Kami menganalisis data pada parameter dari 219 distribusi kesalahan aktual, yang dipelajari oleh penulis yang berbeda, ketika mengukur kuantitas listrik dan non-listrik dengan berbagai perangkat (listrik). Dari hasil penelitian ini, ternyata terdapat 111 distro, yaitu sekitar 50% termasuk dalam kelas distribusi dengan kepadatan

di mana adalah parameter derajat; b- parameter pergeseran; - parameter skala; - fungsi gamma dari argumen;

(cm.); 63 distribusi, yaitu 30% memiliki kerapatan bagian atas datar dengan lereng yang panjang dan landai dan tidak dapat digambarkan sebagai normal atau, misalnya, eksponensial. Sisanya 45 distribusi ternyata bimodal.

Dalam buku ahli metrologi terkenal prof. PV Novitsky menyajikan hasil studi tentang hukum distribusi berbagai macam kesalahan pengukuran. Dia mempelajari distribusi kesalahan instrumen elektromekanis pada inti, instrumen elektronik untuk mengukur suhu dan gaya, instrumen digital dengan penyeimbangan manual. Volume sampel data eksperimen untuk setiap spesimen adalah 100-400 bacaan. Ternyata 46 dari 47 distribusi berbeda nyata dari normal. Bentuk distribusi kesalahan dalam 25 salinan voltmeter digital Shch-1411 pada 10 titik jangkauan dipelajari. Hasilnya serupa. Informasi lebih lanjut terdapat dalam monografi.

Laboratorium Matematika Terapan Universitas Negeri Tartu menganalisis 2.500 sampel dari arsip data statistik nyata. Dalam 92%, hipotesis normalitas harus ditolak.

Uraian data eksperimen di atas menunjukkan bahwa kesalahan pengukuran dalam banyak kasus memiliki distribusi yang berbeda dari yang normal. Ini berarti, khususnya, bahwa sebagian besar penerapan uji-t Student, analisis regresi klasik, dan metode statistik lain yang didasarkan pada teori normal, secara tegas, tidak dibenarkan, karena aksioma yang mendasari normalitas distribusi dari distribusi acak yang sesuai. variabel tidak benar.

Jelas, untuk membenarkan atau secara wajar mengubah praktik analisis data statistik saat ini, perlu mempelajari sifat-sifat prosedur analisis data dalam aplikasi "ilegal". Studi tentang prosedur penolakan telah menunjukkan bahwa mereka sangat tidak stabil terhadap penyimpangan dari normalitas, dan oleh karena itu tidak disarankan untuk menggunakannya untuk memproses data nyata (lihat di bawah); oleh karena itu, seseorang tidak dapat menyatakan bahwa prosedur yang diambil secara sewenang-wenang stabil terhadap penyimpangan dari normalitas.

Kadang-kadang disarankan bahwa sebelum menerapkan, misalnya, uji Student untuk homogenitas dua sampel, periksa normalitasnya. Meskipun ada banyak kriteria untuk ini, pengujian untuk normalitas adalah prosedur statistik yang lebih kompleks dan memakan waktu daripada pengujian untuk homogenitas (baik dengan statistik tipe Siswa dan dengan tes non-parametrik). Jumlah pengamatan yang cukup besar diperlukan untuk menetapkan normalitas yang cukup andal. Jadi, untuk menjamin bahwa fungsi distribusi hasil pengamatan berbeda dari beberapa normal tidak lebih dari 0,01 (untuk nilai argumen apa pun), diperlukan sekitar 2500 pengamatan. Dalam sebagian besar studi ekonomi, teknis, biomedis, dan studi terapan lainnya, jumlah pengamatan jauh lebih sedikit. Ini terutama berlaku untuk data yang digunakan dalam studi masalah yang terkait dengan memastikan keamanan fungsi struktur ekonomi dan objek teknis.

Terkadang mereka mencoba menggunakan CCT untuk memperkirakan distribusi kesalahan ke yang normal, termasuk penambah khusus dalam skema teknologi alat pengukur. Mari kita evaluasi kegunaan ukuran ini. Biarlah Z 1 , Z 2 ,…, Z k- variabel acak independen yang terdistribusi identik dengan fungsi distribusi H = H(x) sedemikian rupa sehingga mempertimbangkan

Indikator kedekatan dengan normalitas yang diberikan oleh penambah adalah

Pertidaksamaan kanan dalam hubungan terakhir mengikuti dari perkiraan konstanta dalam pertidaksamaan Berry-Esseen yang diperoleh dalam buku ini, dan yang kiri, dari contoh dalam monografi. Untuk hukum normal = 1,6, untuk hukum seragam = 1,3, untuk hukum dua titik = 1 (ini adalah batas bawah untuk ). Oleh karena itu, untuk memastikan jarak (dalam metrik Kolmogorov) ke distribusi normal tidak lebih dari 0,01 untuk distribusi "tidak berhasil", setidaknya k 0 istilah, dimana

Dalam penambah yang umum digunakan, istilahnya jauh lebih kecil. Mempersempit kelas kemungkinan distribusi H, adalah mungkin untuk memperoleh, seperti yang ditunjukkan dalam monograf, konvergensi yang lebih cepat, tetapi di sini teorinya belum menyatu dengan praktik. Selain itu, tidak jelas apakah kedekatan distribusi ke normal (dalam metrik tertentu) juga memastikan kedekatan distribusi statistik yang dibangun dari variabel acak dengan distribusi ini ke distribusi statistik yang sesuai dengan pengamatan normal. Rupanya, untuk setiap statistik tertentu, diperlukan studi teoretis khusus.Inilah kesimpulan penulis monografi itu. Dalam masalah penolakan outlier, jawabannya adalah: "Tidak menyediakan" (lihat di bawah).

Perhatikan bahwa hasil dari pengukuran nyata apa pun dicatat menggunakan sejumlah tempat desimal yang terbatas, biasanya kecil (2-5), jadi disarankan untuk memodelkan data nyata apa pun hanya dengan menggunakan variabel acak diskrit yang mengambil jumlah nilai yang terbatas. Distribusi normal hanyalah perkiraan dari distribusi nyata. Jadi, misalnya, data studi tertentu, yang diberikan dalam karya, mengambil nilai dari 1,0 hingga 2,2, mis. ada 13 kemungkinan nilai secara total. Ini mengikuti prinsip Dirichlet bahwa di beberapa titik fungsi distribusi yang dibangun menurut data kerja berbeda dari fungsi distribusi normal terdekat setidaknya 1/26, yaitu dengan 0,04. Selain itu, jelas bahwa untuk distribusi normal dari variabel acak, probabilitas jatuh ke dalam himpunan diskrit bilangan desimal dengan sejumlah tempat desimal adalah 0.

Dari apa yang telah dikatakan di atas, dapat disimpulkan bahwa hasil pengukuran dan, secara umum, data statistik memiliki sifat yang mengarah pada fakta bahwa mereka harus dimodelkan oleh variabel acak dengan distribusi yang kurang lebih berbeda dari yang normal. Dalam kebanyakan kasus, distribusi berbeda secara signifikan dari distribusi normal; di lain, distribusi normal tampaknya dapat dianggap sebagai semacam pendekatan, tetapi tidak pernah ada kebetulan yang lengkap. Ini menyiratkan baik kebutuhan untuk mempelajari sifat-sifat prosedur statistik klasik dalam model probabilistik non-klasik (mirip dengan apa yang dilakukan di bawah untuk kriteria Siswa), dan kebutuhan untuk mengembangkan stabil (dengan mempertimbangkan adanya penyimpangan dari normalitas) dan nonparametrik, termasuk prosedur bebas distribusi, pengenalannya yang luas ke dalam praktik pemrosesan data statistik.

Pertimbangan dihilangkan di sini untuk keluarga parametrik lainnya mengarah pada kesimpulan yang sama. Hasilnya dapat dirumuskan sebagai berikut. Distribusi data nyata hampir tidak pernah menjadi milik keluarga parametrik tertentu. Distribusi nyata selalu berbeda dari yang termasuk dalam keluarga parametrik. Perbedaannya bisa besar atau kecil, tetapi selalu ada. Mari kita coba memahami betapa pentingnya perbedaan ini untuk analisis ekonometrik.

dalam teori probabilitas dan statistik matematika, berbagai keluarga parametrik dari distribusi variabel acak numerik dipertimbangkan. Yaitu, mereka mempelajari keluarga distribusi normal, logaritmik normal, eksponensial, distribusi gamma, distribusi Weibull-Gnedenko, dll. Semuanya bergantung pada satu, dua atau tiga parameter. Oleh karena itu, untuk menggambarkan distribusi secara lengkap, cukup mengetahui atau memperkirakan satu, dua atau tiga angka. Sangat nyaman. Oleh karena itu, teori statistik matematika parametrik berkembang luas, di mana diasumsikan bahwa distribusi hasil pengamatan termasuk dalam satu atau beberapa keluarga parametrik.

Sayangnya, keluarga parametrik hanya ada di benak penulis buku teks tentang teori probabilitas dan statistik matematika. Mereka tidak ada dalam kehidupan nyata. Oleh karena itu, ekonometrika terutama menggunakan metode non-parametrik, di mana distribusi hasil pengamatan dapat berbentuk arbitrer.

Pertama, dengan menggunakan contoh distribusi normal, kita akan membahas secara lebih rinci ketidakmungkinan penggunaan praktis keluarga parametrik untuk menggambarkan distribusi data ekonomi tertentu. Kemudian kami akan menganalisis metode parametrik untuk menolak pengamatan outlier dan menunjukkan ketidakmungkinan penggunaan praktis dari sejumlah metode statistik parametrik, kekeliruan kesimpulan yang dihasilkannya. Kemudian kami akan menganalisis metode estimasi kepercayaan non-parametrik dari karakteristik utama variabel acak numerik - ekspektasi matematis, median, varians, standar deviasi, koefisien variasi. Kuliah akan diakhiri dengan metode untuk memeriksa homogenitas dua sampel, independen atau terkait.

Apakah distribusi pengamatan sering normal?

Dalam model ekonometrik dan ekonomi-matematis yang digunakan, khususnya, dalam studi dan optimalisasi proses pemasaran dan manajemen, manajemen perusahaan dan regional, akurasi dan stabilitas proses teknologi, dalam masalah keandalan, keamanan, termasuk keselamatan lingkungan, fungsi teknis perangkat dan objek , pengembangan bagan organisasi sering menerapkan konsep dan hasil teori probabilitas dan statistik matematika. Dalam hal ini, keluarga parametrik tertentu dari distribusi probabilitas sering digunakan. Paling Populer distribusi normal. Juga digunakan secara logaritmik distribusi normal, distribusi eksponensial, distribusi gamma, distribusi Weibull-Gnedenko, dll.

Jelas, selalu perlu untuk memeriksa kesesuaian model dengan kenyataan. Ada dua pertanyaan. Apakah distribusi aktual berbeda dari yang digunakan dalam model? Sejauh mana perbedaan ini mempengaruhi kesimpulan?

Di bawah ini, dengan menggunakan contoh distribusi normal dan metode untuk menolak pengamatan yang sangat berbeda (pencilan) berdasarkan itu, ditunjukkan bahwa distribusi nyata hampir selalu berbeda dari yang termasuk dalam keluarga parametrik klasik, dan penyimpangan yang ada dari keluarga yang diberikan membuat kesimpulan yang salah, dalam kasus yang sedang dipertimbangkan, tentang penolakan berdasarkan penggunaan keluarga-keluarga ini.

Apakah ada alasan untuk mengasumsikan secara apriori normalitas hasil pengukuran?

Kadang-kadang dikatakan bahwa dalam kasus di mana kesalahan pengukuran (atau nilai acak) ditentukan sebagai hasil dari aksi gabungan dari banyak faktor kecil, kemudian, berdasarkan Teorema Batas Pusat (CLT) teori probabilitas, nilai ini didekati dengan baik (berdasarkan distribusi) oleh variabel acak normal. Pernyataan ini benar jika faktor-faktor kecil bertindak secara aditif dan independen satu sama lain. Jika mereka bertindak secara perkalian, maka, karena CLT yang sama, perlu didekati dengan distribusi log-normal. Dalam masalah yang diterapkan, biasanya tidak mungkin untuk membuktikan aditif daripada multiplikasi dari tindakan faktor-faktor kecil. Jika ketergantungan bersifat umum, tidak direduksi menjadi bentuk aditif atau perkalian, dan tidak ada alasan untuk menerima model yang memberikan distribusi eksponensial, Weibull-Gnedenko, gamma atau lainnya, maka praktis tidak ada yang diketahui tentang distribusi variabel acak akhir, kecuali untuk sifat intra-matematis seperti keteraturan .

Saat memproses data tertentu, terkadang diyakini bahwa kesalahan pengukuran memiliki: distribusi normal. Pada asumsi normalitas, model klasik regresi, dispersi, analisis faktor, model metrologi, yang masih terus ditemukan baik dalam dokumentasi normatif dan teknis dalam negeri maupun dalam standar internasional. Model untuk menghitung tingkat maksimum yang dapat dicapai dari karakteristik tertentu yang digunakan dalam desain sistem untuk memastikan keamanan fungsi struktur ekonomi, perangkat teknis, dan objek didasarkan pada asumsi yang sama. Namun, tidak ada dasar teoretis untuk asumsi semacam itu. Penting untuk mempelajari distribusi kesalahan secara eksperimental.

Apa yang ditunjukkan oleh hasil eksperimen? Ringkasan yang diberikan dalam monografi memungkinkan kita untuk menyatakan bahwa dalam banyak kasus distribusi kesalahan pengukuran berbeda dari yang normal. Dengan demikian, di Machine-Electrotechnical Institute (Varna, Bulgaria), distribusi kesalahan kalibrasi untuk skala alat ukur listrik analog dipelajari. Perangkat yang diproduksi di Cekoslowakia, Uni Soviet, dan Bulgaria dipelajari. Hukum distribusi kesalahan ternyata sama. Ini memiliki kepadatan

Kami menganalisis data pada parameter dari 219 distribusi kesalahan aktual, dipelajari oleh penulis yang berbeda, ketika mengukur kuantitas listrik dan non-listrik dengan berbagai perangkat (listrik). Dari hasil penelitian ini, ternyata terdapat 111 distro, yaitu sekitar 50% termasuk dalam kelas distribusi dengan kepadatan

di mana adalah parameter derajat; - parameter pergeseran; - parameter skala; - fungsi gamma dari argumen;

Laboratorium Matematika Terapan Universitas Negeri Tartu menganalisis 2.500 sampel dari arsip data statistik nyata. Dalam 92%, hipotesis normalitas harus ditolak.

Uraian data eksperimen di atas menunjukkan bahwa kesalahan pengukuran dalam banyak kasus memiliki distribusi yang berbeda dari yang normal. Ini berarti, khususnya, bahwa sebagian besar penerapan uji-t Student, klasikal analisis regresi dan metode statistik lainnya berdasarkan teori normal, sebenarnya, tidak dibenarkan, karena aksioma normalitas distribusi variabel acak yang sesuai yang mendasarinya tidak benar.

Jelas, untuk membenarkan atau secara wajar mengubah praktik analisis data statistik yang ada, perlu mempelajari sifat-sifat prosedur analisis data dalam aplikasi "ilegal". Studi tentang prosedur penolakan telah menunjukkan bahwa mereka sangat tidak stabil terhadap penyimpangan dari normalitas, dan oleh karena itu tidak disarankan untuk menggunakannya untuk memproses data nyata (lihat di bawah); oleh karena itu, seseorang tidak dapat menyatakan bahwa prosedur yang diambil secara sewenang-wenang stabil terhadap penyimpangan dari normalitas.

Kadang-kadang disarankan bahwa sebelum menerapkan, misalnya, uji Student untuk homogenitas dua sampel, periksa normalitasnya. Meskipun ada banyak kriteria untuk ini, pengujian untuk normalitas adalah prosedur statistik yang lebih kompleks dan memakan waktu daripada pengujian untuk homogenitas (baik dengan statistik tipe Siswa dan dengan tes non-parametrik). Jumlah pengamatan yang cukup besar diperlukan untuk menetapkan normalitas yang cukup andal. Jadi, untuk menjamin bahwa fungsi distribusi hasil pengamatan berbeda dari beberapa normal tidak lebih dari 0,01 (untuk nilai argumen apa pun), diperlukan sekitar 2500 pengamatan. Dalam sebagian besar studi ekonomi, teknis, biomedis, dan studi terapan lainnya, jumlah pengamatan jauh lebih sedikit. Ini terutama berlaku untuk data yang digunakan dalam studi masalah yang terkait dengan memastikan keamanan fungsi struktur ekonomi dan objek teknis.

Terkadang mereka mencoba menggunakan CCT untuk memperkirakan distribusi kesalahan ke yang normal, termasuk penambah khusus dalam skema teknologi alat pengukur. Mari kita evaluasi kegunaan ukuran ini. Membiarkan variabel acak independen terdistribusi identik dengan fungsi distribusi sedemikian rupa sehingga mempertimbangkan

Indikator kedekatan dengan normalitas yang diberikan oleh penambah adalah

Pertidaksamaan kanan dalam hubungan terakhir mengikuti dari perkiraan konstanta dalam pertidaksamaan Berry-Esseen yang diperoleh dalam buku ini, dan yang kiri, dari contoh dalam monografi. Untuk hukum biasa, untuk uniform , untuk dua titik (ini adalah batas bawah untuk ). Oleh karena itu, untuk memastikan jarak (dalam metrik Kolmogorov) ke distribusi normal tidak lebih dari 0,01 untuk distribusi "tidak berhasil", setidaknya diperlukan istilah, di mana probabilitas jatuh ke dalam himpunan diskrit angka desimal dengan jumlah tertentu tempat desimal sama dengan 0.

Dari penjelasan di atas dapat disimpulkan bahwa hasil pengukuran dan, secara umum, data statistik memiliki sifat yang mengarah pada fakta bahwa mereka harus dimodelkan oleh variabel acak dengan distribusi yang kurang lebih berbeda dari yang normal. Dalam kebanyakan kasus, distribusi berbeda secara signifikan dari distribusi normal, dalam kasus lain, distribusi normal tampaknya dapat dianggap sebagai semacam pendekatan, tetapi tidak pernah ada kebetulan yang lengkap. Ini menyiratkan kebutuhan untuk mempelajari sifat-sifat prosedur statistik klasik di non-klasik model probabilistik(mirip dengan apa yang dilakukan di bawah untuk uji-t Student), dan kebutuhan untuk mengembangkan stabil (dengan mempertimbangkan adanya penyimpangan dari normalitas) dan non-parametrik, termasuk prosedur bebas distribusi, pengenalan luas mereka ke dalam praktik statistik pengolahan data.

Pertimbangan dihilangkan di sini untuk keluarga parametrik lainnya mengarah pada kesimpulan yang sama. Hasilnya dapat dirumuskan sebagai berikut. Distribusi data nyata hampir tidak pernah menjadi milik keluarga parametrik tertentu. Distribusi nyata selalu berbeda dari yang termasuk dalam keluarga parametrik. Perbedaannya bisa besar atau kecil, tetapi selalu ada. Mari kita coba memahami betapa pentingnya perbedaan ini untuk analisis ekonometrik.