Batas yang diizinkan dari nilai kesalahan perkiraan rata-rata. Estimasi menggunakan Fisher F-kriteria reliabilitas statistik hasil pemodelan regresi

5. Dengan menggunakan kriteria-F, ditemukan bahwa persamaan regresi pasangan yang diperoleh secara keseluruhan secara statistik tidak signifikan, dan tidak cukup menggambarkan fenomena yang dipelajari tentang hubungan antara pensiun bulanan y dan minimum subsisten x.

6. Model ekonometrik regresi linier berganda telah dibentuk, menghubungkan nilai laba bersih perusahaan bersyarat y dengan perputaran modal x1 dan modal yang digunakan x2

7. Dengan menghitung koefisien elastisitas, ditunjukkan bahwa dengan perubahan perputaran modal sebesar 1%, nilai laba bersih perusahaan berubah sebesar 0,0008%, dan dengan perubahan modal yang digunakan sebesar 1%, nilai laba bersih perusahaan berubah. laba bersih berubah sebesar 0,56%.

8. Dengan menggunakan uji-t, signifikansi statistik dari koefisien regresi dinilai, ditemukan bahwa variabel penjelas x 1 secara statistik tidak signifikan dan dapat dikeluarkan dari persamaan regresi, sedangkan variabel penjelas x 2 signifikan secara statistik.

9. Dengan menggunakan kriteria-F, ditemukan bahwa persamaan regresi berpasangan yang diperoleh secara keseluruhan signifikan secara statistik, dan cukup menggambarkan fenomena yang dipelajari tentang hubungan antara nilai laba bersih perusahaan bersyarat y dengan perputaran modal x 1 dan modal yang digunakan x 2.

10. Rata-rata kesalahan aproksimasi data statistik dengan persamaan linier regresi berganda dihitung, yaitu sebesar 29,8%. Hal ini ditunjukkan karena pengamatan mana dalam database statistik nilai kesalahan ini melebihi nilai yang diijinkan.

14. Membangun model regresi berpasangan tanpa menggunakan EXCEL.

Dengan menggunakan materi statistik yang diberikan pada Tabel 3.5, perlu untuk:

2. Evaluasi keketatan sambungan menggunakan indikator korelasi dan determinasi.

3. Dengan menggunakan koefisien elastisitas, tentukan derajat hubungan antara atribut faktor dan resultan.

4. Tentukan kesalahan aproksimasi rata-rata.

5. Evaluasi reliabilitas statistik simulasi menggunakan uji Fisher F.

Tabel 3.5. data awal.

Bagian dari pendapatan tunai yang ditujukan untuk meningkatkan tabungan dalam deposito, pinjaman, sertifikat dan untuk pembelian mata uang asing, dalam jumlah total rata-rata pendapatan tunai per kapita, %

Upah akrual rata-rata bulanan, c.u.

Kaluga

Kostroma

Orlovskaya

Ryazan

Smolensk

Untuk menentukan parameter yang tidak diketahui b 0 , b 1 dari persamaan regresi linier berpasangan, kami menggunakan sistem standar persamaan normal, yang berbentuk

(3.7)

Untuk menyelesaikan sistem ini, terlebih dahulu perlu ditentukan nilai Sx 2 dan Sxy. Nilai-nilai ini ditentukan dari tabel data awal, melengkapinya dengan kolom yang sesuai (tabel 3.6).

Tabel 3.6. Untuk perhitungan koefisien regresi.

Kemudian sistem (3.7) mengambil bentuk

Mengekspresikan b 0 dari persamaan pertama dan mensubstitusi ekspresi yang dihasilkan ke persamaan kedua, kita mendapatkan:

Melakukan perkalian suku demi suku dan memperluas tanda kurung, kita dapatkan:

Akhirnya, persamaan regresi linier berpasangan, yang menghubungkan bagian pendapatan moneter populasi yang ditujukan untuk meningkatkan tabungan y dengan upah rata-rata bulanan yang masih harus dibayar x, memiliki bentuk:

Jadi, ketika persamaan regresi linier berpasangan dibangun, kami menentukan koefisien korelasi linier dari ketergantungan:

di mana adalah nilai deviasi standar dari parameter yang sesuai.

Untuk menghitung koefisien korelasi linier dari ketergantungan (3.9), kita akan melakukan perhitungan antara.

Mengganti nilai parameter yang ditemukan ke dalam ekspresi (3.9), kami memperoleh

.

Nilai koefisien korelasi linier yang diperoleh menunjukkan adanya hubungan statistik terbalik yang lemah antara bagian pendapatan moneter penduduk yang ditujukan untuk meningkatkan tabungan y dan rata-rata upah bulanan yang masih harus dibayar x.

Koefisien determinasinya adalah , yang berarti bahwa hanya 9,6% yang dijelaskan oleh regresi variabel penjelas oleh y. Dengan demikian, nilai 1 sama dengan 90,4% mencirikan pangsa varians variabel yang disebabkan oleh pengaruh semua variabel penjelas lainnya yang tidak diperhitungkan dalam model ekonometrik.

Koefisien elastisitas sama dengan

Akibatnya, dengan perubahan nilai rata-rata upah bulanan yang masih harus dibayar sebesar 1%, bagian pendapatan tunai penduduk yang ditujukan untuk meningkatkan tabungan juga berkurang sebesar 1%, dan dengan kenaikan upah, ada penurunan bagian pendapatan. pendapatan tunai penduduk yang ditujukan untuk meningkatkan tabungan. Kesimpulan ini bertentangan dengan akal sehat dan hanya dapat dijelaskan oleh ketidaktepatan model matematika yang terbentuk.

Mari kita hitung kesalahan perkiraan rata-rata.

Tabel 3.7. Pada perhitungan rata-rata aproksimasi error.

Nilai yang diperoleh melebihi (12…15)%, yang menunjukkan signifikansi deviasi rata-rata dari data yang dihitung dari data aktual, di mana model ekonometrik dibangun.

Keandalan pemodelan statistik dilakukan berdasarkan kriteria F Fisher. Nilai teoritis kriteria Fisher Fcalc ditentukan dari rasio nilai varians faktorial dan residual yang dihitung untuk satu derajat kebebasan sesuai dengan rumus

di mana n adalah jumlah pengamatan;

m adalah jumlah variabel penjelas (untuk contoh yang dipertimbangkan m m = 1).

Nilai kritis Fcrit ditentukan dari tabel statistik dan untuk taraf signifikansi a = 0,05 sama dengan 10,13. Sejak F kal

15. Membangun model regresi berganda tanpa menggunakan EXCEL.

Dengan menggunakan materi statistik yang diberikan pada Tabel 3.8, Anda harus:

1. Bangun persamaan regresi linier berganda, jelaskan arti ekonomis dari parameternya.

2. Memberikan penilaian perbandingan keeratan hubungan faktor-faktor dengan atribut produktif dengan menggunakan koefisien elastisitas rata-rata (umum).

3. Nilai signifikansi statistik dari koefisien regresi menggunakan uji-t dan hipotesis nol dari persamaan menjadi tidak signifikan menggunakan uji-F.

4. Evaluasi kualitas persamaan dengan menentukan rata-rata eror aproksimasi.

Tabel 3.8. data awal.

Laba bersih, juta USD

Perputaran modal USD juta

Modal yang digunakan, juta. USD

Untuk menentukan parameter yang tidak diketahui b 0 , b 1 , b 2 dari persamaan regresi linier berganda, kita menggunakan sistem standar persamaan normal, yang berbentuk

(3.11)

Untuk menyelesaikan sistem ini, pertama-tama perlu ditentukan nilai Sx 1 2 , Sx 2 2 , Sx 1 y, Sx 2 y, Sx 1 x 2 . Nilai-nilai ini ditentukan dari tabel data awal, melengkapinya dengan kolom yang sesuai (tabel 3.9).

Tabel 3.9. Untuk perhitungan koefisien regresi.

Kemudian sistem (3.11) mengambil bentuk

Untuk menyelesaikan sistem ini, kami menggunakan metode Gauss, yang terdiri dari penghapusan berturut-turut yang tidak diketahui: kami membagi persamaan pertama sistem dengan 10, kemudian mengalikan persamaan yang dihasilkan dengan 370,6 dan menguranginya dari persamaan kedua sistem, kemudian kita kalikan persamaan yang dihasilkan dengan 158,20 dan kurangi dari persamaan ketiga sistem. Mengulangi algoritma yang ditunjukkan untuk transformasi persamaan kedua dan ketiga dari sistem, kami memperoleh:

Þ Þ

Þ .

Setelah transformasi kita memiliki:

Kemudian, akhirnya, ketergantungan laba bersih pada perputaran modal dan modal yang digunakan dalam bentuk persamaan regresi linier berganda memiliki bentuk:

Dari persamaan ekonometrika yang dihasilkan dapat dilihat bahwa dengan peningkatan modal yang digunakan, laba bersih meningkat, dan sebaliknya, dengan peningkatan perputaran modal, laba bersih menurun. Selain itu, semakin besar koefisien regresi maka semakin besar pengaruh variabel penjelas terhadap variabel dependen. Dalam contoh ini, nilai koefisien regresi lebih besar dari nilai koefisien, oleh karena itu, modal yang digunakan memiliki dampak yang jauh lebih besar terhadap laba bersih daripada perputaran modal. Untuk mengukur kesimpulan ini, kami menentukan koefisien elastisitas parsial.

Analisis hasil yang diperoleh juga menunjukkan bahwa modal yang digunakan memiliki dampak yang lebih besar terhadap laba bersih. Jadi, khususnya, dengan peningkatan modal yang digunakan sebesar 1%, laba bersih meningkat sebesar 1,17%. Pada saat yang sama, dengan peningkatan perputaran modal sebesar 1%, laba bersih menurun sebesar 0,5%.

Nilai teoritis kriteria Fisher F calc

Nilai nilai kritis F crit ditentukan dengan tabel statistik dan untuk taraf signifikansi a = 0,05 adalah sebesar 4,74. Karena F hitung > F crit, hipotesis nol ditolak, dan persamaan regresi yang dihasilkan diasumsikan signifikan secara statistik.

Penilaian signifikansi statistik dari koefisien regresi menurut kriteria-t direduksi menjadi membandingkan nilai numerik dari koefisien-koefisien ini dengan besarnya kesalahan acaknya dan menurut ketergantungannya:

Rumus kerja untuk menghitung nilai teoritis t-statistik adalah:

, (3.13)

dimana koefisien korelasi pasangan dan koefisien korelasi ganda dihitung dari dependensi:

Maka nilai teoritis (dihitung) dari t-statistik masing-masing sama dengan:

Karena nilai kritis t-statistik, ditentukan menurut tabel statistik untuk taraf signifikansi a=0,05, sama dengan tcrit=2,36 lebih besar nilai absolut dari = - 1,798, maka hipotesis nol tidak ditolak dan variabel penjelas x 1 secara statistik tidak signifikan dan dapat dikeluarkan dari persamaan regresi. Sebaliknya, untuk koefisien regresi kedua > t crit (3,3 >2,36), dan variabel penjelas x 2 signifikan secara statistik.

Mari kita hitung kesalahan perkiraan rata-rata.

Tabel 3.10. Pada perhitungan rata-rata aproksimasi error.

Maka kesalahan aproksimasi rata-rata sama dengan

Nilai yang diperoleh tidak melebihi batas yang diperbolehkan sebesar (12…15)%.

16. Sejarah perkembangan teori pengukuran

Pada awalnya, TI berkembang sebagai teori pengukuran psikofisik. Dalam publikasi pasca perang, psikolog Amerika S.S. Stephens fokus pada skala pengukuran. Pada paruh kedua abad XX. Ruang lingkup TI berkembang pesat. Salah satu volume "Encyclopedia of Psychological Sciences" yang diterbitkan di Amerika Serikat pada 1950-an disebut "Pengukuran Psikologis". Penyusun publikasi ini telah memperluas cakupan TI dari psikofisika ke psikologi secara umum. Dalam artikel kumpulan "Dasar-dasar teori pengukuran" ini, presentasi berlangsung pada tingkat abstrak-matematis, tanpa mengacu pada bidang aplikasi tertentu. Di dalamnya, penekanan ditempatkan pada "homomorfisme sistem empiris dengan hubungan menjadi yang numerik" (tidak perlu masuk ke istilah matematika ini di sini), dan kompleksitas matematika dari presentasi meningkat dibandingkan dengan karya-karya S.S. Stevens.

Dalam salah satu artikel domestik pertama tentang TI (akhir 60-an), ditemukan bahwa poin yang diberikan oleh para ahli ketika mengevaluasi objek keahlian, sebagai suatu peraturan, diukur pada skala ordinal. Karya-karya yang muncul pada awal tahun 1970-an menyebabkan perluasan wilayah penggunaan TI yang signifikan. Itu diterapkan pada kualifikasi pedagogis (mengukur kualitas pengetahuan siswa), dalam studi sistem, dalam berbagai tugas teori penilaian ahli, untuk menggabungkan indikator kualitas produk, dalam studi sosiologis, dll.

Seiring dengan penetapan jenis skala untuk mengukur data tertentu, pencarian algoritma analisis data diajukan sebagai dua masalah utama TI, yang hasilnya tidak berubah dengan transformasi skala yang diizinkan (yaitu, invarian sehubungan dengan untuk transformasi ini).Skala ordinal dalam geografi adalah skala angin Beaufort ("tenang", "angin lemah", "angin sedang", dll.), skala kekuatan gempa. Jelas, tidak dapat dikatakan bahwa gempa bumi 2 magnitudo (lampu berayun di bawah langit-langit) persis 5 kali lebih lemah daripada gempa bumi 10 magnitudo (penghancuran total semua yang ada di permukaan bumi).

Dalam kedokteran, skala ordinal adalah skala stadium hipertensi (menurut Myasnikov), skala derajat gagal jantung (menurut Strazhesko-Vasilenko-Lang), skala keparahan insufisiensi koroner (menurut Fogelson), dll. Semua skala ini dibangun sesuai dengan skema: penyakit tidak terdeteksi; tahap pertama penyakit; tahap kedua; tahap ketiga ... Kadang-kadang tahap 1a, 16, dll dibedakan Setiap tahap memiliki karakteristik medis yang khas hanya untuk itu. Saat menggambarkan kelompok disabilitas, angka digunakan dalam urutan yang berlawanan: yang paling parah - kelompok disabilitas pertama, lalu - yang kedua, yang paling ringan - yang ketiga.

Nomor rumah juga diukur dalam skala ordinal - mereka menunjukkan urutan rumah di sepanjang jalan. Nomor volume dalam kumpulan karya penulis atau nomor kasus dalam arsip perusahaan biasanya dikaitkan dengan urutan kronologis pembuatannya.

Saat menilai kualitas produk dan layanan, skala ordinal populer dalam apa yang disebut qualimetry (terjemahan literal - pengukuran kualitas). Yaitu, satu unit output dinilai baik atau buruk. Dalam analisis yang lebih mendalam digunakan timbangan dengan tiga gradasi: ada cacat yang signifikan - hanya ada cacat kecil - tidak ada cacat. Kadang-kadang empat gradasi digunakan: ada cacat kritis (sehingga tidak mungkin digunakan) - ada cacat yang signifikan - hanya ada cacat kecil - tidak ada cacat. Nilai produk memiliki arti yang sama - kelas tertinggi, kelas satu, kelas dua, ...

Saat menilai dampak lingkungan, penilaian pertama yang paling umum biasanya ordinal, misalnya: lingkungan alam stabil - lingkungan alam tertindas (merendahkan). Skala lingkungan-medis serupa: tidak ada dampak nyata pada kesehatan masyarakat - dampak negatif pada kesehatan dicatat.

Skala ordinal juga digunakan di area lain. Dalam ekonometrika, ini terutama berbagai metode penilaian ahli.

Semua skala pengukuran dibagi menjadi dua kelompok - skala tanda kualitatif dan skala tanda kuantitatif. Skala ordinal dan skala nama adalah skala utama fitur kualitatif, oleh karena itu, di banyak bidang tertentu, hasil analisis kualitatif dapat dianggap sebagai pengukuran pada skala ini. Skala tanda kuantitatif adalah skala interval, rasio, perbedaan, mutlak. Skala interval mengukur nilai energi potensial atau koordinat suatu titik pada garis lurus. Dalam kasus ini, baik titik referensi alami maupun unit pengukuran alami tidak dapat ditandai pada skala. Peneliti sendiri yang harus menentukan titik acuan dan memilih sendiri satuan pengukurannya. Transformasi yang valid dalam skala interval adalah transformasi linear meningkat, yaitu. fungsi linier. Skala suhu Celsius dan Fahrenheit terkait secara tepat dengan hubungan ini: ° = 5/9 (° F - 32), di mana ° adalah suhu (dalam derajat) pada skala Celsius, dan ° F adalah suhu pada Fahrenheit skala.

Dari skala kuantitatif, yang paling umum dalam sains dan praktik adalah skala rasio. Mereka memiliki titik referensi alami - nol, mis. tidak ada kuantitas, tetapi tidak ada satuan ukuran alami. Sebagian besar unit fisik diukur pada skala rasio: massa tubuh, panjang, muatan, serta harga dalam ekonomi. Transformasi yang diizinkan dalam skala hubungan serupa (hanya mengubah skala). Dengan kata lain, konversi inkremental linier tanpa intersep, seperti mengonversi harga dari satu mata uang ke mata uang lainnya dengan kurs tetap. Misalkan kita membandingkan efisiensi ekonomi dari dua proyek investasi menggunakan harga dalam rubel. Biarkan proyek pertama lebih baik dari yang kedua. Sekarang mari kita beralih ke mata uang China, yuan, menggunakan nilai tukar tetap. Jelas, proyek pertama harus lagi lebih menguntungkan daripada yang kedua. Namun, algoritma perhitungan tidak secara otomatis memastikan pemenuhan kondisi ini, dan perlu untuk memeriksa apakah itu terpenuhi. Hasil tes semacam itu untuk nilai rata-rata dijelaskan di bawah ini.

Dalam skala perbedaan ada unit pengukuran alami, tetapi tidak ada titik referensi alami. Waktu diukur pada skala perbedaan, jika tahun (atau hari - dari siang hingga siang) diambil sebagai unit pengukuran alami, dan pada skala interval dalam kasus umum. Pada tingkat pengetahuan saat ini, titik referensi alami tidak dapat ditentukan. Penulis yang berbeda menghitung tanggal penciptaan dunia dengan cara yang berbeda, serta momen Kelahiran Kristus.

Untuk skala mutlak saja, hasil pengukurannya berupa angka-angka dalam arti kata biasa, seperti jumlah orang dalam suatu ruangan. Untuk skala absolut, hanya transformasi identitas yang diperbolehkan.

Dalam proses pengembangan bidang pengetahuan yang sesuai, jenis skala dapat berubah. Jadi, pada awalnya suhu diukur dalam skala ordinal (lebih dingin - lebih hangat). Kemudian - pada skala interval (Celcius, Fahrenheit, Reaumur). Akhirnya, setelah penemuan nol mutlak, suhu dapat dianggap diukur pada skala rasio (skala Kelvin). Perlu dicatat bahwa kadang-kadang ada ketidaksepakatan di antara para ahli tentang skala mana yang harus digunakan untuk mempertimbangkan kuantitas nyata tertentu yang diukur. Dengan kata lain, proses pengukuran mencakup definisi jenis skala (bersama dengan alasan pemilihan jenis skala tertentu). Selain enam jenis tangga nada utama yang terdaftar, tangga nada lain kadang-kadang digunakan.

17. Algoritma invarian dan nilai rata-rata.

Mari kita merumuskan persyaratan utama untuk algoritma analisis data di TI: kesimpulan yang diambil berdasarkan data yang diukur pada skala jenis tertentu tidak boleh berubah dengan transformasi skala pengukuran yang dapat diterima dari data ini. Dengan kata lain, kesimpulan harus invarian sehubungan dengan transformasi skala yang diizinkan.

Dengan demikian, salah satu tujuan utama teori pengukuran adalah perjuangan melawan subjektivitas peneliti ketika menetapkan nilai numerik ke objek nyata. Jadi, jarak dapat diukur dalam arshin, meter, mikron, mil, parsec, dan satuan pengukuran lainnya. Massa (berat) - dalam pound, kilogram, pound, dll. Harga barang dan jasa dapat ditunjukkan dalam yuan, rubel, tenge, hryvnia, lat, kroon, mark, dolar AS, dan mata uang lainnya (tergantung pada tingkat konversi yang ditentukan). Mari kita tekankan keadaan yang sangat penting, meskipun cukup jelas,: pilihan unit pengukuran tergantung pada peneliti, yaitu. subyektif. Inferensi statistik dapat memadai untuk kenyataan hanya ketika mereka tidak bergantung pada unit pengukuran mana yang lebih disukai peneliti, ketika invarian di bawah transformasi skala yang dapat diterima. Dari sekian banyak algoritma untuk analisis data ekonometrika, hanya sedikit yang memenuhi kondisi ini. Mari kita tunjukkan pada contoh perbandingan nilai rata-rata.

Misalkan X 1 , X 2 ,.., X n adalah sampel berukuran n. Rata-rata aritmatika sering digunakan. Penggunaan mean aritmatika begitu lumrah sehingga kata kedua dalam istilah tersebut sering dihilangkan dan disebut sebagai gaji rata-rata, pendapatan rata-rata, dan rata-rata lainnya untuk data ekonomi tertentu, yang berarti "rata-rata" rata-rata aritmatika. Tradisi seperti itu dapat menyebabkan kesimpulan yang salah. Mari kita tunjukkan ini dengan contoh menghitung upah rata-rata (pendapatan rata-rata) karyawan dari perusahaan bersyarat. Dari 100 pekerja, hanya 5 yang memiliki upah lebih dari itu, dan upah 95 sisanya jauh lebih rendah dari rata-rata aritmatika. Alasannya jelas - gaji satu orang - direktur umum - melebihi gaji 95 pekerja - pekerja, insinyur, dan karyawan berketerampilan rendah dan sangat terampil. Situasinya mirip dengan yang digambarkan dalam cerita terkenal tentang rumah sakit, di mana 10 pasien, 9 di antaranya memiliki suhu 40 ° C, dan satu sudah kelelahan, berada di kamar mayat dengan suhu 0 ° C. Sementara itu, suhu rata-rata di rumah sakit adalah 36°C - tidak ada yang lebih baik!

Jadi, rata-rata aritmatika hanya dapat digunakan untuk populasi yang cukup homogen (tanpa outlier besar dalam satu arah atau lainnya). Dan apa rata-rata yang digunakan untuk menggambarkan upah? Sangat wajar untuk menggunakan median - rata-rata aritmatika dari karyawan ke-50 dan ke-51, jika gaji mereka dalam urutan yang tidak menurun. Pertama adalah gaji 40 pekerja berketerampilan rendah, dan kemudian - dari pekerja ke-41 hingga ke-70 - upah pekerja berketerampilan tinggi. Akibatnya, median jatuh tepat pada mereka dan sama dengan 200. Untuk 50 pekerja, gaji tidak melebihi 200, dan untuk 50 - setidaknya 200, sehingga median menunjukkan "pusat", di mana sebagian besar nilai yang dipelajari dikelompokkan. Rata-rata lainnya adalah modus, nilai yang paling sering muncul. Dalam kasus yang sedang dipertimbangkan, ini adalah upah pekerja berketerampilan rendah, yaitu. 100. Jadi, untuk menggambarkan gaji, kami memiliki tiga nilai rata-rata - mode (100 unit), median (200 unit) dan mean aritmatika (400 unit).

Untuk distribusi pendapatan dan upah yang diamati dalam kehidupan nyata, pola yang sama berlaku: modus lebih kecil dari median, dan median lebih kecil dari rata-rata aritmatika.

Mengapa rata-rata digunakan dalam ilmu ekonomi? Biasanya, untuk mengganti satu set angka dengan satu angka, untuk membandingkan set menggunakan rata-rata. Misalkan, Y 1 , Y 2 ,..., Y n menjadi seperangkat penilaian ahli "diberikan" untuk satu objek keahlian (misalnya, salah satu opsi untuk pengembangan strategis perusahaan), Z 1, Z 2 ,..., Z n - yang kedua (varian lain dari perkembangan tersebut). Bagaimana agregat ini dapat dibandingkan? Jelas, cara termudah adalah dengan rata-rata.

Bagaimana cara menghitung rata-rata? Berbagai jenis rata-rata dikenal: rata-rata aritmatika, median, modus, rata-rata geometrik, rata-rata harmonik, rata-rata persegi. Ingatlah bahwa konsep umum nilai rata-rata diperkenalkan oleh ahli matematika Prancis pada paruh pertama abad ke-19. Akademisi O. Koshi. Ini adalah sebagai berikut: nilai rata-rata adalah fungsi apa pun (X 1, X 2,..., X n) sedemikian rupa sehingga untuk semua nilai argumen yang mungkin, nilai fungsi ini tidak kurang dari minimum bilangan X 1, X 2,... , X n , dan tidak lebih dari maksimum bilangan tersebut. Semua jenis rata-rata di atas adalah rata-rata Cauchy.

Dengan transformasi skala yang dapat diterima, nilai mean jelas berubah. Tetapi kesimpulan tentang populasi mana yang rata-ratanya lebih besar, dan untuk populasi mana yang lebih kecil, tidak boleh berubah (sesuai dengan persyaratan invarian kesimpulan, diadopsi sebagai persyaratan utama dalam TI). Mari kita rumuskan masalah matematika yang sesuai untuk menemukan bentuk nilai rata-rata, yang hasil perbandingannya stabil terhadap transformasi skala yang dapat diterima.

Misal F(X 1 X 2 ,..., X n) adalah mean Cauchy. Biarkan rata-rata untuk populasi pertama lebih kecil dari rata-rata untuk populasi kedua: maka, menurut TI, untuk stabilitas hasil membandingkan rata-rata, perlu untuk setiap transformasi yang dapat diterima g dari kelompok transformasi yang dapat diterima dalam skala yang sesuai memang benar bahwa rata-rata nilai yang diubah dari populasi pertama juga kurang dari rata-rata nilai yang diubah untuk set kedua. Selain itu, kondisi yang dirumuskan harus benar untuk setiap dua koleksi Y 1 , Y 2 ,...,Y n dan Z 1, Z 2 ,..., Z n dan, ingat, setiap transformasi yang dapat diterima. Nilai rata-rata yang memenuhi kondisi yang dirumuskan akan disebut dapat diterima (dalam skala yang sesuai). Menurut TI, hanya rata-rata tersebut yang dapat digunakan dalam analisis pendapat ahli dan data lain yang diukur dalam skala yang dipertimbangkan.

Dengan bantuan teori matematika, yang dikembangkan pada tahun 1970-an, adalah mungkin untuk menggambarkan bentuk sarana yang dapat diterima dalam skala utama. Jelas bahwa untuk data yang diukur dalam skala nama, hanya mode yang cocok sebagai rata-rata.

18. Nilai rata-rata dalam skala ordinal

Mari kita pertimbangkan pemrosesan pendapat ahli yang diukur dalam skala ordinal. Pernyataan berikut ini benar.

Dalil1 . Dari semua rata-rata Cauchy, hanya anggota deret variasi (statistik urutan) yang merupakan rata-rata yang dapat diterima dalam skala ordinal.

Teorema 1 valid dengan syarat bahwa mean (Х 1 2 ,..., n) kontinu (di atas totalitas variabel) dan merupakan fungsi simetris. Yang terakhir berarti bahwa ketika argumen disusun ulang, nilai fungsi (X 1 X 2 ,..., X n) tidak berubah. Kondisi ini cukup wajar, karena kita mencari nilai rata-rata untuk totalitas (set), dan bukan untuk barisan. Himpunan tidak berubah tergantung pada urutan di mana kita mencantumkan elemen-elemennya.

Menurut Teorema 1, untuk data yang diukur pada skala ordinal, seseorang dapat menggunakan, khususnya, median sebagai rata-rata (untuk ukuran sampel ganjil). Dengan volume genap, salah satu dari dua anggota pusat dari deret variasi harus digunakan - seperti yang kadang-kadang disebut, median kiri atau median kanan. Mode juga dapat digunakan - selalu menjadi anggota dari seri variasi. Tetapi Anda tidak akan pernah bisa menghitung rata-rata aritmatika, rata-rata geometrik, dll.

Teorema berikut ini benar.

Teorema 2. Misalkan Y 1 , Y 2 ,...,Y m merupakan variabel acak independen yang terdistribusi identik dengan fungsi distribusi F(x), dan Z 1, Z 2 ,..., Z n merupakan variabel acak independen yang terdistribusi identik dengan fungsi distribusi H(x), selain itu, sampel Y 1 , Y 2 ,...,Y m dan Z 1 , Z 2 ,..., Z n saling bebas dan MY X > MZ X . Agar probabilitas suatu peristiwa cenderung 1 sebagai min(m, n) untuk setiap fungsi kontinu yang meningkat ketat g memenuhi kondisi |g i |>X, maka pertidaksamaan F(x) perlu dan cukup< Н(х), причем существовало число х 0 , для которого F(x 0)

Catatan. Kondisi batas atas murni intramatematis. Faktanya, fungsi g adalah transformasi valid arbitrer dalam skala ordinal.

Menurut Teorema 2, mean aritmatika juga dapat digunakan pada skala ordinal jika sampel dari dua distribusi yang memenuhi pertidaksamaan yang diberikan dalam teorema dibandingkan. Sederhananya, salah satu fungsi distribusi harus selalu berada di atas yang lain. Fungsi distribusi tidak boleh bersinggungan, hanya boleh saling bersentuhan. Kondisi ini dipenuhi, misalnya, jika fungsi distribusi hanya berbeda dalam pergeseran:

F(x) = H(x + )

untuk beberapa .

Kondisi terakhir terpenuhi jika dua nilai besaran tertentu diukur dengan alat ukur yang sama, di mana distribusi kesalahan tidak berubah ketika berpindah dari mengukur satu nilai besaran yang dipertimbangkan ke pengukuran yang lain.

Rata-rata Kolmogorov

Sebuah generalisasi dari beberapa rata-rata yang tercantum di atas adalah rata-rata Kolmogorov. Untuk bilangan X 1, X 2,..., X n, mean Kolmogorov dihitung dengan rumus

G((F(X l) + F(X 2)+...F(X n))/n),

di mana F adalah fungsi yang sangat monoton (yaitu benar-benar meningkat atau menurun secara ketat),

G adalah fungsi invers dari F.

Di antara rata-rata Kolmogorov ada banyak karakter terkenal. Jadi, jika F(x) = x, maka mean Kolmogorov adalah mean aritmatika, jika F(x) = lnx, maka mean geometrik, jika F(x) = 1/x, maka mean harmonik, jika F( x) \u003d x 2, lalu kuadrat rata-rata, dll. Rata-rata Kolmogorov adalah kasus khusus dari rata-rata Cauchy. Di sisi lain, rata-rata populer seperti median dan modus tidak dapat direpresentasikan sebagai rata-rata Kolmogorov. Pernyataan berikut dibuktikan dalam monografi.

Dalil3 . Jika beberapa kondisi keteraturan intra-matematis benar dalam skala interval, dari semua rata-rata Kolmogorov, hanya rata-rata aritmatika yang dapat diterima. Jadi, rata-rata geometrik atau akar rata-rata kuadrat suhu (dalam Celcius) atau jarak tidak ada artinya. Mean aritmatika harus digunakan sebagai mean. Anda juga dapat menggunakan median atau modus.

Teorema 4. Jika beberapa kondisi keteraturan intra-matematis benar dalam skala rasio, dari semua rata-rata Kolmogorov, hanya rata-rata hukum pangkat dengan F(x) = x c dan rata-rata geometrik yang dapat diterima.

Komentar. Mean geometrik adalah batas sarana daya untuk c > 0.

Apakah ada rata-rata Kolmogorov yang tidak boleh digunakan dalam skala rasio? Tentu saja memiliki. Misalnya F(x) = e x.

Mirip dengan nilai rata-rata, karakteristik statistik lainnya dapat dipelajari - indikator penyebaran, koneksi, jarak, dll. Mudah untuk menunjukkan, misalnya, bahwa koefisien korelasi tidak berubah di bawah transformasi apa pun yang dapat diterima dalam mangkuk interval, seperti rasio varians, varians tidak berubah dalam skala perbedaan, koefisien variasi - dalam skala rasio, dll.

Hasil di atas rata-rata banyak digunakan, tidak hanya di bidang ekonomi, manajemen, teori penilaian ahli atau sosiologi, tetapi juga di bidang teknik, misalnya, untuk menganalisis metode agregasi sensor di APCS tanur tinggi. TI sangat penting diterapkan dalam masalah standarisasi dan manajemen mutu, khususnya dalam kualimetri, di mana hasil teoretis yang menarik telah diperoleh. Jadi, misalnya, setiap perubahan dalam koefisien pembobotan masing-masing indikator kualitas produk menyebabkan perubahan dalam pemesanan produk sesuai dengan rata-rata tertimbang (teorema ini dibuktikan oleh Prof. V.V. Podinovsky). Oleh karena itu, informasi singkat di atas tentang TI dan metodenya menggabungkan dalam arti tertentu ilmu ekonomi, sosiologi dan teknik dan merupakan alat yang memadai untuk memecahkan masalah yang paling kompleks yang sebelumnya tidak dapat dianalisis secara efektif, terlebih lagi. membuka jalan untuk membangun model yang realistis dan memecahkan masalah peramalan.

22. Regresi Linier Berpasangan

Sekarang mari kita beralih ke studi yang lebih rinci tentang kasus paling sederhana dari regresi linier berpasangan. Regresi linier digambarkan dengan ketergantungan fungsional paling sederhana dalam bentuk persamaan garis lurus dan dicirikan oleh interpretasi transparan dari parameter model (koefisien persamaan). Sisi kanan persamaan memungkinkan Anda untuk mendapatkan nilai teoretis (dihitung) dari variabel yang dihasilkan (dijelaskan) dari nilai yang diberikan dari regressor (variabel penjelas). Nilai-nilai ini kadang-kadang juga disebut prediktif (dalam arti yang sama), yaitu. diperoleh dari rumus-rumus teori. Namun, ketika mengajukan hipotesis tentang sifat ketergantungan, koefisien persamaan masih belum diketahui. Secara umum, memperoleh nilai perkiraan koefisien ini dimungkinkan dengan berbagai metode.

Namun yang paling penting dan tersebar luas di antaranya adalah metode kuadrat terkecil (LSM). Ini didasarkan (seperti yang telah dijelaskan) pada persyaratan untuk meminimalkan jumlah deviasi kuadrat dari nilai aktual fitur yang dihasilkan dari yang dihitung (teoretis). Alih-alih nilai teoretis (untuk mendapatkannya), sisi kanan persamaan regresi disubstitusikan ke dalam jumlah deviasi kuadrat, dan kemudian turunan parsial dari fungsi ini ditemukan (jumlah deviasi kuadrat dari nilai aktual dari fitur efektif dari yang teoretis). Turunan parsial ini diambil tidak terhadap variabel x dan y, tetapi terhadap parameter a dan b. Turunan parsial disamakan dengan nol dan setelah transformasi sederhana namun rumit, sistem persamaan normal diperoleh untuk menentukan parameter. Koefisien dengan variabel x, yaitu b disebut koefisien regresi, menunjukkan rata-rata perubahan hasil dengan perubahan faktor sebesar satu satuan. Parameter a mungkin tidak memiliki interpretasi ekonomi, terutama jika tanda koefisien ini negatif.

Regresi linier berpasangan digunakan untuk mempelajari fungsi konsumsi. Koefisien regresi dalam fungsi konsumsi digunakan untuk menghitung pengali. Hampir selalu, persamaan regresi dilengkapi dengan indikator ketatnya hubungan. Untuk kasus regresi linier yang paling sederhana, indikator ketatnya hubungan ini adalah koefisien korelasi linier. Tetapi karena koefisien korelasi linier mencirikan kedekatan hubungan fitur dalam bentuk linier, kedekatan nilai absolut dari koefisien korelasi linier ke nol belum berfungsi sebagai indikator tidak adanya hubungan antara fitur.

Dengan pilihan spesifikasi model yang berbeda dan, akibatnya, jenis ketergantungan bahwa hubungan yang sebenarnya bisa sangat dekat dengan kesatuan. Tetapi kualitas pemilihan fungsi linier ditentukan dengan menggunakan kuadrat dari koefisien korelasi linier - koefisien determinasi. Ini mencirikan proporsi varians dari atribut yang dihasilkan y, dijelaskan oleh regresi dalam varians total dari atribut yang dihasilkan. Nilai yang melengkapi koefisien determinasi ke 1 mencirikan proporsi varians yang disebabkan oleh pengaruh faktor lain yang tidak diperhitungkan dalam model (varians residual).

Regresi berpasangan diwakili oleh hubungan antara dua variabel y dan x dengan bentuk sebagai berikut:

di mana y adalah variabel dependen (fitur hasil), dan x adalah variabel independen (variabel penjelas, atau faktor fitur). Ada regresi linier dan regresi nonlinier. Regresi linier digambarkan dengan persamaan bentuk:

y = a + bx + .

Regresi nonlinier, pada gilirannya, dapat menjadi non-linier sehubungan dengan variabel penjelas yang termasuk dalam analisis, tetapi linier sehubungan dengan parameter yang diestimasi. Atau mungkin regresinya non-linier dalam hal parameter yang diestimasi. Sebagai contoh regresi yang non-linier dalam variabel penjelas, tetapi linier dalam parameter yang diestimasi, seseorang dapat menunjukkan ketergantungan polinomial dari berbagai derajat (polinomial) dan hiperbola sama sisi.

Regresi nonlinier dengan parameter yang diestimasi adalah hukum pangkat relatif terhadap ketergantungan parameter (parameter dalam eksponen), ketergantungan eksponensial, di mana parameter berada di dasar derajat, dan ketergantungan eksponensial, ketika seluruh ketergantungan linier seluruhnya dalam eksponen. Perhatikan bahwa dalam ketiga kasus ini, komponen acak (sisa acak) memasuki ruas kanan persamaan sebagai faktor, dan bukan sebagai suku, mis. berlipat ganda! Penyimpangan rata-rata dari nilai yang dihitung dari fitur yang dihasilkan dari yang sebenarnya ditandai dengan kesalahan perkiraan rata-rata. Ini dinyatakan sebagai persentase dan tidak boleh melebihi 7-8%. Kesalahan perkiraan rata-rata ini hanya dinyatakan sebagai persentase dari rata-rata nilai relatif dari perbedaan antara nilai aktual dan yang dihitung.

Yang sangat penting adalah koefisien elastisitas rata-rata, yang berfungsi sebagai karakteristik penting dari banyak fenomena dan proses ekonomi. Ini dihitung sebagai produk dari nilai turunan dari ketergantungan fungsional ini dengan rasio nilai rata-rata x dengan nilai rata-rata y. Koefisien elastisitas menunjukkan berapa persen, rata-rata, hasil y akan berubah dari nilai rata-ratanya ketika faktor x berubah sebesar 1% dari nilai rata-rata (faktor x).

Dengan regresi berpasangan dan dengan regresi berganda (bila ada banyak faktor) dan dengan varians residual, tugas analisis varians terkait erat. Analisis varians menguji varians dari variabel dependen. Dalam hal ini, jumlah total deviasi kuadrat dibagi menjadi dua bagian. Suku pertama adalah penjumlahan kuadrat deviasi akibat regresi, atau dijelaskan (faktorial). Suku kedua adalah jumlah sisa deviasi kuadrat yang tidak dijelaskan oleh regresi faktorial.

Pangsa varians yang dijelaskan oleh regresi dalam varians total dari fitur y yang dihasilkan dicirikan oleh koefisien (indeks) determinasi, yang tidak lebih dari rasio jumlah simpangan kuadrat akibat regresi terhadap jumlah total deviasi kuadrat (suku pertama dari seluruh jumlah).

Ketika parameter model (koefisien yang tidak diketahui) ditentukan dengan menggunakan metode kuadrat terkecil, maka, pada dasarnya, beberapa variabel acak ditemukan (dalam proses mendapatkan perkiraan). Yang paling penting adalah estimasi koefisien regresi, yang merupakan bentuk khusus dari variabel acak. Sifat-sifat variabel acak ini bergantung pada sifat-sifat suku sisa dalam persamaan (dalam model). Mari kita pertimbangkan variabel penjelas x sebagai variabel eksogen non-acak untuk model regresi linier berpasangan. Ini hanya berarti bahwa nilai-nilai variabel x dalam semua pengamatan dapat dianggap telah ditentukan sebelumnya dan tidak ada hubungannya dengan ketergantungan yang diteliti. Dengan demikian, nilai sebenarnya dari variabel yang dijelaskan terdiri dari dua komponen: komponen non-acak dan komponen acak (suku sisa).

Sebaliknya, koefisien regresi yang ditentukan dengan metode kuadrat terkecil (OLS) sama dengan hasil bagi pembagian kovarians variabel x dan y dengan varians variabel x. Oleh karena itu, ia juga mengandung komponen acak. Lagi pula, kovarians bergantung pada nilai variabel y, di mana nilai variabel y bergantung pada nilai suku sisa acak . Selanjutnya, mudah untuk menunjukkan bahwa kovarians variabel x dan y sama dengan hasil kali koefisien regresi estimasi beta () dan varians variabel x, ditambah dengan kovarians variabel x dan . Jadi, estimasi koefisien regresi beta sama dengan koefisien regresi yang tidak diketahui itu sendiri, ditambah dengan hasil bagi pembagian kovarians variabel x dan dengan varians variabel x. Itu. estimasi koefisien regresi b yang diperoleh dari sampel apa pun disajikan sebagai jumlah dari dua suku: nilai konstan yang sama dengan nilai sebenarnya dari koefisien (beta), dan dari komponen acak yang bergantung pada kovarians variabel x dan .

23. Kondisi matematis Gauss-Markov dan aplikasinya.

Untuk analisis regresi berdasarkan kuadrat terkecil biasa untuk memberikan hasil terbaik, suku acak harus memenuhi empat kondisi Gauss-Markov.

Ekspektasi matematis dari suku acak adalah nol, mis. itu tidak bias. Jika persamaan regresi mencakup suku konstan, maka wajar untuk menganggap persyaratan seperti itu terpenuhi, karena ini adalah suku konstan dan harus memperhitungkan tren sistematis apa pun dalam nilai variabel y, yang, sebaliknya, tidak boleh mengandung variabel penjelas dari persamaan regresi.

Varians dari suku acak adalah konstan untuk semua pengamatan.

Kovarians nilai-nilai variabel acak yang membentuk sampel harus sama dengan nol, mis. tidak ada hubungan sistematis antara nilai-nilai istilah acak dalam dua pengamatan tertentu. Anggota acak harus independen satu sama lain.

Hukum distribusi suku acak harus bebas dari variabel penjelas.

Selain itu, dalam banyak aplikasi, variabel penjelas tidak stokastik; tidak memiliki komponen acak. Nilai dari setiap variabel independen dalam setiap pengamatan harus dianggap eksogen, sepenuhnya ditentukan oleh penyebab eksternal yang tidak diperhitungkan dalam persamaan regresi.

Bersama dengan kondisi Gauss-Markov yang ditunjukkan, juga diasumsikan bahwa suku acak memiliki distribusi normal. Hal ini berlaku di bawah kondisi yang sangat luas dan didasarkan pada apa yang disebut teorema limit pusat (CLT). Inti dari teorema ini adalah bahwa jika variabel acak adalah hasil umum dari interaksi sejumlah besar variabel acak lainnya, tidak ada yang memiliki pengaruh dominan pada perilaku hasil umum ini, maka variabel acak yang dihasilkan seperti itu akan menjadi digambarkan dengan distribusi yang mendekati normal. Kedekatan dengan distribusi normal ini memungkinkan kita untuk menggunakan distribusi normal dan, dalam arti tertentu, generalisasinya, distribusi Student, yang sangat berbeda dari distribusi normal terutama pada apa yang disebut "ekor", yaitu. untuk nilai kecil dari ukuran sampel. Penting juga bahwa jika suku acak terdistribusi normal, maka koefisien regresi juga akan terdistribusi menurut hukum normal.

Kurva regresi yang ditetapkan (persamaan regresi) memungkinkan pemecahan masalah yang disebut ramalan titik. Dalam perhitungan tersebut, beberapa nilai x diambil di luar interval pengamatan yang dipelajari dan disubstitusikan ke ruas kanan persamaan regresi (prosedur ekstrapolasi). Karena Jika perkiraan koefisien regresi sudah diketahui, maka dimungkinkan untuk menghitung nilai variabel yang dijelaskan y sesuai dengan nilai x yang diambil. Secara alami, sesuai dengan arti prediksi (perkiraan), perhitungan dilakukan ke depan (ke dalam area nilai masa depan).

Namun, karena koefisien ditentukan dengan kesalahan tertentu, bukan perkiraan titik (perkiraan titik) untuk fitur efektif yang menarik, tetapi pengetahuan tentang batas di mana nilai fitur produktif yang sesuai dengan diambil nilai faktor x akan terletak dengan probabilitas tertentu.

Untuk melakukan ini, nilai kesalahan standar (standar deviasi) dihitung. Itu dapat diperoleh dalam semangat apa yang baru saja dikatakan sebagai berikut. Ekspresi suku bebas a dari taksiran dalam bentuk nilai rata-rata disubstitusikan ke dalam persamaan regresi linier. Kemudian ternyata kesalahan standar tergantung pada kesalahan rata-rata dari faktor y yang dihasilkan dan secara aditif pada kesalahan koefisien regresi b. Sederhananya, kuadrat galat standar ini sama dengan jumlah galat kuadrat rata-rata y dan hasil kali galat kuadrat koefisien regresi dikali kuadrat simpangan faktor x dan rata-ratanya. Selanjutnya, suku pertama, menurut hukum statistik, sama dengan hasil bagi membagi varians populasi umum dengan ukuran (volume) sampel.

Alih-alih varians yang tidak diketahui, varians sampel digunakan sebagai perkiraan. Dengan demikian, kesalahan koefisien regresi didefinisikan sebagai hasil bagi membagi varians sampel dengan varians dari faktor x. Anda bisa mendapatkan nilai kesalahan standar (standar deviasi) dan pertimbangan lainnya, lebih independen dari model regresi linier. Untuk ini, konsep kesalahan rata-rata dan kesalahan marjinal dan hubungan di antara mereka digunakan.

Tetapi bahkan setelah mendapatkan kesalahan standar, pertanyaannya tetap tentang batas-batas di mana nilai prediksi akan berada. Dengan kata lain, tentang interval kesalahan pengukuran, dalam asumsi alami dalam banyak kasus bahwa tengah interval ini diberikan oleh nilai yang dihitung (rata-rata) dari faktor efektif y. Di sini teorema limit pusat datang untuk menyelamatkan, yang hanya menunjukkan dengan probabilitas berapa nilai yang tidak diketahui berada dalam interval kepercayaan ini.

Intinya, rumus kesalahan standar, terlepas dari bagaimana dan dalam bentuk apa itu diperoleh, mencirikan kesalahan pada posisi garis regresi. Nilai kesalahan standar mencapai minimum ketika nilai faktor x bertepatan dengan nilai rata-rata faktor.

24. Pengujian statistik hipotesis dan evaluasi signifikansi regresi linier dengan kriteria Fisher.

Setelah persamaan regresi linier ditemukan, signifikansi persamaan secara keseluruhan dan parameter individualnya dinilai. Penilaian signifikansi persamaan regresi secara keseluruhan dapat dilakukan dengan menggunakan berbagai kriteria. Penggunaan kriteria F Fisher cukup umum dan efektif. Dalam hal ini, hipotesis nol H o dikemukakan bahwa koefisien regresi sama dengan nol, yaitu. b=0, dan karenanya faktor x tidak berpengaruh pada hasil y. Perhitungan langsung dari kriteria-F didahului dengan analisis varians. Tempat sentral di dalamnya ditempati oleh dekomposisi jumlah total deviasi kuadrat dari variabel y dari nilai rata-rata y menjadi dua bagian - "dijelaskan" dan "tidak dijelaskan":

Jumlah total deviasi kuadrat dari nilai individual fitur efektif y dari nilai rata-rata y disebabkan oleh pengaruh banyak faktor.

Kami secara kondisional membagi seluruh rangkaian penyebab menjadi dua kelompok: faktor yang dipelajari x dan faktor lainnya. Jika faktor tersebut tidak mempengaruhi hasil, maka garis regresi pada grafik sejajar dengan sumbu x dan y=y. Kemudian seluruh dispersi dari atribut yang dihasilkan adalah karena pengaruh faktor lain dan jumlah total deviasi kuadrat akan bertepatan dengan residual. Jika faktor lain tidak mempengaruhi hasil, maka y secara fungsional berhubungan dengan x dan jumlah sisa kuadrat adalah nol. Dalam hal ini, jumlah deviasi kuadrat yang dijelaskan oleh regresi sama dengan jumlah kuadrat total. Karena tidak semua titik bidang korelasi terletak pada garis regresi, maka pencarnya selalu terjadi karena pengaruh faktor x, yaitu regresi y pada x, dan disebabkan oleh aksi penyebab lain (variasi yang tidak dapat dijelaskan). Kesesuaian garis regresi untuk prediksi tergantung pada seberapa banyak variasi total dari sifat y yang diperhitungkan oleh variasi yang dijelaskan.

Jelas, jika jumlah deviasi kuadrat akibat regresi lebih besar dari jumlah sisa kuadrat, maka persamaan regresi signifikan secara statistik dan faktor x memiliki pengaruh yang signifikan terhadap hasil. Ini setara dengan fakta bahwa koefisien determinasi akan mendekati kesatuan. Setiap jumlah deviasi kuadrat terkait dengan jumlah derajat kebebasan, mis. jumlah kebebasan variasi independen dari fitur. Jumlah derajat kebebasan terkait dengan jumlah unit populasi atau jumlah konstanta yang ditentukan darinya. Sehubungan dengan masalah yang diteliti, jumlah derajat kebebasan harus menunjukkan berapa banyak penyimpangan bebas dari n yang mungkin [(y 1 - y), (y 2 - y), ... (y n - y)] yang diperlukan untuk membentuk jumlah kuadrat tertentu. Jadi, untuk jumlah total kuadrat (y-y cf) 2, (n-1) diperlukan deviasi bebas, karena dalam populasi n unit, setelah menghitung tingkat rata-rata, hanya (n-1) jumlah penyimpangan yang bebas bervariasi. Saat menghitung jumlah kuadrat yang dijelaskan atau faktorial (y-y cf) 2, nilai teoretis (dihitung) dari fitur efektif y* yang ditemukan di sepanjang garis regresi digunakan: y(x)=a+bx.

Sekarang mari kita kembali ke perluasan jumlah total deviasi kuadrat dari faktor efektif dari rata-rata nilai ini. Jumlah ini berisi dua bagian yang telah didefinisikan di atas: jumlah deviasi kuadrat, dijelaskan oleh regresi, dan jumlah lain, yang disebut jumlah sisa deviasi kuadrat. Dekomposisi ini terkait dengan analisis varians, yang secara langsung menjawab pertanyaan mendasar: bagaimana mengevaluasi signifikansi persamaan regresi secara keseluruhan dan parameter individualnya? Ini juga sangat menentukan arti dari pertanyaan ini. Untuk menilai signifikansi persamaan regresi secara keseluruhan, digunakan uji Fisher (Uji F). Menurut pendekatan yang diajukan oleh Fisher, hipotesis nol diajukan: koefisien regresi sama dengan nol, mis. nilai b=0. Artinya faktor X tidak berpengaruh terhadap hasil Y.

Ingatlah bahwa hampir selalu poin yang diperoleh sebagai hasil studi statistik tidak terletak tepat pada garis regresi. Mereka tersebar, dihilangkan kurang lebih jauh dari garis regresi. Hamburan ini disebabkan oleh pengaruh faktor lain, selain faktor penjelas X, yang tidak diperhitungkan dalam persamaan regresi. Saat menghitung jumlah penyimpangan kuadrat yang dijelaskan, atau faktorial, nilai teoretis dari atribut yang dihasilkan yang ditemukan di sepanjang garis regresi digunakan.

Untuk sekumpulan nilai variabel Y dan X yang diberikan, nilai yang dihitung dari nilai rata-rata Y dalam regresi linier adalah fungsi dari hanya satu parameter - koefisien regresi. Sesuai dengan ini, jumlah faktorial deviasi kuadrat memiliki jumlah derajat kebebasan sama dengan 1. Dan jumlah derajat kebebasan sisa jumlah deviasi kuadrat dalam regresi linier adalah n-2.

Oleh karena itu, membagi setiap jumlah deviasi kuadrat dalam dekomposisi asli dengan jumlah derajat kebebasannya, kami memperoleh deviasi kuadrat rata-rata (dispersi per satu derajat kebebasan). Selanjutnya, membagi varians faktorial dengan satu derajat kebebasan dengan varians residual dengan satu derajat kebebasan, kami memperoleh kriteria untuk menguji hipotesis nol, yang disebut hubungan-F, atau kriteria dengan nama yang sama. Yaitu, jika hipotesis nol benar, varians faktorial dan residual ternyata sama satu sama lain.

Untuk menolak hipotesis nol, mis. menerima hipotesis yang berlawanan, yang mengungkapkan fakta signifikansi (keberadaan) ketergantungan yang diteliti, dan bukan hanya kebetulan acak dari faktor-faktor yang mensimulasikan ketergantungan yang sebenarnya tidak ada, perlu menggunakan tabel nilai kritis dari rasio yang ditunjukkan. Tabel menentukan nilai kritis (ambang) kriteria Fisher. Disebut juga teori. Kemudian, dengan membandingkannya dengan nilai empiris (aktual) yang sesuai dari kriteria yang dihitung dari data pengamatan, diperiksa apakah nilai rasio yang sebenarnya melebihi nilai kritis dari tabel.

Untuk lebih jelasnya dilakukan sebagai berikut. Tingkat probabilitas tertentu dari adanya hipotesis nol dipilih dan nilai kritis dari kriteria-F ditemukan dari tabel, di mana divergensi varians acak sebesar 1 derajat kebebasan masih dapat terjadi, yaitu. nilai maksimum tersebut. Kemudian nilai rasio F- yang dihitung diakui sebagai reliabel (yaitu, menyatakan perbedaan antara varians aktual dan residual), jika rasio ini lebih besar dari rasio tabel. Kemudian hipotesis nol ditolak (tidak benar bahwa tidak ada tanda-tanda hubungan) dan, sebaliknya, kita sampai pada kesimpulan bahwa ada hubungan dan signifikan (tidak acak, signifikan).

Jika nilai rasio kurang dari nilai tabel, maka probabilitas hipotesis nol lebih tinggi dari tingkat yang ditentukan (yang dipilih pada awalnya) dan hipotesis nol tidak dapat ditolak tanpa bahaya nyata untuk memperoleh kesimpulan yang salah tentang kehadiran koneksi. Dengan demikian, persamaan regresi dianggap tidak signifikan.

Nilai kriteria-F sangat terkait dengan koefisien determinasi. Selain menilai signifikansi persamaan regresi secara keseluruhan, signifikansi parameter individual dari persamaan regresi juga dievaluasi. Pada saat yang sama, kesalahan standar dari koefisien regresi ditentukan dengan menggunakan simpangan baku aktual empiris dan varians empiris per satu derajat kebebasan. Setelah itu, distribusi Student digunakan untuk menguji signifikansi koefisien regresi untuk menghitung interval kepercayaannya.

Penilaian signifikansi koefisien regresi dan korelasi menggunakan Student's t-test dilakukan dengan membandingkan nilai-nilai dari nilai-nilai tersebut dan standar error. Nilai error parameter regresi linier dan koefisien korelasi ditentukan dengan rumus sebagai berikut:

di mana S adalah akar rata-rata kuadrat sisa sampel deviasi,

r xy adalah koefisien korelasi.

Dengan demikian, nilai kesalahan standar yang diprediksi oleh garis regresi diberikan oleh rumus:

Rasio yang sesuai dari nilai-nilai nilai regresi dan koefisien korelasi dengan kesalahan standarnya membentuk apa yang disebut statistik-t, dan perbandingan nilai tabular (kritis) yang sesuai darinya dan nilai aktualnya membuat adalah mungkin untuk menerima atau menolak hipotesis nol. Tetapi selanjutnya, untuk menghitung interval kepercayaan, kesalahan marjinal untuk setiap indikator ditemukan sebagai produk dari nilai tabel statistik t dan kesalahan acak rata-rata dari indikator yang sesuai. Sebenarnya, dengan cara yang sedikit berbeda, kami sebenarnya telah menulisnya tepat di atas. Kemudian batas interval kepercayaan diperoleh: batas bawah dikurangi dari koefisien yang sesuai (sebenarnya rata-rata) dari kesalahan marjinal yang sesuai, dan batas atas ditambahkan (ditambahkan).

Dalam regresi linier (y x -y avg) 2 =b 2 (x-x avg) 2 . Sangat mudah untuk memverifikasi ini dengan mengacu pada rumus untuk koefisien korelasi linier: r 2 xy \u003d b 2 * 2 x / 2 y

dimana 2 y adalah total varians dari atribut y;

2 x - varians dari atribut y karena faktor x. Dengan demikian, jumlah deviasi kuadrat akibat regresi linier adalah:

(y x -y cf) 2 =b 2 (x-x cf) 2 .

Karena, untuk sejumlah pengamatan di x dan y, jumlah faktorial kuadrat dalam regresi linier hanya bergantung pada satu konstanta koefisien regresi b, maka jumlah kuadrat ini memiliki satu derajat kebebasan. Pertimbangkan sisi konten dari nilai yang dihitung dari atribut y, mis. di x. Nilai y x ditentukan oleh persamaan regresi linier: y x ​​\u003d a + bx.

Parameter a dapat didefinisikan sebagai a=y-bx. Mengganti ekspresi untuk parameter a ke dalam model linier, kita mendapatkan: y x ​​​​=y-bx+bx cp =y-b(x-x cf).

Dengan sekumpulan variabel y dan x tertentu, nilai yang dihitung y x dalam regresi linier adalah fungsi dari hanya satu parameter - koefisien regresi. Dengan demikian, jumlah faktorial dari deviasi kuadrat memiliki sejumlah derajat kebebasan sama dengan 1.

Ada persamaan antara jumlah derajat kebebasan dari jumlah kuadrat total, faktorial dan residual. Banyaknya derajat kebebasan dari jumlah sisa kuadrat dalam regresi linier adalah (n-2). Jumlah derajat kebebasan untuk jumlah kuadrat ditentukan oleh jumlah unit, dan karena kami menggunakan rata-rata yang dihitung dari data sampel, kami kehilangan satu derajat kebebasan, yaitu. (n-1). Jadi, kita memiliki dua persamaan: untuk jumlah dan jumlah derajat kebebasan. Dan ini, pada gilirannya, membawa kita kembali ke dispersi yang sebanding per satu derajat kebebasan, rasio yang memberikan kriteria Fisher.

25. Estimasi signifikansi parameter individu dari persamaan regresi dan koefisien menurut kriteria Student.

27. Regresi linier dan non-linier dan metode penelitiannya.

Regresi linier dan metode studi dan evaluasinya tidak akan begitu penting jika, selain yang sangat penting ini, tetapi masih kasus yang paling sederhana, kami tidak menggunakannya untuk mendapatkan alat untuk menganalisis dependensi nonlinier yang lebih kompleks. Regresi nonlinier dapat dibagi menjadi dua kelas yang pada dasarnya berbeda. Yang pertama dan lebih sederhana adalah kelas dependensi non-linier, di mana ada non-linier sehubungan dengan variabel penjelas, tetapi tetap linier dalam hal parameter yang termasuk di dalamnya dan yang akan diestimasi. Ini termasuk polinomial dari berbagai derajat dan hiperbola sama sisi.

Regresi non-linier semacam itu untuk variabel yang termasuk dalam penjelasan dengan transformasi sederhana (penggantian) variabel dapat dengan mudah direduksi menjadi regresi linier biasa untuk variabel baru. Oleh karena itu, estimasi parameter dalam kasus ini dilakukan hanya dengan kuadrat terkecil, karena ketergantungan linier dalam parameter. Dengan demikian, peran penting dalam perekonomian dimainkan oleh ketergantungan non-linier yang dijelaskan oleh hiperbola sama sisi:

Parameternya diperkirakan dengan baik oleh MNC, dan ketergantungan ini sendiri mencirikan hubungan biaya unit bahan baku, bahan bakar, bahan dengan volume output, waktu sirkulasi barang, dan semua faktor ini dengan nilai omset. . Misalnya, kurva Phillips mencirikan hubungan non-linier antara tingkat pengangguran dan persentase pertumbuhan upah.

Lain halnya dengan regresi nonlinier dalam hal parameter yang diestimasi, misalnya diwakili oleh fungsi daya, di mana derajat itu sendiri (indikatornya) adalah parameter, atau tergantung pada parameter. Ini juga bisa menjadi fungsi eksponensial, di mana basis derajat adalah parameter, dan fungsi eksponensial, di mana, sekali lagi, eksponen berisi parameter atau kombinasi parameter. Kelas ini, pada gilirannya, dibagi menjadi dua subkelas: satu termasuk non-linier eksternal, tetapi pada dasarnya linier internal. Dalam hal ini, Anda dapat membawa model ke bentuk linier menggunakan transformasi. Namun, jika model tersebut secara intrinsik non-linier, maka model tersebut tidak dapat direduksi menjadi fungsi linier.

Dengan demikian, hanya model yang secara intrinsik non-linier yang dianggap benar-benar non-linier dalam analisis regresi. Semua yang lain, direduksi menjadi linier melalui transformasi, tidak dianggap demikian, dan merekalah yang paling sering dianggap dalam studi ekonometrik. Pada saat yang sama, ini tidak berarti bahwa ketergantungan non-linier pada dasarnya tidak dapat dipelajari dalam ekonometrika. Jika model secara internal non-linier dalam hal parameter, maka prosedur iteratif digunakan untuk memperkirakan parameter, yang keberhasilannya tergantung pada bentuk persamaan singularitas dari metode iteratif yang diterapkan.

Mari kita kembali ke dependensi yang direduksi menjadi dependensi linier. Jika mereka non-linier baik dalam hal parameter dan variabel, misalnya, dari bentuk y \u003d a dikalikan dengan kekuatan X, indikatornya adalah parameter - (beta):

Jelas, rasio seperti itu mudah diubah menjadi persamaan linier dengan logaritma sederhana.

Setelah memasukkan variabel baru yang menunjukkan logaritma, persamaan linier diperoleh. Kemudian prosedur estimasi regresi terdiri dari menghitung variabel baru untuk setiap pengamatan dengan mengambil logaritma dari nilai aslinya. Kemudian ketergantungan regresi variabel baru diperkirakan. Untuk meneruskan ke variabel asli, seseorang harus mengambil antilogaritma, yaitu, pada kenyataannya, kembali ke pangkat itu sendiri, bukan eksponennya (setelah semua, logaritma adalah eksponen). Kasus fungsi eksponensial atau eksponensial dapat dianggap sama.

Untuk regresi yang pada dasarnya non-linier, prosedur estimasi regresi biasa tidak dapat digunakan, karena ketergantungan yang sesuai tidak dapat diubah menjadi linier. Skema umum tindakan dalam hal ini adalah sebagai berikut:

1. Beberapa nilai parameter awal yang masuk akal diterima;

2. Hitung nilai Y yang diprediksi dari nilai X aktual menggunakan nilai parameter ini;

3. Hitung residu untuk semua pengamatan dalam sampel dan kemudian jumlahkan kuadrat residu;

4. Perubahan kecil dilakukan pada satu atau lebih estimasi parameter;

5. Nilai Y yang diprediksi baru, residu dan jumlah residu kuadrat dihitung;

6. Jika jumlah kuadrat dari residual lebih kecil dari sebelumnya, maka estimasi parameter baru lebih baik dari yang lama dan harus digunakan sebagai titik awal baru;

7. Langkah 4, 5 dan 6 diulangi lagi sampai tidak memungkinkan untuk membuat perubahan dalam estimasi parameter yang akan menyebabkan perubahan jumlah residual kuadrat;

8. Disimpulkan bahwa nilai penjumlahan kuadrat dari residual diminimalkan dan estimasi akhir dari parameter diestimasi dengan metode kuadrat terkecil.

Di antara fungsi non-linier yang dapat direduksi menjadi bentuk linier, fungsi eksponensial banyak digunakan dalam ekonometrika. Parameter b di dalamnya memiliki interpretasi yang jelas, menjadi koefisien elastisitas. Dalam model yang non-linier dalam hal parameter yang diestimasi, tetapi direduksi menjadi bentuk linier, LSM diterapkan pada persamaan yang ditransformasikan. Penerapan praktis dari logaritma dan, dengan demikian, eksponen dimungkinkan ketika fitur yang dihasilkan tidak memiliki nilai negatif. Dalam studi hubungan antara fungsi yang menggunakan logaritma dari karakteristik yang dihasilkan, ketergantungan hukum kekuasaan berlaku dalam ekonometrika (kurva penawaran dan permintaan, fungsi produksi, kurva pengembangan untuk mengkarakterisasi hubungan antara intensitas tenaga kerja produk, skala produksi, ketergantungan GNI pada tingkat pekerjaan, kurva Engel).

28. Model Invers dan Kegunaannya

Kadang-kadang yang disebut model terbalik digunakan, yang secara internal non-linier, tetapi di dalamnya, tidak seperti hiperbola sama sisi, bukan variabel penjelas yang ditransformasikan, tetapi fitur yang dihasilkan Y. Oleh karena itu, model terbalik ternyata menjadi menjadi non-linier internal dan persyaratan LLS tidak terpenuhi untuk nilai sebenarnya dari fitur yang dihasilkan Y, dan untuk nilai timbal baliknya. Kajian korelasi untuk regresi nonlinier perlu mendapat perhatian khusus. Dalam kasus umum, parabola derajat kedua, serta polinomial dengan orde lebih tinggi, ketika dilinierkan, berbentuk persamaan regresi berganda. Jika persamaan regresi, yang non-linier terhadap variabel yang dijelaskan, selama linierisasi berbentuk persamaan regresi pasangan linier, maka koefisien korelasi linier dapat digunakan untuk menilai keketatan hubungan.

Jika transformasi persamaan regresi ke dalam bentuk linier dikaitkan dengan variabel dependen (fitur yang dihasilkan), maka koefisien korelasi linier untuk nilai fitur yang ditransformasikan hanya memberikan perkiraan perkiraan hubungan dan tidak secara numerik bertepatan dengan korelasi indeks. Harus diingat bahwa ketika menghitung indeks korelasi, jumlah deviasi kuadrat dari fitur efektif Y digunakan, dan bukan logaritmanya. Penilaian signifikansi indeks korelasi dilakukan dengan cara yang sama seperti penilaian reliabilitas (signifikansi) koefisien korelasi. Indeks korelasi itu sendiri, serta indeks determinasi, digunakan untuk menguji signifikansi persamaan regresi nonlinier keseluruhan dengan uji F Fisher.

Perhatikan bahwa kemampuan untuk membangun model non-linier, baik dengan mereduksinya menjadi bentuk linier, maupun dengan menggunakan regresi non-linier, di satu sisi, meningkatkan universalitas analisis regresi. Di sisi lain, itu secara signifikan memperumit tugas peneliti. Jika kita membatasi diri pada analisis regresi berpasangan, maka kita dapat memplot pengamatan Y dan X sebagai sebar. Seringkali beberapa fungsi non-linier yang berbeda mendekati pengamatan jika mereka terletak pada beberapa kurva. Tetapi dalam kasus analisis regresi berganda, grafik seperti itu tidak dapat dibangun.

Ketika mempertimbangkan model alternatif dengan definisi variabel dependen yang sama, prosedur pemilihannya relatif sederhana. Anda dapat mengevaluasi regresi berdasarkan semua kemungkinan fungsi yang dapat Anda bayangkan dan memilih fungsi yang paling menjelaskan perubahan pada variabel dependen. Jelas bahwa ketika fungsi linier menjelaskan sekitar 64% varians dalam y, dan fungsi hiperbolik 99,9%, yang terakhir jelas harus dipilih. Tetapi ketika model yang berbeda menggunakan bentuk fungsional yang berbeda, masalah memilih model menjadi jauh lebih rumit.

29. Penggunaan uji Box-Cox.

Secara lebih umum, ketika mempertimbangkan model alternatif dengan definisi variabel dependen yang sama, pilihannya sederhana. Paling masuk akal untuk mengevaluasi regresi berdasarkan semua fungsi yang mungkin, berhenti pada fungsi yang paling menjelaskan perubahan variabel dependen. Jika koefisien determinasi mengukur dalam satu kasus proporsi varians dijelaskan oleh regresi, dan dalam kasus lain proporsi varians logaritma variabel dependen dijelaskan oleh regresi, maka pilihan dibuat tanpa kesulitan. Hal lain adalah ketika nilai-nilai ini untuk kedua model sangat dekat dan masalah pilihan menjadi jauh lebih rumit.

Kemudian prosedur standar berupa uji Box-Cox harus diterapkan. Jika Anda hanya perlu membandingkan model menggunakan faktor resultan dan logaritmanya sebagai varian dari variabel dependen, maka varian dari uji Zarembka digunakan. Ini mengusulkan transformasi skala Y yang memungkinkan perbandingan langsung root mean square error (RMS) dalam model linier dan logaritmik. Prosedur yang sesuai mencakup langkah-langkah berikut:

    Rata-rata geometrik dari nilai Y dalam sampel dihitung, bertepatan dengan eksponen rata-rata aritmatika dari logaritma Y;

    Pengamatan Y dihitung ulang sedemikian rupa sehingga dibagi dengan nilai yang diperoleh pada langkah pertama;

    Regresi diperkirakan untuk model linier menggunakan nilai Y berskala bukan nilai Y asli, dan untuk model logaritma menggunakan logaritma nilai Y berskala. Sekarang nilai SD untuk dua regresi sebanding dan oleh karena itu model dengan jumlah deviasi kuadrat yang lebih kecil memberikan kecocokan yang lebih baik dengan ketergantungan sebenarnya dari nilai-nilai yang diamati;

    Untuk memeriksa bahwa salah satu model tidak memberikan kecocokan yang lebih baik secara signifikan, Anda dapat menggunakan produk dari setengah jumlah pengamatan dan logaritma rasio nilai RMS dalam regresi berskala, dan kemudian mengambil nilai absolut dari nilai ini.

30. Konsep interkorelasi dan multikolinearitas faktor.

34. Dasar-dasar MNC dan validitas penerapannya.

Sekarang mari kita beralih ke dasar-dasar LSM, validitas penerapannya (termasuk masalah regresi berganda) dan sifat terpenting dari perkiraan yang diperoleh dengan menggunakan LSM. Mari kita mulai dengan fakta bahwa, bersama dengan ketergantungan analitis pada sisi kanan persamaan regresi, suku acak juga memainkan peran penting. Komponen acak ini adalah kuantitas yang tidak dapat diamati. Uji statistik parameter regresi dan ukuran korelasi itu sendiri didasarkan pada asumsi yang tidak dapat diverifikasi tentang distribusi komponen acak dari regresi berganda ini. Asumsi ini hanya awal. Hanya setelah membangun persamaan regresi itu diperiksa apakah perkiraan memiliki residu acak (analog empiris dari komponen acak) dari sifat yang diasumsikan apriori. Intinya, ketika parameter model diestimasi, perbedaan antara nilai teoretis dan aktual dari fitur yang dihasilkan dihitung untuk mengevaluasi komponen acak itu sendiri. Penting untuk diingat bahwa ini hanyalah realisasi selektif dari sisa yang tidak diketahui dari persamaan yang diberikan.

Koefisien regresi yang diperoleh dari sistem persamaan normal adalah contoh perkiraan kekuatan sambungan. Jelas bahwa mereka adalah kepentingan praktis hanya ketika mereka tidak bias. Ingatlah bahwa dalam hal ini rata-rata dari residu sama dengan nol, atau, yang sama, rata-rata dari estimasi sama dengan parameter yang diestimasi itu sendiri. Kemudian residual tidak akan terakumulasi dengan sejumlah besar estimasi sampel, dan parameter regresi yang ditemukan itu sendiri dapat dianggap sebagai rata-rata dari sejumlah besar estimasi yang tidak bias.

Selain itu, perkiraan harus memiliki varians terkecil, yaitu menjadi efektif, dan kemudian menjadi mungkin untuk beralih dari estimasi titik yang praktis tidak sesuai ke estimasi interval. Akhirnya, interval kepercayaan dapat diterapkan dengan tingkat efisiensi yang tinggi ketika probabilitas memperoleh perkiraan pada jarak tertentu dari nilai parameter yang sebenarnya (tidak diketahui) mendekati satu. Estimasi semacam itu disebut konsisten dan sifat konsistensi dicirikan oleh peningkatan akurasinya dengan peningkatan ukuran sampel.

Namun, kondisi konsistensi tidak secara otomatis terpenuhi dan pada dasarnya tergantung pada pemenuhan dua persyaratan penting berikut. Pertama, residu itu sendiri harus stokastik dengan keacakan yang paling menonjol, yaitu. semua dependensi fungsional eksplisit harus dimasukkan dalam komponen analitik dari regresi berganda, dan di samping itu, nilai residu harus didistribusikan secara independen satu sama lain untuk sampel yang berbeda (tidak ada autokorelasi residu). Syarat kedua yang tidak kalah pentingnya adalah varians setiap simpangan (residual) sama untuk semua nilai variabel X (homoskedastisitas). Itu. homoskedastisitas dinyatakan dengan keteguhan varians untuk semua pengamatan:

Sebaliknya, heteroskedastisitas terdiri dari pelanggaran keteguhan varians untuk pengamatan yang berbeda. Dalam hal ini, probabilitas apriori (sebelum pengamatan) untuk memperoleh nilai yang sangat menyimpang dengan distribusi teoretis yang berbeda dari istilah acak untuk pengamatan yang berbeda dalam sampel akan relatif tinggi.

Autokorelasi residual, atau adanya korelasi antara residual pengamatan saat ini dan pengamatan sebelumnya (selanjutnya), dilihat dari nilai koefisien korelasi linier biasa. Jika berbeda nyata dari nol, maka residunya bersifat autokorelasi dan, oleh karena itu, fungsi kepadatan probabilitas (distribusi residu) tergantung pada titik pengamatan dan pada distribusi nilai residu pada titik pengamatan lainnya. Lebih mudah untuk menentukan autokorelasi residu dari informasi statistik yang tersedia dengan adanya urutan pengamatan oleh faktor X. Tidak adanya autokorelasi residu memastikan konsistensi dan efisiensi estimasi koefisien regresi.

35. Homoskedastisitas dan heteroskedastisitas, autokorelasi residu, generalized least squares method (GMLS).

Kesamaan dispersi residual untuk semua nilai variabel X, atau homoskedastisitas, juga mutlak diperlukan untuk mendapatkan estimasi parameter regresi yang konsisten dari LSM. Tidak terpenuhinya kondisi homoskedastisitas menyebabkan yang disebut heteroskedastisitas. Hal ini dapat menyebabkan bias dalam estimasi koefisien regresi. Heteroskedastisitas terutama akan mempengaruhi penurunan efisiensi pendugaan koefisien regresi. Dalam hal ini, menjadi sangat sulit untuk menggunakan rumus untuk kesalahan standar dari koefisien regresi, yang penggunaannya mengasumsikan varians tunggal dari residu untuk nilai faktor apa pun. Adapun ketidakberpihakan estimasi koefisien regresi, itu terutama tergantung pada independensi residu dan nilai faktor itu sendiri.

Cara yang agak visual, meskipun tidak ketat dan membutuhkan keterampilan untuk menguji homoskedastisitas adalah studi grafis tentang sifat ketergantungan residu pada fitur yang dihasilkan rata-rata (teoretis), atau bidang korelasi yang sesuai. Metode analisis untuk mempelajari dan mengevaluasi heteroskedastisitas lebih ketat. Dengan adanya heteroskedastisitas yang signifikan, disarankan untuk menggunakan kuadrat terkecil umum (GLS) daripada kuadrat terkecil.

Selain persyaratan untuk regresi berganda yang timbul dari penerapan kuadrat terkecil, juga perlu untuk memenuhi kondisi variabel yang termasuk dalam model. Ini, pertama-tama, mencakup persyaratan mengenai jumlah faktor model untuk volume pengamatan tertentu (1 hingga 7). Jika tidak, parameter regresi akan menjadi tidak signifikan secara statistik. Dari sudut pandang efektivitas penerapan metode numerik yang sesuai dalam penerapan metode kuadrat terkecil, jumlah pengamatan perlu melebihi jumlah parameter yang diperkirakan (dalam sistem persamaan, jumlah persamaan lebih besar dari jumlah variabel yang dicari).

Pencapaian paling signifikan dari ekonometrika adalah pengembangan yang signifikan dari metode untuk memperkirakan parameter yang tidak diketahui itu sendiri dan peningkatan kriteria untuk mengidentifikasi signifikansi statis dari efek yang sedang dipertimbangkan. Dalam hal ini, ketidakmungkinan atau ketidakmampuan menggunakan LSM tradisional karena heteroskedastisitas yang memanifestasikan dirinya pada tingkat tertentu telah menyebabkan berkembangnya LSM umum (GSM). Faktanya, pada saat yang sama, model dikoreksi, spesifikasinya diubah, dan data awal diubah untuk memastikan ketidakberpihakan, efisiensi, dan konsistensi estimasi koefisien regresi.

Diasumsikan rata-rata residual sama dengan nol, tetapi variansnya tidak lagi konstan, tetapi sebanding dengan nilai K i , di mana nilai-nilai ini adalah koefisien proporsionalitas yang berbeda untuk nilai yang berbeda. dari faktor x. Dengan demikian, koefisien (nilai Ki) inilah yang mencirikan heterogenitas dispersi. Secara alami, diasumsikan bahwa nilai dispersi itu sendiri, yang merupakan faktor umum untuk koefisien proporsionalitas ini, tidak diketahui.

Model asli, setelah memasukkan koefisien ini ke dalam persamaan regresi berganda, terus menjadi heteroskedastis (lebih tepatnya, ini adalah residual dari model). Biarkan residu ini (residu) tidak autokorelasi. Kami memperkenalkan variabel baru yang diperoleh dengan membagi variabel model awal, yang ditetapkan sebagai hasil pengamatan ke-i, dengan akar kuadrat dari koefisien proporsionalitas i . Kemudian kita memperoleh persamaan baru dalam variabel yang ditransformasikan, di mana sisa-sisanya sudah homoskedastis. Variabel baru itu sendiri adalah variabel lama (asli).

Oleh karena itu, estimasi parameter persamaan baru yang diperoleh dengan cara ini dengan residual homoskedastis akan direduksi menjadi LSM berbobot (pada dasarnya, ini adalah GLS). Ketika digunakan sebagai pengganti variabel regresi itu sendiri, penyimpangannya dari rata-rata ekspresi untuk koefisien regresi memperoleh bentuk yang sederhana dan standar (seragam), sedikit berbeda untuk LSM dan LMLS dengan faktor koreksi 1/K dalam pembilang dan penyebut dari fraksi yang memberikan koefisien regresi.

Harus diingat bahwa parameter model yang ditransformasikan (dikoreksi) pada dasarnya tergantung pada konsep apa yang diambil sebagai dasar untuk koefisien proporsionalitas i . Seringkali diasumsikan bahwa residu hanya sebanding dengan nilai faktor. Model mengambil bentuk paling sederhana ketika hipotesis bahwa kesalahan sebanding dengan nilai faktor terakhir dalam urutan diterima. Kemudian OLS memungkinkan untuk meningkatkan bobot pengamatan dengan nilai yang lebih kecil dari variabel yang ditransformasikan dalam menentukan parameter regresi dibandingkan dengan pekerjaan OLS standar dengan variabel aslinya. Tetapi variabel baru ini sudah menerima konten ekonomi yang berbeda.

Hipotesis bahwa residu sebanding dengan nilai faktor mungkin memiliki pembenaran yang nyata. Biarkan beberapa kumpulan data yang tidak cukup homogen diproses, misalnya, termasuk perusahaan besar dan kecil pada saat yang bersamaan. Kemudian nilai volumetrik yang besar dari faktor tersebut dapat sesuai dengan varians yang besar dari fitur yang dihasilkan dan varians yang besar dari nilai residual. Selanjutnya, penggunaan GLS dan transisi yang sesuai ke nilai relatif tidak hanya mengurangi variasi faktor, tetapi juga mengurangi varian kesalahan. Dengan demikian, kasus paling sederhana dalam memperhitungkan dan mengoreksi heteroskedastisitas dalam model regresi diwujudkan melalui penggunaan GLS.

Pendekatan implementasi OLS di atas dalam bentuk OLS berbobot cukup praktis - cukup diterapkan dan memiliki interpretasi ekonomi yang transparan. Tentu saja, ini bukan pendekatan yang paling umum, dan dalam konteks statistik matematika, yang berfungsi sebagai dasar teoretis ekonometrika, kami menawarkan metode yang jauh lebih ketat yang mengimplementasikan GLS dalam bentuk paling umum. Perlu diketahui matriks kovarians dari vektor kesalahan (kolom residual). Dan ini biasanya tidak adil dalam situasi praktis, dan tidak mungkin menemukan matriks ini seperti itu. Oleh karena itu, secara umum, seseorang harus entah bagaimana memperkirakan matriks yang diperlukan untuk menggunakan perkiraan seperti itu alih-alih matriks itu sendiri dalam rumus yang sesuai. Dengan demikian, implementasi GLS yang dijelaskan mewakili salah satu dari perkiraan ini. Kadang-kadang disebut kuadrat terkecil umum yang dapat diakses.

Juga harus diperhitungkan bahwa koefisien determinasi tidak dapat berfungsi sebagai ukuran kualitas kecocokan yang memuaskan saat menggunakan GLS. Kembali ke penggunaan GLS, kami juga mencatat bahwa metode penggunaan standar deviasi (kesalahan standar) dalam bentuk Putih (yang disebut kesalahan standar konsisten dengan adanya heteroskedastisitas) memiliki generalitas yang cukup. Metode ini dapat diterapkan dengan syarat bahwa matriks kovarians vektor kesalahan adalah diagonal. Jika ada autokorelasi residual (kesalahan), ketika ada elemen tidak nol (koefisien) dalam matriks kovarians dan di luar diagonal utama, maka metode kesalahan standar yang lebih umum dalam bentuk Nevie-West harus digunakan. Dalam hal ini terdapat batasan yang signifikan: elemen bukan nol, selain diagonal utama, hanya berada pada diagonal tetangga yang dipisahkan dari diagonal utama tidak lebih dari jumlah tertentu.

Dari apa yang telah dikatakan, jelas bahwa perlu untuk dapat memeriksa data untuk heteroskedastisitas. Tes berikut melayani tujuan ini. Mereka menguji hipotesis utama tentang kesetaraan varians residual terhadap hipotesis alternatif (tentang ketidaksetaraan hipotesis ini). Selain itu, ada kendala struktural apriori pada sifat heteroskedastisitas. Dalam uji Goldfeld-Kuandt, sebagai aturan, asumsi ketergantungan langsung dari varians kesalahan (residual) pada nilai beberapa variabel independen digunakan. Skema penerapan tes ini adalah sebagai berikut. Pertama, data diurutkan dalam urutan menurun dari variabel independen yang diduga heteroskedastisitas. Beberapa pengamatan rata-rata kemudian dikeluarkan dari kumpulan data yang dipesan ini, di mana kata "sedikit" berarti sekitar seperempat (25%) dari jumlah total semua pengamatan. Selanjutnya, dua regresi independen dilakukan untuk yang pertama dari pengamatan rata-rata yang tersisa (setelah eliminasi) dan dua terakhir dari pengamatan rata-rata yang tersisa ini. Setelah itu, dua residu yang sesuai dibangun. Akhirnya, statistik F Fisher dikompilasi, dan jika hipotesis yang diteliti benar, maka F memang distribusi Fisher dengan derajat kebebasan yang sesuai. Kemudian nilai statistik yang besar berarti hipotesis yang diuji harus ditolak. Tanpa langkah menghilangkan pengamatan, kekuatan tes ini berkurang.

Tes Breusch-Pagan digunakan ketika diasumsikan apriori bahwa varians bergantung pada beberapa variabel tambahan. Pertama, regresi biasa (standar) dilakukan dan vektor residu diperoleh. Kemudian estimasi varians dibangun. Selanjutnya dilakukan regresi kuadrat dari vektor residual dibagi varians empiris (estimasi varians). Baginya (regresi) temukan bagian variasi yang dijelaskan. Dan untuk bagian variasi yang dijelaskan ini, dibagi menjadi dua, statistik dibangun. Jika hipotesis nol benar (tidak adanya heteroskedastisitas benar), maka kuantitas ini memiliki distribusi hee-kotak. Jika, sebaliknya, pengujian menunjukkan heteroskedastisitas, maka model asli ditransformasikan dengan membagi komponen vektor residual dengan komponen yang sesuai dari vektor variabel independen yang diamati.

36. Metode standar deviasi dalam bentuk White.

Kita dapat menarik kesimpulan sebagai berikut. Penggunaan GLS dengan adanya heteroskedastisitas dikurangi untuk meminimalkan jumlah deviasi kuadrat tertimbang. Penggunaan GLS yang tersedia dikaitkan dengan kebutuhan sejumlah besar pengamatan yang melebihi jumlah parameter yang diestimasi. Yang paling menguntungkan untuk penggunaan GLS adalah kasus ketika kesalahan (residual) sebanding dengan salah satu variabel independen dan perkiraan yang dihasilkan konsisten. Namun, jika dalam model dengan heteroskedastisitas, tidak perlu menggunakan GLS, tetapi LSM standar, maka untuk mendapatkan perkiraan yang konsisten, seseorang dapat menggunakan perkiraan kesalahan dalam bentuk White atau Nevie-West.

Saat menganalisis deret waktu, seringkali perlu memperhitungkan ketergantungan statistik pengamatan pada titik waktu yang berbeda. Dalam hal ini, asumsi kesalahan yang tidak berkorelasi tidak terpenuhi. Pertimbangkan model sederhana di mana kesalahan membentuk proses autoregresif orde pertama. Dalam hal ini, galat memenuhi hubungan perulangan sederhana, di sisi kanan yang salah satu sukunya adalah barisan peubah acak terdistribusi normal bebas dengan mean nol dan varians konstan. Suku kedua adalah hasil kali parameter (koefisien autoregresi) dan nilai residual pada waktu sebelumnya. Urutan nilai kesalahan (residual) itu sendiri membentuk proses acak yang stasioner. Sebuah proses acak stasioner dicirikan oleh keteguhan karakteristiknya dari waktu ke waktu, khususnya, rata-rata dan varians. Dalam hal ini, matriks kovarians yang menarik bagi kami (anggotanya) dapat dengan mudah ditulis menggunakan kekuatan parameter.

Estimasi model autoregresif untuk parameter yang diketahui dilakukan dengan menggunakan GLS. Dalam hal ini, cukup mereduksi model asli dengan transformasi sederhana menjadi model yang kesalahannya memenuhi kondisi model regresi standar. Sangat jarang, tetapi masih ada situasi di mana parameter autoregression diketahui. Oleh karena itu, umumnya perlu dilakukan estimasi dengan parameter autoregresif yang tidak diketahui. Ada tiga prosedur penilaian yang paling umum digunakan. Metode Cochrane-Orcutt, prosedur Hildreth-Lou dan metode Durbin.

Secara umum, kesimpulan berikut ini benar. Analisis deret waktu memerlukan koreksi kuadrat terkecil yang biasa, karena kesalahan dalam kasus ini, sebagai suatu peraturan, berkorelasi. Seringkali kesalahan ini membentuk proses autoregresif stasioner orde pertama. Estimasi OLS untuk autoregression orde pertama tidak bias, konsisten, tetapi tidak efisien. Dengan koefisien autoregresi yang diketahui, OLS direduksi menjadi transformasi sederhana (koreksi) dari sistem asli dan kemudian ke penerapan kuadrat terkecil standar. Jika, seperti yang lebih sering terjadi, koefisien autoregresif tidak diketahui, maka ada beberapa prosedur dari GLS yang tersedia, yang terdiri dari memperkirakan parameter yang tidak diketahui (koefisien), setelah itu transformasi yang sama diterapkan seperti pada kasus sebelumnya. parameter yang diketahui.

37. Konsep tes Breusch-Pagan, tes Goldfeldt-Quandt

Kementerian Pertanian Federasi Rusia

Pendidikan anggaran negara federal

lembaga pendidikan tinggi profesional

"Akademi Pertanian Negeri Perm

dinamai akademisi D.N. Pryanishnikov"

Departemen Keuangan, Kredit dan Analisis Ekonomi

Kontrol pekerjaan pada opsi "Ekonometrika" disiplin - 10


    Kesalahan aproksimasi dan definisinya………………………………….3

    Metode analisis penyelarasan deret waktu dan fungsi yang digunakan dalam ini………………………………………………………………..4

    Bagian Praktis……………………………………………………………………… 11

    1. Tugas 1……………………………………………………………… 11

      Tugas 2……………………………………………….…………….19

Daftar literatur yang digunakan……………………………………………….25

  1. Kesalahan perkiraan dan definisinya.

Kesalahan perkiraan rata-rata adalah penyimpangan rata-rata dari data yang dihitung dari data yang sebenarnya. Ini didefinisikan sebagai modulo persentase.

Nilai aktual dari atribut yang dihasilkan berbeda dari yang teoretis. Semakin kecil perbedaan ini, semakin dekat nilai teoritis dengan data empiris, ini adalah kualitas model yang terbaik. Besarnya deviasi dari nilai aktual dan nilai yang dihitung dari fitur efektif untuk setiap pengamatan adalah kesalahan aproksimasi. Jumlah mereka sesuai dengan volume populasi. Dalam beberapa kasus, kesalahan perkiraan mungkin nol. Sebagai perbandingan, penyimpangan digunakan, dinyatakan sebagai persentase dari nilai sebenarnya.

Karena bisa positif dan negatif, biasanya menentukan kesalahan aproksimasi untuk setiap pengamatan sebagai modulo persentase. Penyimpangan dapat dianggap sebagai kesalahan perkiraan absolut, dan sebagai kesalahan perkiraan relatif. Untuk mendapatkan penilaian umum tentang kualitas model dari deviasi relatif untuk setiap pengamatan, kesalahan perkiraan rata-rata ditentukan sebagai mean aritmatika sederhana.

Rata-rata kesalahan aproksimasi dihitung dengan rumus:

Definisi lain dari kesalahan perkiraan rata-rata juga mungkin:

Jika A £ 10-12%, maka kita dapat berbicara tentang kualitas model yang baik.

  1. Metode analisis penyelarasan deret waktu dan fungsi yang digunakan dalam proses ini.

Teknik yang lebih sempurna untuk mengidentifikasi tren perkembangan utama dalam rangkaian dinamika adalah analitik alignment. Ketika mempelajari kecenderungan umum dengan metode perataan analitik, diasumsikan bahwa perubahan tingkat dari serangkaian dinamika dapat diekspresikan oleh fungsi matematika tertentu dengan berbagai tingkat akurasi aproksimasi. Jenis persamaan ditentukan oleh sifat dinamika perkembangan suatu fenomena tertentu. Dalam praktiknya, menurut deret waktu yang ada, formulir ditetapkan dan parameter fungsi y=f(t) ditemukan, kemudian perilaku penyimpangan dari tren dianalisis. Hubungan berikut paling sering digunakan dalam keselarasan: linier, parabola, dan eksponensial. Dalam banyak kasus, pemodelan deret waktu menggunakan polinomial atau fungsi eksponensial tidak memberikan hasil yang memuaskan, karena deret waktu mengandung fluktuasi periodik yang nyata di sekitar tren umum. Dalam kasus seperti itu, analisis harmonik (harmonik deret Fourier) harus digunakan. Penggunaan metode ini secara tepat lebih disukai, karena ini menentukan hukum yang memungkinkan untuk memprediksi secara akurat nilai-nilai level seri.

Tujuan dari keselarasan analitis dari deret dinamis adalah untuk menentukan ketergantungan analitis atau grafis y=f(t). Fungsi y=f(t) dipilih sedemikian rupa sehingga memberikan penjelasan yang berarti tentang proses yang diteliti. Ini mungkin fungsi yang berbeda.

Sistem persamaan bentuk y=f(t) untuk pendugaan parameter polinomial oleh LSM

(dapat diklik)

Representasi grafis dari polinomial orde-n

1. Jika perubahan level dari suatu deret ditandai dengan kenaikan (penurunan) level yang seragam, ketika kenaikan rantai absolut mendekati besarnya, tren perkembangan dicirikan oleh persamaan garis lurus.

2. Jika, sebagai hasil dari analisis jenis tren dinamika, diperoleh ketergantungan lengkung, dengan percepatan yang mendekati konstan, maka bentuk tren dinyatakan oleh persamaan parabola orde dua.

3. Jika pertumbuhan tingkatan-tingkatan suatu rangkaian dinamika terjadi secara eksponensial, yaitu faktor pertumbuhan rantai kurang lebih konstan, penyelarasan deret dinamika dilakukan sesuai dengan fungsi eksponensial.

Setelah memilih jenis persamaan, perlu untuk menentukan parameter persamaan. Cara yang paling umum untuk menentukan parameter persamaan adalah metode kuadrat terkecil, di mana titik minimum dari jumlah deviasi kuadrat antara tingkat teoritis (disesuaikan dengan persamaan yang dipilih) dan empiris diambil sebagai solusi.

Penjajaran dalam garis lurus (definisi garis tren) memiliki ekspresi: yt=a0+a1t

t-simbol waktu;

sedangkan 0 dan a1 adalah parameter garis yang diinginkan.

Parameter garis lurus ditemukan dari solusi sistem persamaan:

Sistem persamaan disederhanakan jika nilai t dipilih sehingga jumlah mereka sama dengan t = 0, yaitu, asal waktu dipindahkan ke tengah periode yang ditinjau. Jika sebelum pemindahan titik acuan t = 1, 2, 3, 4…, maka setelah pemindahan:

jika jumlah level dalam deret tersebut ganjil t = -4 -3 -2 -1 0 +1 +2 +3 +4

jika jumlah tingkatan dalam deret tersebut genap t = -7 -5 -3 -1 +1 +3 +5 +7

Jadi, t pangkat ganjil akan selalu sama dengan nol.

Demikian pula, parameter parabola orde ke-2 ditemukan dari solusi sistem persamaan:

Penyelarasan dengan pertumbuhan absolut rata-rata atau tingkat pertumbuhan rata-rata:

-rata-rata peningkatan absolut;

faktor pertumbuhan K-rata-rata;

Y0-tingkat awal seri;

Yn adalah tingkat akhir dari seri;

t adalah nomor urut level, dimulai dari nol.

Setelah membangun persamaan regresi, dilakukan penilaian reliabilitasnya. Signifikansi persamaan regresi yang dipilih, parameter persamaan, dan koefisien korelasi harus dinilai dengan menerapkan metode evaluasi kritis:

Fisher's F-test, Student's t-test, dalam hal ini, nilai kriteria yang dihitung dibandingkan dengan yang ditabulasi (kritis) pada tingkat signifikansi dan jumlah derajat kebebasan tertentu. Fakta > Ftheor - persamaan regresi memadai.

n adalah jumlah observasi (tingkat deret), m adalah jumlah parameter persamaan regresi (model).

Memeriksa kecukupan persamaan regresi (kualitas model secara keseluruhan) dilakukan dengan menggunakan kesalahan perkiraan rata-rata, yang nilainya tidak boleh melebihi 10-12% (disarankan).

Untuk wilayah wilayah, data diberikan untuk 200X.

nomor wilayah Rata-rata minimum subsisten per kapita per hari untuk satu orang berbadan sehat, gosok., x Gaji rata-rata harian, gosok., at
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Latihan:

1. Membangun bidang korelasi dan merumuskan hipotesis tentang bentuk hubungannya.

2. Hitung parameter persamaan regresi linier

4. Dengan menggunakan koefisien elastisitas rata-rata (umum), berikan penilaian komparatif terhadap kekuatan hubungan antara faktor dan hasilnya.

7. Hitung nilai prediksi hasil jika nilai prediksi faktor meningkat 10% dari tingkat rata-ratanya. Tentukan interval kepercayaan prediksi untuk tingkat signifikansi .

Keputusan:

Mari kita selesaikan masalah ini menggunakan Excel.

1. Membandingkan data yang tersedia x dan y, misalnya, mengurutkannya dalam urutan menaik dari faktor x, orang dapat mengamati hubungan langsung antara tanda-tanda ketika peningkatan minimum subsisten per kapita meningkatkan upah harian rata-rata. Berdasarkan hal tersebut, dapat diasumsikan bahwa hubungan antara tanda-tanda itu searah dan dapat digambarkan dengan persamaan garis lurus. Kesimpulan yang sama dikonfirmasi berdasarkan analisis grafis.

Untuk membangun bidang korelasi, Anda bisa menggunakan Excel PPP. Masukkan data awal secara berurutan: pertama x, lalu y.

Pilih area sel yang berisi data.

Lalu pilih: Sisipkan / Sebarkan / Sebarkan dengan spidol seperti yang ditunjukkan pada gambar 1.

Gambar 1 Konstruksi bidang korelasi

Analisis bidang korelasi menunjukkan adanya ketergantungan yang dekat dengan garis lurus, karena titik-titik terletak hampir pada garis lurus.

2. Untuk menghitung parameter persamaan regresi linier
gunakan fungsi statistik bawaan LINEST.

Untuk ini:

1) Buka file yang sudah ada berisi data yang akan dianalisis;
2) Pilih area sel kosong 5×2 (5 baris, 2 kolom) untuk menampilkan hasil statistik regresi.
3) Aktifkan Penyihir Fungsi: di menu utama, pilih Rumus / Sisipkan Fungsi.
4) Di jendela Kategori kamu mengambil Statistik, di jendela fungsi - LINEST. Klik pada tombol Oke seperti yang ditunjukkan pada Gambar 2;

Gambar 2 Kotak Dialog Fungsi Wizard

5) Isi argumen fungsi:

Nilai yang diketahui

Nilai x yang diketahui

Konstan- nilai logis yang menunjukkan ada atau tidak adanya istilah bebas dalam persamaan; jika Konstanta = 1, maka istilah bebasnya dihitung dengan cara biasa, jika Konstanta = 0, maka istilah bebasnya adalah 0;

Statistik- nilai boolean yang menunjukkan apakah akan menampilkan informasi tambahan pada analisis regresi atau tidak. Jika Statistik = 1, maka informasi tambahan ditampilkan, jika Statistik = 0, maka hanya perkiraan parameter persamaan yang ditampilkan.

Klik pada tombol Oke;

Gambar 3 Kotak Dialog Argumen LINEST

6) Elemen pertama dari tabel terakhir akan muncul di sel kiri atas area yang dipilih. Untuk memperluas seluruh tabel, tekan tombol dan kemudian pada pintasan keyboard ++ .

Statistik regresi tambahan akan ditampilkan dalam urutan yang ditunjukkan dalam skema berikut:

Nilai koefisien b Nilai koefisien a
b. kesalahan standar kesalahan standar
kesalahan standar y
F-statistik
Jumlah kuadrat regresi

Gambar 4 Hasil perhitungan fungsi LINEST

Kami mendapatkan persamaan regresi:

Kami menyimpulkan: Dengan peningkatan minimum subsisten per kapita sebesar 1 gosok. upah harian rata-rata meningkat rata-rata 0,92 rubel.

Ini berarti bahwa 52% variasi upah (y) dijelaskan oleh variasi faktor x - rata-rata subsistensi per kapita minimum, dan 48% - oleh tindakan faktor lain yang tidak termasuk dalam model.

Menurut koefisien determinasi yang dihitung, koefisien korelasi dapat dihitung: .

Hubungan tersebut dinilai dekat.

4. Dengan menggunakan koefisien elastisitas rata-rata (umum), kami menentukan kekuatan pengaruh faktor pada hasil.

Untuk persamaan garis lurus, koefisien elastisitas rata-rata (umum) ditentukan dengan rumus:

Kami menemukan nilai rata-rata dengan memilih area sel dengan nilai x, dan pilih Rumus / JumlahOtomatis / Rata-rata, dan lakukan hal yang sama dengan nilai y.

Gambar 5 Perhitungan nilai mean dari suatu fungsi dan argumen

Jadi, jika rata-rata minimum subsisten per kapita berubah sebesar 1% dari nilai rata-ratanya, maka upah harian rata-rata akan berubah rata-rata sebesar 0,51%.

Menggunakan alat analisis data Regresi kamu bisa mendapatkannya:
- hasil statistik regresi,
- hasil analisis dispersi,
- hasil interval kepercayaan,
- grafik residual dan garis regresi yang sesuai,
- residu dan probabilitas normal.

Prosedurnya adalah sebagai berikut:

1) periksa akses ke Paket analisis. Di menu utama, pilih secara berurutan: File/Pengaturan/Add-on.

2) Jatuhkan Kontrol pilih barang Add-in Excel dan tekan tombol Pergi.

3) Di jendela tambahan centang kotak Paket analisis, lalu klik tombol Oke.

Jika sebuah Paket analisis hilang dari daftar bidang Pengaya yang tersedia, tekan tombolnya Tinjauan untuk mencari.

Jika Anda menerima pesan yang menyatakan bahwa paket analisis tidak diinstal di komputer Anda, klik Ya untuk menginstalnya.

4) Di menu utama, pilih secara berurutan: Data / Analisis Data / Alat Analisis / Regresi, lalu klik tombol Oke.

5) Isi kotak dialog opsi entri data dan keluaran:

Interval masukan Y- rentang yang berisi data atribut efektif;

Interval masukan X- rentang yang berisi data atribut faktor;

Tag- bendera yang menunjukkan apakah baris pertama berisi nama kolom atau tidak;

Konstan - nol- bendera yang menunjukkan ada atau tidak adanya istilah bebas dalam persamaan;

interval keluaran- cukup untuk menunjukkan sel kiri atas dari rentang masa depan;

6) Lembar kerja baru - Anda dapat menetapkan nama arbitrer untuk lembar baru.

Kemudian tekan tombol Oke.

Gambar 6 Kotak dialog untuk memasukkan parameter alat Regresi

Hasil analisis regresi untuk data masalah ditunjukkan pada Gambar 7.

Gambar 7 Hasil penerapan alat regresi

5. Mari kita perkirakan kualitas persamaan menggunakan kesalahan perkiraan rata-rata. Mari kita gunakan hasil analisis regresi yang disajikan pada Gambar 8.

Gambar 8 Hasil penerapan alat regresi “Residual Inference”

Mari kita kompilasi tabel baru seperti yang ditunjukkan pada Gambar 9. Di kolom C, kita menghitung kesalahan aproksimasi relatif menggunakan rumus:

Gambar 9 Perhitungan kesalahan perkiraan rata-rata

Rata-rata kesalahan aproksimasi dihitung dengan rumus:

Kualitas model yang dibangun dinilai baik, karena tidak melebihi 8 - 10%.

6. Dari tabel dengan statistik regresi (Gambar 4), kami menuliskan nilai uji F Fisher yang sebenarnya:

Sejauh pada taraf signifikansi 5%, maka dapat disimpulkan bahwa persamaan regresi tersebut signifikan (hubungan terbukti).

8. Kami akan mengevaluasi signifikansi statistik dari parameter regresi menggunakan t-statistik Student dan dengan menghitung interval kepercayaan untuk masing-masing indikator.

Kami mengajukan hipotesis H 0 tentang perbedaan indikator yang tidak signifikan secara statistik dari nol:

.

untuk jumlah derajat kebebasan

Gambar 7 memiliki nilai sebenarnya dari t-statistik:

Uji-t untuk koefisien korelasi dapat dihitung dengan dua cara:

cara saya:

di mana - kesalahan acak dari koefisien korelasi.

Kami mengambil data untuk perhitungan dari tabel pada Gambar 7.

II cara:

Nilai t-statistik sebenarnya lebih unggul dari nilai tabel:

Oleh karena itu, hipotesis H 0 ditolak, yaitu parameter regresi dan koefisien korelasi tidak berbeda secara acak dari nol, tetapi signifikan secara statistik.

Interval kepercayaan untuk parameter a didefinisikan sebagai

Untuk parameter a, batas 95%, seperti yang ditunjukkan pada Gambar 7, adalah:

Interval kepercayaan untuk koefisien regresi didefinisikan sebagai

Untuk koefisien regresi b, batas 95% seperti yang ditunjukkan pada Gambar 7 adalah:

Analisis batas atas dan bawah interval kepercayaan mengarah pada kesimpulan bahwa dengan probabilitas parameter a dan b, berada dalam batas yang ditentukan, tidak mengambil nilai nol, mis. tidak signifikan secara statistik dan berbeda secara signifikan dari nol.

7. Estimasi persamaan regresi yang diperoleh memungkinkan kita menggunakannya untuk peramalan. Jika nilai prakiraan minimum subsisten adalah:

Maka nilai prediksi minimum subsisten adalah:

Kami menghitung kesalahan perkiraan menggunakan rumus:

di mana

Kami juga menghitung varians menggunakan Excel PPP. Untuk ini:

1) Aktifkan Penyihir Fungsi: di menu utama, pilih Rumus / Sisipkan Fungsi.

3) Isilah range yang berisi data numerik dari karakteristik faktor. Klik Oke.

Gambar 10 Perhitungan varians

Dapatkan nilai variansnya

Untuk menghitung varians residual per satu derajat kebebasan, kami menggunakan hasil analisis varians seperti yang ditunjukkan pada Gambar 7.

Interval kepercayaan untuk memprediksi nilai individu y pada dengan probabilitas 0,95 ditentukan oleh ekspresi:

Intervalnya cukup lebar, terutama karena volume pengamatan yang kecil. Secara umum, perkiraan gaji bulanan rata-rata yang terpenuhi ternyata dapat diandalkan.

Kondisi masalah diambil dari: Workshop ekonometrika: Proc. tunjangan / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko dan lainnya; Ed. I.I. Eliseeva. - M.: Keuangan dan statistik, 2003. - 192 hal.: sakit.

Untuk penilaian umum kualitas ekonometrika yang dibangun, karakteristik seperti koefisien determinasi, indeks korelasi, kesalahan aproksimasi relatif rata-rata ditentukan, dan signifikansi persamaan regresi diperiksa menggunakan F- Kriteria Fisher. Karakteristik yang tercantum cukup universal dan dapat diterapkan pada model linier dan non-linier, serta model dengan dua atau lebih variabel faktor. Nilai penentu dalam menghitung semua karakteristik kualitas yang terdaftar dimainkan oleh sejumlah residu saya, yang dihitung dengan mengurangkan dari nilai aktual (diperoleh dari pengamatan) dari sifat yang diteliti aku nilai yang dihitung menurut persamaan model y pi.

Koefisien determinasi

menunjukkan berapa proporsi perubahan sifat yang dipelajari yang diperhitungkan dalam model. Dengan kata lain, koefisien determinasi menunjukkan bagian mana dari perubahan variabel yang diteliti yang dapat dihitung berdasarkan perubahan variabel faktor yang dimasukkan dalam model menggunakan jenis fungsi yang dipilih yang menghubungkan variabel faktor dan fitur yang diteliti di persamaan modelnya.

Koefisien determinasi R2 dapat mengambil nilai dari 0 hingga 1. Semakin dekat koefisien determinasi R2 untuk kesatuan, semakin baik kualitas model.

indeks korelasi dapat dengan mudah dihitung, mengetahui koefisien determinasi:

indeks korelasi R mencirikan ketatnya jenis hubungan yang dipilih ketika membangun model antara faktor-faktor yang diperhitungkan dalam model dan variabel yang diteliti. Dalam kasus regresi pasangan linier, nilai absolutnya bertepatan dengan koefisien korelasi pasangan r(x, y), yang kami pertimbangkan sebelumnya, dan mencirikan ketatnya hubungan linier antara x dan kamu. Nilai indeks korelasi, tentu saja, juga terletak pada kisaran 0 hingga 1. Semakin dekat nilainya R untuk kesatuan, semakin dekat jenis fungsi yang dipilih menghubungkan variabel faktor dan sifat yang diteliti, semakin baik kualitas modelnya.

(2.11)

dinyatakan sebagai persentase dan mencirikan keakuratan model. Keakuratan model yang dapat diterima dalam memecahkan masalah praktis dapat ditentukan berdasarkan pertimbangan kelayakan ekonomi, dengan mempertimbangkan situasi tertentu. Kriteria yang banyak digunakan adalah bahwa akurasi dianggap memuaskan jika kesalahan relatif rata-rata kurang dari 15%. Jika sebuah E rel.av. kurang dari 5%, maka model tersebut dikatakan memiliki akurasi yang tinggi. Tidak disarankan untuk menggunakan model dengan akurasi yang tidak memuaskan untuk analisis dan peramalan, yaitu ketika E rel.av. lebih dari 15%.

Fisher F-test digunakan untuk mengevaluasi signifikansi persamaan regresi. Nilai yang dihitung dari kriteria-F ditentukan dari rasio:

. (2.12)

nilai kritis F-kriteria ditentukan dari tabel pada tingkat signifikansi dan derajat kebebasan tertentu (Anda dapat menggunakan fungsi FDISP di Excel). Di sini, masih m adalah jumlah faktor yang diperhitungkan dalam model, n adalah jumlah pengamatan. Jika nilai yang dihitung lebih besar dari nilai kritis, maka persamaan model diakui signifikan. Semakin besar nilai yang dihitung F-kriteria, semakin baik kualitas model.

Mari kita tentukan karakteristik kualitas dari model linier yang telah kita buat Contoh 1. Mari kita gunakan data Tabel 2. Koefisien determinasi:

Oleh karena itu, dalam model linier, perubahan volume penjualan sebesar 90,1% dijelaskan oleh perubahan suhu udara.

indeks korelasi

.

Nilai indeks korelasi dalam kasus model linier berpasangan, seperti yang kita lihat, memang modulo sama dengan koefisien korelasi antara variabel yang sesuai (volume penjualan dan suhu). Karena nilai yang diperoleh cukup mendekati satu, maka dapat disimpulkan bahwa terdapat hubungan linier yang erat antara variabel yang diteliti (volume penjualan) dan variabel faktor (suhu).

Fisher F-test

nilai kritis F cr pada = 0,1; v 1 = 1; 2 =7-1-1=5 sama dengan 4,06. Nilai perkiraan F-kriteria lebih besar dari yang tabel, oleh karena itu, persamaan modelnya signifikan.

Rata-rata kesalahan perkiraan relatif

Model regresi linier berpasangan yang dibangun memiliki akurasi yang kurang memuaskan (>15%), dan tidak direkomendasikan untuk digunakan dalam analisis dan peramalan.

Akibatnya, terlepas dari kenyataan bahwa sebagian besar karakteristik statistik memenuhi kriteria untuk mereka, model regresi linier berpasangan tidak cocok untuk memprediksi volume penjualan tergantung pada suhu udara. Sifat non-linier dari hubungan antara variabel-variabel ini menurut data observasi cukup jelas terlihat pada Gambar.1. Analisis yang dilakukan mengkonfirmasi hal ini.