Estimasi signifikansi koefisien dan persamaan. Estimasi Signifikansi Parameter Persamaan Regresi Linier Berpasangan

Analisis regresi adalah metode penelitian statistik yang memungkinkan Anda untuk menunjukkan ketergantungan suatu parameter pada satu atau lebih variabel bebas. Di era pra komputer, penggunaannya cukup sulit, terutama jika menyangkut data dalam jumlah besar. Hari ini, setelah mempelajari cara membuat regresi di Excel, Anda dapat memecahkan masalah statistik yang rumit hanya dalam beberapa menit. Di bawah ini adalah contoh spesifik dari bidang ekonomi.

Jenis regresi

Konsep itu sendiri diperkenalkan ke dalam matematika pada tahun 1886. Regresi terjadi:

  • linier;
  • parabola;
  • kekuatan;
  • eksponensial;
  • hiperbolis;
  • demonstratif;
  • logaritma.

Contoh 1

Pertimbangkan masalah menentukan ketergantungan jumlah anggota tim pensiunan pada gaji rata-rata di 6 perusahaan industri.

Tugas. Di enam perusahaan, kami menganalisis gaji bulanan rata-rata dan jumlah karyawan yang keluar atas kemauan sendiri. Dalam bentuk tabel kita memiliki:

Jumlah orang yang pergi

Gaji

30000 rubel

35000 rubel

40000 rubel

45000 rubel

50000 rubel

55000 rubel

60000 rubel

Untuk masalah menentukan ketergantungan jumlah pensiunan terhadap gaji rata-rata di 6 perusahaan, model regresi berbentuk persamaan Y = a 0 + a 1 x 1 +…+a k x k , dimana x i adalah variabel yang mempengaruhi , a i adalah koefisien regresi, a k adalah jumlah faktor.

Untuk tugas ini, Y adalah indikator karyawan yang keluar, dan faktor yang mempengaruhinya adalah gaji, yang dilambangkan dengan X.

Menggunakan kemampuan spreadsheet "Excel"

Analisis regresi di Excel harus didahului dengan penerapan fungsi bawaan pada data tabular yang tersedia. Namun, untuk tujuan ini, lebih baik menggunakan add-in "Analysis Toolkit" yang sangat berguna. Untuk mengaktifkannya Anda perlu:

  • dari tab "File", buka bagian "Opsi";
  • di jendela yang terbuka, pilih baris "Add-on";
  • klik tombol "Pergi" yang terletak di bagian bawah, di sebelah kanan baris "Manajemen";
  • centang kotak di sebelah nama "Paket Analisis" dan konfirmasi tindakan Anda dengan mengklik "OK".

Jika semuanya dilakukan dengan benar, tombol yang diinginkan akan muncul di sisi kanan tab Data, terletak di atas lembar kerja Excel.

di excel

Sekarang kita memiliki semua alat virtual yang diperlukan untuk melakukan perhitungan ekonometrik, kita dapat mulai memecahkan masalah kita. Untuk ini:

  • klik tombol "Analisis Data";
  • di jendela yang terbuka, klik tombol "Regresi";
  • di tab yang muncul, masukkan rentang nilai untuk Y (jumlah karyawan yang berhenti) dan untuk X (gaji mereka);
  • Kami mengkonfirmasi tindakan kami dengan menekan tombol "Ok".

Akibatnya, program akan secara otomatis mengisi lembar baru spreadsheet dengan data analisis regresi. Catatan! Excel memiliki kemampuan untuk secara manual mengatur lokasi yang Anda inginkan untuk tujuan ini. Misalnya, itu bisa berupa lembar yang sama di mana nilai Y dan X berada, atau bahkan buku kerja baru yang dirancang khusus untuk menyimpan data tersebut.

Analisis hasil regresi untuk R-square

Di Excel, data yang diperoleh selama pemrosesan data dari contoh yang dipertimbangkan terlihat seperti ini:

Pertama-tama, Anda harus memperhatikan nilai R-square. Ini adalah koefisien determinasi. Dalam contoh ini, R-square = 0,755 (75,5%), yaitu parameter yang dihitung dari model menjelaskan hubungan antara parameter yang dipertimbangkan sebesar 75,5%. Semakin tinggi nilai koefisien determinasi, semakin dapat diterapkan model yang dipilih untuk tugas tertentu. Diyakini bahwa itu benar menggambarkan situasi nyata dengan nilai R-kuadrat di atas 0,8. Jika R-kuadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analisis rasio

Angka 64.1428 menunjukkan berapa nilai Y jika semua variabel xi dalam model yang kita pertimbangkan diset ke nol. Dengan kata lain, dapat dikatakan bahwa nilai parameter yang dianalisis juga dipengaruhi oleh faktor lain yang tidak dijelaskan dalam model tertentu.

Koefisien berikutnya -0,16285, terletak di sel B18, menunjukkan bobot pengaruh variabel X terhadap Y. Ini berarti bahwa gaji bulanan rata-rata karyawan dalam model yang dipertimbangkan mempengaruhi jumlah berhenti dengan bobot -0,16285, yaitu. tingkat pengaruhnya sama sekali kecil. Tanda "-" menunjukkan bahwa koefisien tersebut bernilai negatif. Ini jelas, karena semua orang tahu bahwa semakin tinggi gaji di perusahaan, semakin sedikit orang yang ingin memutuskan kontrak kerja atau berhenti.

Regresi berganda

Istilah ini mengacu pada persamaan koneksi dengan beberapa variabel independen yang berbentuk:

y \u003d f (x 1 + x 2 + ... x m) + , di mana y adalah fitur efektif (variabel dependen), dan x 1 , x 2 , ... x m adalah faktor faktor (variabel independen).

Estimasi Parameter

Untuk regresi berganda (MR) dilakukan dengan menggunakan metode kuadrat terkecil (OLS). Untuk persamaan linier berbentuk Y = a + b 1 x 1 +…+b m x m + , kita membangun sistem persamaan normal (lihat di bawah)

Untuk memahami prinsip metode, pertimbangkan kasus dua faktor. Kemudian kita memiliki situasi yang dijelaskan oleh rumus

Dari sini kita mendapatkan:

di mana adalah varians dari fitur terkait yang tercermin dalam indeks.

LSM dapat diterapkan pada persamaan MP pada skala yang dapat distandarisasi. Dalam hal ini, kita mendapatkan persamaan:

di mana t y , t x 1, … t xm adalah variabel standar yang nilai rata-ratanya adalah 0; i adalah koefisien regresi standar, dan simpangan bakunya adalah 1.

Harap dicatat bahwa semua i dalam hal ini disetel sebagai normal dan terpusat, sehingga perbandingannya satu sama lain dianggap benar dan dapat diterima. Selain itu, merupakan kebiasaan untuk menyaring faktor, membuang yang memiliki nilai i terkecil.

Soal menggunakan persamaan regresi linier

Misalkan ada tabel dinamika harga produk N tertentu selama 8 bulan terakhir. Penting untuk membuat keputusan tentang kelayakan membeli batchnya dengan harga 1850 rubel/t.

nomor bulan

nama bulan

harga barang N

1750 rubel per ton

1755 rubel per ton

1767 rubel per ton

1760 rubel per ton

1770 rubel per ton

1790 rubel per ton

1810 rubel per ton

1840 rubel per ton

Untuk mengatasi masalah ini di spreadsheet Excel, Anda perlu menggunakan alat Analisis Data yang sudah diketahui dari contoh di atas. Selanjutnya, pilih bagian "Regresi" dan atur parameternya. Harus diingat bahwa di bidang "Input Y interval", rentang nilai untuk variabel dependen (dalam hal ini, harga suatu produk pada bulan-bulan tertentu dalam setahun) harus dimasukkan, dan di "Input Interval X" - untuk variabel independen (nomor bulan). Konfirmasikan tindakan dengan mengklik "Ok". Pada lembar baru (jika diindikasikan demikian), kami mendapatkan data untuk regresi.

Berdasarkan mereka, kami membangun persamaan linier dalam bentuk y=ax+b, di mana parameter a dan b adalah koefisien baris dengan nama nomor bulan dan koefisien dan baris "Y-persimpangan" dari lembar dengan hasil analisis regresi. Dengan demikian, persamaan regresi linier (LE) untuk masalah 3 ditulis sebagai:

Harga produk N = 11.714* nomor bulan + 1727.54.

atau dalam notasi aljabar

y = 11,714 x + 1727,54

Analisis hasil

Untuk memutuskan apakah persamaan regresi linier yang dihasilkan memadai, koefisien korelasi ganda (MCC) dan koefisien determinasi digunakan, serta uji Fisher dan uji Student. Dalam tabel Excel dengan hasil regresi, mereka muncul di bawah nama beberapa R, R-kuadrat, F-statistik dan t-statistik, masing-masing.

KMC R memungkinkan untuk menilai ketatnya hubungan probabilistik antara variabel independen dan dependen. Nilainya yang tinggi menunjukkan hubungan yang cukup kuat antara variabel "Jumlah bulan" dan "Harga barang N dalam rubel per 1 ton". Namun, sifat hubungan ini masih belum diketahui.

Kuadrat koefisien determinasi R 2 (RI) adalah karakteristik numerik dari bagian hamburan total dan menunjukkan hamburan bagian mana dari data eksperimen, yaitu. nilai variabel terikat sesuai dengan persamaan regresi linier. Dalam masalah yang dipertimbangkan, nilai ini sama dengan 84,8%, yaitu, data statistik dijelaskan dengan tingkat akurasi yang tinggi dengan SD yang diperoleh.

F-statistik, juga disebut uji Fisher, digunakan untuk menilai signifikansi hubungan linier, menyangkal atau mengkonfirmasi hipotesis keberadaannya.

(Kriteria siswa) membantu mengevaluasi signifikansi koefisien dengan suku bebas dari hubungan linier yang tidak diketahui atau bebas. Jika nilai t-kriteria > t cr, maka hipotesis insignifikansi suku bebas persamaan linier ditolak.

Dalam masalah yang dipertimbangkan untuk anggota bebas, dengan menggunakan alat Excel, diperoleh bahwa t = 169.20903, dan p = 2.89E-12, yaitu, kami memiliki probabilitas nol bahwa hipotesis yang benar tentang tidak signifikannya anggota bebas akan ditolak. Untuk koefisien pada diketahui t=5.79405, dan p=0.001158. Dengan kata lain, probabilitas bahwa hipotesis yang benar tentang tidak signifikannya koefisien untuk yang tidak diketahui akan ditolak adalah 0,12%.

Dengan demikian, dapat dikatakan bahwa persamaan regresi linier yang dihasilkan adalah memadai.

Masalah kelayakan membeli satu blok saham

Regresi berganda di Excel dilakukan dengan menggunakan alat Analisis Data yang sama. Pertimbangkan masalah khusus yang diterapkan.

Manajemen NNN harus mengambil keputusan tentang layak tidaknya membeli 20% saham MMM SA. Biaya paket (JV) adalah 70 juta dolar AS. Spesialis NNN mengumpulkan data tentang transaksi serupa. Diputuskan untuk mengevaluasi nilai blok saham sesuai dengan parameter tersebut, dinyatakan dalam jutaan dolar AS, sebagai:

  • hutang usaha (VK);
  • omset tahunan (VO);
  • piutang (VD);
  • biaya aset tetap (SOF).

Selain itu, parameter tunggakan penggajian perusahaan (V3 P) digunakan dalam ribuan dolar AS.

Solusi menggunakan spreadsheet Excel

Pertama-tama, Anda perlu membuat tabel data awal. Ini terlihat seperti ini:

  • panggil jendela "Analisis Data";
  • pilih bagian "Regresi";
  • pada kotak "Input interval Y" masukkan range nilai variabel dependen dari kolom G;
  • klik ikon dengan panah merah di sebelah kanan jendela "Input interval X" dan pilih rentang semua nilai dari kolom B, C, D, F pada lembar.

Pilih "Lembar Kerja Baru" dan klik "Ok".

Dapatkan analisis regresi untuk masalah yang diberikan.

Pemeriksaan hasil dan kesimpulan

"Kami mengumpulkan" dari data bulat yang disajikan di atas pada lembar spreadsheet Excel, persamaan regresi:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265.844.

Dalam bentuk matematika yang lebih akrab, dapat ditulis sebagai:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265.844

Data untuk JSC "MMM" disajikan dalam tabel:

Menggantinya ke dalam persamaan regresi, mereka mendapatkan angka 64,72 juta dolar AS. Artinya, saham JSC MMM tidak boleh dibeli, karena nilainya 70 juta dolar AS agak berlebihan.

Seperti yang Anda lihat, penggunaan spreadsheet Excel dan persamaan regresi memungkinkan untuk membuat keputusan yang tepat mengenai kelayakan transaksi yang sangat spesifik.

Sekarang Anda tahu apa itu regresi. Contoh-contoh di Excel yang dibahas di atas akan membantu Anda memecahkan masalah praktis dari bidang ekonometrika.

Setelah persamaan regresi linier ditemukan, signifikansi persamaan secara keseluruhan dan parameter individualnya dinilai.

Periksa signifikansi persamaan regresi - berarti untuk menetapkan apakah model matematika yang mengungkapkan hubungan antara variabel sesuai dengan data eksperimen dan apakah ada cukup variabel penjelas termasuk dalam persamaan (satu atau lebih) untuk menggambarkan variabel dependen.

Pengujian signifikansi didasarkan pada analisis varians.

Menurut gagasan analisis varians, jumlah total deviasi kuadrat (RMS) y dari nilai rata-rata didekomposisi menjadi dua bagian - dijelaskan dan tidak dijelaskan:

atau, masing-masing:

Ada dua kasus ekstrim di sini: ketika deviasi standar total sama persis dengan residual dan ketika deviasi standar total sama dengan faktorial.

Dalam kasus pertama, faktor x tidak mempengaruhi hasil, seluruh varians y disebabkan oleh pengaruh faktor lain, garis regresi sejajar dengan sumbu Ox, dan persamaan akan terlihat seperti.

Dalam kasus kedua, faktor-faktor lain tidak mempengaruhi hasil, y berhubungan dengan x secara fungsional, dan simpangan baku residual adalah nol.

Namun, dalam praktiknya kedua istilah tersebut ada di sisi kanan. Kesesuaian garis regresi untuk prediksi tergantung pada seberapa banyak varians total dalam y yang diperhitungkan oleh varians yang dijelaskan. Jika RMSD yang dijelaskan lebih besar dari RMSD residual, maka persamaan regresi signifikan secara statistik dan faktor x berpengaruh signifikan terhadap hasil y. Ini setara dengan fakta bahwa koefisien determinasi akan mendekati kesatuan.

Jumlah derajat kebebasan (df-degrees of freedom) adalah jumlah nilai fitur variabel independen.

Standar deviasi keseluruhan membutuhkan (n-1) deviasi independen,

Simpangan baku faktorial memiliki satu derajat kebebasan, dan

Dengan demikian, kita dapat menulis:

Dari keseimbangan ini, kita menentukan bahwa = n-2.

Dengan membagi setiap standar deviasi dengan jumlah derajat kebebasannya, kita memperoleh kuadrat deviasi rata-rata, atau varians per satu derajat kebebasan: - varians total, - faktorial, - residual.

Analisis signifikansi statistik koefisien regresi linier

Meskipun nilai teoretis dari koefisien persamaan ketergantungan linier diasumsikan konstan, perkiraan a dan b dari koefisien ini diperoleh selama membangun persamaan dari data sampling acak adalah variabel acak. Jika kesalahan regresi berdistribusi normal, maka estimasi koefisien juga berdistribusi normal dan dapat dicirikan oleh mean dan variansnya. Oleh karena itu, analisis koefisien dimulai dengan perhitungan karakteristik tersebut.

Varians koefisien dihitung dengan rumus:

Varian dari koefisien regresi:

di mana adalah dispersi residual per satu derajat kebebasan.

Dispersi parameter:

Oleh karena itu, kesalahan standar koefisien regresi ditentukan oleh rumus:

Kesalahan standar parameter ditentukan oleh rumus:

Mereka berfungsi untuk menguji hipotesis nol bahwa nilai sebenarnya dari koefisien regresi b atau mencegat a adalah nol: .

Hipotesis alternatif berbentuk: .

t-statistik memiliki distribusi t-student dengan derajat kebebasan. Menurut tabel distribusi Student, pada tingkat signifikansi b dan derajat kebebasan tertentu, ditemukan nilai kritis.

Jika, kemudian, hipotesis nol harus ditolak, koefisien dianggap signifikan secara statistik.

Jika, maka hipotesis nol tidak dapat ditolak. (Jika koefisien b secara statistik tidak signifikan, persamaan akan terlihat seperti ini, dan ini berarti bahwa tidak ada hubungan antara fitur. Jika koefisien a secara statistik tidak signifikan, disarankan untuk mengevaluasi persamaan baru dalam bentuk).

Estimasi interval koefisien persamaan regresi linier:

Interval kepercayaan untuk sebuah: .

Interval kepercayaan untuk b:

Ini berarti bahwa dengan keandalan yang diberikan (di mana adalah tingkat signifikansi), nilai sebenarnya dari a, b berada dalam interval yang ditunjukkan.

Koefisien regresi memiliki interpretasi ekonomi yang jelas, sehingga batas kepercayaan interval tidak boleh mengandung hasil yang tidak konsisten, misalnya, tidak boleh menyertakan nol.

Analisis signifikansi statistik persamaan secara keseluruhan.

Distribusi Fisher dalam analisis regresi

Penilaian signifikansi persamaan regresi secara keseluruhan diberikan dengan menggunakan uji F Fisher. Dalam hal ini, hipotesis nol diajukan bahwa semua koefisien regresi, kecuali suku bebas a, sama dengan nol dan, oleh karena itu, faktor x tidak mempengaruhi hasil y (atau).

Nilai F - kriteria dikaitkan dengan koefisien determinasi. Kapan regresi berganda:

di mana m adalah jumlah variabel bebas.

Kapan regresi berpasangan rumus F - statistik berbentuk:

Saat menemukan nilai tabular dari kriteria-F, tingkat signifikansi ditetapkan (biasanya 0,05 atau 0,01) dan dua derajat kebebasan: - dalam kasus regresi berganda, - untuk regresi berpasangan.

Jika, maka ditolak dan kesimpulan dibuat tentang signifikansi hubungan statistik antara y dan x.

Jika, maka probabilitas persamaan regresi yang dianggap tidak signifikan secara statistik tidak ditolak.

Komentar. Dalam regresi linier berpasangan. Juga, oleh karena itu. Dengan demikian, pengujian hipotesis tentang signifikansi regresi dan koefisien korelasi setara dengan pengujian hipotesis tentang signifikansi persamaan regresi linier.

Distribusi Fisher dapat digunakan tidak hanya untuk menguji hipotesis bahwa semua koefisien regresi linier secara simultan sama dengan nol, tetapi juga hipotesis bahwa beberapa koefisien ini sama dengan nol. Ini penting dalam pengembangan model regresi linier, karena memungkinkan penilaian validitas dengan mengecualikan variabel individu atau kelompoknya dari jumlah variabel penjelas, atau, sebaliknya, memasukkannya ke dalam jumlah ini.

Misalnya, regresi linier berganda pertama kali diperkirakan untuk n pengamatan dengan m variabel penjelas, dan koefisien determinasinya sama, kemudian k variabel terakhir dikeluarkan dari daftar variabel penjelas, dan persamaan yang koefisien penentuannya adalah (, karena (setiap variabel tambahan menjelaskan sebagian, betapapun kecilnya, variasi dalam variabel terikat).

Untuk menguji hipotesis tentang kesetaraan simultan ke nol dari semua koefisien dengan variabel yang dikecualikan, nilainya dihitung

yang memiliki distribusi Fisher dengan derajat kebebasan.

Menurut tabel distribusi Fisher, pada tingkat signifikansi tertentu, mereka menemukan. Dan jika, maka hipotesis nol ditolak. Dalam hal ini, tidak benar untuk mengecualikan semua k variabel dari persamaan.

Penalaran serupa dapat dilakukan tentang validitas termasuk satu atau lebih k variabel penjelas baru dalam persamaan regresi.

Dalam hal ini, F dihitung - statistik

memiliki distribusi. Dan jika melebihi tingkat kritis, maka dimasukkannya variabel baru menjelaskan bagian signifikan dari varians variabel dependen yang sebelumnya tidak dapat dijelaskan (yaitu, dimasukkannya variabel penjelas baru dibenarkan).

Perkataan. 1. Disarankan untuk memasukkan variabel baru satu per satu.

2. Untuk menghitung F - statistik, ketika mempertimbangkan dimasukkannya variabel penjelas dalam persamaan, diinginkan untuk mempertimbangkan koefisien determinasi yang disesuaikan dengan jumlah derajat kebebasan.

F - Statistik Fisher juga digunakan untuk menguji hipotesis tentang kebetulan persamaan regresi untuk masing-masing kelompok pengamatan.

Misalkan ada 2 sampel yang masing-masing mengandung observasi. Untuk masing-masing sampel ini, persamaan regresi spesies dievaluasi. Biarkan standar deviasi dari garis regresi (yaitu) sama untuk mereka, masing-masing, .

Hipotesis nol diuji: bahwa semua koefisien yang sesuai dari persamaan ini sama satu sama lain, mis. persamaan regresi untuk sampel ini adalah sama.

Biarkan persamaan regresi dari jenis yang sama diestimasi untuk semua pengamatan sekaligus, dan RMS.

Kemudian F dihitung - statistik sesuai dengan rumus:

Ini memiliki distribusi Fisher dengan derajat kebebasan. F - statistik akan mendekati nol jika persamaan untuk kedua sampel sama, karena pada kasus ini. Itu. jika, maka hipotesis nol diterima.

Jika, maka hipotesis nol ditolak, dan persamaan regresi tunggal tidak dapat dibangun.

Setelah mengevaluasi parameter sebuah dan b, kami telah memperoleh persamaan regresi yang dengannya kami dapat memperkirakan nilai kamu dengan nilai yang ditetapkan x. Wajar untuk mengasumsikan bahwa nilai yang dihitung dari variabel dependen tidak akan sesuai dengan nilai sebenarnya, karena garis regresi hanya menggambarkan hubungan rata-rata, secara umum. Makna yang terpisah tersebar di sekitarnya. Dengan demikian, keandalan nilai-nilai yang dihitung yang diperoleh dari persamaan regresi sangat ditentukan oleh penyebaran nilai-nilai yang diamati di sekitar garis regresi. Dalam prakteknya, sebagai aturan, varians kesalahan tidak diketahui dan diperkirakan dari pengamatan secara bersamaan dengan parameter regresi. sebuah dan b. Cukup logis untuk mengasumsikan bahwa estimasi terkait dengan jumlah kuadrat dari residual regresi. Kuantitas adalah perkiraan sampel dari varians gangguan yang terkandung dalam model teoritis . Dapat ditunjukkan bahwa untuk model regresi berpasangan

di mana adalah deviasi nilai sebenarnya dari variabel dependen dari nilai yang dihitung.

Jika sebuah , maka untuk semua pengamatan, nilai sebenarnya dari variabel terikat bertepatan dengan nilai yang dihitung (teoretis) . Secara grafis, ini berarti bahwa garis regresi teoretis (garis yang dibangun dari fungsi ) melewati semua titik bidang korelasi, yang hanya mungkin dengan koneksi fungsional yang ketat. Oleh karena itu, tanda efektif pada sepenuhnya karena pengaruh faktor X.

Biasanya, dalam praktiknya, ada beberapa dispersi titik-titik bidang korelasi relatif terhadap garis regresi teoritis, yaitu penyimpangan data empiris dari yang teoritis. Hamburan ini disebabkan oleh kedua pengaruh faktor X, yaitu regresi kamu pada X, (varians seperti itu disebut dijelaskan, karena dijelaskan oleh persamaan regresi), dan tindakan penyebab lain (variasi yang tidak dapat dijelaskan, acak). Besarnya penyimpangan tersebut mendasari perhitungan indikator kualitas persamaan.

Menurut prinsip dasar analisis varians, jumlah total deviasi kuadrat dari variabel dependen kamu dari nilai rata-rata dapat diuraikan menjadi dua komponen: dijelaskan oleh persamaan regresi dan tidak dijelaskan:

,

dimana - nilai kamu, dihitung dengan persamaan .

Mari kita cari rasio jumlah deviasi kuadrat, dijelaskan oleh persamaan regresi, dengan jumlah total kuadrat:

, di mana

. (7.6)

Rasio bagian varians yang dijelaskan oleh persamaan regresi dengan varians total fitur yang dihasilkan disebut koefisien determinasi. Nilai tidak boleh melebihi satu dan nilai maksimum ini hanya akan dicapai pada , yaitu. ketika setiap penyimpangan adalah nol dan oleh karena itu semua titik sebar terletak tepat pada garis lurus.

Koefisien determinasi mencirikan bagian varians yang dijelaskan oleh regresi dalam nilai total varians variabel dependen . Dengan demikian, nilai mencirikan proporsi variasi (dispersi) y, dijelaskan oleh persamaan regresi, dan karena itu disebabkan oleh pengaruh faktor lain yang tidak diperhitungkan dalam model. Semakin mendekati satu, semakin tinggi kualitas modelnya.



Dengan regresi linier berpasangan, koefisien determinasi sama dengan kuadrat dari koefisien korelasi linier berpasangan: .

Akar dari koefisien determinasi ini adalah koefisien (indeks) korelasi berganda, atau rasio korelasi teoritis.

Untuk mengetahui apakah nilai koefisien determinasi yang diperoleh selama evaluasi regresi benar-benar mencerminkan hubungan yang sebenarnya antara kamu dan x periksa signifikansi persamaan yang dibangun secara keseluruhan dan parameter individu. Pengujian signifikansi persamaan regresi memungkinkan Anda untuk mengetahui apakah persamaan regresi cocok untuk penggunaan praktis, misalnya untuk peramalan atau tidak.

Pada saat yang sama, hipotesis utama diajukan tentang ketidakpentingan persamaan secara keseluruhan, yang secara formal direduksi menjadi hipotesis bahwa parameter regresi sama dengan nol, atau, yang sama, bahwa koefisien determinasi sama ke nol: . Hipotesis alternatif tentang signifikansi persamaan adalah hipotesis bahwa parameter regresi tidak sama dengan nol atau bahwa koefisien determinasi tidak sama dengan nol: .

Untuk menguji signifikansi model regresi, gunakan F- Kriteria Fisher, dihitung sebagai rasio jumlah kuadrat (per satu variabel independen) dengan jumlah sisa kuadrat (per satu derajat kebebasan):

, (7.7)

di mana k adalah jumlah variabel bebas.

Setelah membagi pembilang dan penyebut hubungan (7.7) dengan jumlah total deviasi kuadrat dari variabel dependen, F- Kriteria dapat secara ekuivalen dinyatakan dalam koefisien :

.

Jika hipotesis nol benar, maka varians yang dijelaskan oleh persamaan regresi dan varians yang tidak dapat dijelaskan (residual) tidak berbeda satu sama lain.

Nilai perkiraan F- kriteria dibandingkan dengan nilai kritis yang bergantung pada jumlah variabel bebas k, dan pada jumlah derajat kebebasan (n-k-1). Tabel (kritis) nilai F- kriteria - ini adalah nilai maksimum rasio varians, yang dapat terjadi jika mereka menyimpang secara acak untuk tingkat probabilitas tertentu dari keberadaan hipotesis nol. Jika dihitung nilai F- kriteria lebih besar dari yang tabel pada tingkat signifikansi yang diberikan, maka hipotesis nol tentang tidak adanya koneksi ditolak dan kesimpulan dibuat tentang signifikansi koneksi ini, yaitu. model dianggap signifikan.

Untuk model regresi berpasangan

.

Dalam regresi linier, signifikansi tidak hanya persamaan secara keseluruhan, tetapi juga koefisien individualnya biasanya diperkirakan. Untuk melakukan ini, kesalahan standar dari masing-masing parameter ditentukan. Kesalahan standar koefisien regresi parameter ditentukan oleh rumus:

, (7.8)

(7.9)

Kesalahan standar koefisien regresi atau standar deviasi yang dihitung dengan rumus (7.8,7.9), sebagai aturan, diberikan dalam hasil perhitungan model regresi dalam paket statistik.

Berdasarkan kesalahan kuadrat rata-rata dari koefisien regresi, signifikansi koefisien ini diperiksa menggunakan skema biasa untuk menguji hipotesis statistik.

Sebagai hipotesis utama, diajukan suatu hipotesis tentang perbedaan tidak signifikan dari nol pada koefisien regresi yang “sebenarnya”. Hipotesis alternatif dalam hal ini adalah hipotesis terbalik, yaitu tentang ketidaksamaan parameter regresi “benar” menjadi nol. Hipotesis ini diuji dengan menggunakan t- statistik yang memiliki t-Distribusi siswa:

Kemudian nilai yang dihitung t- statistik dibandingkan dengan nilai kritis t- statistik ditentukan dari tabel distribusi Student. Nilai kritis ditentukan tergantung pada tingkat signifikansi α dan jumlah derajat kebebasan, yaitu (n-k-1), n ​​- jumlah pengamatan k- jumlah variabel bebas. Dalam kasus regresi linier berpasangan, jumlah derajat kebebasannya adalah (P- 2). Nilai kritis juga dapat dihitung di komputer menggunakan fungsi STUDISP bawaan Excel.

Jika dihitung nilai t- statistik lebih besar dari kritis, maka hipotesis utama ditolak dan diyakini bahwa dengan probabilitas (1-α) Koefisien regresi "benar" secara signifikan berbeda dari nol, yang merupakan konfirmasi statistik tentang adanya ketergantungan linier dari variabel yang sesuai.

Jika dihitung nilai t- statistik kurang dari kritis, maka tidak ada alasan untuk menolak hipotesis utama, yaitu koefisien regresi “benar” tidak berbeda nyata dengan nol pada tingkat signifikansi α . Dalam hal ini, faktor yang sesuai dengan koefisien ini harus dikeluarkan dari model.

Signifikansi koefisien regresi dapat ditentukan dengan membangun interval kepercayaan. Interval kepercayaan untuk parameter regresi sebuah dan b didefinisikan sebagai berikut:

,

,

dimana ditentukan dari tabel distribusi Student untuk tingkat signifikansi α dan jumlah derajat kebebasan (P- 2) untuk regresi berpasangan.

Karena koefisien regresi dalam studi ekonometrik memiliki interpretasi ekonomi yang jelas, interval kepercayaan tidak boleh mengandung nol. Nilai sebenarnya dari koefisien regresi tidak dapat secara bersamaan berisi nilai positif dan negatif, termasuk nol, jika tidak, kita mendapatkan hasil yang kontradiktif dalam interpretasi ekonomi dari koefisien, yang tidak mungkin. Dengan demikian, koefisien tersebut signifikan jika selang kepercayaan yang diperoleh tidak menutupi nol.

Contoh 7.4. Menurut contoh 7.1:

a) Membangun model regresi linier berpasangan ketergantungan laba dari penjualan terhadap harga jual menggunakan perangkat lunak pengolah data.

b) Nilai signifikansi persamaan regresi secara keseluruhan, dengan menggunakan F- Kriteria Fisher pada = 0,05.

c) Nilai signifikansi koefisien model regresi menggunakan t-Kriteria siswa untuk =0,05 dan = 0,1.

Untuk analisis regresi kami menggunakan program perkantoran standar EXCEL. Kami akan membangun model regresi menggunakan alat REGRESSION dari pengaturan ANALYSIS PACKAGE (Gbr. 7.5), yang diluncurkan sebagai berikut:

Analisis ServiceDataREGRESSIONOK.

Gambar 7.5. Menggunakan alat REGRESI

Di kotak dialog REGRESSION, di bidang Input interval Y, masukkan alamat rentang sel yang berisi variabel dependen. Di bidang Input interval X, masukkan alamat dari satu atau lebih rentang yang berisi nilai variabel independen. Label di kotak centang baris pertama disetel ke status aktif jika judul kolom juga dipilih. pada gambar. 7.6. bentuk layar penghitungan model regresi menggunakan alat REGRESSION ditampilkan.

Beras. 7.6. Membangun model regresi berpasangan menggunakan

Alat REGRESI

Sebagai hasil dari pengoperasian alat REGRESSION, protokol analisis regresi berikut terbentuk (Gbr. 7.7).

Beras. 7.7. Protokol analisis regresi

Persamaan ketergantungan laba dari penjualan pada harga jual memiliki bentuk:

Kami akan memperkirakan signifikansi persamaan regresi menggunakan F- kriteria Fisher. Berarti F- Kriteria Fisher diambil dari tabel "Analisis varians" dari protokol EXCEL (Gbr. 7.7.). Nilai perkiraan F- kriteria 53.372. Nilai tabel F- kriteria pada tingkat signifikansi =0,05 dan jumlah derajat kebebasan adalah 4,964. Sebagai , maka persamaan tersebut dianggap signifikan.

Nilai perkiraan t-Kriteria siswa untuk koefisien persamaan regresi diberikan dalam tabel yang dihasilkan (Gbr. 7.7). Nilai tabel t-Tes siswa pada tingkat signifikansi =0,05 dan 10 derajat kebebasan adalah 2.228. Untuk koefisien regresi sebuah, maka koefisien sebuah tidak signifikan. Untuk koefisien regresi b, oleh karena itu, koefisien b penting.

TOPIK 4. METODE STATISTIK UNTUK BELAJAR HUBUNGAN

Persamaan Regresi - ini adalah representasi analitis dari ketergantungan korelasi. Persamaan regresi menggambarkan hubungan fungsional hipotetis antara nilai rata-rata bersyarat dari atribut efektif dan nilai atribut - faktor (faktor), yaitu. tren kecanduan yang mendasarinya.

Ketergantungan korelasi pasangan dijelaskan oleh persamaan regresi berpasangan, ketergantungan korelasi ganda - oleh persamaan regresi berganda.

Atribut hasil dalam persamaan regresi adalah variabel terikat (respon, variabel yang dijelaskan), dan faktor atribut adalah variabel bebas (argumen, variabel penjelas).

Jenis persamaan regresi yang paling sederhana adalah persamaan hubungan linier berpasangan:

dimana y adalah variabel terikat (tanda-hasil); x adalah variabel bebas (faktor tanda); dan merupakan parameter persamaan regresi; - Kesalahan estimasi.

Berbagai fungsi matematika dapat digunakan sebagai persamaan regresi. Persamaan ketergantungan linier, parabola, hiperbola, fungsi stepa, dll sering menemukan aplikasi praktis.

Sebagai aturan, analisis dimulai dengan hubungan linier, karena hasilnya mudah ditafsirkan secara bermakna. Pilihan jenis persamaan kendala merupakan langkah yang agak penting dalam analisis. Di era "pra-komputer", prosedur ini dikaitkan dengan kesulitan tertentu dan mengharuskan analis untuk mengetahui sifat-sifat fungsi matematika. Saat ini, berdasarkan program khusus, dimungkinkan untuk dengan cepat membangun satu set persamaan komunikasi dan, berdasarkan kriteria formal, memilih model terbaik (namun, literasi matematika seorang analis tidak kehilangan relevansinya).

Hipotesis tentang jenis ketergantungan korelasi dapat diajukan berdasarkan hasil konstruksi bidang korelasi (lihat kuliah 6). Berdasarkan sifat lokasi titik-titik pada grafik (koordinat titik-titik sesuai dengan nilai-nilai variabel dependen dan independen), tren hubungan antara tanda-tanda (indikator) terungkap. Jika garis regresi melewati semua titik bidang korelasi, maka hal ini menunjukkan adanya hubungan fungsional. Dalam praktik penelitian sosial ekonomi, gambaran seperti itu tidak dapat diamati, karena ada ketergantungan (korelasi) statistik. Di bawah kondisi ketergantungan korelasi, ketika menggambar garis regresi pada sebar, penyimpangan titik-titik bidang korelasi dari garis regresi diamati, yang menunjukkan apa yang disebut residual atau kesalahan estimasi (lihat Gambar 7.1).

Kehadiran kesalahan persamaan disebabkan oleh fakta bahwa:

tidak semua faktor yang mempengaruhi hasil diperhitungkan dalam persamaan regresi;

bentuk koneksi mungkin salah dipilih - persamaan regresi;

Tidak semua faktor termasuk dalam persamaan.

Membuat persamaan regresi berarti menghitung nilai parameternya. Persamaan regresi dibangun berdasarkan nilai sebenarnya dari fitur yang dianalisis. Perhitungan parameter biasanya dilakukan dengan menggunakan metode kuadrat terkecil (LSM).

Inti dari MNC adalah mungkin untuk memperoleh nilai parameter persamaan seperti itu, di mana jumlah deviasi kuadrat dari nilai teoretis dari hasil atribut (dihitung berdasarkan persamaan regresi) dari yang sebenarnya nilai diminimalkan:

,

di mana - nilai sebenarnya dari hasil tanda unit ke-i dari populasi; - nilai hasil tanda unit ke-i dari populasi, diperoleh dengan persamaan regresi ().

Dengan demikian, masalah diselesaikan untuk ekstrem, yaitu, perlu untuk menemukan pada nilai parameter apa, fungsi S mencapai minimum.

Melakukan diferensiasi, menyamakan turunan parsial dengan nol:



, (7.3)

, (7.4)

di mana adalah produk rata-rata dari faktor dan nilai hasil; - nilai rata-rata dari tanda - faktor; - nilai rata-rata hasil tanda; - varians dari faktor tanda.

Parameter dalam persamaan regresi mencirikan kemiringan garis regresi pada grafik. Opsi ini disebut koefisien regresi dan nilainya dicirikan oleh berapa banyak unit pengukurannya, hasil tanda akan berubah ketika faktor tanda berubah oleh unit pengukurannya. Tanda koefisien regresi mencerminkan arah ketergantungan (langsung atau terbalik) dan bertepatan dengan tanda koefisien korelasi (dalam kondisi ketergantungan berpasangan).

Dalam kerangka contoh yang dipertimbangkan, program STATISTICA menghitung parameter persamaan regresi yang menggambarkan hubungan antara tingkat pendapatan moneter rata-rata per kapita penduduk dan nilai produk regional bruto per kapita di wilayah Rusia , lihat Tabel 7.1.

Tabel 7.1 - Perhitungan dan evaluasi parameter persamaan yang menggambarkan hubungan antara tingkat pendapatan tunai rata-rata per kapita penduduk dan nilai produk regional bruto per kapita di wilayah Rusia, 2013

Kolom “B” dari tabel tersebut memuat nilai parameter persamaan regresi berpasangan, sehingga dapat kita tuliskan: = 13406,89 + 22,82 x Persamaan ini menggambarkan kecenderungan hubungan antara karakteristik yang dianalisis. Parameternya adalah koefisien regresi. Dalam hal ini, itu sama dengan 22,82 dan mencirikan sebagai berikut: dengan peningkatan GRP per kapita sebesar 1 ribu rubel, pendapatan tunai rata-rata per kapita meningkat rata-rata (seperti yang ditunjukkan oleh tanda "+") sebesar 22,28 rubel.

Parameter persamaan regresi dalam studi sosial-ekonomi, sebagai suatu peraturan, tidak ditafsirkan secara bermakna. Secara formal, ini mencerminkan nilai tanda - hasil, asalkan faktor tanda sama dengan nol. Parameter mencirikan lokasi garis regresi pada grafik, lihat Gambar 7.1.

Gambar 7.1 - Bidang korelasi dan garis regresi, yang mencerminkan ketergantungan tingkat pendapatan moneter rata-rata per kapita penduduk di wilayah Rusia dan nilai GRP per kapita

Nilai parameter sesuai dengan titik potong garis regresi dengan sumbu Y, pada X=0.

Konstruksi persamaan regresi disertai dengan penilaian signifikansi statistik persamaan secara keseluruhan dan parameternya. Kebutuhan akan prosedur tersebut dikaitkan dengan jumlah data yang terbatas, yang dapat mencegah pengoperasian hukum bilangan besar dan, oleh karena itu, identifikasi tren yang sebenarnya dalam hubungan indikator yang dianalisis. Selain itu, setiap populasi yang diteliti dapat dianggap sebagai sampel dari populasi umum, dan karakteristik yang diperoleh selama analisis sebagai perkiraan parameter umum.

Penilaian signifikansi statistik dari parameter dan persamaan secara keseluruhan adalah pembuktian kemungkinan menggunakan model komunikasi yang dibangun untuk membuat keputusan manajerial dan peramalan (pemodelan).

Signifikansi Statistik Persamaan Regresi secara umum diperkirakan menggunakan Fisher F-test, yang merupakan rasio varians faktorial dan residual yang dihitung untuk satu derajat kebebasan:

di mana - faktor varians fitur - hasil; k adalah jumlah derajat kebebasan dispersi faktorial (jumlah faktor dalam persamaan regresi); - nilai rata-rata dari variabel terikat; - nilai teoritis (diperoleh dengan persamaan regresi) variabel dependen untuk unit populasi ke-i; - varians residual dari tanda - hasil; n adalah volume populasi; n-k-1 adalah jumlah derajat kebebasan dispersi residual.

Nilai Fisher's F-test, menurut rumus, mencirikan rasio antara faktor dan varians residual dari variabel dependen, menunjukkan, pada dasarnya, berapa kali nilai bagian variasi yang dijelaskan melebihi yang tidak dijelaskan.

Uji F Fisher ditabulasikan, input ke tabel adalah jumlah derajat kebebasan varians faktorial dan residual. Perbandingan nilai kriteria yang dihitung dengan tabel (kritis) memungkinkan menjawab pertanyaan: apakah bagian dari variasi hasil sifat yang dapat dijelaskan oleh faktor-faktor yang termasuk dalam persamaan jenis ini signifikan secara statistik? Jika sebuah , maka persamaan regresi diakui signifikan secara statistik dan, oleh karena itu, koefisien determinasi juga signifikan secara statistik. Sebaliknya ( ), persamaan tersebut secara statistik tidak signifikan, yaitu. variasi faktor yang diperhitungkan dalam persamaan tidak menjelaskan bagian yang signifikan secara statistik dari variasi hasil sifat, atau persamaan hubungan tidak dipilih dengan benar.

Estimasi signifikansi statistik dari parameter persamaan dilakukan atas dasar t-statistik, yang dihitung sebagai rasio nilai absolut parameter persamaan regresi dengan kesalahan standarnya ( ):

, di mana ; (7.6)

, di mana ; (7.7)

di mana - standar deviasi dari tanda - faktor dan tanda - hasil; - koefisien determinasi.

Dalam program statistik khusus, penghitungan parameter selalu disertai dengan penghitungan galat standar (root mean square) dan statistik-t (lihat Tabel 7.1). Nilai t-statistik yang dihitung dibandingkan dengan tabel, jika volume populasi yang diteliti kurang dari 30 satuan (pasti sampel kecil), harus merujuk ke tabel distribusi-t Student, jika volume populasi besar , seseorang harus menggunakan tabel distribusi normal (integral probabilitas Laplace). Parameter persamaan dianggap signifikan secara statistik jika.

Estimasi parameter berdasarkan t-statistik pada dasarnya adalah pengujian hipotesis nol tentang persamaan parameter umum dengan nol (H 0: =0; H 0: =0;), yaitu tentang suatu variabel yang secara statistik tidak signifikan. nilai parameter persamaan regresi. Tingkat signifikansi hipotesis, sebagai suatu peraturan, diambil: = 0,05. Jika tingkat signifikansi yang dihitung kurang dari 0,05, maka hipotesis nol ditolak dan alternatif diterima - tentang signifikansi statistik parameter.

Mari kita lanjutkan dengan contoh. Tabel 7.1 di kolom "B" menunjukkan nilai parameter, di kolom Std.Err.ofB - nilai kesalahan standar parameter ( ), di kolom t (77 - jumlah derajat kebebasan) nilai t - statistik dihitung dengan mempertimbangkan jumlah derajat kebebasan. Untuk menilai signifikansi statistik parameter, nilai t-statistik yang dihitung harus dibandingkan dengan nilai tabel. Tingkat signifikansi yang diberikan (0,05) dalam tabel distribusi normal sesuai dengan t = 1,96. Sejak 18.02, 10.84, mis. , seseorang harus mengenali signifikansi statistik dari nilai parameter yang diperoleh, yaitu nilai-nilai ini terbentuk di bawah pengaruh faktor non-acak dan mencerminkan tren hubungan antara indikator yang dianalisis.

Untuk menilai signifikansi statistik persamaan secara keseluruhan, kita beralih ke nilai uji F Fisher (lihat Tabel 7.1). Nilai kriteria-F yang dihitung = 117,51, nilai tabular kriteria, berdasarkan jumlah derajat kebebasan yang sesuai (untuk varians faktor d.f. =1, untuk varians residual d.f. =77), adalah 4,00 (lihat Lampiran .. .. .). Dengan demikian, , oleh karena itu, persamaan regresi secara keseluruhan signifikan secara statistik. Dalam situasi seperti itu, kita juga dapat berbicara tentang signifikansi statistik dari nilai koefisien determinasi, yaitu. Variasi 60 persen dalam pendapatan per kapita rata-rata penduduk di wilayah Rusia dapat dijelaskan oleh variasi volume produk regional bruto per kapita.

Dengan menilai signifikansi statistik dari persamaan regresi dan parameternya, kita bisa mendapatkan kombinasi hasil yang berbeda.

· Persamaan dengan uji-F signifikan secara statistik dan semua parameter persamaan dengan statistik-t juga signifikan secara statistik. Persamaan ini dapat digunakan baik untuk membuat keputusan manajerial (faktor mana yang harus dipengaruhi untuk mendapatkan hasil yang diinginkan), dan untuk memprediksi perilaku atribut hasil untuk nilai faktor tertentu.

· Menurut kriteria-F, persamaan signifikan secara statistik, tetapi parameter (parameter) persamaan tidak signifikan. Persamaan tersebut dapat digunakan untuk membuat keputusan manajemen (mengenai faktor-faktor yang signifikansi statistik pengaruhnya telah dikonfirmasi), tetapi persamaan tersebut tidak dapat digunakan untuk peramalan.

· Persamaan uji-F tidak signifikan secara statistik. Persamaan tidak dapat digunakan. Pencarian faktor tanda yang signifikan atau bentuk analitis dari hubungan antara argumen dan respons harus dilanjutkan.

Jika signifikansi statistik dari persamaan dan parameternya dikonfirmasi, maka apa yang disebut ramalan titik dapat diimplementasikan, yaitu. estimasi nilai atribut-hasil (y) diperoleh untuk nilai faktor (x) tertentu.

Cukup jelas bahwa nilai prediksi variabel dependen, yang dihitung berdasarkan persamaan relasi, tidak akan sesuai dengan nilai sebenarnya ( ). Secara grafis, situasi ini dikonfirmasi oleh fakta bahwa tidak semua titik bidang korelasi terletak pada garis regresi, hanya dengan koneksi fungsional garis regresi akan melewati semua titik diagram pencar. Adanya perbedaan antara nilai aktual dan teoritis dari variabel dependen terutama disebabkan oleh esensi dari ketergantungan korelasi: pada saat yang sama, banyak faktor mempengaruhi hasil, yang hanya sebagian yang dapat diperhitungkan dalam persamaan hubungan tertentu. Selain itu, bentuk hubungan antara hasil dan faktor (jenis persamaan regresi) mungkin salah dipilih. Dalam hal ini, muncul pertanyaan tentang seberapa informatif persamaan kendala yang dibangun. Pertanyaan ini dijawab oleh dua indikator: koefisien determinasi (telah dibahas di atas) dan kesalahan standar pendugaan.

Selisih antara nilai aktual dan teoritis dari variabel terikat disebut penyimpangan atau kesalahan, atau sisa. Berdasarkan nilai-nilai ini, varians residual dihitung. Akar kuadrat dari varians residual adalah kesalahan estimasi root-mean-square (standar):

= (7.8)

Kesalahan standar persamaan diukur dalam satuan yang sama dengan laju yang diprediksi. Jika kesalahan persamaan mengikuti distribusi normal (dengan jumlah data yang besar), maka 95 persen dari nilai harus dari garis regresi pada jarak tidak melebihi 2S (berdasarkan sifat distribusi normal - aturan dari tiga sigma). Nilai kesalahan standar estimasi digunakan dalam perhitungan interval kepercayaan ketika memprediksi nilai tanda - hasil untuk unit populasi tertentu.

Dalam penelitian praktis, sering kali menjadi perlu untuk memprediksi nilai rata-rata dari sebuah fitur - hasil untuk nilai tertentu dari fitur - faktor. Dalam hal ini, dalam perhitungan interval kepercayaan untuk nilai rata-rata dari variabel dependen()

nilai kesalahan rata-rata diperhitungkan:

(7.9)

Penggunaan nilai kesalahan yang berbeda dijelaskan oleh fakta bahwa variabilitas tingkat indikator untuk unit tertentu dari populasi jauh lebih tinggi daripada variabilitas nilai rata-rata, oleh karena itu, kesalahan perkiraan nilai rata-rata lebih kecil.

Interval keyakinan peramalan nilai rata-rata variabel dependen:

, (7.10)

di mana - kesalahan estimasi marginal (lihat teori sampling); t adalah koefisien kepercayaan, yang nilainya ada dalam tabel yang sesuai, berdasarkan tingkat probabilitas yang diadopsi oleh peneliti (jumlah derajat kebebasan) (lihat teori pengambilan sampel).

Interval kepercayaan untuk nilai prediksi dari atribut hasil juga dapat dihitung dengan mempertimbangkan koreksi untuk pergeseran (pergeseran) garis regresi. Nilai faktor koreksi ditentukan oleh:

(7.11)

dimana adalah nilai dari atribut-faktor, berdasarkan mana nilai dari atribut-hasil diprediksi.

Oleh karena itu, semakin banyak nilai yang berbeda dari nilai rata-rata faktor atribut, semakin besar nilai faktor koreksi, semakin besar kesalahan peramalan. Dengan koefisien ini, interval kepercayaan ramalan akan dihitung:

Keakuratan ramalan berdasarkan persamaan regresi dapat dipengaruhi oleh berbagai alasan. Pertama-tama, harus diperhitungkan bahwa evaluasi kualitas persamaan dan parameternya didasarkan pada asumsi distribusi normal dari residu acak. Pelanggaran asumsi ini mungkin disebabkan oleh adanya nilai yang sangat berbeda dalam data, dengan variasi yang tidak seragam, dengan adanya hubungan non-linier. Dalam hal ini, kualitas ramalan berkurang. Poin kedua yang perlu diingat adalah bahwa nilai faktor yang diperhitungkan saat memprediksi hasil tidak boleh melampaui rentang variasi data tempat persamaan dibuat.

©2015-2019 situs
Semua hak milik penulisnya. Situs ini tidak mengklaim kepengarangan, tetapi menyediakan penggunaan gratis.
Tanggal pembuatan halaman: 2018-01-08

Dalam penelitian sosio-ekonomi, seseorang seringkali harus bekerja dalam populasi yang terbatas, atau dengan data yang selektif. Oleh karena itu, setelah parameter matematika dari persamaan regresi, perlu untuk mengevaluasi mereka dan persamaan secara keseluruhan untuk signifikansi statistik, yaitu. perlu untuk memastikan bahwa persamaan yang dihasilkan dan parameternya terbentuk di bawah pengaruh faktor non-acak.

Pertama-tama, signifikansi statistik dari persamaan secara keseluruhan dievaluasi. Evaluasi biasanya dilakukan dengan menggunakan uji F Fisher. Perhitungan kriteria-F didasarkan pada aturan penambahan varians. Yaitu, hasil tanda varians umum = varians faktor + varians residual.

harga sebenarnya

Harga teoretis
Setelah membangun persamaan regresi, dimungkinkan untuk menghitung nilai teoretis dari hasil tanda, yaitu. dihitung dengan persamaan regresi dengan mempertimbangkan parameternya.

Nilai-nilai ini akan mencirikan hasil tanda yang terbentuk di bawah pengaruh faktor-faktor yang termasuk dalam analisis.

Selalu ada perbedaan (sisa) antara nilai sebenarnya dari atribut hasil dan yang dihitung berdasarkan persamaan regresi, karena pengaruh faktor lain yang tidak termasuk dalam analisis.

Selisih antara nilai teoritis dan nilai aktual dari atribut-hasil disebut residual. Variasi umum dari hasil-sifat:

Variasi sifat-hasil, karena variasi sifat-sifat faktor yang termasuk dalam analisis, diperkirakan melalui perbandingan nilai teoritis hasil. fitur dan nilai rata-ratanya. Variasi residual melalui perbandingan nilai teoretis dan aktual dari fitur yang dihasilkan. Varians total , residual dan aktual memiliki jumlah derajat kebebasan yang berbeda.

umum, P- jumlah unit dalam populasi yang diteliti

sebenarnya, P- jumlah faktor yang termasuk dalam analisis

Sisa

Uji F Fisher dihitung sebagai rasio terhadap , dan dihitung untuk satu derajat kebebasan.

Penggunaan uji F Fisher sebagai penduga signifikansi statistik dari persamaan regresi sangat logis. adalah hasilnya. sifat, karena faktor-faktor yang termasuk dalam analisis, yaitu ini adalah proporsi dari hasil yang dijelaskan. tanda. - ini adalah (variasi) dari tanda hasil karena faktor-faktor yang pengaruhnya tidak diperhitungkan, mis. tidak termasuk dalam analisis.

Itu. F-kriteria dirancang untuk mengevaluasi penting kelebihan atas. Jika tidak signifikan lebih rendah dari , dan terlebih lagi jika melebihi , oleh karena itu, analisis tidak memasukkan faktor-faktor yang benar-benar mempengaruhi atribut hasil.

Uji F Fisher ditabulasi, nilai sebenarnya dibandingkan dengan tabel. Jika , maka persamaan regresi dianggap signifikan secara statistik. Sebaliknya, jika persamaan tersebut tidak signifikan secara statistik dan tidak dapat digunakan dalam praktik, signifikansi persamaan secara keseluruhan menunjukkan signifikansi statistik dari indikator korelasi.

Setelah mengevaluasi persamaan secara keseluruhan, perlu untuk mengevaluasi signifikansi statistik dari parameter persamaan. Estimasi ini dibuat dengan menggunakan Student's t-statistics. Statistik-t dihitung sebagai rasio parameter persamaan (modulo) dengan kesalahan kuadrat rata-rata standarnya. Jika model satu faktor dievaluasi, maka 2 statistik dihitung.

Di semua program komputer, perhitungan kesalahan standar dan t-statistik untuk parameter dilakukan dengan perhitungan parameter itu sendiri. T-statistik ditabulasi. Jika nilainya , maka parameter tersebut dianggap signifikan secara statistik, yaitu terbentuk di bawah pengaruh faktor non-acak.

Menghitung t-statistik pada dasarnya berarti menguji hipotesis nol bahwa parameternya tidak signifikan, yaitu. persamaannya menjadi nol. Dengan model satu faktor, 2 hipotesis dievaluasi: dan

Tingkat signifikansi penerimaan hipotesis nol bergantung pada tingkat tingkat kepercayaan yang diterima. Jadi jika peneliti menetapkan tingkat probabilitas 95%, tingkat signifikansi penerimaan akan dihitung, oleh karena itu, jika tingkat signifikansi 0,05, maka diterima dan parameter dianggap tidak signifikan secara statistik. Jika , maka alternatif tersebut ditolak dan diterima: dan .

Paket aplikasi statistik juga memberikan tingkat signifikansi untuk menerima hipotesis nol. Penilaian signifikansi persamaan regresi dan parameternya dapat memberikan hasil sebagai berikut:

Pertama, persamaan secara keseluruhan signifikan (menurut uji F) dan semua parameter persamaan juga signifikan secara statistik. Ini berarti bahwa persamaan yang dihasilkan dapat digunakan baik untuk pengambilan keputusan manajerial maupun untuk peramalan.

Kedua, menurut kriteria-F, persamaan signifikan secara statistik, tetapi setidaknya salah satu parameter persamaan tidak signifikan. Persamaan tersebut dapat digunakan untuk membuat keputusan manajemen mengenai faktor-faktor yang dianalisis, tetapi tidak dapat digunakan untuk peramalan.

Ketiga, persamaan tersebut tidak signifikan secara statistik, atau persamaan tersebut signifikan menurut kriteria F, tetapi semua parameter persamaan yang dihasilkan tidak signifikan. Persamaan tidak dapat digunakan untuk tujuan apa pun.

Agar persamaan regresi dapat dikenali sebagai model hubungan antara atribut-hasil dan atribut-faktor, perlu menyertakan semua faktor terpenting yang menentukan hasil, sehingga interpretasi persamaan bermakna. parameter sesuai dengan hubungan yang dibenarkan secara teoritis dalam fenomena yang diteliti. Koefisien determinasi R 2 harus > 0,5.

Saat menyusun persamaan regresi berganda, disarankan untuk melakukan penilaian dengan apa yang disebut koefisien determinasi yang disesuaikan (R 2). Nilai R 2 (serta korelasi) meningkat dengan peningkatan jumlah faktor yang dimasukkan dalam analisis. Nilai koefisien terutama ditaksir terlalu tinggi dalam kondisi populasi kecil. Untuk menghilangkan pengaruh negatif R 2 dan korelasi dikoreksi dengan mempertimbangkan jumlah derajat kebebasan, mis. jumlah elemen yang bervariasi secara bebas ketika faktor-faktor tertentu dimasukkan.

Koefisien determinasi yang disesuaikan

P–mengatur ukuran/jumlah pengamatan

k– jumlah faktor yang termasuk dalam analisis

n-1 adalah jumlah derajat kebebasan

(1-R2)- nilai varians residual/tidak dapat dijelaskan dari atribut yang dihasilkan

Selalu kurang R2. atas dasar, dimungkinkan untuk membandingkan perkiraan persamaan dengan sejumlah faktor yang dianalisis.

34. Masalah mempelajari deret waktu.

Deret dinamika disebut deret waktu atau deret waktu. Serangkaian dinamis adalah urutan indikator waktu yang mencirikan fenomena tertentu (volume PDB dari 90 hingga 98 tahun). Tujuan mempelajari rangkaian dinamika adalah untuk mengidentifikasi pola dalam perkembangan fenomena yang diteliti (tren utama) dan ramalan atas dasar ini. Dari definisi RD, setiap deret terdiri dari dua elemen: waktu t dan level deret (nilai spesifik dari indikator yang menjadi dasar deret DR dibangun). Seri DR dapat berupa 1) seri sesaat, yang indikatornya ditetapkan pada suatu titik waktu, pada tanggal tertentu, 2) interval - seri, yang indikatornya diperoleh untuk periode waktu tertentu (1. populasi St. Petersburg, 2. PDB untuk periode tersebut). Pembagian seri menjadi momen dan interval diperlukan, karena ini menentukan spesifikasi perhitungan beberapa indikator seri DR. Penjumlahan tingkat deret interval memberikan hasil yang ditafsirkan secara bermakna, yang tidak dapat dikatakan tentang penjumlahan tingkat deret momen, karena yang terakhir berisi penghitungan berulang. Masalah terpenting dalam analisis deret waktu adalah masalah komparabilitas tingkat deret. Konsep ini sangat serbaguna. Tingkatannya harus sebanding dalam hal metode perhitungan dan dalam hal wilayah dan cakupan unit populasi. Jika seri DR dibangun dari segi biaya, maka semua level harus disajikan atau dihitung dengan harga yang sebanding. Saat membangun seri interval, level harus mencirikan periode waktu yang sama. Saat membangun momen Seri D, levelnya harus ditetapkan pada tanggal yang sama. Baris bisa lengkap atau tidak lengkap. Seri tidak lengkap digunakan dalam publikasi resmi (1980,1985,1990,1995,1996,1997,1998,1999…). Analisis komprehensif RD mencakup studi tentang poin-poin berikut:

1. perhitungan indikator perubahan level RD

2. perhitungan rata-rata indikator RD

3. mengidentifikasi tren utama seri, membangun model tren

4. Estimasi autokorelasi pada RD, konstruksi model autoregressive

5. korelasi RD

6. Peramalan RD.

35. Indikator perubahan tingkat deret waktu .

Secara umum, Seri D dapat direpresentasikan sebagai:

y adalah level DR, t adalah momen atau periode waktu yang mengacu pada level (indikator), n adalah panjang Seri DR (jumlah periode). dalam mempelajari rangkaian dinamika, indikator-indikator berikut dihitung: 1. pertumbuhan mutlak, 2. faktor pertumbuhan (laju pertumbuhan), 3. percepatan, 4. faktor pertumbuhan (laju pertumbuhan), 5. nilai mutlak pertumbuhan 1%. Indikator yang dihitung dapat berupa: 1. rantai - diperoleh dengan membandingkan setiap level dari seri dengan yang langsung sebelumnya, 2. dasar - diperoleh dengan membandingkan dengan level yang dipilih sebagai dasar perbandingan (kecuali ditentukan lain, level pertama dari seri diambil sebagai dasar). 1. Keuntungan absolut berantai:. Menunjukkan berapa banyak lebih atau kurang. Peningkatan absolut rantai disebut indikator laju perubahan tingkat deret dinamis. Pertumbuhan absolut dasar: . Jika tingkat deret tersebut adalah indikator relatif, dinyatakan dalam %, maka kenaikan mutlak dinyatakan dalam titik perubahan. 2. faktor pertumbuhan (growth rate): Ini dihitung sebagai rasio tingkat baris ke yang sebelumnya (faktor pertumbuhan rantai), atau ke tingkat yang diambil sebagai dasar perbandingan (faktor pertumbuhan dasar): . Mencirikan berapa kali setiap level dari seri > atau< предшествующего или базисного. На основе коэффициентов роста рассчитываются темпы роста. Это коэффициенты роста, выраженные в %ах: 3. atas dasar pertumbuhan absolut, indikatornya dihitung - percepatan pertumbuhan absolut: . Percepatan adalah pertumbuhan absolut dari pertumbuhan absolut. Mengevaluasi bagaimana kenaikan itu sendiri berubah, apakah stabil atau bertambah cepat (meningkat). 4. tingkat pertumbuhan adalah rasio pertumbuhan dengan dasar perbandingan. Dinyatakan dalam %: ; . Tingkat pertumbuhan adalah tingkat pertumbuhan dikurangi 100%. Menunjukkan berapa % tingkat baris ini > atau< предшествующего либо базисного. 5. абсолютное значение 1% прироста. Рассчитывается как отношение абсолютного прироста к темпу прироста, т.е.: - сотая доля предыдущего уровня. Все эти показатели рассчитываются для оценки степени изменения уровней ряда. Цепные коэффициенты и темпы роста называются показателями интенсивности изменения уровней ДРядов.

2. Perhitungan rata-rata indikator RD Hitung tingkat rata-rata deret, rata-rata pertumbuhan absolut, tingkat pertumbuhan rata-rata dan tingkat pertumbuhan rata-rata. Indikator rata-rata dihitung untuk meringkas informasi dan untuk dapat membandingkan tingkat dan indikator perubahannya dalam rangkaian yang berbeda. 1. tingkat baris rata-rata a) untuk deret waktu interval dihitung dengan mean aritmatika sederhana: , di mana n adalah jumlah level dalam deret waktu; b) untuk deret momen, tingkat rata-rata dihitung menurut rumus tertentu, yang disebut rata-rata kronologis: . 2. pertumbuhan absolut rata-rata dihitung berdasarkan kenaikan absolut rantai menurut mean aritmatika sederhana:

. 3. Faktor pertumbuhan rata-rata dihitung berdasarkan faktor pertumbuhan rantai menggunakan rumus rata-rata geometrik: . Saat mengomentari indikator rata-rata Seri DR, perlu untuk menunjukkan 2 poin: periode yang menjadi ciri indikator yang dianalisis dan interval waktu pembuatan Seri DR. 4. Tingkat pertumbuhan rata-rata: . 5. tingkat pertumbuhan rata-rata: .