Metode regresi linier dalam statistik. Regresi di Excel: persamaan, contoh

Analisis regresi adalah metode penelitian statistik yang memungkinkan Anda untuk menunjukkan ketergantungan suatu parameter pada satu atau lebih variabel bebas. Di era pra komputer, penggunaannya cukup sulit, terutama jika menyangkut data dalam jumlah besar. Hari ini, setelah mempelajari cara membuat regresi di Excel, Anda dapat memecahkan masalah statistik yang rumit hanya dalam beberapa menit. Di bawah ini adalah contoh spesifik dari bidang ekonomi.

Jenis regresi

Konsep itu sendiri diperkenalkan ke dalam matematika pada tahun 1886. Regresi terjadi:

  • linier;
  • parabola;
  • kekuatan;
  • eksponensial;
  • hiperbolis;
  • demonstratif;
  • logaritma.

Contoh 1

Pertimbangkan masalah menentukan ketergantungan jumlah anggota tim pensiunan pada gaji rata-rata di 6 perusahaan industri.

Tugas. Di enam perusahaan, kami menganalisis gaji bulanan rata-rata dan jumlah karyawan yang keluar atas kemauan sendiri. Dalam bentuk tabel kita memiliki:

Jumlah orang yang pergi

Gaji

30000 rubel

35000 rubel

40000 rubel

45000 rubel

50000 rubel

55000 rubel

60000 rubel

Untuk masalah menentukan ketergantungan jumlah pensiunan terhadap gaji rata-rata di 6 perusahaan, model regresi berbentuk persamaan Y = a 0 + a 1 x 1 +…+a k x k , dimana x i adalah variabel yang mempengaruhi , a i adalah koefisien regresi, a k adalah jumlah faktor.

Untuk tugas ini, Y adalah indikator karyawan yang keluar, dan faktor yang mempengaruhinya adalah gaji, yang dilambangkan dengan X.

Menggunakan kemampuan spreadsheet "Excel"

Analisis regresi di Excel harus didahului dengan penerapan fungsi bawaan pada data tabular yang tersedia. Namun, untuk tujuan ini, lebih baik menggunakan add-in "Analysis Toolkit" yang sangat berguna. Untuk mengaktifkannya Anda perlu:

  • dari tab "File", buka bagian "Opsi";
  • di jendela yang terbuka, pilih baris "Add-on";
  • klik tombol "Pergi" yang terletak di bagian bawah, di sebelah kanan baris "Manajemen";
  • centang kotak di sebelah nama "Paket Analisis" dan konfirmasi tindakan Anda dengan mengklik "OK".

Jika semuanya dilakukan dengan benar, tombol yang diinginkan akan muncul di sisi kanan tab Data, terletak di atas lembar kerja Excel.

di excel

Sekarang kita memiliki semua alat virtual yang diperlukan untuk melakukan perhitungan ekonometrik, kita dapat mulai memecahkan masalah kita. Untuk ini:

  • klik tombol "Analisis Data";
  • di jendela yang terbuka, klik tombol "Regresi";
  • di tab yang muncul, masukkan rentang nilai untuk Y (jumlah karyawan yang berhenti) dan untuk X (gaji mereka);
  • Kami mengkonfirmasi tindakan kami dengan menekan tombol "Ok".

Akibatnya, program akan secara otomatis mengisi lembar baru spreadsheet dengan data analisis regresi. Catatan! Excel memiliki kemampuan untuk secara manual mengatur lokasi yang Anda inginkan untuk tujuan ini. Misalnya, itu bisa berupa lembar yang sama di mana nilai Y dan X berada, atau bahkan buku kerja baru yang dirancang khusus untuk menyimpan data tersebut.

Analisis hasil regresi untuk R-square

Di Excel, data yang diperoleh selama pemrosesan data dari contoh yang dipertimbangkan terlihat seperti ini:

Pertama-tama, Anda harus memperhatikan nilai R-square. Ini adalah koefisien determinasi. Dalam contoh ini, R-square = 0,755 (75,5%), yaitu, parameter yang dihitung dari model menjelaskan hubungan antara parameter yang dipertimbangkan sebesar 75,5%. Semakin tinggi nilai koefisien determinasi, semakin dapat diterapkan model yang dipilih untuk tugas tertentu. Diyakini bahwa itu benar menggambarkan situasi nyata dengan nilai R-kuadrat di atas 0,8. Jika R-kuadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analisis rasio

Angka 64.1428 menunjukkan berapa nilai Y jika semua variabel xi dalam model yang kita pertimbangkan diset ke nol. Dengan kata lain, dapat dikatakan bahwa nilai parameter yang dianalisis juga dipengaruhi oleh faktor lain yang tidak dijelaskan dalam model tertentu.

Koefisien berikutnya -0,16285, terletak di sel B18, menunjukkan bobot pengaruh variabel X terhadap Y. Ini berarti bahwa gaji bulanan rata-rata karyawan dalam model yang dipertimbangkan mempengaruhi jumlah berhenti dengan bobot -0,16285, yaitu. tingkat pengaruhnya sama sekali kecil. Tanda "-" menunjukkan bahwa koefisien tersebut bernilai negatif. Ini jelas, karena semua orang tahu bahwa semakin tinggi gaji di perusahaan, semakin sedikit orang yang ingin memutuskan kontrak kerja atau berhenti.

Regresi berganda

Istilah ini mengacu pada persamaan koneksi dengan beberapa variabel independen yang berbentuk:

y \u003d f (x 1 + x 2 + ... x m) + , di mana y adalah fitur efektif (variabel dependen), dan x 1 , x 2 , ... x m adalah faktor faktor (variabel independen).

Estimasi Parameter

Untuk regresi berganda (MR) dilakukan dengan menggunakan metode kuadrat terkecil (OLS). Untuk persamaan linier berbentuk Y = a + b 1 x 1 +…+b m x m + , kita membangun sistem persamaan normal (lihat di bawah)

Untuk memahami prinsip metode, pertimbangkan kasus dua faktor. Kemudian kita memiliki situasi yang dijelaskan oleh rumus

Dari sini kita mendapatkan:

di mana adalah varians dari fitur terkait yang tercermin dalam indeks.

LSM dapat diterapkan pada persamaan MP pada skala yang dapat distandarisasi. Dalam hal ini, kita mendapatkan persamaan:

di mana t y , t x 1, … t xm adalah variabel standar yang nilai rata-ratanya adalah 0; i adalah koefisien regresi standar, dan simpangan bakunya adalah 1.

Harap dicatat bahwa semua i dalam hal ini disetel sebagai normal dan terpusat, sehingga perbandingannya satu sama lain dianggap benar dan dapat diterima. Selain itu, merupakan kebiasaan untuk menyaring faktor, membuang yang memiliki nilai i terkecil.

Soal menggunakan persamaan regresi linier

Misalkan ada tabel dinamika harga produk N tertentu selama 8 bulan terakhir. Penting untuk membuat keputusan tentang kelayakan membeli batchnya dengan harga 1850 rubel/t.

nomor bulan

nama bulan

harga barang N

1750 rubel per ton

1755 rubel per ton

1767 rubel per ton

1760 rubel per ton

1770 rubel per ton

1790 rubel per ton

1810 rubel per ton

1840 rubel per ton

Untuk mengatasi masalah ini di spreadsheet Excel, Anda perlu menggunakan alat Analisis Data yang sudah diketahui dari contoh di atas. Selanjutnya, pilih bagian "Regresi" dan atur parameternya. Harus diingat bahwa di bidang "Input Y interval", rentang nilai untuk variabel dependen (dalam hal ini, harga suatu produk pada bulan-bulan tertentu dalam setahun) harus dimasukkan, dan di kolom "Input Interval X" - untuk variabel independen (nomor bulan). Konfirmasikan tindakan dengan mengklik "Ok". Pada lembar baru (jika diindikasikan demikian), kami mendapatkan data untuk regresi.

Berdasarkan mereka, kami membangun persamaan linier dalam bentuk y=ax+b, di mana parameter a dan b adalah koefisien baris dengan nama nomor bulan dan koefisien dan baris "Y-persimpangan" dari lembar dengan hasil analisis regresi. Dengan demikian, persamaan regresi linier (LE) untuk masalah 3 ditulis sebagai:

Harga produk N = 11.714* nomor bulan + 1727.54.

atau dalam notasi aljabar

y = 11,714 x + 1727,54

Analisis hasil

Untuk memutuskan apakah persamaan regresi linier yang dihasilkan memadai, koefisien korelasi ganda (MCC) dan koefisien determinasi digunakan, serta uji Fisher dan uji Student. Dalam tabel Excel dengan hasil regresi, mereka muncul di bawah nama beberapa R, R-kuadrat, F-statistik dan t-statistik, masing-masing.

KMC R memungkinkan untuk menilai ketatnya hubungan probabilistik antara variabel independen dan dependen. Nilainya yang tinggi menunjukkan hubungan yang cukup kuat antara variabel "Jumlah bulan" dan "Harga barang N dalam rubel per 1 ton". Namun, sifat hubungan ini masih belum diketahui.

Kuadrat koefisien determinasi R 2 (RI) adalah karakteristik numerik dari bagian hamburan total dan menunjukkan hamburan bagian mana dari data eksperimen, yaitu. nilai variabel terikat sesuai dengan persamaan regresi linier. Dalam masalah yang sedang dipertimbangkan, nilai ini sama dengan 84,8%, yaitu, data statistik dijelaskan dengan tingkat akurasi yang tinggi dengan SD yang diperoleh.

F-statistik, juga disebut uji Fisher, digunakan untuk menilai signifikansi hubungan linier, menyangkal atau mengkonfirmasi hipotesis keberadaannya.

(Kriteria siswa) membantu mengevaluasi signifikansi koefisien dengan suku bebas dari hubungan linier yang tidak diketahui atau bebas. Jika nilai t-kriteria > t cr, maka hipotesis insignifikansi suku bebas persamaan linier ditolak.

Dalam masalah yang dipertimbangkan untuk anggota bebas, dengan menggunakan alat Excel, diperoleh bahwa t = 169.20903, dan p = 2.89E-12, yaitu, kami memiliki probabilitas nol bahwa hipotesis yang benar tentang tidak signifikannya anggota bebas akan ditolak. Untuk koefisien pada diketahui t=5.79405, dan p=0.001158. Dengan kata lain, probabilitas bahwa hipotesis yang benar tentang tidak signifikannya koefisien untuk yang tidak diketahui akan ditolak adalah 0,12%.

Dengan demikian, dapat dikatakan bahwa persamaan regresi linier yang dihasilkan adalah memadai.

Masalah kelayakan membeli satu blok saham

Regresi berganda di Excel dilakukan dengan menggunakan alat Analisis Data yang sama. Pertimbangkan masalah khusus yang diterapkan.

Manajemen NNN harus mengambil keputusan tentang layak tidaknya membeli 20% saham MMM SA. Biaya paket (JV) adalah 70 juta dolar AS. Spesialis NNN mengumpulkan data tentang transaksi serupa. Diputuskan untuk mengevaluasi nilai blok saham sesuai dengan parameter tersebut, dinyatakan dalam jutaan dolar AS, sebagai:

  • hutang usaha (VK);
  • omset tahunan (VO);
  • piutang (VD);
  • biaya aset tetap (SOF).

Selain itu, parameter tunggakan penggajian perusahaan (V3 P) digunakan dalam ribuan dolar AS.

Solusi menggunakan spreadsheet Excel

Pertama-tama, Anda perlu membuat tabel data awal. Ini terlihat seperti ini:

  • panggil jendela "Analisis Data";
  • pilih bagian "Regresi";
  • pada kotak "Input interval Y" masukkan range nilai variabel dependen dari kolom G;
  • klik ikon dengan panah merah di sebelah kanan jendela "Input interval X" dan pilih rentang semua nilai dari kolom B, C, D, F pada lembar.

Pilih "Lembar Kerja Baru" dan klik "Ok".

Dapatkan analisis regresi untuk masalah yang diberikan.

Pemeriksaan hasil dan kesimpulan

"Kami mengumpulkan" dari data bulat yang disajikan di atas pada lembar spreadsheet Excel, persamaan regresi:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265.844.

Dalam bentuk matematika yang lebih akrab, dapat ditulis sebagai:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265.844

Data untuk JSC "MMM" disajikan dalam tabel:

Menggantinya ke dalam persamaan regresi, mereka mendapatkan angka 64,72 juta dolar AS. Artinya, saham JSC MMM tidak boleh dibeli, karena nilainya 70 juta dolar AS agak berlebihan.

Seperti yang Anda lihat, penggunaan spreadsheet Excel dan persamaan regresi memungkinkan untuk membuat keputusan yang tepat mengenai kelayakan transaksi yang sangat spesifik.

Sekarang Anda tahu apa itu regresi. Contoh-contoh di Excel yang dibahas di atas akan membantu Anda memecahkan masalah praktis dari bidang ekonometrika.

Analisis regresi mendasari pembuatan sebagian besar model ekonometrika, di antaranya harus disertakan model estimasi biaya. Untuk membangun model penilaian, metode ini dapat digunakan jika jumlah analog (objek yang sebanding) dan jumlah faktor biaya (elemen perbandingan) saling berkorelasi sebagai berikut: P> (5 -g-10) x ke, itu. harus ada analog 5-10 kali lebih banyak daripada faktor biaya. Persyaratan yang sama untuk rasio jumlah data dan jumlah faktor berlaku untuk tugas lain: membangun hubungan antara biaya dan parameter konsumen suatu objek; justifikasi prosedur penghitungan indeks korektif; klarifikasi tren harga; membangun hubungan antara keausan dan perubahan dalam faktor-faktor yang mempengaruhi; memperoleh dependensi untuk menghitung standar biaya, dll. Pemenuhan persyaratan ini diperlukan untuk mengurangi kemungkinan bekerja dengan sampel data yang tidak memenuhi persyaratan distribusi normal variabel acak.

Hubungan regresi hanya mencerminkan tren rata-rata dari variabel yang dihasilkan, seperti biaya, dari perubahan satu atau lebih variabel faktor, seperti lokasi, jumlah kamar, luas, lantai, dll. Ini adalah perbedaan antara hubungan regresi dan hubungan fungsional, di mana nilai variabel yang dihasilkan ditentukan secara ketat untuk nilai variabel faktor tertentu.

Adanya hubungan regresi / antara yang dihasilkan pada dan variabel faktor x p ..., x k(faktor) menunjukkan bahwa hubungan ini ditentukan tidak hanya oleh pengaruh variabel faktor yang dipilih, tetapi juga oleh pengaruh variabel, beberapa di antaranya umumnya tidak diketahui, yang lain tidak dapat dinilai dan diperhitungkan:

Pengaruh variabel yang tidak terhitung dilambangkan dengan suku kedua dari persamaan ini ?, yang disebut kesalahan aproksimasi.

Ada beberapa jenis dependensi regresi berikut:

  • ? regresi berpasangan - hubungan antara dua variabel (hasil dan faktorial);
  • ? regresi berganda - ketergantungan satu variabel yang dihasilkan dan dua atau lebih variabel faktor yang dimasukkan dalam penelitian.

Tugas utama analisis regresi adalah mengukur kedekatan hubungan antara variabel (dalam regresi berpasangan) dan variabel ganda (dalam regresi berganda). Ketatnya hubungan diukur dengan koefisien korelasi.

Penggunaan analisis regresi memungkinkan Anda untuk menetapkan pola pengaruh faktor-faktor utama (karakteristik hedonis) pada indikator yang diteliti, baik secara keseluruhan maupun masing-masing secara individual. Dengan bantuan analisis regresi, sebagai metode statistik matematika, dimungkinkan, pertama, untuk menemukan dan menggambarkan bentuk ketergantungan analitik dari variabel yang dihasilkan (diinginkan) pada variabel faktorial dan, kedua, untuk memperkirakan kedekatan variabel. ketergantungan ini.

Dengan memecahkan masalah pertama, model regresi matematis diperoleh, dengan bantuan indikator yang diinginkan kemudian dihitung untuk nilai faktor yang diberikan. Solusi dari masalah kedua memungkinkan untuk menetapkan keandalan hasil yang dihitung.

Dengan demikian, analisis regresi dapat didefinisikan sebagai seperangkat prosedur formal (matematis) yang dirancang untuk mengukur keketatan, arah, dan ekspresi analitis dari bentuk hubungan antara variabel yang dihasilkan dan variabel faktor, yaitu. keluaran dari analisis semacam itu harus berupa model statistik yang didefinisikan secara struktural dan kuantitatif dalam bentuk:

di mana y - nilai rata-rata dari variabel yang dihasilkan (indikator yang diinginkan, misalnya, biaya, sewa, tingkat kapitalisasi) di atas P pengamatannya; x adalah nilai variabel faktor (/-th faktor biaya); ke - jumlah variabel faktor.

Fungsi f(x l ,...,x lc), menggambarkan ketergantungan variabel yang dihasilkan pada yang faktorial disebut persamaan regresi (fungsi). Istilah "regresi" (regresi (lat.) - mundur, kembali ke sesuatu) dikaitkan dengan kekhasan salah satu tugas spesifik yang diselesaikan pada tahap pembentukan metode, dan saat ini tidak mencerminkan seluruh esensi dari metode, tetapi terus digunakan.

Analisis regresi umumnya mencakup langkah-langkah berikut:

  • ? pembentukan sampel objek homogen dan pengumpulan informasi awal tentang objek ini;
  • ? pemilihan faktor utama yang mempengaruhi variabel yang dihasilkan;
  • ? memeriksa sampel untuk normalitas menggunakan X 2 atau kriteria binomial;
  • ? penerimaan hipotesis tentang bentuk komunikasi;
  • ? pengolahan data matematis;
  • ? memperoleh model regresi;
  • ? penilaian indikator statistiknya;
  • ? perhitungan verifikasi menggunakan model regresi;
  • ? analisis hasil.

Urutan operasi yang ditentukan terjadi dalam studi hubungan pasangan antara variabel faktor dan satu variabel yang dihasilkan, dan hubungan ganda antara variabel yang dihasilkan dan beberapa variabel faktor.

Penggunaan analisis regresi membebankan persyaratan tertentu pada informasi awal:

  • ? sampel statistik objek harus homogen dalam hal fungsional dan konstruktif-teknologi;
  • ? cukup banyak;
  • ? indikator biaya yang diteliti - variabel yang dihasilkan (harga, biaya, biaya) - harus dikurangi ke kondisi yang sama untuk perhitungannya untuk semua objek dalam sampel;
  • ? variabel faktor harus diukur dengan cukup akurat;
  • ? variabel faktor harus bebas atau tergantung minimal.

Persyaratan homogenitas dan kelengkapan sampel bertentangan: semakin ketat pemilihan objek sesuai dengan homogenitasnya, semakin kecil sampelnya, dan sebaliknya untuk memperbesar sampel perlu menyertakan objek yang tidak terlalu mirip satu sama lain.

Setelah data dikumpulkan untuk sekelompok objek homogen, mereka dianalisis untuk menetapkan bentuk hubungan antara variabel yang dihasilkan dan faktor dalam bentuk garis regresi teoritis. Proses menemukan garis regresi teoretis terdiri dari pilihan yang wajar dari kurva perkiraan dan perhitungan koefisien persamaannya. Garis regresi adalah kurva mulus (dalam kasus tertentu, garis lurus) yang menggambarkan, menggunakan fungsi matematika, kecenderungan umum ketergantungan yang diteliti dan menghaluskan outlier acak yang tidak teratur dari pengaruh faktor samping.

Untuk menampilkan dependensi regresi berpasangan dalam tugas penilaian, fungsi berikut paling sering digunakan: linier - y - a 0 + ars + s kekuatan - y - aj&i + c demonstratif - y - eksponensial linier - y - a 0 + ar * + s. Di Sini - e kesalahan aproksimasi karena tindakan faktor acak yang tidak terhitung.

Dalam fungsi ini, y adalah variabel yang dihasilkan; x - variabel faktor (faktor); sebuah 0 , a r a 2 - parameter model regresi, koefisien regresi.

Model eksponensial linier termasuk dalam kelas yang disebut model hibrida dalam bentuk:

di mana

dimana x (saya = 1, /) - nilai faktor;

b t (i = 0, /) adalah koefisien dari persamaan regresi.

Dalam persamaan ini, komponen A, B dan Z sesuai dengan biaya komponen individu dari aset yang dinilai, misalnya, biaya sebidang tanah dan biaya perbaikan, dan parameter Q adalah umum. Ini dirancang untuk menyesuaikan nilai semua komponen aset yang dinilai untuk faktor pengaruh umum, seperti lokasi.

Nilai faktor yang berada dalam derajat koefisien yang sesuai adalah variabel biner (0 atau 1). Faktor-faktor yang menjadi dasar derajat adalah variabel diskrit atau kontinu.

Faktor-faktor yang terkait dengan koefisien tanda perkalian juga kontinu atau diskrit.

Spesifikasi dilakukan, sebagai suatu peraturan, menggunakan pendekatan empiris dan mencakup dua tahap:

  • ? memplot titik-titik bidang regresi pada grafik;
  • ? analisis grafis (visual) dari jenis kurva perkiraan yang mungkin.

Jenis kurva regresi tidak selalu dapat langsung dipilih. Untuk menentukannya, titik-titik bidang regresi terlebih dahulu diplot pada grafik sesuai dengan data awal. Kemudian garis digambar secara visual di sepanjang posisi titik, mencoba menemukan pola kualitatif hubungan: pertumbuhan seragam atau penurunan seragam, pertumbuhan (penurunan) dengan kenaikan (penurunan) laju dinamika, pendekatan yang mulus untuk tingkat tertentu.

Pendekatan empiris ini dilengkapi dengan analisis logis, dimulai dari ide-ide yang sudah diketahui tentang sifat ekonomi dan fisik dari faktor-faktor yang diteliti dan pengaruh timbal baliknya.

Sebagai contoh, diketahui bahwa ketergantungan variabel yang dihasilkan - indikator ekonomi (harga, sewa) pada sejumlah variabel faktor - faktor pembentuk harga (jarak dari pusat pemukiman, luas, dll.) bersifat non-linier. , dan mereka dapat dijelaskan dengan cukup ketat oleh fungsi pangkat, eksponensial atau kuadrat . Tetapi dengan rentang faktor yang kecil, hasil yang dapat diterima juga dapat diperoleh dengan menggunakan fungsi linier.

Jika masih tidak mungkin untuk segera membuat pilihan percaya diri dari salah satu fungsi, maka dua atau tiga fungsi dipilih, parameternya dihitung, dan kemudian, menggunakan kriteria yang sesuai untuk keketatan koneksi, fungsi akhirnya dipilih.

Secara teori, proses regresi untuk menemukan bentuk kurva disebut spesifikasi model, dan koefisiennya - kalibrasi model.

Jika ditemukan variabel y yang dihasilkan bergantung pada beberapa variabel faktorial (faktor) x ( , x 2 , ..., xk, kemudian mereka menggunakan model regresi berganda. Biasanya, tiga bentuk komunikasi ganda digunakan: linier - y - a 0 + a x x x + a^x2 + ... + a k x k, demonstratif - y - a 0 a*saya a x t- a x b, kekuatan - y - a 0 x x ix 2 a 2. .x^ atau kombinasinya.

Fungsi eksponensial dan eksponensial lebih universal, karena mendekati hubungan non-linier, yang merupakan mayoritas ketergantungan yang dipelajari dalam penilaian. Selain itu, mereka dapat digunakan dalam evaluasi objek dan dalam metode pemodelan statistik untuk evaluasi massa, dan dalam metode perbandingan langsung dalam evaluasi individu ketika menetapkan faktor koreksi.

Pada tahap kalibrasi, parameter model regresi dihitung dengan metode kuadrat terkecil, yang intinya adalah jumlah deviasi kuadrat dari nilai yang dihitung dari variabel yang dihasilkan pada., yaitu dihitung sesuai dengan persamaan relasi yang dipilih, dari nilai aktual harus minimal:

Nilai j) (. dan y. diketahui, oleh karena itu Q adalah fungsi dari koefisien persamaan saja. Untuk mencari minimum S ambil turunan parsial Q dengan koefisien persamaan dan menyamakannya dengan nol:

Akibatnya, kami memperoleh sistem persamaan normal, yang jumlahnya sama dengan jumlah koefisien yang ditentukan dari persamaan regresi yang diinginkan.

Misalkan kita perlu mencari koefisien persamaan linier y - a 0 + ars. Jumlah simpangan kuadrat adalah:

/=1

Membedakan fungsi Q dengan koefisien yang tidak diketahui sebuah 0 dan dan samakan turunan parsial dengan nol:

Setelah transformasi kita mendapatkan:

di mana P - jumlah nilai aktual asli pada mereka (jumlah analog).

Prosedur di atas untuk menghitung koefisien persamaan regresi juga berlaku untuk dependensi nonlinier, jika dependensi ini dapat dilinierkan, mis. membawa ke bentuk linier menggunakan perubahan variabel. Fungsi pangkat dan eksponensial setelah mengambil logaritma dan perubahan variabel yang sesuai memperoleh bentuk linier. Misalnya, fungsi daya setelah mengambil logaritma berbentuk: Dalam y \u003d 1n 0 + a x 1 jam Setelah perubahan variabel Y- Di y, L 0 - Di dan No. X- Dalam x kita mendapatkan fungsi linier

Y=A0 + cijX, koefisien yang ditemukan seperti dijelaskan di atas.

Metode kuadrat terkecil juga digunakan untuk menghitung koefisien model regresi berganda. Jadi, sistem persamaan normal untuk menghitung fungsi linier dengan dua variabel Xj dan x 2 setelah serangkaian transformasi, terlihat seperti ini:

Biasanya sistem persamaan ini diselesaikan dengan menggunakan metode aljabar linier. Fungsi eksponensial berganda dibawa ke bentuk linier dengan mengambil logaritma dan mengubah variabel dengan cara yang sama seperti fungsi eksponensial berpasangan.

Saat menggunakan model hibrida, koefisien regresi berganda ditemukan menggunakan prosedur numerik dari metode aproksimasi berurutan.

Untuk menentukan pilihan akhir di antara beberapa persamaan regresi, perlu dilakukan pengujian keketatan hubungan masing-masing persamaan, yang diukur dengan koefisien korelasi, varians, dan koefisien variasi. Untuk evaluasi, Anda juga bisa menggunakan kriteria Student dan Fisher. Semakin besar keketatan koneksi mengungkapkan kurva, semakin disukai itu, semua hal lain dianggap sama.

Jika masalah kelas seperti itu sedang dipecahkan, ketika perlu untuk menetapkan ketergantungan indikator biaya pada faktor biaya, maka keinginan untuk memperhitungkan sebanyak mungkin faktor yang mempengaruhi dan dengan demikian membangun model regresi berganda yang lebih akurat adalah dimengerti. Namun, dua batasan objektif menghalangi perluasan jumlah faktor. Pertama, membangun model regresi berganda membutuhkan sampel objek yang jauh lebih besar daripada membangun model berpasangan. Secara umum diterima bahwa jumlah objek dalam sampel harus melebihi jumlah P faktor, setidaknya 5-10 kali. Oleh karena itu, untuk membangun model dengan tiga faktor yang mempengaruhi, perlu mengumpulkan sampel sekitar 20 objek dengan set nilai faktor yang berbeda. Kedua, faktor-faktor yang dipilih untuk model dalam pengaruhnya pada indikator nilai harus cukup independen satu sama lain. Hal ini tidak mudah untuk dipastikan, karena sampel biasanya menggabungkan objek-objek yang termasuk dalam famili yang sama, di mana terdapat perubahan yang teratur dalam banyak faktor dari objek ke objek.

Kualitas model regresi biasanya diuji menggunakan statistik berikut.

Standar deviasi dari kesalahan persamaan regresi (estimation error):

di mana P - ukuran sampel (jumlah analog);

ke - jumlah faktor (faktor biaya);

Kesalahan yang tidak dapat dijelaskan oleh persamaan regresi (Gbr. 3.2);

y. - nilai aktual dari variabel yang dihasilkan (misalnya, biaya); t - nilai yang dihitung dari variabel yang dihasilkan.

Indikator ini juga disebut kesalahan standar estimasi (kesalahan RMS). Pada gambar, titik-titik menunjukkan nilai spesifik sampel, simbol menunjukkan garis nilai rata-rata sampel, garis putus-putus miring adalah garis regresi.


Beras. 3.2.

Standar deviasi dari kesalahan estimasi mengukur jumlah penyimpangan nilai aktual y dari nilai yang dihitung terkait. pada( , diperoleh dengan menggunakan model regresi. Jika sampel di mana model dibangun tunduk pada hukum distribusi normal, maka dapat dikatakan bahwa 68% dari nilai sebenarnya pada berada dalam jangkauan pada ± & e dari garis regresi, dan 95% - dalam kisaran pada ± 2d e. Indikator ini nyaman karena satuan ukuran sg? cocok dengan satuan pengukuran pada,. Dalam hal ini, dapat digunakan untuk menunjukkan keakuratan hasil yang diperoleh dalam proses evaluasi. Misalnya, dalam sertifikat nilai, Anda dapat menunjukkan bahwa nilai nilai pasar diperoleh dengan menggunakan model regresi V dengan probabilitas 95% berada di kisaran (V-2d,.) sebelum (pada + 2ds).

Koefisien variasi variabel yang dihasilkan:

di mana y - nilai rata-rata dari variabel yang dihasilkan (Gambar 3.2).

Dalam analisis regresi, koefisien variasi var adalah standar deviasi hasil, yang dinyatakan sebagai persentase dari rata-rata variabel hasil. Koefisien variasi dapat berfungsi sebagai kriteria untuk kualitas prediksi dari model regresi yang dihasilkan: semakin kecil nilainya var, semakin tinggi kualitas prediksi model. Penggunaan koefisien variasi lebih disukai daripada eksponen &e, karena ini adalah eksponen relatif. Dalam penggunaan praktis indikator ini, disarankan untuk tidak menggunakan model yang koefisien variasinya melebihi 33%, karena dalam hal ini tidak dapat dikatakan bahwa sampel-sampel tersebut tunduk pada hukum distribusi normal.

Koefisien determinasi (koefisien korelasi berganda dikuadratkan):

Indikator ini digunakan untuk menganalisis kualitas keseluruhan model regresi yang dihasilkan. Ini menunjukkan berapa persentase variasi dalam variabel yang dihasilkan karena pengaruh semua variabel faktor yang termasuk dalam model. Koefisien determinasi selalu terletak pada rentang dari nol sampai satu. Semakin dekat nilai koefisien determinasi dengan satu, maka semakin baik model tersebut menggambarkan deret data aslinya. Koefisien determinasi dapat direpresentasikan dengan cara lain:

Berikut kesalahan yang dijelaskan oleh model regresi,

sebuah - kesalahan tidak dapat dijelaskan

model regresi. Dari sudut pandang ekonomi, kriteria ini memungkinkan untuk menilai berapa persentase variasi harga yang dijelaskan oleh persamaan regresi.

Batas penerimaan yang tepat dari indikator R2 tidak mungkin untuk menentukan untuk semua kasus. Baik ukuran sampel maupun interpretasi persamaan yang bermakna harus diperhitungkan. Sebagai aturan, ketika mempelajari data pada objek dari jenis yang sama, diperoleh pada waktu yang hampir bersamaan, nilai R2 tidak melebihi level 0,6-0,7. Jika semua kesalahan prediksi adalah nol, mis. ketika hubungan antara variabel yang dihasilkan dan faktor adalah fungsional, maka R2 =1.

Koefisien determinasi yang disesuaikan:

Kebutuhan untuk memperkenalkan koefisien determinasi yang disesuaikan dijelaskan oleh fakta bahwa dengan peningkatan jumlah faktor ke koefisien determinasi yang biasa hampir selalu meningkat, tetapi jumlah derajat kebebasan menurun (n - k- satu). Penyesuaian yang dimasukkan selalu mengurangi nilainya R2, sejauh (P - 1) > (p- ke - satu). Akibatnya, nilai R 2 CKOf) bahkan bisa menjadi negatif. Artinya nilai R2 mendekati nol sebelum penyesuaian dan proporsi varians dijelaskan oleh persamaan regresi variabel pada sangat kecil.

Dari dua varian model regresi yang berbeda nilai koefisien determinasinya, tetapi memiliki kriteria kualitas lain yang sama baiknya, varian dengan nilai koefisien determinasi yang disesuaikan lebih disukai. Koefisien determinasi tidak disesuaikan jika (n - k): k> 20.

rasio nelayan:

Kriteria ini digunakan untuk menilai signifikansi koefisien determinasi. Jumlah sisa kuadrat adalah ukuran kesalahan prediksi menggunakan regresi nilai biaya yang diketahui pada.. Perbandingannya dengan jumlah kuadrat regresi menunjukkan berapa kali ketergantungan regresi memprediksi hasil lebih baik daripada rata-rata pada. Ada tabel nilai kritis F R Koefisien Fisher tergantung pada jumlah derajat kebebasan pembilang - ke, penyebut v 2 = p - k- 1 dan tingkat signifikansi a. Jika nilai yang dihitung dari kriteria Fisher F R lebih besar dari nilai tabel, maka hipotesis tidak signifikannya koefisien determinasi, yaitu tentang perbedaan antara hubungan yang tertanam dalam persamaan regresi dan yang benar-benar ada, dengan probabilitas p = 1 - a ditolak.

Kesalahan perkiraan rata-rata(deviasi persentase rata-rata) dihitung sebagai perbedaan relatif rata-rata, dinyatakan sebagai persentase, antara nilai aktual dan yang dihitung dari variabel yang dihasilkan:

Semakin rendah nilai indikator ini, semakin baik kualitas prediksi model. Ketika nilai indikator ini tidak lebih tinggi dari 7%, mereka menunjukkan akurasi model yang tinggi. Jika sebuah 8 > 15%, menunjukkan akurasi model yang tidak memuaskan.

Kesalahan standar koefisien regresi:

di mana (/I) -1 .- elemen diagonal dari matriks (X G X) ~ 1 sampai - jumlah faktor;

X- matriks nilai variabel faktor:

X7- matriks yang ditransposisikan dari nilai-nilai variabel faktor;

(JL) _| adalah matriks invers dari matriks.

Semakin kecil skor ini untuk setiap koefisien regresi, semakin dapat diandalkan estimasi koefisien regresi yang sesuai.

Tes siswa (t-statistik):

Kriteria ini memungkinkan Anda untuk mengukur tingkat keandalan (signifikansi) hubungan karena koefisien regresi yang diberikan. Jika dihitung nilai t. lebih besar dari nilai tabel

t av , dimana v - p - k - 1 adalah jumlah derajat kebebasan, maka hipotesis bahwa koefisien ini secara statistik tidak signifikan ditolak dengan probabilitas (100 - a)%. Ada tabel khusus dari /-distribusi yang memungkinkan untuk menentukan nilai kritis kriteria dengan tingkat signifikansi yang diberikan a dan jumlah derajat kebebasan v. Nilai a yang paling umum digunakan adalah 5%.

Multikolinearitas, yaitu efek hubungan timbal balik antara variabel faktor mengarah pada kebutuhan untuk puas dengan jumlah yang terbatas. Jika ini tidak diperhitungkan, maka Anda dapat berakhir dengan model regresi yang tidak logis. Untuk menghindari efek negatif dari multikolinearitas, sebelum membangun model regresi berganda, koefisien korelasi pasangan dihitung rxjxj antara variabel yang dipilih X. dan X

Di Sini XjX; - nilai rata-rata hasil kali dua variabel faktorial;

XjXj- produk dari nilai rata-rata dua variabel faktor;

Evaluasi varians dari variabel faktor x..

Dua variabel dianggap berhubungan secara regresif (yaitu, collinear) jika koefisien korelasi berpasangan mereka benar-benar lebih besar dari 0,8 dalam nilai absolut. Dalam hal ini, salah satu variabel ini harus dikeluarkan dari pertimbangan.

Untuk memperluas kemungkinan analisis ekonomi dari model regresi yang dihasilkan, rata-rata digunakan koefisien elastisitas, ditentukan dengan rumus:

di mana Xj- nilai rata-rata dari variabel faktor yang sesuai;

y - nilai rata-rata dari variabel yang dihasilkan; aku - koefisien regresi untuk variabel faktor yang sesuai.

Koefisien elastisitas menunjukkan berapa persen nilai variabel yang dihasilkan akan berubah rata-rata ketika variabel faktor berubah sebesar 1%, yaitu bagaimana variabel yang dihasilkan bereaksi terhadap perubahan variabel faktor. Misalnya, bagaimana harga sq. m area apartemen pada jarak dari pusat kota.

Berguna dari sudut pandang menganalisis signifikansi koefisien regresi tertentu adalah perkiraan koefisien determinasi pribadi:

Berikut adalah perkiraan varians yang dihasilkan

variabel. Koefisien ini menunjukkan berapa persen variasi variabel yang dihasilkan dijelaskan oleh variasi variabel faktor /-th yang dimasukkan dalam persamaan regresi.

  • Karakteristik hedonis dipahami sebagai karakteristik suatu objek yang mencerminkan sifat-sifatnya yang berguna (bernilai) dari sudut pandang pembeli dan penjual.

Analisis regresi dan korelasi - metode penelitian statistik. Ini adalah cara paling umum untuk menunjukkan ketergantungan parameter pada satu atau lebih variabel independen.

Di bawah ini, dengan menggunakan contoh-contoh praktis yang konkret, kita akan mempertimbangkan dua analisis yang sangat populer ini di kalangan ekonom. Kami juga akan memberikan contoh memperoleh hasil ketika digabungkan.

Analisis Regresi di Excel

Menunjukkan pengaruh beberapa nilai (independen, independen) terhadap variabel dependen. Misalnya, bagaimana jumlah penduduk yang aktif secara ekonomi tergantung pada jumlah perusahaan, upah, dan parameter lainnya. Atau: bagaimana investasi asing, harga energi, dll. mempengaruhi tingkat PDB.

Hasil analisis memungkinkan Anda untuk memprioritaskan. Dan berdasarkan faktor utama, untuk memprediksi, merencanakan pengembangan area prioritas, membuat keputusan manajemen.

Regresi terjadi:

  • linier (y = a + bx);
  • parabola (y = a + bx + cx 2);
  • eksponensial (y = a * exp(bx));
  • daya (y = a*x^b);
  • hiperbolik (y = b/x + a);
  • logaritma (y = b * 1n(x) + a);
  • eksponensial (y = a * b^x).

Pertimbangkan contoh membangun model regresi di Excel dan menafsirkan hasilnya. Mari kita ambil jenis regresi linier.

Tugas. Di 6 perusahaan, gaji bulanan rata-rata dan jumlah karyawan yang keluar dianalisis. Hal ini diperlukan untuk menentukan ketergantungan jumlah pensiunan karyawan pada gaji rata-rata.

Model regresi linier memiliki bentuk sebagai berikut:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Dimana a adalah koefisien regresi, x adalah variabel yang mempengaruhi, dan k adalah jumlah faktor.

Dalam contoh kita, Y adalah indikator pekerja yang berhenti. Faktor yang mempengaruhi adalah upah (x).

Excel memiliki fungsi bawaan yang dapat digunakan untuk menghitung parameter model regresi linier. Tetapi add-in Analysis ToolPak akan melakukannya lebih cepat.

Aktifkan alat analisis yang kuat:

Setelah diaktifkan, add-on akan tersedia di bawah tab Data.

Sekarang kita akan berurusan langsung dengan analisis regresi.



Pertama-tama, kami memperhatikan R-kuadrat dan koefisien.

R-square adalah koefisien determinasi. Dalam contoh kita, ini adalah 0,755, atau 75,5%. Artinya parameter yang dihitung dari model menjelaskan hubungan antara parameter yang diteliti sebesar 75,5%. Semakin tinggi koefisien determinasi, semakin baik modelnya. Baik - di atas 0,8. Buruk - kurang dari 0,5 (analisis semacam itu hampir tidak dapat dianggap masuk akal). Dalam contoh kita - "tidak buruk".

Koefisien 64,1428 menunjukkan apa yang akan menjadi Y jika semua variabel dalam model yang dipertimbangkan sama dengan 0. Artinya, faktor lain yang tidak dijelaskan dalam model juga mempengaruhi nilai parameter yang dianalisis.

Koefisien -0,16285 menunjukkan bobot variabel X pada Y. Artinya, gaji bulanan rata-rata dalam model ini mempengaruhi jumlah berhenti merokok dengan bobot -0,16285 (ini adalah tingkat pengaruh yang kecil). Tanda “-” menunjukkan dampak negatif: semakin tinggi gaji, semakin sedikit berhenti. Yang adil.



Analisis korelasi di Excel

Analisis korelasi membantu untuk menetapkan apakah ada hubungan antara indikator dalam satu atau dua sampel. Misalnya antara waktu pengoperasian mesin dengan biaya perbaikan, harga peralatan dan lama pengoperasian, tinggi dan berat badan anak, dll.

Jika ada hubungan, maka apakah peningkatan satu parameter menyebabkan peningkatan (korelasi positif) atau penurunan (negatif) yang lain. Analisis korelasi membantu analis menentukan apakah nilai satu indikator dapat memprediksi kemungkinan nilai indikator lainnya.

Koefisien korelasi dilambangkan dengan r. Bervariasi dari +1 hingga -1. Klasifikasi korelasi untuk area yang berbeda akan berbeda. Ketika nilai koefisien adalah 0, tidak ada hubungan linier antara sampel.

Pertimbangkan cara menggunakan Excel untuk menemukan koefisien korelasi.

Fungsi CORREL digunakan untuk mencari koefisien berpasangan.

Tugas: Menentukan apakah ada hubungan antara waktu operasi mesin bubut dan biaya pemeliharaannya.

Letakkan kursor di sel mana saja dan tekan tombol fx.

  1. Dalam kategori "Statistik", pilih fungsi CORREL.
  2. Argumen "Array 1" - rentang nilai pertama - waktu mesin: A2: A14.
  3. Argumen "Array 2" - rentang nilai kedua - biaya perbaikan: B2:B14. Klik Oke.

Untuk menentukan jenis koneksi, Anda perlu melihat jumlah absolut koefisien (setiap bidang kegiatan memiliki skalanya sendiri).

Untuk analisis korelasi beberapa parameter (lebih dari 2), lebih mudah menggunakan "Analisis Data" (pengaya "Paket Analisis"). Dalam daftar, Anda perlu memilih korelasi dan menetapkan array. Semua.

Koefisien yang dihasilkan akan ditampilkan dalam matriks korelasi. Seperti yang ini:

Analisis korelasi-regresi

Dalam praktiknya, kedua teknik ini sering digunakan bersama-sama.

Contoh:


Sekarang data analisis regresi terlihat.

Apa itu regresi?

Pertimbangkan dua variabel kontinu x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Mari kita tempatkan poin pada plot pencar 2D dan katakan kita punya hubungan linier jika data didekati dengan garis lurus.

Jika kita berasumsi bahwa kamu tergantung pada x, dan perubahan kamu disebabkan oleh perubahan x, kita dapat mendefinisikan garis regresi (regression kamu pada x), yang paling menggambarkan hubungan garis lurus antara dua variabel ini.

Penggunaan statistik kata "regresi" berasal dari fenomena yang dikenal sebagai regresi ke mean, dikaitkan dengan Sir Francis Galton (1889).

Dia menunjukkan bahwa sementara ayah yang tinggi cenderung memiliki anak laki-laki yang tinggi, rata-rata tinggi anak laki-laki lebih kecil daripada ayah mereka yang tinggi. Tinggi rata-rata anak laki-laki "mundur" dan "bergerak kembali" ke tinggi rata-rata semua ayah dalam populasi. Jadi, rata-rata, ayah yang tinggi memiliki anak laki-laki yang lebih pendek (tetapi masih tinggi), dan ayah yang pendek memiliki anak yang lebih tinggi (tetapi masih agak pendek).

Garis regresi

Persamaan matematika yang mengevaluasi garis regresi linier sederhana (berpasangan):

x disebut variabel bebas atau prediktor.

kamu adalah variabel dependen atau respon. Ini adalah nilai yang kami harapkan kamu(rata-rata) jika kita tahu nilainya x, yaitu adalah nilai prediksi kamu»

  • sebuah- anggota bebas (persimpangan) dari garis evaluasi; nilai ini kamu, Kapan x=0(Gbr.1).
  • b- kemiringan atau gradien dari garis perkiraan; itu adalah jumlah yang kamu meningkat rata-rata jika kita meningkatkan x untuk satu unit.
  • sebuah dan b disebut koefisien regresi dari garis taksiran, meskipun istilah ini sering digunakan hanya untuk b.

Regresi linier berpasangan dapat diperluas untuk memasukkan lebih dari satu variabel bebas; dalam hal ini dikenal sebagai regresi berganda.

Gambar 1. Garis regresi linier yang menunjukkan perpotongan a dan kemiringan b (jumlah kenaikan Y ketika x bertambah satu satuan)

Metode kuadrat terkecil

Kami melakukan analisis regresi menggunakan sampel pengamatan di mana: sebuah dan b- estimasi sampel dari parameter (umum) yang sebenarnya, dan , yang menentukan garis regresi linier dalam populasi (populasi umum).

Metode paling sederhana untuk menentukan koefisien sebuah dan b adalah metode kuadrat terkecil(MNK).

Kesesuaian dievaluasi dengan mempertimbangkan residual (jarak vertikal setiap titik dari garis, misalnya residual = dapat diamati kamu- diprediksi kamu, Beras. 2).

Garis yang paling cocok dipilih sehingga jumlah kuadrat dari residualnya minimal.

Beras. 2. Garis regresi linier dengan residual yang digambarkan (garis putus-putus vertikal) untuk setiap titik.

Asumsi Regresi Linier

Jadi, untuk setiap nilai yang diamati, residualnya sama dengan selisihnya dan sesuai prediksinya.Setiap residual bisa positif atau negatif.

Anda dapat menggunakan residual untuk menguji asumsi berikut di balik regresi linier:

  • Residu terdistribusi normal dengan rata-rata nol;

Jika asumsi linearitas, normalitas, dan/atau varians konstan dipertanyakan, kita dapat mengubah atau dan menghitung garis regresi baru yang memenuhi asumsi ini (misalnya, menggunakan transformasi logaritmik, dll.).

Nilai abnormal (pencilan) dan titik pengaruh

Pengamatan "berpengaruh", jika dihilangkan, mengubah satu atau lebih estimasi parameter model (yaitu kemiringan atau intersep).

Pencilan (pengamatan yang bertentangan dengan sebagian besar nilai dalam kumpulan data) dapat menjadi pengamatan yang "berpengaruh" dan dapat dideteksi dengan baik secara visual saat melihat sebar 2D atau sebidang residu.

Baik untuk outlier dan untuk pengamatan (poin) "berpengaruh" digunakan model, baik dengan inklusi maupun tanpanya, perhatikan perubahan estimasi (koefisien regresi).

Saat melakukan analisis, jangan secara otomatis membuang outlier atau titik pengaruh, karena mengabaikannya dapat memengaruhi hasil. Selalu pelajari penyebab outlier ini dan analisislah.

Hipotesis regresi linier

Saat menyusun regresi linier, hipotesis nol diperiksa bahwa kemiringan umum garis regresi sama dengan nol.

Jika kemiringan garis adalah nol, tidak ada hubungan linier antara dan: perubahan tidak mempengaruhi

Untuk menguji hipotesis nol bahwa kemiringan sebenarnya adalah nol, Anda dapat menggunakan algoritma berikut:

Hitung statistik uji yang sama dengan rasio , yang mematuhi distribusi dengan derajat kebebasan, di mana kesalahan standar koefisien


,

- estimasi varians dari residual.

Biasanya, jika tingkat signifikansi yang dicapai adalah hipotesis nol ditolak.


di mana adalah titik persentase dari distribusi dengan derajat kebebasan yang memberikan probabilitas uji dua sisi

Ini adalah interval yang mengandung kemiringan umum dengan probabilitas 95%.

Untuk sampel besar, misalkan kita dapat memperkirakan dengan nilai 1,96 (yaitu, statistik uji akan cenderung berdistribusi normal)

Evaluasi Kualitas Regresi Linier: Koefisien Determinasi R 2

Karena hubungan linier dan kami mengharapkan perubahan sebagai perubahan , dan kami menyebutnya variasi yang disebabkan atau dijelaskan oleh regresi. Variasi residual harus sekecil mungkin.

Jika demikian, maka sebagian besar variasi akan dijelaskan oleh regresi, dan titik-titik akan terletak dekat dengan garis regresi, yaitu. garis cocok dengan data dengan baik.

Proporsi varians total yang dijelaskan oleh regresi disebut koefisien determinasi, biasanya dinyatakan sebagai persentase dan dilambangkan R2(dalam regresi linier berpasangan, ini adalah nilainya r2, kuadrat dari koefisien korelasi), memungkinkan Anda menilai kualitas persamaan regresi secara subyektif.

Selisihnya adalah persentase varians yang tidak dapat dijelaskan dengan regresi.

Tanpa tes formal untuk mengevaluasi, kita terpaksa mengandalkan penilaian subjektif untuk menentukan kualitas kecocokan garis regresi.

Menerapkan Garis Regresi ke Prakiraan

Anda dapat menggunakan garis regresi untuk memprediksi nilai dari nilai dalam rentang yang diamati (jangan pernah memperkirakan di luar batas ini).

Kami memprediksi rata-rata untuk yang dapat diamati yang memiliki nilai tertentu dengan mensubstitusi nilai tersebut ke dalam persamaan garis regresi.

Jadi, jika memprediksi sebagai Kami menggunakan nilai prediksi ini dan kesalahan standarnya untuk memperkirakan interval kepercayaan untuk rata-rata populasi yang sebenarnya.

Mengulangi prosedur ini untuk nilai yang berbeda memungkinkan Anda membangun batas kepercayaan untuk baris ini. Ini adalah band atau area yang berisi garis yang benar, misalnya, dengan tingkat kepercayaan 95%.

Rencana regresi sederhana

Desain regresi sederhana berisi satu prediktor kontinu. Jika terdapat 3 kasus dengan nilai prediktor P , seperti 7, 4 dan 9, dan desain termasuk efek orde pertama P , maka matriks desain X akan menjadi

dan persamaan regresi menggunakan P untuk X1 terlihat seperti

Y = b0 + b1 P

Jika desain regresi sederhana mengandung efek orde yang lebih tinggi pada P , seperti efek kuadrat, maka nilai pada kolom X1 dalam matriks desain akan dipangkatkan ke dua:

dan persamaannya akan berbentuk

Y = b0 + b1 P2

Metode pengkodean yang dibatasi sigma dan overparameter tidak berlaku untuk desain regresi sederhana dan desain lain yang hanya berisi prediktor kontinu (karena tidak ada prediktor kategoris). Terlepas dari metode pengkodean yang dipilih, nilai variabel kontinu bertambah dengan kekuatan yang sesuai dan digunakan sebagai nilai untuk variabel X. Dalam hal ini, tidak ada konversi yang dilakukan. Selain itu, saat menjelaskan rencana regresi, Anda dapat menghilangkan pertimbangan matriks rencana X, dan bekerja hanya dengan persamaan regresi.

Contoh: Analisis Regresi Sederhana

Contoh ini menggunakan data yang disediakan dalam tabel:

Beras. 3. Tabel data awal.

Data tersebut didasarkan pada perbandingan sensus tahun 1960 dan 1970 di 30 kabupaten yang dipilih secara acak. Nama kabupaten direpresentasikan sebagai nama observasi. Informasi mengenai masing-masing variabel disajikan di bawah ini:

Beras. 4. Tabel spesifikasi variabel.

Objek penelitian

Untuk contoh ini, korelasi antara tingkat kemiskinan dan kekuatan yang memprediksi persentase keluarga yang berada di bawah garis kemiskinan akan dianalisis. Oleh karena itu, kita akan memperlakukan variabel 3 (Pt_Poor ) sebagai variabel terikat.

Seseorang dapat mengajukan hipotesis: perubahan populasi dan persentase keluarga yang berada di bawah garis kemiskinan saling berkaitan. Tampaknya masuk akal untuk mengharapkan bahwa kemiskinan menyebabkan arus keluar penduduk, maka akan ada korelasi negatif antara persentase orang di bawah garis kemiskinan dan perubahan populasi. Oleh karena itu, kita akan memperlakukan variabel 1 (Pop_Chng ) sebagai variabel prediktor.

Lihat hasil

Koefisien regresi

Beras. 5. Koefisien regresi Pt_Poor pada Pop_Chng.

Di persimpangan baris Pop_Chng dan Param. koefisien non-standar untuk regresi Pt_Poor pada Pop_Chng adalah -0,40374 . Artinya, untuk setiap penurunan satu unit penduduk, maka terjadi peningkatan angka kemiskinan sebesar 0,40374. Batas kepercayaan atas dan bawah (default) 95% untuk koefisien non-standar ini tidak termasuk nol, sehingga koefisien regresi signifikan pada tingkat p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribusi variabel

Koefisien korelasi dapat menjadi terlalu tinggi atau terlalu rendah secara signifikan jika ada outlier besar dalam data. Mari kita periksa distribusi variabel dependen Pt_Poor menurut county. Untuk melakukan ini, kita akan membangun histogram dari variabel Pt_Poor.

Beras. 6. Histogram variabel Pt_Poor.

Seperti yang Anda lihat, distribusi variabel ini sangat berbeda dari distribusi normal. Namun, meskipun dua kabupaten (dua kolom sebelah kanan) memiliki persentase keluarga yang berada di bawah garis kemiskinan lebih tinggi daripada yang diperkirakan dalam distribusi normal, mereka tampaknya "berada di dalam kisaran".

Beras. 7. Histogram variabel Pt_Poor.

Penilaian ini agak subjektif. Aturan praktisnya adalah bahwa outlier harus dipertimbangkan jika pengamatan (atau pengamatan) tidak termasuk dalam interval (rata-rata ± 3 kali standar deviasi). Dalam hal ini, analisis perlu diulang dengan dan tanpa outlier untuk memastikan bahwa mereka tidak memiliki efek serius pada korelasi antara anggota populasi.

petak sebar

Jika salah satu hipotesis adalah apriori tentang hubungan antara variabel yang diberikan, maka akan berguna untuk memeriksanya pada plot dari scatterplot yang sesuai.

Beras. 8. Gambar sebar.

Scatterplot menunjukkan korelasi negatif yang jelas (-.65) antara kedua variabel. Ini juga menunjukkan interval kepercayaan 95% untuk garis regresi, yaitu, dengan probabilitas 95% garis regresi melewati antara dua kurva putus-putus.

Kriteria signifikansi

Beras. 9. Tabel yang memuat kriteria signifikansi.

Pengujian koefisien regresi Pop_Chng menegaskan bahwa Pop_Chng sangat terkait dengan Pt_Poor , p<.001 .

Hasil

Contoh ini menunjukkan bagaimana menganalisis rencana regresi sederhana. Interpretasi koefisien regresi non-standar dan standar juga disajikan. Pentingnya mempelajari distribusi respon dari variabel dependen dibahas, dan teknik untuk menentukan arah dan kekuatan hubungan antara prediktor dan variabel dependen ditunjukkan.