Korelasi linier berganda. Koefisien korelasi

Inti dari metode peramalan kausal adalah untuk membangun hubungan matematis antara variabel yang dihasilkan dan faktor.

Kondisi yang diperlukan untuk penerapan metode peramalan kausal adalah ketersediaan sejumlah besar data. Jika hubungan antar variabel dapat digambarkan secara matematis dengan benar, maka akurasi peramalan kausal akan cukup tinggi.
Metode peramalan kausal meliputi:


  • model regresi multivariat,

  • pemodelan simulasi.
Metode peramalan kausal yang paling umum adalah model regresi multivariat. .

1.4.1 Model regresi multivariat

Model regresi multivariat adalah persamaan dengan beberapa variabel bebas.

Untuk membangun model regresi multivariat, berbagai fungsi dapat digunakan, yang paling umum adalah ketergantungan linier dan daya:

Dalam model linier, parameter(b 1 , b 2 , … b n) diinterpretasikan sebagai pengaruh masing-masing variabel bebas terhadap nilai prediksi jika semua variabel bebas lainnya sama dengan nol.

PADA model kekuatan parameternya adalah koefisien elastisitas. Mereka menunjukkan berapa persen hasil (y) akan berubah rata-rata dengan perubahan faktor yang sesuai sebesar 1%, sedangkan tindakan faktor lain tetap tidak berubah. Untuk menghitung parameter persamaan regresi berganda juga digunakan metode kuadrat terkecil.

Saat membangun model regresi, kualitas data memainkan peran yang menentukan. Pengumpulan data menciptakan dasar untuk prakiraan, sehingga ada sejumlah persyaratan dan aturan yang harus diperhatikan saat mengumpulkan data.


  1. Pertama-tama, data harus tampak, yaitu diterima sebagai hasil pengukuran, bukan perhitungan.

  1. Kedua, dari array data itu perlu mengecualikan duplikat dan data yang sangat berbeda. Semakin banyak data yang tidak berulang dan semakin homogen populasinya, semakin baik persamaannya. Nilai yang sangat berbeda dipahami sebagai pengamatan yang tidak sesuai dengan deret umum. Misalnya, data upah untuk pekerja ada dalam empat dan lima digit (7.000, 10.000, 15.000), tetapi satu angka enam digit (250.000) ditemukan. Jelas ini adalah sebuah kesalahan.

  1. Aturan ketiga (persyaratan) adalah jumlah data yang cukup besar. Ahli statistik tidak setuju tentang berapa banyak data yang dibutuhkan untuk membangun persamaan yang baik. Menurut beberapa, data itu perlu 4-6 kali lebih banyak sejumlah faktor. Yang lain mengklaim bahwa setidaknya 10 kali lebih banyak sejumlah faktor, maka hukum bilangan besar, yang bertindak dengan kekuatan penuh, memastikan pembayaran yang efektif dari penyimpangan acak dari sifat hubungan yang teratur.

Membangun model regresi multivariat dalamNONAunggul
Di spreadsheet Excel, hanya mungkin untuk membangun linier model regresi multivariat.
, (1.19)
Untuk melakukan ini, pilih "Analisis data", dan kemudian di jendela yang muncul - alat "regresi"


Gambar 1.45 - Kotak dialog alat "Regresi"
Di jendela yang muncul, Anda perlu mengisi sejumlah bidang, termasuk:


  • interval masukan kamu – rentang data, dari satu kolom, yang berisi nilai variabel Y yang dihasilkan.

  • Interval masukan X adalah rentang data yang berisi nilai-nilai variabel faktor.

Jika baris pertama atau kolom pertama dari interval input berisi heading, maka Anda harus mencentang kotak "tag" .

Default diterapkan 95% tingkat keandalan. Jika Anda ingin mengatur tingkat yang berbeda, pilih kotak centang dan masukkan tingkat keandalan yang diinginkan di bidang di sebelahnya.

kotak centang "Nol Konstan" perlu diperiksa hanya jika Anda ingin mendapatkan persamaan regresi tanpa intersep sebuah, sehingga garis regresi melewati titik asal.
Keluaran hasil perhitungan dapat diatur dalam 3 cara:


  • di rentang sel lembar kerja ini (untuk ini di lapangan "Rentang Keluaran" tentukan sel kiri atas rentang tempat hasil perhitungan akan ditampilkan);

  • pada lembar kerja baru (Anda dapat memasukkan nama yang diinginkan dari lembar ini di bidang di sebelahnya);

  • di buku kerja baru .

kotak centang "Tetap" dan "Standar Tetap" memerintahkan mereka untuk dimasukkan dalam kisaran output.
Untuk memplot residual untuk setiap variabel independen, centang kotak Grafik sisa.Tetap atau dikenal sebagai kesalahan prediksi. Mereka didefinisikan sebagai perbedaan antara nilai Y yang sebenarnya dan yang diprediksi.
Menafsirkan Plot Sisa
Seharusnya tidak ada pola dalam grafik residual. Jika suatu pola dilacak, maka ini berarti bahwa model tersebut tidak mencakup beberapa yang tidak kita ketahui, tetapi faktor yang bertindak secara alami, yang tidak ada datanya.

Saat mencentang kotak "Pemilihan Jadwal" serangkaian grafik akan ditampilkan yang menunjukkan seberapa baik garis regresi teoretis cocok dengan yang diamati, yaitu. data yang sebenarnya.

Menafsirkan Grafik Pengambilan
Di Excel, pada bagan pilihan, titik merah menunjukkan nilai teoretis kamu, titik biru - data awal. Jika titik merah tumpang tindih dengan titik biru, maka ini secara visual menunjukkan persamaan regresi yang berhasil.
Langkah yang diperlukan dalam peramalan berdasarkan model regresi multivariat adalah penilaian signifikansi statistik dari persamaan regresi, yaitu. kesesuaian persamaan regresi yang dibangun untuk digunakan dalam peramalan. Untuk mengatasi masalah ini, MS Excel menghitung sejumlah koefisien. Yaitu:


  1. Koefisien korelasi berganda

Ini mencirikan keketatan dan arah hubungan antara hasil dan beberapa variabel faktor. Dengan ketergantungan dua faktor, koefisien korelasi ganda dihitung dengan rumus:
, (1.20)


  1. Koefisien determinasi berganda ( R 2 ).

R 2 adalah proporsi variasi nilai teoritis relatif terhadap nilai aktual y, dijelaskan oleh faktor-faktor yang termasuk dalam model. Sisa nilai teoretis bergantung pada faktor lain yang tidak terlibat dalam model. R 2 dapat mengambil nilai dari 0 hingga 1. Jika , maka kualitas modelnya tinggi. Indikator ini sangat berguna untuk membandingkan beberapa model dan memilih yang terbaik.


  1. Koefisien determinasi yang dinormalisasi R 2

Indikator R 2 memiliki kelemahan, terdiri dari kenyataan bahwa nilai koefisien determinasi yang besar dapat dicapai karena jumlah pengamatan yang sedikit. dinormalisasi memberikan informasi tentang nilai apa yang bisa Anda dapatkan dalam kumpulan data lain yang jauh lebih besar daripada dalam kasus ini.

Normalisasi dihitung dengan rumus:

, (1.21)

di mana adalah koefisien determinasi berganda yang dinormalisasi,

Koefisien determinasi berganda,

Volume penduduk,

Jumlah variabel faktor.


  1. kesalahan standar regresi menunjukkan perkiraan jumlah kesalahan prediksi. Ini digunakan sebagai besaran utama untuk mengukur kualitas model yang diestimasi. Dihitung dengan rumus:
, (1.22)

di mana adalah jumlah kuadrat dari residu,

Jumlah derajat kebebasan residu.
Artinya, kesalahan standar regresi menunjukkan nilai kuadrat kesalahan per satu derajat kebebasan.


HASIL

Statistik regresi

Beberapa R

0.973101

R-kuadrat

0.946926

R-kuadrat yang dinormalisasi

0.940682

kesalahan standar

0.59867

Pengamatan

20

Analisis varians

df

SS

NONA

F

Signifikansi F

Regresi

2

108.7071

54.35355

151.6535

1.45E-11

Sisa

17

6.092905

0.358406

Total

19

114.8

Kemungkinan

kesalahan standar

t-statistik

Nilai-P

bawah 95%

95% teratas

Bawah 95,0%

95,0% teratas

persimpangan-Y

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

Metode analisis varians terdiri dari penguraian jumlah total deviasi kuadrat dari variabel pada dari rata-rata menjadi dua bagian:


  1. dijelaskan dengan regresi (atau faktorial),

  2. sisa.
, (1.2 3)
Kesesuaian model regresi untuk prediksi tergantung pada seberapa banyak variasi total dari sifat tersebut kamu menjelaskan variasi yang dijelaskan oleh regresi. Jelas, jika jumlah deviasi kuadrat yang dijelaskan oleh regresi lebih besar daripada residual, maka kesimpulan dibuat tentang signifikansi statistik dari persamaan regresi. Ini setara dengan fakta bahwa koefisien determinasi mendekati satu.
Penunjukan dalam tabel "Analisis varians":
Kolom kedua dari tabel disebut dan berarti jumlah derajat kebebasan. Untuk varians total, jumlah derajat kebebasannya adalah: , untuk varians faktor (atau varians yang dijelaskan oleh regresi), , untuk varians residual.

di mana n adalah jumlah pengamatan,

m adalah jumlah variabel faktorial dari model.
Kolom ketiga dari tabel disebut . Ini mewakili jumlah deviasi kuadrat. Jumlah total deviasi kuadrat ditentukan oleh rumus:

, (1.24)
Faktor jumlah kuadrat:

, (1.26)
Kolom keempat disebut - nilai rata-rata deviasi kuadrat. Ditentukan oleh rumus:

Dengan bantuan kriteria-F Fisher, signifikansi statistik dari koefisien determinasi persamaan regresi ditentukan. Untuk ini, hipotesis nol diajukan, yang menyatakan bahwa antara variabel yang dihasilkan dan faktor tidak ada koneksi. Ini hanya mungkin jika semua parameter persamaan regresi linier berganda dan koefisien korelasi sama dengan nol.

Untuk menguji hipotesis ini, perlu menghitung nilai sebenarnya dari Fisher's F-test dan membandingkannya dengan tabel. Nilai aktual dari kriteria-F dihitung dengan rumus:

, (1.28)

Dipilih dari tabel statistik khusus oleh:


  • diberikan tingkat signifikansi () dan

  • jumlah derajat kebebasan.

Di MS Excel, nilai tabular dari kriteria-F dapat ditentukan menggunakan fungsi: = FINV(probabilitas; derajat kebebasan1; derajat kebebasan2)

Misalnya: =FDISP(0.05;df1;df2)
Tingkat signifikansi 1 dipilih untuk yang sama di mana parameter model regresi dihitung. Standarnya adalah 95%.

Jika , maka hipotesis yang diajukan ditolak dan signifikansi statistik persamaan regresi diakui. Dalam kasus prakiraan yang sangat penting, direkomendasikan untuk meningkatkan nilai tabel kriteria-F sebanyak 4 kali, yaitu, kondisinya diperiksa:
=151.65; = 3.59
Nilai yang dihitung secara signifikan melebihi nilai yang ditabulasikan. Artinya koefisien determinasi berbeda nyata dengan nol, sehingga hipotesis tidak adanya ketergantungan regresi harus ditolak.
Sekarang mari kita evaluasi signifikansi koefisien regresi berdasarkan t-Kriteria siswa. Hal ini memungkinkan Anda untuk menentukan variabel faktor (x) mana yang memiliki dampak terbesar pada variabel yang dihasilkan (y).

Kesalahan standar biasanya dilambangkan dengan . Subskrip menunjukkan parameter persamaan regresi yang kesalahannya dihitung.

Dihitung dengan rumus:

, (1.29)

di mana - RMS untuk variabel yang dihasilkan,

RMS untuk fitur tersebut,

Koefisien determinasi untuk persamaan berganda

regresi,

Koefisien determinasi ketergantungan faktor dengan

semua faktor lain dalam persamaan.

Jumlah derajat kebebasan untuk jumlah sisa kuadrat

penyimpangan.
Di MS Excel, kesalahan standar dihitung secara otomatis (terletak di kolom ke-3 dari tabel ke-3).
nilai sesungguhnyat-Kriteria siswa di MS Excel terletak di kolom ke-4 dari tabel ke-3 dan disebut t-statistik.
(kolom ke-4) = (kolom ke-2) / (kolom ke-3)

t-statistik = Koefisien/Kesalahan standar
Nilai tabelt-Kriteria siswa tergantung pada tingkat signifikansi yang diterima (biasanya ; 0,05; 0,01) dan jumlah derajat kebebasan .

di mana n adalah jumlah unit populasi,

m adalah jumlah faktor dalam persamaan.
Di MS Excel, nilai tabular kriteria Siswa dapat ditentukan menggunakan fungsi:

STUDRASP(probabilitas; jumlah derajat kebebasan)
Contoh: =STUDISP(0.05,7)
Jika , maka disimpulkan bahwa koefisien persamaan regresi signifikan secara statistik (reliable) dan dapat dimasukkan ke dalam model serta digunakan untuk peramalan.

1.4.2 Metode simulasi Monte Carlo

Metode simulasi mendapatkan namanya untuk menghormati kota Monte Carlo, yang terletak di Kerajaan Monaco, salah satu negara terkecil di dunia, yang terletak di pantai Mediterania, dekat perbatasan Prancis dan Italia.

Metode simulasi Monte Carlo melibatkan pembangkitan nilai acak sesuai dengan batasan yang diberikan. Saat memulai pemodelan simulasi, pertama-tama, perlu untuk mengembangkan model ekonomi dan matematika (EMM) dari indikator yang diprediksi, yang mencerminkan hubungan antara variabel faktor, serta tingkat dan sifat pengaruhnya terhadap hasil. Karena, dalam kondisi pasar modern, subjek hubungan ekonomi secara simultan dipengaruhi oleh banyak faktor yang berbeda sifat dan arahnya, dan tingkat pengaruhnya tidak deterministik, tampaknya perlu untuk membagi variabel EMM menjadi dua kelompok: stokastik. dan deterministik;

Selanjutnya, Anda harus menentukan jenis distribusi probabilitas untuk setiap variabel stokastik dan parameter input yang sesuai, mensimulasikan nilai variabel stokastik menggunakan generator angka acak MS Excel atau perangkat lunak lainnya.

Alat "pembuatan angka acak" tersedia untuk pengguna MS Excel 2007 setelah mengaktifkan add-in Paket analisis. Urutan aktivasi add-on dijelaskan di atas (lihat halaman 10, gbr. 1.5-1.8). Untuk menjalankan simulasi di menu DATA item harus dipilih "Analisis data", di kotak dialog yang muncul, pilih alat dari daftar "Pembuatan Angka Acak" dan klik OK.

Gambar 1.46 - Antarmuka menu analisis data
Pada kotak dialog yang muncul, Anda harus memilih jenis distribusi probabilitas untuk setiap variabel stokastik dan mengatur parameter input yang sesuai.

Gambar 1.47 - Kotak dialog penghasil angka acak
Tahap ini adalah salah satu yang paling sulit, oleh karena itu, ketika melakukannya, perlu menggunakan pengetahuan dan pengalaman para ahli. Memilih Jenis Distribusi Probabilitas juga dapat dilakukan atas dasar informasi statistik yang tersedia. Dalam praktiknya, jenis distribusi probabilitas seperti normal, segitiga dan seragam paling sering digunakan.

Distribusi normal (atau hukum Moivre-Gauss-Laplace) mengasumsikan bahwa varian dari parameter yang diprediksi condong ke arah nilai rata-rata. Nilai variabel yang berbeda secara signifikan dari mean, yaitu terletak di "ekor" distribusi, memiliki probabilitas rendah.

distribusi segitiga adalah turunan dari distribusi normal dan mengasumsikan distribusi yang meningkat secara linier ketika mendekati rata-rata.

Distribusi seragam digunakan dalam kasus ketika semua nilai indikator variabel memiliki probabilitas realisasi yang sama.

Dengan pentingnya variabel dan ketidakmungkinan untuk memilih hukum distribusi dapat dilihat dari segi distribusi diskrit. Jenis distribusi probabilitas yang tercantum di atas memerlukan definisi parameter input yang disajikan pada Tabel 1.11
Tabel 1.11 - Parameter input dari jenis utama distribusi probabilitas


Jenis probabilistik

distribusi


Parameter masukan

1 Distribusi normal

  • berarti;

  • standar deviasi;

2 Distribusi segitiga

  • berarti;


3 Distribusi merata

  • batas kisaran nilai yang mungkin;

4 Distribusi diskrit

  • nilai spesifik dari variabel;

  • sesuai dengan probabilitas yang diberikan.

Sebagai hasil dari serangkaian percobaan, distribusi nilai variabel stokastik akan diperoleh, atas dasar itu nilai indikator yang diprediksi harus dihitung.

Langkah selanjutnya yang diperlukan adalah melakukan analisis ekonomi dan statistik dari hasil simulasi, di mana disarankan untuk menghitung karakteristik statistik berikut:


  • berarti;

  • standar deviasi;

  • penyebaran;

  • nilai minimum dan maksimum;

  • kisaran fluktuasi;

  • koefisien asimetri;

  • kelebihan.
Indikator-indikator di atas dapat digunakan untuk menguji hipotesis distribusi normal. Jika hipotesis dikonfirmasi, aturan "tiga sigma" dapat digunakan untuk membuat perkiraan interval. Aturan tiga sigma menyatakan bahwa jika variabel acak X tunduk pada hukum distribusi normal dengan parameter dan , hampir pasti bahwa nilainya berada dalam interval , yaitu . Untuk meningkatkan kejelasan dan menyederhanakan interpretasi, disarankan untuk membangun histogram.


Gambar 1.48 - Histogram nilai indikator yang diprediksi

Pelaksanaan tahapan-tahapan tersebut akan memungkinkan untuk memperoleh perkiraan probabilistik dari nilai-nilai indikator yang diprediksi (perkiraan interval).

Saat ini, setiap orang yang setidaknya sedikit tertarik dengan data mining mungkin pernah mendengar tentang regresi linier sederhana. Ini telah ditulis tentang Habré, dan Andrew Ng juga berbicara secara mendetail dalam kursus pembelajaran mesinnya yang terkenal. Regresi linier adalah salah satu metode pembelajaran mesin dasar dan paling sederhana, tetapi metode untuk menilai kualitas model yang dibangun sangat jarang disebutkan. Pada artikel ini, saya akan mencoba sedikit memperbaiki penghilangan yang mengganggu ini dengan contoh penguraian hasil dari fungsi summary.lm() dalam bahasa R. Dalam melakukannya, saya akan mencoba memberikan rumus yang diperlukan, jadi semua perhitungan dapat dengan mudah diprogram dalam bahasa lain. Artikel ini ditujukan bagi mereka yang telah mendengar bahwa adalah mungkin untuk membangun regresi linier, tetapi belum menemukan prosedur statistik untuk menilai kualitasnya.

Model regresi linier

Jadi, misalkan ada beberapa variabel acak independen X1, X2, ..., Xn (prediktor) dan variabel Y tergantung padanya (diasumsikan bahwa semua transformasi prediktor yang diperlukan telah dibuat). Selain itu, kami berasumsi bahwa ketergantungannya linier dan kesalahan terdistribusi normal, mis.

Dimana I adalah matriks identitas kuadrat n x n.

Jadi, kami memiliki data yang terdiri dari k pengamatan nilai Y dan Xi dan kami ingin memperkirakan koefisien. Metode standar untuk menemukan estimasi koefisien adalah metode kuadrat terkecil. Dan solusi analitik yang dapat diperoleh dengan menerapkan metode ini terlihat seperti ini:

di mana b dengan cap - estimasi vektor koefisien, kamu adalah vektor nilai variabel terikat, dan X adalah matriks berukuran k x n+1 (n adalah jumlah prediktor, k adalah jumlah pengamatan), di mana kolom pertama terdiri dari satu, kolom kedua - nilai prediktor pertama, ketiga - kedua, dan seterusnya, dan baris sesuai dengan pengamatan yang ada.

Fungsi ringkasan.lm() dan evaluasi hasil

Sekarang perhatikan contoh membangun model regresi linier dalam bahasa R:
> perpustakaan (jauh) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >ringkasan(lm1) Panggilan: lm(rumus = Spesies ~ Area + Ketinggian + Terdekat + Scruz + Berdekatan, data = gala) Residuals: Min 1Q Median 3Q Max -111.679 -34.898 -7.862 33.460 182.584 Koefisien: Estimasi Std. Error nilai t Pr (> | t |) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz 0.05470. 0,017700 -4,226 0,000297 *** --- Signif. kode: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Kesalahan standar residual: 60,98 pada 24 derajat kebebasan Kelipatan R-kuadrat: 0,7658, R-kuadrat yang Disesuaikan: 0,7171 F- statistik: 15,7 pada 5 dan 24 DF, nilai-p: 6,838e-07
Tabel gala berisi beberapa data tentang 30 Kepulauan Galapagos. Kami akan mempertimbangkan model di mana Spesies - jumlah spesies tanaman yang berbeda di pulau itu secara linier tergantung pada beberapa variabel lain.

Pertimbangkan output dari fungsi summary.lm().
Pertama datang garis yang mengingatkan bagaimana model itu dibangun.
Kemudian muncul informasi tentang distribusi residual: minimum, kuartil pertama, median, kuartil ketiga, maksimum. Pada titik ini, akan berguna tidak hanya untuk melihat beberapa kuantil dari residu, tetapi juga untuk memeriksa normalitasnya, misalnya, menggunakan uji Shapiro-Wilk.
Berikutnya - yang paling menarik - informasi tentang koefisien. Sedikit teori diperlukan di sini.
Pertama kita tulis hasil sebagai berikut:

di mana sigma kuadrat dengan topi adalah penaksir yang tidak bias untuk kuadrat sigma nyata. Di Sini b adalah vektor nyata dari koefisien, dan epsilon yang dibatasi adalah vektor residu, jika kita mengambil perkiraan kuadrat terkecil sebagai koefisien. Artinya, dengan asumsi bahwa kesalahan terdistribusi normal, vektor koefisien juga akan didistribusikan secara normal di sekitar nilai sebenarnya, dan variansnya dapat diestimasi tanpa bias. Ini berarti bahwa Anda dapat menguji hipotesis untuk kesetaraan koefisien ke nol, dan oleh karena itu periksa signifikansi prediktor, yaitu, apakah nilai Xi benar-benar sangat memengaruhi kualitas model yang dibangun.
Untuk menguji hipotesis ini, kita memerlukan statistik berikut, yang memiliki distribusi Student jika nilai sebenarnya dari koefisien bi adalah 0:

di mana
adalah kesalahan standar dari estimasi koefisien, dan t(k-n-1) adalah distribusi Student dengan k-n-1 derajat kebebasan.

Kami sekarang siap untuk melanjutkan parsing output dari fungsi summary.lm().
Jadi, inilah perkiraan koefisien kuadrat terkecil, kesalahan standarnya, dan t-statistik dan nilai-p untuk itu. Biasanya, nilai-p dibandingkan dengan beberapa ambang yang dipilih sebelumnya yang cukup kecil, seperti 0,05 atau 0,01. Dan jika nilai p-statistik kurang dari ambang batas, maka hipotesis ditolak, jika lebih, sayangnya, tidak ada yang dapat dikatakan. Biarkan saya mengingatkan Anda bahwa dalam kasus ini, karena distribusi Student simetris sekitar 0, maka nilai p akan sama dengan 1-F(|t|)+F(-|t|), di mana F adalah distribusi Student fungsi dengan k-n-1 derajat kebebasan . Juga, R dengan baik menandai dengan tanda bintang koefisien signifikan yang nilai p-nya cukup kecil. Artinya, koefisien-koefisien yang sangat kecil kemungkinannya menjadi 0. Pada baris Signif. kode hanya berisi penguraian tanda bintang: jika ada tiga, maka nilai p adalah dari 0 hingga 0,001, jika ada dua, maka dari 0,001 hingga 0,01, dan seterusnya. Jika tidak ada ikon, maka nilai p lebih besar dari 0,1.

Dalam contoh kami, kami dapat mengatakan dengan sangat pasti bahwa prediktor Elevation dan Adjacent benar-benar mungkin mempengaruhi nilai Spesies, tetapi tidak ada yang pasti yang dapat dikatakan tentang prediktor lainnya. Biasanya, dalam kasus seperti itu, prediktor dihapus satu per satu dan melihat bagaimana indikator model lain berubah, misalnya, BIC atau Adjusted R-squared, yang akan dianalisis nanti.

Nilai kesalahan standar sisa sesuai dengan perkiraan sederhana sigma dengan batas, dan derajat kebebasan dihitung sebagai k-n-1.

Dan sekarang statistik terpenting, yang pertama-tama patut dilihat: R-kuadrat dan Disesuaikan R-kuadrat:

di mana Yi adalah nilai Y nyata dalam setiap pengamatan, Yi dengan cap adalah nilai yang diprediksi oleh model, Y dengan batang adalah rata-rata dari semua nilai Yi nyata.

Mari kita mulai dengan statistik R-kuadrat, atau, seperti yang kadang-kadang disebut, koefisien determinasi. Ini menunjukkan bagaimana varians kondisional model berbeda dari varians nilai nyata Y. Jika koefisien ini mendekati 1, maka varians kondisional model cukup kecil dan sangat mungkin model tersebut cocok dengan model. datanya dengan baik. Jika koefisien R-kuadrat jauh lebih kecil, misalnya, kurang dari 0,5, maka, dengan tingkat kepercayaan yang tinggi, model tersebut tidak mencerminkan keadaan sebenarnya.

Namun, statistik R-kuadrat memiliki satu kelemahan serius: karena jumlah prediktor meningkat, statistik ini hanya dapat meningkat. Oleh karena itu, tampaknya model dengan lebih banyak prediktor lebih baik daripada model dengan lebih sedikit, bahkan jika semua prediktor baru tidak mempengaruhi variabel dependen. Di sini kita dapat mengingat prinsip pisau cukur Occam. Mengikutinya, jika memungkinkan, ada baiknya menyingkirkan prediktor yang tidak perlu dalam model, karena menjadi lebih sederhana dan lebih mudah dipahami. Untuk tujuan ini, statistik R-kuadrat yang disesuaikan diciptakan. Ini adalah R-kuadrat biasa, tetapi dengan penalti untuk sejumlah besar prediktor. Gagasan utama: jika variabel independen baru memberikan kontribusi besar terhadap kualitas model, nilai statistik ini meningkat, jika tidak, maka sebaliknya menurun.

Misalnya, pertimbangkan model yang sama seperti sebelumnya, tetapi sekarang alih-alih lima prediktor, kita akan meninggalkan dua:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >ringkasan(lm2) Panggilan: lm(rumus = Spesies ~ Ketinggian + Berdekatan, data = gala) Residu: Min 1Q Median 3Q Maks -103,41 -34,33 -11,43 22,57 203,65 Koefisien: Estimasi Std. Nilai t error Pr(>|t|) (Intercept) 1.43287 15.02469 0.095 0.924727 Elevation 0.27657 0.03176 8.707 2.53e-09 *** Berdekatan -0.06889 0.01549 -4.447 0.000134 *** --- Signif. kode: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Kesalahan standar residual: 60,86 pada 27 derajat kebebasan Kelipatan R-kuadrat: 0,7376, Penyesuaian R-kuadrat: 0,7181 F- statistik: 37,94 pada 2 dan 27 DF, nilai-p: 1,434e-08
Seperti yang Anda lihat, nilai statistik R-kuadrat mengalami penurunan, tetapi nilai R-kuadrat yang disesuaikan bahkan sedikit meningkat.

Sekarang mari kita uji hipotesis bahwa semua koefisien prediktor sama dengan nol. Artinya, hipotesis apakah nilai Y umumnya bergantung pada nilai Xi secara linier. Untuk melakukan ini, Anda dapat menggunakan statistik berikut, yang, jika hipotesis bahwa semua koefisien sama dengan nol adalah benar, memiliki

Koefisien korelasi berganda digunakan sebagai ukuran derajat keeratan hubungan statistik antara indikator yang dihasilkan (variabel terikat) kamu dan satu set variabel penjelas (independen) atau, dengan kata lain, memperkirakan kedekatan pengaruh gabungan faktor-faktor pada hasil.

Koefisien korelasi berganda dapat dihitung dari sejumlah rumus 5 , antara lain:

    menggunakan matriks koefisien korelasi berpasangan

, (3.18)

dimana r- penentu matriks koefisien korelasi berpasangan kamu,
,

r 11 - penentu matriks korelasi interfaktorial
;

. (3.19)

Untuk model di mana ada dua variabel independen, rumus (3.18) disederhanakan

. (3.20)

Kuadrat dari koefisien korelasi berganda adalah koefisien determinasi R 2. Seperti dalam kasus regresi berpasangan, R 2 menunjukkan kualitas model regresi dan mencerminkan proporsi variasi total dari sifat yang dihasilkan kamu dijelaskan dengan mengubah fungsi regresi f(x) (lihat 2.4). Selain itu, koefisien determinasi dapat ditemukan dengan rumus

. (3.21)

Namun, penggunaan R 2 dalam kasus regresi berganda tidak sepenuhnya benar, karena koefisien determinasi meningkat ketika regresi ditambahkan ke model. Ini karena varians residual berkurang ketika variabel tambahan diperkenalkan. Dan jika jumlah faktor mendekati jumlah pengamatan, maka varians residual akan menjadi nol, dan koefisien korelasi ganda, dan karenanya koefisien determinasi, akan mendekati kesatuan, meskipun dalam kenyataannya hubungan antara faktor dan hasil dan kekuatan penjelas dari persamaan regresi bisa jauh lebih rendah.

Untuk mendapatkan penilaian yang memadai tentang seberapa baik variasi sifat yang dihasilkan dijelaskan oleh variasi beberapa sifat faktor, berlaku koefisien determinasi yang disesuaikan

(3.22)

Koefisien determinasi yang disesuaikan selalu lebih kecil R 2. Selain itu, tidak seperti R 2 yang selalu positif,
juga dapat mengambil nilai negatif.

Contoh (lanjutan dari contoh 1). Mari kita hitung koefisien korelasi berganda, sesuai dengan rumus (3.20):

Nilai koefisien korelasi berganda sebesar 0,8601 menunjukkan adanya hubungan yang kuat antara biaya pengangkutan dengan berat muatan dengan jarak yang diangkut.

Koefisien determinasi sama dengan: R 2 =0,7399.

Koefisien determinasi yang disesuaikan dihitung dengan rumus (3.22):

=0,7092.

Perhatikan bahwa nilai koefisien determinasi yang disesuaikan berbeda dari nilai koefisien determinasi.

Dengan demikian, 70,9% variasi variabel dependen (biaya transportasi) dijelaskan oleh variasi variabel independen (berat kargo dan jarak transportasi). Sisanya 29,1% dari variasi variabel dependen dijelaskan oleh faktor-faktor yang tidak diperhitungkan dalam model.

Nilai koefisien determinasi yang disesuaikan cukup besar, oleh karena itu, kami dapat memperhitungkan dalam model faktor-faktor paling signifikan yang menentukan biaya transportasi.

Analisis regresi adalah metode penelitian statistik yang memungkinkan Anda untuk menunjukkan ketergantungan suatu parameter pada satu atau lebih variabel bebas. Di era pra komputer, penggunaannya cukup sulit, terutama jika menyangkut data dalam jumlah besar. Hari ini, setelah mempelajari cara membuat regresi di Excel, Anda dapat memecahkan masalah statistik yang rumit hanya dalam beberapa menit. Di bawah ini adalah contoh spesifik dari bidang ekonomi.

Jenis regresi

Konsep itu sendiri diperkenalkan ke dalam matematika pada tahun 1886. Regresi terjadi:

  • linier;
  • parabola;
  • kekuatan;
  • eksponensial;
  • hiperbolis;
  • demonstratif;
  • logaritma.

Contoh 1

Pertimbangkan masalah menentukan ketergantungan jumlah anggota tim pensiunan pada gaji rata-rata di 6 perusahaan industri.

Tugas. Di enam perusahaan, kami menganalisis gaji bulanan rata-rata dan jumlah karyawan yang keluar atas kemauan sendiri. Dalam bentuk tabel kita memiliki:

Jumlah orang yang pergi

Gaji

30000 rubel

35000 rubel

40000 rubel

45000 rubel

50000 rubel

55000 rubel

60000 rubel

Untuk masalah menentukan ketergantungan jumlah pensiunan terhadap gaji rata-rata di 6 perusahaan, model regresi berbentuk persamaan Y = a 0 + a 1 x 1 +…+a k x k , dimana x i adalah variabel yang mempengaruhi , a i adalah koefisien regresi, a k adalah jumlah faktor.

Untuk tugas ini, Y adalah indikator karyawan yang keluar, dan faktor yang mempengaruhinya adalah gaji, yang dilambangkan dengan X.

Menggunakan kemampuan spreadsheet "Excel"

Analisis regresi di Excel harus didahului dengan penerapan fungsi bawaan pada data tabular yang tersedia. Namun, untuk tujuan ini, lebih baik menggunakan add-in "Analysis Toolkit" yang sangat berguna. Untuk mengaktifkannya Anda perlu:

  • dari tab "File", buka bagian "Opsi";
  • di jendela yang terbuka, pilih baris "Add-on";
  • klik tombol "Pergi" yang terletak di bagian bawah, di sebelah kanan baris "Manajemen";
  • centang kotak di sebelah nama "Paket Analisis" dan konfirmasi tindakan Anda dengan mengklik "OK".

Jika semuanya dilakukan dengan benar, tombol yang diinginkan akan muncul di sisi kanan tab Data, terletak di atas lembar kerja Excel.

di excel

Sekarang kita memiliki semua alat virtual yang diperlukan untuk melakukan perhitungan ekonometrik, kita dapat mulai memecahkan masalah kita. Untuk ini:

  • klik tombol "Analisis Data";
  • di jendela yang terbuka, klik tombol "Regresi";
  • di tab yang muncul, masukkan rentang nilai untuk Y (jumlah karyawan yang berhenti) dan untuk X (gaji mereka);
  • Kami mengkonfirmasi tindakan kami dengan menekan tombol "Ok".

Akibatnya, program akan secara otomatis mengisi lembar baru spreadsheet dengan data analisis regresi. Catatan! Excel memiliki kemampuan untuk secara manual mengatur lokasi yang Anda inginkan untuk tujuan ini. Misalnya, bisa berupa lembar yang sama di mana nilai Y dan X berada, atau bahkan buku kerja baru yang dirancang khusus untuk menyimpan data tersebut.

Analisis hasil regresi untuk R-square

Di Excel, data yang diperoleh selama pemrosesan data dari contoh yang dipertimbangkan terlihat seperti ini:

Pertama-tama, Anda harus memperhatikan nilai R-square. Ini adalah koefisien determinasi. Dalam contoh ini, R-square = 0,755 (75,5%), yaitu, parameter yang dihitung dari model menjelaskan hubungan antara parameter yang dipertimbangkan sebesar 75,5%. Semakin tinggi nilai koefisien determinasi, semakin dapat diterapkan model yang dipilih untuk tugas tertentu. Diyakini bahwa itu benar menggambarkan situasi nyata dengan nilai R-kuadrat di atas 0,8. Jika R-kuadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analisis rasio

Angka 64.1428 menunjukkan berapa nilai Y jika semua variabel xi dalam model yang kita pertimbangkan disetel ke nol. Dengan kata lain, dapat dikatakan bahwa nilai parameter yang dianalisis juga dipengaruhi oleh faktor lain yang tidak dijelaskan dalam model tertentu.

Koefisien berikutnya -0,16285, terletak di sel B18, menunjukkan bobot pengaruh variabel X terhadap Y. Ini berarti bahwa gaji bulanan rata-rata karyawan dalam model yang dipertimbangkan mempengaruhi jumlah berhenti dengan bobot -0,16285, yaitu. tingkat pengaruhnya sama sekali kecil. Tanda "-" menunjukkan bahwa koefisien tersebut bernilai negatif. Ini jelas, karena semua orang tahu bahwa semakin tinggi gaji di perusahaan, semakin sedikit orang yang ingin memutuskan kontrak kerja atau berhenti.

Regresi berganda

Istilah ini mengacu pada persamaan koneksi dengan beberapa variabel independen yang berbentuk:

y \u003d f (x 1 + x 2 + ... x m) + , di mana y adalah fitur efektif (variabel dependen), dan x 1 , x 2 , ... x m adalah faktor faktor (variabel independen).

Estimasi Parameter

Untuk regresi berganda (MR) dilakukan dengan menggunakan metode kuadrat terkecil (OLS). Untuk persamaan linier berbentuk Y = a + b 1 x 1 +…+b m x m + , kita membangun sistem persamaan normal (lihat di bawah)

Untuk memahami prinsip metode, pertimbangkan kasus dua faktor. Kemudian kita memiliki situasi yang dijelaskan oleh rumus

Dari sini kita mendapatkan:

di mana adalah varians dari fitur terkait yang tercermin dalam indeks.

LSM dapat diterapkan pada persamaan MP pada skala yang dapat distandarisasi. Dalam hal ini, kita mendapatkan persamaan:

di mana t y , t x 1, … t xm adalah variabel standar yang nilai rata-ratanya adalah 0; i adalah koefisien regresi standar, dan simpangan bakunya adalah 1.

Harap dicatat bahwa semua i dalam hal ini disetel sebagai normal dan terpusat, sehingga perbandingannya satu sama lain dianggap benar dan dapat diterima. Selain itu, merupakan kebiasaan untuk menyaring faktor, membuang yang memiliki nilai i terkecil.

Soal menggunakan persamaan regresi linier

Misalkan ada tabel dinamika harga produk N tertentu selama 8 bulan terakhir. Penting untuk membuat keputusan tentang kelayakan membeli batchnya dengan harga 1850 rubel/t.

nomor bulan

nama bulan

harga barang N

1750 rubel per ton

1755 rubel per ton

1767 rubel per ton

1760 rubel per ton

1770 rubel per ton

1790 rubel per ton

1810 rubel per ton

1840 rubel per ton

Untuk mengatasi masalah ini di spreadsheet Excel, Anda perlu menggunakan alat Analisis Data yang sudah diketahui dari contoh di atas. Selanjutnya, pilih bagian "Regresi" dan atur parameternya. Harus diingat bahwa di bidang "Input Y interval", rentang nilai untuk variabel dependen (dalam hal ini, harga suatu produk pada bulan-bulan tertentu dalam setahun) harus dimasukkan, dan di kolom "Input Interval X" - untuk variabel independen (nomor bulan). Konfirmasikan tindakan dengan mengklik "Ok". Pada lembar baru (jika diindikasikan demikian), kami mendapatkan data untuk regresi.

Berdasarkan mereka, kami membangun persamaan linier dalam bentuk y=ax+b, di mana parameter a dan b adalah koefisien baris dengan nama nomor bulan dan koefisien dan baris "Y-persimpangan" dari lembar dengan hasil analisis regresi. Dengan demikian, persamaan regresi linier (LE) untuk masalah 3 ditulis sebagai:

Harga produk N = 11.714* nomor bulan + 1727.54.

atau dalam notasi aljabar

y = 11,714 x + 1727,54

Analisis hasil

Untuk memutuskan apakah persamaan regresi linier yang dihasilkan memadai, koefisien korelasi ganda (MCC) dan koefisien determinasi digunakan, serta uji Fisher dan uji Student. Dalam tabel Excel dengan hasil regresi, mereka muncul di bawah nama beberapa R, R-kuadrat, F-statistik dan t-statistik, masing-masing.

KMC R memungkinkan untuk menilai ketatnya hubungan probabilistik antara variabel independen dan dependen. Nilainya yang tinggi menunjukkan hubungan yang cukup kuat antara variabel "Jumlah bulan" dan "Harga barang N dalam rubel per 1 ton". Namun, sifat hubungan ini masih belum diketahui.

Kuadrat koefisien determinasi R 2 (RI) adalah karakteristik numerik dari bagian hamburan total dan menunjukkan hamburan bagian mana dari data eksperimen, yaitu. nilai variabel dependen sesuai dengan persamaan regresi linier. Dalam masalah yang sedang dipertimbangkan, nilai ini sama dengan 84,8%, yaitu, data statistik dijelaskan dengan tingkat akurasi yang tinggi dengan SD yang diperoleh.

F-statistik, juga disebut uji Fisher, digunakan untuk menilai signifikansi hubungan linier, menyangkal atau mengkonfirmasi hipotesis keberadaannya.

(Kriteria siswa) membantu mengevaluasi signifikansi koefisien dengan suku bebas dari hubungan linier. Jika nilai t-kriteria > t cr, maka hipotesis insignifikansi suku bebas persamaan linier ditolak.

Dalam masalah yang dipertimbangkan untuk anggota bebas, dengan menggunakan alat Excel, diperoleh bahwa t = 169.20903, dan p = 2.89E-12, yaitu, kami memiliki probabilitas nol bahwa hipotesis yang benar tentang tidak signifikannya anggota bebas akan ditolak. Untuk koefisien pada diketahui t=5.79405, dan p=0.001158. Dengan kata lain, probabilitas bahwa hipotesis yang benar tentang tidak signifikannya koefisien untuk yang tidak diketahui akan ditolak adalah 0,12%.

Dengan demikian, dapat dikatakan bahwa persamaan regresi linier yang dihasilkan adalah memadai.

Masalah kelayakan membeli satu blok saham

Regresi berganda di Excel dilakukan dengan menggunakan alat Analisis Data yang sama. Pertimbangkan masalah khusus yang diterapkan.

Manajemen NNN harus mengambil keputusan tentang layak tidaknya membeli 20% saham MMM SA. Biaya paket (JV) adalah 70 juta dolar AS. Spesialis NNN mengumpulkan data tentang transaksi serupa. Diputuskan untuk mengevaluasi nilai blok saham sesuai dengan parameter tersebut, dinyatakan dalam jutaan dolar AS, sebagai:

  • hutang usaha (VK);
  • omset tahunan (VO);
  • piutang (VD);
  • biaya aset tetap (SOF).

Selain itu, parameter tunggakan penggajian perusahaan (V3 P) digunakan dalam ribuan dolar AS.

Solusi menggunakan spreadsheet Excel

Pertama-tama, Anda perlu membuat tabel data awal. Ini terlihat seperti ini:

  • panggil jendela "Analisis Data";
  • pilih bagian "Regresi";
  • pada kotak "Input interval Y" masukkan range nilai variabel dependen dari kolom G;
  • klik ikon dengan panah merah di sebelah kanan jendela "Input interval X" dan pilih rentang semua nilai dari kolom B, C, D, F pada lembar.

Pilih "Lembar Kerja Baru" dan klik "Ok".

Dapatkan analisis regresi untuk masalah yang diberikan.

Pemeriksaan hasil dan kesimpulan

"Kami mengumpulkan" dari data bulat yang disajikan di atas pada lembar spreadsheet Excel, persamaan regresi:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265.844.

Dalam bentuk matematika yang lebih akrab, dapat ditulis sebagai:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265.844

Data untuk JSC "MMM" disajikan dalam tabel:

Menggantinya ke dalam persamaan regresi, mereka mendapatkan angka 64,72 juta dolar AS. Artinya, saham JSC MMM tidak boleh dibeli, karena nilainya 70 juta dolar AS agak berlebihan.

Seperti yang Anda lihat, penggunaan spreadsheet Excel dan persamaan regresi memungkinkan untuk membuat keputusan yang tepat mengenai kelayakan transaksi yang sangat spesifik.

Sekarang Anda tahu apa itu regresi. Contoh-contoh di Excel yang dibahas di atas akan membantu Anda memecahkan masalah praktis dari bidang ekonometrika.