Matriks koefisien korelasi berpasangan ditampilkan. Definisi Koefisien Korelasi Ganda di MS Excel

faktor kolinear adalah...

Dan kolinear.

4. Dalam model regresi berganda, determinan matriks koefisien korelasi berpasangan antar faktor , dan mendekati nol. Artinya faktor , dan ... merupakan faktor multikolinear.

5. Untuk model ekonometrika persamaan regresi linier berganda, matriks koefisien korelasi linier berpasangan ( kamu adalah variabel terikat; x (1),x (2), x (3), x(4)- Variabel independen):


Variabel kolinear (berhubungan erat) independen (penjelas) tidakx(2) dan x(3)

1. Diberikan tabel data awal untuk membangun model regresi ekonometrik:

variabel dummy tidak

pengalaman kerja

produktivitas tenaga kerja

2. Saat mempelajari ketergantungan konsumsi daging terhadap tingkat pendapatan dan jenis kelamin konsumen, kami dapat merekomendasikan ...

gunakan variabel dummy - jenis kelamin konsumen

membagi populasi menjadi dua: untuk konsumen perempuan dan untuk konsumen laki-laki

3. Kami mempelajari ketergantungan harga apartemen ( pada) dari tempat tinggalnya ( X) dan tipe rumah. Model ini mencakup variabel dummy yang mencerminkan jenis rumah yang dipertimbangkan: monolitik, panel, bata. Persamaan regresi diperoleh: ,
di mana ,
Persamaan regresi khusus untuk bata dan monolitik adalah ...

untuk bata tipe rumah

untuk rumah tipe monolitik

4. Saat menganalisis perusahaan industri di tiga wilayah (Republik Mari El, Republik Chuvashia, Republik Tatarstan), tiga persamaan regresi khusus dibangun:

untuk Republik Mari El;

untuk Republik Chuvashia;

untuk Republik Tatarstan.

Tunjukkan jenis variabel dummy dan persamaan dengan variabel dummy yang menggeneralisasi tiga persamaan regresi tertentu.

5. Dalam ekonometrika, variabel dummy dianggap ...

variabel yang mengambil nilai 0 dan 1

menggambarkan secara kuantitatif tanda kualitatif

1. Untuk model regresi ketergantungan pendapatan moneter rata-rata per kapita penduduk (rubel, pada) dari volume produk regional bruto (ribu rubel, x 1) dan tingkat pengangguran pada subjek (%, x 2) persamaan diperoleh. Nilai koefisien regresi untuk variabel x 2 menunjukkan bahwa dengan perubahan tingkat pengangguran sebesar 1%, pendapatan tunai rata-rata per kapita adalah ______ rubel, dengan nilai konstan produk regional bruto.

akan berubah menjadi (-1,67)

2. Dalam persamaan regresi linier berganda: , di mana biaya aset tetap (seribu rubel); – jumlah karyawan (ribuan orang); kamu- parameter volume produksi industri (seribu rubel) dengan variabel x 1, sama dengan 10.8, berarti bahwa dengan peningkatan volume aset tetap sebesar _____, volume produksi industri adalah _____ dengan jumlah karyawan yang konstan.


untuk 1 ribu rubel. … akan meningkat 10,8 ribu rubel.

3. Diketahui bahwa proporsi varians residual variabel dependen dalam varians totalnya adalah 0,2. Maka nilai koefisien determinasinya adalah ... 0.8

4. Sebuah model ekonometrik telah dibangun untuk ketergantungan laba pada penjualan satu unit produksi (gosok., pada) pada jumlah modal kerja perusahaan (seribu rubel, x 1): . Akibatnya, jumlah rata-rata keuntungan dari penjualan, yang tidak tergantung pada volume modal kerja perusahaan, adalah _____ rubel. 10,75

5. F-statistik dihitung sebagai rasio varians ______ dengan varians _______ yang dihitung per derajat kebebasan. faktorial ... sisa

1. Untuk model ekonometrik dari persamaan regresi, kesalahan model didefinisikan sebagai ______ antara nilai aktual dari variabel dependen dan nilai yang dihitungnya. Perbedaan

2. Nilai tersebut disebut ... komponen acak

3. Dalam model ekonometrik persamaan regresi, penyimpangan nilai aktual variabel terikat dari nilai yang dihitung mencirikan ... kesalahan model

4. Diketahui bahwa proporsi varians yang dijelaskan dalam varians total adalah 0,2. Maka nilai koefisien determinasinya adalah ... 0.2

5. Dengan metode kuadrat terkecil, parameter persamaan regresi linier berpasangan ditentukan dari kondisi ______ residu. meminimalkan jumlah kuadrat

1. Untuk mendeteksi autokorelasi pada residual, gunakan ...

Statistik Durbin–Watson

2. Diketahui koefisien autokorelasi dari residual orde pertama sama dengan –0,3. Juga diberikan nilai-nilai kritis dari statistik Durbin-Watson untuk sejumlah parameter tertentu dengan yang tidak diketahui dan jumlah pengamatan , . Berdasarkan karakteristik ini, kita dapat menyimpulkan bahwa ... tidak ada autokorelasi residu

Awalnya ke model pada termasuk semua komponen utama (nilai yang dihitung ditunjukkan dalam tanda kurung t-kriteria):

Kualitas model dicirikan oleh: koefisien determinasi berganda r = 0,517, kesalahan aproksimasi relatif rata-rata = 10,4%, varians residual s2= 1,79 dan F obs = 121. Mengingat fakta bahwa F obs > F cr = 2,85 pada = 0,05, v1 = 6, v2= 14, persamaan regresi signifikan dan setidaknya salah satu koefisien regresi - 1 , 2 , 3 , 4 - tidak sama dengan nol.

Jika signifikansi persamaan regresi (hipotesis H 0: 1 = 2 = 3 = 4 = 0 diperiksa pada = 0,05, maka signifikansi koefisien regresi, yaitu. hipotesis H0: β j = 0 (j= 1, 2, 3, 4), harus diperiksa pada tingkat signifikansi yang lebih besar dari 0,05, misalnya, pada = 0.1. Maka untuk = 0,1, v= 14 nilai t kr = 1,76, dan signifikan, sebagai berikut dari persamaan (53,41), adalah koefisien regresi 1 , 2 , 3 .

Mempertimbangkan bahwa komponen utama tidak berkorelasi satu sama lain, kita dapat segera mengecualikan semua koefisien yang tidak signifikan dari persamaan, dan persamaan akan berbentuk

(53.42)

Membandingkan persamaan (53,41) dan (53,42), kita melihat bahwa eliminasi komponen utama yang tidak signifikan f4 dan f5, tidak mempengaruhi nilai koefisien persamaan b 0 = 9,52, b 1 = 0,93, b2 = 0,66 dan sesuai tj (j = 0, 1, 2, 3).

Hal ini disebabkan komponen utama yang tidak berkorelasi. Di sini, persamaan regresi paralel untuk indikator awal (53,22), (53,23) dan komponen utama (53,41), (53,42) menarik.

Persamaan (53.42) signifikan karena F obs = 194 > F kr = 3,01 ditemukan pada = 0,05, v1 = 4, v2= 16. Koefisien persamaan juga signifikan, karena t j > t kr . = 1,746 sesuai dengan = 0,01, v= 16 untuk j= 0, 1, 2, 3. Koefisien determinasi r= 0,486 menunjukkan bahwa 48,6% dari variasi pada karena pengaruh dari tiga komponen utama pertama.

Persamaan (53.42) dicirikan oleh kesalahan relatif rata-rata dari aproksimasi = 9,99% dan varians residual s2 = 1,91.

Persamaan regresi pada komponen utama (53,42) memiliki sifat aproksimasi yang sedikit lebih baik dibandingkan dengan model regresi (53,23) dalam hal indikator awal: r= 0,486 > r= 0,469; = 9,99% < (X) = 10,5% dan s 2 (f) = 1,91 < s 2 (x) = 1.97. Selain itu, dalam persamaan (53.42), komponen utama adalah fungsi linier dari semua indikator input, sedangkan persamaan (53.23) hanya mencakup dua variabel ( x 1 dan x 4). Dalam beberapa kasus, kita harus memperhitungkan bahwa model (53.42) sulit untuk ditafsirkan, karena mencakup komponen utama ketiga. f 3, yang belum kami tafsirkan dan yang kontribusinya terhadap total varians dari indikator awal ( x 1 , ..., x 5) hanya 8,6%. Namun, pengecualian f 3 dari persamaan (53.42) secara signifikan memperburuk sifat pendekatan model: r= 0,349; = 12,4% dan s2(f) = 2,41. Maka disarankan untuk memilih persamaan (53,23) sebagai model regresi produktivitas.

analisis klaster

Dalam penelitian statistik, pengelompokan data primer merupakan keputusan utama tugas klasifikasi, dan oleh karena itu dasar dari semua pekerjaan lebih lanjut dengan informasi yang dikumpulkan.

Secara tradisional, masalah ini diselesaikan dengan cara berikut. Dari kumpulan fitur yang menggambarkan objek, dipilih satu, yang paling informatif, dari sudut pandang peneliti, dan data dikelompokkan sesuai dengan nilai fitur ini. Jika diharuskan untuk mengklasifikasikan menurut beberapa fitur, diurutkan di antara mereka sendiri dalam urutan kepentingan, maka pertama-tama klasifikasi dilakukan menurut fitur pertama, kemudian masing-masing kelas yang dihasilkan dibagi menjadi subkelas sesuai dengan fitur kedua, dan seterusnya. pada. Kebanyakan pengelompokan statistik kombinasional dibangun dengan cara yang sama.

Dalam kasus di mana tidak mungkin untuk merampingkan fitur klasifikasi, metode pengelompokan multidimensi yang paling sederhana digunakan - pembuatan indikator integral (indeks), yang secara fungsional bergantung pada fitur asli, dengan klasifikasi selanjutnya sesuai dengan indikator ini.

Pengembangan pendekatan ini merupakan varian klasifikasi menurut beberapa indikator generalisasi (komponen utama) yang diperoleh dengan menggunakan metode analisis faktor atau komponen.

Jika ada beberapa fitur (awal atau umum), masalah klasifikasi dapat diselesaikan dengan metode analisis klaster, yang berbeda dari metode klasifikasi multivariat lainnya tanpa adanya sampel pelatihan, yaitu. informasi apriori tentang distribusi populasi umum.

Perbedaan skema pemecahan masalah klasifikasi sangat ditentukan oleh apa yang dimaksud dengan konsep “kesamaan” dan “derajat kesamaan”.

Setelah tujuan pekerjaan dirumuskan, wajar untuk mencoba menentukan kriteria kualitas, fungsi tujuan, yang nilainya akan memungkinkan kita untuk membandingkan skema klasifikasi yang berbeda.

Dalam studi ekonomi, fungsi tujuan, sebagai aturan, harus meminimalkan beberapa parameter yang ditentukan pada satu set objek (misalnya, tujuan mengklasifikasikan peralatan dapat berupa pengelompokan yang meminimalkan total biaya waktu dan uang untuk pekerjaan perbaikan).

Dalam kasus di mana tidak mungkin untuk memformalkan tujuan masalah, kriteria untuk kualitas klasifikasi dapat berupa kemungkinan interpretasi yang berarti dari kelompok yang ditemukan.

Pertimbangkan masalah berikut. Ayo koleksi P objek, yang masing-masing dicirikan k sifat yang diukur. Koleksi ini perlu dipecah menjadi kelompok-kelompok (kelas) yang homogen dalam arti tertentu. Pada saat yang sama, praktis tidak ada informasi apriori tentang sifat distribusi k-dimensi vektor X di dalam kelas.

Grup yang diperoleh sebagai hasil dari partisi biasanya disebut cluster* (takson**, gambar), metode untuk menemukannya disebut analisis cluster (masing-masing, taksonomi numerik atau pengenalan pola dengan belajar mandiri).

* Gugus(Bahasa Inggris) - sekelompok elemen yang dicirikan oleh beberapa properti umum.

**takhop(Bahasa Inggris) - grup sistematis dari kategori apa pun.

Penting sejak awal untuk memahami dengan jelas mana dari dua masalah klasifikasi yang harus diselesaikan. Jika masalah pengetikan yang biasa diselesaikan, maka himpunan pengamatan dibagi menjadi sejumlah kecil daerah pengelompokan (misalnya, deret variasi interval dalam kasus pengamatan satu dimensi) sehingga elemen dari satu daerah tersebut adalah sebagai sedekat mungkin satu sama lain.

Solusi dari masalah lain adalah menentukan stratifikasi alami dari hasil pengamatan ke dalam kelompok-kelompok yang terdefinisi dengan baik yang terletak pada jarak tertentu satu sama lain.

Jika masalah pengetikan pertama selalu memiliki solusi, maka dalam kasus kedua mungkin ternyata himpunan pengamatan tidak menunjukkan stratifikasi alami ke dalam cluster, yaitu. membentuk satu klaster.

Meskipun banyak metode analisis klaster cukup mendasar, sebagian besar pekerjaan di mana mereka telah diusulkan berasal dari dekade terakhir. Ini dijelaskan oleh fakta bahwa solusi efisien dari masalah pencarian klaster, yang membutuhkan sejumlah besar operasi aritmatika dan logika, menjadi mungkin hanya dengan munculnya dan perkembangan teknologi komputer.

Bentuk representasi data awal yang biasa dalam masalah analisis klaster adalah matriks

setiap baris yang mewakili hasil pengukuran k fitur yang dipertimbangkan dalam salah satu objek yang diperiksa. Dalam situasi tertentu, pengelompokan objek dan pengelompokan fitur mungkin menarik. Dalam kasus di mana perbedaan antara kedua tugas ini tidak signifikan, misalnya, saat menjelaskan beberapa algoritme, kami hanya akan menggunakan istilah "objek", termasuk istilah "fitur" dalam konsep ini.

Matriks X bukan satu-satunya cara untuk merepresentasikan data dalam masalah analisis klaster. Terkadang informasi awal diberikan sebagai matriks persegi

elemen rij yang menentukan tingkat kedekatan saya-objek ke j-mu.

Sebagian besar algoritma analisis klaster sepenuhnya melanjutkan dari matriks jarak (atau kedekatan) atau memerlukan perhitungan elemen individualnya, jadi jika data disajikan dalam bentuk x, maka langkah pertama dalam memecahkan masalah menemukan cluster akan menjadi pilihan metode untuk menghitung jarak, atau kedekatan, antara objek atau fitur.

Pertanyaan tentang menentukan kedekatan antar fitur agak lebih mudah untuk dipecahkan. Sebagai aturan, analisis klaster fitur mengejar tujuan yang sama seperti analisis faktor: pemilihan kelompok fitur yang saling berhubungan yang mencerminkan aspek tertentu dari objek yang diteliti. Dalam hal ini, berbagai koefisien kopling statistik berfungsi sebagai ukuran kedekatan.


Informasi serupa.


Untuk menentukan derajat ketergantungan antar beberapa indikator digunakan koefisien korelasi berganda. Mereka kemudian diringkas dalam tabel terpisah, yang disebut matriks korelasi. Nama-nama baris dan kolom dari matriks semacam itu adalah nama-nama parameter yang ketergantungannya satu sama lain ditetapkan. Koefisien korelasi yang sesuai terletak di persimpangan baris dan kolom. Mari cari tahu bagaimana Anda bisa membuat perhitungan serupa menggunakan alat Excel.

Merupakan kebiasaan untuk menentukan tingkat hubungan antara berbagai indikator sebagai berikut, tergantung pada koefisien korelasi:

  • 0 - 0,3 - tidak ada koneksi;
  • 0,3 - 0,5 - koneksi lemah;
  • 0,5 - 0,7 - koneksi rata-rata;
  • 0,7 - 0,9 - tinggi;
  • 0,9 - 1 - sangat kuat.

Jika koefisien korelasinya negatif, maka ini berarti hubungan parameternya berbanding terbalik.

Untuk menyusun matriks korelasi di Excel, satu alat digunakan, termasuk dalam paket "Analisis data". Itulah yang disebut - "Korelasi". Mari kita lihat bagaimana ini dapat digunakan untuk menghitung skor korelasi berganda.

Langkah 1: Aktifkan Paket Analisis

Harus segera dikatakan bahwa paket default "Analisis data" dengan disabilitas. Karena itu, sebelum melanjutkan dengan prosedur untuk menghitung koefisien korelasi secara langsung, Anda harus mengaktifkannya. Sayangnya, tidak semua pengguna tahu bagaimana melakukan ini. Karena itu, kami akan fokus pada masalah ini.


Setelah tindakan yang ditentukan, paket alat "Analisis data" akan diaktifkan.

Tahap 2: perhitungan koefisien

Sekarang Anda dapat melanjutkan langsung ke perhitungan koefisien korelasi berganda. Mari kita gunakan contoh tabel indikator produktivitas tenaga kerja, rasio modal-tenaga kerja dan rasio power-to-weight di berbagai perusahaan untuk menghitung koefisien korelasi berganda dari faktor-faktor ini menggunakan contoh di bawah ini.


Tahap 3: analisis hasil

Sekarang mari kita cari tahu bagaimana memahami hasil yang kita dapatkan dalam proses pemrosesan data oleh alat "Korelasi" dalam program Excel.

Seperti yang dapat kita lihat dari tabel, koefisien korelasi rasio modal-tenaga kerja (Kolom 2) dan rasio daya terhadap berat ( kolom 1) adalah 0,92, yang sesuai dengan hubungan yang sangat kuat. Antara produktivitas tenaga kerja ( kolom 3) dan rasio daya terhadap berat ( kolom 1) indikator ini sama dengan 0,72, yang merupakan tingkat ketergantungan yang tinggi. Koefisien korelasi antara produktivitas tenaga kerja ( kolom 3) dan rasio modal-tenaga kerja ( kolom 2) sama dengan 0,88, yang juga sesuai dengan tingkat ketergantungan yang tinggi. Dengan demikian, kita dapat mengatakan bahwa hubungan antara semua faktor yang dipelajari dapat ditelusuri cukup kuat.

Seperti yang Anda lihat, paketnya "Analisis data" di Excel adalah alat yang sangat nyaman dan cukup mudah digunakan untuk menentukan koefisien korelasi berganda. Ini juga dapat digunakan untuk menghitung korelasi biasa antara dua faktor.

Data ekonomi adalah karakteristik kuantitatif dari setiap objek atau proses ekonomi. Mereka terbentuk di bawah pengaruh banyak faktor, tidak semuanya tersedia untuk kontrol eksternal. Faktor yang tidak dapat dikendalikan dapat mengambil nilai acak dari serangkaian nilai dan dengan demikian menyebabkan keacakan data yang mereka tentukan. Salah satu tugas utama dalam penelitian ekonomi adalah analisis ketergantungan antar variabel.

Mempertimbangkan ketergantungan antar fitur, pertama-tama perlu untuk membedakan dua jenis hubungan:

  • fungsional - dicirikan oleh korespondensi penuh antara perubahan atribut faktor dan perubahan nilai yang dihasilkan: setiap nilai dari faktor-atribut sesuai dengan nilai-nilai yang terdefinisi dengan baik dari atribut efektif. Jenis hubungan ini dinyatakan sebagai hubungan formula. Ketergantungan fungsional dapat menghubungkan sifat yang dihasilkan dengan satu atau lebih sifat faktor. Jadi, jumlah upah untuk upah waktu tergantung pada jumlah jam kerja;
  • korelasi- tidak ada korespondensi lengkap antara perubahan dua tanda, pengaruh faktor individu dimanifestasikan hanya rata-rata, dengan pengamatan massal data aktual. Dampak simultan pada sifat yang dipelajari dari sejumlah besar berbagai faktor mengarah pada fakta bahwa nilai yang sama dari atribut-faktor sesuai dengan seluruh distribusi nilai atribut yang dihasilkan, karena dalam setiap kasus tertentu, tanda-tanda faktor lain dapat mengubah kekuatan dan arah dampaknya.

Harus diingat bahwa jika ada hubungan fungsional antara tanda-tanda, adalah mungkin, mengetahui nilai faktor tanda, untuk secara akurat menentukan nilai hasilnya. Dengan adanya ketergantungan korelasi, hanya tren perubahan fitur efektif ketika mengubah nilai tanda faktor.

Mempelajari hubungan antara tanda-tanda, mereka diklasifikasikan menurut arah, bentuk, jumlah faktor:

  • menuju koneksi dibagi menjadi lurus dan membalik. Dengan hubungan langsung, arah perubahan atribut efektif bertepatan dengan arah perubahan faktor tanda. Dengan umpan balik, arah perubahan fitur efektif berlawanan dengan arah perubahan faktor fitur. Misalnya, semakin tinggi kualifikasi seorang pekerja, maka semakin tinggi pula tingkat produktivitas kerjanya (hubungan langsung). Semakin tinggi produktivitas tenaga kerja, semakin rendah biaya satuan produksi (umpan balik);
  • memberitahukan(jenis fungsi) koneksi dibagi menjadi: linier(lurus) dan non-linier(lengkung). Hubungan linier ditampilkan sebagai garis lurus, hubungan non-linier - sebagai kurva (parabola, hiperbola, dll.). Dengan hubungan linier dengan kenaikan nilai atribut faktor, terjadi peningkatan (penurunan) yang seragam pada nilai atribut yang dihasilkan;
  • dengan jumlah faktor yang bekerja pada tanda efektif, komunikasi dibagi menjadi faktor tunggal(berpasangan) dan multifaktorial.

Studi tentang ketergantungan variasi tanda pada kondisi sekitarnya adalah isi dari teori korelasi.

Saat melakukan analisis korelasi, seluruh kumpulan data dianggap sebagai kumpulan variabel (faktor), yang masing-masing berisi: P pengamatan.

Ketika mempelajari hubungan antara dua faktor, mereka biasanya dilambangkan X=(x p x2,...,xp) dan Y= (y ( , y 2 ,..., y dan).

kovarians - itu statistik ukuran interaksi dua variabel. Misalnya, nilai positif untuk kovarians pengembalian dua sekuritas menunjukkan bahwa pengembalian sekuritas tersebut cenderung bergerak ke arah yang sama.

Kovarians antara dua variabel X dan kamu dihitung sebagai berikut:

di mana nilai sebenarnya dari variabel

X dan G;

Jika variabel acak Hee Y independen, kovarians teoritis adalah nol.

Kovarians tergantung pada unit di mana variabel diukur hee Y, itu adalah kuantitas yang tidak dinormalisasi. Oleh karena itu, untuk mengukur kekuatan komunikasi antara dua variabel, digunakan statistik lain, yang disebut koefisien korelasi.

Untuk dua variabel X dan Koefisien korelasi pasangan Y

didefinisikan sebagai berikut:

di mana Ssy- estimasi varians Hee Y. Perkiraan ini mencirikan derajat dispersi nilai-nilai x ( , x 2 , ..., x n (y 1 , y 2 , y n) sekitar rata-rata Anda x (y masing-masing), atau variabilitas(variabilitas) dari variabel-variabel ini selama serangkaian pengamatan.

Penyebaran(estimasi varians) ditentukan oleh rumus

Dalam kasus umum, untuk mendapatkan estimasi varians yang tidak bias, jumlah kuadrat harus dibagi dengan jumlah derajat kebebasan estimasi (dll), di mana P - ukuran sampel, R - jumlah tautan yang dikenakan pada sampel. Karena sampel telah digunakan sekali untuk menentukan mean x, maka jumlah ikatan yang ditumpangkan dalam hal ini sama dengan satu (p = 1), dan jumlah derajat kebebasan penduga (yaitu, jumlah elemen sampel independen) sama dengan (P - 1).

Lebih alami untuk mengukur tingkat penyebaran nilai-nilai variabel dalam satuan yang sama di mana variabel itu sendiri diukur. Masalah ini diselesaikan dengan indikator yang disebut simpangan baku (simpangan baku) atau kesalahan standar variabel X(variabel Y) dan ditentukan oleh relasi

Suku-suku dalam pembilang rumus (3.2.1) menyatakan interaksi dua variabel dan menentukan tanda korelasi (positif atau negatif). Jika, misalnya, ada hubungan positif yang kuat antara variabel (kenaikan satu variabel ketika yang lain meningkat), setiap istilah akan menjadi angka positif. Demikian pula, jika ada hubungan negatif yang kuat antara variabel, semua istilah dalam pembilang akan menjadi angka negatif, sehingga menghasilkan nilai korelasi negatif.

Penyebut dari ekspresi untuk koefisien korelasi pasangan [lihat. rumus (3.2.2)] hanya menormalkan pembilang sedemikian rupa sehingga koefisien korelasi menjadi angka yang mudah ditafsirkan yang tidak memiliki dimensi dan mengambil nilai dari -1 hingga +1.

Pembilang dari ekspresi untuk koefisien korelasi, yang sulit diinterpretasikan karena unit yang tidak biasa, adalah kovarians XY. Terlepas dari kenyataan bahwa kadang-kadang digunakan sebagai karakteristik independen (misalnya, dalam teori keuangan untuk menggambarkan perubahan bersama dalam harga saham di dua bursa), lebih mudah menggunakan koefisien korelasi. Korelasi dan kovarians pada dasarnya mewakili informasi yang sama, tetapi korelasi menyajikan informasi ini dalam bentuk yang lebih nyaman.

Untuk penilaian kualitatif dari koefisien korelasi, berbagai skala digunakan, paling sering skala Chaddock. Bergantung pada nilai koefisien korelasi, hubungan dapat memiliki salah satu dari perkiraan berikut:

  • 0,1-0,3 - lemah;
  • 0,3-0,5 - terlihat;
  • 0,5-0,7 - sedang;
  • 0,7-0,9 - tinggi;
  • 0,9-1,0 - sangat tinggi.

Penilaian tingkat kedekatan hubungan menggunakan koefisien korelasi dilakukan, sebagai suatu peraturan, atas dasar informasi yang kurang lebih terbatas tentang fenomena yang diteliti. Dalam hal ini, ada kebutuhan untuk menilai signifikansi koefisien korelasi linier, yang memungkinkan untuk memperluas kesimpulan berdasarkan hasil sampel ke populasi umum.

Penilaian signifikansi koefisien korelasi untuk ukuran sampel kecil dilakukan dengan menggunakan uji 7 Student. Dalam hal ini, nilai aktual (yang diamati) dari kriteria ini ditentukan oleh rumus

Nilai / obs yang dihitung dengan menggunakan rumus ini dibandingkan dengan nilai kritis dari -kriteria, yang diambil dari tabel nilai /-test Siswa (lihat Lampiran 2), dengan mempertimbangkan tingkat signifikansi yang diberikan dan jumlah derajat kebebasan (P - 2).

Jika 7 obs > 7 tab, maka nilai koefisien korelasi yang diperoleh diakui signifikan (yaitu, hipotesis nol yang menyatakan bahwa koefisien korelasi sama dengan nol ditolak). Dan dengan demikian disimpulkan bahwa ada hubungan statistik yang erat antara variabel-variabel yang diteliti.

Jika nilai y x mendekati nol, hubungan antar variabel lemah. Jika korelasi antara variabel acak:

  • positif, maka ketika satu variabel acak meningkat, yang lain cenderung meningkat rata-rata;
  • negatif, maka ketika satu variabel acak meningkat, yang lain cenderung menurun rata-rata. Alat grafis yang nyaman untuk menganalisis data berpasangan adalah petak sebar, yang mewakili setiap pengamatan dalam ruang dua dimensi yang sesuai dengan dua faktor. Scatterplot, yang menggambarkan sekumpulan nilai dari dua fitur, juga disebut bidang korelasi. Setiap titik pada diagram ini memiliki koordinat x (. dan y g Ketika kekuatan hubungan linier meningkat, titik-titik pada grafik akan terletak lebih dekat ke garis lurus, dan besarnya G akan lebih dekat dengan persatuan.

Koefisien korelasi pasangan digunakan untuk mengukur kekuatan hubungan linier antara pasangan fitur yang berbeda dari himpunannya. Untuk serangkaian fitur, dapatkan matriks koefisien korelasi pasangan.

Biarkan seluruh dataset terdiri dari variabel Y==(di r y 2 , ..., yp) dan t variabel (faktor) x, yang masing-masing berisi P pengamatan. Nilai variabel kamu dan x, terkandung dalam populasi yang diamati dicatat dalam tabel (Tabel 3.2.1).

Tabel 3.2.1

Variabel

Nomor

pengamatan

X t3

tp

Berdasarkan data yang terdapat dalam tabel ini, hitunglah matriks koefisien korelasi pasangan R, simetris terhadap diagonal utama:


Analisis matriks koefisien korelasi pasangan digunakan dalam konstruksi model regresi berganda.

Satu matriks korelasi tidak dapat sepenuhnya menggambarkan ketergantungan antara kuantitas. Dalam hal ini, dua masalah dipertimbangkan dalam analisis korelasi multivariat:

  • 1. Menentukan ketatnya hubungan satu variabel acak dengan totalitas variabel lain yang dimasukkan dalam analisis.
  • 2. Menentukan ketatnya hubungan antara dua besaran sambil memperbaiki atau menghilangkan pengaruh besaran lain.

Masalah-masalah ini diselesaikan, masing-masing, dengan bantuan koefisien korelasi ganda dan parsial.

Penyelesaian masalah pertama (menentukan kedekatan hubungan satu variabel acak dengan himpunan variabel lain yang termasuk dalam analisis) dilakukan dengan menggunakan contoh koefisien korelasi berganda sesuai rumus

di mana R- R[cm. rumus (3.2.6)]; Rjj- komplemen aljabar dari elemen matriks yang sama R.

Kuadrat dari koefisien korelasi berganda SCHj2 j _j J+l m ditelepon koefisien determinasi berganda selektif; itu menunjukkan berapa proporsi variasi (pencar acak) dari kuantitas yang diteliti Xj menjelaskan variasi variabel acak lainnya X ( , X 2 ,..., Xt.

Koefisien korelasi ganda dan determinasi adalah nilai positif, mengambil nilai dalam rentang 0 hingga 1. Ketika koefisien mendekati R 2 untuk kesatuan, kita dapat menyimpulkan bahwa hubungan variabel acak dekat, tetapi tidak tentang arahnya. Koefisien korelasi ganda hanya dapat meningkat jika variabel tambahan dimasukkan dalam model, dan tidak akan meningkat jika salah satu fitur yang tersedia dikecualikan.

Pengecekan signifikansi koefisien determinasi dilakukan dengan membandingkan nilai yang dihitung dari kriteria /'-Fisher

dengan tabel F rab. Nilai tabular kriteria (lihat Lampiran 1) ditentukan oleh tingkat signifikansi a dan derajat kebebasan yang diberikan v l \u003d mnv 2 \u003d n-m-l. Koefisien R2 berbeda nyata dengan nol jika pertidaksamaan

Jika dianggap variabel acak berkorelasi satu sama lain maka nilai koefisien korelasi pasangan sebagian dipengaruhi oleh pengaruh besaran lain. Berkaitan dengan hal tersebut, perlu dilakukan studi korelasi parsial antar variabel dengan mengesampingkan pengaruh variabel acak lainnya (satu atau lebih).

Koefisien korelasi parsial sampel ditentukan oleh rumus

di mana RJk , Rjj, Rkk - penambahan aljabar ke elemen matriks yang sesuai R[cm. rumus (3.2.6)].

Koefisien korelasi parsial, serta koefisien korelasi berpasangan, bervariasi dari -1 hingga +1.

Ekspresi (3.2.9) di bawah kondisi t = 3 akan terlihat seperti

Koefisien r 12(3) disebut koefisien korelasi antara x ( dan x 2 untuk x y tetap Ini simetris sehubungan dengan indeks primer 1, 2. Indeks sekundernya 3 mengacu pada variabel tetap.

Contoh 3.2.1. Perhitungan koefisien pasangan,

korelasi ganda dan parsial.

Di meja. 3.2.2 memberikan informasi tentang volume penjualan dan biaya iklan dari satu perusahaan, serta indeks pengeluaran konsumen untuk beberapa tahun berjalan.

  • 1. Buatlah scatterplot (bidang korelasi) untuk variabel "volume penjualan" dan "indeks pengeluaran konsumen".
  • 2. Menentukan besarnya pengaruh indeks pengeluaran konsumen terhadap volume penjualan (menghitung koefisien korelasi pasangan).
  • 3. Menilai signifikansi koefisien korelasi pasangan yang dihitung.
  • 4. Bangun matriks koefisien korelasi berpasangan untuk tiga variabel.
  • 5. Temukan perkiraan koefisien korelasi berganda.
  • 6. Temukan perkiraan koefisien korelasi parsial.

1. Dalam contoh kita, diagram pencar memiliki bentuk yang ditunjukkan pada gambar. 3.2.1. Perpanjangan titik awan di scatterplot sepanjang garis lurus miring memungkinkan kita untuk membuat asumsi bahwa ada beberapa kecenderungan objektif untuk hubungan linier langsung antara nilai-nilai variabel X 2 kamu(volume penjualan).

Beras. 3.2.1.

2. Perhitungan perantara saat menghitung koefisien korelasi antar variabel X 2(indeks pengeluaran konsumen) dan kamu(volume penjualan) diberikan dalam tabel. 3.2.3.

Rata-rata variabel acak X 2 dan y, yang merupakan indikator paling sederhana yang mencirikan urutan jCj, x2,..., x 16 dan y v y 2 ,..., y 16 , kami menghitung dengan rumus berikut:


Volume penjualan Y, ribu rubel

Indeks

mengkonsumsi

Telkomsel

pengeluaran

Volume penjualan Y, ribu rubel

Indeks

mengkonsumsi

Telkomsel

pengeluaran

Tabel 3.2.3

aku:, - X

(DAN - Y)(x, - x)

(x, - x) 2

(y, - - y) 2

Penyebaran mencirikan tingkat penyebaran nilai xv x 2 , x :

Pertimbangkan sekarang solusi untuk Contoh 3.2.1 di Excel.

Untuk menghitung korelasi menggunakan Excel, Anda dapat menggunakan fungsi =correl(), menentukan alamat dua kolom angka, seperti yang ditunjukkan pada gambar. 3.2.2. Jawabannya ditempatkan di D8 dan sama dengan 0,816.

Beras. 3.2.2.

(Catatan: Argumen fungsi correl harus berupa angka atau nama, larik atau referensi yang berisi angka. Jika argumen, yang berupa larik atau tautan, berisi teks, boolean, atau sel kosong, maka nilai tersebut diabaikan; namun, sel yang berisi nilai nol akan dihitung.

Jika array! dan array2 memiliki jumlah titik data yang berbeda, maka fungsinya correl mengembalikan nilai kesalahan #n/a.

Jika array1 atau array2 kosong atau jika o (standar deviasi) nilainya nol, maka fungsinya correl mengembalikan nilai kesalahan #div/0 !.)

Nilai kritis dari /-Statistik siswa juga dapat diperoleh dengan menggunakan fungsi steudrasprobr 1 paket Excel. Sebagai argumen fungsi, Anda harus menentukan jumlah derajat kebebasan, sama dengan P- 2 (dalam contoh kita 16 - 2= 14) dan tingkat signifikansi a (dalam contoh kita a = 0,1) (Gbr. 3.2.3). Jika sebuah nilai sesungguhnya/-statistik, diambil modulo, lebih banyak kritis, maka dengan probabilitas (1 - a) koefisien korelasi berbeda nyata dengan nol.


Beras. 3.2.3. Nilai kritis dari /-statistic adalah 1,7613

Excel menyertakan seperangkat alat analisis data (yang disebut paket analisis) yang dirancang untuk memecahkan berbagai masalah statistik. Untuk menghitung matriks koefisien korelasi pasangan R gunakan alat Korelasi (Gbr. 3.2.4) dan atur parameter analisis di kotak dialog yang sesuai. Jawabannya akan ditempatkan pada lembar kerja baru (Gbr. 3.2.5).

1 Di Excel 2010, nama fungsi steudrasprobr diubah menjadi steu-

DENT.ORD.2X.

Beras. 3.2.4.


Beras. 3.2.5.

  • Ahli statistik Inggris F. Galton (1822-1911) dan K. Pearson (1857-1936) dianggap sebagai pendiri teori korelasi. Istilah "korelasi" dipinjam dari ilmu alam dan berarti "korelasi, korespondensi". Konsep korelasi sebagai saling ketergantungan antara variabel acak mendasari teori korelasi matematis-statistik.

OPSI 5

Ketergantungan harapan hidup rata-rata pada beberapa faktor dipelajari menurut data tahun 1995, disajikan pada Tabel. 5.

Tabel 5

Mozambik

……………………………………………………………………………………..

Swiss

Sebutan yang diadopsi dalam tabel:

· kamu-- harapan hidup rata-rata saat lahir, tahun;

· X 1 -- PDB dalam paritas daya beli;

· X 2 -- rantai tingkat pertumbuhan penduduk, %;

· X 3 -- rantai tingkat pertumbuhan angkatan kerja, %;

· X 4 -- angka kematian bayi, % .

Diperlukan:

1. Buatlah matriks koefisien korelasi berpasangan antara semua variabel yang diteliti dan identifikasi faktor kolinearnya.

2. Buatlah persamaan regresi yang tidak mengandung faktor kolinear. Periksa signifikansi statistik persamaan dan koefisiennya.

3. Buat persamaan regresi yang hanya berisi faktor-faktor yang signifikan secara statistik dan informatif. Periksa signifikansi statistik persamaan dan koefisiennya.

Butir 4 - 6 mengacu pada persamaan regresi yang dibangun saat mengerjakan butir 3.

4. Menilai kualitas dan akurasi persamaan regresi.

5. Memberikan interpretasi ekonomi dari koefisien persamaan regresi dan penilaian komparatif kekuatan pengaruh faktor terhadap variabel yang dihasilkan kamu.

6. Hitung nilai prediksi dari variabel yang dihasilkan kamu, jika nilai prediksi faktor berjumlah 75% dari nilai maksimumnya. Plot interval kepercayaan dari prediksi nilai aktual kamu dengan keandalan 80%.

Keputusan. Untuk mengatasi masalah tersebut, spreadsheet EXCEL digunakan.

1. Menggunakan add-on "Analisis data ... Korelasi" kami membangun matriks koefisien korelasi berpasangan antara semua variabel yang diteliti (menu "Alat" "Analisis data..." "Korelasi"). pada gambar. Gambar 1 menunjukkan panel analisis korelasi dengan bidang yang diisi.Untuk menyalin snapshot jendela ke clipboard data WINDOWS, gunakan kombinasi tombol Alt+Print Screen (pada beberapa keyboard, Alt+PrtSc).Hasil analisis korelasi ditunjukkan pada Lampiran. 2 dan dipindahkan ke meja. satu.

Nasi. 1. Panel analisis korelasi

Tabel 1

Matriks koefisien korelasi berpasangan

Analisis antar faktor koefisien korelasi menunjukkan bahwa nilai 0,8 melebihi dalam nilai mutlak koefisien korelasi antara sepasang faktor X 2 -X 3 (disorot dalam huruf tebal). Faktor X 2 -X 3 dengan demikian diakui sebagai collinear.

2. Seperti yang ditunjukkan pada paragraf 1, faktor X2-X3 adalah kolinear, yang berarti bahwa faktor-faktor tersebut benar-benar saling menduplikasi, dan penyertaan faktor-faktor tersebut secara simultan dalam model akan menyebabkan interpretasi yang salah dari koefisien regresi yang sesuai. Terlihat bahwa faktor X2 memiliki koefisien korelasi absolut yang lebih tinggi dengan hasil Y dibandingkan dengan faktor X3: ry,x2=0,72516; ry,x3=0.53397; |ry,x2|>|ry,x3| (lihat Tabel 1). Hal ini menunjukkan pengaruh yang lebih kuat dari faktor X2 pada perubahan Y. Dengan demikian, faktor X3 dikeluarkan dari pertimbangan.

Untuk menyusun persamaan regresi, nilai-nilai variabel yang digunakan ( kamu,X 1 , X 2 , X 4) salin ke lembar kerja kosong ( adj. 3). Kami membangun persamaan regresi menggunakan add-on " Analisis Data… Regresi" (Tidak bisa " Melayani" « Analisis data…» « Regresi"). Panel analisis regresi dengan bidang yang diisi ditunjukkan di Nasi. 2.

Hasil analisis regresi diberikan dalam adj. 4 dan ditransfer ke tab. 2. Persamaan regresi memiliki bentuk (lihat " Kemungkinan" di tab. 2):

y = 75,44 + 0,0447 ? x 1 - 0,0453 ? x2 - 0,24? x4

Persamaan regresi diakui signifikan secara statistik, karena probabilitas pembentukan acaknya dalam bentuk yang diperoleh adalah 1,04571 × 10 -45 (lihat Gambar. "F Signifikansi" di tab. 2), yang secara signifikan lebih rendah dari tingkat signifikansi yang diterima = 0,05.

Probabilitas pembentukan acak koefisien pada faktor X 1 di bawah tingkat signifikansi yang diterima = 0,05 (lihat “ Nilai-P" di tab. 2), yang menunjukkan signifikansi statistik dari koefisien dan pengaruh signifikan dari faktor-faktor ini terhadap perubahan laba tahunan kamu.

Probabilitas pembentukan acak koefisien pada faktor X 2 dan X 4 melebihi tingkat signifikansi yang diterima = 0,05 (lihat “ Nilai-P" di tab. 2), dan koefisien ini tidak dianggap signifikan secara statistik.

Nasi. 2. Panel analisis regresi model kamu(X 1 ,X 2 ,X 4 )

Meja 2

kamu(X 1 , X 2 , X 4 )

Analisis varians

Signifikansi F

Regresi

Persamaan Regresi

Kemungkinan

kesalahan standar

t-statistik

Nilai-P

bawah 95%

95% teratas

Lebih rendah 95,0%

95,0% teratas

persimpangan-Y

3. Berdasarkan hasil pemeriksaan signifikansi statistik dari koefisien persamaan regresi, yang dilakukan pada paragraf sebelumnya, kami membangun model regresi baru yang hanya berisi faktor-faktor informatif, yang meliputi:

faktor, koefisien yang signifikan secara statistik;

faktor yang koefisiennya t _statistics modulo melebihi satu (dengan kata lain, nilai absolut dari koefisien lebih besar dari kesalahan standarnya).

Kelompok pertama termasuk faktor X 1 ke detik -- faktor X 4 . Faktor X 2 dikeluarkan dari pertimbangan sebagai tidak informatif, dan model regresi akhir akan berisi faktor-faktor X 1 , X 4 .

Untuk membuat persamaan regresi, salin nilai variabel yang digunakan ke lembar kerja kosong ( adj. 5) dan melakukan analisis regresi ( Nasi. 3). Hasilnya diberikan dalam adj. 6 dan ditransfer ke tab. 3. Persamaan regresi terlihat seperti:

y = 75,38278 + 0,044918 ? x 1 - 0.24031 ? x4

(cm." Kemungkinan" di meja 3).

Nasi. 3. Analisis regresi panel model kamu(X 1 , X 4 )

Tabel 3

Hasil Analisis Regresi Model kamu(X 1 , X 4 )

Statistik regresi

Beberapa R

R-kuadrat

R-kuadrat yang dinormalisasi

kesalahan standar

Pengamatan

Analisis varians

Signifikansi F

Regresi

Persamaan Regresi

Kemungkinan

kesalahan standar

t-statistik

Nilai-P

persimpangan-Y

Persamaan regresi signifikan secara statistik: probabilitas pembentukan acaknya di bawah tingkat signifikansi yang dapat diterima = 0,05 (lihat " Signifikansi F" di meja 3).

Koefisien pada faktor tersebut juga diakui signifikan secara statistik X 1 probabilitas pembentukan acaknya di bawah tingkat signifikansi yang dapat diterima = 0,05 (lihat “ Nilai-P" di tab. 3). Hal ini menunjukkan dampak signifikan PDB terhadap paritas daya beli X 1 per perubahan laba tahunan kamu.

Koefisien pada faktor X 4 (angka kematian bayi tahunan) tidak signifikan secara statistik. Namun, faktor ini masih dapat dianggap informatif, karena t _statistik peluangnya melebihi modulo unit, meskipun kesimpulan lebih lanjut mengenai faktor X 4 harus diperlakukan dengan hati-hati.

4. Mari kita evaluasi kualitas dan akurasi persamaan regresi terakhir menggunakan beberapa karakteristik statistik yang diperoleh selama analisis regresi (lihat "Statistik regresi" pada Tabel 3):

koefisien determinasi berganda

R2 = _ saya = 1 ____________ =0.946576

R 2 = menunjukkan bahwa model regresi menjelaskan 94,7% variasi rata-rata harapan hidup saat lahir kamu, dan variasi ini disebabkan oleh perubahan faktor-faktor yang termasuk dalam model regresi X 1 , X 4 ;

kesalahan standar regresi

menunjukkan bahwa nilai yang diprediksi oleh persamaan regresi untuk harapan hidup rata-rata saat lahir kamu berbeda dari nilai sebenarnya dengan rata-rata 2.252208 tahun.

Rata-rata kesalahan perkiraan relatif ditentukan oleh rumus perkiraan:

rel? 0.8 ? -- ? 100% = 0,8 ? 2.252208/66.9? 100%? 2,7

di mana ribu rubel. -- nilai harapan hidup (ditentukan menggunakan fungsi bawaan " RATA-RATA»; adj. satu).

E rel menunjukkan bahwa nilai keuntungan tahunan diprediksi oleh persamaan regresi kamu berbeda dari nilai sebenarnya dengan rata-rata 2,7%. Model memiliki akurasi yang tinggi (pada – akurasi model tinggi, pada – baik, pada – memuaskan, pada – tidak memuaskan).

5. Untuk interpretasi ekonomi dari koefisien persamaan regresi, kami mentabulasi nilai rata-rata dan standar deviasi variabel dalam data awal (Tabel 4). Nilai rata-rata ditentukan menggunakan fungsi bawaan "AVERAGE", standar deviasi - menggunakan fungsi bawaan "STDEV" (lihat Lampiran 1).