Contoh analisis regresi. Analisis regresi

Ciri utama analisis regresi adalah dapat digunakan untuk memperoleh informasi yang spesifik tentang bentuk dan sifat hubungan antar variabel yang diteliti.

Urutan tahapan analisis regresi

Mari kita perhatikan secara singkat tahapan analisis regresi.

    Perumusan tugas. Pada tahap ini, hipotesis awal tentang ketergantungan fenomena yang dipelajari terbentuk.

    Definisi variabel dependen dan independen (penjelas).

    Pengumpulan data statistik. Data harus dikumpulkan untuk setiap variabel yang termasuk dalam model regresi.

    Perumusan hipotesis tentang bentuk hubungan (sederhana atau ganda, linier atau nonlinier).

    Definisi fungsi regresi (terdiri dari perhitungan nilai numerik parameter persamaan regresi)

    Evaluasi keakuratan analisis regresi.

    Interpretasi dari hasil yang diperoleh. Hasil analisis regresi dibandingkan dengan hipotesis awal. Kebenaran dan masuk akal dari hasil yang diperoleh dievaluasi.

    Prediksi nilai variabel dependen yang tidak diketahui.

Dengan bantuan analisis regresi, adalah mungkin untuk memecahkan masalah peramalan dan klasifikasi. Nilai prediktif dihitung dengan mensubstitusi nilai variabel penjelas ke dalam persamaan regresi. Masalah klasifikasi diselesaikan dengan cara ini: garis regresi membagi seluruh himpunan objek menjadi dua kelas, dan bagian himpunan yang nilai fungsinya lebih besar dari nol termasuk dalam satu kelas, dan bagian yang nilainya lebih kecil dari nol milik kelas lain.

Tugas analisis regresi

Pertimbangkan tugas utama analisis regresi: menetapkan bentuk ketergantungan, menentukan fungsi regresi, perkiraan nilai variabel terikat yang tidak diketahui.

Membentuk bentuk ketergantungan.

Sifat dan bentuk hubungan antar variabel dapat membentuk jenis-jenis regresi sebagai berikut:

    regresi linier positif (dinyatakan sebagai pertumbuhan fungsi yang seragam);

    regresi percepatan seragam positif;

    regresi positif yang meningkat secara seragam;

    regresi linier negatif (dinyatakan sebagai penurunan fungsi yang seragam);

    regresi penurunan yang dipercepat secara seragam negatif;

    regresi negatif seragam menurun.

Namun, varietas yang dijelaskan biasanya tidak ditemukan dalam bentuk murni, tetapi dalam kombinasi satu sama lain. Dalam hal ini, seseorang berbicara tentang bentuk gabungan regresi.

Definisi fungsi regresi.

Tugas kedua adalah menemukan efek pada variabel dependen dari faktor atau penyebab utama, semua hal lain dianggap sama, dan tunduk pada pengecualian dampaknya pada variabel dependen elemen acak. fungsi regresi didefinisikan sebagai persamaan matematika dari satu jenis atau lainnya.

Estimasi nilai yang tidak diketahui dari variabel dependen.

Solusi dari masalah ini direduksi menjadi pemecahan masalah dari salah satu jenis berikut:

    Estimasi nilai variabel dependen dalam interval yang dipertimbangkan dari data awal, mis. nilai yang hilang; ini memecahkan masalah interpolasi.

    Memperkirakan nilai masa depan dari variabel dependen, mis. menemukan nilai di luar interval yang diberikan dari data awal; ini memecahkan masalah ekstrapolasi.

Kedua masalah diselesaikan dengan mensubstitusikan estimasi yang ditemukan dari parameter nilai variabel independen ke dalam persamaan regresi. Hasil dari penyelesaian persamaan tersebut adalah perkiraan nilai variabel target (dependen).

Mari kita lihat beberapa asumsi yang menjadi dasar analisis regresi.

Asumsi linieritas, yaitu diasumsikan bahwa hubungan antara variabel yang dipertimbangkan adalah linier. Jadi, dalam contoh ini, kami membangun sebar dan dapat melihat hubungan linier yang jelas. Jika, pada diagram pencar variabel, kita melihat jelas tidak adanya hubungan linier, mis. ada hubungan non-linier, metode analisis non-linier harus digunakan.

Asumsi Normalitas sisa. Ini mengasumsikan bahwa distribusi perbedaan antara nilai yang diprediksi dan yang diamati adalah normal. Untuk menentukan sifat distribusi secara visual, Anda dapat menggunakan histogram sisa.

Saat menggunakan analisis regresi, seseorang harus mempertimbangkan batasan utamanya. Ini terdiri dari fakta bahwa analisis regresi memungkinkan Anda untuk mendeteksi hanya dependensi, dan bukan hubungan yang mendasari dependensi ini.

Analisis regresi memungkinkan untuk menilai derajat hubungan antar variabel dengan menghitung nilai yang diharapkan dari suatu variabel berdasarkan beberapa nilai yang diketahui.

persamaan regresi.

Persamaan regresi terlihat seperti ini: Y=a+b*X

Dengan menggunakan persamaan ini, variabel Y dinyatakan dalam konstanta a dan kemiringan garis (atau kemiringan) b dikalikan dengan nilai variabel X. Konstanta a juga disebut intersep, dan kemiringan adalah regresi koefisien atau B-faktor.

Dalam kebanyakan kasus (jika tidak selalu) ada sebaran pengamatan tertentu tentang garis regresi.

Sisa adalah deviasi titik individu (pengamatan) dari garis regresi (nilai prediksi).

Untuk mengatasi masalah analisis regresi di MS Excel, pilih dari menu Melayani"Paket Analisis" dan alat analisis Regresi. Tentukan interval input X dan Y. Interval input Y adalah rentang data dependen yang dianalisis dan harus mencakup satu kolom. Interval input X adalah rentang data independen yang akan dianalisis. Jumlah rentang input tidak boleh melebihi 16.

Pada output dari prosedur dalam rentang output, kami mendapatkan laporan yang diberikan dalam tabel 8.3a-8.3v.

HASIL

Tabel 8.3a. Statistik regresi

Statistik regresi

Beberapa R

R-kuadrat

R-kuadrat yang dinormalisasi

kesalahan standar

Pengamatan

Pertama, pertimbangkan bagian atas dari perhitungan yang disajikan dalam tabel 8.3a, - statistik regresi.

Nilai R-kuadrat, juga disebut ukuran kepastian, mencirikan kualitas garis regresi yang dihasilkan. Kualitas ini dinyatakan dengan derajat kesesuaian antara data asli dan model regresi (data yang dihitung). Ukuran kepastian selalu dalam interval.

Dalam kebanyakan kasus, nilai R-kuadrat berada di antara nilai-nilai ini, yang disebut ekstrim, yaitu antara nol dan satu.

Jika nilai R-kuadrat mendekati kesatuan, ini berarti bahwa model yang dibangun menjelaskan hampir semua variabilitas variabel yang sesuai. Sebaliknya, nilai R-kuadrat, mendekati nol, berarti kualitas model yang dibangun buruk.

Dalam contoh kita, ukuran kepastian adalah 0,99673, yang menunjukkan kecocokan yang sangat baik dari garis regresi dengan data asli.

jamak R - koefisien korelasi ganda R - menyatakan derajat ketergantungan variabel bebas (X) dan variabel terikat (Y).

Beberapa R sama dengan akar kuadrat dari koefisien determinasi, nilai ini mengambil nilai dalam kisaran dari nol hingga satu.

Dalam analisis regresi linier sederhana jamak R sama dengan koefisien korelasi Pearson. Betulkah, jamak R dalam kasus kami, ini sama dengan koefisien korelasi Pearson dari contoh sebelumnya (0,998364).

Tabel 8.3b. Koefisien regresi

Kemungkinan

kesalahan standar

t-statistik

persimpangan-Y

Variabel X 1

* Versi perhitungan yang terpotong diberikan

Sekarang perhatikan bagian tengah dari perhitungan yang disajikan dalam tabel 8.3b. Di sini, koefisien regresi b (2.305454545) dan offset sepanjang sumbu y diberikan, yaitu. konstanta a (2.694545455).

Berdasarkan perhitungan tersebut, kita dapat menulis persamaan regresi sebagai berikut:

Y= x*2.305454545+2.694545455

Arah hubungan antar variabel ditentukan berdasarkan tanda-tanda (negatif atau positif) dari koefisien regresi (koefisien b).

Jika tanda koefisien regresi positif, maka hubungan antara variabel dependen dan variabel independen akan positif. Dalam kasus kami, tanda koefisien regresi adalah positif, oleh karena itu, hubungannya juga positif.

Jika tanda koefisien regresinya negatif, maka hubungan antara variabel terikat dan variabel bebas adalah negatif (berbalik).

PADA tabel 8.3c. hasil keluaran disajikan sisa. Agar hasil ini muncul dalam laporan, perlu untuk mengaktifkan kotak centang "Residual" saat meluncurkan alat "Regresi".

SISA PENARIKAN

Tabel 8.3c. Tetap

Pengamatan

Prediksi Y

Tetap

Saldo standar

Dengan menggunakan bagian laporan ini, kita dapat melihat penyimpangan setiap titik dari garis regresi yang dibangun. Nilai mutlak terbesar sisa dalam kasus kami - 0,778, yang terkecil - 0,043. Untuk interpretasi yang lebih baik dari data ini, kami akan menggunakan grafik data asli dan garis regresi yang dibangun yang disajikan pada Gambar. Nasi. 8.3. Seperti yang Anda lihat, garis regresi cukup akurat "disesuaikan" dengan nilai data asli.

Harus diperhitungkan bahwa contoh yang dipertimbangkan cukup sederhana dan jauh dari selalu mungkin untuk membangun garis regresi linier secara kualitatif.

Beras. 8.3. Data awal dan garis regresi

Masalah memperkirakan nilai masa depan yang tidak diketahui dari variabel dependen berdasarkan nilai variabel independen yang diketahui tetap tidak dipertimbangkan, mis. tugas peramalan.

Memiliki persamaan regresi, masalah peramalan direduksi menjadi penyelesaian persamaan Y= x*2.305454545+2.694545455 dengan nilai x yang diketahui. Hasil memprediksi variabel dependen Y enam langkah ke depan disajikan dalam tabel 8.4.

Tabel 8.4. Hasil prediksi variabel Y

Y (diprediksi)

Jadi, sebagai hasil dari penggunaan analisis regresi dalam paket Microsoft Excel, kami:

    membangun persamaan regresi;

    menetapkan bentuk ketergantungan dan arah hubungan antara variabel - regresi linier positif, yang dinyatakan dalam pertumbuhan fungsi yang seragam;

    menetapkan arah hubungan antar variabel;

    menilai kualitas garis regresi yang dihasilkan;

    mampu melihat penyimpangan data yang dihitung dari data set asli;

    memprediksi nilai masa depan dari variabel dependen.

Jika sebuah fungsi regresi didefinisikan, ditafsirkan dan dibenarkan, dan penilaian keakuratan analisis regresi memenuhi persyaratan, kita dapat mengasumsikan bahwa model yang dibangun dan nilai prediksi cukup andal.

Nilai prediksi yang diperoleh dengan cara ini adalah nilai rata-rata yang dapat diharapkan.

Dalam makalah ini, kami meninjau karakteristik utama Statistik deskriptif dan di antara mereka konsep-konsep seperti berarti,median,maksimum,minimum dan karakteristik variasi data lainnya.

Ada juga diskusi singkat tentang konsep emisi. Karakteristik yang dipertimbangkan mengacu pada apa yang disebut analisis data eksplorasi, kesimpulannya mungkin tidak berlaku untuk populasi umum, tetapi hanya untuk sampel data. Analisis data eksplorasi digunakan untuk menarik kesimpulan primer dan membentuk hipotesis tentang populasi umum.

Dasar-dasar analisis korelasi dan regresi, tugas dan kemungkinan penggunaan praktisnya juga dipertimbangkan.

Analisis regresi adalah metode untuk menetapkan ekspresi analitis dari hubungan stokastik antara fitur yang dipelajari. Persamaan regresi menunjukkan bagaimana, rata-rata, berubah pada ketika mengubah salah satu dari x saya , dan terlihat seperti:

di mana y - variabel terikat (selalu satu);

X saya - variabel independen (faktor) (mungkin ada beberapa di antaranya).

Jika hanya ada satu variabel independen, ini adalah analisis regresi sederhana. Jika ada beberapa P 2), maka analisis seperti itu disebut multivariat.

Selama analisis regresi, dua tugas utama diselesaikan:

    konstruksi persamaan regresi, yaitu menemukan jenis hubungan antara indikator hasil dan faktor independen x 1 , x 2 , …, x n .

    penilaian signifikansi persamaan yang dihasilkan, yaitu penentuan seberapa banyak fitur faktor yang dipilih menjelaskan variasi fitur y.

Analisis regresi digunakan terutama untuk perencanaan, serta untuk pengembangan kerangka peraturan.

Tidak seperti analisis korelasi, yang hanya menjawab pertanyaan apakah ada hubungan antara fitur yang dianalisis, analisis regresi juga memberikan ekspresi formal. Selain itu, jika analisis korelasi mempelajari hubungan faktor apa pun, maka analisis regresi mempelajari ketergantungan satu sisi, yaitu. koneksi yang menunjukkan bagaimana perubahan tanda-tanda faktor mempengaruhi tanda yang dihasilkan.

Analisis regresi adalah salah satu metode statistik matematika yang paling berkembang. Tegasnya, pelaksanaan analisis regresi memerlukan pemenuhan sejumlah persyaratan khusus (khususnya, x aku ,x 2 ,...,x n ;kamu harus independen, variabel acak terdistribusi normal dengan varians konstan). Dalam kehidupan nyata, kepatuhan yang ketat terhadap persyaratan analisis regresi dan korelasi sangat jarang, tetapi kedua metode ini sangat umum dalam penelitian ekonomi. Ketergantungan dalam perekonomian dapat tidak hanya langsung, tetapi juga terbalik dan non-linier. Sebuah model regresi dapat dibangun dengan adanya ketergantungan apapun, namun, dalam analisis multivariat, hanya model linier dari bentuk yang digunakan:

Konstruksi persamaan regresi dilakukan, sebagai suatu peraturan, dengan metode kuadrat terkecil, yang intinya adalah meminimalkan jumlah deviasi kuadrat dari nilai aktual atribut yang dihasilkan dari nilai yang dihitung, yaitu:

di mana t - jumlah pengamatan;

j =a+b 1 x 1 j +b 2 x 2 j + ... + b n X n j - menghitung nilai faktor hasil.

Koefisien regresi direkomendasikan untuk ditentukan menggunakan paket analitis untuk komputer pribadi atau kalkulator keuangan khusus. Dalam kasus yang paling sederhana, koefisien regresi dari persamaan regresi linier satu faktor dalam bentuk y = a + bx dapat dicari dengan menggunakan rumus:

analisis klaster

Analisis klaster adalah salah satu metode analisis multivariat, yang dirancang untuk mengelompokkan (mengelompokkan) suatu populasi, yang elemen-elemennya dicirikan oleh banyak fitur. Nilai masing-masing fitur berfungsi sebagai koordinat setiap unit populasi yang dipelajari dalam ruang fitur multidimensi. Setiap pengamatan, yang ditandai dengan nilai beberapa indikator, dapat direpresentasikan sebagai titik dalam ruang indikator ini, yang nilainya dianggap sebagai koordinat dalam ruang multidimensi. Jarak antar titik R dan q dengan k koordinat didefinisikan sebagai:

Kriteria utama untuk pengelompokan adalah bahwa perbedaan antar klaster harus lebih signifikan daripada antara pengamatan yang ditugaskan ke klaster yang sama, yaitu. dalam ruang multidimensi, pertidaksamaan harus diperhatikan:

di mana r 1, 2 - jarak antara cluster 1 dan 2.

Selain prosedur analisis regresi, prosedur pengelompokan cukup melelahkan, disarankan untuk melakukannya di komputer.

Selama studi mereka, siswa sangat sering menemukan berbagai persamaan. Salah satunya - persamaan regresi - dibahas dalam artikel ini. Jenis persamaan ini digunakan secara khusus untuk menggambarkan karakteristik hubungan antar parameter matematika. Jenis kesetaraan ini digunakan dalam statistik dan ekonometrika.

Definisi regresi

Dalam matematika, regresi dipahami sebagai besaran tertentu yang menggambarkan ketergantungan nilai rata-rata suatu kumpulan data pada nilai-nilai besaran lain. Persamaan regresi menunjukkan, sebagai fungsi dari fitur tertentu, nilai rata-rata fitur lain. Fungsi regresi memiliki bentuk persamaan sederhana y \u003d x, di mana y bertindak sebagai variabel dependen, dan x adalah variabel independen (faktor fitur). Bahkan, regresi dinyatakan sebagai y = f (x).

Apa saja jenis hubungan antar variabel?

Secara umum, dua jenis hubungan yang berlawanan dibedakan: korelasi dan regresi.

Yang pertama ditandai dengan kesetaraan variabel kondisional. Dalam hal ini tidak diketahui secara pasti variabel mana yang bergantung satu sama lain.

Jika tidak ada kesetaraan antara variabel dan kondisi mengatakan variabel mana yang menjelaskan dan mana yang tergantung, maka kita dapat berbicara tentang keberadaan koneksi tipe kedua. Untuk membangun persamaan regresi linier, perlu diketahui jenis hubungan apa yang diamati.

Jenis regresi

Sampai saat ini, ada 7 jenis regresi yang berbeda: hiperbolik, linier, ganda, nonlinier, berpasangan, terbalik, linier logaritmik.

Hiperbolik, linier dan logaritma

Persamaan regresi linier digunakan dalam statistik untuk menjelaskan parameter persamaan dengan jelas. Sepertinya y = c + m * x + E. Persamaan hiperbolik memiliki bentuk hiperbola beraturan y \u003d c + m / x + E. Persamaan linear logaritmik menyatakan hubungan menggunakan fungsi logaritmik: Dalam y \u003d Dalam c + m * Dalam x + Dalam E.

Banyak dan non-linier

Dua jenis regresi yang lebih kompleks adalah regresi berganda dan non-linier. Persamaan regresi berganda dinyatakan dengan fungsi y \u003d f (x 1, x 2 ... x c) + E. Dalam situasi ini, y adalah variabel dependen dan x adalah variabel penjelas. Variabel E adalah stokastik dan termasuk pengaruh faktor lain dalam persamaan. Persamaan regresi non-linier sedikit tidak konsisten. Di satu sisi, dalam kaitannya dengan indikator yang diperhitungkan, itu tidak linier, dan di sisi lain, dalam peran menilai indikator, itu linier.

Regresi Terbalik dan Berpasangan

Invers adalah sejenis fungsi yang perlu diubah ke bentuk linier. Dalam program aplikasi paling tradisional, ia memiliki bentuk fungsi y \u003d 1 / c + m * x + E. Persamaan regresi berpasangan menunjukkan hubungan antara data sebagai fungsi dari y = f(x) + E. Sama seperti persamaan lainnya, y bergantung pada x dan E adalah parameter stokastik.

Konsep korelasi

Ini merupakan indikator yang menunjukkan adanya hubungan antara dua fenomena atau proses. Kekuatan hubungan dinyatakan sebagai koefisien korelasi. Nilainya berfluktuasi dalam interval [-1;+1]. Indikator negatif menunjukkan adanya umpan balik, indikator positif menunjukkan umpan balik langsung. Jika koefisien mengambil nilai sama dengan 0, maka tidak ada hubungan. Semakin dekat nilainya dengan 1 - semakin kuat hubungan antara parameter, semakin dekat ke 0 - semakin lemah.

Metode

Metode parametrik korelasi dapat memperkirakan keketatan hubungan. Mereka digunakan atas dasar perkiraan distribusi untuk mempelajari parameter yang mematuhi hukum distribusi normal.

Parameter persamaan regresi linier diperlukan untuk mengidentifikasi jenis ketergantungan, fungsi persamaan regresi dan mengevaluasi indikator dari rumus hubungan yang dipilih. Bidang korelasi digunakan sebagai metode untuk mengidentifikasi suatu hubungan. Untuk melakukan ini, semua data yang ada harus direpresentasikan secara grafis. Dalam sistem koordinat dua dimensi persegi panjang, semua data yang diketahui harus diplot. Ini adalah bagaimana bidang korelasi terbentuk. Nilai faktor penjelas ditandai di sepanjang absis, sedangkan nilai faktor terikat ditandai di sepanjang ordinat. Jika ada hubungan fungsional antara parameter, mereka berbaris dalam bentuk garis.

Jika koefisien korelasi data tersebut kurang dari 30%, kita dapat berbicara tentang hampir tidak adanya koneksi. Jika berada di antara 30% dan 70%, maka hal ini menunjukkan adanya keterkaitan kedekatan sedang. Indikator 100% adalah bukti koneksi fungsional.

Persamaan regresi nonlinier, seperti halnya persamaan linier, harus dilengkapi dengan indeks korelasi (R).

Korelasi untuk Regresi Berganda

Koefisien determinasi merupakan indikator kuadrat dari korelasi berganda. Dia berbicara tentang ketatnya hubungan set indikator yang disajikan dengan sifat yang diteliti. Itu juga dapat berbicara tentang sifat pengaruh parameter pada hasil. Persamaan regresi berganda dievaluasi menggunakan indikator ini.

Untuk menghitung indeks korelasi ganda, perlu untuk menghitung indeksnya.

Metode kuadrat terkecil

Metode ini merupakan salah satu cara untuk mengestimasi faktor regresi. Esensinya terletak pada meminimalkan jumlah deviasi kuadrat yang diperoleh karena ketergantungan faktor pada fungsi.

Persamaan regresi linier berpasangan dapat diperkirakan dengan menggunakan metode tersebut. Jenis persamaan ini digunakan dalam kasus deteksi antara indikator hubungan linier berpasangan.

Opsi Persamaan

Setiap parameter fungsi regresi linier memiliki arti tertentu. Persamaan regresi linier berpasangan berisi dua parameter: c dan m Parameter t menunjukkan rata-rata perubahan indikator akhir dari fungsi y, dengan tunduk pada penurunan (kenaikan) variabel x sebesar satu satuan konvensional. Jika variabel x adalah nol, maka fungsinya sama dengan parameter c. Jika variabel x tidak nol, maka faktor c tidak masuk akal secara ekonomi. Satu-satunya pengaruh pada fungsi adalah tanda di depan faktor c. Jika ada minus, maka kita dapat mengatakan tentang perubahan hasil yang lambat dibandingkan dengan faktornya. Jika ada plus, maka ini menunjukkan perubahan hasil yang dipercepat.

Setiap parameter yang mengubah nilai persamaan regresi dapat dinyatakan dalam persamaan. Misalnya, faktor c memiliki bentuk c = y - mx.

Data yang dikelompokkan

Ada kondisi tugas seperti itu di mana semua informasi dikelompokkan sesuai dengan atribut x, tetapi pada saat yang sama, untuk grup tertentu, nilai rata-rata yang sesuai dari indikator dependen ditunjukkan. Dalam hal ini, nilai rata-rata mencirikan bagaimana indikator bergantung pada x. Dengan demikian, informasi yang dikelompokkan membantu menemukan persamaan regresi. Ini digunakan sebagai analisis hubungan. Namun, metode ini memiliki kekurangan. Sayangnya, rata-rata sering mengalami fluktuasi eksternal. Fluktuasi ini bukan cerminan dari pola hubungan, mereka hanya menutupi "kebisingannya". Rata-rata menunjukkan pola hubungan yang jauh lebih buruk daripada persamaan regresi linier. Namun, mereka dapat digunakan sebagai dasar untuk menemukan persamaan. Dengan mengalikan ukuran populasi tertentu dengan rata-rata yang sesuai, Anda bisa mendapatkan jumlah y dalam grup. Selanjutnya, Anda perlu melumpuhkan semua jumlah yang diterima dan menemukan indikator akhir y. Sedikit lebih sulit untuk membuat perhitungan dengan indikator penjumlahan xy. Jika intervalnya kecil, kita dapat secara kondisional mengambil indikator x untuk semua unit (dalam grup) yang sama. Kalikan dengan jumlah y untuk menemukan jumlah produk x dan y. Selanjutnya, semua jumlah digabungkan dan jumlah total xy diperoleh.

Regresi Persamaan Pasangan Berganda: Menilai Pentingnya Hubungan

Seperti dibahas sebelumnya, regresi berganda memiliki fungsi dalam bentuk y \u003d f (x 1, x 2, ..., x m) + E. Paling sering, persamaan seperti itu digunakan untuk memecahkan masalah penawaran dan permintaan suatu produk, pendapatan bunga atas saham yang dibeli kembali, mempelajari penyebab dan jenis fungsi biaya produksi. Persamaan ini juga secara aktif digunakan dalam berbagai studi dan perhitungan ekonomi makro, tetapi pada tingkat ekonomi mikro, persamaan ini lebih jarang digunakan.

Tugas utama dari regresi berganda adalah untuk membangun model data yang berisi sejumlah besar informasi untuk menentukan lebih lanjut apa pengaruh masing-masing faktor secara individual dan totalitasnya pada indikator yang akan dimodelkan dan koefisiennya. Persamaan regresi dapat mengambil berbagai nilai. Dalam hal ini, dua jenis fungsi biasanya digunakan untuk menilai hubungan: linier dan nonlinier.

Fungsi linier digambarkan dalam bentuk hubungan seperti itu: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Dalam hal ini, a2, a m , dianggap sebagai koefisien regresi "murni". Mereka diperlukan untuk mengkarakterisasi perubahan rata-rata pada parameter y dengan perubahan (penurunan atau peningkatan) di setiap parameter x yang sesuai dengan satu unit, dengan kondisi nilai stabil dari indikator lainnya.

Persamaan nonlinier memiliki, misalnya, bentuk fungsi pangkat y=ax 1 b1 x 2 b2 ...x m bm . Dalam hal ini, indikator b 1, b 2 ..... b m - disebut koefisien elastisitas, mereka menunjukkan bagaimana hasilnya akan berubah (berapa %) dengan kenaikan (penurunan) indikator yang sesuai x sebesar 1% dan dengan indikator stabil dari faktor-faktor lain.

Faktor-faktor apa yang harus dipertimbangkan ketika membangun regresi berganda?

Untuk membangun regresi berganda dengan benar, perlu untuk mengetahui faktor mana yang harus mendapat perhatian khusus.

Hal ini diperlukan untuk memiliki beberapa pemahaman tentang sifat hubungan antara faktor ekonomi dan model. Faktor-faktor yang akan dimasukkan harus memenuhi kriteria berikut:

  • Harus terukur. Untuk menggunakan faktor yang menggambarkan kualitas suatu objek, bagaimanapun, itu harus diberikan bentuk kuantitatif.
  • Seharusnya tidak ada interkorelasi faktor, atau hubungan fungsional. Tindakan seperti itu paling sering menyebabkan konsekuensi yang tidak dapat diubah - sistem persamaan biasa menjadi tidak terkondisi, dan ini memerlukan perkiraan yang tidak dapat diandalkan dan kabur.
  • Dalam kasus indikator korelasi besar, tidak ada cara untuk mengetahui pengaruh faktor yang terisolasi pada hasil akhir indikator, oleh karena itu koefisien menjadi tidak dapat diinterpretasikan.

Metode Konstruksi

Ada banyak sekali metode dan cara untuk menjelaskan bagaimana Anda dapat memilih faktor-faktor untuk persamaan. Namun, semua metode ini didasarkan pada pemilihan koefisien menggunakan indeks korelasi. Diantaranya adalah:

  • Metode pengecualian.
  • Aktifkan metode.
  • Analisis regresi bertahap.

Metode pertama melibatkan penyaringan semua koefisien dari himpunan agregat. Metode kedua melibatkan pengenalan banyak faktor tambahan. Nah, yang ketiga adalah eliminasi faktor-faktor yang sebelumnya diterapkan pada persamaan. Masing-masing metode ini memiliki hak untuk eksis. Mereka memiliki pro dan kontra, tetapi mereka dapat memecahkan masalah menyaring indikator yang tidak perlu dengan cara mereka sendiri. Sebagai aturan, hasil yang diperoleh dari setiap metode individu cukup dekat.

Metode analisis multivariat

Metode untuk menentukan faktor tersebut didasarkan pada pertimbangan kombinasi individu dari fitur yang saling terkait. Ini termasuk analisis diskriminan, pengenalan pola, analisis komponen utama, dan analisis klaster. Selain itu, ada juga analisis faktor, namun muncul sebagai hasil pengembangan metode komponen. Kesemuanya itu diterapkan dalam keadaan tertentu, dalam kondisi dan faktor tertentu.

Tujuan utama dari analisis regresi terdiri dalam menentukan bentuk analitis dari hubungan, di mana perubahan atribut yang dihasilkan adalah karena pengaruh dari satu atau lebih tanda faktor, dan himpunan semua faktor lain yang juga mempengaruhi atribut yang dihasilkan diambil sebagai nilai konstan dan rata-rata. .
Tugas analisis regresi:
a) Membentuk bentuk ketergantungan. Mengenai sifat dan bentuk hubungan antar fenomena, ada regresi linier dan nonlinier positif dan regresi linier dan nonlinier negatif.
b) Definisi fungsi regresi dalam bentuk persamaan matematis dari satu jenis atau lainnya dan menetapkan pengaruh variabel penjelas terhadap variabel dependen.
c) Estimasi nilai variabel dependen yang tidak diketahui. Dengan menggunakan fungsi regresi, Anda dapat mereproduksi nilai variabel dependen dalam interval nilai yang diberikan dari variabel penjelas (yaitu, memecahkan masalah interpolasi) atau mengevaluasi jalannya proses di luar interval yang ditentukan (yaitu, menyelesaikan masalah ekstrapolasi). Hasilnya adalah perkiraan nilai variabel dependen.

Regresi berpasangan - persamaan hubungan dua variabel y dan x: y=f(x), di mana y adalah variabel dependen (tanda hasil); x - independen, variabel penjelas (fitur-faktor).

Ada regresi linier dan nonlinier.
Regresi linier: y = a + bx +
Regresi nonlinier dibagi menjadi dua kelas: regresi yang non-linier sehubungan dengan variabel penjelas yang termasuk dalam analisis, tetapi linier sehubungan dengan parameter yang diestimasi, dan regresi yang tidak linier sehubungan dengan parameter yang diestimasi.
Regresi yang bersifat nonlinier pada variabel penjelas:

Regresi yang non-linier dalam parameter yang diestimasi:

  • pangkat y=a x b
  • eksponensial y=a b x
  • eksponensial y=e a+b x
Konstruksi persamaan regresi direduksi menjadi estimasi parameternya. Untuk mengestimasi parameter regresi yang linier dalam parameter digunakan metode kuadrat terkecil (LSM). LSM memungkinkan untuk mendapatkan estimasi parameter seperti itu di mana jumlah deviasi kuadrat dari nilai aktual fitur efektif y dari nilai teoretis y x minimal, mis.
.
Untuk persamaan linier dan nonlinier yang dapat direduksi menjadi linier, sistem berikut diselesaikan untuk a dan b:

Anda dapat menggunakan formula siap pakai yang mengikuti dari sistem ini:

Kedekatan hubungan antara fenomena yang diteliti diperkirakan dengan koefisien korelasi pasangan linier r xy untuk regresi linier (-1≤r xy 1):

dan indeks korelasi p xy - untuk regresi non-linier (0≤p xy 1):

Penilaian kualitas model yang dibangun akan diberikan oleh koefisien (indeks) determinasi, serta kesalahan aproksimasi rata-rata.
Kesalahan perkiraan rata-rata adalah penyimpangan rata-rata dari nilai yang dihitung dari yang sebenarnya:
.
Batas nilai yang diizinkan A - tidak lebih dari 8-10%.
Koefisien elastisitas rata-rata E menunjukkan berapa persen rata-rata hasil y akan berubah dari nilai rata-ratanya ketika faktor x berubah sebesar 1% dari nilai rata-ratanya:
.

Tugas analisis varians adalah menganalisis varians variabel dependen:
(y-y )²=∑(y x -y )²+∑(y-y x)²
di mana (y-y)² adalah jumlah total deviasi kuadrat;
(y x -y)² - jumlah deviasi kuadrat karena regresi ("dijelaskan" atau "faktorial");
(y-y x)² - jumlah sisa deviasi kuadrat.
Pangsa varians yang dijelaskan oleh regresi dalam varians total dari fitur efektif y dicirikan oleh koefisien (indeks) determinasi R2:

Koefisien determinasi adalah kuadrat dari koefisien atau indeks korelasi.

Uji-F - evaluasi kualitas persamaan regresi - terdiri dari pengujian hipotesis Tetapi tentang ketidaksignifikanan statistik dari persamaan regresi dan indikator kedekatan hubungan. Untuk ini, perbandingan fakta F aktual dan tabel F kritis (tabular) dari nilai-nilai kriteria F Fisher dilakukan. Fakta F ditentukan dari rasio nilai varians faktorial dan residual yang dihitung untuk satu derajat kebebasan:
,
di mana n adalah jumlah unit populasi; m adalah jumlah parameter untuk variabel x.
F tabel adalah nilai maksimum yang mungkin dari kriteria di bawah pengaruh faktor acak untuk derajat kebebasan dan tingkat signifikansi tertentu a. Tingkat signifikansi a - probabilitas menolak hipotesis yang benar, asalkan itu benar. Biasanya a diambil sama dengan 0,05 atau 0,01.
Jika F tabel< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F adalah fakta, maka hipotesis H tentang tidak ditolak dan signifikansi statistik, ketidakandalan persamaan regresi diakui.
Untuk menilai signifikansi statistik dari koefisien regresi dan korelasi, uji-t Student dan interval kepercayaan untuk masing-masing indikator dihitung. Hipotesis H tentang sifat acak dari indikator diajukan, yaitu. tentang perbedaan signifikan mereka dari nol. Penilaian signifikansi koefisien regresi dan korelasi menggunakan Student's t-test dilakukan dengan membandingkan nilainya dengan besarnya kesalahan acak:
; ; .
Kesalahan acak parameter regresi linier dan koefisien korelasi ditentukan oleh rumus:



Membandingkan nilai aktual dan kritis (tabel) dari t-statistik - t tabl dan t fakta - kami menerima atau menolak hipotesis H o.
Hubungan antara uji-F Fisher dan statistik-t Student dinyatakan dengan persamaan

Jika t tabel< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t fakta bahwa hipotesis H tentang tidak ditolak dan sifat acak dari pembentukan a, b atau r xy diakui.
Untuk menghitung interval kepercayaan, kami menentukan kesalahan marginal D untuk setiap indikator:
a =t tabel m a , b =t tabel m b .
Rumus untuk menghitung interval kepercayaan adalah sebagai berikut:
a \u003d aΔ a; a \u003d a-Δ a; a =a+a
b = bΔ b ; b = b-Δ b ; b =b+Δb
Jika nol berada dalam batas interval kepercayaan, mis. Jika batas bawah negatif dan batas atas positif, maka parameter yang diestimasi diasumsikan nol, karena tidak dapat secara bersamaan mengambil nilai positif dan negatif.
Nilai prakiraan y p ditentukan dengan mensubstitusi nilai (perkiraan) yang sesuai x p ke dalam persamaan regresi y x =a+b·x . Rata-rata kesalahan standar dari ramalan m y x dihitung:
,
di mana
dan interval kepercayaan ramalan dibangun:
y x =y p y p ; y x min=y p -Δ y p ; y x maks=y p +Δ y p
dimana y x =t tabel ·m y x .

Contoh Solusi

Tugas nomor 1. Untuk tujuh wilayah wilayah Ural Untuk 199X, nilai dua tanda diketahui.
Tabel 1.

Diperlukan: 1. Untuk mengkarakterisasi ketergantungan y pada x, hitung parameter dari fungsi berikut:
a) linier;
b) hukum pangkat (sebelumnya perlu dilakukan prosedur linierisasi variabel dengan mengambil logaritma dari kedua bagian);
c) demonstratif;
d) hiperbola sama sisi (Anda juga perlu mencari cara untuk melakukan pra-linearisasi model ini).
2. Evaluasi setiap model melalui rata-rata eror aproksimasi A dan uji F Fisher.

Solusi (Opsi #1)

Untuk menghitung parameter a dan b dari regresi linier y=a+b·x (penghitungan dapat dilakukan dengan menggunakan kalkulator).
menyelesaikan sistem persamaan normal terhadap sebuah dan b:
Berdasarkan data awal, kami menghitung y, x, y x, x², y²:
kamu x yx x2 y2 y xy-y xai
aku68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Menikahi nilai (Jumlah/n)57,89
kamu
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 76,88

Persamaan regresi: y= 76,88 - 0,35X. Dengan peningkatan upah harian rata-rata sebesar 1 gosok. bagian pengeluaran untuk pembelian produk makanan berkurang rata-rata 0,35% poin.
Hitung koefisien linier korelasi pasangan:

Komunikasi moderat, sebaliknya.
Mari kita tentukan koefisien determinasi: r² xy =(-0,35)=0,127
Variasi 12,7% dalam hasil dijelaskan oleh variasi faktor x. Mengganti nilai sebenarnya ke dalam persamaan regresi X, kami menentukan nilai teoretis (dihitung) dari y x . Mari kita cari nilai kesalahan aproksimasi rata-rata A :

Rata-rata, nilai yang dihitung menyimpang dari yang sebenarnya sebesar 8,1%.
Mari kita hitung kriteria-F:

Nilai yang diperoleh menunjukkan perlunya menerima hipotesis H 0 tentang sifat acak dari ketergantungan yang terungkap dan ketidakpentingan statistik dari parameter persamaan dan indikator kedekatan hubungan.
1b. Konstruksi model daya y=a x b didahului dengan prosedur linierisasi variabel. Pada contoh, linearisasi dilakukan dengan mengambil logaritma dari kedua ruas persamaan:
lg y=lg a + b lg x
Y=C+b Y
di mana Y=lg(y), X=lg(x), C=lg(a).

Untuk perhitungan, kami menggunakan data pada Tabel. 1.3.
Tabel 1.3

kamuX YX Y2 x2 y xy-y x(y-yx)²ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Berarti1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
20,0018 0,0023 XXXXXXX

Hitung C dan b:

C=Y -b X = 1.7605+0.298 1.7370 = 2.278126
Kami mendapatkan persamaan linier: Y=2.278-0.298 X
Setelah dipotensiasi, kita mendapatkan: y=10 2,278 x -0,298
Mensubstitusikan dalam persamaan ini nilai-nilai yang sebenarnya X, kami memperoleh nilai teoretis dari hasilnya. Berdasarkan mereka, kami menghitung indikator: keketatan koneksi - indeks korelasi p xy dan kesalahan perkiraan rata-rata A .

Karakteristik model daya menunjukkan bahwa ia menggambarkan hubungan agak lebih baik daripada fungsi linier.

1c. Konstruksi persamaan kurva eksponensial y \u003d a b x didahului dengan prosedur linierisasi variabel saat mengambil logaritma dari kedua bagian persamaan:
lg y=lg a + x lg b
Y=C+Bx
Untuk perhitungan, kami menggunakan data tabel.

kamux yx Y2 x2y xy-y x(y-yx)²ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Menikahi zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
20,0018 34,339 XXXXXXX

Nilai parameter regresi A dan PADA sebesar:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Persamaan linier diperoleh: Y=1,887-0,0023x. Kami mempotensiasi persamaan yang dihasilkan dan menulisnya dalam bentuk biasa:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Kami memperkirakan ketatnya hubungan melalui indeks korelasi p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Total405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Berarti57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX 232,9476 0,000005 XX

Analisis regresi adalah metode penelitian statistik yang memungkinkan Anda untuk menunjukkan ketergantungan suatu parameter pada satu atau lebih variabel bebas. Di era pra komputer, penggunaannya cukup sulit, terutama jika menyangkut data dalam jumlah besar. Hari ini, setelah mempelajari cara membuat regresi di Excel, Anda dapat memecahkan masalah statistik yang rumit hanya dalam beberapa menit. Di bawah ini adalah contoh spesifik dari bidang ekonomi.

Jenis regresi

Konsep itu sendiri diperkenalkan ke dalam matematika pada tahun 1886. Regresi terjadi:

  • linier;
  • parabola;
  • kekuatan;
  • eksponensial;
  • hiperbolis;
  • demonstratif;
  • logaritma.

Contoh 1

Pertimbangkan masalah menentukan ketergantungan jumlah anggota tim pensiunan pada gaji rata-rata di 6 perusahaan industri.

Tugas. Di enam perusahaan, kami menganalisis gaji bulanan rata-rata dan jumlah karyawan yang keluar atas kemauan sendiri. Dalam bentuk tabel kita memiliki:

Jumlah orang yang pergi

Gaji

30000 rubel

35000 rubel

40000 rubel

45000 rubel

50000 rubel

55000 rubel

60000 rubel

Untuk masalah menentukan ketergantungan jumlah pensiunan terhadap gaji rata-rata di 6 perusahaan, model regresi berbentuk persamaan Y = a 0 + a 1 x 1 +…+a k x k , dimana x i adalah variabel yang mempengaruhi , a i adalah koefisien regresi, a k adalah jumlah faktor.

Untuk tugas ini, Y adalah indikator karyawan yang keluar, dan faktor yang mempengaruhinya adalah gaji, yang dilambangkan dengan X.

Menggunakan kemampuan spreadsheet "Excel"

Analisis regresi di Excel harus didahului dengan penerapan fungsi bawaan pada data tabular yang tersedia. Namun, untuk tujuan ini, lebih baik menggunakan add-in "Analysis Toolkit" yang sangat berguna. Untuk mengaktifkannya Anda perlu:

  • dari tab "File", buka bagian "Opsi";
  • di jendela yang terbuka, pilih baris "Add-on";
  • klik tombol "Pergi" yang terletak di bagian bawah, di sebelah kanan baris "Manajemen";
  • centang kotak di sebelah nama "Paket Analisis" dan konfirmasi tindakan Anda dengan mengklik "OK".

Jika semuanya dilakukan dengan benar, tombol yang diinginkan akan muncul di sisi kanan tab Data, terletak di atas lembar kerja Excel.

di excel

Sekarang kita memiliki semua alat virtual yang diperlukan untuk melakukan perhitungan ekonometrik, kita dapat mulai memecahkan masalah kita. Untuk ini:

  • klik tombol "Analisis Data";
  • di jendela yang terbuka, klik tombol "Regresi";
  • di tab yang muncul, masukkan rentang nilai untuk Y (jumlah karyawan yang berhenti) dan untuk X (gaji mereka);
  • Kami mengkonfirmasi tindakan kami dengan menekan tombol "Ok".

Akibatnya, program akan secara otomatis mengisi lembar baru spreadsheet dengan data analisis regresi. Catatan! Excel memiliki kemampuan untuk secara manual mengatur lokasi yang Anda inginkan untuk tujuan ini. Misalnya, bisa berupa lembar yang sama di mana nilai Y dan X berada, atau bahkan buku kerja baru yang dirancang khusus untuk menyimpan data tersebut.

Analisis hasil regresi untuk R-square

Di Excel, data yang diperoleh selama pemrosesan data dari contoh yang dipertimbangkan terlihat seperti ini:

Pertama-tama, Anda harus memperhatikan nilai R-square. Ini adalah koefisien determinasi. Dalam contoh ini, R-square = 0,755 (75,5%), yaitu, parameter yang dihitung dari model menjelaskan hubungan antara parameter yang dipertimbangkan sebesar 75,5%. Semakin tinggi nilai koefisien determinasi, semakin dapat diterapkan model yang dipilih untuk tugas tertentu. Diyakini bahwa itu benar menggambarkan situasi nyata dengan nilai R-kuadrat di atas 0,8. Jika R-kuadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analisis rasio

Angka 64.1428 menunjukkan berapa nilai Y jika semua variabel xi dalam model yang kita pertimbangkan diset ke nol. Dengan kata lain, dapat dikatakan bahwa nilai parameter yang dianalisis juga dipengaruhi oleh faktor lain yang tidak dijelaskan dalam model tertentu.

Koefisien berikutnya -0,16285, terletak di sel B18, menunjukkan bobot pengaruh variabel X terhadap Y. Ini berarti bahwa gaji bulanan rata-rata karyawan dalam model yang dipertimbangkan mempengaruhi jumlah berhenti dengan bobot -0,16285, yaitu. tingkat pengaruhnya sama sekali kecil. Tanda "-" menunjukkan bahwa koefisien tersebut bernilai negatif. Ini jelas, karena semua orang tahu bahwa semakin tinggi gaji di perusahaan, semakin sedikit orang yang ingin memutuskan kontrak kerja atau berhenti.

Regresi Berganda

Istilah ini mengacu pada persamaan koneksi dengan beberapa variabel independen yang berbentuk:

y \u003d f (x 1 + x 2 + ... x m) + , di mana y adalah fitur efektif (variabel dependen), dan x 1 , x 2 , ... x m adalah faktor faktor (variabel independen).

Estimasi Parameter

Untuk regresi berganda (MR) dilakukan dengan menggunakan metode kuadrat terkecil (OLS). Untuk persamaan linier berbentuk Y = a + b 1 x 1 +…+b m x m + , kita membangun sistem persamaan normal (lihat di bawah)

Untuk memahami prinsip metode, pertimbangkan kasus dua faktor. Kemudian kita memiliki situasi yang dijelaskan oleh rumus

Dari sini kita mendapatkan:

di mana adalah varians dari fitur terkait yang tercermin dalam indeks.

LSM dapat diterapkan pada persamaan MP pada skala yang dapat distandarisasi. Dalam hal ini, kita mendapatkan persamaan:

di mana t y , t x 1, … t xm adalah variabel standar yang nilai rata-ratanya adalah 0; i adalah koefisien regresi standar, dan simpangan bakunya adalah 1.

Harap dicatat bahwa semua i dalam hal ini disetel sebagai normal dan terpusat, sehingga perbandingannya satu sama lain dianggap benar dan dapat diterima. Selain itu, merupakan kebiasaan untuk menyaring faktor, membuang yang memiliki nilai i terkecil.

Soal menggunakan persamaan regresi linier

Misalkan ada tabel dinamika harga produk N tertentu selama 8 bulan terakhir. Penting untuk membuat keputusan tentang kelayakan membeli batchnya dengan harga 1850 rubel/t.

nomor bulan

nama bulan

harga barang N

1750 rubel per ton

1755 rubel per ton

1767 rubel per ton

1760 rubel per ton

1770 rubel per ton

1790 rubel per ton

1810 rubel per ton

1840 rubel per ton

Untuk mengatasi masalah ini di spreadsheet Excel, Anda perlu menggunakan alat Analisis Data yang sudah diketahui dari contoh di atas. Selanjutnya, pilih bagian "Regresi" dan atur parameternya. Harus diingat bahwa di bidang "Input Y interval", rentang nilai untuk variabel dependen (dalam hal ini, harga suatu produk pada bulan-bulan tertentu dalam setahun) harus dimasukkan, dan di kolom "Input Interval X" - untuk variabel independen (nomor bulan). Konfirmasikan tindakan dengan mengklik "Ok". Pada lembar baru (jika diindikasikan demikian), kami mendapatkan data untuk regresi.

Berdasarkan mereka, kami membangun persamaan linier dalam bentuk y=ax+b, di mana parameter a dan b adalah koefisien baris dengan nama nomor bulan dan koefisien dan baris "Y-persimpangan" dari lembar dengan hasil analisis regresi. Dengan demikian, persamaan regresi linier (LE) untuk masalah 3 ditulis sebagai:

Harga produk N = 11.714* nomor bulan + 1727.54.

atau dalam notasi aljabar

y = 11,714 x + 1727,54

Analisis hasil

Untuk memutuskan apakah persamaan regresi linier yang dihasilkan memadai, koefisien korelasi ganda (MCC) dan koefisien determinasi digunakan, serta uji Fisher dan uji Student. Dalam tabel Excel dengan hasil regresi, mereka muncul di bawah nama beberapa R, R-kuadrat, F-statistik dan t-statistik, masing-masing.

KMC R memungkinkan untuk menilai ketatnya hubungan probabilistik antara variabel independen dan dependen. Nilainya yang tinggi menunjukkan hubungan yang cukup kuat antara variabel "Jumlah bulan" dan "Harga barang N dalam rubel per 1 ton". Namun, sifat hubungan ini masih belum diketahui.

Kuadrat koefisien determinasi R 2 (RI) adalah karakteristik numerik dari bagian hamburan total dan menunjukkan hamburan bagian mana dari data eksperimen, yaitu. nilai variabel terikat sesuai dengan persamaan regresi linier. Dalam masalah yang sedang dipertimbangkan, nilai ini sama dengan 84,8%, yaitu, data statistik dijelaskan dengan tingkat akurasi yang tinggi dengan SD yang diperoleh.

F-statistik, juga disebut uji Fisher, digunakan untuk menilai signifikansi hubungan linier, menyangkal atau mengkonfirmasi hipotesis keberadaannya.

(Kriteria siswa) membantu mengevaluasi signifikansi koefisien dengan suku bebas dari hubungan linier yang tidak diketahui atau bebas. Jika nilai t-kriteria > t cr, maka hipotesis insignifikansi suku bebas persamaan linier ditolak.

Dalam masalah yang dipertimbangkan untuk anggota bebas, dengan menggunakan alat Excel, diperoleh bahwa t = 169.20903, dan p = 2.89E-12, yaitu, kami memiliki probabilitas nol bahwa hipotesis yang benar tentang tidak signifikannya anggota bebas akan ditolak. Untuk koefisien pada diketahui t=5.79405, dan p=0.001158. Dengan kata lain, probabilitas bahwa hipotesis yang benar tentang tidak signifikannya koefisien untuk yang tidak diketahui akan ditolak adalah 0,12%.

Dengan demikian, dapat dikatakan bahwa persamaan regresi linier yang dihasilkan adalah memadai.

Masalah kelayakan membeli satu blok saham

Regresi berganda di Excel dilakukan dengan menggunakan alat Analisis Data yang sama. Pertimbangkan masalah khusus yang diterapkan.

Manajemen NNN harus mengambil keputusan tentang layak tidaknya membeli 20% saham MMM SA. Biaya paket (JV) adalah 70 juta dolar AS. Spesialis NNN mengumpulkan data tentang transaksi serupa. Diputuskan untuk mengevaluasi nilai blok saham sesuai dengan parameter tersebut, dinyatakan dalam jutaan dolar AS, sebagai:

  • hutang usaha (VK);
  • omset tahunan (VO);
  • piutang (VD);
  • biaya aset tetap (SOF).

Selain itu, parameter tunggakan penggajian perusahaan (V3 P) digunakan dalam ribuan dolar AS.

Solusi menggunakan spreadsheet Excel

Pertama-tama, Anda perlu membuat tabel data awal. Ini terlihat seperti ini:

  • panggil jendela "Analisis Data";
  • pilih bagian "Regresi";
  • pada kotak "Input interval Y" masukkan range nilai variabel dependen dari kolom G;
  • klik ikon dengan panah merah di sebelah kanan jendela "Input interval X" dan pilih rentang semua nilai dari kolom B, C, D, F pada lembar.

Pilih "Lembar Kerja Baru" dan klik "Ok".

Dapatkan analisis regresi untuk masalah yang diberikan.

Pemeriksaan hasil dan kesimpulan

"Kami mengumpulkan" dari data bulat yang disajikan di atas pada lembar spreadsheet Excel, persamaan regresi:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265.844.

Dalam bentuk matematika yang lebih akrab, dapat ditulis sebagai:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265.844

Data untuk JSC "MMM" disajikan dalam tabel:

Menggantinya ke dalam persamaan regresi, mereka mendapatkan angka 64,72 juta dolar AS. Artinya, saham JSC MMM tidak boleh dibeli, karena nilainya 70 juta dolar AS agak berlebihan.

Seperti yang Anda lihat, penggunaan spreadsheet Excel dan persamaan regresi memungkinkan untuk membuat keputusan yang tepat mengenai kelayakan transaksi yang sangat spesifik.

Sekarang Anda tahu apa itu regresi. Contoh-contoh di Excel yang dibahas di atas akan membantu Anda memecahkan masalah praktis dari bidang ekonometrika.