Metode tradisional kuadrat terkecil. Metode kuadrat terkecil

Ini memiliki banyak aplikasi, karena memungkinkan representasi perkiraan dari fungsi yang diberikan oleh yang lebih sederhana. LSM dapat sangat berguna dalam memproses pengamatan, dan secara aktif digunakan untuk memperkirakan beberapa kuantitas dari hasil pengukuran lainnya yang mengandung kesalahan acak. Pada artikel ini, Anda akan belajar bagaimana menerapkan perhitungan kuadrat terkecil di Excel.

Pernyataan masalah pada contoh spesifik

Misalkan ada dua indikator X dan Y. Selain itu, Y bergantung pada X. Karena OLS menarik bagi kami dari sudut pandang analisis regresi (di Excel, metodenya diimplementasikan menggunakan fungsi bawaan), kami harus segera melanjutkan untuk mempertimbangkan masalah tertentu.

Jadi, misalkan X adalah luas penjualan toko kelontong, diukur dalam meter persegi, dan Y adalah omset tahunan, yang ditentukan dalam jutaan rubel.

Hal ini diperlukan untuk membuat perkiraan omset (Y) yang akan dimiliki toko jika memiliki satu atau beberapa ruang ritel lainnya. Jelas, fungsi Y = f (X) meningkat, karena hypermarket menjual lebih banyak barang daripada kios.

Beberapa kata tentang kebenaran data awal yang digunakan untuk prediksi

Katakanlah kita memiliki tabel yang dibangun dengan data untuk n toko.

Menurut statistik matematika, hasilnya akan lebih atau kurang benar jika data pada setidaknya 5-6 objek diperiksa. Juga, hasil "anomali" tidak dapat digunakan. Secara khusus, butik kecil elit dapat memiliki omset berkali-kali lebih besar daripada omset gerai besar kelas "masmarket".

Inti dari metode

Data tabel dapat ditampilkan pada bidang Cartesian sebagai titik M 1 (x 1, y 1), ... M n (x n, y n). Sekarang solusi dari masalah akan direduksi menjadi pemilihan fungsi aproksimasi y = f (x), yang memiliki grafik yang lewat sedekat mungkin ke titik M 1, M 2, .. M n .

Tentu saja, Anda dapat menggunakan polinomial tingkat tinggi, tetapi opsi ini tidak hanya sulit untuk diterapkan, tetapi juga salah, karena tidak mencerminkan tren utama yang perlu dideteksi. Solusi yang paling masuk akal adalah mencari garis lurus y = ax + b, yang paling mendekati data eksperimen, dan lebih tepatnya, koefisien - a dan b.

Skor akurasi

Untuk pendekatan apa pun, penilaian akurasinya sangat penting. Dilambangkan dengan ei perbedaan (deviasi) antara nilai fungsional dan eksperimental untuk titik x i , yaitu e i = y i - f (x i).

Jelas, untuk menilai keakuratan pendekatan, Anda dapat menggunakan jumlah penyimpangan, yaitu, ketika memilih garis lurus untuk representasi perkiraan ketergantungan X pada Y, preferensi harus diberikan kepada garis yang memiliki nilai terkecil dari jumlah e i di semua titik yang dipertimbangkan. Namun, tidak semuanya sesederhana itu, karena seiring dengan penyimpangan positif, praktis akan ada penyimpangan negatif.

Anda dapat memecahkan masalah menggunakan modul deviasi atau kuadratnya. Cara yang terakhir ini yang paling banyak digunakan. Ini digunakan di banyak bidang, termasuk analisis regresi (di Excel, implementasinya dilakukan menggunakan dua fungsi bawaan), dan telah lama terbukti efektif.

Metode kuadrat terkecil

Di Excel, seperti yang Anda ketahui, ada fungsi autosum bawaan yang memungkinkan Anda menghitung nilai semua nilai yang terletak di kisaran yang dipilih. Jadi, tidak ada yang akan menghalangi kita untuk menghitung nilai ekspresi (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

Dalam notasi matematika, ini terlihat seperti:

Karena keputusan awalnya dibuat untuk mendekati menggunakan garis lurus, kami memiliki:

Jadi, tugas menemukan garis lurus yang paling menggambarkan hubungan spesifik antara X dan Y sama dengan menghitung fungsi minimum dari dua variabel:

Ini membutuhkan persamaan dengan nol turunan parsial sehubungan dengan variabel baru a dan b, dan menyelesaikan sistem primitif yang terdiri dari dua persamaan dengan 2 bentuk yang tidak diketahui:

Setelah transformasi sederhana, termasuk membagi dengan 2 dan memanipulasi jumlah, kita mendapatkan:

Memecahkannya, misalnya, dengan metode Cramer, kami memperoleh titik stasioner dengan koefisien tertentu a * dan b * . Ini adalah minimum, yaitu untuk memprediksi omset toko untuk area tertentu, garis lurus y = a * x + b * cocok, yang merupakan model regresi untuk contoh yang dimaksud. Tentu saja, itu tidak akan memungkinkan Anda untuk menemukan hasil yang tepat, tetapi ini akan membantu Anda mendapatkan gambaran apakah membeli toko secara kredit untuk area tertentu akan membuahkan hasil.

Bagaimana menerapkan metode kuadrat terkecil di Excel

Excel memiliki fungsi untuk menghitung nilai kuadrat terkecil. Ini memiliki bentuk berikut: TREND (nilai Y yang diketahui; nilai X yang diketahui; nilai X baru; konstan). Mari kita terapkan rumus untuk menghitung OLS di Excel ke tabel kita.

Untuk melakukan ini, di sel di mana hasil perhitungan menggunakan metode kuadrat terkecil di Excel harus ditampilkan, masukkan tanda "=" dan pilih fungsi "TREND". Di jendela yang terbuka, isi bidang yang sesuai, sorot:

  • rentang nilai yang diketahui untuk Y (dalam hal ini data untuk pergantian);
  • range x 1 , …x n , yaitu ukuran ruang ritel;
  • dan nilai x yang diketahui dan tidak diketahui, di mana Anda perlu mengetahui ukuran omset (untuk informasi tentang lokasinya di lembar kerja, lihat di bawah).

Selain itu, ada variabel logis "Const" dalam rumus. Jika Anda memasukkan 1 di bidang yang sesuai dengannya, maka ini berarti bahwa perhitungan harus dilakukan, dengan asumsi bahwa b \u003d 0.

Jika Anda perlu mengetahui ramalan untuk lebih dari satu nilai x, maka setelah memasukkan rumus, Anda tidak boleh menekan "Enter", tetapi Anda perlu mengetikkan kombinasi "Shift" + "Kontrol" + "Enter" ("Enter" ) pada papan ketik.

Beberapa Fitur

Analisis regresi dapat diakses bahkan untuk boneka. Rumus Excel untuk memprediksi nilai array variabel yang tidak diketahui - "TREND" - dapat digunakan bahkan oleh mereka yang belum pernah mendengar tentang metode kuadrat terkecil. Cukup mengetahui beberapa fitur pekerjaannya. Secara khusus:

  • Jika Anda mengatur rentang nilai variabel y yang diketahui dalam satu baris atau kolom, maka setiap baris (kolom) dengan nilai x yang diketahui akan dianggap oleh program sebagai variabel terpisah.
  • Jika rentang dengan x yang diketahui tidak ditentukan di jendela TREND, maka dalam kasus penggunaan fungsi di Excel, program akan menganggapnya sebagai larik yang terdiri dari bilangan bulat, yang jumlahnya sesuai dengan rentang dengan nilai yang diberikan​ dari variabel y.
  • Untuk menampilkan larik nilai "prediksi", ekspresi tren harus dimasukkan sebagai rumus larik.
  • Jika tidak ada nilai x baru yang ditentukan, maka fungsi TREND menganggapnya sama dengan yang diketahui. Jika tidak ditentukan, maka array 1 diambil sebagai argumen; 2; 3; 4;…, yang sepadan dengan range dengan parameter y yang sudah diberikan.
  • Rentang yang berisi nilai x baru harus memiliki baris atau kolom yang sama atau lebih dengan rentang dengan nilai y yang diberikan. Dengan kata lain, harus proporsional dengan variabel bebas.
  • Array dengan nilai x yang diketahui dapat berisi banyak variabel. Namun, jika kita berbicara tentang hanya satu, maka rentang dengan nilai x dan y yang diberikan harus sepadan. Dalam kasus beberapa variabel, rentang dengan nilai y yang diberikan harus sesuai dalam satu kolom atau satu baris.

Fungsi PERKIRAAN

Ini diimplementasikan menggunakan beberapa fungsi. Salah satunya disebut "PREDIKSI". Mirip dengan TREND, yaitu memberikan hasil perhitungan menggunakan metode kuadrat terkecil. Namun, hanya untuk satu X, yang nilai Y tidak diketahui.

Sekarang Anda mengetahui rumus Excel untuk boneka yang memungkinkan Anda memprediksi nilai nilai masa depan dari suatu indikator menurut tren linier.

Pendekatan data eksperimen adalah metode yang didasarkan pada penggantian data yang diperoleh secara eksperimental dengan fungsi analitik yang paling mendekati atau bertepatan pada titik-titik nodal dengan nilai awal (data diperoleh selama eksperimen atau eksperimen). Saat ini ada dua cara untuk mendefinisikan fungsi analitik:

Dengan membangun polinomial interpolasi derajat-n yang melewati langsung melalui semua titik array data yang diberikan. Dalam hal ini, fungsi aproksimasi direpresentasikan sebagai: polinomial interpolasi dalam bentuk Lagrange atau polinomial interpolasi dalam bentuk Newton.

Dengan membangun polinomial aproksimasi derajat-n yang melewati dekat dengan poin dari larik data yang diberikan. Dengan demikian, fungsi aproksimasi menghaluskan semua gangguan acak (atau kesalahan) yang mungkin terjadi selama percobaan: nilai yang diukur selama percobaan bergantung pada faktor acak yang berfluktuasi sesuai dengan hukum acaknya sendiri (kesalahan pengukuran atau instrumen, ketidaktepatan atau eksperimental kesalahan). Dalam hal ini, fungsi aproksimasi ditentukan dengan metode kuadrat terkecil.

Metode kuadrat terkecil(dalam literatur bahasa Inggris, Ordinary Least Squares, OLS) adalah metode matematika yang didasarkan pada definisi fungsi aproksimasi, yang dibangun dalam jarak terdekat ke titik dari larik data eksperimen yang diberikan. Kedekatan fungsi awal dan fungsi aproksimasi F(x) ditentukan oleh ukuran numerik, yaitu: jumlah deviasi kuadrat dari data eksperimen dari kurva aproksimasi F(x) harus yang terkecil.

Kurva pas dibangun dengan metode kuadrat terkecil

Metode kuadrat terkecil digunakan:

Menyelesaikan sistem persamaan yang ditentukan lebih ketika jumlah persamaan melebihi jumlah yang tidak diketahui;

Untuk mencari solusi dalam kasus sistem persamaan nonlinier biasa (tidak ditentukan lebih);

Untuk pendekatan nilai titik dengan beberapa fungsi pendekatan.

Fungsi aproksimasi dengan metode kuadrat terkecil ditentukan dari kondisi jumlah minimum deviasi kuadrat dari fungsi aproksimasi yang dihitung dari larik data eksperimen yang diberikan. Kriteria metode kuadrat terkecil ini ditulis sebagai ekspresi berikut:

Nilai dari fungsi aproksimasi yang dihitung pada titik nodal ,

Array tertentu dari data eksperimen pada titik-titik nodal.

Kriteria kuadrat memiliki sejumlah properti "baik", seperti diferensiasi, memberikan solusi unik untuk masalah aproksimasi dengan fungsi aproksimasi polinomial.

Bergantung pada kondisi masalah, fungsi aproksimasi adalah polinomial derajat m

Derajat fungsi aproksimasi tidak bergantung pada jumlah titik nodal, tetapi dimensinya harus selalu lebih kecil dari dimensi (jumlah titik) dari larik data eksperimen yang diberikan.

Jika derajat fungsi aproksimasi adalah m=1, maka fungsi tabel didekati dengan garis lurus (regresi linier).

Jika derajat fungsi aproksimasi adalah m=2, maka fungsi tabel didekati dengan parabola kuadrat (perkiraan kuadrat).

Jika derajat fungsi aproksimasi adalah m=3, maka fungsi tabel didekati dengan parabola kubik (perkiraan kubik).

Dalam kasus umum, ketika diperlukan untuk membangun polinomial aproksimasi derajat m untuk nilai-nilai tabel yang diberikan, kondisi untuk jumlah minimum deviasi kuadrat atas semua titik nodal ditulis ulang dalam bentuk berikut:

- koefisien yang tidak diketahui dari polinomial aproksimasi derajat m;

Jumlah nilai tabel yang ditentukan.

Kondisi yang diperlukan untuk keberadaan minimum suatu fungsi adalah persamaan dengan nol dari turunan parsialnya terhadap variabel yang tidak diketahui . Akibatnya, kami memperoleh sistem persamaan berikut:

Mari kita ubah sistem persamaan linier yang dihasilkan: buka tanda kurung dan pindahkan suku bebas ke sisi kanan ekspresi. Akibatnya, sistem ekspresi aljabar linier yang dihasilkan akan ditulis dalam bentuk berikut:

Sistem ekspresi aljabar linier ini dapat ditulis ulang dalam bentuk matriks:

Akibatnya, diperoleh sistem persamaan linier berdimensi m + 1, yang terdiri dari m + 1 tidak diketahui. Sistem ini dapat diselesaikan dengan menggunakan metode apa pun untuk menyelesaikan persamaan aljabar linier (misalnya, metode Gauss). Sebagai hasil dari solusi, parameter yang tidak diketahui dari fungsi aproksimasi akan ditemukan yang memberikan jumlah minimum deviasi kuadrat dari fungsi aproksimasi dari data asli, yaitu pendekatan kuadrat terbaik. Harus diingat bahwa jika bahkan satu nilai dari data awal berubah, semua koefisien akan berubah nilainya, karena semuanya ditentukan oleh data awal.

Perkiraan data awal dengan ketergantungan linier

(regresi linier)

Sebagai contoh, pertimbangkan metode untuk menentukan fungsi aproksimasi, yang diberikan sebagai hubungan linier. Sesuai dengan metode kuadrat terkecil, kondisi jumlah simpangan kuadrat minimum ditulis sebagai berikut:

Koordinat titik nodal tabel;

Koefisien yang tidak diketahui dari fungsi aproksimasi, yang diberikan sebagai hubungan linier.

Kondisi yang diperlukan untuk keberadaan minimum suatu fungsi adalah persamaan dengan nol dari turunan parsialnya terhadap variabel yang tidak diketahui. Akibatnya, kami memperoleh sistem persamaan berikut:

Mari kita ubah sistem persamaan linear yang dihasilkan.

Kami memecahkan sistem persamaan linier yang dihasilkan. Koefisien fungsi aproksimasi dalam bentuk analitik ditentukan sebagai berikut (metode Cramer):

Koefisien ini memberikan konstruksi fungsi aproksimasi linier sesuai dengan kriteria untuk meminimalkan jumlah kuadrat dari fungsi aproksimasi dari nilai tabel yang diberikan (data eksperimental).

Algoritma untuk mengimplementasikan metode kuadrat terkecil

1. Data awal:

Diberikan array data eksperimen dengan jumlah pengukuran N

Derajat polinomial aproksimasi (m) diberikan

2. Algoritma perhitungan:

2.1. Koefisien ditentukan untuk membangun sistem persamaan dengan dimensi

Koefisien sistem persamaan (sisi kiri persamaan)

- indeks nomor kolom matriks kuadrat dari sistem persamaan

Anggota bebas dari sistem persamaan linier (sisi kanan persamaan)

- indeks nomor baris matriks kuadrat dari sistem persamaan

2.2. Pembentukan sistem persamaan linier berdimensi .

2.3. Solusi dari sistem persamaan linier untuk menentukan koefisien yang tidak diketahui dari polinomial aproksimasi derajat m.

2.4 Penentuan jumlah deviasi kuadrat dari polinomial yang mendekati dari nilai awal pada semua titik nodal

Nilai yang ditemukan dari jumlah deviasi kuadrat adalah seminimal mungkin.

Pendekatan dengan Fungsi Lain

Perlu dicatat bahwa ketika mendekati data awal sesuai dengan metode kuadrat terkecil, fungsi logaritma, fungsi eksponensial, dan fungsi pangkat kadang-kadang digunakan sebagai fungsi aproksimasi.

Pendekatan log

Pertimbangkan kasus ketika fungsi pendekatan diberikan oleh fungsi logaritmik dari bentuk:

Inti dari metode kuadrat terkecil adalah dalam menemukan parameter model tren yang paling menggambarkan tren perkembangan dari setiap fenomena acak dalam waktu atau ruang (tren adalah garis yang mencirikan tren perkembangan ini). Tugas metode kuadrat terkecil (OLS) adalah untuk menemukan tidak hanya beberapa model tren, tetapi untuk menemukan model terbaik atau optimal. Model ini akan optimal jika jumlah deviasi kuadrat antara nilai aktual yang diamati dan nilai tren yang dihitung terkait adalah minimal (terkecil):

di mana adalah standar deviasi antara nilai aktual yang diamati

dan nilai tren terhitung yang sesuai,

Nilai aktual (yang diamati) dari fenomena yang diteliti,

Nilai estimasi model tren,

Banyaknya pengamatan terhadap fenomena yang diteliti.

MNC jarang digunakan sendiri. Sebagai aturan, paling sering digunakan hanya sebagai teknik yang diperlukan dalam studi korelasi. Perlu diingat bahwa basis informasi LSM hanya dapat berupa rangkaian statistik yang dapat diandalkan, dan jumlah pengamatan tidak boleh kurang dari 4, jika tidak, prosedur pemulusan LSM dapat kehilangan akal sehat.

Toolkit OLS direduksi menjadi prosedur berikut:

Prosedur pertama. Ternyata apakah ada kecenderungan sama sekali untuk mengubah atribut yang dihasilkan ketika faktor-argumen yang dipilih berubah, atau dengan kata lain, apakah ada hubungan antara " pada " dan " X ».

Prosedur kedua. Ditentukan garis (lintasan) mana yang paling mampu menggambarkan atau mencirikan tren ini.

Prosedur ketiga.

Contoh. Misalkan kita memiliki informasi tentang hasil rata-rata bunga matahari untuk pertanian yang diteliti (Tabel 9.1).

Tabel 9.1

Nomor observasi

Produktivitas, c/ha

Karena tingkat teknologi dalam produksi bunga matahari di negara kita tidak banyak berubah selama 10 tahun terakhir, itu berarti, kemungkinan besar, fluktuasi hasil pada periode yang dianalisis sangat bergantung pada fluktuasi cuaca dan kondisi iklim. Apakah itu benar?

Prosedur MNC pertama. Hipotesis tentang adanya tren perubahan hasil bunga matahari tergantung pada perubahan kondisi cuaca dan iklim selama 10 tahun yang dianalisis sedang diuji.

Dalam contoh ini, untuk " kamu » disarankan untuk mengambil hasil bunga matahari, dan untuk « x » adalah jumlah tahun yang diamati dalam periode yang dianalisis. Menguji hipotesis tentang adanya hubungan antara “ x " dan " kamu » dapat dilakukan dengan dua cara: secara manual dan dengan bantuan program komputer. Tentunya dengan tersedianya teknologi komputer, masalah ini dapat teratasi dengan sendirinya. Namun, untuk lebih memahami toolkit OLS, disarankan untuk menguji hipotesis tentang adanya hubungan antara " x " dan " kamu » secara manual, saat hanya ada pena dan kalkulator biasa. Dalam kasus seperti itu, hipotesis keberadaan tren paling baik diperiksa secara visual dengan lokasi gambar grafik dari deret waktu yang dianalisis - bidang korelasi:

Bidang korelasi dalam contoh kita terletak di sekitar garis yang meningkat perlahan. Hal ini sendiri menunjukkan adanya tren tertentu dalam perubahan hasil bunga matahari. Mustahil untuk berbicara tentang keberadaan tren apa pun hanya ketika bidang korelasi terlihat seperti lingkaran, lingkaran, awan yang benar-benar vertikal atau horizontal, atau terdiri dari titik-titik yang tersebar secara acak. Dalam semua kasus lain, perlu untuk mengkonfirmasi hipotesis adanya hubungan antara " x " dan " kamu dan melanjutkan penelitian.

Prosedur MNC kedua. Ditentukan garis (lintasan) mana yang paling mampu menggambarkan atau mengkarakterisasi tren perubahan hasil bunga matahari untuk periode yang dianalisis.

Dengan tersedianya teknologi komputer, pemilihan trend yang optimal terjadi secara otomatis. Dengan pemrosesan "manual", pilihan fungsi optimal dilakukan, sebagai suatu peraturan, secara visual - berdasarkan lokasi bidang korelasi. Artinya, menurut jenis bagan, persamaan garis dipilih, yang paling sesuai dengan tren empiris (ke lintasan sebenarnya).

Seperti yang Anda ketahui, di alam ada berbagai macam dependensi fungsional, sehingga sangat sulit untuk menganalisis secara visual bahkan sebagian kecil darinya. Untungnya, dalam praktik ekonomi nyata, sebagian besar hubungan dapat digambarkan secara akurat baik dengan parabola, atau hiperbola, atau garis lurus. Dalam hal ini, dengan opsi "manual" untuk memilih fungsi terbaik, Anda dapat membatasi diri hanya pada tiga model ini.

Hiperbola:

Parabola orde kedua: :

Sangat mudah untuk melihat bahwa dalam contoh kita, tren perubahan hasil bunga matahari selama 10 tahun yang dianalisis paling baik dicirikan oleh garis lurus, sehingga persamaan regresi akan menjadi persamaan garis lurus.

Prosedur ketiga. Parameter persamaan regresi yang mencirikan garis ini dihitung, atau dengan kata lain, formula analitik ditentukan yang menggambarkan model tren terbaik.

Menemukan nilai parameter persamaan regresi, dalam kasus kami, parameter dan , adalah inti dari LSM. Proses ini direduksi menjadi penyelesaian sistem persamaan normal.

(9.2)

Sistem persamaan ini cukup mudah diselesaikan dengan metode Gauss. Ingatlah bahwa sebagai hasil dari solusi, dalam contoh kami, nilai parameter dan ditemukan. Dengan demikian, persamaan regresi yang ditemukan akan memiliki bentuk sebagai berikut:

Setelah penyelarasan, kita mendapatkan fungsi dari bentuk berikut: g (x) = x + 1 3 + 1 .

Kita dapat memperkirakan data ini dengan hubungan linier y = a x + b dengan menghitung parameter yang sesuai. Untuk melakukan ini, kita perlu menerapkan apa yang disebut metode kuadrat terkecil. Anda juga perlu membuat gambar untuk memeriksa garis mana yang paling tepat untuk menyelaraskan data eksperimen.

Yandex.RTB R-A-339285-1

Apa sebenarnya OLS (metode kuadrat terkecil)

Hal utama yang perlu kita lakukan adalah menemukan koefisien ketergantungan linier di mana nilai fungsi dua variabel F (a, b) = i = 1 n (y i - (a x i + b)) 2 akan menjadi terkecil. Dengan kata lain, untuk nilai a dan b tertentu, jumlah simpangan kuadrat dari data yang disajikan dari garis lurus yang dihasilkan akan memiliki nilai minimum. Demikianlah apa yang dimaksud dengan metode kuadrat terkecil. Yang harus kita lakukan untuk menyelesaikan contoh ini adalah menemukan ekstrem dari fungsi dua variabel.

Cara mendapatkan rumus untuk menghitung koefisien

Untuk mendapatkan rumus untuk menghitung koefisien, perlu untuk menyusun dan menyelesaikan sistem persamaan dengan dua variabel. Untuk melakukan ini, kami menghitung turunan parsial dari ekspresi F (a , b) = i = 1 n (y i - (a x i + b)) 2 terhadap a dan b dan menyamakannya dengan 0 .

F (a , b) a = 0 F (a , b) b = 0 - 2 i = 1 n (y i - (a x i + b)) x i = 0 - 2 i = 1 n ( y i - (a x i + b)) = 0 a i = 1 n x i 2 + b i = 1 n x i = i = 1 n x i y i a i = 1 n x i + i = 1 n b = i = 1 n y i i = 1 n x i 2 + b i = 1 n x i = i = 1 n x i y i a i = 1 n x i + n b = i = 1 n y i

Untuk menyelesaikan sistem persamaan, Anda dapat menggunakan metode apa pun, seperti substitusi atau metode Cramer. Akibatnya, kita harus mendapatkan rumus yang menghitung koefisien menggunakan metode kuadrat terkecil.

n i = 1 n x i y i - i = 1 n x i i = 1 n y i n i = 1 n - i = 1 n x i 2 b = i = 1 n y i - a i = 1 n x i n

Kami telah menghitung nilai variabel yang fungsinya
F (a , b) = i = 1 n (y i - (a x i + b)) 2 akan mengambil nilai minimum. Di paragraf ketiga, kami akan membuktikan mengapa demikian.

Ini adalah penerapan metode kuadrat terkecil dalam praktik. Rumusnya, yang digunakan untuk mencari parameter a , meliputi i = 1 n x i , i = 1 n y i , i = 1 n x i y i , i = 1 n x i 2 , dan parameter
n - ini menunjukkan jumlah data eksperimen. Kami menyarankan Anda untuk menghitung setiap jumlah secara terpisah. Nilai koefisien b dihitung segera setelah a .

Mari kita kembali ke contoh awal.

Contoh 1

Di sini kita memiliki n sama dengan lima. Untuk membuatnya lebih mudah untuk menghitung jumlah yang diperlukan yang termasuk dalam rumus koefisien, kami mengisi tabel.

saya = 1 saya = 2 saya = 3 saya = 4 saya = 5 saya = 1 5
x saya 0 1 2 4 5 12
aku 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x saya y saya 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x saya 2 0 1 4 16 25 46

Keputusan

Baris keempat berisi data yang diperoleh dengan mengalikan nilai dari baris kedua dengan nilai ketiga untuk setiap individu i . Baris kelima berisi data dari kuadrat kedua. Kolom terakhir menunjukkan jumlah nilai dari masing-masing baris.

Mari kita gunakan metode kuadrat terkecil untuk menghitung koefisien a dan b yang kita butuhkan. Untuk melakukan ini, gantikan nilai yang diinginkan dari kolom terakhir dan hitung jumlahnya:

n i = 1 n x i y i - i = 1 n x i i = 1 n y i n i = 1 n - i = 1 n x i 2 b = i = 1 n y i - a i = 1 n x i = 5 33 , 8 a - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 a 0, 165 b 2, 184

Kami mendapatkan bahwa garis lurus aproksimasi yang diinginkan akan terlihat seperti y = 0 , 165 x + 2 , 184 . Sekarang kita perlu menentukan garis mana yang paling mendekati data - g (x) = x + 1 3 + 1 atau 0 , 165 x + 2 , 184 . Mari kita membuat perkiraan menggunakan metode kuadrat terkecil.

Untuk menghitung galat, kita perlu mencari jumlah simpangan kuadrat data dari garis 1 = i = 1 n (y i - (a x i + b i)) 2 dan 2 = i = 1 n (y i - g (x i)) 2 , nilai minimum akan sesuai dengan garis yang lebih cocok.

1 = i = 1 n (y i - (a x i + b i)) 2 = = i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 2 = i = 1 n (y i - g (x i)) 2 = = i = 1 5 (y i - (x i + 1 3 + 1)) 2 0 , 096

Menjawab: sejak 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0, 165 x + 2 , 184 .

Metode kuadrat terkecil ditunjukkan dengan jelas dalam ilustrasi grafik. Garis merah menandai garis lurus g (x) = x + 1 3 + 1, garis biru menandai y = 0, 165 x + 2, 184. Data mentah ditandai dengan titik-titik merah muda.

Mari kita jelaskan mengapa persisnya perkiraan jenis ini diperlukan.

Mereka dapat digunakan dalam masalah yang membutuhkan pemulusan data, serta di mana data perlu diinterpolasi atau diekstrapolasi. Misalnya, dalam masalah yang dibahas di atas, seseorang dapat menemukan nilai besaran yang diamati y pada x = 3 atau pada x = 6 . Kami telah mendedikasikan artikel terpisah untuk contoh-contoh seperti itu.

Bukti metode LSM

Agar fungsi dapat mengambil nilai minimum untuk a dan b yang dihitung, perlu bahwa pada suatu titik tertentu matriks bentuk kuadrat dari diferensial dari fungsi bentuk F (a, b) = i = 1 n ( y i - (a x i + b)) 2 pasti positif. Mari kita tunjukkan bagaimana seharusnya terlihat.

Contoh 2

Kami memiliki diferensial orde kedua dari bentuk berikut:

d 2 F (a ; b) = 2 F (a ; b) a 2 d 2 a + 2 2 F (a ; b) a b d a d b + 2 F (a ; b) δ b 2 d 2b

Keputusan

2 F (a ; b) a 2 = δ F (a ; b) a a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 i = 1 n (x i) 2 2 F (a ; b) a b = F (a ; b) a b = = - 2 i = 1 n (y i - (a x i + b) ) x i b = 2 i = 1 n x i 2 F (a ; b) b 2 = F (a ; b) b δ b = - 2 ∑ i = 1 n (y i - (a x i + b)) b = 2 i = 1 n (1) = 2 n

Dengan kata lain dapat ditulis sebagai berikut: d 2 F (a ; b) = 2 i = 1 n (x i) 2 d 2 a + 2 2 x i i = 1 n d a d b + (2 n) d 2 b .

Kami telah memperoleh matriks bentuk kuadrat M = 2 i = 1 n (x i) 2 2 i = 1 n x i 2 i = 1 n x i 2 n .

Dalam hal ini, nilai elemen individu tidak akan berubah tergantung pada a dan b . Apakah matriks ini pasti positif? Untuk menjawab pertanyaan ini, mari kita periksa apakah sudut minornya positif.

Hitung minor sudut orde pertama: 2 i = 1 n (x i) 2 > 0 . Karena titik x i tidak bertepatan, pertidaksamaannya ketat. Kami akan mengingat hal ini dalam perhitungan lebih lanjut.

Kami menghitung minor sudut orde kedua:

d e t (M) = 2 i = 1 n (x i) 2 2 i = 1 n x i 2 i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

Setelah itu, lanjutkan ke pembuktian pertidaksamaan n i = 1 n (x i) 2 - i = 1 n x i 2 > 0 menggunakan induksi matematika.

  1. Mari kita periksa apakah ketidaksetaraan ini valid untuk n arbitrer. Mari kita ambil 2 dan hitung:

2 i = 1 2 (x i) 2 - i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Kami mendapat kesetaraan yang benar (jika nilai x 1 dan x 2 tidak cocok).

  1. Mari kita asumsikan bahwa pertidaksamaan ini akan benar untuk n , yaitu. n i = 1 n (x i) 2 - i = 1 n x i 2 > 0 – benar.
  2. Sekarang mari kita buktikan validitas untuk n + 1 , yaitu. bahwa (n + 1) i = 1 n + 1 (x i) 2 - i = 1 n + 1 x i 2 > 0 jika n ∑ i = 1 n (x i) 2 - i = 1 n x i 2 > 0 .

Kami menghitung:

(n + 1) i = 1 n + 1 (x i) 2 - i = 1 n + 1 x i 2 = = (n + 1) i = 1 n (x i) 2 + x n + 1 2 - i = 1 n x i + x n + 1 2 = = n i = 1 n (x i) 2 + n x n + 1 2 + i = 1 n (x i) 2 + x n + 1 2 - - i = 1 n x i 2 + 2 x n + 1 i = 1 n x i + x n + 1 2 = = i = 1 n (x i) 2 - i = 1 n x i 2 + n x n + 1 2 - x n + 1 i = 1 n x i + i = 1 n (x i) 2 = = i = 1 n (x i) 2 - i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Ekspresi yang diapit dalam kurung kurawal akan lebih besar dari 0 (berdasarkan apa yang kita asumsikan pada langkah 2), dan suku-suku lainnya akan lebih besar dari 0 karena semuanya adalah bilangan kuadrat. Kami telah membuktikan ketidaksetaraan.

Menjawab: a dan b yang ditemukan akan sesuai dengan nilai terkecil dari fungsi F (a, b) = i = 1 n (y i - (a x i + b)) 2, yang berarti bahwa mereka adalah parameter yang diperlukan dari metode kuadrat terkecil (LSM).

Jika Anda melihat kesalahan dalam teks, harap sorot dan tekan Ctrl+Enter

Ini banyak digunakan dalam ekonometrika dalam bentuk interpretasi ekonomi yang jelas dari parameternya.

Regresi linier direduksi untuk menemukan persamaan bentuk

atau

Ketik persamaan memungkinkan untuk nilai parameter yang diberikan X memiliki nilai teoretis dari fitur efektif, menggantikan nilai aktual faktor ke dalamnya X.

Membangun regresi linier turun ke memperkirakan parameternya sebuah dan di. Estimasi parameter regresi linier dapat ditemukan dengan metode yang berbeda.

Pendekatan klasik untuk memperkirakan parameter regresi linier didasarkan pada kuadrat terkecil(MNK).

LSM memungkinkan seseorang untuk mendapatkan perkiraan parameter seperti itu sebuah dan di, di mana jumlah deviasi kuadrat dari nilai sebenarnya dari sifat yang dihasilkan (y) dari terhitung (teoritis) minimal:

Untuk menemukan minimum suatu fungsi, perlu untuk menghitung turunan parsial terhadap masing-masing parameter sebuah dan b dan menyamakannya dengan nol.

Menunjukkan melalui S, maka:

Mengubah rumus, kami memperoleh sistem persamaan normal berikut untuk memperkirakan parameter: sebuah dan di:

Memecahkan sistem persamaan normal (3.5) baik dengan metode eliminasi berturut-turut variabel atau dengan metode determinan, kami menemukan perkiraan parameter yang diinginkan sebuah dan di.

Parameter di disebut koefisien regresi. Nilainya menunjukkan rata-rata perubahan hasil dengan perubahan faktor sebesar satu satuan.

Persamaan regresi selalu dilengkapi dengan indikator keketatan sambungan. Ketika menggunakan regresi linier, koefisien korelasi linier bertindak sebagai indikator tersebut. Ada berbagai modifikasi dari rumus koefisien korelasi linier. Beberapa dari mereka terdaftar di bawah ini:

Seperti yang Anda ketahui, koefisien korelasi linier berada dalam batas: -1 1.

Untuk menilai kualitas pemilihan fungsi linier, kuadrat dihitung

Koefisien korelasi linier yang disebut koefisien determinasi. Koefisien determinasi mencirikan proporsi varians fitur efektif y, dijelaskan oleh regresi, dalam varians total dari sifat yang dihasilkan:

Dengan demikian, nilai 1 - mencirikan proporsi dispersi y, disebabkan oleh pengaruh faktor lain yang tidak diperhitungkan dalam model.

Pertanyaan untuk pengendalian diri

1. Inti dari metode kuadrat terkecil?

2. Berapa banyak variabel yang memberikan regresi berpasangan?

3. Koefisien apa yang menentukan ketatnya hubungan antara perubahan?

4. Dalam batas apa koefisien determinasi ditentukan?

5. Estimasi parameter b dalam analisis korelasi-regresi?

1. Christopher Dougherty. Pengantar ekonometrika. - M.: INFRA - M, 2001 - 402 hal.

2. S.A. Borodich. ekonometrika. Minsk LLC "Pengetahuan Baru" 2001.


3. R.U. Rakhmetova Kursus singkat di bidang ekonometrika. tutorial. Almaty. 2004. -78s.

4. I.I. Eliseeva.Ekonometrika. - M.: "Keuangan dan statistik", 2002

5. Informasi bulanan dan majalah analitis.

Model ekonomi nonlinier. Model regresi nonlinier. Konversi variabel.

Model ekonomi nonlinier..

Konversi variabel.

koefisien elastisitas.

Jika ada hubungan non-linier antara fenomena ekonomi, maka mereka dinyatakan menggunakan fungsi non-linier yang sesuai: misalnya, hiperbola sama sisi , parabola derajat dua dan sebagainya.

Ada dua kelas regresi non-linier:

1. Regresi nonlinier terhadap variabel penjelas yang termasuk dalam analisis, tetapi linier terhadap parameter yang diestimasi, misalnya:

Polinomial berbagai derajat - , ;

Hiperbola sama sisi - ;

Fungsi semilogaritma - .

2. Regresi yang bersifat non-linier pada parameter yang diestimasi, misalnya:

Kekuatan - ;

Demonstratif -;

Eksponensial - .

Jumlah total deviasi kuadrat dari nilai individu dari atribut yang dihasilkan pada dari nilai rata-rata disebabkan oleh pengaruh banyak faktor. Kami secara kondisional membagi seluruh rangkaian alasan menjadi dua kelompok: mempelajari faktor x dan faktor lain.

Jika faktor tersebut tidak mempengaruhi hasil, maka garis regresi pada grafik sejajar dengan sumbu oh dan

Kemudian seluruh dispersi dari atribut yang dihasilkan adalah karena pengaruh faktor lain dan jumlah total deviasi kuadrat akan bertepatan dengan residual. Jika faktor lain tidak mempengaruhi hasil, maka kamu terikat dengan X secara fungsional, dan jumlah sisa kuadrat adalah nol. Dalam hal ini, jumlah deviasi kuadrat yang dijelaskan oleh regresi sama dengan jumlah kuadrat total.

Karena tidak semua titik bidang korelasi terletak pada garis regresi, pencarnya selalu terjadi karena pengaruh faktor X, yaitu regresi pada pada X, dan disebabkan oleh tindakan penyebab lain (variasi yang tidak dapat dijelaskan). Kesesuaian garis regresi untuk ramalan tergantung pada bagian mana dari total variasi sifat pada menjelaskan variasi yang dijelaskan

Jelas, jika jumlah deviasi kuadrat karena regresi lebih besar dari jumlah sisa kuadrat, maka persamaan regresi signifikan secara statistik dan faktor X memiliki dampak yang signifikan pada hasil. y.

, yaitu dengan jumlah kebebasan variasi independen fitur. Jumlah derajat kebebasan terkait dengan jumlah unit populasi n dan jumlah konstanta yang ditentukan darinya. Sehubungan dengan masalah yang diteliti, jumlah derajat kebebasan harus menunjukkan berapa banyak penyimpangan bebas dari P

Penilaian signifikansi persamaan regresi secara keseluruhan diberikan dengan bantuan F- Kriteria Fisher. Dalam hal ini, hipotesis nol diajukan bahwa koefisien regresi sama dengan nol, yaitu. b= 0, dan karenanya faktor X tidak mempengaruhi hasil y.

Perhitungan langsung dari kriteria-F didahului dengan analisis varians. Pusatnya adalah perluasan jumlah total deviasi kuadrat dari variabel pada dari nilai rata-rata pada menjadi dua bagian - "dijelaskan" dan "tidak dijelaskan":

- jumlah total deviasi kuadrat;

- jumlah deviasi kuadrat yang dijelaskan oleh regresi;

adalah jumlah sisa kuadrat deviasi.

Setiap jumlah deviasi kuadrat terkait dengan jumlah derajat kebebasan , yaitu dengan jumlah kebebasan variasi independen fitur. Jumlah derajat kebebasan berhubungan dengan jumlah unit populasi n dan dengan jumlah konstanta yang ditentukan darinya. Sehubungan dengan masalah yang diteliti, jumlah derajat kebebasan harus menunjukkan berapa banyak penyimpangan bebas dari P mungkin diperlukan untuk membentuk jumlah kuadrat tertentu.

Dispersi per derajat kebebasanD.

F-rasio (F-kriteria):

Jika hipotesis nol benar, maka faktor dan varians residual tidak berbeda satu sama lain. Untuk H 0, sanggahan diperlukan agar varians faktor melebihi residual beberapa kali. Ahli statistik Inggris Snedecor mengembangkan tabel nilai kritis F-hubungan pada tingkat signifikansi yang berbeda dari hipotesis nol dan jumlah derajat kebebasan yang berbeda. Nilai tabel F-kriteria adalah nilai maksimum rasio varians yang dapat terjadi jika mereka menyimpang secara acak untuk tingkat probabilitas tertentu dari kehadiran hipotesis nol. Nilai yang dihitung F-hubungan diakui andal jika o lebih besar dari tabel.

Dalam hal ini, hipotesis nol tentang tidak adanya hubungan fitur ditolak dan kesimpulan dibuat tentang pentingnya hubungan ini: F fakta > F tabel H0 ditolak.

Jika nilainya kurang dari tabel F fakta , F tabel, maka probabilitas hipotesis nol lebih tinggi dari tingkat tertentu dan tidak dapat ditolak tanpa risiko serius untuk menarik kesimpulan yang salah tentang adanya suatu hubungan. Dalam hal ini, persamaan regresi dianggap tidak signifikan secara statistik. N o tidak menyimpang.

Kesalahan standar dari koefisien regresi

Untuk menilai signifikansi koefisien regresi, nilainya dibandingkan dengan kesalahan standarnya, yaitu ditentukan nilai sebenarnya t-Kriteria siswa: yang kemudian dibandingkan dengan nilai tabular pada tingkat signifikansi tertentu dan jumlah derajat kebebasan ( n- 2).

Kesalahan Standar Parameter sebuah:

Signifikansi koefisien korelasi linier diperiksa berdasarkan besarnya kesalahan koefisien korelasi r:

Varians total dari sebuah fitur X:

Regresi Linier Berganda

Bangunan model

Regresi Berganda adalah regresi fitur yang efektif dengan dua atau lebih faktor, yaitu model bentuk

Regresi dapat memberikan hasil yang baik dalam pemodelan jika pengaruh faktor lain yang mempengaruhi objek penelitian dapat diabaikan. Perilaku variabel ekonomi individu tidak dapat dikendalikan, yaitu, tidak mungkin untuk memastikan kesetaraan semua kondisi lain untuk menilai pengaruh satu faktor yang diteliti. Dalam hal ini, Anda harus mencoba mengidentifikasi pengaruh faktor lain dengan memasukkannya ke dalam model, yaitu membangun persamaan regresi berganda: y = a+b 1 x 1 +b 2 +…+b p x p + .

Tujuan utama dari regresi berganda adalah untuk membangun model dengan sejumlah besar faktor, sambil menentukan pengaruh masing-masing faktor secara individual, serta dampak kumulatifnya pada indikator yang dimodelkan. Spesifikasi model mencakup dua bidang pertanyaan: pemilihan faktor dan pilihan jenis persamaan regresi