Metode kuadrat terkecil digunakan untuk. Analisis regresi linier berpasangan

Kami memperkirakan fungsi dengan polinomial derajat ke-2. Untuk melakukan ini, kami menghitung koefisien sistem persamaan normal:

, ,

Mari kita buat sistem normal kuadrat terkecil, yang berbentuk:

Solusi dari sistem mudah ditemukan :, , .

Jadi, polinomial derajat 2 ditemukan: .

Referensi teoretis

Kembali ke halaman<Введение в вычислительную математику. Примеры>

Contoh 2. Mencari derajat optimal suatu polinomial.

Kembali ke halaman<Введение в вычислительную математику. Примеры>

Contoh 3. Turunan dari sistem persamaan normal untuk menemukan parameter ketergantungan empiris.

Mari kita turunkan sistem persamaan untuk menentukan koefisien dan fungsi , yang melakukan pendekatan akar-rata-rata-kuadrat dari fungsi yang diberikan sehubungan dengan titik. Buat fungsi dan tulis kondisi ekstrem yang diperlukan untuk itu:

Maka sistem normal akan berbentuk:

Kami telah memperoleh sistem persamaan linier untuk parameter yang tidak diketahui dan, yang mudah diselesaikan.

Referensi teoretis

Kembali ke halaman<Введение в вычислительную математику. Примеры>

Contoh.

Data eksperimen tentang nilai-nilai variabel X dan pada diberikan dalam tabel.

Sebagai hasil dari penyelarasannya, fungsi

Menggunakan metode kuadrat terkecil, perkiraan data ini dengan ketergantungan linier y=ax+b(temukan opsi sebuah dan b). Cari tahu mana dari dua garis yang lebih baik (dalam arti metode kuadrat terkecil) menyelaraskan data eksperimen. Membuat gambar.

Inti dari metode kuadrat terkecil (LSM).

Masalahnya adalah untuk menemukan koefisien ketergantungan linier yang fungsi dari dua variabel sebuah dan bmengambil nilai terkecil. Artinya, mengingat data sebuah dan b jumlah deviasi kuadrat dari data eksperimen dari garis lurus yang ditemukan akan menjadi yang terkecil. Ini adalah inti dari metode kuadrat terkecil.

Jadi, solusi dari contoh direduksi menjadi menemukan ekstrem dari fungsi dua variabel.

Turunan rumus untuk mencari koefisien.

Sistem dua persamaan dengan dua yang tidak diketahui disusun dan diselesaikan. Menemukan turunan parsial dari fungsi berdasarkan variabel sebuah dan b, kita menyamakan turunan ini dengan nol.

Kami memecahkan sistem persamaan yang dihasilkan dengan metode apa pun (misalnya metode substitusi atau metode Cramer) dan dapatkan rumus untuk mencari koefisien menggunakan metode kuadrat terkecil (LSM).

Dengan data sebuah dan b fungsi mengambil nilai terkecil. Bukti dari fakta ini diberikan di bawah dalam teks di akhir halaman.

Itulah seluruh metode kuadrat terkecil. Rumus untuk mencari parameter sebuah berisi jumlah , , , dan parameter n adalah jumlah data percobaan. Nilai dari jumlah ini direkomendasikan untuk dihitung secara terpisah.

Koefisien b ditemukan setelah perhitungan sebuah.

Saatnya untuk mengingat contoh aslinya.

Keputusan.

Dalam contoh kita n=5. Kami mengisi tabel untuk kenyamanan menghitung jumlah yang termasuk dalam rumus koefisien yang diperlukan.

Nilai pada baris keempat tabel diperoleh dengan mengalikan nilai baris ke-2 dengan nilai baris ke-3 untuk setiap angka saya.

Nilai pada baris kelima tabel diperoleh dengan mengkuadratkan nilai baris ke-2 untuk setiap angka saya.

Nilai kolom terakhir dari tabel adalah jumlah nilai di seluruh baris.

Kami menggunakan rumus metode kuadrat terkecil untuk menemukan koefisien sebuah dan b. Kami menggantinya dengan nilai yang sesuai dari kolom terakhir tabel:

Karena itu, y=0.165x+2.184 adalah garis lurus aproksimasi yang diinginkan.

Masih mencari tahu yang mana dari garis y=0.165x+2.184 atau lebih baik mendekati data asli, yaitu membuat perkiraan menggunakan metode kuadrat terkecil.

Estimasi kesalahan metode kuadrat terkecil.

Untuk melakukan ini, Anda perlu menghitung jumlah deviasi kuadrat dari data asli dari garis-garis ini dan , nilai yang lebih kecil sesuai dengan garis yang lebih mendekati data asli dalam hal metode kuadrat terkecil.

Karena , maka garis y=0.165x+2.184 mendekati data asli dengan lebih baik.

Ilustrasi grafis dari metode kuadrat terkecil (LSM).

Semuanya tampak hebat di tangga lagu. Garis merah adalah garis yang ditemukan y=0.165x+2.184, garis biru adalah , titik-titik merah muda adalah data asli.

Untuk apa, untuk apa semua perkiraan ini?

Saya pribadi menggunakan untuk memecahkan masalah pemulusan data, masalah interpolasi dan ekstrapolasi (dalam contoh asli, Anda dapat diminta untuk menemukan nilai dari nilai yang diamati kamu pada x=3 atau kapan x=6 menurut metode MNC). Tetapi kita akan membicarakan lebih lanjut tentang ini nanti di bagian lain situs ini.

Bagian atas halaman

Bukti.

Sehingga ketika ditemukan sebuah dan b fungsi mengambil nilai terkecil, perlu bahwa pada titik ini matriks bentuk kuadrat dari diferensial orde kedua untuk fungsi pasti positif. Mari kita tunjukkan.

Diferensial orde kedua memiliki bentuk:

Yaitu

Oleh karena itu, matriks bentuk kuadrat memiliki bentuk

dan nilai elemen tidak bergantung pada sebuah dan b.

Mari kita tunjukkan bahwa matriks tersebut pasti positif. Ini mensyaratkan bahwa sudut minor harus positif.

Minor sudut dari orde pertama . Ketimpangannya sangat ketat, karena titik-titiknya tidak bertepatan. Ini akan tersirat dalam apa yang berikut.

Minor sudut dari orde kedua

Ayo buktikan metode induksi matematika.

Kesimpulan: nilai yang ditemukan sebuah dan b sesuai dengan nilai terkecil dari fungsi , oleh karena itu, adalah parameter yang diinginkan untuk metode kuadrat terkecil.

Pernah mengerti?
Memesan Solusi

Bagian atas halaman

Pengembangan ramalan menggunakan metode kuadrat terkecil. Contoh solusi masalah

Ekstrapolasi - ini adalah metode penelitian ilmiah, yang didasarkan pada penyebaran tren masa lalu dan sekarang, pola, hubungan dengan perkembangan masa depan objek peramalan. Metode ekstrapolasi meliputi: metode rata-rata bergerak, metode pemulusan eksponensial, metode kuadrat terkecil.

Esensi metode kuadrat terkecil terdiri dari meminimalkan jumlah deviasi kuadrat antara nilai yang diamati dan yang dihitung. Nilai yang dihitung ditemukan sesuai dengan persamaan yang dipilih - persamaan regresi. Semakin kecil jarak antara nilai sebenarnya dan yang dihitung, semakin akurat perkiraan berdasarkan persamaan regresi.

Analisis teoretis tentang esensi fenomena yang diteliti, perubahan yang ditampilkan oleh deret waktu, berfungsi sebagai dasar untuk memilih kurva. Pertimbangan tentang sifat pertumbuhan tingkat seri kadang-kadang diperhitungkan. Jadi, jika pertumbuhan output diharapkan dalam deret aritmatika, maka pemulusan dilakukan dalam garis lurus. Jika ternyata pertumbuhannya eksponensial, maka pemulusan harus dilakukan sesuai dengan fungsi eksponensial.

Rumus kerja metode kuadrat terkecil : Y t+1 = a*X + b, di mana t + 1 adalah periode perkiraan; t+1 – indikator yang diprediksi; a dan b adalah koefisien; X adalah simbol waktu.

Koefisien a dan b dihitung menurut rumus berikut:

di mana, Uf - nilai aktual dari rangkaian dinamika; n adalah jumlah level dalam deret waktu;

Pemulusan deret waktu dengan metode kuadrat terkecil berfungsi untuk mencerminkan pola perkembangan fenomena yang diteliti. Dalam ekspresi analitik dari sebuah tren, waktu dianggap sebagai variabel independen, dan tingkat deret bertindak sebagai fungsi dari variabel independen ini.

Perkembangan suatu fenomena tidak tergantung pada berapa tahun telah berlalu sejak titik awalnya, tetapi pada faktor-faktor apa yang mempengaruhi perkembangannya, ke arah mana dan dengan intensitas apa. Dari sini jelas bahwa perkembangan suatu fenomena dalam waktu muncul sebagai akibat dari tindakan faktor-faktor ini.

Mengatur jenis kurva dengan benar, jenis ketergantungan analitis pada waktu adalah salah satu tugas analisis pra-prediktif yang paling sulit. .

Pilihan jenis fungsi yang menggambarkan tren, parameter yang ditentukan oleh metode kuadrat terkecil, dalam banyak kasus empiris, dengan membangun sejumlah fungsi dan membandingkannya satu sama lain sesuai dengan nilai akar- kesalahan rata-rata kuadrat, dihitung dengan rumus:

di mana Uf - nilai aktual dari rangkaian dinamika; Ur – nilai yang dihitung (dihaluskan) dari deret waktu; n adalah jumlah level dalam deret waktu; p adalah jumlah parameter yang ditentukan dalam rumus yang menggambarkan tren (tren perkembangan).

Kekurangan dari metode kuadrat terkecil :

  • ketika mencoba menggambarkan fenomena ekonomi yang diteliti menggunakan persamaan matematis, ramalan akan akurat untuk waktu yang singkat dan persamaan regresi harus dihitung ulang saat informasi baru tersedia;
  • kompleksitas pemilihan persamaan regresi, yang dapat dipecahkan dengan menggunakan program komputer standar.

Contoh penggunaan metode kuadrat terkecil untuk mengembangkan ramalan

Tugas . Terdapat data yang mencirikan tingkat pengangguran di wilayah tersebut, %

  • Buat perkiraan tingkat pengangguran di wilayah tersebut untuk bulan November, Desember, Januari, dengan menggunakan metode: rata-rata bergerak, pemulusan eksponensial, kuadrat terkecil.
  • Hitung kesalahan dalam peramalan yang dihasilkan menggunakan masing-masing metode.
  • Bandingkan hasil yang diperoleh, tarik kesimpulan.

solusi kuadrat terkecil

Untuk solusinya, kami akan menyusun tabel di mana kami akan membuat perhitungan yang diperlukan:

= 28,63/10 = 2,86% akurasi perkiraan tinggi.

Kesimpulan : Membandingkan hasil yang diperoleh dalam perhitungan metode rata-rata bergerak , pemulusan eksponensial dan metode kuadrat terkecil, kita dapat mengatakan bahwa kesalahan relatif rata-rata dalam perhitungan dengan metode pemulusan eksponensial berada dalam kisaran 20-50%. Ini berarti bahwa akurasi prediksi dalam hal ini hanya memuaskan.

Dalam kasus pertama dan ketiga, akurasi ramalan tinggi, karena kesalahan relatif rata-rata kurang dari 10%. Tetapi metode rata-rata bergerak memungkinkan untuk mendapatkan hasil yang lebih andal (perkiraan untuk November - 1,52%, perkiraan untuk Desember - 1,53%, perkiraan untuk Januari - 1,49%), karena kesalahan relatif rata-rata saat menggunakan metode ini adalah yang terkecil - 1 ,tigabelas%.

Metode kuadrat terkecil

Artikel terkait lainnya:

Daftar sumber yang digunakan

  1. Rekomendasi ilmiah dan metodologis tentang masalah mendiagnosis risiko sosial dan memperkirakan tantangan, ancaman, dan konsekuensi sosial. Universitas Sosial Negeri Rusia. Moskow. 2010;
  2. Vladimirova L.P. Peramalan dan perencanaan dalam kondisi pasar: Proc. uang saku. M.: Rumah Penerbitan "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Prakiraan Perekonomian Nasional: Panduan Pendidikan dan Metodologi. Yekaterinburg: Rumah Penerbitan Ural. negara ekonomi universitas, 2007;
  4. Slutskin L.N. Kursus MBA dalam peramalan bisnis. Moskow: Buku Bisnis Alpina, 2006.

Program MNE

Masukkan data

Data dan Perkiraan y = a + bx

saya- nomor titik percobaan;
x saya- nilai parameter tetap pada titik saya;
aku- nilai parameter yang diukur pada titik saya;
saya- pengukuran berat pada titik saya;
y saya, kal.- perbedaan antara nilai yang diukur dan nilai yang dihitung dari regresi kamu pada intinya saya;
S x i (x i)- perkiraan kesalahan x saya saat mengukur kamu pada intinya saya.

Data dan Perkiraan y = kx

saya x saya aku saya y saya, kal. y saya S x i (x i)

Klik pada grafik

Panduan pengguna untuk program online MNC.

Di bidang data, masukkan nilai `x` dan `y` pada setiap baris terpisah pada satu titik percobaan. Nilai harus dipisahkan dengan spasi (spasi atau tab).

Nilai ketiga dapat berupa bobot titik dari `w`. Jika bobot poin tidak ditentukan, maka itu sama dengan satu. Dalam sebagian besar kasus, bobot titik eksperimen tidak diketahui atau tidak dihitung; semua data eksperimen dianggap setara. Terkadang bobot dalam rentang nilai yang dipelajari pasti tidak setara dan bahkan dapat dihitung secara teoritis. Misalnya, dalam spektrofotometri, bobot dapat dihitung menggunakan rumus sederhana, meskipun pada dasarnya semua orang mengabaikan hal ini untuk mengurangi biaya tenaga kerja.

Data dapat ditempelkan melalui clipboard dari spreadsheet office suite, seperti Excel dari Microsoft Office atau Calc dari Open Office. Untuk melakukan ini, pilih rentang data yang akan disalin di spreadsheet, salin ke clipboard, dan tempel data ke bidang data di halaman ini.

Untuk menghitung dengan metode kuadrat terkecil, setidaknya diperlukan dua titik untuk menentukan dua koefisien `b` - garis singgung sudut kemiringan garis lurus dan `a` - nilai yang dipotong oleh garis lurus pada `y ` sumbu.

Untuk memperkirakan kesalahan dari koefisien regresi yang dihitung, perlu untuk mengatur jumlah titik eksperimen menjadi lebih dari dua.

Metode kuadrat terkecil (LSM).

Semakin besar jumlah titik eksperimen, semakin akurat estimasi statistik koefisien (karena penurunan koefisien Student) dan semakin dekat estimasi dengan estimasi sampel umum.

Memperoleh nilai pada setiap titik eksperimental sering dikaitkan dengan biaya tenaga kerja yang signifikan, oleh karena itu, sejumlah eksperimen sering dilakukan, yang memberikan perkiraan yang dapat dicerna dan tidak menyebabkan biaya tenaga kerja yang berlebihan. Sebagai aturan, jumlah titik eksperimental untuk ketergantungan kuadrat terkecil linier dengan dua koefisien dipilih di wilayah 5-7 poin.

Teori Singkat Kuadrat Terkecil untuk Ketergantungan Linier

Misalkan kita memiliki sekumpulan data eksperimen berupa pasangan nilai [`y_i`, `x_i`], di mana `i` adalah jumlah satu pengukuran eksperimental dari 1 hingga `n`; `y_i` - nilai nilai terukur pada titik `i`; `x_i` - nilai parameter yang kita tetapkan pada titik `i`.

Contohnya adalah operasi hukum Ohm. Dengan mengubah tegangan (beda potensial) antara bagian dari rangkaian listrik, kami mengukur jumlah arus yang melewati bagian ini. Fisika memberi kita ketergantungan yang ditemukan secara eksperimental:

`I = U/R`,
di mana `I` - kekuatan saat ini; `R` - resistensi; `U` - tegangan.

Dalam hal ini, `y_i` adalah nilai arus terukur, dan `x_i` adalah nilai tegangan.

Sebagai contoh lain, perhatikan penyerapan cahaya oleh larutan suatu zat dalam larutan. Kimia memberi kita rumus:

`A = l C`,
di mana `A` adalah kerapatan optik solusi; `ε` - transmisi zat terlarut; `l` - panjang lintasan ketika cahaya melewati kuvet dengan larutan; `C` adalah konsentrasi zat terlarut.

Dalam hal ini, `y_i` adalah kerapatan optik terukur `A`, dan `x_i` adalah konsentrasi zat yang kita tetapkan.

Kami akan mempertimbangkan kasus ketika kesalahan relatif dalam menyetel `x_i` jauh lebih kecil daripada kesalahan relatif dalam mengukur `y_i`. Kami juga akan mengasumsikan bahwa semua nilai terukur `y_i` adalah acak dan terdistribusi normal, mis. mematuhi hukum distribusi normal.

Dalam kasus ketergantungan linier `y` pada `x`, kita dapat menulis ketergantungan teoretis:
`y = a + bx`.

Dari sudut pandang geometris, koefisien `b` menunjukkan garis singgung sudut kemiringan garis terhadap sumbu `x`, dan koefisien `a` - nilai `y` pada titik perpotongan garis garis dengan sumbu `y` (untuk `x = 0`).

Menemukan parameter garis regresi.

Dalam sebuah eksperimen, nilai terukur `y_i` tidak dapat terletak tepat pada garis teoretis karena kesalahan pengukuran, yang selalu melekat dalam kehidupan nyata. Oleh karena itu, persamaan linier harus diwakili oleh sistem persamaan:
`y_i = a + b x_i + _i` (1),
di mana `ε_i` adalah kesalahan pengukuran `y` yang tidak diketahui dalam eksperimen `i`.

Ketergantungan (1) juga disebut regresi, yaitu ketergantungan dua kuantitas satu sama lain dengan signifikansi statistik.

Tugas memulihkan ketergantungan adalah menemukan koefisien `a` dan `b` dari titik eksperimental [`y_i`, `x_i`].

Untuk mencari koefisien `a` dan `b` biasanya digunakan metode kuadrat terkecil(MNK). Ini adalah kasus khusus dari prinsip kemungkinan maksimum.

Mari kita tulis ulang (1) sebagai `ε_i = y_i - a - b x_i`.

Maka jumlah kesalahan kuadrat adalah
`Φ = jumlah_(i=1)^(n) _i^2 = jumlah_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Prinsip dari metode kuadrat terkecil adalah meminimalkan jumlah (2) terhadap parameter `a` dan `b`.

Minimum tercapai ketika turunan parsial dari jumlah (2) sehubungan dengan koefisien `a` dan `b` sama dengan nol:
`frac(sebagian )(sebagian a) = frac(jumlah sebagian_(i=1)^(n) (y_i - a - b x_i)^2)(sebagian a) = 0`
`frac(sebagian )(sebagian b) = frac(jumlah sebagian_(i=1)^(n) (y_i - a - b x_i)^2)(sebagian b) = 0`

Memperluas turunan, kami memperoleh sistem dua persamaan dengan dua yang tidak diketahui:
`jumlah_(i=1)^(n) (2a + 2bx_i - 2y_i) = jumlah_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Kami membuka tanda kurung dan mentransfer jumlah yang tidak tergantung pada koefisien yang diinginkan ke setengah lainnya, kami mendapatkan sistem persamaan linier:
`jumlah_(i=1)^(n) y_i = a n + b jumlah_(i=1)^(n) bx_i`
`jumlah_(i=1)^(n) x_iy_i = jumlah_(i=1)^(n) x_i + b jumlah_(i=1)^(n) x_i^2`

Memecahkan sistem yang dihasilkan, kami menemukan rumus untuk koefisien `a` dan `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n jumlah_(i=1)^(n) x_iy_i - jumlah_(i=1)^(n) x_i jumlah_(i=1)^(n) y_i) (n jumlah_(i=1)^ (n) x_i^2 - (jumlah_(i=1)^(n) x_i)^2)` (3.2)

Rumus ini memiliki solusi ketika `n > 1` (garis dapat ditarik menggunakan setidaknya 2 titik) dan ketika determinan `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1 )^(n) x_i)^2 != 0`, mis. ketika titik `x_i` dalam eksperimen berbeda (yaitu ketika garis tidak vertikal).

Estimasi kesalahan dalam koefisien garis regresi

Untuk perkiraan kesalahan yang lebih akurat dalam menghitung koefisien `a` dan `b`, sejumlah besar titik eksperimen diinginkan. Ketika `n = 2`, tidak mungkin untuk memperkirakan kesalahan koefisien, karena garis aproksimasi akan secara unik melewati dua titik.

Kesalahan dari variabel acak `V` ditentukan hukum akumulasi kesalahan
`S_V^2 = jumlah_(i=1)^p (frac(sebagian f)(sebagian z_i))^2 S_(z_i)^2`,
di mana `p` adalah jumlah parameter `z_i` dengan kesalahan `S_(z_i)` yang memengaruhi kesalahan `S_V`;
`f` adalah fungsi ketergantungan `V` pada `z_i`.

Mari kita tulis hukum akumulasi kesalahan untuk kesalahan koefisien `a` dan `b`
`S_a^2 = jumlah_(i=1)^(n)(frac(sebagian a)(sebagian y_i))^2 S_(y_i)^2 + jumlah_(i=1)^(n)(frac(sebagian a )(sebagian x_i))^2 S_(x_i)^2 = S_y^2 jumlah_(i=1)^(n)(frac(sebagian a)(sebagian y_i))^2 `,
`S_b^2 = jumlah_(i=1)^(n)(frac(sebagian b)(sebagian y_i))^2 S_(y_i)^2 + jumlah_(i=1)^(n)(frac(sebagian b )(sebagian x_i))^2 S_(x_i)^2 = S_y^2 jumlah_(i=1)^(n)(frac(sebagian b)(sebagian y_i))^2 `,
karena `S_(x_i)^2 = 0` (sebelumnya kami membuat reservasi bahwa kesalahan `x` dapat diabaikan).

`S_y^2 = S_(y_i)^2` - kesalahan (varians, deviasi standar kuadrat) dalam dimensi `y`, dengan asumsi bahwa kesalahan seragam untuk semua nilai `y`.

Mengganti rumus untuk menghitung `a` dan `b` ke dalam ekspresi yang dihasilkan, kita mendapatkan

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n jumlah_(i=1)^(n) x_i^2 - (jumlah_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

Dalam kebanyakan eksperimen nyata, nilai `Sy` tidak diukur. Untuk melakukan ini, perlu untuk melakukan beberapa pengukuran paralel (eksperimen) pada satu atau beberapa titik rencana, yang meningkatkan waktu (dan mungkin biaya) eksperimen. Oleh karena itu, biasanya diasumsikan bahwa penyimpangan `y` dari garis regresi dapat dianggap acak. Estimasi varians `y` dalam hal ini dihitung dengan rumus.

`S_y^2 = S_(y, istirahat)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Pembagi `n-2` muncul karena kita telah mengurangi jumlah derajat kebebasan karena perhitungan dua koefisien untuk sampel data eksperimen yang sama.

Estimasi ini juga disebut varians residual relatif terhadap garis regresi `S_(y, rest)^2`.

Penilaian signifikansi koefisien dilakukan sesuai dengan kriteria Siswa

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Jika kriteria yang dihitung `t_a`, `t_b` lebih kecil dari kriteria tabel `t(P, n-2)`, maka dianggap bahwa koefisien yang sesuai tidak berbeda nyata dari nol dengan probabilitas `P` yang diberikan.

Untuk menilai kualitas deskripsi hubungan linier, Anda dapat membandingkan `S_(y, rest)^2` dan `S_(bar y)` relatif terhadap mean menggunakan kriteria Fisher.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i= 1)^n y_i) /n)^2) (n-1)` - estimasi sampel varians `y` relatif terhadap mean.

Untuk mengevaluasi efektivitas persamaan regresi untuk menggambarkan ketergantungan, koefisien Fisher dihitung
`F = S_(bar y) / S_(y, istirahat)^2`,
yang dibandingkan dengan koefisien Fisher tabular `F(p, n-1, n-2)`.

Jika `F > F(P, n-1, n-2)`, perbedaan antara deskripsi ketergantungan `y = f(x)` menggunakan persamaan regresi dan deskripsi menggunakan mean dianggap signifikan secara statistik dengan probabilitas `P`. Itu. regresi menggambarkan ketergantungan lebih baik daripada penyebaran `y` di sekitar rata-rata.

Klik pada grafik
untuk menambahkan nilai ke tabel

Metode kuadrat terkecil. Metode kuadrat terkecil berarti penentuan parameter yang tidak diketahui a, b, c, ketergantungan fungsional yang diterima

Metode kuadrat terkecil berarti penentuan parameter yang tidak diketahui a, b, c,… ketergantungan fungsional yang diterima

y = f(x,a,b,c,…),

yang akan memberikan minimum kuadrat rata-rata (varians) dari kesalahan

, (24)

dimana x i , y i - himpunan pasangan bilangan yang diperoleh dari percobaan.

Karena syarat ekstrem suatu fungsi beberapa variabel adalah syarat turunan parsialnya sama dengan nol, maka parameternya a, b, c,… ditentukan dari sistem persamaan:

; ; ; … (25)

Harus diingat bahwa metode kuadrat terkecil digunakan untuk memilih parameter setelah bentuk fungsi y = f(x) didefinisikan.

Jika dari pertimbangan teoretis tidak mungkin untuk menarik kesimpulan apa pun tentang rumus empiris yang seharusnya, maka seseorang harus dipandu oleh representasi visual, terutama representasi grafis dari data yang diamati.

Dalam praktiknya, paling sering terbatas pada jenis fungsi berikut:

1) linier ;

2) kuadrat a.

Metode kuadrat terkecil

Dalam pelajaran terakhir dari topik, kita akan berkenalan dengan aplikasi paling terkenal FNP, yang menemukan aplikasi terluas di berbagai bidang ilmu pengetahuan dan praktek. Bisa fisika, kimia, biologi, ekonomi, sosiologi, psikologi dan lain sebagainya. Atas kehendak takdir, saya sering harus berurusan dengan ekonomi, dan karena itu hari ini saya akan mengaturkan Anda tiket ke negara yang luar biasa bernama ekonometrika=) … Bagaimana Anda tidak menginginkannya?! Sangat bagus di sana - Anda hanya perlu memutuskan! …Tapi yang mungkin Anda inginkan adalah belajar bagaimana memecahkan masalah kuadrat terkecil. Dan terutama pembaca yang rajin akan belajar menyelesaikannya tidak hanya secara akurat, tetapi juga SANGAT CEPAT ;-) Tapi pertama-tama pernyataan umum dari masalah+ contoh terkait:

Biarkan indikator dipelajari di beberapa bidang studi yang memiliki ekspresi kuantitatif. Pada saat yang sama, ada banyak alasan untuk percaya bahwa indikator bergantung pada indikator. Asumsi ini dapat berupa hipotesis ilmiah dan berdasarkan akal sehat dasar. Namun, mari kita kesampingkan sains, dan jelajahi area yang lebih menggugah selera - yaitu, toko kelontong. Dilambangkan dengan:

– ruang ritel toko kelontong, sq.m.,
- omset tahunan toko kelontong, juta rubel.

Cukup jelas bahwa semakin besar area toko, semakin besar omsetnya dalam banyak kasus.

Misalkan setelah melakukan pengamatan / eksperimen / perhitungan / menari dengan rebana, kami memiliki data numerik yang kami miliki:

Dengan toko kelontong, saya pikir semuanya jelas: - ini adalah area toko pertama, - omset tahunannya, - area toko ke-2, - omset tahunannya, dll. Ngomong-ngomong, sama sekali tidak perlu memiliki akses ke materi rahasia - penilaian omset yang cukup akurat dapat diperoleh dengan menggunakan statistik matematika. Namun, jangan terganggu, kursus spionase komersial sudah dibayar =)

Data tabular juga dapat ditulis dalam bentuk titik dan digambarkan dengan cara yang biasa bagi kita. sistem kartesius .

Mari kita jawab pertanyaan penting: berapa banyak poin yang diperlukan untuk studi kualitatif?

Lebih besar lebih baik. Set minimum yang dapat diterima terdiri dari 5-6 poin. Selain itu, dengan jumlah data yang sedikit, hasil “abnormal” tidak boleh dimasukkan dalam sampel. Jadi, misalnya, toko elit kecil dapat membantu lebih banyak daripada "rekan mereka", sehingga mendistorsi pola umum yang perlu ditemukan!



Jika cukup sederhana, kita perlu memilih fungsi , jadwal yang melewati sedekat mungkin ke titik . Fungsi seperti ini disebut mendekati (perkiraan - perkiraan) atau fungsi teoritis . Secara umum, di sini segera muncul "pura-pura" yang jelas - polinomial tingkat tinggi, yang grafiknya melewati SEMUA titik. Tetapi opsi ini rumit, dan seringkali tidak benar. (karena grafik akan "berputar" sepanjang waktu dan kurang mencerminkan tren utama).

Dengan demikian, fungsi yang diinginkan harus cukup sederhana dan pada saat yang sama mencerminkan ketergantungan secara memadai. Seperti yang Anda duga, salah satu metode untuk menemukan fungsi seperti itu disebut kuadrat terkecil. Pertama, mari kita menganalisis esensinya secara umum. Biarkan beberapa fungsi mendekati data eksperimen:


Bagaimana cara mengevaluasi keakuratan pendekatan ini? Mari kita juga menghitung perbedaan (penyimpangan) antara nilai eksperimental dan fungsional (kami mempelajari gambarnya). Pikiran pertama yang muncul di benak adalah untuk memperkirakan seberapa besar jumlahnya, tetapi masalahnya adalah perbedaannya bisa negatif. (Sebagai contoh, ) dan penyimpangan-penyimpangan sebagai akibat dari penjumlahan tersebut akan saling meniadakan. Oleh karena itu, sebagai perkiraan keakuratan aproksimasi, ia menyarankan dirinya untuk mengambil jumlah modul penyimpangan:

atau dalam bentuk terlipat: (bagi yang belum tahu: adalah ikon penjumlahan, dan - variabel tambahan - "penghitung", yang mengambil nilai dari 1 hingga ) .

Mendekati titik eksperimental dengan fungsi yang berbeda, kita akan mendapatkan nilai yang berbeda, dan jelas di mana jumlah ini lebih kecil - fungsi itu lebih akurat.

Metode seperti itu ada dan disebut metode modulus terkecil. Namun, dalam praktiknya, itu menjadi jauh lebih luas. metode kuadrat terkecil, di mana kemungkinan nilai negatif dihilangkan bukan oleh modulus, tetapi dengan mengkuadratkan deviasi:



, setelah itu upaya diarahkan pada pemilihan fungsi sedemikian rupa sehingga jumlah deviasi kuadrat adalah sekecil mungkin. Sebenarnya, itulah nama metodenya.

Dan sekarang kita kembali ke poin penting lainnya: seperti disebutkan di atas, fungsi yang dipilih seharusnya cukup sederhana - tetapi ada juga banyak fungsi seperti itu: linier , hiperbolis , eksponensial , logaritma , kuadrat dll. Dan, tentu saja, di sini saya ingin segera "mengurangi bidang kegiatan". Kelas fungsi apa yang harus dipilih untuk penelitian? Teknik primitif tapi efektif:

- Cara termudah untuk menarik poin pada gambar dan menganalisis lokasi mereka. Jika mereka cenderung berada dalam garis lurus, maka Anda harus mencari persamaan garis lurus dengan nilai optimal dan . Dengan kata lain, tugasnya adalah menemukan koefisien TERSEBUT - sehingga jumlah deviasi kuadrat adalah yang terkecil.

Jika titik-titik itu terletak, misalnya, di sepanjang hiperbola, maka jelas bahwa fungsi linier akan memberikan aproksimasi yang buruk. Dalam hal ini, kami mencari koefisien yang paling "menguntungkan" untuk persamaan hiperbola - mereka yang memberikan jumlah kuadrat minimum .

Sekarang perhatikan bahwa dalam kedua kasus yang kita bicarakan fungsi dua variabel, yang argumennya adalah opsi ketergantungan yang dicari:

Dan pada intinya, kita perlu memecahkan masalah standar - untuk menemukan minimal fungsi dari dua variabel.

Ingat contoh kita: misalkan titik "toko" cenderung terletak pada garis lurus dan ada banyak alasan untuk mempercayai kehadirannya ketergantungan linier omset dari area perdagangan. Mari kita cari koefisien TERSEBUT "a" dan "menjadi" sehingga jumlah deviasi kuadrat adalah yang terkecil. Semuanya seperti biasa - pertama turunan parsial dari orde pertama. Berdasarkan aturan linearitas anda dapat membedakan tepat di bawah ikon jumlah:

Jika Anda ingin menggunakan informasi ini untuk esai atau makalah, saya akan sangat berterima kasih atas tautan dalam daftar sumber, Anda tidak akan menemukan perhitungan terperinci seperti itu di mana pun:

Mari kita membuat sistem standar:

Kami mengurangi setiap persamaan dengan "dua" dan, sebagai tambahan, "memecah" jumlahnya:

Catatan : menganalisis secara independen mengapa "a" dan "menjadi" dapat dikeluarkan dari ikon jumlah. Ngomong-ngomong, secara formal ini bisa dilakukan dengan penjumlahan

Mari kita tulis ulang sistem dalam bentuk "terapan":

setelah itu algoritma untuk memecahkan masalah kita mulai ditarik:

Apakah kita tahu koordinat titik-titiknya? Kita tahu. jumlah bisa kita temukan? Mudah. Kami membuat yang paling sederhana sistem dua persamaan linier dengan dua yang tidak diketahui("a" dan "beh"). Kami memecahkan sistem, misalnya, Metode Cramer, menghasilkan titik stasioner . memeriksa kondisi yang cukup untuk ekstrim, kita dapat memverifikasi bahwa pada titik ini fungsinya mencapai tepat minimum. Verifikasi dikaitkan dengan perhitungan tambahan dan oleh karena itu kami akan meninggalkannya di belakang layar. (jika perlu, bingkai yang hilang dapat dilihatdi sini ) . Kami menarik kesimpulan akhir:

Fungsi jalan terbaik (setidaknya dibandingkan dengan fungsi linier lainnya) membawa poin eksperimental lebih dekat . Secara kasar, grafiknya melewati sedekat mungkin ke titik-titik ini. Dalam tradisi ekonometrika fungsi aproksimasi yang dihasilkan juga disebut persamaan regresi linier berpasangan .

Masalah yang sedang dipertimbangkan sangat penting secara praktis. Dalam situasi dengan contoh kita, persamaan memungkinkan Anda untuk memprediksi omset seperti apa ("yg") akan berada di toko dengan satu atau lain nilai area penjualan (satu atau arti lain dari "x"). Ya, ramalan yang dihasilkan hanya akan menjadi ramalan, tetapi dalam banyak kasus ternyata cukup akurat.

Saya akan menganalisis hanya satu masalah dengan angka "nyata", karena tidak ada kesulitan di dalamnya - semua perhitungan berada di level kurikulum sekolah di kelas 7-8. Dalam 95 persen kasus, Anda akan diminta untuk mencari fungsi linier saja, tetapi di akhir artikel saya akan menunjukkan bahwa tidak sulit lagi menemukan persamaan untuk hiperbola optimal, eksponen, dan beberapa fungsi lainnya.

Faktanya, tetap mendistribusikan barang yang dijanjikan - sehingga Anda belajar bagaimana menyelesaikan contoh-contoh seperti itu tidak hanya secara akurat, tetapi juga dengan cepat. Kami mempelajari standar dengan cermat:

Tugas

Sebagai hasil dari mempelajari hubungan antara dua indikator, pasangan angka berikut diperoleh:

Dengan menggunakan metode kuadrat terkecil, temukan fungsi linier yang paling mendekati fungsi empiris (berpengalaman) data. Buat gambar di mana, dalam sistem koordinat persegi panjang Cartesian, plot titik-titik eksperimental dan grafik fungsi aproksimasi . Temukan jumlah deviasi kuadrat antara nilai empiris dan teoritis. Cari tahu apakah fungsinya lebih baik (dalam hal metode kuadrat terkecil) perkiraan titik percobaan.

Perhatikan bahwa nilai "x" adalah nilai alami, dan ini memiliki makna makna yang khas, yang akan saya bicarakan nanti; tetapi mereka, tentu saja, dapat berupa pecahan. Selain itu, tergantung pada konten tugas tertentu, nilai "X" dan "G" dapat sepenuhnya atau sebagian negatif. Nah, kami telah diberi tugas "tanpa wajah", dan kami memulainya keputusan:

Kami menemukan koefisien fungsi optimal sebagai solusi untuk sistem:

Untuk keperluan notasi yang lebih ringkas, variabel “penghitung” dapat dihilangkan, karena sudah jelas bahwa penjumlahan dilakukan dari 1 hingga .

Lebih mudah untuk menghitung jumlah yang diperlukan dalam bentuk tabel:


Perhitungan dapat dilakukan pada mikrokalkulator, tetapi jauh lebih baik menggunakan Excel - lebih cepat dan tanpa kesalahan; tonton video singkatnya:

Dengan demikian, kita mendapatkan yang berikut sistem:

Di sini Anda dapat mengalikan persamaan kedua dengan 3 dan kurangi suku ke-2 dari suku persamaan ke-1 dengan suku. Tapi ini keberuntungan - dalam praktiknya, sistem seringkali tidak berbakat, dan dalam kasus seperti itu menghemat Metode Cramer:
, sehingga sistem memiliki solusi yang unik.

Mari kita lakukan pemeriksaan. Saya mengerti bahwa saya tidak mau, tetapi mengapa melewatkan kesalahan di mana Anda benar-benar tidak dapat melewatkannya? Substitusikan solusi yang ditemukan ke ruas kiri setiap persamaan sistem:

Bagian yang tepat dari persamaan yang sesuai diperoleh, yang berarti bahwa sistem diselesaikan dengan benar.

Jadi, fungsi aproksimasi yang diinginkan: – dari semua fungsi linier data eksperimen paling baik didekati olehnya.

Tidak seperti lurus ketergantungan omset toko pada luasnya, ketergantungan yang ditemukan adalah membalik (prinsip "semakin banyak - semakin sedikit"), dan fakta ini segera terungkap oleh yang negatif koefisien sudut. Fungsi memberitahu kita bahwa dengan peningkatan indikator tertentu sebesar 1 unit, nilai indikator dependen menurun rata-rata sebesar 0,65 unit. Seperti yang mereka katakan, semakin tinggi harga soba, semakin sedikit yang dijual.

Untuk memplot fungsi aproksimasi, kami menemukan dua nilainya:

dan jalankan gambarnya:

Garis yang dibangun disebut garis tren (yaitu, garis tren linier, yaitu dalam kasus umum, tren tidak harus berupa garis lurus). Semua orang akrab dengan ungkapan "menjadi tren", dan saya pikir istilah ini tidak perlu komentar tambahan.

Hitung jumlah simpangan kuadrat antara nilai empiris dan teoritis. Secara geometris, ini adalah jumlah kuadrat dari panjang segmen "merah" (dua di antaranya sangat kecil sehingga Anda bahkan tidak dapat melihatnya).

Mari kita rangkum perhitungannya dalam sebuah tabel:


Mereka dapat dilakukan lagi secara manual, untuk berjaga-jaga saya akan memberikan contoh untuk poin pertama:

tetapi jauh lebih efisien untuk melakukan cara yang sudah diketahui:

Mari kita ulangi: apa arti dari hasil Dari semua fungsi linier fungsi eksponen adalah yang terkecil, yaitu aproksimasi terbaik dalam keluarganya. Dan di sini, omong-omong, pertanyaan terakhir dari masalah ini bukanlah kebetulan: bagaimana jika fungsi eksponensial yang diusulkan akan lebih baik untuk mendekati titik percobaan?

Mari kita cari jumlah deviasi kuadrat yang sesuai - untuk membedakannya, saya akan menunjuknya dengan huruf "epsilon". Tekniknya persis sama:


Dan lagi untuk setiap perhitungan api untuk poin pertama:

Di Excel, kami menggunakan fungsi standar EXP (Sintaks dapat ditemukan di Bantuan Excel).

Kesimpulan: , jadi fungsi eksponensial mendekati titik eksperimen lebih buruk daripada garis lurus .

Tetapi perlu dicatat di sini bahwa "lebih buruk" adalah belum berarti, apa yang salah. Sekarang saya membuat grafik fungsi eksponensial ini - dan juga mendekati titik - sedemikian rupa sehingga tanpa studi analitis sulit untuk mengatakan fungsi mana yang lebih akurat.

Ini melengkapi solusinya, dan saya kembali ke pertanyaan tentang nilai-nilai alami dari argumen tersebut. Dalam berbagai penelitian, sebagai aturan, ekonomi atau sosiologis, bulan, tahun atau interval waktu lain yang sama diberi nomor dengan "X" alami. Pertimbangkan, misalnya, masalah berikut:

Kami memiliki data berikut tentang omset ritel toko untuk paruh pertama tahun ini:

Menggunakan perataan analitik garis lurus, temukan volume penjualan untuk bulan Juli.

Ya, tidak masalah: kami memberi nomor bulan 1, 2, 3, 4, 5, 6 dan menggunakan algoritma yang biasa, sebagai hasilnya kami mendapatkan persamaan - satu-satunya hal ketika datang ke waktu biasanya huruf "te " (walaupun tidak kritis). Persamaan yang dihasilkan menunjukkan bahwa pada semester pertama tahun ini, omzet meningkat rata-rata sebesar Rp 27,74. per bulan. Dapatkan perkiraan untuk bulan Juli (bulan #7): e.u.

Dan tugas serupa - kegelapan itu gelap. Yang mau bisa menggunakan layanan tambahan yaitu my kalkulator excel (versi demo), yang memecahkan masalah hampir seketika! Versi kerja dari program ini tersedia sebagai gantinya atau untuk pembayaran simbolis.

Di akhir pelajaran, informasi singkat tentang menemukan dependensi dari beberapa jenis lain. Sebenarnya, tidak ada yang istimewa untuk diceritakan, karena pendekatan fundamental dan algoritma solusi tetap sama.

Mari kita asumsikan bahwa lokasi titik-titik percobaan menyerupai hiperbola. Kemudian, untuk menemukan koefisien hiperbola terbaik, Anda perlu menemukan fungsi minimum - mereka yang ingin dapat melakukan perhitungan terperinci dan datang ke sistem serupa:

Dari sudut pandang teknis formal, diperoleh dari sistem "linier" (mari kita tandai dengan tanda bintang) mengganti "x" dengan . Nah, jumlahnya hitung, setelah itu ke koefisien optimal "a" dan "menjadi" di tangan.

Jika ada alasan untuk percaya bahwa poin disusun sepanjang kurva logaritmik, kemudian untuk mencari nilai optimal dan menemukan fungsi minimum . Secara formal, dalam sistem (*) harus diganti dengan:

Saat menghitung di Excel, gunakan fungsi LN. Saya akui bahwa tidak akan sulit bagi saya untuk membuat kalkulator untuk setiap kasus yang sedang dipertimbangkan, tetapi akan lebih baik jika Anda "memprogram" perhitungannya sendiri. Video tutorial untuk membantu.

Dengan ketergantungan eksponensial, situasinya sedikit lebih rumit. Untuk mengurangi masalah ke kasus linier, kami mengambil logaritma dari fungsi dan menggunakan sifat-sifat logaritma:

Sekarang, membandingkan fungsi yang diperoleh dengan fungsi linier , kita sampai pada kesimpulan bahwa dalam sistem (*) harus diganti oleh , dan - oleh . Untuk kenyamanan, kami menunjukkan:

Harap dicatat bahwa sistem diselesaikan sehubungan dengan dan , dan oleh karena itu, setelah menemukan akarnya, Anda tidak boleh lupa untuk menemukan koefisien itu sendiri.

Untuk memperkirakan titik eksperimental parabola optimal , harus ditemukan minimal fungsi dari tiga variabel . Setelah melakukan tindakan standar, kami mendapatkan "berfungsi" berikut sistem:

Ya tentu saja jumlahnya lebih banyak di sini, tetapi tidak ada kesulitan sama sekali saat menggunakan aplikasi favorit Anda. Dan akhirnya, saya akan memberi tahu Anda cara cepat memeriksa menggunakan Excel dan membangun garis tren yang diinginkan: buat bagan sebar, pilih salah satu titik dengan mouse dan klik kanan pilih opsi "Tambahkan garis tren". Selanjutnya, pilih jenis grafik dan pada tab "Pilihan" aktifkan opsi "Tampilkan persamaan pada grafik". Oke

Seperti biasa, saya ingin mengakhiri artikel dengan frasa yang indah, dan saya hampir mengetik "Jadilah tren!". Namun lama kelamaan dia berubah pikiran. Dan bukan karena itu formula. Saya tidak tahu bagaimana orang, tetapi saya sama sekali tidak ingin mengikuti tren Amerika dan terutama Eropa yang dipromosikan =) Oleh karena itu, saya berharap Anda masing-masing untuk tetap pada jalur Anda sendiri!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Metode kuadrat terkecil adalah salah satu yang paling umum dan paling berkembang karena kesederhanaan dan efisiensi metode untuk memperkirakan parameter model ekonometrik linier. Pada saat yang sama, beberapa kehati-hatian harus diperhatikan saat menggunakannya, karena model yang dibangun dengan menggunakannya mungkin tidak memenuhi sejumlah persyaratan untuk kualitas parameternya dan, sebagai hasilnya, tidak mencerminkan pola pengembangan proses dengan "baik".

Mari kita pertimbangkan prosedur untuk memperkirakan parameter model ekonometrik linier menggunakan metode kuadrat terkecil secara lebih rinci. Model seperti itu dalam bentuk umum dapat diwakili oleh persamaan (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + t .

Data awal saat menaksir parameter a 0 , a 1 ,..., a n adalah vektor dari nilai-nilai variabel dependen kamu= (y 1 , y 2 , ... , y T)" dan matriks nilai variabel bebas

di mana kolom pertama, yang terdiri dari satu, sesuai dengan koefisien model .

Metode kuadrat terkecil mendapatkan namanya berdasarkan prinsip dasar bahwa estimasi parameter yang diperoleh atas dasar itu harus memenuhi: jumlah kuadrat dari kesalahan model harus minimal.

Contoh penyelesaian masalah dengan metode kuadrat terkecil

Contoh 2.1. Perusahaan perdagangan memiliki jaringan yang terdiri dari 12 toko, informasi tentang kegiatannya disajikan pada Tabel. 2.1.

Manajemen perusahaan ingin mengetahui bagaimana ukuran omset tahunan tergantung pada ruang ritel toko.

Tabel 2.1

nomor toko Omset tahunan, juta rubel Area perdagangan, ribu m 2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Solusi kuadrat terkecil. Mari kita tentukan - omset tahunan toko -th, juta rubel; - luas jual toko ke th, ribu m 2.

Gambar 2.1. Scatterplot untuk Contoh 2.1

Untuk menentukan bentuk hubungan fungsional antar variabel dan membangun scatterplot (Gbr. 2.1).

Berdasarkan diagram pencar, kita dapat menyimpulkan bahwa omset tahunan secara positif bergantung pada area penjualan (yaitu, y akan meningkat dengan pertumbuhan ). Bentuk koneksi fungsional yang paling tepat adalah linier.

Informasi untuk perhitungan lebih lanjut disajikan pada Tabel. 2.2. Dengan menggunakan metode kuadrat terkecil, kami memperkirakan parameter model ekonometrik satu faktor linier

Tabel 2.2

t y t x 1t y t 2 x1t2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Rata-rata 68,29 0,89

Dengan demikian,

Oleh karena itu, dengan peningkatan area perdagangan sebesar 1 ribu m 2, hal-hal lain dianggap sama, omset tahunan rata-rata meningkat 67,8871 juta rubel.

Contoh 2.2. Manajemen perusahaan memperhatikan bahwa omset tahunan tidak hanya bergantung pada area penjualan toko (lihat contoh 2.1), tetapi juga pada jumlah rata-rata pengunjung. Informasi yang relevan disajikan dalam tabel. 2.3.

Tabel 2.3

Keputusan. Menunjukkan - jumlah rata-rata pengunjung ke toko per hari, ribuan orang.

Untuk menentukan bentuk hubungan fungsional antar variabel dan membangun scatterplot (Gbr. 2.2).

Berdasarkan diagram pencar, kita dapat menyimpulkan bahwa omset tahunan berhubungan positif dengan jumlah rata-rata pengunjung per hari (yaitu, y akan meningkat dengan pertumbuhan ). Bentuk ketergantungan fungsional adalah linier.

Beras. 2.2. Scatterplot misalnya 2.2

Tabel 2.4

t x 2t x 2t 2 yt x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Rata-rata 10,65

Secara umum, perlu untuk menentukan parameter model ekonometrik dua faktor

y t \u003d a 0 + a 1 x 1t + a 2 x 2t + t

Informasi yang diperlukan untuk perhitungan lebih lanjut disajikan pada Tabel. 2.4.

Mari kita perkirakan parameter model ekonometrika dua faktor linier menggunakan metode kuadrat terkecil.

Dengan demikian,

Evaluasi koefisien = 61,6583 menunjukkan bahwa, hal lain dianggap sama, dengan peningkatan area perdagangan sebesar 1 ribu m 2, omset tahunan akan meningkat rata-rata 61,6583 juta rubel.

Perkiraan koefisien = 2,2748 menunjukkan bahwa, hal lain dianggap sama, dengan peningkatan rata-rata jumlah pengunjung per 1.000 orang. per hari, omset tahunan akan meningkat rata-rata 2,2748 juta rubel.

Contoh 2.3. Menggunakan informasi yang disajikan dalam tabel. 2.2 dan 2.4, perkirakan parameter model ekonometrik faktor tunggal

di mana nilai terpusat dari omset tahunan toko ke-, juta rubel; - nilai terpusat dari rata-rata jumlah pengunjung harian ke toko ke-t, ribu orang. (lihat contoh 2.1-2.2).

Keputusan. Informasi tambahan yang diperlukan untuk perhitungan disajikan dalam Tabel. 2.5.

Tabel 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Jumlah 48,4344 431,0566

Dengan menggunakan rumus (2.35), kita peroleh

Dengan demikian,

http://www.cleverstudents.ru/articles/mnk.html

Contoh.

Data eksperimen tentang nilai-nilai variabel X dan pada diberikan dalam tabel.

Sebagai hasil dari penyelarasannya, fungsi

Menggunakan metode kuadrat terkecil, perkiraan data ini dengan ketergantungan linier y=ax+b(temukan opsi sebuah dan b). Cari tahu mana dari dua garis yang lebih baik (dalam arti metode kuadrat terkecil) menyelaraskan data eksperimen. Membuat gambar.

Keputusan.

Dalam contoh kita n=5. Kami mengisi tabel untuk kenyamanan menghitung jumlah yang termasuk dalam rumus koefisien yang diperlukan.

Nilai pada baris keempat tabel diperoleh dengan mengalikan nilai baris ke-2 dengan nilai baris ke-3 untuk setiap angka saya.

Nilai pada baris kelima tabel diperoleh dengan mengkuadratkan nilai baris ke-2 untuk setiap angka saya.

Nilai kolom terakhir dari tabel adalah jumlah nilai di seluruh baris.

Kami menggunakan rumus metode kuadrat terkecil untuk menemukan koefisien sebuah dan b. Kami menggantinya dengan nilai yang sesuai dari kolom terakhir tabel:

Karena itu, y=0.165x+2.184 adalah garis lurus aproksimasi yang diinginkan.

Masih mencari tahu yang mana dari garis y=0.165x+2.184 atau lebih baik mendekati data asli, yaitu membuat perkiraan menggunakan metode kuadrat terkecil.

Bukti.

Sehingga ketika ditemukan sebuah dan b fungsi mengambil nilai terkecil, perlu bahwa pada titik ini matriks bentuk kuadrat dari diferensial orde kedua untuk fungsi pasti positif. Mari kita tunjukkan.

Diferensial orde kedua memiliki bentuk:

Yaitu

Oleh karena itu, matriks bentuk kuadrat memiliki bentuk

dan nilai elemen tidak bergantung pada sebuah dan b.

Mari kita tunjukkan bahwa matriks tersebut pasti positif. Ini mensyaratkan bahwa sudut minor harus positif.

Minor sudut dari orde pertama . Ketimpangannya ketat, karena poin

  • pelajaran pengantar gratis;
  • Sejumlah besar guru berpengalaman (asli dan berbahasa Rusia);
  • Kursus BUKAN untuk periode tertentu (bulan, enam bulan, tahun), tetapi untuk jumlah pelajaran tertentu (5, 10, 20, 50);
  • Lebih dari 10.000 pelanggan yang puas.
  • Biaya satu pelajaran dengan guru berbahasa Rusia - dari 600 rubel, dengan penutur asli - dari 1500 rubel

Inti dari metode kuadrat terkecil adalah dalam menemukan parameter model tren yang paling menggambarkan tren perkembangan dari setiap fenomena acak dalam waktu atau ruang (tren adalah garis yang mencirikan tren perkembangan ini). Tugas metode kuadrat terkecil (OLS) adalah untuk menemukan tidak hanya beberapa model tren, tetapi untuk menemukan model terbaik atau optimal. Model ini akan optimal jika jumlah deviasi kuadrat antara nilai aktual yang diamati dan nilai tren yang dihitung terkait adalah minimal (terkecil):

di mana adalah standar deviasi antara nilai aktual yang diamati

dan nilai tren terhitung yang sesuai,

Nilai aktual (yang diamati) dari fenomena yang diteliti,

Perkiraan nilai model tren,

Banyaknya pengamatan terhadap fenomena yang diteliti.

MNC jarang digunakan sendiri. Sebagai aturan, paling sering digunakan hanya sebagai teknik yang diperlukan dalam studi korelasi. Perlu diingat bahwa basis informasi LSM hanya dapat berupa rangkaian statistik yang dapat diandalkan, dan jumlah pengamatan tidak boleh kurang dari 4, jika tidak, prosedur pemulusan LSM dapat kehilangan akal sehat.

Toolkit OLS direduksi menjadi prosedur berikut:

Prosedur pertama. Ternyata apakah ada kecenderungan sama sekali untuk mengubah atribut yang dihasilkan ketika faktor-argumen yang dipilih berubah, atau dengan kata lain, apakah ada hubungan antara " pada " dan " X ».

Prosedur kedua. Ditentukan garis (lintasan) mana yang paling mampu menggambarkan atau mencirikan tren ini.

Prosedur ketiga.

Contoh. Misalkan kita memiliki informasi tentang hasil rata-rata bunga matahari untuk pertanian yang diteliti (Tabel 9.1).

Tabel 9.1

Nomor observasi

Produktivitas, c/ha

Karena tingkat teknologi dalam produksi bunga matahari di negara kita tidak banyak berubah selama 10 tahun terakhir, itu berarti, kemungkinan besar, fluktuasi hasil pada periode yang dianalisis sangat bergantung pada fluktuasi cuaca dan kondisi iklim. Apakah itu benar?

Prosedur MNC pertama. Hipotesis tentang adanya tren perubahan hasil bunga matahari tergantung pada perubahan kondisi cuaca dan iklim selama 10 tahun yang dianalisis sedang diuji.

Dalam contoh ini, untuk " kamu » disarankan untuk mengambil hasil bunga matahari, dan untuk « x » adalah jumlah tahun yang diamati dalam periode yang dianalisis. Menguji hipotesis tentang adanya hubungan antara “ x " dan " kamu » dapat dilakukan dengan dua cara: secara manual dan dengan bantuan program komputer. Tentunya dengan tersedianya teknologi komputer, masalah ini dapat teratasi dengan sendirinya. Namun, untuk lebih memahami toolkit OLS, disarankan untuk menguji hipotesis tentang adanya hubungan antara " x " dan " kamu » secara manual, saat hanya ada pena dan kalkulator biasa. Dalam kasus seperti itu, hipotesis keberadaan tren paling baik diperiksa secara visual dengan lokasi gambar grafik dari deret waktu yang dianalisis - bidang korelasi:

Bidang korelasi dalam contoh kita terletak di sekitar garis yang meningkat perlahan. Hal ini sendiri menunjukkan adanya tren tertentu dalam perubahan hasil bunga matahari. Mustahil untuk berbicara tentang keberadaan tren apa pun hanya ketika bidang korelasi terlihat seperti lingkaran, lingkaran, awan yang benar-benar vertikal atau horizontal, atau terdiri dari titik-titik yang tersebar secara acak. Dalam semua kasus lain, perlu untuk mengkonfirmasi hipotesis adanya hubungan antara " x " dan " kamu dan melanjutkan penelitian.

Prosedur MNC kedua. Ditentukan garis (lintasan) mana yang paling mampu menggambarkan atau mengkarakterisasi tren perubahan hasil bunga matahari untuk periode yang dianalisis.

Dengan tersedianya teknologi komputer, pemilihan trend yang optimal terjadi secara otomatis. Dengan pemrosesan "manual", pilihan fungsi optimal dilakukan, sebagai suatu peraturan, secara visual - berdasarkan lokasi bidang korelasi. Artinya, menurut jenis bagan, persamaan garis dipilih, yang paling sesuai dengan tren empiris (ke lintasan sebenarnya).

Seperti yang Anda ketahui, di alam ada berbagai macam dependensi fungsional, sehingga sangat sulit untuk menganalisis secara visual bahkan sebagian kecil darinya. Untungnya, dalam praktik ekonomi nyata, sebagian besar hubungan dapat digambarkan secara akurat baik dengan parabola, atau hiperbola, atau garis lurus. Dalam hal ini, dengan opsi "manual" untuk memilih fungsi terbaik, Anda dapat membatasi diri hanya pada tiga model ini.

Hiperbola:

Parabola orde kedua: :

Sangat mudah untuk melihat bahwa dalam contoh kita, tren perubahan hasil bunga matahari selama 10 tahun yang dianalisis paling baik dicirikan oleh garis lurus, sehingga persamaan regresi akan menjadi persamaan garis lurus.

Prosedur ketiga. Parameter persamaan regresi yang mencirikan garis ini dihitung, atau dengan kata lain, formula analitik ditentukan yang menggambarkan model tren terbaik.

Menemukan nilai parameter persamaan regresi, dalam kasus kami, parameter dan , adalah inti dari LSM. Proses ini direduksi menjadi penyelesaian sistem persamaan normal.

(9.2)

Sistem persamaan ini cukup mudah diselesaikan dengan metode Gauss. Ingatlah bahwa sebagai hasil dari solusi, dalam contoh kami, nilai parameter dan ditemukan. Dengan demikian, persamaan regresi yang ditemukan akan memiliki bentuk sebagai berikut:

Memilih jenis fungsi regresi, mis. jenis model ketergantungan Y pada X (atau X pada Y) yang dipertimbangkan, misalnya, model linier y x \u003d a + bx, perlu untuk menentukan nilai spesifik dari koefisien model.

Untuk nilai a dan b yang berbeda, dimungkinkan untuk membuat jumlah tak hingga dari ketergantungan dalam bentuk y x =a+bx, yaitu, ada jumlah garis yang tak terbatas pada bidang koordinat, tetapi kita membutuhkan ketergantungan sedemikian rupa sehingga sesuai dengan nilai yang diamati dengan cara terbaik. Dengan demikian, masalahnya direduksi menjadi pemilihan koefisien terbaik.

Kami mencari fungsi linier a + bx, hanya berdasarkan pada sejumlah pengamatan yang tersedia. Untuk menemukan fungsi yang paling cocok dengan nilai yang diamati, kami menggunakan metode kuadrat terkecil.

Keterangan: Y i - nilai yang dihitung dengan persamaan Y i =a+bx i . y i - nilai terukur, i =y i -Y i - perbedaan antara nilai terukur dan terhitung, i =y i -a-bx i .

Metode kuadrat terkecil mengharuskan i , perbedaan antara y i yang diukur dan nilai Y i yang dihitung dari persamaan, menjadi minimal. Oleh karena itu, kami menemukan koefisien a dan b sehingga jumlah deviasi kuadrat dari nilai-nilai yang diamati dari nilai-nilai pada garis regresi lurus adalah yang terkecil:

Menyelidiki fungsi argumen a dan dengan bantuan turunan ke ekstrem, kita dapat membuktikan bahwa fungsi tersebut mengambil nilai minimum jika koefisien a dan b adalah solusi dari sistem:

(2)

Jika kita membagi kedua ruas persamaan normal dengan n, kita peroleh:

Mengingat bahwa (3)

Mendapatkan , dari sini, dengan mensubstitusi nilai a dalam persamaan pertama, kita mendapatkan:

Dalam hal ini, b disebut koefisien regresi; a disebut anggota bebas dari persamaan regresi dan dihitung dengan rumus:

Garis lurus yang dihasilkan merupakan perkiraan untuk garis regresi teoritis. Kita punya:

Jadi, adalah persamaan regresi linier.

Regresi dapat langsung (b>0) dan invers (b Contoh 1. Hasil pengukuran nilai X dan Y diberikan dalam tabel:

x saya -2 0 1 2 4
aku 0.5 1 1.5 2 3

Dengan asumsi ada hubungan linier antara X dan Y y=a+bx, tentukan koefisien a dan b dengan menggunakan metode kuadrat terkecil.

Keputusan. Di sini n=5
x i =-2+0+1+2+4=5;
x i 2 =4+0+1+4+16=25
x i y i =-2 0.5+0 1+1 1.5+2 2+4 3=16.5
y i =0,5+1+1,5+2+3=8

dan sistem normal (2) memiliki bentuk

Memecahkan sistem ini, kita mendapatkan: b=0,425, a=1,175. Jadi y=1,175+0,425x.

Contoh 2. Terdapat 10 sampel pengamatan indikator ekonomi (X) dan (Y).

x saya 180 172 173 169 175 170 179 170 167 174
aku 186 180 176 171 182 166 182 172 169 177

Diperlukan untuk menemukan sampel persamaan regresi Y-on-X. Buatlah sampel garis regresi Y-on-X.

Keputusan. 1. Mari kita urutkan data berdasarkan nilai x i dan y i . Kami mendapatkan tabel baru:

x saya 167 169 170 170 172 173 174 175 179 180
aku 169 171 166 172 180 176 177 182 182 186

Untuk menyederhanakan perhitungan, kami akan menyusun tabel perhitungan di mana kami akan memasukkan nilai numerik yang diperlukan.

x saya aku x saya 2 x saya y saya
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
x i = 1729 y i =1761 x saya 2 299105 x i y i =304696
x=172,9 y=176,1 x i 2 =29910.5 xy=30469.6

Menurut rumus (4), kami menghitung koefisien regresi

dan dengan rumus (5)

Dengan demikian, persamaan regresi sampel terlihat seperti y=-59,34+1,3804x.
Mari kita plot titik-titik (x i ; y i) pada bidang koordinat dan tandai garis regresi.


Gambar 4

Gambar 4 menunjukkan bagaimana nilai yang diamati terletak relatif terhadap garis regresi. Untuk memperkirakan secara numerik penyimpangan y i dari Y i , di mana y i adalah nilai yang diamati, dan Y i adalah nilai yang ditentukan oleh regresi, kami akan membuat tabel:

x saya aku aku Y saya -y saya
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Nilai Y i dihitung sesuai dengan persamaan regresi.

Penyimpangan yang nyata dari beberapa nilai yang diamati dari garis regresi dijelaskan oleh sedikitnya jumlah pengamatan. Saat mempelajari tingkat ketergantungan linier Y pada X, jumlah pengamatan diperhitungkan. Kekuatan ketergantungan ditentukan oleh nilai koefisien korelasi.

Contoh.

Data eksperimen tentang nilai-nilai variabel X dan pada diberikan dalam tabel.

Sebagai hasil dari penyelarasannya, fungsi

Menggunakan metode kuadrat terkecil, perkiraan data ini dengan ketergantungan linier y=ax+b(temukan opsi sebuah dan b). Cari tahu mana dari dua garis yang lebih baik (dalam arti metode kuadrat terkecil) menyelaraskan data eksperimen. Membuat gambar.

Inti dari metode kuadrat terkecil (LSM).

Masalahnya adalah untuk menemukan koefisien ketergantungan linier yang fungsi dari dua variabel sebuah dan b mengambil nilai terkecil. Artinya, mengingat data sebuah dan b jumlah deviasi kuadrat dari data eksperimen dari garis lurus yang ditemukan akan menjadi yang terkecil. Ini adalah inti dari metode kuadrat terkecil.

Jadi, solusi dari contoh direduksi menjadi menemukan ekstrem dari fungsi dua variabel.

Turunan rumus untuk mencari koefisien.

Sistem dua persamaan dengan dua yang tidak diketahui disusun dan diselesaikan. Menemukan turunan parsial dari suatu fungsi terhadap variabel sebuah dan b, kita menyamakan turunan ini dengan nol.

Kami memecahkan sistem persamaan yang dihasilkan dengan metode apa pun (misalnya metode substitusi atau ) dan dapatkan rumus untuk mencari koefisien menggunakan metode kuadrat terkecil (LSM).

Dengan data sebuah dan b fungsi mengambil nilai terkecil. Bukti dari fakta ini diberikan.

Itulah seluruh metode kuadrat terkecil. Rumus untuk mencari parameter sebuah berisi jumlah , , , dan parameter n- jumlah data eksperimen. Nilai dari jumlah ini direkomendasikan untuk dihitung secara terpisah. Koefisien b ditemukan setelah perhitungan sebuah.

Saatnya untuk mengingat contoh aslinya.

Keputusan.

Dalam contoh kita n=5. Kami mengisi tabel untuk kenyamanan menghitung jumlah yang termasuk dalam rumus koefisien yang diperlukan.

Nilai pada baris keempat tabel diperoleh dengan mengalikan nilai baris ke-2 dengan nilai baris ke-3 untuk setiap angka saya.

Nilai pada baris kelima tabel diperoleh dengan mengkuadratkan nilai baris ke-2 untuk setiap angka saya.

Nilai kolom terakhir dari tabel adalah jumlah nilai di seluruh baris.

Kami menggunakan rumus metode kuadrat terkecil untuk menemukan koefisien sebuah dan b. Kami menggantinya dengan nilai yang sesuai dari kolom terakhir tabel:

Karena itu, y=0.165x+2.184 adalah garis lurus aproksimasi yang diinginkan.

Masih mencari tahu yang mana dari garis y=0.165x+2.184 atau lebih baik mendekati data asli, yaitu membuat perkiraan menggunakan metode kuadrat terkecil.

Estimasi kesalahan metode kuadrat terkecil.

Untuk melakukan ini, Anda perlu menghitung jumlah deviasi kuadrat dari data asli dari garis-garis ini dan , nilai yang lebih kecil sesuai dengan garis yang lebih mendekati data asli dalam hal metode kuadrat terkecil.

Karena , maka garis y=0.165x+2.184 mendekati data asli dengan lebih baik.

Ilustrasi grafis dari metode kuadrat terkecil (LSM).

Semuanya tampak hebat di tangga lagu. Garis merah adalah garis yang ditemukan y=0.165x+2.184, garis biru adalah , titik-titik merah muda adalah data asli.

Untuk apa, untuk apa semua perkiraan ini?

Saya pribadi menggunakan untuk memecahkan masalah pemulusan data, masalah interpolasi dan ekstrapolasi (dalam contoh asli, Anda dapat diminta untuk menemukan nilai dari nilai yang diamati kamu pada x=3 atau kapan x=6 menurut metode MNC). Tetapi kita akan membicarakan lebih lanjut tentang ini nanti di bagian lain situs ini.

Bukti.

Sehingga ketika ditemukan sebuah dan b fungsi mengambil nilai terkecil, perlu bahwa pada titik ini matriks bentuk kuadrat dari diferensial orde kedua untuk fungsi pasti positif. Mari kita tunjukkan.

Diferensial orde kedua memiliki bentuk:

Yaitu

Oleh karena itu, matriks bentuk kuadrat memiliki bentuk

dan nilai elemen tidak bergantung pada sebuah dan b.

Mari kita tunjukkan bahwa matriks tersebut pasti positif. Ini mensyaratkan bahwa sudut minor harus positif.

Minor sudut dari orde pertama . Ketimpangannya sangat ketat, karena titik-titiknya tidak bertepatan. Ini akan tersirat dalam apa yang berikut.

Minor sudut dari orde kedua

Ayo buktikan dengan metode induksi matematika.

Kesimpulan: nilai yang ditemukan sebuah dan b sesuai dengan nilai terkecil dari fungsi , oleh karena itu, adalah parameter yang diinginkan untuk metode kuadrat terkecil.