Koefisien regresi empiris. Dasar-dasar Regresi Linier

Dengan adanya korelasi antara faktor dan tanda-tanda yang dihasilkan, dokter sering kali harus menentukan seberapa besar nilai satu tanda dapat berubah ketika tanda lain diubah oleh unit pengukuran yang diterima secara umum atau ditetapkan oleh peneliti sendiri.

Misalnya, bagaimana berat badan anak sekolah kelas 1 (perempuan atau laki-laki) berubah jika tinggi badan mereka bertambah 1 cm, untuk tujuan ini digunakan metode analisis regresi.

Paling sering, metode analisis regresi digunakan untuk mengembangkan skala normatif dan standar untuk pembangunan fisik.

  1. Definisi regresi. Regresi adalah fungsi yang memungkinkan, berdasarkan nilai rata-rata satu atribut, untuk menentukan nilai rata-rata atribut lain yang berkorelasi dengan yang pertama.

    Untuk tujuan ini, koefisien regresi dan sejumlah parameter lainnya digunakan. Misalnya, Anda dapat menghitung jumlah pilek rata-rata untuk nilai tertentu dari suhu udara rata-rata bulanan pada periode musim gugur-musim dingin.

  2. Definisi koefisien regresi. Koefisien regresi adalah nilai absolut dimana nilai satu atribut berubah rata-rata ketika atribut lain yang terkait dengannya berubah oleh unit pengukuran tertentu.
  3. Rumus koefisien regresi. R y / x \u003d r xy x (σ y / x)
    dimana R y / x - koefisien regresi;
    r xy - koefisien korelasi antara fitur x dan y;
    (σ y dan x) - standar deviasi fitur x dan y.

    Dalam contoh kita;
    x = 4,6 (standar deviasi suhu udara pada periode musim gugur-musim dingin;
    y = 8,65 (standar deviasi jumlah pilek menular).
    Jadi, R y/x adalah koefisien regresi.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, mis. dengan penurunan suhu udara bulanan rata-rata (x) sebesar 1 derajat, jumlah rata-rata pilek menular (y) pada periode musim gugur-musim dingin akan berubah sebesar 1,8 kasus.

  4. Persamaan Regresi. y \u003d M y + R y / x (x - M x)
    di mana y adalah nilai rata-rata atribut, yang harus ditentukan ketika nilai rata-rata atribut lain (x) berubah;
    x - nilai rata-rata yang diketahui dari fitur lain;
    R y/x - koefisien regresi;
    M x, M y - nilai rata-rata yang diketahui dari fitur x dan y.

    Misalnya, jumlah rata-rata pilek menular (y) dapat ditentukan tanpa pengukuran khusus pada nilai rata-rata berapa pun dari suhu udara rata-rata bulanan (x). Jadi, jika x \u003d - 9 °, R y / x \u003d 1,8 penyakit, M x \u003d -7 °, M y \u003d 20 penyakit, maka y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 penyakit.
    Persamaan ini diterapkan dalam kasus hubungan garis lurus antara dua fitur (x dan y).

  5. Tujuan persamaan regresi. Persamaan regresi digunakan untuk memplot garis regresi. Yang terakhir memungkinkan, tanpa pengukuran khusus, untuk menentukan nilai rata-rata (y) dari satu atribut, jika nilai (x) dari atribut lain berubah. Berdasarkan data ini, grafik dibangun - Garis regresi, yang dapat digunakan untuk menentukan jumlah rata-rata pilek pada nilai berapa pun dari suhu rata-rata bulanan dalam kisaran antara nilai yang dihitung dari jumlah pilek.
  6. Sigma regresi (rumus).
    dimana Ru/x - sigma (standar deviasi) dari regresi;
    y adalah standar deviasi dari fitur y;
    r xy - koefisien korelasi antara fitur x dan y.

    Jadi, jika y adalah simpangan baku banyaknya pilek = 8,65; r xy - koefisien korelasi antara jumlah pilek (y) dan suhu udara rata-rata bulanan pada periode musim gugur-musim dingin (x) adalah - 0,96, maka

  7. Tujuan dari regresi sigma. Memberikan karakteristik ukuran keragaman fitur yang dihasilkan (y).

    Misalnya, ini mencirikan keragaman jumlah pilek pada nilai tertentu dari suhu udara bulanan rata-rata pada periode musim gugur-musim dingin. Jadi, rata-rata jumlah pilek pada suhu udara x 1 \u003d -6 ° dapat berkisar dari 15,78 penyakit hingga 20,62 penyakit.
    Pada x 2 = -9°, jumlah rata-rata pilek dapat berkisar dari 21,18 penyakit hingga 26,02 penyakit, dll.

    Sigma regresi digunakan dalam konstruksi skala regresi, yang mencerminkan penyimpangan nilai atribut efektif dari nilai rata-rata yang diplot pada garis regresi.

  8. Data yang dibutuhkan untuk menghitung dan memplot skala regresi
    • koefisien regresi - Ry/x;
    • persamaan regresi - y \u003d M y + R y / x (x-M x);
    • sigma regresi - Rx/y
  9. Urutan perhitungan dan representasi grafis dari skala regresi.
    • tentukan koefisien regresi dengan rumus (lihat paragraf 3). Misalnya, seseorang harus menentukan berapa banyak rata-rata berat badan akan berubah (pada usia tertentu tergantung pada jenis kelamin) jika tinggi rata-rata berubah 1 cm.
    • sesuai dengan rumus persamaan regresi (lihat paragraf 4), tentukan apa yang akan menjadi rata-rata, misalnya, berat badan (y, y 2, y 3 ...) * untuk nilai pertumbuhan tertentu (x, x 2, x3...).
      ________________
      * Nilai "y" harus dihitung setidaknya untuk tiga nilai "x" yang diketahui.

      Pada saat yang sama, nilai rata-rata berat badan dan tinggi badan (M x, dan M y) untuk usia dan jenis kelamin tertentu diketahui

    • hitung sigma regresi, ketahui nilai yang sesuai dari y dan r xy dan substitusikan nilainya ke dalam rumus (lihat paragraf 6).
    • berdasarkan nilai yang diketahui dari x 1, x 2, x 3 dan nilai rata-rata yang sesuai y 1, y 2 y 3, serta yang terkecil (y - ru / x) dan terbesar (y + ru / x) nilai \u200b\u200b(y) membangun skala regresi.

      Untuk representasi grafis dari skala regresi, nilai x, x 2 , x 3 (sumbu y) pertama kali ditandai pada grafik, yaitu. garis regresi dibangun, misalnya, ketergantungan berat badan (y) pada tinggi (x).

      Kemudian, pada titik-titik yang sesuai y 1 , y 2 , y 3 nilai numerik dari sigma regresi ditandai, mis. pada grafik tentukan nilai terkecil dan terbesar dari y 1 , y 2 , y 3 .

  10. Penggunaan praktis skala regresi. Skala dan standar normatif sedang dikembangkan, khususnya untuk pembangunan fisik. Menurut skala standar, dimungkinkan untuk memberikan penilaian individu terhadap perkembangan anak. Pada saat yang sama, perkembangan fisik dinilai harmonis jika, misalnya, pada ketinggian tertentu, berat badan anak berada dalam satu sigma regresi ke unit berat badan yang dihitung rata-rata - (y) untuk tinggi tertentu (x) ( y ± 1 Ry / x).

    Perkembangan fisik dianggap tidak harmonis dalam hal berat badan jika berat badan anak untuk ketinggian tertentu berada dalam sigma regresi kedua: (y ± 2 Ry/x)

    Perkembangan fisik akan sangat tidak harmonis baik karena kelebihan dan kekurangan berat badan jika berat badan untuk ketinggian tertentu berada dalam sigma ketiga dari regresi (y ± 3 Ry/x).

Menurut hasil studi statistik perkembangan fisik anak laki-laki usia 5 tahun, diketahui bahwa rata-rata tinggi badan (x) mereka adalah 109 cm, dan berat badan rata-rata mereka (y) adalah 19 kg. Koefisien korelasi antara tinggi dan berat badan adalah +0,9, standar deviasi disajikan dalam tabel.

Yg dibutuhkan:

  • menghitung koefisien regresi;
  • menggunakan persamaan regresi, tentukan berapa berat badan yang diharapkan dari anak laki-laki berusia 5 tahun dengan tinggi sama dengan x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • menghitung sigma regresi, membangun skala regresi, menyajikan hasil penyelesaiannya secara grafis;
  • menarik kesimpulan yang sesuai.

Kondisi masalah dan hasil penyelesaiannya disajikan dalam tabel ringkasan.

Tabel 1

Kondisi masalah Hasil solusi masalah
persamaan regresi regresi sigma skala regresi (berat badan yang diharapkan (dalam kg))
M σ r xy R y/x X Pada Rx/y y - Rу/х y + Rу/х
1 2 3 4 5 6 7 8 9 10
Tinggi (x) 109 cm ± 4.4cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Berat badan (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Larutan.

Kesimpulan. Dengan demikian, skala regresi dalam nilai berat badan yang dihitung memungkinkan Anda untuk menentukannya untuk nilai pertumbuhan lainnya atau untuk menilai perkembangan individu anak. Untuk melakukan ini, kembalikan tegak lurus ke garis regresi.

  1. Vlasov V.V. Epidemiologi. - M.: GEOTAR-MED, 2004. - 464 hal.
  2. Lisitsyn Yu.P. Kesehatan masyarakat dan kesehatan. Buku teks untuk sekolah menengah. - M.: GEOTAR-MED, 2007. - 512 hal.
  3. Medik V.A., Yuriev V.K. Kursus kuliah tentang kesehatan masyarakat dan perawatan kesehatan: Bagian 1. Kesehatan masyarakat. - M.: Kedokteran, 2003. - 368 hal.
  4. Minyaev V.A., Vishnyakov N.I. dan lain-lain Organisasi kedokteran sosial dan kesehatan (Panduan dalam 2 jilid). - St. Petersburg, 1998. -528 hal.
  5. Kucherenko V.Z., Agarkov N.M. dan lain-lain Kebersihan sosial dan organisasi kesehatan (Tutorial) - Moskow, 2000. - 432 hal.
  6. S.Glantz. Statistik mediko-biologis. Per dari bahasa Inggris. - M., Praktek, 1998. - 459 hal.

Studi dependensi korelasi didasarkan pada studi tentang hubungan antar variabel seperti itu, di mana nilai-nilai satu variabel, dapat diambil sebagai variabel dependen, "rata-rata" berubah tergantung pada nilai apa yang diambil variabel lain, dianggap sebagai penyebab dalam kaitannya dengan variabel terikat. Tindakan penyebab ini dilakukan dalam interaksi kompleks dari berbagai faktor, akibatnya manifestasi suatu pola dikaburkan oleh pengaruh peluang. Menghitung nilai rata-rata dari atribut yang dihasilkan untuk sekelompok nilai faktor atribut tertentu, pengaruh peluang sebagian dihilangkan. Menghitung parameter jalur komunikasi teoretis, mereka selanjutnya dihilangkan dan diperoleh perubahan "y" yang jelas (dalam bentuk) dengan perubahan faktor "x".

Untuk mempelajari hubungan stokastik, metode membandingkan dua deret paralel, metode pengelompokan analitik, analisis korelasi, analisis regresi, dan beberapa metode nonparametrik banyak digunakan. Secara umum, tugas statistika dalam bidang studi hubungan tidak hanya mengukur keberadaan, arah, dan kekuatan hubungannya, tetapi juga untuk menentukan bentuk (ekspresi analitis) dari pengaruh karakteristik faktor pada yang dihasilkan. Untuk mengatasinya digunakan metode analisis korelasi dan regresi.

BAB 1. PERSAMAAN REGRESI: LANDASAN TEORITIS

1.1. Persamaan regresi: esensi dan jenis fungsi

Regresi (Latin regressio - gerakan mundur, transisi dari bentuk pengembangan yang lebih kompleks ke yang kurang kompleks) adalah salah satu konsep dasar dalam teori probabilitas dan statistik matematika, yang menyatakan ketergantungan nilai rata-rata variabel acak pada nilai-nilai variabel acak lain atau beberapa variabel acak. Konsep ini diperkenalkan oleh Francis Galton pada tahun 1886.

Garis regresi teoretis adalah garis di mana titik-titik bidang korelasi dikelompokkan dan yang menunjukkan arah utama, tren utama hubungan.

Garis regresi teoretis harus mencerminkan perubahan nilai rata-rata atribut efektif "y" sebagai nilai dari perubahan atribut faktor "x", asalkan semua lainnya - acak dalam kaitannya dengan faktor "x" - penyebab saling dibatalkan. Oleh karena itu, garis ini harus ditarik sedemikian rupa sehingga jumlah deviasi titik-titik medan korelasi dari titik-titik yang bersesuaian dari garis regresi teoretis sama dengan nol, dan jumlah kuadrat deviasi ini adalah minimum. nilai.

y=f(x) - persamaan regresi adalah rumus untuk hubungan statistik antar variabel.

Garis lurus pada bidang (dalam ruang dua dimensi) diberikan oleh persamaan y=a+b*x. Secara lebih rinci: variabel y dapat dinyatakan dalam konstanta (a) dan kemiringan (b) dikalikan dengan variabel x. Konstanta ini kadang-kadang juga disebut intersep, dan kemiringan juga disebut regresi atau faktor-B.

Langkah penting dalam analisis regresi adalah menentukan jenis fungsi, yang mencirikan hubungan antar fitur. Dasar utama harus menjadi analisis yang berarti tentang sifat ketergantungan yang diteliti, mekanismenya. Pada saat yang sama, jauh dari selalu mungkin untuk membuktikan secara teoritis bentuk hubungan masing-masing faktor dengan indikator kinerja, karena fenomena sosial-ekonomi yang dipelajari sangat kompleks dan faktor-faktor yang membentuk levelnya saling terkait erat dan berinteraksi. dengan satu sama lain. Oleh karena itu, berdasarkan analisis teoretis, kesimpulan paling umum sering dapat ditarik mengenai arah hubungan, kemungkinan perubahannya dalam populasi yang diteliti, legitimasi penggunaan hubungan linier, kemungkinan adanya nilai-nilai ekstrim. , dll. Tambahan yang diperlukan untuk asumsi tersebut harus menjadi analisis data faktual tertentu.

Gagasan perkiraan garis tautan dapat diperoleh berdasarkan garis regresi empiris. Garis regresi empiris biasanya merupakan garis putus-putus, memiliki jeda yang kurang lebih signifikan. Hal ini dijelaskan oleh fakta bahwa pengaruh faktor-faktor lain yang tidak diperhitungkan yang mempengaruhi variasi atribut yang dihasilkan tidak sepenuhnya dikompensasi rata-rata, karena jumlah pengamatan yang tidak cukup besar, oleh karena itu, tautan empiris dapat digunakan untuk memilih dan membenarkan jenis kurva teoritis, asalkan jumlah pengamatannya cukup banyak.

Salah satu elemen studi khusus adalah perbandingan berbagai persamaan ketergantungan berdasarkan penggunaan kriteria kualitas untuk perkiraan data empiris dengan model yang bersaing.Jenis fungsi berikut paling sering digunakan untuk mengkarakterisasi hubungan indikator ekonomi:

1. Linier:

2. Hiperbolik:

3. Demonstrasi:

4. Parabola:

5. Kekuatan:

6. Logaritma:

7. Logistik:

Model dengan satu variabel penjelas dan satu variabel penjelas adalah model regresi berpasangan. Jika dua atau lebih variabel penjelas (faktorial) digunakan, maka seseorang berbicara tentang penggunaan model regresi berganda. Dalam hal ini, fungsi linier, eksponensial, hiperbolik, eksponensial, dan jenis fungsi lain yang menghubungkan variabel-variabel ini dapat dipilih sebagai opsi.

Untuk mencari parameter a dan b, persamaan regresi menggunakan metode kuadrat terkecil. Ketika menggunakan metode kuadrat terkecil untuk menemukan fungsi yang paling sesuai dengan data empiris, diyakini bahwa kantong deviasi kuadrat dari titik empiris dari garis regresi teoritis harus menjadi nilai minimum.

Kriteria metode kuadrat terkecil dapat ditulis sebagai berikut:

Oleh karena itu, penerapan metode kuadrat terkecil untuk menentukan parameter a dan b dari garis lurus yang paling sesuai dengan data empiris direduksi menjadi masalah ekstrem.

Mengenai peringkat, kesimpulan berikut dapat ditarik:

1. Estimasi kuadrat terkecil adalah fungsi sampling, yang membuatnya mudah untuk dihitung.

2. Estimasi kuadrat terkecil adalah estimasi titik dari koefisien regresi teoritis.

3. Garis regresi empiris harus melalui titik x, y.

4. Persamaan regresi empiris dibangun sedemikian rupa sehingga jumlah deviasi

.

Representasi grafis dari jalur komunikasi empiris dan teoritis ditunjukkan pada Gambar 1.


Parameter b dalam persamaan adalah koefisien regresi. Jika ada korelasi langsung, koefisien regresi bernilai positif, dan dalam hal hubungan terbalik, koefisien regresi bernilai negatif. Koefisien regresi menunjukkan seberapa besar nilai atribut efektif "y" berubah rata-rata ketika faktor atribut "x" berubah satu. Secara geometris, koefisien regresi adalah kemiringan garis lurus yang menggambarkan persamaan korelasi relatif terhadap sumbu x (untuk persamaan

).

Cabang dari analisis statistik multivariat yang ditujukan untuk memulihkan ketergantungan disebut analisis regresi. Istilah "analisis regresi linier" digunakan ketika fungsi yang dipertimbangkan bergantung secara linier pada parameter yang diestimasi (ketergantungan pada variabel bebas dapat berubah-ubah). Teori Evaluasi

parameter yang tidak diketahui dikembangkan dengan baik justru dalam kasus analisis regresi linier. Jika tidak ada linearitas dan tidak mungkin untuk beralih ke masalah linier, maka, sebagai aturan, seseorang tidak boleh mengharapkan sifat yang baik dari perkiraan. Mari kita tunjukkan pendekatan dalam kasus dependensi dari berbagai jenis. Jika ketergantungan tersebut berbentuk polinomial (polinomial). Jika perhitungan korelasi mencirikan kekuatan hubungan antara dua variabel, maka analisis regresi berfungsi untuk menentukan jenis hubungan ini dan memungkinkan untuk memprediksi nilai satu variabel (tergantung) berdasarkan nilai variabel (bebas) lainnya. Untuk melakukan analisis regresi linier, variabel terikat harus memiliki skala interval (atau ordinal). Pada saat yang sama, regresi logistik biner mengungkapkan ketergantungan variabel dikotomis pada beberapa variabel lain yang terkait dengan skala apa pun. Kondisi aplikasi yang sama berlaku untuk analisis probit. Jika variabel dependen adalah kategoris, tetapi memiliki lebih dari dua kategori, maka regresi logistik multinomial akan menjadi metode yang tepat di sini, dan hubungan nonlinier antar variabel yang termasuk dalam skala interval dapat dianalisis. Untuk ini, metode regresi non-linier dimaksudkan.

KOEFISIEN REGRESI

- Bahasa inggris koefisien, regresi; Jerman regresikoefisien. Salah satu ciri hubungan antara variabel bebas y dan variabel bebas x. K. r. ditunjukkan dengan berapa satuan nilai yang diterima oleh y bertambah jika variabel x berubah satu satuan perubahannya. Secara geometris, K. r. adalah kemiringan garis lurus y.

Antinazi. Ensiklopedia Sosiologi, 2009

Lihat apa itu "KOEFISIEN REGRESI" di kamus lain:

    koefisien regresi- - [L.G. Sumenko. Kamus Bahasa Inggris Rusia Teknologi Informasi. M.: GP TsNIIS, 2003.] Topik teknologi informasi secara umum EN koefisien regresi ... Buku Pegangan Penerjemah Teknis

    Koefisien regresi- 35. Koefisien regresi Parameter model analisis regresi Sumber: GOST 24026 80: Tes penelitian. Perencanaan percobaan. Istilah dan Definisi…

    koefisien regresi- Koefisien variabel independen dalam persamaan regresi ... Kamus Statistik Sosiologi

    KOEFISIEN REGRESI- Bahasa inggris. koefisien, regresi; Jerman regresikoefisien. Salah satu ciri hubungan antara variabel bebas y dan variabel bebas x. K. r. menunjukkan berapa satuan nilai yang diterima oleh y bertambah jika variabel x berubah menjadi ... ... Kamus Penjelasan Sosiologi

    koefisien regresi sampel- 2.44. sampel koefisien regresi Koefisien variabel dalam kurva regresi atau persamaan permukaan Sumber: GOST R 50779.10 2000: Metode statistik. Probabilitas dan dasar statistik. Istilah dan Definisi… Buku referensi kamus istilah dokumentasi normatif dan teknis

    Koefisien regresi parsial- ukuran statistik yang menunjukkan tingkat pengaruh variabel independen terhadap dependen dalam situasi di mana pengaruh timbal balik dari semua variabel lain dalam model berada di bawah kendali peneliti ... Kamus Sosiologi Socium

    REGRESI, BERAT- Sinonim untuk konsep koefisien regresi ... Kamus Penjelasan Psikologi

    KOEFISIEN HERITABILITAS- Indikator bagian relatif dari variabilitas genetik dalam keseluruhan variasi fenotipik suatu sifat. Metode yang paling umum untuk menilai heritabilitas sifat yang berguna secara ekonomi adalah: di mana h2 adalah koefisien heritabilitas; r intrakelas…… Istilah dan definisi yang digunakan dalam pemuliaan, genetika dan reproduksi hewan ternak

    - (R kuadrat) adalah proporsi varians variabel dependen yang dijelaskan oleh model ketergantungan yang dimaksud, yaitu variabel penjelas. Lebih tepatnya, ini adalah satu dikurangi proporsi varians yang tidak dapat dijelaskan (varians kesalahan acak model, atau kondisional ... ... Wikipedia

    Koefisien variabel bebas dalam persamaan regresi. Jadi, misalnya, dalam persamaan regresi linier yang menghubungkan variabel acak Y dan X, R.k.b0 dan b1 adalah sama: di mana r adalah koefisien korelasi X dan Y, . Perhitungan estimasi R. k. Ensiklopedia Matematika

Buku

  • Pengantar ekonometrika (CDpc), Yanovsky Leonid Petrovich, Bukhovets Alexey Georgievich. Dasar-dasar ekonometrika dan analisis statistik deret waktu satu dimensi diberikan. Banyak perhatian diberikan pada pasangan klasik dan regresi berganda, metode klasik dan umum…
  • Membaca cepat. Simulator Efektif (CDpc), . Program ini ditujukan kepada pengguna yang ingin menguasai teknik membaca cepat dalam waktu sesingkat mungkin. Kursus ini dibangun di atas prinsip "teori - praktik". Materi teoretis dan praktis...

Dalam catatan sebelumnya, fokusnya sering pada variabel numerik tunggal, seperti pengembalian reksa dana, waktu buka halaman Web, atau konsumsi minuman ringan. Dalam catatan ini dan berikut, kami akan mempertimbangkan metode untuk memprediksi nilai variabel numerik tergantung pada nilai satu atau lebih variabel numerik lainnya.

Materi akan diilustrasikan dengan contoh. Peramalan volume penjualan di toko pakaian. Jaringan toko pakaian diskon Sunflowers terus berkembang selama 25 tahun. Namun, perusahaan saat ini tidak memiliki pendekatan sistematis untuk memilih gerai baru. Lokasi dimana perusahaan akan membuka toko baru ditentukan berdasarkan pertimbangan subjektif. Kriteria pemilihannya adalah kondisi sewa yang menguntungkan atau gagasan pengelola tentang lokasi toko yang ideal. Bayangkan Anda adalah kepala Departemen Proyek dan Perencanaan Khusus. Anda telah ditugaskan untuk mengembangkan rencana strategis untuk membuka toko baru. Rencana ini harus berisi perkiraan penjualan tahunan di toko yang baru dibuka. Anda percaya bahwa ruang penjualan berhubungan langsung dengan pendapatan dan ingin memasukkan fakta tersebut ke dalam proses pengambilan keputusan Anda. Bagaimana Anda mengembangkan model statistik yang memprediksi penjualan tahunan berdasarkan ukuran toko baru?

Biasanya, analisis regresi digunakan untuk memprediksi nilai suatu variabel. Tujuannya adalah untuk mengembangkan model statistik yang memprediksi nilai variabel dependen, atau respons, dari nilai setidaknya satu variabel independen, atau penjelas. Dalam catatan ini, kami akan mempertimbangkan regresi linier sederhana - metode statistik yang memungkinkan Anda untuk memprediksi nilai variabel terikat kamu dengan nilai variabel bebas X. Catatan berikut akan menjelaskan model regresi berganda yang dirancang untuk memprediksi nilai variabel independen: kamu dengan nilai beberapa variabel terikat ( X 1 , X 2 , …, X k).

Unduh catatan dalam atau format, contoh dalam format

Jenis model regresi

di mana ρ 1 adalah koefisien autokorelasi; jika ρ 1 = 0 (tidak ada autokorelasi), D 2; jika ρ 1 1 (autokorelasi positif), D 0; jika ρ 1 = -1 (autokorelasi negatif), D ≈ 4.

Dalam praktiknya, penerapan kriteria Durbin-Watson didasarkan pada perbandingan nilai D dengan nilai-nilai teoritis kritis d L dan d U untuk sejumlah pengamatan tertentu n, jumlah variabel bebas dari model k(untuk regresi linier sederhana k= 1) dan tingkat signifikansi . Jika sebuah D< d L , hipotesis independensi deviasi acak ditolak (dengan demikian, terdapat autokorelasi positif); jika D > d U, hipotesis tidak ditolak (artinya tidak ada autokorelasi); jika d L< D < d U tidak ada cukup alasan untuk membuat keputusan. Ketika nilai yang dihitung D melebihi 2, maka d L dan d U bukan koefisien itu sendiri yang dibandingkan D, dan ekspresi (4 – D).

Untuk menghitung statistik Durbin-Watson di Excel, kita beralih ke tabel bawah pada Gambar. empat belas Penarikan saldo. Pembilang dalam ekspresi (10) dihitung menggunakan fungsi = SUMMQDIFF(array1, array2), dan penyebut = SUMMQ(array) (Gbr. 16).

Beras. 16. Rumus untuk menghitung statistik Durbin-Watson

Dalam contoh kita D= 0,883. Pertanyaan utamanya adalah: berapa nilai statistik Durbin-Watson yang dianggap cukup kecil untuk menyimpulkan bahwa terdapat autokorelasi positif? Nilai D perlu dikorelasikan dengan nilai kritis ( d L dan d U) tergantung pada jumlah pengamatan n dan tingkat signifikansi (Gbr. 17).

Beras. 17. Nilai kritis statistik Durbin-Watson (fragmen tabel)

Jadi, dalam masalah volume penjualan di toko yang mengantarkan barang ke rumah Anda, ada satu variabel bebas ( k= 1), 15 pengamatan ( n= 15) dan tingkat signifikansi = 0,05. Akibatnya, d L= 1,08 dan dkamu= 1,36. Karena D = 0,883 < d L= 1,08, terdapat autokorelasi positif antar residual, metode kuadrat terkecil tidak dapat diterapkan.

Pengujian Hipotesis tentang Kemiringan dan Koefisien Korelasi

Regresi di atas diterapkan semata-mata untuk peramalan. Untuk menentukan koefisien regresi dan memprediksi nilai suatu variabel kamu untuk nilai variabel yang diberikan X digunakan metode kuadrat terkecil. Selain itu, kami mempertimbangkan kesalahan standar estimasi dan koefisien korelasi campuran. Jika analisis residual menegaskan bahwa kondisi penerapan metode kuadrat terkecil tidak dilanggar, dan model regresi linier sederhana memadai, berdasarkan data sampel, dapat dikatakan bahwa ada hubungan linier antara variabel dalam populasi.

Aplikasit -kriteria kemiringan Dengan memeriksa apakah kemiringan populasi 1 sama dengan nol, seseorang dapat menentukan apakah ada hubungan yang signifikan secara statistik antara variabel X dan kamu. Jika hipotesis ini ditolak, dapat dikatakan bahwa antara variabel X dan kamu ada hubungan linier. Hipotesis nol dan alternatif dirumuskan sebagai berikut: H 0: 1 = 0 (tidak ada hubungan linier), H1: 1 0 (ada hubungan linier). Menurut definisi t-statistik sama dengan perbedaan antara kemiringan sampel dan kemiringan populasi hipotetis, dibagi dengan kesalahan standar dari perkiraan kemiringan:

(11) t = (b 1 β 1 ) / Sb 1

di mana b 1 adalah kemiringan regresi langsung berdasarkan data sampel, 1 adalah kemiringan hipotetis dari populasi umum langsung, , dan statistik uji t Memiliki t- distribusi dengan n - 2 derajat kebebasan.

Mari kita periksa apakah ada hubungan yang signifikan secara statistik antara ukuran toko dan penjualan tahunan pada = 0,05. t-kriteria ditampilkan bersama dengan parameter lain saat menggunakan Paket analisis(pilihan Regresi). Hasil lengkap dari Paket Analisis ditunjukkan pada Gambar. 4, sebuah fragmen yang terkait dengan t-statistik - dalam gambar. delapan belas.

Beras. 18. Hasil aplikasi t

Karena jumlah toko n= 14 (lihat Gambar 3), nilai kritis t-statistik pada tingkat signifikansi = 0,05 dapat dicari dengan rumus: t L=STUDENT.INV(0.025;12) = -2.1788 dimana 0,025 adalah setengah dari tingkat signifikansi dan 12 = n – 2; t U\u003d MAHASISWA.INV (0,975, 12) \u003d +2,1788.

Karena t-statistik = 10,64 > t U= 2.1788 (Gbr. 19), hipotesis nol H 0 ditolak. Di samping itu, R-nilai untuk X\u003d 10.6411, dihitung dengan rumus \u003d 1-STUDENT.DIST (D3, 12, TRUE), kira-kira sama dengan nol, jadi hipotesisnya H 0 ditolak lagi. Fakta bahwa R-nilainya hampir nol, artinya jika tidak ada hubungan linier yang nyata antara ukuran toko dan penjualan tahunan, hampir tidak mungkin untuk mendeteksinya menggunakan regresi linier. Oleh karena itu, ada hubungan linier yang signifikan secara statistik antara rata-rata penjualan toko tahunan dan ukuran toko.

Beras. 19. Menguji hipotesis tentang kemiringan populasi umum pada tingkat signifikansi 0,05 dan 12 derajat kebebasan

AplikasiF -kriteria kemiringan Pendekatan alternatif untuk menguji hipotesis tentang kemiringan regresi linier sederhana adalah dengan menggunakan F-kriteria. Ingat itu F-kriteria digunakan untuk menguji hubungan antara dua varians (lihat detail). Saat menguji hipotesis kemiringan, ukuran kesalahan acak adalah varians kesalahan (jumlah kesalahan kuadrat dibagi dengan jumlah derajat kebebasan), jadi F-test menggunakan rasio varians yang dijelaskan oleh regresi (yaitu, nilai SSR dibagi dengan jumlah variabel bebas k), dengan varian kesalahan ( MSE=SYX 2 ).

Menurut definisi F-statistik sama dengan mean kuadrat deviasi karena regresi (MSR) dibagi dengan varians kesalahan (MSE): F = MSR/ UMK, di mana MSR =SSR / k, MSE =SSE/(n– k – 1), k adalah jumlah variabel bebas dalam model regresi. Statistik uji F Memiliki F- distribusi dengan k dan n– k – 1 derajat kebebasan.

Untuk tingkat signifikansi tertentu , aturan keputusan dirumuskan sebagai berikut: jika F > Fkamu, hipotesis nol ditolak; jika tidak, itu tidak ditolak. Hasilnya, disajikan dalam bentuk tabel ringkasan analisis varians, ditunjukkan pada gambar. dua puluh.

Beras. 20. Tabel analisis varians untuk menguji hipotesis signifikansi statistik koefisien regresi

Demikian pula t-kriteria F-kriteria ditampilkan dalam tabel saat menggunakan Paket analisis(pilihan Regresi). Hasil lengkap dari pekerjaan Paket analisis ditunjukkan pada gambar. 4, fragmen terkait dengan F-statistik - dalam gambar. 21.

Beras. 21. Hasil aplikasi F- Kriteria yang diperoleh menggunakan Excel Analysis ToolPack

F-statistik adalah 113,23 dan R-nilai mendekati nol (sel MaknaF). Jika tingkat signifikansi adalah 0,05, tentukan nilai kritisnya F-distribusi dengan satu dan 12 derajat kebebasan dapat diperoleh dari rumus F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Gbr. 22). Karena F = 113,23 > F U= 4,7472, dan R-nilai mendekati 0< 0,05, нулевая гипотеза H 0 menyimpang, yaitu Ukuran toko berhubungan erat dengan volume penjualan tahunannya.

Beras. 22. Menguji hipotesis tentang kemiringan populasi umum pada tingkat signifikansi 0,05, dengan satu dan 12 derajat kebebasan

Interval kepercayaan yang mengandung kemiringan 1 . Untuk menguji hipotesis tentang adanya hubungan linier antar variabel, Anda dapat membangun interval kepercayaan yang mengandung kemiringan 1 dan memastikan bahwa nilai hipotetis 1 = 0 termasuk dalam interval ini. Pusat interval kepercayaan yang mengandung kemiringan 1 adalah kemiringan sampel b 1 , dan batas-batasnya adalah besaran b 1 ±t n –2 Sb 1

Seperti yang ditunjukkan pada gambar. delapan belas, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d MAHASISWA.OBR (0,975, 12) \u003d 2.1788. Akibatnya, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, atau + 1,328 1 +2,012. Jadi, kemiringan populasi dengan probabilitas 0,95 terletak pada kisaran dari +1,328 hingga +2,012 (yaitu, dari $1,328,000 hingga $2,012,000). Karena nilai ini lebih besar dari nol, ada hubungan linier yang signifikan secara statistik antara penjualan tahunan dan luas toko. Jika selang kepercayaan berisi nol, maka tidak akan ada hubungan antar variabel. Selain itu, interval kepercayaan berarti bahwa setiap 1.000 sq. kaki menghasilkan peningkatan penjualan rata-rata $1,328,000 menjadi $2,012,000.

Penggunaant -kriteria untuk koefisien korelasi. koefisien korelasi diperkenalkan r, yang merupakan ukuran hubungan antara dua variabel numerik. Ini dapat digunakan untuk menentukan apakah ada hubungan yang signifikan secara statistik antara dua variabel. Mari kita nyatakan koefisien korelasi antara populasi kedua variabel dengan simbol . Hipotesis nol dan alternatif dirumuskan sebagai berikut: H 0: = 0 (tidak ada korelasi), H 1: 0 (ada korelasi). Memeriksa keberadaan korelasi:

di mana r = + , jika b 1 > 0, r = – , jika b 1 < 0. Тестовая статистика t Memiliki t- distribusi dengan n - 2 derajat kebebasan.

Dalam masalah rantai toko Bunga Matahari r2= 0,904, dan b 1- +1.670 (lihat Gambar 4). Karena b 1> 0, koefisien korelasi antara penjualan tahunan dan ukuran toko adalah r= +√0,904 = +0,951. Mari kita uji hipotesis nol bahwa tidak ada korelasi antara variabel-variabel ini menggunakan t- statistik:

Pada tingkat signifikansi = 0,05, hipotesis nol harus ditolak karena t= 10,64 > 2,1788. Dengan demikian, dapat dikatakan bahwa ada hubungan yang signifikan secara statistik antara penjualan tahunan dan ukuran toko.

Ketika membahas kesimpulan tentang kemiringan populasi, interval kepercayaan dan kriteria untuk menguji hipotesis adalah alat yang dapat dipertukarkan. Namun, perhitungan interval kepercayaan yang mengandung koefisien korelasi ternyata lebih sulit, karena bentuk distribusi sampling dari statistik r tergantung pada koefisien korelasi yang sebenarnya.

Estimasi ekspektasi matematis dan prediksi nilai individu

Bagian ini membahas metode untuk memperkirakan respon yang diharapkan kamu dan prediksi nilai individu kamu untuk nilai variabel yang diberikan X.

Konstruksi interval kepercayaan. Dalam contoh 2 (lihat bagian di atas Metode kuadrat terkecil) persamaan regresi memungkinkan untuk memprediksi nilai variabel kamu X. Dalam masalah pemilihan lokasi gerai ritel, rata-rata penjualan tahunan di toko dengan luas 4000 m2. kaki sama dengan 7,644 juta dolar.Namun, perkiraan ekspektasi matematis dari populasi umum ini adalah satu poin. untuk memperkirakan ekspektasi matematis dari populasi umum, konsep interval kepercayaan diusulkan. Demikian pula, seseorang dapat memperkenalkan konsep interval kepercayaan untuk ekspektasi matematis dari respons untuk nilai tertentu dari variabel X:

di mana , = b 0 + b 1 X saya– variabel nilai prediksi kamu pada X = X saya, S YX adalah kesalahan kuadrat rata-rata, n adalah ukuran sampel, Xsaya- nilai variabel yang diberikan X, µ kamu|X = Xsaya– harapan matematis dari suatu variabel kamu pada X = saya,SSX=

Analisis rumus (13) menunjukkan bahwa lebar selang kepercayaan tergantung pada beberapa faktor. Pada tingkat signifikansi tertentu, peningkatan amplitudo fluktuasi di sekitar garis regresi, diukur menggunakan kesalahan kuadrat rata-rata, menyebabkan peningkatan lebar interval. Di sisi lain, seperti yang diharapkan, peningkatan ukuran sampel disertai dengan penyempitan interval. Selain itu, lebar interval berubah tergantung pada nilainya Xsaya. Jika nilai variabel kamu diprediksi untuk kuantitas X, mendekati nilai rata-rata , interval kepercayaan ternyata lebih sempit daripada saat memprediksi respons untuk nilai yang jauh dari rata-rata.

Katakanlah ketika memilih lokasi untuk toko, kami ingin membangun interval kepercayaan 95% untuk penjualan tahunan rata-rata di semua toko dengan luas 4000 meter persegi. kaki:

Oleh karena itu, rata-rata volume penjualan tahunan di semua toko dengan luas 4.000 meter persegi. kaki, dengan probabilitas 95% terletak pada kisaran 6,971 hingga 8,317 juta dolar.

Hitung interval kepercayaan untuk nilai prediksi. Selain interval kepercayaan untuk ekspektasi matematis dari respons untuk nilai variabel yang diberikan X, seringkali perlu diketahui interval kepercayaan untuk nilai prediksi. Meskipun rumus untuk menghitung interval kepercayaan seperti itu sangat mirip dengan rumus (13), interval ini berisi nilai prediksi dan bukan perkiraan parameter. Interval untuk respons yang diprediksi kamuX = Xi untuk nilai tertentu dari variabel Xsaya ditentukan dengan rumus:

Mari kita asumsikan bahwa ketika memilih lokasi untuk outlet ritel, kami ingin membangun interval kepercayaan 95% untuk volume penjualan tahunan yang diprediksi di toko dengan luas 4000 meter persegi. kaki:

Oleh karena itu, volume penjualan tahunan diprediksi untuk 4.000 sq. kaki, dengan probabilitas 95% terletak pada kisaran 5,433 hingga 9,854 juta dolar.Seperti yang Anda lihat, interval kepercayaan untuk nilai respons yang diprediksi jauh lebih lebar daripada interval kepercayaan untuk ekspektasi matematisnya. Ini karena variabilitas dalam memprediksi nilai individu jauh lebih besar daripada memperkirakan nilai yang diharapkan.

Jebakan dan masalah etika yang terkait dengan penggunaan regresi

Kesulitan yang terkait dengan analisis regresi:

  • Mengabaikan kondisi penerapan metode kuadrat terkecil.
  • Estimasi yang salah dari kondisi penerapan metode kuadrat terkecil.
  • Pilihan yang salah dari metode alternatif yang melanggar kondisi penerapan metode kuadrat terkecil.
  • Penerapan analisis regresi tanpa pengetahuan mendalam tentang subjek penelitian.
  • Ekstrapolasi regresi di luar jangkauan variabel penjelas.
  • Kebingungan antara statistik dan hubungan kausal.

Meluasnya penggunaan spreadsheet dan perangkat lunak statistik telah menghilangkan masalah komputasi yang mencegah penggunaan analisis regresi. Namun, ini mengarah pada fakta bahwa analisis regresi mulai digunakan oleh pengguna yang tidak memiliki kualifikasi dan pengetahuan yang memadai. Bagaimana pengguna tahu tentang metode alternatif jika banyak dari mereka tidak tahu sama sekali tentang kondisi penerapan metode kuadrat terkecil dan tidak tahu bagaimana memeriksa implementasinya?

Peneliti tidak boleh terbawa oleh angka-angka penggilingan - menghitung pergeseran, kemiringan dan koefisien korelasi campuran. Dia membutuhkan pengetahuan yang lebih dalam. Mari kita ilustrasikan ini dengan contoh klasik yang diambil dari buku teks. Anscombe menunjukkan bahwa keempat set data yang ditunjukkan pada Gambar. 23 memiliki parameter regresi yang sama (Gbr. 24).

Beras. 23. Empat set data buatan

Beras. 24. Analisis regresi empat set data buatan; selesai dengan Paket analisis(klik pada gambar untuk memperbesar gambar)

Jadi, dari sudut pandang analisis regresi, semua kumpulan data ini benar-benar identik. Jika analisis berakhir di sana, kami akan kehilangan banyak informasi berguna. Hal ini dibuktikan dengan plot pencar (Gbr. 25) dan plot residu (Gbr. 26) yang dibangun untuk kumpulan data ini.

Beras. 25. Plot pencar untuk empat set data

Plot sebar dan plot sisa menunjukkan bahwa data ini berbeda satu sama lain. Satu-satunya himpunan yang terdistribusi sepanjang garis lurus adalah himpunan A. Plot residual yang dihitung dari himpunan A tidak memiliki pola. Hal yang sama tidak dapat dikatakan untuk himpunan B, C, dan D. Plot pencar yang diplot untuk himpunan B menunjukkan pola kuadrat yang jelas. Kesimpulan ini dikonfirmasi oleh plot residual, yang memiliki bentuk parabola. Plot sebar dan plot residual menunjukkan bahwa dataset B berisi outlier. Dalam situasi ini, perlu untuk mengecualikan outlier dari kumpulan data dan mengulangi analisis. Teknik untuk mendeteksi dan menghilangkan outlier dari pengamatan disebut analisis pengaruh. Setelah menghilangkan outlier, hasil evaluasi ulang model mungkin sama sekali berbeda. Scatterplot yang diplot dari kumpulan data D menggambarkan situasi yang tidak biasa di mana model empiris sangat bergantung pada satu respons ( X 8 = 19, kamu 8 = 12.5). Model regresi seperti itu perlu dihitung dengan sangat hati-hati. Jadi, plot pencar dan residual merupakan alat penting untuk analisis regresi dan harus menjadi bagian integral darinya. Tanpa mereka, analisis regresi tidak dapat dipercaya.

Beras. 26. Plot residual untuk empat set data

Cara menghindari jebakan dalam analisis regresi:

  • Analisis kemungkinan hubungan antar variabel X dan kamu selalu dimulai dengan scatterplot.
  • Sebelum menafsirkan hasil analisis regresi, periksa kondisi penerapannya.
  • Plot residual versus variabel independen. Ini akan memungkinkan untuk menentukan bagaimana model empiris sesuai dengan hasil pengamatan, dan untuk mendeteksi pelanggaran keteguhan varians.
  • Gunakan histogram, plot batang dan daun, plot kotak, dan plot distribusi normal untuk menguji asumsi kesalahan distribusi normal.
  • Jika kondisi penerapan metode kuadrat terkecil tidak terpenuhi, gunakan metode alternatif (misalnya, model regresi kuadrat atau ganda).
  • Jika kondisi penerapan metode kuadrat terkecil terpenuhi, perlu untuk menguji hipotesis tentang signifikansi statistik dari koefisien regresi dan membangun interval kepercayaan yang berisi ekspektasi matematis dan nilai respons yang diprediksi.
  • Hindari memprediksi nilai variabel dependen di luar jangkauan variabel independen.
  • Ingatlah bahwa ketergantungan statistik tidak selalu kausal. Ingatlah bahwa korelasi antar variabel tidak berarti bahwa ada hubungan sebab akibat di antara mereka.

Ringkasan. Seperti yang ditunjukkan dalam diagram blok (Gbr. 27), catatan tersebut menjelaskan model regresi linier sederhana, kondisi penerapannya, dan cara menguji kondisi ini. Dipertimbangkan t-kriteria untuk menguji signifikansi statistik dari kemiringan regresi. Model regresi digunakan untuk memprediksi nilai variabel dependen. Sebuah contoh dianggap terkait dengan pilihan tempat untuk gerai ritel, di mana ketergantungan volume penjualan tahunan pada area toko dipelajari. Informasi yang diperoleh memungkinkan Anda memilih lokasi toko secara lebih akurat dan memprediksi penjualan tahunannya. Dalam catatan berikut, pembahasan tentang analisis regresi akan dilanjutkan, begitu juga dengan model regresi berganda.

Beras. 27. Blok diagram dari sebuah catatan

Bahan dari buku Levin et al.Statistik untuk manajer digunakan. - M.: Williams, 2004. - hal. 792–872

Jika variabel dependen adalah kategoris, regresi logistik harus diterapkan.