Analisis regresi langkah demi langkah. Dasar-dasar Regresi Linier

Analisis regresi dan korelasi - metode penelitian statistik. Ini adalah cara paling umum untuk menunjukkan ketergantungan parameter pada satu atau lebih variabel independen.

Di bawah ini, dengan menggunakan contoh-contoh praktis khusus, kami akan mempertimbangkan dua analisis yang sangat populer di kalangan ekonom ini. Kami juga akan memberikan contoh memperoleh hasil ketika digabungkan.

Analisis Regresi di Excel

Menunjukkan pengaruh beberapa nilai (independen, independen) terhadap variabel dependen. Misalnya, bagaimana jumlah penduduk yang aktif secara ekonomi tergantung pada jumlah perusahaan, upah, dan parameter lainnya. Atau: bagaimana investasi asing, harga energi, dll. mempengaruhi tingkat PDB.

Hasil analisis memungkinkan Anda untuk memprioritaskan. Dan berdasarkan faktor utama, untuk memprediksi, merencanakan pengembangan area prioritas, membuat keputusan manajemen.

Regresi terjadi:

  • linier (y = a + bx);
  • parabola (y = a + bx + cx 2);
  • eksponensial (y = a * exp(bx));
  • daya (y = a*x^b);
  • hiperbolik (y = b/x + a);
  • logaritma (y = b * 1n(x) + a);
  • eksponensial (y = a * b^x).

Pertimbangkan contoh membangun model regresi di Excel dan menafsirkan hasilnya. Mari kita ambil jenis regresi linier.

Sebuah tugas. Di 6 perusahaan, gaji bulanan rata-rata dan jumlah karyawan yang keluar dianalisis. Hal ini diperlukan untuk menentukan ketergantungan jumlah pensiunan karyawan pada gaji rata-rata.

Model regresi linier memiliki bentuk sebagai berikut:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Dimana a adalah koefisien regresi, x adalah variabel yang mempengaruhi, dan k adalah jumlah faktor.

Dalam contoh kita, Y adalah indikator pekerja yang berhenti. Faktor yang mempengaruhi adalah upah (x).

Excel memiliki fungsi bawaan yang dapat digunakan untuk menghitung parameter model regresi linier. Tetapi add-in Analysis ToolPak akan melakukannya lebih cepat.

Aktifkan alat analisis yang kuat:

Setelah diaktifkan, add-on akan tersedia di bawah tab Data.

Sekarang kita akan berurusan langsung dengan analisis regresi.



Pertama-tama, kami memperhatikan R-kuadrat dan koefisien.

R-square adalah koefisien determinasi. Dalam contoh kita, ini adalah 0,755, atau 75,5%. Artinya parameter yang dihitung dari model menjelaskan hubungan antara parameter yang diteliti sebesar 75,5%. Semakin tinggi koefisien determinasi, semakin baik modelnya. Baik - di atas 0,8. Buruk - kurang dari 0,5 (analisis semacam itu hampir tidak dapat dianggap masuk akal). Dalam contoh kita - "tidak buruk".

Koefisien 64,1428 menunjukkan apa yang akan menjadi Y jika semua variabel dalam model yang dipertimbangkan sama dengan 0. Artinya, faktor lain yang tidak dijelaskan dalam model juga mempengaruhi nilai parameter yang dianalisis.

Koefisien -0,16285 menunjukkan bobot variabel X pada Y. Artinya, gaji bulanan rata-rata dalam model ini mempengaruhi jumlah berhenti merokok dengan bobot -0,16285 (ini adalah tingkat pengaruh yang kecil). Tanda “-” menunjukkan dampak negatif: semakin tinggi gaji, semakin sedikit berhenti. Yang adil.



Analisis korelasi di Excel

Analisis korelasi membantu untuk menetapkan apakah ada hubungan antara indikator dalam satu atau dua sampel. Misalnya antara waktu pengoperasian mesin dengan biaya perbaikan, harga peralatan dan lama pengoperasian, tinggi dan berat badan anak, dll.

Jika ada hubungan, maka apakah peningkatan satu parameter menyebabkan peningkatan (korelasi positif) atau penurunan (negatif) yang lain. Analisis korelasi membantu analis menentukan apakah nilai satu indikator dapat digunakan untuk memprediksi kemungkinan nilai indikator lainnya.

Koefisien korelasi dilambangkan dengan r. Bervariasi dari +1 hingga -1. Klasifikasi korelasi untuk area yang berbeda akan berbeda. Ketika nilai koefisien adalah 0, tidak ada hubungan linier antara sampel.

Pertimbangkan cara menggunakan Excel untuk menemukan koefisien korelasi.

Fungsi CORREL digunakan untuk mencari koefisien berpasangan.

Tugas: Menentukan apakah ada hubungan antara waktu operasi mesin bubut dan biaya perawatannya.

Letakkan kursor di sel mana saja dan tekan tombol fx.

  1. Dalam kategori "Statistik", pilih fungsi CORREL.
  2. Argumen "Array 1" - rentang nilai pertama - waktu mesin: A2: A14.
  3. Argumen "Array 2" - rentang nilai kedua - biaya perbaikan: B2:B14. Klik Oke.

Untuk menentukan jenis koneksi, Anda perlu melihat jumlah absolut koefisien (setiap bidang kegiatan memiliki skalanya sendiri).

Untuk analisis korelasi beberapa parameter (lebih dari 2), lebih mudah menggunakan "Analisis Data" (pengaya "Paket Analisis"). Dalam daftar, Anda perlu memilih korelasi dan menetapkan array. Semua.

Koefisien yang dihasilkan akan ditampilkan dalam matriks korelasi. Seperti yang ini:

Analisis korelasi-regresi

Dalam praktiknya, kedua teknik ini sering digunakan bersama-sama.

Contoh:


Sekarang data analisis regresi terlihat.

Dalam pemodelan statistik, analisis regresi adalah studi yang digunakan untuk mengevaluasi hubungan antar variabel. Metode matematika ini mencakup banyak metode lain untuk memodelkan dan menganalisis banyak variabel ketika fokusnya adalah pada hubungan antara variabel terikat dan satu atau lebih variabel bebas. Lebih khusus lagi, analisis regresi membantu Anda memahami bagaimana nilai khas dari variabel dependen berubah jika salah satu variabel independen berubah sementara variabel independen lainnya tetap.

Dalam semua kasus, skor target adalah fungsi dari variabel independen dan disebut fungsi regresi. Dalam analisis regresi, juga menarik untuk mengkarakterisasi perubahan variabel dependen sebagai fungsi regresi, yang dapat dijelaskan dengan menggunakan distribusi probabilitas.

Tugas analisis regresi

Metode penelitian statistik ini banyak digunakan untuk peramalan, di mana penggunaannya memiliki keuntungan yang signifikan, tetapi kadang-kadang dapat menyebabkan ilusi atau hubungan yang salah, sehingga disarankan untuk menggunakannya dengan hati-hati dalam pertanyaan ini, karena, misalnya, korelasi tidak berarti hal menyebabkan.

Sejumlah besar metode telah dikembangkan untuk melakukan analisis regresi, seperti regresi linier dan kuadrat terkecil biasa, yang bersifat parametrik. Esensinya adalah bahwa fungsi regresi didefinisikan dalam jumlah terbatas dari parameter yang tidak diketahui yang diperkirakan dari data. Regresi nonparametrik memungkinkan fungsinya terletak pada sekumpulan fungsi tertentu, yang dapat berdimensi tak hingga.

Sebagai metode penelitian statistik, analisis regresi dalam praktiknya bergantung pada bentuk proses pembuatan data dan bagaimana kaitannya dengan pendekatan regresi. Karena bentuk sebenarnya dari pembangkitan proses data biasanya berupa angka yang tidak diketahui, analisis regresi data sering kali bergantung pada asumsi tentang proses tersebut sampai batas tertentu. Asumsi ini terkadang dapat diuji jika tersedia cukup data. Model regresi sering berguna bahkan ketika asumsi dilanggar secara moderat, meskipun mungkin tidak berkinerja terbaik.

Dalam arti yang lebih sempit, regresi dapat merujuk secara khusus pada estimasi variabel respons berkelanjutan, sebagai lawan dari variabel respons diskrit yang digunakan dalam klasifikasi. Kasus variabel output kontinu juga disebut regresi metrik untuk membedakannya dari masalah terkait.

Cerita

Bentuk paling awal dari regresi adalah metode kuadrat terkecil yang terkenal. Itu diterbitkan oleh Legendre pada tahun 1805 dan oleh Gauss pada tahun 1809. Legendre dan Gauss menerapkan metode tersebut pada masalah penentuan dari pengamatan astronomis orbit benda-benda di sekitar Matahari (terutama komet, tetapi kemudian juga planet-planet kecil yang baru ditemukan). Gauss menerbitkan pengembangan lebih lanjut dari teori kuadrat terkecil pada tahun 1821, termasuk varian dari teorema Gauss-Markov.

Istilah "regresi" diciptakan oleh Francis Galton pada abad ke-19 untuk menggambarkan fenomena biologis. Intinya adalah bahwa pertumbuhan keturunan dari pertumbuhan nenek moyang, sebagai suatu peraturan, mundur ke rata-rata normal. Bagi Galton, regresi hanya memiliki makna biologis ini, tetapi kemudian karyanya diambil oleh Udni Yoley dan Karl Pearson dan dibawa ke konteks statistik yang lebih umum. Dalam karya Yule dan Pearson, distribusi bersama dari variabel respon dan penjelas dianggap Gaussian. Asumsi ini ditolak oleh Fischer dalam makalah tahun 1922 dan 1925. Fisher menyarankan bahwa distribusi bersyarat dari variabel respon adalah Gaussian, tetapi distribusi bersama tidak perlu. Dalam hal ini, saran Fisher lebih dekat dengan rumusan Gauss tahun 1821. Sebelum tahun 1970, terkadang diperlukan waktu hingga 24 jam untuk mendapatkan hasil analisis regresi.

Metode analisis regresi terus menjadi bidang penelitian yang aktif. Dalam beberapa dekade terakhir, metode baru telah dikembangkan untuk regresi yang kuat; regresi yang melibatkan tanggapan berkorelasi; metode regresi yang mengakomodasi berbagai jenis data yang hilang; regresi nonparametrik; metode regresi Bayesian; regresi di mana variabel prediktor diukur dengan kesalahan; regresi dengan prediktor lebih dari pengamatan, dan kesimpulan kausal dengan regresi.

Model Regresi

Model analisis regresi meliputi variabel-variabel berikut:

  • Parameter tidak diketahui, dilambangkan sebagai beta, yang dapat berupa skalar atau vektor.
  • Variabel bebas, X.
  • Variabel terikat, Y.

Di berbagai bidang ilmu di mana analisis regresi diterapkan, istilah yang berbeda digunakan sebagai ganti variabel dependen dan independen, tetapi dalam semua kasus model regresi menghubungkan Y dengan fungsi X dan .

Aproksimasi biasanya dirumuskan sebagai E (Y | X) = F (X, ). Untuk melakukan analisis regresi, bentuk fungsi f harus ditentukan. Lebih jarang, itu didasarkan pada pengetahuan tentang hubungan antara Y dan X yang tidak bergantung pada data. Jika pengetahuan tersebut tidak tersedia, maka bentuk F yang fleksibel atau nyaman dipilih.

Variabel terikat Y

Mari kita asumsikan bahwa vektor parameter yang tidak diketahui memiliki panjang k. Untuk melakukan analisis regresi, pengguna harus memberikan informasi tentang variabel dependen Y:

  • Jika N titik data berbentuk (Y, X) diamati, di mana N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jika tepat N = K diamati, dan fungsi F linier, maka persamaan Y = F(X, ) dapat diselesaikan dengan tepat, bukan mendekati. Ini bermuara pada penyelesaian himpunan N-persamaan dengan N-tidak diketahui (elemen dari ) yang memiliki solusi unik selama X bebas linier. Jika F tidak linier, solusi mungkin tidak ada, atau mungkin ada banyak solusi.
  • Situasi yang paling umum adalah di mana ada N > poin ke data. Dalam hal ini, ada informasi yang cukup dalam data untuk memperkirakan nilai unik untuk yang paling sesuai dengan data, dan model regresi ketika diterapkan pada data dapat dilihat sebagai sistem yang diganti dalam .

Dalam kasus terakhir, analisis regresi menyediakan alat untuk:

  • Menemukan solusi untuk parameter yang tidak diketahui, yang akan, misalnya, meminimalkan jarak antara nilai Y yang terukur dan yang diprediksi.
  • Di bawah asumsi statistik tertentu, analisis regresi menggunakan informasi berlebih untuk memberikan informasi statistik tentang parameter yang tidak diketahui dan nilai prediksi variabel dependen Y.

Jumlah pengukuran independen yang diperlukan

Pertimbangkan model regresi yang memiliki tiga parameter yang tidak diketahui: 0 , 1 dan 2 . Mari kita asumsikan bahwa pelaku eksperimen melakukan 10 pengukuran dengan nilai yang sama dari variabel bebas dari vektor X. Dalam kasus ini, analisis regresi tidak memberikan kumpulan nilai yang unik. Yang terbaik yang dapat Anda lakukan adalah memperkirakan mean dan standar deviasi dari variabel dependen Y. Demikian pula, dengan mengukur dua nilai X yang berbeda, Anda bisa mendapatkan data yang cukup untuk regresi dengan dua yang tidak diketahui, tetapi tidak untuk tiga atau lebih yang tidak diketahui. .

Jika pengukuran eksperimen dilakukan pada tiga nilai yang berbeda dari variabel vektor independen X, maka analisis regresi akan memberikan satu set perkiraan unik untuk tiga parameter yang tidak diketahui di .

Dalam kasus regresi linier umum, pernyataan di atas ekuivalen dengan persyaratan bahwa matriks X T X dapat dibalik.

Asumsi Statistik

Ketika jumlah pengukuran N lebih besar dari jumlah parameter yang tidak diketahui k dan kesalahan pengukuran i , maka, sebagai aturan, maka informasi berlebih yang terkandung dalam pengukuran didistribusikan dan digunakan untuk prediksi statistik mengenai parameter yang tidak diketahui. Kelebihan informasi ini disebut derajat kebebasan regresi.

Asumsi yang Mendasari

Asumsi klasik untuk analisis regresi meliputi:

  • Sampling merupakan perwakilan dari prediksi inferensi.
  • Kesalahan adalah variabel acak dengan nilai rata-rata nol, yang tergantung pada variabel penjelas.
  • Variabel independen diukur tanpa kesalahan.
  • Sebagai variabel independen (prediktor), mereka adalah independen linier, yaitu tidak mungkin untuk menyatakan prediktor sebagai kombinasi linier dari yang lain.
  • Kesalahan tidak berkorelasi, yaitu, matriks kovarians kesalahan dari diagonal dan setiap elemen bukan nol adalah varians dari kesalahan.
  • Varians kesalahan adalah konstan di seluruh pengamatan (homoskedastisitas). Jika tidak, maka kuadrat terkecil tertimbang atau metode lain dapat digunakan.

Kondisi yang cukup untuk estimasi kuadrat terkecil ini memiliki sifat yang diperlukan, khususnya asumsi ini berarti bahwa estimasi parameter akan objektif, konsisten dan efisien, terutama jika diperhitungkan dalam kelas estimasi linier. Penting untuk dicatat bahwa data aktual jarang memenuhi kondisi. Artinya, metode tersebut digunakan meskipun asumsinya tidak benar. Variasi dari asumsi terkadang dapat digunakan sebagai ukuran seberapa berguna model tersebut. Banyak dari asumsi ini dapat dilonggarkan dalam metode yang lebih maju. Laporan analisis statistik biasanya mencakup analisis pengujian terhadap data sampel dan metodologi untuk kegunaan model.

Selain itu, variabel dalam beberapa kasus mengacu pada nilai yang diukur pada lokasi titik. Mungkin ada tren spasial dan autokorelasi spasial dalam variabel yang melanggar asumsi statistik. Regresi berbobot geografis adalah satu-satunya metode yang menangani data tersebut.

Dalam regresi linier, fiturnya adalah bahwa variabel dependen, yaitu Y i , adalah kombinasi linier dari parameter. Misalnya, regresi linier sederhana menggunakan satu variabel independen, xi , dan dua parameter, 0 dan 1 , untuk memodelkan n-point.

Dalam regresi linier berganda terdapat beberapa variabel bebas atau fungsinya.

Ketika diambil sampel secara acak dari suatu populasi, parameternya memungkinkan untuk memperoleh sampel model regresi linier.

Dalam aspek ini, metode kuadrat terkecil adalah yang paling populer. Ini memberikan perkiraan parameter yang meminimalkan jumlah kuadrat dari residual. Minimisasi semacam ini (yang merupakan ciri khas dari regresi linier) dari fungsi ini mengarah ke satu set persamaan normal dan satu set persamaan linier dengan parameter, yang diselesaikan untuk mendapatkan estimasi parameter.

Dengan asumsi lebih lanjut bahwa kesalahan populasi umumnya menyebar, peneliti dapat menggunakan perkiraan kesalahan standar ini untuk membuat interval kepercayaan dan melakukan pengujian hipotesis tentang parameternya.

Analisis Regresi Nonlinier

Contoh di mana fungsi tidak linier terhadap parameter menunjukkan bahwa jumlah kuadrat harus diminimalkan dengan prosedur iteratif. Ini memperkenalkan banyak komplikasi yang menentukan perbedaan antara metode kuadrat terkecil linier dan non-linier. Akibatnya, hasil analisis regresi ketika menggunakan metode non-linier terkadang tidak dapat diprediksi.

Perhitungan daya dan ukuran sampel

Di sini, sebagai aturan, tidak ada metode yang konsisten mengenai jumlah pengamatan dibandingkan dengan jumlah variabel independen dalam model. Aturan pertama diusulkan oleh Dobra dan Hardin dan terlihat seperti N = t^n, di mana N adalah ukuran sampel, n adalah jumlah variabel penjelas, dan t adalah jumlah pengamatan yang diperlukan untuk mencapai akurasi yang diinginkan jika model memiliki hanya satu variabel penjelas. Misalnya, seorang peneliti membangun model regresi linier menggunakan dataset yang berisi 1000 pasien (N). Jika peneliti memutuskan bahwa lima pengamatan diperlukan untuk secara akurat menentukan garis (m), maka jumlah maksimum variabel penjelas yang dapat didukung model adalah 4.

Metode lain

Meskipun parameter model regresi biasanya diperkirakan menggunakan metode kuadrat terkecil, ada metode lain yang lebih jarang digunakan. Misalnya, ini adalah metode berikut:

  • Metode Bayesian (misalnya, metode regresi linier Bayesian).
  • Regresi persentase yang digunakan untuk situasi di mana pengurangan kesalahan persentase dianggap lebih tepat.
  • Deviasi absolut terkecil, yang lebih kuat dengan adanya outlier yang mengarah ke regresi kuantil.
  • Regresi nonparametrik membutuhkan banyak pengamatan dan perhitungan.
  • Jarak metrik pembelajaran yang dipelajari untuk mencari metrik jarak yang berarti di ruang input yang diberikan.

Perangkat lunak

Semua paket perangkat lunak statistik utama dilakukan dengan menggunakan analisis regresi kuadrat terkecil. Regresi linier sederhana dan analisis regresi berganda dapat digunakan dalam beberapa aplikasi spreadsheet serta beberapa kalkulator. Sementara banyak paket perangkat lunak statistik dapat melakukan berbagai jenis regresi nonparametrik dan kuat, metode ini kurang standar; paket perangkat lunak yang berbeda menerapkan metode yang berbeda. Perangkat lunak regresi khusus telah dikembangkan untuk digunakan di berbagai bidang seperti analisis survei dan neuroimaging.

Dengan adanya korelasi antara faktor dan tanda-tanda yang dihasilkan, dokter sering kali harus menentukan seberapa besar nilai satu tanda dapat berubah ketika tanda lain diubah oleh unit pengukuran yang diterima secara umum atau ditetapkan oleh peneliti sendiri.

Misalnya, bagaimana berat badan anak sekolah kelas 1 (perempuan atau laki-laki) berubah jika tinggi badan mereka bertambah 1 cm, untuk tujuan ini digunakan metode analisis regresi.

Paling sering, metode analisis regresi digunakan untuk mengembangkan skala normatif dan standar untuk pembangunan fisik.

  1. Definisi regresi. Regresi adalah fungsi yang memungkinkan, berdasarkan nilai rata-rata satu atribut, untuk menentukan nilai rata-rata atribut lain yang berkorelasi dengan yang pertama.

    Untuk tujuan ini, koefisien regresi dan sejumlah parameter lainnya digunakan. Misalnya, Anda dapat menghitung jumlah pilek rata-rata pada nilai tertentu dari suhu udara rata-rata bulanan pada periode musim gugur-musim dingin.

  2. Definisi koefisien regresi. Koefisien regresi adalah nilai absolut di mana nilai satu atribut berubah rata-rata ketika atribut lain yang terkait dengannya berubah oleh unit pengukuran tertentu.
  3. Rumus koefisien regresi. R y / x \u003d r xy x (σ y / x)
    dimana R y / x - koefisien regresi;
    r xy - koefisien korelasi antara fitur x dan y;
    ( y dan x) - standar deviasi fitur x dan y.

    Dalam contoh kita;
    x = 4,6 (deviasi standar suhu udara pada periode musim gugur-musim dingin;
    y = 8,65 (standar deviasi jumlah pilek menular).
    Jadi, R y/x adalah koefisien regresi.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, mis. dengan penurunan suhu udara bulanan rata-rata (x) sebesar 1 derajat, jumlah rata-rata pilek menular (y) pada periode musim gugur-musim dingin akan berubah sebesar 1,8 kasus.

  4. Persamaan Regresi. y \u003d M y + R y / x (x - M x)
    di mana y adalah nilai rata-rata atribut, yang harus ditentukan ketika nilai rata-rata atribut lain (x) berubah;
    x - nilai rata-rata yang diketahui dari fitur lain;
    R y/x - koefisien regresi;
    M x, M y - nilai rata-rata yang diketahui dari fitur x dan y.

    Misalnya, jumlah rata-rata pilek menular (y) dapat ditentukan tanpa pengukuran khusus pada nilai rata-rata berapa pun dari suhu udara rata-rata bulanan (x). Jadi, jika x \u003d - 9 °, R y / x \u003d 1,8 penyakit, M x \u003d -7 °, M y \u003d 20 penyakit, maka y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 penyakit.
    Persamaan ini diterapkan dalam kasus hubungan garis lurus antara dua fitur (x dan y).

  5. Tujuan persamaan regresi. Persamaan regresi digunakan untuk memplot garis regresi. Yang terakhir memungkinkan, tanpa pengukuran khusus, untuk menentukan nilai rata-rata (y) dari satu atribut, jika nilai (x) dari atribut lain berubah. Berdasarkan data ini, grafik dibangun - Garis regresi, yang dapat digunakan untuk menentukan jumlah rata-rata pilek pada nilai berapa pun dari suhu rata-rata bulanan dalam kisaran antara nilai yang dihitung dari jumlah pilek.
  6. Sigma regresi (rumus).
    dimana Ru/x - sigma (standar deviasi) dari regresi;
    y adalah simpangan baku dari fitur y;
    r xy - koefisien korelasi antara fitur x dan y.

    Jadi, jika y adalah simpangan baku banyaknya pilek = 8,65; r xy - koefisien korelasi antara jumlah pilek (y) dan suhu udara rata-rata bulanan pada periode musim gugur-musim dingin (x) adalah - 0,96, maka

  7. Tujuan dari regresi sigma. Memberi ciri ukuran keragaman ciri yang dihasilkan (y).

    Misalnya, ini mencirikan keragaman jumlah pilek pada nilai tertentu dari suhu udara rata-rata bulanan pada periode musim gugur-musim dingin. Jadi, rata-rata jumlah pilek pada suhu udara x 1 \u003d -6 ° dapat berkisar dari 15,78 penyakit hingga 20,62 penyakit.
    Pada x 2 = -9°, jumlah rata-rata pilek dapat berkisar dari 21,18 penyakit hingga 26,02 penyakit, dll.

    Sigma regresi digunakan dalam konstruksi skala regresi, yang mencerminkan penyimpangan nilai atribut efektif dari nilai rata-rata yang diplot pada garis regresi.

  8. Data yang dibutuhkan untuk menghitung dan memplot skala regresi
    • koefisien regresi - Ry/x;
    • persamaan regresi - y \u003d M y + R y / x (x-M x);
    • sigma regresi - Rx/y
  9. Urutan perhitungan dan representasi grafik dari skala regresi.
    • tentukan koefisien regresi dengan rumus (lihat paragraf 3). Misalnya, seseorang harus menentukan berapa banyak rata-rata berat badan akan berubah (pada usia tertentu tergantung pada jenis kelamin) jika tinggi rata-rata berubah 1 cm.
    • sesuai dengan rumus persamaan regresi (lihat paragraf 4), tentukan apa yang akan menjadi rata-rata, misalnya, berat badan (y, y 2, y 3 ...) * untuk nilai pertumbuhan tertentu (x, x 2, x3...).
      ________________
      * Nilai "y" harus dihitung setidaknya untuk tiga nilai "x" yang diketahui.

      Pada saat yang sama, nilai rata-rata berat badan dan tinggi badan (M x, dan M y) untuk usia dan jenis kelamin tertentu diketahui

    • hitung sigma regresi, ketahui nilai yang sesuai dari y dan r xy dan substitusikan nilainya ke dalam rumus (lihat paragraf 6).
    • berdasarkan nilai yang diketahui x 1, x 2, x 3 dan nilai rata-rata yang sesuai y 1, y 2 y 3, serta yang terkecil (y - ru / x) dan terbesar (y + ru / x) nilai (y) membangun skala regresi.

      Untuk representasi grafis dari skala regresi, nilai x, x 2 , x 3 (sumbu y) pertama kali ditandai pada grafik, yaitu. garis regresi dibangun, misalnya, ketergantungan berat badan (y) pada tinggi (x).

      Kemudian, pada titik yang sesuai y 1 , y 2 , y 3 nilai numerik dari sigma regresi ditandai, mis. pada grafik tentukan nilai terkecil dan terbesar dari y 1 , y 2 , y 3 .

  10. Penggunaan praktis dari skala regresi. Skala dan standar normatif sedang dikembangkan, khususnya untuk pembangunan fisik. Menurut skala standar, dimungkinkan untuk memberikan penilaian individu terhadap perkembangan anak. Pada saat yang sama, perkembangan fisik dinilai harmonis jika, misalnya, pada ketinggian tertentu, berat badan anak berada dalam satu sigma regresi ke unit berat badan yang dihitung rata-rata - (y) untuk tinggi tertentu (x) ( y ± 1 Ry / x).

    Perkembangan fisik dianggap tidak harmonis dalam hal berat badan jika berat badan anak untuk ketinggian tertentu berada dalam sigma regresi kedua: (y ± 2 Ry/x)

    Perkembangan fisik akan sangat tidak harmonis baik karena kelebihan dan kekurangan berat badan jika berat badan untuk ketinggian tertentu berada dalam sigma ketiga regresi (y ± 3 Ry/x).

Berdasarkan hasil studi statistik perkembangan fisik anak laki-laki usia 5 tahun diketahui bahwa rata-rata tinggi badan (x) mereka adalah 109 cm, dan berat badan rata-rata mereka (y) adalah 19 kg. Koefisien korelasi antara tinggi dan berat badan adalah +0,9, standar deviasi disajikan dalam tabel.

Yg dibutuhkan:

  • menghitung koefisien regresi;
  • menggunakan persamaan regresi, tentukan berapa berat badan yang diharapkan dari anak laki-laki berusia 5 tahun dengan tinggi sama dengan x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • menghitung sigma regresi, membangun skala regresi, menyajikan hasil penyelesaiannya secara grafis;
  • menarik kesimpulan yang sesuai.

Kondisi masalah dan hasil penyelesaiannya disajikan dalam tabel ringkasan.

Tabel 1

Kondisi masalah Hasil solusi masalah
persamaan regresi regresi sigma skala regresi (berat badan yang diharapkan (dalam kg))
M σ r xy R y/x X Pada Rx/y y - Rу/х y + Rу/х
1 2 3 4 5 6 7 8 9 10
Tinggi (x) 109 cm ± 4.4cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Berat badan (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Larutan.

Kesimpulan. Dengan demikian, skala regresi dalam nilai yang dihitung dari berat badan memungkinkan Anda untuk menentukannya untuk nilai pertumbuhan lainnya atau untuk menilai perkembangan individu anak. Untuk melakukan ini, kembalikan tegak lurus ke garis regresi.

  1. Vlasov V.V. Epidemiologi. - M.: GEOTAR-MED, 2004. - 464 hal.
  2. Lisitsyn Yu.P. Kesehatan masyarakat dan kesehatan. Buku teks untuk sekolah menengah. - M.: GEOTAR-MED, 2007. - 512 hal.
  3. Medik V.A., Yuriev V.K. Kursus kuliah tentang kesehatan masyarakat dan perawatan kesehatan: Bagian 1. Kesehatan masyarakat. - M.: Kedokteran, 2003. - 368 hal.
  4. Minyaev V.A., Vishnyakov N.I. dan lain-lain Organisasi kedokteran dan kesehatan sosial (Panduan dalam 2 jilid). - St. Petersburg, 1998. -528 hal.
  5. Kucherenko V.Z., Agarkov N.M. dan lain-lain Kebersihan sosial dan organisasi perawatan kesehatan (Tutorial) - Moskow, 2000. - 432 hal.
  6. S.Glantz. Statistik mediko-biologis. Per dari bahasa Inggris. - M., Praktek, 1998. - 459 hal.

Setelah analisis korelasi mengungkapkan adanya hubungan statistik antara variabel dan menilai tingkat keketatannya, mereka biasanya melanjutkan ke deskripsi matematis dari jenis ketergantungan tertentu menggunakan analisis regresi. Untuk tujuan ini, kelas fungsi dipilih yang menghubungkan indikator efektif y dan argumen x 1, x 2, ..., x ke argumen paling informatif dipilih, perkiraan nilai yang tidak diketahui dari parameter tautan persamaan dihitung dan sifat persamaan yang dihasilkan dianalisis.

Fungsi f (x 1, x 2, ..., x k) yang menggambarkan ketergantungan nilai rata-rata fitur efektif y pada nilai argumen yang diberikan disebut fungsi regresi (persamaan). Istilah "regresi" (lat. - regresi - mundur, kembali ke sesuatu) diperkenalkan oleh psikolog dan antropolog Inggris F. Galton dan dikaitkan secara eksklusif dengan spesifikasi salah satu contoh konkret pertama di mana konsep ini digunakan. Jadi, mengolah data statistik sehubungan dengan analisis hereditas pertumbuhan, F. Galton menemukan bahwa jika ayah menyimpang dari rata-rata tinggi semua ayah sebesar x inci, maka anak laki-laki mereka menyimpang dari rata-rata tinggi semua anak kurang dari x inci. Tren yang terungkap disebut "regresi ke keadaan rata-rata". Sejak itu, istilah "regresi" telah banyak digunakan dalam literatur statistik, meskipun dalam banyak kasus tidak secara akurat mencirikan konsep ketergantungan statistik.

Untuk deskripsi persamaan regresi yang akurat, perlu diketahui hukum distribusi indikator y yang efektif. Dalam praktik statistik, seseorang biasanya harus membatasi diri pada pencarian perkiraan yang cocok untuk fungsi regresi sejati yang tidak diketahui, karena peneliti tidak memiliki pengetahuan pasti tentang hukum kondisional dari distribusi probabilitas dari indikator hasil yang dianalisis y untuk nilai yang diberikan dari argumen x.

Pertimbangkan hubungan antara benar f(x) = M(y1x), model regresi? dan skor y dari regresi. Biarkan indikator efektif y terkait dengan argumen x dengan rasio:

di mana - e adalah variabel acak yang memiliki hukum distribusi normal, dengan Me \u003d 0 dan D e \u003d y 2. Fungsi regresi yang sebenarnya dalam kasus ini adalah: f(x) = M(y/x) = 2x 1,5.

Misalkan kita tidak mengetahui bentuk pasti dari persamaan regresi yang sebenarnya, tetapi kita memiliki sembilan pengamatan pada variabel acak dua dimensi yang dihubungkan dengan rasio yi = 2x1,5 + e, dan ditunjukkan pada Gambar. satu

Gambar 1 - Saling menyusun kebenaran f(x) dan teoritis? model regresi

Lokasi titik pada gambar. 1 memungkinkan Anda membatasi diri pada kelas dependensi linier dari formulir? = pada 0 + pada 1 x. Dengan menggunakan metode kuadrat terkecil, kami menemukan estimasi persamaan regresi y = b 0 +b 1 x. Sebagai perbandingan, pada Gambar. 1 menunjukkan grafik fungsi regresi sebenarnya y \u003d 2x 1.5, fungsi regresi perkiraan teoritis? = pada 0 + pada 1 x .

Karena kami membuat kesalahan dalam memilih kelas fungsi regresi, dan ini cukup umum dalam praktik penelitian statistik, kesimpulan dan perkiraan statistik kami akan menjadi salah. Dan tidak peduli seberapa besar kita meningkatkan volume pengamatan, estimasi sampel kita untuk y tidak akan mendekati fungsi regresi sebenarnya f(x). Jika kita benar memilih kelas fungsi regresi, maka ketidaktepatan dalam deskripsi f(x) menggunakan? hanya bisa dijelaskan oleh ukuran sampel yang terbatas.

Untuk mengembalikan nilai kondisional dari indikator efektif y(x) dan fungsi regresi yang tidak diketahui f(x) = M(y/x) dari data statistik awal, kriteria kecukupan berikut (fungsi kerugian) paling sering digunakan .

Metode kuadrat terkecil. Menurutnya, deviasi kuadrat dari nilai yang diamati dari indikator efektif y, (i = 1,2,..., n) dari nilai model, diminimalkan. = f(x i), di mana x i adalah nilai vektor argumen dalam pengamatan ke-i:

Metode modul paling sedikit. Menurutnya, jumlah penyimpangan absolut dari nilai yang diamati dari indikator efektif dari nilai modular diminimalkan. Dan kita mendapatkan = f(x i), berarti regresi median absolut? |y i - f(х i)| > menit

Analisis regresi adalah metode analisis statistik ketergantungan variabel acak y pada variabel x j = (j = 1,2, ..., k), dianggap dalam analisis regresi sebagai variabel non-acak, terlepas dari hukum distribusi yang benar xj.

Biasanya diasumsikan bahwa variabel acak y memiliki hukum distribusi normal dengan ekspektasi matematis bersyarat y, yang merupakan fungsi dari argumen x/ (/ = 1, 2, ..., k) dan konstanta, independen dari argumen, varians y 2 .

Secara umum model analisis regresi linier berbentuk:

kamu = Y k j=0 di j c j(x 1 , x 2 . . .. ,x k)+E

di mana c j adalah beberapa fungsi dari variabel - x 1 , x 2 . . .. ,x k , E adalah variabel acak dengan ekspektasi matematis nol dan varians y 2 .

Dalam analisis regresi, jenis persamaan regresi dipilih berdasarkan sifat fisik dari fenomena yang diteliti dan hasil pengamatan.

Estimasi parameter yang tidak diketahui dari persamaan regresi biasanya ditemukan dengan metode kuadrat terkecil. Di bawah ini kita akan membahas masalah ini secara lebih rinci.

Persamaan regresi linier dua dimensi. Misalkan, berdasarkan analisis fenomena yang diteliti, diasumsikan bahwa dalam "rata-rata" y memiliki fungsi linier x, yaitu terdapat persamaan regresi

y \u003d M (y / x) \u003d pada 0 + pada 1 x)

di mana M(y1x) adalah ekspektasi matematis bersyarat dari variabel acak y untuk x yang diberikan; pada 0 dan 1 - parameter populasi umum yang tidak diketahui, yang harus diperkirakan dari hasil pengamatan sampel.

Misalkan untuk mengestimasi parameter pada 0 dan 1, sampel berukuran n diambil dari populasi umum dua dimensi (x,y), di mana (x,y,) adalah hasil pengamatan ke-i (i = 1, 2,..., n) . Dalam hal ini model analisis regresi berbentuk:

y j = pada 0 + pada 1 x+e j .

dimana e j .- independen variabel acak terdistribusi normal dengan nol harapan matematis dan varians y 2 , yaitu M e j . = 0;

D e j .= y 2 untuk semua i = 1, 2,..., n.

Menurut metode kuadrat terkecil, sebagai perkiraan parameter yang tidak diketahui pada 0 dan 1, seseorang harus mengambil nilai karakteristik sampel b 0 dan b 1 yang meminimalkan jumlah deviasi kuadrat dari nilai yang dihasilkan fitur y i dari ekspektasi matematis bersyarat? saya

Kami akan mempertimbangkan metodologi untuk menentukan pengaruh karakteristik pemasaran terhadap laba suatu perusahaan menggunakan contoh tujuh belas perusahaan biasa dengan ukuran rata-rata dan indikator kegiatan ekonomi.

Saat memecahkan masalah, karakteristik berikut diperhitungkan, diidentifikasi sebagai yang paling signifikan (penting) sebagai hasil survei kuesioner:

* kegiatan inovatif perusahaan;

* merencanakan berbagai produk;

* pembentukan kebijakan harga;

* hubungan Masyarakat;

* sistem pemasaran;

* sistem insentif karyawan.

Atas dasar sistem perbandingan berdasarkan faktor, matriks kuadrat kedekatan dibangun, di mana nilai-nilai prioritas relatif untuk setiap faktor dihitung: aktivitas inovatif perusahaan, perencanaan rangkaian produk, kebijakan penetapan harga, periklanan, hubungan masyarakat, sistem penjualan, sistem insentif karyawan.

Perkiraan prioritas untuk faktor "hubungan dengan publik" diperoleh sebagai hasil dari survei spesialis perusahaan. Sebutan berikut diterima: > (lebih baik), > (lebih baik atau sama), = (sama),< (хуже или одинаково), <

Selanjutnya, masalah penilaian komprehensif tingkat pemasaran perusahaan diselesaikan. Saat menghitung indikator, signifikansi (bobot) dari fitur tertentu yang dipertimbangkan ditentukan dan masalah konvolusi linier dari indikator tertentu diselesaikan. Pemrosesan data dilakukan sesuai dengan program yang dikembangkan secara khusus.

Selanjutnya, penilaian komprehensif dari tingkat pemasaran perusahaan dihitung - koefisien pemasaran, yang dimasukkan dalam tabel 1. Selain itu, tabel di atas mencakup indikator yang mencirikan perusahaan secara keseluruhan. Data dalam tabel akan digunakan untuk analisis regresi. Hasilnya adalah keuntungan. Seiring dengan koefisien pemasaran, indikator berikut digunakan sebagai tanda faktor: volume output kotor, biaya aset tetap, jumlah karyawan, koefisien spesialisasi.

Tabel 1 - Data awal untuk analisis regresi


Berdasarkan data dalam tabel dan atas dasar faktor dengan nilai koefisien korelasi yang paling signifikan, dibangun fungsi regresi ketergantungan laba pada faktor.

Persamaan regresi dalam kasus kami akan berbentuk:

Koefisien persamaan regresi berbicara tentang pengaruh kuantitatif dari faktor-faktor yang dibahas di atas terhadap jumlah keuntungan. Mereka menunjukkan berapa ribu rubel nilainya berubah ketika tanda faktor berubah satu unit. Sebagai berikut dari persamaan, peningkatan rasio bauran pemasaran sebesar satu unit memberikan peningkatan laba sebesar 1547,7 ribu rubel. Hal ini menunjukkan bahwa ada potensi besar untuk meningkatkan kinerja ekonomi perusahaan dalam meningkatkan kegiatan pemasaran.

Dalam studi efektivitas pemasaran, fitur faktor yang paling menarik dan paling penting adalah faktor X5 - koefisien pemasaran. Sesuai dengan teori statistik, keunggulan persamaan regresi berganda yang ada adalah kemampuan untuk mengevaluasi pengaruh terisolasi dari masing-masing faktor, termasuk faktor pemasaran.

Hasil analisis regresi yang dilakukan juga lebih banyak digunakan daripada untuk menghitung parameter persamaan. Kriteria untuk mengklasifikasikan (Kef,) perusahaan sebagai relatif lebih baik atau relatif lebih buruk didasarkan pada indikator relatif dari hasil:

di mana Y facti adalah nilai sebenarnya dari perusahaan ke-i, ribu rubel;

Y dihitung - nilai keuntungan perusahaan ke-i, diperoleh dengan perhitungan menurut persamaan regresi

Dalam hal masalah yang sedang dipecahkan, nilainya disebut "faktor efisiensi". Aktivitas perusahaan dapat dianggap efektif dalam kasus di mana nilai koefisien lebih besar dari satu. Ini berarti bahwa keuntungan aktual lebih besar daripada keuntungan rata-rata atas sampel.

Nilai keuntungan aktual dan terhitung disajikan pada Tabel. 2.

Tabel 2 - Analisis fitur efektif dalam model regresi

Analisis tabel menunjukkan bahwa dalam kasus kami, kegiatan perusahaan 3, 5, 7, 9, 12, 14, 15, 17 untuk periode yang ditinjau dapat dianggap berhasil.

Tujuan utama dari analisis regresi terdiri dalam menentukan bentuk analitis dari hubungan, di mana perubahan atribut yang dihasilkan adalah karena pengaruh dari satu atau lebih tanda faktor, dan himpunan semua faktor lain yang juga mempengaruhi atribut yang dihasilkan diambil sebagai nilai konstan dan rata-rata. .
Tugas analisis regresi:
a) Membentuk bentuk ketergantungan. Mengenai sifat dan bentuk hubungan antar fenomena, ada regresi linier dan nonlinier positif dan regresi linier dan nonlinier negatif.
b) Definisi fungsi regresi dalam bentuk persamaan matematis dari satu jenis atau lainnya dan menetapkan pengaruh variabel penjelas terhadap variabel dependen.
c) Estimasi nilai variabel dependen yang tidak diketahui. Dengan menggunakan fungsi regresi, Anda dapat mereproduksi nilai variabel dependen dalam interval nilai yang diberikan dari variabel penjelas (yaitu, memecahkan masalah interpolasi) atau mengevaluasi jalannya proses di luar interval yang ditentukan (yaitu, menyelesaikan masalah ekstrapolasi). Hasilnya adalah perkiraan nilai variabel dependen.

Regresi berpasangan - persamaan hubungan dua variabel y dan x: y=f(x), di mana y adalah variabel dependen (tanda hasil); x - independen, variabel penjelas (fitur-faktor).

Ada regresi linier dan nonlinier.
Regresi linier: y = a + bx +
Regresi nonlinier dibagi menjadi dua kelas: regresi yang non-linier sehubungan dengan variabel penjelas yang termasuk dalam analisis, tetapi linier sehubungan dengan parameter yang diestimasi, dan regresi yang tidak linier sehubungan dengan parameter yang diestimasi.
Regresi yang bersifat nonlinier pada variabel penjelas:

Regresi yang non-linier dalam parameter yang diestimasi:

  • pangkat y=a x b
  • eksponensial y=a b x
  • eksponensial y=e a+b x
Konstruksi persamaan regresi direduksi menjadi estimasi parameternya. Untuk mengestimasi parameter regresi yang linier dalam parameter digunakan metode kuadrat terkecil (LSM). LSM memungkinkan untuk mendapatkan estimasi parameter seperti itu di mana jumlah deviasi kuadrat dari nilai aktual fitur efektif y dari nilai teoretis y x minimal, mis.
.
Untuk persamaan linier dan nonlinier yang dapat direduksi menjadi linier, sistem berikut diselesaikan untuk a dan b:

Anda dapat menggunakan formula siap pakai yang mengikuti dari sistem ini:

Kedekatan hubungan antara fenomena yang diteliti diperkirakan dengan koefisien korelasi pasangan linier r xy untuk regresi linier (-1≤r xy 1):

dan indeks korelasi p xy - untuk regresi non-linier (0≤p xy 1):

Penilaian kualitas model yang dibangun akan diberikan oleh koefisien (indeks) determinasi, serta kesalahan aproksimasi rata-rata.
Kesalahan perkiraan rata-rata adalah penyimpangan rata-rata dari nilai yang dihitung dari yang sebenarnya:
.
Batas nilai yang diizinkan A - tidak lebih dari 8-10%.
Koefisien elastisitas rata-rata E menunjukkan berapa persen rata-rata hasil y akan berubah dari nilai rata-ratanya ketika faktor x berubah sebesar 1% dari nilai rata-ratanya:
.

Tugas analisis varians adalah menganalisis varians variabel dependen:
(y-y )²=∑(y x -y )²+∑(y-y x)²
di mana (y-y)² adalah jumlah total deviasi kuadrat;
(y x -y)² - jumlah deviasi kuadrat karena regresi ("dijelaskan" atau "faktorial");
(y-y x)² - jumlah sisa deviasi kuadrat.
Pangsa varians yang dijelaskan oleh regresi dalam varians total dari fitur efektif y dicirikan oleh koefisien (indeks) determinasi R2:

Koefisien determinasi adalah kuadrat dari koefisien atau indeks korelasi.

Uji-F - evaluasi kualitas persamaan regresi - terdiri dari pengujian hipotesis Tetapi tentang ketidaksignifikanan statistik dari persamaan regresi dan indikator kedekatan hubungan. Untuk ini, perbandingan fakta F aktual dan tabel F kritis (tabular) dari nilai-nilai kriteria F Fisher dilakukan. Fakta F ditentukan dari rasio nilai varians faktorial dan residual yang dihitung untuk satu derajat kebebasan:
,
di mana n adalah jumlah unit populasi; m adalah jumlah parameter untuk variabel x.
F tabel adalah nilai maksimum yang mungkin dari kriteria di bawah pengaruh faktor acak untuk derajat kebebasan dan tingkat signifikansi tertentu a. Tingkat signifikansi a - probabilitas menolak hipotesis yang benar, asalkan itu benar. Biasanya a diambil sama dengan 0,05 atau 0,01.
Jika F tabel< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F adalah fakta, maka hipotesis H tentang tidak ditolak dan signifikansi statistik, ketidakandalan persamaan regresi diakui.
Untuk menilai signifikansi statistik dari koefisien regresi dan korelasi, uji-t Student dan interval kepercayaan untuk masing-masing indikator dihitung. Hipotesis H tentang sifat acak dari indikator diajukan, yaitu. tentang perbedaan signifikan mereka dari nol. Penilaian signifikansi koefisien regresi dan korelasi menggunakan Student's t-test dilakukan dengan membandingkan nilainya dengan besarnya kesalahan acak:
; ; .
Kesalahan acak parameter regresi linier dan koefisien korelasi ditentukan oleh rumus:



Membandingkan nilai aktual dan kritis (tabel) dari t-statistik - t tabl dan t fakta - kami menerima atau menolak hipotesis H o.
Hubungan antara uji-F Fisher dan statistik-t Student dinyatakan dengan persamaan

Jika t tabel< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t fakta bahwa hipotesis H tentang tidak ditolak dan sifat acak dari pembentukan a, b atau r xy diakui.
Untuk menghitung interval kepercayaan, kami menentukan kesalahan marginal D untuk setiap indikator:
a =t tabel m a , b =t tabel m b .
Rumus untuk menghitung interval kepercayaan adalah sebagai berikut:
a \u003d aΔ a; a \u003d a-Δ a; a =a+a
b = bΔ b ; b = b-Δ b ; b =b+Δb
Jika nol berada dalam batas interval kepercayaan, mis. Jika batas bawah negatif dan batas atas positif, maka parameter yang diestimasi diasumsikan nol, karena tidak dapat secara bersamaan mengambil nilai positif dan negatif.
Nilai prakiraan y p ditentukan dengan mensubstitusi nilai (perkiraan) yang sesuai x p ke dalam persamaan regresi y x =a+b·x . Rata-rata kesalahan standar dari ramalan m y x dihitung:
,
di mana
dan interval kepercayaan ramalan dibangun:
y x =y p y p ; y x min=y p -Δ y p ; y x maks=y p +Δ y p
dimana y x =t tabel ·m y x .

Contoh Solusi

Tugas nomor 1. Untuk tujuh wilayah wilayah Ural Untuk 199X, nilai dua tanda diketahui.
Tabel 1.

Yg dibutuhkan: 1. Untuk mengkarakterisasi ketergantungan y pada x, hitung parameter dari fungsi berikut:
a) linier;
b) daya (sebelumnya perlu dilakukan prosedur linierisasi variabel, dengan mengambil logaritma dari kedua bagian);
c) demonstratif;
d) hiperbola sama sisi (Anda juga perlu mencari cara untuk melakukan pra-linearisasi model ini).
2. Evaluasi setiap model melalui rata-rata eror aproksimasi A dan uji F Fisher.

Solusi (Opsi #1)

Untuk menghitung parameter a dan b dari regresi linier y=a+b·x (penghitungan dapat dilakukan dengan menggunakan kalkulator).
menyelesaikan sistem persamaan normal terhadap sebuah dan b:
Berdasarkan data awal, kami menghitung y, x, y x, x², y²:
kamu x yx x2 y2 y xy-y xai
aku68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Menikahi nilai (Jumlah/n)57,89
kamu
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 76,88

Persamaan regresi: y= 76,88 - 0,35X. Dengan peningkatan upah harian rata-rata sebesar 1 gosok. bagian pengeluaran untuk pembelian produk makanan berkurang rata-rata 0,35% poin.
Hitung koefisien linier korelasi pasangan:

Komunikasi moderat, sebaliknya.
Mari kita tentukan koefisien determinasi: r² xy =(-0,35)=0,127
Variasi 12,7% dalam hasil dijelaskan oleh variasi faktor x. Mengganti nilai sebenarnya ke dalam persamaan regresi X, kami menentukan nilai teoretis (dihitung) dari y x . Mari kita cari nilai kesalahan aproksimasi rata-rata A :

Rata-rata, nilai yang dihitung menyimpang dari yang sebenarnya sebesar 8,1%.
Mari kita hitung kriteria-F:

Nilai yang diperoleh menunjukkan perlunya menerima hipotesis H 0 tentang sifat acak dari ketergantungan yang terungkap dan ketidakpentingan statistik dari parameter persamaan dan indikator kedekatan hubungan.
1b. Konstruksi model daya y=a x b didahului dengan prosedur linierisasi variabel. Pada contoh, linearisasi dilakukan dengan mengambil logaritma dari kedua ruas persamaan:
lg y=lg a + b lg x
Y=C+b Y
di mana Y=lg(y), X=lg(x), C=lg(a).

Untuk perhitungan, kami menggunakan data pada Tabel. 1.3.
Tabel 1.3

kamuX YX Y2 x2 y xy-y x(y-yx)²ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Berarti1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
20,0018 0,0023 XXXXXXX

Hitung C dan b:

C=Y -b X = 1.7605+0.298 1.7370 = 2.278126
Kami mendapatkan persamaan linier: Y=2.278-0.298 X
Setelah dipotensiasi, kita mendapatkan: y=10 2,278 x -0,298
Mensubstitusikan dalam persamaan ini nilai-nilai yang sebenarnya X, kita mendapatkan nilai teoretis dari hasilnya. Berdasarkan mereka, kami menghitung indikator: keketatan koneksi - indeks korelasi p xy dan kesalahan perkiraan rata-rata A .

Karakteristik model daya menunjukkan bahwa itu menggambarkan hubungan yang agak lebih baik daripada fungsi linier.

1c. Konstruksi persamaan kurva eksponensial y \u003d a b x didahului dengan prosedur linierisasi variabel saat mengambil logaritma dari kedua bagian persamaan:
lg y=lg a + x lg b
Y=C+Bx
Untuk perhitungan, kami menggunakan data tabel.

kamux yx Y2 x2y xy-y x(y-yx)²ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Menikahi zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
20,0018 34,339 XXXXXXX

Nilai parameter regresi A dan PADA sebesar:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Persamaan linier diperoleh: Y=1,887-0,0023x. Kami mempotensiasi persamaan yang dihasilkan dan menulisnya dalam bentuk biasa:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Kami memperkirakan ketatnya hubungan melalui indeks korelasi p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Total405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Berarti57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX 232,9476 0,000005 XX