Analisis korelasi dan regresi data. Membangun bidang korelasi

Untuk studi eksperimental ketergantungan antara variabel acak x dan y melakukan sejumlah percobaan independen. Hasil saya percobaan th memberikan sepasang nilai (x z, y d), saya = 1, 2,..., P.

Nilai-nilai yang mencirikan berbagai sifat benda dapat berdiri sendiri atau saling terkait. Bentuk-bentuk manifestasi interelasi sangat beragam. Sebagai dua jenis yang paling umum, hubungan fungsional (lengkap) dan korelasi (tidak lengkap) dibedakan.

Dengan ketergantungan fungsional dua besaran, nilai satu -x h tentu sesuai dengan satu atau lebih nilai yang ditentukan secara tepat dari kuantitas lain -y ( . Cukup sering, koneksi fungsional dimanifestasikan dalam fisika, kimia. Dalam situasi nyata, ada jumlah tak terbatas dari properti objek itu sendiri dan lingkungan yang saling mempengaruhi, sehingga hubungan semacam ini tidak ada, dengan kata lain, hubungan fungsional adalah abstraksi matematis.

Dampak faktor umum, kehadiran pola objektif dalam perilaku objek hanya mengarah pada manifestasi ketergantungan statistik. Statistik adalah ketergantungan di mana perubahan dalam salah satu kuantitas memerlukan perubahan dalam distribusi yang lain (yang lain), dan besaran lain ini mengambil nilai-nilai tertentu dengan probabilitas tertentu. Ketergantungan fungsional dalam hal ini harus dianggap sebagai kasus khusus ketergantungan statistik: nilai satu faktor sesuai dengan nilai faktor lain dengan probabilitas sama dengan satu. Kasus ketergantungan statistik yang lebih penting adalah ketergantungan korelasi yang mencirikan hubungan antara nilai beberapa variabel acak dengan nilai rata-rata yang lain, meskipun dalam setiap kasus individu, nilai yang saling berhubungan dapat mengambil nilai yang berbeda.

Korelasi (yang juga disebut tidak lengkap, atau statistik) muncul rata-rata, untuk pengamatan massal, ketika nilai variabel dependen yang diberikan sesuai dengan sejumlah nilai kemungkinan variabel independen. Penjelasan - kompleksitas hubungan antara faktor-faktor yang dianalisis, yang interaksinya dipengaruhi oleh variabel acak yang tidak terhitung. Oleh karena itu, hubungan antara tanda-tanda dimanifestasikan hanya rata-rata, dalam banyak kasus. Dengan korelasi, setiap nilai argumen sesuai dengan nilai fungsi yang didistribusikan secara acak dalam interval tertentu.

Istilah "korelasi" pertama kali digunakan oleh ahli paleontologi Prancis J. Cuvier, yang menyimpulkan "hukum korelasi bagian dan organ hewan" (hukum ini memungkinkan Anda untuk mengembalikan penampilan seluruh hewan dari bagian tubuh yang ditemukan ). Istilah ini diperkenalkan ke dalam statistik oleh ahli biologi dan statistik Inggris F. Galton (bukan hanya koneksi - hubungan, tetapi "seolah-olah koneksi" - korelasi).

Korelasi ditemukan di mana-mana. Misalnya, di bidang pertanian, ini mungkin hubungan antara hasil dan jumlah pupuk yang digunakan. Jelas, yang terakhir terlibat dalam pembentukan tanaman. Tetapi untuk setiap bidang, plot, jumlah pupuk yang sama akan menyebabkan peningkatan produktivitas yang berbeda, karena ada sejumlah faktor lain (cuaca, kondisi tanah, dll.) dalam interaksi yang membentuk hasil akhir. Namun, rata-rata, hubungan seperti itu diamati - peningkatan massa pupuk yang diterapkan mengarah pada peningkatan hasil.

Teknik paling sederhana untuk mengidentifikasi hubungan antara karakteristik yang dipelajari adalah konstruksi tabel korelasi; representasi visualnya adalah bidang korelasi. Ini adalah grafik di mana nilai jq diplot pada absis, di sepanjang ordinat di x. Dengan lokasi titik, konsentrasinya ke arah tertentu, seseorang dapat menilai secara kualitatif keberadaan koneksi.

Beras. 7.3.

Korelasi positif antara variabel acak, dekat dengan yang fungsional parabola, ditunjukkan pada gambar. 6.1 , sebuah. pada gambar. 6.1, b menunjukkan contoh korelasi negatif yang lemah, dan pada gambar. 6.1, di - contoh variabel acak yang praktis tidak berkorelasi. Korelasi tinggi jika ketergantungan “dapat direpresentasikan” pada grafik sebagai garis lurus (dengan kemiringan positif atau negatif).

Ada dua jenis hubungan antara fenomena ekonomi: fungsional dan statistik. Hubungan antara dua besaran X dan kamu mewakili dua fenomena, masing-masing, disebut fungsional, jika setiap nilai x sesuai dengan satu nilai x kamu dan sebaliknya. Contoh hubungan fungsional dalam perekonomian adalah ketergantungan produktivitas tenaga kerja pada volume output dan biaya waktu kerja. Namun, perlu dicatat bahwa jika X adalah variabel deterministik, non-acak, maka nilainya secara fungsional bergantung padanya kamu juga bersifat deterministik. Jika X acak, maka kamu juga variabel acak.

Namun, lebih sering dalam perekonomian tidak ada fungsional, tetapi ketergantungan statistik, ketika setiap nilai tetap dari variabel bebas X sesuai dengan bukan hanya satu, tetapi banyak nilai dari variabel dependen Y, dan tidak mungkin untuk mengatakan terlebih dahulu nilai mana yang akan diambil kamu. Hal ini disebabkan fakta bahwa pada kamu kecuali variabel X Banyak faktor acak yang tidak terkendali juga mempengaruhi. Dalam situasi ini kamu adalah variabel acak, dan variabel X dapat berupa deterministik atau acak.

Kasus khusus ketergantungan statistik adalah ketergantungan korelasi, dimana faktor X dan nilai rata-rata (harapan matematis) dari indikator efektif kamu. Ketergantungan statistik hanya dapat diungkapkan oleh hasil pengamatan dalam jumlah yang cukup besar. Secara grafis, ketergantungan statistik dari dua tanda dapat direpresentasikan menggunakan bidang korelasi, ketika diplot pada sumbu absis, nilai tanda faktor diplot X, dan sepanjang ordinat - hasilnya kamu.

korelasi- kasus khusus hubungan statistik, di mana nilai variabel yang berbeda sesuai dengan nilai rata-rata yang berbeda dari variabel lain. Korelasi menunjukkan bahwa variabel yang diteliti memiliki ekspresi kuantitatif.

Jika hubungan antara dua fitur dipelajari, ada korelasi berpasangan; jika hubungan antara banyak fitur dipelajari - korelasi ganda.

Sebagai contoh, pada gambar.

1 menyajikan data yang menggambarkan hubungan langsung antara X dan pada(Gbr. 1, a) dan hubungan terbalik (Gbr. 1, b). Dalam kasus "a" ini adalah hubungan langsung antara, misalnya, pendapatan per kapita rata-rata ( X) dan tabungan ( pada) dalam keluarga. Dalam kasus "b", kita berbicara tentang hubungan terbalik. Ini adalah contoh kita, hubungan antara produktivitas tenaga kerja ( X) dan biaya produksi per unit ( pada). pada gambar. 1 setiap karakter titik mempelajari objek pengamatan dengan nilai-nilainya sendiri X dan pada.

Beras. 1. Bidang korelasi

pada gambar. 1 juga menunjukkan garis lurus, persamaan regresi linier jenis , yang mencirikan hubungan fungsional antara variabel bebas X dan nilai rata-rata dari indikator kinerja pada. Jadi, menurut persamaan regresi, diketahui X, dimungkinkan untuk mengembalikan hanya nilai rata-rata pada.

Secara grafis, hubungan dua fitur digambarkan menggunakan bidang korelasi. Dalam sistem koordinat, nilai atribut faktor diplot pada sumbu absis, dan atribut yang dihasilkan diplot pada sumbu ordinat. Setiap perpotongan garis yang ditarik melalui sumbu-sumbu ini ditandai dengan sebuah titik. Dengan tidak adanya hubungan dekat, terdapat susunan titik-titik yang acak pada grafik (Gbr. 11.1).


Mari kita gambarkan ketergantungan yang diperoleh secara grafis dengan titik-titik bidang koordinat (Gbr. 3.1). Gambar hubungan statistik seperti itu disebut bidang korelasi.

Membangun bidang korelasi dan merumuskan hipotesis tentang bentuk koneksi.

Saat mempelajari hubungan antara dua fitur, metode grafis untuk memilih jenis persamaan regresi cukup jelas. Hal ini didasarkan pada bidang korelasi. Jenis utama kurva yang digunakan dalam penilaian kuantitatif hubungan ditunjukkan pada gambar. 2.1.

Karena tidak semua titik dalam bidang korelasi terletak pada garis regresi, maka selalu ada sebaran baik yang disebabkan oleh pengaruh faktor x, yaitu regresi y untuk x, maupun yang disebabkan oleh sebab lain (variasi yang tidak dapat dijelaskan). Kesesuaian garis regresi untuk prediksi tergantung pada seberapa banyak variasi total dari sifat y yang diperhitungkan oleh variasi yang dijelaskan. Jelas, jika jumlah deviasi kuadrat karena regresi lebih besar dari jumlah sisa kuadrat , maka persamaan regresi signifikan secara statistik dan faktor x memiliki pengaruh yang signifikan terhadap hasil. Ini ekuivalen dengan fakta bahwa koefisien determinasi r2 akan mendekati satu.

Dengan demikian, untuk ketergantungan yang digambarkan dalam bidang korelasi Gambar. 3.5 b) dan c), heteroskedastisitas residu ditunjukkan pada gambar. 3.9 dan 3.10.

Jika nilainya independen, maka "bidang korelasi" atau

Jika bidang korelasi dapat didekati dengan garis lurus, yang disebut garis regresi, maka lanjutkan ke perhitungan koefisien korelasi pasangan r. Nilai numeriknya berada dalam interval [-1, 1]. Jika r sama dengan 1 atau -1, maka ada umpan fungsional atau umpan balik. Ketika r mendekati nol, tidak ada hubungan antara fenomena, dan pada r 0,7 hubungan dianggap signifikan. Koefisien korelasi dihitung dengan rumus

Setelah mengidentifikasi kelompok fasilitas perkeretaapian di atas, metode perkiraan lain dari analisis awal homogenitas populasi untuk setiap kelompok fasilitas perkeretaapian digunakan - konstruksi bidang korelasi untuk masing-masing faktor yang termasuk dalam penelitian dengan biaya transportasi. Ciri utama homogenitas atau heterogenitas populasi terpilih adalah tidak adanya atau adanya celah dan loncatan letak titik-titik pada bidang korelasi.

Untuk penelitian ini, semua faktor yang mungkin dipilih terlebih dahulu oleh analisis logis profesional, data tentang perubahan di mana untuk perusahaan tersedia dalam pelaporan kementerian. Faktor-faktor tersebut harus mempertimbangkan total volume transportasi, produktivitas rata-rata gerbong dan lokomotif armada kerja, intensitas pengangkutan, intensitas modal unit transportasi dan produktivitas tenaga kerja, dll. (Total 11 faktor). Dengan demikian, 44 bidang korelasi dibangun untuk empat kelompok perusahaan.

Setelah menentukan nilai yang ditunjukkan, persamaan ketergantungan pasangan diperoleh, representasi grafis yang dalam sumbu koordinat disebut garis regresi teoretis. Jika semua pengukuran diterapkan pada bidang seperti itu, dan bukan hanya garis regresi teoretis, maka kita akan mendapatkan bidang korelasi.

Kami mensistematisasikan bahan sumber di bidang korelasi dan di tabel korelasi. Dalam contoh kita, faktornya adalah biaya mesin Cm, dan fungsinya adalah jumlah pekerja tahunan rata-rata P.

Sebagai hasil dari pemecahan menjadi interval, seluruh bidang di mana pengukuran diplot untuk kedua tanda k dan y, yang disebut bidang korelasi, akan menjadi sel, dan setiap pengukuran dicirikan bukan oleh nilai koordinat yang tepat, tetapi hanya dengan nilai interval di mana ia ditetapkan.

pada gambar. 16 menunjukkan bidang korelasi, di mana interval untuk nilai argumen diberikan sepanjang sumbu absis, dan interval untuk nilai fungsi P diberikan sepanjang sumbu ordinat. Bidang korelasi dibangun dengan cara ini disebut sekunder.

Bidang korelasi primer juga dapat dibangun untuk memilih interval. Semua titik di bidang ini ditandai dengan mempertimbangkan nilai koordinatnya. Menurut kepadatan poin, interval diuraikan.

Seiring dengan konstruksi bidang korelasi, seperti yang ditunjukkan di atas, tabel korelasi disusun di mana semua perhitungan yang berkaitan dengan penentuan rata-rata, konstruksi garis regresi empiris dan data awal untuk menentukan parameter dalam sistem normal. persamaan dilakukan.

Di meja. 36 semua materi dibagi menjadi interval. Dengan menggunakannya, kami membangun bidang korelasi sekunder, di mana kami memplot semua nilai variabel, dan menentukan nilai rata-rata (/, //, ..., yn pada interval. Menghubungkan nilai rata-rata di setiap interval dengan segmen garis lurus, kami memperoleh garis regresi empiris (lihat Gambar 16).

Memulihkan dari pusat setiap interval tegak lurus terhadap sumbu absis, kami menyisihkan masing-masing nilai yang sesuai dari y tetapi interval r /, \u003d 1081, 1/2 \u003d 1774, dll. Kami menghubungkan titik yang diperoleh satu sama lain dengan segmen garis lurus. Garis putus-putus yang dihasilkan adalah garis regresi empiris untuk hubungan antara biaya mesin Cm dan jumlah pekerja P. Dengan analogi dengan perhitungan yang dilakukan, kita dapat membangun tabel korelasi dan bidang korelasi untuk mengidentifikasi hubungan antara jumlah pekerja P , volume pekerjaan O, jumlah beton prefabrikasi dan struktur beton bertulang / Izh.b.
Beras. 18. Tabel korelasi dan bidang sekunder korelasi ketergantungan jumlah pekerja dan volume penggunaan struktur beton pracetak /info/5440"> Persamaan regresi berpasangan dan regresi berganda yang diturunkan kemudian dapat diterapkan jika variabel berubah dalam batas berikut: jumlah pekerja - dari 850 hingga 7850 orang, biaya mesin - dari 0,15 hingga 3,15 juta rubel . , volume struktur prefabrikasi adalah dari 10 hingga 230 ribu m dan diplot sepanjang sumbu vertikal, dalam nilai independen - sepanjang horizontal.Bidang korelasi digunakan untuk menentukan bentuk hubungan antar variabel, Grafik memberikan peneliti yang pertama

Premis ketiga dari kuadrat terkecil mensyaratkan bahwa varians dari residual menjadi homoskedastis. Artinya, untuk setiap nilai faktor Xj, residual e, - memiliki varians yang sama. Jika syarat penerapan LSM ini tidak terpenuhi, maka terjadi heteroskedastisitas. Adanya heteroskedastisitas terlihat jelas dari bidang korelasi (Gbr. 3.5).

Tugas penelitian khas lainnya - penilaian hubungan antara fenomena - diselesaikan dengan menggunakan peralatan yang dikembangkan dengan baik dari teori korelasi dalam statistik matematika. Untuk melakukan ini, perlu memiliki sampel untuk fenomena yang dibandingkan yang ditunjukkan pada peta subjek yang berbeda (misalnya, D dan C). Nilai a dan b diambil pada titik /-th yang sama, mis. dikoordinasikan secara ketat, dan kemudian plot bidang korelasi.

1. Topik pekerjaan.

2. Informasi teoritis singkat.

3. Urutan pekerjaan.

4. Data awal untuk pengembangan model matematika.

5. Hasil pengembangan model matematika.

6. Hasil studi model. Membangun ramalan.

7. Kesimpulan.

Dalam tugas 2-4, Anda dapat menggunakan Excel PPP untuk menghitung kinerja model.

Pekerjaan nomor 1.

Konstruksi model regresi berpasangan. Memeriksa residu untuk heteroskedastisitas.

Untuk 15 perusahaan yang memproduksi jenis produk yang sama, nilai dua fitur diketahui:

X - keluaran, ribu unit;

y - biaya produksi, juta rubel

x kamu
5,3 18,4
15,1 22,0
24,2 32,3
7,1 16,4
11,0 22,2
8,5 21,7
14,5 23,6
10,2 18,5
18,6 26,1
19,7 30,2
21,3 28,6
22,1 34,0
4,1 14,2
12,0 22,1
18,3 28,2

Diperlukan:

1. Membangun bidang korelasi dan merumuskan hipotesis tentang bentuk hubungan.

2. Membangun model:

Regresi Pasangan Linier.

Regresi berpasangan semi-log.

2.3 Regresi pasangan daya.
Untuk ini:


2. Evaluasi keketatan hubungan menggunakan koefisien (indeks)
korelasi.

3. Evaluasi kualitas model menggunakan koefisien (indeks)
penentuan dan kesalahan rata-rata aproksimasi
.

4. Tulislah dengan menggunakan koefisien elastisitas rata-rata
penilaian komparatif dari kekuatan hubungan antara faktor dan hasil
.

5. Menggunakan F- Kriteria Fisher untuk mengevaluasi reliabilitas statistik dari hasil pemodelan regresi.

Menurut nilai karakteristik yang dihitung dalam paragraf 2-5, pilih persamaan regresi terbaik.

Menggunakan metode Golfreld-Quandt, periksa residu untuk heteroskedastisitas.

Kami membangun bidang korelasi.

Menganalisis lokasi titik-titik bidang korelasi, kami mengasumsikan bahwa hubungan antara tanda-tanda X dan pada mungkin linier, mis. y=a+bx, atau bentuk non-linier: y=a+blnx, y=ax b.

Berdasarkan teori hubungan yang diteliti, diharapkan diperoleh ketergantungan pada dari X jenis y=a+bx, karena biaya produksi kamu dapat dibagi menjadi dua jenis: konstan, tidak tergantung pada volume produksi - sebuah seperti sewa, pemeliharaan administrasi, dll; dan variabel yang berubah sebanding dengan output bx, seperti konsumsi bahan, listrik, dll.


2.1.Model Regresi Pasangan Linier.

2.1.1. Mari kita hitung parameternya sebuah dan b regresi linier y=a+bx.

Kami membuat tabel perhitungan 1.

Tabel 1

Pilihan sebuah dan b persamaan

Yx = a + bx


Dibagi menjadi n b:

Persamaan regresi:

=11.591+0.871x

Dengan peningkatan output sebesar 1.000 rubel. biaya produksi meningkat 0,871 juta rubel. rata-rata, biaya tetap adalah 11,591 juta rubel.

2.1.2. Kami memperkirakan kedekatan hubungan menggunakan koefisien linier korelasi pasangan.

Mari kita terlebih dahulu menentukan standar deviasi fitur.

Standar deviasi:

Koefisien korelasi:

Di antara tanda-tanda X dan kamu ada korelasi linier yang sangat kuat.

2.1.3. Mari kita mengevaluasi kualitas model yang dibangun.

yaitu model ini menjelaskan 90,5% dari total varians pada, pangsa varian yang tidak dapat dijelaskan menyumbang 9,5%.

Oleh karena itu, kualitas modelnya tinggi.

TETAPI saya .

Pertama, dari persamaan regresi, kami menentukan nilai teoritis untuk setiap nilai faktor.

Kesalahan perkiraan aku, aku=1…15:

Kesalahan perkiraan rata-rata:

2.1.4. Mari kita tentukan koefisien elastisitas rata-rata:

Hal ini menunjukkan bahwa dengan peningkatan output sebesar 1%, biaya produksi meningkat rata-rata 0,515%.

2.1.5. Mari kita perkirakan signifikansi statistik dari persamaan yang dihasilkan.
Mari kita uji hipotesis H0 bahwa ketergantungan yang terungkap pada dari X acak, yaitu, persamaan yang dihasilkan secara statistik tidak signifikan. Misalkan = 0,05. Mari kita cari nilai tabular (kritis) F- Kriteria Fisher:

Temukan nilai sebenarnya F- Kriteria Fisher:

maka hipotesis H0 H1 x dan kamu tidak disengaja.

Mari kita buat persamaan yang dihasilkan.

2.2. Model regresi semilog berpasangan.

2.2.1. Mari kita hitung parameternya sebuah dan b dalam regresi:

y x \u003d a + blnx.

Kami linierisasi persamaan ini, yang menunjukkan:

y=a + bz.

Pilihan sebuah dan b persamaan

= a+bz

ditentukan dengan metode kuadrat terkecil:


Kami menghitung tabel 2.

Meja 2

Dibagi dengan n dan penyelesaian dengan metode Cramer, kami memperoleh rumus untuk menentukan b:

Persamaan regresi:

= -1,136 + 9,902z

2.2.2. Mari kita perkirakan kedekatan koneksi antar fitur pada dan X.

Karena persamaan y = a + bln x linier sehubungan dengan parameter sebuah dan b dan linearisasinya tidak berhubungan dengan transformasi variabel terikat _ pada, maka ketatnya hubungan antar variabel pada dan X, diperkirakan menggunakan indeks korelasi pasangan Rxy, juga dapat ditentukan dengan menggunakan koefisien korelasi pasangan linier r yz

simpangan baku z:

Nilai indeks korelasi mendekati 1, oleh karena itu, antar variabel pada dan X ada korelasi yang sangat erat = a + bz.

2.2.3. Mari kita mengevaluasi kualitas model yang dibangun.

Mari kita tentukan koefisien determinasi:

yaitu model ini menjelaskan 83,8% dari total variasi dalam hasil pada, pangsa variasi yang tidak dapat dijelaskan menyumbang 16,2%. Oleh karena itu, kualitas modelnya tinggi.

Mari kita cari nilai kesalahan aproksimasi rata-rata TETAPI saya .

Pertama, dari persamaan regresi, kami menentukan nilai teoritis untuk setiap nilai faktor. Kesalahan perkiraan Dan saya ,:

, saya=1…15.

Kesalahan perkiraan rata-rata:

.

Kesalahannya kecil, kualitas modelnya tinggi.

2.2.4 Mari kita tentukan koefisien elastisitas rata-rata:

Hal ini menunjukkan bahwa dengan peningkatan output sebesar 1%, biaya produksi meningkat rata-rata sebesar 0,414%.

2.2.5. Mari kita perkirakan signifikansi statistik dari persamaan yang dihasilkan.
Mari kita uji hipotesis H0 bahwa ketergantungan yang terungkap pada dari X adalah acak, yaitu persamaan yang dihasilkan secara statistik tidak signifikan. Misalkan = 0,05.

Mari kita cari nilai tabular (kritis) F- Kriteria Fisher:

Temukan nilai sebenarnya F- Kriteria Fisher:

maka hipotesis H0 ditolak, hipotesis alternatif diterima H1: dengan probabilitas 1-α=0,95 persamaan yang dihasilkan signifikan secara statistik, hubungan antar variabel x dan kamu tidak disengaja.

Mari kita membangun persamaan regresi pada bidang korelasi

2.3. Model Regresi Pasangan Daya.

2.3.1. Mari kita hitung parameternya sebuah dan b regresi kekuatan:

Perhitungan parameter didahului dengan prosedur linierisasi persamaan ini:

dan perubahan variabel:

Y=lny, X=lnx, A=lna

Parameter persamaan:

ditentukan dengan metode kuadrat terkecil:


Kami menghitung tabel 3.

Kami mendefinisikan b:

Persamaan regresi:

Mari kita membangun persamaan regresi pada bidang korelasi:

2.3.2. Mari kita perkirakan kedekatan koneksi antar fitur pada dan X menggunakan indeks korelasi pasangan R yx .

Sebelumnya hitung nilai teoretisnya untuk setiap nilai faktor x, lalu:

Nilai indeks korelasi Rxy mendekati 1, maka antara variabel pada dan X ada korelasi yang sangat dekat dari bentuk:

2.3.3. Mari kita mengevaluasi kualitas model yang dibangun.

Mari kita tentukan indeks determinasi:

R2=0,936 2 =0,878,

yaitu model ini menjelaskan 87,6% dari total variasi dalam hasil y, dan pangsa variasi yang tidak dapat dijelaskan menyumbang 12,4%.

Kualitas modelnya tinggi.

Mari kita cari nilai kesalahan aproksimasi rata-rata.

Kesalahan perkiraan aku, aku=1…15:

Kesalahan perkiraan rata-rata:

Kesalahannya kecil, kualitas modelnya tinggi.

2.3.4. Mari kita tentukan koefisien elastisitas rata-rata:

Hal ini menunjukkan bahwa dengan peningkatan output sebesar 1%, biaya produksi meningkat rata-rata sebesar 0,438%.

2.3.5 Mari kita evaluasi signifikansi statistik dari persamaan yang dihasilkan.

Mari kita uji hipotesis H0 bahwa ketergantungan yang terungkap pada dari X acak, yaitu, persamaan yang dihasilkan secara statistik tidak signifikan. Misalkan = 0,05.

nilai tabular (kritis) F- Kriteria Fisher:

nilai sesungguhnya F- Kriteria Fisher:

maka hipotesis H0 ditolak, hipotesis alternatif diterima H1: dengan probabilitas 1-α=0,95 persamaan yang dihasilkan signifikan secara statistik, hubungan antar variabel x dan kamu tidak disengaja.

Tabel 3

3. Memilih persamaan terbaik.

Mari kita buat tabel hasil penelitiannya.

Tabel 4

Kami menganalisis tabel dan menarik kesimpulan.

Ketiga persamaan tersebut ternyata signifikan dan andal secara statistik, memiliki koefisien korelasi (indeks) mendekati 1, koefisien determinasi (indeks) yang tinggi (mendekati 1), dan kesalahan aproksimasi dalam batas yang dapat diterima.

Pada saat yang sama, karakteristik model linier menunjukkan bahwa ia menggambarkan hubungan antara tanda-tanda x dan y.

Oleh karena itu, kami memilih model linier sebagai persamaan regresi.

Saat mengajukan pertanyaan tentang korelasi antara dua fitur statistik X dan Y, eksperimen dilakukan dengan pendaftaran paralel nilainya.

Contoh 8.1.

Tentukan apakah hasil lompat jauh dengan lari (tanda X) bergantung pada nilai kecepatan lepas landas akhir (tanda Y). Untuk menjawab pertanyaan ini, secara paralel dengan mencatat hasil X dari setiap lompatan seorang atlet atau sekelompok atlet, nilai kecepatan lepas landas akhir Y juga dicatat. Biarkan mereka:

Tabel 5

Saya
xi (cm)
yi (m/s) 10,7 10,5 10,1 9,8 10,1 10,5 9,1 9,6

Mari kita sajikan Tabel 5 sebagai grafik dalam sistem koordinat persegi panjang, di mana kita akan memplot panjang lompatan (X) pada sumbu horizontal, dan nilai kecepatan lepas landas akhir dalam lompatan ini (Y) pada sumbu vertikal .
fungsi PlayMyFlash(cmd)( Corel_.TPlay(cmd); )

№1 !!! №2 !!! №3 !!! №4 !!! №5!!! №6 !!! №7 !!! №8!!!

Beras. 8. Grafik bidang korelasi.

Kami akan menyebut zona pencar dari titik-titik yang diperoleh pada grafik sebagai bidang korelasi. Secara visual menganalisis bidang korelasi pada Gambar 8, Anda dapat melihat bahwa bidang itu seolah-olah memanjang sepanjang garis lurus. Gambar ini khas untuk apa yang disebut hubungan korelasi linier antar fitur. Dalam hal ini, secara umum dapat diasumsikan bahwa dengan peningkatan kecepatan lepas landas akhir, panjang lompatan juga meningkat, dan sebaliknya. Itu. ada hubungan langsung (positif) antara fitur yang dipertimbangkan.

Bersamaan dengan contoh ini, berikut ini dapat dibedakan dari banyak bidang korelasi lain yang mungkin (Gbr. 9-11):

Gambar 9 juga menunjukkan hubungan linier, tetapi dengan peningkatan nilai satu atribut, nilai atribut lainnya menurun, dan sebaliknya, yaitu. umpan balik atau negatif. Dapat diasumsikan bahwa pada Gambar 11 titik-titik bidang korelasi tersebar di sekitar beberapa garis lengkung. Dalam hal ini, mereka mengatakan bahwa ada korelasi lengkung antara tanda-tanda.

Berkenaan dengan bidang korelasi yang digambarkan pada Gambar 10, tidak dapat dikatakan bahwa titik-titik terletak di sepanjang garis lurus atau melengkung, ia memiliki bentuk bola. Dalam hal ini, fitur X dan Y dikatakan independen satu sama lain.

Selain itu, menurut bidang korelasi, seseorang dapat menilai secara kasar kedekatan korelasi, jika hubungan ini ada. Di sini mereka mengatakan: semakin sedikit titik yang tersebar di sekitar garis rata-rata imajiner, semakin dekat korelasi antara fitur yang dipertimbangkan.

Analisis visual bidang korelasi membantu untuk memahami esensi hubungan korelasi, memungkinkan Anda untuk membuat asumsi tentang keberadaan, arah, dan keketatan hubungan. Tetapi tidak mungkin untuk mengatakan secara pasti apakah ada hubungan antara tanda-tanda atau tidak, hubungan linier atau lengkung, hubungan dekat (reliable) atau lemah (unreliable), dengan menggunakan metode ini. Metode yang paling akurat untuk mengidentifikasi dan mengevaluasi hubungan linier antar fitur adalah metode penentuan berbagai indikator korelasi dari data statistik.

3. Koefisien korelasi dan sifat-sifatnya

Seringkali untuk menentukan keandalan hubungan antara dua fitur (X, Y) menggunakan non-parametrik (peringkat) koefisien korelasi Spearman dan koefisien korelasi parametrik Pearson . Nilai indikator korelasi tersebut ditentukan dengan rumus sebagai berikut:

(1)

Dimana: dx - peringkat data statistik fitur x;

dy - peringkat data statistik dari fitur y.

(2)

Dimana: - data statistik fitur x,

Data statistik fitur y.

Rasio ini memiliki fitur-fitur canggih berikut:

1. Berdasarkan koefisien korelasi, seseorang hanya dapat menilai tentang hubungan korelasi garis lurus antara fitur. Tidak ada yang bisa dikatakan tentang koneksi lengkung dengan bantuan mereka.
2. Nilai koefisien korelasi adalah nilai tak berdimensi yang tidak boleh kurang dari -1 dan lebih besar dari +1, yaitu
3.
4. Jika nilai koefisien korelasi sama dengan nol, mis. = 0 atau = 0, maka hubungan antar fitur x, y tidak hadir.
5. Jika nilai koefisien korelasi negatif, mis.< 0 или < 0, то связь между признаками Х и Y membalik.
6. Jika nilai koefisien korelasinya positif, mis. > 0 atau y> 0, maka hubungan antara fitur X dan Y lurus(positif).
7. Jika koefisien korelasi mengambil nilai +1 atau -1, mis. = ± 1 atau = ± 1, maka hubungan antara fitur X dan Y linier (fungsional).
8. Hanya dengan nilai koefisien korelasi tidak mungkin untuk menilai keandalan korelasi antara tanda-tanda. Keandalan ini juga tergantung pada jumlah derajat kebebasan.

Dimana: n adalah jumlah pasangan data statistik yang berkorelasi untuk fitur X dan Y.

Semakin besar n, semakin tinggi reliabilitas hubungan dengan koefisien korelasi yang sama.

Selain sifat-sifat umum yang tercantum, koefisien korelasi yang dipertimbangkan juga memiliki perbedaan. Perbedaan utamanya adalah bahwa koefisien Pearson ( hanya dapat digunakan jika distribusi fitur X dan Y normal, koefisien Spearman () dapat digunakan untuk fitur dengan jenis distribusi apa pun. Jika fitur yang dipertimbangkan memiliki distribusi normal, maka lebih bijaksana untuk menentukan adanya hubungan korelasi menggunakan koefisien Pearson (), karena dalam hal ini akan memiliki kesalahan yang lebih kecil daripada koefisien Spearman ().

Contoh 8.2.

Tentukan ada tidaknya hubungan antara hasil lompat jauh dari lari (X) dan kecepatan lari akhir (Y) sekelompok atlet menggunakan koefisien korelasi rank Spearman (data dari contoh 8.1, tabel 5).

Pada rumus (1), dx dan dy merupakan barisan data statistik, yaitu menempatkan opsi dalam populasi peringkat mereka. Jika secara agregat ada beberapa data yang identik, maka peringkatnya sama dan ditentukan sebagai nilai rata-rata tempat yang ditempati oleh opsi ini. Sebagai contoh,

data xi
peringkat dx 4,5 4,5 4,5 4,5 7,5 7,5
3 + 4 + 5 + 6 7 + 8

Dengan menggunakan aturan ini, kami menentukan peringkat data pada Tabel 5. Untuk kenyamanan, kami akan menuliskan semuanya dalam bentuk Tabel 6.

Tabel 6

dx dy dx - dy
9,1 1 - 1 = 0 02 = 0
9,6 2 - 2 = 0 02 = 0
9,8 3 - 3 = 0 02 = 0
10,1 4 - 4 = 0 02 = 0
10,5 6,5 5 - 6,5 = - 1,5 (- 1,5)2 = 2,25
10,5 6,5 6 - 6,5 = - 0,5 (- 0,5)2 = 0,25
10,3 7 - 5 = 2 22 = 4
10,7 8 - 8 = 0 02 = 0
(dx-dy) = 0

Dalam hal ini, kami memiliki 8 pasang nilai, yaitu. 8 pasangan berkorelasi. Ini berarti n = 8. Substitusikan hasil yang diperoleh ke dalam rumus (1), kita akan mendapatkan:

Kesimpulan:

(0,92 > 0) , lalu di antara tanda-tanda X dan Y Pada X), dan sebaliknya - dengan penurunan kecepatan lepas landas, panjang lompatan berkurang. Keandalan koefisien korelasi Spearman ditentukan oleh tabel nilai kritis koefisien korelasi rank.

b) karena diperoleh nilai koefisien korelasi = 0,9 lebih besar dari nilai tabel = 0,88, sesuai dengan level b = 99%, maka keyakinan kebenaran kesimpulan (a) lebih besar dari 99%. Keandalan semacam itu memungkinkan kesimpulan (a) diperluas ke seluruh populasi, yaitu. untuk semua pelompat jauh.

Jika tidak ada pemeriksaan pendahuluan dari populasi yang dipertimbangkan untuk normalitas distribusi, maka, dalam kasus koefisien korelasi Pearson tidak dapat diandalkan, keberadaan koneksi juga harus diperiksa dengan koefisien Spearman.

Contoh 8.3.

Koefisien korelasi rank dapat mengungkapkan hubungan antar variabel yang memiliki distribusi statistik apapun. Tetapi jika variabel-variabel tersebut memiliki distribusi normal (Gaussian), maka hubungan yang lebih akurat dapat dibangun dengan menggunakan koefisien korelasi yang dinormalisasi (Brave-Pearson).

Mari kita asumsikan bahwa dalam contoh kita dan - sesuai dengan hukum distribusi normal, dan periksa keberadaan hubungan antara hasil pengujian X dan Y menggunakan perhitungan koefisien korelasi ternormalisasi.

Dapat dilihat dari rumus (1) bahwa untuk perhitungannya perlu dicari nilai rata-rata fiturnya X, Y dan deviasi setiap statistik dari meannya. Mengetahui nilai-nilai ini, Anda dapat menemukan jumlah yang tidak sulit untuk dihitung

Berdasarkan tabel 5, isilah tabel 7:

Tabel 7

962 = 9216 10,7 0,6 0,62 = 0,36 96 0,6 = 57,6
262 = 676 10,5 0,4 0,42 = 0,16 26 0,4 = 10,4
10,3 0,2 0,04 5,4
- 4 9,8 - 0,3 0,09 1,2
10,1 0,00 1,0
10,5 0,4 0,16 3,2
- 92 9,1 - 1,0 1,00 9,2
- 64 9,6 - 0,5 0,25 32,0
= 23262 = 2,06 = 201

Dengan mensubstitusikan jumlah kolom 7 ke dalam pembilang dari rumus (1), dan jumlah kolom 3 dan 6 menjadi penyebut, kita peroleh:

Kesimpulan:

a) karena nilai koefisien korelasinya positif (0.92>0) , lalu antara X dan Y ada hubungan langsung, yaitu dengan peningkatan kecepatan lepas landas (tanda kamu) menambah panjang lompatan (tanda X) dan sebaliknya - dengan penurunan kecepatan lepas landas, panjang lompatan berkurang. Sangat penting untuk mengetahui keyakinan akan kebenaran kesimpulan.