Analisis faktor dan dispersi di Excel dengan otomatisasi perhitungan. Analisis varians satu arah

Untuk menganalisis variabilitas suatu sifat di bawah pengaruh variabel terkontrol, digunakan metode dispersi.

Untuk mempelajari hubungan antara nilai - metode faktorial. Mari kita pertimbangkan alat analisis secara lebih rinci: faktorial, dispersi dan metode dispersi dua faktor untuk menilai variabilitas.

ANOVA di Excel

Secara kondisional, tujuan metode dispersi dapat dirumuskan sebagai berikut: untuk mengisolasi dari variabilitas total parameter 3 variabilitas tertentu:

  • 1 - ditentukan oleh tindakan masing-masing nilai yang dipelajari;
  • 2 - ditentukan oleh hubungan antara nilai-nilai yang dipelajari;
  • 3 - acak, didikte oleh semua keadaan yang tidak diketahui.

Di Microsoft Excel, analisis varians dapat dilakukan dengan menggunakan alat "Analisis Data" (tab "Data" - "Analisis"). Ini adalah add-on spreadsheet. Jika add-in tidak tersedia, Anda perlu membuka "Opsi Excel" dan mengaktifkan pengaturan untuk analisis.

Pekerjaan dimulai dengan desain meja. Aturan:

  1. Setiap kolom harus berisi nilai salah satu faktor yang diteliti.
  2. Susunlah kolom-kolom tersebut dalam urutan menaik/turun dari nilai parameter yang diteliti.

Pertimbangkan analisis varians di Excel menggunakan contoh.

Psikolog perusahaan menganalisis dengan menggunakan teknik khusus strategi perilaku karyawan dalam situasi konflik. Diasumsikan bahwa perilaku dipengaruhi oleh tingkat pendidikan (1 - menengah, 2 - menengah khusus, 3 - pendidikan tinggi).

Masukkan data ke dalam spreadsheet Excel:


Parameter signifikan diisi dengan warna kuning. Karena nilai P antar kelompok lebih besar dari 1, uji Fisher tidak dapat dianggap signifikan. Akibatnya, perilaku dalam situasi konflik tidak tergantung pada tingkat pendidikan.



Analisis faktor di Excel: sebuah contoh

Analisis faktor adalah analisis multivariat hubungan antara nilai-nilai variabel. Dengan menggunakan metode ini, Anda dapat menyelesaikan tugas-tugas terpenting:

  • menggambarkan objek yang diukur secara komprehensif (apalagi, luas, kompak);
  • mengidentifikasi nilai variabel tersembunyi yang menentukan adanya korelasi statistik linier;
  • mengklasifikasikan variabel (menentukan hubungan antara mereka);
  • mengurangi jumlah variabel yang diperlukan.

Perhatikan contoh analisis faktor. Misalkan kita mengetahui penjualan barang apa saja selama 4 bulan terakhir. Hal ini diperlukan untuk menganalisis item mana yang diminati dan mana yang tidak.



Sekarang Anda dapat dengan jelas melihat penjualan produk mana yang memberikan pertumbuhan utama.

Analisis varians dua arah di Excel

Menunjukkan bagaimana dua faktor mempengaruhi perubahan nilai variabel acak. Pertimbangkan analisis varians dua arah di Excel menggunakan sebuah contoh.

Tugas. Sekelompok pria dan wanita disuguhi suara dengan volume berbeda: 1 - 10 dB, 2 - 30 dB, 3 - 50 dB. Waktu respons dicatat dalam milidetik. Penting untuk menentukan apakah gender mempengaruhi respon; Apakah kenyaringan mempengaruhi respon?

Latihan . Siswa tahun pertama disurvei untuk mengidentifikasi kegiatan yang mereka curahkan waktu luang mereka. Periksa apakah distribusi preferensi verbal dan non-verbal siswa berbeda.

Keputusan dilakukan dengan menggunakan kalkulator.
Menemukan rata-rata grup:

NP 1P2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x cf 15.6 17

Mari kita nyatakan p - jumlah level faktor (p=2). Jumlah pengukuran pada setiap tingkat adalah sama dan sama dengan q=5.
Baris terakhir berisi rata-rata grup untuk setiap tingkat faktor.
Rata-rata keseluruhan dapat diperoleh sebagai rata-rata aritmatika kelompok berarti:
(1)
Penyebaran rata-rata kelompok dari persentase kegagalan relatif terhadap rata-rata total dipengaruhi oleh perubahan tingkat faktor yang dipertimbangkan dan faktor acak.
Untuk memperhitungkan pengaruh faktor ini, varians sampel total dibagi menjadi dua bagian, yang pertama disebut faktorial S 2 f, dan yang kedua - sisa S 2 sisa.
Untuk memperhitungkan komponen-komponen ini, jumlah total deviasi kuadrat dari varian dari rata-rata total dihitung terlebih dahulu:

dan jumlah faktorial dari deviasi kuadrat dari kelompok berarti dari total rata-rata, yang mencirikan pengaruh faktor ini:

Ekspresi terakhir diperoleh dengan mengganti setiap varian dalam ekspresi Rtot dengan mean grup untuk faktor yang diberikan.
Jumlah sisa deviasi kuadrat diperoleh sebagai selisih:
R istirahat \u003d R total - R f
Untuk menentukan varians sampel total, Rtotal harus dibagi dengan jumlah pengukuran pq:

dan untuk mendapatkan varians sampel total yang tidak bias, ekspresi ini harus dikalikan dengan pq/(pq-1):

Dengan demikian, untuk varians sampel faktorial tak bias:

di mana p-1 adalah jumlah derajat kebebasan dari varians sampel faktorial yang tidak bias.
Untuk menilai pengaruh faktor pada perubahan parameter yang dipertimbangkan, nilainya dihitung:

Karena rasio dua varians sampel S 2 f dan S 2 sisanya didistribusikan menurut hukum Fisher-Snedekor, nilai f obs yang dihasilkan dibandingkan dengan nilai fungsi distribusi

pada titik kritis f cr sesuai dengan tingkat signifikansi yang dipilih a.
Jika f obl >f cr, maka faktor tersebut mempunyai pengaruh yang signifikan dan harus diperhitungkan, jika tidak mempunyai pengaruh yang tidak signifikan dapat diabaikan.
Rumus berikut juga dapat digunakan untuk menghitung Robs dan Rf:
(4)
(5)
Kami menemukan rata-rata keseluruhan dengan rumus (1):
Untuk menghitung Rtot menggunakan rumus (4), kami menyusun tabel pilihan 2 kotak:
NP2 1P2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Rata-rata keseluruhan dihitung dengan rumus (1):

Rtot = 1322 + 1613 - 5 2 16,3 2 = 278,1
Kami menemukan R f sesuai dengan rumus (5):
R f \u003d 5 (15,6 2 + 17 2) - 2 16,3 2 \u003d 4,9
Kami mendapatkan istirahat R: R istirahat \u003d R total - R f \u003d 278.1 - 4.9 \u003d 273.2
Kami menentukan varians faktorial dan residual:


Jika nilai rata-rata dari variabel acak yang dihitung untuk sampel individu adalah sama, maka estimasi varians faktorial dan residual adalah estimasi tak bias dari varians umum dan berbeda tidak signifikan.
Kemudian perbandingan estimasi varians ini menurut kriteria Fisher harus menunjukkan bahwa tidak ada alasan untuk menolak hipotesis nol tentang kesetaraan varians faktorial dan residual.
Estimasi varians faktor lebih kecil dari estimasi varians residual, sehingga kita dapat segera menegaskan validitas hipotesis nol tentang kesetaraan ekspektasi matematis untuk lapisan sampel.
Dengan kata lain, dalam contoh ini, faktor tidak berpengaruh secara signifikan terhadap variabel acak.
Mari kita periksa hipotesis nol H 0: persamaan nilai rata-rata x.
Temukan f obl

Untuk taraf signifikansi =0,05, jumlah derajat kebebasan 1 dan 8, kita cari f cr dari tabel distribusi Fisher-Snedekor.
f cr (0,05; 1; 8) = 5,32
Karena fakta bahwa f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Dengan kata lain, distribusi preferensi verbal dan non-verbal siswa berbeda.

Latihan. Pabrik memiliki empat lini untuk produksi ubin menghadap. 10 ubin dipilih secara acak dari setiap baris selama shift dan ketebalannya (mm) diukur. Penyimpangan dari ukuran nominal diberikan dalam tabel. Diperlukan pada tingkat signifikansi a = 0,05 untuk menetapkan ketergantungan produksi ubin berkualitas tinggi pada lini produksi (faktor A).

Latihan. Pada tingkat signifikansi a = 0,05, selidiki pengaruh warna cat pada masa pakai pelapis.

Contoh 1. 13 tes dilakukan, 4 di antaranya pada faktor tingkat pertama, 4 pada tingkat kedua, 3 pada tingkat ketiga dan 2 pada tingkat keempat. Dengan menggunakan metode analisis varians pada tingkat signifikansi 0,05, periksa hipotesis nol tentang persamaan rata-rata kelompok. Diasumsikan bahwa sampel diambil dari populasi normal dengan varians yang sama. Hasil tes ditampilkan dalam tabel.

Keputusan:
Menemukan rata-rata grup:

NP 1P2hal 3hal 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x cf 1.4 1.43 1.33 1.32

Mari kita nyatakan p - jumlah level faktor (p=4). Jumlah pengukuran pada setiap level adalah: 4,4,3,2
Baris terakhir berisi rata-rata grup untuk setiap tingkat faktor.
Rata-rata keseluruhan dihitung dengan rumus:

Untuk menghitung Stotal menggunakan rumus (4), kami menyusun tabel 2 opsi kotak:

NP2 1P2 2P2 3P2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Jumlah total deviasi kuadrat ditemukan dengan rumus:


Kami menemukan S f dengan rumus:


Kami mendapatkan istirahat S: S istirahat \u003d S total - S f \u003d 0,0293 - 0,0263 \u003d 0,003
Tentukan varians faktor:

dan varians residual:

Jika nilai rata-rata dari variabel acak yang dihitung untuk sampel individu adalah sama, maka estimasi varians faktorial dan residual adalah estimasi tak bias dari varians umum dan berbeda tidak signifikan.
Kemudian perbandingan estimasi varians ini menurut kriteria Fisher harus menunjukkan bahwa tidak ada alasan untuk menolak hipotesis nol tentang kesetaraan varians faktorial dan residual.
Estimasi varians faktor lebih besar dari estimasi varians residual, sehingga kita dapat segera menyatakan bahwa hipotesis nol tentang kesetaraan ekspektasi matematis di seluruh lapisan sampel tidak benar.
Dengan kata lain, dalam contoh ini, faktor memiliki pengaruh yang signifikan terhadap variabel acak.
Mari kita periksa hipotesis nol H 0: persamaan nilai rata-rata x.
Temukan f obl

Untuk taraf signifikansi =0,05, jumlah derajat kebebasan 3 dan 12, kita cari f cr dari tabel distribusi Fisher-Snedekor.
f cr (0,05; 3; 12) = 3,49
Karena fakta bahwa f obl > f cr, kami menerima hipotesis nol tentang pengaruh signifikan faktor pada hasil eksperimen (kami menolak hipotesis nol tentang persamaan rata-rata grup). Dengan kata lain, kelompok berarti secara keseluruhan berbeda secara signifikan.

Contoh #2. Sekolah ini memiliki 5 kelas enam. Psikolog ditugaskan untuk menentukan apakah tingkat rata-rata kecemasan situasional di kelas adalah sama. Untuk ini diberikan dalam tabel. Periksa taraf signifikansi =0,05 dengan asumsi rata-rata kecemasan situasional di kelas tidak berbeda.

Contoh #3. Untuk mempelajari nilai X, 4 pengujian dilakukan pada masing-masing dari lima tingkat faktor F. Hasil pengujian diberikan dalam tabel. Cari tahu apakah pengaruh faktor F terhadap nilai X signifikan, Ambil = 0,05. Diasumsikan bahwa sampel diambil dari populasi normal dengan varians yang sama.

Contoh #4. Misalkan tiga kelompok siswa, masing-masing 10 orang, berpartisipasi dalam eksperimen pedagogis. Kelompok-kelompok tersebut menggunakan metode pengajaran yang berbeda: yang pertama - tradisional (F 1), yang kedua - berbasis teknologi komputer (F 2), yang ketiga - metode yang banyak menggunakan tugas untuk pekerjaan mandiri (F 3). Pengetahuan dinilai pada sistem sepuluh poin.
Diperlukan untuk mengolah data yang diperoleh tentang ujian dan membuat kesimpulan tentang apakah pengaruh metode pengajaran itu signifikan, dengan mengambil =0,05 sebagai tingkat signifikansi.
Hasil ujian diberikan dalam tabel, F j - tingkat faktor x ij - penilaian siswa ke-i siswa menurut metode F j .

Tingkat faktor

Contoh nomor 5. Hasil pengujian varietas kompetitif tanaman ditampilkan (hasil dalam c.d. ha). Setiap varietas diuji di empat petak. Gunakan metode analisis varians untuk mempelajari pengaruh varietas terhadap hasil. Tetapkan signifikansi pengaruh faktor (pangsa variasi antarkelompok dalam variasi total) dan signifikansi hasil eksperimen pada tingkat signifikansi 0,05.
Hasil di plot pengujian varietas

Variasi Produktivitas pada pengulangan c. dari ha
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

ANOVA adalah seperangkat metode statistik yang dirancang untuk menguji hipotesis tentang hubungan antara fitur tertentu dan faktor yang dipelajari yang tidak memiliki deskripsi kuantitatif, serta untuk menetapkan tingkat pengaruh faktor dan interaksinya. Dalam literatur khusus, ini sering disebut ANOVA (dari nama Inggris Analisis Variasi). Metode ini pertama kali dikembangkan oleh R. Fischer pada tahun 1925.

Jenis dan kriteria analisis varians

Metode ini digunakan untuk menyelidiki hubungan antara fitur kualitatif (nominal) dan variabel kuantitatif (kontinu). Bahkan, itu menguji hipotesis tentang kesetaraan rata-rata aritmatika dari beberapa sampel. Dengan demikian, dapat dianggap sebagai kriteria parametrik untuk membandingkan pusat beberapa sampel sekaligus. Jika menggunakan metode ini untuk dua sampel, maka hasil analisis varians akan identik dengan hasil uji-t Student. Namun, tidak seperti kriteria lainnya, penelitian ini memungkinkan Anda untuk mempelajari masalah secara lebih rinci.

Analisis varians dalam statistik didasarkan pada hukum: jumlah deviasi kuadrat dari sampel gabungan sama dengan jumlah kuadrat deviasi intragrup dan jumlah kuadrat deviasi antargrup. Untuk penelitian ini, uji Fisher digunakan untuk menetapkan signifikansi perbedaan antara varians antarkelompok dan intrakelompok. Namun, untuk ini, prasyarat yang diperlukan adalah normalitas distribusi dan homoskedastisitas (kesamaan varians) sampel. Bedakan antara analisis varians satu dimensi (faktor tunggal) dan multivariat (multifaktorial). Yang pertama mempertimbangkan ketergantungan nilai yang dipelajari pada satu atribut, yang kedua - pada banyak atribut sekaligus, dan juga memungkinkan Anda untuk mengidentifikasi hubungan di antara mereka.

Faktor

Faktor yang disebut keadaan terkendali yang mempengaruhi hasil akhir. Tingkat atau metode pemrosesannya disebut nilai yang mencirikan manifestasi spesifik dari kondisi ini. Angka-angka ini biasanya diberikan dalam skala pengukuran nominal atau ordinal. Seringkali nilai keluaran diukur pada skala kuantitatif atau ordinal. Lalu ada masalah pengelompokan data keluaran dalam serangkaian pengamatan yang sesuai dengan nilai numerik yang kira-kira sama. Jika jumlah kelompok terlalu besar, maka jumlah pengamatan di dalamnya mungkin tidak cukup untuk mendapatkan hasil yang andal. Jika jumlahnya diambil terlalu kecil, ini dapat menyebabkan hilangnya fitur penting pengaruh pada sistem. Metode khusus pengelompokan data tergantung pada volume dan sifat variasi nilai. Jumlah dan ukuran interval dalam analisis univariat paling sering ditentukan oleh prinsip interval yang sama atau dengan prinsip frekuensi yang sama.

Tugas analisis dispersi

Jadi, ada kasus ketika Anda perlu membandingkan dua atau lebih sampel. Maka disarankan untuk menggunakan analisis varians. Nama metode menunjukkan bahwa kesimpulan dibuat berdasarkan studi komponen varians. Inti dari penelitian ini adalah bahwa perubahan indikator secara keseluruhan dibagi menjadi komponen-komponen yang sesuai dengan tindakan masing-masing faktor individu. Pertimbangkan sejumlah masalah yang dipecahkan oleh analisis varians yang khas.

Contoh 1

Bengkel memiliki sejumlah peralatan mesin – mesin otomatis yang memproduksi part tertentu. Ukuran setiap bagian adalah nilai acak, yang tergantung pada pengaturan setiap mesin dan penyimpangan acak yang terjadi selama proses pembuatan suku cadang. Penting untuk menentukan dari pengukuran dimensi bagian-bagian apakah mesin dipasang dengan cara yang sama.

Contoh 2

Selama pembuatan peralatan listrik, berbagai jenis kertas isolasi digunakan: kapasitor, listrik, dll. Peralatan dapat diresapi dengan berbagai zat: resin epoksi, pernis, resin ML-2, dll. Kebocoran dapat dihilangkan di bawah vakum di tekanan tinggi, ketika dipanaskan. Itu dapat diresapi dengan perendaman dalam pernis, di bawah aliran pernis yang terus menerus, dll. Peralatan listrik secara keseluruhan dituangkan dengan senyawa tertentu, yang ada beberapa pilihan. Indikator kualitas adalah kekuatan dielektrik insulasi, suhu belitan yang terlalu panas dalam mode operasi, dan sejumlah lainnya. Selama pengembangan proses teknologi perangkat manufaktur, perlu untuk menentukan bagaimana masing-masing faktor yang terdaftar mempengaruhi kinerja perangkat.

Contoh 3

Depo troli melayani beberapa jalur troli. Mereka mengoperasikan bus troli dari berbagai jenis, dan 125 inspektur mengumpulkan tarif. Manajemen depo tertarik pada pertanyaan: bagaimana membandingkan kinerja ekonomi setiap pengontrol (pendapatan) mengingat rute yang berbeda, jenis troli yang berbeda? Bagaimana menentukan kelayakan ekonomi peluncuran bus troli jenis tertentu pada rute tertentu? Bagaimana menetapkan persyaratan yang masuk akal untuk jumlah pendapatan yang dibawa kondektur pada setiap rute di berbagai jenis bus listrik?

Tugas memilih metode adalah bagaimana memperoleh informasi maksimum mengenai dampak pada hasil akhir setiap faktor, menentukan karakteristik numerik dari dampak tersebut, keandalannya dengan biaya minimal dan dalam waktu sesingkat mungkin. Metode analisis dispersi memungkinkan untuk memecahkan masalah seperti itu.

Analisis univariat

Penelitian ini bertujuan untuk menilai besarnya dampak suatu kasus tertentu terhadap tinjauan yang dianalisis. Tugas lain dari analisis univariat adalah membandingkan dua atau lebih keadaan satu sama lain untuk menentukan perbedaan pengaruhnya terhadap ingatan. Jika hipotesis nol ditolak, maka langkah selanjutnya adalah mengukur dan membangun interval kepercayaan untuk karakteristik yang diperoleh. Dalam kasus ketika hipotesis nol tidak dapat ditolak, biasanya diterima dan kesimpulan dibuat tentang sifat pengaruhnya.

Analisis varian satu arah dapat menjadi analog non-parametrik dari metode peringkat Kruskal-Wallis. Ini dikembangkan oleh matematikawan Amerika William Kruskal dan ekonom Wilson Wallis pada tahun 1952. Tes ini dimaksudkan untuk menguji hipotesis nol bahwa efek pengaruh pada sampel yang diteliti sama dengan nilai rata-rata yang tidak diketahui tetapi sama. Dalam hal ini, jumlah sampel harus lebih dari dua.

Kriteria Jonkhier (Jonkhier-Terpstra) diusulkan secara independen oleh matematikawan Belanda T. J. Terpstrom pada tahun 1952 dan psikolog Inggris E. R. Jonkhier pada tahun 1954. Ini digunakan ketika diketahui sebelumnya bahwa kelompok hasil yang tersedia diurutkan dengan peningkatan pengaruh faktor yang diteliti, yang diukur pada skala ordinal.

M - kriteria Bartlett, yang diusulkan oleh ahli statistik Inggris Maurice Stevenson Bartlett pada tahun 1937, digunakan untuk menguji hipotesis nol tentang kesetaraan varians beberapa populasi umum normal dari mana sampel yang dipelajari diambil, dalam kasus umum yang memiliki ukuran berbeda (jumlah setiap sampel harus setidaknya empat).

G adalah uji Cochran, yang ditemukan oleh William Gemmel Cochran dari Amerika pada tahun 1941. Ini digunakan untuk menguji hipotesis nol tentang kesetaraan varians populasi normal untuk sampel independen dengan ukuran yang sama.

Uji Levene nonparametrik, diusulkan oleh matematikawan Amerika Howard Levene pada tahun 1960, merupakan alternatif uji Bartlett dalam kondisi di mana tidak ada kepastian bahwa sampel yang diteliti mengikuti distribusi normal.

Pada tahun 1974, ahli statistik Amerika Morton B. Brown dan Alan B. Forsyth mengusulkan tes (tes Brown-Forsyth), yang agak berbeda dari tes Levene.

Analisis dua arah

Analisis varians dua arah digunakan untuk sampel terdistribusi normal yang terhubung. Dalam praktiknya, tabel kompleks dari metode ini sering digunakan, khususnya tabel di mana setiap sel berisi satu set data (pengukuran berulang) yang sesuai dengan nilai level tetap. Jika asumsi yang diperlukan untuk menerapkan analisis varians dua arah tidak terpenuhi, maka uji peringkat non-parametrik Friedman (Friedman, Kendall dan Smith), yang dikembangkan oleh ekonom Amerika Milton Friedman pada akhir tahun 1930, digunakan. Kriteria ini tidak tergantung pada jenis distribusi.

Hanya diasumsikan bahwa distribusi besaran adalah sama dan kontinu, dan bahwa mereka sendiri tidak tergantung satu sama lain. Saat menguji hipotesis nol, data keluaran disajikan dalam bentuk matriks persegi panjang, di mana baris sesuai dengan tingkat faktor B, dan kolom sesuai dengan tingkat A. Setiap sel tabel (blok) dapat menjadi hasil pengukuran parameter pada satu objek atau pada sekelompok objek dengan nilai konstanta tingkat kedua faktor. Dalam hal ini, data yang sesuai disajikan sebagai nilai rata-rata parameter tertentu untuk semua pengukuran atau objek sampel yang diteliti. Untuk menerapkan kriteria keluaran, perlu untuk beralih dari hasil pengukuran langsung ke peringkatnya. Pemeringkatan dilakukan untuk setiap baris secara terpisah, yaitu nilai diurutkan untuk setiap nilai tetap.

Tes Page (L-test), diusulkan oleh ahli statistik Amerika E. B. Page pada tahun 1963, dirancang untuk menguji hipotesis nol. Untuk sampel besar, pendekatan Halaman digunakan. Mereka, tunduk pada realitas hipotesis nol yang sesuai, mematuhi distribusi normal standar. Jika baris tabel sumber memiliki nilai yang sama, perlu menggunakan peringkat rata-rata. Dalam hal ini, keakuratan kesimpulan akan semakin buruk, semakin besar jumlah kebetulan tersebut.

Q - Kriteria Cochran, diusulkan oleh V. Cochran pada tahun 1937. Ini digunakan dalam kasus di mana kelompok subjek homogen terkena lebih dari dua pengaruh dan yang memungkinkan dua opsi untuk tinjauan - negatif bersyarat (0) dan positif bersyarat (1 ) . Hipotesis nol terdiri dari persamaan efek pengaruh. Analisis varians dua arah memungkinkan untuk menentukan keberadaan efek pemrosesan, tetapi tidak memungkinkan untuk menentukan kolom mana efek ini ada. Saat memecahkan masalah ini, metode persamaan Scheffe berganda untuk sampel yang digabungkan digunakan.

Analisis multivariat

Masalah analisis varians multivariat muncul ketika perlu untuk menentukan pengaruh dua kondisi atau lebih pada variabel acak tertentu. Studi ini memberikan kehadiran satu variabel acak dependen, diukur pada skala perbedaan atau rasio, dan beberapa variabel independen, yang masing-masing dinyatakan pada skala nama atau dalam skala peringkat. Analisis dispersi data adalah cabang statistik matematika yang cukup berkembang, yang memiliki banyak pilihan. Konsep studi umum untuk studi univariat dan multivariat. Esensinya terletak pada kenyataan bahwa varians total dibagi menjadi komponen-komponen, yang sesuai dengan pengelompokan data tertentu. Setiap pengelompokan data memiliki model tersendiri. Di sini kami hanya akan mempertimbangkan ketentuan utama yang diperlukan untuk pemahaman dan penggunaan praktis dari varian yang paling sering digunakan.

Analisis varians faktor memerlukan sikap yang agak hati-hati terhadap pengumpulan dan penyajian data masukan, dan terutama interpretasi hasil. Berbeda dengan satu faktor yang hasilnya dapat ditempatkan secara kondisional dalam urutan tertentu, hasil dari dua faktor membutuhkan penyajian yang lebih kompleks. Situasi yang bahkan lebih sulit muncul ketika ada tiga, empat atau lebih keadaan. Oleh karena itu, model jarang mencakup lebih dari tiga (empat) kondisi. Contohnya adalah terjadinya resonansi pada nilai kapasitansi dan induktansi tertentu dari lingkaran listrik; manifestasi reaksi kimia dengan seperangkat elemen tertentu dari mana sistem dibangun; terjadinya efek anomali dalam sistem yang kompleks di bawah kebetulan tertentu keadaan. Kehadiran interaksi secara radikal dapat mengubah model sistem dan kadang-kadang mengarah pada pemikiran ulang tentang sifat fenomena yang dihadapi eksperimen.

Analisis varians multivariat dengan eksperimen berulang

Data pengukuran seringkali dapat dikelompokkan bukan berdasarkan dua, tetapi lebih banyak faktor. Jadi, jika kita mempertimbangkan analisis dispersi masa pakai ban untuk roda bus listrik, dengan mempertimbangkan keadaan (produsen dan rute penggunaan ban), maka kita dapat memilih sebagai kondisi terpisah musim di mana ban yang digunakan (yaitu: operasi musim dingin dan musim panas). Akibatnya, kita akan memiliki masalah metode tiga faktor.

Dengan adanya lebih banyak kondisi, pendekatannya sama seperti dalam analisis dua arah. Dalam semua kasus, model mencoba untuk menyederhanakan. Fenomena interaksi dua faktor tidak begitu sering muncul, dan interaksi rangkap tiga hanya terjadi pada kasus-kasus luar biasa. Sertakan interaksi yang sebelumnya ada informasi dan alasan yang baik untuk mempertimbangkannya dalam model. Proses mengisolasi faktor individu dan memperhitungkannya relatif sederhana. Karena itu, seringkali ada keinginan untuk menonjolkan lebih banyak keadaan. Anda tidak harus terbawa dengan ini. Semakin banyak kondisi, semakin tidak dapat diandalkan model dan semakin besar kemungkinan kesalahan. Model itu sendiri, yang mencakup sejumlah besar variabel independen, menjadi cukup sulit untuk ditafsirkan dan tidak nyaman untuk penggunaan praktis.

Ide umum dari analisis varians

Analisis varians dalam statistik adalah metode untuk memperoleh hasil pengamatan yang bergantung pada berbagai keadaan bersamaan dan menilai pengaruhnya. Variabel terkendali yang sesuai dengan cara pengaruhnya terhadap objek penelitian dan memperoleh nilai tertentu dalam jangka waktu tertentu disebut faktor. Mereka bisa kualitatif dan kuantitatif. Tingkat kondisi kuantitatif memperoleh nilai tertentu pada skala numerik. Contohnya adalah suhu, tekanan pengepresan, jumlah zat. Faktor kualitatif adalah zat yang berbeda, metode teknologi yang berbeda, peralatan, pengisi. Level mereka sesuai dengan skala nama.

Mutu juga meliputi jenis bahan pengemas, kondisi penyimpanan bentuk sediaan. Juga rasional untuk memasukkan tingkat penggilingan bahan mentah, komposisi fraksional butiran, yang memiliki nilai kuantitatif, tetapi sulit diatur, jika skala kuantitatif digunakan. Banyaknya faktor mutu tergantung pada jenis bentuk sediaan, serta sifat fisik dan teknologi bahan obat. Misalnya, tablet dapat diperoleh dari zat kristal dengan kempa langsung. Dalam hal ini, cukup melakukan pemilihan agen geser dan pelumas.

Contoh faktor kualitas untuk berbagai jenis bentuk sediaan

  • Tincture. Komposisi ekstraktan, jenis ekstraktor, metode penyiapan bahan baku, metode produksi, metode filtrasi.
  • Ekstrak (cair, kental, kering). Komposisi ekstraktan, metode ekstraksi, jenis instalasi, metode penghilangan zat ekstraktan dan pemberat.
  • Pil. Komposisi eksipien, pengisi, penghancur, pengikat, pelumas dan pelumas. Metode mendapatkan tablet, jenis peralatan teknologi. Jenis cangkang dan komponennya, pembentuk film, pigmen, pewarna, plasticizer, pelarut.
  • solusi injeksi. Jenis pelarut, metode filtrasi, sifat stabilisator dan pengawet, kondisi sterilisasi, metode pengisian ampul.
  • Supositoria. Komposisi basis supositoria, metode mendapatkan supositoria, pengisi, pengemasan.
  • Salep. Komposisi alas, komponen struktural, metode persiapan salep, jenis peralatan, pengemasan.
  • Kapsul. Jenis bahan cangkang, cara mendapatkan kapsul, jenis plasticizer, pengawet, pewarna.
  • Linimen. Metode produksi, komposisi, jenis peralatan, jenis pengemulsi.
  • Suspensi. Jenis pelarut, jenis stabilizer, metode dispersi.

Contoh faktor kualitas dan levelnya dipelajari dalam proses pembuatan tablet

  • Bubuk pengembang. Tepung kentang, tanah liat putih, campuran natrium bikarbonat dengan asam sitrat, magnesium karbonat basa.
  • solusi yang mengikat. Air, pasta pati, sirup gula, larutan metilselulosa, larutan hidroksipropil metilselulosa, larutan polivinilpirolidon, larutan polivinil alkohol.
  • zat geser. Aerosil, pati, bedak.
  • Pengisi. Gula, glukosa, laktosa, natrium klorida, kalsium fosfat.
  • Pelumas. Asam stearat, polietilen glikol, parafin.

Model analisis dispersi dalam kajian tingkat daya saing negara

Salah satu kriteria terpenting untuk menilai keadaan suatu negara yang digunakan untuk menilai tingkat kesejahteraan dan perkembangan sosial ekonominya adalah daya saing, yaitu seperangkat sifat yang melekat dalam perekonomian nasional yang menentukan kemampuan negara untuk bersaing dengan negara lain. Setelah menentukan tempat dan peran negara di pasar dunia, dimungkinkan untuk menetapkan strategi yang jelas untuk memastikan keamanan ekonomi dalam skala internasional, karena itu adalah kunci untuk hubungan positif antara Rusia dan semua pemain di pasar dunia: investor , kreditur, pemerintah negara bagian.

Untuk membandingkan tingkat daya saing negara, peringkat negara menggunakan indeks kompleks, yang mencakup berbagai indikator berbobot. Indeks-indeks ini didasarkan pada faktor-faktor kunci yang mempengaruhi situasi ekonomi, politik, dll. Kompleks model untuk mempelajari daya saing negara menyediakan penggunaan metode analisis statistik multidimensi (khususnya, ini adalah analisis varians (statistik), pemodelan ekonometrik, pengambilan keputusan) dan mencakup tahapan utama berikut:

  1. Pembentukan sistem indikator-indikator.
  2. Evaluasi dan peramalan indikator daya saing negara.
  3. Perbandingan indikator-indikator daya saing negara.

Dan sekarang mari kita pertimbangkan isi model dari masing-masing tahapan kompleks ini.

Pada tahap pertama menggunakan metode studi ahli, seperangkat indikator-indikator ekonomi yang masuk akal untuk menilai daya saing negara dibentuk, dengan mempertimbangkan kekhususan perkembangannya berdasarkan peringkat internasional dan data dari departemen statistik, yang mencerminkan keadaan sistem secara keseluruhan dan prosesnya. Pilihan indikator-indikator ini dibenarkan oleh kebutuhan untuk memilih yang paling sepenuhnya, dari sudut pandang praktik, memungkinkan untuk menentukan tingkat negara, daya tarik investasinya dan kemungkinan lokalisasi relatif dari potensi dan ancaman aktual yang ada.

Indikator-indikator utama sistem pemeringkatan internasional adalah indeks:

  1. Daya Saing Global (GCC).
  2. Kebebasan ekonomi (IES).
  3. Pembangunan Manusia (IPM).
  4. Persepsi Korupsi (IPK).
  5. Ancaman internal dan eksternal (IVZZ).
  6. Potensi Pengaruh Internasional (IPIP).

Fase kedua menyediakan penilaian dan peramalan indikator daya saing negara menurut peringkat internasional untuk 139 negara bagian dunia yang diteliti.

Tahap ketiga memberikan perbandingan kondisi daya saing negara bagian dengan menggunakan metode analisis korelasi dan regresi.

Dengan menggunakan hasil penelitian, dimungkinkan untuk menentukan sifat proses secara umum dan untuk masing-masing komponen daya saing negara; menguji hipotesis tentang pengaruh faktor-faktor dan hubungannya pada tingkat signifikansi yang sesuai.

Implementasi serangkaian model yang diusulkan akan memungkinkan tidak hanya untuk menilai situasi saat ini dari tingkat daya saing dan daya tarik investasi negara, tetapi juga untuk menganalisis kekurangan manajemen, mencegah kesalahan keputusan yang salah, dan mencegah perkembangan krisis. di negara bagian.

Analisis varians adalah metode statistik untuk menilai hubungan antara faktor dan karakteristik kinerja dalam kelompok yang berbeda, dipilih secara acak, berdasarkan penentuan perbedaan (keanekaragaman) nilai-nilai karakteristik. Analisis varians didasarkan pada analisis penyimpangan semua unit populasi yang diteliti dari mean aritmatika. Sebagai ukuran penyimpangan, dispersi (B) diambil - kuadrat rata-rata penyimpangan. Penyimpangan yang disebabkan oleh pengaruh suatu faktor atribut (faktor) dibandingkan dengan besarnya penyimpangan yang disebabkan oleh keadaan acak. Jika penyimpangan yang disebabkan oleh atribut faktor lebih signifikan daripada penyimpangan acak, maka faktor tersebut dianggap memiliki pengaruh yang signifikan terhadap atribut yang dihasilkan.

Untuk menghitung varians dari nilai deviasi setiap opsi (setiap nilai numerik terdaftar dari atribut) dari rata-rata aritmatika, dikuadratkan. Ini akan menghilangkan tanda-tanda negatif. Kemudian penyimpangan (selisih) ini dijumlahkan dan dibagi dengan jumlah pengamatan, yaitu. penyimpangan rata-rata. Dengan demikian, nilai dispersi diperoleh.

Nilai metodologis yang penting untuk penerapan analisis varians adalah pembentukan sampel yang benar. Tergantung pada tujuan dan sasaran, kelompok selektif dapat dibentuk secara acak secara independen satu sama lain (kelompok kontrol dan eksperimen untuk mempelajari beberapa indikator, misalnya, efek tekanan darah tinggi pada perkembangan stroke). Sampel seperti itu disebut independen.

Seringkali, hasil paparan faktor dipelajari dalam kelompok sampel yang sama (misalnya, pada pasien yang sama) sebelum dan sesudah paparan (pengobatan, pencegahan, tindakan rehabilitasi), sampel semacam itu disebut dependen.

Analisis varians, di mana pengaruh satu faktor diperiksa, disebut analisis satu faktor (analisis univariat). Ketika mempelajari pengaruh lebih dari satu faktor, digunakan analisis varians multivariat (analisis multivariat).

Tanda-tanda faktor adalah tanda-tanda yang mempengaruhi fenomena yang diteliti.

Tanda-tanda efektif adalah tanda-tanda yang berubah di bawah pengaruh tanda-tanda faktor.

Syarat penggunaan analisis varians:

Tugas penelitian ini adalah untuk menentukan kekuatan pengaruh satu (hingga 3) faktor pada hasil atau untuk menentukan kekuatan pengaruh gabungan berbagai faktor (jenis kelamin dan usia, aktivitas fisik dan nutrisi, dll.).

Faktor-faktor yang dipelajari harus independen (tidak berhubungan) satu sama lain. Misalnya, seseorang tidak dapat mempelajari efek gabungan dari pengalaman kerja dan usia, tinggi dan berat anak, dll. pada kejadian populasi.

Pemilihan kelompok untuk penelitian dilakukan secara acak (random selection). Organisasi kompleks dispersi dengan penerapan prinsip pemilihan opsi secara acak disebut pengacakan (diterjemahkan dari bahasa Inggris - acak), mis. dipilih secara acak.

Baik fitur kuantitatif maupun kualitatif (atributif) dapat digunakan.

Saat melakukan analisis varians satu arah, disarankan (kondisi yang diperlukan untuk aplikasi):

1. Normalitas distribusi kelompok yang dianalisis atau korespondensi kelompok sampel dengan populasi umum yang berdistribusi normal.

2. Kemandirian (non-connectedness) distribusi pengamatan dalam kelompok.

3. Adanya frekuensi (pengulangan) pengamatan.

Pertama, hipotesis nol dirumuskan, yaitu diasumsikan bahwa faktor-faktor yang diteliti tidak berpengaruh pada nilai atribut yang dihasilkan dan perbedaan yang dihasilkan bersifat acak.

Kemudian kami menentukan berapa probabilitas untuk memperoleh perbedaan yang diamati (atau lebih kuat), asalkan hipotesis nol benar.

Jika probabilitas ini kecil, maka kami menolak hipotesis nol dan menyimpulkan bahwa hasil penelitian signifikan secara statistik. Ini belum berarti bahwa pengaruh dari faktor-faktor yang dipelajari telah terbukti (ini terutama masalah perencanaan penelitian), tetapi masih kecil kemungkinannya bahwa hasilnya adalah kebetulan.

Ketika semua kondisi untuk menerapkan analisis varians terpenuhi, dekomposisi varians total secara matematis terlihat seperti ini:

Dot. = Dfact + D istirahat.,

Dot. - varian total dari nilai yang diamati (varian), ditandai dengan penyebaran varian dari total rata-rata. Mengukur variasi suatu sifat di seluruh populasi di bawah pengaruh semua faktor yang menyebabkan variasi ini. Keanekaragaman secara keseluruhan terdiri dari intergroup dan intragroup;

Dfact - varians faktorial (antarkelompok), ditandai dengan perbedaan rata-rata di setiap kelompok dan tergantung pada pengaruh faktor yang dipelajari, yang dengannya setiap kelompok dibedakan. Misalnya, dalam kelompok faktor etiologi yang berbeda dari perjalanan klinis pneumonia, tingkat rata-rata hari tidur yang dihabiskan tidak sama - keragaman antarkelompok diamati.

D istirahat. - varians residual (intragroup), yang mencirikan dispersi varian dalam grup. Mencerminkan variasi acak, mis. bagian dari variasi yang terjadi di bawah pengaruh faktor yang tidak ditentukan dan tidak tergantung pada sifat – faktor yang mendasari pengelompokan tersebut. Variasi sifat yang diteliti tergantung pada kekuatan pengaruh beberapa faktor acak yang tidak terhitung, baik pada faktor terorganisir (diberikan oleh peneliti) dan acak (tidak diketahui).

Oleh karena itu, variasi total (dispersi) terdiri dari variasi yang disebabkan oleh faktor-faktor terorganisir (diberikan), yang disebut variasi faktorial dan faktor-faktor yang tidak terorganisir, yaitu. variasi residual (acak, tidak diketahui).

Untuk ukuran sampel n, varians sampel dihitung sebagai jumlah deviasi kuadrat dari rata-rata sampel dibagi dengan n-1 (ukuran sampel dikurangi satu). Jadi, dengan ukuran sampel tetap n, varians adalah fungsi dari jumlah kuadrat (deviasi), dilambangkan, untuk singkatnya, SS (dari Bahasa Inggris Sum of Squares - Sum of Squares). Berikut ini, kita sering menghilangkan kata "selektif", mengetahui sepenuhnya bahwa kita sedang mempertimbangkan varians sampel atau perkiraan varians. Analisis varians didasarkan pada pembagian varians menjadi bagian-bagian atau komponen. Pertimbangkan kumpulan data berikut:

Rata-rata dari kedua kelompok berbeda secara signifikan (masing-masing 2 dan 6). Jumlah deviasi kuadrat dalam setiap kelompok adalah 2. Menjumlahkannya, kita mendapatkan 4. Jika kita sekarang mengulangi perhitungan ini tanpa memperhitungkan keanggotaan kelompok, yaitu, jika kita menghitung SS berdasarkan rata-rata total dari dua sampel ini, kita mendapatkan nilai 28. Dengan kata lain, varians (jumlah kuadrat) berdasarkan variabilitas dalam kelompok menghasilkan nilai yang jauh lebih rendah daripada yang dihitung berdasarkan variabilitas total (relatif terhadap rata-rata keseluruhan). Alasan untuk ini jelas merupakan perbedaan yang signifikan antara rata-rata, dan perbedaan antara rata-rata ini menjelaskan perbedaan yang ada antara jumlah kuadrat.

SS St. St. NONA F p
Memengaruhi 24.0 24.0 24.0 .008
Kesalahan 4.0 1.0

Seperti dapat dilihat dari tabel, jumlah kuadrat SS = 28 dibagi menjadi komponen: jumlah kuadrat karena variabilitas dalam kelompok (2+2=4; lihat baris kedua tabel) dan jumlah kuadrat karena perbedaan rata-rata antar kelompok (28-(2+ 2)=24; lihat baris pertama tabel). Perhatikan bahwa MS dalam tabel ini adalah kuadrat rata-rata yang sama dengan SS dibagi dengan jumlah derajat kebebasan (stdf).

Dalam contoh sederhana di atas, Anda dapat langsung menghitung uji-t untuk sampel independen. Hasil yang diperoleh tentunya bersesuaian dengan hasil analisis varians.

Namun, situasi di mana beberapa fenomena sepenuhnya dijelaskan oleh satu variabel sangat jarang terjadi. Misalnya, jika kita mencoba mempelajari cara menanam tomat besar, kita harus mempertimbangkan faktor-faktor yang berkaitan dengan struktur genetik tanaman, jenis tanah, cahaya, suhu, dll. Jadi, ketika melakukan eksperimen biasa, Anda harus berurusan dengan sejumlah besar faktor. Alasan utama mengapa menggunakan ANOVA lebih baik daripada membandingkan kembali dua sampel pada tingkat faktor yang berbeda menggunakan seri uji-t adalah bahwa ANOVA secara signifikan lebih efisien dan, untuk sampel kecil, lebih informatif.

Misalkan dalam contoh analisis dua sampel yang dibahas di atas, kita menambahkan faktor lain, seperti Gender. Biarkan setiap kelompok sekarang terdiri dari 3 pria dan 3 wanita. Rencana percobaan ini dapat disajikan dalam bentuk tabel:

Sebelum melakukan perhitungan, Anda dapat melihat bahwa dalam contoh ini, varians total memiliki setidaknya tiga sumber:

1) kesalahan acak (varian intragrup),

2) variabilitas yang terkait dengan milik kelompok eksperimen

3) variabilitas karena jenis kelamin objek pengamatan.

Perhatikan bahwa ada kemungkinan sumber variabilitas lain - interaksi faktor, yang akan kita bahas nanti). Apa yang terjadi jika kita tidak memasukkan gender sebagai faktor dalam analisis kita dan menghitung uji-t biasa? Jika kita menghitung jumlah kuadrat dengan mengabaikan jenis kelamin (yaitu menggabungkan objek dari jenis kelamin yang berbeda ke dalam satu kelompok saat menghitung varians dalam kelompok dan dengan demikian memperoleh jumlah kuadrat untuk setiap kelompok sama dengan SS = 10 dan jumlah total kuadrat SS = 10+10 = 20) , kami mendapatkan varians intragrup yang lebih besar daripada dengan analisis yang lebih akurat dengan subkelompok tambahan berdasarkan jenis kelamin (dalam hal ini, rata-rata intragrup akan sama dengan 2, dan jumlah kuadrat total intragrup sama dengan SS = 2+2 +2+2 = 8).

Jadi, dengan diperkenalkannya faktor tambahan: jenis kelamin, varians residual menurun. Ini karena rata-rata pria lebih kecil daripada rata-rata wanita, dan perbedaan rata-rata ini meningkatkan variabilitas dalam kelompok secara keseluruhan jika jenis kelamin tidak diperhitungkan. Mengontrol varians kesalahan meningkatkan sensitivitas (kekuatan) tes.

Contoh ini menunjukkan keuntungan lain dari analisis varians dibandingkan dengan uji-t dua sampel biasa. Analisis varians memungkinkan Anda mempelajari setiap faktor dengan mengontrol nilai faktor lainnya. Faktanya, ini adalah alasan utama untuk kekuatan statistiknya yang lebih besar (ukuran sampel yang lebih kecil diperlukan untuk mendapatkan hasil yang berarti). Untuk alasan ini, analisis varians, bahkan pada sampel kecil, memberikan hasil yang lebih signifikan secara statistik daripada uji-t sederhana.

) dirancang untuk membandingkan hanya dua populasi. Namun, sering disalahgunakan untuk perbandingan berpasangan lebih banyak kelompok (Gbr. 1), yang menyebabkan apa yang disebut. efek dari beberapa perbandingan(Bahasa inggris) beberapa perbandingan; Glantz 1999, hal. 101-104). Kami akan berbicara tentang efek ini dan bagaimana menghadapinya nanti. Dalam posting ini saya akan menjelaskan prinsip-prinsipnya analisis varians univariat hanya dirancang untuk serentak perbandingan nilai rata-rata dua kelompok atau lebih. Prinsip ANOVA sebuah analisis Hai f va riance, ANOVA) dikembangkan pada tahun 1920-an. Sir Ronald Aylmer Fisher Ronald Aylmer Fisher) - "seorang jenius yang hampir sendirian meletakkan dasar-dasar statistik modern" (Hald 1998).

Pertanyaan mungkin muncul: mengapa metode yang digunakan untuk perbandingan? medium nilai disebut dispersif analisis? Masalahnya adalah ketika menetapkan perbedaan antara nilai rata-rata, kami sebenarnya membandingkan varians dari populasi yang dianalisis. Namun, hal pertama yang pertama ...

Rumusan masalah

Contoh di bawah ini diambil dari buku Maindonald & Cokelat(2010). Data berat tersedia untuk tomat (seluruh tanaman; berat , dalam kg) yang ditanam selama 2 bulan di bawah tiga kondisi percobaan yang berbeda (trt , dari perlakuan) - di atas air (air), di lingkungan dengan penambahan pupuk (hara), serta di lingkungan dengan penambahan pupuk dan herbisida 2,4-D (nutrisi + 24D):

# Buat tabel dengan data: tomat<- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) # Lihat hasilnya: Berat Berat TRT 1 1,50 Air 2 1,50 Air 3 1,30 Air 4 1,50 Air 5 2,40 Air 6 1,50 Air 7 1,50 NUTRISI 8 1,20 NUTRIEN 9 1,20 NUTRIENT 10 2,10 NUTRIENT 11 2,90 NUTRIENT 12 1,60 NUTRIENT 13 1,90 NUTRIENT + 24D 14 1,60 NUTRIENT + 24D 15 0.80 Nutrisi+24D 16 1.15 Nutrisi+24D 17 0.90 Nutrisi+24D 18 1.60 Nutrisi+24D


Variabel trt merupakan faktor dengan tiga taraf. Untuk perbandingan yang lebih visual dari kondisi eksperimental di masa depan, kami akan menjadikan level "air" sebagai level dasar (eng. referensi), yaitu tingkat dimana R akan membandingkan semua tingkat lainnya. Ini dapat dilakukan dengan fungsi relevel() :


Untuk lebih memahami sifat-sifat data yang tersedia, kami memvisualisasikannya menggunakan perbedaan yang diamati antara rata-rata kelompok tidak signifikan dan disebabkan oleh pengaruh faktor acak (yaitu, pada kenyataannya, semua pengukuran berat tanaman yang diperoleh berasal dari satu populasi umum yang terdistribusi normal) :

Kami menekankan sekali lagi bahwa contoh yang dipertimbangkan sesuai dengan kasus satu faktor analisis varians: kami mempelajari pengaruh satu faktor - kondisi pertumbuhan (dengan tiga tingkat - Air , Nutrisi dan Nutrisi + 24D ) pada variabel respons yang kami minati - berat tanaman.

Sayangnya, peneliti hampir tidak pernah memiliki kesempatan untuk mempelajari seluruh populasi. Lalu bagaimana kita bisa tahu jika hipotesis nol di atas benar hanya dengan data sampel? Kita dapat mengungkapkan pertanyaan ini secara berbeda: berapa peluang memperoleh perbedaan yang teramati antara rata-rata kelompok dengan mengambil sampel acak dari satu populasi yang terdistribusi normal?? Untuk menjawab pertanyaan ini, kita memerlukan uji statistik yang secara kuantitatif akan mencirikan besarnya perbedaan antara kelompok yang dibandingkan.