Literatur analisis klaster. Kementerian Pendidikan dan Ilmu Pengetahuan Federasi Rusia

Mengirimkan karya bagus Anda ke basis pengetahuan itu sederhana. Gunakan formulir di bawah ini

Pelajar, mahasiswa pascasarjana, ilmuwan muda yang menggunakan basis pengetahuan dalam studi dan pekerjaan mereka akan sangat berterima kasih kepada Anda.

Perkenalan

1. Sejarah “analisis klaster”

2. Terminologi

2.1Objek dan fitur

2.2Jarak antar objek (metrik)

2.3 Kepadatan dan lokalitas cluster

2.4 Jarak antar cluster

3. Metode pengelompokan

3.1Fitur metode aglomerasi hierarkis

3.2Fitur metode pengelompokan berulang

4. Pengelompokan fitur

5. Stabilitas dan kualitas clustering

Bibliografi

PERKENALAN

“Analisis cluster adalah seperangkat metode matematika yang dirancang untuk membentuk kelompok objek yang relatif “berjarak” satu sama lain, “dekat” satu sama lain, berdasarkan informasi tentang jarak atau hubungan (ukuran kedekatan) di antara mereka. mirip dengan istilah: klasifikasi otomatis, taksonomi, pengenalan pola tanpa guru." Definisi analisis klaster ini diberikan dalam Kamus Statistik edisi terbaru. Faktanya, “analisis cluster” adalah nama umum untuk sekumpulan algoritma yang cukup besar yang digunakan untuk membuat klasifikasi. Sejumlah publikasi juga menggunakan sinonim untuk analisis cluster seperti klasifikasi dan partisi. Analisis klaster banyak digunakan dalam sains sebagai sarana analisis tipologis. Dalam aktivitas ilmiah apa pun, klasifikasi adalah salah satu komponen mendasar, yang tanpanya konstruksi dan pengujian hipotesis dan teori ilmiah tidak mungkin dilakukan. Jadi, dalam pekerjaan saya, tujuan utama saya adalah mempertimbangkan masalah analisis klaster (dasar-dasar analisis klaster), serta mempertimbangkan terminologinya dan memberikan beberapa contoh penggunaan metode ini dalam pemrosesan data.

1. SEJARAH “ANALISIS CLUSTER”

Analisis terhadap publikasi dalam dan luar negeri menunjukkan bahwa analisis klaster digunakan dalam berbagai bidang ilmu: kimia, biologi, kedokteran, arkeologi, sejarah, geografi, ekonomi, filologi, dll. Buku karya V.V. Nalimov “Probabilistic Model of Language” menjelaskan penggunaan analisis cluster dalam studi terhadap 70 sampel analitik. Sebagian besar literatur tentang analisis klaster telah muncul selama tiga dekade terakhir, meskipun karya pertama yang menyebutkan metode klaster muncul cukup lama. Antropolog Polandia K. Czekanovsky mengemukakan gagasan "klasifikasi struktural", yang berisi gagasan utama analisis cluster - identifikasi kelompok objek yang kompak.

Pada tahun 1925, ahli hidrobiologi Soviet P.V. Terentyev mengembangkan apa yang disebut “metode galaksi korelasi”, yang dimaksudkan untuk mengelompokkan fitur-fitur yang berkorelasi. Metode ini memberi dorongan bagi berkembangnya metode pengelompokan dengan menggunakan grafik. Istilah "analisis cluster" pertama kali dikemukakan oleh Trion. Kata "cluster" diterjemahkan dari bahasa Inggris sebagai "bunch, brush, bunch, group". Oleh karena itu, jenis analisis ini pada awalnya disebut “analisis kumpulan”. Pada awal tahun 50-an, publikasi oleh R. Lewis, E. Fix dan J. Hodges muncul tentang algoritma hierarki untuk analisis cluster. Dorongan nyata untuk pengembangan penelitian analisis klaster diberikan oleh karya R. Rosenblatt tentang perangkat pengenalan (perceptron), yang meletakkan dasar bagi pengembangan teori “pengenalan pola tanpa guru.”

Dorongan berkembangnya metode clustering adalah buku “Principles of Numerical Taxonomy” yang diterbitkan pada tahun 1963. dua ahli biologi - Robert Sokal dan Peter Sneath. Penulis buku ini berangkat dari fakta bahwa untuk menciptakan klasifikasi biologis yang efektif, prosedur pengelompokan harus memastikan penggunaan berbagai indikator yang mengkarakterisasi organisme yang diteliti, menilai tingkat kesamaan antara organisme tersebut, dan memastikan penempatan organisme serupa. dalam kelompok yang sama. Dalam hal ini, kelompok yang dibentuk harus cukup “lokal”, yaitu. kesamaan benda (organisme) dalam kelompok harus melebihi kesamaan kelompok satu sama lain. Analisis selanjutnya terhadap kelompok yang teridentifikasi, menurut penulis, dapat menentukan apakah kelompok ini sesuai dengan spesies biologis yang berbeda. Dengan demikian, Sokal dan Snit berasumsi bahwa mengidentifikasi struktur distribusi objek ke dalam kelompok membantu menetapkan proses pembentukan struktur tersebut. Dan perbedaan serta persamaan antar organisme yang berbeda cluster (kelompok) dapat menjadi dasar untuk memahami proses evolusi yang terjadi dan menjelaskan mekanismenya.

Selama tahun-tahun yang sama, banyak algoritma yang diusulkan oleh penulis seperti J. McKean, G. Ball dan D. Hall menggunakan metode k-means; G. Lance dan W. Williams, N. Jardine dan lainnya - menggunakan metode hierarki. Ilmuwan dalam negeri juga memberikan kontribusi yang signifikan terhadap pengembangan metode analisis klaster - E.M. Braverman, A.A. Dorofeyuk, I.B. Muchnik, L.A. Banyak algoritma yang dikembangkan oleh matematikawan Novosibirsk N.G. Zagoruiko, V.N. Elkina dan G.S. Lbov sangat populer. Ini adalah algoritma terkenal seperti FOREL, BIGFOR, KRAB, NTTP, DRET, TRF, dll. Berdasarkan paket ini, paket perangkat lunak OTEKS khusus telah dibuat. Produk perangkat lunak PPSA dan Class-Master yang tidak kalah menarik diciptakan oleh matematikawan Moskow S.A. Aivazyan, I.S. Enyukov dan B.G. Mirkin.

Dalam berbagai tingkat, metode analisis klaster tersedia di sebagian besar paket statistik dalam dan luar negeri yang paling terkenal: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, SORRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS, dll. Tentu saja, 10 tahun setelah publikasi ulasan ini, cukup banyak perubahan, versi baru dari banyak program statistik telah muncul, dan program yang benar-benar baru telah muncul, menggunakan algoritma baru dan daya komputasi yang sangat meningkat. Namun, sebagian besar paket statistik menggunakan algoritma yang diusulkan dan dikembangkan pada tahun 60-70an.

Menurut perkiraan kasar para ahli, jumlah publikasi tentang analisis klaster dan penerapannya di berbagai bidang pengetahuan meningkat dua kali lipat setiap tiga tahun. Apa alasan tingginya minat terhadap jenis analisis ini? Secara obyektif, ada tiga penyebab utama fenomena ini. Ini adalah munculnya teknologi komputasi yang kuat, yang tanpanya analisis klaster data nyata hampir tidak mungkin diterapkan. Alasan kedua adalah ilmu pengetahuan modern semakin mengandalkan klasifikasi dalam konstruksinya. Terlebih lagi, proses ini semakin mendalam, karena bersamaan dengan itu terdapat peningkatan spesialisasi pengetahuan, yang tidak mungkin terjadi tanpa klasifikasi yang cukup obyektif.

Alasan ketiga adalah bahwa pendalaman pengetahuan khusus pasti mengarah pada peningkatan jumlah variabel yang diperhitungkan ketika menganalisis objek dan fenomena tertentu. Akibatnya, klasifikasi subjektif, yang sebelumnya didasarkan pada sejumlah kecil karakteristik yang diperhitungkan, seringkali tidak dapat diandalkan. Dan klasifikasi objektif, dengan serangkaian karakteristik objek yang terus meningkat, memerlukan penggunaan algoritma pengelompokan yang kompleks, yang hanya dapat diimplementasikan berdasarkan komputer modern. Alasan-alasan inilah yang memunculkan “boom cluster”. Namun, di kalangan dokter dan ahli biologi, analisis klaster belum menjadi metode penelitian yang cukup populer dan umum.

2 TERMINOLOGI

2. 1 OBYEK DAN FITUR

Mari kita perkenalkan dulu konsep-konsep seperti objek dan atribut. Objek - dari bahasa Latin objectum - subjek. Dalam kaitannya dengan kimia dan biologi, yang dimaksud dengan objek adalah subjek penelitian tertentu yang dipelajari dengan menggunakan metode fisika, kimia, dan lainnya. Benda-benda tersebut dapat berupa sampel, tumbuhan, hewan, dan lain-lain. Seperangkat objek tertentu yang tersedia bagi peneliti untuk dipelajari disebut sampel, atau populasi sampel. Banyaknya objek dalam suatu populasi biasa disebut dengan ukuran sampel. Biasanya ukuran sampel dilambangkan dengan huruf latin “n” atau “N”.

Atribut (sinonim - properti, variabel, karakteristik; bahasa Inggris - variabel - variabel.) - mewakili properti tertentu dari suatu objek. Properti ini dapat dinyatakan sebagai nilai numerik atau non-numerik. Misalnya, tekanan darah (sistolik atau diastolik) diukur dalam milimeter air raksa, berat badan dalam kilogram, tinggi badan dalam sentimeter, dll. Tanda-tanda seperti itu bersifat kuantitatif. Berbeda dengan karakteristik numerik (skala) yang kontinu ini, sejumlah karakteristik mungkin mempunyai nilai yang diskrit dan terputus-putus. Pada gilirannya, fitur-fitur diskrit seperti itu biasanya dibagi menjadi dua kelompok.

1) Kelompok pertama adalah pangkat, atau disebut juga variabel ordinal (skala). Ciri-ciri tersebut memiliki sifat mengurutkan makna-makna ini. Ini termasuk tahapan penyakit tertentu, kelompok umur, skor pengetahuan siswa, skala 12 poin besaran gempa menurut Richter, dll.

2) Kelompok karakteristik diskrit kedua tidak memiliki urutan seperti itu dan disebut karakteristik nominal (dari kata "nominal" - sampel) atau karakteristik klasifikasi. Contoh dari tanda-tanda tersebut dapat berupa kondisi pasien - “sehat” atau “sakit”, jenis kelamin pasien, periode observasi – “sebelum pengobatan” dan “setelah pengobatan”, dll. Dalam kasus ini, biasanya dikatakan bahwa ciri-ciri tersebut termasuk dalam skala penamaan.

Konsep objek dan atribut biasanya disebut matriks “Objek-properti” atau “Atribut objek”. Matriksnya akan berupa tabel persegi panjang yang berisi nilai-nilai fitur yang menggambarkan sifat-sifat sampel observasi yang dipelajari. Dalam konteks ini, satu pengamatan akan dicatat sebagai satu baris tersendiri yang berisi nilai-nilai karakteristik yang digunakan. Fitur terpisah dalam matriks data tersebut akan diwakili oleh kolom yang berisi nilai fitur ini untuk semua objek dalam sampel.

2. 2 JARAK ANTARA BENDA (METRIK)

Mari kita perkenalkan konsep "jarak antar benda". Konsep ini merupakan ukuran integral dari kemiripan suatu benda satu sama lain. Jarak antar objek dalam ruang fitur merupakan nilai d ij yang memenuhi aksioma berikut:

1. d ij > 0 (jarak non-negatif)

2. d ij = d ji (simetri)

3. d ij + d jk > d ik (pertidaksamaan segitiga)

4. Jika d ij tidak sama dengan 0, maka i tidak sama dengan j (keterbedaan benda yang tidak identik)

5. Jika d ij = 0, maka i = j (tidak dapat dibedakannya benda-benda yang identik)

Lebih mudah untuk menyatakan ukuran kedekatan (kesamaan) objek sebagai kebalikan dari jarak antar objek. Banyak publikasi tentang analisis klaster menjelaskan lebih dari 50 metode berbeda untuk menghitung jarak antar objek. Selain istilah "jarak", istilah lain yang sering ditemukan dalam literatur adalah "metrik", yang berarti metode untuk menghitung jarak tertentu. Yang paling mudah diakses untuk persepsi dan pemahaman dalam hal karakteristik kuantitatif adalah apa yang disebut “jarak Euclidean” atau “metrik Euclidean”. Rumus untuk menghitung jarak ini adalah:

Rumus ini menggunakan notasi berikut:

· d ij - jarak antara objek ke-i dan ke-j;

· x ik - nilai numerik variabel ke-k untuk objek ke-i;

· x jk - nilai numerik variabel ke-k untuk objek ke-j;

· v - jumlah variabel yang mendeskripsikan objek.

Jadi, untuk kasus v=2, jika kita hanya mempunyai dua sifat kuantitatif, jarak d ij akan sama dengan panjang sisi miring segitiga siku-siku yang menghubungkan dua titik pada sistem koordinat persegi panjang. Kedua titik ini akan sesuai dengan pengamatan sampel ke-i dan ke-j. Seringkali, alih-alih jarak Euclidean biasa, kuadrat d 2 ij digunakan. Selain itu, dalam beberapa kasus, jarak Euclidean “tertimbang” digunakan, dalam perhitungan yang menggunakan koefisien pembobotan untuk masing-masing suku. Untuk mengilustrasikan konsep metrik Euclidean, kami menggunakan contoh pelatihan sederhana. Matriks data yang ditunjukkan pada tabel di bawah ini terdiri dari 5 observasi dan dua variabel.

Tabel 1

Matriks data lima sampel observasi dan dua variabel.

Dengan menggunakan metrik Euclidean, kita menghitung matriks jarak antar objek, yang terdiri dari nilai d ij - jarak antara objek ke-i dan ke-j. Dalam kasus kita, i dan j adalah jumlah objek observasi. Karena ukuran sampel adalah 5, maka i dan j masing-masing dapat mengambil nilai dari 1 hingga 5. Jelas juga bahwa jumlah semua kemungkinan jarak berpasangan akan sama dengan 5*5=25. Memang benar, untuk objek pertama jaraknya adalah sebagai berikut: 1-1; 1-2; 1-3; 1-4; 1-5. Untuk objek 2 juga akan ada 5 kemungkinan jarak: 2-1; 2-2; 2-3; 2-4; 2-5, dst. Akan tetapi, banyaknya jarak yang berbeda akan kurang dari 25, karena sifat tidak dapat dibedakannya benda-benda yang identik harus diperhitungkan - d ij = 0 untuk i = j. Artinya jarak antara benda No. 1 dengan benda No. 1 yang sama adalah nol. Jarak nol yang sama akan berlaku untuk semua kasus lainnya i = j. Selain itu, dari sifat simetri dapat disimpulkan bahwa d ij = d ji untuk sembarang i dan j. Itu. jarak antara benda No.1 dan No.2 sama dengan jarak antara benda No.2 dan No.1.

Ungkapan jarak Euclidean sangat mengingatkan pada apa yang disebut jarak pangkat Minkowski yang digeneralisasi, di mana besaran lain digunakan dalam pangkat, bukan dua. Secara umum nilai ini dilambangkan dengan simbol “p”.

Ketika p = 2 kita mendapatkan jarak Euclidean seperti biasa. Jadi ekspresi metrik Minkowski yang digeneralisasi memiliki bentuk:

Pilihan nilai tertentu dari eksponen pangkat “p” dilakukan oleh peneliti sendiri.

Kasus khusus dari jarak Minkowski adalah apa yang disebut jarak Manhattan, atau “jarak blok kota”, yang sesuai dengan p=1:

Jadi, jarak Manhattan adalah jumlah nilai absolut dari perbedaan antara ciri-ciri benda yang bersesuaian. Membiarkan p hingga tak terhingga, kita mendapatkan metrik “dominasi”, atau metrik Sup:

yang juga dapat direpresentasikan dalam bentuk d ij = max| x ik - x jk |.

Metrik Minkowski sebenarnya adalah sekumpulan besar metrik, termasuk metrik yang paling populer. Namun, ada juga metode untuk menghitung jarak antar objek yang secara fundamental berbeda dari metrik Minkowski. Yang paling penting adalah apa yang disebut jarak Mahalanobis, yang memiliki sifat yang cukup spesifik. Ekspresi untuk metrik ini:

Di sini melalui X Saya Dan X J vektor kolom nilai variabel untuk objek ke-i dan ke-j ditunjukkan. Simbol T dalam ekspresi (X Saya - X J ) T menunjukkan apa yang disebut operasi transposisi vektor. Simbol S menunjukkan matriks varians-kovarians dalam grup secara keseluruhan. Sebuah simbol -1 di atas S berarti matriks perlu dibalik S . Berbeda dengan metrik Minkowski dan metrik Euclidean, jarak Mahalanobis melalui matriks varians-kovarians S terkait dengan korelasi variabel. Ketika korelasi antar variabel adalah nol, jarak Mahalanobis setara dengan kuadrat jarak Euclidean.

Dalam kasus penggunaan ciri kualitatif dikotomis (hanya memiliki dua nilai), jarak Hamming banyak digunakan

sama dengan jumlah perbedaan antara nilai fitur yang sesuai untuk objek ke-i dan ke-j yang dipertimbangkan.

2. 3 KEPADATAN DAN LOKALITAS CLUSTER

Tujuan utama analisis klaster adalah menemukan kelompok objek yang serupa satu sama lain dalam suatu sampel. Mari kita asumsikan bahwa dengan beberapa metode yang mungkin kita telah memperoleh kelompok - kelompok seperti itu. Properti penting dari cluster harus diperhatikan. Salah satu sifat tersebut adalah kepadatan distribusi titik, observasi dalam cluster. Properti ini memungkinkan kita untuk mendefinisikan cluster sebagai sekelompok titik dalam ruang multidimensi, yang relatif padat dibandingkan dengan area lain dalam ruang tersebut, yang tidak berisi titik sama sekali atau berisi sejumlah kecil observasi. Dengan kata lain, seberapa kompak suatu cluster, atau, sebaliknya, seberapa jarang cluster tersebut? Meskipun terdapat bukti yang cukup mengenai sifat ini, tidak ada cara yang pasti untuk menghitung indikator (densitas) tersebut. Indikator paling sukses yang mengkarakterisasi kekompakan dan kepadatan “pengemasan” observasi multidimensi dalam suatu cluster tertentu adalah dispersi jarak dari pusat cluster ke titik-titik individual cluster. Semakin kecil sebaran jarak tersebut, semakin dekat jarak pengamatan ke pusat cluster, maka kepadatan cluster semakin besar. Dan sebaliknya, semakin besar penyebaran jaraknya, semakin jarang cluster tersebut, dan oleh karena itu, terdapat titik-titik yang terletak dekat dengan pusat cluster dan cukup jauh dari pusat cluster.

Properti cluster berikutnya adalah ukurannya. Indikator utama ukuran cluster adalah “radiusnya”. Properti ini paling mencerminkan ukuran sebenarnya dari cluster jika cluster yang dimaksud berbentuk bulat dan merupakan hipersfer dalam ruang multidimensi. Namun jika clusternya berbentuk memanjang, maka konsep radius atau diameter tidak lagi mencerminkan ukuran sebenarnya dari cluster tersebut.

Properti penting lainnya dari sebuah cluster adalah lokalitas dan keterpisahannya. Ini mencirikan tingkat tumpang tindih dan jarak timbal balik dari cluster satu sama lain dalam ruang multidimensi. Misalnya, perhatikan distribusi tiga cluster dalam ruang fitur baru yang terintegrasi pada gambar di bawah. Sumbu 1 dan 2 diperoleh dengan metode khusus dari 12 tanda sifat reflektif berbagai bentuk eritrosit, dipelajari menggunakan mikroskop elektron.

Gambar 1

Kita melihat bahwa cluster 1 memiliki ukuran minimum, dan cluster 2 dan 3 memiliki ukuran yang kira-kira sama. Pada saat yang sama, kita dapat mengatakan bahwa kepadatan minimum, dan oleh karena itu penyebaran jarak maksimum, merupakan karakteristik cluster 3. Selain itu, cluster 1 dipisahkan oleh area ruang kosong yang cukup luas baik dari cluster 2 maupun cluster 3. Sedangkan cluster 2 dan 3 sebagian tumpang tindih satu sama lain. Menarik juga bahwa cluster 1 memiliki perbedaan yang jauh lebih besar dari cluster ke-2 dan ke-3 di sepanjang sumbu 1 dibandingkan di sepanjang sumbu 2. Sebaliknya, cluster 2 dan 3 berbeda kira-kira sama satu sama lain baik di sepanjang sumbu 1 maupun di sepanjang sumbu 2. Jelas sekali. , untuk analisis visual seperti itu, perlu memproyeksikan semua pengamatan sampel ke sumbu khusus di mana proyeksi elemen cluster akan terlihat sebagai cluster terpisah.

2. 4 JARAK ANTARA CLUSTER

Dalam pengertian yang lebih luas, objek dapat dipahami tidak hanya sebagai objek kajian asli, yang disajikan dalam matriks “properti objek” sebagai garis terpisah, atau sebagai titik individual dalam ruang fitur multidimensi, tetapi juga sebagai kelompok terpisah dari titik-titik tersebut. , disatukan oleh satu atau beberapa algoritma ke dalam sebuah cluster. Dalam hal ini timbul pertanyaan bagaimana memahami jarak antara akumulasi titik (cluster) tersebut dan bagaimana cara menghitungnya. Dalam hal ini, terdapat kemungkinan yang lebih beragam dibandingkan dengan menghitung jarak antara dua observasi dalam ruang multidimensi. Prosedur ini diperumit oleh kenyataan bahwa, tidak seperti titik, cluster menempati volume ruang multidimensi tertentu dan terdiri dari banyak titik. Dalam analisis cluster, jarak antarcluster banyak digunakan, dihitung berdasarkan prinsip tetangga terdekat, pusat gravitasi, tetangga terjauh, dan median. Empat metode yang paling banyak digunakan adalah metode linkage tunggal, linkage lengkap, linkage sedang, dan metode Ward. Pada metode single link, suatu objek akan digabungkan ke cluster yang sudah ada jika setidaknya salah satu elemen cluster memiliki tingkat kemiripan yang sama dengan objek yang digabungkan. Untuk metode tautan lengkap, sebuah objek ditambahkan ke sebuah cluster hanya jika kesamaan antara kandidat untuk dimasukkan dan salah satu elemen cluster tidak kurang dari ambang batas tertentu. Ada beberapa modifikasi pada metode tautan rata-rata yang merupakan kompromi antara tautan tunggal dan tautan penuh. Mereka menghitung nilai rata-rata kemiripan seorang calon inklusi dengan seluruh objek cluster yang ada. Penggabungan dilakukan ketika nilai rata-rata kesamaan yang ditemukan mencapai atau melampaui ambang batas tertentu. Yang paling umum digunakan adalah rata-rata aritmatika kemiripan antara objek cluster dan kandidat untuk dimasukkan ke dalam cluster.

Banyak metode pengelompokan yang berbeda satu sama lain karena algoritmanya menghitung berbagai fungsi kualitas partisi pada setiap langkah. Metode Ward yang populer dirancang untuk mengoptimalkan varian minimum jarak intra-cluster. Pada langkah pertama, setiap cluster terdiri dari satu objek, sehingga dispersi jarak intracluster sama dengan 0. Dengan menggunakan metode ini, objek-objek tersebut digabungkan yang memberikan peningkatan dispersi minimum, sehingga metode ini cenderung menghasilkan cluster hipersferis.

Upaya berulang-ulang untuk mengklasifikasikan metode analisis klaster menghasilkan lusinan atau bahkan ratusan kelas yang berbeda. Keanekaragaman tersebut dihasilkan oleh sejumlah besar metode yang mungkin untuk menghitung jarak antar observasi individu, sejumlah besar metode untuk menghitung jarak antar cluster individu dalam proses clustering, dan beragam perkiraan optimalitas struktur cluster akhir.

Paket statistik populer yang paling banyak digunakan adalah dua kelompok algoritma analisis klaster: metode aglomerasi hierarkis dan metode pengelompokan berulang.

3. METODE PENGELOMPOKAN

3. 1 FITUR METODE AGGLOMERASI HIERARKIS

Dalam algoritma hierarki aglomeratif, yang lebih sering digunakan dalam penelitian biomedis nyata, pada awalnya semua objek (pengamatan) dianggap sebagai kelompok terpisah dan independen yang hanya terdiri dari satu elemen. Tanpa penggunaan teknologi komputasi yang kuat, penerapan analisis data cluster akan sangat bermasalah.

Pilihan metrik dibuat oleh peneliti sendiri. Setelah menghitung matriks jarak, proses dimulai aglomerasi (dari bahasa Latin agglomero - saya tambahkan, kumpulkan), melewati langkah demi langkah secara berurutan. Pada langkah awal proses ini, dua observasi awal (monocluster) yang diantara keduanya terdapat jarak minimum, digabungkan menjadi satu cluster yang terdiri dari dua objek (observasi). Jadi, alih-alih N monocluster (cluster yang terdiri dari satu objek), setelah langkah pertama akan ada cluster N-1, yang mana satu cluster akan berisi dua objek (pengamatan), dan cluster N-2 akan tetap hanya terdiri dari satu objek. Pada langkah kedua, berbagai metode menggabungkan cluster N-2 satu sama lain dimungkinkan. Hal ini karena salah satu cluster tersebut sudah berisi dua objek. Oleh karena itu, muncul dua pertanyaan utama:

· bagaimana menghitung koordinat sekelompok dua (dan kemudian lebih dari dua) objek;

· bagaimana menghitung jarak ke cluster “multi-objek” dari “mono-cluster” dan antara cluster “multi-objek”.

Pertanyaan-pertanyaan ini pada akhirnya menentukan struktur akhir dari cluster akhir (struktur cluster berarti komposisi cluster individu dan lokasi relatifnya dalam ruang multidimensi). Berbagai kombinasi metrik dan metode penghitungan koordinat dan jarak timbal balik klaster menimbulkan beragamnya metode analisis klaster. Pada langkah kedua, bergantung pada metode yang dipilih untuk menghitung koordinat suatu cluster yang terdiri dari beberapa objek dan metode penghitungan jarak antarcluster, dimungkinkan untuk menggabungkan kembali dua observasi terpisah menjadi cluster baru, atau menggabungkan satu observasi baru. ke cluster yang terdiri dari dua objek. Untuk kenyamanan, sebagian besar program untuk metode hierarki aglomeratif dapat menyediakan dua grafik utama untuk dilihat setelah selesai. Grafik pertama disebut dendrogram (dari bahasa Yunani dendron - pohon), yang mencerminkan proses aglomerasi, penggabungan pengamatan individu menjadi satu kelompok akhir. Mari kita beri contoh dendrogram 5 observasi untuk dua variabel.

Jadwal1

Sumbu vertikal dari grafik tersebut mewakili sumbu jarak antarcluster, dan sumbu horizontal menunjukkan jumlah objek – kasus yang digunakan dalam analisis. Dari dendrogram ini terlihat bahwa objek No. 1 dan No. 2 terlebih dahulu digabungkan menjadi satu cluster, karena jarak antara keduanya minimal dan sama dengan 1. Penggabungan ini ditampilkan pada grafik dengan garis horizontal yang menghubungkan segmen vertikal yang muncul. dari titik yang ditandai sebagai C_1 dan C_2. Mari kita perhatikan fakta bahwa garis horizontal itu sendiri lewat tepat pada tingkat jarak antarcluster sama dengan 1. Kemudian, pada langkah kedua, objek No. 3, yang ditunjuk sebagai C_3, ditambahkan ke cluster ini, yang sudah termasuk dua objek. Langkah selanjutnya adalah menggabungkan objek No. 4 dan No. 5 yang jaraknya 1,41. Dan pada langkah terakhir, cluster objek 1, 2 dan 3 digabungkan dengan cluster objek 4 dan 5. Grafik menunjukkan bahwa jarak antara dua cluster kedua dari belakang (cluster terakhir mencakup kelima objek) lebih dari 5 , tetapi kurang dari 6, karena garis horizontal atas yang menghubungkan dua cluster kedua dari belakang melewati pada tingkat yang kira-kira sama dengan 7, dan tingkat hubungan objek 4 dan 5 sama dengan 1,41.

Dendrogram di bawah ini diperoleh dengan menganalisis susunan data nyata yang terdiri dari 70 sampel kimia olahan yang masing-masing dicirikan oleh 12 karakteristik.

Jadwal 2

Grafik menunjukkan bahwa pada langkah terakhir, ketika dua cluster terakhir digabungkan, jarak antara keduanya sekitar 200 unit. Terlihat bahwa cluster pertama memiliki objek yang jauh lebih sedikit dibandingkan cluster kedua.Di bawah ini adalah bagian dendrogram yang diperbesar dimana nomor observasi, yang ditetapkan sebagai C_65, C_58, dll., terlihat cukup jelas. (dari kiri ke kanan): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94, dst.

Grafik 3 Bagian yang diperbesar dari grafik No.2 di atas

Terlihat objek 44 merupakan monocluster yang menyatu pada langkah kedua dari belakang dengan cluster yang tepat dan kemudian pada langkah terakhir semua observasi digabungkan menjadi satu cluster.

Grafik lain yang dibuat dalam prosedur tersebut adalah grafik perubahan jarak antarcluster pada setiap langkah penggabungan. Di bawah ini adalah grafik serupa untuk dendrogram di atas.

Jadwal 4

Dalam sejumlah program, dimungkinkan untuk menampilkan dalam bentuk tabel hasil penggabungan objek pada setiap langkah pengelompokan. Di sebagian besar tabel ini, untuk menghindari kebingungan, terminologi yang berbeda digunakan untuk menunjukkan observasi awal - monocluster, dan cluster sebenarnya yang terdiri dari dua atau lebih observasi. Dalam paket statistik berbahasa Inggris, observasi awal (baris matriks data) ditetapkan sebagai “kasus”. Untuk menunjukkan ketergantungan struktur cluster pada pilihan metrik dan pilihan algoritma untuk menggabungkan cluster, kami menyajikan dendrogram di bawah ini yang sesuai dengan algoritma koneksi lengkap. Dan di sini kita melihat bahwa objek #44 digabungkan dengan sisa pilihan pada langkah terakhir.

Jadwal 5

Sekarang mari kita bandingkan dengan diagram lain yang diperoleh menggunakan metode single link dengan data yang sama. Berbeda dengan metode koneksi penuh, jelas bahwa metode ini menghasilkan rantai panjang objek yang saling menempel satu sama lain secara berurutan. Namun, dalam ketiga kasus tersebut kita dapat mengatakan bahwa ada dua kelompok utama.

Jadwal 6

Mari kita perhatikan juga bahwa dalam ketiga kasus tersebut, objek No. 44 bergabung sebagai monokluster, meskipun pada langkah proses pengelompokan yang berbeda. Identifikasi monokluster semacam itu merupakan cara yang baik untuk mendeteksi pengamatan yang tidak wajar, yang disebut outlier. Mari kita hapus objek "mencurigakan" No. 44 ini dan lakukan clustering lagi. Kami mendapatkan dendrogram berikut:

Jadwal 7

Dapat dilihat bahwa efek “rantai” masih tetap ada, begitu pula dengan pembagian menjadi dua kelompok observasi lokal.

3. 2 FITUR METODE KLUSTERISASI ITERATIF

Di antara metode iteratif, metode yang paling populer adalah metode k-means McKean. Berbeda dengan metode hierarki, dalam sebagian besar implementasi metode ini, pengguna sendiri yang harus menentukan jumlah cluster akhir yang diperlukan, yang biasanya dilambangkan dengan “k”. Seperti dalam metode pengelompokan hierarki, pengguna dapat memilih satu atau jenis metrik lainnya. Algoritma yang berbeda dari metode k-means juga berbeda dalam cara mereka memilih pusat awal dari cluster yang ditentukan. Dalam beberapa versi metode, pengguna sendiri dapat (atau harus) menentukan titik awal tersebut, baik dengan memilihnya dari pengamatan nyata, atau dengan menentukan koordinat titik tersebut untuk masing-masing variabel. Dalam implementasi lain dari metode ini, sejumlah k titik awal dipilih secara acak, dan titik awal ini (benih cluster) selanjutnya dapat disempurnakan dalam beberapa tahap. Ada 4 tahapan utama dari metode tersebut:

· k observasi dipilih atau ditugaskan untuk menjadi pusat utama cluster;

· jika diperlukan, klaster perantara dibentuk dengan menugaskan setiap observasi ke pusat klaster terdekat yang ditentukan;

· setelah menugaskan semua observasi ke masing-masing cluster, pusat cluster primer diganti dengan rata-rata cluster;

· Iterasi sebelumnya diulangi hingga perubahan koordinat pusat cluster menjadi minimal.

Dalam beberapa varian metode ini, pengguna dapat menentukan nilai numerik dari kriteria, yang diartikan sebagai jarak minimum untuk memilih pusat cluster baru. Suatu observasi tidak akan dianggap sebagai calon pusat cluster baru apabila jaraknya terhadap pusat cluster yang digantikan melebihi angka yang ditentukan. Parameter ini disebut “radius” di beberapa program. Selain parameter ini, dimungkinkan untuk mengatur jumlah maksimum iterasi atau mencapai jumlah tertentu, biasanya cukup kecil, yang dapat digunakan untuk membandingkan perubahan jarak untuk semua pusat cluster. Parameter ini biasa disebut “konvergensi” karena mencerminkan konvergensi proses pengelompokan berulang. Di bawah ini kami sajikan beberapa hasil yang diperoleh dengan menggunakan metode McKean k-means terhadap data sebelumnya. Jumlah cluster yang dibutuhkan mula-mula ditetapkan menjadi 3, kemudian menjadi 2. Bagian pertama berisi hasil analisis varians satu arah, di mana jumlah cluster berperan sebagai faktor pengelompokan. Kolom pertama berisi daftar 12 variabel, diikuti jumlah kuadrat (SS) dan derajat kebebasan (df), kemudian uji F Fisher dan pada kolom terakhir dicapai tingkat signifikansi “p”.

Tabel 2 Data yang diperoleh dengan metode McKean k-means, berlaku untuk 70 sampel yang diteliti.

Variabel

Seperti dapat dilihat dari tabel ini, hipotesis nol tentang persamaan rata-rata pada ketiga kelompok ditolak. Di bawah ini adalah grafik nilai rata-rata seluruh variabel untuk masing-masing cluster. Rata-rata cluster yang sama dari variabel diberikan di bawah ini dalam bentuk tabel.

Tabel 3. Pemeriksaan data secara rinci dengan menggunakan contoh tiga cluster.

Variabel

Klaster No.1

Klaster No.2

Gugus No.3

Jadwal 8

Analisis nilai rata-rata variabel untuk setiap cluster memungkinkan kita untuk menyimpulkan bahwa menurut atribut X1, cluster 1 dan 3 memiliki nilai yang mendekati, sedangkan cluster 2 memiliki nilai rata-rata yang jauh lebih rendah dibandingkan dua cluster lainnya. Sebaliknya menurut atribut X2, cluster pertama memiliki nilai terendah, sedangkan cluster ke-2 dan ke-3 memiliki nilai rata-rata yang lebih tinggi dan mendekati. Untuk karakteristik X3-X12, nilai rata-rata pada cluster 1 jauh lebih tinggi dibandingkan pada cluster 2 dan 3. Tabel analisis varians hasil pengelompokan menjadi dua cluster berikut juga menunjukkan perlunya menolak hipotesis nol persamaan mean kelompok untuk hampir seluruh 12 karakteristik, kecuali variabel X4 yang tingkat signifikansinya lebih dari 5%.

Tabel 4. Tabel analisis varians hasil clustering menjadi dua cluster.

Variabel

Di bawah ini adalah grafik dan tabel mean grup untuk kasus clustering menjadi dua cluster.

Tabel 5. Tabel kasus clustering menjadi dua cluster.

Variabel

Klaster No.1

Klaster No.2

Jadwal 9.

Dalam hal peneliti tidak dapat menentukan terlebih dahulu jumlah cluster yang paling mungkin, ia terpaksa mengulangi perhitungan, menentukan jumlah cluster yang berbeda, serupa dengan yang dilakukan di atas. Dan kemudian, bandingkan hasil yang diperoleh satu sama lain, tentukan salah satu opsi pengelompokan yang paling dapat diterima.

4 . PENGELOMPOKAN FITUR

Selain mengelompokkan pengamatan individu, ada juga algoritma untuk mengelompokkan fitur. Salah satu metode pertama adalah metode korelasi galaksi oleh P.V. Terentyev. Gambaran primitif dari galaksi semacam itu sering kali dapat ditemukan dalam publikasi biomedis dalam bentuk lingkaran yang dihiasi dengan panah yang menghubungkan tanda-tanda yang korelasinya ditemukan oleh penulis. Sejumlah program memiliki prosedur terpisah untuk mengelompokkan objek dan fitur. Misalnya, dalam paket SAS, prosedur VARCLUS (dari VARIable - variabel dan CLUSter - cluster) digunakan untuk mengelompokkan fitur, sedangkan analisis observasi cluster dilakukan dengan prosedur lain - FASTCLUS dan CLUSTER. Dalam kedua kasus tersebut, dendrogram dibuat menggunakan prosedur TREE (pohon).

Dalam paket statistik lainnya, pemilihan elemen untuk pengelompokan - objek atau fitur - dilakukan dalam modul yang sama. Ekspresi yang menyertakan nilai koefisien tertentu yang mencerminkan kekuatan hubungan sepasang fitur sering kali digunakan sebagai metrik saat mengelompokkan fitur. Dalam hal ini, sangat mudah bagi fitur-fitur dengan kekuatan koneksi sama dengan satu (ketergantungan fungsional) untuk mengambil jarak antar fitur sama dengan nol. Memang, dengan hubungan fungsional, nilai suatu karakteristik dapat digunakan untuk menghitung secara akurat nilai karakteristik lainnya. Ketika kekuatan hubungan antar fitur berkurang, jaraknya pun bertambah. Di bawah ini adalah grafik yang menunjukkan dendrogram untuk menggabungkan 12 fitur yang digunakan di atas dalam mengelompokkan 70 sampel analitik.

Grafik 10. Dendrogrampengelompokan 12 fitur.

Seperti dapat dilihat dari dendrogram ini, kita berhadapan dengan dua pengelompokan sifat lokal: X1-X10 dan X11-X12.Kelompok sifat X1-X10 dicirikan oleh nilai jarak antarkluster yang cukup kecil, tidak melebihi sekitar 100 unit. Di sini kita juga melihat beberapa subgrup berpasangan internal: X1 dan X2, X3 dan X4, X6 dan X7. Jarak antara karakteristik pasangan-pasangan ini yang sangat mendekati nol menunjukkan hubungan berpasangan yang kuat. Sedangkan untuk pasangan X11 dan X12 jarak antarclusternya jauh lebih besar yakni sekitar 300 unit. Terakhir, jarak yang sangat jauh antara cluster kiri (X1-X10) dan kanan (X11-X12), yaitu sekitar 1.150 unit, menunjukkan bahwa hubungan antara kedua kelompok fitur ini cukup minim.

5. STABILITAS DAN KUALITAS KLUSTERISASI

Jelas, tidak masuk akal untuk mengajukan pertanyaan tentang seberapa absolut klasifikasi tertentu yang diperoleh dengan menggunakan metode analisis klaster. Ketika metode clustering diubah, stabilitas diwujudkan dalam kenyataan bahwa dua cluster terlihat cukup jelas dalam dendrogram.

Sebagai salah satu cara yang mungkin untuk memeriksa stabilitas hasil analisis cluster, dapat digunakan metode membandingkan hasil yang diperoleh untuk algoritma clustering yang berbeda. Cara lainnya adalah apa yang disebut metode bootstrap yang dikemukakan oleh B. Efron pada tahun 1977, metode “jackknife” dan “sliding control”. Cara paling sederhana untuk menguji ketahanan solusi klaster adalah dengan membagi sampel asli secara acak menjadi dua bagian yang kira-kira sama, mengelompokkan kedua bagian tersebut, dan kemudian membandingkan hasilnya. Cara yang lebih padat karya melibatkan pengecualian objek pertama secara berurutan dan mengelompokkan objek yang tersisa (N - 1). Kemudian, lakukan prosedur ini secara berurutan dengan pengecualian prosedur kedua, ketiga, dan seterusnya. objek, struktur semua N cluster yang dihasilkan dianalisis. Algoritme pengujian ketahanan lainnya melibatkan propagasi ganda, menduplikasi sampel asli dari N objek, kemudian menggabungkan semua sampel duplikat menjadi satu sampel besar (populasi semu) dan secara acak mengambil sampel baru sebanyak N objek dari sampel tersebut. Setelah itu dilakukan pengelompokan sampel tersebut, kemudian sampel acak baru diekstraksi dan dilakukan pengelompokan kembali, dan seterusnya. Ini juga merupakan jalur yang cukup padat karya.

Permasalahan yang tidak kalah pentingnya adalah ketika menilai kualitas clustering. Ada cukup banyak algoritma untuk mengoptimalkan solusi cluster. Karya pertama yang berisi rumusan kriteria untuk meminimalkan varians intra-cluster dan algoritma (seperti k-means) untuk menemukan solusi optimal muncul pada tahun 50-an. Pada tahun 1963 Artikel J. Ward juga menguraikan algoritma optimasi hierarki serupa. Tidak ada kriteria universal untuk mengoptimalkan solusi cluster. Semua ini menyulitkan peneliti untuk memilih solusi optimal. Dalam situasi seperti itu, cara terbaik untuk menetapkan bahwa solusi cluster yang ditemukan adalah optimal pada tahap penelitian ini hanya dengan konsistensi solusi ini dengan kesimpulan yang diperoleh dengan menggunakan metode statistik multivariat lainnya.

Kesimpulan tentang optimalitas clustering juga didukung oleh hasil positif pengujian momen prediktif dari solusi yang diperoleh pada objek kajian lainnya. Saat menggunakan metode analisis klaster hierarki, kami dapat merekomendasikan membandingkan beberapa grafik perubahan langkah demi langkah dalam jarak antarkluster. Dalam hal ini, preferensi harus diberikan pada opsi yang memiliki garis datar dengan kenaikan seperti itu dari langkah pertama hingga beberapa langkah kedua dari belakang dengan kenaikan vertikal tajam dari grafik ini dalam 1-2 langkah terakhir pengelompokan.

KESIMPULAN

Dalam pekerjaan saya, saya mencoba menunjukkan tidak hanya kompleksitas jenis analisis ini, tetapi juga kemampuan pemrosesan data yang optimal, karena seringkali untuk keakuratan hasil perlu menggunakan puluhan hingga ratusan sampel. Jenis analisis ini membantu mengklasifikasikan dan memproses hasil. Saya juga berpendapat bahwa tidak kalah pentingnya bahwa teknologi komputer dapat diterima dalam analisis ini, yang memungkinkan proses pemrosesan hasil menjadi lebih hemat tenaga kerja dan dengan demikian memungkinkan kita untuk lebih memperhatikan pemilihan sampel yang benar untuk dianalisis.

Ada kehalusan dan detail dalam penggunaan analisis klaster yang muncul dalam kasus-kasus tertentu dan tidak langsung terlihat. Misalnya, peran skala fitur mungkin minimal, atau mungkin dominan dalam beberapa kasus. Dalam kasus seperti itu, transformasi variabel perlu digunakan. Hal ini sangat efektif ketika menggunakan metode yang menghasilkan transformasi fitur nonlinier yang umumnya meningkatkan tingkat korelasi antar fitur secara keseluruhan.

Ada kekhususan yang lebih besar lagi dalam penggunaan analisis klaster dalam kaitannya dengan objek yang hanya dijelaskan oleh karakteristik kualitatif. Dalam hal ini, metode digitalisasi awal fitur kualitatif dan melakukan analisis cluster dengan fitur baru cukup berhasil. Dalam pekerjaan saya, saya menunjukkan bahwa analisis klaster memberikan banyak informasi baru dan orisinal baik ketika diterapkan pada sistem yang cukup dipelajari maupun ketika mempelajari sistem dengan struktur yang tidak diketahui.

Perlu juga dicatat bahwa analisis klaster menjadi sangat diperlukan dalam studi evolusi, memungkinkan konstruksi pohon filogenetik yang menunjukkan jalur evolusi. Metode ini juga banyak digunakan dalam program penelitian ilmiah di bidang kimia fisik dan analitik.

BIBLIOGRAFI

1) Ayvazyan S. A., Enyukov I. S., Meshalkin L. D. Tentang struktur dan isi paket perangkat lunak untuk analisis statistik terapan // Algoritma dan perangkat lunak untuk analisis statistik terapan - M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. Klasifikasi pengamatan multidimensi - M.: Statistika, 1974.

3) Becker V. A., Lukatskaya M. L. Tentang analisis struktur matriks koefisien kopling // Masalah pemodelan dan peramalan statistik ekonomi di industri - Novosibirsk, 1970.

4) Braverman E. M., Muchnik I. B. Metode struktural pengolahan data - M.: Nauka, 1983.

5) Voronin Yu.A.Teori klasifikasi dan penerapannya - Novosibirsk: Nauka, 1987.

6) Baik I. J. Botriologi botryologi // Klasifikasi dan cluster - M.: Mir, 1980.

7) Dubrovsky S.A.Analisis statistik multivariat terapan - M.: Keuangan dan Statistik, 1982.

8) Durand N., Analisis klaster Odell P. - M.: Statistika, 1977.

9) Eliseeva I. I., Rukavishnikov V. S. Pengelompokan, korelasi, pengenalan pola - M.: Statistika, 1977.

10) Zagoruiko N. G. Metode pengenalan dan penerapannya - M.: Soviet Radio, 1972.

11) Zade L. A. Himpunan kabur dan penerapannya dalam pengenalan pola dan analisis klaster // Klasifikasi dan klaster - M.: Mir, 1980.

12) Kildishev G. S., Abolentsev Yu. I. Pengelompokan multidimensi - M.: Statistika, 1978.

13) Raiskaya I. I., Gostilin N. I., Frenkel A. A. Tentang salah satu cara untuk memeriksa validitas partisi dalam analisis klaster.//Penerapan analisis statistik multivariat di bidang ekonomi dan penilaian kualitas produk.--Ch. P.Tartu, 1977.

14) Shurygin A. M. Distribusi jarak dan perbedaan antar titik // Dukungan perangkat lunak dan algoritmik untuk analisis statistik multivariat terapan - M., 1983.

15) Eeremaa R. Teori umum merancang sistem cluster dan algoritma untuk menemukan representasi numeriknya: Prosiding Pusat Komputasi TSU - Tartu, 1978.

16) Yastremsky B. S. Karya terpilih - M.: Statistika, 1964.

Dokumen serupa

    Tujuan segmentasi pasar dalam kegiatan pemasaran. Intisari analisis klaster, tahapan utama pelaksanaannya. Memilih metode pengukuran jarak atau ukuran kesamaan. Metode pengelompokan hierarkis dan non-hierarki. Menilai reliabilitas dan validitas.

    laporan, ditambahkan 02.11.2009

    Indikator utama kondisi keuangan perusahaan. Krisis di perusahaan, penyebab, jenis dan konsekuensinya. Metode modern dan alat analisis klaster, fitur penggunaannya untuk penilaian keuangan dan ekonomi suatu perusahaan.

    tesis, ditambahkan 10/09/2013

    Melakukan analisis klaster perusahaan menggunakan program Statgraphics Plus. Konstruksi persamaan regresi linier. Perhitungan koefisien elastisitas menggunakan model regresi. Menilai signifikansi statistik persamaan dan koefisien determinasi.

    tugas, ditambahkan 16/03/2014

    Konstruksi regresi tipologis untuk kelompok observasi individu. Data spasial dan informasi temporal. Area penerapan analisis klaster. Konsep homogenitas benda, sifat matriks jarak. Melakukan regresi tipologis.

    presentasi, ditambahkan 26/10/2013

    Penciptaan model dan metode gabungan sebagai metode peramalan modern. Model berbasis ARIMA untuk menggambarkan deret waktu stasioner dan non stasioner ketika memecahkan masalah clustering. Model AR autoregresif dan penerapan korelogram.

    presentasi, ditambahkan 01/05/2015

    Karakteristik berbagai jenis metrik. Metode tetangga terdekat dan generalisasinya. Algoritma tetangga terdekat. Metode jendela Parzen. Pengklasifikasi metrik umum. Masalah memilih metrik. Jarak Manhattan dan Euclidean. Ukuran kosinus.

    tugas kursus, ditambahkan 03/08/2015

    Karakteristik industri konstruksi di wilayah Krasnodar. Prakiraan perkembangan pembangunan perumahan. Metode dan alat modern untuk analisis klaster. Metode statistik multivariat untuk mendiagnosis keadaan ekonomi suatu perusahaan.

    tesis, ditambahkan 20/07/2015

    Karakteristik pinjaman hipotek pada contoh wilayah Bryansk. Tinjauan metode pengambilan keputusan matematis: penilaian ahli, perbandingan berurutan dan berpasangan, analisis hierarki. Pengembangan program untuk mencari pinjaman hipotek yang optimal.

    tugas kursus, ditambahkan 29/11/2012

    Bidang penerapan analisis sistem, tempatnya, peran, tujuan dan fungsinya dalam ilmu pengetahuan modern. Konsep dan isi teknik analisis sistem, metode informalnya. Fitur metode penelitian heuristik dan ahli serta fitur penerapannya.

    tugas kursus, ditambahkan 20/05/2013

    Pengembangan dan penelitian metode ekonometrik dengan memperhatikan kekhususan data ekonomi dan sesuai dengan kebutuhan ilmu dan praktek ekonomi. Penerapan metode dan model ekonometrik untuk analisis statistik data ekonomi.

Buku ini didedikasikan untuk salah satu pendekatan paling menjanjikan dalam hal ini terhadap analisis proses dan fenomena multidimensi - analisis klaster.

Analisis cluster adalah metode pengelompokan objek multidimensi, berdasarkan representasi hasil pengamatan individu berdasarkan titik-titik dalam ruang geometris yang sesuai, diikuti dengan mengidentifikasi kelompok sebagai “rumpun” dari titik-titik tersebut. Sebenarnya, “cluster” dalam bahasa Inggris berarti “clump”, “bunch (of grapes)”, “cluster (of star)”, dll. Istilah ini sangat cocok dengan terminologi ilmiah, karena suku kata pertamanya sesuai dengan istilah tradisional “ kelas”, dan yang kedua sepertinya menunjukkan asal muasalnya. Kami yakin bahwa terminologi analisis klaster akan menggantikan semua konstruksi yang sebelumnya digunakan untuk tujuan ini (pengenalan pola tanpa pengawasan, stratifikasi, taksonomi, klasifikasi otomatis, dll.). Potensi analisis klaster jelas untuk memecahkan, katakanlah, masalah dalam mengidentifikasi kelompok perusahaan yang beroperasi dalam kondisi serupa atau dengan hasil serupa, kelompok populasi yang homogen dalam berbagai aspek kehidupan atau gaya hidup secara umum, dll.

Analisis klaster muncul sebagai arah ilmiah pada pertengahan tahun 60an dan telah berkembang pesat sejak saat itu, menjadi salah satu cabang ilmu statistik yang pertumbuhannya paling intensif. Cukuplah untuk mengatakan bahwa jumlah monografi tentang analisis klaster saja, yang diterbitkan hingga saat ini di berbagai negara, diukur dalam ratusan (sementara, katakanlah, pada metode analisis statistik multivariat yang “pantas” seperti analisis faktor, hampir tidak mungkin menghitung beberapa lusin buku). Dan ini cukup bisa dimengerti. Bagaimanapun, kita sebenarnya berbicara tentang pemodelan operasi pengelompokan, salah satu yang paling penting tidak hanya dalam statistik, tetapi secara umum - baik dalam kognisi dan pengambilan keputusan.

Sejumlah monografi telah diterbitkan di negara kita yang ditujukan untuk mempelajari masalah sosial-ekonomi tertentu dengan menggunakan analisis klaster (1), metodologi penggunaan analisis klaster dalam penelitian sosial-ekonomi (2), metodologi analisis klaster itu sendiri ( 3) (Dasar-dasar analisis statistik )

Buku yang diusulkan oleh I. D. Mandel seolah-olah tegak lurus dengan klasifikasi ini: isinya berhubungan dengan masing-masing dari tiga bidang ini.

Tujuan buku ini adalah untuk merangkum keadaan analisis klaster saat ini, menganalisis kemungkinan penggunaannya dan tugas untuk pengembangan lebih lanjut. Rencana ini sendiri pasti membangkitkan rasa hormat: analisis dan generalisasi yang tidak memihak membutuhkan banyak kerja, pengetahuan, keberanian, dan dihargai oleh komunitas ilmiah jauh lebih rendah daripada promosi dan pengembangan desain mereka sendiri. (Namun, buku ini juga memuat perkembangan asli penulis terkait analisis “intensional” dan dualitas klasifikasi.)

Pencapaian tujuan ini dikaitkan dengan kelebihan dan kekurangan buku ini. Keuntungannya antara lain:

· penjabaran metodologis konsep homogenitas, pengelompokan dan klasifikasi, dengan mempertimbangkan multidimensi fenomena dan proses;

· tinjauan sistematis terhadap pendekatan dan metode analisis klaster (termasuk hingga 150 algoritma spesifik);

· pemaparan teknologi dan hasil perbandingan eksperimen prosedur analisis klaster; Buku ini didedikasikan untuk salah satu pendekatan paling menjanjikan dalam hal ini terhadap analisis proses dan fenomena multidimensi - analisis klaster.

Analisis cluster adalah metode pengelompokan objek multidimensi, berdasarkan representasi hasil pengamatan individu berdasarkan titik-titik dalam ruang geometris yang sesuai, diikuti dengan mengidentifikasi kelompok sebagai “rumpun” dari titik-titik tersebut. Sebenarnya, “cluster” dalam bahasa Inggris berarti “clump”, “bunch (of grapes)”, “cluster (of star)”, dll. Istilah ini sangat cocok dengan terminologi ilmiah, karena suku kata pertamanya sesuai dengan istilah tradisional “ kelas”, dan yang kedua sepertinya menunjukkan asal muasalnya. Kami yakin bahwa terminologi analisis klaster akan menggantikan semua konstruksi yang sebelumnya digunakan untuk tujuan ini (pengenalan pola tanpa pengawasan, stratifikasi, taksonomi, klasifikasi otomatis, dll.). Potensi analisis klaster jelas untuk memecahkan, katakanlah, masalah dalam mengidentifikasi kelompok perusahaan yang beroperasi dalam kondisi serupa atau dengan hasil serupa, kelompok populasi yang homogen dalam berbagai aspek kehidupan atau gaya hidup secara umum, dll.

Analisis klaster muncul sebagai arah ilmiah pada pertengahan tahun 60an dan telah berkembang pesat sejak saat itu, menjadi salah satu cabang ilmu statistik yang pertumbuhannya paling intensif. Cukuplah dikatakan bahwa hanya jumlah monografi tentang analisis klaster, pengembangan skema umum penggunaan metode analisis klaster, yang diimplementasikan dalam tabel yang cukup jelas; sifat rekomendasi dari presentasi.

Keunggulan ini menentukan posisi independen buku I. D. Mandel di antara publikasi lainnya.

Kekurangan buku ini adalah ambiguitas beberapa rekomendasi dan kurangnya analisis sistematis penggunaan metode analisis klaster dalam aplikasi sosio-ekonomi spesifik subjek. Benar, hal terakhir ini disebabkan oleh kurangnya penggunaan analisis klaster di bidang ini.

Buku ini memberikan batu loncatan, yang penggunaannya memfasilitasi kemajuan dalam masalah tersulit dari teori apa pun - penggunaan praktis alat-alat yang disediakannya.

BG Mirkin

Universitas: VZFEI

Tahun dan kota: Moskow 2008


1. Perkenalan. Konsep metode analisis klaster.

2. Deskripsi metodologi penggunaan analisis klaster. Contoh tes pemecahan masalah.

4. Daftar referensi yang digunakan

  1. Perkenalan. Konsep metode analisis klaster.

Analisis cluster adalah seperangkat metode yang memungkinkan untuk mengklasifikasikan observasi multidimensi, yang masing-masing dijelaskan oleh sekumpulan karakteristik (parameter) X1, X2,…, Xk.

Tujuan dari analisis klaster adalah terbentuknya kelompok-kelompok objek yang serupa, yang biasa disebut klaster (kelas, takson, kondensasi).

Analisis cluster adalah salah satu bidang penelitian statistik. Ini menempati tempat yang sangat penting dalam cabang-cabang ilmu pengetahuan yang berhubungan dengan studi fenomena dan proses massa. Kebutuhan untuk mengembangkan metode analisis klaster dan penggunaannya ditentukan oleh fakta bahwa metode tersebut membantu membangun klasifikasi berbasis ilmiah dan mengidentifikasi hubungan internal antara unit populasi yang diamati. Selain itu, metode analisis cluster dapat digunakan untuk mengompresi informasi, yang merupakan faktor penting dalam konteks peningkatan konstan dan kompleksitas aliran data statistik.

Metode analisis klaster dapat memecahkan masalah berikut:

Melaksanakan klasifikasi benda dengan memperhatikan ciri-ciri yang mencerminkan hakikat dan sifat benda. Pemecahan masalah seperti itu, sebagai suatu peraturan, mengarah pada pendalaman pengetahuan tentang totalitas objek rahasia;

Memeriksa asumsi yang dibuat tentang keberadaan beberapa struktur dalam kumpulan objek yang dipelajari, yaitu. mencari struktur yang ada;

Konstruksi klasifikasi baru untuk fenomena yang kurang dipelajari, ketika diperlukan untuk menetapkan adanya hubungan dalam suatu populasi dan mencoba memasukkan struktur ke dalamnya (1, hlm. 85-86).

2. Deskripsi metodologi penggunaan analisis klaster. Contoh tes pemecahan masalah.

Analisis cluster memungkinkan n objek yang dicirikan oleh k fitur untuk dibagi menjadi kelompok-kelompok homogen (cluster). Homogenitas benda ditentukan oleh jarak p(xi xj), dimana xi = (xi1, …., xik) dan xj= (xj1,…, xjk) merupakan vektor yang tersusun dari nilai k fitur i objek -th dan j-th, masing-masing.

Untuk benda yang bercirikan karakteristik numerik, jarak ditentukan dengan rumus berikut:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Benda dianggap homogen jika p(xi xj)< p предельного.

Representasi grafis dari gabungan dapat diperoleh dengan menggunakan pohon gabungan cluster - dendrogram. (2. Bab 39).

Kasus uji (contoh 92).

Volume penjualan

Mari kita klasifikasikan objek-objek ini menggunakan prinsip “tetangga terdekat”. Mari kita cari jarak antar benda menggunakan rumus (1)*. Mari kita isi tabelnya.

Mari kita jelaskan bagaimana tabel diisi.

Pada perpotongan baris i dan kolom j, ditunjukkan jarak p(xi xj) (hasilnya dibulatkan menjadi dua tempat desimal).

Misalnya, pada perpotongan baris 1 dan kolom 3 jarak p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5.10 ditunjukkan, dan pada perpotongan baris 3 dan kolom 5 jarak p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08. Karena p(xi, xj) = p(xj,xi), bagian bawah tabel tidak perlu diisi.

Mari kita terapkan prinsip “tetangga terdekat”. Kami menemukan di tabel jarak terkecil (jika ada beberapa jarak seperti itu, pilih salah satunya). Ini adalah p 1,2 ≈ p 4,5 = 2,24. Misalkan p min = p 4,5 = 2,24. Kemudian kita dapat menggabungkan objek 4 dan 5 menjadi satu kelompok, yaitu gabungan kolom 4 dan 5 akan memiliki angka terkecil yang bersesuaian di kolom 4 dan 5 dari tabel jarak asli. Kami melakukan hal yang sama dengan baris 4 dan 5. Kami mendapatkan tabel baru.

Kami menemukan dalam tabel yang dihasilkan jarak terkecil (jika ada beberapa, pilih salah satu di antaranya): p min = p 1.2 = 2.24. Kemudian kita dapat menggabungkan objek 1,2,3 menjadi satu kelompok, yaitu kolom gabungan 1,2,3 akan berisi bilangan terkecil dari kolom 1 dan 2 dan 3 yang sesuai dari tabel jarak sebelumnya. Kami melakukan hal yang sama dengan baris 1, 2 dan 3. Kami mendapatkan tabel baru.

Kami mendapat dua cluster: (1,2,3) dan (4,5).

3. Memecahkan masalah untuk ujian.

Soal 85.

Kondisi: Lima fasilitas produksi dicirikan oleh dua karakteristik: volume penjualan dan biaya tahunan rata-rata aset tetap.

Volume penjualan

Biaya tahunan rata-rata aset tetap

Larutan: Mari kita cari jarak antar benda menggunakan rumus (1)* (pembulatan ke dua desimal):

р 1,1 = √ (2-2) 2 + (2-2) 2 = 0

р 1,2 = √ (2-5) 2 + (7-9) 2 ≈ 3,61

р 1,3 = √ (2-7) 2 + (7-10) 2 ≈ 5,83

hal 2.2 = √ (5-5) 2 + (9-9) 2 =0

р 2,3 = √ (5-7) 2 + (9-10) 2 ≈ 2,24

hal 3,4 = √ (7-12) 2 + (10-8) 2 ≈5.39

hal 3,5 = √ (7-13) 2 + (10-5) 2 ≈ 7,81

р 4,5 = √ (12-13) 2 + (8-5) 2 ≈ 3,16

Berdasarkan hasil perhitungan, isilah tabel:

Mari kita terapkan prinsip “tetangga terdekat”. Untuk melakukan ini, kami menemukan jarak terkecil di tabel (jika ada beberapa jarak seperti itu, pilih salah satunya). Ini adalah p 2.3=2.24. Misalkan p min = p 2.3 = 2.24, maka kita dapat menggabungkan objek kolom “2” dan “3”, dan juga menggabungkan baris objek “2” dan “3”. Di tabel baru, kita memasukkan nilai terkecil dari tabel asli ke dalam grup gabungan.

Di tabel baru kita menemukan jarak terkecil (jika ada beberapa, pilih salah satunya). Ini adalah p 4,5 = 3,16. Misalkan p min = p 4.5 = 3.16, maka kita dapat menggabungkan objek kolom “4” dan “5”, dan juga menggabungkan baris objek “4” dan “5”. Di tabel baru, kita memasukkan nilai terkecil dari tabel asli ke dalam grup gabungan.

Di tabel baru kita menemukan jarak terkecil (jika ada beberapa, pilih salah satunya). Ini adalah p 1, 2 dan 3 = 3,61. Misalkan p min = p 1, 2 dan 3 = 3.61, maka kita dapat menggabungkan objek kolom "1" dan "2 dan 3" dan juga menggabungkan baris. Di tabel baru, kita memasukkan nilai terkecil dari tabel asli ke dalam grup gabungan.

Kami mendapatkan dua cluster: (1,2,3) dan (4,5).

Dendrogram menunjukkan urutan pemilihan elemen dan jarak minimum yang sesuai p min.

Menjawab: Dari hasil analisis klaster dengan prinsip “tetangga terdekat”, terbentuk 2 klaster objek serupa: (1,2,3) dan (4,5).

Soal 211.

Kondisi: Lima fasilitas produksi dicirikan oleh dua karakteristik: volume penjualan dan biaya tahunan rata-rata aset tetap.

Volume penjualan

Biaya tahunan rata-rata aset tetap

Klasifikasikan benda-benda ini menggunakan prinsip “tetangga terdekat”.

Larutan: Untuk mengatasi masalah tersebut, kami menyajikan data pada tabel asli. Mari kita tentukan jarak antar benda. Mari kita mengklasifikasikan objek berdasarkan prinsip “tetangga terdekat”. Hasilnya kami sajikan dalam bentuk dendrogram.

Volume penjualan

Biaya tahunan rata-rata aset tetap

Dengan menggunakan rumus (1)* kita mencari jarak antar benda:

p 1,1 =0, p 1,2 =6, p 1,3 =8,60, p 1,4 =6,32, p 1,5 =6,71, p 2,2 =0, p 2 ,3 =7,07, p 2,4 =2, p 2,5 =3,32, p 3,3 = 0, hal 3,4 =5,10, hal 3,5 =4,12, hal 4 ,4 =0, hal 4,5 =1, hal 5,5 =0.

Kami menyajikan hasilnya dalam tabel:

Nilai jarak terkecil pada tabel adalah p 4,5=1. Misalkan p min = p 4.5 = 1, maka kita dapat menggabungkan objek kolom “4” dan “5”, dan juga menggabungkan baris objek “4” dan “5”. Di tabel baru, kita memasukkan nilai terkecil dari tabel asli ke dalam grup gabungan.

Nilai jarak terkecil pada tabel baru adalah p 2, 4 dan 5=2. Misalkan p min = p 2, 4 dan 5=2, maka kita dapat menggabungkan objek pada kolom "4 dan 5" dan "3", serta menggabungkan baris objek "4 dan 5" dan "3". Di tabel baru, kita memasukkan nilai terkecil dari tabel ke dalam grup gabungan.

Nilai jarak terkecil pada tabel baru adalah p 3,4,5=2. Misalkan p min = p 3,4,5=2, maka kita dapat menggabungkan objek kolom “3,4,5” dan “2”, dan juga menggabungkan baris objek “3,4,5” dan “2”. Di tabel baru, kita memasukkan nilai terkecil dari tabel ke dalam grup gabungan.

atau masuk ke situs.

Penting! Semua Tes yang dikirimkan untuk diunduh gratis dimaksudkan untuk menyusun rencana atau dasar bagi karya ilmiah Anda sendiri.

Teman-teman! Anda memiliki kesempatan unik untuk membantu siswa seperti Anda! Jika situs kami membantu Anda menemukan pekerjaan yang Anda butuhkan, maka Anda tentu memahami bagaimana pekerjaan yang Anda tambahkan dapat mempermudah pekerjaan orang lain.

Jika karya Tes, menurut Anda, berkualitas buruk, atau Anda sudah pernah melihat karya ini, harap beri tahu kami.

ANALISIS CLUSTER DALAM TUGAS PERAMALAN SOSIAL EKONOMI

Pengantar analisis klaster.

Ketika menganalisis dan meramalkan fenomena sosial ekonomi, peneliti cukup sering menjumpai deskripsinya yang multidimensi. Hal ini terjadi ketika memecahkan masalah segmentasi pasar, membangun tipologi negara berdasarkan sejumlah indikator yang cukup besar, meramalkan kondisi pasar untuk barang-barang tertentu, mempelajari dan meramalkan depresi ekonomi dan banyak masalah lainnya.

Metode analisis multivariat adalah alat kuantitatif yang paling efektif untuk mempelajari proses sosial ekonomi yang dijelaskan oleh sejumlah besar karakteristik. Ini termasuk analisis cluster, taksonomi, pengenalan pola, dan analisis faktor.

Analisis klaster paling jelas mencerminkan fitur analisis multivariat dalam klasifikasi, analisis faktor - dalam studi hubungan.

Kadang-kadang pendekatan analisis klaster disebut dalam literatur taksonomi numerik, klasifikasi numerik, pengenalan belajar mandiri, dll.

Analisis klaster menemukan penerapan pertamanya dalam sosiologi. Nama analisis klaster berasal dari kata bahasa Inggris cluster - kumpulan, akumulasi. Untuk pertama kalinya pada tahun 1939, subjek analisis klaster didefinisikan dan dijelaskan oleh peneliti Trion. Tujuan utama analisis klaster adalah membagi himpunan objek dan karakteristik yang diteliti ke dalam kelompok-kelompok atau klaster-klaster yang homogen dalam arti yang sesuai. Ini berarti bahwa masalah mengklasifikasikan data dan mengidentifikasi struktur yang sesuai di dalamnya telah terpecahkan. Metode analisis klaster dapat digunakan dalam berbagai kasus, bahkan ketika kita berbicara tentang pengelompokan sederhana, yang semuanya bermuara pada pembentukan kelompok berdasarkan kesamaan kuantitatif.

Keuntungan besar dari analisis klaster adalah memungkinkan Anda membagi objek bukan berdasarkan satu parameter, tetapi menurut keseluruhan rangkaian karakteristik. Selain itu, analisis klaster, tidak seperti kebanyakan metode matematika dan statistik, tidak memberlakukan batasan apa pun pada jenis objek yang dipertimbangkan, dan memungkinkan seseorang untuk mempertimbangkan berbagai data awal yang sifatnya hampir berubah-ubah. Hal ini sangat penting, misalnya, untuk meramalkan situasi pasar, ketika indikator-indikatornya memiliki bentuk yang beragam, sehingga sulit untuk menggunakan pendekatan ekonometrik tradisional.

Analisis klaster memungkinkan Anda mempertimbangkan sejumlah besar informasi dan secara dramatis mengurangi dan memampatkan sejumlah besar informasi sosial-ekonomi, menjadikannya kompak dan visual.

Analisis klaster penting dalam kaitannya dengan rangkaian waktu yang mencirikan pembangunan ekonomi (misalnya, kondisi ekonomi dan komoditas secara umum). Di sini Anda dapat menyoroti periode ketika nilai indikator terkait cukup dekat, dan juga menentukan kelompok deret waktu yang dinamikanya paling mirip.

Analisis klaster dapat digunakan secara iteratif. Dalam hal ini penelitian dilakukan sampai tercapai hasil yang diinginkan. Selain itu, setiap siklus di sini dapat memberikan informasi yang dapat sangat mengubah arah dan pendekatan penerapan analisis klaster lebih lanjut. Proses ini dapat direpresentasikan sebagai sistem umpan balik.

Dalam tugas peramalan sosial ekonomi, kombinasi analisis klaster dengan metode kuantitatif lainnya (misalnya analisis regresi) sangat menjanjikan.

Seperti metode lainnya, analisis klaster memiliki kelemahan dan keterbatasan tertentu: Secara khusus, komposisi dan jumlah klaster bergantung pada kriteria partisi yang dipilih. Saat mereduksi susunan data asli ke bentuk yang lebih kompak, distorsi tertentu mungkin terjadi, dan fitur individual dari objek individual mungkin hilang karena penggantiannya dengan karakteristik nilai umum dari parameter cluster. Saat mengklasifikasikan objek, kemungkinan tidak adanya nilai cluster dalam kumpulan yang dipertimbangkan sering kali diabaikan.

Dalam analisis klaster dianggap bahwa:

a) karakteristik yang dipilih memungkinkan, pada prinsipnya, pembagian yang diinginkan ke dalam kelompok-kelompok;

b) satuan pengukuran (skala) dipilih dengan benar.

Pilihan skala memainkan peran besar. Biasanya, data dinormalisasi dengan mengurangkan mean dan membaginya dengan standar deviasi sehingga variansnya sama dengan satu.

Masalah analisis cluster.

Tugas analisis cluster adalah berdasarkan data yang terdapat pada himpunan X, membagi himpunan objek G menjadi m (m adalah bilangan bulat) cluster (subset) Q1, Q2, ..., Qm, sehingga masing-masing objek Gj termasuk dalam satu dan hanya satu subset dari partisi sehingga objek-objek yang termasuk dalam cluster yang sama adalah serupa, sedangkan objek-objek yang termasuk dalam cluster yang berbeda bersifat heterogen.

Misalnya, G mencakup n negara, yang masing-masing dicirikan oleh GNP per kapita (F1), jumlah M mobil per 1.000 orang (F2), konsumsi listrik per kapita (F3), konsumsi baja per kapita (F4) , dll. Kemudian X1 (vektor pengukuran) adalah sekumpulan karakteristik tertentu untuk negara pertama, X2 untuk negara kedua, X3 untuk negara ketiga, dan seterusnya. Tujuannya adalah untuk mengkategorikan negara berdasarkan tingkat pembangunan.

Solusi untuk masalah analisis klaster adalah partisi yang memenuhi beberapa kriteria optimalitas. Kriteria ini dapat berupa suatu fungsi yang menyatakan tingkat keinginan berbagai partisi dan pengelompokan, yang disebut fungsi tujuan. Misalnya, jumlah simpangan kuadrat dalam kelompok dapat diambil sebagai fungsi tujuan:

dimana xj mewakili pengukuran objek ke-j.

Untuk mengatasi masalah analisis cluster, perlu didefinisikan konsep kesamaan dan heterogenitas.

Jelas bahwa objek ke-i dan ke-j akan jatuh ke dalam satu kelompok ketika jarak (keterpencilan) antara titik Xi dan Xj cukup kecil dan akan jatuh ke dalam kelompok yang berbeda ketika jarak ini cukup besar. Jadi, jatuhnya benda ke dalam satu atau beberapa kelompok benda ditentukan oleh konsep jarak antara Xi dan Xj dari Ep, dimana Ep adalah ruang Euclidean berdimensi p. Fungsi non-negatif d(Xi, Xj) disebut fungsi jarak (metrik) jika:

a) d(Хi, Хj) ³ 0, untuk semua Хi dan Хj dari Ep

b) d(Хi, Хj) = 0, jika dan hanya jika Хi = Хj

c) d(Хi, Хj) = d(Хj, Хi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), dimana Xj; Xi dan Xk adalah tiga vektor apa pun dari Ep.

Nilai d(Хi, Хj) untuk Хi dan Хj disebut jarak antara Хi dan Хj dan ekuivalen dengan jarak antara Gi dan Gj menurut karakteristik yang dipilih (F1, F2, F3, ..., Fр).

Fungsi jarak yang paling umum digunakan adalah:

1. Jarak Euclidean d2(Хi, Хj) =

2. l1 - norma d1(Хi, Хj) =

3. Supremum - norma d¥ (Хi, Хj) = sup

k = 1, 2, ..., hal

4. lp - norma dр(Хi, Хj) =

Metrik Euclidean adalah yang paling populer. Metrik l1 adalah yang paling mudah untuk dihitung. Norma supremum mudah dihitung dan mencakup prosedur pengurutan, dan norma lp mencakup fungsi jarak 1, 2, 3,.

Misalkan n dimensi X1, X2,..., Xn direpresentasikan sebagai matriks data berukuran p ´n:

Maka jarak antar pasangan vektor d(Хi, Хj) dapat direpresentasikan sebagai matriks jarak simetris:

Konsep kebalikan dari jarak adalah konsep kemiripan antar benda Gi. dan Gj. Suatu fungsi real non-negatif S(Хi ; Хj) = Sij disebut ukuran kemiripan jika:

1) 0 £ S(Хi, Хj)<1 для Хi¹ Хj

2) S(Хi, Хi) = 1

3) S(Хi, Хj) = S(Хj, Хi)

Pasangan nilai ukuran kesamaan dapat digabungkan menjadi matriks kesamaan:

Nilai Sij disebut koefisien kemiripan.

1.3. Metode analisis klaster.

Saat ini terdapat cukup banyak metode analisis klaster. Mari kita lihat beberapa di antaranya (metode yang diberikan di bawah ini biasanya disebut metode varians minimum).

Misalkan X adalah matriks pengamatan: X = (X1, X2,..., Xu) dan kuadrat jarak Euclidean antara Xi dan Xj ditentukan dengan rumus:

1) Metode koneksi lengkap.

Inti dari metode ini adalah dua benda yang termasuk dalam kelompok (cluster) yang sama mempunyai koefisien kemiripan yang lebih kecil dari nilai ambang batas tertentu S. Dalam jarak Euclidean d berarti jarak antara dua titik (benda) cluster tidak boleh melebihi nilai ambang batas tertentu h. Jadi, h mendefinisikan diameter maksimum yang diijinkan dari subset yang membentuk cluster.

2) Metode jarak lokal maksimum.

Setiap objek diperlakukan sebagai cluster titik tunggal. Objek dikelompokkan menurut aturan berikut: dua cluster digabungkan jika jarak maksimum antara titik satu cluster dan titik cluster lainnya minimal. Prosedur ini terdiri dari n - 1 langkah dan hasilnya adalah partisi yang bertepatan dengan semua kemungkinan partisi pada metode sebelumnya untuk nilai ambang batas apa pun.

3) Metode kata.

Dalam metode ini, jumlah simpangan kuadrat intragrup digunakan sebagai fungsi tujuan, yang tidak lebih dari jumlah kuadrat jarak antara setiap titik (objek) dan rata-rata cluster yang memuat objek tersebut. Pada setiap langkah, dua cluster digabungkan yang menghasilkan peningkatan minimal dalam fungsi tujuan, yaitu. jumlah kuadrat dalam kelompok. Metode ini bertujuan untuk menggabungkan cluster-cluster yang letaknya berdekatan.

4) Metode pusat.

Jarak antara dua cluster didefinisikan sebagai jarak Euclidean antara pusat (rata-rata) cluster berikut:

d2 ij = (`X – `Y)Т(`X – `Y) Pengelompokan terjadi langkah demi langkah pada masing-masing n–1 langkah, dua cluster G dan p digabungkan, mempunyai nilai minimum d2ij Jika n1 jauh lebih besar dari n2, maka pusat penggabungan kedua cluster berdekatan dan karakteristik cluster kedua praktis diabaikan ketika menggabungkan cluster. Metode ini kadang juga disebut metode kelompok tertimbang.

1.4 Algoritma pengelompokan sekuensial.

Anggap Ι = (Ι1, Ι2, … Ιn) sebagai himpunan cluster (Ι1), (Ι2),…(Ιn). Mari kita pilih dua diantaranya, misalnya Ι i dan Ι j, yang dalam arti tertentu lebih dekat satu sama lain dan menggabungkannya menjadi satu cluster. Kumpulan cluster baru, yang sudah terdiri dari n-1 cluster, akan menjadi:

(Ι1), (Ι2)…, (Ι i, Ι j),…, (Ιn).

Mengulangi proses tersebut, kita memperoleh kumpulan cluster berturut-turut yang terdiri dari (n-2), (n-3), (n–4), dst. cluster. Di akhir prosedur, Anda bisa mendapatkan cluster yang terdiri dari n objek dan bertepatan dengan himpunan asli Ι = (Ι1, Ι2, … Ιn).

Sebagai ukuran jarak, kita ambil kuadrat metrik Euclidean di j2. dan hitung matriks D = (di j2), dimana di j2 adalah kuadrat jarak antara

Ι1 Ι2 Ι3 …. tidak
Ι1 0 d122 d132 …. d1n2
Ι2 0 d232 …. d2n2
Ι3 0 …. d3n2
…. …. ….
tidak 0

Biarkan jarak antara Ι i dan Ι j menjadi minimal:

di j2 = menit (di j2, i ¹ j). Menggunakan Ι i dan Ι j kita membentuk cluster baru

(Ι saya, Ι j). Mari kita buat matriks jarak ((n-1), (n-1)) yang baru

(Ι saya , Ι j) Ι1 Ι2 Ι3 …. tidak
(Ι saya; Ι j) 0 di j21 di j22 di j23 …. di j2n
Ι1 0 d122 d13 …. d12n
Ι2 0 di j21 …. d2n
Ι3 0 …. d3n
tidak 0

Baris (n-2) untuk matriks terakhir diambil dari baris sebelumnya, dan baris pertama dihitung ulang. Perhitungan dapat diperkecil jika kita dapat menyatakan di j2k,k = 1, 2,…, n; (k ¹ i ¹ j) melalui elemen matriks asal.

Awalnya jarak yang ditentukan hanya antar cluster berelemen tunggal, namun perlu ditentukan jarak antar cluster yang mengandung lebih dari satu elemen. Hal ini dapat dilakukan dengan berbagai cara, dan bergantung pada metode yang dipilih, kami memperoleh algoritma analisis cluster dengan properti berbeda. Anda dapat, misalnya, menempatkan jarak antara cluster i + j dan beberapa cluster lainnya k sama dengan rata-rata aritmatika dari jarak antara cluster i dan k serta cluster j dan k:

di+j,k = ½ (dik + djk).

Namun kita juga dapat mendefinisikan di+j,k sebagai jarak minimum dari dua jarak berikut:

di+j,k = min (dik + djk).

Dengan demikian, langkah pertama dari algoritma hierarki aglomeratif dijelaskan. Langkah selanjutnya serupa.

Kelas algoritma yang cukup luas dapat diperoleh jika rumus umum berikut digunakan untuk menghitung ulang jarak:

di+j,k = A(w) min(dik djk) + B(w) max(dik djk), dimana

A(w) = jika dik £djk

A(w) = jika dik > djk

B(w) = jika dik £djk

B(w) = jika dik > djk

dimana ni dan nj adalah jumlah elemen dalam cluster i dan j, dan w adalah parameter bebas, pilihannya ditentukan oleh algoritma tertentu. Misalnya, ketika w = 1 kita mendapatkan apa yang disebut algoritma “koneksi rata-rata”, yang rumus untuk menghitung ulang jarak berbentuk:

di+j,k =

Dalam hal ini, jarak antara dua cluster pada setiap langkah algoritma ternyata sama dengan rata-rata aritmatika dari jarak antara semua pasangan elemen sehingga satu elemen dari pasangan tersebut menjadi milik satu cluster, yang lainnya milik cluster lainnya.

Arti visual dari parameter w menjadi jelas jika kita menempatkan w®¥. Rumus untuk menghitung ulang jarak berbentuk:

di+j,k = min (di,k djk)

Ini akan menjadi apa yang disebut algoritma “tetangga terdekat”, yang memungkinkan Anda mengidentifikasi cluster dari bentuk kompleks apa pun, asalkan bagian-bagian berbeda dari cluster tersebut dihubungkan oleh rantai elemen yang berdekatan satu sama lain. Dalam hal ini, jarak antara dua cluster pada setiap langkah algoritma ternyata sama dengan jarak antara dua elemen terdekat milik kedua cluster tersebut.

Seringkali diasumsikan bahwa jarak awal (perbedaan) antara elemen-elemen yang dikelompokkan diberikan. Dalam beberapa permasalahan, hal ini memang benar. Namun, hanya objek dan karakteristiknya yang ditentukan, dan matriks jarak dibuat berdasarkan data tersebut. Bergantung pada apakah jarak antar objek atau antara karakteristik objek dihitung, metode yang berbeda digunakan.

Dalam kasus analisis cluster objek, ukuran perbedaan yang paling umum adalah kuadrat jarak Euclidean

(di mana xih, xjh adalah nilai fitur ke-h untuk objek ke-i dan ke-j, dan m adalah banyaknya karakteristik), atau jarak Euclidean itu sendiri. Jika fitur diberi bobot yang berbeda, maka bobot tersebut dapat diperhitungkan saat menghitung jarak

Terkadang jarak digunakan sebagai ukuran perbedaan, dihitung dengan rumus:

yang disebut: jarak "Hamming", "Manhattan" atau "blok kota".

Ukuran alami kesamaan karakteristik objek dalam banyak tugas adalah koefisien korelasi di antara keduanya

dimana mi, mj, di, dj masing-masing adalah rata-rata dan simpangan baku untuk karakteristik i dan j. Ukuran perbedaan antar karakteristik dapat berupa nilai 1 - r. Dalam beberapa soal, tanda koefisien korelasi tidak signifikan dan hanya bergantung pada pilihan satuan pengukuran. Dalam hal ini, ô1 - ri j ô digunakan sebagai ukuran selisih antar karakteristik

1.5 Jumlah cluster.

Masalah yang sangat penting adalah masalah pemilihan jumlah cluster yang dibutuhkan. Terkadang Anda dapat memilih m jumlah cluster secara apriori. Namun, dalam kasus umum, jumlah ini ditentukan dalam proses membagi himpunan menjadi beberapa cluster.

Penelitian oleh Fortier dan Solomon dilakukan dan ditentukan bahwa jumlah cluster harus diadopsi untuk mencapai probabilitas a bahwa partisi terbaik ditemukan. Jadi, jumlah partisi optimal adalah fungsi dari pecahan b tertentu dari partisi terbaik atau dalam arti tertentu dapat diterima dalam himpunan semua partisi yang mungkin. Semakin tinggi proporsi b dari partisi yang diperbolehkan, semakin besar total hamburannya. Fortier dan Solomon mengembangkan tabel yang dapat digunakan untuk mencari jumlah pemisahan yang dibutuhkan. S(a,b) bergantung pada a dan b (di mana a adalah probabilitas ditemukannya partisi terbaik, b adalah persentase partisi terbaik dalam jumlah total partisi) Selain itu, ukuran heterogenitas bukanlah ukuran penyebarannya, tetapi ukuran keanggotaan yang diperkenalkan oleh Holzenger dan Harman. Tabel nilai S(a,b) diberikan di bawah ini.

Tabel nilai S(a,b)

b\a 0.20 0.10 0.05 0.01 0.001 0.0001
0.20 8 11 14 21 31 42
0.10 16 22 29 44 66 88
0.05 32 45 59 90 135 180
0.01 161 230 299 459 689 918
0.001 1626 2326 3026 4652 6977 9303
0.0001 17475 25000 32526 55000 75000 100000

Seringkali, kriteria untuk menggabungkan (jumlah cluster) adalah perubahan fungsi yang sesuai. Misalnya, jumlah simpangan kuadrat:

Proses pengelompokan di sini harus sesuai dengan peningkatan minimum nilai kriteria E yang konsisten. Adanya lonjakan tajam nilai E dapat diartikan sebagai ciri dari jumlah cluster yang secara objektif ada pada populasi yang diteliti.

Jadi, cara kedua untuk menentukan jumlah cluster terbaik adalah dengan mengidentifikasi lompatan yang ditentukan oleh transisi fase dari keadaan objek yang terikat kuat ke terikat lemah.

1.6 Dendogram.

Metode paling terkenal untuk merepresentasikan matriks jarak atau kemiripan didasarkan pada gagasan dendogram atau diagram pohon. Dendogram dapat didefinisikan sebagai representasi grafis dari hasil proses pengelompokan berurutan, yang dilakukan dalam matriks jarak. Dengan menggunakan dendogram, Anda dapat merepresentasikan prosedur pengelompokan secara grafis atau geometris, asalkan prosedur ini hanya beroperasi pada elemen matriks jarak atau kesamaan.

Ada banyak cara untuk membuat dendogram. Pada dendogram, objek terletak vertikal di sebelah kiri, hasil clustering terletak di sebelah kanan. Nilai jarak atau kemiripan yang sesuai dengan struktur cluster baru digambarkan sepanjang garis horizontal di atas dendogram.

Gambar 1 menunjukkan salah satu contoh dendogram. Gambar 1 sesuai dengan kasus enam objek (n=6) dan k karakteristik (fitur). Objek A dan C merupakan objek yang paling dekat sehingga digabungkan menjadi satu cluster pada tingkat kedekatan 0,9. Objek D dan E digabungkan pada level 0.8. Sekarang kami memiliki 4 cluster:

Jenis dendogram bergantung pada pilihan ukuran kemiripan atau jarak antara suatu objek dengan cluster serta metode clusteringnya. Yang terpenting adalah pemilihan ukuran kemiripan atau ukuran jarak antara objek dengan cluster.

Jumlah algoritma analisis cluster terlalu besar. Semuanya dapat dibagi menjadi hierarki dan non-hierarki.

Algoritme hierarki dikaitkan dengan konstruksi dendogram dan dibagi menjadi:

a) aglomeratif, dicirikan oleh kombinasi berurutan dari elemen-elemen awal dan penurunan jumlah cluster yang sesuai;

b) habis dibagi (divisible), dimana jumlah cluster bertambah, dimulai dari satu, sehingga mengakibatkan terbentuknya barisan kelompok-kelompok yang membelah.

Algoritma analisis cluster saat ini memiliki implementasi perangkat lunak yang baik, yang memungkinkan penyelesaian masalah dengan dimensi terbesar.

1.7 Data

Analisis cluster dapat diterapkan pada data interval, frekuensi, dan data biner. Penting agar variabel bervariasi pada skala yang sebanding.

Heterogenitas satuan pengukuran dan ketidakmungkinan menyatakan secara valid nilai-nilai berbagai indikator pada skala yang sama mengarah pada fakta bahwa jarak antara titik-titik yang mencerminkan posisi benda-benda dalam ruang sifat-sifatnya ternyata bergantung pada suatu skala yang dipilih secara sewenang-wenang. Untuk menghilangkan heterogenitas dalam pengukuran data awal, semua nilainya telah dinormalisasi sebelumnya, yaitu. dinyatakan melalui rasio nilai-nilai tersebut dengan nilai tertentu yang mencerminkan sifat-sifat tertentu dari suatu indikator tertentu. Normalisasi data awal untuk analisis cluster terkadang dilakukan dengan membagi nilai awal dengan standar deviasi dari indikator yang bersangkutan. Cara lain adalah dengan menghitung apa yang disebut kontribusi standar. Ini juga disebut kontribusi Z.

Kontribusi Z menunjukkan berapa banyak standar deviasi yang memisahkan observasi tertentu dari mean:

Dimana xi adalah nilai observasi, adalah rata-rata, S adalah simpangan baku.

Rata-rata kontribusi Z adalah nol dan deviasi standarnya adalah 1.

Standardisasi memungkinkan pengamatan dari distribusi yang berbeda untuk dibandingkan. Jika distribusi suatu variabel normal (atau mendekati normal) dan mean serta varians diketahui atau diperkirakan dari sampel yang besar, maka kontribusi Z untuk suatu observasi memberikan informasi yang lebih spesifik tentang lokasinya.

Perhatikan bahwa metode standardisasi berarti mengakui semua fitur sebagai setara dalam hal menentukan kesamaan objek yang dipertimbangkan. Telah dicatat bahwa dalam kaitannya dengan perekonomian, mengakui kesetaraan berbagai indikator tampaknya tidak selalu dapat dibenarkan. Seiring dengan standardisasi, diharapkan untuk memberikan bobot pada masing-masing indikator yang mencerminkan signifikansinya dalam menetapkan persamaan dan perbedaan objek.

Dalam situasi ini, perlu menggunakan metode untuk menentukan bobot indikator individu - survei para ahli. Misalnya, ketika memecahkan masalah klasifikasi negara berdasarkan tingkat pembangunan ekonomi, hasil survei terhadap 40 pakar terkemuka Moskow tentang masalah negara maju digunakan pada skala sepuluh poin:

indikator umum pembangunan sosial-ekonomi – 9 poin;

indikator distribusi sektoral penduduk yang bekerja – 7 poin;

indikator prevalensi tenaga kerja upahan – 6 poin;

indikator yang mencirikan elemen manusia dari kekuatan produktif – 6 poin;

indikator perkembangan kekuatan produktif material – 8 poin;

indikator pengeluaran pemerintah – 4 poin;

indikator “ekonomi-militer” – 3 poin;

indikator sosio-demografis – 4 poin.

Penilaian para ahli relatif stabil.

Penilaian para ahli memberikan dasar tertentu untuk menentukan pentingnya indikator yang termasuk dalam kelompok indikator tertentu. Mengalikan nilai indikator yang dinormalisasi dengan koefisien yang sesuai dengan skor penilaian rata-rata memungkinkan seseorang menghitung jarak antar titik yang mencerminkan posisi negara-negara dalam ruang multidimensi, dengan mempertimbangkan bobot karakteristiknya yang tidak sama.

Seringkali, ketika memecahkan masalah seperti itu, bukan hanya satu, tetapi dua perhitungan yang digunakan: yang pertama, di mana semua karakteristik dianggap setara, yang kedua, di mana mereka diberi bobot yang berbeda sesuai dengan nilai rata-rata penilaian ahli.

1.8. Penerapan analisis klaster.

Mari kita lihat beberapa penerapan analisis klaster.

Membagi negara menjadi beberapa kelompok berdasarkan tingkat pembangunan.

65 negara dipelajari menurut 31 indikator (pendapatan nasional per kapita, persentase penduduk yang bekerja di industri, tabungan per kapita, persentase penduduk yang bekerja di bidang pertanian, harapan hidup rata-rata, jumlah mobil per 1.000 penduduk, jumlah angkatan bersenjata. per 1 juta penduduk, bagian PDB industri dalam%, bagian PDB pertanian dalam%, dll.)

Setiap negara dalam pertimbangan ini bertindak sebagai objek yang dicirikan oleh nilai-nilai tertentu dari 31 indikator. Oleh karena itu, mereka dapat direpresentasikan sebagai titik dalam ruang 31 dimensi. Ruang yang demikian biasa disebut ruang sifat-sifat benda yang diteliti. Membandingkan jarak antara titik-titik ini akan mencerminkan tingkat kedekatan negara-negara yang bersangkutan, kesamaannya satu sama lain. Arti sosio-ekonomi dari pemahaman kesamaan ini berarti bahwa negara-negara dianggap semakin mirip, semakin kecil perbedaan antara indikator-indikator yang sama yang menggambarkannya.

Langkah pertama dari analisis tersebut adalah mengidentifikasi sepasang perekonomian nasional yang diperhitungkan dalam matriks kesamaan, yang jaraknya paling kecil. Ini jelas merupakan perekonomian yang paling mirip dan serupa. Dalam pembahasan selanjutnya, kedua negara ini dianggap sebagai satu kelompok, satu cluster. Oleh karena itu, matriks asli diubah sehingga elemen-elemennya menjadi jarak antara semua kemungkinan pasangan bukan 65, tetapi 64 objek - 63 ekonomi dan cluster yang baru ditransformasikan - gabungan bersyarat dari dua negara yang paling mirip. Dari matriks kesamaan asli, baris dan kolom dihapus sesuai dengan jarak dari pasangan negara yang termasuk dalam merger ke negara lain, tetapi baris dan kolom ditambahkan yang berisi jarak antara cluster yang diperoleh selama merger dan negara lain.

Jarak antara klaster yang baru diperoleh dan negara-negara tersebut diasumsikan sama dengan rata-rata jarak antara klaster tersebut dan kedua negara yang membentuk klaster baru. Dengan kata lain, gabungan kelompok negara dianggap sebagai satu kesatuan yang mempunyai ciri-ciri yang kurang lebih sama dengan rata-rata ciri-ciri negara-negara yang termasuk di dalamnya.

Langkah analisis kedua adalah mempertimbangkan matriks yang ditransformasikan dengan 64 baris dan kolom. Sekali lagi, sepasang perekonomian diidentifikasi, jarak antara yang paling tidak signifikan, dan mereka, seperti dalam kasus pertama, disatukan. Dalam hal ini, jarak terkecil dapat terjadi antara sepasang negara, atau antara negara mana pun dan gabungan negara-negara yang diperoleh pada tahap sebelumnya.

Prosedur lebih lanjut serupa dengan yang dijelaskan di atas: pada setiap tahap, matriks diubah sehingga dua kolom dan dua baris yang berisi jarak ke objek (pasangan negara atau asosiasi - cluster) yang disatukan pada tahap sebelumnya dikeluarkan darinya. ; baris dan kolom yang dikecualikan diganti dengan kolom dan baris yang berisi jarak dari gabungan baru ke objek yang tersisa; kemudian pasangan objek terdekat diidentifikasi dalam matriks yang dimodifikasi. Analisis berlanjut hingga matriksnya benar-benar habis (yaitu, hingga semua negara digabungkan menjadi satu kesatuan). Hasil umum analisis matriks dapat disajikan dalam bentuk pohon kesamaan (dendogram), serupa dengan yang dijelaskan di atas, dengan satu-satunya perbedaan bahwa pohon kesamaan, yang mencerminkan kedekatan relatif dari 65 negara yang kami pertimbangkan, adalah jauh lebih kompleks dibandingkan diagram yang hanya menampilkan lima perekonomian nasional. Pohon ini, sesuai dengan jumlah objek yang dibandingkan, mencakup 65 level. Tingkat pertama (bawah) berisi poin yang sesuai dengan masing-masing negara secara terpisah. Menghubungkan kedua titik ini pada tingkat kedua menunjukkan sepasang negara yang paling dekat dalam hal tipe umum perekonomian nasional. Pada tingkat ketiga, rasio berpasangan negara-negara serupa berikutnya dicatat (seperti yang telah disebutkan, rasio ini dapat berisi pasangan negara baru, atau negara baru dan pasangan negara serupa yang sudah teridentifikasi). Begitu seterusnya hingga tingkat terakhir, di mana semua negara yang diteliti bertindak sebagai satu kesatuan.

Dari hasil penerapan analisis klaster, diperoleh lima kelompok negara berikut:

kelompok Afro-Asia;

kelompok Asia Latin;

kelompok Latin-Mediterania;

kelompok negara kapitalis maju (tidak termasuk Amerika Serikat)

Pengenalan indikator-indikator baru di luar 31 indikator yang digunakan di sini, atau penggantiannya dengan indikator lain, tentu saja menyebabkan perubahan pada hasil klasifikasi negara.

2. Pembagian negara menurut kriteria kesamaan budaya.

Seperti yang Anda ketahui, pemasaran harus memperhatikan budaya negara (adat istiadat, tradisi, dll).

Melalui pengelompokan, diperoleh kelompok negara berikut:

Arab;

Timur Tengah;

Skandinavia;

Berbicara bahasa Jerman;

Berbahasa Inggris;

Eropa Romawi;

Amerika Latin;

Timur Jauh.

3. Perkembangan prakiraan kondisi pasar seng.

Analisis klaster memainkan peran penting pada tahap reduksi model ekonomi dan matematis pasar komoditas, membantu memfasilitasi dan menyederhanakan prosedur komputasi, memastikan hasil yang diperoleh lebih kompak dengan tetap menjaga akurasi yang diperlukan. Penggunaan analisis klaster memungkinkan untuk membagi seluruh rangkaian awal indikator pasar ke dalam kelompok (cluster) sesuai dengan kriteria yang sesuai, sehingga memudahkan pemilihan indikator yang paling representatif.

Analisis klaster banyak digunakan untuk memodelkan kondisi pasar. Dalam praktiknya, sebagian besar masalah peramalan bergantung pada penggunaan analisis klaster.

Misalnya, tugas mengembangkan perkiraan pasar seng.

Awalnya, 30 indikator utama pasar seng global dipilih:

X1 - waktu

Angka produksi:

X2 - di dunia

X4 - Eropa

X5 - Kanada

X6 - Jepang

X7 - Australia

Indikator konsumsi:

X8 - di dunia

X10 - Eropa

X11 - Kanada

X12 - Jepang

X13 - Australia

Cadangan seng produsen:

X14 - di dunia

X16 - Eropa

X17 - negara lain

Cadangan seng konsumen:

X18 - di AS

X19 - di Inggris

X10 - di Jepang

Impor bijih seng dan konsentratnya (ribu ton)

X21 - di AS

X22 - di Jepang

X23 - di Jerman

Ekspor bijih seng dan konsentratnya (ribu ton)

X24 - dari Kanada

X25 - dari Australia

Impor seng (ribu ton)

X26 - di AS

X27 - ke Inggris

X28 - di Jerman

Ekspor seng (ribu ton)

X29 - dari Kanada

X30 - dari Australia

Untuk menentukan ketergantungan tertentu digunakan alat analisis korelasi dan regresi. Analisis hubungan dilakukan berdasarkan matriks koefisien korelasi berpasangan. Di sini hipotesis tentang distribusi normal indikator pasar yang dianalisis diterima. Jelas bahwa rij bukanlah satu-satunya indikator yang memungkinkan adanya hubungan antara indikator-indikator yang digunakan. Perlunya penggunaan analisis klaster dalam tugas ini karena jumlah indikator yang mempengaruhi harga seng sangat banyak. Terdapat kebutuhan untuk menguranginya karena beberapa alasan berikut:

a) kurangnya data statistik yang lengkap mengenai seluruh variabel;

b) komplikasi tajam dari prosedur komputasi ketika sejumlah besar variabel dimasukkan ke dalam model;

c) penggunaan metode analisis regresi yang optimal memerlukan jumlah nilai yang diamati melebihi jumlah variabel setidaknya 6-8 kali;

d) keinginan untuk menggunakan variabel independen secara statistik dalam model, dll.

Sangat sulit untuk melakukan analisis seperti itu secara langsung pada matriks koefisien korelasi yang relatif rumit. Dengan menggunakan analisis klaster, seluruh rangkaian variabel pasar dapat dibagi ke dalam kelompok-kelompok sedemikian rupa sehingga elemen-elemen dari setiap klaster berkorelasi kuat satu sama lain, dan perwakilan dari kelompok yang berbeda dicirikan oleh korelasi yang lemah.

Untuk mengatasi masalah ini, salah satu algoritma analisis cluster hierarki aglomeratif digunakan. Pada setiap langkah, jumlah cluster berkurang satu karena kombinasi dua kelompok yang optimal, dalam arti tertentu. Kriteria penggabungan adalah perubahan fungsi yang bersangkutan. Sebagai fungsi tersebut, kami menggunakan nilai jumlah simpangan kuadrat yang dihitung menggunakan rumus berikut:

(j = 1, 2, …, m),

dimana j adalah nomor cluster, n adalah jumlah elemen dalam cluster.

rij - koefisien korelasi berpasangan.

Dengan demikian, proses pengelompokan harus sesuai dengan peningkatan nilai minimum yang berurutan pada kriteria E.

Pada tahap pertama, array data awal disajikan sebagai satu set yang terdiri dari cluster, masing-masing berisi satu elemen. Proses pengelompokan dimulai dengan kombinasi sepasang cluster, yang menghasilkan peningkatan minimal dalam jumlah deviasi kuadrat. Hal ini memerlukan estimasi jumlah nilai deviasi kuadrat untuk setiap kemungkinan kombinasi cluster. Pada tahap selanjutnya, nilai jumlah deviasi kuadrat untuk cluster, dll dipertimbangkan. Proses ini akan dihentikan pada langkah tertentu. Untuk melakukan ini, Anda perlu memantau nilai jumlah deviasi kuadrat. Mengingat rangkaian peningkatan nilai, seseorang dapat melihat adanya lompatan (satu atau beberapa) dalam dinamikanya, yang dapat diartikan sebagai ciri dari jumlah kelompok yang “secara obyektif” ada dalam populasi yang diteliti. Pada contoh yang diberikan, lompatan terjadi ketika jumlah cluster adalah 7 dan 5. Jumlah kelompok tidak boleh dikurangi lagi, karena hal ini menyebabkan penurunan kualitas model. Setelah mendapatkan cluster, variabel-variabel yang paling penting dalam arti ekonomi dan paling dekat hubungannya dengan kriteria situasi pasar yang dipilih dipilih - dalam hal ini, dengan kutipan seng London Metal Exchange. Pendekatan ini memungkinkan kami untuk menyimpan sebagian besar informasi yang terkandung dalam kumpulan indikator pasar awal.

Istilah “analisis cluster” pertama kali digunakan oleh psikolog Amerika Robert Tryon dalam karyanya dengan nama yang sama pada tahun 1930. Meskipun demikian, istilah “cluster” dan “cluster analysis” dianggap baru oleh penutur asli, sebagaimana dicatat oleh Alexander Khrolenko, yang melakukan analisis korpus terhadap penggunaan leksem “cluster”: “sebagian besar penulis yang menggunakan istilah ini memperhatikan untuk kebaruannya” (Khrolenko, 2016, hal. 106)

Analisis cluster mencakup banyak algoritma klasifikasi yang berbeda, yang tujuannya adalah untuk mengatur informasi ke dalam cluster. Penting untuk diingat bahwa analisis klaster bukanlah algoritma yang spesifik, namun merupakan masalah yang perlu dipecahkan. Dalam karyanya “The Scarcity of Linear Hierarchy,” Mark Ereshefsky mencatat bahwa analisis klaster adalah salah satu dari tiga jenis klasifikasi objek di dunia sekitar, bersama dengan esensialisme dan klasifikasi sejarah.

Dalam linguistik, prinsip deskripsi cluster mengandung arti, selain analisis unit-unit yang termasuk dalam cluster ini, juga analisis hubungan di dalamnya. Ini dapat berupa hubungan pada tingkat yang berbeda: dari hubungan logis (paradigmatis dan sintagmatik, misalnya) hingga hubungan formatif kata dan fonetik.

F. Brown mengidentifikasi langkah-langkah analisis klaster berikut (Brown):

  • 1. Memilih suatu ukuran dan menghasilkan pengukuran, kriteria atau entitas yang diperlukan untuk diklasifikasikan
  • 2. Menetapkan ukuran kemiripan
  • 3. Merumuskan aturan untuk menentukan urutan pembentukan cluster
  • 4. Menerapkan aturan untuk membentuk cluster

Perlu dicatat bahwa poin ketiga menimbulkan pertanyaan, karena ciri khas clustering sebagai metode klasifikasi adalah tidak adanya kelas tertentu. Pengelompokan dokumen adalah tugas pencarian informasi. Tidak seperti kategorisasi teks, ini tidak melibatkan kategori yang telah ditentukan sebelumnya atau kumpulan pelatihan. Cluster dan hubungan di antara mereka “secara otomatis diekstraksi dari dokumen, dan dokumen secara berurutan ditetapkan ke cluster ini” (Golub, hal. 52-53) Mark Ereshefsky memperkenalkan analisis cluster sebagai metode klasifikasi. Ia percaya bahwa "semua bentuk analisis klaster didasarkan pada dua asumsi: anggota kelompok taksonomi harus memiliki sekelompok ciri yang sama, dan ciri-ciri tersebut tidak dapat muncul pada semua atau hanya satu anggota kelompok itu." (Ereshefsky, hal. 15)

Dalam karyanya “Pendekatan cluster dalam analisis linguistik” (Nurgalieva, 2013) N.Kh. Nurgalieva mengidentifikasi empat tugas utama analisis klaster:

  • 1. Perkembangan suatu tipologi atau klasifikasi
  • 2. Menjelajahi skema konseptual yang berguna untuk mengelompokkan objek
  • 3. Penyajian hipotesis berdasarkan data yang diteliti
  • 4. Menguji hipotesis atau penelitian untuk menentukan apakah jenis (kelompok) yang diidentifikasi dengan satu atau lain cara benar-benar ada dalam data yang tersedia

Semua metode analisis klaster dapat dibagi menjadi analisis klaster yang “keras” dan jelas, ketika setiap objek termasuk dalam suatu klaster atau tidak, dan menjadi “lunak”, analisis klaster fuzzy, ketika setiap objek termasuk dalam kelompok tertentu dengan tingkat tertentu. kemungkinan.

Metode analisis cluster juga dibagi menjadi hierarki dan non-hierarki. Metode hierarki menyiratkan adanya kelompok bersarang, tidak seperti metode non-hierarki. Nurgalieva mencatat bahwa metode hierarki “tampaknya paling cocok untuk memecahkan masalah linguistik” (Nurgalieva, hal. 1), karena memungkinkan Anda melihat dan menganalisis struktur fenomena yang sedang dipelajari.