ryhmäanalyysi. Lähdeluettelo Klusterianalyysin menetelmät

Tarjoaa ajankohtaisen ja tärkeän johdannon sumeaan klusterianalyysiin, sen menetelmiin ja käyttöön. Kuvaa systemaattisesti erilaisia ​​sumeita klusterointitekniikoita, jotta lukija voi valita ongelmansa ratkaisemiseen sopivimman menetelmän. Aiheesta, kuvantunnistuksesta, kattavuuden luokittelusta, data-analyysistä ja säännön johtamisesta on hyvä ja erittäin kattava kirjallisuuskatsaus. Esimerkit ovat riittävän havainnollisia ja toimittavat. tulokset on testattu.
Tämä on yksityiskohtaisin sumean klusteroinnin kirja, minkä vuoksi sitä suositellaan tietojenkäsittelytieteilijöille, matemaatikoille, insinööreille - kaikille, jotka ovat mukana tietojen analysoinnissa, kuvankäsittelyssä. Siitä on hyötyä myös laskennallisten tieteiden parissa työskenteleville opiskelijoille.

Tunnisteet,

Työ on omistettu yhdelle hahmontunnistusteorian menetelmistä – klusterianalyysistä.

Klusterianalyysin keskeiset ideat on esitetty tiiviisti ja joitakin sen soveltamisalueita kaivostutkimuksessa. Kuvattuja klusterointimenetelmiä voidaan käyttää todellisissa ongelmissa. Algoritmeissa laskennallinen osa huomioidaan riittävän yksityiskohtaisesti.

Huolimatta siitä, että klusterianalyysi on tehokas ja kätevä luokittelutyökalu, ja se on myös hyvin yleinen käytännön tutkimuksessa, venäjänkielisiä julkaisuja aiheesta on hyvin vähän, ja nykyiset ovat epätietoisia. Tämä esite korostaa joitakin klusterianalyysin peruskysymyksiä.

Monimuuttujatilastoanalyysin parissa työskenteleville tutkijoille, väitöskirjatyöntekijöille ja asiantuntijoille.

Tunnisteet,

Kirjan teemana on katsaus "klusterianalyysin" soveltamisen teoriaan ja käytäntöön. Tällä menetelmällä on kaikki yhdistelmäryhmittelymenetelmän edut, eikä se ole vapaa sen päähaittapuolena - materiaalihajotuksesta, joka avaa laajat mahdollisuudet kyseisen menetelmän soveltamiselle tilastollisessa analyysissä, objektien luokittelussa, tutkimuksessa. suhteista, näytetyypitys jne. Kirja erottuu täydellisyydestään, saavutettavuudestaan ​​ja esityksen lyhyydestään. Kirja on tarkoitettu tilastotieteilijöille, taloustieteilijöille sekä sosiologeille, väestötieteilijöille, biologeille ja muille asiantuntijoille. Toistettu vuoden 1977 painoksen alkuperäisellä kirjoittajalla (Statistica-kustannus).

Tunnisteet,

Tutkimusaiheet vaihtelevat Uuden-Guinean muumioituneiden jyrsijöiden morfologian analyysistä Yhdysvaltain senaattorien äänestystulosten tutkimiseen, jäätyneiden torakoiden käyttäytymistoimintojen analysoinnista niiden sulamisen jälkeen maantieteellisen levinneisyyden tutkimukseen. tietyntyyppisistä jäkäläistä Saskatchewanissa.

Tällä julkaisujen räjähdysmäisellä kasvulla on ollut valtava vaikutus klusterianalyysin kehitykseen ja soveltamiseen. Mutta valitettavasti on myös negatiivisia puolia. Klusterianalyysiin liittyvien julkaisujen nopea kasvu on johtanut käyttäjäryhmittymien muodostumiseen ja sen seurauksena vain sen luoneiden ryhmittymien käyttämän ammattikieltä (Blashfield ja Aldenderfer, 1978; Blashfield, 1980).

Yhteiskuntatieteilijöiden ammattislangin muodostumista todistavat esimerkiksi erilaiset Wardin menetelmään liittyvät terminologiat. "Ward-menetelmää" kutsutaan kirjallisuudessa eri tavalla. Ainakin neljä muuta sen nimeä tunnetaan: "minimivarianssimenetelmä", "sum of squared error method", "hierarkkisen ryhmittelyn minimoiminen" ja "HGROUP". Kaksi ensimmäistä nimeä viittaavat yksinkertaisesti kriteeriin, jonka optimi määritetään Wardin menetelmällä, kun taas kolmas liittyy neliövirheiden summaan, joka on matriisin W, ryhmän sisäisen kovarianssimatriisin, monotoninen jälkimuunnos. Lopuksi yleisesti käytetty nimi "HGROUP" on suositun tietokoneohjelman nimi, joka toteuttaa Wardin menetelmän (Veldman, 1967).

Jargonin muodostuminen vaikeuttaa tieteidenvälisten yhteyksien kehittymistä, estää klusterianalyysin soveltamisen metodologian ja tulosten tehokkaan vertailun eri tieteenaloilla, johtaa tarpeettomaan ponnistukseen (samojen algoritmien uudelleenkeksimiseen) eikä lopulta anna uutta käyttäjille syvällinen ymmärrys valitsemistaan ​​menetelmistä (Blashfield ja aldenderfer, 1978). Esimerkiksi yksi yhteiskuntatieteellinen tutkimus (Rogers ja Linden, 1973) vertaili kolmea erilaista klusterointimenetelmää käyttäen samaa dataa. He kutsuivat näitä menetelmiä seuraavasti: "hierarkkinen ryhmittely", "hierarkkinen klusteri tai HCG" ja "klusterianalyysi". Ja mikään näistä nimistä ei ollut tuttu klusterointimenetelmille. Aloitteleva klusterianalyysiohjelmien käyttäjä hämmentyy kaikista olemassa olevista nimistä, eikä hän voi yhdistää niitä muihin klusterointimenetelmien kuvauksiin. Kokeneet käyttäjät joutuvat vaikeaan tilanteeseen vertaillessaan tutkimustaan ​​samankaltaiseen työhön. Saatamme mennä äärimmäisyyksiin, mutta ammattikieltä on vakava ongelma.

Viime vuosina klusterianalyysin kehitys on hidastunut jonkin verran julkaisujen ja tieteenalojen lukumäärän perusteella, joilla tätä menetelmää sovelletaan. Voidaan sanoa, että tällä hetkellä psykologia, sosiologia, biologia, tilastotiede ja jotkin tekniset tieteenalat ovat siirtymässä klusterianalyysin konsolidaatiovaiheeseen.

Klusterianalyysin hyveitä ylistävien artikkelien määrä vähenee vähitellen. Samaan aikaan on yhä enemmän töitä, joissa verrataan erilaisten klusterointimenetelmien soveltuvuutta kontrollitietoihin. Kirjallisuudessa on kiinnitetty enemmän huomiota sovelluksiin. Monet tutkimukset tähtäävät käytännön toimenpiteiden kehittämiseen klusterianalyysillä saatujen tulosten validiteetin testaamiseksi. Kaikki tämä todistaa vakavista yrityksistä luoda järkevä tilastollinen teoria klusterointimenetelmistä.


Lähetä hyvä työsi tietokanta on yksinkertainen. Käytä alla olevaa lomaketta

Opiskelijat, jatko-opiskelijat, nuoret tutkijat, jotka käyttävät tietopohjaa opinnoissaan ja työssään, ovat sinulle erittäin kiitollisia.

Johdanto

1. "Klusterianalyysin" historia

2. Terminologia

2.1 Objekti ja ominaisuus

2.2 Objektien välinen etäisyys (metrinen)

2.3 Klusterien tiheys ja sijainti

2.4 Klusterien välinen etäisyys

3. Ryhmittelymenetelmät

3.1 Hierarkkisten agglomeratiivisten menetelmien ominaisuudet

3.2Iteratiivisten klusterointimenetelmien ominaisuudet

4. Ominaisuusklusterointi

5. Klusterin vakaus ja laatu

Bibliografia

JOHDANTO

"Klusterianalyysi on joukko matemaattisia menetelmiä, jotka on suunniteltu muodostamaan suhteellisen "etää" toisistaan ​​"läheisten" objektien ryhmiä niiden välisiä etäisyyksiä tai yhteyksiä (läheisyysmittoja) koskevien tietojen perusteella. Se on merkitykseltään samanlainen kuin termit: automaattinen luokittelu, taksonomia, kuvioiden tunnistus ilman opettajaa." Tämä klusterianalyysin määritelmä on annettu tilastosanakirjan viimeisimmässä painoksessa. Itse asiassa "klusterianalyysi" on yleinen nimi melko suurelle joukolle algoritmeja, joita käytetään luokituksen luomiseen. Useat julkaisut käyttävät myös sellaisia ​​synonyymejä klusterianalyysille kuin luokittelu ja osiointi. Klusterianalyysiä käytetään laajasti tieteessä typologisen analyysin välineenä. Kaikessa tieteellisessä toiminnassa luokittelu on yksi peruskomponenteista, jota ilman on mahdotonta rakentaa ja testata tieteellisiä hypoteeseja ja teorioita. Näin ollen pidän työssäni tarpeellisena pohtia klusterianalyysin kysymyksiä (klusterianalyysin perusta) sekä pohtia sen terminologiaa ja antaa joitakin esimerkkejä tämän menetelmän käytöstä tietojenkäsittelyn päätavoitteena.

1. "KLUSTERIANALYYSI" HISTORIA

Kotimaisten ja ulkomaisten julkaisujen analyysi osoittaa, että klusterianalyysiä käytetään monilla eri tieteenaloilla: kemiassa, biologiassa, lääketieteessä, arkeologiassa, historiassa, maantiedossa, taloustieteessä, filologiassa jne. VV Nalimovin kirja "Probabilistic Model of Language" kuvaa klusterianalyysin käyttöä 70 analyyttisen näytteen tutkimuksessa. Suurin osa klusterianalyysiin liittyvästä kirjallisuudesta on ilmestynyt viimeisen kolmen vuosikymmenen aikana, vaikka ensimmäiset klusterimenetelmiä mainitsevat teokset ilmestyivät jo kauan sitten. Puolalainen antropologi K. Chekanowski esitti ajatuksen "rakenteellisesta luokittelusta", joka sisälsi klusterianalyysin pääidean - kompaktien esineryhmien jakamisen.

Vuonna 1925 Neuvostoliiton hydrobiologi P.V. Terentjev kehitti niin sanotun "korrelaatioplejadien menetelmän", joka on tarkoitettu korreloitujen piirteiden ryhmittelyyn. Tämä menetelmä antoi sysäyksen kaavioita käyttävien ryhmittelymenetelmien kehittämiselle. Trion ehdotti ensimmäisenä termiä "klusterianalyysi". Sana "klusteri" on käännetty englannista "joukko, harja, nippu, ryhmä". Tästä syystä tämäntyyppistä analyysiä kutsuttiin alun perin "klusterianalyysiksi". 1950-luvun alussa R. Lewisin, E. Fixin ja J. Hodgesin julkaisut ilmestyivät hierarkkisista klusterianalyysialgoritmeista. Huomattavan sysäyksen klusterianalyysityön kehittämiseen antoi R. Rosenblattin tunnistuslaitetta (perceptronia) koskeva työ, joka loi pohjan "kuviontunnistuksen ilman opettajaa" teorian kehitykselle.

Sysäyksenä klusterointimenetelmien kehittämiseen oli vuonna 1963 julkaistu kirja "Numeerisen taksonomian periaatteet". kaksi biologia - Robert Sokal ja Peter Sneath. Tämän kirjan kirjoittajat ovat lähteneet siitä, että tehokkaiden biologisten luokittelujen luomiseksi klusterointimenettelyn tulisi varmistaa tutkittavia organismeja karakterisoivien erilaisten indikaattoreiden käyttö, arvioida näiden organismien samankaltaisuuden aste ja varmistaa samankaltaisten organismien sijoittaminen. samassa ryhmässä. Tässä tapauksessa muodostettujen ryhmien tulee olla riittävän "paikallisia", ts. ryhmien sisällä olevien esineiden (eliöiden) samankaltaisuuden tulisi ylittää ryhmien samankaltaisuuden keskenään. Tunnistettujen ryhmien myöhempi analyysi voi tekijöiden mielestä selvittää, vastaavatko nämä ryhmät eri biologisia lajeja. Siten Sokal ja Sneath olettivat, että esineiden ryhmien jakautumisen rakenteen paljastaminen auttaa määrittämään näiden rakenteiden muodostumisprosessin. Ja eri klusterien (ryhmien) organismien ero ja samankaltaisuus voivat toimia perustana meneillään olevan evoluutioprosessin ymmärtämiselle ja sen mekanismin selvittämiselle.

Samoin vuosina J. McKeanin, G. Ballin ja D. Hallin kaltaiset kirjoittajat ehdottivat monia algoritmeja k-means-menetelmillä; G. Lance ja W. Williams, N. Jardine ja muut - hierarkkisista menetelmistä. Kotimaiset tutkijat - E.M. Braverman, A.A. Dorofeyuk, I.B. Muchnik, L.A. Rastrigin, Yu.I. - Erityisesti 60-70-luvulla antoivat merkittävän panoksen klusterianalyysimenetelmien kehittämiseen. Lukuisat Novosibirskin matemaatikoiden N. G. Zagoruikon, V. N. Elkinan ja G. S. Lbovin kehittämät algoritmit nauttivat suuresta suosiosta. Nämä ovat sellaisia ​​tunnettuja algoritmeja kuin FOREL, BIGFOR, KRAB, NTTP, DRET, TRF jne. Näiden pakettien pohjalta luotiin erikoistunut OTEX-ohjelmistopaketti. Yhtä mielenkiintoisia ohjelmistotuotteita PPSA ja Class-Master loivat Moskovan matemaatikot S.A. Aivazyan, I.S. Enyukov ja B.G. Mirkin.

Klusterianalyysimenetelmiä on jossain määrin saatavilla useimmissa tunnetuimmissa kotimaisissa ja ulkomaisissa tilastopaketeissa: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS jne. Tietenkin, 10 vuotta tämän katsauksen julkaisemisen jälkeen, melko paljon on muuttunut, monista tilastoohjelmista on ilmestynyt uusia versioita ja on ilmestynyt täysin uusia ohjelmia, jotka käyttävät sekä uusia algoritmeja että huomattavasti lisääntynyttä laskentatehoa. Useimmat tilastopaketit käyttävät kuitenkin 60-70-luvulla ehdotettuja ja kehitettyjä algoritmeja.

Asiantuntijoiden karkeiden arvioiden mukaan klusterianalyysiin ja sen sovelluksiin liittyvien julkaisujen määrä eri osaamisaloilla kaksinkertaistuu joka kolmas vuosi. Mitkä ovat syyt myrskyiseen kiinnostukseen tämäntyyppistä analyysiä kohtaan? Objektiivisesti tähän ilmiöön on kolme pääsyytä. Tämä on tehokkaan laskentatekniikan synty, jota ilman todellisen tiedon klusterianalyysi ei ole käytännössä mahdollista. Toinen syy on se, että moderni tiede perustuu rakenteissaan yhä enemmän luokitteluun. Lisäksi tämä prosessi syvenee yhä enemmän, koska rinnakkain tiedon erikoistuminen lisääntyy, mikä on mahdotonta ilman riittävän objektiivista luokittelua.

Kolmas syy - erikoistiedon syveneminen johtaa väistämättä tiettyjen esineiden ja ilmiöiden analysoinnissa huomioon otettavien muuttujien määrän kasvuun. Tämän seurauksena subjektiivinen luokittelu, joka aiemmin perustui melko pieneen määrään huomioituja ominaisuuksia, osoittautuu usein epäluotettavaksi. Ja objektiivinen luokittelu jatkuvasti lisääntyvällä objektiominaisuuksilla edellyttää monimutkaisten klusterointialgoritmien käyttöä, jotka voidaan toteuttaa vain nykyaikaisten tietokoneiden pohjalta. Nämä syyt saivat aikaan "klusteribuumin". Lääkäreiden ja biologien keskuudessa klusterianalyysi ei kuitenkaan ole vielä tullut varsin suosituksi ja yleiseksi tutkimusmenetelmäksi.

2 TERMINOLOGIA

2. 1 OBJEKTI JA MERKI

Otetaan ensin käyttöön sellaiset käsitteet kuin esine ja merkki. Objekti - latinan sanasta objectum - subjekt. Kemian ja biologian suhteen kohteilla tarkoitamme tiettyjä tutkimuskohteita, joita tutkitaan fysikaalisilla, kemiallisilla ja muilla menetelmillä. Tällaisia ​​esineitä voivat olla esimerkiksi näytteet, kasvit, eläimet jne. Tiettyä objektijoukkoa, joka on tutkijan käytettävissä tutkittavaksi, kutsutaan näytteeksi tai näytejoukoksi. Objektien määrää tällaisessa populaatiossa kutsutaan yleensä otoskooksi. Tyypillisesti otoskoko on merkitty latinalaisella kirjaimella "n" tai "N".

Merkki (synonyymit - ominaisuus, muuttuja, ominaisuus; englanti - muuttuja - muuttuja.) - on objektin erityinen ominaisuus. Nämä ominaisuudet voidaan ilmaista numeerisina tai ei-numeerisina arvoina. Esimerkiksi verenpaine (systolinen tai diastolinen) mitataan elohopeamillimetreinä, paino kilogrammoina, pituus senttimetreinä jne. Tällaiset merkit ovat kvantitatiivisia. Toisin kuin nämä jatkuvat numeeriset ominaisuudet (asteikot), useilla ominaisuuksilla voi olla erillisiä, epäjatkuvia arvoja. Tällaiset erilliset ominaisuudet puolestaan ​​​​jaetaan yleensä kahteen ryhmään.

1) Ensimmäinen ryhmä ovat arvomuuttujat, tai kuten niitä kutsutaan myös järjestysmuuttujiksi (asteikot). Tällaisille merkeille on ominaista ominaisuus järjestää nämä arvot. Näitä ovat tietyn taudin vaiheet, ikäryhmät, opiskelijoiden tietopisteet, 12 pisteen Richterin maanjäristyksen voimakkuusasteikko jne.

2) Toisella diskreettien ominaisuuksien ryhmällä ei ole tällaista järjestystä, ja sitä kutsutaan nimellisiksi (sanasta "nimellinen" - näyte) tai luokitusominaisuuksiksi. Esimerkki tällaisista merkeistä voi olla potilaan tila - "terve" tai "sairas", potilaan sukupuoli, tarkkailujakso - "ennen hoitoa" ja "hoidon jälkeen" jne. Näissä tapauksissa on tapana sanoa, että sellaiset ominaisuudet kuuluvat nimien asteikkoon.

Objektin ja ominaisuuden käsitteitä kutsutaan yleensä "Objektiominaisuus"- tai "Objektiominaisuus"-matriisiksi. Matriisi on suorakaiteen muotoinen taulukko, joka koostuu ominaisuuksien arvoista, jotka kuvaavat tutkittavien havaintojen otoksen ominaisuuksia. Tässä yhteydessä yksi havainto kirjataan erilliseksi riviksi, joka koostuu käytettyjen ominaisuuksien arvoista. Erillistä attribuuttia tällaisessa tietomatriisissa edustaa sarake, joka koostuu tämän attribuutin arvoista kaikille näytteen objekteille.

2. 2 OBJEKTIEN VÄLINEN ETÄISYYS (METRIC)

Otetaan käyttöön käsite "kohteiden välinen etäisyys". Tämä käsite on olennainen mitta objektien samankaltaisuudesta toistensa kanssa. Objektien välinen etäisyys piirreavaruudessa on sellainen arvo d ij, joka täyttää seuraavat aksioomit:

1. d ij > 0 (etäisyyden ei-negatiivisuus)

2. d ij = d ji (symmetria)

3. d ij + d jk > d ik (kolmio-epäyhtälö)

4. Jos d ij ei ole yhtä suuri kuin 0, niin i ei ole yhtä suuri kuin j (ei-identtisten objektien erottuvuus)

5. Jos d ij = 0, niin i = j (identtisten kohteiden erottamattomuus)

On kätevää esittää kohteiden läheisyyden (samankaltaisuuden) mitta objektien välisen etäisyyden käänteislukuna. Lukuisat klusterianalyysiin omistetut julkaisut kuvaavat yli 50 erilaista tapaa laskea objektien välinen etäisyys. Käsitteen "etäisyys" lisäksi kirjallisuudessa löytyy usein toinen termi - "metrinen", mikä tarkoittaa menetelmää tietyn etäisyyden laskemiseksi. Kvantitatiivisten piirteiden havainnoinnin ja ymmärtämisen kannalta helpoin on niin kutsuttu "euklidinen etäisyys" tai "euklidinen metriikka". Tämän etäisyyden laskemisen kaava on:

Tämä kaava käyttää seuraavaa merkintää:

· d ij - i:nnen ja j:nnen objektin välinen etäisyys;

· x ik - k:nnen muuttujan numeerinen arvo i:nnelle objektille;

x jk - k:nnen muuttujan numeerinen arvo j:nnelle objektille;

· v - objekteja kuvaavien muuttujien määrä.

Siten tapauksessa v=2, kun meillä on vain kaksi kvantitatiivista etumerkkiä, etäisyys d ij on yhtä suuri kuin suorakulmaisen kolmion hypotenuusan pituus, joka yhdistää kaksi pistettä suorakulmaisessa koordinaatistossa. Nämä kaksi pistettä vastaavat otoksen i:nnettä ja j:nnettä havaintoa. Usein tavallisen euklidisen etäisyyden sijasta käytetään sen neliötä d 2 ij. Lisäksi joissain tapauksissa käytetään "painotettua" euklidista etäisyyttä, jonka laskennassa käytetään yksittäisten termien painokertoimia. Euklidisen metriikan käsitteen havainnollistamiseksi käytämme yksinkertaista koulutusesimerkkiä. Alla olevan taulukon tietomatriisi koostuu viidestä havainnosta ja kahdesta muuttujasta.

pöytä 1

Tietomatriisi viidestä havaitusta näytteestä ja kahdesta muuttujasta.

Euklidisen metriikan avulla laskemme objektien välisten etäisyyksien matriisin, joka koostuu arvoista d ij - i:nnen ja j:nnen objektin välinen etäisyys. Meidän tapauksessamme i ja j ovat kohteen, havainnon, numero. Koska otoskoko on 5, i ja j, vastaavasti, voivat saada arvot välillä 1 - 5. On myös selvää, että kaikkien mahdollisten parietäisyyksien lukumäärä tulee olemaan 5*5=25. Todellakin, ensimmäiselle esineelle nämä ovat seuraavat etäisyydet: 1-1; 1-2; 1-3; 1-4; 1-5. Objektille 2 on myös 5 mahdollista etäisyyttä: 2-1; 2-2; 2-3; 2-4; 2-5 jne. Eri etäisyyksien lukumäärä on kuitenkin pienempi kuin 25, koska on tarpeen ottaa huomioon identtisten kohteiden erottamattomuuden ominaisuus - d ij = 0 kun i = j. Tämä tarkoittaa, että kohteen #1 ja saman kohteen #1 välinen etäisyys on nolla. Samat nollaetäisyydet ovat kaikissa muissa tapauksissa i = j. Lisäksi symmetriaominaisuudesta seuraa, että d ij = d ji mille tahansa i:lle ja j:lle. Nuo. kohteiden #1 ja #2 välinen etäisyys on yhtä suuri kuin objektien #2 ja #1 välinen etäisyys.

Euklidisen etäisyyden lauseke on hyvin samanlainen kuin ns. yleistetty Minkowskin tehoetäisyys, jossa potenssien kahden sijaan käytetään toista arvoa. Yleisessä tapauksessa tämä arvo on merkitty symbolilla "p".

Kun p = 2, saadaan tavallinen euklidinen etäisyys. Joten yleisen Minkowski-metriikan lauseke on muotoa:

Eksponentin "p" tietyn arvon valinnan tekee tutkija itse.

Minkowskin etäisyyden erikoistapaus on ns. Manhattan-etäisyys eli "kaupunkikorttelin etäisyys", joka vastaa p=1:tä:

Siten Manhattanin etäisyys on objektien vastaavien ominaisuuksien erojen moduulien summa. Antamalla p:n taipua äärettömään, saadaan "dominanssi" eli Sup-metriikka:

joka voidaan esittää myös muodossa d ij = max| x ik - x jk |.

Minkowski-mittari on itse asiassa suuri joukko mittareita, mukaan lukien suosituimmat tiedot. Objektien välisen etäisyyden laskemiseen on kuitenkin olemassa menetelmiä, jotka poikkeavat olennaisesti Minkowski-metriikasta. Näistä tärkein on ns. Mahalanobis-etäisyys, jolla on melko erityisiä ominaisuuksia. Tämän mittarin lauseke:

Tästä läpi X i Ja X j i:nnen ja j:nnen objektin muuttuvien arvojen sarakevektorit on merkitty. Symboli T ilmaisussa (X i - X j ) T tarkoittaa niin kutsuttua vektorin transponointioperaatiota. Symboli S yhteinen ryhmän sisäinen varianssi-kovarianssimatriisi on merkitty. Symboli -1 edellä S tarkoittaa, että sinun on käännettävä matriisi S . Toisin kuin Minkowski-metriikassa ja euklidisessa metriikassa, Mahalanobiksen etäisyys varianssi-kovarianssimatriisin läpi S liittyy muuttujien korrelaatioihin. Kun muuttujien väliset korrelaatiot ovat nolla, Mahalanobiksen etäisyys vastaa euklidisen etäisyyden neliötä.

Käytettäessä kaksijakoisia (joilla on vain kaksi arvoa) laadullisia piirteitä käytetään laajasti Hamming-etäisyyttä.

yhtä suuri kuin tarkasteltujen i:nnen ja j:nnen objektin vastaavien ominaisuuksien arvojen yhteensopimattomuuksien lukumäärä.

2. 3 KUSTERIEN TIHEYS JA PAIKKAALUS

Klusterianalyysin päätavoitteena on löytää otoksesta keskenään samankaltaisia ​​esineryhmiä. Oletetaan, että joillain mahdollisilla menetelmillä olemme saaneet tällaiset ryhmät - klusterit. Klusterien tärkeät ominaisuudet tulee huomioida. Yksi näistä ominaisuuksista on pisteiden, havaintojen, jakautumistiheys klusterin sisällä. Tämän ominaisuuden avulla voimme määritellä klusterin moniulotteisen avaruuden pisteiden klusteriksi, joka on suhteellisen tiheä verrattuna tämän avaruuden muihin alueisiin, jotka joko eivät sisällä pisteitä ollenkaan tai sisältävät vain pienen määrän havaintoja. Toisin sanoen kuinka kompakti tämä klusteri on, tai päinvastoin, kuinka harva se on. Huolimatta riittävistä todisteista tästä ominaisuudesta ei ole olemassa yksiselitteistä tapaa laskea tällaista indikaattoria (tiheyttä). Menestynein indikaattori, joka kuvaa tiiviyttä, moniulotteisten havaintojen "pakkautumistiheyttä" tietyssä klusterissa, on etäisyyden hajonta klusterin keskipisteestä klusterin yksittäisiin pisteisiin. Mitä pienempi tämän etäisyyden hajonta on, sitä lähempänä havainnot ovat klusterin keskustaa, sitä suurempi on klusterin tiheys. Ja päinvastoin, mitä suurempi etäisyyden hajonta, sitä harvempi tämä klusteri on, ja sen seurauksena pisteitä on sekä lähellä klusterin keskustaa että melko kaukana klusterin keskustasta.

Klusterien seuraava ominaisuus on niiden koko. Klusterin koon pääindikaattori on sen "säde". Tämä ominaisuus heijastaa täydellisimmin klusterin todellista kokoa, jos kyseessä oleva klusteri on pyöreä ja hyperpallo moniulotteisessa avaruudessa. Jos klusterit ovat muodoltaan pitkänomaisia, säteen tai halkaisijan käsite ei enää heijasta klusterin todellista kokoa.

Toinen tärkeä klusterin ominaisuus on niiden sijainti, erotettavuus. Se kuvaa klustereiden päällekkäisyyden astetta ja keskinäistä etäisyyttä toisistaan ​​moniulotteisessa tilassa. Harkitse esimerkiksi kolmen klusterin jakautumista uusien integroitujen ominaisuuksien tilassa alla olevassa kuvassa. Akselit 1 ja 2 saatiin erikoismenetelmällä 12 eri erytrosyyttimuotojen heijastusominaisuuksien ominaisuudesta, jotka on tutkittu elektronimikroskopialla.

Kuva 1

Näemme, että klusterilla 1 on vähimmäiskoko, kun taas klusterilla 2 ja 3 on suunnilleen yhtä suuria kokoja. Samalla voidaan sanoa, että minimitiheys ja siten maksimietäisyyshajonta on klusterille 3 ominaista. Lisäksi klusteria 1 erottaa riittävän suuret tyhjän tilan osat sekä klusterista 2 että klusterista 3. Kun taas klusterit 2 ja 3 menevät osittain päällekkäin. Mielenkiintoista on se tosiasia, että klusterilla 1 on paljon suurempi ero 2. ja 3. klusteriin akselilla 1 kuin akselilla 2. Päinvastoin, klusterit 2 ja 3 eroavat suunnilleen samalla tavalla toisistaan ​​sekä akselilla 1 että akselilla 2. On selvää, että tällaista visuaalista analyysiä varten kaikki näytteen havainnot on projisoitava erikoisakseleille, joissa klusterin elementtien projektiot tulevat näkyviin erillisinä klustereina.

2. 4 RYPPUJEN VÄLINEN ETÄISYYS

Laajemmassa merkityksessä esineitä voidaan ymmärtää paitsi alkuperäisinä tutkimuksen kohteina, jotka esitetään "objekti-ominaisuus" -matriisissa erillisenä rivinä tai yksittäisinä pisteinä moniulotteisessa piirreavaruudessa, vaan myös erillisinä tällaisten pisteiden ryhminä. , joka on yhden tai toisen algoritmin yhdistämä klusteriksi. Tässä tapauksessa herää kysymys, kuinka ymmärtää tällaisten pisteiden (klustereiden) välinen etäisyys ja kuinka se lasketaan. Tässä tapauksessa mahdollisuuksien kirjo on jopa suurempi kuin laskettaessa kahden havainnon välinen etäisyys moniulotteisessa avaruudessa. Tätä menettelyä vaikeuttaa se tosiasia, että toisin kuin pisteet, klusterit vievät tietyn määrän moniulotteista tilaa ja koostuvat monista pisteistä. Klusterianalyysissä käytetään laajalti klusterien välisiä etäisyyksiä, jotka lasketaan periaatteella lähin naapuri (lähin naapuri), painopiste, kaukaisin naapuri (kauimpana naapuri), mediaanit. Neljää menetelmää käytetään yleisimmin: yksittäinen linkitys, täysi linkitys, keskimääräinen linkitys ja Wardin menetelmä. Yhden linkin menetelmässä objekti liitetään jo olemassa olevaan klusteriin, jos vähintään yksi klusterin elementeistä on samankaltainen kuin yhdistettävä objekti. Täydellisten linkkien menetelmässä objekti liitetään klusteriin vain, jos sisällytettävän ehdokkaan ja minkä tahansa klusterin elementin samankaltaisuus ei ole pienempi kuin tietty kynnys. Keskimääräiseen yhteystapaan on olemassa useita muutoksia, jotka ovat kompromissi yhden ja täyden yhteyden välillä. Ne laskevat sisällytettävän ehdokkaan samankaltaisuuden keskiarvon nykyisen klusterin kaikkien objektien kanssa. Kiinnitys suoritetaan, kun löydetty keskimääräinen samankaltaisuusarvo saavuttaa tai ylittää tietyn kynnyksen. Yleisimmin käytetty on aritmeettisen keskiarvon samankaltaisuus klusterin objektien ja klusteriin sisällytettävän ehdokkaan välillä.

Monet klusterointimenetelmät eroavat toisistaan ​​siinä, että niiden algoritmit jokaisessa vaiheessa laskevat erilaisia ​​osioinnin laatufunktioita. Suosittu Ward-menetelmä on rakennettu siten, että se optimoi klusterin sisäisten etäisyyksien vähimmäisvarianssin. Ensimmäisessä vaiheessa kukin klusteri koostuu yhdestä objektista, josta johtuen klusterin sisäinen etäisyyksien hajonta on 0. Tällä menetelmällä yhdistetään ne objektit, jotka antavat dispersion minimilisäyksen, minkä seurauksena tämä menetelmä pyrkii luoda hyperpallomaisia ​​klustereita.

Useat yritykset luokitella klusterianalyysimenetelmiä johtavat kymmeniin tai jopa satoihin eri luokkiin. Tällainen vaihtelu syntyy useista mahdollisista tavoista laskea yksittäisten havaintojen välinen etäisyys, yhtä paljon menetelmiä yksittäisten klustereiden välisen etäisyyden laskemiseksi klusterointiprosessissa sekä erilaiset arviot lopullisen klusterirakenteen optimaalisuudesta.

Suosituissa tilastopaketeissa yleisimmin käytettyjä ovat kaksi klusterianalyysialgoritmien ryhmää: hierarkkiset agglomeratiiviset menetelmät ja iteratiiviset ryhmittelymenetelmät.

3. RYHMITTELYMENETELMÄT

3. 1 HIERARKISTEN AGGLOMERATIIVISTEN MENETELMIEN OMINAISUUDET

Agglomeratiivisissa hierarkkisissa algoritmeissa, joita käytetään useammin todellisessa biolääketieteellisessä tutkimuksessa, kaikki objektit (havainnot) katsotaan aluksi erillisiksi, itsenäisiksi klustereiksi, jotka koostuvat vain yhdestä elementistä. Ilman tehokasta tietotekniikkaa klusteridata-analyysin toteuttaminen on erittäin ongelmallista.

Mittarin valinnan tekee tutkija. Etäisyysmatriisin laskemisen jälkeen prosessi alkaa taajamat (latinan sanasta agglomero - kiinnitän, kerään), kulkee peräkkäin askel askeleelta. Tämän prosessin ensimmäisessä vaiheessa kaksi pienimmän etäisyyden omaavaa alkuhavaintoa (monoklusteria) yhdistetään yhdeksi klusteriksi, joka koostuu jo kahdesta kohteesta (havainnoista). Näin ollen aiemman N monoklusterin (yhdestä objektista koostuvat klusterit) tilalle tulee ensimmäisen vaiheen jälkeen N-1 klusteria, joista yksi klusteri sisältää kaksi kohdetta (havainnot) ja N-2 klusteria muodostuu edelleen vain yksi esine. Toisessa vaiheessa erilaiset menetelmät N-2-klustereiden yhdistämiseksi ovat mahdollisia. Tämä johtuu siitä, että yksi näistä klusteista sisältää jo kaksi objektia. Tästä syystä herää kaksi pääkysymystä:

· kuinka laskea koordinaatit sellaiselle kahden (ja lisäksi useamman kuin kahden) objektin klusterille;

· Kuinka laskea etäisyys sellaisiin "poly-objekti"-klustereihin "monoklustereista" ja "poly-objekti"-klusterien välillä.

Nämä kysymykset määräävät viime kädessä lopullisten klustereiden lopullisen rakenteen (klusterien rakenne tarkoittaa yksittäisten klustereiden kokoonpanoa ja niiden suhteellista sijaintia moniulotteisessa tilassa). Erilaiset metriikan ja klustereiden koordinaattien ja keskinäisten etäisyyksien laskentamenetelmien yhdistelmät synnyttävät erilaisia ​​klusterianalyysimenetelmiä. Toisessa vaiheessa useista objekteista koostuvan klusterin koordinaattien laskentamenetelmistä ja klustereiden välisten etäisyyksien laskentamenetelmästä riippuen on mahdollista joko yhdistää kaksi erillistä havaintoa uudeksi klusteriksi tai liittää yhteen uuteen klusteriin. havainnointi klusteriin, joka koostuu kahdesta kohteesta. Mukavuuden vuoksi useimmat agglomeratiivisten hierarkkisten menetelmien ohjelmat työn lopussa voivat tarjota kaksi pääkaaviota katselua varten. Ensimmäistä kuvaajaa kutsutaan dendrogrammiksi (kreikan sanasta dendron - puu), joka heijastaa agglomeroitumisprosessia, yksittäisten havaintojen sulautumista yhdeksi lopulliseksi klusteriksi. Otetaan esimerkki 5 havainnon dendrogrammista kahdessa muuttujassa.

Ajoittaa1

Tällaisen kaavion pystyakseli on klusterien välisen etäisyyden akseli, ja objektien lukumäärät - analyysissä käytetyt tapaukset - on merkitty vaaka-akselia pitkin. Tästä dendrogrammista voidaan nähdä, että objektit nro 1 ja nro 2 yhdistetään ensin yhdeksi klusteriksi, koska niiden välinen etäisyys on pienin ja yhtä suuri kuin 1. Tämä fuusio näkyy kaaviossa pystysegmenttien yhdistävänä vaakaviivana tulee ulos pisteistä, jotka on merkitty C_1 ja C_2. Kiinnitetään huomiota siihen, että vaakaviiva itse kulkee täsmälleen klusterin välisen etäisyyden tasolla, joka on yhtä suuri kuin 1. Edelleen toisessa vaiheessa objekti nro 3, joka on nimetty nimellä C_3, liittyy tähän klusteriin, joka sisältää jo kaksi kohdetta. Seuraava askel on yhdistää objektit #4 ja #5, joiden välinen etäisyys on 1,41. Ja viimeisessä vaiheessa objektien 1, 2 ja 3 klusteri yhdistetään objektien 4 ja 5 klusterin kanssa. Kaavio osoittaa, että näiden kahden toiseksi viimeisenä olevan klusterin välinen etäisyys (viimeinen klusteri sisältää kaikki 5 kohdetta) on suurempi kuin 5 , mutta vähemmän kuin 6, koska ylempi vaakasuora viiva, joka yhdistää kaksi toiseksi viimeistä klusteria, kulkee tasolla, joka on suunnilleen yhtä suuri kuin 7, ja objektien 4 ja 5 yhteystaso on 1,41.

Alla oleva dendrogrammi saatiin analysoimalla todellista aineistoa, joka koostuu 70 käsitellystä kemiallisesta näytteestä, joista jokaiselle oli tunnusomaista 12 ominaisuutta.

Kaavio 2

Kaaviosta voidaan nähdä, että viimeisessä vaiheessa, kun kaksi viimeistä klusteria yhdistyvät, niiden välinen etäisyys on noin 200 yksikköä. Voidaan nähdä, että ensimmäinen klusteri sisältää paljon vähemmän objekteja kuin toinen klusteri. Alla on suurennettu osa dendrogrammista, jossa havaintonumerot näkyvät selvästi, merkittynä C_65, C_58 jne. (vasemmalta oikealle): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 jne.

Kaavio 3 Suurennettu osa yllä olevasta kaaviosta #2

Voidaan nähdä, että kohde 44 on monoklusteri, joka yhdistyy oikeanpuoleiseen klusteriin toiseksi viimeisessä vaiheessa, ja sitten viimeisessä vaiheessa kaikki havainnot yhdistetään yhdeksi klusteriksi.

Toinen tällaisissa proseduureissa rakennettu kaavio on ryhmien välisten etäisyyksien kuvaaja liiton jokaisessa vaiheessa. Alla on samanlainen käyrä yllä olevalle dendrogrammille.

Kaavio 4

Useissa ohjelmissa on mahdollista näyttää taulukkomuodossa objektien yhdistämisen tulokset kussakin klusteroinnin vaiheessa. Useimmissa näistä taulukoista, sekaannusten välttämiseksi, käytetään eri terminologiaa alkuperäisten havaintojen - monoklustereiden ja varsinaisten kahdesta tai useammasta havainnosta koostuvien klustereiden - osoittamiseen. Englanninkielisissä tilastopaketeissa alkuperäiset havainnot (tietomatriisin rivit) on merkitty "case" - case. Havainnollistaaksemme klusterirakenteen riippuvuutta metriikan valinnasta ja klusteriyhdistysalgoritmin valinnasta, esitämme alla dendrogrammin, joka vastaa täyttä yhteysalgoritmia. Ja tässä näemme, että objekti #44 on yhdistetty muun valinnan kanssa aivan viimeisessä vaiheessa.

Kaavio 5

Verrataan nyt sitä toiseen kaavioon, joka on saatu käyttämällä yhden linkin menetelmää samoilla tiedoilla. Päinvastoin kuin täysyhteysmenetelmä, voidaan nähdä, että tämä menetelmä luo pitkiä ketjuja peräkkäin kiinnitetyistä objekteista toisiinsa. Kaikissa kolmessa tapauksessa voimme kuitenkin sanoa, että kaksi pääryhmää erottuvat joukosta.

Kaavio 6

Huomioikaa myös se, että kaikissa kolmessa tapauksessa objekti nro 44 liittyy monoklusteriksi, vaikkakin klusterointiprosessin eri vaiheissa. Tällaisten monoklusterien valinta on hyvä tapa havaita poikkeavia havaintoja, joita kutsutaan outliersiksi. Poistetaan tämä "epäilyttävä" objekti nro 44 ja suoritetaan uudelleen klusterointi. Saamme seuraavan dendrogrammin:

Kaavio 7

Voidaan nähdä, että "ketju"-ilmiö säilyy, samoin kuin jako kahteen paikalliseen havaintoryhmään.

3. 2 ITERATIIVISTEN KLASTERAUSMENETELMIEN OMINAISUUDET

Iteratiivisista menetelmistä suosituin menetelmä on McKeanin k-means-menetelmä. Toisin kuin hierarkkiset menetelmät, useimmissa tämän menetelmän toteutuksissa käyttäjän on itse määriteltävä haluttu määrä lopullisia klustereita, joita yleensä merkitään "k". Kuten hierarkkisissa klusterointimenetelmissä, käyttäjä voi valita yhden tai toisen metriikan. K-means-menetelmän erilaiset algoritmit eroavat myös tavassa valita annettujen klustereiden alkukeskukset. Joissakin menetelmän versioissa käyttäjä voi (tai täytyy) itse määrittää tällaiset alkupisteet joko valitsemalla ne todellisista havainnoista tai määrittämällä näiden pisteiden koordinaatit kullekin muuttujalle. Tämän menetelmän muissa toteutuksissa tietty määrä k alkupisteitä valitaan satunnaisesti ja näitä alkupisteitä (klusterijyviä) voidaan myöhemmin jalostaa useassa vaiheessa. Tällaisissa menetelmissä on 4 päävaihetta:

· valitse tai määritä k havaintoa, jotka ovat klustereiden ensisijaisia ​​keskuksia;

· tarvittaessa muodostetaan väliklusterit osoittamalla jokainen havainto lähimpään määriteltyyn klusterikeskuksiin;

· kun kaikki havainnot on kohdistettu yksittäisiin klustereihin, ensisijaiset klusterikeskukset korvataan klusterin keskiarvoilla;

· edellinen iteraatio toistetaan, kunnes muutokset klusterin keskusten koordinaateissa ovat minimaaliset.

Joissakin tämän menetelmän versioissa käyttäjä voi asettaa kriteerin numeerisen arvon, joka tulkitaan vähimmäisetäisyydeksi uusien klusterikeskusten valinnassa. Havaintoja ei pidetä ehdokkaana uudelle klusterikeskukselle, jos sen etäisyys korvattuun klusterikeskukseen ylittää määritellyn määrän. Tätä parametria kutsutaan joissakin ohjelmissa "säteeksi". Tämän parametrin lisäksi on myös mahdollista asettaa iteraatioiden maksimimäärä tai saavuttaa tietty, yleensä melko pieni luku, johon verrataan kaikkien klusterin keskusten etäisyyden muutosta. Tätä asetusta kutsutaan yleisesti "konvergenssiksi", koska kuvastaa iteratiivisen klusterointiprosessin konvergenssia. Alla esittelemme joitain tuloksia, jotka on saatu McKeanin k-means -menetelmällä aikaisempaan dataan. Haluttujen klustereiden määräksi asetettiin alun perin 3 ja sitten 2. Niiden ensimmäinen osa sisältää yksisuuntaisen varianssianalyysin tulokset, jossa klusteriluku toimii ryhmittelytekijänä. Ensimmäinen sarake on 12 muuttujan luettelo, jota seuraa neliöiden (SS) ja vapausasteiden (df) summat, sitten Fisherin F-testi ja viimeisessä sarakkeessa saavutettu merkitsevyystaso "p".

Taulukko 2 McKeanin k-keskiarvotiedot, jotka koskevat 70 testinäytettä.

Muuttujat

Kuten tästä taulukosta voidaan nähdä, nollahypoteesi keskiarvojen yhtäläisyydestä kolmessa ryhmässä hylätään. Alla on kaavio yksittäisten klustereiden kaikkien muuttujien keskiarvoista. Muuttujien samat klusterikeskiarvot on esitetty alla taulukon muodossa.

Taulukko 3. Yksityiskohtainen katsaus dataan kolmen klusterin esimerkissä.

Muuttuva

Klusteri #1

Klusteri #2

Klusteri #3

Kaavio 8

Kunkin klusterin muuttujien keskiarvojen analyysi antaa mahdollisuuden päätellä, että X1-ominaisuuden mukaan klusterilla 1 ja 3 on läheiset arvot, kun taas klusterin 2 keskiarvo on paljon pienempi kuin kahdessa muussa klusterissa. Päinvastoin, X2-ominaisuuden mukaan ensimmäisellä klusterilla on alhaisin arvo, kun taas 2. ja 3. klusterilla on korkeammat ja läheiset keskiarvot. Ominaisuuksille X3-X12 keskiarvot klusterissa 1 ovat merkittävästi korkeammat kuin klustereissa 2 ja 3. Seuraava ANOVA-analyysin taulukko kahdeksi klusteriksi ryhmittymisen tuloksista osoittaa myös tarpeen hylätä nollahypoteesi tasa-arvosta ryhmän keskiarvoista lähes kaikille 12 ominaisuudelle, lukuun ottamatta muuttujaa X4, jolle saavutettu merkitsevyystaso osoittautui yli 5 %:ksi.

Taulukko 4. Taulukko kahdeksi klusteriksi ryhmittymisen tulosten dispersioanalyysistä.

Muuttujat

Alla on kaavio ja taulukko ryhmien keskiarvoista kahdeksi klusteriksi klusteroinnin tapauksessa.

Taulukko 5. Taulukko kahdeksi klusteriksi ryhmittelemisestä.

Muuttujat

Klusteri #1

Klusteri #2

Kaavio 9.

Siinä tapauksessa, että tutkija ei pysty määrittämään etukäteen todennäköisintä klusterien määrää, hänen on toistettava laskelmat asettamalla eri luku, kuten edellä on tehty. Ja sitten vertaamalla saatuja tuloksia keskenään, pysähdy yhteen hyväksyttävimmistä klusterointivaihtoehdoista.

4 . OMINAISUUKSIEN RYKKÄMINEN

Yksittäisten havaintojen klusteroinnin lisäksi on olemassa myösa. Yksi ensimmäisistä tällaisista menetelmistä on korrelaatioplejadien menetelmä Terentiev P.V. Biolääketieteellisistä julkaisuista löytyy usein primitiivisiä kuvia sellaisista pleiadeista ympyrän muodossa, joka on pisteytetty nuolilla, jotka yhdistävät merkkejä, joille kirjoittajat löysivät korrelaation. Useilla objektien ja ominaisuuksien klusterointiohjelmilla on erilliset menettelyt. Esimerkiksi ominaisuusklusteroinnin SAS-paketissa käytetään VARCLUS-proseduuria (VARiable - muuttuja ja CLUSter - cluster), kun taas havaintojen klusterianalyysi suoritetaan muilla menettelyillä - FASTCLUS ja CLUSTER. Dendrogrammin rakentaminen tapahtuu molemmissa tapauksissa TREE (tree) -menettelyllä.

Muissa tilastopaketeissa klusteroinnin elementtien - objektien tai ominaisuuksien - valinta tehdään samassa moduulissa. Ominaisuusklusteroinnin metriikkana käytetään usein lausekkeita, jotka sisältävät tiettyjen kertoimien arvon, jotka heijastavat suhteen vahvuutta ominaisuusparille. Tässä tapauksessa on erittäin kätevää, jos merkkejä, joiden yhteysvoimakkuus on yhtä suuri (toiminnallinen riippuvuus), ottaa merkkien välinen etäisyys nollaksi. Toiminnallisella yhteydellä yhden ominaisuuden arvo voi todellakin laskea tarkasti toisen ominaisuuden arvon. Kun ominaisuuksien välisen suhteen vahvuus pienenee, etäisyys kasvaa vastaavasti. Alla on kaavio, joka näyttää dendrogrammin 12 ominaisuuden yhdistelmästä, joita käytettiin yllä ryhmitettäessä 70 analyyttistä näytettä.

Kaavio 10. Dendrogrammiklusterointi 12 ominaisuutta.

Kuten tästä dendrogrammista voidaan nähdä, kyseessä on kaksi paikallista ominaisuusryhmää: X1-X10 ja X11-X12. Ominaisuusryhmälle X1-X10 on tunnusomaista melko pieni klusterietäisyyksien arvo, joka ei ylitä noin 100 yksikköä. Täällä näemme myös joitain sisäisiä parillisia alaryhmiä: X1 ja X2, X3 ja X4, X6 ja X7. Näiden parien piirteiden välinen etäisyys, joka on hyvin lähellä nollaa, osoittaa niiden vahvan parisuhteen. Sen sijaan parilla X11 ja X12 klusterin välisen etäisyyden arvo on paljon suurempi ja on noin 300 yksikköä. Lopuksi, erittäin suuri etäisyys vasemman (X1-X10) ja oikean (X11-X12) klusterin välillä, joka vastaa noin 1150 yksikköä, osoittaa, että näiden kahden ominaisuusryhmän välinen suhde on melko minimaalinen.

5. VAKAUS JA LAATU RYPMIÄ

Ilmeisesti olisi järjetöntä esittää kysymys siitä, kuinka absoluuttinen tämä tai tuo klusterianalyysimenetelmien avulla saatu luokittelu on. Kun klusterointimenetelmää muutetaan, stabiilisuus ilmenee siinä, että kaksi klusteria näkyy varsin selvästi dendrogrammeissa.

Yhtenä mahdollisena tapana tarkistaa klusterianalyysitulosten stabiilius voidaan käyttää menetelmää, jossa vertaillaan eri klusterointialgoritmeille saatuja tuloksia. Muita tapoja ovat B. Efronin vuonna 1977 ehdottama niin kutsuttu bootstrap-menetelmä, "jackknife"- ja "sliding control" -menetelmät. Yksinkertaisin tapa tarkistaa klusteriratkaisun stabiilius voi olla jakaa alkuperäinen näyte satunnaisesti kahteen suunnilleen yhtä suureen osaan, klusterioida molemmat osat ja sitten vertailla tuloksia. Aikaa vievämpi tapa sisältää ensimmäisen objektin peräkkäisen poissulkemisen alussa ja jäljellä olevien (N - 1) objektien klusteroinnin. Lisäksi tämän menettelyn suorittaminen peräkkäin, lukuun ottamatta toista, kolmatta jne. Kaikkien N saadun klusterin rakennetta analysoidaan. Toinen stabiilisuuden tarkistamisalgoritmi sisältää usean toiston, alkuperäisen N kohteen näytteen monistamisen, sitten kaikkien monistettujen näytteiden yhdistämisen yhdeksi suureksi näytteeksi (pseudoyleinen populaatio) ja uuden N objektin näytteen poimimisen siitä satunnaisesti. Tämän jälkeen suoritetaan tämän näytteen klusterointi, sitten otetaan uusi satunnaisnäyte ja klusterointi suoritetaan uudelleen jne. Se on myös melko työvoimavaltaista.

Klusteroinnin laadun arvioinnissa ei ole vähemmän ongelmia. Algoritmeja klusteriratkaisujen optimointiin tunnetaan useita. Ensimmäiset teokset, jotka sisälsivät kriteerin formulaatioita klusterin sisäisen varianssin minimoimiseksi ja algoritmin (k-means-tyyppinen) optimaalisen ratkaisun löytämiseksi, ilmestyivät 50-luvulla. Vuonna 1963 J. Wardin artikkeli esitteli myös samanlaisen optimointihierarkkisen algoritmin. Klusteriratkaisun optimoinnille ei ole olemassa universaalia kriteeriä. Kaikki tämä tekee tutkijan vaikeaksi valita optimaalisen ratkaisun. Tällaisessa tilanteessa paras tapa väittää, että löydetty klusteriratkaisu on optimaalinen tässä tutkimuksen vaiheessa, on vain tämän ratkaisun johdonmukaisuus muilla monimuuttujatilastomenetelmillä saatujen johtopäätösten kanssa.

Klusteroinnin optimaalisuutta koskevan päätelmän puolesta on myös positiivisia tuloksia saadun ratkaisun ennustusmomenttien tarkistamisesta jo muissa tutkimuskohteissa. Hierarkkisia klusterianalyysimenetelmiä käytettäessä voimme suositella useiden ryhmien välisen etäisyyden vaiheittaisten muutosten kuvaajien vertaamista keskenään. Tässä tapauksessa etusijalle tulisi antaa vaihtoehto, jossa havaitaan tällaisen lisäyksen tasainen viiva ensimmäisestä vaiheesta useisiin toiseksi viimeisiin vaiheisiin, jolloin tässä kaaviossa on jyrkkä pystysuora nousu klusteroinnin viimeisissä 1-2 vaiheessa.

PÄÄTELMÄT

Työssäni yritin näyttää tämän tyyppisen analyysin monimutkaisuuden lisäksi myös optimaaliset tietojenkäsittelyominaisuudet, koska usein tulosten tarkkuuden vuoksi joudut käyttämään kymmenistä satoihin näytteitä. Tämäntyyppinen analyysi auttaa luokittelemaan ja käsittelemään tuloksia. Tärkeänä pidän myös tietokonetekniikan hyväksyttävyyttä tässä analyysissä, mikä mahdollistaa tulosten käsittelyprosessin vähentämisen ja mahdollistaa siten enemmän huomion kiinnittämisen näytteenoton oikeellisuuteen analysointia varten.

Klusterianalyysin käytössä on sellaisia ​​hienouksia ja yksityiskohtia, jotka ilmenevät yksittäistapauksissa eivätkä heti näy. Esimerkiksi ominaisuuksien asteikon rooli voi olla minimaalinen ja joissain tapauksissa hallitseva. Tällaisissa tapauksissa on tarpeen käyttää muuttujan muunnoksia. Tämä on erityisen tehokasta käytettäessä menetelmiä, jotka tuottavat epälineaarisia piirremuunnoksia, jotka yleensä lisäävät ominaisuuksien välisten korrelaatioiden yleistä tasoa.

Klusterianalyysin käyttö on vieläkin tarkempaa suhteessa objekteihin, joita kuvataan vain laadullisin piirtein. Tässä tapauksessa laadullisten ominaisuuksien alustava digitalisointi ja klusterianalyysi uusilla ominaisuuksilla ovat varsin onnistuneita. Työssäni osoitin, että klusterianalyysi tarjoaa paljon uutta ja omaperäistä tietoa sekä sen soveltamisessa riittävästi tutkituissa järjestelmissä että rakenteeltaan tuntemattomien järjestelmien tutkimuksessa.

On myös huomattava, että klusterianalyysistä on tullut välttämätön evoluutiotutkimuksessa, mikä mahdollistaa evoluutiopolkuja osoittavien fylogeneettisten puiden rakentamisen. Näitä menetelmiä käytetään laajalti myös fysikaalisen ja analyyttisen kemian tieteellisissä tutkimusohjelmissa.

KIRJASTUS

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. Sovellettavan tilastollisen analyysin ohjelmistopaketin rakenteesta ja sisällöstä//Algoritmi ja ohjelmisto sovellettua tilastollista analyysiä varten.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. Moniulotteisten havaintojen luokittelu. - M.: Tilastot, 1974.

3) Becker V. A., Lukatskaya M. L. Kytkentäkertoimien matriisin rakenteen analyysistä//Teollisuuden taloudellisen ja tilastollisen mallinnuksen ja ennustamisen kysymyksiä.-- Novosibirsk, 1970.

4) Braverman E.M., Muchnik I.B. Tietojenkäsittelyn rakenteelliset menetelmät.--M.: Nauka, 1983.

5) Voronin Yu. A. Luokitteluteoria ja sen sovellukset. - Novosibirsk: Nauka, 1987.

6) Good I. J. Botryology of botryology//Luokittelu ja klusteri.--M.: Mir, 1980.

7) Dubrovsky S. A. Sovellettu monimuuttujatilastoanalyysi.--M.: Rahoitus ja tilastot, 1982.

8) Duran N., Odell P. Klusterianalyysi - M.: Statistics, 1977.

9) Eliseeva I.I., Rukavishnikov V.S. Ryhmittely, korrelaatio, kuviontunnistus.--M.: Tilastot, 1977.

10) Zagoruiko N. G. Tunnistusmenetelmät ja niiden soveltaminen.--M .: Neuvostoliiton radio, 1972.

11) Zade L. A. Sumeat joukot ja niiden käyttö hahmontunnistuksessa ja klusterianalyysissä//Luokittelu ja klusteri.--M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. Moniulotteiset ryhmät.--M.: Tilastot, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA Tietoja yhdestä tavasta tarkistaa osioinnin validiteetti klusterianalyysissä.//Monimuuttujatilastollisen analyysin soveltaminen taloustieteissä ja tuotteiden laadun arvioinnissa.--Ch. P. Tartto, 1977.

14) Shurygin A. M. Pisteiden välisten etäisyyksien ja erojen jakautuminen // Ohjelmisto ja algoritminen tuki sovelletulle moniulotteiselle tilastoanalyysille.--M., 1983.

15) Eeremaa R. Yleinen teoria klusterijärjestelmien suunnittelusta ja algoritmit niiden numeeristen esitysten löytämiseksi: TSU:n laskentakeskuksen julkaisut.--Tartu, 1978.

16) Yastremsky B.S. Valitut teokset. - M.: Tilastot, 1964.

Samanlaisia ​​asiakirjoja

    Markkinoiden segmentoinnin tavoitteet markkinointitoiminnassa. Klusterianalyysin ydin, sen toteuttamisen päävaiheet. Valitse, miten etäisyys tai samankaltaisuus mitataan. Hierarkkiset, ei-hierarkkiset klusterointimenetelmät. Luotettavuuden ja luotettavuuden arviointi.

    raportti, lisätty 02.11.2009

    Yrityksen taloudellisen tilanteen tärkeimmät indikaattorit. Yrityksen kriisi, sen syyt, tyypit ja seuraukset. Nykyaikaiset klusterianalyysin menetelmät ja työkalut, niiden käytön piirteet yrityksen taloudellisessa ja taloudellisessa arvioinnissa.

    opinnäytetyö, lisätty 9.10.2013

    Suorita yritysten klusterianalyysi Statgraphics Plusin avulla. Lineaarisen regressioyhtälön rakentaminen. Kimmokertoimien laskenta regressiomalleilla. Yhtälön tilastollisen merkittävyyden ja determinaatiokertoimen arviointi.

    tehtävä, lisätty 16.3.2014

    Typologisten regressioiden rakentaminen yksittäisille havaintoryhmille. Paikkatiedot ja aikatiedot. Klusterianalyysin soveltamisala. Kohteiden homogeenisuuden käsite, etäisyysmatriisin ominaisuudet. Typologisen regression suorittaminen.

    esitys, lisätty 26.10.2013

    Yhdistettyjen mallien ja menetelmien luominen nykyaikaiseksi ennustetavaksi. ARIMA-pohjainen malli stationääristen ja ei-stationaaristen aikasarjojen kuvaamiseen klusterointiongelmien ratkaisussa. Autoregressiiviset AR-mallit ja korrelogrammien soveltaminen.

    esitys, lisätty 1.5.2015

    Erityyppisten mittareiden ominaisuudet. Lähin naapuri -menetelmä ja sen yleistykset. Lähin naapuri -algoritmi. Parzen-ikkuna menetelmä. Yleistetty metrinen luokitin. Mittarin valinnan ongelma. Manhattanin ja euklidisen etäisyyden. kosinimitta.

    lukukausityö, lisätty 8.3.2015

    Krasnodarin alueen rakennusteollisuuden ominaisuudet. Ennuste asuntorakentamisen kehityksestä. Nykyaikaiset menetelmät ja työkalut klusterianalyysiin. Moniulotteiset tilastolliset menetelmät yrityksen taloudellisen tilan diagnosointiin.

    opinnäytetyö, lisätty 20.7.2015

    Asuntolainauksen ominaisuudet Bryanskin alueen esimerkissä. Matemaattisten päätöksentekomenetelmien katsaus: asiantuntija-arviot, peräkkäiset ja parivertailut, hierarkiaanalyysi. Optimaalisen asuntolainahakuohjelman kehittäminen.

    lukukausityö, lisätty 29.11.2012

    Systeemianalyysin sovellusalueet, sen paikka, rooli, tavoitteet ja toiminnot modernissa tieteessä. Järjestelmäanalyysin menetelmien käsite ja sisältö, sen epämuodolliset menetelmät. Heurististen ja asiantuntijatutkimusmenetelmien ominaisuudet ja niiden soveltamisen piirteet.

    lukukausityö, lisätty 20.5.2013

    Ekonometristen menetelmien kehittäminen ja tutkimus taloustiedon erityispiirteet huomioiden ja taloustieteen ja käytännön tarpeiden mukaisesti. Ekonometristen menetelmien ja mallien soveltaminen taloustietojen tilastolliseen analysointiin.

Termiä "klusterianalyysi" käytti ensimmäisen kerran amerikkalainen psykologi Robert Trion samannimisessä teoksessa jo vuonna 1930. Tästä huolimatta äidinkielenään puhujat pitävät termit "klusteri" ja "klusterianalyysi" uutena, minkä Alexander Khrolenko huomauttaa, joka teki korpusanalyysin lekseemin "klusteri" käytöstä: "useimmat tätä termiä käyttävät kirjoittajat kiinnittävät huomiota sen uutuus" (Khrolenko, 2016, s. 106)

Klusterianalyysi sisältää monia erilaisia ​​luokittelualgoritmeja, joiden tarkoituksena on järjestää tiedot klustereiksi. On tärkeää muistaa, että klusterianalyysi ei sinänsä ole tietty algoritmi, vaan on tehtävä, joka on ratkaistava. Mark Ereshefsky toteaa teoksessaan "The Scarcity of the Linear Hierarchy", että klusterianalyysi on yksi kolmesta esineiden luokittelutyypistä maailmassa essentialismin ja historiallisen luokituksen ohella.

Kielitieteen klusterikuvausperiaate tarkoittaa tähän klusteriin kuuluvien yksiköiden analysoinnin lisäksi myös niiden sisäisten suhteiden analysointia. Nämä voivat olla eritasoisia yhteyksiä: loogisista (esim. paradigmaattisista ja syntagmaattisista) sananmuodostus- ja foneettisiin yhteyksiin.

F. Brown tunnistaa seuraavat klusterianalyysin vaiheet (Brown):

  • 1. Toimen valitseminen ja tarvittavien mittojen, kriteerien tai luokiteltavien kokonaisuuksien tuottaminen
  • 2. Samankaltaisuusmitan asettaminen
  • 3. Sääntöjen muotoilu klusterin muodostumisjärjestyksen määrittämiseksi
  • 4. Sääntöjen soveltaminen klustereiden muodostamiseen

On huomattava, että kolmas kohta herättää kysymyksiä, koska klusteroinnin tunnusmerkki luokitusmenetelmänä on määriteltyjen luokkien puuttuminen. Asiakirjojen klusterointi on tiedonhakutehtävä. Toisin kuin tekstin luokittelu, se ei sisällä ennalta määritettyjä luokkia tai harjoitussarjoja. Klusterit ja niiden väliset suhteet "poimitaan automaattisesti asiakirjoista ja asiakirjat liitetään peräkkäin näihin klustereihin" (Golub, s. 52-53) Mark Ereshefsky esittelee klusterianalyysin luokitusmenetelmänä. Hän uskoo, että "kaikki klusterianalyysin muodot perustuvat kahteen olettamukseen: taksonomisen ryhmän jäsenten on jaettava joukko piirteitä, eivätkä nämä piirteet voi esiintyä kaikissa tai vain yhdessä tämän ryhmän jäsenessä." (Ereshefsky, s. 15)

Työssään "Cluster Approach in Linguistic Analysis" (Nurgalieva, 2013) N.Kh. Nurgalieva tunnistaa klusterianalyysin neljä päätehtävää:

  • 1. Typologian tai luokituksen kehittäminen
  • 2. Hyödyllisten käsitteellisten mallien tutkiminen objektien ryhmittelyyn
  • 3. Hypoteesien esittäminen tutkitun aineiston perusteella
  • 4. Hypoteesien tai tutkimusten testaaminen sen määrittämiseksi, esiintyykö saatavilla olevissa tiedoissa tavalla tai toisella tunnistettuja tyyppejä (ryhmiä)

Kaikki klusterianalyysin menetelmät voidaan jakaa "kovaan", selkeään klusterianalyysiin, jolloin jokainen objekti joko kuuluu klusteriin tai ei, ja "pehmeään", sumeaan klusterianalyysiin, jolloin jokainen objekti kuuluu johonkin ryhmään tietyllä todennäköisyydellä. .

Klusterianalyysimenetelmät jaetaan myös hierarkkisiin ja ei-hierarkkisiin. Hierarkkiset menetelmät tarkoittavat sisäkkäisten ryhmien läsnäoloa, toisin kuin ei-hierarkkiset menetelmät. Nurgalijeva huomauttaa, että hierarkkinen menetelmä "näyttää sopivimmalta kieliongelmien ratkaisemiseen" (Nurgalijeva, s. 1), koska sen avulla voidaan nähdä ja analysoida tutkittavan ilmiön rakennetta.

KLUSTERIANALYYSI SOSIOEKONOMISEN ENNUSTUSONGELMISSSA

Johdatus klusterianalyysiin.

Sosioekonomisia ilmiöitä analysoidessaan ja ennustaessaan tutkija kohtaa usein niiden kuvauksen moniulotteisuuden. Tämä tapahtuu, kun ratkaistaan ​​markkinoiden segmentoitumisongelmaa, rakennetaan maiden typologia riittävän suuren määrän indikaattoreita mukaan, ennustetaan yksittäisten tavaroiden markkinatilanne, tutkitaan ja ennakoidaan taloudellista lamaa ja monia muita ongelmia.

Monimuuttuja-analyysin menetelmät ovat tehokkain määrällinen työkalu tutkia sosioekonomisia prosesseja, joita kuvataan useilla ominaisuuksilla. Näitä ovat klusterianalyysi, taksonomia, kuvioiden tunnistus ja tekijäanalyysi.

Klusterianalyysi heijastaa selkeimmin monimuuttujaanalyysin piirteitä luokittelussa, tekijäanalyysin piirteitä - kommunikaatiotutkimuksessa.

Joskus klusterianalyysin lähestymistapaa kutsutaan kirjallisuudessa numeeriseksi taksonomiaksi, numeeriseksi luokitukseksi, itseoppivaksi tunnistamiseksi jne.

Klusterianalyysi löysi ensimmäisen sovelluksensa sosiologiassa. Nimi klusterianalyysi tulee englanninkielisestä sanasta cluster - nippu, kerääntyminen. Ensimmäisen kerran vuonna 1939 klusterianalyysin kohteen määritteli ja sen kuvauksen teki tutkija Trion. Klusterianalyysin päätarkoitus on jakaa tutkittavien kohteiden ja ominaisuuksien joukko ryhmiksi tai klustereiksi, jotka ovat homogeenisia sopivassa mielessä. Tämä tarkoittaa, että tietojen luokittelun ja vastaavan rakenteen tunnistamisen ongelma on ratkennut. Klusterianalyysimenetelmiä voidaan soveltaa monissa tapauksissa, myös tapauksissa, joissa puhutaan yksinkertaisesta ryhmittelystä, jossa kaikki rajoittuu ryhmien muodostamiseen kvantitatiivisen samankaltaisuuden mukaan.

Klusterianalyysin suuri etu on, että sen avulla voit osioida objekteja ei yhden parametrin, vaan kokonaisen ominaisuuksien mukaan. Lisäksi klusterianalyysi, toisin kuin useimmat matemaattiset ja tilastolliset menetelmät, ei aseta mitään rajoituksia tarkasteltavien objektien tyypeille, ja sen avulla voimme tarkastella lähes mielivaltaisen luonteeltaan lähtötietoja. Tällä on suuri merkitys esimerkiksi konjunktuurien ennustamisessa, kun indikaattoreilla on erilaisia ​​muotoja, jotka vaikeuttavat perinteisten ekonometristen lähestymistapojen käyttöä.

Klusterianalyysi mahdollistaa melko suuren tietomäärän huomioimisen ja rajusti vähentämisen, pakkaamisen suuria määriä sosioekonomista tietoa, tekee niistä kompakteja ja visuaalisia.

Klusterianalyysillä on suuri merkitys suhteessa talouskehitystä kuvaaviin aikasarjasarjoihin (esimerkiksi yleisiin talous- ja hyödykeolosuhteisiin). Täällä on mahdollista erottaa ajanjaksot, jolloin vastaavien indikaattoreiden arvot olivat melko lähellä, sekä määrittää aikasarjojen ryhmät, joiden dynamiikka on eniten samankaltainen.

Klusterianalyysiä voidaan käyttää syklisesti. Tässä tapauksessa tutkimusta suoritetaan, kunnes halutut tulokset saavutetaan. Samanaikaisesti jokainen sykli tässä voi tarjota tietoa, joka voi muuttaa suuresti klusterianalyysin jatkosovelluksen suuntaa ja lähestymistapoja. Tämä prosessi voidaan esittää palautejärjestelmänä.

Sosioekonomisen ennustamisen ongelmissa on erittäin lupaavaa yhdistää klusterianalyysi muihin kvantitatiivisiin menetelmiin (esimerkiksi regressioanalyysiin).

Kuten kaikilla muillakin menetelmillä, klusterianalyysillä on tiettyjä haittoja ja rajoituksia: Erityisesti klusterien koostumus ja lukumäärä riippuu valituista osiointikriteereistä. Alkuperäistä tietotaulukkoa pienennettäessä kompaktimpaan muotoon saattaa ilmetä tiettyjä vääristymiä, ja yksittäisten objektien yksittäiset ominaisuudet voivat myös kadota, koska ne korvataan klusterin parametrien yleisten arvojen ominaisuuksilla. Objektien luokittelussa jätetään hyvin usein huomiotta mahdollisuus, että tarkasteltavassa joukossa ei ole klusteriarvoja.

Klusterianalyysissä katsotaan, että:

a) valitut ominaisuudet mahdollistavat periaatteessa halutun klusteroinnin;

b) mittayksiköt (asteikko) on valittu oikein.

Mittakaavan valinnalla on suuri rooli. Tyypillisesti tiedot normalisoidaan vähentämällä keskiarvo ja jakamalla keskihajonnalla niin, että varianssi on yhtä suuri kuin yksi.

Klusterianalyysin ongelma.

Klusterianalyysin tehtävänä on jakaa objektijoukko G m:ksi (m on kokonaisluku) klusteriksi (osajoukoksi) Q1, Q2, ..., Qm joukon X sisältämien tietojen perusteella siten, että jokainen objekti Gj kuuluu yhteen ja vain yhteen osion alijoukkoon ja että samaan klusteriin kuuluvat objektit ovat samanlaisia, kun taas eri klusteriin kuuluvat objektit ovat heterogeenisia.

Esimerkiksi G sisältää n maata, joista jokaiselle on tunnusomaista bruttokansantuote asukasta kohden (F1), autojen M määrä 1 000 ihmistä kohden (F2), sähkönkulutus henkeä kohti (F3), teräksen kulutus henkeä kohti (F4), jne. Sitten X1 (mittausvektori) on joukko määritettyjä ominaisuuksia ensimmäiselle maalle, X2 toiselle, X3 kolmannelle ja niin edelleen. Haasteena on jakaa maat kehitystason mukaan.

Ratkaisu klusterianalyysin ongelmaan ovat osiot, jotka täyttävät tietyn optimaalisuuskriteerin. Tämä kriteeri voi olla jokin funktio, joka ilmaisee eri osioiden ja ryhmien toivottavuustasoja, jota kutsutaan tavoitefunktioksi. Esimerkiksi ryhmän sisäinen neliöityjen poikkeamien summa voidaan ottaa tavoitefunktiona:

missä xj - edustaa j:nnen objektin mittoja.

Klusterianalyysin ongelman ratkaisemiseksi on välttämätöntä määritellä samankaltaisuuden ja heterogeenisyyden käsite.

On selvää, että i. ja j:s kohde putosivat samaan klusteriin, kun pisteiden Xi ja Xj välinen etäisyys (etäisyys) olisi riittävän pieni ja putoaisi eri klustereihin, kun tämä etäisyys olisi riittävän suuri. Näin ollen yhteen tai useisiin objektiryhmiin pääsy määräytyy Xi:n ja Xj:n välisen etäisyyden käsitteestä Ep:stä, missä Ep on p-ulotteinen euklidinen avaruus. Ei-negatiivista funktiota d(Xi, Xj) kutsutaan etäisyysfunktioksi (metriikka), jos:

a) d(Xi , Xj) ³ 0, kaikille Xi:lle ja Xj:lle Ep:stä

b) d(Xi, Xj) = 0 jos ja vain jos Xi = Xj

c) d(Xi, Xj) = d(Xj, Xi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), missä Xj; Xi ja Xk ovat mitkä tahansa kolme vektoria Ep:stä.

Arvoa d(Xi, Xj) Xi:lle ja Xj:lle kutsutaan etäisyydeksi Xi:n ja Xj:n välillä ja se vastaa Gi:n ja Gj:n välistä etäisyyttä valittujen ominaisuuksien (F1, F2, F3, ..., Fp) mukaan.

Yleisimmin käytetyt etäisyysfunktiot ovat:

1. Euklidinen etäisyys d2(Хi , Хj) =

2. l1 - normi d1(Хi , Хj) =

3. Supremum - normi d¥ (Хi , Хj) = sup

k = 1, 2, ..., s

4. lp - normi dр(Хi , Хj) =

Euklidinen metriikka on suosituin. L1-metriikka on helpoin laskea. Supremum-normi on helppo laskea ja sisältää tilausmenettelyn, kun taas lp-normi kattaa etäisyysfunktiot 1, 2, 3,.

Esitetään n mittausta X1, X2,..., Xn p ´n datamatriisina:

Tällöin vektoriparien välinen etäisyys d(Хi , Хj) voidaan esittää symmetrisenä etäisyysmatriisina:

Etäisyyden vastainen käsite on Gi-objektien samankaltaisuuden käsite. ja Gj. Ei-negatiivista reaalifunktiota S(Хi ; Хj) = Sij kutsutaan samankaltaisuuden suureksi, jos:

1) 0 £ S(Xi , Xj)<1 для Хi¹ Хj

2) S(Хi , Хi) = 1

3) S(Xi, Xj) = S(Xj, Xi)

Samankaltaisuusmittausarvojen parit voidaan yhdistää samankaltaisuusmatriisiin:

Sij:n arvoa kutsutaan samankaltaisuuskertoimeksi.

1.3. Klusterianalyysin menetelmät.

Nykyään on olemassa monia klusterianalyysimenetelmiä. Tarkastellaanpa joitain niistä (alla annettuja menetelmiä kutsutaan yleensä minimivarianssin menetelmiksi).

Olkoon X havaintomatriisi: X = (X1, X2,..., Xu) ja Xi:n ja Xj:n välisen euklidisen etäisyyden neliö määritetään kaavalla:

1) Täydellisten yhteyksien menetelmä.

Tämän menetelmän ydin on, että kahdella samaan ryhmään (klusteriin) kuuluvalla objektilla on samankaltaisuuskerroin, joka on pienempi kuin jokin kynnysarvo S. Euklidisen etäisyyden d suhteen tämä tarkoittaa, että kahden pisteen (objektin) välinen etäisyys klusterin ei tulisi ylittää jotain kynnysarvoa h. Siten h määrittää klusterin muodostavan osajoukon suurimman sallitun halkaisijan.

2) Suurimman paikallisen etäisyyden menetelmä.

Jokaista objektia pidetään yhden pisteen klusterina. Objektit ryhmitellään seuraavan säännön mukaan: kaksi klusteria yhdistetään, jos yhden klusterin pisteiden välinen maksimietäisyys toisen pisteisiin on minimaalinen. Proseduuri koostuu n - 1 vaiheesta ja johtaa osioihin, jotka vastaavat kaikkia edellisen menetelmän mahdollisia osioita mille tahansa kynnysarvolle.

3) Sanamenetelmä.

Tässä menetelmässä tavoitefunktiona käytetään ryhmän sisäistä neliöityjen poikkeamien summaa, joka ei ole muuta kuin kunkin pisteen (objektin) välisten neliöetäisyyksien ja tämän kohteen sisältävän klusterin keskiarvon summa. Jokaisessa vaiheessa yhdistetään kaksi klusteria, jotka johtavat tavoitefunktion minimilisäykseen, ts. ryhmän sisäinen neliöiden summa. Tällä menetelmällä pyritään yhdistämään lähekkäin olevia klustereita.

4) Centroid-menetelmä.

Kahden klusterin välinen etäisyys määritellään euklidiseksi etäisyydeksi näiden klustereiden keskipisteiden (keskiarvojen) välillä:

d2 ij = (`X – `Y)Т(`X – `Y) Klusterointi etenee askel askeleelta kussakin n-1 vaiheessa yhdistä kaksi klusteria G ja p, joiden minimiarvo on d2ij Jos n1 on paljon suurempi kuin n2, niin kahden klusterin liitoskeskukset ovat lähellä toisiaan ja toisen klusterin ominaisuudet jäävät käytännössä huomiotta klustereita yhdistettäessä. Joskus tätä menetelmää kutsutaan joskus myös painotettujen ryhmien menetelmäksi.

1.4 Sekvenssiklusterointialgoritmi.

Tarkastellaan Ι = (Ι1, Ι2, … Ιn) joukkona klustereita (Ι1), (Ι2),…(Ιn). Valitaan niistä kaksi, esimerkiksi Ι i ja Ι j, jotka ovat jossain mielessä lähempänä toisiaan ja yhdistävät ne yhdeksi klusteriksi. Uusi klusterijoukko, joka koostuu jo n-1 klusterista, on:

(Ι1), (Ι2)…, (Ι i , Ι j), …, (Ιn).

Toistamalla prosessia saadaan peräkkäiset klusterijoukot, jotka koostuvat (n-2), (n-3), (n-4) jne. klustereita. Proseduurin lopussa saat klusterin, joka koostuu n kohteesta ja joka on sama kuin alkujoukko Ι = (Ι1, Ι2, … Ιn).

Etäisyyden mittana otamme euklidisen metriikan neliön di j2. ja laske matriisi D = (di j2), missä di j2 on välisen etäisyyden neliö

Ι1 Ι2 Ι3 …. Ιn
Ι1 0 d122 d132 …. d1n2
Ι2 0 d232 …. d2n2
Ι3 0 …. d3n2
…. …. ….
Ιn 0

Olkoon Ι i:n ja Ι j:n välinen etäisyys minimaalinen:

di j2 = min (di j2, i ¹ j). Ι i:n ja Ι j:n avulla muodostamme uuden klusterin

(Ιi, Ιj). Muodosta uusi ((n-1), (n-1)) etäisyysmatriisi

(I , i j) Ι1 Ι2 Ι3 …. Ιn
(Ι i ; Ι j) 0 di j21 di j22 di j23 …. di j2n
Ι1 0 d122 d13 …. d12n
Ι2 0 di j21 …. d2n
Ι3 0 …. d3n
Ιn 0

(n-2) riviä viimeiselle matriisille otetaan edellisestä ja ensimmäinen rivi lasketaan uudelleen. Laskelmat voidaan vähentää minimiin, jos di j2k,k = 1, 2,…, n voidaan ilmaista; (k ¹ i ¹ j) alkuperäisen matriisin elementtien kautta.

Aluksi etäisyys määritettiin vain yksielementtisten klustereiden välillä, mutta on myös tarpeen määrittää etäisyydet useamman kuin yhden elementin sisältävien klustereiden välillä. Tämä voidaan tehdä monin eri tavoin ja valitusta menetelmästä riippuen saamme klusterianalyysialgoritmeja eri ominaisuuksilla. Voidaan esimerkiksi asettaa klusterin i + j ja jonkin muun klusterin k välinen etäisyys yhtä suureksi kuin klusterien i ja k sekä klusterien j ja k välisten etäisyyksien aritmeettinen keskiarvo:

di+j,k = ½ (di k + dj k).

Mutta voidaan myös määritellä di+j,k näiden kahden etäisyyden minimiksi:

di+j,k = min(di k + dj k).

Siten kuvataan agglomeratiivisen hierarkkisen algoritmin toiminnan ensimmäinen vaihe. Seuraavat vaiheet ovat samat.

Melko laaja algoritmiluokka voidaan saada, jos etäisyyksien laskemiseen käytetään seuraavaa yleiskaavaa:

di+j,k = A(w) min(dik djk) + B(w) max(dik djk), missä

A(w) = jos dik £ djk

A(w) = jos dik > djk

B(w) = jos dik £ djk

B(w) = jos dik > djk

missä ni ja nj ovat elementtien lukumäärä klustereissa i ja j ja w on vapaa parametri, jonka valinta määrää tietyn algoritmin. Esimerkiksi, kun w = 1, saadaan ns. "keskimääräinen yhteys" -algoritmi, jolle etäisyyksien uudelleenlaskennan kaava on muotoa:

di+j,k =

Tässä tapauksessa kahden klusterin välinen etäisyys algoritmin kussakin vaiheessa osoittautuu yhtä suureksi kuin kaikkien elementtiparien välisten etäisyyksien aritmeettinen keskiarvo siten, että parin yksi elementti kuuluu yhteen klusteriin ja toinen toiseen.

Parametrin w visuaalinen merkitys tulee selväksi, jos laitamme w®¥. Etäisyyden muunnoskaava on seuraavanlainen:

di+j,k = min(di,k djk)

Tämä on niin kutsuttu "lähin naapuri" -algoritmi, jonka avulla voit valita mielivaltaisen monimutkaisen muotoisia klustereita edellyttäen, että tällaisten klustereiden eri osat on yhdistetty toisiinsa lähellä olevien elementtien ketjuilla. Tässä tapauksessa kahden klusterin välinen etäisyys algoritmin jokaisessa vaiheessa osoittautuu yhtä suureksi kuin etäisyys kahden lähimmän näihin kahteen klusteriin kuuluvan elementin välillä.

Usein oletetaan, että ryhmiteltyjen elementtien väliset alkuetäisyydet (erot) on annettu. Joissakin tapauksissa tämä on totta. Kuitenkin vain esineet ja niiden ominaisuudet määritellään, ja etäisyysmatriisi rakennetaan näiden tietojen perusteella. Riippuen siitä, lasketaanko objektien väliset etäisyydet vai objektien ominaisuudet, käytetään erilaisia ​​menetelmiä.

Kohteiden klusterianalyysissä yleisin eron mitta on joko euklidisen etäisyyden neliö

(jossa xih, xjh ovat h:nnen attribuutin arvot i:nnelle ja j:nnelle objektille ja m on ominaisuuksien lukumäärä), tai itse euklidinen etäisyys. Jos ominaisuuksille on määritetty eri painot, nämä painot voidaan ottaa huomioon etäisyyttä laskettaessa

Joskus etäisyyttä käytetään eron mittana, joka lasketaan kaavalla:

joita kutsutaan: "Hamming", "Manhattan" tai "city-block" -etäisyys.

Luonnollinen mitta kohteen ominaisuuksien samankaltaisuudesta monissa ongelmissa on niiden välinen korrelaatiokerroin

missä mi ,mj ,di ,dj ovat ominaisuuksien i ja j keskiarvo ja neliökeskipoikkeama. Arvo 1 - r voi toimia ominaisuuksien välisen eron mittana. Joissakin tehtävissä korrelaatiokertoimen etumerkki on merkityksetön ja riippuu vain mittayksikön valinnasta. Tässä tapauksessa ô1 - ri j ô käytetään ominaisuuksien välisen eron mittana

1.5 Klusterien lukumäärä.

Erittäin tärkeä kysymys on ongelma valita tarvittava määrä klustereita. Joskus m määrä klustereita voidaan valita etukäteen. Yleisessä tapauksessa tämä luku kuitenkin määritetään joukon jakamisessa klusteriin.

Fortier ja Solomon suorittivat tutkimukset ja havaittiin, että klusterien lukumäärä on otettava, jotta saavutetaan todennäköisyys a, että paras osio löydetään. Siten optimaalinen osioiden lukumäärä on kaikkien mahdollisten osioiden joukon parhaiden tai jossain mielessä toteutettavissa olevien osioiden tietyn murto-osan funktio. Kokonaissironna on sitä suurempi, mitä suurempi on sallittujen osioiden osuus b. Fortier ja Solomon kehittivät taulukon, josta voidaan löytää tarvittavien osioiden määrä. S(a,b) riippuen a:sta ja b:stä (jossa a on todennäköisyys, että paras osio löydetään, b on parhaiden osioiden osuus osioiden kokonaismäärästä) Lisäksi heterogeenisuuden mittana, ei sirontana mittaa käytetään, mutta Holzengerin ja Harmanin käyttöön ottamaa jäsenmäärää. Alla on taulukko S(a,b)-arvoista.

S(a,b)-arvotaulukko

b\a 0.20 0.10 0.05 0.01 0.001 0.0001
0.20 8 11 14 21 31 42
0.10 16 22 29 44 66 88
0.05 32 45 59 90 135 180
0.01 161 230 299 459 689 918
0.001 1626 2326 3026 4652 6977 9303
0.0001 17475 25000 32526 55000 75000 100000

Usein yhdistämisen kriteeri (klusterien lukumäärä) on vastaavan funktion muutos. Esimerkiksi neliöityjen poikkeamien summat:

Ryhmittelyprosessin tulisi tässä vastata kriteerin E arvon johdonmukaista minimilisäystä. E:n arvon jyrkkä hyppy voidaan tulkita tyypilliseksi tutkittavassa populaatiossa objektiivisesti esiintyvien klustereiden lukumäärälle.

Joten toinen tapa määrittää paras klusterien lukumäärä on tunnistaa hyppyjä, jotka määräytyvät objektien vaihesiirtymän vahvasti kytketystä heikosti kytkettyyn tilasta.

1.6 Dendogrammit.

Tunnetuin tapa esittää etäisyys- tai samankaltaisuusmatriisi perustuu ideaan dendogrammista tai puukaaviosta. Dendogrammi voidaan määritellä etäisyysmatriisin avulla suoritetun peräkkäisen klusterointiprosessin tulosten graafiseksi esitykseksi. Dendogrammin avulla on mahdollista kuvata klusterointiproseduuri graafisesti tai geometrisesti, mikäli tämä menettely toimii vain etäisyys- tai samankaltaisuusmatriisin elementeillä.

Dendrogrammien rakentamiseen on monia tapoja. Dendrogrammissa objektit sijaitsevat pystysuorassa vasemmalla, klusterointitulokset ovat oikealla. Uusien klustereiden rakennetta vastaavat etäisyys- tai samankaltaisuusarvot näytetään vaakasuoralla suoralla linjalla dendrogrammien päällä.

Kuvassa 1 on yksi esimerkki dendogrammista. Kuva 1 vastaa kuuden kohteen (n=6) ja k ominaisuuden (ominaisuus) tapausta. Objektit A ja C ovat lähimmät, ja siksi ne yhdistetään yhdeksi klusteriksi läheisyystasolla, joka on yhtä suuri kuin 0,9. Kohteet D ja E yhdistetään tasolla 0,8. Nyt meillä on 4 klusteria:

Dendogrammin tyyppi riippuu samankaltaisuusmitan tai kohteen ja klusterin välisen etäisyyden valinnasta ja klusterointimenetelmästä. Tärkeintä on valita samankaltaisuus- tai etäisyysmitta kohteen ja klusterin välillä.

Klusterianalyysialgoritmien määrä on liian suuri. Kaikki ne voidaan jakaa hierarkkisiin ja ei-hierarkkisiin.

Hierarkkiset algoritmit liittyvät dendogrammien rakentamiseen ja jaetaan:

a) agglomeratiivinen, jolle on tunnusomaista johdonmukainen alkuelementtien yhdistelmä ja vastaava klustereiden lukumäärän väheneminen;

b) jaollinen (jaollinen), jossa klusterien lukumäärä kasvaa yhdestä alkaen, minkä seurauksena muodostuu jaettavien ryhmien sarja.

Klusterianalyysialgoritmeilla on nykyään hyvä ohjelmistototeutus, joka mahdollistaa korkeimman ulottuvuuden ongelmien ratkaisemisen.

1.7 Tiedot

Klusterianalyysiä voidaan soveltaa intervallitietoihin, taajuuksiin, binääritietoihin. On tärkeää, että muuttujat muuttuvat vertailukelpoisissa asteikoissa.

Mittayksiköiden heterogeenisuus ja siitä johtuva mahdottomuus ilmaista järkevästi eri indikaattoreiden arvoja samalla asteikolla johtaa siihen, että pisteiden välinen etäisyys, joka heijastaa esineiden sijaintia niiden ominaisuuksien tilassa, osoittautuu riippumaan mielivaltaisesti valitusta asteikosta. Alkutietojen mittauksen heterogeenisyyden poistamiseksi kaikki niiden arvot on alustavasti normalisoitu, ts. ilmaistaan ​​näiden arvojen suhteena tiettyyn arvoon, joka heijastaa tämän indikaattorin tiettyjä ominaisuuksia. Klusterianalyysin lähtötietojen normalisointi suoritetaan joskus jakamalla alkuarvot vastaavien indikaattoreiden keskihajonnalla. Toinen tapa on laskea niin kutsuttu standardisoitu maksu. Sitä kutsutaan myös Z-osuudeksi.

Z-osuus osoittaa, kuinka monta standardipoikkeamaa tietty havainto eroaa keskiarvosta:

Missä xi on tämän havainnon arvo, on keskiarvo, S on keskihajonta.

Z-osuuksien keskiarvo on nolla ja keskihajonta on 1.

Standardointi mahdollistaa eri jakaumien havaintojen vertailun. Jos muuttujan jakauma on normaali (tai lähellä normaalia) ja keskiarvo ja varianssi tunnetaan tai estimoidaan suurista otoksista, niin havainnon Z-osuus antaa tarkempaa tietoa sen sijainnista.

Huomaa, että normalisointimenetelmät tarkoittavat kaikkien ominaisuuksien tunnistamista vastaaviksi tarkasteltavien kohteiden samankaltaisuuden selvittämisen kannalta. On jo todettu, että talouden kannalta eri indikaattoreiden vastaavuuden tunnustaminen ei aina näytä perustellulta. Olisi toivottavaa, että normalisoinnin ohella kullekin indikaattorille annetaan painoarvo, joka kuvastaa sen merkitystä objektien välisten yhtäläisyuksien ja erojen selvittämisessä.

Tässä tilanteessa on turvauduttava yksittäisten indikaattoreiden painojen määritysmenetelmään - asiantuntijakyselyyn. Esimerkiksi, kun ratkaisimme maiden luokittelun ongelman taloudellisen kehitystason mukaan, käytimme 40 johtavan Moskovan asiantuntijan kyselyn tuloksia kehittyneiden maiden ongelmista kymmenen pisteen asteikolla:

yleiset sosioekonomisen kehityksen indikaattorit - 9 pistettä;

työllisen väestön sektorijakauman indikaattorit - 7 pistettä;

vuokratyövoiman yleisyyden indikaattorit - 6 pistettä;

tuotantovoimien inhimillistä elementtiä kuvaavat indikaattorit - 6 pistettä;

aineellisten tuotantovoimien kehityksen indikaattorit - 8 pistettä;

julkisten menojen indikaattori - 4 pistettä;

"sotilas-taloudelliset" indikaattorit - 3 pistettä;

sosiodemografiset indikaattorit - 4 pistettä.

Asiantuntijoiden arviot olivat suhteellisen vakaat.

Asiantuntijaarvioinnit tarjoavat tutun perustan tiettyyn indikaattoriryhmään sisältyvien indikaattoreiden tärkeyden määrittämiselle. Indikaattorien normalisoitujen arvojen kertominen keskimääräistä arviointipistettä vastaavalla kertoimella mahdollistaa pisteiden välisten etäisyyksien laskemisen, jotka heijastavat maiden sijaintia moniulotteisessa tilassa, ottaen huomioon niiden ominaisuuksien epätasaisen painon.

Melko usein tällaisten ongelmien ratkaisemisessa ei käytetä yhtä, vaan kahta laskelmaa: ensimmäinen, jossa kaikkia merkkejä pidetään vastaavina, toinen, jossa niille annetaan eri painot asiantuntija-arvioiden keskiarvojen mukaisesti.

1.8. Klusterianalyysin soveltaminen.

Tarkastellaan joitain klusterianalyysin sovelluksia.

Maiden jako ryhmiin kehitystason mukaan.

65 maata tutkittiin 31 indikaattorin mukaan (kansantulo henkeä kohti, teollisuudessa työssä olevan väestön osuus %, säästöt henkeä kohti, maataloudessa työllistävän väestön osuus %, keskimääräinen elinajanodote, autojen määrä per 1 tuhat asukasta, asevoimien määrä miljoonaa asukasta kohden, teollisuuden osuus BKT:sta, maatalouden osuus BKT:sta, jne.)

Jokainen maa toimii tässä tarkastelussa kohteena, jolle on tunnusomaista tietyt 31 indikaattorin arvot. Näin ollen ne voidaan esittää pisteinä 31-ulotteisessa avaruudessa. Tällaista tilaa kutsutaan yleensä tutkittavien kohteiden ominaisuustilaksi. Näiden pisteiden välisen etäisyyden vertailu heijastaa tarkasteltavien maiden läheisyyden astetta ja niiden samankaltaisuutta keskenään. Tämän samankaltaisuuden ymmärtämisen sosioekonominen merkitys tarkoittaa, että maita pidetään sitä samankaltaisempina, mitä pienempiä eroja on samojen indikaattoreiden välillä, joilla niitä kuvataan.

Sellaisen analyysin ensimmäinen vaihe on tunnistaa samankaltaisuusmatriisiin sisältyvä kansantalouspari, jonka välinen etäisyys on pienin. Nämä ovat ilmeisesti kaikkein samankaltaisimpia, samankaltaisimpia talouksia. Seuraavassa tarkastelussa näitä molempia maita pidetään yhtenä ryhmänä, yhtenä klusterina. Vastaavasti alkuperäinen matriisi muunnetaan siten, että sen elementit ovat etäisyydet kaikkien mahdollisten parien välillä, ei 65, vaan 64 kohteen - 63 taloutta ja äskettäin muunnettua klusteria - kahden samankaltaisimman maan ehdollista liittoa. Alkuperäisestä samankaltaisuusmatriisista hylätään rivit ja sarakkeet, jotka vastaavat etäisyyksiä unioniin kuuluvasta maaparista kaikkiin muihin matriisiin, mutta lisätään rivi ja sarake, jotka sisältävät liiton saaman klusterin ja muiden maiden välisen etäisyyden.

Uuden klusterin ja maiden välisen etäisyyden oletetaan olevan yhtä suuri kuin viimeksi mainitun ja kahden uuden klusterin muodostavan maan välisten etäisyyksien keskiarvo. Toisin sanoen yhdistettyä maaryhmää käsitellään kokonaisuutena, jonka ominaisuudet ovat suunnilleen samat kuin sen muodostavien maiden ominaisuuksien keskiarvo.

Analyysin toinen vaihe on tarkastella tällä tavalla muunnettua matriisia, jossa on 64 riviä ja saraketta. Jälleen tunnistetaan talouksien pari, joiden välinen etäisyys on vähiten tärkeä, ja ne tuodaan yhteen, kuten ensimmäisessä tapauksessa. Tässä tapauksessa pienin etäisyys voi olla sekä maaparin välillä että minkä tahansa maan ja edellisessä vaiheessa saadun maiden liiton välillä.

Muut menettelyt ovat samankaltaisia ​​kuin edellä kuvatut: kussakin vaiheessa matriisi muunnetaan siten, että kaksi saraketta ja kaksi riviä, jotka sisältävät etäisyyden edellisessä vaiheessa yhdistettyihin objekteihin (maat tai yhdistykset - klusterit) jätetään siitä pois. ; poissuljetut rivit ja sarakkeet korvataan sarakkeella ja rivillä, jotka sisältävät etäisyydet uusista liitoksista muihin ominaisuuksiin; lisäksi modifioidussa matriisissa paljastetaan lähimpien kohteiden pari. Analyysi jatkuu, kunnes matriisi on käytetty kokonaan loppuun (eli kunnes kaikki maat on yhdistetty). Matriisianalyysin yleiset tulokset voidaan esittää samankaltaisuuspuun (dendogrammin) muodossa, joka on samanlainen kuin yllä kuvattu, sillä ainoalla erolla, että samankaltaisuuspuu, joka heijastaa kaikkien tarkastelemiemme 65 maan suhteellista läheisyyttä, on paljon monimutkaisempi kuin järjestelmä, jossa on vain viisi kansallista taloutta. Tämä puu sisältää 65 tasoa vastaavien objektien lukumäärän mukaan. Ensimmäinen (alempi) taso sisältää kutakin maata vastaavat pisteet erikseen. Näiden kahden pisteen yhteys toisella tasolla osoittaa yleisen kansantalouden tyypin kannalta lähimpänä olevan maaparin. Kolmannella tasolla merkitään seuraavaksi samankaltaisin maiden parisuhde (kuten jo mainittiin, tässä suhteessa voi olla joko uusi maapari tai uusi maa ja jo tunnistettu samankaltaisten maiden pari). Ja niin edelleen viimeiselle tasolle, jolla kaikki tutkitut maat toimivat yhtenä kokonaisuutena.

Klusterianalyysin soveltamisen tuloksena saatiin seuraavat viisi maaryhmää:

Afro-Aasialainen ryhmä;

Latino-Aasialainen ryhmä;

Latinalaisen Välimeren ryhmä;

ryhmä kehittyneitä kapitalistisia maita (ilman Yhdysvaltoja)

Uusien indikaattoreiden käyttöönotto tässä käytetyn 31 indikaattorin lisäksi tai niiden korvaaminen muilla johtaa luonnollisesti muutokseen maaluokituksen tuloksissa.

2. Maiden jako kulttuurin läheisyyden kriteerin mukaan.

Kuten tiedät, markkinoinnissa on otettava huomioon maiden kulttuuri (tavat, perinteet jne.).

Seuraavat maaryhmät saatiin klusteroinnin avulla:

Arabialainen;

Lähi-itä;

skandinaavinen;

saksankielinen;

Englantia puhuva;

romaaninen eurooppalainen;

Latinalaisamerikkalainen;

Kaukoitä.

3. Sinkkimarkkinoiden ennusteen kehittäminen.

Klusterianalyysillä on tärkeä rooli hyödykekonjunktuurin taloudellisen ja matemaattisen mallin pelkistysvaiheessa, mikä helpottaa ja yksinkertaistaa laskennallisia proseduureja varmistaen saatujen tulosten suuremman tiiviyden säilyttäen samalla vaaditun tarkkuuden. Klusterianalyysin käyttö mahdollistaa koko alkuperäisen markkinaindikaattorijoukon jakamisen ryhmiin (klusteriin) asiaankuuluvien kriteerien mukaan, mikä helpottaa edustavimpien indikaattorien valintaa.

Klusterianalyysiä käytetään laajasti markkinaolosuhteiden mallintamiseen. Käytännössä suurin osa ennustetehtävistä perustuu klusterianalyysin käyttöön.

Esimerkiksi sinkkimarkkinoiden ennusteen laatimistehtävä.

Aluksi valittiin 30 avainindikaattoria maailmanlaajuisista sinkkimarkkinoista:

X1 - aika

Tuotantoluvut:

X2 - maailmassa

X4 - Eurooppa

X5 - Kanada

X6 - Japani

X7 - Australia

Kulutusindikaattorit:

X8 - maailmassa

X10 - Eurooppa

X11 - Kanada

X12 - Japani

X13 - Australia

Valmistajan sinkkivarastot:

X14 - maailmassa

X16 - Eurooppa

X17 - muut maat

Sinkin kuluttajavarastot:

X18 - Yhdysvalloissa

X19 - Englannissa

X10 - Japanissa

Sinkkimalmien ja rikasteiden tuonti (tuhat tonnia)

X21 - Yhdysvalloissa

X22 - Japanissa

X23 - Saksassa

Sinkkimalmien ja rikasteiden vienti (tuhat tonnia)

X24 - Kanadasta

X25 - Australiasta

Sinkin tuonti (tuhatta tonnia)

X26 - Yhdysvalloissa

X27 - Englantiin

X28 - Saksassa

Sinkin vienti (tuhat tonnia)

X29 - Kanadasta

X30 - Australiasta

Tiettyjen riippuvuuksien määrittämiseksi käytettiin korrelaatio- ja regressioanalyysilaitteistoa. Suhteet analysoitiin parillisten korrelaatiokertoimien matriisin perusteella. Tässä hypoteesi konjunktuurin analysoitujen indikaattoreiden normaalijakaumasta hyväksyttiin. On selvää, että rij eivät ole ainoa mahdollinen indikaattori käytettyjen indikaattoreiden välisestä suhteesta. Tarve käyttää klusterianalyysiä tässä ongelmassa johtuu siitä, että sinkin hintaan vaikuttavien indikaattoreiden määrä on erittäin suuri. Niitä on vähennettävä useista seuraavista syistä:

a) täydellisten tilastotietojen puute kaikista muuttujista;

b) laskennallisten menettelyjen jyrkkä monimutkaisuus, kun malliin sisällytetään suuri määrä muuttujia;

c) regressioanalyysimenetelmien optimaalinen käyttö edellyttää, että havaittujen arvojen määrä ylittää muuttujien lukumäärän vähintään 6-8 kertaa;

d) halu käyttää mallissa tilastollisesti riippumattomia muuttujia jne.

On erittäin vaikeaa suorittaa tällaista analyysiä suoraan suhteellisen suurelle korrelaatiokertoimien matriisille. Klusterianalyysin avulla voidaan jakaa koko markkinamuuttujien joukko ryhmiin siten, että kunkin klusterin elementit korreloivat vahvasti keskenään ja eri ryhmien edustajille on ominaista heikko korrelaatio.

Tämän ongelman ratkaisemiseksi käytettiin yhtä agglomeratiivisista hierarkkisista klusterianalyysialgoritmeista. Kussakin vaiheessa klusterien lukumäärä vähenee yhdellä johtuen optimaalisesta, tietyssä mielessä kahden ryhmän liitosta. Liittymisen kriteerinä on vaihtaa vastaava toiminto. Tämän funktiona käytettiin seuraavilla kaavoilla laskettuja neliöpoikkeamien summien arvoja:

(j = 1, 2, …, m),

missä j on klusterin numero, n on klusterin elementtien lukumäärä.

rij - parin korrelaatiokerroin.

Siten ryhmittelyprosessin tulee vastata kriteerin E arvon peräkkäistä minimilisäystä.

Ensimmäisessä vaiheessa alkutietotaulukko esitetään joukkona, joka koostuu klustereista, joissa kussakin on yksi elementti. Ryhmittelyprosessi alkaa tällaisen klusteriparin yhdistämisellä, mikä johtaa minimaaliseen kasvuun neliöityjen poikkeamien summassa. Tämä edellyttää kunkin mahdollisen klusteriliiton neliöityjen poikkeamien summan arvioimista. Seuraavassa vaiheessa poikkeamien neliösummat huomioidaan jo klustereille ja niin edelleen. Tämä prosessi pysäytetään jossain vaiheessa. Tätä varten sinun on seurattava neliöpoikkeamien summan arvoa. Kun otetaan huomioon kasvavien arvojen sekvenssi, sen dynamiikassa voidaan saavuttaa hyppy (yksi tai useampi), joka voidaan tulkita tyypilliseksi tutkittavassa populaatiossa "objektiivisesti" olemassa olevien ryhmien lukumäärälle. Yllä olevassa esimerkissä hyppyjä tapahtui, kun klusterien lukumäärä oli 7 ja 5. Edelleen, ryhmien määrää ei pidä vähentää, koska tämä johtaa mallin laadun heikkenemiseen. Kun klusterit on saatu, valitaan taloudellisesti tärkeimmät ja valittuun markkinakriteeriin läheisimmin liittyvät muuttujat - tässä tapauksessa sinkin Lontoon metallipörssin noteerauksilla. Tämän lähestymistavan avulla voit tallentaa merkittävän osan tiedoista, jotka sisältyvät alkuperäiseen konjunktuurin alkuindikaattorien joukkoon.