Klasteru analīzes literatūra. Krievijas Federācijas Izglītības un zinātnes ministrija

Nosūtiet savu labo darbu zināšanu bāzē ir vienkārši. Izmantojiet zemāk esošo veidlapu

Studenti, maģistranti, jaunie zinātnieki, kuri izmanto zināšanu bāzi savās studijās un darbā, būs jums ļoti pateicīgi.

Ievads

1. “Klasteru analīzes” vēsture

2. Terminoloģija

2.1 Objekts un iezīme

2.2. Attālums starp objektiem (metriska)

2.3. Klasteru blīvums un lokalizācija

2.4. Attālums starp klasteriem

3. Grupēšanas metodes

3.1. Hierarhisko aglomerācijas metožu iezīmes

3.2.Iteratīvo klasterizācijas metožu iezīmes

4. Iezīmju klasterizācija

5. Klasterizācijas stabilitāte un kvalitāte

Bibliogrāfija

IEVADS

"Klasteru analīze ir matemātisku metožu kopums, kas paredzēts, lai veidotu objektu grupas, kas atrodas relatīvi "attālumā" viens no otra, "tuvu" viens otram, pamatojoties uz informāciju par attālumiem vai savienojumiem (tuvuma mēriem) starp tiem. līdzīgi terminiem: automātiska klasifikācija, taksonomija, modeļa atpazīšana bez skolotāja." Šī klasteru analīzes definīcija ir sniegta jaunākajā Statistikas vārdnīcas izdevumā. Faktiski “klasteru analīze” ir vispārināts nosaukums diezgan lielai algoritmu kopai, ko izmanto klasifikācijas izveidošanai. Vairākās publikācijās tiek izmantoti arī klasteru analīzes sinonīmi, piemēram, klasifikācija un sadalīšana. Klasteru analīze zinātnē tiek plaši izmantota kā tipoloģiskās analīzes līdzeklis. Jebkurā zinātniskajā darbībā klasifikācija ir viena no fundamentālajām sastāvdaļām, bez kuras nav iespējama zinātnisku hipotēžu un teoriju konstruēšana un pārbaude. Tādējādi manā darbā mans galvenais mērķis ir aplūkot klasteranalīzes jautājumus (klasteranalīzes pamatus), kā arī aplūkot tās terminoloģiju un sniegt dažus piemērus šīs metodes izmantošanai datu apstrādē.

1. “KLASTRU ANALĪZES” VĒSTURE

Pašmāju un ārvalstu publikāciju analīze liecina, ka klasteranalīzi izmanto ļoti dažādās zinātnes jomās: ķīmijā, bioloģijā, medicīnā, arheoloģijā, vēsturē, ģeogrāfijā, ekonomikā, filoloģijā u.c. V. V. Nalimova grāmatā “Valodas varbūtības modelis” ir aprakstīta klasteranalīzes izmantošana 70 analītisko paraugu izpētē. Lielākā daļa literatūras par klasteru analīzi ir parādījusies pēdējo trīs gadu desmitu laikā, lai gan pirmie darbi, kas pieminēja klasteru metodes, parādījās diezgan sen. Poļu antropologs K. Čekanovskis izvirzīja “strukturālās klasifikācijas” ideju, kas saturēja klasteranalīzes galveno ideju – kompaktu objektu grupu identificēšanu.

1925. gadā padomju hidrobiologs P.V. Terentjevs izstrādāja tā saukto “korelācijas galaktiku metodi”, kas paredzēta korelējošu pazīmju grupēšanai. Šī metode deva impulsu grupēšanas metožu izstrādei, izmantojot grafikus. Terminu "klasteru analīze" pirmo reizi ierosināja Trion. Vārds "klasteris" ir tulkots no angļu valodas kā "ķekars, suka, ķekars, grupa". Šī iemesla dēļ šāda veida analīze sākotnēji tika saukta par "grupas analīzi". 50. gadu sākumā parādījās R. Lūisa, E. Fiksa un Dž. Hodža publikācijas par klasteru analīzes hierarhiskajiem algoritmiem. Ievērojamu impulsu klasteranalīzes darba attīstībai deva R. Rozenblata darbs pie atpazīšanas ierīces (perceptrona), kas lika pamatu teorijas "modelis atpazīšana bez skolotāja" attīstībai.

Impulss klasterizācijas metožu attīstībai bija 1963. gadā izdotā grāmata "Ciparu taksonomijas principi". divi biologi - Roberts Sokāls un Pīters Snīts. Šīs grāmatas autori balstījās uz to, ka, lai izveidotu efektīvas bioloģiskās klasifikācijas, klasterizācijas procedūrā ir jānodrošina dažādu pētāmos organismus raksturojošu indikatoru izmantošana, jānovērtē šo organismu līdzības pakāpe un jānodrošina līdzīgu organismu izvietojums. tajā pašā grupā. Šajā gadījumā veidotajām grupām jābūt pietiekami “lokālām”, t.i. objektu (organismu) līdzībai grupās ir jāpārsniedz grupu līdzība savā starpā. Pēc autoru domām, identificēto grupu turpmākā analīze var noteikt, vai šīs grupas atbilst dažādām bioloģiskajām sugām. Tādējādi Sokals un Snits pieņēma, ka objektu sadalījuma grupās struktūras identificēšana palīdz noteikt šo struktūru veidošanās procesu. Un atšķirības un līdzības starp dažādu klasteru (grupu) organismiem var kalpot par pamatu notikušā evolūcijas procesa izpratnei un tā mehānisma noskaidrošanai.

Šajos pašos gados daudzus algoritmus ierosināja tādi autori kā J. McKean, G. Ball un D. Hall, izmantojot k-means metodes; G. Lance un W. Williams, N. Jardine un citi - izmantojot hierarhiskas metodes. Arī vietējie zinātnieki sniedza nozīmīgu ieguldījumu klasteru analīzes metožu izstrādē - E. M. Bravermans, A. A. Dorofejuks, I. B. Muchnik, L. A. Rastrigins, Yu. I. Žuravļevs, I. I. Elisejeva un citi. Jo īpaši 60.–70. Daudzi algoritmi, ko izstrādāja Novosibirskas matemātiķi N. G. Zagoruiko, V. N. Elkina un G. S. Ļbovs, bija ļoti populāri. Tie ir tādi labi zināmi algoritmi kā FOREL, BIGFOR, KRAB, NTTP, DRET, TRF uc Pamatojoties uz šīm pakotnēm, tika izveidota specializēta OTEKS programmatūras pakotne. Ne mazāk interesantus programmatūras produktus PPSA un Class-Master radīja Maskavas matemātiķi S. A. Aivazyan, I. S. Enyukov un B. G. Mirkin.

Klasteru analīzes metodes dažādās pakāpēs ir pieejamas lielākajā daļā vispazīstamāko pašmāju un ārvalstu statistikas pakotņu: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, SORRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS utt. Protams, 10 gadus pēc šī apskata publicēšanas ir diezgan daudz kas mainījies, daudzām statistikas programmām ir parādījušās jaunas versijas un parādījušās pilnīgi jaunas programmas, kurās izmantoti gan jauni algoritmi, gan stipri palielināta skaitļošanas jauda. Tomēr lielākajā daļā statistikas pakešu tiek izmantoti algoritmi, kas ierosināti un izstrādāti 60.–70. gados.

Pēc aptuvenām ekspertu aplēsēm, publikāciju skaits par klasteru analīzi un tās pielietojumu dažādās zināšanu jomās dubultojas ik pēc trim gadiem. Kādi ir iemesli tik intensīvai interesei par šāda veida analīzi? Objektīvi šai parādībai ir trīs galvenie iemesli. Tā ir jaudīgas skaitļošanas tehnoloģijas rašanās, bez kuras reālu datu klastera analīzi praktiski nav iespējams īstenot. Otrs iemesls ir tas, ka mūsdienu zinātne savās konstrukcijās arvien vairāk paļaujas uz klasifikāciju. Turklāt šis process arvien vairāk padziļinās, jo paralēli tam notiek arvien lielāka zināšanu specializācija, kas nav iespējama bez pietiekami objektīvas klasifikācijas.

Trešais iemesls ir tas, ka specializēto zināšanu padziļināšana neizbēgami noved pie mainīgo lielumu skaita palielināšanās, kas tiek ņemti vērā, analizējot noteiktus objektus un parādības. Rezultātā subjektīvā klasifikācija, kas iepriekš balstījās uz diezgan nelielu skaitu ņemto īpašību, bieži vien izrādās neuzticama. Un objektīvai klasifikācijai ar arvien pieaugošu objektu raksturlielumu kopumu ir jāizmanto sarežģīti klasterizācijas algoritmi, kurus var realizēt tikai uz mūsdienu datoru bāzes. Tieši šie iemesli izraisīja “klasteru uzplaukumu”. Tomēr ārstu un biologu vidū klasteru analīze vēl nav kļuvusi par diezgan populāru un izplatītu pētījumu metodi.

2 TERMINOLOĢIJA

2. 1 OBJEKTS UN ĪPAŠĪBA

Vispirms ieviesīsim tādus jēdzienus kā objekts un atribūts. Objekts – no latīņu valodas objectum – subjekts. Saistībā ar ķīmiju un bioloģiju ar objektiem domāsim konkrētus pētījumu priekšmetus, kas tiek pētīti, izmantojot fizikālās, ķīmiskās un citas metodes. Šādi objekti var būt, piemēram, paraugi, augi, dzīvnieki utt. Noteiktu objektu kopumu, kas pētniekam ir pieejams izpētei, sauc par izlasi vai izlases populāciju. Objektu skaitu šādā populācijā parasti sauc par izlases lielumu. Parasti izlases lielumu apzīmē ar latīņu burtu "n" vai "N".

Atribūts (sinonīmi - īpašība, mainīgais, raksturlielums; angļu valodā - mainīgais - mainīgais.) - apzīmē konkrētu objekta īpašību. Šīs īpašības var izteikt kā skaitliskās vai neskaitliskās vērtības. Piemēram, asinsspiedienu (sistolisko vai diastolisko) mēra dzīvsudraba staba milimetros, svaru kilogramos, augumu centimetros utt. Šādas pazīmes ir kvantitatīvas. Atšķirībā no šiem nepārtrauktajiem skaitliskiem raksturlielumiem (skalām), vairākiem raksturlielumiem var būt diskrētas, pārtrauktas vērtības. Savukārt šādas diskrētās pazīmes parasti iedala divās grupās.

1) Pirmā grupa ir ranga vai, kā tos sauc arī, kārtas mainīgie (skalas). Šādām pazīmēm ir īpašība sakārtot šīs nozīmes. Tie ietver konkrētas slimības stadijas, vecuma grupas, skolēnu zināšanu rādītājus, 12 ballu zemestrīču skalu saskaņā ar Rihteru utt.

2) Otrajai diskrēto raksturlielumu grupai nav šādas secības, un to sauc par nominālajiem (no vārda “nominālais” - paraugs) vai klasifikācijas raksturlielumiem. Šādu pazīmju piemērs varētu būt pacienta stāvoklis - "vesels" vai "slims", pacienta dzimums, novērošanas periods - "pirms ārstēšanas" un "pēc ārstēšanas" utt. Šajos gadījumos ir pieņemts teikt, ka šādas pazīmes pieder pie nosaukšanas skalas.

Objekta un atribūta jēdzienus parasti sauc par “Objekta-īpašuma” vai “Objekta-atribūta” matricu. Matrica būs taisnstūrveida tabula, kas sastāv no pazīmju vērtībām, kas apraksta pētītā novērojumu parauga īpašības. Šajā kontekstā viens novērojums tiks reģistrēts kā atsevišķa rinda, kas sastāv no izmantoto raksturlielumu vērtībām. Atsevišķa iezīme šādā datu matricā tiks attēlota ar kolonnu, kas sastāv no šīs funkcijas vērtībām visiem parauga objektiem.

2. 2 ATTĀLUMS STARP OBJEKTIEM (METRIKAS)

Ieviesīsim jēdzienu "attālums starp objektiem". Šis jēdziens ir neatņemams objektu līdzības mērs viens otram. Attālums starp objektiem pazīmju telpā ir vērtība d ij, kas atbilst šādām aksiomām:

1. d ij > 0 (nenegatīvs attālums)

2. d ij = d ji (simetrija)

3. d ij + d jk > d ik (trijstūra nevienādība)

4. Ja d ij nav vienāds ar 0, tad i nav vienāds ar j (neidentisku objektu atpazīstamība)

5. Ja d ij = 0, tad i = j (identisku objektu neatšķiramība)

Ir ērti attēlot objektu tuvuma (līdzības) mēru kā apgrieztu attālumu starp objektiem. Daudzās publikācijās, kas veltītas klasteru analīzei, ir aprakstītas vairāk nekā 50 dažādas metodes attāluma starp objektiem aprēķināšanai. Papildus terminam “attālums” literatūrā bieži sastopams vēl viens termins - “metriska”, kas nozīmē noteikta attāluma aprēķināšanas metodi. Kvantitatīvo raksturlielumu gadījumā uztverei un izpratnei vispieejamākā ir tā sauktā “Eiklīda distance” jeb “Eiklīda metrika”. Šī attāluma aprēķināšanas formula ir šāda:

Šī formula izmanto šādu apzīmējumu:

· d ij - attālums starp i-to un j-to objektu;

· x ik - k-tā mainīgā skaitliskā vērtība i-tam objektam;

· x jk - k-tā mainīgā skaitliskā vērtība j-tam objektam;

· v - mainīgo skaits, kas apraksta objektus.

Tādējādi gadījumam v=2, kad mums ir tikai divi kvantitatīvie raksturlielumi, attālums d ij būs vienāds ar taisnleņķa trijstūra hipotenūzas garumu, kas savieno divus punktus taisnstūra koordinātu sistēmā. Šie divi punkti atbildīs izlases i-tajam un j-tajam novērojumam. Bieži ierastā Eiklīda attāluma vietā tiek izmantots tā kvadrāts d 2 ij. Turklāt dažos gadījumos tiek izmantots “svērtais” Eiklīda attālums, kura aprēķināšanā atsevišķiem terminiem tiek izmantoti svēršanas koeficienti. Lai ilustrētu Eiklīda metrikas jēdzienu, mēs izmantojam vienkāršu apmācības piemēru. Zemāk esošajā tabulā parādītā datu matrica sastāv no 5 novērojumiem un diviem mainīgajiem.

1. tabula

Datu matrica no pieciem novērotajiem paraugiem un diviem mainīgajiem.

Izmantojot Eiklīda metriku, mēs aprēķinām starpobjektu attālumu matricu, kas sastāv no vērtībām d ij - attālums starp i-to un j-to objektu. Mūsu gadījumā i un j ir objekta, novērojuma numurs. Tā kā izlases lielums ir 5, tad i un j attiecīgi var iegūt vērtības no 1 līdz 5. Tāpat ir skaidrs, ka visu iespējamo pāru attālumu skaits būs vienāds ar 5*5=25. Patiešām, pirmajam objektam tie būs šādi attālumi: 1-1; 1-2; 1-3; 1-4; 1-5. Objektam 2 būs arī 5 iespējamie attālumi: 2-1; 2-2; 2-3; 2-4; 2-5 utt. Tomēr dažādu attālumu skaits būs mazāks par 25, jo ir jāņem vērā identisku objektu neatšķiramības īpašība - d ij = 0, ja i = j. Tas nozīmē, ka attālums starp objektu Nr.1 ​​un to pašu objektu Nr.1 ​​būs nulle. Tādi paši nulles attālumi būs visos citos gadījumos i = j. Turklāt no simetrijas īpašības izriet, ka d ij = d ji jebkuram i un j. Tie. attālums starp objektiem Nr.1 ​​un Nr.2 ir vienāds ar attālumu starp objektiem Nr.2 un Nr.1.

Eiklīda attāluma izteiksme ļoti atgādina tā saukto vispārināto jaudas Minkovska attālumu, kurā pakāpēs tiek izmantots cits lielums divu vietā. Parasti šo vērtību apzīmē ar simbolu “p”.

Kad p = 2, mēs iegūstam parasto Eiklīda attālumu. Tātad vispārinātās Minkovska metrikas izteiksmei ir šāda forma:

Jaudas eksponenta “p” konkrētas vērtības izvēli veic pats pētnieks.

Īpašs Minkovska attāluma gadījums ir tā sauktais Manhetenas attālums jeb “pilsētas bloka attālums”, kas atbilst p=1:

Tādējādi Manhetenas attālums ir objektu atbilstošo pazīmju atšķirību absolūto vērtību summa. Ļaujot p virzīties uz bezgalību, mēs iegūstam “dominances” metriku jeb Sup-metriku:

ko var attēlot arī formā d ij = max| x ik - x jk |.

Minkovska metrika patiesībā ir liela metrikas grupa, tostarp vispopulārākās metrikas. Tomēr ir arī metodes attāluma starp objektiem aprēķināšanai, kas būtiski atšķiras no Minkovska metrikas. Būtiskākā no tām ir tā sauktā Mahalanobisa distance, kurai ir diezgan specifiskas īpašības. Šīs metrikas izteiksme:

Šeit caur X i Un X j ir norādīti i-tā un j-tā objekta mainīgo vērtību kolonnu vektori. Simbols T izteiksmē (X i - X j ) T apzīmē tā saukto vektora transponēšanas darbību. Simbols S apzīmē kopējo grupas iekšējās dispersijas-kovariācijas matricu. Simbols -1 virs S nozīmē, ka ir nepieciešams invertēt matricu S . Atšķirībā no Minkovska metrikas un Eiklīda metrikas, Mahalanobisa attālums caur dispersijas-kovariācijas matricu S kas saistīti ar mainīgo lielumu korelācijām. Ja korelācijas starp mainīgajiem ir nulle, Mahalanobisa attālums ir līdzvērtīgs Eiklīda attāluma kvadrātam.

Dihotomu (ar tikai divām vērtībām) kvalitatīvo pazīmju izmantošanas gadījumā plaši tiek izmantots Haminga attālums.

vienāds ar neatbilstību skaitu starp atbilstošo pazīmju vērtībām i-tajam un j-tajam objektam.

2. 3 KLASTRU BLĪVUMS UN LOKALITĀTE

Klasteru analīzes galvenais mērķis ir paraugā atrast objektu grupas, kas ir līdzīgas viena otrai. Pieņemsim, ka ar dažām iespējamām metodēm esam ieguvuši šādas grupas - klasterus. Jāņem vērā svarīgas klasteru īpašības. Viena no šīm īpašībām ir punktu sadalījuma blīvums, novērojumi klastera ietvaros. Šī īpašība ļauj mums definēt kopu kā punktu kopu daudzdimensiju telpā, kas ir salīdzinoši blīva salīdzinājumā ar citām šīs telpas apgabaliem, kas vai nu nesatur punktus vispār, vai satur nelielu skaitu novērojumu. Citiem vārdiem sakot, cik kompakts ir dotais klasteris vai, gluži pretēji, cik mazs tas ir? Neskatoties uz pietiekamiem pierādījumiem par šo īpašumu, nav viennozīmīga veida, kā aprēķināt šādu rādītāju (blīvumu). Veiksmīgākais rādītājs, kas raksturo daudzdimensiju novērojumu “iepakošanas” kompaktumu un blīvumu noteiktā klasterī, ir attāluma izkliede no klastera centra līdz atsevišķiem klastera punktiem. Jo mazāka ir šī attāluma izkliede, jo tuvāk klastera centram ir novērojumi, jo lielāks ir klasteru blīvums. Un otrādi, jo lielāka attāluma izkliede, jo retāks ir dotais klasteris, un tāpēc ir punkti, kas atrodas gan tuvu klastera centram, gan diezgan tālu no klastera centra.

Nākamā klasteru īpašība ir to lielums. Galvenais klastera lieluma rādītājs ir tā “rādiuss”. Šis īpašums vispilnīgāk atspoguļo faktisko klastera lielumu, ja attiecīgajam klasterim ir apaļa forma un tā ir hipersfēra daudzdimensiju telpā. Taču, ja klasteriem ir iegarenas formas, tad rādiusa vai diametra jēdziens vairs neatspoguļo klastera patieso izmēru.

Vēl viena svarīga klastera īpašība ir tās lokalizācija un atdalāmība. Tas raksturo klasteru pārklāšanās pakāpi un savstarpējo attālumu viens no otra daudzdimensionālā telpā. Piemēram, apsveriet trīs klasteru sadalījumu jaunu, integrētu funkciju telpā zemāk esošajā attēlā. 1. un 2. asis tika iegūts ar īpašu metodi no 12 dažādu eritrocītu formu atstarojošo īpašību pazīmēm, kas pētītas, izmantojot elektronu mikroskopiju.

1. attēls

Mēs redzam, ka 1. klasterim ir minimālais izmērs, bet 2. un 3. klasteriem ir aptuveni vienādi izmēri. Tajā pašā laikā mēs varam teikt, ka minimālais blīvums un līdz ar to maksimālā attāluma izkliede ir raksturīgs 3. klasterim. Turklāt 1. klasteris ir atdalīts ar diezgan lieliem tukšas vietas laukumiem gan no 2., gan 3. klastera. 2 un 3 daļēji pārklājas viens ar otru. Interesanti ir arī tas, ka 1. klasterim ir daudz lielāka atšķirība no 2. un 3. klastera pa 1. asi nekā pa 2. asi. Gluži pretēji, 2. un 3. klasteris atšķiras aptuveni vienādi viens no otra gan pa 1. asi, gan pa 2. asi. Acīmredzot , šādai vizuālai analīzei ir nepieciešams visus parauga novērojumus projicēt uz īpašām asīm, kurās klastera elementu projekcijas būs redzamas kā atsevišķas kopas.

2. 4 ATtālums STARP KLASTERIEM

Plašākā nozīmē objektus var saprast ne tikai kā oriģinālos izpētes objektus, kas matricā “objekts-īpašība” tiek prezentēti kā atsevišķa līnija, vai kā atsevišķi punkti daudzdimensionālā pazīmju telpā, bet arī kā atsevišķas šādu punktu grupas. , ko viens vai otrs algoritms apvieno klasterī. Šajā gadījumā rodas jautājums, kā saprast attālumu starp šādām punktu (kopu) uzkrāšanām un kā to aprēķināt. Šajā gadījumā ir vēl daudzveidīgākas iespējas nekā gadījumā, ja tiek aprēķināts attālums starp diviem novērojumiem daudzdimensionālā telpā. Šo procedūru sarežģī fakts, ka atšķirībā no punktiem kopas aizņem noteiktu daudzdimensiju telpas apjomu un sastāv no daudziem punktiem. Klasteru analīzē plaši tiek izmantoti starpkopu attālumi, kas aprēķināti pēc tuvākā kaimiņa, smaguma centra, tālākā kaimiņa un mediānas principa. Četras visplašāk izmantotās metodes ir viena saite, pilnīga sasaiste, vidēja saite un Varda metode. Izmantojot vienas saites metodi, objekts tiks pievienots jau esošam klasterim, ja vismaz vienam no klastera elementiem ir tāds pats līdzības līmenis kā pievienotajam objektam. Pilnīgas saites metodei objekts tiek pievienots klasterim tikai tad, ja līdzība starp iekļaušanai kandidātu un kādu no klastera elementiem nav mazāka par noteiktu slieksni. Vidējās saites metodei ir vairākas modifikācijas, kas ir kompromiss starp vienu un pilnu saiti. Viņi aprēķina iekļaušanas kandidāta līdzības vidējo vērtību ar visiem esošā klastera objektiem. Pievienošanās tiek veikta, kad atrastā vidējā līdzības vērtība sasniedz vai pārsniedz noteiktu slieksni. Visbiežāk izmantotais ir klastera objektu un klasterī iekļaušanas kandidāta līdzības vidējais aritmētiskais.

Daudzas klasterizācijas metodes atšķiras viena no otras ar to, ka to algoritmi katrā solī aprēķina dažādas nodalījuma kvalitātes funkcijas. Populārā Ward metode ir izstrādāta, lai optimizētu klasteru iekšējo attālumu minimālo dispersiju. Pirmajā solī katrs klasteris sastāv no viena objekta, kura dēļ attālumu intraklasteru izkliede ir vienāda ar 0. Izmantojot šo metodi, tiek apvienoti tie objekti, kas dod minimālu dispersijas pieaugumu, kā rezultātā šī metode tiecas radīt hipersfēriskas kopas.

Atkārtoti mēģinājumi klasificēt klasteru analīzes metodes noved pie desmitiem vai pat simtiem dažādu klašu. Šādu daudzveidību rada liels skaits iespējamo metožu attāluma aprēķināšanai starp atsevišķiem novērojumiem, tikpat liels skaits metožu attāluma aprēķināšanai starp atsevišķiem klasteriem klasterizācijas procesā un dažādas galīgās klasteru struktūras optimāluma aplēses.

Populārajās statistikas pakotnēs visizplatītākās ir divas klasteru analīzes algoritmu grupas: hierarhiskās aglomeratīvās metodes un iteratīvās grupēšanas metodes.

3. GRUPĒŠANAS METODES

3. 1 HIERARHISKO AGGLOMERATIVĀS METODES ĪPAŠĪBAS

Aglomeratīvajos hierarhiskajos algoritmos, ko biežāk izmanto reālos biomedicīnas pētījumos, sākotnēji visi objekti (novērojumi) tiek uzskatīti par atsevišķiem, neatkarīgiem klasteriem, kas sastāv tikai no viena elementa. Neizmantojot jaudīgu skaitļošanas tehnoloģiju, klasteru datu analīzes ieviešana ir ļoti problemātiska.

Metrikas izvēli veic pats pētnieks. Pēc attāluma matricas aprēķināšanas process sākas aglomerācijas (no latīņu agglomero - pievienoju, uzkrāju), ejot secīgi soli pa solim. Šī procesa pirmajā posmā divi sākotnējie novērojumi (monoklasteri), starp kuriem ir minimālais attālums, tiek apvienoti vienā klasterī, kas sastāv no diviem objektiem (novērojumiem). Tādējādi agrāko N monoklasteru (kopas, kas sastāv no viena objekta) vietā pēc pirmā soļa būs N-1 klasteri, no kuriem vienā klasterī būs divi objekti (novērojumi), un N-2 klasteri joprojām sastāvēs tikai no viens objekts. Otrajā posmā ir iespējamas dažādas N-2 klasteru apvienošanas metodes savā starpā. Tas ir tāpēc, ka vienā no šīm kopām jau ir divi objekti. Šī iemesla dēļ rodas divi galvenie jautājumi:

· kā aprēķināt šāda divu (un pēc tam vairāk nekā divu) objektu kopas koordinātas;

· kā aprēķināt attālumu līdz šādām "vairāku objektu" klasteriem no "mono-klasteriem" un starp "vairāku objektu" klasteriem.

Šie jautājumi galu galā nosaka galīgo klasteru struktūru (kopu struktūra nozīmē atsevišķu klasteru sastāvu un to relatīvo izvietojumu daudzdimensionālā telpā). Dažādas metrikas un klasteru koordinātu un savstarpējo attālumu aprēķināšanas metožu kombinācijas rada dažādas klasteru analīzes metodes. Otrajā solī, atkarībā no izvēlētajām metodēm klastera, kas sastāv no vairākiem objektiem, koordinātu aprēķināšanai un starpkopu attālumu aprēķināšanas metodes, ir iespējams vai nu atkārtoti apvienot divus atsevišķus novērojumus jaunā klasterī, vai arī apvienot vienu jaunu novērojumu. uz kopu, kas sastāv no diviem objektiem. Ērtības labad lielākā daļa programmu, kas paredzētas aglomeratīvi-hierarhiskām metodēm, var nodrošināt divus galvenos grafikus apskatei pēc pabeigšanas. Pirmo grafiku sauc par dendrogrammu (no grieķu dendron - koks), kas atspoguļo aglomerācijas procesu, atsevišķu novērojumu saplūšanu vienā galīgajā klasterī. Dosim piemēru dendrogrammai ar 5 novērojumiem diviem mainīgajiem.

Grafiks1

Šāda grafika vertikālā ass apzīmē starpklasteru attāluma asi, bet horizontālā ass norāda objektu skaitu - analīzē izmantotos gadījumus. No šīs dendrogrammas ir skaidrs, ka objekti Nr. 1 un Nr. 2 vispirms tiek apvienoti vienā klasterī, jo attālums starp tiem ir minimāls un vienāds ar 1. Šo saplūšanu grafikā attēlo ar horizontālu līniju, kas savieno vertikālos segmentus. no punktiem, kas atzīmēti kā C_1 un C_2. Pievērsīsim uzmanību tam, ka pati horizontālā līnija iet precīzi starpklasteru attāluma līmenī, kas vienāds ar 1. Tad otrajā solī šim klasterim tiek pievienots objekts Nr.3, kas apzīmēts kā C_3, kas jau ietver divi objekti. Nākamais solis ietver objektu Nr.4 un Nr.5 sapludināšanu, attālums starp kuriem ir 1,41. Un pēdējā solī 1., 2. un 3. objektu kopa tiek sapludināta ar 4. un 5. objektu kopu. Grafikā redzams, ka attālums starp šīm divām priekšpēdējām kopām (pēdējā klasterī ir visi 5 objekti) ir lielāks par 5. , bet mazāks par 6, jo augšējā horizontālā līnija, kas savieno divus priekšpēdējos klasterus, iet līmenī, kas aptuveni vienāds ar 7, un objektu 4 un 5 savienojuma līmenis ir vienāds ar 1,41.

Zemāk redzamā dendrogramma tika iegūta, analizējot reālu datu masīvu, kas sastāv no 70 apstrādātiem ķīmiskiem paraugiem, no kuriem katram bija 12 raksturlielumi.

2. grafiks

Grafikā redzams, ka pēdējā solī, kad apvienojās pēdējie divi klasteri, attālums starp tiem ir aptuveni 200 vienības. Redzams, ka pirmajā klasterī ir daudz mazāk objektu nekā otrajā.Zemāk ir palielināta dendrogrammas sadaļa, kurā diezgan skaidri redzami novērojumu numuri, kas apzīmēti kā C_65, C_58 utt. (no kreisās uz labo): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 utt.

3. grafiks Augšējā grafika Nr.2 palielināta sadaļa

Redzams, ka objekts 44 ir monoklasteris, kas apvienojas priekšpēdējā solī ar labo klasteri un tad pēdējā solī visi novērojumi tiek apvienoti vienā klasterī.

Vēl viens grafiks, kas tiek izveidots šādās procedūrās, ir grafiks, kurā redzamas starpklasteru attālumu izmaiņas katrā apvienošanas posmā. Zemāk ir līdzīgs grafiks iepriekš esošajai dendrogrammai.

4. grafiks

Vairākās programmās ir iespējams tabulas veidā attēlot objektu apvienošanas rezultātus katrā klasterizācijas posmā. Lielākajā daļā šo tabulu, lai izvairītos no neskaidrībām, sākotnējo novērojumu apzīmēšanai tiek izmantota atšķirīga terminoloģija - monoklasteri un faktiskās kopas, kas sastāv no diviem vai vairākiem novērojumiem. Angļu valodas statistikas pakotnēs sākotnējie novērojumi (datu matricas rindas) tiek apzīmēti kā “case”. Lai parādītu klasteru struktūras atkarību no metrikas izvēles un klasteru apvienošanas algoritma izvēles, zemāk mēs piedāvājam dendrogrammu, kas atbilst visam savienojuma algoritmam. Un šeit mēs redzam, ka objekts #44 ir apvienots ar pārējo atlasi pašā pēdējā solī.

5. grafiks

Tagad salīdzināsim to ar citu diagrammu, kas iegūta, izmantojot vienas saites metodi ar tiem pašiem datiem. Atšķirībā no pilna savienojuma metodes, ir skaidrs, ka šī metode ģenerē garas objektu ķēdes, kas secīgi pievienotas viens otram. Tomēr visos trīs gadījumos var teikt, ka ir divas galvenās grupas.

6. grafiks

Atzīmēsim arī to, ka visos trīs gadījumos objekts Nr.44 pievienojas kā monoklasteris, lai gan dažādos klasterizācijas procesa posmos. Šādu monoklasteru identificēšana ir labs līdzeklis anomālu novērojumu noteikšanai, ko sauc par novirzēm. Izdzēsīsim šo "aizdomīgo" objektu Nr.44 un veiksim klasterēšanu vēlreiz. Mēs iegūstam šādu dendrogrammu:

7. grafiks

Redzams, ka ir saglabājies “ķēdes” efekts, kā arī sadalījums divās lokālās novērojumu grupās.

3. 2 ITERATĪVĀS KLASTERIZĀCIJAS METODES

Starp iteratīvajām metodēm vispopulārākā ir Makkeana k-means metode. Atšķirībā no hierarhiskām metodēm vairumā šīs metodes realizāciju lietotājam pašam ir jānorāda nepieciešamais gala klasteru skaits, ko parasti apzīmē ar “k”. Tāpat kā hierarhiskās klasterizācijas metodēs, lietotājs var izvēlēties vienu vai otru metrikas veidu. Dažādi k-means metodes algoritmi atšķiras arī ar to, kā tie izvēlas norādīto klasteru sākotnējos centrus. Dažās metodes versijās lietotājs pats var (vai obligāti) norādīt šādus sākuma punktus, vai nu atlasot tos no reāliem novērojumiem, vai arī norādot šo punktu koordinātas katram no mainīgajiem. Citās šīs metodes realizācijās dots sākuma punktu skaits k tiek izvēlēts nejauši, un šos sākotnējos punktus (klasteru sēklas) pēc tam var precizēt vairākos posmos. Ir 4 galvenie šādu metožu posmi:

· k novērojumi ir atlasīti vai piešķirti kā klasteru primārie centri;

· nepieciešamības gadījumā tiek veidoti starpklasteri, katru novērojumu attiecinot uz tuvākajiem norādītajiem klasteru centriem;

· pēc visu novērojumu piešķiršanas atsevišķiem klasteriem primārie klasteru centri tiek aizstāti ar klasteru vidējiem;

· iepriekšējā iterācija tiek atkārtota, līdz klasteru centru koordinātu izmaiņas kļūst minimālas.

Dažos šīs metodes variantos lietotājs var norādīt kritērija skaitlisko vērtību, kas tiek interpretēta kā minimālais attālums jaunu klasteru centru atlasei. Novērojums netiks uzskatīts par kandidātu jaunam klastera centram, ja tā attālums līdz aizstātajam klastera centram pārsniedz noteikto skaitu. Dažās programmās šo parametru sauc par “rādiusu”. Papildus šim parametram ir iespējams iestatīt maksimālo iterāciju skaitu vai sasniegt noteiktu, parasti diezgan mazu skaitli, ar kuru tiek salīdzinātas attāluma izmaiņas visiem klasteru centriem. Šo parametru parasti sauc par "konverģenci", jo atspoguļo iteratīvās klasterizācijas procesa konverģenci. Zemāk mēs piedāvājam dažus rezultātus, kas iegūti, izmantojot McKean k-means metodi, salīdzinot ar iepriekšējiem datiem. Nepieciešamo klasteru skaits sākotnēji tika iestatīts uz 3 un pēc tam uz 2. Pirmajā daļā ir ietverti vienvirziena dispersijas analīzes rezultāti, kurā klasteru skaits darbojas kā grupēšanas faktors. Pirmajā kolonnā ir 12 mainīgo lielumu saraksts, kam seko kvadrātu (SS) un brīvības pakāpju (df) summas, tad Fišera F tests un pēdējā kolonnā sasniegtais nozīmīguma līmenis "p".

2. tabula Dati, kas iegūti ar McKean k-means metodi, piemērojami 70 pētītajiem paraugiem.

Mainīgie lielumi

Kā redzams no šīs tabulas, nulles hipotēze par vidējo vienlīdzību trijās grupās tiek noraidīta. Zemāk ir grafiks ar visu mainīgo vidējo vērtību atsevišķām klasteriem. Šie paši mainīgo klasteru vidējie rādītāji ir norādīti tālāk tabulas veidā.

3. tabula. Detalizēta datu pārbaude, izmantojot trīs klasteru piemēru.

Mainīgs

Klasteris Nr.1

2. klasteris

3. klasteris

8. grafiks

Katra klastera mainīgo vidējo vērtību analīze ļauj secināt, ka saskaņā ar atribūtu X1 klasteriem 1 un 3 ir tuvas vērtības, bet klasterim 2 ir daudz zemāka vidējā vērtība nekā pārējās divās klasteros. Gluži pretēji, saskaņā ar atribūtu X2 pirmajam klasterim ir viszemākā vērtība, bet 2. un 3. klasterim ir augstākas un tuvākas vidējās vērtības. Raksturlielumiem X3-X12 vidējās vērtības 1. klasterī ir ievērojami augstākas nekā 2. un 3. klasteros. Sekojošā divu klasteru grupēšanas rezultātu dispersijas analīze parāda arī nepieciešamību noraidīt nulles hipotēzi par vienlīdzību. grupas nozīmē gandrīz visiem 12 raksturlielumiem, izņemot mainīgo X4, kuram sasniegtais nozīmīguma līmenis bija lielāks par 5%.

4. tabula. Divos klasteros klasterizācijas rezultātu dispersijas analīzes tabula.

Mainīgie lielumi

Zemāk ir grafiks un tabula ar grupu vidējiem gadījumiem, kad tiek grupēts divās klasteros.

5. tabula. Tabula klasterizācijas gadījumam divos klasteros.

Mainīgie lielumi

Klasteris Nr.1

2. klasteris

9. grafiks.

Gadījumā, ja pētnieks nevar iepriekš noteikt visticamāko klasteru skaitu, viņš ir spiests atkārtot aprēķinus, norādot citu to skaitu, līdzīgi kā tas tika darīts iepriekš. Un tad, salīdzinot iegūtos rezultātus savā starpā, izlemiet par vienu no vispieņemamākajām klasterizācijas iespējām.

4 . ĪPAŠUMU KLASTERĒŠANA

Papildus atsevišķu novērojumu grupēšanai ir arī algoritmi klasterizācijas pazīmēm. Viena no pirmajām šādām metodēm ir P. V. Terentjeva galaktiku korelācijas metode. Primitīvus šādu galaktiku attēlus bieži var atrast biomedicīnas publikācijās apļa veidā, kas izraibināts ar bultiņām, kas savieno zīmes, kurām autori atklāja korelāciju. Vairākām programmām ir atsevišķas procedūras objektu un līdzekļu grupēšanai. Piemēram, SAS pakotnē VARCLUS procedūra (no VARiable - mainīgais un CLUSter - cluster) tiek izmantota, lai klasterētu pazīmes, savukārt novērojumu klasteranalīzi veic citas procedūras - FASTCLUS un CLUSTER. Abos gadījumos dendrogramma tiek veidota, izmantojot TREE (koka) procedūru.

Citās statistikas pakotnēs elementu atlase klasterēšanai - objekti vai līdzekļi - tiek veikta tajā pašā modulī. Izteiksmes, kas ietver noteiktu koeficientu vērtību, kas atspoguļo pazīmju pāra attiecības stiprumu, bieži tiek izmantotas kā metrika, grupējot pazīmes. Šajā gadījumā objektiem, kuru savienojuma stiprums ir vienāds ar vienu (funkcionālā atkarība), ir ļoti ērti ņemt attālumu starp pazīmēm, kas vienādas ar nulli. Patiešām, ar funkcionālu savienojumu viena raksturlieluma vērtību var izmantot, lai precīzi aprēķinātu cita raksturlieluma vērtību. Samazinoties savienojuma stiprumam starp pazīmēm, attālums attiecīgi palielinās. Zemāk ir diagramma, kurā parādīta dendrogramma, lai apvienotu 12 pazīmes, kas tika izmantotas iepriekš, grupējot 70 analītiskos paraugus.

10. grafiks. Dendrogramma12 pazīmju grupēšana.

Kā redzams no šīs dendrogrammas, mēs runājam ar divām lokālām pazīmju grupām: X1-X10 un X11-X12. Pazīmju grupai X1-X10 raksturīgs diezgan mazs starpkopu attālumu lielums, kas nepārsniedz aptuveni 100 vienības. Šeit mēs redzam arī dažas iekšējas pārī savienotas apakšgrupas: X1 un X2, X3 un X4, X6 un X7. Attālums starp šo pāru raksturlielumiem, kas ir ļoti tuvu nullei, norāda uz to spēcīgo pāru saistību. Savukārt pārim X11 un X12 attālums starp klasteriem ir daudz lielāks un ir aptuveni 300 vienības. Visbeidzot, ļoti lielais attālums starp kreiso (X1-X10) un labo (X11-X12) kopām, kas vienāds ar aptuveni 1150 vienībām, liecina, ka attiecības starp šīm divām pazīmju grupām ir diezgan minimālas.

5. KLASTERIZĀCIJAS STABILITĀTE UN KVALITĀTE

Acīmredzot būtu absurdi izvirzīt jautājumu par to, cik absolūta ir tā vai cita klasifikācija, kas iegūta, izmantojot klasteranalīzes metodes. Mainot klasterizācijas metodi, stabilitāte izpaužas tajā, ka dendrogrammās diezgan skaidri redzami divi klasteri.

Kā vienu no iespējamiem veidiem, kā pārbaudīt klasteru analīzes rezultātu stabilitāti, var izmantot dažādu klasterizācijas algoritmu iegūto rezultātu salīdzināšanas metodi. Citi veidi ir tā sauktā bootstrap metode, ko B. Efrons ierosināja 1977. gadā, "jackknife" un "sliding control" metodes. Vienkāršākais veids, kā pārbaudīt klastera risinājuma robustumu, būtu nejauši sadalīt sākotnējo paraugu divās aptuveni vienādās daļās, sagrupēt abas daļas un pēc tam salīdzināt rezultātus. Darbietilpīgāks veids ietver secīgu pirmā objekta izslēgšanu un pārējo (N - 1) objektu grupēšanu. Pēc tam secīgi veicot šo procedūru, izņemot otro, trešo utt. objektiem, tiek analizēta visu N iegūto klasteru struktūra. Cits robustuma pārbaudes algoritms ietver vairākkārtēju pavairošanu, N objektu sākotnējā parauga dublēšanu, pēc tam visu dublēto paraugu apvienošanu vienā lielā paraugā (pseidopopulācijā) un nejauši no tā iegūstot jaunu N objektu paraugu. Pēc tam tiek veikta šī parauga klasterizācija, pēc tam tiek iegūts jauns izlases paraugs un atkal tiek veikta klasterizācija utt. Tas arī ir diezgan darbietilpīgs ceļš.

Novērtējot klasterizācijas kvalitāti, nav mazāk problēmu. Klasteru risinājumu optimizēšanai ir diezgan daudz algoritmu. Pirmie darbi, kas saturēja klasteru iekšējās dispersijas samazināšanas kritērija formulējumus un algoritmu (piemēram, k-means) optimāla risinājuma atrašanai, parādījās 50. gados. 1963. gadā J. Ward rakstā tika izklāstīts arī līdzīgs hierarhiskās optimizācijas algoritms. Klastera risinājuma optimizēšanai nav universāla kritērija. Tas viss apgrūtina pētniekam optimālā risinājuma izvēli. Šādā situācijā labākais veids, kā konstatēt, ka atrastais klasteru risinājums ir optimāls šajā pētījuma posmā, ir tikai šī risinājuma atbilstība secinājumiem, kas iegūti, izmantojot citas daudzfaktoru statistikas metodes.

Secinājumu par klasterizācijas optimālumu apstiprina arī pozitīvie rezultāti, pārbaudot iegūtā risinājuma prognozēšanas momentus uz citiem pētījuma objektiem. Izmantojot hierarhiskas klasteru analīzes metodes, mēs varam ieteikt salīdzināt vairākus grafikus, kuros redzamas pakāpeniskas starpklasteru attāluma izmaiņas. Šajā gadījumā priekšroka jādod opcijai, kurai ir tāda pieauguma plakana līnija no pirmā soļa līdz vairākiem priekšpēdējiem soļiem ar strauju šī grafika vertikālu pieaugumu pēdējos 1-2 klasterizācijas posmos.

SECINĀJUMI

Savā darbā centos parādīt ne tikai šāda veida analīzes sarežģītību, bet arī optimālās datu apstrādes iespējas, jo nereti rezultātu precizitātes labad nepieciešams izmantot no desmitiem līdz simtiem paraugu. Šāda veida analīze palīdz klasificēt un apstrādāt rezultātus. Manuprāt, nav mazsvarīgi arī tas, ka šajā analīzē ir pieņemama datortehnoloģija, kas ļauj padarīt rezultātu apstrādes procesu mazāk darbietilpīgu un tādējādi vairāk uzmanības pievērst pareizai paraugu atlasei analīzei.

Klasteru analīzes izmantošanā ir smalkumi un detaļas, kas parādās atsevišķos konkrētos gadījumos un nav uzreiz redzamas. Piemēram, pazīmju mēroga loma var būt minimāla vai vairākos gadījumos dominējoša. Šādos gadījumos ir nepieciešams izmantot mainīgo transformācijas. Tas ir īpaši efektīvi, ja tiek izmantotas metodes, kas rada pazīmju nelineāras transformācijas, kas kopumā palielina kopējo korelāciju līmeni starp pazīmēm.

Vēl lielāka specifika ir klasteranalīzes izmantošanā attiecībā uz objektiem, kurus raksturo tikai kvalitatīvi raksturlielumi. Šajā gadījumā diezgan veiksmīgas ir kvalitatīvo pazīmju sākotnējās digitalizācijas metodes un klasteru analīzes veikšana ar jaunām funkcijām. Savā darbā es parādīju, ka klasteru analīze sniedz daudz jaunas un oriģinālas informācijas gan pielietojot pietiekami izpētītām sistēmām, gan pētot sistēmas ar nezināmu struktūru.

Jāatzīmē arī, ka klasteru analīze ir kļuvusi neaizstājama evolūcijas pētījumos, ļaujot veidot filoģenētiskus kokus, kas parāda evolūcijas ceļus. Šīs metodes plaši izmanto arī fizikālās un analītiskās ķīmijas zinātnisko pētījumu programmās.

BIBLIOGRĀFIJA

1) Ayvazyan S. A., Enyukov I. S., Meshalkin L. D. Par lietišķās statistiskās analīzes programmatūras pakotnes struktūru un saturu // Algoritmiska un programmatūra lietišķajai statistiskajai analīzei. - M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. Daudzdimensiju novērojumu klasifikācija. - M.: Statistika, 1974.

3) Becker V. A., Lukatskaya M. L. Par sakabes koeficientu matricas struktūras analīzi // Ekonomiski statistiskās modelēšanas un prognozēšanas jautājumi rūpniecībā. - Novosibirska, 1970.

4) Braverman E. M., Muchnik I. B. Datu apstrādes strukturālās metodes. - M.: Nauka, 1983.

5) Voroņins Ju.A. Klasifikācijas teorija un tās pielietojumi.- Novosibirska: Nauka, 1987.g.

6) Labi I. J. Botrioloģijas botrioloģija // Klasifikācija un klasteris. - M.: Mir, 1980.

7) Dubrovsky S.A. Lietišķā daudzfaktoru statistiskā analīze. - M.: Finanses un statistika, 1982.

8) Durand N., Odell P. Klasteru analīze. - M.: Statistika, 1977.

9) Elisejeva I. I., Rukavišņikovs V. S. Grupēšana, korelācija, modeļu atpazīšana. - M.: Statistika, 1977.

10) Zagoruiko N. G. Atpazīšanas metodes un to pielietojums. - M.: Padomju radio, 1972.

11) Zade L. A. Izplūdušās kopas un to pielietojums modeļu atpazīšanā un klasteru analīzē // Klasifikācija un klasteris. - M.: Mir, 1980.

12) Kildiševs G. S., Ābolencevs Ju. I. Daudzdimensiju grupējumi. - M.: Statistika, 1978.

13) Raiskaya I. I., Gostilin N. I., Frenkel A. A. Par vienu veidu, kā pārbaudīt sadalīšanas derīgumu klasteru analīzē.//Daudzfaktoru statistiskās analīzes pielietošana ekonomikā un produktu kvalitātes novērtēšanā.--Ch. P. Tartu, 1977.

14) Šurigins A. M. Starppunktu attālumu un atšķirību sadalījums // Programmatūra un algoritmiskais atbalsts lietišķai daudzfaktoru statistiskai analīzei. - M., 1983.

15) Eeremaa R. Klasteru sistēmu projektēšanas vispārīgā teorija un algoritmi to skaitlisko attēlojumu atrašanai: Proceedings of the Computing Center of TSU - Tartu, 1978.

16) Jastremskis B. S. Izvēlētie darbi. - M.: Statistika, 1964.

Līdzīgi dokumenti

    Tirgus segmentācijas mērķi mārketinga aktivitātēs. Klasteru analīzes būtība, tās ieviešanas galvenie posmi. Attāluma mērīšanas metodes vai līdzības mēra izvēle. Hierarhiskas, nehierarhiskas klasterizācijas metodes. Uzticamības un derīguma novērtēšana.

    ziņojums, pievienots 2009.11.02

    Galvenie uzņēmuma finansiālā stāvokļa rādītāji. Krīze uzņēmumā, tās cēloņi, veidi un sekas. Mūsdienīgas klasteranalīzes metodes un rīki, to izmantošanas iezīmes uzņēmuma finansiālajā un ekonomiskajā novērtēšanā.

    diplomdarbs, pievienots 09.10.2013

    Uzņēmumu klasteru analīzes veikšana, izmantojot programmu Statgraphics Plus. Lineārās regresijas vienādojuma konstruēšana. Elastības koeficientu aprēķins, izmantojot regresijas modeļus. Vienādojuma statistiskās nozīmīguma un determinācijas koeficienta novērtēšana.

    uzdevums, pievienots 16.03.2014

    Tipoloģisko regresiju konstruēšana atsevišķām novērojumu grupām. Telpiskie dati un laika informācija. Klasteru analīzes pielietošanas jomas. Objektu homogenitātes jēdziens, attāluma matricas īpašības. Tipoloģiskās regresijas veikšana.

    prezentācija, pievienota 26.10.2013

    Kombinētu modeļu un metožu izveide kā mūsdienīga prognozēšanas metode. ARIMA bāzēts modelis stacionāru un nestacionāru laikrindu aprakstīšanai, risinot klasterizācijas problēmas. Autoregresīvie AR modeļi un korelogrammu pielietojumi.

    prezentācija, pievienota 01.05.2015

    Dažādu veidu metriku raksturojums. Tuvāko kaimiņu metode un tās vispārinājumi. Tuvākā kaimiņa algoritms. Parzen loga metode. Vispārināts metriskais klasifikators. Metrikas izvēles problēma. Manhetenas un Eiklīda attālums. Kosinusa mērs.

    kursa darbs, pievienots 03.08.2015

    Krasnodaras apgabala būvniecības nozares raksturojums. Mājokļu būvniecības attīstības prognoze. Mūsdienīgas metodes un rīki klasteru analīzei. Daudzfaktoru statistikas metodes uzņēmuma ekonomiskā stāvokļa diagnosticēšanai.

    diplomdarbs, pievienots 20.07.2015

    Hipotekārās kreditēšanas raksturojums, izmantojot Brjanskas apgabala piemēru. Matemātisko lēmumu pieņemšanas metožu apskats: ekspertu vērtējumi, secīgi un pāru salīdzinājumi, hierarhiju analīze. Programmas izstrāde optimālā hipotekārā kredīta atrašanai.

    kursa darbs, pievienots 29.11.2012

    Sistēmanalīzes pielietojuma jomas, vieta, loma, mērķi un funkcijas mūsdienu zinātnē. Sistēmu analīzes metožu jēdziens un saturs, to neformālās metodes. Heiristisko un ekspertu pētījumu metožu īpatnības un to pielietojuma īpatnības.

    kursa darbs, pievienots 20.05.2013

    Ekonometrisko metožu izstrāde un izpēte, ņemot vērā ekonomisko datu specifiku un atbilstoši ekonomikas zinātnes un prakses vajadzībām. Ekonometrisko metožu un modeļu pielietošana ekonomisko datu statistiskai analīzei.

Šī grāmata ir veltīta vienai no daudzsološākajām pieejām šajā ziņā daudzdimensionālu procesu un parādību analīzei - klasteru analīzei.

Klasteru analīze ir daudzdimensionālu objektu grupēšanas metode, kuras pamatā ir atsevišķu novērojumu rezultātu attēlošana pēc piemērotas ģeometriskās telpas punktiem, kam seko grupu identificēšana kā šo punktu “kopas”. Faktiski “kopa” angļu valodā nozīmē “ķekars”, “ķekars (vīnogu)”, “kopa (zvaigžņu)” utt. Šis termins neparasti labi iekļaujas zinātniskajā terminoloģijā, jo tā pirmā zilbe atbilst tradicionālajam terminam “. klase”, un otra, šķiet, norāda uz tās mākslīgo izcelsmi. Mums nav šaubu, ka klasteru analīzes terminoloģija aizstās visas šim nolūkam iepriekš izmantotās konstrukcijas (nepārraudzīta modeļa atpazīšana, stratifikācija, taksonomija, automātiskā klasifikācija utt.). Klasteranalīzes potenciāls ir acīmredzams, lai atrisinātu, teiksim, uzņēmumu grupu, kas darbojas līdzīgos apstākļos vai ar līdzīgiem rezultātiem, identificēšanas problēmas, viendabīgas iedzīvotāju grupas dažādos dzīves vai dzīvesveida aspektos kopumā utt.

Klasteranalīze kā zinātniskais virziens parādījās 60. gadu vidū un kopš tā laika strauji attīstās, būdama viena no statistikas zinātnes intensīvākās izaugsmes nozarēm. Pietiek pateikt, ka dažādās valstīs līdz šim publicēto monogrāfiju skaits par klasteru analīzi vien ir mērāms simtos (kamēr, teiksim, izmantojot tādu daudzfaktoru statistiskās analīzes metodi kā "pelnīts"). faktoru analīze, diez vai iespējams saskaitīt vairākus desmitus grāmatu). Un tas ir diezgan saprotami. Galu galā mēs patiesībā runājam par grupēšanas darbības modelēšanu, kas ir viena no svarīgākajām ne tikai statistikā, bet kopumā - gan izziņā, gan lēmumu pieņemšanā.

Mūsu valstī ir publicētas vairākas monogrāfijas, kas veltītas konkrētu sociāli ekonomisko problēmu izpētei, izmantojot klasteru analīzi (1), klasteranalīzes izmantošanas metodoloģiju sociāli ekonomiskajos pētījumos (2), klasteru analīzes metodoloģiju kā tādu ( 3) (Statistikas analīzes pamati)

Ierosinātā I. D. Mandela grāmata ir it kā perpendikulāra šai klasifikācijai: tās saturs ir saistīts ar katru no šīm trim jomām.

Grāmatas mērķis ir apkopot klasteranalīzes pašreizējo stāvokli, analizēt tās izmantošanas iespējas un uzdevumus turpmākai attīstībai. Šis plāns pats par sevi nevar neizraisīt cieņu: objektīva analīze un vispārināšana prasa daudz darba, erudīcijas, drosmes, un zinātnieku aprindās tos novērtē daudz zemāk nekā viņu pašu projektu popularizēšanu un attīstību. (Tomēr grāmatā ir arī autora oriģinālās izstrādes, kas saistītas ar “intensionālo” analīzi un klasifikāciju dualitāti.)

Šī mērķa sasniegšana ir saistīta gan ar grāmatas priekšrocībām, gan ar trūkumiem. Priekšrocības ietver:

· viendabīguma, grupēšanas un klasifikācijas jēdzienu metodiskā izstrāde, ņemot vērā parādību un procesu daudzdimensionalitāti;

· klasteranalīzes pieeju un metožu sistemātisks pārskats (ieskaitot līdz 150 specifiskiem algoritmiem);

· klasteranalīzes procedūru eksperimentālās salīdzināšanas tehnoloģijas un rezultātu prezentācija; Šī grāmata ir veltīta vienai no daudzsološākajām pieejām šajā ziņā daudzdimensionālu procesu un parādību analīzei - klasteru analīzei.

Klasteru analīze ir daudzdimensionālu objektu grupēšanas metode, kuras pamatā ir atsevišķu novērojumu rezultātu attēlošana pēc piemērotas ģeometriskās telpas punktiem, kam seko grupu identificēšana kā šo punktu “kopas”. Faktiski “kopa” angļu valodā nozīmē “ķekars”, “ķekars (vīnogu)”, “kopa (zvaigžņu)” utt. Šis termins neparasti labi iekļaujas zinātniskajā terminoloģijā, jo tā pirmā zilbe atbilst tradicionālajam terminam “. klase”, un otra, šķiet, norāda uz tās mākslīgo izcelsmi. Mums nav šaubu, ka klasteru analīzes terminoloģija aizstās visas šim nolūkam iepriekš izmantotās konstrukcijas (nepārraudzīta modeļa atpazīšana, stratifikācija, taksonomija, automātiskā klasifikācija utt.). Klasteranalīzes potenciāls ir acīmredzams, lai atrisinātu, teiksim, uzņēmumu grupu, kas darbojas līdzīgos apstākļos vai ar līdzīgiem rezultātiem, identificēšanas problēmas, viendabīgas iedzīvotāju grupas dažādos dzīves vai dzīvesveida aspektos kopumā utt.

Klasteranalīze kā zinātniskais virziens parādījās 60. gadu vidū un kopš tā laika strauji attīstās, būdama viena no statistikas zinātnes intensīvākās izaugsmes nozarēm. Pietiek pateikt, ka tikai klasteru analīzes monogrāfiju skaits, vispārīgu klasteranalīzes metožu izmantošanas shēmu izstrāde, kas realizēta diezgan skaidrās tabulās; prezentācijas ieteikuma raksturs.

Šīs priekšrocības nosaka I. D. Mandela grāmatas neatkarīgo vietu starp citām publikācijām.

Grāmatas trūkumi ir dažu ieteikumu neskaidrība un klasteru analīzes metožu izmantošanas sistemātiskas analīzes trūkums sociāli ekonomiskajos priekšmetos. Tiesa, pēdējais ir saistīts ar nepietiekamu klasteru analīzes izmantošanu šajā jomā.

Grāmata sniedz tramplīnu, kura izmantošana atvieglo virzību jebkuras teorijas visgrūtākajā jautājumā – tās sniegto rīku praktiskā izmantošanā.

B. G. Mirkins

Universitāte: VZFEI

Gads un pilsēta: Maskava 2008


1. Ievads. Klasteranalīzes metodes jēdziens.

2. Klasteru analīzes izmantošanas metodoloģijas apraksts. Problēmu risināšanas testa piemērs.

4. Izmantoto atsauču saraksts

  1. Ievads. Klasteranalīzes metodes jēdziens.

Klasteranalīze ir metožu kopums, kas ļauj klasificēt daudzdimensionālus novērojumus, no kuriem katrs ir aprakstīts ar raksturlielumu (parametru) kopu X1, X2,…, Xk.

Klasteru analīzes mērķis ir līdzīgu objektu grupu veidošana, ko parasti sauc par klasteriem (klase, taksons, kondensācija).

Klasteru analīze ir viena no statistikas pētījumu jomām. Īpaši nozīmīgu vietu tas ieņem tajās zinātnes nozarēs, kas saistītas ar masu parādību un procesu izpēti. Nepieciešamību izstrādāt klasteranalīzes metodes un to izmantošanu nosaka tas, ka tās palīdz veidot zinātniski pamatotas klasifikācijas un identificēt iekšējās sakarības starp novērotās populācijas vienībām. Turklāt informācijas saspiešanai var izmantot klasteru analīzes metodes, kas ir svarīgs faktors statistisko datu plūsmu pastāvīgā pieauguma un sarežģītības kontekstā.

Klasteru analīzes metodes ļauj atrisināt šādas problēmas:

Objektu klasifikācijas veikšana, ņemot vērā pazīmes, kas atspoguļo objektu būtību un būtību. Šādas problēmas risināšana, kā likums, noved pie zināšanu padziļināšanas par klasificēto objektu kopumu;

Pārbaudot izdarītos pieņēmumus par kādas struktūras klātbūtni pētāmajā objektu kopā, t.i. meklēt esošu struktūru;

Jaunu klasifikāciju konstruēšana maz pētītām parādībām, kad nepieciešams konstatēt sakarību esamību populācijā un mēģināt tajā ieviest struktūru (1, 85.-86. lpp.).

2. Klasteru analīzes pielietošanas metodoloģijas apraksts. Problēmu risināšanas testa piemērs.

Klasteru analīze ļauj n objektus, ko raksturo k pazīmes, sadalīt viendabīgās grupās (klasteros). Objektu homogenitāti nosaka attālums p(xi xj), kur xi = (xi1, …., xik) un xj= (xj1,…, xjk) ir vektori, kas sastāv no i k pazīmju vērtībām. -th un j-th objektiem, attiecīgi.

Objektiem, ko raksturo skaitliskie raksturlielumi, attālumu nosaka pēc šādas formulas:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Objekti tiek uzskatīti par viendabīgiem, ja p(xi xj)< p предельного.

Apvienības grafisku attēlojumu var iegūt, izmantojot klasteru savienības koku – dendrogrammu. (2. 39. nodaļa).

Pārbaudes gadījums (92. piemērs).

Pārdošanas apjoms

Klasificēsim šos objektus pēc “tuvākā kaimiņa” principa. Noskaidrosim attālumus starp objektiem, izmantojot formulu (1)*. Aizpildīsim tabulu.

Paskaidrosim, kā tiek aizpildīta tabula.

Rindas i un kolonnas j krustpunktā ir norādīts attālums p(xi xj) (rezultāts tiek noapaļots līdz divām zīmēm aiz komata).

Piemēram, 1. rindas un 3. kolonnas krustpunktā ir norādīts attālums p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5,10, bet 3. rindas un 5. ailes krustpunktā. attālums p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08. Tā kā p(xi, xj) = p(xj,xi), tabulas apakšējā daļa nav jāaizpilda.

Piemērosim “tuvākā kaimiņa” principu. Tabulā atrodam mazāko no distancēm (ja šādas distances ir vairākas, tad izvēlies jebkuru no tām). Tas ir p 1,2 ≈ p 4,5 = 2,24. Pieņemsim, ka p min = p 4,5 = 2,24. Tad mēs varam apvienot objektus 4 un 5 vienā grupā, tas ir, apvienotajā 4. un 5. ailē būs mazākais no atbilstošajiem skaitļiem sākotnējās attālumu tabulas 4. un 5. ailē. Mēs darām to pašu ar 4. un 5. rindiņām. Mēs iegūstam jaunu tabulu.

Iegūtajā tabulā atrodam mazāko no attālumiem (ja tie ir vairāki, tad izvēlieties jebkuru no tiem): p min = p 1,2 = 2,24. Tad objektus 1,2,3 varam apvienot vienā grupā, tas ir, apvienotajā kolonnā 1,2,3 būs mazākais no iepriekšējās attālumu tabulas atbilstošajiem 1. un 2. un 3. ailes skaitļiem. Mēs darām to pašu ar 1., 2. un 3. rindu. Mēs iegūstam jaunu tabulu.

Mēs saņēmām divas kopas: (1,2,3) un (4,5).

3. Testa uzdevumu risināšana.

85. uzdevums.

Nosacījumi: Piecas ražotnes raksturo divas pazīmes: pārdošanas apjoms un pamatlīdzekļu vidējās gada izmaksas.

Pārdošanas apjoms

Pamatlīdzekļu vidējās gada izmaksas

Risinājums: Atradīsim attālumus starp objektiem, izmantojot formulu (1)* (noapaļojot līdz divām zīmēm aiz komata):

р 1,1 = √ (2-2) 2 + (2-2) 2 = 0

р 1,2 = √ (2-5) 2 + (7-9) 2 ≈ 3,61

р 1,3 = √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2,2 = √ (5-5) 2 + (9-9) 2 =0

р 2,3 = √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 = √ (7-12) 2 + (10-8) 2 ≈5,39

p 3,5 = √ (7-13) 2 + (10-5) 2 ≈ 7,81

р 4,5 = √ (12-13) 2 + (8-5) 2 ≈ 3,16

Pamatojoties uz aprēķinu rezultātiem, aizpildiet tabulu:

Piemērosim “tuvākā kaimiņa” principu. Lai to izdarītu, tabulā atrodam mazāko no attālumiem (ja ir vairāki šādi attālumi, atlasiet jebkuru no tiem). Tas ir p 2,3=2,24. Ļaujiet p min = p 2,3 = 2,24, tad varam sapludināt ailes “2” un “3” objektus, kā arī apvienot objektu rindas “2” un “3”. Jaunajā tabulā mēs ievadām mazākās vērtības no sākotnējās tabulas apvienotajās grupās.

Jaunajā tabulā atrodam mazāko no attālumiem (ja tie ir vairāki, tad izvēlieties jebkuru no tiem). Tas ir p 4,5 = 3,16. Ļaujiet p min = p 4,5 = 3,16, tad varam sapludināt ailes “4” un “5” objektus, kā arī apvienot objektu rindas “4” un “5”. Jaunajā tabulā mēs ievadām mazākās vērtības no sākotnējās tabulas apvienotajās grupās.

Jaunajā tabulā atrodam mazāko no attālumiem (ja tie ir vairāki, tad izvēlieties jebkuru no tiem). Tas ir p 1, 2 un 3 = 3,61. Ļaujiet p min = p 1, 2 un 3 = 3,61, tad varam sapludināt kolonnu objektus "1" un "2 un 3" un arī apvienot rindas. Jaunajā tabulā mēs ievadām mazākās vērtības no sākotnējās tabulas apvienotajās grupās.

Mēs iegūstam divus klasterus: (1,2,3) un (4,5).

Dendrogramma parāda elementu atlases secību un atbilstošos minimālos attālumus p min.

Atbilde: Klasteru analīzes rezultātā pēc “tuvākā kaimiņa” principa izveidojās 2 līdzīgu objektu kopas: (1,2,3) un (4,5).

211. uzdevums.

Nosacījumi: Piecas ražotnes raksturo divas pazīmes: pārdošanas apjoms un pamatlīdzekļu vidējās gada izmaksas.

Pārdošanas apjoms

Pamatlīdzekļu vidējās gada izmaksas

Klasificējiet šos objektus, izmantojot “tuvākā kaimiņa” principu.

Risinājums: Lai atrisinātu problēmu, mēs sniedzam datus sākotnējā tabulā. Noteiksim attālumus starp objektiem. Klasificēsim objektus pēc “tuvākā kaimiņa” principa. Mēs sniedzam rezultātus dendrogrammas veidā.

Pārdošanas apjoms

Pamatlīdzekļu vidējās gada izmaksas

Izmantojot formulu (1)*, mēs atrodam attālumus starp objektiem:

p 1,1 =0, p 1,2 =6, p 1,3 =8,60, p 1,4 =6,32, p 1,5 =6,71, p 2,2 =0, p 2,3 =7,07, p 2,4 =2, p 2,5 =3,32, p 3,3 = 0, p 3,4 =5,10, p 3,5 = 4,12, p 4,4 =0, p 4,5 =1, p 5,5 =0.

Rezultātus sniedzam tabulā:

Mazākā attālumu vērtība tabulā ir p 4,5=1. Ļaujiet p min = p 4,5 = 1, tad varam sapludināt ailes “4” un “5” objektus, kā arī apvienot objektu rindas “4” un “5”. Jaunajā tabulā mēs ievadām mazākās vērtības no sākotnējās tabulas apvienotajās grupās.

Jaunajā tabulā mazākā attālumu vērtība ir p 2, 4 un 5=2. Lai p min = p 2, 4 un 5=2, tad varam sapludināt ailes "4 un 5" un "3" objektus, kā arī apvienot objektu rindas "4 un 5" un "3". Jaunajā tabulā mēs ievadām mazākās vērtības no tabulas apvienotajās grupās.

Attālumu mazākā vērtība jaunajā tabulā ir p 3,4,5=2. Lai p min = p 3,4,5=2, tad varam sapludināt aiļu “3,4,5” un “2” objektus, kā arī apvienot objektu rindas “3,4,5” un "2". Jaunajā tabulā mēs ievadām mazākās vērtības no tabulas apvienotajās grupās.

vai piesakieties vietnē.

Svarīgs! Visi iesniegtie Testi bezmaksas lejupielādei ir paredzēti sava zinātniskā darba plāna vai pamata sastādīšanai.

Draugi! Jums ir unikāla iespēja palīdzēt studentiem tāpat kā jūs! Ja mūsu vietne palīdzēja jums atrast vajadzīgo darbu, tad jūs noteikti saprotat, kā jūsu pievienotais darbs var atvieglot citu darbu.

Ja Pārbaudes darbs, Jūsuprāt, ir nekvalitatīvs, vai arī Jūs jau esat šo darbu redzējis, lūdzu, informējiet mūs.

KLASTERU ANALĪZE SOCIĀLI EKONOMISKO PROGNOZĒŠANAS UZDEVUMOS

Ievads klasteru analīzē.

Analizējot un prognozējot sociāli ekonomiskās parādības, pētnieks diezgan bieži sastopas ar to apraksta daudzdimensionalitāti. Tas notiek, risinot tirgus segmentācijas problēmu, veidojot valstu tipoloģiju, pamatojoties uz diezgan lielu rādītāju skaitu, prognozējot tirgus apstākļus atsevišķām precēm, pētot un prognozējot ekonomisko depresiju un daudzas citas problēmas.

Daudzfaktoru analīzes metodes ir visefektīvākais kvantitatīvs instruments, lai pētītu sociāli ekonomiskos procesus, ko raksturo liels skaits raksturlielumu. Tie ietver klasteru analīzi, taksonomiju, modeļa atpazīšanu un faktoru analīzi.

Klasteranalīze visskaidrāk atspoguļo daudzfaktoru analīzes iezīmes klasifikācijā, faktoru analīzes - komunikācijas izpētē.

Dažkārt klasteranalīzes pieeja literatūrā tiek saukta par skaitlisko taksonomiju, skaitlisko klasifikāciju, pašmācības atpazīšanu utt.

Klasteru analīze atrada savu pirmo pielietojumu socioloģijā. Nosaukums klasteru analīze cēlies no angļu valodas vārda cluster - ķekars, uzkrāšanās. Pirmo reizi 1939. gadā klasteru analīzes priekšmetu definēja un aprakstīja pētnieks Trions. Klasteru analīzes galvenais mērķis ir sadalīt pētāmo objektu un raksturlielumu kopu grupās vai klasteros, kas ir viendabīgi attiecīgajā nozīmē. Tas nozīmē, ka tiek risināta datu klasificēšanas un atbilstošās struktūras identificēšanas problēma tajos. Klasteranalīzes metodes var izmantot visdažādākajos gadījumos, pat gadījumos, kad runa ir par vienkāršu grupēšanu, kurā viss ir atkarīgs no grupu veidošanas, pamatojoties uz kvantitatīvo līdzību.

Klasteru analīzes lielā priekšrocība ir tā, ka tā ļauj sadalīt objektus nevis pēc viena parametra, bet gan pēc vesela raksturlielumu kopuma. Turklāt klasteru analīze, atšķirībā no vairuma matemātisko un statistisko metožu, neuzliek nekādus ierobežojumus aplūkojamo objektu veidam un ļauj ņemt vērā dažādus gandrīz patvaļīgus sākotnējos datus. Tam ir liela nozīme, piemēram, tirgus situācijas prognozēšanai, kad rādītājiem ir daudzveidīga forma, kas apgrūtina tradicionālās ekonometriskās pieejas izmantošanu.

Klasteru analīze ļauj ņemt vērā diezgan lielu informācijas apjomu un ievērojami samazināt un saspiest lielu sociālekonomiskās informācijas apjomu, padarot to kompaktu un vizuālu.

Klasteru analīze ir svarīga saistībā ar tautsaimniecības attīstību raksturojošām laikrindu kopām (piemēram, vispārējiem ekonomikas un preču nosacījumiem). Šeit jūs varat izcelt periodus, kad atbilstošo rādītāju vērtības bija diezgan tuvas, kā arī noteikt laika rindu grupas, kuru dinamika ir vislīdzīgākā.

Klasteru analīzi var izmantot iteratīvi. Šajā gadījumā pētījumi tiek veikti, līdz tiek sasniegti nepieciešamie rezultāti. Turklāt katrs cikls šeit var sniegt informāciju, kas var ievērojami mainīt virzienu un pieejas turpmākai klasteru analīzes izmantošanai. Šo procesu var attēlot kā atgriezeniskās saites sistēmu.

Sociāli ekonomiskās prognozēšanas uzdevumos ļoti perspektīva ir klasteranalīzes kombinācija ar citām kvantitatīvām metodēm (piemēram, regresijas analīzi).

Tāpat kā jebkurai citai metodei, klasteru analīzei ir daži trūkumi un ierobežojumi: jo īpaši klasteru sastāvs un skaits ir atkarīgs no atlasītajiem nodalījuma kritērijiem. Samazinot sākotnējo datu masīvu uz kompaktāku formu, var rasties zināmi izkropļojumi, kā arī var tikt zaudētas atsevišķu objektu individuālās iezīmes, jo tās tiek aizstātas ar klastera parametru vispārināto vērtību īpašībām. Klasificējot objektus, ļoti bieži tiek ignorēta iespēja, ka aplūkojamajā populācijā nav nekādu klasteru vērtību.

Klasteru analīzē tiek uzskatīts, ka:

a) izvēlētie raksturlielumi principā pieļauj vēlamo iedalījumu klasteros;

b) pareizi izvēlētas mērvienības (mēroga).

Mēroga izvēlei ir liela nozīme. Parasti datus normalizē, atņemot vidējo un dalot ar standarta novirzi, lai dispersija būtu vienāda ar vienu.

Klasteru analīzes problēma.

Klasteru analīzes uzdevums ir, pamatojoties uz kopā X ietvertajiem datiem, sadalīt objektu kopu G m (m ir vesels skaitlis) klasteros (apakškopās) Q1, Q2, ..., Qm, lai katrs objekts Gj pieder vienai un tikai vienai nodalījuma apakškopai un tā, ka objekti, kas pieder vienam klasterim, ir līdzīgi, savukārt objekti, kas pieder pie dažādām kopām, ir neviendabīgi.

Piemēram, lai G ietver n valstis, no kurām jebkuru raksturo NKP uz vienu iedzīvotāju (F1), automašīnu skaits M uz 1 tūkstoti cilvēku (F2), elektroenerģijas patēriņš uz vienu iedzīvotāju (F3), tērauda patēriņš uz vienu iedzīvotāju (F4) utt. Tad X1 (mērījumu vektors) ir norādīto raksturlielumu kopa pirmajai valstij, X2 otrajai, X3 trešajai utt. Mērķis ir klasificēt valstis pēc attīstības līmeņa.

Klasteru analīzes problēmas risinājums ir nodalījumi, kas atbilst kādam optimizācijas kritērijam. Šis kritērijs var būt sava veida funkcionāls, kas izsaka dažādu nodalījumu un grupu vēlamības līmeni, ko sauc par mērķa funkciju. Piemēram, kā mērķa funkciju var uzskatīt noviržu kvadrātu summu grupas iekšienē:

kur xj apzīmē j-tā objekta mērījumus.

Lai atrisinātu klasteranalīzes problēmu, nepieciešams definēt līdzības un neviendabīguma jēdzienus.

Ir skaidrs, ka objekti i-th un j-th iekristu vienā klasterī, ja attālums (attālums) starp punktiem Xi un Xj būtu pietiekami mazs un iekristu dažādās klasteros, kad šis attālums būtu pietiekami liels. Tādējādi iekrišanu vienā vai dažādās objektu kopās nosaka jēdziens par attālumu starp Xi un Xj no Ep, kur Ep ir p-dimensijas Eiklīda telpa. Nenegatīvu funkciju d(Xi, Xj) sauc par attāluma funkciju (metriku), ja:

a) d(Хi, Хj) ³ 0, visiem Хi un Хj no Ep

b) d(Хi, Хj) = 0, tad un tikai tad, ja Хi = Хj

c) d(Хi, Хj) = d(Хj, Хi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), kur Xj; Xi un Xk ir jebkuri trīs vektori no Ep.

Vērtību d(Хi, Хj) Хi un Хj sauc par attālumu starp Хi un Хj, un tā ir ekvivalenta attālumam starp Gi un Gj atbilstoši atlasītajiem raksturlielumiem (F1, F2, F3, ..., Fр).

Visbiežāk izmantotās attāluma funkcijas ir:

1. Eiklīda attālums d2(Хi, Хj) =

2. l1 - norma d1(Хi, Хj) =

3. Supremums - norma d¥ (Хi, Хj) = sup

k = 1, 2, ..., p

4. lp - norma dр(Хi, Хj) =

Eiklīda metrika ir vispopulārākā. Visvieglāk ir aprēķināt l1 metriku. Augstākā norma ir viegli aprēķināma un ietver pasūtīšanas procedūru, un lp norma aptver attāluma funkcijas 1, 2, 3,.

Lai n izmēri X1, X2,..., Xn tiek attēloti kā datu matrica ar izmēru p ´n:

Tad attālumu starp vektoru pāriem d(Хi, Хj) var attēlot kā simetrisku attālumu matricu:

Attālumam pretējs jēdziens ir jēdziens par līdzību starp objektiem Gi. un Gj. Nenegatīvu reālo funkciju S(Хi ; Хj) = Sij sauc par līdzības mēru, ja:

1) 0 £ S(Хi, Хj)<1 для Хi¹ Хj

2) S(Хi, Хi) = 1

3) S(Хi, Хj) = S(Хj, Хi)

Līdzības mērījumu vērtību pārus var apvienot līdzības matricā:

Vērtību Sij sauc par līdzības koeficientu.

1.3. Klasteru analīzes metodes.

Mūsdienās ir diezgan daudz klasteru analīzes metožu. Apskatīsim dažas no tām (tālāk norādītās metodes parasti sauc par minimālās dispersijas metodēm).

Lai X ir novērojumu matrica: X = (X1, X2,..., Xu) un Eiklīda attāluma kvadrātu starp Xi un Xj nosaka pēc formulas:

1) Pilnīgu savienojumu metode.

Šīs metodes būtība ir tāda, ka diviem objektiem, kas pieder vienai grupai (klasteri), ir līdzības koeficients, kas ir mazāks par noteiktu sliekšņa vērtību S. Runājot par Eiklīda attālumu d, tas nozīmē, ka attālums starp diviem punktiem (objektiem) klastera vērtība nedrīkst pārsniegt noteiktu sliekšņa vērtību h. Tādējādi h definē maksimālo pieļaujamo diametru apakškopai, kas veido klasteru.

2) Maksimālā lokālā attāluma metode.

Katrs objekts tiek uzskatīts par vienu punktu kopu. Objekti tiek grupēti saskaņā ar šādu noteikumu: divi klasteri tiek apvienoti, ja maksimālais attālums starp viena klastera punktiem un otra punktiem ir minimāls. Procedūra sastāv no n - 1 soļiem, un rezultātā tiek iegūti nodalījumi, kas sakrīt ar visiem iespējamajiem nodalījumiem iepriekšējā metodē jebkurai sliekšņa vērtībai.

3) Word metode.

Šajā metodē kā mērķa funkcija tiek izmantota grupas iekšējā noviržu kvadrātā summa, kas ir nekas cits kā attālumu kvadrātā summa starp katru punktu (objektu) un klastera, kas satur šo objektu, vidējo vērtību. Katrā solī tiek apvienoti divi klasteri, kas noved pie mērķa funkcijas minimāla pieauguma, t.i. kvadrātu summa grupas ietvaros. Šīs metodes mērķis ir apvienot cieši izvietotas kopas.

4) Centroid metode.

Attālums starp diviem klasteriem tiek definēts kā Eiklīda attālums starp šo klasteru centriem (vidējiem):

d2 ij = (`X – `Y)Т(`X – `Y) Klasterizācija notiek soli pa solim katrā no n-1 soļiem, tiek apvienoti divi klasteri G un p ar minimālo vērtību d2ij Ja n1 ir daudz lielāks par n2, tad abu klasteru sapludināšanas centri atrodas tuvu viens otram un, apvienojot klasterus, otrā klastera īpašības tiek praktiski ignorētas. Šo metodi dažreiz sauc arī par svērtās grupas metodi.

1.4. Secīgās klasterizācijas algoritms.

Apsveriet Ι = (Ι1, Ι2, … Ιn) kā kopu kopu (Ι1), (Ι2),… (Ιn). Izvēlēsimies divus no tiem, piemēram, Ι i un Ι j, kas savā ziņā ir tuvāk viens otram un apvieno tos vienā klasterī. Jaunā klasteru kopa, kas jau sastāv no n-1 klasteriem, būs:

(Ι1), (Ι2)…, (Ι i, Ι j),…, (Ιn).

Procesu atkārtojot, iegūstam secīgas klasteru kopas, kas sastāv no (n-2), (n-3), (n-4) utt. kopas. Procedūras beigās var iegūt kopu, kas sastāv no n objektiem un sakrīt ar sākotnējo kopu Ι = (Ι1, Ι2, … Ιn).

Kā attāluma mēru mēs ņemam Eiklīda metrikas kvadrātu di j2. un aprēķina matricu D = (di j2), kur di j2 ir attāluma kvadrāts starp

Ι1 Ι2 Ι3 …. Ιn
Ι1 0 d122 d132 …. d1n2
Ι2 0 d232 …. d2n2
Ι3 0 …. d3n2
…. …. ….
Ιn 0

Lai attālums starp Ι i un Ι j ir minimāls:

di j2 = min (di j2, i ¹ j). Izmantojot Ι i un Ι j, mēs veidojam jaunu kopu

(Ι i, Ι j). Konstruēsim jaunu ((n-1), (n-1)) attāluma matricu

(Ι i , Ι j) Ι1 Ι2 Ι3 …. Ιn
(Ι i; Ι j) 0 di j21 di j22 di j23 …. di j2n
Ι1 0 d122 d13 …. d12n
Ι2 0 di j21 …. d2n
Ι3 0 …. d3n
Ιn 0

Pēdējās matricas (n-2) rindas tiek ņemtas no iepriekšējās, un pirmā rinda tiek pārrēķināta. Aprēķinus var samazināt, ja varam izteikt di j2k,k = 1, 2,…, n; (k ¹ i ¹ j) caur sākotnējās matricas elementiem.

Sākotnēji attālums tiek noteikts tikai starp viena elementa klasteriem, bet ir nepieciešams noteikt attālumus starp klasteriem, kas satur vairāk nekā vienu elementu. To var izdarīt dažādos veidos, un atkarībā no izvēlētās metodes iegūstam klasteranalīzes algoritmus ar dažādām īpašībām. Varat, piemēram, likt attālumu starp klasteri i + j un kādu citu klasteru k vienādu ar vidējo aritmētisko attālumiem starp klasteriem i un k un klasteriem j un k:

di+j,k = ½ (di k + dj k).

Bet mēs varam arī definēt di+j,k kā minimālo no šiem diviem attālumiem:

di+j,k = min (di k + dj k).

Tādējādi ir aprakstīts aglomeratīvā hierarhiskā algoritma pirmais solis. Turpmākās darbības ir līdzīgas.

Diezgan plašu algoritmu klasi var iegūt, ja attālumu pārrēķināšanai izmanto šādu vispārīgo formulu:

di+j,k = A(w) min(dik djk) + B(w) max(dik djk), kur

A(w) = ja dik £ djk

A(w) = ja dik > djk

B(w) = ja dik £ djk

B(w) = ja dik > djk

kur ni un nj ir elementu skaits klasteros i un j, un w ir brīvs parametrs, kura izvēli nosaka konkrēts algoritms. Piemēram, kad w = 1, mēs iegūstam tā saukto “vidējā savienojuma” algoritmu, kuram attālumu pārrēķina formula ir šāda:

di+j,k =

Šajā gadījumā attālums starp diviem klasteriem katrā algoritma solī izrādās vienāds ar vidējo aritmētisko attālumiem starp visiem tādiem elementu pāriem, ka viens pāra elements pieder vienam klasterim, otrs citam.

Parametra w vizuālā nozīme kļūst skaidra, ja ievietojam w®¥. Attālumu pārrēķina formula ir šāda:

di+j,k = min (di,k djk)

Šis būs tā sauktais “tuvākā kaimiņa” algoritms, kas ļauj identificēt jebkuras sarežģītas formas klasterus, ar nosacījumu, ka šādu klasteru dažādās daļas ir savienotas ar elementu ķēdēm, kas atrodas tuvu viena otrai. Šajā gadījumā attālums starp diviem klasteriem katrā algoritma solī izrādās vienāds ar attālumu starp diviem tuvākajiem elementiem, kas pieder pie šiem diviem klasteriem.

Diezgan bieži tiek pieņemts, ka ir norādīti sākotnējie attālumi (atšķirības) starp grupējamajiem elementiem. Dažās problēmās tas patiešām ir taisnība. Tomēr ir norādīti tikai objekti un to raksturlielumi, un, pamatojoties uz šiem datiem, tiek veidota attāluma matrica. Atkarībā no tā, vai tiek aprēķināti attālumi starp objektiem vai starp objektu īpašībām, tiek izmantotas dažādas metodes.

Objektu klasteru analīzes gadījumā visizplatītākais atšķirības mērs ir vai nu Eiklīda attāluma kvadrāts.

(kur xih, xjh ir h-tās pazīmes vērtības i-tajam un j-tajam objektam, un m ir raksturlielumu skaits), vai pats Eiklīda attālums. Ja pazīmēm ir piešķirti dažādi svari, tad šos svarus var ņemt vērā, aprēķinot attālumu

Dažreiz attālums tiek izmantots kā starpības mērs, ko aprēķina, izmantojot formulu:

kuras sauc: "Hamming", "Manhattan" vai "pilsētas kvartāla" attālums.

Dabisks objektu raksturlielumu līdzības mērs daudzos uzdevumos ir korelācijas koeficients starp tiem

kur mi, mj, di, dj ir attiecīgi raksturlielumu i un j vidējās un standarta novirzes. Raksturlielumu atšķirības mērs var būt vērtība 1 - r. Dažās problēmās korelācijas koeficienta zīme ir nenozīmīga un ir atkarīga tikai no mērvienības izvēles. Šajā gadījumā ô1 - ri j ô izmanto kā raksturlielumu atšķirības mēru

1.5. Klasteru skaits.

Ļoti svarīgs jautājums ir vajadzīgā klasteru skaita izvēles problēma. Dažreiz jūs varat izvēlēties m klasteru skaitu a priori. Tomēr vispārīgā gadījumā šis skaitlis tiek noteikts kopas sadalīšanas procesā klasteros.

Tika veikts Fortier un Solomon pētījums, un tika noteikts, ka ir jāpieņem klasteru skaits, lai sasniegtu varbūtību, ka tiek atrasts labākais nodalījums. Tādējādi optimālais nodalījumu skaits ir visu iespējamo starpsienu kopas labāko vai kaut kādā ziņā pieļaujamo nodalījumu dotās daļas b funkcija. Jo lielāka ir pieļaujamo starpsienu proporcija b, jo lielāka ir kopējā izkliede. Fortier un Solomon izstrādāja tabulu, ko var izmantot, lai atrastu nepieciešamo sadalījumu skaitu. S(a,b) atkarībā no a un b (kur a ir labākā nodalījuma atrašanas varbūtība, b ir labāko nodalījumu daļa no kopējā nodalījumu skaita) Turklāt neviendabīguma mērs nav izkliedi, bet Holzengera un Harmana ieviestais dalības mērs. S(a,b) vērtību tabula ir dota zemāk.

Vērtību tabula S(a,b)

ba 0.20 0.10 0.05 0.01 0.001 0.0001
0.20 8 11 14 21 31 42
0.10 16 22 29 44 66 88
0.05 32 45 59 90 135 180
0.01 161 230 299 459 689 918
0.001 1626 2326 3026 4652 6977 9303
0.0001 17475 25000 32526 55000 75000 100000

Diezgan bieži apvienošanas kritērijs (klasteru skaits) ir attiecīgās funkcijas maiņa. Piemēram, noviržu summa kvadrātā:

Grupēšanas procesam šeit jāatbilst konsekventam minimālajam kritērija E vērtības pieaugumam. Strauju E vērtības lēcienu var interpretēt kā raksturīgu klasteru skaitu, kas objektīvi pastāv pētāmajā populācijā.

Tātad, otrs veids, kā noteikt labāko klasteru skaitu, ir saistīts ar lēcienu identificēšanu, ko nosaka fāzes pāreja no stingri saistītā uz vāji saistītu objektu stāvokli.

1.6 Dendogrammas.

Vispazīstamākā attāluma vai līdzības matricas attēlošanas metode ir balstīta uz ideju par dendogrammu vai koka diagrammu. Dendogrammu var definēt kā secīgas klasterizācijas procesa rezultātu grafisku attēlojumu, kas tiek veikts attāluma matricas izteiksmē. Izmantojot dendogrammu, varat grafiski vai ģeometriski attēlot klasterizācijas procedūru, ja šī procedūra darbojas tikai uz attāluma vai līdzības matricas elementiem.

Ir daudz veidu, kā izveidot dendogrammas. Dendogrammā objekti atrodas vertikāli kreisajā pusē, klasterizācijas rezultāti atrodas labajā pusē. Attāluma vai līdzības vērtības, kas atbilst jaunu klasteru struktūrai, ir attēlotas pa horizontālu līniju dendogrammu augšpusē.

1. attēlā parādīts viens dendogrammas piemērs. 1. attēls atbilst sešu objektu (n=6) un k raksturlielumu (iezīmju) gadījumam. Objekti A un C ir vistuvākie, un tāpēc tie tiek apvienoti vienā klasterī tuvuma līmenī 0,9. Objekti D un E ir apvienoti 0.8 līmenī. Tagad mums ir 4 klasteri:

Dendogrammas veids ir atkarīgs no līdzības mēra vai attāluma starp objektu un kopu un klasterizācijas metodes izvēles. Vissvarīgākais punkts ir līdzības mēra vai attāluma mēra izvēle starp objektu un kopu.

Klasteru analīzes algoritmu skaits ir pārāk liels. Tos visus var iedalīt hierarhiskajos un nehierarhiskajos.

Hierarhiskie algoritmi ir saistīti ar dendogrammu konstruēšanu un tiek iedalīti:

a) aglomeratīvs, ko raksturo sākotnējo elementu secīga kombinācija un atbilstošs klasteru skaita samazinājums;

b) dalāms (dalāms), kurā klasteru skaits palielinās, sākot no viena, kā rezultātā veidojas sadalošo grupu secība.

Klasteru analīzes algoritmiem mūsdienās ir laba programmatūras realizācija, kas ļauj atrisināt vislielākās dimensijas problēmas.

1.7 Dati

Klasteru analīzi var izmantot intervālu datiem, frekvencēm un binārajiem datiem. Ir svarīgi, lai mainīgie lielumi atšķirtos salīdzināmās skalās.

Mērvienību neviendabīgums un no tā izrietošā neiespējamība pareizi izteikt dažādu rādītāju vērtības vienā un tajā pašā skalā noved pie tā, ka attālumi starp punktiem, kas atspoguļo objektu atrašanās vietu to īpašību telpā, izrādās atkarīgi no patvaļīgi izvēlēta skala. Lai novērstu avota datu mērījumu neviendabīgumu, visas to vērtības ir iepriekš normalizētas, t.i. tiek izteiktas ar šo vērtību attiecību pret noteiktu vērtību, kas atspoguļo noteiktas rādītāja īpašības. Sākotnējo datu normalizēšana klasteru analīzei dažreiz tiek veikta, dalot sākotnējās vērtības ar atbilstošo rādītāju standarta novirzi. Vēl viens veids ir aprēķināt tā saukto standartizēto iemaksu. To sauc arī par Z-ieguldījumu.

Z-ieguldījums parāda, cik standarta novirzes atdala konkrēto novērojumu no vidējā:

Kur xi ir šī novērojuma vērtība, ir vidējā, S ir standarta novirze.

Z-ieguldījumu vidējais lielums ir nulle, un standarta novirze ir 1.

Standartizācija ļauj salīdzināt novērojumus no dažādiem sadalījumiem. Ja mainīgā lieluma sadalījums ir normāls (vai tuvu normālam) un vidējais un dispersijas lielums ir zināms vai novērtēts no lielām izlasēm, tad novērojuma Z ieguldījums sniedz konkrētāku informāciju par tā atrašanās vietu.

Ņemiet vērā, ka standartizācijas metodes nozīmē visu pazīmju atzīšanu par līdzvērtīgām no aplūkojamo objektu līdzības noteikšanas viedokļa. Jau iepriekš minēts, ka saistībā ar ekonomiku dažādu rādītāju līdzvērtības atzīšana ne vienmēr šķiet pamatota. Būtu vēlams līdz ar standartizāciju katram no rādītājiem piešķirt svaru, kas atspoguļo tā nozīmi objektu līdzību un atšķirību noteikšanā.

Šajā situācijā ir jāizmanto atsevišķu rādītāju svaru noteikšanas metode - ekspertu aptauja. Piemēram, risinot valstu klasificēšanas problēmu pēc ekonomiskās attīstības līmeņa, tika izmantoti 40 vadošo Maskavas ekspertu aptaujas rezultāti par attīstīto valstu problēmām desmit ballu skalā:

vispārinātie sociāli ekonomiskās attīstības rādītāji – 9 punkti;

nodarbināto iedzīvotāju sektorālā sadalījuma rādītāji – 7 punkti;

algota darbaspēka izplatības rādītāji – 6 punkti;

produktīvo spēku cilvēcisko elementu raksturojošie rādītāji – 6 punkti;

materiālo produktīvo spēku attīstības rādītāji – 8 punkti;

valdības izdevumu rādītājs – 4 punkti;

“militāri ekonomiskie” rādītāji – 3 punkti;

sociāli demogrāfiskie rādītāji – 4 punkti.

Ekspertu vērtējumi bija samērā stabili.

Ekspertu vērtējumi sniedz noteiktu pamatu, lai noteiktu kādā indikatoru grupā iekļauto rādītāju nozīmi. Rādītāju normalizēto vērtību reizināšana ar koeficientu, kas atbilst vidējam novērtējuma rezultātam, ļauj aprēķināt attālumus starp punktiem, kas atspoguļo valstu stāvokli daudzdimensiju telpā, ņemot vērā to īpašību nevienlīdzīgo svaru.

Diezgan bieži, risinot šādas problēmas, tiek izmantots nevis viens, bet divi aprēķini: pirmais, kurā visi raksturlielumi tiek uzskatīti par līdzvērtīgiem, otrs, kur tiem tiek piešķirts atšķirīgs svars saskaņā ar ekspertu vērtējumu vidējām vērtībām.

1.8. Klasteru analīzes pielietošana.

Apskatīsim dažus klasteru analīzes lietojumus.

Valstu sadalīšana grupās pēc attīstības līmeņa.

Tika pētītas 65 valstis pēc 31 rādītāja (nacionālais ienākums uz vienu iedzīvotāju, rūpniecībā nodarbināto iedzīvotāju īpatsvars %, uzkrājumi uz vienu iedzīvotāju, lauksaimniecībā nodarbināto iedzīvotāju īpatsvars %, vidējais dzīves ilgums, automašīnu skaits uz 1 tūkst. iedzīvotāju, bruņoto spēku skaits uz 1 miljonu iedzīvotāju, rūpniecības IKP īpatsvars %, lauksaimniecības IKP īpatsvars % u.c.)

Katra valsts šajā apsvērumā darbojas kā objekts, ko raksturo noteiktas 31 rādītāja vērtības. Attiecīgi tos var attēlot kā punktus 31 dimensijas telpā. Šādu telpu parasti sauc par pētāmo objektu īpašību telpu. Salīdzinot attālumu starp šiem punktiem, tiks atspoguļota attiecīgo valstu tuvuma pakāpe, to līdzība viena otrai. Šīs līdzības izpratnes sociāli ekonomiskā nozīme nozīmē, ka valstis tiek uzskatītas par līdzīgākām, jo ​​mazākas ir atšķirības starp tiem pašiem rādītājiem, ar kuriem tās tiek raksturotas.

Šādas analīzes pirmais solis ir identificēt līdzības matricā ņemto nacionālo ekonomiku pāri, starp kuriem attālums ir mazākais. Tās acīmredzot būs vislīdzīgākās, līdzīgākās ekonomikas. Turpmākajā diskusijā abas šīs valstis tiek uzskatītas par vienu grupu, vienu kopu. Attiecīgi sākotnējā matrica tiek pārveidota tā, lai tās elementi kļūtu par attālumiem starp visiem iespējamiem nevis 65, bet 64 objektu pāriem - 63 ekonomikām un nesen pārveidotu klasteru - divu līdzīgāko valstu nosacītu savienību. No sākotnējās līdzības matricas tiek izņemtas rindas un kolonnas, kas atbilst attālumiem no apvienošanā iekļautā valstu pāra līdz visām pārējām, bet tiek pievienota rinda un kolonna, kas satur attālumu starp apvienošanas laikā iegūto klasteru un citām valstīm.

Tiek pieņemts, ka attālums starp jauniegūto klasteru un valstīm ir vienāds ar vidējo attālumu starp pēdējo un divām valstīm, kas veido jauno klasteru. Citiem vārdiem sakot, apvienotā valstu grupa tiek uzskatīta par veselumu ar pazīmēm, kas aptuveni vienādas ar tajā iekļauto valstu pazīmju vidējo rādītāju.

Otrais analīzes solis ir aplūkot šādi pārveidotu matricu ar 64 rindām un kolonnām. Atkal tiek identificēts ekonomiku pāris, starp kuriem attālums ir vismazākais, un tie, tāpat kā pirmajā gadījumā, tiek apvienoti. Šajā gadījumā mazākais attālums var būt starp valstu pāri vai starp jebkuru valsti un valstu asociāciju, kas iegūta iepriekšējā posmā.

Turpmākās procedūras ir līdzīgas iepriekš aprakstītajām: katrā posmā matrica tiek pārveidota tā, ka no tās tiek izslēgtas divas kolonnas un divas rindas, kas satur attālumu līdz objektiem (valstu pāriem vai asociācijām - klasteriem), kas apvienoti iepriekšējā posmā. ; izslēgtās rindas un kolonnas tiek aizstātas ar kolonnu un rindu, kas satur attālumus no jaunajiem savienojumiem līdz atlikušajiem objektiem; tad modificētajā matricā tiek identificēts tuvāko objektu pāris. Analīze turpinās, līdz matrica ir pilnībā izsmelta (tas ir, līdz visas valstis tiek apvienotas vienā veselumā). Matricas analīzes vispārīgos rezultātus var attēlot līdzības koka (dendogrammas) veidā, kas ir līdzīgs iepriekš aprakstītajam, ar vienīgo atšķirību, ka līdzības koks, kas atspoguļo visu mūsu aplūkoto 65 valstu relatīvo tuvumu, ir daudz sarežģītāka nekā diagramma, kurā redzamas tikai piecas valstu ekonomikas. Šis koks, atbilstoši salīdzināmo objektu skaitam, ietver 65 līmeņus. Pirmajā (zemākajā) līmenī ir punkti, kas atbilst katrai valstij atsevišķi. Šo divu punktu savienošana otrajā līmenī parāda valstu pāri, kas ir vistuvāk vispārējā tautsaimniecības veida ziņā. Trešajā līmenī tiek atzīmēta nākamā līdzīgā valstu pāru attiecība (kā jau minēts, šī attiecība var ietvert vai nu jaunu valstu pāri, vai arī jaunu valsti un jau identificētu līdzīgu valstu pāri). Un tā tālāk līdz pēdējam līmenim, kurā visas pētītās valstis darbojas kā vienots kopums.

Klasteru analīzes rezultātā tika iegūtas šādas piecas valstu grupas:

Afro-Āzijas grupa;

Latīņāzijas grupa;

Latīņu-Vidusjūras grupa;

attīstīto kapitālistisko valstu grupa (izņemot ASV)

Jaunu rādītāju ieviešana ārpus šeit izmantotā 31 rādītāja vai to aizstāšana ar citiem, protams, noved pie izmaiņām valstu klasifikācijas rezultātos.

2. Valstu iedalījums pēc kultūras līdzības kritērija.

Kā zināms, mārketingā ir jāņem vērā valstu kultūra (paražas, tradīcijas utt.).

Izmantojot klasterus, tika iegūtas šādas valstu grupas:

arābu;

Tuvie Austrumi;

skandināvu;

vāciski runājošs;

angliski runājošs;

romānikas eiropietis;

Latīņamerikānis;

Tālie Austrumi.

3. Cinka tirgus apstākļu prognozes izstrāde.

Klasteranalīzei ir liela nozīme preču tirgus ekonomiskā un matemātiskā modeļa samazināšanas posmā, palīdzot atvieglot un vienkāršot skaitļošanas procedūras, nodrošinot iegūto rezultātu lielāku kompaktumu, vienlaikus saglabājot nepieciešamo precizitāti. Klasteru analīzes izmantošana ļauj sadalīt visu sākotnējo tirgus rādītāju kopu grupās (klasteros) pēc atbilstošiem kritērijiem, tādējādi atvieglojot reprezentatīvāko rādītāju izvēli.

Klasteru analīze tiek plaši izmantota, lai modelētu tirgus apstākļus. Praksē lielākā daļa prognozēšanas problēmu balstās uz klasteru analīzes izmantošanu.

Piemēram, cinka tirgus prognozes izstrādes uzdevums.

Sākotnēji tika atlasīti 30 galvenie pasaules cinka tirgus rādītāji:

X1 - laiks

Ražošanas rādītāji:

X2 - pasaulē

X4 - Eiropa

X5 - Kanāda

X6 - Japāna

X7 - Austrālija

Patēriņa rādītāji:

X8 - pasaulē

X10 - Eiropa

X11 - Kanāda

X12 - Japāna

X13 - Austrālija

Ražotāju cinka rezerves:

X14 - pasaulē

X16 - Eiropa

X17 - citas valstis

Patērētāju cinka rezerves:

X18 - ASV

X19 - Anglijā

X10 - Japānā

Cinka rūdu un koncentrātu imports (tūkst.t)

X21 - ASV

X22 - Japānā

X23 - Vācijā

Cinka rūdu un koncentrātu eksports (tūkst.t)

X24 - no Kanādas

X25 - no Austrālijas

Cinka imports (tūkstoš tonnu)

X26 - ASV

X27 - uz Angliju

X28 - Vācijā

Cinka eksports (tūkstoš tonnu)

X29 - no Kanādas

X30 - no Austrālijas

Konkrētu atkarību noteikšanai tika izmantots korelācijas un regresijas analīzes aparāts. Sakarību analīze tika veikta, pamatojoties uz pāru korelācijas koeficientu matricu. Šeit tika pieņemta hipotēze par analizēto tirgus rādītāju normālo sadalījumu. Ir skaidrs, ka rij nav vienīgais iespējamais izmantoto rādītāju attiecības rādītājs. Nepieciešamība šajā uzdevumā izmantot klasteru analīzi ir saistīta ar to, ka cinka cenu ietekmējošo rādītāju skaits ir ļoti liels. Ir nepieciešams tos samazināt vairāku šādu iemeslu dēļ:

a) pilnīgu statistikas datu trūkums par visiem mainīgajiem lielumiem;

b) strauja skaitļošanas procedūru sarežģītība, ja modelī tiek ievadīts liels skaits mainīgo;

c) regresijas analīzes metožu optimālai izmantošanai nepieciešams, lai novēroto vērtību skaits vismaz 6-8 reizes pārsniedz mainīgo lielumu skaitu;

d) vēlme modelī izmantot statistiski neatkarīgus mainīgos u.c.

Ir ļoti grūti veikt šādu analīzi tieši uz salīdzinoši apgrūtinošas korelācijas koeficientu matricas. Izmantojot klasteru analīzi, visu tirgus mainīgo kopumu var iedalīt grupās tā, lai katra klastera elementi būtu cieši savstarpēji saistīti, un dažādu grupu pārstāvjiem ir raksturīga vāja korelācija.

Lai atrisinātu šo problēmu, tika izmantots viens no aglomeratīvās hierarhiskās klasteru analīzes algoritmiem. Katrā solī klasteru skaits tiek samazināts par vienu, pateicoties optimālai, noteiktā nozīmē divu grupu kombinācijai. Apvienošanas kritērijs ir attiecīgās funkcijas maiņa. Kā šādu funkciju mēs izmantojām kvadrātu noviržu summu vērtības, kas aprēķinātas, izmantojot šādas formulas:

(j = 1, 2, …, m),

kur j ir klastera numurs, n ir elementu skaits klasterī.

rij - pāra korelācijas koeficients.

Tādējādi grupēšanas procesam jāatbilst E kritērija vērtības secīgam minimālajam pieaugumam.

Pirmajā posmā sākotnējais datu masīvs tiek parādīts kā kopa, kas sastāv no klasteriem, katrs ietver vienu elementu. Grupēšanas process sākas ar šāda klasteru pāra kombināciju, kas noved pie minimāla noviržu kvadrāta summas pieauguma. Tam ir jānovērtē katras iespējamās klasteru kombinācijas novirzes vērtību summa kvadrātā. Nākamajā posmā tiek ņemtas vērā noviržu kvadrātu summu vērtības klasteriem utt. Šis process kādā posmā tiks apturēts. Lai to izdarītu, jums jāuzrauga noviržu kvadrātā summas vērtība. Ņemot vērā pieaugošo vērtību secību, var uztvert lēcienu (vienu vai vairākus) tās dinamikā, ko var interpretēt kā pētāmajā populācijā “objektīvi” esošo grupu skaita īpašību. Dotajā piemērā lēcieni notika, kad klasteru skaits bija 7 un 5. Grupu skaitu nevajadzētu vēl vairāk samazināt, jo tas noved pie modeļa kvalitātes pazemināšanās. Pēc klasteru iegūšanas tiek atlasīti ekonomiski svarīgākie un ar izvēlēto tirgus situācijas kritēriju visciešāk saistītie mainīgie - šajā gadījumā ar Londonas metālu biržas cinka kotācijām. Šī pieeja ļauj mums saglabāt ievērojamu daļu informācijas, kas ietverta sākotnējā tirgus indikatoru komplektā.

Terminu “klasteranalīze” pirmo reizi izmantoja amerikāņu psihologs Roberts Trions savā darbā ar tādu pašu nosaukumu 1930. gadā. Neskatoties uz to, termini “klasteris” un “klasteru analīze” dzimtā valoda tiek uztverti kā jauni, kā atzīmēja Aleksandrs Hroļenko, kurš veica leksēmas “klasteris” lietojuma korpusa analīzi: “lielākā daļa autoru, kas lieto šo terminu, pievērš uzmanību. tā novitātei” (Hroļenko , 2016, 106. lpp.)

Klasteru analīze ietver daudz dažādu klasifikācijas algoritmu, kuru mērķis ir sakārtot informāciju klasteros. Ir svarīgi atcerēties, ka klasteru analīze nav konkrēts algoritms pats par sevi, bet gan problēma, kas ir jāatrisina. Savā darbā “Lineārās hierarhijas trūkums” Marks Ereshefsky atzīmē, ka klasteru analīze ir viens no trim apkārtējās pasaules objektu klasifikācijas veidiem, kā arī esenciālisms un vēsturiskā klasifikācija.

Lingvistikā klastera apraksta princips papildus šajā klasterī iekļauto vienību analīzei nozīmē arī tajās esošo attiecību analīzi. Tie var būt savienojumi dažādos līmeņos: no loģiskiem (piemēram, paradigmatiskiem un sintagmatiskiem) līdz vārdu veidošanas un fonētiskajiem savienojumiem.

F. Brauns identificē šādas klasteru analīzes darbības (Brauns):

  • 1. Pasākuma izvēle un nepieciešamo mērījumu, kritēriju vai klasificējamo vienību sagatavošana
  • 2. Līdzības mēra iestatīšana
  • 3. Noteikumu formulēšana klasteru veidošanās secības noteikšanai
  • 4. Noteikumu piemērošana klasteru veidošanai

Jāatzīmē, ka trešais punkts rada jautājumus, jo klasterizācijas kā klasifikācijas metodes atšķirīgā iezīme ir noteiktu klašu trūkums. Dokumentu klasterizācija ir informācijas izguves uzdevums. Atšķirībā no teksta kategorizēšanas, tas neietver iepriekš definētas kategorijas vai apmācības kopu. Klasteri un to savstarpējās attiecības tiek “automātiski iegūtas no dokumentiem, un dokumenti tiek secīgi piešķirti šīm kopām” (Golub, 52.-53. lpp.) Marks Ereshefsky ievieš klasteru analīzi kā klasifikācijas metodi. Viņš uzskata, ka "visu klasteru analīzes veidu pamatā ir divi pieņēmumi: taksonomiskās grupas dalībniekiem ir jābūt kopīgām pazīmēm, un šīs pazīmes nevar parādīties visās vai tikai vienā šīs grupas loceklī." (Ereshefsky, 15. lpp.)

Savā darbā “Klasteru pieeja lingvistiskajā analīzē” (Nurgalieva, 2013) N.Kh. Nurgalieva identificē četrus galvenos klasteru analīzes uzdevumus:

  • 1. Tipoloģijas vai klasifikācijas izstrāde
  • 2. Noderīgu konceptuālo shēmu izpēte objektu grupēšanai
  • 3. Uz pētāmajiem datiem balstītu hipotēžu izklāsts
  • 4. Hipotēžu vai pētījumu pārbaude, lai noteiktu, vai tā vai citādi identificētie veidi (grupas) patiešām ir pieejami pieejamajos datos.

Visas klasteru analīzes metodes var iedalīt “cietajā”, skaidrā klastera analīzē, kad katrs objekts vai nu pieder klasterim, vai nē, un “mīkstajā”, izplūdušajā klasteru analīzē, kad katrs objekts pieder kādai grupai ar noteiktu klasteru analīzi. varbūtība.

Klasteru analīzes metodes tiek iedalītas arī hierarhiskās un nehierarhiskās. Hierarhiskās metodes atšķirībā no nehierarhiskām metodēm nozīmē ligzdotu grupu klātbūtni. Nurgalijeva atzīmē, ka hierarhiskā metode "šķiet vispiemērotākā lingvistisko problēmu risināšanai" (Nurgalieva, 1. lpp.), jo tā ļauj redzēt un analizēt pētāmās parādības struktūru.