Clusteranalyse. Referenzliste Methoden der Clusteranalyse

Bietet eine zeitgemäße und wichtige Einführung in die Fuzzy-Cluster-Analyse, ihre Methoden und Anwendungen. Beschreibt systematisch verschiedene Fuzzy-Clustering-Techniken, damit der Leser die Methode auswählen kann, die für die Lösung seines Problems am besten geeignet ist. Es gibt eine gute und sehr umfassende Literaturübersicht zum Thema der Studie, Bilderkennung, Beschichtungsklassifizierung, Datenanalyse und Regelableitung. Die Beispiele sind sehr anschaulich und überzeugend. Die Ergebnisse wurden getestet.
Dies ist das ausführlichste Buch zum Thema Fuzzy-Clustering und wird daher Informatikern, Mathematikern und Ingenieuren empfohlen – allen, die sich mit Datenanalyse und Bildverarbeitung befassen. Es wird auch für Studierende nützlich sein, die eine Karriere im Bereich Informatik anstreben.

Stichworte,

Die Arbeit widmet sich einer der Methoden der Mustererkennungstheorie – der Clusteranalyse.

Die Hauptideen der Clusteranalyse werden in prägnanter Form dargestellt und einige Anwendungsbereiche in der Bergbauforschung aufgezeigt. Die beschriebenen Clustering-Methoden können bei realen Problemen eingesetzt werden. Die Algorithmen decken den rechnerischen Teil hinreichend detailliert ab.

Obwohl die Clusteranalyse ein wirksames und praktisches Klassifizierungsinstrument ist und auch in der praktischen Forschung weit verbreitet ist, gibt es zu diesem Thema nur sehr wenige Veröffentlichungen auf Russisch und die vorhandenen sind nicht aussagekräftig. Diese Broschüre beleuchtet einige der grundlegenden Probleme der Clusteranalyse.

Für Forscher, Dissertationskandidaten und Spezialisten, die auf dem Gebiet der multivariaten statistischen Analyse tätig sind.

Stichworte,

Das Thema des Buches ist ein Überblick über den Stand der Theorie und Praxis der Anwendung der „Clusteranalyse“. Diese Methode verfügt über alle Vorteile der Methode der kombinatorischen Gruppierung, ist jedoch nicht frei von ihrem Hauptnachteil – der Streuung des Materials, die breite Perspektiven für den Einsatz der betreffenden Methode in der statistischen Analyse, bei der Klassifizierung von Objekten eröffnet. in der Untersuchung von Beziehungen, Beispieltypisierung usw. Das Buch zeichnet sich durch seine Vollständigkeit, Zugänglichkeit und zusammen mit der Kürze der Präsentation aus. Das Buch richtet sich an Statistiker, Ökonomen sowie Soziologen, Demografen, Biologen und andere Spezialisten. Wiedergabe in der ursprünglichen Schreibweise des Autors der Ausgabe von 1977 (Statistikverlag).

Stichworte,

Die Forschungsthemen reichen von der Analyse der Morphologie mumifizierter Nagetiere in Neuguinea über die Untersuchung der Abstimmungsergebnisse von US-Senatoren, von der Analyse der Verhaltensfunktionen gefrorener Kakerlaken beim Auftauen bis hin zur Untersuchung der geografischen Verbreitung bestimmter Flechtenarten in Saskatchewan.

Diese Explosion an Veröffentlichungen hatte enorme Auswirkungen auf die Entwicklung und Anwendung der Clusteranalyse. Aber leider gibt es auch negative Seiten. Das schnelle Wachstum von Veröffentlichungen zur Clusteranalyse hat zur Bildung von Benutzergruppen und infolgedessen zur Schaffung von Fachjargon geführt, der nur von den Gruppen verwendet wird, die ihn erstellt haben (Blashfield und Aldenderfer, 1978; Blashfield, 1980).

Die Bildung von Fachjargon durch Sozialwissenschaftler wird beispielsweise durch die vielfältige Terminologie belegt, die mit Wards Methode verbunden ist. Die „Ward-Methode“ wird in der Literatur unterschiedlich bezeichnet. Mindestens vier weitere Namen sind bekannt: „Methode der minimalen Varianz“, „Methode der Fehlerquadratsumme“, „Hierarchische Gruppierungsminimierung“ und „HGROUP“. Die ersten beiden Namen beziehen sich einfach auf das Kriterium, dessen Optimum in der Ward-Methode bestimmt wird, während sich der dritte auf die Summe der quadratischen Fehler bezieht, die eine monotone Transformation der Spur der Matrix W, der Kovarianzmatrix innerhalb der Gruppe, ist. Schließlich ist der häufig verwendete Name „HGROUP“ der Name eines beliebten Computerprogramms, das Wards Methode implementiert (Veldman, 1967).

Jargon behindert die Entwicklung interdisziplinärer Kommunikation, verhindert einen effektiven Vergleich der Methodik und Ergebnisse der Anwendung der Clusteranalyse in verschiedenen Wissenschaftsbereichen, führt zu unnötigem Aufwand (Neuerfinden derselben Algorithmen) und hindert schließlich neue Benutzer daran, die ihnen zur Verfügung stehenden Methoden tiefgreifend zu verstehen gewählt (Blashfield und Aldenderfer, 1978). Beispielsweise verglichen die Autoren einer sozialwissenschaftlichen Studie (Rogers und Linden, 1973) drei verschiedene Clustering-Methoden unter Verwendung derselben Daten. Sie nannten diese Methoden wie folgt: „hierarchische Gruppierung“, „hierarchisches Clustering oder HCG“ und „Clusteranalyse“. Und keiner dieser Namen war den Clustering-Methoden bekannt. Ein unerfahrener Benutzer von Cluster-Analyseprogrammen wird durch alle vorhandenen Namen verwirrt sein und nicht in der Lage sein, sie mit anderen Beschreibungen von Clustering-Methoden in Verbindung zu bringen. Erfahrene Nutzer werden sich beim Vergleich ihrer Recherche mit ähnlichen Arbeiten in einer schwierigen Lage befinden. Wir gehen vielleicht bis zum Äußersten, aber der Fachjargon ist ein ernstes Problem.

In den letzten Jahren hat sich die Entwicklung der Clusteranalyse etwas verlangsamt, gemessen an der Anzahl der Veröffentlichungen und der Anzahl der Disziplinen, in denen diese Methode eingesetzt wird. Wir können sagen, dass Psychologie, Soziologie, Biologie, Statistik und einige technische Disziplinen derzeit in die Phase der Konsolidierung in Bezug auf die Clusteranalyse eintreten.

Die Zahl der Artikel, die die Vorzüge der Clusteranalyse loben, nimmt allmählich ab. Gleichzeitig gibt es immer häufiger Arbeiten, in denen die Anwendbarkeit verschiedener Clustering-Methoden auf Kontrolldaten verglichen wird. Auch in der Literatur finden Anwendungen mehr Beachtung. Viele Studien zielen darauf ab, praktische Maßnahmen zu entwickeln, um die Validität der mithilfe der Clusteranalyse erzielten Ergebnisse zu überprüfen. All dies deutet auf ernsthafte Versuche hin, eine vernünftige statistische Theorie der Clustering-Methoden zu entwickeln.


Das Senden Ihrer guten Arbeit an die Wissensdatenbank ist ganz einfach. Nutzen Sie das untenstehende Formular

Studierende, Doktoranden und junge Wissenschaftler, die die Wissensbasis in ihrem Studium und ihrer Arbeit nutzen, werden Ihnen sehr dankbar sein.

Einführung

1. Geschichte der „Clusteranalyse“

2. Terminologie

2.1Objekt und Funktion

2.2Abstand zwischen Objekten (metrisch)

2.3 Dichte und Lokalität von Clustern

2.4 Abstand zwischen Clustern

3. Gruppierungsmethoden

3.1Merkmale hierarchischer Agglomerationsmethoden

3.2Merkmale iterativer Clustering-Methoden

4. Feature-Clustering

5. Stabilität und Qualität des Clusterings

Literaturverzeichnis

EINFÜHRUNG

„Bei der Clusteranalyse handelt es sich um eine Reihe mathematischer Methoden, die dazu dienen, Gruppen von Objekten zu bilden, die relativ „entfernt“ voneinander und „nahe“ beieinander sind, basierend auf Informationen über Abstände oder Verbindungen (Nähemaße) zwischen ihnen. Die Bedeutung ist ähnlich den Begriffen: automatische Klassifizierung, Taxonomie, Mustererkennung ohne Lehrer.“ Diese Definition der Clusteranalyse ist in der neuesten Ausgabe des Statistical Dictionary enthalten. Tatsächlich ist „Clusteranalyse“ ein allgemeiner Name für eine ziemlich große Menge von Algorithmen, die zur Erstellung einer Klassifizierung verwendet werden. In einer Reihe von Veröffentlichungen werden auch Synonyme für Clusteranalysen wie Klassifizierung und Partitionierung verwendet. Die Clusteranalyse wird in der Wissenschaft häufig als Mittel zur typologischen Analyse eingesetzt. In jeder wissenschaftlichen Tätigkeit ist die Klassifizierung einer der grundlegenden Bestandteile, ohne die die Konstruktion und Prüfung wissenschaftlicher Hypothesen und Theorien unmöglich ist. Daher besteht mein Hauptziel in meiner Arbeit darin, die Fragen der Clusteranalyse (die Grundlagen der Clusteranalyse) zu betrachten, ihre Terminologie zu betrachten und einige Beispiele für die Verwendung dieser Methode bei der Datenverarbeitung zu nennen.

1. GESCHICHTE DER „CLUSTERANALYSE“

Eine Analyse in- und ausländischer Publikationen zeigt, dass die Clusteranalyse in den unterschiedlichsten wissenschaftlichen Bereichen eingesetzt wird: Chemie, Biologie, Medizin, Archäologie, Geschichte, Geographie, Wirtschaftswissenschaften, Philologie usw. Das Buch von V. V. Nalimov „Probabilistic Model of Language“ beschreibt die Verwendung der Clusteranalyse bei der Untersuchung von 70 analytischen Proben. Der Großteil der Literatur zur Clusteranalyse ist in den letzten drei Jahrzehnten erschienen, obwohl die ersten Arbeiten, in denen Clustermethoden erwähnt wurden, schon vor ziemlich langer Zeit erschienen sind. Der polnische Anthropologe K. Czekanovsky stellte die Idee der „strukturellen Klassifizierung“ vor, die die Hauptidee der Clusteranalyse enthielt – die Identifizierung kompakter Objektgruppen.

Im Jahr 1925 wurde der sowjetische Hydrobiologe P.V. Terentyev entwickelte die sogenannte „Methode der Korrelationsgalaxien“, mit der korrelierende Merkmale gruppiert werden sollen. Diese Methode gab den Anstoß für die Entwicklung von Gruppierungsmethoden mithilfe von Diagrammen. Der Begriff „Clusteranalyse“ wurde erstmals von Trion vorgeschlagen. Das Wort „Cluster“ wird aus dem Englischen als „Haufen, Pinsel, Haufen, Gruppe“ übersetzt. Aus diesem Grund wurde diese Art der Analyse zunächst „Bündelanalyse“ genannt. In den frühen 50er Jahren erschienen Veröffentlichungen von R. Lewis, E. Fix und J. Hodges zu hierarchischen Algorithmen für die Clusteranalyse. Einen spürbaren Impuls für die Entwicklung der Arbeit zur Clusteranalyse gab R. Rosenblatts Arbeit an einem Erkennungsgerät (Perzeptron), das den Grundstein für die Entwicklung der Theorie der „Mustererkennung ohne Lehrer“ legte.

Den Anstoß für die Entwicklung von Clustering-Methoden gab das 1963 erschienene Buch „Principles of Numerical Taxonomy“. zwei Biologen – Robert Sokal und Peter Sneath. Die Autoren dieses Buches gingen davon aus, dass das Clustering-Verfahren zur Erstellung wirksamer biologischer Klassifikationen die Verwendung verschiedener Indikatoren zur Charakterisierung der untersuchten Organismen sicherstellen, den Grad der Ähnlichkeit zwischen diesen Organismen bewerten und die Platzierung ähnlicher Organismen sicherstellen muss in derselben Gruppe. In diesem Fall müssen die gebildeten Gruppen ausreichend „lokal“ sein, d. h. Die Ähnlichkeit von Objekten (Organismen) innerhalb von Gruppen muss größer sein als die Ähnlichkeit von Gruppen untereinander. Durch eine anschließende Analyse der identifizierten Gruppen lässt sich laut den Autoren feststellen, ob diese Gruppen unterschiedlichen biologischen Arten entsprechen. Sokal und Snit gingen daher davon aus, dass die Identifizierung der Struktur der Verteilung von Objekten in Gruppen dabei hilft, den Prozess der Bildung dieser Strukturen zu bestimmen. Und die Unterschiede und Ähnlichkeiten zwischen Organismen verschiedener Cluster (Gruppen) können als Grundlage für das Verständnis des abgelaufenen Evolutionsprozesses und die Aufklärung seines Mechanismus dienen.

In denselben Jahren wurden viele Algorithmen von Autoren wie J. McKean, G. Ball und D. Hall unter Verwendung von k-means-Methoden vorgeschlagen; G. Lance und W. Williams, N. Jardine und andere – unter Verwendung hierarchischer Methoden. Auch einheimische Wissenschaftler leisteten einen wesentlichen Beitrag zur Entwicklung von Clusteranalysemethoden – E. M. Braverman, A. A. Dorofeyuk, I. B. Muchnik, L. A. Rastrigin, Yu. I. Zhuravlev, I. I. Eliseeva und andere. Insbesondere in den 60er und 70er Jahren. Zahlreiche Algorithmen, die von den Nowosibirsker Mathematikern N. G. Zagoruiko, V. N. Elkina und G. S. Lbov entwickelt wurden, erfreuten sich großer Beliebtheit. Dies sind so bekannte Algorithmen wie FOREL, BIGFOR, KRAB, NTTP, DRET, TRF usw. Basierend auf diesen Paketen wurde ein spezielles OTEKS-Softwarepaket erstellt. Nicht weniger interessante Softwareprodukte PPSA und Class-Master wurden von den Moskauer Mathematikern S.A. Aivazyan, I.S. Enyukov und B.G. Mirkin entwickelt.

Clusteranalysemethoden sind in unterschiedlichem Umfang in den meisten der bekanntesten in- und ausländischen Statistikpakete verfügbar: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, SORRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S-PLUS usw. Natürlich hat sich 10 Jahre nach der Veröffentlichung dieser Rezension einiges geändert, es sind neue Versionen vieler Statistikprogramme erschienen und völlig neue Programme sind erschienen, die sowohl neue Algorithmen als auch eine stark erhöhte Rechenleistung verwenden. Die meisten Statistikpakete verwenden jedoch Algorithmen, die in den 60er und 70er Jahren vorgeschlagen und entwickelt wurden.

Nach groben Schätzungen von Experten verdoppelt sich die Zahl der Veröffentlichungen zur Clusteranalyse und ihren Anwendungen in verschiedenen Wissensgebieten alle drei Jahre. Was sind die Gründe für das große Interesse an dieser Art von Analyse? Objektiv gesehen gibt es drei Hauptgründe für dieses Phänomen. Dies ist das Aufkommen einer leistungsstarken Computertechnologie, ohne die eine Clusteranalyse realer Daten praktisch nicht umsetzbar ist. Der zweite Grund ist, dass die moderne Wissenschaft bei ihren Konstruktionen zunehmend auf Klassifikationen setzt. Darüber hinaus vertieft sich dieser Prozess immer mehr, da parallel dazu eine zunehmende Spezialisierung des Wissens stattfindet, die ohne eine ausreichend objektive Klassifizierung nicht möglich ist.

Der dritte Grund besteht darin, dass die Vertiefung des Fachwissens zwangsläufig zu einer Erhöhung der Anzahl der bei der Analyse bestimmter Objekte und Phänomene berücksichtigten Variablen führt. Dadurch erweist sich die subjektive Klassifizierung, die bisher auf einer relativ geringen Anzahl berücksichtigter Merkmale basierte, häufig als unzuverlässig. Und die objektive Klassifizierung mit einem immer größeren Satz an Objektmerkmalen erfordert den Einsatz komplexer Clustering-Algorithmen, die nur auf der Basis moderner Computer implementiert werden können. Aus diesen Gründen entstand der „Cluster-Boom“. Unter Medizinern und Biologen hat sich die Clusteranalyse jedoch noch nicht zu einer recht populären und verbreiteten Forschungsmethode entwickelt.

2 TERMINOLOGIE

2. 1 OBJEKT UND MERKMALE

Lassen Sie uns zunächst Konzepte wie Objekt und Attribut einführen. Objekt – vom lateinischen objectum – Subjekt. In Bezug auf Chemie und Biologie verstehen wir unter Objekten bestimmte Forschungsgegenstände, die mit physikalischen, chemischen und anderen Methoden untersucht werden. Solche Objekte können beispielsweise Proben, Pflanzen, Tiere usw. sein. Eine bestimmte Menge von Objekten, die dem Forscher zur Untersuchung zur Verfügung stehen, wird als Stichprobe oder Stichprobenpopulation bezeichnet. Die Anzahl der Objekte in einer solchen Grundgesamtheit wird üblicherweise als Stichprobengröße bezeichnet. Normalerweise wird die Stichprobengröße mit dem lateinischen Buchstaben „n“ oder „N“ bezeichnet.

Attribut (Synonyme – Eigenschaft, Variable, Merkmal; Englisch – Variable – Variable.) – stellt eine bestimmte Eigenschaft eines Objekts dar. Diese Eigenschaften können als numerische oder nicht numerische Werte ausgedrückt werden. Beispielsweise wird der Blutdruck (systolisch oder diastolisch) in Millimetern Quecksilbersäule, das Gewicht in Kilogramm, die Körpergröße in Zentimetern usw. gemessen. Solche Zeichen sind quantitativ. Im Gegensatz zu diesen kontinuierlichen numerischen Merkmalen (Skalen) können einige Merkmale diskrete, diskontinuierliche Werte haben. Solche diskreten Merkmale werden wiederum normalerweise in zwei Gruppen unterteilt.

1) Die erste Gruppe sind Rang- oder, wie sie auch genannt werden, Ordinalvariablen (Skalen). Solche Merkmale haben die Eigenschaft, diese Bedeutungen zu ordnen. Dazu gehören die Stadien einer bestimmten Krankheit, Altersgruppen, Wissenswerte der Schüler, eine 12-Punkte-Skala der Erdbebenstärken nach Richter usw.

2) Die zweite Gruppe diskreter Merkmale weist keine solche Reihenfolge auf und wird als nominale (vom Wort „nominal“ – Stichprobe) oder Klassifizierungsmerkmale bezeichnet. Ein Beispiel für solche Anzeichen könnte der Zustand des Patienten – „gesund“ oder „krank“, das Geschlecht des Patienten, der Beobachtungszeitraum – „vor der Behandlung“ und „nach der Behandlung“ usw. sein. In diesen Fällen ist es üblich zu sagen, dass solche Merkmale zur Benennungsskala gehören.

Die Konzepte von Objekt und Attribut werden üblicherweise als „Objekt-Eigenschaft“- oder „Objekt-Attribut“-Matrix bezeichnet. Die Matrix ist eine rechteckige Tabelle, die aus Merkmalswerten besteht, die die Eigenschaften der untersuchten Beobachtungsstichprobe beschreiben. In diesem Zusammenhang wird eine Beobachtung als separate Zeile bestehend aus den Werten der verwendeten Merkmale erfasst. Ein separates Merkmal in einer solchen Datenmatrix wird durch eine Spalte dargestellt, die aus den Werten dieses Merkmals für alle Objekte in der Stichprobe besteht.

2. 2 ABSTAND ZWISCHEN OBJEKTEN (METRIKEN)

Lassen Sie uns das Konzept des „Abstands zwischen Objekten“ einführen. Dieses Konzept ist ein integrales Maß für die Ähnlichkeit von Objekten untereinander. Der Abstand zwischen Objekten im Merkmalsraum ist ein Wert d ij, der die folgenden Axiome erfüllt:

1. d ij > 0 (nicht negativer Abstand)

2. d ij = d ji (Symmetrie)

3. d ij + d jk > d ik (Dreiecksungleichung)

4. Wenn d ij ungleich 0 ist, dann ist i ungleich j (Erkennbarkeit nicht identischer Objekte)

5. Wenn d ij = 0, dann i = j (Ununterscheidbarkeit identischer Objekte)

Es ist zweckmäßig, das Maß für die Nähe (Ähnlichkeit) von Objekten als Kehrwert des Abstands zwischen Objekten darzustellen. Zahlreiche Veröffentlichungen zur Clusteranalyse beschreiben mehr als 50 verschiedene Methoden zur Berechnung des Abstands zwischen Objekten. Neben dem Begriff „Entfernung“ findet sich in der Literatur häufig ein anderer Begriff – „metrisch“, der eine Methode zur Berechnung einer bestimmten Entfernung impliziert. Am zugänglichsten für die Wahrnehmung und das Verständnis bei quantitativen Merkmalen ist die sogenannte „Euklidische Distanz“ oder „Euklidische Metrik“. Die Formel zur Berechnung dieser Entfernung lautet:

Diese Formel verwendet die folgende Notation:

· d ij – Abstand zwischen dem i-ten und j-ten Objekt;

· x ik – numerischer Wert der k-ten Variablen für das i-te Objekt;

· x jk – numerischer Wert der k-ten Variablen für das j-te Objekt;

· v – die Anzahl der Variablen, die Objekte beschreiben.

Für den Fall v=2, wenn wir nur zwei quantitative Merkmale haben, ist der Abstand d ij also gleich der Länge der Hypotenuse des rechtwinkligen Dreiecks, das zwei Punkte im rechtwinkligen Koordinatensystem verbindet. Diese beiden Punkte entsprechen den i-ten und j-ten Beobachtungen der Stichprobe. Anstelle des üblichen euklidischen Abstands wird häufig dessen Quadrat d 2 ij verwendet. Darüber hinaus wird in einigen Fällen ein „gewichteter“ euklidischer Abstand verwendet, bei dessen Berechnung Gewichtungskoeffizienten für einzelne Terme verwendet werden. Um das Konzept der euklidischen Metrik zu veranschaulichen, verwenden wir ein einfaches Trainingsbeispiel. Die in der folgenden Tabelle dargestellte Datenmatrix besteht aus 5 Beobachtungen und zwei Variablen.

Tabelle 1

Datenmatrix aus fünf beobachteten Proben und zwei Variablen.

Mit der euklidischen Metrik berechnen wir die Matrix der Interobjektabstände, bestehend aus den Werten d ij – dem Abstand zwischen dem i-ten und j-ten Objekt. In unserem Fall sind i und j die Nummer des Objekts, der Beobachtung. Da die Stichprobengröße 5 beträgt, können i und j jeweils Werte von 1 bis 5 annehmen. Es ist auch offensichtlich, dass die Anzahl aller möglichen paarweisen Abstände 5 * 5 = 25 beträgt. Tatsächlich sind dies für das erste Objekt die folgenden Abstände: 1-1; 1-2; 1-3; 1-4; 1-5. Für Objekt 2 gibt es ebenfalls 5 mögliche Distanzen: 2-1; 2-2; 2-3; 2-4; 2-5 usw. Die Anzahl der unterschiedlichen Abstände wird jedoch weniger als 25 betragen, da die Eigenschaft der Ununterscheidbarkeit identischer Objekte berücksichtigt werden muss – d ij = 0 für i = j. Dies bedeutet, dass der Abstand zwischen Objekt Nr. 1 und demselben Objekt Nr. 1 Null sein wird. Die gleichen Nullabstände gelten für alle anderen Fälle i = j. Darüber hinaus folgt aus der Symmetrieeigenschaft, dass d ij = d ji für jedes i und j. Diese. der Abstand zwischen den Objekten Nr. 1 und Nr. 2 ist gleich dem Abstand zwischen den Objekten Nr. 2 und Nr. 1.

Der Ausdruck für die euklidische Distanz erinnert stark an die sogenannte verallgemeinerte Potenz-Minkowski-Distanz, bei der statt zwei eine andere Größe in Potenzen verwendet wird. Im Allgemeinen wird dieser Wert mit dem Symbol „p“ bezeichnet.

Wenn p = 2 ist, erhalten wir den üblichen euklidischen Abstand. Der Ausdruck für die verallgemeinerte Minkowski-Metrik hat also die Form:

Die Wahl eines bestimmten Wertes des Potenzexponenten „p“ trifft der Forscher selbst.

Ein Sonderfall der Minkowski-Distanz ist die sogenannte Manhattan-Distanz oder „City-Block-Distanz“, entsprechend p=1:

Somit ist die Manhattan-Distanz die Summe der Absolutwerte der Unterschiede zwischen den entsprechenden Merkmalen von Objekten. Wenn wir p gegen Unendlich gehen lassen, erhalten wir die „Dominanz“-Metrik oder Sup-Metrik:

was auch in der Form d ij = max| dargestellt werden kann x ik - x jk |.

Die Minkowski-Metrik ist eigentlich eine große Familie von Metriken, darunter die beliebtesten Metriken. Es gibt jedoch auch Methoden zur Berechnung des Abstands zwischen Objekten, die sich grundlegend von der Minkowski-Metrik unterscheiden. Die wichtigste davon ist die sogenannte Mahalanobis-Distanz, die ganz spezifische Eigenschaften hat. Ausdruck für diese Metrik:

Hier über X ich Und X J Die Spaltenvektoren der Variablenwerte für das i-te und j-te Objekt werden angezeigt. Symbol T im Ausdruck (X ich - X J ) T bezeichnet die sogenannte Vektortranspositionsoperation. Symbol S bezeichnet die gesamte Varianz-Kovarianz-Matrix innerhalb der Gruppe. Ein Symbol -1 über S bedeutet, dass es notwendig ist, die Matrix zu invertieren S . Im Gegensatz zur Minkowski-Metrik und der Euklidischen Metrik erfolgt die Mahalanobis-Distanz durch die Varianz-Kovarianz-Matrix S mit Korrelationen von Variablen verbunden. Wenn die Korrelationen zwischen Variablen Null sind, entspricht die Mahalanobis-Distanz dem Quadrat der euklidischen Distanz.

Bei der Verwendung dichotomer (nur zwei Werte aufweisender) qualitativer Merkmale wird häufig die Hamming-Distanz verwendet

gleich der Anzahl der Abweichungen zwischen den Werten der entsprechenden Merkmale für das betrachtete i-te und j-te Objekt.

2. 3 DICHTE UND LOKALITÄT DER CLUSTER

Das Hauptziel der Clusteranalyse besteht darin, Gruppen von einander ähnlichen Objekten in einer Stichprobe zu finden. Nehmen wir an, dass wir mit einigen der möglichen Methoden solche Gruppen – Cluster – erhalten haben. Wichtige Eigenschaften von Clustern sollten beachtet werden. Eine dieser Eigenschaften ist die Dichte der Verteilung von Punkten und Beobachtungen innerhalb des Clusters. Diese Eigenschaft ermöglicht es uns, einen Cluster als eine Ansammlung von Punkten in einem mehrdimensionalen Raum zu definieren, der im Vergleich zu anderen Bereichen dieses Raums relativ dicht ist und entweder überhaupt keine Punkte oder nur eine geringe Anzahl von Beobachtungen enthält. Mit anderen Worten: Wie kompakt ist ein gegebener Cluster, oder umgekehrt, wie dünn ist er? Trotz ausreichender Beweise für diese Eigenschaft gibt es keine eindeutige Möglichkeit, einen solchen Indikator (Dichte) zu berechnen. Der erfolgreichste Indikator zur Charakterisierung der Kompaktheit und Dichte der „Packung“ mehrdimensionaler Beobachtungen in einem bestimmten Cluster ist die Streuung der Entfernung vom Zentrum des Clusters zu einzelnen Punkten des Clusters. Je kleiner die Streuung dieser Entfernung ist, je näher die Beobachtungen am Clusterzentrum liegen, desto größer ist die Clusterdichte. Und umgekehrt: Je größer die Distanzstreuung, desto spärlicher ist der gegebene Cluster, und daher gibt es Punkte, die sich sowohl in der Nähe des Clusterzentrums als auch ziemlich weit vom Clusterzentrum entfernt befinden.

Die nächste Eigenschaft von Clustern ist ihre Größe. Der Hauptindikator für die Clustergröße ist ihr „Radius“. Diese Eigenschaft spiegelt die tatsächliche Größe des Clusters am besten wider, wenn der betreffende Cluster eine runde Form hat und eine Hypersphäre in einem mehrdimensionalen Raum ist. Wenn die Cluster jedoch längliche Formen haben, spiegelt das Konzept des Radius oder Durchmessers nicht mehr die wahre Größe des Clusters wider.

Eine weitere wichtige Eigenschaft eines Clusters ist seine Lokalität und Trennbarkeit. Es charakterisiert den Grad der Überlappung und den gegenseitigen Abstand von Clustern voneinander im mehrdimensionalen Raum. Betrachten Sie beispielsweise die Verteilung der drei Cluster im Raum neuer, integrierter Funktionen in der folgenden Abbildung. Die Achsen 1 und 2 wurden durch eine spezielle Methode aus 12 Zeichen der Reflexionseigenschaften verschiedener Formen von Erythrozyten gewonnen, die mittels Elektronenmikroskopie untersucht wurden.

Bild 1

Wir sehen, dass Cluster 1 die Mindestgröße hat und die Cluster 2 und 3 ungefähr gleich groß sind. Gleichzeitig können wir sagen, dass die minimale Dichte und damit die maximale Distanzstreuung charakteristisch für Cluster 3 ist. Darüber hinaus ist Cluster 1 durch ziemlich große Bereiche leeren Raums von Cluster 2 und Cluster 3 getrennt. Während Cluster 2 und 3 überschneiden sich teilweise. Interessant ist auch, dass Cluster 1 entlang der Achse 1 einen viel größeren Unterschied zum 2. und 3. Cluster aufweist als entlang der Achse 2. Im Gegenteil, die Cluster 2 und 3 unterscheiden sich sowohl entlang der Achse 1 als auch entlang der Achse 2 ungefähr gleich voneinander. Offensichtlich Für eine solche visuelle Analyse ist es notwendig, alle Beobachtungen der Probe auf spezielle Achsen zu projizieren, in denen die Projektionen der Clusterelemente als separate Cluster sichtbar sind.

2. 4 ABSTAND ZWISCHEN CLUSTERN

Im weiteren Sinne können Objekte nicht nur als ursprüngliche Untersuchungsobjekte verstanden werden, die in der „Objekt-Eigenschaft“-Matrix als separate Linie oder als einzelne Punkte in einem mehrdimensionalen Merkmalsraum dargestellt werden, sondern auch als separate Gruppen solcher Punkte , vereint durch den einen oder anderen Algorithmus zu einem Cluster. In diesem Fall stellt sich die Frage, wie man den Abstand zwischen solchen Punktansammlungen (Clustern) verstehen und berechnen kann. In diesem Fall gibt es noch vielfältigere Möglichkeiten als bei der Berechnung des Abstands zwischen zwei Beobachtungen in einem mehrdimensionalen Raum. Dieses Verfahren wird dadurch erschwert, dass Cluster im Gegensatz zu Punkten ein bestimmtes Volumen des mehrdimensionalen Raums einnehmen und aus vielen Punkten bestehen. In der Clusteranalyse werden häufig Interclusterabstände verwendet, die nach dem Prinzip des nächsten Nachbarn, des Schwerpunkts, des entferntesten Nachbarn und des Medians berechnet werden. Die vier am weitesten verbreiteten Methoden sind Einzelverknüpfung, vollständige Verknüpfung, mittlere Verknüpfung und die Ward-Methode. Bei der Single-Link-Methode wird ein Objekt mit einem bereits vorhandenen Cluster verbunden, wenn mindestens eines der Clusterelemente den gleichen Ähnlichkeitsgrad wie das verbundene Objekt aufweist. Bei der vollständigen Verknüpfungsmethode wird ein Objekt nur dann zu einem Cluster hinzugefügt, wenn die Ähnlichkeit zwischen einem Kandidaten für die Aufnahme und einem der Clusterelemente nicht kleiner als ein bestimmter Schwellenwert ist. Es gibt mehrere Modifikationen der durchschnittlichen Linkmethode, die einen Kompromiss zwischen Einzel- und Volllink darstellen. Sie berechnen den Durchschnittswert der Ähnlichkeit eines Aufnahmekandidaten mit allen Objekten des bestehenden Clusters. Die Verknüpfung wird durchgeführt, wenn der gefundene durchschnittliche Ähnlichkeitswert einen bestimmten Schwellenwert erreicht oder überschreitet. Am häufigsten wird der arithmetische Durchschnitt der Ähnlichkeit zwischen den Objekten des Clusters und dem Kandidaten für die Aufnahme in den Cluster verwendet.

Viele der Clustering-Methoden unterscheiden sich darin, dass ihre Algorithmen bei jedem Schritt verschiedene Partitionsqualitätsfunktionale berechnen. Die beliebte Ward-Methode wurde entwickelt, um die minimale Varianz der Intra-Cluster-Abstände zu optimieren. Im ersten Schritt besteht jeder Cluster aus einem Objekt, wodurch die Streuung der Entfernungen innerhalb des Clusters gleich 0 ist. Bei dieser Methode werden diejenigen Objekte kombiniert, die eine minimale Erhöhung der Streuung ergeben, wodurch diese Methode tendenziell dazu neigt erzeugen hypersphärische Cluster.

Wiederholte Versuche, Clusteranalysemethoden zu klassifizieren, führen zu Dutzenden oder sogar Hunderten verschiedener Klassen. Eine solche Diversität wird durch eine Vielzahl möglicher Methoden zur Berechnung des Abstands zwischen einzelnen Beobachtungen, eine ebenso große Anzahl von Methoden zur Berechnung des Abstands zwischen einzelnen Clustern im Clustering-Prozess und unterschiedliche Schätzungen der Optimalität der endgültigen Clusterstruktur erzeugt.

Am weitesten verbreitet in gängigen Statistikpaketen sind zwei Gruppen von Clusteranalysealgorithmen: hierarchische agglomerative Methoden und iterative Gruppierungsmethoden.

3. GRUPPIERUNGSMETHODEN

3. 1 MERKMALE HIERARCHISCHER AGGLOMERATIVER METHODEN

Bei agglomerativen hierarchischen Algorithmen, die in der realen biomedizinischen Forschung häufiger zum Einsatz kommen, werden zunächst alle Objekte (Beobachtungen) als separate, unabhängige Cluster betrachtet, die nur aus einem Element bestehen. Ohne den Einsatz leistungsfähiger Rechentechnik ist die Umsetzung der Clusterdatenanalyse sehr problematisch.

Die Wahl der Metrik erfolgt durch den Forscher selbst. Nach der Berechnung der Distanzmatrix beginnt der Prozess Agglomerationen (vom lateinischen agglomero – ich füge hinzu, akkumuliere), der Reihe nach Schritt für Schritt. Im ersten Schritt dieses Prozesses werden zwei Ausgangsbeobachtungen (Monokluster), zwischen denen der Mindestabstand besteht, zu einem Cluster, bestehend aus zwei Objekten (Beobachtungen), zusammengefasst. Anstelle der bisherigen N Monocluster (Cluster, die aus einem Objekt bestehen) werden also nach dem ersten Schritt N-1 Cluster vorhanden sein, von denen ein Cluster zwei Objekte (Beobachtungen) enthalten wird, und N-2 Cluster werden weiterhin nur aus nur bestehen ein Objekt. Im zweiten Schritt sind verschiedene Methoden möglich, N-2-Cluster miteinander zu kombinieren. Dies liegt daran, dass einer dieser Cluster bereits zwei Objekte enthält. Aus diesem Grund stellen sich zwei Hauptfragen:

· wie man die Koordinaten einer solchen Ansammlung von zwei (und dann mehr als zwei) Objekten berechnet;

· wie man den Abstand zu solchen „Multi-Objekt“-Clustern von „Mono-Clustern“ und zwischen „Multi-Objekt“-Clustern berechnet.

Diese Fragen bestimmen letztendlich die endgültige Struktur der endgültigen Cluster (die Struktur von Clustern bedeutet die Zusammensetzung einzelner Cluster und ihre relative Position im mehrdimensionalen Raum). Verschiedene Kombinationen von Metriken und Methoden zur Berechnung der Koordinaten und gegenseitigen Abstände von Clustern ergeben die Vielfalt der Methoden der Clusteranalyse. Im zweiten Schritt ist es abhängig von den gewählten Methoden zur Berechnung der Koordinaten eines aus mehreren Objekten bestehenden Clusters und der Methode zur Berechnung der Clusterabstände möglich, entweder zwei separate Beobachtungen wieder zu einem neuen Cluster zusammenzuführen oder eine neue Beobachtung zusammenzuführen zu einem Cluster bestehend aus zwei Objekten. Der Einfachheit halber können die meisten Programme für agglomerativ-hierarchische Methoden zwei Hauptdiagramme zur Ansicht nach Abschluss bereitstellen. Das erste Diagramm wird Dendrogramm (von griechisch dendron – Baum) genannt und spiegelt den Prozess der Agglomeration wider, die Verschmelzung einzelner Beobachtungen zu einem einzigen endgültigen Cluster. Lassen Sie uns ein Beispiel für ein Dendrogramm mit 5 Beobachtungen für zwei Variablen geben.

Zeitplan1

Die vertikale Achse eines solchen Diagramms stellt die Achse des Abstands zwischen den Clustern dar, und die horizontale Achse gibt die Anzahl der Objekte an – Fälle, die in der Analyse verwendet werden. Aus diesem Dendrogramm geht hervor, dass die Objekte Nr. 1 und Nr. 2 zunächst zu einem Cluster zusammengefasst werden, da der Abstand zwischen ihnen minimal und gleich 1 ist. Diese Verschmelzung wird im Diagramm durch eine horizontale Linie angezeigt, die die entstehenden vertikalen Segmente verbindet von den mit C_1 und C_2 gekennzeichneten Punkten. Achten wir darauf, dass die horizontale Linie selbst genau auf der Ebene des Intercluster-Abstands von 1 verläuft. Anschließend wird im zweiten Schritt das Objekt Nr. 3 mit der Bezeichnung C_3 zu diesem bereits enthaltenen Cluster hinzugefügt zwei Objekte. Im nächsten Schritt werden die Objekte Nr. 4 und Nr. 5 zusammengeführt, deren Abstand 1,41 beträgt. Und im letzten Schritt wird der Cluster der Objekte 1, 2 und 3 mit dem Cluster der Objekte 4 und 5 zusammengeführt. Die Grafik zeigt, dass der Abstand zwischen diesen beiden vorletzten Clustern (der letzte Cluster umfasst alle 5 Objekte) mehr als 5 beträgt , aber kleiner als 6, da die obere horizontale Linie, die die beiden vorletzten Cluster verbindet, auf einem Niveau von ungefähr 7 verläuft und das Verbindungsniveau der Objekte 4 und 5 gleich 1,41 ist.

Das folgende Dendrogramm wurde durch die Analyse eines realen Datenarrays bestehend aus 70 verarbeiteten chemischen Proben erhalten, von denen jede durch 12 Merkmale gekennzeichnet war.

Zeitplan 2

Die Grafik zeigt, dass im letzten Schritt, als die letzten beiden Cluster zusammengeführt wurden, der Abstand zwischen ihnen etwa 200 Einheiten beträgt. Es ist zu erkennen, dass der erste Cluster viel weniger Objekte umfasst als der zweite Cluster. Unten sehen Sie einen vergrößerten Ausschnitt des Dendrogramms, in dem die Beobachtungszahlen, bezeichnet als C_65, C_58 usw., recht deutlich sichtbar sind. (von links nach rechts): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 usw.

Grafik 3 Vergrößerter Ausschnitt der obigen Grafik Nr. 2

Man erkennt, dass es sich bei Objekt 44 um einen Monocluster handelt, der sich im vorletzten Schritt mit dem rechten Cluster vereint und im letzten Schritt alle Beobachtungen zu einem Cluster zusammengefasst werden.

Ein weiterer Graph, der in solchen Verfahren erstellt wird, ist ein Graph der Änderungen der Intercluster-Abstände bei jedem Verschmelzungsschritt. Unten finden Sie eine ähnliche Grafik für das Dendrogramm oben.

Zeitplan 4

In einer Reihe von Programmen ist es möglich, die Ergebnisse der Kombination von Objekten bei jedem Clustering-Schritt tabellarisch anzuzeigen. Um Verwirrung zu vermeiden, wird in den meisten dieser Tabellen eine unterschiedliche Terminologie verwendet, um die anfänglichen Beobachtungen – Monocluster – und die tatsächlichen Cluster, die aus zwei oder mehr Beobachtungen bestehen, zu bezeichnen. In englischsprachigen Statistikpaketen werden die ersten Beobachtungen (Zeilen der Datenmatrix) als „Case“ bezeichnet. Um die Abhängigkeit der Clusterstruktur von der Wahl der Metrik und der Wahl des Algorithmus zum Kombinieren von Clustern zu demonstrieren, präsentieren wir im Folgenden ein Dendrogramm, das dem vollständigen Verbindungsalgorithmus entspricht. Und hier sehen wir, dass Objekt Nr. 44 im allerletzten Schritt mit dem Rest der Auswahl zusammengeführt wird.

Zeitplan 5

Vergleichen wir es nun mit einem anderen Diagramm, das mit der Single-Link-Methode für dieselben Daten erstellt wurde. Im Gegensatz zur vollständigen Verbindungsmethode ist es klar, dass diese Methode lange Ketten von Objekten erzeugt, die nacheinander aneinandergefügt werden. In allen drei Fällen können wir jedoch sagen, dass es zwei Hauptgruppen gibt.

Zeitplan 6

Beachten wir auch, dass sich Objekt Nr. 44 in allen drei Fällen als Monocluster zusammenschließt, wenn auch in unterschiedlichen Schritten des Clustering-Prozesses. Die Identifizierung solcher Monocluster ist ein gutes Mittel zur Erkennung anomaler Beobachtungen, sogenannter Ausreißer. Löschen wir dieses „verdächtige“ Objekt Nr. 44 und führen wir das Clustering erneut durch. Wir erhalten das folgende Dendrogramm:

Zeitplan 7

Man erkennt, dass der „Ketten“-Effekt erhalten geblieben ist, ebenso wie die Aufteilung in zwei lokale Gruppen von Beobachtungen.

3. 2 MERKMALE ITERATIVER CLUSTERISIERUNGSMETHODEN

Unter den iterativen Methoden ist die k-means-Methode von McKean die beliebteste Methode. Im Gegensatz zu hierarchischen Methoden muss bei den meisten Implementierungen dieser Methode der Benutzer selbst die erforderliche Anzahl der endgültigen Cluster angeben, die üblicherweise mit „k“ bezeichnet wird. Wie bei hierarchischen Clustering-Methoden kann der Benutzer den einen oder anderen Metriktyp auswählen. Verschiedene Algorithmen der k-means-Methode unterscheiden sich auch in der Art und Weise, wie sie die Anfangszentren der angegebenen Cluster auswählen. In einigen Versionen der Methode kann (oder muss) der Benutzer selbst solche Anfangspunkte angeben, indem er sie entweder aus realen Beobachtungen auswählt oder indem er die Koordinaten dieser Punkte für jede der Variablen angibt. In anderen Implementierungen dieser Methode wird eine bestimmte Anzahl k von Anfangspunkten zufällig ausgewählt und diese Anfangspunkte (Cluster-Seeds) können anschließend in mehreren Stufen verfeinert werden. Es gibt 4 Hauptphasen solcher Methoden:

· k Beobachtungen werden als primäre Zentren der Cluster ausgewählt oder zugewiesen;

· Bei Bedarf werden Zwischencluster gebildet, indem jede Beobachtung den nächstgelegenen angegebenen Clusterzentren zugeordnet wird.

· Nach der Zuordnung aller Beobachtungen zu einzelnen Clustern werden die primären Clusterzentren durch Clusterdurchschnitte ersetzt.

· Die vorherige Iteration wird wiederholt, bis die Änderungen in den Koordinaten der Clusterzentren minimal werden.

In einigen Varianten dieser Methode kann der Benutzer einen numerischen Wert des Kriteriums angeben, der als Mindestabstand für die Auswahl neuer Clusterzentren interpretiert wird. Eine Beobachtung wird nicht als Kandidat für ein neues Clusterzentrum betrachtet, wenn ihr Abstand zum ersetzten Clusterzentrum die angegebene Zahl überschreitet. In einigen Programmen wird dieser Parameter „Radius“ genannt. Zusätzlich zu diesem Parameter besteht die Möglichkeit, die maximale Anzahl der Iterationen festzulegen oder eine bestimmte, meist recht kleine Zahl zu erreichen, mit der die Abstandsänderung für alle Clusterzentren verglichen wird. Dieser Parameter wird normalerweise als „Konvergenz“ bezeichnet, weil spiegelt die Konvergenz des iterativen Clustering-Prozesses wider. Nachfolgend präsentieren wir einige der Ergebnisse, die mit der McKean-k-means-Methode für frühere Daten erzielt wurden. Die Anzahl der benötigten Cluster wurde zunächst auf 3 und dann auf 2 festgelegt. Der erste Teil enthält die Ergebnisse einer einseitigen Varianzanalyse, bei der die Clusteranzahl als Gruppierungsfaktor fungiert. Die erste Spalte enthält eine Liste von 12 Variablen, gefolgt von Quadratsummen (SS) und Freiheitsgraden (df), dann Fisher's F-Test und in der letzten Spalte das erreichte Signifikanzniveau „p“.

Tabelle 2 Mit der McKean-K-Means-Methode ermittelte Daten, anwendbar auf 70 untersuchte Proben.

Variablen

Wie aus dieser Tabelle hervorgeht, wird die Nullhypothese der Mittelwertgleichheit in den drei Gruppen abgelehnt. Nachfolgend finden Sie eine Grafik der Durchschnittswerte aller Variablen für einzelne Cluster. Dieselben Cluster-Mittelwerte der Variablen sind unten in Tabellenform angegeben.

Tabelle 3. Detaillierte Betrachtung der Daten am Beispiel von drei Clustern.

Variable

Cluster Nr. 1

Cluster Nr. 2

Cluster Nr. 3

Zeitplan 8

Die Analyse der Durchschnittswerte der Variablen für jeden Cluster lässt den Schluss zu, dass laut Attribut X1 die Cluster 1 und 3 nahe beieinander liegende Werte aufweisen, während Cluster 2 einen deutlich niedrigeren Durchschnittswert aufweist als die anderen beiden Cluster. Im Gegenteil, laut Attribut X2 weist der erste Cluster den niedrigsten Wert auf, während der 2. und der 3. Cluster höhere und näher beieinander liegende Durchschnittswerte aufweisen. Für die Merkmale X3-X12 sind die Durchschnittswerte im Cluster 1 deutlich höher als in den Clustern 2 und 3. Die folgende Tabelle der Varianzanalyse der Ergebnisse der Clusterung in zwei Cluster zeigt auch die Notwendigkeit, die Nullhypothese der Gleichheit von abzulehnen Gruppenmittelwerte für fast alle 12 Merkmale, mit Ausnahme der Variablen X4, für die das erreichte Signifikanzniveau mehr als 5 % betrug.

Tabelle 4. Tabelle der Varianzanalyse der Ergebnisse der Clusterung in zwei Cluster.

Variablen

Nachfolgend finden Sie eine Grafik und eine Tabelle der Gruppenmittelwerte für den Fall der Clusterbildung in zwei Cluster.

Tabelle 5. Tabelle für den Fall der Clusterung in zwei Cluster.

Variablen

Cluster Nr. 1

Cluster Nr. 2

Zeitplan 9.

Für den Fall, dass der Forscher nicht in der Lage ist, die wahrscheinlichste Anzahl von Clustern im Voraus zu bestimmen, ist er gezwungen, die Berechnungen zu wiederholen und eine andere Anzahl anzugeben, ähnlich wie oben beschrieben. Und dann, indem Sie die erzielten Ergebnisse miteinander vergleichen, entscheiden Sie sich für eine der akzeptablen Clustering-Optionen.

4 . CLUSTERUNG VON FUNKTIONEN

Neben der Clusterung einzelner Beobachtungen gibt es auch Algorithmen zur Clusterung von Merkmalen. Eine der ersten Methoden dieser Art ist die Methode der Korrelationsgalaxien von P. V. Terentyev. Primitive Bilder solcher Galaxien finden sich oft in biomedizinischen Veröffentlichungen in Form eines Kreises mit gepunkteten Pfeilen, die Zeichen verbinden, für die die Autoren einen Zusammenhang entdeckt haben. Eine Reihe von Programmen verfügen über separate Verfahren zum Clustern von Objekten und Features. Beispielsweise wird im SAS-Paket die VARCLUS-Prozedur (von VARiable – Variable und CLUSter – Cluster) zum Clustern von Merkmalen verwendet, während die Clusteranalyse von Beobachtungen von anderen Prozeduren – FASTCLUS und CLUSTER – durchgeführt wird. In beiden Fällen wird das Dendrogramm mit der Prozedur TREE (Baum) erstellt.

In anderen Statistikpaketen erfolgt die Auswahl der Elemente für die Clusterbildung – Objekte oder Features – im selben Modul. Ausdrücke, die den Wert bestimmter Koeffizienten enthalten, die die Stärke der Beziehung für ein Merkmalspaar widerspiegeln, werden beim Clustering von Merkmalen häufig als Metrik verwendet. In diesem Fall ist es für Features mit einer Verbindungsstärke gleich eins (funktionale Abhängigkeit) sehr praktisch, den Abstand zwischen Features gleich Null anzunehmen. Tatsächlich kann bei einem funktionalen Zusammenhang der Wert eines Merkmals verwendet werden, um den Wert eines anderen Merkmals genau zu berechnen. Wenn die Stärke der Verbindung zwischen Merkmalen abnimmt, nimmt der Abstand entsprechend zu. Unten sehen Sie eine Grafik, die das Dendrogramm für die Kombination der 12 Merkmale zeigt, die oben bei der Clusterung der 70 Analyseproben verwendet wurden.

Grafik 10. DendrogrammClustering von 12 Features.

Wie aus diesem Dendrogramm ersichtlich ist, haben wir es mit zwei lokalen Gruppierungen von Merkmalen zu tun: X1-X10 und Hier sehen wir auch einige interne gepaarte Untergruppen: X1 und X2, X3 und X4, X6 und X7. Der Abstand zwischen den Merkmalen dieser Paare, der sehr nahe bei Null liegt, weist auf ihre starke paarweise Beziehung hin. Für das Paar X11 und X12 hingegen ist der Abstand zwischen den Clustern viel größer und beträgt etwa 300 Einheiten. Schließlich lässt der sehr große Abstand zwischen dem linken (X1-X10) und dem rechten (X11-X12) Cluster, der etwa 1150 Einheiten entspricht, darauf schließen, dass die Beziehung zwischen diesen beiden Merkmalsgruppen recht minimal ist.

5. STABILITÄT UND QUALITÄT DER CLUSTERISIERUNG

Offensichtlich wäre es absurd, die Frage zu stellen, wie absolut diese oder jene mit Methoden der Clusteranalyse gewonnene Klassifizierung ist. Beim Wechsel der Clustering-Methode äußert sich die Stabilität darin, dass in den Dendrogrammen zwei Cluster recht deutlich sichtbar sind.

Als eine der möglichen Möglichkeiten, die Stabilität der Ergebnisse der Clusteranalyse zu überprüfen, kann die Methode des Vergleichs der für verschiedene Clustering-Algorithmen erhaltenen Ergebnisse verwendet werden. Andere Möglichkeiten sind die sogenannte Bootstrap-Methode, die 1977 von B. Efron vorgeschlagen wurde, die „Jackknife“- und „Sliding Control“-Methode. Die einfachste Möglichkeit, die Robustheit einer Clusterlösung zu testen, besteht darin, die ursprüngliche Stichprobe zufällig in zwei ungefähr gleiche Teile zu teilen, beide Teile zu gruppieren und dann die Ergebnisse zu vergleichen. Eine arbeitsintensivere Methode besteht darin, zunächst das erste Objekt nacheinander auszuschließen und die verbleibenden (N – 1) Objekte zu gruppieren. Führen Sie dann diesen Vorgang nacheinander mit Ausnahme des zweiten, dritten usw. aus. Objekte wird die Struktur aller N resultierenden Cluster analysiert. Ein weiterer Robustheitstestalgorithmus umfasst die Mehrfachpropagierung, das Duplizieren der ursprünglichen Stichprobe von N Objekten, das anschließende Zusammenfassen aller doppelten Stichproben zu einer großen Stichprobe (Pseudopopulation) und das zufällige Ziehen einer neuen Stichprobe von N Objekten daraus. Anschließend erfolgt die Clusterbildung dieser Stichprobe, anschließend wird eine neue Zufallsstichprobe gezogen und erneut eine Clusterbildung durchgeführt usw. Dies ist auch ein recht arbeitsintensiver Weg.

Nicht weniger Probleme gibt es bei der Beurteilung der Qualität des Clusterings. Es gibt eine ganze Reihe von Algorithmen zur Optimierung von Clusterlösungen. Die ersten Arbeiten, die Formulierungen eines Kriteriums zur Minimierung der Intra-Cluster-Varianz und eines Algorithmus (z. B. k-means) zum Finden einer optimalen Lösung enthielten, erschienen in den 50er Jahren. Im Jahr 1963 Der Artikel von J. Ward skizzierte auch einen ähnlichen hierarchischen Optimierungsalgorithmus. Es gibt kein universelles Kriterium für die Optimierung einer Clusterlösung. All dies macht es für den Forscher schwierig, die optimale Lösung zu wählen. In einer solchen Situation ist der beste Weg, um festzustellen, dass die gefundene Clusterlösung in diesem Stadium der Studie optimal ist, nur die Konsistenz dieser Lösung mit den Schlussfolgerungen, die mit anderen Methoden der multivariaten Statistik gewonnen wurden.

Die Schlussfolgerung über die Optimalität der Clusterbildung wird auch durch die positiven Ergebnisse der Prüfung der Vorhersagemomente der erhaltenen Lösung an anderen Untersuchungsobjekten gestützt. Bei der Verwendung hierarchischer Methoden der Clusteranalyse können wir empfehlen, mehrere Diagramme der schrittweisen Änderungen des Intercluster-Abstands zu vergleichen. In diesem Fall sollte der Option der Vorzug gegeben werden, bei der es eine flache Linie eines solchen Inkrements vom ersten Schritt bis zu mehreren vorletzten Schritten mit einem starken vertikalen Anstieg dieses Diagramms in den letzten 1-2 Schritten der Clusterbildung gibt.

SCHLUSSFOLGERUNGEN

In meiner Arbeit habe ich versucht, nicht nur die Komplexität dieser Art der Analyse aufzuzeigen, sondern auch die optimalen Möglichkeiten der Datenverarbeitung, denn für die Genauigkeit der Ergebnisse ist es oft notwendig, Dutzende bis Hunderte von Proben zu verwenden. Diese Art der Analyse hilft, die Ergebnisse einzuordnen und aufzubereiten. Ich denke auch, dass es nicht unwichtig ist, dass die Computertechnologie bei dieser Analyse akzeptabel ist, was es ermöglicht, den Prozess der Ergebnisverarbeitung weniger arbeitsintensiv zu gestalten und uns dadurch mehr Aufmerksamkeit auf die richtige Auswahl der Proben für die Analyse zu richten.

Beim Einsatz der Clusteranalyse gibt es Feinheiten und Details, die im Einzelfall auftreten und nicht sofort sichtbar sind. Beispielsweise kann die Skala der Merkmale eine minimale Rolle spielen oder in einigen Fällen eine dominierende Rolle spielen. In solchen Fällen ist es notwendig, Variablentransformationen zu verwenden. Dies ist besonders effektiv, wenn Methoden verwendet werden, die nichtlineare Transformationen von Merkmalen erzeugen, die im Allgemeinen den Gesamtgrad der Korrelationen zwischen Merkmalen erhöhen.

Noch spezifischer ist der Einsatz der Clusteranalyse in Bezug auf Objekte, die nur durch qualitative Merkmale beschrieben werden. In diesem Fall sind Methoden der vorläufigen Digitalisierung qualitativer Merkmale und der Durchführung einer Clusteranalyse mit neuen Merkmalen recht erfolgreich. In meiner Arbeit habe ich gezeigt, dass die Clusteranalyse sowohl bei der Anwendung auf ausreichend untersuchte Systeme als auch bei der Untersuchung von Systemen mit unbekannter Struktur viele neue und originelle Informationen liefert.

Es sollte auch beachtet werden, dass die Clusteranalyse in Evolutionsstudien unverzichtbar geworden ist und die Konstruktion phylogenetischer Bäume ermöglicht, die Evolutionspfade zeigen. Diese Methoden werden auch häufig in wissenschaftlichen Forschungsprogrammen der physikalischen und analytischen Chemie eingesetzt.

LITERATURVERZEICHNIS

1) Ayvazyan S. A., Enyukov I. S., Meshalkin L. D. Über Struktur und Inhalt eines Softwarepakets für angewandte statistische Analyse // Algorithmen und Software für angewandte statistische Analyse. - M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. Klassifikation mehrdimensionaler Beobachtungen. - M.: Statistik, 1974.

3) Becker V. A., Lukatskaya M. L. Zur Analyse der Struktur der Matrix der Kopplungskoeffizienten // Fragen der wirtschaftsstatistischen Modellierung und Prognose in der Industrie. - Nowosibirsk, 1970.

4) Braverman E. M., Muchnik I. B. Strukturelle Methoden der Datenverarbeitung. - M.: Nauka, 1983.

5) Voronin Yu. A. Klassifikationstheorie und ihre Anwendungen. - Nowosibirsk: Nauka, 1987.

6) Gut I. J. Botriologie der Botryologie // Klassifikation und Cluster. - M.: Mir, 1980.

7) Dubrovsky S.A. Angewandte multivariate statistische Analyse. - M.: Finanzen und Statistik, 1982.

8) Durand N., Odell P. Clusteranalyse. - M.: Statistik, 1977.

9) Eliseeva I. I., Rukavishnikov V. S. Gruppierung, Korrelation, Mustererkennung. - M.: Statistik, 1977.

10) Zagoruiko N. G. Erkennungsmethoden und ihre Anwendung. - M.: Sowjetisches Radio, 1972.

11) Zade L. A. Unscharfe Mengen und ihre Anwendung in der Mustererkennung und Clusteranalyse // Klassifizierung und Cluster. - M.: Mir, 1980.

12) Kildishev G. S., Abolentsev Yu. I. Mehrdimensionale Gruppierungen. - M.: Statistik, 1978.

13) Raiskaya I. I., Gostilin N. I., Frenkel A. A. Über eine Möglichkeit, die Gültigkeit der Partitionierung in der Clusteranalyse zu überprüfen.//Anwendung der multivariaten statistischen Analyse in der Ökonomie und Bewertung der Produktqualität.--Kap. P. Tartu, 1977.

14) Shurygin A. M. Verteilung von Interpunktabständen und -differenzen // Software- und Algorithmusunterstützung für angewandte multivariate statistische Analyse. - M., 1983.

15) Eeremaa R. Allgemeine Theorie des Entwurfs von Clustersystemen und Algorithmen zum Finden ihrer numerischen Darstellungen: Proceedings of the Computing Center of TSU. - Tartu, 1978.

16) Yastremsky B. S. Ausgewählte Werke. - M.: Statistik, 1964.

Ähnliche Dokumente

    Ziele der Marktsegmentierung bei Marketingaktivitäten. Das Wesen der Clusteranalyse, die Hauptphasen ihrer Umsetzung. Auswahl einer Entfernungsmessmethode oder eines Ähnlichkeitsmaßes. Hierarchische, nicht hierarchische Clustering-Methoden. Beurteilung von Zuverlässigkeit und Gültigkeit.

    Bericht, hinzugefügt am 02.11.2009

    Hauptindikatoren für die Finanzlage des Unternehmens. Die Krise im Unternehmen, ihre Ursachen, Arten und Folgen. Moderne Methoden und Werkzeuge der Clusteranalyse, Merkmale ihrer Verwendung zur finanziellen und wirtschaftlichen Bewertung eines Unternehmens.

    Dissertation, hinzugefügt am 09.10.2013

    Durchführung einer Clusteranalyse von Unternehmen mit dem Programm Statgraphics Plus. Konstruktion einer linearen Regressionsgleichung. Berechnung von Elastizitätskoeffizienten mithilfe von Regressionsmodellen. Beurteilung der statistischen Signifikanz der Gleichung und des Bestimmtheitsmaßes.

    Aufgabe, hinzugefügt am 16.03.2014

    Konstruktion typologischer Regressionen für einzelne Beobachtungsgruppen. Raumdaten und zeitliche Informationen. Anwendungsgebiete der Clusteranalyse. Das Konzept der Homogenität von Objekten, Eigenschaften der Distanzmatrix. Durchführung einer typologischen Regression.

    Präsentation, hinzugefügt am 26.10.2013

    Erstellung kombinierter Modelle und Methoden als moderne Prognosemethode. ARIMA-basiertes Modell zur Beschreibung stationärer und instationärer Zeitreihen bei der Lösung von Clustering-Problemen. Autoregressive AR-Modelle und Anwendungen von Korrelogrammen.

    Präsentation, hinzugefügt am 01.05.2015

    Merkmale verschiedener Arten von Metriken. Die Methode der nächsten Nachbarn und ihre Verallgemeinerungen. Algorithmus für den nächsten Nachbarn. Parzen-Fenstermethode. Verallgemeinerter Metrikklassifikator. Das Problem der Auswahl einer Metrik. Manhattan und euklidische Distanz. Kosinusmaß.

    Kursarbeit, hinzugefügt am 08.03.2015

    Merkmale der Bauindustrie der Region Krasnodar. Prognose der Wohnungsbauentwicklung. Moderne Methoden und Werkzeuge zur Clusteranalyse. Multivariate statistische Methoden zur Diagnose der wirtschaftlichen Lage eines Unternehmens.

    Dissertation, hinzugefügt am 20.07.2015

    Merkmale der Hypothekarkreditvergabe am Beispiel der Region Brjansk. Überblick über mathematische Methoden der Entscheidungsfindung: Expertenbewertungen, sequentielle und paarweise Vergleiche, Analyse von Hierarchien. Entwicklung eines Programms zur Suche des optimalen Hypothekendarlehens.

    Kursarbeit, hinzugefügt am 29.11.2012

    Anwendungsgebiete der Systemanalyse, ihr Platz, ihre Rolle, Ziele und Funktionen in der modernen Wissenschaft. Das Konzept und der Inhalt von Systemanalysetechniken, ihre informellen Methoden. Merkmale heuristischer und Expertenforschungsmethoden und Merkmale ihrer Anwendung.

    Kursarbeit, hinzugefügt am 20.05.2013

    Entwicklung und Erforschung ökonometrischer Methoden unter Berücksichtigung der Besonderheiten wirtschaftlicher Daten und im Einklang mit den Bedürfnissen der Wirtschaftswissenschaft und -praxis. Anwendung ökonometrischer Methoden und Modelle zur statistischen Analyse wirtschaftlicher Daten.

Der Begriff „Clusteranalyse“ wurde erstmals 1930 vom amerikanischen Psychologen Robert Tryon in seinem gleichnamigen Werk verwendet. Trotzdem werden die Begriffe „Cluster“ und „Clusteranalyse“ von Muttersprachlern als neu wahrgenommen, wie Alexander Khrolenko feststellte, der eine Korpusanalyse der Verwendung des Lexems „Cluster“ durchführte: „Die meisten Autoren, die diesen Begriff verwenden, achten darauf.“ zu seiner Neuheit“ (Khrolenko, 2016, S. 106)

Die Clusteranalyse umfasst viele verschiedene Klassifizierungsalgorithmen, deren Zweck darin besteht, Informationen in Clustern zu organisieren. Es ist wichtig zu bedenken, dass die Clusteranalyse kein spezifischer Algorithmus an sich ist, sondern ein Problem, das gelöst werden muss. In seinem Werk „The Scarcity of Linear Hierarchy“ stellt Mark Ereshefsky fest, dass die Clusteranalyse neben dem Essentialismus und der historischen Klassifizierung eine von drei Arten der Klassifizierung von Objekten in der umgebenden Welt ist.

Das Clusterprinzip der Beschreibung impliziert in der Linguistik neben der Analyse der in diesem Cluster enthaltenen Einheiten auch die Analyse der Beziehungen innerhalb dieser. Dabei kann es sich um Zusammenhänge auf unterschiedlichen Ebenen handeln: von logischen (z. B. paradigmatischen und syntagmatischen) bis hin zu wortbildenden und phonetischen Zusammenhängen.

F. Brown identifiziert die folgenden Schritte der Clusteranalyse (Brown):

  • 1. Auswahl einer Kennzahl und Erstellung der erforderlichen Kennzahlen, Kriterien oder zu klassifizierenden Einheiten
  • 2. Festlegen des Ähnlichkeitsmaßes
  • 3. Formulieren von Regeln zur Bestimmung der Reihenfolge der Clusterbildung
  • 4. Anwenden von Regeln zur Bildung von Clustern

Es ist zu beachten, dass der dritte Punkt Fragen aufwirft, da die Besonderheit des Clustering als Klassifizierungsmethode das Fehlen spezifizierter Klassen ist. Das Clustering von Dokumenten ist eine Aufgabe zur Informationsbeschaffung. Im Gegensatz zur Textkategorisierung sind keine vordefinierten Kategorien oder ein Trainingssatz erforderlich. Cluster und die Beziehungen zwischen ihnen werden „automatisch aus Dokumenten extrahiert und Dokumente werden nacheinander diesen Clustern zugeordnet“ (Golub, S. 52-53). Mark Ereshefsky führt die Clusteranalyse als Klassifizierungsmethode ein. Er glaubt, dass „alle Formen der Clusteranalyse auf zwei Annahmen basieren: Mitglieder einer taxonomischen Gruppe müssen eine Reihe von Merkmalen gemeinsam haben, und diese Merkmale können nicht bei allen oder nur bei einem Mitglied dieser Gruppe vorkommen.“ (Ereshefsky, S. 15)

In seiner Arbeit „Cluster-Ansatz in der Sprachanalyse“ (Nurgalieva, 2013) N.Kh. Nurgalieva identifiziert vier Hauptaufgaben der Clusteranalyse:

  • 1. Entwicklung einer Typologie oder Klassifikation
  • 2. Erkundung nützlicher konzeptioneller Schemata zum Gruppieren von Objekten
  • 3. Präsentation von Hypothesen basierend auf den untersuchten Daten
  • 4. Testen von Hypothesen oder Studien, um festzustellen, ob die auf die eine oder andere Weise identifizierten Typen (Gruppen) tatsächlich in den verfügbaren Daten vorhanden sind

Alle Methoden der Clusteranalyse lassen sich in „harte“, klare Clusteranalysen, bei denen jedes Objekt entweder zu einem Cluster gehört oder nicht, und in „weiche“, unscharfe Clusteranalysen, bei denen jedes Objekt mit einem bestimmten Grad zu einer Gruppe gehört, unterteilen Wahrscheinlichkeit.

Clusteranalysemethoden werden ebenfalls in hierarchische und nicht hierarchische unterteilt. Hierarchische Methoden implizieren im Gegensatz zu nicht hierarchischen Methoden das Vorhandensein verschachtelter Gruppen. Nurgalieva stellt fest, dass die hierarchische Methode „zur Lösung sprachlicher Probleme am besten geeignet zu sein scheint“ (Nurgalieva, S. 1), da sie es Ihnen ermöglicht, die Struktur des untersuchten Phänomens zu sehen und zu analysieren.

CLUSTERANALYSE IN SOZIOÖKONOMISCHEN PROGNOSEAUFGABEN

Einführung in die Clusteranalyse.

Bei der Analyse und Prognose sozioökonomischer Phänomene stößt der Forscher häufig auf die Mehrdimensionalität ihrer Beschreibung. Dies geschieht bei der Lösung des Problems der Marktsegmentierung, der Erstellung einer Ländertypologie auf der Grundlage einer relativ großen Anzahl von Indikatoren, der Prognose der Marktbedingungen für einzelne Güter, der Untersuchung und Prognose einer Wirtschaftskrise und vielen anderen Problemen.

Multivariate Analysemethoden sind das effektivste quantitative Instrument zur Untersuchung sozioökonomischer Prozesse, die durch eine Vielzahl von Merkmalen beschrieben werden. Dazu gehören Clusteranalyse, Taxonomie, Mustererkennung und Faktorenanalyse.

Die Clusteranalyse spiegelt am deutlichsten die Merkmale der multivariaten Analyse in der Klassifizierung und der Faktoranalyse wider – in der Untersuchung von Beziehungen.

Manchmal wird der Ansatz der Clusteranalyse in der Literatur auch als numerische Taxonomie, numerische Klassifikation, selbstlernende Erkennung usw. bezeichnet.

Die Clusteranalyse fand ihre erste Anwendung in der Soziologie. Der Name Clusteranalyse kommt vom englischen Wort Cluster – Haufen, Ansammlung. Das Thema Clusteranalyse wurde erstmals 1939 vom Forscher Trion definiert und beschrieben. Der Hauptzweck der Clusteranalyse besteht darin, die Menge der untersuchten Objekte und Merkmale in Gruppen oder Cluster zu unterteilen, die im entsprechenden Sinne homogen sind. Dies bedeutet, dass das Problem der Klassifizierung von Daten und der Identifizierung der entsprechenden Struktur darin gelöst wird. Methoden der Clusteranalyse können in den unterschiedlichsten Fällen eingesetzt werden, auch wenn es sich um einfache Gruppierungen handelt, bei denen es auf die Bildung von Gruppen aufgrund quantitativer Ähnlichkeit ankommt.

Der große Vorteil der Clusteranalyse besteht darin, dass Sie Objekte nicht nach einem Parameter, sondern nach einer ganzen Reihe von Merkmalen aufteilen können. Darüber hinaus unterliegt die Clusteranalyse im Gegensatz zu den meisten mathematischen und statistischen Methoden keiner Einschränkung hinsichtlich der Art der betrachteten Objekte und ermöglicht die Berücksichtigung einer Vielzahl von Ausgangsdaten nahezu beliebiger Natur. Dies ist beispielsweise für die Prognose der Marktsituation von großer Bedeutung, wenn die Indikatoren eine unterschiedliche Form haben, was die Verwendung traditioneller ökonometrischer Ansätze erschwert.

Mit der Clusteranalyse können Sie eine relativ große Menge an Informationen berücksichtigen und große Mengen an sozioökonomischen Informationen drastisch reduzieren und komprimieren, um sie kompakt und anschaulich zu machen.

Die Clusteranalyse ist wichtig in Bezug auf Zeitreihen, die die wirtschaftliche Entwicklung charakterisieren (z. B. allgemeine Wirtschafts- und Rohstoffbedingungen). Hier können Sie Zeiträume hervorheben, in denen die Werte der entsprechenden Indikatoren recht nahe beieinander lagen, und auch Zeitreihengruppen bestimmen, deren Dynamik am ähnlichsten ist.

Die Clusteranalyse kann iterativ eingesetzt werden. In diesem Fall wird die Forschung so lange durchgeführt, bis die erforderlichen Ergebnisse erreicht sind. Darüber hinaus kann jeder Zyklus hier Informationen liefern, die die Richtung und Ansätze für die weitere Anwendung der Clusteranalyse erheblich verändern können. Dieser Prozess kann als Feedbacksystem dargestellt werden.

Bei Aufgaben der sozioökonomischen Prognose ist die Kombination der Clusteranalyse mit anderen quantitativen Methoden (z. B. Regressionsanalyse) vielversprechend.

Wie jede andere Methode hat auch die Clusteranalyse gewisse Nachteile und Einschränkungen: Insbesondere hängt die Zusammensetzung und Anzahl der Cluster von den gewählten Partitionskriterien ab. Beim Reduzieren des ursprünglichen Datenarrays auf eine kompaktere Form können bestimmte Verzerrungen auftreten und die individuellen Merkmale einzelner Objekte können verloren gehen, da sie durch die Eigenschaften verallgemeinerter Werte der Clusterparameter ersetzt werden. Bei der Klassifizierung von Objekten wird die Möglichkeit des Fehlens von Clusterwerten in der betrachteten Menge sehr oft außer Acht gelassen.

Bei der Clusteranalyse wird Folgendes berücksichtigt:

a) die gewählten Merkmale ermöglichen grundsätzlich die gewünschte Einteilung in Cluster;

b) die Maßeinheiten (Skala) richtig gewählt sind.

Die Wahl des Maßstabs spielt eine große Rolle. Typischerweise werden Daten normalisiert, indem der Mittelwert subtrahiert und durch die Standardabweichung dividiert wird, sodass die Varianz gleich eins ist.

Problem der Clusteranalyse.

Die Aufgabe der Clusteranalyse besteht darin, basierend auf den in der Menge X enthaltenen Daten die Menge der Objekte G in m (m ist eine ganze Zahl) Cluster (Teilmengen) Q1, Q2, ..., Qm zu unterteilen, so dass jedes Objekt Gj gehört zu einer und nur einer Teilmenge der Partition, sodass Objekte, die zum selben Cluster gehören, ähnlich sind, während Objekte, die zu verschiedenen Clustern gehören, heterogen sind.

Nehmen wir zum Beispiel an, dass G n Länder umfasst, von denen jedes durch das Pro-Kopf-BSP (F1), die Anzahl M der Autos pro 1.000 Einwohner (F2), den Stromverbrauch pro Kopf (F3) und den Stahlverbrauch pro Kopf (F4) gekennzeichnet ist. , usw. Dann ist X1 (Messvektor) eine Menge spezifizierter Merkmale für das erste Land, X2 für das zweite, X3 für das dritte usw. Ziel ist es, Länder nach ihrem Entwicklungsstand zu kategorisieren.

Die Lösung des Clusteranalyseproblems sind Partitionen, die ein bestimmtes Optimalitätskriterium erfüllen. Dieses Kriterium kann eine Art Funktion sein, die den Grad der Erwünschtheit verschiedener Unterteilungen und Gruppierungen ausdrückt, was als Zielfunktion bezeichnet wird. Als Zielfunktion kann beispielsweise die Summe der quadrierten Abweichungen innerhalb der Gruppe verwendet werden:

wobei xj die Maße des j-ten Objekts darstellt.

Um das Problem der Clusteranalyse zu lösen, ist es notwendig, das Konzept der Ähnlichkeit und Heterogenität zu definieren.

Es ist klar, dass die Objekte i-th und j-th in einen Cluster fallen würden, wenn der Abstand (Entfernung) zwischen den Punkten Xi und Xj klein genug wäre, und in verschiedene Cluster fallen würden, wenn dieser Abstand groß genug wäre. Das Zusammenfallen in einen oder mehrere Cluster von Objekten wird somit durch das Konzept des Abstands zwischen Xi und Xj von Ep bestimmt, wobei Ep ein p-dimensionaler euklidischer Raum ist. Eine nichtnegative Funktion d(Xi, Xj) heißt Distanzfunktion (metrisch), wenn:

a) d(Хi, Хj) ³ 0, für alle Хi und Хj aus Ep

b) d(Хi, Хj) = 0, genau dann, wenn Хi = Хj

c) d(Хi, Хj) = d(Хj, Хi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), wobei Xj; Xi und Xk sind drei beliebige Vektoren aus Ep.

Der Wert d(Хi, Хj) für Хi und Хj wird als Abstand zwischen Хi und Хj bezeichnet und entspricht dem Abstand zwischen Gi und Gj gemäß den ausgewählten Merkmalen (F1, F2, F3, ..., Fð).

Die am häufigsten verwendeten Distanzfunktionen sind:

1. Euklidischer Abstand d2(Хi, Хj) =

2. l1 - Norm d1(Хi, Хj) =

3. Supremum - Norm d¥ (Хi, Хj) = sup

k = 1, 2, ..., p

4. lp - Norm dð(Хi, Хj) =

Die euklidische Metrik ist die beliebteste. Die l1-Metrik ist am einfachsten zu berechnen. Die Supremumnorm ist einfach zu berechnen und beinhaltet ein Ordnungsverfahren, und die LP-Norm deckt die Distanzfunktionen 1, 2, 3 ab.

Es seien n Dimensionen X1, X2,..., Xn als Datenmatrix der Größe p ´n dargestellt:

Dann kann der Abstand zwischen Vektorpaaren d(Хi, Хj) als symmetrische Abstandsmatrix dargestellt werden:

Das Gegenkonzept zur Distanz ist das Konzept der Ähnlichkeit zwischen Objekten Gi. und Gj. Eine nichtnegative reelle Funktion S(Хi ; Хj) = Sij heißt Ähnlichkeitsmaß, wenn:

1) 0 £ S(Хi, Хj)<1 для Хi¹ Хj

2) S(Хi, Хi) = 1

3) S(Хi, Хj) = S(Хj, Хi)

Paare von Ähnlichkeitsmaßwerten können zu einer Ähnlichkeitsmatrix zusammengefasst werden:

Der Wert Sij wird Ähnlichkeitskoeffizient genannt.

1.3. Methoden der Clusteranalyse.

Heutzutage gibt es eine ganze Reihe von Clusteranalysemethoden. Schauen wir uns einige davon an (die unten aufgeführten Methoden werden normalerweise als Methoden der minimalen Varianz bezeichnet).

Sei X eine Beobachtungsmatrix: X = (X1, X2,..., Xu) und das Quadrat des euklidischen Abstands zwischen Xi und Xj wird durch die Formel bestimmt:

1) Methode der vollständigen Verbindungen.

Der Kern dieser Methode besteht darin, dass zwei Objekte, die zur gleichen Gruppe (Cluster) gehören, einen Ähnlichkeitskoeffizienten haben, der kleiner als ein bestimmter Schwellenwert S ist. Bezogen auf den euklidischen Abstand d bedeutet dies, dass der Abstand zwischen zwei Punkten (Objekten) des Clusters sollte einen bestimmten Schwellenwert h nicht überschreiten. Somit definiert h den maximal zulässigen Durchmesser der Teilmenge, die den Cluster bildet.

2) Methode der maximalen lokalen Distanz.

Jedes Objekt wird als einzelner Punktcluster behandelt. Objekte werden nach folgender Regel gruppiert: Zwei Cluster werden zusammengefasst, wenn der maximale Abstand zwischen den Punkten des einen Clusters und den Punkten des anderen minimal ist. Das Verfahren besteht aus n - 1 Schritten und das Ergebnis sind Partitionen, die mit allen möglichen Partitionen in der vorherigen Methode für alle Schwellenwerte übereinstimmen.

3) Word-Methode.

Bei dieser Methode wird die gruppeninterne Summe der quadratischen Abweichungen als Zielfunktion verwendet, die nichts anderes ist als die Summe der quadrierten Abstände zwischen jedem Punkt (Objekt) und dem Durchschnitt des Clusters, der dieses Objekt enthält. Bei jedem Schritt werden zwei Cluster kombiniert, die zu einer minimalen Erhöhung der Zielfunktion führen, d. h. Summe der Quadrate innerhalb der Gruppe. Ziel dieser Methode ist es, eng beieinander liegende Cluster zu kombinieren.

4) Centroid-Methode.

Der Abstand zwischen zwei Clustern ist definiert als der euklidische Abstand zwischen den Mittelpunkten (Mittelwerten) dieser Cluster:

d2 ij = (`X – `Y)Т(`X – `Y) Die Clusterbildung erfolgt Schritt für Schritt bei jedem der n–1 Schritte, zwei Cluster G und p werden kombiniert und haben einen Minimalwert d2ij. Wenn n1 viel größer ist als n2, dann liegen die Zentren der Verschmelzung der beiden Cluster nahe beieinander und die Eigenschaften des zweiten Clusters werden bei der Kombination von Clustern praktisch ignoriert. Diese Methode wird manchmal auch als gewichtete Gruppenmethode bezeichnet.

1.4 Sequentielles Clustering-Algorithmus.

Betrachten Sie Ι = (Ι1, Ι2, … Ιn) als eine Menge von Clustern (Ι1), (Ι2),…(Ιn). Wählen wir zwei davon aus, zum Beispiel Ι i und Ι j, die in gewisser Weise näher beieinander liegen, und kombinieren sie zu einem Cluster. Der neue Satz von Clustern, der bereits aus n-1 Clustern besteht, wird sein:

(Ι1), (Ι2)…, (Ι i, Ι j),…, (Ιn).

Durch Wiederholen des Vorgangs erhalten wir aufeinanderfolgende Gruppen von Clustern, bestehend aus (n-2), (n-3), (n–4) usw. Cluster. Am Ende des Verfahrens erhält man einen Cluster, der aus n Objekten besteht und mit der Originalmenge Ι = (Ι1, Ι2, … Ιn) übereinstimmt.

Als Maß für den Abstand nehmen wir das Quadrat der euklidischen Metrik di j2. und berechnen Sie die Matrix D = (di j2), wobei di j2 das Quadrat des Abstands zwischen ist

Ι1 Ι2 Ι3 …. Ιn
Ι1 0 d122 d132 …. d1n2
Ι2 0 d232 …. d2n2
Ι3 0 …. d3n2
…. …. ….
Ιn 0

Der Abstand zwischen Ι i und Ι j sei minimal:

di j2 = min (di j2, i ¹ j). Mit Ι i und Ι j bilden wir einen neuen Cluster

(Ι i, Ι j). Lassen Sie uns eine neue ((n-1), (n-1))-Distanzmatrix erstellen

(Ι i , Ι j) Ι1 Ι2 Ι3 …. Ιn
(Ι i; Ι j) 0 von j21 von j22 von j23 …. di j2n
Ι1 0 d122 d13 …. d12n
Ι2 0 von j21 …. d2n
Ι3 0 …. d3n
Ιn 0

Die (n-2) Zeilen für die letzte Matrix werden aus der vorherigen übernommen und die erste Zeile wird neu berechnet. Berechnungen können auf ein Minimum reduziert werden, wenn wir di j2k,k = 1, 2,…, n; (k ¹ i ¹ j) durch die Elemente der ursprünglichen Matrix.

Zunächst wird der Abstand nur zwischen Einzelelement-Clustern bestimmt, es ist jedoch notwendig, die Abstände zwischen Clustern zu bestimmen, die mehr als ein Element enthalten. Dies kann auf verschiedene Weise erfolgen und je nach gewählter Methode erhalten wir Clusteranalysealgorithmen mit unterschiedlichen Eigenschaften. Sie können beispielsweise den Abstand zwischen Cluster i + j und einem anderen Cluster k gleich dem arithmetischen Mittel der Abstände zwischen den Clustern i und k und den Clustern j und k setzen:

di+j,k = ½ (di k + dj k).

Wir können di+j,k aber auch als das Minimum dieser beiden Abstände definieren:

di+j,k = min (di k + dj k).

Damit wird der erste Schritt des agglomerativen hierarchischen Algorithmus beschrieben. Die weiteren Schritte sind ähnlich.

Eine ziemlich große Klasse von Algorithmen kann erhalten werden, wenn die folgende allgemeine Formel zur Neuberechnung von Entfernungen verwendet wird:

di+j,k = A(w) min(dik djk) + B(w) max(dik djk), wobei

A(w) = if dik £ djk

A(w) = wenn dik > djk

B(w) = if dik £ djk

B(w) = wenn dik > djk

Dabei sind ni und nj die Anzahl der Elemente in den Clustern i und j und w ist ein freier Parameter, dessen Wahl durch einen bestimmten Algorithmus bestimmt wird. Wenn beispielsweise w = 1 ist, erhalten wir den sogenannten „Average Connection“-Algorithmus, für den die Formel zur Neuberechnung von Entfernungen die Form annimmt:

di+j,k =

In diesem Fall ist der Abstand zwischen zwei Clustern bei jedem Schritt des Algorithmus gleich dem arithmetischen Mittel der Abstände zwischen allen solchen Elementpaaren, dass ein Element des Paares zu einem Cluster gehört, das andere zu einem anderen.

Die visuelle Bedeutung des Parameters w wird deutlich, wenn wir w®¥ einsetzen. Die Formel zur Neuberechnung von Entfernungen sieht folgendermaßen aus:

di+j,k = min (di,k djk)

Dabei handelt es sich um den sogenannten „Nearest Neighbor“-Algorithmus, der es Ihnen ermöglicht, Cluster beliebiger komplexer Form zu identifizieren, vorausgesetzt, die verschiedenen Teile solcher Cluster sind durch Ketten von Elementen verbunden, die nahe beieinander liegen. In diesem Fall ist der Abstand zwischen zwei Clustern bei jedem Schritt des Algorithmus gleich dem Abstand zwischen den beiden nächstgelegenen Elementen, die zu diesen beiden Clustern gehören.

Häufig wird davon ausgegangen, dass die anfänglichen Abstände (Differenzen) zwischen den zu gruppierenden Elementen gegeben sind. Bei einigen Problemen trifft dies tatsächlich zu. Es werden jedoch nur Objekte und deren Eigenschaften spezifiziert und auf Basis dieser Daten eine Distanzmatrix erstellt. Je nachdem, ob Abstände zwischen Objekten oder zwischen Eigenschaften von Objekten berechnet werden, kommen unterschiedliche Methoden zum Einsatz.

Bei der Clusteranalyse von Objekten ist das gebräuchlichste Differenzmaß entweder das Quadrat des euklidischen Abstands

(wobei xih, xjh die Werte des h-ten Merkmals für das i-te und j-te Objekt sind und m die Anzahl der Merkmale ist) oder der euklidische Abstand selbst. Wenn Merkmalen unterschiedliche Gewichte zugewiesen werden, können diese Gewichte bei der Berechnung der Entfernung berücksichtigt werden

Manchmal wird der Abstand als Maß für die Differenz verwendet und anhand der Formel berechnet:

die heißen: „Hamming“, „Manhattan“ oder „City Block“ Entfernung.

Ein natürliches Maß für die Ähnlichkeit von Objektmerkmalen ist bei vielen Aufgaben der Korrelationskoeffizient zwischen ihnen

Dabei sind mi, mj, di, dj der Durchschnitt und die Standardabweichung für die Merkmale i bzw. j. Ein Maß für die Differenz zwischen Merkmalen kann der Wert 1 - r sein. Bei einigen Problemen ist das Vorzeichen des Korrelationskoeffizienten unbedeutend und hängt nur von der Wahl der Maßeinheit ab. In diesem Fall wird ô1 - ri j ô als Maß für den Unterschied zwischen den Merkmalen verwendet

1,5 Anzahl der Cluster.

Ein sehr wichtiges Thema ist das Problem der Auswahl der erforderlichen Anzahl von Clustern. Manchmal kann man a priori eine m Anzahl von Clustern auswählen. Im Allgemeinen wird diese Zahl jedoch bei der Aufteilung der Menge in Cluster ermittelt.

Untersuchungen von Fortier und Solomon ergaben, dass die Anzahl der Cluster angepasst werden muss, um die Wahrscheinlichkeit a zu erreichen, dass die beste Partition gefunden wird. Somit ist die optimale Anzahl von Partitionen eine Funktion eines gegebenen Bruchteils b der besten oder in gewissem Sinne zulässigen Partitionen in der Menge aller möglichen Partitionen. Je höher der Anteil b der zulässigen Teilungen ist, desto größer ist die Gesamtstreuung. Fortier und Solomon haben eine Tabelle entwickelt, mit deren Hilfe die Anzahl der benötigten Teilungen ermittelt werden kann. S(a,b) abhängig von a und b (wobei a die Wahrscheinlichkeit ist, dass die beste Partition gefunden wird, b der Anteil der besten Partitionen an der Gesamtzahl der Partitionen ist). Darüber hinaus ist das Maß der Heterogenität nicht das Maß von Streuung, sondern das von Holzenger und Harman eingeführte Maß der Mitgliedschaft. Die Tabelle der S(a,b)-Werte ist unten angegeben.

Wertetabelle S(a,b)

b\a 0.20 0.10 0.05 0.01 0.001 0.0001
0.20 8 11 14 21 31 42
0.10 16 22 29 44 66 88
0.05 32 45 59 90 135 180
0.01 161 230 299 459 689 918
0.001 1626 2326 3026 4652 6977 9303
0.0001 17475 25000 32526 55000 75000 100000

Sehr oft ist das Kriterium für die Kombination (Anzahl der Cluster) eine Änderung der entsprechenden Funktion. Zum Beispiel die Summe der quadrierten Abweichungen:

Der Gruppierungsprozess muss dabei einem konsistenten Mindestanstieg des Werts des Kriteriums E entsprechen. Das Vorliegen eines starken Sprungs des Werts von E kann als Merkmal der Anzahl der Cluster interpretiert werden, die objektiv in der untersuchten Population vorhanden sind.

Der zweite Weg, die beste Anzahl von Clustern zu bestimmen, besteht also darin, Sprünge zu identifizieren, die durch den Phasenübergang von einem stark gebundenen zu einem schwach gebundenen Zustand von Objekten bestimmt werden.

1.6 Dendogramme.

Die bekannteste Methode zur Darstellung einer Distanz- oder Ähnlichkeitsmatrix basiert auf der Idee eines Dendogramms oder Baumdiagramms. Ein Dendogramm kann als grafische Darstellung der Ergebnisse eines sequentiellen Clustering-Prozesses definiert werden, der anhand einer Distanzmatrix durchgeführt wird. Mithilfe eines Dendogramms können Sie ein Clustering-Verfahren grafisch oder geometrisch darstellen, sofern dieses Verfahren nur auf Elementen der Distanz- oder Ähnlichkeitsmatrix operiert.

Es gibt viele Möglichkeiten, Dendogramme zu erstellen. Im Dendogramm sind die Objekte links vertikal angeordnet, die Clustering-Ergebnisse rechts. Abstands- oder Ähnlichkeitswerte, die der Struktur neuer Cluster entsprechen, werden entlang einer horizontalen Linie über den Dendogrammen dargestellt.

Abbildung 1 zeigt ein Beispiel eines Dendogramms. Abbildung 1 entspricht dem Fall von sechs Objekten (n=6) und k Merkmalen (Merkmalen). Die Objekte A und C sind am nächsten und werden daher mit einem Näherungsniveau von 0,9 zu einem Cluster zusammengefasst. Die Objekte D und E werden auf Stufe 0,8 zusammengefasst. Jetzt haben wir 4 Cluster:

Die Art des Dendogramms hängt von der Wahl des Ähnlichkeitsmaßes oder Abstands zwischen einem Objekt und einem Cluster und der Clustering-Methode ab. Der wichtigste Punkt ist die Wahl des Ähnlichkeitsmaßes oder Distanzmaßes zwischen dem Objekt und dem Cluster.

Die Anzahl der Clusteranalysealgorithmen ist zu groß. Alle von ihnen können in hierarchische und nicht hierarchische unterteilt werden.

Hierarchische Algorithmen sind mit der Konstruktion von Dendogrammen verbunden und werden unterteilt in:

a) agglomerativ, gekennzeichnet durch die sequentielle Kombination der Anfangselemente und eine entsprechende Abnahme der Anzahl der Cluster;

b) teilbar (teilbar), bei dem die Anzahl der Cluster ausgehend von eins zunimmt, was zur Bildung einer Folge von Spaltungsgruppen führt.

Heutzutage verfügen Clusteranalysealgorithmen über eine gute Softwareimplementierung, die es ermöglicht, Probleme größter Dimension zu lösen.

1.7 Daten

Die Clusteranalyse kann auf Intervalldaten, Frequenzen und Binärdaten angewendet werden. Es ist wichtig, dass Variablen auf vergleichbaren Skalen variieren.

Die Heterogenität der Maßeinheiten und die daraus resultierende Unmöglichkeit, die Werte verschiedener Indikatoren auf derselben Skala gültig auszudrücken, führt dazu, dass die Abstände zwischen Punkten, die die Position von Objekten im Raum ihrer Eigenschaften widerspiegeln, von einem abhängen willkürlich gewählter Maßstab. Um die Heterogenität bei der Messung der Quelldaten zu beseitigen, werden alle ihre Werte vornormiert, d.h. werden durch das Verhältnis dieser Werte zu einem bestimmten Wert ausgedrückt, der bestimmte Eigenschaften eines bestimmten Indikators widerspiegelt. Die Normalisierung der Ausgangsdaten für die Clusteranalyse erfolgt manchmal durch Division der Ausgangswerte durch die Standardabweichung der entsprechenden Indikatoren. Eine andere Möglichkeit besteht darin, den sogenannten standardisierten Beitrag zu berechnen. Er wird auch Z-Beitrag genannt.

Der Z-Beitrag zeigt, wie viele Standardabweichungen eine bestimmte Beobachtung vom Mittelwert trennen:

Dabei ist xi der Wert dieser Beobachtung, der Durchschnitt und S die Standardabweichung.

Der Mittelwert für Z-Beiträge beträgt Null und die Standardabweichung beträgt 1.

Durch die Standardisierung können Beobachtungen aus verschiedenen Verteilungen verglichen werden. Wenn die Verteilung einer Variablen normal (oder nahezu normal) ist und der Mittelwert und die Varianz bekannt sind oder aus großen Stichproben geschätzt werden, liefert der Z-Beitrag für eine Beobachtung spezifischere Informationen über deren Position.

Beachten Sie, dass Standardisierungsmethoden bedeuten, alle Merkmale im Hinblick auf die Bestimmung der Ähnlichkeit der betrachteten Objekte als gleichwertig anzuerkennen. Es wurde bereits darauf hingewiesen, dass die Anerkennung der Gleichwertigkeit verschiedener Indikatoren im Hinblick auf die Wirtschaftswissenschaften nicht immer gerechtfertigt erscheint. Neben der Standardisierung wäre es wünschenswert, jedem der Indikatoren ein Gewicht zu geben, das seine Bedeutung für die Feststellung von Ähnlichkeiten und Unterschieden von Objekten widerspiegelt.

In dieser Situation muss auf eine Methode zur Bestimmung der Gewichte einzelner Indikatoren zurückgegriffen werden – eine Expertenbefragung. Bei der Lösung des Problems der Klassifizierung von Ländern nach dem wirtschaftlichen Entwicklungsstand wurden beispielsweise die Ergebnisse einer Umfrage unter 40 führenden Moskauer Experten zu den Problemen entwickelter Länder auf einer zehnstufigen Skala verwendet:

allgemeine Indikatoren der sozioökonomischen Entwicklung – 9 Punkte;

Indikatoren der sektoralen Verteilung der Erwerbsbevölkerung – 7 Punkte;

Indikatoren für die Prävalenz von Lohnarbeit – 6 Punkte;

Indikatoren, die das menschliche Element der Produktivkräfte charakterisieren – 6 Punkte;

Indikatoren für die Entwicklung der materiellen Produktivkräfte – 8 Punkte;

Staatsausgabenindikator – 4 Punkte;

„Militärökonomische“ Indikatoren – 3 Punkte;

soziodemografische Indikatoren – 4 Punkte.

Die Einschätzungen der Experten waren relativ stabil.

Expertenbewertungen bieten eine gewisse Grundlage für die Bestimmung der Bedeutung von Indikatoren, die zu einer bestimmten Gruppe von Indikatoren gehören. Durch Multiplizieren der normalisierten Werte von Indikatoren mit dem dem durchschnittlichen Bewertungsergebnis entsprechenden Koeffizienten können die Abstände zwischen Punkten berechnet werden, die die Position von Ländern im mehrdimensionalen Raum widerspiegeln, unter Berücksichtigung des ungleichen Gewichts ihrer Merkmale.

Nicht selten kommen bei der Lösung solcher Probleme nicht eine, sondern zwei Berechnungen zum Einsatz: die erste, bei der alle Merkmale als gleichwertig betrachtet werden, die zweite, bei der sie entsprechend den Durchschnittswerten der Experteneinschätzungen unterschiedlich gewichtet werden.

1.8. Anwendung der Clusteranalyse.

Schauen wir uns einige Anwendungen der Clusteranalyse an.

Einteilung der Länder in Gruppen nach Entwicklungsstand.

65 Länder wurden anhand von 31 Indikatoren untersucht (Nationaleinkommen pro Kopf, Prozentsatz der in der Industrie beschäftigten Bevölkerung, Ersparnisse pro Kopf, Prozentsatz der in der Landwirtschaft beschäftigten Bevölkerung, durchschnittliche Lebenserwartung, Anzahl der Autos pro 1.000 Einwohner, Anzahl der Streitkräfte). pro 1 Million Einwohner, der Anteil der Industrie am BIP in %, der Anteil der Landwirtschaft am BIP in %, usw.)

Jedes Land fungiert in dieser Betrachtung als Objekt, das durch bestimmte Werte von 31 Indikatoren gekennzeichnet ist. Dementsprechend können sie als Punkte im 31-dimensionalen Raum dargestellt werden. Ein solcher Raum wird üblicherweise als Raum der Eigenschaften der untersuchten Objekte bezeichnet. Der Vergleich der Entfernung zwischen diesen Punkten spiegelt den Grad der Nähe der betreffenden Länder und ihre Ähnlichkeit zueinander wider. Die sozioökonomische Bedeutung dieses Verständnisses von Ähnlichkeit bedeutet, dass Länder als umso ähnlicher gelten, je geringer die Unterschiede zwischen denselben Indikatoren sind, mit denen sie beschrieben werden.

Der erste Schritt einer solchen Analyse besteht darin, ein Paar von in der Ähnlichkeitsmatrix berücksichtigten Volkswirtschaften zu identifizieren, deren Abstand am geringsten ist. Dies werden offensichtlich die ähnlichsten und ähnlichsten Volkswirtschaften sein. In der folgenden Diskussion werden diese beiden Länder als eine einzige Gruppe, als ein einziger Cluster betrachtet. Dementsprechend wird die ursprüngliche Matrix so transformiert, dass ihre Elemente die Abstände zwischen allen möglichen Paaren von nicht 65, sondern 64 Objekten werden – 63 Volkswirtschaften und ein neu transformierter Cluster – eine bedingte Vereinigung der beiden ähnlichsten Länder. Aus der ursprünglichen Ähnlichkeitsmatrix werden Zeilen und Spalten entfernt, die den Abständen zwischen dem in der Fusion enthaltenen Länderpaar und allen anderen Ländern entsprechen. Es werden jedoch eine Zeile und eine Spalte hinzugefügt, die den Abstand zwischen dem bei der Fusion entstandenen Cluster und anderen Ländern enthalten.

Es wird davon ausgegangen, dass der Abstand zwischen dem neu erhaltenen Cluster und den Ländern dem Durchschnitt der Abstände zwischen diesem und den beiden Ländern entspricht, aus denen der neue Cluster besteht. Mit anderen Worten wird die zusammengefasste Ländergruppe als Ganzes betrachtet, deren Merkmale in etwa dem Durchschnitt der Merkmale der darin enthaltenen Länder entsprechen.

Der zweite Schritt der Analyse besteht darin, die so transformierte Matrix mit 64 Zeilen und Spalten zu betrachten. Auch hier wird ein Paar von Volkswirtschaften identifiziert, deren Abstand am geringsten ist, und sie werden, genau wie im ersten Fall, zusammengeführt. In diesem Fall kann der kleinste Abstand zwischen einem Länderpaar oder zwischen einem beliebigen Land und der im vorherigen Schritt ermittelten Ländervereinigung liegen.

Die weiteren Verfahren ähneln den oben beschriebenen: In jeder Phase wird die Matrix so transformiert, dass zwei Spalten und zwei Zeilen, die die Entfernung zu Objekten (Länderpaare oder Verbände – Cluster) enthalten, die in der vorherigen Phase zusammengeführt wurden, davon ausgeschlossen werden ; Die ausgeschlossenen Zeilen und Spalten werden durch eine Spalte und eine Zeile ersetzt, die die Abstände der neuen Verbindungen zu den verbleibenden Objekten enthalten. dann wird das Paar der nächstgelegenen Objekte in der modifizierten Matrix identifiziert. Die Analyse wird fortgesetzt, bis die Matrix vollständig erschöpft ist (also bis alle Länder zu einem Ganzen zusammengefasst sind). Die verallgemeinerten Ergebnisse der Matrixanalyse können in Form eines Ähnlichkeitsbaums (Dendogramm) dargestellt werden, ähnlich dem oben beschriebenen, mit dem einzigen Unterschied, dass der Ähnlichkeitsbaum die relative Nähe aller 65 von uns betrachteten Länder widerspiegelt viel komplexer als das Diagramm, in dem nur fünf Volkswirtschaften vorkommen. Dieser Baum umfasst entsprechend der Anzahl der verglichenen Objekte 65 Ebenen. Die erste (untere) Ebene enthält Punkte für jedes Land separat. Die Verbindung dieser beiden Punkte auf der zweiten Ebene zeigt ein Paar von Ländern, die hinsichtlich des allgemeinen Typs der Volkswirtschaft am nächsten sind. Auf der dritten Ebene wird das nächste ähnliche paarweise Länderverhältnis notiert (wie bereits erwähnt, kann dieses Verhältnis entweder ein neues Länderpaar oder ein neues Land und ein bereits identifiziertes Paar ähnlicher Länder enthalten). Und so weiter bis zur letzten Ebene, auf der alle untersuchten Länder als eine einzige Gruppe fungieren.

Als Ergebnis der Clusteranalyse wurden die folgenden fünf Ländergruppen ermittelt:

Afroasiatische Gruppe;

Lateinamerikanisch-asiatische Gruppe;

Lateinisch-mediterrane Gruppe;

Gruppe entwickelter kapitalistischer Länder (ohne USA)

Die Einführung neuer Indikatoren über die hier verwendeten 31 Indikatoren hinaus oder deren Ersetzung durch andere führt naturgemäß zu Veränderungen in den Ergebnissen der Länderklassifizierung.

2. Einteilung der Länder nach dem Kriterium der Kulturähnlichkeit.

Wie Sie wissen, muss Marketing die Kultur der Länder (Bräuche, Traditionen usw.) berücksichtigen.

Durch Clustering wurden folgende Ländergruppen ermittelt:

Arabisch;

Naher Osten;

Skandinavisch;

Deutschsprachig;

Englisch sprechend;

Romanischer Europäer;

Lateinamerikanisch;

Fernöstlichen.

3. Entwicklung einer Prognose der Zinkmarktbedingungen.

Die Clusteranalyse spielt in der Phase der Reduzierung des wirtschaftlichen und mathematischen Modells des Rohstoffmarktes eine wichtige Rolle. Sie trägt dazu bei, Berechnungsverfahren zu erleichtern und zu vereinfachen und eine größere Kompaktheit der erzielten Ergebnisse bei gleichzeitiger Beibehaltung der erforderlichen Genauigkeit zu gewährleisten. Der Einsatz der Clusteranalyse ermöglicht es, den gesamten Ausgangssatz an Marktindikatoren nach geeigneten Kriterien in Gruppen (Cluster) einzuteilen und so die Auswahl der repräsentativsten Indikatoren zu erleichtern.

Die Clusteranalyse wird häufig zur Modellierung von Marktbedingungen eingesetzt. In der Praxis beruhen die meisten Prognoseprobleme auf der Verwendung von Clusteranalysen.

Beispielsweise die Aufgabe, eine Prognose für den Zinkmarkt zu entwickeln.

Zunächst wurden 30 Schlüsselindikatoren des globalen Zinkmarktes ausgewählt:

X1 - Zeit

Produktionszahlen:

X2 - in der Welt

X4 – Europa

X5 – Kanada

X6 – Japan

X7 – Australien

Verbrauchsindikatoren:

X8 - in der Welt

X10 – Europa

X11 – Kanada

X12 – Japan

X13 – Australien

Zinkreserven der Hersteller:

X14 - in der Welt

X16 – Europa

X17 – andere Länder

Zinkreserven der Verbraucher:

X18 - in den USA

X19 - in England

X10 – in Japan

Import von Zinkerzen und -konzentraten (in Tausend Tonnen)

X21 - in den USA

X22 – in Japan

X23 - in Deutschland

Export von Zinkerzen und -konzentraten (in Tausend Tonnen)

X24 – aus Kanada

X25 – aus Australien

Import von Zink (Tausend Tonnen)

X26 - in den USA

X27 - nach England

X28 - in Deutschland

Zinkexporte (in Tausend Tonnen)

X29 – aus Kanada

X30 – aus Australien

Zur Ermittlung spezifischer Abhängigkeiten wurde der Apparat der Korrelations- und Regressionsanalyse eingesetzt. Die Beziehungsanalyse erfolgte auf Basis einer Matrix gepaarter Korrelationskoeffizienten. Dabei wurde die Hypothese der Normalverteilung der analysierten Marktindikatoren akzeptiert. Es ist klar, dass Rij nicht der einzig mögliche Indikator für die Beziehung zwischen den verwendeten Indikatoren sind. Die Notwendigkeit, bei dieser Aufgabe eine Clusteranalyse zu verwenden, ergibt sich aus der Tatsache, dass die Anzahl der Indikatoren, die den Zinkpreis beeinflussen, sehr groß ist. Aus folgenden Gründen besteht die Notwendigkeit, sie zu reduzieren:

a) Mangel an vollständigen statistischen Daten zu allen Variablen;

b) eine starke Komplikation von Rechenverfahren, wenn eine große Anzahl von Variablen in das Modell eingeführt wird;

c) Der optimale Einsatz von Regressionsanalysemethoden erfordert, dass die Anzahl der beobachteten Werte die Anzahl der Variablen um mindestens das 6- bis 8-fache übersteigt.

d) der Wunsch, statistisch unabhängige Variablen im Modell zu verwenden usw.

Es ist sehr schwierig, eine solche Analyse direkt anhand einer relativ umständlichen Matrix von Korrelationskoeffizienten durchzuführen. Mithilfe der Clusteranalyse kann der gesamte Satz von Marktvariablen so in Gruppen eingeteilt werden, dass die Elemente jedes Clusters stark miteinander korrelieren und Vertreter verschiedener Gruppen durch eine schwache Korrelation gekennzeichnet sind.

Um dieses Problem zu lösen, wurde einer der agglomerativen hierarchischen Clusteranalysealgorithmen verwendet. Bei jedem Schritt wird die Anzahl der Cluster aufgrund der in gewissem Sinne optimalen Kombination zweier Gruppen um eins reduziert. Kriterium für die Zusammenführung ist eine Änderung der entsprechenden Funktion. Als solche Funktion haben wir die Werte der Summen der quadratischen Abweichungen verwendet, die mit den folgenden Formeln berechnet wurden:

(j = 1, 2, …, m),

Dabei ist j die Clusternummer und n die Anzahl der Elemente im Cluster.

rij – Paarkorrelationskoeffizient.

Daher muss der Gruppierungsprozess einer sequenziellen minimalen Erhöhung des Werts des Kriteriums E entsprechen.

In der ersten Phase wird das anfängliche Datenarray als eine Menge bestehend aus Clustern dargestellt, die jeweils ein Element enthalten. Der Gruppierungsprozess beginnt mit der Kombination eines solchen Clusterpaars, was zu einer minimalen Erhöhung der Summe der quadratischen Abweichungen führt. Dies erfordert die Schätzung der Summe der quadratischen Abweichungswerte für jede der möglichen Clusterkombinationen. Im nächsten Schritt werden die Werte der Summen der quadratischen Abweichungen für Cluster usw. berücksichtigt. Dieser Prozess wird irgendwann gestoppt. Dazu müssen Sie den Wert der Summe der quadrierten Abweichungen überwachen. Betrachtet man eine Folge steigender Werte, kann man einen Sprung (einen oder mehrere) in ihrer Dynamik wahrnehmen, der als Merkmal der Anzahl der Gruppen interpretiert werden kann, die „objektiv“ in der untersuchten Population existieren. Im gegebenen Beispiel traten Sprünge auf, wenn die Anzahl der Cluster 7 und 5 betrug. Die Anzahl der Gruppen sollte nicht weiter reduziert werden, weil Dies führt zu einer Verschlechterung der Qualität des Modells. Nach Erhalt der Cluster werden die Variablen ausgewählt, die im wirtschaftlichen Sinne am wichtigsten sind und am engsten mit dem ausgewählten Kriterium der Marktsituation zusammenhängen – in diesem Fall mit den Zinknotierungen der London Metal Exchange. Dieser Ansatz ermöglicht es uns, einen erheblichen Teil der im ursprünglichen Satz anfänglicher Marktindikatoren enthaltenen Informationen zu bewahren.