Literatur zur Clusteranalyse. Ministerium für Bildung und Wissenschaft der Russischen Föderation

Das Senden Ihrer guten Arbeit an die Wissensdatenbank ist ganz einfach. Nutzen Sie das untenstehende Formular

Studierende, Doktoranden und junge Wissenschaftler, die die Wissensbasis in ihrem Studium und ihrer Arbeit nutzen, werden Ihnen sehr dankbar sein.

Einführung

1.Geschichte der „Clusteranalyse“

2. Terminologie

2.1Objekt und Zeichen

2.2 Abstand zwischen Objekten (metrisch)

2.3 Dichte und Lokalität von Clustern

2.4 Abstand zwischen Clustern

3. Gruppierungsmethoden

3.1Merkmale hierarchischer Agglomerationsmethoden

3.2Merkmale iterativer Clustering-Methoden

4. Feature-Clustering

5. Stabilität und Qualität des Clusterings

Literaturverzeichnis

EINFÜHRUNG

„Die Clusteranalyse ist eine Reihe mathematischer Methoden, die dazu dienen, relativ „entfernte“ Gruppen von „nahen“ Objekten anhand von Informationen über Entfernungen oder Verbindungen (Nähemaße) zwischen ihnen zu bilden. Sie haben eine ähnliche Bedeutung wie die Begriffe: automatisch Klassifikation, Taxonomie, Mustererkennung ohne Lehrer.“ Diese Definition der Clusteranalyse ist in der neuesten Ausgabe des Statistical Dictionary enthalten. Tatsächlich ist „Clusteranalyse“ ein allgemeiner Name für eine ziemlich große Menge von Algorithmen, die zur Erstellung einer Klassifizierung verwendet werden. In einer Reihe von Veröffentlichungen werden für die Clusteranalyse auch Synonyme wie Klassifikation und Partitionierung verwendet. Die Clusteranalyse wird in der Wissenschaft häufig als Mittel zur typologischen Analyse eingesetzt. In jeder wissenschaftlichen Tätigkeit ist die Klassifizierung eine der grundlegenden Komponenten, ohne die es unmöglich ist, wissenschaftliche Hypothesen und Theorien aufzustellen und zu testen. Daher halte ich es für notwendig, in meiner Arbeit die Fragen der Clusteranalyse (die Grundlage der Clusteranalyse) sowie ihre Terminologie zu berücksichtigen und einige Beispiele für die Verwendung dieser Methode mit der Datenverarbeitung als meinem Hauptziel zu nennen.

1. GESCHICHTE DER „CLUSTERANALYSE“

Eine Analyse in- und ausländischer Publikationen zeigt, dass die Clusteranalyse in den unterschiedlichsten wissenschaftlichen Bereichen eingesetzt wird: Chemie, Biologie, Medizin, Archäologie, Geschichte, Geographie, Wirtschaftswissenschaften, Philologie usw. Das Buch von VV Nalimov „Probabilistic Model of Language“ beschreibt die Verwendung der Clusteranalyse bei der Untersuchung von 70 analytischen Proben. Der Großteil der Literatur zur Clusteranalyse ist in den letzten drei Jahrzehnten erschienen, obwohl die ersten Arbeiten, in denen Clustermethoden erwähnt wurden, schon vor ziemlich langer Zeit erschienen sind. Der polnische Anthropologe K. Chekanowski stellte die Idee der „strukturellen Klassifizierung“ vor, die die Hauptidee der Clusteranalyse enthielt – die Zuordnung kompakter Objektgruppen.

Im Jahr 1925 wurde der sowjetische Hydrobiologe P.V. Terentyev entwickelte die sogenannte „Methode der Korrelationsplejaden“, mit der korrelierte Merkmale gruppiert werden sollen. Diese Methode gab den Anstoß für die Entwicklung von Gruppierungsmethoden mithilfe von Diagrammen. Der Begriff „Clusteranalyse“ wurde erstmals von Trion vorgeschlagen. Das Wort „Cluster“ wird aus dem Englischen als „Haufen, Pinsel, Haufen, Gruppe“ übersetzt. Aus diesem Grund wurde diese Art der Analyse ursprünglich „Clusteranalyse“ genannt. In den frühen 1950er Jahren erschienen Veröffentlichungen von R. Lewis, E. Fix und J. Hodges zu hierarchischen Clusteranalysealgorithmen. Einen spürbaren Impuls für die Entwicklung der Arbeiten zur Clusteranalyse gaben R. Rosenblatts Arbeiten zum Erkennungsgerät (Perzeptron), die den Grundstein für die Entwicklung der Theorie der „Mustererkennung ohne Lehrer“ legten.

Den Anstoß für die Entwicklung von Clustering-Methoden gab das 1963 erschienene Buch „Principles of Numerical Taxonomy“. zwei Biologen – Robert Sokal und Peter Sneath. Die Autoren dieses Buches gingen davon aus, dass das Clustering-Verfahren zur Erstellung wirksamer biologischer Klassifikationen die Verwendung verschiedener Indikatoren zur Charakterisierung der untersuchten Organismen sicherstellen, den Grad der Ähnlichkeit zwischen diesen Organismen bewerten und die Einordnung ähnlicher Organismen sicherstellen sollte in derselben Gruppe. In diesem Fall sollten die gebildeten Gruppen ausreichend „lokal“ sein, d.h. Die Ähnlichkeit von Objekten (Organismen) innerhalb von Gruppen sollte die Ähnlichkeit von Gruppen untereinander übertreffen. Die anschließende Analyse der identifizierten Gruppen kann nach Meinung der Autoren klären, ob diese Gruppen unterschiedlichen biologischen Arten entsprechen. Sokal und Sneath gingen daher davon aus, dass die Offenlegung der Struktur der Verteilung von Objekten in Gruppen dazu beiträgt, den Prozess der Bildung dieser Strukturen zu bestimmen. Und der Unterschied und die Ähnlichkeit von Organismen verschiedener Cluster (Gruppen) können als Grundlage für das Verständnis des laufenden Evolutionsprozesses und die Aufklärung seines Mechanismus dienen.

In den gleichen Jahren wurden viele Algorithmen von Autoren wie J. McKean, G. Ball und D. Hall unter Verwendung von k-means-Methoden vorgeschlagen; G. Lance und W. Williams, N. Jardine und andere – über hierarchische Methoden. Einen wesentlichen Beitrag zur Entwicklung von Clusteranalysemethoden leisteten einheimische Wissenschaftler – E. M. Braverman, A. A. Dorofeyuk, I. B. Muchnik, L. A. Rastrigin, Yu. I. Insbesondere in den 60er und 70er Jahren. Zahlreiche von den Nowosibirsker Mathematikern N.G. Zagoruiko, V.N. Elkina und G.S. Lbov entwickelte Algorithmen erfreuten sich großer Beliebtheit. Dies sind so bekannte Algorithmen wie FOREL, BIGFOR, KRAB, NTTP, DRET, TRF usw. Basierend auf diesen Paketen wurde ein spezielles OTEX-Softwarepaket erstellt. Nicht weniger interessante Softwareprodukte PPSA und Class-Master wurden von den Moskauer Mathematikern S.A. Aivazyan, I.S. Enyukov und B.G. Mirkin entwickelt.

Clusteranalysemethoden sind teilweise in den meisten der bekanntesten in- und ausländischen Statistikpakete verfügbar: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S-PLUS usw. Natürlich hat sich 10 Jahre nach der Veröffentlichung dieser Rezension einiges geändert, es sind neue Versionen vieler Statistikprogramme erschienen und völlig neue Programme erschienen, die sowohl neue Algorithmen als auch eine stark erhöhte Rechenleistung verwenden. Die meisten Statistikpakete verwenden jedoch Algorithmen, die in den 60er und 70er Jahren vorgeschlagen und entwickelt wurden.

Nach groben Schätzungen von Experten verdoppelt sich die Zahl der Veröffentlichungen zur Clusteranalyse und ihren Anwendungen in verschiedenen Wissensgebieten alle drei Jahre. Was sind die Gründe für ein solch stürmisches Interesse an dieser Art von Analyse? Objektiv gesehen gibt es drei Hauptgründe für dieses Phänomen. Dies ist das Aufkommen leistungsstarker Computertechnologie, ohne die eine Clusteranalyse realer Daten praktisch nicht möglich ist. Der zweite Grund ist, dass die moderne Wissenschaft in ihren Konstruktionen zunehmend auf Klassifikationen basiert. Darüber hinaus vertieft sich dieser Prozess zunehmend, da parallel damit eine zunehmende Spezialisierung des Wissens stattfindet, die ohne eine ausreichend objektive Klassifizierung nicht möglich ist.

Der dritte Grund – die Vertiefung des Spezialwissens führt zwangsläufig zu einer Erhöhung der Anzahl der Variablen, die bei der Analyse bestimmter Objekte und Phänomene berücksichtigt werden. Infolgedessen erweist sich die subjektive Klassifizierung, die bisher auf einer relativ geringen Anzahl berücksichtigter Merkmale beruhte, häufig als unzuverlässig. Und die objektive Klassifizierung mit einem immer größeren Satz an Objektmerkmalen erfordert den Einsatz komplexer Clustering-Algorithmen, die nur auf der Basis moderner Computer implementiert werden können. Aus diesen Gründen entstand der „Cluster-Boom“. Unter Medizinern und Biologen hat sich die Clusteranalyse jedoch noch nicht zu einer recht populären und verbreiteten Forschungsmethode entwickelt.

2 TERMINOLOGIE

2. 1 OBJEKT UND ZEICHEN

Lassen Sie uns zunächst Konzepte wie Objekt und Attribut einführen. Objekt – vom lateinischen objectum – Subjekt. In Bezug auf Chemie und Biologie verstehen wir unter Objekten bestimmte Forschungsgegenstände, die mit physikalischen, chemischen und anderen Methoden untersucht werden. Solche Objekte können beispielsweise Proben, Pflanzen, Tiere usw. sein. Eine bestimmte Menge von Objekten, die dem Forscher zur Untersuchung zur Verfügung stehen, wird als Probe oder Probensatz bezeichnet. Die Anzahl der Objekte in einer solchen Grundgesamtheit wird üblicherweise als Stichprobengröße bezeichnet. Typischerweise wird die Stichprobengröße mit dem lateinischen Buchstaben „n“ oder „N“ bezeichnet.

Zeichen (Synonyme – Eigenschaft, Variable, Merkmal; Englisch – Variable – Variable.) – ist eine spezifische Eigenschaft des Objekts. Diese Eigenschaften können als numerische oder nicht numerische Werte ausgedrückt werden. Beispielsweise wird der Blutdruck (systolisch oder diastolisch) in Millimetern Quecksilbersäule, das Gewicht in Kilogramm, die Körpergröße in Zentimetern usw. gemessen. Solche Zeichen sind quantitativ. Im Gegensatz zu diesen kontinuierlichen numerischen Merkmalen (Skalen) können eine Reihe von Merkmalen diskrete, diskontinuierliche Werte haben. Solche diskreten Merkmale werden wiederum normalerweise in zwei Gruppen unterteilt.

1) Die erste Gruppe sind Rangvariablen, oder wie sie auch Ordinalvariablen (Skalen) genannt werden. Solche Zeichen zeichnen sich durch die Eigenschaft aus, diese Werte zu ordnen. Dazu gehören die Stadien einer bestimmten Krankheit, Altersgruppen, Wissenswerte der Schüler, die 12-Punkte-Richter-Erdbebenstärkeskala usw.

2) Die zweite Gruppe diskreter Merkmale weist keine solche Reihenfolge auf und wird als nominale (vom Wort „nominal“ – Stichprobe) oder Klassifizierungsmerkmale bezeichnet. Ein Beispiel für solche Anzeichen kann der Zustand des Patienten – „gesund“ oder „krank“, das Geschlecht des Patienten, der Beobachtungszeitraum – „vor der Behandlung“ und „nach der Behandlung“ usw. sein. In diesen Fällen ist es üblich zu sagen, dass solche Merkmale zur Namensskala gehören.

Die Konzepte eines Objekts und eines Merkmals werden üblicherweise als „Objekt-Eigenschaft“- oder „Objekt-Merkmal“-Matrix bezeichnet. Die Matrix ist eine rechteckige Tabelle, die aus den Werten von Merkmalen besteht, die die Eigenschaften der untersuchten Beobachtungsstichprobe beschreiben. In diesem Zusammenhang wird eine Beobachtung als separate Zeile bestehend aus den Werten der verwendeten Merkmale aufgezeichnet. Ein separates Attribut in einer solchen Datenmatrix wird durch eine Spalte dargestellt, die aus den Werten dieses Attributs für alle Objekte in der Stichprobe besteht.

2. 2 ABSTAND ZWISCHEN OBJEKTEN (METRISCH)

Lassen Sie uns das Konzept des „Abstands zwischen Objekten“ einführen. Dieses Konzept ist ein integrales Maß für die Ähnlichkeit von Objekten untereinander. Der Abstand zwischen Objekten im Merkmalsraum ist ein Wert d ij, der die folgenden Axiome erfüllt:

1. d ij > 0 (Nichtnegativität der Distanz)

2. d ij = d ji (Symmetrie)

3. d ij + d jk > d ik (Dreiecksungleichung)

4. Wenn d ij ungleich 0 ist, dann ist i ungleich j (Unterscheidbarkeit nicht identischer Objekte)

5. Wenn d ij = 0, dann i = j (Ununterscheidbarkeit identischer Objekte)

Es ist zweckmäßig, das Maß für die Nähe (Ähnlichkeit) von Objekten als Kehrwert des Abstands zwischen Objekten darzustellen. Zahlreiche Veröffentlichungen zur Clusteranalyse beschreiben mehr als 50 verschiedene Methoden zur Berechnung des Abstands zwischen Objekten. Neben dem Begriff „Entfernung“ findet sich in der Literatur häufig ein anderer Begriff – „metrisch“, der eine Methode zur Berechnung einer bestimmten Entfernung impliziert. Am zugänglichsten für die Wahrnehmung und das Verständnis bei quantitativen Merkmalen ist die sogenannte „Euklidische Distanz“ oder „Euklidische Metrik“. Die Formel zur Berechnung dieser Entfernung lautet:

Diese Formel verwendet die folgende Notation:

· d ij – Abstand zwischen i-ten und j-ten Objekten;

· x ik – numerischer Wert der k-ten Variablen für das i-te Objekt;

· x jk – numerischer Wert der k-ten Variablen für das j-te Objekt;

· v – die Anzahl der Variablen, die Objekte beschreiben.

Für den Fall v=2, wenn wir nur zwei quantitative Vorzeichen haben, ist der Abstand d ij also gleich der Länge der Hypotenuse eines rechtwinkligen Dreiecks, das zwei Punkte in einem rechtwinkligen Koordinatensystem verbindet. Diese beiden Punkte entsprechen den i-ten und j-ten Beobachtungen der Stichprobe. Anstelle des üblichen euklidischen Abstands wird häufig dessen Quadrat d 2 ij verwendet. Darüber hinaus wird in einigen Fällen ein „gewichteter“ euklidischer Abstand verwendet, bei dessen Berechnung Gewichtskoeffizienten für einzelne Terme verwendet werden. Um das Konzept der euklidischen Metrik zu veranschaulichen, verwenden wir ein einfaches Trainingsbeispiel. Die in der folgenden Tabelle dargestellte Datenmatrix besteht aus 5 Beobachtungen und zwei Variablen.

Tabelle 1

Datenmatrix aus fünf beobachteten Proben und zwei Variablen.

Mit der euklidischen Metrik berechnen wir die Matrix der Interobjektabstände, bestehend aus den Werten d ij – dem Abstand zwischen dem i-ten und j-ten Objekt. In unserem Fall sind i und j die Nummer des Objekts, der Beobachtung. Da die Stichprobengröße 5 beträgt, können i bzw. j Werte von 1 bis 5 annehmen. Es ist auch offensichtlich, dass die Anzahl aller möglichen paarweisen Abstände 5 * 5 = 25 beträgt. Tatsächlich sind dies für das erste Objekt die folgenden Abstände: 1-1; 1-2; 1-3; 1-4; 1-5. Für Objekt 2 gibt es ebenfalls 5 mögliche Distanzen: 2-1; 2-2; 2-3; 2-4; 2-5 usw. Die Anzahl der unterschiedlichen Abstände wird jedoch weniger als 25 betragen, da die Eigenschaft der Ununterscheidbarkeit identischer Objekte berücksichtigt werden muss – d ij = 0 für i = j. Das bedeutet, dass der Abstand zwischen Objekt Nr. 1 und demselben Objekt Nr. 1 Null ist. Die gleichen Nullabstände gelten für alle anderen Fälle i = j. Darüber hinaus folgt aus der Symmetrieeigenschaft, dass d ij = d ji für jedes i und j gilt. Diese. Der Abstand zwischen den Objekten Nr. 1 und Nr. 2 ist gleich dem Abstand zwischen den Objekten Nr. 2 und Nr. 1.

Der Ausdruck für den euklidischen Abstand ist dem sogenannten verallgemeinerten Minkowski-Potenzabstand sehr ähnlich, bei dem anstelle von zwei ein anderer Wert in Potenzen verwendet wird. Im Allgemeinen wird dieser Wert mit dem Symbol „p“ bezeichnet.

Für p = 2 erhalten wir den üblichen euklidischen Abstand. Der Ausdruck für die verallgemeinerte Minkowski-Metrik hat also die Form:

Die Wahl eines bestimmten Wertes des Exponenten „p“ trifft der Forscher selbst.

Ein Sonderfall der Minkowski-Distanz ist die sogenannte Manhattan-Distanz oder „City-Block-Distanz“, entsprechend p=1:

Somit ist die Manhattan-Distanz die Summe der Module der Differenzen der entsprechenden Merkmale der Objekte. Wenn p gegen Unendlich tendiert, erhalten wir die „Dominanz“-Metrik oder Sup-Metrik:

was auch als d ij = max| dargestellt werden kann x ik - x jk |.

Die Minkowski-Metrik ist eigentlich eine große Familie von Metriken, darunter die beliebtesten Metriken. Es gibt jedoch Methoden zur Berechnung des Abstands zwischen Objekten, die sich grundlegend von den Minkowski-Metriken unterscheiden. Die wichtigste davon ist die sogenannte Mahalanobis-Distanz, die recht spezifische Eigenschaften hat. Ausdruck für diese Metrik:

Hier durch X ich Und X J Spaltenvektoren variabler Werte für das i-te und j-te Objekt werden angezeigt. Symbol T im Ausdruck (X ich - X J ) T bezeichnet die sogenannte Vektortranspositionsoperation. Symbol S die gemeinsame gruppeninterne Varianz-Kovarianz-Matrix ist angegeben. Ein Symbol -1 über S bedeutet, dass Sie die Matrix invertieren müssen S . Im Gegensatz zur Minkowski-Metrik und der Euklidischen Metrik erfolgt die Mahalanobis-Distanz durch die Varianz-Kovarianz-Matrix S mit Korrelationen von Variablen verbunden. Wenn die Korrelationen zwischen Variablen Null sind, entspricht die Mahalanobis-Distanz dem Quadrat der euklidischen Distanz.

Bei der Verwendung dichotomer (nur zwei Werte aufweisender) qualitativer Merkmale wird häufig die Hamming-Distanz verwendet

gleich der Anzahl der Nichtübereinstimmungen in den Werten der entsprechenden Merkmale für die betrachteten i-ten und j-ten Objekte.

2. 3 DICHTE UND LOKALITÄT DER CLUSTER

Das Hauptziel der Clusteranalyse besteht darin, Gruppen von einander ähnlichen Objekten in der Stichprobe zu finden. Nehmen wir an, dass wir mit einigen der möglichen Methoden solche Gruppen – Cluster – erhalten haben. Wichtige Eigenschaften von Clustern sollten beachtet werden. Eine dieser Eigenschaften ist die Verteilungsdichte von Punkten, Beobachtungen innerhalb eines Clusters. Diese Eigenschaft ermöglicht es uns, einen Cluster als eine Ansammlung von Punkten in einem mehrdimensionalen Raum zu definieren, der im Vergleich zu anderen Regionen dieses Raums, die entweder überhaupt keine Punkte oder nur eine geringe Anzahl von Beobachtungen enthalten, relativ dicht ist. Mit anderen Worten, wie kompakt dieser Cluster ist oder umgekehrt, wie spärlich er ist. Trotz ausreichender Beweise für diese Eigenschaft gibt es keine eindeutige Möglichkeit, einen solchen Indikator (Dichte) zu berechnen. Der erfolgreichste Indikator zur Charakterisierung der Kompaktheit, der Dichte der „Packung“ mehrdimensionaler Beobachtungen in einem bestimmten Cluster, ist die Streuung des Abstands vom Zentrum des Clusters zu einzelnen Punkten des Clusters. Je kleiner die Streuung dieser Entfernung ist, je näher die Beobachtungen am Zentrum des Clusters liegen, desto größer ist die Dichte des Clusters. Und umgekehrt: Je größer die Streuung der Entfernung, desto spärlicher ist dieser Cluster, und folglich gibt es Punkte, die sich sowohl in der Nähe des Clusterzentrums als auch ziemlich weit vom Clusterzentrum entfernt befinden.

Die nächste Eigenschaft von Clustern ist ihre Größe. Der Hauptindikator für die Größe eines Clusters ist sein „Radius“. Diese Eigenschaft spiegelt die tatsächliche Clustergröße am besten wider, wenn der betrachtete Cluster rund und hyperkugelförmig im mehrdimensionalen Raum ist. Wenn die Cluster jedoch längliche Formen haben, spiegelt das Konzept des Radius oder Durchmessers nicht mehr die wahre Größe des Clusters wider.

Eine weitere wichtige Eigenschaft eines Clusters ist seine Lokalität und Trennbarkeit. Es charakterisiert den Grad der Überlappung und gegenseitigen Entfernung von Clustern voneinander in einem mehrdimensionalen Raum. Betrachten Sie beispielsweise die Verteilung von drei Clustern im Raum neuer, integrierter Funktionen in der folgenden Abbildung. Die Achsen 1 und 2 wurden durch eine spezielle Methode aus 12 Merkmalen der Reflexionseigenschaften verschiedener Formen von Erythrozyten gewonnen, die mithilfe der Elektronenmikroskopie untersucht wurden.

Bild 1

Wir sehen, dass Cluster 1 die minimale Größe hat, während die Cluster 2 und 3 ungefähr gleich groß sind. Gleichzeitig können wir sagen, dass die minimale Dichte und damit die maximale Abstandsdispersion charakteristisch für Cluster 3 ist. Darüber hinaus ist Cluster 1 durch ausreichend große Leerraumabschnitte sowohl von Cluster 2 als auch von Cluster 3 getrennt. Während Cluster 2 und 3 überschneiden sich teilweise. Interessant ist die Tatsache, dass Cluster 1 einen viel größeren Unterschied zum 2. und 3. Cluster entlang der Achse 1 aufweist als entlang der Achse 2. Im Gegenteil, die Cluster 2 und 3 unterscheiden sich sowohl entlang der Achse 1 als auch entlang der Achse 2 ungefähr gleich voneinander. Offensichtlich ist es für eine solche visuelle Analyse notwendig, alle Beobachtungen der Probe auf spezielle Achsen zu projizieren, in denen die Projektionen von Clusterelementen als separate Cluster sichtbar sind.

2. 4 ABSTAND ZWISCHEN CLUSTERN

Im weiteren Sinne können Objekte nicht nur als ursprüngliche Forschungsgegenstände verstanden werden, die in der „Objekt-Eigenschaft“-Matrix als separate Linie oder als einzelne Punkte in einem mehrdimensionalen Merkmalsraum dargestellt werden, sondern auch als separate Gruppen solcher Punkte , durch den einen oder anderen Algorithmus zu einem Cluster vereint. In diesem Fall stellt sich die Frage, wie man den Abstand zwischen solchen Punktansammlungen (Clustern) verstehen und berechnen kann. In diesem Fall ist die Vielfalt der Möglichkeiten noch größer als bei der Berechnung des Abstands zwischen zwei Beobachtungen in einem mehrdimensionalen Raum. Dieses Verfahren wird dadurch erschwert, dass Cluster im Gegensatz zu Punkten einen bestimmten mehrdimensionalen Raum einnehmen und aus vielen Punkten bestehen. In der Clusteranalyse werden häufig Abstände zwischen Clustern verwendet, die nach dem Prinzip des nächsten Nachbarn (nächster Nachbar), des Schwerpunkts, des entferntesten Nachbarn und des Medians berechnet werden. Vier Methoden werden am häufigsten verwendet: Single Link, Full Link, Average Link und Wards Methode. Bei der Single-Link-Methode wird ein Objekt an einen bereits vorhandenen Cluster angehängt, wenn mindestens eines der Elemente des Clusters den gleichen Ähnlichkeitsgrad wie das zu verbindende Objekt aufweist. Bei der Methode der vollständigen Verknüpfungen wird ein Objekt nur dann einem Cluster zugeordnet, wenn die Ähnlichkeit zwischen dem Aufnahmekandidaten und einem der Elemente des Clusters nicht kleiner als ein bestimmter Schwellenwert ist. Für die durchschnittliche Verbindungsmethode gibt es mehrere Modifikationen, die einen Kompromiss zwischen Einzel- und Vollverbindung darstellen. Sie berechnen den Durchschnittswert der Ähnlichkeit des Aufnahmekandidaten mit allen Objekten des bestehenden Clusters. Die Anbringung erfolgt, wenn der gefundene durchschnittliche Ähnlichkeitswert einen bestimmten Schwellenwert erreicht oder überschreitet. Am häufigsten wird die arithmetische mittlere Ähnlichkeit zwischen den Objekten des Clusters und dem Kandidaten für die Aufnahme in den Cluster verwendet.

Viele der Clustering-Methoden unterscheiden sich darin, dass ihre Algorithmen bei jedem Schritt verschiedene Funktionale der Partitionierungsqualität berechnen. Die beliebte Ward-Methode ist so konstruiert, dass sie die minimale Varianz der Intracluster-Abstände optimiert. Im ersten Schritt besteht jeder Cluster aus einem Objekt, wodurch die Streuung der Entfernungen innerhalb des Clusters gleich 0 ist. Bei dieser Methode werden diejenigen Objekte kombiniert, die den minimalen Streuungszuwachs ergeben, wodurch diese Methode tendenziell dazu tendiert erzeugen hypersphärische Cluster.

Mehrere Versuche, Clusteranalysemethoden zu klassifizieren, führen zu Dutzenden oder sogar Hunderten verschiedener Klassen. Eine solche Vielfalt wird durch eine große Anzahl möglicher Methoden zur Berechnung des Abstands zwischen einzelnen Beobachtungen, nicht weniger Methoden zur Berechnung des Abstands zwischen einzelnen Clustern im Prozess der Clusterbildung und verschiedene Schätzungen der Optimalität der endgültigen Clusterstruktur erzeugt.

In gängigen Statistikpaketen werden am häufigsten zwei Gruppen von Clusteranalysealgorithmen verwendet: hierarchische agglomerative Methoden und iterative Gruppierungsmethoden.

3. GRUPPIERUNGSMETHODEN

3. 1 MERKMALE HIERARCHISCHER AGGLOMERATIVER METHODEN

Bei agglomerativen hierarchischen Algorithmen, die in der realen biomedizinischen Forschung häufiger zum Einsatz kommen, werden zunächst alle Objekte (Beobachtungen) als separate, unabhängige Cluster betrachtet, die nur aus einem Element bestehen. Ohne den Einsatz leistungsfähiger Computertechnik ist die Umsetzung der Clusterdatenanalyse sehr problematisch.

Die Wahl der Metrik obliegt dem Forscher. Nach der Berechnung der Distanzmatrix beginnt der Prozess Agglomerationen (vom lateinischen agglomero – ich füge hinzu, sammle), nacheinander Schritt für Schritt vorgehen. Im ersten Schritt dieses Prozesses werden zwei Ausgangsbeobachtungen (Monokluster) mit dem geringsten Abstand zueinander zu einem Cluster zusammengefasst, der bereits aus zwei Objekten (Beobachtungen) besteht. Somit wird es nach dem ersten Schritt anstelle der bisherigen N Monocluster (Cluster, die aus einem Objekt bestehen) N-1 Cluster geben, von denen ein Cluster zwei Objekte (Beobachtungen) enthalten wird und N-2 Cluster weiterhin bestehen werden nur ein Objekt. Im zweiten Schritt sind verschiedene Methoden zur Kombination von N-2-Clustern möglich. Dies liegt daran, dass einer dieser Cluster bereits zwei Objekte enthält. Aus diesem Grund stellen sich zwei Hauptfragen:

· wie man die Koordinaten einer solchen Ansammlung von zwei (und noch mehr als zwei) Objekten berechnet;

· wie man den Abstand zu solchen „Polyobjekt“-Clustern von „Monoklustern“ und zwischen „Polyobjekt“-Clustern berechnet.

Letztendlich bestimmen diese Fragen die endgültige Struktur der endgültigen Cluster (unter der Struktur von Clustern versteht man die Zusammensetzung einzelner Cluster und ihre relative Position in einem mehrdimensionalen Raum). Verschiedene Kombinationen von Metriken und Methoden zur Berechnung der Koordinaten und gegenseitigen Abstände von Clustern ergeben die Vielfalt der Methoden der Clusteranalyse. Im zweiten Schritt ist es abhängig von den gewählten Methoden zur Berechnung der Koordinaten eines aus mehreren Objekten bestehenden Clusters und der Methode zur Berechnung der Clusterabstände möglich, entweder zwei separate Beobachtungen zu einem neuen Cluster zusammenzufassen oder einen neuen zusammenzufügen Beobachtung eines Clusters bestehend aus zwei Objekten. Der Einfachheit halber können die meisten Programme für agglomerativ-hierarchische Methoden am Ende der Arbeit zwei Hauptdiagramme zur Ansicht bereitstellen. Das erste Diagramm wird Dendrogramm (von griechisch dendron – Baum) genannt und spiegelt den Prozess der Agglomeration wider, die Verschmelzung einzelner Beobachtungen zu einem einzigen endgültigen Cluster. Lassen Sie uns ein Beispiel für ein Dendrogramm von 5 Beobachtungen in zwei Variablen geben.

Zeitplan1

Die vertikale Achse eines solchen Diagramms ist die Achse des Abstands zwischen den Clustern, und die Anzahl der Objekte – in der Analyse verwendete Fälle – ist entlang der horizontalen Achse markiert. Aus diesem Dendrogramm ist ersichtlich, dass die Objekte Nr. 1 und Nr. 2 zunächst zu einem Cluster zusammengefasst werden, da der Abstand zwischen ihnen am kleinsten ist und gleich 1 ist. Diese Verschmelzung wird im Diagramm durch eine horizontale Linie angezeigt, die die vertikalen Segmente verbindet kommt aus den mit C_1 und C_2 markierten Punkten. Achten wir auf die Tatsache, dass die horizontale Linie selbst genau auf der Ebene des Intercluster-Abstands von 1 verläuft. Darüber hinaus schließt sich im zweiten Schritt Objekt Nr. 3 mit der Bezeichnung C_3 diesem Cluster an, der bereits zwei Objekte enthält. Der nächste Schritt besteht darin, die Objekte Nr. 4 und Nr. 5 zusammenzuführen, deren Abstand zwischen 1,41 beträgt. Und im letzten Schritt wird der Cluster der Objekte 1, 2 und 3 mit dem Cluster der Objekte 4 und 5 kombiniert. Die Grafik zeigt, dass der Abstand zwischen diesen beiden vorletzten Clustern (der letzte Cluster umfasst alle 5 Objekte) größer als 5 ist , aber weniger als 6, da die obere horizontale Linie, die die beiden vorletzten Cluster verbindet, auf einem Niveau verläuft, das ungefähr 7 entspricht, und das Verbindungsniveau der Objekte 4 und 5 1,41 beträgt.

Das folgende Dendrogramm wurde durch die Analyse eines realen Datensatzes erhalten, der aus 70 verarbeiteten chemischen Proben bestand, von denen jede durch 12 Merkmale gekennzeichnet war.

Diagramm 2

Aus der Grafik ist ersichtlich, dass im letzten Schritt, wenn die letzten beiden Cluster zusammengeführt werden, der Abstand zwischen ihnen etwa 200 Einheiten beträgt. Es ist ersichtlich, dass der erste Cluster viel weniger Objekte enthält als der zweite Cluster. Unten sehen Sie einen vergrößerten Ausschnitt des Dendrogramms, auf dem die Beobachtungszahlen deutlich sichtbar sind, bezeichnet als C_65, C_58 usw. (von links nach rechts): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 usw.

Diagramm 3 Vergrößerter Teil von Diagramm Nr. 2 oben

Es ist ersichtlich, dass es sich bei Objekt 44 um einen Monocluster handelt, der sich im vorletzten Schritt mit dem rechten Cluster verbindet und im letzten Schritt dann alle Beobachtungen zu einem Cluster zusammengefasst werden.

Ein weiterer Graph, der in solchen Verfahren erstellt wird, ist ein Graph der Intercluster-Abstände bei jedem Schritt der Vereinigung. Unten ist ein ähnliches Diagramm für das obige Dendrogramm.

Diagramm 4

In einer Reihe von Programmen ist es möglich, die Ergebnisse der Kombination von Objekten bei jedem Clustering-Schritt tabellarisch anzuzeigen. Um Verwirrung zu vermeiden, wird in den meisten dieser Tabellen eine unterschiedliche Terminologie verwendet, um die anfänglichen Beobachtungen – Monocluster – und die tatsächlichen Cluster, die aus zwei oder mehr Beobachtungen bestehen, zu bezeichnen. In englischsprachigen Statistikpaketen werden die ersten Beobachtungen (Zeilen der Datenmatrix) als „Case“ – Fall bezeichnet. Um die Abhängigkeit der Clusterstruktur von der Wahl der Metrik und der Wahl des Cluster-Union-Algorithmus zu demonstrieren, präsentieren wir unten ein Dendrogramm, das dem vollständigen Verbindungsalgorithmus entspricht. Und hier sehen wir, dass Objekt Nr. 44 im allerletzten Schritt mit dem Rest der Auswahl zusammengeführt wird.

Diagramm 5

Vergleichen wir es nun mit einem anderen Diagramm, das mit der Single-Link-Methode für dieselben Daten erstellt wurde. Im Gegensatz zur Vollverbindungsmethode ist ersichtlich, dass diese Methode lange Ketten sequentiell aneinander angehängter Objekte erzeugt. In allen drei Fällen können wir jedoch sagen, dass zwei Hauptgruppen hervorstechen.

Diagramm 6

Achten wir auch auf die Tatsache, dass sich Objekt Nr. 44 in allen drei Fällen als Monocluster zusammenschließt, wenn auch in unterschiedlichen Schritten des Clustering-Prozesses. Die Auswahl solcher Monocluster ist ein gutes Mittel zur Erkennung anomaler Beobachtungen, sogenannter Ausreißer. Löschen wir dieses „verdächtige“ Objekt Nr. 44 und führen wir erneut ein Clustering durch. Wir erhalten das folgende Dendrogramm:

Diagramm 7

Man erkennt, dass der „Ketteneffekt“ erhalten bleibt, ebenso wie die Aufteilung in zwei lokale Gruppen von Beobachtungen.

3. 2 MERKMALE ITERATIVER CLUSTERING-METHODEN

Unter den iterativen Methoden ist die k-means-Methode von McKean die beliebteste Methode. Im Gegensatz zu hierarchischen Methoden muss bei den meisten Implementierungen dieser Methode der Benutzer selbst die gewünschte Anzahl der endgültigen Cluster angeben, die üblicherweise mit „k“ bezeichnet wird. Wie bei hierarchischen Clustering-Methoden kann der Benutzer den einen oder anderen Metriktyp auswählen. Verschiedene Algorithmen der k-means-Methode unterscheiden sich auch in der Art und Weise, wie sie die Anfangszentren der gegebenen Cluster wählen. In einigen Versionen der Methode kann (oder muss) der Benutzer selbst solche Anfangspunkte angeben, indem er sie entweder aus realen Beobachtungen auswählt oder indem er die Koordinaten dieser Punkte für jede der Variablen angibt. In anderen Implementierungen dieser Methode erfolgt die Auswahl einer gegebenen Anzahl k von Anfangspunkten zufällig und diese Anfangspunkte (Clusterkörner) können anschließend in mehreren Stufen verfeinert werden. Es gibt 4 Hauptphasen solcher Methoden:

· k Beobachtungen auswählen oder zuweisen, die die primären Zentren der Cluster sein werden;

· Bei Bedarf werden Zwischencluster gebildet, indem jede Beobachtung den nächstgelegenen angegebenen Clusterzentren zugeordnet wird.

· Nach der Zuordnung aller Beobachtungen zu einzelnen Clustern werden die primären Clusterzentren durch Clusterdurchschnitte ersetzt.

· Die vorherige Iteration wird wiederholt, bis die Änderungen in den Koordinaten der Clusterzentren minimal werden.

In einigen Versionen dieser Methode kann der Benutzer einen numerischen Wert des Kriteriums festlegen, der als Mindestabstand für die Auswahl neuer Clusterzentren interpretiert wird. Eine Beobachtung wird nicht als Kandidat für ein neues Clusterzentrum betrachtet, wenn ihr Abstand zum ersetzten Clusterzentrum die angegebene Zahl überschreitet. In einigen Programmen wird dieser Parameter „Radius“ genannt. Zusätzlich zu diesem Parameter ist es auch möglich, die maximale Anzahl der Iterationen festzulegen oder eine bestimmte, meist recht kleine Zahl zu erreichen, mit der die Abstandsänderung für alle Clusterzentren verglichen wird. Diese Einstellung wird allgemein als „Konvergenz“ bezeichnet, weil spiegelt die Konvergenz des iterativen Clustering-Prozesses wider. Nachfolgend präsentieren wir einige der Ergebnisse, die mit der McKean-K-Means-Methode für die vorherigen Daten erzielt wurden. Die Anzahl der gesuchten Cluster wurde zunächst auf 3 und dann auf 2 festgelegt. Ihr erster Teil enthält die Ergebnisse einer einseitigen Varianzanalyse, bei der die Clusteranzahl als Gruppierungsfaktor fungiert. Die erste Spalte ist eine Liste mit 12 Variablen, gefolgt von Quadratsummen (SS) und Freiheitsgraden (df), dann dem Fisher-F-Test und in der letzten Spalte das erreichte Signifikanzniveau „p“.

Tabelle 2: McKean-K-Mittelwerte, anwendbar auf 70 Testproben.

Variablen

Wie aus dieser Tabelle hervorgeht, wird die Nullhypothese über die Gleichheit der Mittelwerte in den drei Gruppen abgelehnt. Nachfolgend finden Sie eine Grafik der Mittelwerte aller Variablen für einzelne Cluster. Nachfolgend werden die gleichen Clustermittelwerte der Variablen in Tabellenform dargestellt.

Tabelle 3. Detaillierte Überprüfung der Daten am Beispiel von drei Clustern.

Variable

Cluster Nr. 1

Cluster Nr. 2

Cluster Nr. 3

Diagramm 8

Die Analyse der Durchschnittswerte der Variablen für jeden Cluster lässt den Schluss zu, dass gemäß der X1-Funktion die Cluster 1 und 3 nahe beieinander liegende Werte aufweisen, während Cluster 2 einen deutlich niedrigeren Durchschnittswert aufweist als die anderen beiden Cluster. Im Gegensatz dazu hat gemäß der X2-Funktion der erste Cluster den niedrigsten Wert, während der 2. und 3. Cluster höhere und ähnliche Durchschnittswerte aufweisen. Für die Merkmale X3-X12 sind die Mittelwerte in Cluster 1 deutlich höher als in den Clustern 2 und 3. Die folgende Tabelle der ANOVA-Analyse der Ergebnisse der Clusterung in zwei Cluster zeigt auch die Notwendigkeit, die Nullhypothese über die Gleichheit abzulehnen der Gruppenmittelwerte für fast alle 12 Merkmale, mit Ausnahme der Variablen X4, für die sich herausstellte, dass das erreichte Signifikanzniveau mehr als 5 % betrug.

Tabelle 4. Tabelle der Streuungsanalyse der Ergebnisse der Clusterung in zwei Cluster.

Variablen

Nachfolgend finden Sie eine Grafik und eine Tabelle der Gruppenmittelwerte für den Fall der Clusterbildung in zwei Cluster.

Tabelle 5. Tabelle für den Fall der Clusterung in zwei Cluster.

Variablen

Cluster Nr. 1

Cluster Nr. 2

Diagramm 9.

Für den Fall, dass der Forscher nicht in der Lage ist, die wahrscheinlichste Anzahl von Clustern im Voraus zu bestimmen, ist er gezwungen, die Berechnungen zu wiederholen und eine andere Zahl festzulegen, ähnlich wie oben beschrieben. Wenn Sie dann die erhaltenen Ergebnisse miteinander vergleichen, bleiben Sie bei einer der akzeptablen Clustering-Optionen stehen.

4 . CLUSTERUNG VON FUNKTIONEN

Neben der Clusterung einzelner Beobachtungen gibt es auch Feature-Clustering-Algorithmen. Eine der ersten Methoden dieser Art ist die Methode der Korrelationsplejaden Terentiev P.V. Primitive Bilder solcher Plejaden finden sich oft in biomedizinischen Veröffentlichungen in Form eines Kreises mit gepunkteten Pfeilen, die Zeichen verbinden, für die die Autoren eine Korrelation gefunden haben. Eine Reihe von Programmen zum Clustern von Objekten und Features verfügen über separate Verfahren. Beispielsweise wird im SAS-Paket für Feature-Clustering die VARCLUS-Prozedur (von VARiable – Variable und CLUSter – Cluster) verwendet, während die Clusteranalyse von Beobachtungen von anderen Prozeduren – FASTCLUS und CLUSTER – durchgeführt wird. Die Erstellung eines Dendrogramms erfolgt in beiden Fällen mit dem TREE-Verfahren (Baum).

In anderen Statistikpaketen erfolgt die Auswahl der Elemente für die Clusterbildung – Objekte oder Features – im selben Modul. Als Metrik für die Merkmalsclusterung werden häufig Ausdrücke verwendet, die den Wert bestimmter Koeffizienten enthalten, die die Stärke der Beziehung für ein Merkmalspaar widerspiegeln. In diesem Fall ist es für Zeichen mit einer Verbindungsstärke gleich eins (funktionale Abhängigkeit) sehr praktisch, den Abstand zwischen den Zeichen gleich Null anzunehmen. Tatsächlich kann bei einer funktionalen Verbindung der Wert eines Merkmals den Wert eines anderen Merkmals genau berechnen. Mit abnehmender Stärke der Beziehung zwischen den Zeichen nimmt der Abstand entsprechend zu. Unten sehen Sie eine Grafik, die ein Dendrogramm der Kombination von 12 Merkmalen zeigt, die oben beim Clustering von 70 Analyseproben verwendet wurden.

Grafik 10. DendrogrammClustering von 12 Funktionen.

Wie aus diesem Dendrogramm ersichtlich ist, haben wir es mit zwei lokalen Gruppierungen von Merkmalen zu tun: X1–X10 und Hier sehen wir auch einige interne gepaarte Untergruppen: X1 und X2, X3 und X4, X6 und X7. Der Abstand zwischen den Merkmalen dieser Paare, der sehr nahe bei Null liegt, weist auf ihre starke Paarbeziehung hin. Für das Paar X11 und X12 hingegen ist der Wert des Clusterabstands viel größer und beträgt etwa 300 Einheiten. Schließlich weist ein sehr großer Abstand zwischen dem linken (X1-X10) und rechten (X11-X12) Cluster, der etwa 1150 Einheiten entspricht, darauf hin, dass die Beziehung zwischen diesen beiden Merkmalsgruppen recht minimal ist.

5. STABILITÄT UND QUALITÄT DER CLUSTERUNG

Natürlich wäre es absurd, die Frage zu stellen, wie absolut diese oder jene mit Hilfe von Clusteranalysemethoden gewonnene Klassifizierung ist. Wenn die Clustering-Methode geändert wird, zeigt sich die Stabilität darin, dass auf den Dendrogrammen zwei Cluster recht deutlich sichtbar sind.

Als eine der möglichen Möglichkeiten, die Stabilität der Ergebnisse der Clusteranalyse zu überprüfen, kann die Methode des Vergleichs der für verschiedene Clustering-Algorithmen erhaltenen Ergebnisse verwendet werden. Andere Möglichkeiten sind die sogenannte Bootstrap-Methode, die 1977 von B. Efron vorgeschlagen wurde, die „Jackknife“- und „Sliding Control“-Methoden. Die einfachste Möglichkeit, die Stabilität einer Clusterlösung zu überprüfen, kann darin bestehen, die Ausgangsstichprobe zufällig in zwei ungefähr gleiche Teile zu teilen, beide Teile zu gruppieren und dann die Ergebnisse zu vergleichen. Ein zeitaufwändigerer Weg besteht darin, das erste Objekt zu Beginn sequentiell auszuschließen und die verbleibenden (N – 1) Objekte zu gruppieren. Darüber hinaus erfolgt die sequentielle Durchführung dieses Verfahrens mit Ausnahme des zweiten, dritten usw. Objekte wird die Struktur aller N erhaltenen Cluster analysiert. Ein weiterer Algorithmus zur Überprüfung der Stabilität umfasst die Mehrfachreproduktion, die Vervielfältigung der ursprünglichen Stichprobe von N Objekten, die anschließende Kombination aller duplizierten Stichproben zu einer großen Stichprobe (Pseudo-Gesamtpopulation) und die zufällige Extraktion einer neuen Stichprobe von N Objekten daraus. Danach wird diese Stichprobe geclustert, dann wird eine neue Zufallsstichprobe gezogen und erneut ein Clustering durchgeführt usw. Es ist auch ziemlich arbeitsintensiv.

Nicht weniger Probleme gibt es bei der Beurteilung der Qualität des Clusterings. Es sind zahlreiche Algorithmen zur Optimierung von Clusterlösungen bekannt. Die ersten Arbeiten, die Formulierungen des Kriteriums zur Minimierung der Intracluster-Varianz und einen Algorithmus (vom Typ k-means) zum Finden der optimalen Lösung enthielten, erschienen in den 50er Jahren. Im Jahr 1963 Der Artikel von J. Ward stellte auch einen ähnlichen hierarchischen Optimierungsalgorithmus vor. Es gibt kein universelles Kriterium für die Optimierung einer Clusterlösung. All dies macht es für den Forscher schwierig, die optimale Lösung zu wählen. In einer solchen Situation ist der beste Weg, um zu behaupten, dass die gefundene Clusterlösung in diesem Stadium der Studie optimal ist, nur die Konsistenz dieser Lösung mit den Schlussfolgerungen, die mit anderen Methoden der multivariaten Statistik gewonnen wurden.

Für die Schlussfolgerung über die Optimalität des Clusterings sprechen auch positive Ergebnisse der Überprüfung der Vorhersagemomente der erhaltenen Lösung bereits an anderen Untersuchungsobjekten. Bei der Verwendung hierarchischer Methoden der Clusteranalyse können wir empfehlen, mehrere Diagramme der schrittweisen Änderungen des Intercluster-Abstands miteinander zu vergleichen. In diesem Fall sollte der Option der Vorzug gegeben werden, bei der vom ersten Schritt bis zu mehreren vorletzten Schritten eine flache Linie eines solchen Inkrements mit einem starken vertikalen Anstieg in diesem Diagramm bei den letzten 1-2 Schritten der Clusterbildung beobachtet wird.

SCHLUSSFOLGERUNGEN

In meiner Arbeit habe ich versucht, nicht nur die Komplexität dieser Art der Analyse aufzuzeigen, sondern auch die optimalen Datenverarbeitungsmöglichkeiten, denn für die Genauigkeit der Ergebnisse muss man oft Dutzende bis Hunderte von Proben verwenden. Diese Art der Analyse hilft, die Ergebnisse einzuordnen und aufzubereiten. Für nicht unwichtig halte ich auch die Akzeptanz von Computertechnologien bei dieser Analyse, die es ermöglicht, den Prozess der Ergebnisverarbeitung weniger zeitaufwändig zu gestalten und so der Korrektheit der Probenentnahme für die Analyse mehr Aufmerksamkeit zu schenken.

Beim Einsatz der Clusteranalyse treten solche Feinheiten und Details auf, die im Einzelfall auftreten und nicht sofort sichtbar sind. Beispielsweise kann der Umfang der Merkmale eine minimale Rolle spielen und in manchen Fällen eine dominierende Rolle spielen. In solchen Fällen ist es notwendig, Variablentransformationen zu verwenden. Dies ist besonders effektiv, wenn Methoden verwendet werden, die nichtlineare Merkmalstransformationen erzeugen, die im Allgemeinen den Gesamtgrad der Korrelationen zwischen Merkmalen erhöhen.

Noch spezifischer ist der Einsatz der Clusteranalyse in Bezug auf Objekte, die nur durch qualitative Merkmale beschrieben werden. In diesem Fall sind Methoden der vorläufigen Digitalisierung qualitativer Merkmale und der Clusteranalyse mit neuen Merkmalen recht erfolgreich. In meiner Arbeit habe ich gezeigt, dass die Clusteranalyse sowohl bei ihrer Anwendung in ausreichend untersuchten Systemen als auch bei der Untersuchung von Systemen mit unbekannter Struktur viele neue und originelle Informationen liefert.

Es sollte auch beachtet werden, dass die Clusteranalyse in der Evolutionsforschung unverzichtbar geworden ist und die Konstruktion phylogenetischer Bäume ermöglicht, die Evolutionspfade zeigen. Diese Methoden werden auch häufig in wissenschaftlichen Forschungsprogrammen der physikalischen und analytischen Chemie eingesetzt.

LITERATURVERZEICHNIS

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. Zur Struktur und zum Inhalt des Softwarepakets für angewandte statistische Analyse//Algorithmen und Software für angewandte statistische Analyse.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. Klassifikation mehrdimensionaler Beobachtungen.--M.: Statistik, 1974.

3) Becker V. A., Lukatskaya M. L. Zur Analyse der Struktur der Matrix der Kopplungskoeffizienten//Fragen der wirtschaftlichen und statistischen Modellierung und Prognose in der Industrie.-- Nowosibirsk, 1970.

4) Braverman E. M., Muchnik I. B. Strukturelle Methoden der Datenverarbeitung. – M.: Nauka, 1983.

5) Voronin Yu. A. Klassifikationstheorie und ihre Anwendungen. – Nowosibirsk: Nauka, 1987.

6) Gute I. J. Botryologie der Botryologie//Klassifikation und Cluster.--M.: Mir, 1980.

7) Dubrovsky S. A. Angewandte multivariate statistische Analyse. – M.: Finanzen und Statistik, 1982.

8) Duran N., Odell P. Clusteranalyse. – M.: Statistics, 1977.

9) Eliseeva I. I., Rukavishnikov V. S. Gruppierung, Korrelation, Mustererkennung.--M.: Statistik, 1977.

10) Zagoruiko N. G. Erkennungsmethoden und ihre Anwendung.--M.: Sowjetischer Rundfunk, 1972.

11) Zade L. A. Fuzzy-Sets und ihre Anwendung in der Mustererkennung und Clusteranalyse//Klassifizierung und Cluster. – M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. Mehrdimensionale Gruppierungen.--M.: Statistik, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA Über eine Möglichkeit, die Gültigkeit der Partitionierung in der Clusteranalyse zu überprüfen.//Anwendung der multivariaten statistischen Analyse in der Wirtschaft und Bewertung der Produktqualität.--Kap. P. Tartu, 1977.

14) Shurygin A. M. Verteilung von Interpunktabständen und -differenzen // Software- und Algorithmusunterstützung für angewandte mehrdimensionale statistische Analyse.--M., 1983.

15) Eeremaa R. Allgemeine Theorie des Entwurfs von Clustersystemen und Algorithmen zum Finden ihrer numerischen Darstellungen: Proceedings of the Computing Center of TSU. – Tartu, 1978.

16) Yastremsky B.S. Selected Works.--M.: Statistics, 1964.

Ähnliche Dokumente

    Die Ziele der Marktsegmentierung in Marketingaktivitäten. Das Wesen der Clusteranalyse, die Hauptphasen ihrer Umsetzung. Wählen Sie aus, wie der Abstand oder das Ähnlichkeitsmaß gemessen werden soll. Hierarchische, nicht hierarchische Clustering-Methoden. Beurteilung der Zuverlässigkeit und Zuverlässigkeit.

    Bericht, hinzugefügt am 02.11.2009

    Die wichtigsten Indikatoren für die Finanzlage des Unternehmens. Krise im Unternehmen, ihre Ursachen, Arten und Folgen. Moderne Methoden und Werkzeuge der Clusteranalyse, Merkmale ihres Einsatzes zur finanziellen und wirtschaftlichen Bewertung des Unternehmens.

    Dissertation, hinzugefügt am 09.10.2013

    Führen Sie Clusteranalysen von Unternehmen mit Statgraphics Plus durch. Konstruktion einer linearen Regressionsgleichung. Berechnung von Elastizitätskoeffizienten durch Regressionsmodelle. Beurteilung der statistischen Signifikanz der Gleichung und des Bestimmtheitsmaßes.

    Aufgabe, hinzugefügt am 16.03.2014

    Konstruktion typologischer Regressionen für einzelne Beobachtungsgruppen. Raumdaten und zeitliche Informationen. Anwendungsbereich der Clusteranalyse. Das Konzept der Homogenität von Objekten, Eigenschaften der Distanzmatrix. Durchführung einer typologischen Regression.

    Präsentation, hinzugefügt am 26.10.2013

    Erstellung kombinierter Modelle und Methoden als moderne Art der Prognose. Ein ARIMA-basiertes Modell zur Beschreibung stationärer und instationärer Zeitreihen zur Lösung von Clustering-Problemen. Autoregressive AR-Modelle und Anwendung von Korrelogrammen.

    Präsentation, hinzugefügt am 01.05.2015

    Merkmale verschiedener Arten von Metriken. Methode des nächsten Nachbarn und ihre Verallgemeinerungen. Algorithmus für den nächsten Nachbarn. Parzen-Fenstermethode. Verallgemeinerter Metrikklassifikator. Das Problem der Auswahl einer Metrik. Manhattan und euklidische Distanz. Kosinusmaß.

    Hausarbeit, hinzugefügt am 03.08.2015

    Merkmale der Bauindustrie der Region Krasnodar. Prognose der Entwicklung des Wohnungsbaus. Moderne Methoden und Werkzeuge der Clusteranalyse. Mehrdimensionale statistische Methoden zur Diagnose der wirtschaftlichen Lage eines Unternehmens.

    Dissertation, hinzugefügt am 20.07.2015

    Merkmale der Hypothekendarlehen am Beispiel der Region Brjansk. Überblick über mathematische Methoden der Entscheidungsfindung: Expertenbewertungen, sequentielle und paarweise Vergleiche, Analyse von Hierarchien. Entwicklung eines Suchprogramms für den optimalen Hypothekenkredit.

    Hausarbeit, hinzugefügt am 29.11.2012

    Anwendungsgebiete der Systemanalyse, ihr Platz, ihre Rolle, Ziele und Funktionen in der modernen Wissenschaft. Das Konzept und der Inhalt der Methoden der Systemanalyse, ihre informellen Methoden. Merkmale heuristischer und Expertenforschungsmethoden und Merkmale ihrer Anwendung.

    Hausarbeit, hinzugefügt am 20.05.2013

    Entwicklung und Erforschung ökonometrischer Methoden unter Berücksichtigung der Besonderheiten wirtschaftlicher Daten und im Einklang mit den Bedürfnissen der Wirtschaftswissenschaft und -praxis. Anwendung ökonometrischer Methoden und Modelle zur statistischen Analyse wirtschaftlicher Daten.

Dieses Buch widmet sich nur einem der vielversprechendsten Ansätze zur Analyse mehrdimensionaler Prozesse und Phänomene in diesem Sinne – der Clusteranalyse.

Die Clusteranalyse ist eine Methode zur Gruppierung mehrdimensionaler Objekte, die auf der Darstellung der Ergebnisse einzelner Beobachtungen durch Punkte eines geeigneten geometrischen Raums und der anschließenden Auswahl von Gruppen als „Klumpen“ dieser Punkte basiert. Tatsächlich bedeutet „Cluster“ (Cluster) im Englischen „Gerinnsel“, „Weintraube“, „Cluster (von Sternen)“ usw. Dieser Begriff passt ungewöhnlich gut in die wissenschaftliche Terminologie, da seine erste Silbe der Tradition entspricht Begriff „Klasse“, und der zweite weist sozusagen auf seinen künstlichen Ursprung hin. Wir haben keinen Zweifel daran, dass die Terminologie der Clusteranalyse alle bisher für diesen Zweck verwendeten Konstrukte (unüberwachte Mustererkennung, Stratifizierung, Taxonomie, automatische Klassifizierung usw.) ersetzen wird. Die potenziellen Möglichkeiten der Clusteranalyse liegen auf der Hand, um beispielsweise die Probleme zu lösen, Gruppen von Unternehmen zu identifizieren, die unter ähnlichen Bedingungen oder mit ähnlichen Ergebnissen arbeiten, homogene Bevölkerungsgruppen in verschiedenen Lebensbereichen oder Lebensstil im Allgemeinen usw.

Als wissenschaftliche Richtung erklärte sich die Clusteranalyse Mitte der 60er Jahre und entwickelte sich seitdem rasant zu einem der Zweige des intensivsten Wachstums der statistischen Wissenschaft. Es genügt zu sagen, dass nur die Anzahl der bisher in verschiedenen Ländern veröffentlichten Monographien zur Clusteranalyse in Hunderten gemessen wird (während, sagen wir, nach einer so „verdienten“ Methode der multivariaten statistischen Analyse wie Faktorenanalyse, es ist kaum möglich, mehrere Dutzend Bücher zu zählen). Und das ist durchaus verständlich. Schließlich geht es tatsächlich um die Modellierung der Gruppierungsoperation, eine der wichtigsten nicht nur in der Statistik, sondern allgemein – sowohl bei der Erkenntnis als auch bei der Entscheidungsfindung.

In unserem Land wurde eine Reihe von Monographien veröffentlicht, die sich mit der Untersuchung spezifischer sozioökonomischer Probleme mithilfe der Clusteranalyse (1), der Methodik für den Einsatz der Clusteranalyse in der sozioökonomischen Forschung (2) und der Methodik der Clusteranalyse als solcher befassen ( 3) (Grundlagen der statistischen Analyse)

Das vorgeschlagene Buch von I.D. Mandel steht gewissermaßen senkrecht zu dieser Klassifizierung: Sein Inhalt ist mit jedem dieser drei Bereiche verbunden.

Ziel des Buches ist es, den aktuellen Stand der Clusteranalyse zusammenzufassen, die Einsatzmöglichkeiten und Aufgaben der Weiterentwicklung zu analysieren. Diese Idee an sich kann nur Respekt hervorrufen: Eine unvoreingenommene Analyse und Verallgemeinerung erfordert viel Arbeit, Gelehrsamkeit und Mut und wird von der wissenschaftlichen Gemeinschaft viel niedriger bewertet als die Förderung und Entwicklung eigener Entwürfe. (Das Buch enthält jedoch auch die ursprünglichen Entwicklungen des Autors im Zusammenhang mit der „intensionalen“ Analyse und der Dualität von Klassifikationen.)

Mit der Verwirklichung dieses Ziels sind sowohl die Vorteile des Buches als auch seine Mängel verbunden. Zu den Vorteilen sollten gehören:

· methodische Untersuchung der Konzepte der Homogenität, Gruppierung und Klassifizierung unter Berücksichtigung der Mehrdimensionalität von Phänomenen und Prozessen;

· eine systematische Überprüfung von Ansätzen und Methoden der Clusteranalyse (einschließlich bis zu 150 spezifischer Algorithmen);

· Präsentation der Technologie und Ergebnisse des experimentellen Vergleichs von Clusteranalyseverfahren; Dieses Buch widmet sich nur einem der vielversprechendsten Ansätze zur Analyse mehrdimensionaler Prozesse und Phänomene in diesem Sinne – der Clusteranalyse.

Die Clusteranalyse ist eine Methode zur Gruppierung mehrdimensionaler Objekte, die auf der Darstellung der Ergebnisse einzelner Beobachtungen durch Punkte eines geeigneten geometrischen Raums und der anschließenden Auswahl von Gruppen als „Klumpen“ dieser Punkte basiert. Tatsächlich bedeutet „Cluster“ (Cluster) im Englischen „Gerinnsel“, „Weintraube“, „Cluster (von Sternen)“ usw. Dieser Begriff hat sich ungewöhnlich gut in die wissenschaftliche Terminologie eingepasst, da seine erste Silbe dem entspricht traditioneller Begriff „Klasse“, und der zweite weist sozusagen auf seinen künstlichen Ursprung hin. Wir haben keinen Zweifel daran, dass die Terminologie der Clusteranalyse alle bisher für diesen Zweck verwendeten Konstrukte (unüberwachte Mustererkennung, Stratifizierung, Taxonomie, automatische Klassifizierung usw.) ersetzen wird. Die potenziellen Möglichkeiten der Clusteranalyse liegen auf der Hand, um beispielsweise die Probleme zu lösen, Gruppen von Unternehmen zu identifizieren, die unter ähnlichen Bedingungen oder mit ähnlichen Ergebnissen arbeiten, homogene Bevölkerungsgruppen in verschiedenen Lebensbereichen oder Lebensstil im Allgemeinen usw.

Als wissenschaftliche Richtung erklärte sich die Clusteranalyse Mitte der 60er Jahre und entwickelte sich seitdem rasant zu einem der Zweige des intensivsten Wachstums der statistischen Wissenschaft. Es genügt zu sagen, dass nur die Anzahl der Monographien zur Clusteranalyse, die Entwicklung allgemeiner Schemata für die Verwendung von Clusteranalysemethoden, umgesetzt in ziemlich anschaulichen Tabellen; Empfehlungscharakter der Präsentation.

Diese Vorteile bestimmen die eigenständige Stellung des Buches von I. D. Mandel unter anderen Veröffentlichungen.

Die Mängel des Buches sind die Mehrdeutigkeit einiger Empfehlungen und das Fehlen einer systematischen Analyse der Probleme beim Einsatz von Clusteranalysemethoden in sozioökonomischen Fachanwendungen. Letzteres ist zwar auf den unzureichenden Einsatz der Clusteranalyse in diesem Bereich zurückzuführen.

Das Buch bietet ein Sprungbrett, dessen Nutzung den Fortschritt in der schwierigsten Frage jeder Theorie erleichtert – der praktischen Anwendung der darin bereitgestellten Werkzeuge.

B. G. Mirkin

Universität: VZFEI

Jahr und Stadt: Moskau 2008


1. Einleitung. Das Konzept der Clusteranalysemethode.

2. Beschreibung der Methodik zur Anwendung der Clusteranalyse. Kontrollbeispiel zur Problemlösung.

4. Liste der verwendeten Literatur

  1. Einführung. Das Konzept der Clusteranalysemethode.

Bei der Clusteranalyse handelt es sich um eine Reihe von Methoden, die die Klassifizierung mehrdimensionaler Beobachtungen ermöglichen, die jeweils durch eine Reihe von Merkmalen (Parametern) X1, X2, ..., Xk beschrieben werden.

Der Zweck der Clusteranalyse ist die Bildung von Gruppen einander ähnlicher Objekte, die üblicherweise als Cluster (Klasse, Taxon, Konzentration) bezeichnet werden.

Die Clusteranalyse ist einer der Bereiche der statistischen Forschung. Sie nimmt einen besonders wichtigen Platz in den Wissenschaftszweigen ein, die mit der Erforschung von Massenphänomenen und -prozessen verbunden sind. Die Notwendigkeit der Entwicklung von Clusteranalysemethoden und ihrer Verwendung ergibt sich aus der Tatsache, dass sie dazu beitragen, wissenschaftlich fundierte Klassifikationen zu erstellen und interne Beziehungen zwischen Einheiten der beobachteten Population zu identifizieren. Darüber hinaus können Methoden der Clusteranalyse zur Komprimierung von Informationen eingesetzt werden, was angesichts der stetig zunehmenden und komplexeren statistischen Datenflüsse ein wichtiger Faktor ist.

Methoden der Clusteranalyse ermöglichen die Lösung folgender Probleme:

Durchführung der Klassifizierung von Objekten unter Berücksichtigung der Merkmale, die das Wesen und die Natur von Objekten widerspiegeln. Die Lösung eines solchen Problems führt in der Regel zu einer Vertiefung des Wissens über die Gesamtheit der zu klassifizierenden Objekte;

Überprüfung der getroffenen Annahmen über das Vorhandensein einer Struktur in der untersuchten Menge von Objekten, d.h. Suche nach einer vorhandenen Struktur;

Konstruktion neuer Klassifikationen für wenig untersuchte Phänomene, wenn es notwendig ist, das Vorhandensein von Verbindungen innerhalb der Bevölkerung festzustellen und zu versuchen, ihr eine Struktur zu verleihen (1. S. 85-86).

2. Beschreibung der Methodik zur Anwendung der Clusteranalyse. Kontrollbeispiel zur Problemlösung.

Mit der Clusteranalyse können Sie aus n Objekten, die durch k Merkmale gekennzeichnet sind, eine Aufteilung in homogene Gruppen (Cluster) bilden. Die Homogenität von Objekten wird durch den Abstand p(xi xj) bestimmt, wobei xi = (xi1, …., xik) und xj= (xj1,…,xjk) Vektoren sind, die aus den Werten von k Attributen des i bestehen -tes bzw. j-tes Objekt.

Für Objekte, die durch numerische Merkmale gekennzeichnet sind, wird die Entfernung durch die folgende Formel bestimmt:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Objekte gelten als homogen, wenn p(xi xj)< p предельного.

Eine grafische Darstellung der Vereinigung kann mithilfe eines Cluster-Vereinigungsbaums – einem Dendrogramm – erhalten werden. (2. Kapitel 39).

Testfall (Beispiel 92).

Umsatzvolumen

Lassen Sie uns diese Objekte nach dem „Near Neighbor“-Prinzip klassifizieren. Lassen Sie uns die Abstände zwischen Objekten mithilfe der Formel (1)* ermitteln. Füllen wir die Tabelle aus.

Lassen Sie uns erklären, wie die Tabelle gefüllt wird.

Am Schnittpunkt von Zeile i und Spalte j wird der Abstand p(xi xj) angegeben (das Ergebnis wird auf zwei Nachkommastellen aufgerundet).

Beispielsweise wird am Schnittpunkt von Zeile 1 und Spalte 3 der Abstand p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5,10 angegeben, und am Schnittpunkt von Zeile 3 und Spalte 5, der Abstand p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6,08. Da p(xi, xj) = p(xj,xi) muss der untere Teil der Tabelle nicht ausgefüllt werden.

Wenden wir das „Near Neighbor“-Prinzip an. Wir finden in der Tabelle den kleinsten der Abstände (wenn es mehrere davon gibt, dann wählen wir einen davon). Das ist p 1,2 ≈ p 4,5 = 2,24. Sei p min = p 4,5 = 2,24. Dann können wir die Objekte 4 und 5 zu einer Gruppe zusammenfassen, d. h. die kombinierte Spalte 4 und 5 enthält die kleinste der entsprechenden Anzahlen der Spalten 4 und 5 der ursprünglichen Distanztabelle. Dasselbe machen wir mit den Zeilen 4 und 5. Wir bekommen eine neue Tabelle.

In der resultierenden Tabelle finden wir den kleinsten der Abstände (wenn es mehrere davon gibt, wählen wir einen davon): ð min = ð 1,2 = 2,24. Dann können wir die Objekte 1,2,3 zu einer Gruppe zusammenfassen, d. h. die kombinierte Spalte 1,2,3 enthält die kleinste der entsprechenden Anzahlen der Spalten 1 und 2 und 3 der vorherigen Distanztabelle. Dasselbe machen wir mit den Zeilen 1 und 2 und 3. Wir erhalten eine neue Tabelle.

Wir haben zwei Cluster: (1,2,3) und (4,5).

3. Lösen von Problemen für die Kontrollarbeit.

Aufgabe 85.

Bedingungen: Fünf Produktionsstätten zeichnen sich durch zwei Merkmale aus: Umsatzvolumen und durchschnittliche jährliche Kosten des Anlagevermögens.

Umsatzvolumen

Durchschnittliche jährliche Kosten des Anlagevermögens der Produktion

Lösung: Lassen Sie uns die Abstände zwischen Objekten mithilfe der Formel (1)* ermitteln (wir runden auf zwei Dezimalstellen):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1,2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3,61

p 1,3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2,2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2,3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 \u003d √ (7-12) 2 + (10-8) 2 ≈5,39

p 3,5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7,81

p 4,5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3,16

Basierend auf den Ergebnissen der Berechnungen füllen wir die Tabelle aus:

Wenden wir das Prinzip des nächsten Nachbarn an. Dazu suchen wir in der Tabelle den kleinsten der Abstände (wenn es mehrere davon gibt, dann wählen wir einen davon aus). Das ist p 2,3=2,24. Sei p min = p 2,3 = 2,24, dann können wir die Objekte der Spalten „2“ und „3“ kombinieren und auch die Zeilen der Objekte „2“ und „3“. In der neuen Tabelle tragen wir die kleinsten Werte aus der Originaltabelle in die zusammengefassten Gruppen ein.

In der neuen Tabelle finden wir den kleinsten der Abstände (wenn es mehrere davon gibt, dann wählen wir einen davon aus). Das ist p 4,5=3,16. Sei p min = p 4,5 = 3,16, dann können wir die Objekte der Spalten „4“ und „5“ kombinieren und auch die Zeilen der Objekte „4“ und „5“. In der neuen Tabelle tragen wir die kleinsten Werte aus der Originaltabelle in die zusammengefassten Gruppen ein.

In der neuen Tabelle finden wir den kleinsten der Abstände (wenn es mehrere davon gibt, dann wählen wir einen davon aus). Dies sind p 1, 2 und 3=3,61. Sei p min = p 1, 2 und 3 = 3,61, dann können wir die Spaltenobjekte „1“ und „2 und 3“ zusammenführen und auch Zeilen zusammenführen. In der neuen Tabelle tragen wir die kleinsten Werte aus der Originaltabelle in die zusammengefassten Gruppen ein.

Wir erhalten zwei Cluster: (1,2,3) und (4,5).

Das Dendrogramm zeigt die Reihenfolge der Auswahl der Elemente und die entsprechenden Mindestabstände pmin.

Antworten: Als Ergebnis der Clusteranalyse nach dem Prinzip des „nächsten Nachbarn“ werden 2 Cluster einander ähnlicher Objekte gebildet: (1,2,3) und (4,5).

Aufgabe 211.

Bedingungen: Fünf Produktionsstätten zeichnen sich durch zwei Merkmale aus: Umsatzvolumen und durchschnittlicher Jahreswert des Anlagevermögens.

Umsatzvolumen

Durchschnittliche jährliche Kosten des Anlagevermögens der Produktion

Klassifizieren Sie diese Objekte nach dem Prinzip des nächsten Nachbarn.

Lösung: Um das Problem zu lösen, stellen wir die Daten in der Originaltabelle dar. Lassen Sie uns die Abstände zwischen Objekten bestimmen. Wir klassifizieren Objekte nach dem „Nächste-Nachbarn“-Prinzip. Die Ergebnisse werden in Form eines Dendrogramms dargestellt.

Umsatzvolumen

Durchschnittliche jährliche Kosten des Anlagevermögens der Produktion

Mit Formel (1)* ermitteln wir die Abstände zwischen Objekten:

p 1,1 = 0, p 1,2 = 6, p 1,3 = 8,60, p 1,4 = 6,32, p 1,5 = 6,71, p 2,2 = 0, p 2,3 = 7,07, p 2,4 = 2, p 2,5 = 3,32, p 3,3 = 0, p 3,4 = 5,10, p 3,5 = 4,12, p 4,4=0, p4,5=1, p5,5=0.

Die Ergebnisse sind in der Tabelle dargestellt:

Der kleinste Wert der Abstände in der Tabelle ist p 4,5=1. Sei p min = p 4,5 = 1, dann können wir die Objekte der Spalten „4“ und „5“ kombinieren und auch die Zeilen der Objekte „4“ und „5“. In der neuen Tabelle tragen wir die kleinsten Werte aus der Originaltabelle in die zusammengefassten Gruppen ein.

Der kleinste Wert der Abstände in der neuen Tabelle ist p 2, 4 und 5=2. Sei p min = p 2, 4 und 5=2, dann können wir die Objekte der Spalten „4 und 5“ und „3“ kombinieren und auch die Zeilen der Objekte „4 und 5“ und „3“. In der neuen Tabelle tragen wir die kleinsten Werte aus der Tabelle in die zusammengefassten Gruppen ein.

Der kleinste Wert der Abstände in der neuen Tabelle ist p 3,4,5=2. Sei p min = p 3,4,5=2, dann können wir die Objekte der Spalten „3,4,5“ und „2“ kombinieren und auch die Zeilen der Objekte „3,4,5“ und „ 2". In der neuen Tabelle tragen wir die kleinsten Werte aus der Tabelle in die zusammengefassten Gruppen ein.

oder melden Sie sich auf der Website an.

Wichtig! Alle hier zum kostenlosen Download angebotenen Testarbeiten dienen der Erstellung eines Plans bzw. einer Grundlage für die eigene wissenschaftliche Arbeit.

Freunde! Sie haben die einmalige Gelegenheit, Studierenden wie Ihnen zu helfen! Wenn unsere Website Ihnen dabei geholfen hat, den richtigen Job zu finden, dann verstehen Sie sicherlich, wie die von Ihnen hinzugefügte Arbeit die Arbeit anderer erleichtern kann.

Wenn die Kontrollarbeit Ihrer Meinung nach von schlechter Qualität ist oder Sie diese Arbeit bereits kennengelernt haben, teilen Sie uns dies bitte mit.

CLUSTERANALYSE IN DEN PROBLEMEN DER SOZIOÖKONOMISCHEN PROGNOSE

Einführung in die Clusteranalyse.

Bei der Analyse und Prognose sozioökonomischer Phänomene stößt der Forscher häufig auf die Mehrdimensionalität ihrer Beschreibung. Dies geschieht bei der Lösung des Problems der Marktsegmentierung, beim Aufbau einer Ländertypologie anhand einer ausreichend großen Anzahl von Indikatoren, bei der Vorhersage der Marktsituation für einzelne Güter, bei der Untersuchung und Vorhersage wirtschaftlicher Depressionen und bei vielen anderen Problemen.

Methoden der multivariaten Analyse sind das effektivste quantitative Instrument zur Untersuchung sozioökonomischer Prozesse, die durch eine Vielzahl von Merkmalen beschrieben werden. Dazu gehören Clusteranalyse, Taxonomie, Mustererkennung und Faktorenanalyse.

Die Clusteranalyse spiegelt am deutlichsten die Merkmale der multivariaten Analyse in der Klassifikation, der Faktorenanalyse – im Studium der Kommunikation – wider.

Manchmal wird der Ansatz der Clusteranalyse in der Literatur auch als numerische Taxonomie, numerische Klassifikation, selbstlernende Erkennung usw. bezeichnet.

Die Clusteranalyse fand ihre erste Anwendung in der Soziologie. Der Name Clusteranalyse kommt vom englischen Wort Cluster – Haufen, Ansammlung. Erstmals im Jahr 1939 wurde das Thema Clusteranalyse durch den Forscher Trion definiert und beschrieben. Der Hauptzweck der Clusteranalyse besteht darin, die Menge der untersuchten Objekte und Merkmale in Gruppen oder Cluster zu unterteilen, die im entsprechenden Sinne homogen sind. Dies bedeutet, dass das Problem der Klassifizierung von Daten und der Identifizierung der entsprechenden Struktur darin gelöst wird. Methoden der Clusteranalyse können in einer Vielzahl von Fällen angewendet werden, auch wenn es sich um eine einfache Gruppierung handelt, bei der es auf die Bildung von Gruppen durch quantitative Ähnlichkeit ankommt.

Der große Vorteil der Clusteranalyse besteht darin, dass Sie Objekte nicht nach einem Parameter, sondern nach einer ganzen Reihe von Merkmalen unterteilen können. Darüber hinaus unterliegt die Clusteranalyse im Gegensatz zu den meisten mathematischen und statistischen Methoden keiner Einschränkung hinsichtlich der Art der betrachteten Objekte und ermöglicht die Betrachtung eines Satzes von Ausgangsdaten nahezu beliebiger Natur. Dies ist beispielsweise für Konjunkturprognosen von großer Bedeutung, wenn Indikatoren unterschiedliche Formen aufweisen, die die Verwendung traditioneller ökonometrischer Ansätze erschweren.

Die Clusteranalyse ermöglicht es, eine relativ große Menge an Informationen zu berücksichtigen und große Mengen an sozioökonomischen Informationen drastisch zu reduzieren, zu komprimieren, sie kompakt und anschaulich zu machen.

Die Clusteranalyse ist von großer Bedeutung in Bezug auf Zeitreihen, die die wirtschaftliche Entwicklung charakterisieren (z. B. allgemeine Wirtschafts- und Rohstoffbedingungen). Hier ist es möglich, die Zeiträume herauszugreifen, in denen die Werte der entsprechenden Indikatoren recht nahe beieinander lagen, sowie die Gruppen von Zeitreihen zu bestimmen, deren Dynamik am ähnlichsten ist.

Die Clusteranalyse kann zyklisch eingesetzt werden. In diesem Fall wird die Studie so lange durchgeführt, bis die gewünschten Ergebnisse erreicht sind. Gleichzeitig kann jeder Zyklus hier Informationen liefern, die die Richtung und Ansätze der weiteren Anwendung der Clusteranalyse erheblich verändern können. Dieser Prozess kann als Feedbacksystem dargestellt werden.

Bei den Problemen der sozioökonomischen Prognose ist es sehr erfolgversprechend, die Clusteranalyse mit anderen quantitativen Methoden (z. B. mit der Regressionsanalyse) zu kombinieren.

Wie jede andere Methode weist auch die Clusteranalyse bestimmte Nachteile und Einschränkungen auf: Insbesondere hängt die Zusammensetzung und Anzahl der Cluster von den gewählten Partitionierungskriterien ab. Bei der Reduzierung des ursprünglichen Datenarrays auf eine kompaktere Form können gewisse Verzerrungen auftreten und auch die individuellen Merkmale einzelner Objekte können verloren gehen, da sie durch die Eigenschaften der verallgemeinerten Werte der Clusterparameter ersetzt werden. Bei der Klassifizierung von Objekten wird sehr oft die Möglichkeit des Fehlens von Clusterwerten in der betrachteten Menge ignoriert.

Bei der Clusteranalyse wird Folgendes berücksichtigt:

a) die gewählten Merkmale ermöglichen grundsätzlich die gewünschte Clusterbildung;

b) die Maßeinheiten (Skala) richtig gewählt sind.

Die Wahl des Maßstabs spielt eine große Rolle. Typischerweise werden Daten normalisiert, indem der Mittelwert subtrahiert und durch die Standardabweichung dividiert wird, sodass die Varianz gleich eins ist.

Das Problem der Clusteranalyse.

Die Aufgabe der Clusteranalyse besteht darin, die Menge der Objekte G in m (m ist eine ganze Zahl) Cluster (Teilmengen) Q1, Q2, ..., Qm aufzuteilen, basierend auf den in der Menge X enthaltenen Daten, sodass jedes Objekt Gj zu einer und nur einer Partitionsteilmenge gehört und dass die Objekte, die zum selben Cluster gehören, ähnlich sind, während die Objekte, die zu verschiedenen Clustern gehören, heterogen sind.

Nehmen wir zum Beispiel an, dass G n Länder umfasst, die jeweils durch das Pro-Kopf-BSP (F1), die Anzahl M der Autos pro 1.000 Einwohner (F2), den Stromverbrauch pro Kopf (F3), den Stahlverbrauch pro Kopf (F4) usw. gekennzeichnet sind. usw. Dann ist X1 (Messvektor) eine Menge spezifizierter Merkmale für das erste Land, X2 für das zweite, X3 für das dritte und so weiter. Die Herausforderung besteht darin, die Länder nach ihrem Entwicklungsstand aufzuschlüsseln.

Die Lösung des Problems der Clusteranalyse sind Partitionen, die ein bestimmtes Optimalitätskriterium erfüllen. Bei diesem Kriterium kann es sich um eine Funktion handeln, die den Grad der Erwünschtheit verschiedener Unterteilungen und Gruppierungen ausdrückt; diese Funktion wird als Zielfunktion bezeichnet. Als Zielfunktion kann beispielsweise die gruppeninterne Summe der quadrierten Abweichungen verwendet werden:

wobei xj die Maße des j-ten Objekts darstellt.

Um das Problem der Clusteranalyse zu lösen, ist es notwendig, das Konzept der Ähnlichkeit und Heterogenität zu definieren.

Es ist klar, dass die i-ten und j-ten Objekte in denselben Cluster fallen würden, wenn der Abstand (Abstand) zwischen den Punkten Xi und Xj klein genug wäre, und dass sie in verschiedene Cluster fallen würden, wenn dieser Abstand groß genug wäre. Das Eindringen in einen oder mehrere Cluster von Objekten wird somit durch das Konzept des Abstands zwischen Xi und Xj von Ep bestimmt, wobei Ep ein p-dimensionaler euklidischer Raum ist. Eine nichtnegative Funktion d(Xi, Xj) heißt Distanzfunktion (metrisch), wenn:

a) d(Xi , Xj) ³ 0, für alle Xi und Xj aus Ep

b) d(Xi, Xj) = 0 genau dann, wenn Xi = Xj

c) d(Xi, Xj) = d(Xj, Xi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), wobei Xj; Xi und Xk sind drei beliebige Vektoren aus Ep.

Der Wert d(Xi, Xj) für Xi und Xj wird als Abstand zwischen Xi und

Die am häufigsten verwendeten Distanzfunktionen sind:

1. Euklidischer Abstand d2(Хi , Хj) =

2. l1 - Norm d1(Хi , Хj) =

3. Supremum - Norm d¥ (Хi , Хj) = sup

k = 1, 2, ..., p

4. lp - Norm dð(Хi , Хj) =

Die euklidische Metrik ist die beliebteste. Die l1-Metrik ist am einfachsten zu berechnen. Die Supremum-Norm ist einfach zu berechnen und beinhaltet ein Ordnungsverfahren, während die LP-Norm die Distanzfunktionen 1, 2, 3, abdeckt.

Lassen Sie n Messungen X1, X2,..., Xn als p ´n Datenmatrix darstellen:

Dann kann der Abstand zwischen Vektorpaaren d(Хi , Хj) als symmetrische Abstandsmatrix dargestellt werden:

Das der Distanz entgegengesetzte Konzept ist das Konzept der Ähnlichkeit zwischen Gi-Objekten. und Gj. Eine nichtnegative reelle Funktion S(Хi ; Хj) = Sij heißt Ähnlichkeitsmaß, wenn:

1) 0 £ S(Xi , Xj)<1 для Хi¹ Хj

2) S(Хi , Хi) = 1

3) S(Xi, Xj) = S(Xj, Xi)

Paare von Ähnlichkeitsmaßwerten können zu einer Ähnlichkeitsmatrix zusammengefasst werden:

Der Wert von Sij wird Ähnlichkeitskoeffizient genannt.

1.3. Methoden der Clusteranalyse.

Heutzutage gibt es viele Methoden der Clusteranalyse. Lassen Sie uns auf einige davon näher eingehen (die unten aufgeführten Methoden werden üblicherweise als Methoden der minimalen Varianz bezeichnet).

Sei X die Beobachtungsmatrix: X = (X1, X2,..., Xu) und das Quadrat des euklidischen Abstands zwischen Xi und Xj wird durch die Formel bestimmt:

1) Die Methode der vollständigen Verbindungen.

Der Kern dieser Methode besteht darin, dass zwei Objekte, die zur gleichen Gruppe (Cluster) gehören, einen Ähnlichkeitskoeffizienten haben, der kleiner als ein bestimmter Schwellenwert S ist. In Bezug auf den euklidischen Abstand d bedeutet dies, dass der Abstand zwischen zwei Punkten (Objekten) beträgt Der Cluster sollte einen bestimmten Schwellenwert h nicht überschreiten. Somit bestimmt h den maximal zulässigen Durchmesser einer Teilmenge, die einen Cluster bildet.

2) Methode der maximalen lokalen Entfernung.

Jedes Objekt wird als Ein-Punkt-Cluster betrachtet. Objekte werden nach folgender Regel gruppiert: Zwei Cluster werden zusammengefasst, wenn der maximale Abstand zwischen den Punkten eines Clusters und den Punkten eines anderen minimal ist. Das Verfahren besteht aus n - 1 Schritten und führt zu Partitionen, die allen möglichen Partitionen der vorherigen Methode für alle Schwellenwerte entsprechen.

3) Word-Methode.

Bei dieser Methode wird die gruppeninterne Summe der quadratischen Abweichungen als Zielfunktion verwendet, die nichts anderes ist als die Summe der quadrierten Abstände zwischen jedem Punkt (Objekt) und dem Durchschnitt für den Cluster, der dieses Objekt enthält. Bei jedem Schritt werden zwei Cluster kombiniert, die zum minimalen Anstieg der Zielfunktion führen, d. h. gruppeninterne Quadratsumme. Diese Methode zielt darauf ab, eng beieinander liegende Cluster zu kombinieren.

4) Centroid-Methode.

Der Abstand zwischen zwei Clustern ist definiert als der euklidische Abstand zwischen den Mittelpunkten (Mittelwerten) dieser Cluster:

d2 ij = (`X – `Y)Т(`X – `Y) Die Clusterbildung erfolgt Schritt für Schritt bei jedem der n–1 Schritte. Kombinieren Sie zwei Cluster G und p mit dem Minimalwert d2ij. Wenn n1 viel größer als n2 ist, dann Die Vereinigungszentren zweier Cluster liegen nahe beieinander und die Eigenschaften des zweiten Clusters werden bei der Kombination von Clustern praktisch ignoriert. Manchmal wird diese Methode auch als Methode der gewichteten Gruppen bezeichnet.

1.4 Sequentielles Clustering-Algorithmus.

Betrachten Sie Ι = (Ι1, Ι2, … Ιn) als eine Menge von Clustern (Ι1), (Ι2),…(Ιn). Wählen wir zwei davon aus, zum Beispiel Ι i und Ι j, die in gewisser Weise näher beieinander liegen, und kombinieren sie zu einem Cluster. Der neue Satz von Clustern, der bereits aus n-1 Clustern besteht, wird sein:

(Ι1), (Ι2)…, (Ι i , Ι j), …, (Ιn).

Wenn wir den Vorgang wiederholen, erhalten wir aufeinanderfolgende Gruppen von Clustern, bestehend aus (n-2), (n-3), (n-4) usw. Cluster. Am Ende des Verfahrens können Sie einen Cluster erhalten, der aus n Objekten besteht und mit der Anfangsmenge Ι = (Ι1, Ι2, … Ιn) übereinstimmt.

Als Maß für den Abstand nehmen wir das Quadrat der euklidischen Metrik di j2. und berechnen Sie die Matrix D = (di j2), wobei di j2 das Quadrat des Abstands zwischen ist

Ι1 Ι2 Ι3 …. Ιn
Ι1 0 d122 d132 …. d1n2
Ι2 0 d232 …. d2n2
Ι3 0 …. d3n2
…. …. ….
Ιn 0

Der Abstand zwischen Ι i und Ι j sei minimal:

di j2 = min (di j2, i ¹ j). Mit Hilfe von Ι i und Ι j bilden wir einen neuen Cluster

(Ιi, Ιj). Konstruieren Sie eine neue ((n-1), (n-1))-Distanzmatrix

(Ι i , Ι j) Ι1 Ι2 Ι3 …. Ιn
(Ι i ; Ι j) 0 von j21 von j22 von j23 …. di j2n
Ι1 0 d122 d13 …. d12n
Ι2 0 von j21 …. d2n
Ι3 0 …. d3n
Ιn 0

(n-2) Zeilen für die letzte Matrix werden aus der vorherigen übernommen und die erste Zeile wird neu berechnet. Berechnungen können auf ein Minimum reduziert werden, wenn di j2k,k = 1, 2,…, n ausgedrückt werden kann; (k ¹ i ¹ j) durch die Elemente der ursprünglichen Matrix.

Ursprünglich wurde der Abstand nur zwischen Einzelelement-Clustern bestimmt, es ist jedoch auch notwendig, die Abstände zwischen Clustern zu bestimmen, die mehr als ein Element enthalten. Dies kann auf verschiedene Arten erfolgen und je nach gewählter Methode erhalten wir Clusteranalysealgorithmen mit unterschiedlichen Eigenschaften. Man kann zum Beispiel den Abstand zwischen Cluster i + j und einem anderen Cluster k gleich dem arithmetischen Mittel der Abstände zwischen den Clustern i und k und den Clustern j und k setzen:

di+j,k = ½ (di k + dj k).

Man kann di+j,k aber auch als das Minimum dieser beiden Abstände definieren:

di+j,k = min(di k + dj k).

Somit wird der erste Schritt der agglomerativen hierarchischen Algorithmusoperation beschrieben. Die nächsten Schritte sind die gleichen.

Eine ziemlich große Klasse von Algorithmen kann erhalten werden, wenn die folgende allgemeine Formel zur Neuberechnung von Entfernungen verwendet wird:

di+j,k = A(w) min(dik djk) + B(w) max(dik djk), wobei

A(w) = if dik £ djk

A(w) = wenn dik > djk

B(w) = if dik £ djk

B(w) = wenn dik > djk

Dabei sind ni und nj die Anzahl der Elemente in den Clustern i und j und w ist ein freier Parameter, dessen Wahl einen bestimmten Algorithmus bestimmt. Mit w = 1 erhalten wir beispielsweise den sogenannten „Average Connection“-Algorithmus, für den die Formel zur Neuberechnung von Entfernungen die Form annimmt:

di+j,k =

In diesem Fall ist der Abstand zwischen zwei Clustern bei jedem Schritt des Algorithmus gleich dem arithmetischen Mittel der Abstände zwischen allen Elementpaaren, sodass ein Element des Paares zu einem Cluster gehört, das andere zu einem anderen.

Die visuelle Bedeutung des Parameters w wird deutlich, wenn wir w®¥ einsetzen. Die Entfernungsumrechnungsformel hat die Form:

di+j,k = min(di,k djk)

Dabei handelt es sich um den sogenannten „Nearest Neighbor“-Algorithmus, der es Ihnen ermöglicht, Cluster mit beliebig komplexer Form auszuwählen, vorausgesetzt, dass verschiedene Teile solcher Cluster durch Ketten von Elementen verbunden sind, die nahe beieinander liegen. In diesem Fall ist der Abstand zwischen zwei Clustern bei jedem Schritt des Algorithmus gleich dem Abstand zwischen den beiden nächstgelegenen Elementen, die zu diesen beiden Clustern gehören.

Häufig wird davon ausgegangen, dass die anfänglichen Abstände (Differenzen) zwischen den gruppierten Elementen gegeben sind. In manchen Fällen trifft das zu. Allerdings werden nur Objekte und deren Eigenschaften spezifiziert und die Distanzmatrix auf Basis dieser Daten aufgebaut. Je nachdem, ob Abstände zwischen Objekten oder zwischen Eigenschaften von Objekten berechnet werden, kommen unterschiedliche Methoden zum Einsatz.

Bei der Clusteranalyse von Objekten ist das gebräuchlichste Differenzmaß entweder das Quadrat des euklidischen Abstands

(wobei xih, xjh die Werte des h-ten Attributs für das i-te und j-te Objekt sind und m die Anzahl der Merkmale ist) oder der euklidische Abstand selbst. Wenn Merkmalen unterschiedliche Gewichte zugewiesen werden, können diese Gewichte bei der Berechnung der Entfernung berücksichtigt werden

Manchmal wird der Abstand als Maß für die Differenz verwendet, berechnet nach der Formel:

die als „Hamming“, „Manhattan“ oder „City-Block“ bezeichnet werden.

Ein natürliches Maß für die Ähnlichkeit von Objektmerkmalen ist bei vielen Problemen der Korrelationskoeffizient zwischen ihnen

Dabei sind mi,mj,di,dj der Mittelwert und die quadratische Mittelwertabweichung für die Merkmale i bzw. j. Als Maß für den Unterschied zwischen den Merkmalen kann der Wert 1 - r dienen. Bei einigen Problemen ist das Vorzeichen des Korrelationskoeffizienten unbedeutend und hängt nur von der Wahl der Maßeinheit ab. In diesem Fall wird ô1 - ri j ô als Maß für den Unterschied zwischen den Merkmalen verwendet

1,5 Anzahl der Cluster.

Ein sehr wichtiges Thema ist das Problem der Auswahl der erforderlichen Anzahl von Clustern. Manchmal kann eine m-Anzahl von Clustern a priori ausgewählt werden. Im Allgemeinen wird diese Zahl jedoch bei der Aufteilung der Menge in Cluster ermittelt.

Studien wurden von Fortier und Solomon durchgeführt und es wurde festgestellt, dass die Anzahl der Cluster herangezogen werden muss, um die Wahrscheinlichkeit a zu ermitteln, dass die beste Partition gefunden wird. Somit ist die optimale Anzahl von Partitionen eine Funktion eines gegebenen Bruchteils b der besten oder in gewissem Sinne realisierbaren Partitionen in der Menge aller möglichen Partitionen. Die Gesamtstreuung ist umso größer, je höher der Anteil b der zulässigen Teilungen ist. Fortier und Solomon haben eine Tabelle entwickelt, aus der sich die Anzahl der benötigten Partitionen ermitteln lässt. S(a,b) abhängig von a und b (wobei a die Wahrscheinlichkeit ist, dass die beste Partition gefunden wird, b der Anteil der besten Partitionen an der Gesamtzahl der Partitionen ist) Außerdem als Maß für die Heterogenität, nicht die Streuung Es wird jedoch das von Holzenger und Harman eingeführte Mitgliedschaftsmaß verwendet. Die Tabelle der S(a,b)-Werte ist unten angegeben.

S(a,b)-Wertetabelle

b\a 0.20 0.10 0.05 0.01 0.001 0.0001
0.20 8 11 14 21 31 42
0.10 16 22 29 44 66 88
0.05 32 45 59 90 135 180
0.01 161 230 299 459 689 918
0.001 1626 2326 3026 4652 6977 9303
0.0001 17475 25000 32526 55000 75000 100000

Das Kriterium für die Kombination (Anzahl der Cluster) ist häufig die Änderung der entsprechenden Funktion. Zum Beispiel Summen quadrierter Abweichungen:

Der Gruppierungsprozess sollte dabei einem konsistenten minimalen Anstieg des Werts des Kriteriums E entsprechen. Das Vorliegen eines starken Sprungs des Werts von E kann als Merkmal der Anzahl der Cluster interpretiert werden, die objektiv in der untersuchten Population vorhanden sind.

Die zweite Möglichkeit, die beste Anzahl von Clustern zu bestimmen, besteht also darin, die Sprünge zu identifizieren, die durch den Phasenübergang von einem stark gekoppelten zu einem schwach gekoppelten Zustand von Objekten bestimmt werden.

1.6 Dendogramme.

Die bekannteste Methode zur Darstellung einer Distanz- oder Ähnlichkeitsmatrix basiert auf der Idee eines Dendogramms oder Baumdiagramms. Das Dendogramm kann als grafische Darstellung der Ergebnisse des sequentiellen Clustering-Prozesses definiert werden, der in Form einer Distanzmatrix durchgeführt wird. Mit Hilfe eines Dendogramms ist es möglich, das Clustering-Verfahren grafisch oder geometrisch darzustellen, sofern dieses Verfahren nur mit Elementen der Distanz- oder Ähnlichkeitsmatrix arbeitet.

Es gibt viele Möglichkeiten, Dendrogramme zu erstellen. Im Dendrogramm sind die Objekte links vertikal angeordnet, rechts die Clustering-Ergebnisse. Abstands- oder Ähnlichkeitswerte, die der Struktur neuer Cluster entsprechen, werden entlang einer horizontalen Geraden über Dendrogrammen angezeigt.

Abbildung 1 zeigt ein Beispiel eines Dendogramms. Abbildung 1 entspricht dem Fall von sechs Objekten (n=6) und k Merkmalen (Merkmalen). Die Objekte A und C sind am nächsten und werden daher bei einem Näherungsniveau von 0,9 zu einem Cluster zusammengefasst. Die Objekte D und E werden auf einem Niveau von 0,8 zusammengefasst. Jetzt haben wir 4 Cluster:

Die Art des Dendogramms hängt von der Wahl des Ähnlichkeitsmaßes bzw. des Abstands zwischen Objekt und Cluster sowie der Clustering-Methode ab. Der wichtigste Punkt ist die Wahl eines Ähnlichkeitsmaßes oder eines Abstandsmaßes zwischen einem Objekt und einem Cluster.

Die Anzahl der Clusteranalysealgorithmen ist zu groß. Alle von ihnen können in hierarchische und nicht hierarchische unterteilt werden.

Hierarchische Algorithmen sind mit der Konstruktion von Dendogrammen verbunden und werden unterteilt in:

a) agglomerativ, gekennzeichnet durch eine konsistente Kombination der Ausgangselemente und eine entsprechende Verringerung der Anzahl der Cluster;

b) teilbar (teilbar), bei dem die Anzahl der Cluster ausgehend von eins zunimmt, wodurch eine Folge von Spaltungsgruppen entsteht.

Clusteranalyse-Algorithmen verfügen heute über eine gute Softwareimplementierung, die die Lösung von Problemen höchster Dimension ermöglicht.

1.7 Daten

Die Clusteranalyse kann auf Intervalldaten, Frequenzen und Binärdaten angewendet werden. Wichtig ist, dass sich die Variablen auf vergleichbaren Skalen ändern.

Die Heterogenität der Maßeinheiten und die daraus resultierende Unmöglichkeit, die Werte verschiedener Indikatoren auf derselben Skala sinnvoll auszudrücken, führt dazu, dass der Abstand zwischen Punkten, der die Position von Objekten im Raum ihrer Eigenschaften widerspiegelt, ausfällt von einem willkürlich gewählten Maßstab abhängen. Um die Heterogenität der Messung der Ausgangsdaten zu beseitigen, werden alle ihre Werte vorläufig normalisiert, d.h. werden durch das Verhältnis dieser Werte zu einem bestimmten Wert ausgedrückt, der bestimmte Eigenschaften dieses Indikators widerspiegelt. Die Normalisierung von Ausgangsdaten für die Clusteranalyse erfolgt manchmal durch Division der Ausgangswerte durch die Standardabweichung der entsprechenden Indikatoren. Eine andere Möglichkeit besteht darin, den sogenannten standardisierten Beitrag zu berechnen. Er wird auch Z-Beitrag genannt.

Der Z-Beitrag zeigt, wie viele Standardabweichungen eine bestimmte Beobachtung vom Mittelwert trennt:

Dabei ist xi der Wert dieser Beobachtung, der Mittelwert und S die Standardabweichung.

Der Mittelwert für die Z-Beiträge beträgt Null und die Standardabweichung beträgt 1.

Die Standardisierung ermöglicht den Vergleich von Beobachtungen aus verschiedenen Verteilungen. Wenn die Verteilung einer Variablen normal (oder nahezu normal) ist und der Mittelwert und die Varianz bekannt sind oder anhand großer Stichproben geschätzt werden, liefert der Z-Beitrag einer Beobachtung spezifischere Informationen über deren Position.

Beachten Sie, dass Normalisierungsmethoden die Anerkennung aller Merkmale als gleichwertig im Hinblick auf die Aufklärung der Ähnlichkeit der betrachteten Objekte bedeuten. Es wurde bereits darauf hingewiesen, dass im Hinblick auf die Wirtschaft die Anerkennung der Gleichwertigkeit verschiedener Indikatoren nicht immer gerechtfertigt erscheint. Wünschenswert wäre es, neben der Normalisierung jedem der Indikatoren ein Gewicht zu geben, das seine Bedeutung bei der Feststellung von Ähnlichkeiten und Unterschieden zwischen Objekten widerspiegelt.

In dieser Situation muss man auf die Methode zur Bestimmung der Gewichte einzelner Indikatoren zurückgreifen – eine Expertenbefragung. Bei der Lösung des Problems der Klassifizierung von Ländern nach dem wirtschaftlichen Entwicklungsstand haben wir beispielsweise die Ergebnisse einer Umfrage unter 40 führenden Moskauer Experten zu den Problemen entwickelter Länder auf einer zehnstufigen Skala herangezogen:

allgemeine Indikatoren der sozioökonomischen Entwicklung - 9 Punkte;

Indikatoren der sektoralen Verteilung der Erwerbsbevölkerung - 7 Punkte;

Indikatoren für die Prävalenz von Lohnarbeit - 6 Punkte;

Indikatoren, die das menschliche Element der Produktivkräfte charakterisieren - 6 Punkte;

Indikatoren für die Entwicklung der materiellen Produktivkräfte - 8 Punkte;

Indikator für öffentliche Ausgaben - 4 Punkte;

„militärisch-ökonomische“ Indikatoren – 3 Punkte;

soziodemografische Indikatoren - 4 Punkte.

Die Schätzungen der Experten waren relativ stabil.

Expertenbewertungen bieten eine bekannte Grundlage für die Bestimmung der Bedeutung von Indikatoren, die zu einer bestimmten Gruppe von Indikatoren gehören. Die Multiplikation der normalisierten Werte von Indikatoren mit einem Koeffizienten, der der durchschnittlichen Bewertungspunktzahl entspricht, ermöglicht es, die Abstände zwischen Punkten zu berechnen, die die Position von Ländern in einem mehrdimensionalen Raum widerspiegeln, unter Berücksichtigung der ungleichen Gewichtung ihrer Merkmale.

Sehr oft werden bei der Lösung solcher Probleme nicht eine, sondern zwei Berechnungen verwendet: die erste, bei der alle Zeichen als gleichwertig betrachtet werden, die zweite, bei der sie entsprechend den Durchschnittswerten von Expertenschätzungen unterschiedliche Gewichte erhalten.

1.8. Anwendung der Clusteranalyse.

Betrachten wir einige Anwendungen der Clusteranalyse.

Die Einteilung der Länder in Gruppen entsprechend dem Entwicklungsstand.

65 Länder wurden anhand von 31 Indikatoren untersucht (Volkseinkommen pro Kopf, Anteil der in der Industrie beschäftigten Bevölkerung in %, Ersparnisse pro Kopf, Anteil der in der Landwirtschaft beschäftigten Bevölkerung in %, durchschnittliche Lebenserwartung, Anzahl der Autos pro Jahr). Tausend Einwohner, die Zahl der Streitkräfte pro 1 Million Einwohner, der Anteil des BIP der Industrie in %, der Anteil des BIP der Landwirtschaft in %, usw.)

Jedes der Länder fungiert in dieser Betrachtung als Objekt, das durch bestimmte Werte von 31 Indikatoren gekennzeichnet ist. Dementsprechend können sie als Punkte in einem 31-dimensionalen Raum dargestellt werden. Ein solcher Raum wird üblicherweise als Eigenschaftsraum der untersuchten Objekte bezeichnet. Der Vergleich der Entfernung zwischen diesen Punkten spiegelt den Grad der Nähe der betrachteten Länder und ihre Ähnlichkeit untereinander wider. Die sozioökonomische Bedeutung dieses Verständnisses von Ähnlichkeit bedeutet, dass Länder als umso ähnlicher gelten, je geringer die Unterschiede zwischen denselben Indikatoren sind, mit denen sie beschrieben werden.

Der erste Schritt einer solchen Analyse besteht darin, das Paar der in der Ähnlichkeitsmatrix enthaltenen Volkswirtschaften zu identifizieren, deren Abstand zwischen ihnen am geringsten ist. Dies werden offensichtlich die ähnlichsten und ähnlichsten Volkswirtschaften sein. In der folgenden Betrachtung werden diese beiden Länder als eine einzige Gruppe, als ein einziger Cluster betrachtet. Dementsprechend wird die ursprüngliche Matrix so transformiert, dass ihre Elemente die Abstände zwischen allen möglichen Paaren von nicht 65, sondern 64 Objekten sind – 63 Volkswirtschaften und ein neu transformierter Cluster – eine bedingte Vereinigung der beiden ähnlichsten Länder. Zeilen und Spalten, die den Abständen zwischen einem in der Union enthaltenen Länderpaar und allen anderen Ländern entsprechen, werden aus der ursprünglichen Ähnlichkeitsmatrix entfernt, es werden jedoch eine Zeile und eine Spalte hinzugefügt, die den Abstand zwischen dem von der Union erhaltenen Cluster und anderen Ländern enthalten.

Es wird davon ausgegangen, dass der Abstand zwischen dem neu erhaltenen Cluster und den Ländern dem Durchschnitt der Abstände zwischen diesem und den beiden Ländern entspricht, aus denen der neue Cluster besteht. Mit anderen Worten: Die zusammengefasste Ländergruppe wird als Ganzes behandelt, deren Merkmale in etwa dem Durchschnitt der Merkmale der einzelnen Länder entsprechen.

Im zweiten Schritt der Analyse wird eine so transformierte Matrix mit 64 Zeilen und Spalten betrachtet. Auch hier wird ein Paar von Volkswirtschaften identifiziert, deren Abstand am geringsten ist, und sie werden, genau wie im ersten Fall, zusammengeführt. In diesem Fall kann der kleinste Abstand sowohl zwischen einem Länderpaar als auch zwischen einem beliebigen Land und der in der vorherigen Stufe erhaltenen Länderunion bestehen.

Die weiteren Verfahren ähneln den oben beschriebenen: In jeder Phase wird die Matrix so transformiert, dass zwei Spalten und zwei Zeilen, die die Entfernung zu Objekten (Länderpaare oder Verbände – Cluster) enthalten, die in der vorherigen Phase zusammengeführt wurden, davon ausgeschlossen werden ; Die ausgeschlossenen Zeilen und Spalten werden durch eine Spalte und Zeile ersetzt, die die Abstände der neuen Verbindungen zu den übrigen Features enthalten. Darüber hinaus wird in der modifizierten Matrix ein Paar der nächstgelegenen Objekte angezeigt. Die Analyse wird fortgesetzt, bis die Matrix vollständig erschöpft ist (d. h. bis alle Länder zusammengeführt sind). Die verallgemeinerten Ergebnisse der Matrixanalyse können in Form eines Ähnlichkeitsbaums (Dendogramm) dargestellt werden, ähnlich dem oben beschriebenen, mit dem einzigen Unterschied, dass der Ähnlichkeitsbaum die relative Nähe aller 65 von uns betrachteten Länder widerspiegelt viel komplizierter als das Schema, in dem nur fünf Volkswirtschaften vorkommen. Dieser Baum umfasst 65 Ebenen entsprechend der Anzahl der übereinstimmenden Objekte. Die erste (untere) Ebene enthält Punkte für jedes Land separat. Die Verbindung dieser beiden Punkte auf der zweiten Ebene zeigt ein Paar von Ländern, die hinsichtlich des allgemeinen Typs der Volkswirtschaften am nächsten sind. Auf der dritten Ebene wird das Verhältnis der nächstähnlichen Länderpaare notiert (wie bereits erwähnt, kann in diesem Verhältnis entweder ein neues Länderpaar oder ein neues Land und ein bereits identifiziertes Paar ähnlicher Länder enthalten sein). Und so weiter bis zur letzten Ebene, auf der alle untersuchten Länder als eine einzige Gruppe agieren.

Als Ergebnis der Clusteranalyse wurden die folgenden fünf Ländergruppen ermittelt:

Afroasiatische Gruppe;

Latino-asiatische Gruppe;

Lateinisch-mediterrane Gruppe;

Gruppe entwickelter kapitalistischer Länder (ohne die USA)

Die Einführung neuer Indikatoren über die hier verwendeten 31 Indikatoren hinaus oder deren Ersetzung durch andere führt naturgemäß zu einer Änderung der Ergebnisse der Länderklassifizierung.

2. Die Einteilung der Länder nach dem Kriterium der Nähe der Kultur.

Wie Sie wissen, muss Marketing die Kultur der Länder (Bräuche, Traditionen usw.) berücksichtigen.

Durch Clustering wurden folgende Ländergruppen ermittelt:

Arabisch;

Naher Osten;

Skandinavisch;

Deutschsprachig;

Englisch sprechend;

Romanischer Europäer;

Lateinamerikanisch;

Fernost.

3. Entwicklung einer Zinkmarktprognose.

Die Clusteranalyse spielt eine wichtige Rolle in der Phase der Reduzierung des wirtschaftlichen und mathematischen Modells der Rohstoffkonjunktur, indem sie zur Erleichterung und Vereinfachung von Rechenverfahren beiträgt und eine größere Kompaktheit der erzielten Ergebnisse bei gleichzeitiger Beibehaltung der erforderlichen Genauigkeit gewährleistet. Der Einsatz der Clusteranalyse ermöglicht es, den gesamten Ausgangssatz an Marktindikatoren nach relevanten Kriterien in Gruppen (Cluster) einzuteilen und so die Auswahl der repräsentativsten Indikatoren zu erleichtern.

Die Clusteranalyse wird häufig zur Modellierung von Marktbedingungen eingesetzt. In der Praxis basieren die meisten Prognoseaufgaben auf der Verwendung von Clusteranalysen.

Beispielsweise die Aufgabe, eine Prognose für den Zinkmarkt zu entwickeln.

Zunächst wurden 30 Schlüsselindikatoren des globalen Zinkmarktes ausgewählt:

X1 - Zeit

Produktionszahlen:

X2 - in der Welt

X4 – Europa

X5 – Kanada

X6 – Japan

X7 – Australien

Verbrauchsindikatoren:

X8 - in der Welt

X10 – Europa

X11 – Kanada

X12 – Japan

X13 – Australien

Erzeugervorräte an Zink:

X14 - in der Welt

X16 – Europa

X17 – andere Länder

Verbrauchervorräte an Zink:

X18 - in den USA

X19 - in England

X10 – in Japan

Import von Zinkerzen und -konzentraten (in Tausend Tonnen)

X21 - in den USA

X22 – in Japan

X23 - in Deutschland

Export von Zinkerzen und -konzentraten (in Tausend Tonnen)

X24 – aus Kanada

X25 – aus Australien

Import von Zink (Tausend Tonnen)

X26 - in den USA

X27 - nach England

X28 - in Deutschland

Export von Zink (Tausend Tonnen)

X29 – aus Kanada

X30 – aus Australien

Zur Ermittlung spezifischer Abhängigkeiten wurde der Apparat der Korrelations- und Regressionsanalyse eingesetzt. Die Beziehungen wurden anhand einer Matrix gepaarter Korrelationskoeffizienten analysiert. Dabei wurde die Hypothese der Normalverteilung der analysierten Konjunkturindikatoren akzeptiert. Es ist klar, dass Rij nicht der einzig mögliche Indikator für die Beziehung der verwendeten Indikatoren sind. Die Notwendigkeit, bei diesem Problem eine Clusteranalyse zu verwenden, ist auf die Tatsache zurückzuführen, dass die Anzahl der Indikatoren, die den Zinkpreis beeinflussen, sehr groß ist. Aus folgenden Gründen besteht die Notwendigkeit, sie zu reduzieren:

a) Mangel an vollständigen statistischen Daten für alle Variablen;

b) eine starke Komplikation von Rechenverfahren, wenn eine große Anzahl von Variablen in das Modell eingeführt wird;

c) Der optimale Einsatz von Regressionsanalysemethoden erfordert den Überschuss der Anzahl der beobachteten Werte gegenüber der Anzahl der Variablen um mindestens das 6- bis 8-fache;

d) der Wunsch, statistisch unabhängige Variablen im Modell zu verwenden usw.

Es ist sehr schwierig, eine solche Analyse direkt auf einer relativ umfangreichen Matrix von Korrelationskoeffizienten durchzuführen. Mit Hilfe der Clusteranalyse lässt sich der gesamte Satz an Marktvariablen so in Gruppen einteilen, dass die Elemente jedes Clusters stark miteinander korrelieren und Vertreter verschiedener Gruppen durch eine schwache Korrelation gekennzeichnet sind.

Um dieses Problem zu lösen, wurde einer der agglomerativen hierarchischen Clusteranalysealgorithmen angewendet. Bei jedem Schritt wird die Anzahl der Cluster aufgrund der in gewissem Sinne optimalen Vereinigung zweier Gruppen um eins reduziert. Das Kriterium für den Beitritt ist die Änderung der entsprechenden Funktion. Abhängig davon wurden die nach folgenden Formeln berechneten Werte der Summen der quadratischen Abweichungen verwendet:

(j = 1, 2, …, m),

Dabei ist j die Clusternummer und n die Anzahl der Elemente im Cluster.

rij – Paarkorrelationskoeffizient.

Daher muss der Gruppierungsprozess einer sequenziellen minimalen Erhöhung des Werts des Kriteriums E entsprechen.

In der ersten Phase wird das anfängliche Datenarray als eine Menge bestehend aus Clustern dargestellt, die jeweils ein Element enthalten. Der Gruppierungsprozess beginnt mit der Vereinigung eines solchen Clusterpaars, was zu einem minimalen Anstieg der Summe der quadratischen Abweichungen führt. Dies erfordert die Schätzung der Summe der quadratischen Abweichungen für jede der möglichen Clustervereinigungen. Im nächsten Schritt werden bereits die Werte der Summen der quadratischen Abweichungen für Cluster usw. berücksichtigt. Dieser Prozess wird irgendwann gestoppt. Dazu müssen Sie den Wert der Summe der quadrierten Abweichungen überwachen. Betrachtet man eine Folge steigender Werte, kann man in ihrer Dynamik einen Sprung (einen oder mehrere) erkennen, der als Merkmal der Anzahl der in der untersuchten Population „objektiv“ existierenden Gruppen interpretiert werden kann. Im obigen Beispiel fanden Sprünge statt, als die Anzahl der Cluster 7 und 5 betrug. Außerdem sollte die Anzahl der Gruppen nicht reduziert werden, weil Dies führt zu einer Verschlechterung der Qualität des Modells. Nachdem die Cluster ermittelt wurden, werden die Variablen ausgewählt, die im wirtschaftlichen Sinne am wichtigsten sind und am engsten mit dem ausgewählten Marktkriterium zusammenhängen – in diesem Fall mit den Notierungen der London Metal Exchange für Zink. Mit diesem Ansatz können Sie einen erheblichen Teil der im ursprünglichen Satz anfänglicher Indikatoren der Konjunktur enthaltenen Informationen speichern.

Der Begriff „Clusteranalyse“ wurde erstmals 1930 vom amerikanischen Psychologen Robert Trion in dem gleichnamigen Werk verwendet. Trotzdem werden die Begriffe „Cluster“ und „Clusteranalyse“ von Muttersprachlern als neu wahrgenommen, was Alexander Khrolenko anmerkt, der eine Korpusanalyse der Verwendung des Lexems „Cluster“ durchführte: „Die meisten Autoren, die diesen Begriff verwenden, achten darauf.“ seine Neuheit“ (Khrolenko, 2016, S. 106)

Die Clusteranalyse umfasst viele verschiedene Klassifizierungsalgorithmen, deren Zweck darin besteht, Informationen in Clustern zu organisieren. Es ist wichtig zu bedenken, dass die Clusteranalyse an sich kein bestimmter Algorithmus ist, sondern dass es eine Aufgabe gibt, die gelöst werden muss. Mark Ereshefsky stellt in seinem Werk „The Scarcity of the Linear Hierarchy“ fest, dass die Clusteranalyse neben dem Essentialismus und der historischen Klassifizierung eine der drei Arten der Klassifizierung von Objekten in der Welt ist.

In der Linguistik beinhaltet das Clusterprinzip der Beschreibung neben der Analyse der in diesem Cluster enthaltenen Einheiten auch die Analyse der Beziehungen innerhalb dieser. Dabei kann es sich um Verbindungen auf unterschiedlichen Ebenen handeln: von logischen (z. B. paradigmatischen und syntagmatischen) bis hin zu wortbildenden und phonetischen Verbindungen.

F. Brown identifiziert die folgenden Schritte der Clusteranalyse (Brown):

  • 1. Auswahl einer Kennzahl und Erstellung der erforderlichen Kennzahlen, Kriterien oder zu klassifizierenden Einheiten
  • 2. Festlegen des Ähnlichkeitsmaßes
  • 3. Formulierung von Regeln zur Bestimmung der Reihenfolge der Clusterbildung
  • 4. Anwenden von Regeln zur Bildung von Clustern

Es ist zu beachten, dass der dritte Punkt Fragen aufwirft, da das Kennzeichen von Clustering als Klassifizierungsmethode das Fehlen spezifizierter Klassen ist. Das Clustering von Dokumenten ist eine Aufgabe zur Informationsbeschaffung. Im Gegensatz zur Textkategorisierung umfasst sie keine vordefinierten Kategorien oder Trainingssätze. Cluster und Beziehungen zwischen ihnen werden „automatisch aus Dokumenten extrahiert und Dokumente werden nacheinander an diese Cluster angehängt“ (Golub, S. 52-53). Mark Ereshefsky führt die Clusteranalyse als Klassifizierungsmethode ein. Er glaubt, dass „alle Formen der Clusteranalyse auf zwei Annahmen basieren: Die Mitglieder einer taxonomischen Gruppe müssen eine Reihe von Merkmalen gemeinsam haben, und diese Merkmale können nicht bei allen oder nur bei einem Mitglied dieser Gruppe vorkommen.“ (Ereshefsky, S. 15)

In ihrer Arbeit „Cluster Approach in Linguistic Analysis“ (Nurgalieva, 2013) N.Kh. Nurgalieva identifiziert vier Hauptaufgaben der Clusteranalyse:

  • 1. Entwicklung einer Typologie oder Klassifikation
  • 2. Erkundung nützlicher konzeptioneller Schemata zum Gruppieren von Objekten
  • 3. Präsentation von Hypothesen basierend auf den recherchierten Daten
  • 4. Testen von Hypothesen oder Studien, um festzustellen, ob auf die eine oder andere Weise identifizierte Typen (Gruppen) tatsächlich in den verfügbaren Daten vorhanden sind

Alle Methoden der Clusteranalyse lassen sich in „harte“, eindeutige Clusteranalyse, bei der jedes Objekt entweder zu einem Cluster gehört oder nicht, und „weiche“, unscharfe Clusteranalyse, bei der jedes Objekt mit einer bestimmten Wahrscheinlichkeit zu einer Gruppe gehört, unterteilen .

Clusteranalysemethoden werden ebenfalls in hierarchische und nicht hierarchische unterteilt. Hierarchische Methoden implizieren im Gegensatz zu nicht hierarchischen Methoden das Vorhandensein verschachtelter Gruppen. Nurgaliyeva stellt fest, dass die hierarchische Methode „am besten zur Lösung sprachlicher Probleme geeignet zu sein scheint“ (Nurgaliyeva, S. 1), da sie es ermöglicht, die Struktur des untersuchten Phänomens zu sehen und zu analysieren.