Der Rangkorrelationskoeffizient nach Spearman ist ein Beispiel für einen Vergleich. Spearman-Korrelationsanalyse

In Fällen, in denen die Messungen der untersuchten Merkmale auf einer Ordnungsskala durchgeführt werden oder die Form der Beziehung von einer linearen abweicht, wird die Untersuchung der Beziehung zwischen zwei Zufallsvariablen unter Verwendung von Rangkorrelationskoeffizienten durchgeführt. Betrachten Sie den Rangkorrelationskoeffizienten von Spearman. Bei der Berechnung ist es notwendig, die Beispieloptionen zu ordnen (zu ordnen). Rangordnung ist die Gruppierung experimenteller Daten in einer bestimmten Reihenfolge, entweder aufsteigend oder absteigend.

Die Ranking-Operation wird nach folgendem Algorithmus durchgeführt:

1. Einem niedrigeren Wert wird ein niedrigerer Rang zugeordnet. Dem höchsten Wert wird ein Rang zugeordnet, der der Anzahl der Rangwerte entspricht. Dem niedrigsten Wert wird ein Rang gleich 1 zugewiesen. Wenn beispielsweise n = 7, dann erhält der höchste Wert die Rangnummer 7, mit Ausnahme der Fälle, die durch die zweite Regel vorgesehen sind.

2. Wenn mehrere Werte gleich sind, wird ihnen ein Rang zugewiesen, der der Durchschnitt der Ränge ist, die sie erhalten hätten, wenn sie nicht gleich wären. Betrachten Sie als Beispiel eine aufsteigende Stichprobe, die aus 7 Elementen besteht: 22, 23, 25, 25, 25, 28, 30. Die Werte 22 und 23 kommen einmal vor, daher sind ihre Ränge jeweils gleich R22 = 1 und R23 =2 . Der Wert 25 kommt 3 mal vor. Wenn sich diese Werte nicht wiederholen würden, wären ihre Ränge gleich 3, 4, 5. Daher ist ihr Rang R25 gleich dem arithmetischen Mittel von 3, 4 und 5: . Die Werte 28 und 30 wiederholen sich nicht, daher sind ihre Ränge jeweils R28=6 und R30=7. Abschließend haben wir folgende Korrespondenz:

3. Die Gesamtzahl der Ränge muss mit der berechneten übereinstimmen, die durch die Formel bestimmt wird:

wobei n die Gesamtzahl der Rangfolgewerte ist.

Die Diskrepanz zwischen der tatsächlichen und der berechneten Anzahl von Rängen zeigt einen Fehler an, der bei der Berechnung der Ränge oder ihrer Summierung gemacht wurde. In diesem Fall müssen Sie den Fehler finden und beheben.

Der Rangkorrelationskoeffizient nach Spearman ist eine Methode, mit der Sie die Stärke und Richtung der Beziehung zwischen zwei Features oder zwei Feature-Hierarchien bestimmen können. Die Verwendung des Rangkorrelationskoeffizienten hat eine Reihe von Einschränkungen:

  • a) Die erwartete Korrelation sollte monoton sein.
  • b) Das Volumen jeder Probe muss größer oder gleich 5 sein. Zur Bestimmung der Obergrenze der Probe werden Tabellen mit kritischen Werten verwendet (Tabelle 3 des Anhangs). Der maximale Wert von n in der Tabelle ist 40.
  • c) Während der Analyse ist es wahrscheinlich, dass eine große Anzahl identischer Ränge auftritt. In diesem Fall muss eine Änderung vorgenommen werden. Der günstigste Fall liegt vor, wenn beide untersuchten Proben zwei Folgen von nicht übereinstimmenden Werten darstellen.

Um eine Korrelationsanalyse durchzuführen, benötigt der Forscher zwei Stichproben, die in eine Rangfolge gebracht werden können, zum Beispiel:

  • - zwei Zeichen, die in derselben Probandengruppe gemessen wurden;
  • - zwei einzelne Merkmalshierarchien, die in zwei Probanden für denselben Satz von Merkmalen identifiziert wurden;
  • - zwei Gruppenhierarchien von Attributen;
  • - Einzel- und Gruppenhierarchien von Attributen.

Wir beginnen die Berechnung damit, die untersuchten Indikatoren für jedes der Zeichen separat zu ordnen.

Analysieren wir einen Fall mit zwei Merkmalen, die in derselben Probandengruppe gemessen wurden. Zuerst werden die Einzelwerte nach dem ersten Merkmal, das von verschiedenen Probanden erhalten wurde, und dann die Einzelwerte nach dem zweiten Merkmal geordnet. Wenn niedrigere Ränge eines Indikators niedrigeren Rängen eines anderen Indikators entsprechen und höhere Ränge eines Indikators höheren Rängen eines anderen Indikators entsprechen, dann sind die beiden Merkmale positiv miteinander verbunden. Wenn die höheren Ränge eines Indikators den niedrigeren Rängen eines anderen Indikators entsprechen, stehen die beiden Zeichen in einem negativen Zusammenhang. Um rs zu finden, bestimmen wir die Unterschiede zwischen den Rängen (d) für jedes Fach. Je kleiner die Differenz zwischen den Rängen ist, desto näher liegt der Rangkorrelationskoeffizient rs bei "+1". Wenn es keine Beziehung gibt, dann gibt es keine Entsprechung zwischen ihnen, daher wird rs nahe Null sein. Je größer der Unterschied zwischen den Rängen der Probanden in zwei Variablen ist, desto näher an "-1" wird der Wert des Koeffizienten rs sein. Somit ist der Spearman-Rangkorrelationskoeffizient ein Maß für jede monotone Beziehung zwischen den beiden untersuchten Merkmalen.

Betrachten Sie den Fall mit zwei einzelnen Merkmalshierarchien, die in zwei Subjekten für denselben Satz von Merkmalen identifiziert wurden. In dieser Situation werden die einzelnen Werte, die jeder der beiden Probanden nach einem bestimmten Satz von Merkmalen erhält, in eine Rangfolge gebracht. Dem Merkmal mit dem niedrigsten Wert sollte der erste Rang zugewiesen werden; das Attribut mit einem höheren Wert - der zweite Rang usw. Es sollte darauf geachtet werden, dass alle Attribute in denselben Einheiten gemessen werden. Beispielsweise ist es unmöglich, Indikatoren einzustufen, wenn sie in Punkten mit unterschiedlichem „Preis“ ausgedrückt werden, da es unmöglich ist, zu bestimmen, welcher der Faktoren in Bezug auf die Schwere den ersten Platz einnehmen wird, bis alle Werte auf einen einzigen gebracht werden Skala. Wenn Merkmale, die in einem der Fächer niedrige Ränge haben, auch niedrige Ränge in dem anderen haben und umgekehrt, dann sind die einzelnen Hierarchien positiv miteinander verbunden.

Bei zwei Gruppenhierarchien von Merkmalen werden die in zwei Probandengruppen erhaltenen durchschnittlichen Gruppenwerte nach demselben Merkmalssatz für die untersuchten Gruppen gereiht. Als nächstes folgen wir dem in den vorherigen Fällen angegebenen Algorithmus.

Lassen Sie uns den Fall mit individueller und Gruppenhierarchie von Merkmalen analysieren. Sie beginnen damit, die Einzelwerte des Subjekts und die mittleren Gruppenwerte nach denselben Merkmalen, die erhalten wurden, getrennt zu ordnen, mit Ausnahme des Subjekts, das nicht an der mittleren Gruppenhierarchie teilnimmt, da es sich um ein Individuum handelt Hierarchie wird damit verglichen. Die Rangkorrelation ermöglicht es, den Grad der Konsistenz zwischen der individuellen und der Gruppenhierarchie von Merkmalen zu beurteilen.

Betrachten wir, wie die Signifikanz des Korrelationskoeffizienten in den oben aufgeführten Fällen bestimmt wird. Bei zwei Merkmalen wird sie durch den Stichprobenumfang bestimmt. Bei zwei einzelnen Merkmalshierarchien hängt die Bedeutung von der Anzahl der in der Hierarchie enthaltenen Merkmale ab. In den letzten beiden Fällen wird die Signifikanz durch die Anzahl der untersuchten Merkmale und nicht durch die Größe der Gruppen bestimmt. Somit wird die Bedeutung von rs in allen Fällen durch die Anzahl der Rangwerte n bestimmt.

Beim Testen der statistischen Signifikanz von rs werden Tabellen mit kritischen Werten des Rangkorrelationskoeffizienten verwendet, die für unterschiedliche Anzahlen von Rangwerten und unterschiedliche Signifikanzniveaus erstellt wurden. Wenn der Absolutwert von rs einen kritischen Wert erreicht oder überschreitet, dann ist die Korrelation signifikant.

Betrachtet man die erste Option (ein Fall mit zwei Merkmalen, die in derselben Probandengruppe gemessen wurden), sind die folgenden Hypothesen möglich.

H0: Die Korrelation zwischen den Variablen x und y ist nicht von Null verschieden.

H1: Die Korrelation zwischen den Variablen x und y ist signifikant von Null verschieden.

Wenn wir mit einem der drei verbleibenden Fälle arbeiten, müssen wir ein weiteres Hypothesenpaar aufstellen:

H0: Die Korrelation zwischen den x- und y-Hierarchien ist ungleich Null.

H1: Die Korrelation zwischen x- und y-Hierarchien ist signifikant verschieden von Null.

Die Reihenfolge der Aktionen bei der Berechnung des Spearman-Rangkorrelationskoeffizienten rs ist wie folgt.

  • - Bestimmen Sie, welche zwei Features oder zwei Feature-Hierarchien am Abgleich als x- und y-Variablen teilnehmen.
  • - Ordnen Sie die Werte der Variablen x, indem Sie Rang 1 dem kleinsten Wert zuweisen, gemäß den Rangordnungsregeln. Ordnen Sie die Ränge in der ersten Spalte der Tabelle in der Reihenfolge der Nummern der Themen oder Zeichen.
  • - Ordnen Sie die Werte der Variablen y. Ordnen Sie die Ränge in der zweiten Spalte der Tabelle in der Reihenfolge der Nummern der Themen oder Zeichen.
  • - Berechnen Sie die Differenzen d zwischen den Rängen x und y für jede Zeile der Tabelle. Die Ergebnisse werden in der nächsten Spalte der Tabelle platziert.
  • - Berechnen Sie die quadrierten Differenzen (d2). Tragen Sie die erhaltenen Werte in die vierte Spalte der Tabelle ein.
  • - Berechnen Sie die Summe der Quadrate der Differenzen? d2.
  • - Wenn gleiche Ränge auftreten, berechnen Sie die Korrekturen:

wobei tx das Volumen jeder Gruppe gleicher Ränge in Probe x ist;

ty ist die Größe jeder Gruppe gleicher Ränge in Stichprobe y.

Berechnen Sie den Rangkorrelationskoeffizienten in Abhängigkeit vom Vorhandensein oder Fehlen identischer Ränge. In Ermangelung identischer Ränge wird der Rangkorrelationskoeffizient rs nach folgender Formel berechnet:

Bei gleichen Rängen wird der Rangkorrelationskoeffizient rs nach folgender Formel berechnet:

wobei?d2 die Summe der quadrierten Differenzen zwischen den Rängen ist;

Tx und Ty - Korrekturen für die gleichen Ränge;

n ist die Anzahl der Fächer oder Merkmale, die an der Rangliste teilgenommen haben.

Bestimmen Sie die kritischen Werte von rs aus Tabelle 3 des Anhangs für eine bestimmte Anzahl von Probanden n. Ein signifikanter Unterschied des Korrelationskoeffizienten von Null wird beobachtet, vorausgesetzt, dass rs nicht kleiner als der kritische Wert ist.

Die Korrelationsanalyse ist eine Methode, mit der Sie Beziehungen zwischen einer bestimmten Anzahl von Zufallsvariablen erkennen können. Der Zweck der Korrelationsanalyse besteht darin, eine Schätzung der Stärke von Verbindungen zwischen solchen Zufallsvariablen oder Merkmalen zu identifizieren, die bestimmte reale Prozesse charakterisieren.

Heute schlagen wir vor, darüber nachzudenken, wie die Korrelationsanalyse von Spearman verwendet wird, um die Kommunikationsformen im praktischen Handel visuell darzustellen.

Spearman-Korrelation oder die Grundlage der Korrelationsanalyse

Um zu verstehen, was Korrelationsanalyse ist, sollte man zuerst das Konzept der Korrelation verstehen.

Gleichzeitig ist es notwendig, Positionen rechtzeitig freizugeben, wenn sich der Preis in die gewünschte Richtung bewegt.


Für diese Strategie, die auf Korrelationsanalysen basiert, werden Handelsinstrumente mit einem hohen Korrelationsgrad (EUR/USD und GBP/USD, EUR/AUD und EUR/NZD, AUD/USD und NZD/USD, CFD-Kontrakte usw.) .

Video: Anwendung der Spearman-Korrelation auf den Devisenmarkt

37. Rangkorrelationskoeffizient nach Spearman.

S. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Der Rangkorrelationskoeffizient nach Spearman wird verwendet, wenn:
- Variablen haben Rangordnung Messungen;
- Datenverteilung ist zu unterschiedlich aus normal oder gar nicht bekannt
- Proben sind klein (N< 30).

Die Interpretation des Rangkorrelationskoeffizienten nach Spearman unterscheidet sich nicht von der des Pearson-Koeffizienten, aber seine Bedeutung ist etwas anders. Um den Unterschied zwischen diesen Methoden zu verstehen und ihre Anwendungsbereiche logisch zu begründen, vergleichen wir ihre Formeln.

Korrelationskoeffizient nach Pearson:

Korrelationskoeffizient nach Spearman:

Wie Sie sehen können, unterscheiden sich die Formeln erheblich. Formeln vergleichen

Die Pearson-Korrelationsformel verwendet das arithmetische Mittel und die Standardabweichung der korrelierten Reihen, während dies bei der Spearman-Formel nicht der Fall ist. Um ein angemessenes Ergebnis gemäß der Pearson-Formel zu erhalten, ist es daher erforderlich, dass die korrelierten Reihen nahe an der Normalverteilung liegen (Mittelwert und Standardabweichung sind Normalverteilungsparameter). Für die Spearman-Formel ist dies nicht relevant.

Ein Element der Pearson-Formel ist die Standardisierung jeder Reihe in z-Score.

Wie Sie sehen können, ist die Umwandlung von Variablen in die Z-Skala in der Pearson-Korrelationskoeffizientenformel enthalten. Dementsprechend ist für den Pearson-Koeffizienten die Skalierung der Daten völlig irrelevant: Wir können beispielsweise zwei Variablen korrelieren, von denen eine einen min. = 0 und max. = 1, und die zweite min. = 100 und max. = 1000. Egal wie unterschiedlich der Wertebereich ist, sie werden alle in Standard-Z-Werte konvertiert, die im Maßstab gleich sind.

Es gibt also keine solche Normalisierung im Spearman-Koeffizienten

EINE ZWINGENDE BEDINGUNG FÜR DIE VERWENDUNG DES SPEERMAN-KOEFFIZIENT IST DIE GLEICHHEIT DES BEREICHS ZWEI VARIABLEN.

Bevor Sie den Spearman-Koeffizienten für Datenreihen mit unterschiedlichen Bereichen verwenden, müssen Sie dies tun Rang. Das Ranking führt dazu, dass die Werte dieser Reihen das gleiche Minimum = 1 (minimaler Rang) und ein Maximum gleich der Anzahl der Werte (Maximum, letzter Rang = N, d. H. Die maximale Anzahl von Fällen in der Probe).

In welchen Fällen kann auf ein Ranking verzichtet werden?

Dies sind Fälle, in denen die Daten ursprünglich sind Rangordnung. Zum Beispiel der Wertorientierungstest von Rokeach.

Dies sind auch Fälle, in denen die Anzahl der Wertoptionen klein ist und es in der Stichprobe feste Mindest- und Höchstwerte gibt. Zum Beispiel ist im semantischen Differential Minimum = 1, Maximum = 7.

Ein Beispiel für die Berechnung des Spearman-Rangkorrelationskoeffizienten

Der Wertorientierungstest von Rokeach wurde an zwei Stichproben X und Y durchgeführt. Die Aufgabe bestand darin, herauszufinden, wie eng die Wertehierarchien dieser Stichproben sind (wörtlich: wie ähnlich sie sich sind).

Der resultierende Wert r = 0,747 wird gegengeprüft Tabelle kritischer Werte. Gemäß der Tabelle ist bei N = 18 der erhaltene Wert auf der Ebene von p zuverlässig<=0,005

Rangkorrelationskoeffizienten nach Spearman und Kendal

Für Variablen, die der Ordinalskala angehören oder keiner Normalverteilung folgen, sowie für Variablen, die der Intervallskala angehören, wird anstelle des Pearson-Koeffizienten die Rangkorrelation nach Spearman berechnet. Dazu werden einzelnen Werten von Variablen Rangplätze zugeordnet, die anschließend mit den entsprechenden Formeln verarbeitet werden. Um die Rangkorrelation anzuzeigen, deaktivieren Sie das standardmäßige Kontrollkästchen Pearson-Korrelation im Dialogfeld „Bivariate Korrelationen...“. Aktivieren Sie stattdessen die Spearman-Korrelationsberechnung. Diese Berechnung ergibt die folgenden Ergebnisse. Die Rangkorrelationskoeffizienten liegen sehr nahe an den entsprechenden Werten der Pearson-Koeffizienten (die ursprünglichen Variablen sind normalverteilt).

titkova-matmetody.pdf p. 45

Mit der Rangkorrelationsmethode von Spearman können Sie die Enge (Stärke) und Richtung bestimmen

Zusammenhang zwischen zwei Zeichen oder zwei Profile (Hierarchien) Zeichen.

Um die Rangkorrelation zu berechnen, sind zwei Wertereihen erforderlich,

die eingeordnet werden können. Diese Wertebereiche können sein:

1) zwei Zeichen gleich gemessen Gruppe Test Objekte;

2) zwei individuelle Merkmalshierarchien, in zwei Themen für das gleiche identifiziert

eine Reihe von Funktionen;

3) zwei Gruppenhierarchien von Merkmalen,

4) Einzelperson und Gruppe Feature-Hierarchie.

Zunächst werden die Indikatoren für jedes der Merkmale separat eingestuft.

In der Regel wird einem niedrigeren Wert eines Merkmals ein niedrigerer Rang zugeordnet.

Im ersten Fall (zwei Merkmale) werden einzelne Werte nach dem ersten gereiht

Merkmal, das von verschiedenen Probanden erhalten wurde, und dann individuelle Werte für das zweite

Schild.

Wenn zwei Zeichen in positiver Beziehung stehen, dann rangieren die Subjekte mit den niedrigen Rängen

Einer von ihnen wird im anderen niedrige Ränge haben, und die Untertanen mit hohen Rängen hinein

Eines der Merkmale hat auch hohe Ränge gegenüber dem anderen Merkmal. Zum Zählen von rs

Es ist notwendig, die Unterschiede zu bestimmen (d) zwischen den Rängen, die diese Fächer auf beiden erreichten

Zeichen. Dann werden diese Indikatoren d auf eine bestimmte Weise transformiert und von 1 subtrahiert. Than

Je kleiner der Unterschied zwischen den Rängen ist, desto größer wird rs sein, desto näher wird es an +1 sein.

Wenn es keine Korrelation gibt, werden alle Ränge gemischt und es gibt keine

keine Übereinstimmung. Die Formel ist so ausgelegt, dass in diesem Fall rs nahe 0 ist.

Bei negativer Korrelation niedrige Reihen von Themen auf einer Basis

wird hohen Rängen auf einem anderen Attribut entsprechen und umgekehrt. Je mehr Missverhältnis

zwischen den Reihen der Probanden in zwei Variablen, je näher rs an -1 liegt.

Im zweiten Fall (zwei einzelne Profile), Individuell

Werte, die von jedem der 2 Probanden nach einem bestimmten (für sie gleich) erhalten wurden

beide) eine Reihe von Funktionen. Der erste Rang erhält die Eigenschaft mit dem niedrigsten Wert; zweiter Rang -

ein Zeichen mit einem höheren Wert usw. Natürlich müssen alle Merkmale eingemessen werden

die gleichen Einheiten, sonst ist eine Rangfolge nicht möglich. Es ist zum Beispiel unmöglich

Ordnen Sie die Indikatoren gemäß dem Cattell Personality Questionnaire (16PF), wenn sie in ausgedrückt werden

"rohe" Ergebnisse, da die Wertebereiche für verschiedene Faktoren unterschiedlich sind: von 0 bis 13, von 0 bis

20 und von 0 bis 26. Wir können nicht sagen, welcher der Faktoren in Bezug auf den ersten Platz einnehmen wird

Schweregrad, bis wir alle Werte auf eine einzige Skala bringen (meistens ist dies die Skala der Wände).

Stehen die einzelnen Hierarchien zweier Subjekte positiv in Beziehung, dann die Vorzeichen

niedrige Ränge in einem von ihnen haben niedrige Ränge in dem anderen und umgekehrt.

Wenn zum Beispiel für ein Fach der Faktor E (Dominanz) den niedrigsten Rang hat, dann für

einem anderen Fach, sollte es einen niedrigen Rang haben, wenn ein Fach Faktor C hat

(emotionale Stabilität) den höchsten Rang hat, dann muss das andere Subjekt auch einen haben

dieser Faktor hat einen hohen Rang, und so weiter.

Im dritten Fall (zwei Gruppenprofile) werden die durchschnittlichen Gruppenwerte gerankt,

erhalten in 2 Probandengruppen nach einem bestimmten, für zwei Gruppen identischen, Satz

Zeichen. Im Folgenden ist die Argumentation dieselbe wie in den beiden vorangegangenen Fällen.

Im Fall des 4. (Einzel- und Gruppenprofile) werden sie getrennt gewertet

Einzelwerte des Probanden und durchschnittliche Gruppenwerte für denselben Satz

Zeichen, die in der Regel unter Ausschluss dieses einzelnen Subjekts erhalten werden - er

nimmt nicht am durchschnittlichen Gruppenprofil teil, mit dem sein Individuum verglichen wird

Profil. Mit der Rangkorrelation können Sie überprüfen, wie konsistent die einzelnen und

Gruppenprofile.

In allen vier Fällen wird die Signifikanz des erhaltenen Korrelationskoeffizienten durch bestimmt

nach Anzahl der Rangwerte N. Im ersten Fall stimmt diese Nummer mit überein

Stichprobenumfang n. Im zweiten Fall entspricht die Anzahl der Beobachtungen der Anzahl der Merkmale.

eine Hierarchie bilden. Im dritten und vierten Fall ist N auch die Anzahl der Übereinstimmungen

Zeichen, nicht die Anzahl der Probanden in Gruppen. Detaillierte Erläuterungen finden sich in den Beispielen. Wenn ein

der Absolutwert von rs einen kritischen Wert erreicht oder überschreitet, die Korrelation

zuverlässig.

Hypothesen.

Es gibt zwei mögliche Hypothesen. Der erste bezieht sich auf Fall 1, der zweite auf die anderen drei

Die erste Version von Hypothesen

H0: Die Korrelation zwischen den Variablen A und B ist nicht von Null verschieden.

H2: Die Korrelation zwischen den Variablen A und B ist signifikant von Null verschieden.

Die zweite Version der Hypothesen

H0: Die Korrelation zwischen den Hierarchien A und B ist nicht von Null verschieden.

H2: Die Korrelation zwischen den Hierarchien A und B ist signifikant von Null verschieden.

Einschränkungen des Rangkorrelationskoeffizienten

1. Für jede Variable müssen mindestens 5 Beobachtungen eingereicht werden. Oberer, höher

die Probenahmegrenze wird durch die verfügbaren Grenzwerttabellen bestimmt .

2. Rangkorrelationskoeffizient nach Spearman rs mit einer großen Anzahl von identischen

Ränge für eine oder beide übereinstimmenden Variablen ergeben grobe Werte. Im Idealfall

beide korrelierten Serien müssen zwei nicht übereinstimmende Sequenzen sein

Werte. Ist diese Bedingung nicht erfüllt, muss eine Anpassung vorgenommen werden

die gleichen Ränge.

Der Rangkorrelationskoeffizient nach Spearman wird nach folgender Formel berechnet:

Wenn es in beiden verglichenen Ranglisten Gruppen mit gleichen Rängen gibt,

vor der Berechnung des Rangkorrelationskoeffizienten muss dieser korrigiert werden

Ränge Ta und TV:

Ta \u003d Σ (a3 - a) / 12,

Fernseher \u003d Σ (v3 - c) / 12,

wo a - das Volumen jeder Gruppe identischer Ränge in der Rangreihe A, in Volumen von jedem

Gruppen gleicher Ränge in der Rangreihe B.

Um den empirischen Wert von rs zu berechnen, verwenden Sie die Formel:

38. Gepunkteter biserialer Korrelationskoeffizient.

Zum Zusammenhang allgemein siehe Frage Nr. 36 mit. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Die Variable X soll auf einer starken Skala und die Variable Y auf einer dichotomen Skala gemessen werden. Der punktbiseriale Korrelationskoeffizient rpb wird nach folgender Formel berechnet:

Dabei ist x 1 der Mittelwert für X Objekte mit dem Wert „eins“ für Y;

x 0 - der Durchschnittswert für X-Objekte mit einem Wert von "Null" für Y;

s x - Standardabweichung aller Werte für X;

n 1 - die Anzahl der Objekte "eins" in Y, n 0 - die Anzahl der Objekte "null" in Y;

n = n 1 + n 0 ist die Stichprobengröße.

Der punktbiseriale Korrelationskoeffizient kann auch mit anderen äquivalenten Ausdrücken berechnet werden:

Hier x ist der Gesamtmittelwert für die Variable X.

Punkt-biserialer Korrelationskoeffizient Rpb variiert von –1 bis +1. Sein Wert ist gleich Null für den Fall, dass Variablen mit einer Einheit für Y einen Durchschnitt haben Y, gleich dem Mittelwert der Variablen mit Null darüber Y.

Untersuchung Signifikanzhypothesen Punkt biserielle Korrelationskoeffizient ist zu überprüfen Nullhypotheseh 0 über die Gleichheit des allgemeinen Korrelationskoeffizienten mit Null: ρ = 0, was mit dem Student-Kriterium durchgeführt wird. Empirischer Wert

mit kritischen Werten verglichen t a (df) für die Anzahl der Freiheitsgrade df = n– 2

Wenn die Bedingung | t| ≤ ta(df) wird die Nullhypothese ρ = 0 nicht verworfen. Der punktbiseriale Korrelationskoeffizient weicht signifikant von Null ab, wenn der Erfahrungswert | t| in den kritischen Bereich fällt, das heißt, wenn die Bedingung | t| > ta(n– 2). Zuverlässigkeit der Beziehung, berechnet unter Verwendung des punktbiserialen Korrelationskoeffizienten Rpb, kann ebenfalls anhand des Kriteriums bestimmt werden χ 2 für die Anzahl der Freiheitsgrade df= 2.

Punkt-Biserial-Korrelation

Die anschließende Modifikation des Korrelationskoeffizienten des Momentenprodukts spiegelte sich in der gepunkteten biserialen Linie wider r. Diese Statistik. zeigt den Zusammenhang zwischen zwei Variablen, von denen die eine angeblich stetig und normalverteilt und die andere im genauen Sinne des Wortes diskret ist. Der Punkt-Biserial-Korrelationskoeffizient wird mit bezeichnet r pbis Weil in r pbis Die Dichotomie spiegelt die wahre Natur der diskreten Variablen wider und ist nicht künstlich, wie im Fall r bis, sein Vorzeichen wird willkürlich bestimmt. Daher für alle Praxen Tore r pbis im Bereich von 0,00 bis +1,00 berücksichtigt.

Es gibt auch einen solchen Fall, wenn zwei Variablen als stetig und normalverteilt angesehen werden, aber beide künstlich dichotomisiert sind, wie im Fall der biserialen Korrelation. Um die Beziehung zwischen solchen Variablen zu beurteilen, wird der tetrachorische Korrelationskoeffizient verwendet r tet, die ebenfalls von Pearson gezüchtet wurde. Hauptsächlich (genaue) Formeln und Verfahren zur Berechnung r tet sind ziemlich komplex. Daher mit Übung. diese Methode verwendet die Näherungen r tet auf der Grundlage verkürzter Verfahren und Tabellen erhalten.

/online/lexikon/lexikon.php?term=511

DOTTED BISERIAL KOEFFIZIENT DER KORRELATION ist der Korrelationskoeffizient zwischen zwei Variablen, von denen eine auf einer dichotomen Skala und die andere auf einer Intervallskala gemessen wird. Es wird in der klassischen und modernen Testologie als Indikator für die Qualität einer Testaufgabe verwendet - Zuverlässigkeit - Übereinstimmung mit dem Gesamttestergebnis.

Um gemessene Variablen zu korrelieren dichotome und Intervallskala benutzen Punkt-Biserial-Korrelationskoeffizient.
Der Punkt-Biserial-Korrelationskoeffizient ist eine Methode zur Korrelationsanalyse des Verhältnisses von Variablen, von denen eine in der Namensskala gemessen wird und nur 2 Werte annimmt (z. B. Männer / Frauen, die Antwort ist richtig / die Antwort ist falsch, es gibt ein Vorzeichen / es gibt kein Vorzeichen), und die zweite in den Skalenverhältnissen oder Intervallskalen. Die Formel zur Berechnung des Koeffizienten der punktbiserialen Korrelation:

Woher:
m1 und m0 sind die Durchschnittswerte von X mit einem Wert von 1 oder 0 in Y.
σx ist die Standardabweichung aller Werte für X
n1 ,n0 – Anzahl der X-Werte von 1 oder 0 bis Y.
n ist die Gesamtzahl der Wertepaare

Am häufigsten wird diese Art von Korrelationskoeffizient verwendet, um die Beziehung von Testaufgaben mit einer Summenskala zu berechnen. Dies ist eine Art von Validierungsprüfung.

39. Rang-Biserial-Korrelationskoeffizient.

Zum Zusammenhang allgemein siehe Frage Nr. 36 mit. 56 (64) 063.JPG

harchenko-korranaliz.pdf p. 28

Der Rang-Biserial-Korrelationskoeffizient, der verwendet wird, wenn eine der Variablen ( X) wird in einer Ordinalskala dargestellt, und die andere ( Y) - dichotom, berechnet nach der Formel

.

Hier ist der durchschnittliche Rang von Objekten mit Einheit in Y; ist der durchschnittliche Rang von Objekten mit Null in Y, n ist die Stichprobengröße.

Untersuchung Signifikanzhypothesen Der rang-biseriale Korrelationskoeffizient wird ähnlich wie der punkt-biseriale Korrelationskoeffizient unter Verwendung des Student's t-Tests mit Ersatz in den Formeln durchgeführt rpb auf der rrb.

Wenn eine Variable auf einer dichotomen Skala gemessen wird (Variable x), und die andere in der Rangskala (Variable Y) unter Verwendung des Rang-Biserial-Korrelationskoeffizienten. Wir erinnern uns, dass die Variable x, gemessen in einer dichotomen Skala, nimmt nur zwei Werte (Codes) 0 und 1 an. Lassen Sie uns besonders betonen: Obwohl dieser Koeffizient im Bereich von –1 bis +1 variiert, spielt sein Vorzeichen für die Interpretation keine Rolle Ergebnisse. Dies ist eine weitere Ausnahme von der allgemeinen Regel.

Die Berechnung dieses Koeffizienten erfolgt nach folgender Formel:

wo ` X 1 durchschnittlicher Rang über diesen Elementen der Variablen Y, was dem Code (Merkmal) 1 in der Variablen entspricht X;

„X 0 – durchschnittlicher Rang für diese Elemente der Variablen Ja, was dem Code (Merkmal) 0 in der Variablen entspricht X\

N- die Gesamtzahl der Elemente in der Variablen x.

Um den Rang-Biserial-Korrelationskoeffizienten anzuwenden, müssen die folgenden Bedingungen erfüllt sein:

1. Die zu vergleichenden Variablen müssen auf verschiedenen Skalen gemessen werden: eine X- in einer dichotomen Skala; Ein weiterer J– in der Rangordnung.

2. Die Anzahl unterschiedlicher Merkmale in den verglichenen Variablen X und Y sollte gleich sein.

3. Um das Zuverlässigkeitsniveau des Rang-Biserial-Korrelationskoeffizienten zu beurteilen, sollte man die Formel (11.9) und die Tabelle der kritischen Werte für den Student-Test verwenden, wenn k = n - 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Fälle, in denen eine der Variablen in vorhanden ist dichotome Skala, und der andere hinein Rang (Ordnungszahl), erfordern die Verwendung Rang-Biserial-Korrelationskoeffizient:

rpb=2 / n * (m1 - m0)

wo:
n ist die Anzahl der Messobjekte
m1 und m0 - der durchschnittliche Rang von Objekten mit 1 oder 0 in der zweiten Variablen.
Dieser Koeffizient wird auch bei der Überprüfung der Validität von Tests verwendet.

40. Linearer Korrelationskoeffizient.

Zur Korrelation im Allgemeinen (und zur linearen Korrelation im Besonderen) siehe Frage Nr. 36 mit. 56 (64) 063.JPG

Mr. PEARSON'S KORRELATIONSKOEFFIZIENT

r-Pearson (Pearson r) wird verwendet, um die Beziehung zwischen zwei Metriken zu untersuchenandere Variablen, die an derselben Probe gemessen wurden. Es gibt viele Situationen, in denen es angebracht ist, es zu verwenden. Beeinflusst Intelligenz die Leistung in höheren Universitätsjahren? Hängt die Höhe des Gehalts eines Mitarbeiters mit seinem Wohlwollen gegenüber Kollegen zusammen? Beeinflusst die Stimmung eines Schülers den Erfolg beim Lösen einer komplexen Rechenaufgabe? Um solche Fragen zu beantworten, muss der Forscher zwei Indikatoren messen, die für jedes Mitglied der Stichprobe von Interesse sind. Die Daten zum Untersuchen der Beziehung werden dann wie im Beispiel unten tabelliert.

BEISPIEL 6.1

Die Tabelle zeigt beispielhaft die ersten Messdaten für zwei Intelligenzindikatoren (verbal und nonverbal) bei 20 Schülern der 8. Klasse.

Die Beziehung zwischen diesen Variablen kann mithilfe eines Streudiagramms dargestellt werden (siehe Abbildung 6.3). Das Diagramm zeigt, dass es einen Zusammenhang zwischen den gemessenen Indikatoren gibt: Je größer der Wert der verbalen Intelligenz, desto größer (hauptsächlich) der Wert der nonverbalen Intelligenz.

Bevor wir die Formel für den Korrelationskoeffizienten angeben, wollen wir versuchen, die Logik seines Auftretens anhand der Daten aus Beispiel 6.1 nachzuvollziehen. Die Position jedes /-Punktes (Subjekt mit der Nummer /) auf dem Streudiagramm relativ zu den anderen Punkten (Abb. 6.3) kann durch die Größen und Vorzeichen der Abweichungen der entsprechenden Werte der Variablen von ihren angegeben werden durchschnittliche Werte: (xj - MJ und (Geist beim ). Wenn die Vorzeichen dieser Abweichungen übereinstimmen, spricht dies für eine positive Beziehung (große Werte für X entsprechen großen Werten beim oder kleinere Werte für X entsprechen kleineren Werten y).

Für Proband Nr. 1 die Abweichung vom Durchschnitt X und von beim positiv, und für Proband Nr. 3 sind beide Abweichungen negativ. Folglich weisen die Daten von beiden auf eine positive Beziehung zwischen den untersuchten Merkmalen hin. Im Gegenteil, wenn sich Abweichungen vom Durchschnitt abzeichnen X und von beim unterscheiden, weist dies auf eine negative Beziehung zwischen den Zeichen hin. Also für Proband Nr. 4 die Abweichung vom Durchschnitt X ist negativ, gem ja - positiv und für Thema Nr. 9 - umgekehrt.

Wenn also das Produkt der Abweichungen (x, - M X ) X (Geist beim ) positiv, dann weisen die Daten des /-Subjekts auf eine direkte (positive) Beziehung hin, und wenn negativ, dann auf eine inverse (negative) Beziehung. Dementsprechend, wenn Xwj meistens direkt proportional sind, dann sind die meisten Produkte der Abweichungen positiv, und wenn sie umgekehrt zusammenhängen, sind die meisten Produkte negativ. Daher kann die Summe aller Abweichungsprodukte für eine bestimmte Stichprobe als allgemeiner Indikator für die Stärke und Richtung des Zusammenhangs dienen:

Bei einer direkt proportionalen Beziehung zwischen den Variablen ist dieser Wert groß und positiv - bei den meisten Probanden stimmen die Abweichungen im Vorzeichen überein (große Werte einer Variablen entsprechen großen Werten der anderen Variablen und umgekehrt). Ob X und beim Feedback haben, dann entsprechen bei den meisten Probanden große Werte einer Variablen kleineren Werten einer anderen Variablen, d. H. Die Vorzeichen der Produkte sind negativ und die Summe der Produkte insgesamt wird ebenfalls groß sein im absoluten Wert, aber mit negativem Vorzeichen. Wenn zwischen den Variablen keine systematische Beziehung besteht, werden die positiven Terme (Produkte von Abweichungen) durch negative Terme ausgeglichen, und die Summe aller Produkte von Abweichungen wird nahe Null sein.

Damit die Summe der Produkte nicht von der Stichprobengröße abhängt, reicht es aus, sie zu mitteln. Aber wir interessieren uns für das Maß der Beziehung nicht als allgemeinen Parameter, sondern als berechnete Schätzung davon - Statistik. Daher werden wir in diesem Fall wie bei der Dispersionsformel dasselbe tun und die Summe der Produkte der Abweichungen nicht durch dividieren N, und im Fernsehen - 1. Es stellt sich heraus, dass es sich um eine in Physik und technischen Wissenschaften weit verbreitete Kommunikationsmaßnahme handelt, die aufgerufen wird Kovarianz (Covahance):


BEIM In der Psychologie werden im Gegensatz zur Physik die meisten Variablen auf willkürlichen Skalen gemessen, da Psychologen nicht am absoluten Wert des Merkmals interessiert sind, sondern an der relativen Position der Subjekte in der Gruppe. Außerdem ist die Kovarianz sehr empfindlich gegenüber der Skala (Streuung), in der die Merkmale gemessen werden. Um das Kommunikationsmaß von den Maßeinheiten der beiden Attribute unabhängig zu machen, genügt es, die Kovarianz in die entsprechenden Standardabweichungen zu unterteilen. So wurde es erhalten zum-K. Pearsons Korrelationskoeffizienten-Mule:

oder nach Ersetzen der Ausdrücke für o x und


Wenn die Werte beider Variablen mithilfe der Formel in r-Werte umgewandelt wurden


dann sieht die Formel für den r-Pearson-Korrelationskoeffizienten einfacher aus (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

ZUSAMMENHANG LINEAR- statistische nichtkausale lineare Beziehung zwischen zwei quantitativen Variablen X und beim. Gemessen mit dem „Faktor K.L.“ Pearson, die das Ergebnis der Division der Kovarianz durch die Standardabweichungen beider Variablen ist:

,

wo s xy- Kovarianz zwischen Variablen X und beim;

s x , s j- Standardabweichungen für Variablen X und beim;

x ich , j ich- variable Werte X und beim für Objektnummer ich;

x, j- arithmetische Mittelwerte für Variablen X und beim.

Pearsons Verhältnis r kann Werte aus dem Intervall [-1; +1]. Bedeutung r = 0 bedeutet keine lineare Beziehung zwischen Variablen X und beim(schließt aber einen nichtlinearen statistischen Zusammenhang nicht aus). Positive Koeffizientenwerte ( r> 0) weisen auf eine direkte lineare Beziehung hin; je näher sein Wert an +1 liegt, desto stärker ist die statistische direkte Beziehung. Negative Koeffizientenwerte ( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r= ±1 bedeutet das Vorhandensein einer vollständigen linearen Verbindung, direkt oder umgekehrt. Bei einer vollständigen Verbindung sind alle Punkte mit Koordinaten ( x ich , j ich) liegen auf einer geraden Linie j = a + bx.

"Koeffizient K.L." Pearson wird auch verwendet, um die Enge der Beziehung im Regressionsmodell für lineare Paare zu messen.

41. Korrelationsmatrix und Korrelationsgraph.

Zum Zusammenhang allgemein siehe Frage Nr. 36 mit. 56 (64) 063.JPG

Korrelationsmatrix. Häufig umfasst die Korrelationsanalyse die Untersuchung der Beziehung nicht von zwei, sondern von vielen Variablen, die auf einer quantitativen Skala an einer einzigen Probe gemessen werden. In diesem Fall werden Korrelationen für jedes Paar dieses Satzes von Variablen berechnet. Berechnungen werden in der Regel auf einem Computer durchgeführt und das Ergebnis ist eine Korrelationsmatrix.

Korrelationsmatrix(Korrelation Matrix) ist das Ergebnis der Berechnung gleichartiger Korrelationen für jedes Paar aus der Menge R Variablen, die in einer quantitativen Skala an einer Probe gemessen werden.

BEISPIEL

Angenommen, wir untersuchen Beziehungen zwischen 5 Variablen (vl, v2,..., v5; P= 5), gemessen an einer Probe von N = 30 Menschlich. Nachfolgend finden Sie eine Tabelle mit Anfangsdaten und eine Korrelationsmatrix.

Und
zusammenhängende Daten:

Korrelationsmatrix:

Es ist leicht zu sehen, dass die Korrelationsmatrix quadratisch ist, symmetrisch in Bezug auf die Hauptdiagonale (takkakg, y = /) y), mit Einheiten auf der Hauptdiagonale (seit G und = Gu = 1).

Die Korrelationsmatrix ist Quadrat: die Anzahl der Zeilen und Spalten ist gleich der Anzahl der Variablen. Sie ist symmetrisch relativ zur Hauptdiagonale, da die Korrelation X mit beim gleich Korrelation beim mit X. Einheiten befinden sich auf seiner Hauptdiagonale, da die Korrelation eines Merkmals mit sich selbst gleich eins ist. Folglich werden nicht alle Elemente der Korrelationsmatrix analysiert, sondern diejenigen, die über oder unter der Hauptdiagonale liegen.

Anzahl der Korrelationskoeffizienten, Die bei der Untersuchung von Beziehungen zu analysierenden P-Merkmale werden durch die Formel bestimmt: P(P- 1)/2. Im obigen Beispiel beträgt die Anzahl solcher Korrelationskoeffizienten 5(5 - 1)/2 = 10.

Die Hauptaufgabe der Analyse der Korrelationsmatrix ist Aufdecken der Struktur von Wechselbeziehungen einer Reihe von Merkmalen. Dies ermöglicht eine visuelle Analyse Korrelationsplejaden- grafisches Bild Strukturen statistischbedeutende Verbindungen wenn es nicht sehr viele solcher Verbindungen gibt (bis zu 10-15). Eine andere Möglichkeit ist der Einsatz multivariater Methoden: Multiple Regression, Faktor- oder Clusteranalyse (siehe Abschnitt "Multivariate Methoden..."). Mittels Faktor- oder Clusteranalyse ist es möglich, Gruppierungen von Variablen zu identifizieren, die enger miteinander verwandt sind als mit anderen Variablen. Auch eine Kombination dieser Methoden ist sehr effektiv, wenn beispielsweise viele Zeichen vorhanden sind und diese nicht homogen sind.

Vergleich von Korrelationen - eine zusätzliche Aufgabe der Analyse der Korrelationsmatrix, die zwei Optionen hat. Wenn Korrelationen in einer der Zeilen der Korrelationsmatrix (für eine der Variablen) verglichen werden müssen, wird die Vergleichsmethode für abhängige Stichproben angewendet (S. 148-149). Beim Vergleich gleichnamiger Korrelationen, die für verschiedene Stichproben berechnet wurden, wird die Vergleichsmethode für unabhängige Stichproben verwendet (S. 147-148).

Vergleichsmethoden Korrelationen in Diagonalen Korrelationsmatrix (zur Beurteilung der Stationarität eines Zufallsprozesses) und Vergleich mehrere Korrelationsmatrizen, die für verschiedene Proben (wegen ihrer Homogenität) erhalten wurden, sind zeitaufwändig und würden den Rahmen dieses Buches sprengen. Sie können sich mit diesen Methoden aus dem Buch von GV Sukhodolsky 1 vertraut machen.

Das Problem der statistischen Signifikanz von Korrelationen. Das Problem ist, dass das statistische Hypothesentestverfahren beinhaltet ein-mehrere Test an einer Probe durchgeführt. Wenn die gleiche Methode angewendet wird viele Male, selbst wenn in Bezug auf verschiedene Variablen, dann steigt die Wahrscheinlichkeit, rein zufällig ein Ergebnis zu erhalten. Im Allgemeinen, wenn wir dieselbe Hypothesentestmethode wiederholen zu Zeiten in Bezug auf verschiedene Variablen oder Stichproben, dann erhalten wir mit dem festgestellten Wert von a garantiert eine Bestätigung der Hypothese in äh die Zahl der Fälle.

Nehmen wir an, dass die Korrelationsmatrix für 15 Variablen analysiert wird, dh es werden 15(15-1)/2 = 105 Korrelationskoeffizienten berechnet. Um die Hypothesen zu testen, wird das Niveau a = 0,05 gesetzt.Durch 105-maliges Testen der Hypothese erhalten wir ihre Bestätigung fünfmal (!), unabhängig davon, ob der Zusammenhang tatsächlich besteht. Können wir mit diesem Wissen und nachdem wir beispielsweise 15 „statistisch signifikante“ Korrelationskoeffizienten erhalten haben, sagen, welche davon zufällig erhalten wurden und welche eine echte Beziehung widerspiegeln?

Um eine statistische Entscheidung zu treffen, ist es streng genommen erforderlich, das Niveau a so oft zu reduzieren, wie die Anzahl der zu testenden Hypothesen. Dies ist jedoch kaum ratsam, da die Wahrscheinlichkeit, eine wirklich bestehende Verbindung zu ignorieren (einen Typ-II-Fehler zu begehen) in unvorhersehbarer Weise zunimmt.

Die Korrelationsmatrix allein reicht nicht ausfür statistische Rückschlüsse auf die darin enthaltenen einzelnen KoeffizientenZusammenhänge!

Um dieses Problem zu lösen, gibt es nur einen wirklich überzeugenden Weg: Teilen Sie die Stichprobe zufällig in zwei Teile und berücksichtigen Sie nur die Korrelationen, die in beiden Teilen der Stichprobe statistisch signifikant sind. Eine Alternative kann der Einsatz multivariater Verfahren (faktorielle, Cluster- oder multiple Regressionsanalyse) sein – zur Auswahl und anschließenden Interpretation von Gruppen statistisch signifikant verwandter Variablen.

Das Problem der fehlenden Werte. Bei fehlenden Werten in den Daten sind zwei Möglichkeiten zur Berechnung der Korrelationsmatrix möglich: a) Zeilenweises Löschen von Werten (ausschließenFällelistweise); b) paarweises Löschen von Werten (ausschließenFällepaarweise). Beim Zeile für Zeile löschen Beobachtungen mit Lücken, wird die gesamte Zeile für das Objekt (Subjekt) gelöscht, das mindestens einen fehlenden Wert für eine der Variablen hat. Dieses Verfahren führt zu einer "korrekten" Korrelationsmatrix in dem Sinne, dass alle Koeffizienten aus derselben Menge von Objekten berechnet werden. Wenn die fehlenden Werte jedoch zufällig in den Variablen verteilt sind, dann kann diese Methode dazu führen, dass im betrachteten Datensatz kein Objekt mehr vorhanden ist (jede Zeile wird mindestens einen fehlenden Wert enthalten). Um diese Situation zu vermeiden, verwenden Sie eine andere aufgerufene Methode paarweise Entfernung. Dieses Verfahren berücksichtigt nur Lücken in jedem ausgewählten Paar von Variablenspalten und ignoriert Lücken in anderen Variablen. Die Korrelation für ein Variablenpaar wird für die Objekte berechnet, bei denen es keine Lücken gibt. In vielen Situationen, insbesondere wenn die Anzahl der Lücken relativ klein ist, sagen wir 10 %, und die Lücken ziemlich zufällig verteilt sind, führt dieses Verfahren nicht zu ernsthaften Fehlern. Manchmal ist dies jedoch nicht der Fall. Beispielsweise kann bei der systematischen Verzerrung (Verschiebung) der Schätzung die systematische Lage der Lücken „versteckt“ werden, was der Grund für die Unterschiede in den Korrelationskoeffizienten ist, die auf verschiedenen Teilmengen (z. B. für verschiedene Untergruppen von Objekten) aufgebaut sind ). Ein weiteres Problem hängt mit der mit berechneten Korrelationsmatrix zusammen in Paaren Lücken werden entfernt, wenn diese Matrix in anderen Analysetypen verwendet wird (z. B. in der multiplen Regression oder der Faktorenanalyse). Sie gehen davon aus, dass eine „korrekte“ Korrelationsmatrix mit einer gewissen Konsistenz und „Übereinstimmung“ verschiedener Koeffizienten verwendet wird. Die Verwendung einer Matrix mit "schlechten" (voreingenommenen) Schätzungen führt dazu, dass das Programm eine solche Matrix entweder nicht analysieren kann oder die Ergebnisse fehlerhaft sind. Wenn daher ein paarweises Verfahren zum Eliminieren fehlender Daten verwendet wird, muss überprüft werden, ob es systematische Muster in der Verteilung von Lücken gibt oder nicht.

Wenn die paarweise Eliminierung fehlender Daten zu keiner systematischen Verschiebung der Mittelwerte und Varianzen (Standardabweichungen) führt, ähneln diese Statistiken denen, die mit der zeilenweisen Methode zum Entfernen von Lücken berechnet wurden. Liegt ein signifikanter Unterschied vor, so ist von einer Verschiebung der Schätzungen auszugehen. Zum Beispiel, wenn der Mittelwert (oder die Standardabweichung) der Werte der Variablen SONDERN, die bei der Berechnung seiner Korrelation mit der Variablen verwendet wurde BEIM, viel weniger als der Mittelwert (oder die Standardabweichung) der gleichen Werte der Variablen SONDERN, die bei der Berechnung ihrer Korrelation mit der Variablen C verwendet wurden, dann gibt es allen Grund zu erwarten, dass diese beiden Korrelationen (A-Buns) basierend auf verschiedenen Untergruppen von Daten. Es wird eine Verschiebung der Korrelationen geben, die durch die nicht zufällige Lage der Lücken in den Werten der Variablen verursacht wird.

Analyse von Korrelationsplejaden. Nach Lösung des Problems der statistischen Signifikanz der Elemente der Korrelationsmatrix können statistisch signifikante Korrelationen grafisch in Form einer Korrelationsplejade oder -plejaden dargestellt werden. Korrelationsgalaxie - es ist eine Figur, die aus Scheitelpunkten und Verbindungslinien besteht. Die Scheitelpunkte entsprechen den Merkmalen und werden normalerweise mit Zahlen bezeichnet - den Nummern der Variablen. Die Linien entsprechen statistisch signifikanten Beziehungen und drücken grafisch das Vorzeichen und manchmal das /j-Signifikanzniveau der Beziehung aus.

Die Korrelationsgalaxie kann reflektieren alles statistisch signifikante Beziehungen der Korrelationsmatrix (manchmal auch als Korrelationsdiagramm ) oder nur deren sinnvoll ausgewählter Teil (z. B. entsprechend einem Faktor nach den Ergebnissen der Faktorenanalyse).

BEISPIEL FÜR DIE KONSTRUKTION EINER KORRELATION PLEIADI


Vorbereitung auf die staatliche (Abschluss-)Zertifizierung der Absolventen: Aufbau der USE-Datenbank (allgemeine Liste der USE-Teilnehmer aller Kategorien mit Fächerangabe) - Berücksichtigung von Reservetagen bei Fächerüberschneidung;

  • Arbeitsplan (27)

    Entscheidung

    2. Die Aktivitäten der Bildungseinrichtung zur Verbesserung des Inhalts und zur Bewertung der Qualität in den Fächern Natur- und Mathematikunterricht MOU-Sekundarschule Nr. 4, Litvinovskaya, Chapaevskaya,

  • ist eine quantitative Bewertung der statistischen Untersuchung der Beziehung zwischen Phänomenen, die in nichtparametrischen Methoden verwendet wird.

    Der Indikator zeigt, wie sich die beobachtete Summe der quadrierten Differenzen zwischen den Rängen von dem Fall ohne Zusammenhang unterscheidet.

    Dienstzuweisung. Mit diesem Online-Rechner können Sie:

    • Berechnung des Rangkorrelationskoeffizienten nach Spearman;
    • Berechnung des Konfidenzintervalls für den Koeffizienten und Bewertung seiner Signifikanz;

    Rangkorrelationskoeffizient nach Spearman bezieht sich auf die Indikatoren zur Bewertung der Kommunikationsdichte. Ein qualitatives Merkmal der Enge der Beziehung des Rangkorrelationskoeffizienten sowie anderer Korrelationskoeffizienten kann anhand der Chaddock-Skala bewertet werden.

    Koeffizientenberechnung besteht aus folgenden Schritten:

    Eigenschaften des Rangkorrelationskoeffizienten nach Spearman

    Anwendungsgebiet. Rangkorrelationskoeffizient Wird verwendet, um die Qualität der Kommunikation zwischen zwei Geräten zu bewerten. Darüber hinaus wird seine statistische Signifikanz bei der Analyse von Daten auf Heteroskedastizität verwendet.

    Beispiel. An einer Datenstichprobe der beobachteten Variablen X und Y:

    1. eine Rangliste erstellen;
    2. Finden Sie den Rangkorrelationskoeffizienten nach Spearman und testen Sie seine Signifikanz auf Stufe 2a
    3. das Wesen der Sucht einschätzen
    Entscheidung. Weisen Sie dem Merkmal Y und dem Faktor X Ränge zu.
    XYRang X, dxRang Y, d y
    28 21 1 1
    30 25 2 2
    36 29 4 3
    40 31 5 4
    30 32 3 5
    46 34 6 6
    56 35 8 7
    54 38 7 8
    60 39 10 9
    56 41 9 10
    60 42 11 11
    68 44 12 12
    70 46 13 13
    76 50 14 14

    Rangmatrix.
    Rang X, dxRang Y, d y(dx - dy) 2
    1 1 0
    2 2 0
    4 3 1
    5 4 1
    3 5 4
    6 6 0
    8 7 1
    7 8 1
    10 9 1
    9 10 1
    11 11 0
    12 12 0
    13 13 0
    14 14 0
    105 105 10

    Überprüfung der Korrektheit der Zusammenstellung der Matrix anhand der Berechnung der Prüfsumme:

    Die Summe über die Spalten der Matrix sind untereinander und die Prüfsumme gleich, was bedeutet, dass die Matrix korrekt zusammengesetzt ist.
    Unter Verwendung der Formel berechnen wir den Spearman-Rangkorrelationskoeffizienten.


    Die Beziehung zwischen Merkmal Y und Faktor X ist stark und direkt
    Signifikanz des Rangkorrelationskoeffizienten nach Spearman
    Um die Nullhypothese auf dem Signifikanzniveau α zu testen, dass der allgemeine Spearman-Rangkorrelationskoeffizient unter der konkurrierenden Hypothese H i gleich Null ist. p ≠ 0, muss der kritische Punkt berechnet werden:

    wobei n die Stichprobengröße ist; ρ ist der Stichproben-Rangkorrelationskoeffizient von Spearman: t(α, k) ist der kritische Punkt des zweiseitigen kritischen Bereichs, der aus der Tabelle der kritischen Punkte der Student-Verteilung gemäß dem Signifikanzniveau α und der Anzahl von gefunden wird Freiheitsgrade k = n-2.
    Wenn |p|< Т kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если |p| >T kp - Nullhypothese wird verworfen. Es besteht eine signifikante Rangkorrelation zwischen qualitativen Merkmalen.
    Gemäß der Tabelle von Student finden wir t(α/2, k) = (0,1/2;12) = 1,782

    Da Tkp< ρ , то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.

    In der Praxis wird häufig der Rangkorrelationskoeffizient (P) nach Spearman verwendet, um die Nähe der Beziehung zwischen zwei Merkmalen zu bestimmen. Die Werte jedes Merkmals werden in aufsteigender Reihenfolge (von 1 bis n) geordnet, dann wird die Differenz (d) zwischen den Rängen, die einer Beobachtung entsprechen, bestimmt.

    Beispiel 1. Die Beziehung zwischen dem Volumen der Industrieproduktion und den Investitionen in Anlagekapital in 10 Regionen eines der föderalen Bezirke der Russischen Föderation im Jahr 2003 ist durch die folgenden Daten gekennzeichnet.
    Berechnung Rangkorrelationskoeffizienten nach Spearman und Kendala. Überprüfen Sie ihre Signifikanz bei α = 0,05. Formulieren Sie eine Schlussfolgerung über die Beziehung zwischen dem Volumen der Industrieproduktion und den Investitionen in das Anlagevermögen in den betrachteten Regionen der Russischen Föderation.

    Weisen Sie dem Merkmal Y und dem Faktor X Ränge zu. Finden Sie die Summe der Differenz der Quadrate d 2 .
    Mit dem Taschenrechner berechnen wir den Rangkorrelationskoeffizienten von Spearman:

    X Y Rang X, dx Rang Y, d y (dx - dy) 2
    1.3 300 1 2 1
    1.8 1335 2 12 100
    2.4 250 3 1 4
    3.4 946 4 8 16
    4.8 670 5 7 4
    5.1 400 6 4 4
    6.3 380 7 3 16
    7.5 450 8 5 9
    7.8 500 9 6 9
    17.5 1582 10 16 36
    18.3 1216 11 9 4
    22.5 1435 12 14 4
    24.9 1445 13 15 4
    25.8 1820 14 19 25
    28.5 1246 15 10 25
    33.4 1435 16 14 4
    42.4 1800 17 18 1
    45 1360 18 13 25
    50.4 1256 19 11 64
    54.8 1700 20 17 9
    364

    Die Beziehung zwischen Merkmal Y und Faktor X ist stark und direkt.

    Schätzung des Rangkorrelationskoeffizienten nach Spearman



    Gemäß der Student-Tabelle finden wir Ttable.
    T-Tabelle \u003d (18; 0,05) \u003d 1,734
    Da Tobs > Ttabl, verwerfen wir die Hypothese, dass der Rangkorrelationskoeffizient gleich Null ist. Mit anderen Worten, der Rangkorrelationskoeffizient nach Spearman ist statistisch signifikant.

    Intervallschätzung für den Rangkorrelationskoeffizienten (Konfidenzintervall)
    Konfidenzintervall für Rangkorrelationskoeffizient nach Spearman: p(0,5431;0,9095).

    Beispiel #2. Ausgangsdaten.

    5 4
    3 4
    1 3
    3 1
    6 6
    2 2
    Da die Matrix verwandte Ränge (die gleiche Rangnummer) der 1. Reihe hat, werden wir sie umformen. Die Ränge werden neu gebildet, ohne die Wichtigkeit des Rangs zu ändern, dh die entsprechenden Verhältnisse (größer als, kleiner als oder gleich) zwischen den Rangzahlen müssen erhalten bleiben. Es wird auch nicht empfohlen, den Rang über 1 und unter den Wert gleich der Anzahl der Parameter zu setzen (in diesem Fall n = 6). Die Neubildung der Reihen erfolgt in der Tabelle.
    Neue Reihen
    1 1 1
    2 2 2
    3 3 3.5
    4 3 3.5
    5 5 5
    6 6 6
    Da es in der Matrix gebundene Ränge der 2. Reihe gibt, werden wir sie umformen. Die Neubildung der Reihen erfolgt in der Tabelle.
    Sitznummern in geordneter ReiheLage der Faktoren nach Einschätzung des SachverständigenNeue Reihen
    1 1 1
    2 2 2
    3 3 3
    4 4 4.5
    5 4 4.5
    6 6 6
    Rangmatrix.
    Rang X, dxRang Y, d y(dx - dy) 2
    5 4.5 0.25
    3.5 4.5 1
    1 3 4
    3.5 1 6.25
    6 6 0
    2 2 0
    21 21 11.5
    Da es unter den Werten der Merkmale x und y mehrere identische gibt, d.h. gebundene Ränge gebildet werden, dann wird in diesem Fall der Spearman-Koeffizient berechnet als:

    wo


    j - Anzahl der Links in der Reihenfolge für Merkmal x;
    Und j ist die Anzahl identischer Ränge im j-ten Bündel in x;
    k - Anzahl der Scheiben in der Reihenfolge für Merkmal y;
    In k - die Anzahl identischer Ränge im k-ten Bündel in y.
    A = [(2 3 - 2)]/12 = 0,5
    B = [(2 3 – 2)]/12 = 0,5
    D = A + B = 0,5 + 0,5 = 1

    Die Beziehung zwischen Merkmal Y und Faktor X ist moderat und direkt.