Was ist rang in der statistik. Fall von identischen Rängen

1 Kurzgeschichte Auftreten Korrelationsanalyse

Der Beginn der Anwendung mathematischer und statistischer Techniken zur Untersuchung von Korrelationsabhängigkeiten geht auf die 70er Jahre des 19. Jahrhunderts zurück. Viele Historiker - Statistiker führen die Geschichte der Entwicklung der Korrelation aus den vierziger Jahren des neunzehnten Jahrhunderts - aus der Zeit, als Französischer Mathematiker O. Brave hat eine Formel für die Verteilung zweier Zufallsvariablen vorgeschlagen, die den Anforderungen des Gesetzes genügen Normalverteilung.

Als wahrer Begründer der Korrelationstheorie gilt jedoch der englische Mathematiker - Statistiker K. Pearson, der Ende des 19. und Anfang des 20. Jahrhunderts geschaffen wurde diese Theorie. Die Korrelation fungiert darin als eine Form der dialektischen Verbindung, in der die Menge Aus verschiedenen Gründen, sowohl notwendig als auch zufällig, beide gemeinsam für beide Korrelationswerte und privat, die nur einen von ihnen betreffen. Außerdem sind nicht alle natürlichen Zusammenhänge kausal.

Die Entwicklung der Theorie wurde mit Hilfe anderer Studien durchgeführt, als die Hauptbestimmungen der Korrelationstheorie bereits erstellt waren. Darüber hinaus weicht die Praxis auf dem Gebiet der Untersuchung von Korrelationen stark von der Theorie ab und bringt die Forscher in solche Bedingungen, die ihren Anforderungen nicht genügen.

Grundlage für die Bildung von Methoden zur Untersuchung von Korrelationen und Regressionen waren Daten, die beliebige, quantitativ ausgedrückte Zeichen charakterisieren. Daher standen Forscher schon bei den allerersten Schritten vor der Aufgabe, qualitative Merkmale zu korrelieren, beispielsweise die Beziehung zwischen Augenfarbe bei Vätern und Söhnen. Allgemeines Prinzip, die die Grundlage für die Konstruktion von Korrelationsindikatoren qualitativer Zeichen bildete, lautete, dass zwei qualitative Zeichen als miteinander verbunden angesehen werden können, wenn die Wirkung eines von ihnen A unter der Wirkung von Zeichen B dieselbe ist, wie wenn das Zeichen nicht B ist. In der Entwicklung dieses Prinzips und angeboten verschiedene Designs Indikatoren wie beispielsweise Pearsons mittlerer quadratischer Konjugationskoeffizient oder Chuprovs gegenseitiger Konjugationskoeffizient.

Anlass war die Untersuchung der Korrelation qualitativer Merkmale allgemeine Lehreüber Korrelation, die sogenannte Rangtheorie und die darauf basierende Theorie der Rangkorrelation. Der englische Mathematiker und Statistiker M. Kendall, Autor einer Monographie über die Probleme der Rangkorrelation, wies darauf hin, dass die Rangtheorie zunächst als Zweig der Theorie entstand zufällige Prozesse. An Erstphase Ränge wurden meistens einfach als ein bequemes Gerät angesehen, mit dem es möglich ist, auf die Messung des Absolutwerts von Variablen zu verzichten und dadurch Zeit und Mühe zu sparen. Später konnten sich Rangstatistiken aufgrund ihrer Anerkennung durchsetzen Selbstwert. Kendall konstruierte einen Indikator, der auch auf die Untersuchung der partiellen Korrelation zwischen Rängen anwendbar ist. moderne Theorie Rangkorrelation ist ohne M. Kendalls aufschlussreichste Forschung nicht vorstellbar.

So, zu Beginn des zwanzigsten Jahrhunderts, mathematisch statistische Methoden Messungen von Korrelationen und Regressionen haben sich im Allgemeinen recht harmonisch entwickelt Vollständiges System, die Methoden enthält Nichtparametrische Statistik und nichtparametrische Rangverfahren.

2 Nichtparametrische Rangmethoden

Nichtparametrische Rangmethoden sind wild Entwicklungsgebiet mathematische Statistik. Geschichte der Moderne Nichtparametrische Methoden basierend auf Rängen ist ziemlich kurz - nur etwa 40 Jahre. Rangverfahren haben sich nicht nur aufgrund der Beschaffenheit des Ausgangsmaterials, sondern auch aufgrund der Vorstellungen zu dessen Weiterverwendung zu einem Spezialgebiet der nichtparametrischen Statistik entwickelt. Heute lösen diese Methoden viele Probleme der Analyse wirtschaftlicher, statistischer, technischer, naturwissenschaftlicher, soziologischer und medizinischer Daten.

Beim Ranking handelt es sich um ein Verfahren zum Ordnen von Studienobjekten, das auf der Grundlage von Präferenzen durchgeführt wird. Rang ist Ordnungsnummer Kennwerte in aufsteigender oder absteigender Reihenfolge ihrer Werte angeordnet. Wie statistische Studien der letzten 10-15 Jahre gezeigt haben, sind Rangverfahren weitgehend frei von einer Reihe von Mängeln bei der Arbeit mit kleinen Stichproben, deren Verteilung unbekannt ist. Der Übergang von den Beobachtungen selbst zu ihren Reihen geht bekanntlich mit einem gewissen Informationsverlust einher. Diese Verluste sind jedoch nicht allzu groß. Leider gibt es immer noch einen Mangel spezielle Literatur zu diesem Thema.

IN In letzter Zeit bei der Vorhersage und bei der Lösung einer Reihe anderer Probleme sind weit verbreitet Expertenmeinungen. Rangkorrelationsmethoden in diesem Bereich sind fast der einzige Weg Verallgemeinerungen von Expertenurteilen.

Die Rangtheorie entstand zunächst als Ableger der Theorie stochastischer Prozesse. In der Anfangsphase wurden Ränge meist nur als praktisches Hilfsmittel angesehen, mit dem es möglich ist, auf die Änderung des Absolutwerts von Variablen zu verzichten und dadurch Zeit und Mühe zu sparen. Dank der Verwendung von Rängen konnten die Schwierigkeiten vermieden werden, die mit der Konstruktion einer objektiven Skala absoluter Werte verbunden sind. Später konnten sich Rangstatistiken aufgrund ihrer eigenen Vorzüge durchsetzen.

Nachfolgend werden die gebräuchlichsten Ordnungsweisen der untersuchten Objekte betrachtet:

Die Aufgabe lässt sich einfach auf das Ordnen von Objekten nach ihrem räumlichen oder zeitlichen Platz reduzieren. Zum Beispiel wurden die Karten in einer bestimmten Reihenfolge in einem Deck angeordnet und dann gemischt. Die neue Anordnung der Karten ist auch durch eine bestimmte Reihenfolge, Rangfolge, gekennzeichnet. Im Vergleich mit dem alten sieht man, wie sorgfältig die Karten gemischt wurden. In diesem Problem ist es nur interessant allgemeine Anordnung Karten in einem Deck, und es besteht keine Notwendigkeit, Objekte gemäß der „Erhöhung“ oder „Verringerung“ des einen oder anderen Merkmals anzuordnen, das ihnen allen innewohnt;

Es ist auch möglich, Objekte nach einer bestimmten Qualität zu ordnen, für die es keine objektive absolute Veränderungsskala gibt. Sie können beispielsweise Stichproben ordnen Felsen in der Härte, basierend auf dem folgenden einfachen Kriterium: A ist härter als B, wenn A bei der Berührung B einen Kratzer hinterlässt. Wenn A einen Kratzer auf B hinterlässt und B auf C, dann hinterlässt A einen Kratzer auf C. Somit ist es möglich, durch Rückgriff auf eine Reihe von Vergleichen die fraglichen Objekte mit ausreichender Genauigkeit zu ordnen (es sei denn, das Set enthält solche zwei Objekte, die die gleiche Härte haben ). Jedoch ähnliche Weise erlaubt es nicht, den absoluten Wert der Gesteinshärte zu messen. Es lässt sich immer feststellen, dass A schwerer ist als B. Allerdings erst, wenn die eine oder andere Messskala aufgebaut ist absolute Werte, kann man nicht sagen, dass A etwa doppelt so hart ist wie B;

Die Bestellung kann gemäß dem gemessenen (oder theoretisch berechneten) Wert eines Merkmals erfolgen. Beispielsweise können Sie Personen in der einen oder anderen Reihenfolge nach ihrer Körpergröße und Städte nach Bevölkerungszahl anordnen. Gleichzeitig muss nicht immer auf den Messvorgang selbst zurückgegriffen werden: Es ist möglich, eine Gruppe von Schülern „mit dem Auge“ nach Größe zu bilden; allerdings müssen die Ranking-Kriterien in solchen Fällen direkte Vergleiche zulassen.

Es ist möglich, Gegenstände nach einem Merkmal zu ordnen, dessen Wert im Prinzip gemessen werden kann, aber in der Praxis (oder sogar theoretisch) ist es aus verschiedenen Gründen nicht möglich, auf eine solche Messung zurückzugreifen. Beispielsweise können Sie eine Reihe von Gesichtern nach ihrem ordnen intellektuelle Fähigkeit, in der Überzeugung, dass eine solche Eigenschaft wirklich existiert und dass es möglich ist, Menschen entsprechend der Intensität dieser Eigenschaft in die eine oder andere Reihenfolge zu bringen.

IN praktische Anwendungen Ranking-basierte Methoden stoßen manchmal auf Fälle, in denen zwei oder mehr Objekte so ähnlich sind, dass es nicht möglich ist, einem von ihnen den Vorzug zu geben. Wenn ein Experte ein Objekt basierend auf bewertet subjektive Urteile, dann ist diese Eigenschaft (Fehlen von Präferenzen) mit der Wahrheit ihrer Ununterscheidbarkeit oder der Unfähigkeit des Forschers verbunden, signifikante Unterschiede zu finden. In diesem Fall wird ein solches Objekt als gebunden bezeichnet.

Beispielsweise wurden die Schüler nach ihren Verdiensten oder Testergebnissen eingestuft. Die Methode, die für die Verschreibung akzeptiert wird Zahlenwerte Ränge verwandter Objekte besteht darin, die Ränge zu mitteln, die sie hätten, wenn sie unterscheidbar wären. Wenn zum Beispiel das dritte und vierte Objekt verbunden sind, wird jedem ein Rang von 3,5 zugewiesen, aber wenn Objekte vom zweiten bis zum siebten verbunden sind, dann ist der resultierende Rang 4,5.

Dieser Ansatz wird manchmal als „Durchschnittsrangmethode“ bezeichnet. Wenn es keine Grundlage für die Auswahl zwischen Objekten gibt, ist es klar, dass in diesem Fall allen zugeschrieben werden muss gleiche Ränge. Vorteil diese Methode ist, dass die Summe der Ränge für alle Objekte genau gleich bleibt wie beim Ranking ohne Links.

Bei der Analyse sozialer wirtschaftliche Phänomene oft muss auf verschiedene, bedingte Schätzungen über Ränge zurückgegriffen werden und die Beziehung zwischen einzelnen zu messenden Merkmalen über nichtparametrische Kopplungskoeffizienten.

3 Kendall-Rang-Konkordanzkoeffizient

Um die Enge der Beziehung zwischen einer beliebigen Anzahl von Rangfolgemerkmalen zu bestimmen, mehrfacher Faktor Korrelationen (Konkordanzkoeffizient).

In der Praxis statistische Studien In Fällen, in denen eine Menge von Objekten nicht durch zwei, sondern durch mehrere Rangfolgen gekennzeichnet ist, muss eine statistische Beziehung zwischen mehreren Variablen hergestellt werden. Als solches Messgerät wird der multiple Korrelationskoeffizient (Konkordanzkoeffizient) der Kendall-Ränge verwendet, der durch die folgende Formel bestimmt wird:

Wo W– Konkordanzkoeffizient;

D– die Summe der quadrierten Ränge wird nach Formel (2) berechnet;

N– Anzahl der Objekte des bewerteten Merkmals (Anzahl der Experten);

M ist die Anzahl der analysierten ordinalen Variablen.

W dient gewissermaßen als Maß für die Allgemeingültigkeit.

, (2)

Wo rij- geordnete Urteilsreihen einer Sachverständigengruppe;

N– Anzahl der Objekte (Anzahl Experten).

Die Werte der Konkordanzkoeffizienten sind im Intervall eingeschlossen.

Eine Erhöhung des Koeffizienten von 0 auf 1 bedeutet die Manifestation einer größeren Konsistenz der Urteile. Wenn alle diese Urteile zusammenfallen, dann W=1.

Der Signifikanztest des Koeffizienten beruht darauf, dass im Falle der Gültigkeit der Nullhypothese über das Fehlen Korrelation für n>7 Statistiken m(n-1)*W hat eine ungefähr – Verteilung mit k=n-1 Freiheitsgrade. Daher ist der Konkordanzkoeffizient auf dem Niveau =0,05 signifikant, wenn m(n-1)W> .

Ereignisse C

Experte j = 1

Experten a ij

Experte j = 2

Experte j = 1

Bedeutung a ij

Experte j = 2

Der Gesamtrang der Wichtigkeit a i

Der Durchschnittswert für die Gesamtränge der betrachteten Reihen

Die quadratische Gesamtabweichung S der Gesamtereignisse vom Mittelwert a ist

Konkordanzkoeffizient genannt. Der Wert von W variiert von 0 bis 1. Bei W = 0 gibt es absolut keine Konsistenz; es besteht kein Zusammenhang zwischen den Einschätzungen verschiedener Experten. Bei W = 1 hingegen ist die Übereinstimmung der Gutachten vollständig.

Besitzt die Folge (5.2) neben strikten Ungleichungen auch Gleichheiten, d.h. gibt es eine Übereinstimmung der Ränge, dann hat die Formel zur Berechnung des Konkordanzkoeffizienten die Form

Wenn die Ränge wiederholt werden, um einen normalen Rang zu erhalten, der einem mittleren Rang gleich ist

Es ist notwendig, Ereignissen mit gleichen Rängen einen Rang zuzuordnen, der gleich dem Durchschnittswert der Plätze ist, die diese Ereignisse untereinander aufteilen.

Beispielsweise wird die folgende Rangfolge von Ereignissen erhalten:

Ränge a i

Die Veranstaltungen 2 und 5 teilten sich die Plätze zwei und drei. Sie sind also rangiert

Die Ereignisse 3, 4 und 6 teilten sich den vierten, fünften und sechsten Platz, und ihnen wird der Rang zugewiesen

Somit erhalten wir ein normales Ranking:

Ränge a" i

Beispiel. Betrachten Sie eine Rangfolge von m=10 Ereignissen p=3 durch Experten; N, Q, R. Die Berechnungsergebnisse sind in der Tabelle dargestellt. 5.3.

Für die Extremwerte des Konkordanzkoeffizienten können folgende Annahmen getroffen werden. Wenn W = 0, dann gibt es keine Konsistenz in den Schätzungen, daher ist es notwendig, um zuverlässige Schätzungen zu erhalten, die anfänglichen Daten zu Ereignissen zu klären und (oder) die Zusammensetzung der Expertengruppe zu ändern. Wenn W = 1, ist es bei weitem nicht immer möglich, die erhaltenen Schätzungen als objektiv zu betrachten, da sich manchmal herausstellt, dass alle Mitglieder der Expertengruppe im Voraus zugestimmt haben, um ihre gemeinsamen Interessen zu wahren.

Es ist notwendig, dass der gefundene Wert von W größer ist als der spezifizierte Wert W 3 (W > W 3). Sie können W 3 = 0,5 nehmen, d.h. bei W > 0,5 sind die Aktionen der Experten eher koordiniert als nicht koordiniert. Für W< 0,5 полученные оценки нельзя считать достоверными, и поэтому следует повторить опрос заново. Жесткость данного утверждения опреде­ляется важностью проводимого исследования и возможностью повторной экспертизы. Практика показывает, что очень часто этим требованием пренебрегают.

Die Berechnung des Koeffizienten W unter Berücksichtigung der Kompetenz von Experten ist in der Arbeit angegeben.

Ziemlich gut nähert sich R. s. T, und der Unterschied ist vernachlässigbar, wenn . Wenn die Hypothese H 0 wahr ist, nach welcher Komponente X 1 , ... , Xn Zufallsvektor X unabhängig sind zufällige Variablen, R.'s Projektion mit. To wird durch die Formel bestimmt

wo (siehe ).

Es besteht eine interne Kommunikation zwischen R. der Seite. Und . Wie in gezeigt, wenn die Hypothese H 0 wahr ist, die Projektion Korrelationskoeffizient nach Kendall in die Familie der linearen R. s. bis zu konstanter Faktor stimmt mit dem Spearman-Rangkorrelationskoeffizienten überein, nämlich:


Aus dieser Gleichheit folgt, dass der Korrelationskoeffizient corr zwischen und gleich ist


d.h. für große nP. Mit. und sind asymptotisch äquivalent (siehe ).

Zündete.: Gaek Ya., Shidak Z., Theorie der Rangkriterien, übers. aus Englisch, M., 1971; K e n d a l l M. G., Rangkorrelationsmethoden, 4. Aufl., L., 1970. MS Nikulin.


Mathematische Enzyklopädie. - M.: Sowjetische Enzyklopädie. I. M. Winogradov. 1977-1985.

Sehen Sie, was "RANK STATISTICS" in anderen Wörterbüchern ist:

    Ranking-Statistiken- - [A. S. Goldberg. Englisch-Russisches Energie-Wörterbuch. 2006] Themen Energie allgemein EN Rangstatistik … Handbuch für technische Übersetzer

    Dieser Begriff hat andere Bedeutungen, siehe Statistik (Bedeutungen). Statistik (in engeren Sinne) ist messbar numerische Funktion aus der Stichprobe, unabhängig von den unbekannten Parametern der Verteilung. IN weiten Sinne Begriff (mathematisch) ... ... Wikipedia

    - (Statistik) 1. Datensatz u mathematische Methoden verwendet, um Beziehungen zwischen verschiedenen Variablen zu untersuchen. Es umfasst Methoden wie z lineare Regression(lineare Regression) und Rangkorrelation. 2. Verwendete Werte ... ... Wirtschaftslexikon

    STATISTIKEN- 1. Eine Art von Aktivität, die darauf abzielt, Informationen zu erhalten, zu verarbeiten und zu analysieren, die die quantitativen Lebensmuster auf der Insel in all ihrer Vielfalt charakterisieren, die untrennbar mit ihrem qualitativen Inhalt verbunden sind. Im engeren Sinne des Wortes ... ... Russische soziologische Enzyklopädie

    - (nicht parametrische Statistik) Statistisch Technik, die keine besonderen zulassen funktionale Formen für Beziehungen zwischen Variablen. Die Rangkorrelation zweier Variablen ist ein Beispiel dafür. Der Einsatz solcher technischer ... ... Wirtschaftslexikon- K. m., die ihren Namen erhielten. Da sie auf der „Korelation“ von Variablen beruhen, handelt es sich um statistische Verfahren, deren Anfänge etwa in den Arbeiten von Karl Pearson gelegt wurden spätes XIX v. Sie sind eng verwandt mit ... Psychologische Enzyklopädie

    Entwickler Digital Illusions CE Herausgeber ... Wikipedia

    Karl Pearson Karl (Carl) Pearson Geburtsdatum ... Wikipedia

Bei der Analyse sozioökonomischer Phänomene muss häufig auf verschiedene bedingte Schätzungen mit Rängen zurückgegriffen werden, und die Beziehung zwischen einzelnen Merkmalen wird mit nichtparametrischen Korrelationskoeffizienten gemessen.

Reichweite ist ein Verfahren zur Bestellung von Studienobjekten, das auf Präferenzbasis durchgeführt wird.

Rang- dies ist die fortlaufende Nummer der Attributwerte, angeordnet in aufsteigender oder absteigender Reihenfolge ihrer Werte. Wenn die Kennwerte gleich sind Quantifizierung, dann wird der Rang all dieser Werte gleich dem arithmetischen Mittel der entsprechenden Anzahl von Stellen gesetzt, die sie definieren. Diese Ränge werden berufen in Verbindung gebracht.

Unter den nichtparametrischen Methoden zur Schätzung der Enge der Beziehung Höchster Wert haben Rangkoeffizienten Korrelationen von Spearman (p1?/) und Kendall (m^). Diese Koeffizienten können verwendet werden, um die Stärke der Beziehung zwischen sowohl quantitativen als auch zu bestimmen qualitative Merkmale.

Rangkorrelationskoeffizient(Spearman-Koeffizient) wird durch die Formel berechnet

Wo (11 - Rangdifferenzquadrate; P - Anzahl der Beobachtungen (Anzahl der Rangpaare).

Der Koeffizient von Spearman nimmt jeden Wert im Bereich [-1; 1].

Beispiel. 11über Daten zum Kauf und Verkauf von Bürgern der Untertanen der Wolga Bundesland RF-Währung durch Kreditorganisationen 2010 werden wir die Beziehung zwischen diesen Merkmalen mithilfe des Spearman-Koeffizienten bestimmen (Tabelle 7.14).

Tabelle 7.14. Berechnung des Spearman-Koeffizienten

Thema

Währung kaufen X, mln reiben.

Verkauf von Währung y, mln reiben.

Rang

Pop eine Reihe

Rangunterschied zum Quadrat

$

ZU

Ry

1. Republik Baschkortostan

2. Republik Mari El

3. Republik Mordowien

4. Republik Tatarstan

5. Udmurtische Republik

6. Tschuwaschen

Republik

7. Perm-Region

8. Oblast Kirow

9. Gebiet Nischni Nowgorod

10. Region Orenburg

11. Oblast Pensa

12. Samara-Region

13. Gebiet Saratow

14. Gebiet Uljanowsk

Lassen Sie uns den Korrelationskoeffizienten von Spearmans Rängen berechnen:

Als Ergebnis der Berechnung haben wir festgestellt, dass die Beziehung zwischen dem Kauf und Verkauf von Währungen durch Bürger der Subjekte des Föderationskreises Wolga der Russischen Föderation durch Kreditinstitute im Jahr 2010 stark und nahezu funktional ist.

Rangkorrelationskoeffizient nach Kendall wird auch verwendet, um den Grad der Nähe und Richtung der Beziehung zwischen qualitativ und zu messen quantitative Merkmale homogene Objekte charakterisieren und nach demselben Prinzip einordnen. Die Berechnung des Kendall-Rangkoeffizienten erfolgt nach der Formel

wobei 5 die Summe der Differenzen zwischen der Anzahl der Sequenzen und der Anzahl der Inversionen gemäß dem zweiten Merkmal ist; P - Anzahl Beobachtungen.

Berechnung angegebenen Koeffizienten in dieser Reihenfolge durchgeführt.

  • 1. Werte X sind in aufsteigender oder absteigender Reihenfolge angeordnet.
  • 2. Werte bei sortiert nach den Werten X.
  • 3. Für jeden Rang bei die Anzahl der folgenden Werte von Rängen, die seinen Wert überschreiten, wird bestimmt. Durch Addition von Zahlen wird also der Wert ermittelt R als Maß für die Übereinstimmung zwischen Rangfolgen fx und y, die mit dem "+"-Zeichen berücksichtigt wird.
  • 4. Für jeden Rang bei die Anzahl der folgenden Werte von Rängen, die kleiner als sein Wert sind, wird bestimmt. Der Gesamtwert wird mit (2 bezeichnet und mit einem „-“-Zeichen fixiert.
  • 5. Die Punktesumme aller Mitglieder der Serie wird ermittelt.

Die Beziehung zwischen den Merkmalen wird als statistisch signifikant angesehen, wenn die Spearman- und Kendall-Rangkorrelationskoeffizienten größer als 0,5 sind.

Laut Tabelle. 7.14 die in tab. 7.15.

Somit wird Kendalls Rangkorrelationskoeffizient sein

Tabelle 7.15.

was auch auf eine starke Beziehung zwischen dem Kauf und Verkauf von Währungen durch Bürger der Subjekte des Föderationskreises Wolga der Russischen Föderation durch Kreditinstitute im Jahr 2009 hinweist.

Korrelationskoeffizient mehrerer Ränge (Konkordanzkoeffizient) Wird verwendet, um die Enge der Beziehung zwischen einer beliebigen Anzahl von bewerteten Merkmalen zu bestimmen. Es wird nach der Formel berechnet

wo 5 - Abweichung der Summe der Rangquadrate vom Durchschnitt der Rangquadrate; T - Anzahl der Faktoren; P - Anzahl der Beobachtungen.

Beispiel. Lassen Sie uns den Grad der Nähe der Beziehung zwischen solchen Schlüsselindikatoren des Technologiehandels mit den GUS-Staaten im Jahr 2010 wie der Anzahl der Exportverträge, den Kosten des Vertragsgegenstands und dem Erhalt von Mitteln bestimmen (Tabelle 7.16).

Tabelle 7.16. Berechnung des Konkordanzkoeffizienten

Ein Land

Anzahl der Vereinbarungen

X

Die Kosten des Vertragsgegenstandes y, Millionen Dollar

Mitteleingang für das Jahr d, Mio. USD

ZU

Summe der Zeilen

Summe Quadrat

1. Aserbaidschan

2. Armenien

3. Weißrussland

4. Kasachstan

5. Kirgistan

6. Republik Moldau

Der Näherungskoeffizient der Beziehung zwischen den Zeichen, der im vorherigen Abschnitt betrachtet wurde, kann angewendet werden, wenn die untersuchten Zeichen quantitativ sind. In diesem Fall wird die Berechnung der Hauptverteilungsparameter (Mittelwerte, Streuungen) verwendet, d.h. parametrische Methode.

In der statistischen Praxis der Untersuchung sozioökonomischer Phänomene und Prozesse muss man sich den Problemen der Messung der Beziehung zwischen qualitativen Merkmalen stellen, auf die parametrische Analysemethoden in ihrer üblichen Form nicht anwendbar sind. In diesem Fall ist die sog Nichtparametrische Methoden.

Bei der Analyse sozioökonomischer Phänomene werden Rangkorrelationskoeffizienten (Rangkorrelationskoeffizienten) häufig verwendet, wenn nicht direkte Werte von x und y, und ihre Reihen, diese. die Nummern ihrer Plätze in jeder Reihe von Werten in aufsteigender oder absteigender Reihenfolge. Diese nichtparametrischen Koeffizienten umfassen Spearman-Rangkoeffizienten Und Kendall.

Wenn P die Anzahl der Optionen nach dem aufsteigenden oder absteigenden Merkmal x geordnet sind, dann heißt es, dass die Objekte nach diesem Merkmal geordnet werden. Rang für x, - gibt den Platz an, der einnimmt i-e Eigenschaftswert unter anderem P Werte von Merkmal x (/ = 1,2,___, P).

Beispielsweise könnte man in der Marktforschung versuchen, die Vorlieben der Verbraucher bei der Auswahl eines Produkts (beim Kauf von Aktien, Eis, einem Auto usw.) herauszufinden, damit sie das Produkt in aufsteigender (oder absteigender) Reihenfolge verteilen ihre Konsumpräferenzen. Wenn es zwei Datensätze mit Rangfolge gibt, können Sie den Grad festlegen lineare Abhängigkeit zwischen ihnen.

Beispiel 6.7. Angenommen, es gibt 5 Produkte (Tabelle 6.7), die nach zwei Merkmalen in einer Rangfolge von 1 bis 5 angeordnet sind Ach W.

Erste Platzierungen

Tabelle 6.7

Es ist notwendig, die Enge des statistischen Zusammenhangs zwischen den Merkmalen zu untersuchen.

Lösung. Die Verwendung des Pearson-Koeffizienten zur Bestimmung der Intensität der Beziehung zwischen den Zeichen ist falsch, da dieser Koeffizient für Zeichen verwendet wird, die quantitativ gemessen werden. Wenn wir beispielsweise das Verhältnis zwischen Größe und Gewicht bestimmen, messen wir die Größe in Zentimetern und das Gewicht in Kilogramm, während es möglich ist, den Unterschied in den Werten dieser Zeichen für jede Person auf der Messskala genau zu bestimmen ( mit anderen Worten, der Abstand zwischen ihnen auf der Messskala). Nehmen wir ein Merkmal, das in einer Rangskala gemessen wird - eine Prüfungsnote. Bedeutet das, dass der Student, der eine Zwei erhalten hat, halb so viel Wissen hat wie derjenige, der eine Vier erhalten hat? Oder haben die beiden Studenten, die Tripel erhalten haben, genau den gleichen Wissensstand? Die Antwort ist nein, der Lehrer ordnet seinen Wissensstand ein bestimmte Reihenfolge, in Übereinstimmung mit den Kriterien für die Bewertung von Kenntnissen über bestimmtes Thema, aber der Abstand zwischen Merkmalswerten auf einer solchen Skala ist nicht streng festgelegt.

Um das Vorhandensein einer Beziehung zwischen Rangschätzungen zu bestimmen, wird es verwendet Rangkorrelationskoeffizient nach Spearman. Seine Berechnung basiert auf Unterschieden zwischen den Rängen.

Lassen Sie uns den Unterschied der Ränge bezeichnen d= Rang Ach~ Rang IN.

Spearman-Koeffizient

Wo P- Anzahl der Paare von geordneten Beobachtungen.

IN Beispiel, wir haben fünf Rangpaare, daher P- 5. Summe kt ist gleich

Dann der Spearman-Koeffizient

Der Spearman-Koeffizient variiert im Bereich [-1; 1] und wird wie der Pearson-Koeffizient interpretiert. Der Unterschied besteht darin, dass es für Rangdaten berechnet wird.

Der Wert von 0,6 lässt auf eine Auffälligkeit schließen lineare Verbindung zwischen zwei Warenmerkmalen.

Die Signifikanz des Spearman-Koeffizienten wird anhand von getestet T Schülerkriterium nach der Formel

Der Wert des Koeffizienten gilt als signifikant, wenn T berechnet > > 6 fit, a (u - 2) für ein gegebenes Signifikanzniveau a.

Der Korrelationskoeffizient der Ränge (sofern sich die Ränge nicht wiederholen) kann auch mit der von vorgeschlagenen Formel berechnet werden Englischer Statistiker M.Kendall:


Wo S- tatsächlicher Rangunterschied; ~n(n- l) - maximale Summe der Ränge.

Dieser Koeffizient variiert im Bereich von [-1; 1] und wird auf die gleiche Weise wie der Pearson-Koeffizient interpretiert, ergibt jedoch einen strengeren

Schätzung der Verbindung als der Spearman-Koeffizient und p \u003d - m. Diese Beziehung ist erfüllt, wenn große Zahlen Beobachtungen (n > 30) und schwache oder mäßig enge Bindungen.

Bei der Berechnung des Kendall-Koeffizienten wird die folgende Abfolge von Aktionen beachtet:

  • 1. Die x-Werte sind in aufsteigender Reihenfolge angeordnet.
  • 2. Werte bei sortiert nach den Werten X.
  • 3. Für jeden Rang y wird die Anzahl der folgenden Rangwerte bestimmt, die seinen Wert überschreiten. Das Ergebnis wird in die Spalte „+“ geschrieben.
  • 4. Für jeden Rang bei die Anzahl der darauffolgenden niedrigeren Rangwerte wird bestimmt. Das Ergebnis wird in die Spalte "-" geschrieben.
  • 5. Der Betrag steht in der Spalte „+“ und wird angezeigt R, in der "-" Spalte und bezeichnet Q. Bestimmt S=P-Q.

Die Signifikanz des Korrelationskoeffizienten der Kendall-Ränge wird durch die Formel überprüft


Wo w_ a / 2 (S- 2) - Quantil aus der Normalverteilungstabelle für das gewählte Signifikanzniveau a ermittelt und angegeben P.

Beispiel 6.8. Berechnen Sie den Kendall-Koeffizienten basierend auf den Daten in Beispiel 6.7.

Lösung. Lass uns ausgeben notwendige Berechnungen im Tisch. 6.8.

Wenn der erhaltene Wert von m mit 1,5 multipliziert wird, erhalten wir nämlich 0,6 – den Wert des in Beispiel 6.7 berechneten Spearman-Koeffizienten.

Berechnungstabelle

Betrachten Sie die Korrelation alternativer Features, d. h. Features, die nur zwei benötigen mögliche Werte. Die Untersuchung ihrer Korrelation basiert auf Indikatoren, die auf vierzelligen Tabellen basieren, in denen die Anzahl der Einheiten für Sollwerte Zeichen:

Lösung. Um die Enge der Zeichenbeziehung zu messen, erfolgt die Berechnung des Kontingenzkoeffizienten nach der Formel

Der Kontingenzkoeffizient nimmt Werte im Intervall [-1; 1 ]. Die Interpretation ist ähnlich wie beim Korrelationskoeffizienten. Wir haben eine schwache negative Verbindung.

Eine andere Methode zur Messung der Assoziation basiert auf der Berechnung des Assoziationskoeffizienten:

„ l 30x5-20x15 l „

Wir bekommen: Q =-= -0,33

Das Minuszeichen vor dem Koeffizienten zeigt an, dass die Inzidenz umso geringer ist, je mehr Schüler gegen Influenza geimpft wurden.

Der Kontingenzfaktor ist immer kleiner als der Koeffizient Assoziation und gibt eine korrektere Einschätzung der Enge der Beziehung.

Um die Nähe der Beziehung zwischen Merkmalen zu beurteilen, die eine beliebige Anzahl von Wertoptionen annehmen (kategoriale, nominale Merkmale), wird der gegenseitige Kontingenzkoeffizient von Pearson verwendet. Die Grundlage für die Untersuchung der Beziehung zwischen kategorialen Merkmalen ist die Kontingenztabelle - bivariate Verteilung Einheiten der Bevölkerung nach Merkmalen. Alle Informationen über das Vorhandensein oder Nichtvorhandensein einer Verbindung sind in den gemeinsamen Häufigkeiten von Merkmalskombinationen enthalten.

Informationen zur Bewertung dieser Verbindung werden in Form einer Tabelle (z. B. für drei Werte des ersten Attributs und zwei Werte des zweiten), Tabelle, gruppiert. 6.10.

Tabelle 6.10

Beispiel Kreuztabelle

Zeichen

Gesamt

gpc

bgpc

Bezeichnungen: Das- Häufigkeit der gegenseitigen Kombination zweier Attributzeichen; P = YLmy- Anzahl der Beobachtungen.

Der gegenseitige Konjugationskoeffizient von Pearson wird durch die Formel bestimmt

wobei cp der mittlere quadratische Konjugationsindex ist:

Der gegenseitige Konjugationskoeffizient nimmt Werte im Intervall an und wird ähnlich wie der Koeffizient des Paares interpretiert linearer Zusammenhang Pearson.

Beispiel 6.10. Um den Einfluss der Arbeitsbedingungen auf die Beziehungen im Team zu untersuchen, wurde eine Stichprobenbefragung von 250 Mitarbeitern des Unternehmens durchgeführt, deren Antworten verteilt wurden, wie in Tabelle gezeigt. 6.11.

Tabelle 6.11

Erste Daten zu Arbeitsbedingungen und Beziehungen im Team

Es ist erforderlich, die Beziehung zwischen den untersuchten Indikatoren unter Verwendung des gegenseitigen Kontingenzkoeffizienten von Pearson zu charakterisieren.

Lösung.

Der erhaltene Wert des Kontingenzkoeffizienten weist darauf hin, dass der Zusammenhang zwischen Arbeitsbedingungen und Beziehungen im Team moderat ist.