Negative Abhängigkeit in der Korrekturanalyse. Kursarbeit: Korrelationsanalyse

Jedes Naturgesetz oder jede soziale Entwicklung kann durch eine Beschreibung einer Reihe von Beziehungen dargestellt werden. Wenn diese Abhängigkeiten stochastisch sind und die Analyse an einer Stichprobe aus der Allgemeinbevölkerung durchgeführt wird, bezieht sich dieser Forschungsbereich auf die Aufgaben der statistischen Untersuchung von Abhängigkeiten, zu denen Korrelations-, Regressions-, Varianz-, Kovarianzanalyse und -analyse gehören Kontingenztabellen.

    Gibt es einen Zusammenhang zwischen den untersuchten Variablen?

    Wie misst man die Nähe von Verbindungen?

Das allgemeine Schema der Beziehung zwischen Parametern in einer statistischen Studie ist in Abb. 1 dargestellt. ein.

Abbildung S stellt ein Modell des untersuchten realen Objekts dar. Erklärende (unabhängige, faktorielle) Variablen beschreiben die Bedingungen für das Funktionieren des Objekts. Zufallsfaktoren sind Faktoren, deren Einfluss schwer zu berücksichtigen ist oder deren Einfluss derzeit vernachlässigt wird. Die resultierenden (abhängigen, erklärten) Variablen charakterisieren das Ergebnis der Funktionsweise des Objekts.

Die Wahl der Analysemethode der Beziehung erfolgt unter Berücksichtigung der Art der analysierten Variablen.

Korrelationsanalyse - eine Methode zur Verarbeitung statistischer Daten, die darin besteht, die Beziehung zwischen Variablen zu untersuchen.

Das Ziel der Korrelationsanalyse ist es, Informationen über eine Variable mit Hilfe einer anderen Variable bereitzustellen. In Fällen, in denen es möglich ist, das Ziel zu erreichen, werden die Variablen als korreliert bezeichnet. Die Korrelation spiegelt nur die lineare Abhängigkeit der Größen wider, nicht aber deren funktionalen Zusammenhang. Wenn wir zum Beispiel den Korrelationskoeffizienten zwischen den Werten A = sin(x) und B = cos(x) berechnen, dann wird er nahe Null sein, d.h. es gibt keinen Zusammenhang zwischen den Mengen.

Beim Studium der Korrelation werden grafische und analytische Ansätze verwendet.

Die grafische Analyse beginnt mit der Konstruktion eines Korrelationsfeldes. Das Korrelationsfeld (oder Scatterplot) ist eine grafische Beziehung zwischen den Messergebnissen zweier Merkmale. Um es zu erstellen, werden die Ausgangsdaten in einem Diagramm dargestellt, wobei jedes Wertepaar (xi, yi) als Punkt mit den Koordinaten xi und yi in einem rechteckigen Koordinatensystem angezeigt wird.

Die visuelle Analyse des Korrelationsfeldes ermöglicht es uns, eine Annahme über die Form und Richtung der Beziehung zwischen den beiden untersuchten Indikatoren zu treffen. Entsprechend der Form des Zusammenhangs werden Korrelationsabhängigkeiten üblicherweise in lineare (siehe Abb. 1) und nichtlineare (siehe Abb. 2) unterteilt. Bei einer linearen Abhängigkeit ist die Einhüllende des Korrelationsfeldes nahe einer Ellipse. Die lineare Beziehung zwischen zwei Zufallsvariablen besteht darin, dass, wenn eine Zufallsvariable ansteigt, die andere Zufallsvariable dazu neigt, gemäß einem linearen Gesetz zuzunehmen (oder abzunehmen).

Die Richtung des Zusammenhangs ist positiv, wenn eine Erhöhung des Wertes eines Attributs zu einer Erhöhung des Werts des zweiten führt (siehe Abb. 3), und negativ, wenn eine Erhöhung des Werts eines Attributs zu einer Verringerung des Werts führt des zweiten (siehe Abb. 4).

Abhängigkeiten, die nur positive oder nur negative Richtungen haben, heißen monoton.

KORRELATIONSANALYSE- eine Reihe von Methoden zur Bewertung der Beziehung zwischen Zufallsphänomenen und Ereignissen auf der Grundlage der mathematischen Korrelationstheorie. In diesem Fall werden die einfachsten Kennlinien verwendet, die ein Minimum an Berechnungen erfordern. Der Begriff „Korrelation“ wird üblicherweise mit den Begriffen „Beziehung“ und „Interdependenz“ identifiziert. Sie sind jedoch nicht ausreichend. Die Korrelation ist nur eine der Arten der Kommunikation zwischen Zeichen, die sich im Durchschnitt manifestiert und linear ist. Wenn zwischen zwei Größen ein eindeutiger Zusammenhang besteht, dann heißt dieser Zusammenhang funktional, und eine der Größen (Ursache) kann den Wert der anderen Größe (Folge) eindeutig bestimmen. Funkts, Abhängigkeit ist ein besonderer Ausdruck einer zufälligen (probabilistischen, stochastischen) Abhängigkeit, wenn der Zusammenhang nicht für jeden Wert zweier Größen auftritt, sondern nur im Mittel.

K. ein. wird bei der Untersuchung von zwei oder mehr Zufallsvariablen verwendet, um die beiden wichtigsten quantitativen Merkmale zu identifizieren: die mathematische Gleichung der Beziehung zwischen diesen Größen und die Bewertung der Nähe der Beziehung zwischen ihnen. Die Ausgangsdaten zur Bestimmung dieser Merkmale sind die synchronen Beobachtungsergebnisse (Messung, Experiment), d. h. gleichzeitig aus Erfahrung gewonnene statistische Daten zu Zeichen, deren Beziehung untersucht wird. Die Ausgangsdaten können in Form von Tabellen mit Aufzeichnungen der Beobachtungsergebnisse oder deren äquivalenten Darstellungen auf Magnetband, Lochstreifen oder Lochkarten angegeben werden.

K. ein. haben die breite Anwendung in der Medizin und der Biologie für die Bestimmung der Nähe und der Gleichungen der Verbindung zwischen verschiedenen Merkmalen, napr, den Ergebnissen der Analysen des Keils, der Merkmale oder der speziellen Untersuchungen gefunden, die bei den gesunden oder kranken Menschen durchgeführt werden (vgl. die Korrelation der Funktionen an Organismus). Ergebnisse To. und. werden verwendet, um objektive Prognosen von Krankheiten zu erstellen, den Zustand des Patienten und den Krankheitsverlauf zu beurteilen (siehe Prognosen). A priori nur durch Ergebnisse theoretischer Biol und Honig. Studien ist es schwierig oder unmöglich vorherzusagen, wie die untersuchten Merkmale zusammenhängen. Um diese Frage zu beantworten, wird eine Beobachtung oder ein spezielles Experiment durchgeführt.

Die zweidimensionale Korrelationsanalyse wird bei der Verarbeitung experimenteller Daten zur Manifestation von zwei beliebigen Zeichen verwendet.

Korrelationstabelle. Notiz. Die Tabelle zeigt die Intervalle der Zeichen X und Y sowie die Häufigkeit ihres Auftretens (in der Mitte der Tabelle), berechnet aus den Ergebnissen der morphometrischen Analyse der Mikrovaskulatur des Bulbokonjunktivalbereichs, wobei Y der Durchmesser der ist Venule, und X ist der Durchmesser der Arteriole (in mmc).

Jedes Ergebnis des Experiments ist eine Zufallsvariable, und objektive Muster erscheinen nur im gesamten Satz von Messergebnissen. Daher werden Schlussfolgerungen basierend auf den Ergebnissen der Verarbeitung des gesamten Satzes experimenteller Daten gezogen und nicht auf einzelnen Werten, die zufällig sind. Um den Einfluss eines zufälligen Ereignisses zu reduzieren, werden die Ausgangsdaten in Gruppen zusammengefasst, was durch die Erstellung einer Korrelationstabelle erreicht wird (siehe Tabelle). Eine solche Tabelle enthält die Intervalle (oder ihre Mittelpunkte) der Werte zweier Merkmale - Y und X - sowie die Häufigkeit des Auftretens der X- und Y-Werte im entsprechenden Intervall dieser Werte. Diese aus den Ergebnissen des Experiments berechneten Häufigkeiten sind eine praktische Schätzung der Wahrscheinlichkeit des gemeinsamen Auftretens der X- und Y-Werte eines bestimmten Intervalls. Der Aufbau einer Korrelationstabelle ist der erste Schritt bei der Verarbeitung der Ausgangsinformationen. Die Erstellung von Korrelationstabellen und deren vollständige Weiterverarbeitung erfolgt schnell auf universellen oder spezialisierten Computern (vgl. elektronische Computer). Gemäß den gruppierten Daten der Korrelationstabelle werden die empirischen Eigenschaften der Gleichung und die Festigkeit der Verbindung berechnet. Zur Ermittlung der Beziehungsgleichung zwischen Y und X werden die Mittelwerte des Y-Merkmals in jedem Intervall des X-Merkmals berechnet. erhalten Sie für jedes i-te Intervall den Wert von Yxi, dessen Verbindung für alle i-Intervalle eine empirische Regressionslinie ergibt, die die Form der Beziehung des Attributs Y mit dem Attribut X im Durchschnitt charakterisiert - den Graphen der Funktion Yx= f(x). Gäbe es einen eindeutigen Zusammenhang zwischen den Merkmalen Y und X, würde die Beziehungsgleichung zur Lösung praktischer und theoretischer Probleme ausreichen, da mit ihr immer dann der Wert des Merkmals Y bestimmt werden kann, wenn der Wert X gegeben ist. Die Beziehung zwischen Y und X ist nicht eindeutig, diese Verbindung ist zufällig und ein Wert von X entspricht einer Reihe von Werten von Y. Daher wird ein weiteres Merkmal benötigt, das die Stärke und Nähe der Beziehung zwischen Y und X misst Solche Eigenschaften sind das Dispersions-(Korrelations-)Verhältnis ηух und der Korrelationskoeffizient ryx. Die erste dieser Größen charakterisiert die Festigkeit der Verbindung zwischen Y und X in einer beliebigen Funktion f, und ryx wird nur verwendet, wenn f eine lineare Funktion ist.

Die Werte von ηyx und ryx werden ebenfalls einfach aus der Korrelationstabelle ermittelt. Die Berechnung erfolgt normalerweise in der folgenden Reihenfolge: Die Durchschnittswerte beider Attribute X und Y werden bestimmt, ihre Standardabweichungen σx und σy und dann ηxy gemäß der Formel:

und ryx nach der Formel:

wobei n die Gesamtzahl der Experimente ist, Xcpi der Mittelwert von X des i-ten Intervalls ist, Ycpj der Mittelwert von Y des j-ten Intervalls ist, k, l die Anzahl der Intervalle der Merkmale X und Y sind bzw. mi(x) ist die Häufigkeit (Anzahl) von Xcpi-Werten . Quantitative Merkmale der Genauigkeit der Bestimmung von ηyx und ryx sind ihre Standardabweichungen, die gleich sind

Die Werte des Koeffizienten η liegen zwischen Null und Eins (0=<ηyx=<1). Если ηyx= 0 (рис., а), то это свидетельствует о том, что признаки Y и X недисперсированы, т. е. регрессия Yx = f(x) не дает связи между признаками Y и X, а при ηyx = 1 существует однозначная связь между Y и X (рис., б, ж). Для ηyx<1 признак Y только частично определяется признаком X, и необходимо изучение дополнительных признаков для повышения достоверности определения Y (рис., г, д, е, и).

Der Wert des Koeffizienten r liegt zwischen -1 und +1 (-1=

Multivariate Korrelationsanalyse - Bestimmung der Gleichung und der Enge der Verbindung in Fällen, in denen die Anzahl der untersuchten Merkmale mehr als zwei beträgt. Wenn also Y ein komplexes Merkmal ist und sein Ergebnis vom Auftreten einer Reihe von Merkmalen X1, X2, ..., Xn abhängt, dann sollte gemäß den experimentellen Daten Folgendes bestimmt werden: ., Хn, d. h. Yx1x2...xn = F(x1, x2...,xn) ; b) die Festigkeit der Verbindung zwischen Y und dem Satz X1, X2, ..., Xn.

Die vorläufige Bearbeitung der Ergebnisse der Beobachtung bei mehrdimensional K. und. ist, dass für jedes Merkmalspaar auch die Werte der Dispersionsrelationen ηyxi (i = 1,2,...,n) und ηxixj (i!=j) der Korrelationskoeffizienten ryxi und rxixj bestimmt werden als gepaarte Regressionen Yxi = fi(xi ). Aus diesen Daten ergeben sich dann die multiplen Regressionsgleichungen Yx1x2...xn = F (x1,x2,...,xn), das multiple Dispersionsverhältnis ηyx1x2...xn und der multiple Korrelationskoeffizient Ryx1x2...xn bestimmt. Die multiple Regressionsgleichung ermöglicht es, den Wert des Merkmals Y durch die Wertemenge X1, X2, ..., Xn zu bestimmen, d.h. wenn diese Gleichung verfügbar ist, ist es möglich, die Werte von vorherzusagen Y basierend auf den Ergebnissen bestimmter Werte der Ergebnismenge (z. B. die Ergebnisse der Analyse nach Merkmalen X1, X2...Xn). Der Wert ηyx1x2...xn wird als Merkmal für die Festigkeit der Verbindung zwischen Y und der Merkmalsmenge X1, X2, ...Xn für eine beliebige Funktion F und Ryx1x2...xn - für den Fall wenn verwendet die Funktion F ist linear. Die Koeffizienten ηyx1x2....xn und Ryx1x2...xn nehmen Werte zwischen null und eins an. Einbeziehung in Berücksichtigung für mehrdimensionale K. a. zusätzliche Features ermöglichen es, die Werte ηyx1x2...xn, Ryx1x2...xn näher an Eins zu bringen und somit die Genauigkeit der Y-Merkmalsvorhersage unter Verwendung der multiplen Regressionsgleichung zu verbessern.

Betrachten Sie als Beispiel die Ergebnisse des gepaarten K. a. sowie die multiple Regressionsgleichung und den multiplen Korrelationskoeffizienten zwischen den Zeichen: Y - stabile Pseudoparese, X1 - Lateralisierung des motorischen Defekts in den Gliedmaßen rechts, X2 - das gleiche in den Gliedmaßen links, X3 - vegetative Krisen. Die Werte der Dispersionsverhältnisse und Paarkorrelationskoeffizienten für sie sind jeweils ηyx1 = 0,429, ηyx2 = 0,616, ηyx3 = -0,334 und ryx1 = 0,320, ryx2 = 0,586, ryx3 = -0,325. Gemäß der Gleichung der multiplen linearen Regression ist Yх1х2х3 = 0,638 x1 + 0,839 x2 - 0,195 x3. Der multiple Korrelationskoeffizient wird als Ryx1x2x3 = 0,721 ausgedrückt. Aus dem Beispiel ist ersichtlich, dass nach X1-, X2- und X3-Daten eine stabile Pseudoparese mit ausreichender Genauigkeit für die Praxis vorhergesagt werden kann.

Methoden zu und. ermöglichen es auch, dynamische Eigenschaften zu erhalten und. In diesem Fall werden die untersuchten Zeichen (z. B. EKG, EEG usw.) als Zufallsfunktionen von Y(t) und X(t) betrachtet. Basierend auf den Beobachtungsergebnissen dieser Funktionen werden auch zwei wichtigste Eigenschaften bestimmt: a) Bewertung des Kommunikationsoperators (mathematische Gleichung) zwischen Y (t) und X (t); b) Einschätzung der Nähe der Verbindung zwischen ihnen. Streuungs- und Korrelationsfunktionen der Zufallsfunktionen Y(t) und X(t) werden als Merkmale der Festigkeit der Verbindung angenommen. Diese Funktionen sind eine Verallgemeinerung von Dispersionsbeziehungen und Korrelationskoeffizienten. Somit ist die normalisierte gegenseitige Dispersionsfunktion ηyx(t) jedes festen Werts t die Dispersionsbeziehung zwischen den Werten der Merkmale Y(t) und X(t). In ähnlicher Weise ist die normalisierte Kreuzkorrelationsfunktion Ryx(t) für jeden festen Wert von t der Korrelationskoeffizient zwischen den Merkmalen Y(t) und X(t). Die Eigenschaft eines linearen Zusammenhangs (Abhängigkeit) für dieselbe untersuchte Größe zu unterschiedlichen Zeitpunkten wird als Autokorrelation bezeichnet.

K. ein. ist eine der Methoden zur Lösung des Identifizierungsproblems, die weit verbreitet ist, um mathematische Modelle und die Automatisierung von medizinischer Biologie, Forschung und Behandlung zu erhalten.

Literaturverzeichnis: Computersysteme und automatische Diagnose von Herzkrankheiten, hrsg. C. Caceres und L. Dreyfus, übers. aus Englisch, M., 1974; Gutman S. R. Über zwei Modelle des Elektroenzephalogramms, die zu einem normalen zufälligen Prozess konvergieren, in: Upravlenie i inform. Prozesse in Wildtieren, hrsg. V. V. Larina, p. 205, M., 1971; Zaslavskaya R. M., Perepel-kin E. G. und Akhmetov K. Zh. Korrelationen zwischen Hämokoagulationsindikatoren und Fettstoffwechsel bei Patienten mit Angina während des Tages, Kardiologie, t. 111, 1977; K r a m e r G. Mathematische Methoden der Statistik, übers. aus Englisch, M., 1975; Pasternak E. B. et al., Untersuchung der elektrischen Aktivität der Vorhöfe bei Vorhofflimmern mittels instrumenteller Korrelationsanalyse, Cardiology, T. 17, Xia 7, p. 50, 1977; Sinitsyn B. S. Automatische Korrelatoren und ihre Anwendung, Nowosibirsk, 1964, Bibliogr.; Bei r-b und x W. Ju. Die statistische Analyse in den biologischen und medizinischen Forschungen, M., 1975, bibliogr.

V. N. Reibman, N. S. Reibman.

Die Verwendung statistischer Methoden bei der Verarbeitung von psychologischem Forschungsmaterial bietet eine großartige Gelegenheit, nützliche Informationen aus experimentellen Daten zu extrahieren. Eine der gängigsten statistischen Methoden ist die Korrelationsanalyse.

Der Begriff „Korrelation“ wurde erstmals von dem französischen Paläontologen J. Cuvier verwendet, der das „Gesetz der Korrelation von Teilen und Organen von Tieren“ ableitete (dieses Gesetz ermöglicht es Ihnen, das Aussehen des gesamten Tieres aus den gefundenen Körperteilen wiederherzustellen ). Dieser Begriff wurde von dem englischen Biologen und Statistiker F. Galton in die Statistik eingeführt (nicht nur „Verbindung“ - Beziehung, und "als ob eine Verbindung" - Zusammenhang).

Die Korrelationsanalyse ist ein Test von Hypothesen über Beziehungen zwischen Variablen unter Verwendung von Korrelationskoeffizienten, zweidimensionaler deskriptiver Statistik, einem quantitativen Maß für die Beziehung (gemeinsame Variabilität) zweier Variablen. Dies ist also eine Reihe von Methoden zum Erkennen von Korrelationen zwischen Zufallsvariablen oder Merkmalen.

Die Korrelationsanalyse für zwei Zufallsvariablen umfasst:

  • Aufbauen eines Korrelationsfeldes und Kompilieren einer Korrelationstabelle;
  • Berechnung von Sticund Korrelationsverhältnissen;
  • Testen der statistischen Hypothese der Signifikanz der Beziehung.

Der Hauptzweck der Korrelationsanalyse besteht darin, die Beziehung zwischen zwei oder mehr untersuchten Variablen zu identifizieren, die als gemeinsame koordinierte Änderung der beiden untersuchten Merkmale betrachtet wird. Diese Variabilität hat drei Hauptmerkmale: Form, Richtung und Stärke.

Die Form der Korrelation kann linear oder nichtlinear sein. Eine lineare Form ist bequemer, um eine Korrelation zu identifizieren und zu interpretieren. Bei einem linearen Zusammenhang lassen sich zwei Hauptrichtungen unterscheiden: positiv („Vorwärtsverbindung“) und negativ („Rückkopplung“).

Die Stärke des Zusammenhangs zeigt direkt an, wie ausgeprägt die gemeinsame Variabilität der untersuchten Variablen ist. In der Psychologie kann der funktionale Zusammenhang von Phänomenen nur als probabilistischer Zusammenhang der entsprechenden Merkmale empirisch aufgedeckt werden. Eine visuelle Darstellung der Art der probabilistischen Beziehung wird durch ein Streudiagramm gegeben - ein Diagramm, dessen Achsen den Werten von zwei Variablen entsprechen, und jedes Subjekt ist ein Punkt.

Als numerisches Merkmal einer probabilistischen Beziehung werden Korrelationskoeffizienten verwendet, deren Werte im Bereich von –1 bis +1 variieren. Nach den Berechnungen wählt der Forscher in der Regel nur die stärksten Korrelationen aus, die weiter interpretiert werden (Tabelle 1).

Das Kriterium für die Auswahl „ausreichend starker“ Korrelationen kann entweder der absolute Wert des Korrelationskoeffizienten selbst (von 0,7 bis 1) oder der relative Wert dieses Koeffizienten sein, bestimmt durch das Niveau der statistischen Signifikanz (von 0,01 bis 0,1), je nachdem Stichprobengröße. Bei kleinen Stichproben ist es für die weitere Interpretation richtiger, starke Korrelationen basierend auf dem Grad der statistischen Signifikanz auszuwählen. Für Studien, die an großen Stichproben durchgeführt werden, ist es besser, die absoluten Werte der Korrelationskoeffizienten zu verwenden.

Somit reduziert sich die Aufgabe der Korrelationsanalyse darauf, die Richtung (positiv oder negativ) und die Form (linear, nichtlinear) der Beziehung zwischen unterschiedlichen Merkmalen festzustellen, ihre Enge zu messen und schließlich das Signifikanzniveau der erhaltenen zu überprüfen Korrelationskoeffizienten.

Gegenwärtig wurden viele verschiedene Korrelationskoeffizienten entwickelt. Die am häufigsten verwendeten sind r-Pearson, r-Speermann und τ -Kendall. Moderne Computerstatistikprogramme bieten im Menü "Korrelationen" genau diese drei Koeffizienten an, und zur Lösung anderer Forschungsprobleme werden Methoden zum Vergleich von Gruppen angeboten.

Die Wahl der Methode zur Berechnung des Korrelationskoeffizienten hängt von der Art der Skala ab, zu der die Variablen gehören (Tabelle 2).

Für Variablen mit einem Intervall und mit einer nominalen Skala wird der Pearson-Korrelationskoeffizient (Korrelation von Produktmomenten) verwendet. Wenn mindestens eine der beiden Variablen eine ordinale Skala hat oder nicht normalverteilt ist, wird die Rangkorrelation nach Spearman verwendet, oder

t-Kendall. Wenn eine der beiden Variablen dichotom ist, kann Punkt-Zwei-Reihen-Korrelation verwendet werden (im statistischen Computerprogramm SPSS ist diese Möglichkeit nicht verfügbar, stattdessen kann die Berechnung der Rangkorrelation verwendet werden). Für den Fall, dass beide Variablen dichotom sind, wird eine Vier-Felder-Korrelation verwendet (diese Art der Korrelation wird von SPSS basierend auf der Definition von Distanzmaßen und Ähnlichkeitsmaßen berechnet). Die Berechnung des Korrelationskoeffizienten zwischen zwei nicht-dichotomen Variablen ist nur möglich, wenn die Beziehung zwischen ihnen linear (unidirektional) ist. Wenn die Verbindung z. U-förmig (mehrdeutig) ist der Korrelationskoeffizient als Maß für die Stärke des Zusammenhangs nicht geeignet: Sein Wert geht gegen Null.

Somit sind die Bedingungen für die Anwendung der Korrelationskoeffizienten wie folgt:

  • Variablen, die auf einer quantitativen (Rang-, Metrik-)Skala an derselben Stichprobe von Objekten gemessen werden;
  • die Beziehung zwischen Variablen ist monoton.

Die statistische Haupthypothese, die durch Korrelationsanalyse getestet wird, ist richtungsunabhängig und enthält die Behauptung, dass die Korrelation in der Allgemeinbevölkerung gleich Null ist H 0:rxy= 0. Bei Ablehnung wird die Alternativhypothese akzeptiert H1: rxy≠ 0 über das Vorliegen einer positiven oder negativen Korrelation - je nach Vorzeichen des berechneten Korrelationskoeffizienten.

Basierend auf der Annahme oder Ablehnung von Hypothesen werden aussagekräftige Schlussfolgerungen gezogen. Wenn, nach den Ergebnissen der statistischen Tests H 0:rxy= 0 auf Stufe a nicht abweicht, dann lautet die sinnvolle Schlussfolgerung: die Beziehung zwischen X und Y nicht gefunden. Wenn bei H 0 rxy= 0 weicht auf Ebene a ab, was bedeutet, dass eine positive (negative) Beziehung zwischen gefunden wurde X und Y. Bei der Interpretation der aufgedeckten Zusammenhänge ist jedoch Vorsicht geboten. Aus wissenschaftlicher Sicht impliziert die bloße Herstellung einer Beziehung zwischen zwei Variablen nicht die Existenz einer kausalen Beziehung. Darüber hinaus stellt das Vorhandensein einer Korrelation keine Sequenzbeziehung zwischen Ursache und Wirkung her. Es zeigt einfach an, dass zwei Variablen mehr miteinander verwandt sind, als man von einem Zufall erwarten würde. Dennoch ist die Verwendung von Korrelationsmethoden bei der Untersuchung kausaler Zusammenhänge mit Vorsicht gerechtfertigt. Kategorische Formulierungen wie „Variable X ist der Grund für den Anstieg des Indikators“ sollten vermieden werden. Y". Solche Aussagen sollten als Annahmen formuliert werden, die streng theoretisch untermauert werden sollten.

Eine ausführliche Beschreibung des mathematischen Verfahrens für jeden Korrelationskoeffizienten findet sich in Lehrbüchern zur mathematischen Statistik; ; ; ua Wir beschränken uns darauf, die Möglichkeit der Verwendung dieser Koeffizienten in Abhängigkeit von der Art der Messskala zu beschreiben.

Korrelation von Metrikvariablen

Um die Beziehung zweier metrischer Variablen zu untersuchen, die an derselben Stichprobe gemessen wurden, verwenden wir Korrelationskoeffizient r-Pearson. Der Koeffizient selbst kennzeichnet das Vorhandensein nur einer linearen Beziehung zwischen den Merkmalen, die normalerweise durch die Symbole bezeichnet wird X und Y. Der lineare Korrelationskoeffizient ist eine parametrische Methode und seine korrekte Anwendung ist nur möglich, wenn die Messergebnisse auf einer Intervallskala dargestellt werden und die Verteilung der Werte in den analysierten Variablen nur geringfügig vom Normalwert abweicht. Es gibt viele Situationen, in denen seine Verwendung angemessen ist. Zum Beispiel: Herstellen einer Verbindung zwischen dem Intellekt eines Studenten und seiner schulischen Leistung; zwischen Stimmung und Erfolg beim Herauskommen aus einer Problemsituation; zwischen Einkommensniveau und Temperament usw.

Der Pearson-Koeffizient ist in der Psychologie und Pädagogik weit verbreitet. Beispielsweise wurde in den Arbeiten von I. Ya. Kaplunovich und P. D. Rabinovich, M. P. Nuzhdina, die Berechnung des linearen Korrelationskoeffizienten von Pearson verwendet, um die aufgestellten Hypothesen zu bestätigen.

Wenn Daten "manuell" verarbeitet werden, ist es notwendig, den Korrelationskoeffizienten zu berechnen und dann zu bestimmen p- Signifikanzniveau (um die Datenüberprüfung zu vereinfachen, werden Tabellen mit kritischen Werten verwendet rxy, die anhand dieses Kriteriums zusammengestellt werden). Der Wert des linearen Korrelationskoeffizienten nach Pearson darf +1 nicht überschreiten und kleiner als -1 sein. Diese beiden Zahlen +1 und -1 sind die Grenzen für den Korrelationskoeffizienten. Wenn die Berechnung einen Wert größer als +1 oder kleiner als -1 ergibt, weist dies darauf hin, dass ein Berechnungsfehler aufgetreten ist.

Bei der Berechnung am Computer ergänzt das Statistikprogramm (SPSS, Statistica) den errechneten Korrelationskoeffizienten mit einem genaueren Wert p-Stufe.

Für eine statistische Entscheidung über Annahme oder Ablehnung H0 normalerweise eingestellt α = 0,05 und für eine große Menge an Beobachtungen (100 oder mehr) α = 0,01. Wenn ein p ≤ α, H 0 verworfen und ein sinnvoller Schluss gezogen wird, dass ein statistisch signifikanter (signifikanter) Zusammenhang zwischen den untersuchten Variablen gefunden wurde (positiv oder negativ, je nach Vorzeichen der Korrelation). Wann p > α, H0 nicht verworfen wird, beschränkt sich der sinnvolle Schluss auf die Aussage, dass der (statistisch signifikante) Zusammenhang nicht gefunden wurde.

Wenn keine Verbindung gefunden wird, aber Grund zu der Annahme besteht, dass die Verbindung tatsächlich besteht, sollten Sie die möglichen Gründe für die Unzuverlässigkeit der Verbindung überprüfen.

Nichtlinearität der Kommunikation– Analysieren Sie dazu das zweidimensionale Streudiagramm. Wenn die Beziehung nichtlinear, aber monoton ist, gehen Sie zu Rangkorrelationen. Wenn die Beziehung nicht monoton ist, teilen Sie die Stichprobe in Teile auf, in denen die Beziehung monoton ist, und berechnen Sie die Korrelationen separat für jeden Teil der Stichprobe, oder teilen Sie die Stichprobe in kontrastierende Gruppen und vergleichen Sie sie dann entsprechend dem Ausprägungsgrad von die Eigenschaft.

Das Vorhandensein von Ausreißern und eine ausgeprägte Asymmetrie in der Verteilung eines oder beider Merkmale. Dazu müssen Sie sich die Histogramme der Häufigkeitsverteilung beider Merkmale ansehen. Wenn es Ausreißer oder Asymmetrien gibt, schließen Sie Ausreißer aus oder wechseln Sie zu Rangkorrelationen.

Probenheterogenität(analysieren Sie das 2D-Streudiagramm). Versuchen Sie, die Stichprobe in Teile zu unterteilen, in denen die Beziehung unterschiedliche Richtungen haben kann.

Wenn die Beziehung statistisch signifikant ist, muss vor einer sinnvollen Schlussfolgerung die Möglichkeit einer falschen Korrelation ausgeschlossen werden:

  • Verbindung durch Ausreißer. Wenn es Ausreißer gibt, gehen Sie zu Rangkorrelationen oder schließen Sie Ausreißer aus;
  • die Beziehung ist auf den Einfluss der dritten Variablen zurückzuführen. Wenn ein ähnliches Phänomen auftritt, muss die Korrelation nicht nur für die gesamte Stichprobe, sondern auch für jede Gruppe separat berechnet werden. Wenn die „dritte“ Variable eine Metrik ist, berechnen Sie die Teilkorrelation.

Teilkorrelationskoeffizient rxy-z wird berechnet, wenn es notwendig ist, die Annahme zu testen, dass die Beziehung zwischen zwei Variablen besteht X und Y hängt nicht vom Einfluss der dritten Variablen ab Z. Sehr oft korrelieren zwei Variablen nur deshalb miteinander, weil sich beide gemeinsam unter dem Einfluss einer dritten Variablen verändern. Mit anderen Worten, es gibt tatsächlich keinen Zusammenhang zwischen den entsprechenden Eigenschaften, aber es erscheint in einem statistischen Zusammenhang unter dem Einfluss einer gemeinsamen Ursache. Beispielsweise kann das Alter eine häufige Ursache für die Variabilität zweier Variablen sein, wenn die Beziehung verschiedener psychologischer Merkmale in einer Gruppe unterschiedlichen Alters untersucht wird. Bei der Interpretation der partiellen Korrelation im Sinne der Kausalität sollte man vorsichtig sein, denn wenn Z korreliert mit X und mit Y, und die partielle Korrelation rxy-z nahe Null, folgt daraus nicht unbedingt Z ist ein häufiger Grund für X und Y.

Korrelation von Rangvariablen

Wenn der Korrelationskoeffizient für quantitative Daten nicht akzeptabel ist r-Pearson, dann können Korrelationen angewendet werden, um die Hypothese über die Beziehung zweier Variablen nach einer vorläufigen Rangfolge zu testen r-Speerkämpfer oder τ -Kendalla. Beispielsweise wurde in einer Studie über die psychophysischen Merkmale musikalisch begabter Jugendlicher von I. A. Lavochkin das Spearman-Kriterium verwendet.

Für die korrekte Berechnung beider Koeffizienten (Spearman und Kendall) müssen die Messergebnisse in einer Skala von Rängen oder Intervallen dargestellt werden. Es gibt keine grundlegenden Unterschiede zwischen diesen Kriterien, aber es wird allgemein akzeptiert, dass der Kendall-Koeffizient „aussagekräftiger“ ist, da er die Beziehungen zwischen Variablen vollständiger und detaillierter analysiert und alle möglichen Übereinstimmungen zwischen Wertepaaren sortiert. Der Spearman-Koeffizient berücksichtigt genauer den quantitativen Grad der Assoziation zwischen Variablen.

Rangkorrelationskoeffizient nach Spearman ist ein nichtparametrisches Analogon des klassischen Pearson-Korrelationskoeffizienten, aber seine Berechnung berücksichtigt nicht verteilungsbezogene Indikatoren der verglichenen Variablen (arithmetisches Mittel und Varianz), sondern Ränge. Beispielsweise ist es notwendig, die Beziehung zwischen den Rangbewertungen von Persönlichkeitsmerkmalen zu bestimmen, die in der Vorstellung einer Person von ihrem „Ich bin real“ und „Ich bin ideal“ enthalten sind.

Der Spearman-Koeffizient wird in der psychologischen Forschung häufig verwendet. Zum Beispiel in der Arbeit von Yu. V. Bushov und N. N. Nesmelova: Er wurde verwendet, um die Abhängigkeit der Genauigkeit der Schätzung und Wiedergabe der Dauer von Tonsignalen von den individuellen Merkmalen einer Person zu untersuchen.

Da dieser Koeffizient analog ist r-Pearson, dann ist die Verwendung zum Testen von Hypothesen ähnlich wie die Verwendung des Koeffizienten r-Pearson. Das heißt, die getestete statistische Hypothese, das Verfahren zum Treffen einer statistischen Entscheidung und die Formulierung einer sinnvollen Schlussfolgerung sind gleich. In Computerprogrammen (SPSS, Statistica) Signifikanzniveaus für dieselben Koeffizienten r- Pearson und r-Spearman passt immer.

Verhältnisvorteil r-Spearman versus Ratio r-Pearson - in größerer Sensibilität für die Kommunikation. Wir verwenden es in folgenden Fällen:

  • das Vorhandensein einer signifikanten Abweichung in der Verteilung mindestens einer Variablen von der Normalform (Schiefe, Ausreißer);
  • das Auftreten einer krummlinigen (monotonen) Verbindung.

Einschränkung für die Anwendung des Koeffizienten r- Spearmans sind:

  • für jede Variable mindestens 5 Beobachtungen;
  • der Koeffizient mit einer großen Anzahl identischer Ränge in einer oder beiden Variablen ergibt einen vergröberten Wert.

Rangkorrelationskoeffizient τ -Kendalla ist eine unabhängige Originalmethode, die auf der Berechnung des Verhältnisses von Wertepaaren zweier Proben basiert, die gleiche oder unterschiedliche Trends (Werteanstieg oder -abfall) aufweisen. Dieses Verhältnis wird auch genannt Übereinstimmungsfaktor. Die Grundidee dieser Methode besteht also darin, dass die Richtung der Beziehung durch den paarweisen Vergleich der Probanden beurteilt werden kann: Wenn ein Probandenpaar eine Änderung aufweist X stimmt in der Richtung mit der Änderung in überein Y, deutet dies auf eine positive Beziehung hin, wenn nicht dieselbe - eine negative Beziehung beispielsweise bei der Untersuchung persönlicher Eigenschaften, die für das Familienwohl von entscheidender Bedeutung sind. Bei diesem Verfahren wird eine Variable als monotone Folge (z. B. Daten des Mannes) in aufsteigender Größenordnung dargestellt; einer anderen Variablen (z. B. Daten der Ehefrau) werden die entsprechenden Rangplätze zugeordnet. Die Anzahl der Inversionen (Verletzungen der Monotonie gegenüber der ersten Zeile) geht in die Formel für die Korrelationskoeffizienten ein.

Beim Zählen τ- Kendall "manuelle" Daten werden zunächst nach Variablen geordnet X. Dann wird für jedes Fach berechnet, wie oft sein Rang in ist Y weniger als der Rang der darunter liegenden Subjekte ausfällt. Das Ergebnis wird in der Spalte Übereinstimmungen aufgezeichnet. Die Summe aller Werte in der Spalte „Zufall“ ist P- Die Gesamtzahl der Übereinstimmungen wird in die Formel zur Berechnung des Kendall-Koeffizienten eingesetzt, was rechnerisch einfacher ist, aber im Gegensatz zu einer Erhöhung der Stichprobe r- Spearman, das Rechenvolumen steigt nicht proportional, sondern exponentiell. Also zum Beispiel wann N= 12 66 Themenpaare sortiert werden müssen, und wann N= 489 - bereits 1128 Paare, d. H. Die Anzahl der Berechnungen erhöht sich um mehr als das 17-fache. Bei der Berechnung auf einem Computer in einem Statistikprogramm (SPSS, Statistica) wird der Kendall-Koeffizient ähnlich wie die Koeffizienten berechnet r-Speermann und r-Pearson. Berechneter Korrelationskoeffizient τ -Kendall zeichnet sich durch einen genaueren Wert aus p-Stufe.

Die Anwendung des Kendall-Koeffizienten wird bevorzugt, wenn es Ausreißer in den Originaldaten gibt.

Ein Merkmal von Rangkorrelationskoeffizienten ist, dass die maximalen Rangkorrelationen (+1, –1) nicht unbedingt strengen direkten oder umgekehrt proportionalen Beziehungen zwischen den ursprünglichen Variablen entsprechen X und Y: nur ein monotoner funktionaler Zusammenhang zwischen ihnen ist ausreichend. Rangkorrelationen erreichen ihren maximalen Modulo-Wert, wenn ein größerer Wert einer Variablen immer einem größeren Wert einer anderen Variablen entspricht (+1) oder ein größerer Wert einer Variablen immer einem kleineren Wert einer anderen Variablen entspricht und umgekehrt (–1 ).

Die zu testende statistische Hypothese, das Verfahren zum Treffen einer statistischen Entscheidung und die Formulierung einer sinnvollen Schlussfolgerung sind dieselben wie für den Fall r-Speerkämpfer oder r-Pearson.

Wenn kein statistisch signifikanter Zusammenhang gefunden wird, aber Grund zu der Annahme besteht, dass wirklich ein Zusammenhang besteht, sollten Sie zunächst vom Koeffizienten ausgehen

r-Spearman zum Verhältnis τ -Kendall (oder umgekehrt), und überprüfen Sie dann die möglichen Gründe für die Unzuverlässigkeit der Verbindung:

  • Kommunikations-Nichtlinearität: Sehen Sie sich dazu das 2D-Streudiagramm an. Wenn die Beziehung nicht monoton ist, teilen Sie die Stichprobe in Teile auf, in denen die Beziehung monoton ist, oder teilen Sie die Stichprobe in kontrastierende Gruppen und vergleichen Sie sie dann entsprechend dem Grad der Ausprägung des Merkmals.
  • Probenheterogenität: Betrachten Sie ein zweidimensionales Streudiagramm und versuchen Sie, die Stichprobe in Teile zu unterteilen, in denen die Beziehung unterschiedliche Richtungen haben kann.

Wenn der Zusammenhang statistisch signifikant ist, muss vor einer sinnvollen Schlussfolgerung die Möglichkeit einer falschen Korrelation ausgeschlossen werden (in Analogie zu metrischen Korrelationskoeffizienten).

Korrelation dichotomer Variablen

Beim Vergleich zweier auf einer dichotomen Skala gemessener Variablen ist das Korrelationsmaß der sogenannte Koeffizient j, der der Korrelationskoeffizient für dichotome Daten ist.

Wert Koeffizient φ liegt zwischen +1 und -1. Es kann sowohl positiv als auch negativ sein und die Richtung der Verbindung zwischen zwei dichotom gemessenen Merkmalen charakterisieren. Die Interpretation von φ kann jedoch spezifische Probleme aufwerfen. Die im Schema zur Berechnung des Koeffizienten φ enthaltenen dichotomen Daten sehen nicht wie eine zweidimensionale Normalfläche aus, daher ist es falsch anzunehmen, dass die interpretierten Werte rxy\u003d 0,60 und φ \u003d 0,60 sind gleich. Der Koeffizient φ kann sowohl nach dem Kodierverfahren als auch nach der sogenannten Vier-Felder-Tabelle oder Kontingenztabelle berechnet werden.

Um den Korrelationskoeffizienten φ anwenden zu können, müssen folgende Bedingungen erfüllt sein:

  • die zu vergleichenden Merkmale sollten auf einer dichotomen Skala gemessen werden;
  • X und Y sollte gleich sein.

Diese Art von Korrelation wird im SPSS-Computerprogramm basierend auf der Definition von Distanzmaßen und Ähnlichkeitsmaßen berechnet. Einige statistische Verfahren, wie z. B. Faktorenanalyse, Clusteranalyse, multivariate Skalierung, basieren auf der Anwendung dieser Maße und bieten teilweise selbst zusätzliche Möglichkeiten zur Berechnung von Ähnlichkeitsmaßen.

Wenn eine Variable auf einer dichotomen Skala gemessen wird (Variable X) und das andere in einer Skala von Intervallen oder Verhältnissen (variabel Y), wird genutzt biserialer Korrelationskoeffizient B. beim Testen von Hypothesen über die Auswirkung des Geschlechts eines Kindes auf Größe und Gewicht. Dieser Koeffizient variiert im Bereich von -1 bis +1, sein Vorzeichen spielt jedoch für die Interpretation der Ergebnisse keine Rolle. Für die Nutzung müssen folgende Bedingungen erfüllt sein:

  • verglichene Zeichen sollten in verschiedenen Skalen gemessen werden: eins X- in einer dichotomen Skala; Ein weiterer Y– in einer Skala von Intervallen oder Verhältnissen;
  • Variable Y hat ein Normalverteilungsgesetz;
  • die Anzahl unterschiedlicher Merkmale in den verglichenen Variablen X und Y sollte gleich sein.

Wenn die Variable X gemessen auf einer dichotomen Skala, und die Variable Y in der Rangskala (variabel Y), kann verwendet werden Rang-Biserial-Korrelationskoeffizient, das eng mit Kendalls τ verwandt ist und die Konzepte von Koinzidenz und Inversion in seiner Definition verwendet. Die Interpretation der Ergebnisse ist die gleiche.

Die Durchführung von Korrelationsanalysen mit den Computerprogrammen SPSS und Statistica ist einfach und bequem. Dazu müssen Sie nach dem Aufrufen des Dialogfelds „Bivariate Korrelationen“ (Analysieren>Korrelation>Bivariat…) die zu untersuchenden Variablen in das Feld Variablen verschieben und die Methode auswählen, mit der die Korrelation zwischen den Variablen ermittelt werden soll. Die Ergebnisausgabedatei enthält eine quadratische Tabelle (Korrelationen) für jedes berechnete Kriterium. Jede Zelle der Tabelle enthält: den eigentlichen Wert des Korrelationskoeffizienten (Korrelationskoeffizient), die statistische Signifikanz des berechneten Koeffizienten Sig, die Anzahl der Probanden.

Die Kopf- und Seitenspalten der resultierenden Korrelationstabelle enthalten die Namen der Variablen. Die Diagonale (obere linke - untere rechte Ecke) der Tabelle besteht aus Einheiten, da die Korrelation jeder Variablen mit sich selbst maximal ist. Der Tisch ist um diese Diagonale symmetrisch. Wenn im Programm das Kontrollkästchen "Signifikante Korrelationen markieren" aktiviert ist, werden statistisch signifikante Koeffizienten in der endgültigen Korrelationstabelle markiert: auf dem Niveau von 0,05 und weniger - mit einem Sternchen (*) und auf dem Niveau von 0,01 - mit zwei Sternchen (**).

Zusammenfassend lässt sich sagen: Der Hauptzweck der Korrelationsanalyse besteht darin, die Beziehung zwischen Variablen zu identifizieren. Das Maß für den Zusammenhang sind die Korrelationskoeffizienten, deren Wahl direkt von der Art der Skala abhängt, in der die Variablen gemessen werden, der Anzahl unterschiedlicher Merkmale in den verglichenen Variablen und der Verteilung der Variablen. Das Vorhandensein einer Korrelation zwischen zwei Variablen bedeutet nicht, dass zwischen ihnen eine kausale Beziehung besteht. Obwohl die Korrelation nicht direkt auf die Kausalität hinweist, kann sie ein Hinweis auf die Ursachen sein. Auf ihrer Grundlage können Hypothesen gebildet werden. In einigen Fällen wirkt sich das Fehlen einer Korrelation tiefer auf die Kausalitätshypothese aus. Eine Nullkorrelation zweier Variablen kann darauf hindeuten, dass es keinen Einfluss einer Variablen auf die andere gibt.

KURSARBEIT

Thema: Korrelationsanalyse

Einführung

1. Korrelationsanalyse

1.1 Das Korrelationskonzept

1.2 Allgemeine Klassifizierung von Korrelationen

1.3 Korrelationsfelder und der Zweck ihrer Konstruktion

1.4 Phasen der Korrelationsanalyse

1.5 Korrelationskoeffizienten

1.6 Normalisierter Bravais-Pearson-Korrelationskoeffizient

1.7 Rangkorrelationskoeffizient nach Spearman

1.8 Grundlegende Eigenschaften von Korrelationskoeffizienten

1.9 Überprüfung der Signifikanz von Korrelationskoeffizienten

1.10 Kritische Werte des Paarkorrelationskoeffizienten

2. Planung eines multivariaten Experiments

2.1 Zustand des Problems

2.2 Bestimmung des Mittelpunkts des Plans (Hauptebene) und der Variationsebene der Faktoren

2.3 Erstellung einer Planungsmatrix

2.4 Überprüfung der Homogenität der Dispersion und der gleichen Genauigkeit der Messungen in verschiedenen Serien

2.5 Koeffizienten der Regressionsgleichung

2.6 Streuung der Reproduzierbarkeit

2.7 Überprüfung der Signifikanz der Koeffizienten der Regressionsgleichung

2.8 Überprüfung der Angemessenheit der Regressionsgleichung

Fazit

Referenzliste

EINLEITUNG

Experimentplanung ist eine mathematisch-statistische Disziplin, die die Methoden der rationalen Organisation experimenteller Forschung untersucht - von der optimalen Wahl der untersuchten Faktoren und der Bestimmung des tatsächlichen Plans des Experiments in Übereinstimmung mit seinem Zweck bis hin zu Methoden zur Analyse der Ergebnisse. Den Beginn der Versuchsplanung legten die Arbeiten des englischen Statistikers R. Fisher (1935), der betonte, dass eine rationale Versuchsplanung einen nicht weniger bedeutenden Gewinn an Genauigkeit der Schätzungen bringt als eine optimale Verarbeitung von Messergebnissen. In den 60er Jahren des 20. Jahrhunderts entstand eine moderne Theorie der Versuchsplanung. Seine Methoden sind eng verwandt mit der Theorie der Approximation von Funktionen und der mathematischen Programmierung. Optimale Pläne werden konstruiert und ihre Eigenschaften werden für eine breite Klasse von Modellen untersucht.

Versuchsplanung ist die Wahl eines Versuchsplans, der die festgelegten Anforderungen erfüllt, eine Reihe von Maßnahmen, die darauf abzielen, eine Versuchsstrategie zu entwickeln (von der Beschaffung a priori-Informationen bis zum Erhalt eines praktikablen mathematischen Modells oder der Bestimmung optimaler Bedingungen). Dies ist eine gezielte Kontrolle des Experiments, die unter Bedingungen unvollständiger Kenntnis des Mechanismus des untersuchten Phänomens durchgeführt wird.

Bei der Messung, der anschließenden Datenverarbeitung sowie der Formalisierung der Ergebnisse in Form eines mathematischen Modells treten Fehler auf und ein Teil der in den Originaldaten enthaltenen Informationen geht verloren. Die Verwendung von Methoden der Versuchsplanung ermöglicht es, den Fehler des mathematischen Modells zu bestimmen und seine Angemessenheit zu beurteilen. Reicht die Genauigkeit des Modells nicht aus, so ermöglicht der Einsatz von Experimentplanungsmethoden eine Modernisierung des mathematischen Modells durch zusätzliche Experimente ohne Verlust von Vorinformationen und mit minimalem Aufwand.

Der Zweck der Versuchsplanung besteht darin, solche Bedingungen und Regeln für die Durchführung von Experimenten zu finden, unter denen es möglich ist, mit dem geringsten Arbeitsaufwand zuverlässige und verlässliche Informationen über das Objekt zu erhalten, sowie diese Informationen in kompakter und bequemer Form mit einer quantitativen Darstellung darzustellen Beurteilung der Genauigkeit.

Unter den wichtigsten Planungsmethoden, die in verschiedenen Phasen der Studie verwendet werden, werden die folgenden verwendet:

Planung eines Screening-Experiments, dessen Hauptbedeutung die Auswahl einer Gruppe signifikanter Faktoren aus der Gesamtheit der Faktoren ist, die einer weiteren detaillierten Untersuchung unterzogen werden;

Entwurf eines Experiments zur Varianzanalyse, d.h. Erstellung von Plänen für Objekte mit qualitativen Faktoren;

Planung eines Regressionsexperiments, mit dem Sie Regressionsmodelle (Polynome und andere) erhalten können;

Planung eines Extremexperiments, bei dem die Hauptaufgabe die experimentelle Optimierung des Untersuchungsgegenstandes ist;

Planung in der Untersuchung dynamischer Prozesse usw.

Ziel des Studiums ist die Vorbereitung auf produktionstechnische und technische Tätigkeiten im Fachgebiet mit Methoden der Planungstheorie und moderner Informationstechnologien.

Ziele des Faches: Studium moderner Methoden zur Planung, Organisation und Optimierung wissenschaftlicher und industrieller Experimente, Durchführung von Experimenten und Aufbereitung der Ergebnisse.

1. Korrelationsanalyse

1.1 Das Konzept der Korrelation

Der Forscher ist oft daran interessiert, wie zwei oder mehr Variablen in einer oder mehreren der untersuchten Stichproben miteinander zusammenhängen. Kann sich beispielsweise die Körpergröße auf das Gewicht einer Person auswirken oder kann sich Druck auf die Produktqualität auswirken?

Diese Art von Beziehung zwischen Variablen wird als Korrelation oder Korrelation bezeichnet. Eine Korrelation ist eine konsistente Änderung zweier Merkmale, die die Tatsache widerspiegelt, dass die Variabilität eines Merkmals mit der Variabilität des anderen übereinstimmt.

Es ist beispielsweise bekannt, dass im Durchschnitt ein positiver Zusammenhang zwischen der Körpergröße von Menschen und ihrem Gewicht besteht, und zwar so, dass je größer die Größe, desto größer das Gewicht einer Person ist. Es gibt jedoch Ausnahmen von dieser Regel, wenn relativ kleine Menschen übergewichtig sind und umgekehrt Astheniker mit hohem Wachstum leicht sind. Der Grund für solche Ausschlüsse ist, dass jedes biologische, physiologische oder psychologische Merkmal durch den Einfluss vieler Faktoren bestimmt wird: umweltbedingt, genetisch, sozial, ökologisch usw.

Korrelationen sind probabilistische Veränderungen, die nur mit Methoden der mathematischen Statistik an repräsentativen Stichproben untersucht werden können. Beide Begriffe – Korrelation und Korrelationsabhängigkeit – werden oft synonym verwendet. Abhängigkeit bedeutet Einfluss, Verbindung - alle koordinierten Veränderungen, die durch Hunderte von Gründen erklärt werden können. Korrelationen können nicht als Beweis für einen kausalen Zusammenhang angesehen werden, sie zeigen nur an, dass Änderungen in einem Merkmal in der Regel mit bestimmten Änderungen in einem anderen einhergehen.

Korrelationsabhängigkeit - Dies sind die Änderungen, die die Werte eines Merkmals an der Wahrscheinlichkeit des Auftretens verschiedener Werte eines anderen Merkmals vornehmen.

Die Aufgabe der Korrelationsanalyse reduziert sich darauf, die Richtung (positiv oder negativ) und die Form (linear, nichtlinear) der Beziehung zwischen unterschiedlichen Merkmalen festzustellen, ihre Enge zu messen und schließlich das Signifikanzniveau der erhaltenen Korrelation zu überprüfen Koeffizienten.

Korrelationen unterscheiden sich in Form, Richtung und Grad (Stärke) .

Die Form der Korrelation kann geradlinig oder krummlinig sein. Beispielsweise kann die Beziehung zwischen der Anzahl der Trainingseinheiten am Simulator und der Anzahl der korrekt gelösten Probleme in der Kontrolleinheit eindeutig sein. Krummlinig kann beispielsweise der Zusammenhang zwischen dem Motivationsgrad und der Effektivität der Aufgabe sein (Abbildung 1). Mit einer Motivationssteigerung steigt zunächst die Effizienz der Aufgabe, dann wird das optimale Motivationsniveau erreicht, das der maximalen Effizienz der Aufgabe entspricht; eine weitere Steigerung der Motivation geht mit einem Rückgang der Effizienz einher.

Abbildung 1 - Die Beziehung zwischen der Effektivität der Problemlösung und der Stärke der Motivationstendenz

In Richtung kann die Korrelation positiv ("direkt") und negativ ("umgekehrt") sein. Bei einer positiven linearen Korrelation entsprechen höhere Werte eines Attributs höheren Werten eines anderen und niedrigere Werte eines Attributs niedrigen Werten eines anderen (Abbildung 2). Bei einer negativen Korrelation kehren sich die Verhältnisse um (Abbildung 3). Bei einer positiven Korrelation hat der Korrelationskoeffizient ein positives Vorzeichen, bei einer negativen Korrelation ein negatives Vorzeichen.

Abbildung 2 – Direkte Korrelation

Abbildung 3 – Inverse Korrelation


Abbildung 4 – Keine Korrelation

Der Grad, die Stärke oder Enge der Korrelation wird durch den Wert des Korrelationskoeffizienten bestimmt. Die Stärke der Verbindung hängt nicht von ihrer Richtung ab und wird durch den absoluten Wert des Korrelationskoeffizienten bestimmt.

1.2 Allgemeine Klassifizierung von Korrelationen

Je nach Korrelationskoeffizient werden folgende Korrelationen unterschieden:

Stark oder nah mit Korrelationskoeffizient r>0,70;

Mittel (bei 0,50

Moderat (bei 0.30

Schwach (bei 0.20

Sehr schwach (bei r<0,19).

1.3 Korrelationsfelder und der Zweck ihrer Konstruktion

Die Korrelation wird auf der Grundlage experimenteller Daten untersucht, bei denen es sich um die gemessenen Werte (x i , y i) zweier Merkmale handelt. Wenn es wenige experimentelle Daten gibt, dann wird die zweidimensionale empirische Verteilung als eine doppelte Reihe von x i - und y i -Werten dargestellt. Dabei kann der Zusammenhang zwischen Merkmalen auf unterschiedliche Weise beschrieben werden. Die Entsprechung zwischen einem Argument und einer Funktion kann durch eine Tabelle, Formel, Grafik usw. gegeben werden.

Die Korrelationsanalyse basiert wie andere statistische Methoden auf der Verwendung von Wahrscheinlichkeitsmodellen, die das Verhalten der untersuchten Merkmale in einer bestimmten Allgemeinbevölkerung beschreiben, aus denen die experimentellen Werte x i und y i gewonnen werden. Wenn die Korrelation zwischen quantitativen Merkmalen untersucht wird, deren Werte in Einheiten metrischer Skalen (Meter, Sekunden, Kilogramm usw.) genau gemessen werden können, wird das Modell einer zweidimensionalen normalverteilten Allgemeinbevölkerung sehr häufig verwendet angenommen. Ein solches Modell zeigt die Beziehung zwischen den Variablen x i und y i grafisch als eine Ortskurve von Punkten in einem rechtwinkligen Koordinatensystem an. Diese grafische Abhängigkeit wird auch Streudiagramm oder Korrelationsfeld genannt.
Dieses Modell einer zweidimensionalen Normalverteilung (Korrelationsfeld) ermöglicht Ihnen eine visuelle grafische Interpretation des Korrelationskoeffizienten, weil Verteilung insgesamt hängt von fünf Parametern ab: μ x , μ y – Durchschnittswerte (mathematische Erwartungen); σ x , σ y sind die Standardabweichungen der Zufallsvariablen X und Y und p ist der Korrelationskoeffizient, der ein Maß für die Beziehung zwischen den Zufallsvariablen X und Y ist.
Wenn p \u003d 0, dann befinden sich die Werte x i , y i , die aus einer zweidimensionalen Normalpopulation erhalten wurden, im Diagramm in x-, y-Koordinaten innerhalb des durch einen Kreis begrenzten Bereichs (Abbildung 5, a). In diesem Fall gibt es keine Korrelation zwischen den Zufallsvariablen X und Y und sie werden als unkorreliert bezeichnet. Bei einer zweidimensionalen Normalverteilung bedeutet Unkorreliertheit zugleich die Unabhängigkeit der Zufallsvariablen X und Y.

Der Beziehungsbegriff ist in der psychologischen Forschung weit verbreitet. Ein Psychologe muss damit operieren, wenn es notwendig wird, die Messungen von zwei oder mehr Anzeichen oder Phänomenen zu vergleichen, um Schlussfolgerungen zu ziehen.

Die Art der Beziehung zwischen den untersuchten Phänomenen kann eindeutig sein, d.h. B. wenn ein bestimmter Wert eines Attributs einem klaren und eindeutigen Wert eines anderen entspricht. So wird beispielsweise im Untertest für die Suche nach Mustern von Tests geistiger Funktionen die Anzahl der erzielten "rohen" Punkte durch die Formel bestimmt:
Xi \u003d Stz - Soz / Stz + Spz * Sbc,
wobei Xi der Wert der Varianten ist, Sтз die Anzahl der a priori gegebenen Muster (Matches) im Subtest ist, Soz die Anzahl der irrtümlich angezeigten Matches für die Testpersonen ist, Soz die Anzahl der nicht angezeigten (fehlenden) Matches to ist die Testpersonen, Sbс ist die Anzahl aller Wörter, die von den Testpersonen im Test gesehen wurden.

Eine solche Beziehung wird funktional genannt: Hier ist ein Indikator eine Funktion eines anderen, der ein Argument in Bezug auf den ersten ist.

Ein eindeutiger Zusammenhang lässt sich jedoch nicht immer finden. Häufiger hat man es mit einer Situation zu tun, in der ein Wert eines Merkmals mehreren Werten eines anderen entsprechen kann. Diese Werte bewegen sich innerhalb mehr oder weniger definierter Grenzen. Diese Art von Beziehung wird als Korrelation oder korrelativ bezeichnet.

Es werden mehrere Arten von Korrelationsausdrücken verwendet. Um also die Beziehung zwischen Merkmalen auszudrücken, die eine quantitative Natur der Variation ihrer Werte haben, werden Maße der zentralen Tendenz verwendet: Tabellierung, gefolgt von der Berechnung des Paarkorrelationskoeffizienten, des Koeffizienten der multiplen und partiellen Korrelation, des Koeffizienten von Mehrfachbestimmung, das Korrelationsverhältnis.

Wenn es notwendig ist, die Beziehung zwischen Merkmalen zu untersuchen, deren Variation qualitativer Natur ist (die Ergebnisse projektiver Methoden der Persönlichkeitsforschung, Studien mit der semantischen Differentialmethode, Studien mit offenen Skalen usw.), dann verwenden Sie die qualitative alternativer Korrelationskoeffizient (tetrachorischer Indikator), Pearson-Kriterium x2, Kontingenzindikatoren (Kontingenz) von Pearson und Chuprov.

Zur Bestimmung des qualitativ-quantitativen Zusammenhangs, d.h. eine solche Korrelation, wenn ein Zeichen eine qualitative Variation aufweist und das andere - quantitativ. Es werden spezielle Methoden verwendet.

Der Korrelationskoeffizient (der Begriff wurde erstmals 1888 von F. Galton eingeführt) ist ein Indikator für die Stärke der Beziehung zwischen zwei verglichenen Stichprobenoptionen. Welche Formel auch immer zur Berechnung des Korrelationskoeffizienten verwendet wird, sein Wert reicht von -1 bis +1. Bei einer vollständig positiven Korrelation ist dieser Koeffizient gleich plus 1 und bei einer vollständig negativen Korrelation minus 1. Dies ist normalerweise eine gerade Linie, die durch die Schnittpunkte der Werte von verläuft jedes Datenpaar.

Wenn sich die Variantenwerte nicht auf einer geraden Linie aufreihen, sondern eine „Wolke“ bilden, dann wird der Absolutwert des Korrelationskoeffizienten kleiner als eins und nähert sich beim Abrunden der „Wolke“ Null. Wenn der Korrelationskoeffizient 0 ist, sind beide Optionen völlig unabhängig voneinander.

Jeder berechnete (Erfahrungs-)Wert des Korrelationskoeffizienten muss auf Gültigkeit (statistische Signifikanz) gegen die entsprechenden Tabellen kritischer Werte des Korrelationskoeffizienten überprüft werden. Ist der Erfahrungswert kleiner oder gleich dem Tabellenwert für das 5-Prozent-Niveau (P = 0,05), ist die Korrelation nicht signifikant. Ist der errechnete Wert des Korrelationskoeffizienten größer als der tabellierte Wert für P = 0,01, so ist die Korrelation statistisch signifikant (signifikant).

Für den Fall, dass der Wert des Koeffizienten zwischen 0,05 > P > 0,01 liegt, spricht man in der Praxis von der Signifikanz der Korrelation für P = 0,05.

Der Bravais-Pearson-Korrelationskoeffizient (r) ist ein 1896 vorgeschlagener parametrischer Indikator, für dessen Berechnung der arithmetische Mittelwert und der mittlere quadratische Wert der Variante verglichen werden. Um diesen Koeffizienten zu berechnen, wird die folgende Formel verwendet (sie kann für verschiedene Autoren unterschiedlich aussehen):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

wobei E Xi Xi1 - die Summe der Produkte der Werte paarweise vergleichbarer Optionen, n die Anzahl der verglichenen Paare, NXap, X1ap - arithmetisches Mittel der Optionen Xi, Xi; bzw. Qx, Qx, - Standardabweichungen der Verteilungen x und x.

Der Spearman-Rangkorrelationskoeffizient Rs (Rangkorrelationskoeffizient, Spearman-Koeffizient) ist die einfachste Form des Korrelationskoeffizienten und misst das Verhältnis zwischen den Rängen (Rängen) einer gegebenen Variante aus verschiedenen Gründen, ohne ihren eigenen Wert zu berücksichtigen. Hier ist die Beziehung eher qualitativ als quantitativ.

Normalerweise wird dieser nichtparametrische Test in Fällen verwendet, in denen es notwendig ist, Rückschlüsse nicht so sehr auf die Intervalle zwischen Daten zu ziehen, sondern auf ihre Ränge, und auch wenn die Verteilungskurven extrem asymmetrisch sind und die Verwendung solcher parametrischer Tests nicht zulassen wie der Bravais-Pearson-Korrelationskoeffizient (in diesen Fällen kann es erforderlich sein, quantitative Daten in ordinale Daten umzuwandeln). Wenn der Koeffizient Rs nahe bei +1 liegt, bedeutet dies, dass die beiden Reihen der Stichprobe, die nach bestimmten Merkmalen geordnet sind, praktisch zusammenfallen, und wenn dieser Koeffizient nahe bei -1 liegt, können wir von einer vollständig umgekehrten Beziehung sprechen.

Wie bei der Berechnung des Bravais-Pearson-Korrelationskoeffizienten ist es bequemer, die Berechnungen des Rs-Koeffizienten in tabellarischer Form darzustellen.

Die Regression verallgemeinert das Konzept einer funktionalen Beziehung auf den Fall einer stochastischen (probabilistischen) Natur der Beziehung zwischen den Werten einer Variante. Der Zweck der Lösung der Kategorie der Regressionsprobleme besteht darin, den Wert der kontinuierlichen Ausgabevarianz aus den Werten der Eingabevarianten zu schätzen.