Korrelationsfelder und ihre Verwendung in der vorläufigen Analyse der Korrelation.

Das Korrelationsfeld dient als visuelle Darstellung der Korrelationstabelle. Es ist ein Diagramm, bei dem X-Werte auf der Abszissenachse aufgetragen sind, Y-Werte entlang der Ordinatenachse aufgetragen sind und Kombinationen von X und Y durch Punkte dargestellt sind.Das Vorhandensein einer Verbindung kann anhand der Position beurteilt werden die Punkte.

Mit der grafischen Methode.

Diese Methode wird verwendet, um die Form der Kommunikation zwischen den untersuchten Wirtschaftsindikatoren zu visualisieren. Dazu wird ein Graph in einem rechtwinkligen Koordinatensystem aufgebaut, entlang der Ordinatenachse die Einzelwerte des resultierenden Attributs Y und entlang der Abszissenachse die Einzelwerte des Faktorattributs X aufgetragen.

Die Menge der Punkte der Effektiv- und Faktoreigenschaften wird als Korrelationsfeld bezeichnet.

Basierend auf dem Korrelationsfeld kann man (für die allgemeine Bevölkerung) die Hypothese aufstellen, dass die Beziehung zwischen allen möglichen Werten von X und Y linear ist.

Die lineare Regressionsgleichung lautet y = bx + a + ε

Dabei ist ε ein zufälliger Fehler (Abweichung, Störung).

Gründe für das Vorhandensein eines Zufallsfehlers:

1. Keine Einbeziehung signifikanter erklärender Variablen in das Regressionsmodell;

2. Aggregation von Variablen. Beispielsweise ist die Gesamtkonsumfunktion ein Versuch, die Gesamtheit der individuellen Ausgabenentscheidungen von Einzelpersonen allgemein auszudrücken. Dies ist nur eine Annäherung an einzelne Beziehungen, die unterschiedliche Parameter haben.

3. Falsche Beschreibung der Modellstruktur;

4. Falsche Funktionsspezifikation;

21. Korrelations- und Regressionsanalyse.

Die Korrelations-Regressionsanalyse als allgemeines Konzept umfasst die Messung der Festigkeit und Richtung der Verbindung und die Feststellung des analytischen Ausdrucks (Form) der Verbindung (Regressionsanalyse).

Der Zweck der Regressionsanalyse besteht darin, die funktionale Abhängigkeit des bedingten Durchschnittswerts des effektiven Attributs (Y) von den faktoriellen (x1, x2, ..., xk) zu bewerten.

Die Regressionsgleichung oder ein statistisches Modell der Beziehung sozioökonomischer Phänomene wird durch die Funktion ausgedrückt:

Yx = f(x1, x2, …, xn),

wobei „n“ die Anzahl der im Modell enthaltenen Faktoren ist;

Xi - Faktoren, die das Ergebnis Y beeinflussen.

Phasen der Korrelations- und Regressionsanalyse:

Vorläufige (a priori) Analyse. Es liefert gute Ergebnisse, wenn es von einem ausreichend qualifizierten Forscher durchgeführt wird.

Erfassung von Informationen und deren primäre Verarbeitung.

Erstellen eines Modells (Regressionsgleichungen). Dieser Vorgang wird in der Regel auf einem PC mit Standardprogrammen durchgeführt.

Bewertung der Enge von Merkmalsbeziehungen, Bewertung der Regressionsgleichung und Analyse des Modells.

Prognose der Entwicklung des analysierten Systems gemäß der Regressionsgleichung.

In der ersten Phase wird die Aufgabenstellung der Studie formuliert, die Methodik zur Messung von Indikatoren oder zur Erhebung von Informationen bestimmt, die Anzahl der Faktoren festgelegt, doppelte Faktoren ausgeschlossen oder zu einem streng deterministischen System verknüpft.

In der zweiten Stufe wird das Volumen der Einheiten analysiert: Die Grundgesamtheit muss hinsichtlich der Anzahl der Einheiten und Beobachtungen ausreichend groß sein (N>>50), die Anzahl der Faktoren „n“ muss der Anzahl der Beobachtungen „N“ entsprechen “. Die Daten müssen quantitativ und qualitativ homogen sein.

Im dritten Schritt werden die Verbindungsform und der Typ der analytischen Funktion (Parabel, Hyperbel, Gerade) bestimmt und ihre Parameter gefunden.

In der vierten Stufe wird die Zuverlässigkeit aller Merkmale der Korrelationsbeziehung und der Regressionsgleichung anhand des Zuverlässigkeitskriteriums von Fisher oder Student bewertet und eine wirtschaftliche und technologische Analyse der Parameter durchgeführt.

In der fünften Stufe erfolgt die Prognose möglicher Ergebniswerte nach den besten Werten der im Modell enthaltenen Faktormerkmale. Hier werden die besten und schlechtesten Werte der Faktoren und das Ergebnis ausgewählt.

22. Arten von Regressionsgleichungen.

Zur quantitativen Beschreibung des Zusammenhangs zwischen ökonomischen Größen in der Statistik werden Regressions- und Korrelationsverfahren verwendet.

Regression ist ein Wert, der die Abhängigkeit des Durchschnittswerts einer Zufallsvariablen y von den Werten einer Zufallsvariablen x ausdrückt.

Die Regressionsgleichung drückt den Durchschnittswert eines Merkmals als Funktion eines anderen aus.

Die Regressionsfunktion ist ein Modell der Form y \u003d l “, wobei y die abhängige Variable (resultierendes Vorzeichen) ist; x ist eine unabhängige oder erklärende Variable (Vorzeichenfaktor).

Die Regressionslinie ist ein Diagramm der Funktion y \u003d f (x).

2 Arten von Beziehungen zwischen x und y:

1) es ist möglicherweise nicht bekannt, welche der beiden Variablen unabhängig und welche abhängig ist, die Variablen sind gleich, dies ist eine Beziehung vom Typ Korrelation;

2) Wenn x und y nicht gleich sind und eine davon als erklärende (unabhängige) Variable und die andere als abhängige Variable betrachtet wird, dann handelt es sich um eine regressionsartige Beziehung.

Arten von Regressionen:

1) hyperbolisch - Regression einer gleichseitigen Hyperbel: y \u003d a + b / x + E;

2) linear - Regression, die in der Statistik in Form einer klaren wirtschaftlichen Interpretation ihrer Parameter verwendet wird: y \u003d a + b * x + E;

3) logarithmisch linear - Regression der Form: In y \u003d In a + b * In x + In E

4) multiple - Regression zwischen den Variablen y und x1, x2 ... xm, d.h. Modell der Form: y \u003d f (x1, x2 ... xm) + E, wobei y eine abhängige Variable ist (effektives Vorzeichen), x1 , х2 ...xm - unabhängige, erklärende Variablen (Vorzeichenfaktoren), Е - Störung oder stochastische Variable, einschließlich des Einflusses von nicht berücksichtigten Faktoren im Modell;

5) nichtlinear - Regression, nichtlinear in Bezug auf die in der Analyse enthaltenen erklärenden Variablen, aber linear in Bezug auf die geschätzten Parameter; oder Regression, die in den geschätzten Parametern nicht linear ist.

6) invers - auf eine lineare Form reduzierte Regression, implementiert in Standardanwendungspaketen der Form: y \u003d 1 / a + b * x + E;

    gepaart - Regression zwischen zwei Variablen y und x, d. H. Ein Modell der Form: y \u003d f (x) + E, wobei y eine abhängige Variable (effektives Merkmal) ist, x eine unabhängige, erklärende Variable (Merkmal - Faktor ), E - Störung oder eine stochastische Variable, die den Einfluss nicht berücksichtigter Faktoren im Modell beinhaltet.

    Reihen von Dynamiken und ihre Typen

Eine Zeitreihe besteht immer aus 2 Elementen: 1) einem Zeitpunkt oder einem Zeitraum, in Bezug auf den statistische Daten angegeben werden, 2) einem statistischen Indikator, der als Ebene der Zeitreihe bezeichnet wird.

Abhängig vom Inhalt des Zeitindikators sind die Dynamikreihen momentan oder intervallartig

Abhängig von der Art des statistischen Indikators werden dynamische Reihen in Reihen von absoluten, relativen und durchschnittlichen Werten unterteilt

Absolut exakte Werte anzeigen

Relative zeigen die Veränderung der Anteile des Indikators an der Gesamtbevölkerung

Durchschnittswerte enthalten etwa die zeitliche Änderung des Indikators, das ist das durchschnittliche Niveau des Phänomens

    Indikatoren für eine Reihe von Dynamiken. Die mittlere Ebene des Dynamikbereichs.

Indikatoren: 1) durchschnittliches Niveau der dynamischen Reihe, 2) absolutes Wachstum, Kette und Basis, durchschnittliches absolutes Wachstum, 3) Wachstum und Wachstumsraten, Kette und Basis, durchschnittliche Wachstums- und Wachstumsrate, 4) fmcjk.nyst-Werte 1 % Zunahme

Durchschnittliche Dynamik

Verallgemeinerte Merkmale einer Reihe von Dynamiken vergleichen mit ihrer Hilfe die Intensität der Entwicklung des Phänomens in Bezug auf verschiedene Objekte, beispielsweise nach Land, Branche, Unternehmen

Durchschnittliches Niveau im Moment yi. Die Methode zur Berechnung des Durchschnittspegels hängt von der Art der Reihe ab (Momentan / Intervall) (mit gleichen / unterschiedlichen Intervallen). Wenn eine Intervallreihe der Dynamik von Absolut- oder Durchschnittswerten mit gleichen Zeitintervallen angegeben ist, wird die Formel zur Berechnung des Durchschnitts einfach zur Berechnung des Durchschnittspegels verwendet. Wenn die Zeitintervalle der Intervallreihe ungleich sind, wird der Durchschnittspegel durch den arithmetisch gewichteten Durchschnitt gefunden. Usr=smmUi*Ti/smmTi

25. Absolutes Wachstum(Delta und) ist die Differenz zwischen zwei Niveaus der dynamischen Reihe, die angibt, um wie viel dieses Niveau der Reihe das als Vergleichsbasis genommene Niveau übersteigt. Delta U=Ui-U0

Delta U=Ui-Ui-1

Absolute Beschleunigung- die Differenz zwischen dem absoluten Wachstum für den gegebenen Zeitraum und dem absoluten Wachstum für den vorherigen Zeitraum der gleichen Dauer: Delta und mit einem Balken=Delta und - Delta und-1. Die absolute Beschleunigung zeigt, wie stark die Änderungsrate des Indikators zugenommen (abgenommen) hat. Der Beschleunigungsindikator wird für absolute Kettengewinne verwendet. Ein negativer Beschleunigungswert zeigt eine Verlangsamung des Wachstums oder eine Beschleunigung des Rückgangs der Niveaus der Reihe an.

    Indikatoren für die relative Änderung der Ebenen einer Reihe von Dynamiken.

Wachstumsfaktor (Wachstumsrate)- Dies ist das Verhältnis zweier verglichener Niveaus, das angibt, wie oft dieses Niveau das Niveau des Basiszeitraums übersteigt. Sie spiegelt die Intensität der Änderungen der Pegel einer Reihe von Dynamiken wider und zeigt, wie oft sich der Pegel im Vergleich zum Basispegel erhöht hat und im Falle einer Verringerung, welcher Teil des Basispegels der Vergleichspegel ist.

Wachstumsfaktor-Formel: Im Vergleich zu einer konstanten Basis: K ich .=y ich /y 0 , im Vergleich zu einer variablen Basis: K ich .=y ich /y ich -1 .

Wachstumsrate ist die Wachstumsrate, ausgedrückt in Prozent:

T R = Zu 100 %.

Wachstumsraten für beliebige Zeitreihen sind Intervallindikatoren, d.h. einen bestimmten Zeitraum (Intervall) charakterisieren.

Zunahme- der relative Wert der Erhöhung, d. h. das Verhältnis der absoluten Erhöhung zum vorherigen oder Basisniveau. Sie kennzeichnet, um wie viel Prozent das Niveau des gegebenen Zeitraums über (oder unter) dem Basisniveau liegt.

Zunahme- das Verhältnis des absoluten Wachstums zum Vergleichsniveau:

Tpr \u003d Ui-U0 / U0 * 100%

Zunahme- die Differenz zwischen der Wachstumsrate (in Prozent) und 100,

Du wirst brauchen

  • - Verteilungsreihe der abhängigen und unabhängigen Variablen;
  • - Papier, Bleistift;
  • - Computer- und Tabellenkalkulationssoftware.

Anweisung

Wählen Sie zwei aus, von denen Sie glauben, dass sie eine Beziehung haben, normalerweise nehmen Sie , die sich im Laufe der Zeit ändern. Beachten Sie, dass eine der Variablen unabhängig sein muss, sie fungiert als Ursache. Der zweite sollte sich damit ändern - verringern, erhöhen oder zufällig ändern.

Messen Sie den Wert der abhängigen Variablen für jede unabhängige Variable. Notieren Sie die Ergebnisse in einer Tabelle, in zwei Zeilen oder zwei Spalten. Mindestens 30 Messungen sind erforderlich, um eine Verbindung zu erkennen, aber für ein genaueres Ergebnis sollten mindestens 100 Punkte vorhanden sein.

Erstellen Sie eine Koordinatenebene, während Sie die Werte der abhängigen Variablen auf der Ordinatenachse und der unabhängigen Variablen auf der Abszissenachse darstellen. Signieren Sie die Achsen und geben Sie die Maßeinheiten für jeden Indikator an.

Markieren Sie die Punkte des Korrelationsfeldes in der Grafik. Suchen Sie auf der x-Achse den ersten Wert der unabhängigen Variablen und auf der y-Achse den entsprechenden Wert der abhängigen Variablen. Konstruieren Sie Senkrechte zu diesen Projektionen und finden Sie den ersten Punkt. Markieren Sie es, kreisen Sie es mit einem weichen Bleistift oder Kugelschreiber ein. Konstruieren Sie alle anderen Punkte auf die gleiche Weise.

Die resultierende Punktmenge wird als Korrelation bezeichnet Feld. Analysieren Sie das resultierende Diagramm, ziehen Sie Schlussfolgerungen über das Vorhandensein einer starken oder schwachen kausalen Beziehung oder deren Fehlen.

Achten Sie auf zufällige Abweichungen vom Fahrplan. Wenn im Allgemeinen eine lineare oder andere Abhängigkeit verfolgt wird, aber das gesamte „Bild“ durch ein oder zwei Punkte gestört wird, die am Rande der Gesamtpopulation liegen, können dies zufällige Fehler sein und bei der Interpretation der Grafik nicht berücksichtigt werden .

Wenn Sie ein Feld erstellen und analysieren müssen Korrelationen Verwenden Sie für große Datenmengen ein Tabellenkalkulationsprogramm wie Excel oder kaufen Sie spezielle Software.

Das Verhältnis mehrerer Größen, bei dem eine Änderung einer zu einer Änderung der anderen führt, wird als Korrelation bezeichnet. Es kann einfach, mehrfach oder teilweise sein. Dieses Konzept wird nicht nur in der Mathematik, sondern auch in der Biologie akzeptiert.

Wort Korrelation abgeleitet vom lateinischen correlatio, Beziehung. Alle Phänomene, Ereignisse und Objekte sowie die sie charakterisierenden Größen sind miteinander verbunden. Die Korrelationsabhängigkeit unterscheidet sich von der funktionalen dadurch, dass bei dieser Art der Abhängigkeit jede nur im Mittel ungefähr gemessen werden kann.Die Korrelationsabhängigkeit geht davon aus, dass ein variabler Wert Änderungen eines unabhängigen Werts nur mit einer bestimmten Wahrscheinlichkeit entspricht. Der Grad der Abhängigkeit wird als Korrelationskoeffizient bezeichnet.Der Begriff der Korrelation ist das Verhältnis der Struktur und Funktionen einzelner Körperteile.Nicht selten der Begriff Korrelation Statistiken verwenden. In der Statistik ist dies der Zusammenhang zwischen statistischen Größen, Reihen und Gruppen. Um das Vorhandensein oder Fehlen oder Vorhandensein einer Korrelation zu bestimmen, wird ein spezielles Verfahren verwendet. Die Korrelationsmethode wird verwendet, um die direkten oder umgekehrten Zahlenänderungen in den zu vergleichenden Reihen zu bestimmen. Wenn gefunden, dann das Maß selbst oder der Grad der Parallelität. Aber interne kausale Faktoren werden auf diese Weise nicht gefunden. Die Hauptaufgabe der Statistik als Wissenschaft besteht darin, solche kausalen Zusammenhänge für andere Wissenschaften aufzudecken: Der Form nach kann ein Zusammenhang linear oder nichtlinear, positiv oder negativ sein. Wenn, wenn eine der Variablen zunimmt oder abnimmt, die andere ebenfalls zunimmt oder abnimmt, dann ist die Beziehung linear. Wenn beim Ändern einer Größe die Art der Änderungen in der anderen nichtlinear ist, dann dies Korrelation nichtlinear.Positiv Korrelation wird berücksichtigt, wenn eine Erhöhung des Niveaus einer Größe mit einer Erhöhung des Niveaus einer anderen einhergeht. Wenn zum Beispiel eine Zunahme des Tons von einem Gefühl einer Zunahme des Tons begleitet wird, wird eine Korrelation als negativ bezeichnet, wenn eine Zunahme des Pegels einer Variablen von einer Abnahme des Pegels einer anderen begleitet wird. In Gemeinschaften führt ein erhöhtes Angstniveau eines Individuums zu einer Abnahme der Wahrscheinlichkeit, dass dieses Individuum eine dominante Nische unter den Artgenossen besetzt.Wenn es keinen Zusammenhang zwischen Variablen gibt, Korrelation heißt Null.

Ähnliche Videos

Quellen:

  • Nichtlineare Korrelation im Jahr 2019

Korrelation ist die gegenseitige Abhängigkeit von zwei Zufallsvariablen (häufiger - zwei Gruppen von Variablen), bei der eine Änderung der einen zu einer Änderung der anderen führt. Der Korrelationskoeffizient zeigt, wie wahrscheinlich die Änderung des zweiten Werts ist, wenn sich die Werte des ersten ändern, also Grad der Abhängigkeit. Der einfachste Weg, diesen Wert zu berechnen, ist die Verwendung der entsprechenden Funktion, die in den Tabelleneditor von Microsoft Office Excel integriert ist.

Du wirst brauchen

  • Tabelleneditor Microsoft Office Excel.

Anweisung

Starten Sie Excel und öffnen Sie ein Dokument, das die Datengruppen enthält, deren Korrelationskoeffizient Sie berechnen möchten. Wenn ein solches Dokument noch nicht erstellt wurde, geben Sie die Daten in ein - der Tabellenkalkulationseditor erstellt sie automatisch, wenn das Programm gestartet wird. Geben Sie jede der Wertegruppen, deren Korrelation Sie interessiert, in eine separate Spalte ein. Dies müssen keine angrenzenden Spalten sein, es steht Ihnen frei, die Tabelle so anzuordnen, wie es am bequemsten ist – fügen Sie zusätzliche Spalten mit Erläuterungen zu den Daten, Spaltenüberschriften, Summenzellen mit Gesamt- oder Durchschnittswerten usw. hinzu. Sie können Daten sogar nicht in vertikaler (in Spalten), sondern in horizontaler (in Zeilen) Richtung anordnen. Die einzige Voraussetzung, die beachtet werden muss, ist, dass die Zellen mit den Daten jeder Gruppe sequentiell hintereinander liegen müssen, sodass auf diese Weise ein zusammenhängendes Array entsteht.

Gehen Sie zu der Zelle, die den Wert der Korrelation der Daten der beiden Arrays enthält, und klicken Sie im Excel-Menü auf die Registerkarte "Formeln". Klicken Sie in der Befehlsgruppe "Funktionsbibliothek" auf das neueste Symbol - "Andere Funktionen". Es öffnet sich eine Dropdown-Liste, in der Sie zum Abschnitt "Statistik" gehen und die Funktion KORREL auswählen sollten. Daraufhin öffnet sich das Fenster des Funktionsassistenten mit einem auszufüllenden Formular. Dasselbe Fenster kann auch ohne die Registerkarte „Formeln“ aufgerufen werden, indem Sie einfach auf das Symbol zum Einfügen der Funktion klicken, das sich links neben der Bearbeitungsleiste befindet.

Geben Sie die erste Gruppe korrelierter Daten im Feld Array1 des Formelassistenten an. Um einen Zellbereich manuell einzugeben, geben Sie die Adresse der ersten und letzten Zelle ein und trennen Sie sie durch einen Doppelpunkt (ohne Leerzeichen). Eine andere Möglichkeit besteht darin, den gewünschten Bereich einfach mit der Maus auszuwählen, und Excel platziert den gewünschten Eintrag von alleine in diesem Formularfeld. Die gleiche Operation muss mit der zweiten Datengruppe im Feld "Array2" durchgeführt werden.

Klicken Sie auf die Schaltfläche OK. Der Tabelleneditor berechnet den Korrelationswert und zeigt ihn in der Zelle mit der Formel an. Bei Bedarf können Sie dieses Dokument zur späteren Verwendung speichern (Kürzel Strg + S).

Die Korrelation wird auf der Grundlage experimenteller Daten untersucht, bei denen es sich um die gemessenen Werte (xi, yi) zweier Merkmale handelt. Wenn nur wenige experimentelle Daten vorliegen, wird die zweidimensionale empirische Verteilung als doppelte Reihe von Werten von xi und yi dargestellt. Dabei kann der Zusammenhang zwischen Merkmalen auf unterschiedliche Weise beschrieben werden. Die Entsprechung zwischen einem Argument und einer Funktion kann durch eine Tabelle, Formel, Grafik usw. gegeben werden.

Die Korrelationsanalyse basiert wie andere statistische Methoden auf der Verwendung von Wahrscheinlichkeitsmodellen, die das Verhalten der untersuchten Merkmale in einer bestimmten Allgemeinbevölkerung beschreiben, aus denen die experimentellen Werte von xi und yi gewonnen werden. Wenn die Korrelation zwischen quantitativen Merkmalen untersucht wird, deren Werte in Einheiten metrischer Skalen (Meter, Sekunden, Kilogramm usw.) genau gemessen werden können, wird das Modell einer zweidimensionalen normalverteilten Allgemeinbevölkerung sehr häufig verwendet angenommen. Ein solches Modell zeigt die Beziehung zwischen den Variablen xi und yi grafisch als Ort von Punkten in einem rechtwinkligen Koordinatensystem an. Diese grafische Abhängigkeit wird auch Streudiagramm oder Korrelationsfeld genannt.

Dieses Modell einer zweidimensionalen Normalverteilung (Korrelationsfeld) ermöglicht Ihnen eine visuelle grafische Interpretation des Korrelationskoeffizienten, weil die Verteilung im Aggregat hängt von fünf Parametern ab: μx, μy – Durchschnittswerte (mathematische Erwartungen); σx,σy sind die Standardabweichungen der Zufallsvariablen X und Y, und p ist der Korrelationskoeffizient, der ein Maß für die Beziehung zwischen den Zufallsvariablen X und Y ist.

Wenn p \u003d 0 ist, befinden sich die aus einer zweidimensionalen Normalpopulation erhaltenen Werte xi, yi im Diagramm in x-, y-Koordinaten innerhalb des durch einen Kreis begrenzten Bereichs (Abbildung 5, a). In diesem Fall gibt es keine Korrelation zwischen den Zufallsvariablen X und Y und sie werden als unkorreliert bezeichnet. Bei einer zweidimensionalen Normalverteilung bedeutet Unkorreliertheit zugleich die Unabhängigkeit der Zufallsvariablen X und Y.

Wenn p = 1 oder p = -1, dann besteht ein linearer funktionaler Zusammenhang zwischen den Zufallsvariablen X und Y (Y = c + dX). In diesem Fall spricht man von einer vollständigen Korrelation. Bei p = 1 definieren die Werte xi, yi Punkte, die auf einer Geraden mit positiver Steigung liegen (mit steigendem xi steigen auch die Werte von yi), bei p = -1 hat die Gerade eine negative Steigung (Abbildung 5, b). In Zwischenfällen (-1< p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p >0 besteht eine positive Korrelation (mit zunehmendem xi steigen die Werte von yi tendenziell), bei p< 0 корреляция отрицательная. Чем ближе р к, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию.



Daher hilft eine visuelle Analyse des Korrelationsfelds, nicht nur das Vorhandensein einer statistischen Beziehung (linear oder nichtlinear) zwischen den untersuchten Merkmalen zu identifizieren, sondern auch ihre Enge und Form. Dies ist wesentlich für den nächsten Analyseschritt, die Auswahl und Berechnung des passenden Korrelationskoeffizienten.

Die Korrelationsabhängigkeit zwischen Merkmalen kann auf unterschiedliche Weise beschrieben werden. Insbesondere kann jede Form der Verbindung durch eine allgemeine Gleichung Y = f(X) ausgedrückt werden, wobei Y eine abhängige Variable oder eine Funktion der unabhängigen Variablen X ist, die als Argument bezeichnet wird. Die Entsprechung zwischen einem Argument und einer Funktion kann durch eine Tabelle, Formel, Grafik usw. gegeben werden.

Grafisch wird die Beziehung zweier Merkmale über das Korrelationsfeld dargestellt. Im Koordinatensystem werden die Werte des Faktorattributs auf der Abszissenachse und das resultierende Attribut auf der Ordinatenachse aufgetragen. Jeder Schnittpunkt von Linien, die durch diese Achsen gezogen werden, wird durch einen Punkt angezeigt. In Ermangelung enger Verbindungen gibt es eine zufällige Anordnung der Punkte auf dem Graphen (Abb. 11.1).


Lassen Sie uns die erhaltene Abhängigkeit grafisch mit Punkten der Koordinatenebene darstellen (Abb. 3.1). Ein solches Bild eines statistischen Zusammenhangs wird als Korrelationsfeld bezeichnet.

Bauen Sie ein Korrelationsfeld auf und formulieren Sie eine Hypothese über die Form des Zusammenhangs.

Bei der Untersuchung der Beziehung zwischen zwei Merkmalen ist die grafische Methode zur Auswahl des Typs der Regressionsgleichung ziemlich klar. Es basiert auf dem Korrelationsfeld. Die Haupttypen von Kurven, die bei der quantitativen Bewertung von Beziehungen verwendet werden, sind in Abb. 1 dargestellt. 2.1.

Da nicht alle Punkte des Korrelationsfeldes auf der Regressionsgeraden liegen, gibt es immer eine Streuung sowohl durch den Einfluss des Faktors x, also Regression y für x, als auch durch andere Ursachen (unerklärte Streuung). Die Eignung der Regressionsgerade zur Vorhersage hängt davon ab, wie viel der Gesamtvariation des Merkmals y auf die erklärte Variation entfällt. Wenn die Summe der quadratischen Abweichungen aufgrund der Regression größer ist als die Residualsumme der Quadrate, dann ist die Regressionsgleichung offensichtlich statistisch signifikant und der x-Faktor hat einen signifikanten Einfluss auf das Ergebnis. Dies ist gleichbedeutend damit, dass sich das Bestimmtheitsmaß r2 der Eins nähert.

Dementsprechend gilt für die in den Korrelationsfeldern von Abb. 3.5 b) und c), die Heteroskedastizität der Reste ist in Abb. 3.5 gezeigt. 3.9 und 3.10.

Wenn die Werte unabhängig sind, wird das "Korrelationsfeld" oder pa-

Wenn das Korrelationsfeld durch eine gerade Linie angenähert werden kann, die als Regressionslinie bezeichnet wird, fahren Sie mit der Berechnung des Paarkorrelationskoeffizienten r fort, dessen numerische Werte im Intervall [-1, 1] liegen. Wenn r gleich 1 oder -1 ist, dann liegt eine funktionale Ein- oder Rückkopplung vor. Wenn r nahe Null ist, besteht kein Zusammenhang zwischen den Phänomenen, und bei r 0,7 wird der Zusammenhang als signifikant betrachtet. Der Korrelationskoeffizient wird durch die Formel berechnet

Nach der Identifizierung der oben genannten Gruppen von Eisenbahnanlagen wurde eine weitere ungefähre Methode der vorläufigen Analyse der Homogenität der Bevölkerung für jede Gruppe von Eisenbahnanlagen verwendet - die Konstruktion von Korrelationsfeldern für jeden der in die Studie einbezogenen Faktoren mit den Transportkosten. Das Hauptmerkmal der Homogenität oder Heterogenität der ausgewählten Populationen war das Fehlen oder Vorhandensein von Lücken und Sprüngen in der Position von Punkten in den Korrelationsfeldern.

Für die Studie wurden alle möglichen Faktoren durch professionelle logische Analyse vorab ausgewählt, Daten zu Veränderungen, die für Unternehmen in der Berichterstattung des Ministeriums verfügbar sind. Solche Faktoren sollten das Gesamttransportvolumen, die durchschnittliche Produktivität der Waggons und Lokomotiven der Arbeitsflotte, die Frachtintensität, die Kapitalintensität einer Transporteinheit und die Arbeitsproduktivität usw. (insgesamt 11 Faktoren) berücksichtigen. Somit wurden für vier Unternehmensgruppen 44 Korrelationsfelder konstruiert.

Nach Bestimmung der angegebenen Werte erhält man eine Paarabhängigkeitsgleichung, deren grafische Darstellung in den Koordinatenachsen als theoretische Regressionsgerade bezeichnet wird. Wenn alle Messungen auf ein solches Feld angewendet werden und nicht nur die theoretische Regressionsgerade, dann erhalten wir ein Korrelationsfeld.

Wir systematisieren das Quellenmaterial im Bereich Korrelation und in der Korrelationstabelle. In unserem Beispiel sind der Faktor die Maschinenkosten Cm und die Funktion die durchschnittliche jährliche Zahl der Arbeiter P.

Als Ergebnis der Aufteilung in Intervalle wird die gesamte Ebene, auf der Messungen für beide Vorzeichen k und y aufgetragen sind, Korrelationsfeld genannt, aus Zellen bestehen, und jede Messung ist nicht durch die genauen Werte ihrer Koordinaten gekennzeichnet, sondern nur durch die Werte des Intervalls, in dem es zugewiesen wird.

Auf Abb. 16 zeigt das Korrelationsfeld, auf dem entlang der Abszissenachse die Intervalle für die Werte des Arguments Сы und entlang der Ordinatenachse die Intervalle für den Wert der Funktion P angegeben sind heißt sekundär.

Ein primäres Korrelationsfeld kann auch konstruiert werden, um Intervalle auszuwählen. Alle Punkte in diesem Feld werden unter Berücksichtigung der Werte ihrer Koordinaten markiert. Entsprechend der Dichte der Punkte werden die Intervalle umrissen.

Zusammen mit der Konstruktion des Korrelationsfeldes wird, wie oben angegeben, eine Korrelationstabelle erstellt, in der alle Berechnungen zur Bestimmung der Mittelwerte, die Konstruktion einer empirischen Regressionslinie und die Ausgangsdaten für die Bestimmung der Parameter im Normalsystem enthalten sind Gleichungen durchgeführt werden.

Im Tisch. 36 Das gesamte Material ist in Intervalle unterteilt. Damit bauen wir ein sekundäres Korrelationsfeld auf, auf dem wir alle Werte der Variablen darstellen und die Durchschnittswerte (/, //, ..., yn) über Intervalle bestimmen. Verbinden der Durchschnittswerte in jedem Intervall mit geraden Liniensegmenten erhalten wir eine empirische Regressionsgerade (siehe Abb. 16).

Indem wir aus der Mitte jedes Intervalls die Senkrechte zur Abszissenachse wiederherstellen, legen wir auf jedem von ihnen die entsprechenden Werte von y beiseite, aber die Intervalle r /, \u003d 1081, 1/2 \u003d 1774 usw. Wir verbinden die erhaltene Punkte miteinander durch gerade Liniensegmente. Die resultierende gestrichelte Linie ist eine empirische Regressionslinie für die Beziehung zwischen den Kosten der Maschinen Cm und der Anzahl der Arbeiter P. In Analogie zu den durchgeführten Berechnungen können wir Korrelationstabellen und Korrelationsfelder erstellen, um die Beziehung zwischen der Anzahl der Arbeiter P zu identifizieren , das Arbeitsvolumen O, die Anzahl der vorgefertigten Beton- und Stahlbetonkonstruktionen / Izh.b.
Reis. 18. Korrelationstabelle und sekundäres Korrelationsfeld der Abhängigkeit der Arbeiterzahl und des Nutzungsvolumens von Betonfertigteilen /info/5440"> Die Gleichungen der Paarregression und der später abgeleiteten multiplen Regression sind anwendbar, wenn sich die Variablen innerhalb der folgenden Grenzen ändern: die Anzahl der Arbeiter - von 850 auf 7850 Personen, die Kosten der Maschinen - von 0,15 auf 3,15 Millionen Rubel Das Volumen der vorgefertigten Strukturen beträgt 10 bis 230.000 m und wird entlang der vertikalen Achse in unabhängigen Werten - entlang der Horizontalen - aufgetragen.Das Korrelationsfeld wird verwendet, um die Form der Beziehung zwischen Variablen zu bestimmen, Die Grafik gibt der Forscher der Erste

Die dritte Prämisse der kleinsten Quadrate erfordert, dass die Varianz der Residuen homoskedastisch ist. Das bedeutet, dass für jeden Wert des Faktors Xj die Residuen e, - die gleiche Varianz haben. Ist diese Bedingung für die Anwendung des LSM nicht erfüllt, liegt Heteroskedastizität vor. Das Vorhandensein von Heteroskedastizität ist deutlich aus dem Korrelationsfeld ersichtlich (Abb. 3.5).

Eine weitere typische Forschungsaufgabe – die Bewertung von Zusammenhängen zwischen Phänomenen – wird mit dem gut entwickelten Apparat der Korrelationstheorie in der mathematischen Statistik gelöst. Dazu ist es notwendig, Proben für verglichene Phänomene zu haben, die auf Karten verschiedener Themen (z. B. D und C) dargestellt sind. Die Werte a und b werden an denselben /-ten Punkten genommen, d.h. streng koordiniert, und zeichnen Sie dann das Korrelationsfeld auf.

1. Thema der Arbeit.

2. Kurze theoretische Informationen.

3. Die Reihenfolge der Arbeit.

4. Ausgangsdaten für die Entwicklung eines mathematischen Modells.

5. Ergebnisse der Entwicklung eines mathematischen Modells.

6. Ergebnisse der Untersuchung des Modells. Erstellung einer Prognose.

7. Schlussfolgerung.

In den Aufgaben 2-4 können Sie Excel PPP verwenden, um die Modellleistung zu berechnen.

Werk Nummer 1.

Konstruktion von gepaarten Regressionsmodellen. Überprüfung der Residuen auf Heteroskedastizität.

Für 15 Unternehmen, die den gleichen Produkttyp herstellen, sind die Werte von zwei Merkmalen bekannt:

X - Ausgabe, tausend Einheiten;

ja - Produktionskosten, Millionen Rubel

x j
5,3 18,4
15,1 22,0
24,2 32,3
7,1 16,4
11,0 22,2
8,5 21,7
14,5 23,6
10,2 18,5
18,6 26,1
19,7 30,2
21,3 28,6
22,1 34,0
4,1 14,2
12,0 22,1
18,3 28,2

Erforderlich:

1. Bauen Sie ein Korrelationsfeld auf und formulieren Sie eine Hypothese über die Form der Beziehung.

2. Modelle erstellen:

Lineare Paarregression.

Halblogarithmische paarweise Regression.

2.3 Power-Pair-Regression.
Dafür:


2. Bewerten Sie die Enge der Beziehung anhand des Koeffizienten (Index)
Korrelationen.

3. Bewerten Sie die Qualität des Modells anhand eines Koeffizienten (Index)
Bestimmung und mittlerer Näherungsfehler
.

4. Schreiben Sie mit dem durchschnittlichen Elastizitätskoeffizienten
vergleichende Einschätzung der Stärke des Zusammenhangs zwischen Faktor und Ergebnis
.

5. Verwenden F- Fisher-Kriterium zur Bewertung der statistischen Zuverlässigkeit der Ergebnisse der Regressionsmodellierung.

Wählen Sie gemäß den in den Absätzen 2-5 berechneten Werten der Merkmale die beste Regressionsgleichung.

Überprüfen Sie die Residuen mit der Golfreld-Quandt-Methode auf Heteroskedastizität.

Wir bauen ein Korrelationsfeld auf.

Wenn wir die Position der Punkte des Korrelationsfelds analysieren, nehmen wir an, dass die Beziehung zwischen den Zeichen X und beim kann linear sein, d.h. y=a+bx, oder nichtlineare Form: y=a+blnx, y=ax b.

Basierend auf der Theorie der untersuchten Beziehung erwarten wir, die Abhängigkeit zu erhalten beim aus X nett y=a+bx, weil Produktionskosten j kann in zwei Typen unterteilt werden: konstant, unabhängig vom Produktionsvolumen - a wie Miete, Verwaltungsunterhalt usw.; und Variablen, die sich proportional zur Ausgabe ändern bx, wie Verbrauch von Material, Strom etc.


2.1.Regressionsmodell für lineare Paare.

2.1.1. Lassen Sie uns die Parameter berechnen a und b lineare Regression y=a+bx.

Wir bauen eine Berechnungstabelle 1.

Tabelle 1

Optionen a und b Gleichungen

Yx = a + bx


Geteilt durch n b:

Regressionsgleichung:

=11,591+0,871x

Mit einer Produktionssteigerung um 1000 Rubel. Produktionskosten steigen um 0,871 Millionen Rubel. im Durchschnitt betragen die Fixkosten 11,591 Millionen Rubel.

2.1.2. Wir schätzen die Nähe der Beziehung unter Verwendung des linearen Koeffizienten der Paarkorrelation.

Lassen Sie uns vorläufig die Standardabweichungen der Merkmale bestimmen.

Standardabweichungen:

Korrelationskoeffizient:

Zwischen Zeichen X und Y Es besteht eine sehr starke lineare Korrelation.

2.1.3. Lassen Sie uns die Qualität des konstruierten Modells bewerten.

d.h. dieses Modell erklärt 90,5 % der Gesamtvarianz beim beträgt der Anteil der unerklärten Varianz 9,5 %.

Daher ist die Qualität des Modells hoch.

SONDERN ich .

Zunächst bestimmen wir aus der Regressionsgleichung die theoretischen Werte für jeden Wert des Faktors.

Annäherungsfehler A ich, ich=1…15:

Mittlerer Näherungsfehler:

2.1.4. Lassen Sie uns den durchschnittlichen Elastizitätskoeffizienten definieren:

Sie zeigt, dass bei einer Steigerung des Outputs um 1 % die Produktionskosten um durchschnittlich 0,515 % steigen.

2.1.5. Lassen Sie uns die statistische Signifikanz der resultierenden Gleichung abschätzen.
Testen wir die Hypothese H0 dass die offenbarte Abhängigkeit beim aus X ist zufällig, d.h. die resultierende Gleichung ist statistisch unbedeutend. Nehmen wir α=0,05. Lassen Sie uns den tabellarischen (kritischen) Wert finden F- Fisher-Kriterium:

Finden Sie den tatsächlichen Wert F- Fisher-Kriterium:

daher die Hypothese H0 H1 x und j ist nicht zufällig.

Konstruieren wir die resultierende Gleichung.

2.2. Paarweises Semilog-Regressionsmodell.

2.2.1. Lassen Sie uns die Parameter berechnen a und b im Rückschritt:

y x \u003d a + blnx.

Wir linearisieren diese Gleichung und bezeichnen:

y=a + bz.

Optionen a und b Gleichungen

= a+bz

bestimmt nach der Methode der kleinsten Quadrate:


Wir berechnen Tabelle 2.

Tabelle 2

Geteilt durch n und Lösen nach Cramers Methode erhalten wir eine Bestimmungsformel b:

Regressionsgleichung:

= -1,136 + 9,902 z

2.2.2. Lassen Sie uns die Nähe der Verbindung zwischen den Merkmalen abschätzen beim und X.

Da die Gleichung y = a + bln x linear in Bezug auf Parameter a und b und seine Linearisierung stand nicht im Zusammenhang mit der Transformation der abhängigen Variablen _ beim, dann die Enge der Verbindung zwischen den Variablen beim und X, geschätzt unter Verwendung des Paarkorrelationsindex Rxy, kann auch unter Verwendung des linearen Paarkorrelationskoeffizienten bestimmt werden r yz

Standardabweichung z:

Der Wert des Korrelationsindex liegt daher zwischen den Variablen nahe bei 1 beim und X es besteht ein sehr enger zusammenhang = a + bz.

2.2.3. Lassen Sie uns die Qualität des konstruierten Modells bewerten.

Lassen Sie uns das Bestimmtheitsmaß definieren:

d.h. dieses Modell erklärt 83,8 % der Gesamtstreuung im Ergebnis beim beträgt der Anteil der unerklärten Streuung 16,2 %. Daher ist die Qualität des Modells hoch.

Lassen Sie uns den Wert des durchschnittlichen Näherungsfehlers finden SONDERN ich .

Zunächst bestimmen wir aus der Regressionsgleichung die theoretischen Werte für jeden Wert des Faktors. Annäherungsfehler Und ich ,:

, ich=1…15.

Mittlerer Näherungsfehler:

.

Der Fehler ist klein, die Qualität des Modells hoch.

2.2.4 Bestimmen wir den durchschnittlichen Elastizitätskoeffizienten:

Sie zeigt, dass bei einer Steigerung des Outputs um 1 % die Produktionskosten um durchschnittlich 0,414 % steigen.

2.2.5. Lassen Sie uns die statistische Signifikanz der resultierenden Gleichung abschätzen.
Testen wir die Hypothese H0 dass die offenbarte Abhängigkeit beim aus X ist zufällig, d.h. die resultierende Gleichung ist statistisch unbedeutend. Nehmen wir α=0,05.

Lassen Sie uns den tabellarischen (kritischen) Wert finden F- Fisher-Kriterium:

Finden Sie den tatsächlichen Wert F- Fisher-Kriterium:

daher die Hypothese H0 verworfen, Alternativhypothese akzeptiert H1: mit einer Wahrscheinlichkeit von 1-α=0,95 ist die resultierende Gleichung statistisch signifikant, die Beziehung zwischen den Variablen x und j ist nicht zufällig.

Lassen Sie uns eine Regressionsgleichung für das Korrelationsfeld erstellen

2.3. Power-Pair-Regressionsmodell.

2.3.1. Lassen Sie uns die Parameter berechnen a und b Machtregression:

Der Berechnung der Parameter geht das Verfahren der Linearisierung dieser Gleichung voraus:

und Änderung der Variablen:

Y=lny, X=lnx, A=lna

Gleichungsparameter:

bestimmt nach der Methode der kleinsten Quadrate:


Wir berechnen Tabelle 3.

Wir definieren b:

Regressionsgleichung:

Lassen Sie uns eine Regressionsgleichung für das Korrelationsfeld erstellen:

2.3.2. Lassen Sie uns die Nähe der Verbindung zwischen den Merkmalen abschätzen beim und X unter Verwendung des Paarkorrelationsindex Ryx .

Berechnen Sie vorläufig den theoretischen Wert für jeden Faktorwert x, und dann:

Korrelationsindexwert Rxy nahe 1, also zwischen Variablen beim und X es gibt eine sehr enge Korrelation der Form:

2.3.3. Lassen Sie uns die Qualität des konstruierten Modells bewerten.

Lassen Sie uns den Bestimmungsindex definieren:

R2=0,936 2 =0,878,

d.h. dieses Modell erklärt 87,6 % der Gesamtstreuung im Ergebnis y, und der Anteil der unerklärten Variation macht 12,4 % aus.

Die Qualität des Modells ist hoch.

Lassen Sie uns den Wert des durchschnittlichen Näherungsfehlers finden.

Annäherungsfehler A ich, ich=1…15:

Mittlerer Näherungsfehler:

Der Fehler ist klein, die Qualität des Modells hoch.

2.3.4. Lassen Sie uns den durchschnittlichen Elastizitätskoeffizienten definieren:

Sie zeigt, dass bei einer Steigerung des Outputs um 1 % die Produktionskosten um durchschnittlich 0,438 % steigen.

2.3.5 Bewerten wir die statistische Signifikanz der resultierenden Gleichung.

Testen wir die Hypothese H0 dass die offenbarte Abhängigkeit beim aus X ist zufällig, d.h. die resultierende Gleichung ist statistisch unbedeutend. Nehmen wir α=0,05.

tabellarischer (kritischer) Wert F- Fisher-Kriterium:

tatsächlicher Wert F- Fisher-Kriterium:

daher die Hypothese H0 verworfen, Alternativhypothese akzeptiert H1: mit einer Wahrscheinlichkeit von 1-α=0,95 ist die resultierende Gleichung statistisch signifikant, die Beziehung zwischen den Variablen x und j ist nicht zufällig.

Tisch 3

3. Auswahl der besten Gleichung.

Lassen Sie uns eine Tabelle der Ergebnisse der Studie erstellen.

Tabelle 4

Wir analysieren die Tabelle und ziehen Schlussfolgerungen.

ú Alle drei Gleichungen erwiesen sich als statistisch signifikant und zuverlässig, haben einen Korrelationskoeffizienten (Index) nahe 1, ein hohes (nahe 1) Bestimmtheitsmaß (Index) und einen Näherungsfehler innerhalb akzeptabler Grenzen.

ú Gleichzeitig weisen die Eigenschaften des linearen Modells darauf hin, dass es die Beziehung zwischen den Zeichen beschreibt x und j.

ú Daher wählen wir als Regressionsgleichung ein lineares Modell.