Regressionsanalyse Schritt für Schritt. Grundlagen der linearen Regression

Regressions- und Korrelationsanalyse - statistische Forschungsmethoden. Dies sind die gebräuchlichsten Methoden, um die Abhängigkeit eines Parameters von einer oder mehreren unabhängigen Variablen darzustellen.

Im Folgenden betrachten wir diese beiden unter Ökonomen sehr beliebten Analysen anhand konkreter Praxisbeispiele. Wir geben auch ein Beispiel für das Erhalten von Ergebnissen, wenn sie kombiniert werden.

Regressionsanalyse in Excel

Zeigt den Einfluss einiger Werte (unabhängig, unabhängig) auf die abhängige Variable. Zum Beispiel, wie die Zahl der erwerbstätigen Bevölkerung von der Zahl der Unternehmen, Löhne und anderen Parametern abhängt. Oder: Wie wirken sich Auslandsinvestitionen, Energiepreise etc. auf die Höhe des BIP aus?

Das Ergebnis der Analyse ermöglicht Ihnen eine Priorisierung. Und basierend auf den Hauptfaktoren, um die Entwicklung von Prioritätsbereichen vorherzusagen, zu planen und Managemententscheidungen zu treffen.

Regression passiert:

  • linear (y = a + bx);
  • parabolisch (y = a + bx + cx 2);
  • exponentiell (y = a * exp(bx));
  • Potenz (y = a*x^b);
  • hyperbolisch (y = b/x + a);
  • logarithmisch (y = b * 1n(x) + a);
  • exponentiell (y = a * b^x).

Betrachten Sie das Beispiel der Erstellung eines Regressionsmodells in Excel und der Interpretation der Ergebnisse. Nehmen wir eine lineare Regression.

Eine Aufgabe. Bei 6 Unternehmen wurden das durchschnittliche Monatsgehalt und die Anzahl der Austritte analysiert. Es ist notwendig, die Abhängigkeit der Anzahl der Rentner vom Durchschnittsgehalt zu ermitteln.

Das lineare Regressionsmodell hat folgende Form:

Y \u003d ein 0 + ein 1 x 1 + ... + ein k x k.

Dabei sind a die Regressionskoeffizienten, x die Einflussgrößen und k die Anzahl der Faktoren.

In unserem Beispiel ist Y der Indikator für gekündigte Arbeitnehmer. Der Einflussfaktor ist der Lohn (x).

Excel verfügt über integrierte Funktionen, mit denen die Parameter eines linearen Regressionsmodells berechnet werden können. Aber das Analyse-ToolPak-Add-In erledigt dies schneller.

Aktivieren Sie ein leistungsstarkes Analysetool:

Nach der Aktivierung ist das Add-on unter der Registerkarte Daten verfügbar.

Nun beschäftigen wir uns direkt mit der Regressionsanalyse.



Zunächst achten wir auf das R-Quadrat und die Koeffizienten.

R-Quadrat ist das Bestimmtheitsmaß. In unserem Beispiel sind es 0,755 oder 75,5 %. Das bedeutet, dass die berechneten Parameter des Modells die Beziehung zwischen den untersuchten Parametern zu 75,5 % erklären. Je höher das Bestimmtheitsmaß, desto besser das Modell. Gut - über 0,8. Schlecht - weniger als 0,5 (eine solche Analyse kann kaum als vernünftig angesehen werden). In unserem Beispiel - "nicht schlecht".

Der Koeffizient 64,1428 zeigt, was Y sein wird, wenn alle Variablen im betrachteten Modell gleich 0 sind. Das heißt, andere Faktoren, die nicht im Modell beschrieben sind, beeinflussen auch den Wert des analysierten Parameters.

Der Koeffizient -0,16285 zeigt die Gewichtung der Variablen X auf Y. Das heißt, das durchschnittliche Monatsgehalt in diesem Modell wirkt sich mit einer Gewichtung von -0,16285 auf die Anzahl der Aussteiger aus (dies ist ein geringer Grad an Einfluss). Das „-“-Zeichen weist auf einen negativen Effekt hin: Je höher das Gehalt, desto weniger Kündigungen. Was gerecht ist.



Korrelationsanalyse in Excel

Die Korrelationsanalyse hilft festzustellen, ob es einen Zusammenhang zwischen Indikatoren in einer oder zwei Stichproben gibt. Zum Beispiel zwischen der Betriebszeit der Maschine und den Kosten für Reparaturen, dem Preis der Ausrüstung und der Betriebsdauer, der Größe und dem Gewicht von Kindern usw.

Wenn es einen Zusammenhang gibt, dann ob eine Zunahme eines Parameters zu einer Zunahme (positive Korrelation) oder einer Abnahme (negative) des anderen führt. Die Korrelationsanalyse hilft dem Analysten festzustellen, ob der Wert eines Indikators verwendet werden kann, um den möglichen Wert eines anderen vorherzusagen.

Der Korrelationskoeffizient wird mit r bezeichnet. Variiert von +1 bis -1. Die Klassifizierung von Korrelationen für verschiedene Bereiche wird unterschiedlich sein. Wenn der Koeffizientenwert 0 ist, gibt es keine lineare Beziehung zwischen den Proben.

Überlegen Sie, wie Sie Excel verwenden, um den Korrelationskoeffizienten zu finden.

Die CORREL-Funktion wird verwendet, um die gepaarten Koeffizienten zu finden.

Aufgabe: Stellen Sie fest, ob ein Zusammenhang zwischen der Betriebszeit einer Drehmaschine und den Kosten für deren Wartung besteht.

Setzen Sie den Cursor in eine beliebige Zelle und drücken Sie die fx-Taste.

  1. Wählen Sie in der Kategorie „Statistik“ die Funktion CORREL aus.
  2. Argument "Array 1" - der erste Wertebereich - die Zeit der Maschine: A2: A14.
  3. Argument "Array 2" - der zweite Wertebereich - die Reparaturkosten: B2:B14. OK klicken.

Um die Art der Verbindung zu bestimmen, müssen Sie die absolute Zahl des Koeffizienten betrachten (jedes Tätigkeitsfeld hat seine eigene Skala).

Für die Korrelationsanalyse mehrerer Parameter (mehr als 2) ist es bequemer, "Data Analysis" (Add-on "Analysis Package") zu verwenden. In der Liste müssen Sie eine Korrelation auswählen und ein Array zuweisen. Alle.

Die resultierenden Koeffizienten werden in der Korrelationsmatrix angezeigt. Wie dieser:

Korrelations-Regressionsanalyse

In der Praxis werden diese beiden Techniken oft zusammen verwendet.

Beispiel:


Jetzt sind die Daten der Regressionsanalyse sichtbar.

In der statistischen Modellierung ist die Regressionsanalyse eine Studie, die verwendet wird, um die Beziehung zwischen Variablen zu bewerten. Diese mathematische Methode umfasst viele andere Methoden zur Modellierung und Analyse mehrerer Variablen, wenn der Fokus auf der Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen liegt. Genauer gesagt hilft Ihnen die Regressionsanalyse zu verstehen, wie sich der typische Wert der abhängigen Variablen ändert, wenn sich eine der unabhängigen Variablen ändert, während die anderen unabhängigen Variablen unverändert bleiben.

In allen Fällen ist der Zielwert eine Funktion der unabhängigen Variablen und wird als Regressionsfunktion bezeichnet. In der Regressionsanalyse ist es auch interessant, die Veränderung der abhängigen Variablen als Funktion der Regression zu charakterisieren, die durch eine Wahrscheinlichkeitsverteilung beschrieben werden kann.

Aufgaben der Regressionsanalyse

Diese statistische Forschungsmethode wird häufig für Prognosen verwendet, wo ihre Verwendung einen erheblichen Vorteil hat, aber manchmal zu Illusionen oder falschen Beziehungen führen kann. Daher wird empfohlen, sie in dieser Frage vorsichtig zu verwenden, da beispielsweise Korrelation nicht bedeutet Verursachung.

Zur Durchführung von Regressionsanalysen wurde eine große Anzahl von Verfahren entwickelt, wie z. B. lineare und gewöhnliche Regression der kleinsten Quadrate, die parametrisch sind. Ihr Wesen besteht darin, dass die Regressionsfunktion in Bezug auf eine endliche Anzahl unbekannter Parameter definiert ist, die aus den Daten geschätzt werden. Die nichtparametrische Regression ermöglicht es, dass ihre Funktion in einem bestimmten Satz von Funktionen liegt, die unendlich dimensional sein können.

Als statistische Forschungsmethode ist die Regressionsanalyse in der Praxis abhängig von der Form des Datengenerierungsprozesses und seinem Verhältnis zum Regressionsansatz. Da die wahre Form der Datenprozessgenerierung typischerweise eine unbekannte Zahl ist, hängt die Datenregressionsanalyse oft bis zu einem gewissen Grad von Annahmen über den Prozess ab. Diese Annahmen sind manchmal überprüfbar, wenn genügend Daten verfügbar sind. Regressionsmodelle sind oft nützlich, selbst wenn die Annahmen leicht verletzt werden, obwohl sie möglicherweise nicht ihre beste Leistung erbringen.

Im engeren Sinne kann sich Regression speziell auf die Schätzung kontinuierlicher Antwortvariablen beziehen, im Gegensatz zu den diskreten Antwortvariablen, die zur Klassifizierung verwendet werden. Der Fall einer kontinuierlichen Ausgabevariablen wird auch als metrische Regression bezeichnet, um ihn von verwandten Problemen zu unterscheiden.

Geschichte

Die früheste Form der Regression ist die bekannte Methode der kleinsten Quadrate. Es wurde 1805 von Legendre und 1809 von Gauss veröffentlicht. Legendre und Gauss wendeten die Methode auf das Problem an, aus astronomischen Beobachtungen die Umlaufbahnen von Körpern um die Sonne (hauptsächlich Kometen, aber später auch neu entdeckte Kleinplaneten) zu bestimmen. Gauß veröffentlichte 1821 eine Weiterentwicklung der Theorie der kleinsten Quadrate, einschließlich einer Variante des Gauß-Markov-Theorems.

Der Begriff „Regression“ wurde im 19. Jahrhundert von Francis Galton geprägt, um ein biologisches Phänomen zu beschreiben. Unter dem Strich geht das Wachstum der Nachkommen vom Wachstum der Vorfahren in der Regel auf den normalen Durchschnitt zurück. Für Galton hatte Regression nur diese biologische Bedeutung, aber später wurde seine Arbeit von Udni Yoley und Karl Pearson aufgegriffen und in einen allgemeineren statistischen Kontext gebracht. In der Arbeit von Yule und Pearson wird die gemeinsame Verteilung der Antwortvariablen und der erklärenden Variablen als Gaußsche betrachtet. Diese Annahme wurde von Fischer in den Arbeiten von 1922 und 1925 zurückgewiesen. Fisher schlug vor, dass die bedingte Verteilung der Antwortvariablen eine Gauss-Verteilung ist, die gemeinsame Verteilung dies jedoch nicht sein muss. In dieser Hinsicht kommt Fishers Vorschlag der Formulierung von Gauß von 1821 näher. Vor 1970 dauerte es manchmal bis zu 24 Stunden, bis das Ergebnis einer Regressionsanalyse vorlag.

Methoden der Regressionsanalyse sind weiterhin ein Bereich aktiver Forschung. In den letzten Jahrzehnten wurden neue Methoden zur robusten Regression entwickelt; Regressionen mit korrelierten Antworten; Regressionsmethoden, die verschiedene Arten fehlender Daten berücksichtigen; nichtparametrische Regression; Bayessche Regressionsmethoden; Regressionen, bei denen Prädiktorvariablen mit Fehlern gemessen werden; Regressionen mit mehr Prädiktoren als Beobachtungen und kausale Schlussfolgerungen mit Regression.

Regressionsmodelle

Regressionsanalysemodelle umfassen die folgenden Variablen:

  • Unbekannte Parameter, als Beta bezeichnet, die ein Skalar oder ein Vektor sein können.
  • Unabhängige Variablen, X.
  • Abhängige Variablen, Y.

In verschiedenen Bereichen der Wissenschaft, in denen die Regressionsanalyse angewendet wird, werden anstelle von abhängigen und unabhängigen Variablen andere Begriffe verwendet, aber in allen Fällen bezieht das Regressionsmodell Y auf eine Funktion von X und β.

Die Näherung wird normalerweise als E (Y | X) = F (X, β) formuliert. Um eine Regressionsanalyse durchzuführen, muss die Form der Funktion f bestimmt werden. Seltener basiert es auf Wissen über die Beziehung zwischen Y und X, das nicht auf Daten beruht. Wenn ein solches Wissen nicht verfügbar ist, wird eine flexible oder bequeme Form F gewählt.

Abhängige Variable Y

Nehmen wir nun an, dass der Vektor unbekannter Parameter β die Länge k hat. Um eine Regressionsanalyse durchzuführen, muss der Benutzer Informationen über die abhängige Variable Y bereitstellen:

  • Wenn N Datenpunkte der Form (Y, X) beobachtet werden, wobei N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Wenn genau N = K beobachtet wird und die Funktion F linear ist, dann kann die Gleichung Y = F(X, β) genau gelöst werden, nicht näherungsweise. Dies läuft darauf hinaus, einen Satz von N Gleichungen mit N Unbekannten (den Elementen von β) zu lösen, der eine eindeutige Lösung hat, solange X linear unabhängig ist. Wenn F nichtlinear ist, kann es sein, dass keine Lösung existiert oder dass es viele Lösungen gibt.
  • Die häufigste Situation ist, wenn es N > Punkte zu den Daten gibt. In diesem Fall enthalten die Daten genügend Informationen, um den eindeutigen Wert für β zu schätzen, der am besten zu den Daten passt, und das Regressionsmodell kann, wenn es auf die Daten angewendet wird, als ein außer Kraft gesetztes System in β angesehen werden.

Im letzteren Fall bietet die Regressionsanalyse Werkzeuge für:

  • Finden einer Lösung für unbekannte Parameter β, die beispielsweise den Abstand zwischen dem gemessenen und vorhergesagten Wert von Y minimiert.
  • Unter bestimmten statistischen Annahmen verwendet die Regressionsanalyse überschüssige Informationen, um statistische Informationen über die unbekannten Parameter β und die vorhergesagten Werte der abhängigen Variablen Y bereitzustellen.

Erforderliche Anzahl unabhängiger Messungen

Stellen Sie sich ein Regressionsmodell vor, das drei unbekannte Parameter hat: β 0 , β 1 und β 2 . Nehmen wir an, dass der Experimentator 10 Messungen mit demselben Wert der unabhängigen Variablen des Vektors X durchführt. In diesem Fall ergibt die Regressionsanalyse keinen eindeutigen Satz von Werten. Das Beste, was Sie tun können, ist, den Mittelwert und die Standardabweichung der abhängigen Variablen Y zu schätzen. In ähnlicher Weise können Sie durch Messen von zwei verschiedenen Werten von X genügend Daten für eine Regression mit zwei Unbekannten erhalten, aber nicht für drei oder mehr Unbekannte .

Wenn die Messungen des Experimentators bei drei verschiedenen Werten der unabhängigen Vektorvariablen X durchgeführt würden, würde die Regressionsanalyse einen eindeutigen Satz von Schätzungen für die drei unbekannten Parameter in β liefern.

Im Fall der allgemeinen linearen Regression entspricht die obige Aussage der Forderung, dass die Matrix X T X invertierbar ist.

Statistische Annahmen

Ist die Anzahl der Messungen N größer als die Anzahl der unbekannten Parameter k und die Messfehler ε i , so wird in der Regel die in den Messungen enthaltene überschüssige Information verteilt und für statistische Vorhersagen über unbekannte Parameter verwendet. Dieser Informationsüberschuss wird Freiheitsgrad der Regression genannt.

Zugrundeliegende Annahmen

Zu den klassischen Annahmen für die Regressionsanalyse gehören:

  • Das Abtasten ist repräsentativ für die Inferenzvorhersage.
  • Der Fehler ist eine Zufallsvariable mit einem Mittelwert von Null, der von den erklärenden Variablen abhängig ist.
  • Die unabhängigen Variablen werden fehlerfrei gemessen.
  • Als unabhängige Variablen (Prädiktoren) sind sie linear unabhängig, d. h. es ist nicht möglich, einen Prädiktor als Linearkombination der anderen auszudrücken.
  • Die Fehler sind unkorreliert, das heißt, die Fehlerkovarianzmatrix der Diagonalen und jedes Nicht-Null-Element ist die Varianz des Fehlers.
  • Die Fehlervarianz ist über Beobachtungen hinweg konstant (Homoskedastizität). Wenn nicht, dann können gewichtete kleinste Quadrate oder andere Verfahren verwendet werden.

Diese hinreichenden Bedingungen für die Schätzung der kleinsten Quadrate haben die erforderlichen Eigenschaften, insbesondere bedeuten diese Annahmen, dass die Parameterschätzungen objektiv, konsistent und effizient sind, insbesondere wenn sie in der Klasse der linearen Schätzungen berücksichtigt werden. Es ist wichtig zu beachten, dass die tatsächlichen Daten selten die Bedingungen erfüllen. Das heißt, die Methode wird auch dann verwendet, wenn die Annahmen nicht korrekt sind. Abweichungen von Annahmen können manchmal als Maß dafür verwendet werden, wie nützlich das Modell ist. Viele dieser Annahmen können in fortgeschritteneren Methoden gelockert werden. Statistische Analyseberichte umfassen typischerweise die Analyse von Tests anhand von Stichprobendaten und die Methodik für die Nützlichkeit des Modells.

Darüber hinaus beziehen sich Variablen in einigen Fällen auf an Punktstellen gemessene Werte. Es kann räumliche Trends und räumliche Autokorrelationen in Variablen geben, die gegen statistische Annahmen verstoßen. Die geografisch gewichtete Regression ist die einzige Methode, die mit solchen Daten umgeht.

Bei der linearen Regression besteht das Merkmal darin, dass die abhängige Variable Y i eine lineare Kombination von Parametern ist. Beispielsweise verwendet die n-Punkt-Modellierung bei einer einfachen linearen Regression eine unabhängige Variable, x i , und zwei Parameter, β 0 und β 1 .

Bei der multiplen linearen Regression gibt es mehrere unabhängige Variablen oder deren Funktionen.

Bei zufälliger Stichprobenziehung aus einer Grundgesamtheit ermöglichen es ihre Parameter, eine Stichprobe eines linearen Regressionsmodells zu erhalten.

In diesem Aspekt ist die Methode der kleinsten Quadrate die beliebteste. Es liefert Parameterschätzungen, die die Summe der Quadrate der Residuen minimieren. Diese Art der Minimierung (die für die lineare Regression typisch ist) dieser Funktion führt zu einem Satz normaler Gleichungen und einem Satz linearer Gleichungen mit Parametern, die gelöst werden, um Parameterschätzungen zu erhalten.

Unter der weiteren Annahme, dass sich Populationsfehler im Allgemeinen ausbreiten, kann der Forscher diese Schätzungen von Standardfehlern verwenden, um Konfidenzintervalle zu erstellen und Hypothesentests über seine Parameter durchzuführen.

Nichtlineare Regressionsanalyse

Ein Beispiel, bei dem die Funktion in Bezug auf die Parameter nicht linear ist, zeigt an, dass die Summe der Quadrate mit einem iterativen Verfahren minimiert werden sollte. Dies führt zu vielen Komplikationen, die die Unterschiede zwischen linearen und nichtlinearen Methoden der kleinsten Quadrate definieren. Folglich sind die Ergebnisse der Regressionsanalyse bei Verwendung einer nichtlinearen Methode manchmal unvorhersehbar.

Berechnung von Trennschärfe und Stichprobenumfang

Hier gibt es in der Regel keine einheitlichen Methoden bezüglich der Anzahl der Beobachtungen im Vergleich zur Anzahl der unabhängigen Variablen im Modell. Die erste Regel wurde von Dobra und Hardin vorgeschlagen und sieht aus wie N = t^n, wobei N die Stichprobengröße, n die Anzahl der erklärenden Variablen und t die Anzahl der Beobachtungen ist, die erforderlich sind, um die gewünschte Genauigkeit zu erreichen, falls das Modell dies getan hätte nur eine erklärende Variable. Beispielsweise erstellt ein Forscher ein lineares Regressionsmodell mit einem Datensatz, der 1000 Patienten (N) enthält. Wenn der Forscher entscheidet, dass fünf Beobachtungen erforderlich sind, um die Linie (m) genau zu bestimmen, beträgt die maximale Anzahl an erklärenden Variablen, die das Modell unterstützen kann, 4.

Andere Methoden

Obwohl die Parameter eines Regressionsmodells normalerweise mit der Methode der kleinsten Quadrate geschätzt werden, gibt es andere Methoden, die viel seltener verwendet werden. Dies sind beispielsweise die folgenden Methoden:

  • Bayessche Methoden (z. B. die Bayessche Methode der linearen Regression).
  • Eine prozentuale Regression, die für Situationen verwendet wird, in denen eine Verringerung der prozentualen Fehler als angemessener erachtet wird.
  • Die kleinsten absoluten Abweichungen, die bei Vorhandensein von Ausreißern robuster sind und zu einer Quantilregression führen.
  • Nichtparametrische Regression, die eine große Anzahl von Beobachtungen und Berechnungen erfordert.
  • Die Distanz der Lernmetrik, die bei der Suche nach einer sinnvollen Distanzmetrik im gegebenen Eingaberaum gelernt wird.

Software

Alle wichtigen statistischen Softwarepakete werden unter Verwendung der Regressionsanalyse der kleinsten Quadrate durchgeführt. Einfache lineare Regression und multiple Regressionsanalyse können in einigen Tabellenkalkulationsprogrammen sowie einigen Taschenrechnern verwendet werden. Während viele statistische Softwarepakete verschiedene Arten von nichtparametrischer und robuster Regression durchführen können, sind diese Methoden weniger standardisiert; Unterschiedliche Softwarepakete implementieren unterschiedliche Methoden. Spezielle Regressionssoftware wurde für den Einsatz in Bereichen wie Umfrageanalyse und Neuroimaging entwickelt.

Bei Vorliegen einer Korrelation zwischen Faktor und resultierenden Zeichen müssen Ärzte oft bestimmen, um welchen Betrag sich der Wert eines Zeichens ändern kann, wenn ein anderer durch eine allgemein akzeptierte oder vom Forscher selbst festgelegte Maßeinheit geändert wird.

Wie verändert sich beispielsweise das Körpergewicht von Schulkindern der 1. Klasse (Mädchen oder Jungen), wenn ihre Körpergröße um 1 cm zunimmt?Für diese Zwecke wird die Methode der Regressionsanalyse verwendet.

Am häufigsten wird die Methode der Regressionsanalyse verwendet, um normative Skalen und Standards für die körperliche Entwicklung zu entwickeln.

  1. Definition von Regression. Regression ist eine Funktion, die es ermöglicht, basierend auf dem Durchschnittswert eines Attributs, den Durchschnittswert eines anderen Attributs zu bestimmen, das mit dem ersten korreliert.

    Dazu werden der Regressionskoeffizient und eine Reihe weiterer Parameter verwendet. Sie können beispielsweise die Anzahl der Erkältungen im Durchschnitt bei bestimmten Werten der durchschnittlichen monatlichen Lufttemperatur in der Herbst-Winter-Periode berechnen.

  2. Definition des Regressionskoeffizienten. Der Regressionskoeffizient ist der absolute Wert, um den sich der Wert eines Attributs im Durchschnitt ändert, wenn sich ein anderes ihm zugeordnetes Attribut um eine bestimmte Maßeinheit ändert.
  3. Regressionskoeffizientenformel. R. y / x \u003d r. xy x (σ y / σ x)
    wo R y / x - Regressionskoeffizient;
    r xy - Korrelationskoeffizient zwischen Merkmalen x und y;
    (σ y und σ x) - Standardabweichungen der Merkmale x und y.

    In unserem Beispiel ;
    σ x = 4,6 (Standardabweichung der Lufttemperatur in der Herbst-Winter-Periode;
    σ y = 8,65 (Standardabweichung der Anzahl ansteckender Erkältungen).
    Somit ist R y/x der Regressionskoeffizient.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, d.h. Bei einer Abnahme der durchschnittlichen monatlichen Lufttemperatur (x) um 1 Grad ändert sich die durchschnittliche Anzahl ansteckender Erkältungen (y) in der Herbst-Winter-Periode um 1,8 Fälle.

  4. Regressionsgleichung. y \u003d M y + R y / x (x - M x)
    wobei y der Durchschnittswert des Attributs ist, der bestimmt werden sollte, wenn sich der Durchschnittswert eines anderen Attributs (x) ändert;
    x - bekannter Durchschnittswert eines anderen Merkmals;
    R y/x - Regressionskoeffizient;
    M x, M y - bekannte Durchschnittswerte der Merkmale x und y.

    Beispielsweise kann die durchschnittliche Anzahl ansteckender Erkältungen (y) ohne besondere Messungen bei einem beliebigen Durchschnittswert der durchschnittlichen monatlichen Lufttemperatur (x) bestimmt werden. Also, wenn x \u003d - 9 °, R y / x \u003d 1,8 Krankheiten, M x \u003d -7 °, M y \u003d 20 Krankheiten, dann y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 Erkrankungen.
    Diese Gleichung wird im Fall einer geradlinigen Beziehung zwischen zwei Merkmalen (x und y) angewendet.

  5. Zweck der Regressionsgleichung. Die Regressionsgleichung wird verwendet, um die Regressionslinie zu zeichnen. Letzteres erlaubt es, ohne besondere Messungen einen beliebigen Durchschnittswert (y) eines Attributs zu bestimmen, wenn sich der Wert (x) eines anderen Attributs ändert. Basierend auf diesen Daten wird ein Diagramm erstellt - Regressionslinie, die verwendet werden kann, um die durchschnittliche Anzahl von Erkältungen bei jedem Wert der durchschnittlichen Monatstemperatur innerhalb des Bereichs zwischen den berechneten Werten der Anzahl von Erkältungen zu bestimmen.
  6. Regressionssigma (Formel).
    wobei σ Ru/x - Sigma (Standardabweichung) der Regression;
    σ y ist die Standardabweichung des Merkmals y;
    r xy - Korrelationskoeffizient zwischen Merkmalen x und y.

    Wenn also σ y die Standardabweichung der Anzahl der Erkältungen = 8,65 ist; r xy - der Korrelationskoeffizient zwischen der Anzahl der Erkältungen (y) und der durchschnittlichen monatlichen Lufttemperatur in der Herbst-Winter-Periode (x) beträgt dann - 0,96

  7. Zweck der Sigma-Regression. Gibt eine Eigenschaft des Maßes der Diversität des resultierenden Merkmals (y) an.

    Zum Beispiel charakterisiert es die Vielfalt der Anzahl von Erkältungen bei einem bestimmten Wert der durchschnittlichen monatlichen Lufttemperatur in der Herbst-Winter-Periode. Die durchschnittliche Anzahl von Erkältungen bei Lufttemperatur x 1 \u003d -6 ° kann also zwischen 15,78 Krankheiten und 20,62 Krankheiten liegen.
    Bei x 2 = -9° kann die durchschnittliche Anzahl von Erkältungen von 21,18 Erkrankungen bis 26,02 Erkrankungen usw. reichen.

    Das Regressionssigma wird beim Aufbau einer Regressionsskala verwendet, die die Abweichung der Werte des effektiven Attributs von seinem auf der Regressionslinie aufgetragenen Durchschnittswert widerspiegelt.

  8. Erforderliche Daten zur Berechnung und Darstellung der Regressionsskala
    • Regressionskoeffizient - Ry/x;
    • regressionsgleichung - y \u003d M y + R y / x (x-M x);
    • Regressionssigma - σ Rx/y
  9. Die Reihenfolge der Berechnungen und die grafische Darstellung der Regressionsskala.
    • Bestimmen Sie den Regressionskoeffizienten nach der Formel (siehe Absatz 3). Beispielsweise soll ermittelt werden, wie stark sich das durchschnittliche Körpergewicht (in einem bestimmten Alter je nach Geschlecht) verändert, wenn sich die durchschnittliche Körpergröße um 1 cm ändert.
    • Bestimmen Sie gemäß der Formel der Regressionsgleichung (siehe Absatz 4) den Durchschnitt, z. B. das Körpergewicht (y, y 2, y 3 ...) * für einen bestimmten Wachstumswert (x, x 2, x 3 ...) .
      ________________
      * Der Wert von "y" sollte für mindestens drei bekannte Werte von "x" berechnet werden.

      Gleichzeitig sind die Durchschnittswerte von Körpergewicht und Körpergröße (M x und M y) für ein bestimmtes Alter und Geschlecht bekannt

    • Berechnen Sie das Sigma der Regression, kennen Sie die entsprechenden Werte von σ y und r xy und setzen Sie ihre Werte in die Formel ein (siehe Absatz 6).
    • basierend auf den bekannten Werten x 1, x 2, x 3 und ihren entsprechenden Durchschnittswerten y 1, y 2 y 3, sowie dem kleinsten (y - σ ru / x) und größten (y + σ ru / x) Werte (y) konstruieren eine Regressionsskala.

      Für eine grafische Darstellung der Regressionsskala werden zunächst die Werte x, x 2 , x 3 (y-Achse) auf der Grafik markiert, d.h. eine Regressionsgerade wird beispielsweise die Abhängigkeit des Körpergewichts (y) von der Körpergröße (x) aufgebaut.

      Dann werden an den entsprechenden Stellen y 1 , y 2 , y 3 die Zahlenwerte des Regressions-Sigmas markiert, d.h. Finden Sie in der Grafik die kleinsten und größten Werte von y 1 , y 2 , y 3 .

  10. Praktische Anwendung der Regressionsskala. Normative Skalen und Standards werden entwickelt, insbesondere für die körperliche Entwicklung. Nach der Normskala ist eine individuelle Einschätzung der Entwicklung von Kindern möglich. Gleichzeitig wird die körperliche Entwicklung als harmonisch bewertet, wenn beispielsweise bei einer bestimmten Körpergröße das Körpergewicht des Kindes innerhalb einer Sigma-Regression auf die durchschnittlich berechnete Einheit des Körpergewichts liegt - (y) für eine bestimmte Größe (x) (y ± 1 σRy / x).

    Als disharmonisch in Bezug auf das Körpergewicht gilt die körperliche Entwicklung, wenn das Körpergewicht des Kindes bei einer bestimmten Körpergröße innerhalb des zweiten Regressionssigmas liegt: (y ± 2 σ Ry/x)

    Die körperliche Entwicklung wird sowohl aufgrund von Über- als auch Untergewicht stark disharmonisch sein, wenn das Körpergewicht für eine bestimmte Größe innerhalb des dritten Sigmas der Regression liegt (y ± 3 σ Ry/x).

Aus den Ergebnissen einer statistischen Untersuchung der körperlichen Entwicklung von 5-jährigen Jungen ist bekannt, dass ihre durchschnittliche Größe (x) 109 cm und ihr durchschnittliches Körpergewicht (y) 19 kg beträgt. Der Korrelationskoeffizient zwischen Körpergröße und Körpergewicht beträgt +0,9, Standardabweichungen sind in der Tabelle dargestellt.

Erforderlich:

  • den Regressionskoeffizienten berechnen;
  • Bestimmen Sie mithilfe der Regressionsgleichung das erwartete Körpergewicht von 5-jährigen Jungen mit einer Körpergröße von x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • Berechnen Sie das Regressions-Sigma, erstellen Sie eine Regressionsskala, stellen Sie die Ergebnisse ihrer Lösung grafisch dar;
  • die entsprechenden Schlussfolgerungen ziehen.

Der Zustand des Problems und die Ergebnisse seiner Lösung sind in der zusammenfassenden Tabelle dargestellt.

Tabelle 1

Bedingungen des Problems Problemlösungsergebnisse
Regressionsgleichung Sigma-Regression Regressionsskala (erwartetes Körpergewicht (in kg))
M σ r xy Ry/x X Bei σRx/y y - σ Rу/х y + σ Ró/х
1 2 3 4 5 6 7 8 9 10
Höhe (x) 109cm ± 4,4 cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Körpergewicht (y) 19 kg ± 0,8 kg 110cm 19,16 kg 18,81 kg 19,51 kg
120cm 20,76 kg 20,41 kg 21,11 kg

Lösung.

Fazit. So ermöglicht Ihnen die Regressionsskala innerhalb der errechneten Werte des Körpergewichts, dieses für jeden anderen Wachstumswert zu bestimmen oder die individuelle Entwicklung des Kindes zu beurteilen. Stellen Sie dazu die Senkrechte auf die Regressionsgeraden wieder her.

  1. Wlassow V. V. Epidemiologie. - M.: GEOTAR-MED, 2004. - 464 S.
  2. Lisitsyn Yu.P. Öffentliche Gesundheit und Gesundheitswesen. Lehrbuch für Gymnasien. - M.: GEOTAR-MED, 2007. - 512 S.
  3. Medik V.A., Yuriev V.K. Eine Reihe von Vorlesungen über öffentliche Gesundheit und Gesundheitsfürsorge: Teil 1. Öffentliche Gesundheit. - M.: Medizin, 2003. - 368 S.
  4. Minyaev V.A., Vishnyakov N.I. und andere Sozialmedizin und Gesundheitsorganisation (Leitfaden in 2 Bänden). - St. Petersburg, 1998. -528 p.
  5. Kucherenko VZ, Agarkov N.M. und andere Sozialhygiene und Organisation des Gesundheitswesens (Tutorial) - Moskau, 2000. - 432 p.
  6. S. Glantz. Medizinisch-biologische Statistik. Pro aus dem Englischen. - M., Praxis, 1998. - 459 S.

Nachdem die Korrelationsanalyse das Vorhandensein statistischer Beziehungen zwischen Variablen aufgedeckt und den Grad ihrer Enge bewertet hat, fahren sie normalerweise mit der mathematischen Beschreibung einer bestimmten Art von Abhängigkeit unter Verwendung der Regressionsanalyse fort. Zu diesem Zweck wird eine Klasse von Funktionen ausgewählt, die den effektiven Indikator y und die Argumente x 1, x 2, ..., x mit den aussagekräftigsten Argumenten in Beziehung setzt, werden Schätzungen unbekannter Werte der Parameter der Verknüpfung ausgewählt Gleichung werden berechnet und die Eigenschaften der resultierenden Gleichung werden analysiert.

Die Funktion f (x 1, x 2, ..., x k), die die Abhängigkeit des Mittelwerts des effektiven Merkmals y von den gegebenen Werten der Argumente beschreibt, wird als Regressionsfunktion (Gleichung) bezeichnet. Der Begriff "Regression" (lat. - Regression - Rückzug, Rückkehr zu etwas) wurde von dem englischen Psychologen und Anthropologen F. Galton eingeführt und ist ausschließlich mit der Spezifik eines der ersten konkreten Beispiele verbunden, in denen dieser Begriff verwendet wurde. So stellte F. Galton bei der Verarbeitung statistischer Daten im Zusammenhang mit der Analyse der Vererbung des Wachstums fest, dass, wenn Väter von der durchschnittlichen Größe aller Väter um x Zoll abweichen, ihre Söhne um weniger als x von der durchschnittlichen Größe aller Söhne abweichen Zoll. Der aufgedeckte Trend wurde "Regression to the mean state" genannt. Seitdem ist der Begriff „Regression“ in der statistischen Literatur weit verbreitet, obwohl er in vielen Fällen den Begriff der statistischen Abhängigkeit nicht genau charakterisiert.

Für eine genaue Beschreibung der Regressionsgleichung ist es notwendig, das Verteilungsgesetz des effektiven Indikators y zu kennen. In der statistischen Praxis muss man sich meist auf die Suche nach geeigneten Näherungen für die unbekannte wahre Regressionsfunktion beschränken, da der Forscher keine genaue Kenntnis des Bedingungsgesetzes der Wahrscheinlichkeitsverteilung des analysierten Ergebnisindikators y für gegebene Werte hat des Arguments x.

Betrachten Sie die Beziehung zwischen wahrem f(x) = M(y1x), Modellregression? und der y-Score der Regression. Der effektive Indikator y sei mit dem Argument x durch das Verhältnis verbunden:

wobei - e eine Zufallsvariable mit einem Normalverteilungsgesetz ist, mit Me \u003d 0 und D e \u003d y 2. Die wahre Regressionsfunktion lautet in diesem Fall: f(x) = M(y/x) = 2x 1,5.

Angenommen, wir kennen die genaue Form der wahren Regressionsgleichung nicht, aber wir haben neun Beobachtungen an einer zweidimensionalen Zufallsvariablen, die durch das Verhältnis yi = 2x1,5 + e in Beziehung steht und in Abb. eines

Abbildung 1 - Wechselseitige Anordnung von Wahrheit f (x) und theoretisch? Regressionsmodelle

Lage der Punkte in Abb. 1 ermöglicht es Ihnen, sich auf die Klasse der linearen Abhängigkeiten der Form zu beschränken? = bei 0 + bei 1 x. Unter Verwendung der Methode der kleinsten Quadrate finden wir eine Schätzung der Regressionsgleichung y = b 0 + b 1 x. Zum Vergleich in Abb. 1 zeigt Diagramme der wahren Regressionsfunktion y \u003d 2x 1,5, der theoretischen approximativen Regressionsfunktion? = bei 0 + bei 1 x .

Da wir bei der Wahl der Klasse der Regressionsfunktion einen Fehler gemacht haben, was in der Praxis der statistischen Forschung durchaus üblich ist, werden sich unsere statistischen Schlussfolgerungen und Schätzungen als fehlerhaft erweisen. Und ganz gleich, wie sehr wir das Beobachtungsvolumen erhöhen, unsere Stichprobenschätzung von y wird nicht nahe an der wahren Regressionsfunktion f(x) liegen. Wenn wir die Klasse der Regressionsfunktionen richtig gewählt haben, dann ist die Ungenauigkeit in der Beschreibung von f (x) mit? kann nur durch die begrenzte Stichprobengröße erklärt werden.

Um den bedingten Wert des effektiven Indikators y(x) und der unbekannten Regressionsfunktion f(x) = M(y/x) aus den anfänglichen statistischen Daten bestmöglich wiederherzustellen, werden am häufigsten die folgenden Angemessenheitskriterien (Verlustfunktionen) verwendet .

Methode der kleinsten Quadrate. Demnach wird die quadrierte Abweichung der beobachteten Werte des effektiven Indikators y, (i = 1,2,...,n) von den Modellwerten minimiert. = f(x i), wobei x i der Wert des Vektors der Argumente in der i-ten Beobachtung ist:

Methode der kleinsten Module. Demnach wird die Summe der absoluten Abweichungen der beobachteten Werte des effektiven Indikators von den modularen Werten minimiert. Und wir bekommen = f(x i), mittlere absolute Medianregression? |y i - f(х i)| > min.

Die Regressionsanalyse ist eine Methode der statistischen Analyse der Abhängigkeit einer Zufallsvariablen y von Variablen x j = (j = 1,2, ..., k), die in der Regressionsanalyse als Nicht-Zufallsvariablen betrachtet werden, unabhängig vom wahren Verteilungsgesetz xj.

Üblicherweise wird angenommen, dass die Zufallsvariable y ein Normalverteilungsgesetz mit einem bedingten mathematischen Erwartungswert y hat, der eine Funktion der Argumente x/ (/ = 1, 2, ..., k) und einer davon unabhängigen Konstante ist Argumente, Varianz y 2 .

Im Allgemeinen hat das lineare Modell der Regressionsanalyse die Form:

Y = Y k j=0 in j c j(x 1 , x 2 . . .. ,x k)+E

wobei c j eine Funktion seiner Variablen ist – x 1 , x 2 . . .. ,x k , E ist eine Zufallsvariable mit mathematischer Erwartung Null und Varianz y 2 .

Bei der Regressionsanalyse wird die Art der Regressionsgleichung basierend auf der physikalischen Natur des untersuchten Phänomens und den Beobachtungsergebnissen ausgewählt.

Schätzungen unbekannter Parameter der Regressionsgleichung werden normalerweise durch die Methode der kleinsten Quadrate gefunden. Nachfolgend werden wir näher auf dieses Problem eingehen.

Zweidimensionale lineare Regressionsgleichung. Angenommen, basierend auf der Analyse des untersuchten Phänomens wird angenommen, dass im "Durchschnitt" y eine lineare Funktion von x hat, d. H. Es gibt eine Regressionsgleichung

y \u003d M (y / x) \u003d bei 0 + bei 1 x)

wobei M(y1x) die bedingte mathematische Erwartung einer Zufallsvariablen y für ein gegebenes x ist; bei 0 und bei 1 - unbekannte Parameter der Allgemeinbevölkerung, die aus den Ergebnissen von Stichprobenbeobachtungen geschätzt werden sollten.

Angenommen, um die Parameter bei 0 und bei 1 zu schätzen, wird eine Stichprobe der Größe n aus einer zweidimensionalen Grundgesamtheit (x, y) entnommen, wobei (x, y,) das Ergebnis der i-ten Beobachtung (i = 1, 2, ..., n) . In diesem Fall hat das Regressionsanalysemodell die Form:

y j = bei 0 + bei 1 x+e j .

wobei e j .- unabhängige normalverteilte Zufallsvariablen mit null mathematischer Erwartung und Varianz y 2 , d.h. M e j . = 0;

D e j .= y 2 für alle i = 1, 2,..., n.

Nach der Methode der kleinsten Quadrate sollte man als Schätzungen der unbekannten Parameter bei 0 und bei 1 solche Werte der Stichprobenmerkmale b 0 und b 1 nehmen, die die Summe der quadratischen Abweichungen der Werte des Ergebnisses minimieren Merkmal y i aus der bedingten mathematischen Erwartung? ich

Wir werden die Methodik zur Bestimmung des Einflusses von Marketingmerkmalen auf den Gewinn eines Unternehmens am Beispiel von siebzehn typischen Unternehmen mit durchschnittlicher Größe und Indikatoren der Wirtschaftstätigkeit betrachten.

Bei der Lösung des Problems wurden die folgenden Merkmale berücksichtigt, die als Ergebnis einer Fragebogenerhebung als die wichtigsten (wichtigsten) identifiziert wurden:

* innovative Tätigkeit des Unternehmens;

* Planung der Produktpalette;

* Gestaltung der Preispolitik;

* Öffentlichkeitsarbeit;

* Marketingsystem;

* Mitarbeiteranreizsystem.

Auf der Grundlage eines Faktorvergleichssystems wurden quadratische Nachbarschaftsmatrizen erstellt, in denen die Werte der relativen Prioritäten für jeden Faktor berechnet wurden: Innovationstätigkeit des Unternehmens, Planung der Produktpalette, Preispolitik, Werbung, Öffentlichkeitsarbeit, Vertriebssystem, Mitarbeiteranreizsystem.

Prioritätseinschätzungen für den Faktor „Öffentlichkeitsbeziehungen“ ergaben sich aus einer Befragung von Fachleuten des Unternehmens. Folgende Bezeichnungen werden akzeptiert: > (besser), > (besser oder gleich), = (gleich),< (хуже или одинаково), <

Als nächstes wurde das Problem einer umfassenden Bewertung des Marketingniveaus des Unternehmens gelöst. Bei der Berechnung des Indikators wurde die Signifikanz (Gewicht) der betrachteten Besonderheiten bestimmt und das Problem der linearen Faltung einzelner Indikatoren gelöst. Die Datenverarbeitung erfolgte nach speziell entwickelten Programmen.

Als nächstes wird eine umfassende Bewertung des Marketingniveaus des Unternehmens berechnet - der Marketingkoeffizient, der in Tabelle 1 eingetragen ist. Darüber hinaus enthält die obige Tabelle Indikatoren, die das Unternehmen als Ganzes charakterisieren. Die Daten in der Tabelle werden für die Regressionsanalyse verwendet. Das Ergebnis ist Gewinn. Neben dem Marketingkoeffizienten wurden die folgenden Indikatoren als Faktorzeichen verwendet: das Volumen der Bruttoleistung, die Kosten des Anlagevermögens, die Anzahl der Mitarbeiter, der Spezialisierungskoeffizient.

Tabelle 1 – Anfangsdaten für die Regressionsanalyse


Basierend auf den Daten in der Tabelle und auf der Grundlage von Faktoren mit den signifikantesten Werten der Korrelationskoeffizienten wurden Regressionsfunktionen der Abhängigkeit des Gewinns von Faktoren erstellt.

Die Regressionsgleichung hat in unserem Fall die Form:

Die Koeffizienten der Regressionsgleichung sprechen über den quantitativen Einfluss der oben diskutierten Faktoren auf die Höhe des Gewinns. Sie zeigen, um wie viel tausend Rubel sich sein Wert ändert, wenn sich das Vorzeichen des Faktors um eine Einheit ändert. Wie aus der Gleichung hervorgeht, führt eine Erhöhung des Marketing-Mix-Verhältnisses um eine Einheit zu einer Gewinnsteigerung um 1547,7 Tausend Rubel. Dies deutet darauf hin, dass in der Verbesserung der Marketingaktivitäten ein enormes Potenzial zur Verbesserung der wirtschaftlichen Leistungsfähigkeit von Unternehmen liegt.

Bei der Untersuchung der Marketingeffektivität ist das interessanteste und wichtigste Faktormerkmal der X5-Faktor - der Marketingkoeffizient. Gemäß der Theorie der Statistik besteht der Vorteil der bestehenden multiplen Regressionsgleichung in der Möglichkeit, den isolierten Einfluss jedes Faktors einschließlich des Marketingfaktors zu bewerten.

Auch die Ergebnisse der durchgeführten Regressionsanalyse werden in größerem Umfang als für die Berechnung der Parameter der Gleichung verwendet. Das Kriterium für die Einstufung (Kef,) von Unternehmen als relativ besser oder relativ schlechter basiert auf dem relativen Indikator des Ergebnisses:

wobei Y facti der tatsächliche Wert des i-ten Unternehmens ist, Tausend Rubel;

Y berechnet - der Wert des Gewinns des i-ten Unternehmens, der durch Berechnung gemäß der Regressionsgleichung erhalten wird

Im Hinblick auf das zu lösende Problem wird der Wert als „Effizienzfaktor“ bezeichnet. Die Tätigkeit des Unternehmens kann als effektiv angesehen werden, wenn der Wert des Koeffizienten größer als eins ist. Das bedeutet, dass der tatsächliche Gewinn größer ist als der über die Stichprobe gemittelte Gewinn.

Die tatsächlichen und berechneten Gewinnwerte sind in der Tabelle dargestellt. 2.

Tabelle 2 – Analyse des effektiven Merkmals im Regressionsmodell

Die Analyse der Tabelle zeigt, dass in unserem Fall die Aktivitäten der Unternehmen 3, 5, 7, 9, 12, 14, 15, 17 für den Berichtszeitraum als erfolgreich angesehen werden können.

Das Hauptziel der Regressionsanalyse besteht darin, die analytische Form der Beziehung zu bestimmen, in der die Änderung des resultierenden Attributs auf den Einfluss eines oder mehrerer Faktorzeichen zurückzuführen ist und die Menge aller anderen Faktoren, die das resultierende Attribut ebenfalls beeinflussen, als konstante und durchschnittliche Werte angenommen wird .
Aufgaben der Regressionsanalyse:
a) Feststellung der Abhängigkeitsform. Bezüglich der Art und Form der Beziehung zwischen Phänomenen gibt es positive lineare und nichtlineare und negative lineare und nichtlineare Regression.
b) Definition der Regressionsfunktion in Form einer mathematischen Gleichung der einen oder anderen Art und Ermittlung des Einflusses erklärender Variablen auf die abhängige Variable.
c) Schätzung unbekannter Werte der abhängigen Variablen. Mit der Regressionsfunktion können Sie die Werte der abhängigen Variablen innerhalb des Intervalls gegebener Werte der erklärenden Variablen reproduzieren (d. h. das Interpolationsproblem lösen) oder den Verlauf des Prozesses außerhalb des angegebenen Intervalls auswerten (d. h. Lösung des Extrapolationsproblems). Das Ergebnis ist eine Schätzung des Werts der abhängigen Variablen.

Paarregression - die Gleichung der Beziehung zweier Variablen y und x: y=f(x), wobei y die abhängige Variable (resultierendes Zeichen) ist; x - unabhängige, erklärende Variable (Feature-Faktor).

Es gibt lineare und nichtlineare Regressionen.
Lineare Regression: y = a + bx + ε
Nichtlineare Regressionen werden in zwei Klassen eingeteilt: Regressionen, die in Bezug auf die in die Analyse einbezogenen erklärenden Variablen, aber linear in Bezug auf die geschätzten Parameter sind, und Regressionen, die in Bezug auf die geschätzten Parameter nichtlinear sind.
Regressionen, die in erklärenden Variablen nicht linear sind:

Regressionen, die in den geschätzten Parametern nicht linear sind:

  • Potenz y=a x b ε
  • Exponential y=ab x ε
  • exponentiell y=e a+b x ε
Die Konstruktion der Regressionsgleichung reduziert sich auf die Schätzung ihrer Parameter. Zur Schätzung der Parameter von Regressionen, die linear in Parametern sind, wird die Methode der kleinsten Quadrate (LSM) verwendet. LSM ermöglicht es, solche Schätzungen von Parametern zu erhalten, unter denen die Summe der quadrierten Abweichungen der tatsächlichen Werte des effektiven Merkmals y von den theoretischen Werten y x minimal ist, d.h.
.
Für lineare und nichtlineare Gleichungen, die auf lineare reduziert werden können, wird das folgende System für a und b gelöst:

Sie können fertige Formeln verwenden, die sich aus diesem System ergeben:

Die Nähe der Verbindung zwischen den untersuchten Phänomenen wird durch den linearen Paarkorrelationskoeffizienten r xy für die lineare Regression (-1≤r xy ≤1) geschätzt:

und Korrelationsindex p xy - für nichtlineare Regression (0≤p xy ≤1):

Eine Einschätzung der Güte des konstruierten Modells wird durch das Bestimmtheitsmaß (Index) sowie den mittleren Approximationsfehler gegeben.
Der durchschnittliche Näherungsfehler ist die durchschnittliche Abweichung der berechneten Werte von den tatsächlichen:
.
Zulässige Wertegrenze A - nicht mehr als 8-10%.
Der durchschnittliche Elastizitätskoeffizient E gibt an, um wie viel Prozent sich das Ergebnis y im Mittel von seinem Mittelwert ändert, wenn sich der Faktor x um 1 % von seinem Mittelwert ändert:
.

Die Aufgabe der Varianzanalyse besteht darin, die Varianz der abhängigen Variablen zu analysieren:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
wobei ∑(y-y)² die Gesamtsumme der quadrierten Abweichungen ist;
∑(y x -y)² - Summe der quadratischen Abweichungen aufgrund von Regression ("erklärt" oder "faktoriell");
∑(y-y x)² - Residuensumme der quadrierten Abweichungen.
Der Anteil der durch die Regression erklärten Varianz an der Gesamtvarianz des effektiven Merkmals y wird durch das Bestimmtheitsmaß (Index) R2 charakterisiert:

Das Bestimmtheitsmaß ist das Quadrat des Koeffizienten oder Korrelationsindex.

F-Test - Bewertung der Qualität der Regressionsgleichung - besteht darin, die Hypothese zu testen Aber über die statistische Bedeutungslosigkeit der Regressionsgleichung und den Indikator für die Nähe der Verbindung. Dazu wird ein Vergleich des tatsächlichen F-Fakts und der kritischen (tabellarischen) F-Tabelle der Werte des Fisher-F-Kriteriums durchgeführt. F fact wird aus dem Verhältnis der Werte des Faktors und der für einen Freiheitsgrad berechneten Restvarianzen bestimmt:
,
wobei n die Anzahl der Bevölkerungseinheiten ist; m ist die Anzahl der Parameter für Variablen x.
F table ist der maximal mögliche Wert des Kriteriums unter dem Einfluss von Zufallsfaktoren für gegebene Freiheitsgrade und Signifikanzniveau a. Signifikanzniveau a - die Wahrscheinlichkeit, die richtige Hypothese abzulehnen, sofern sie wahr ist. Üblicherweise wird a gleich 0,05 oder 0,01 genommen.
Wenn F-Tabelle< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F eine Tatsache ist, dann wird die Hypothese H etwa nicht verworfen und die statistische Insignifikanz, die Unzuverlässigkeit der Regressionsgleichung erkannt.
Um die statistische Signifikanz der Regressions- und Korrelationskoeffizienten zu beurteilen, werden Student's t-Test und Konfidenzintervalle für jeden der Indikatoren berechnet. Es wird eine Hypothese H über die zufällige Natur der Indikatoren aufgestellt, d. h. über ihre unbedeutende Differenz von Null. Die Bewertung der Signifikanz der Regressions- und Korrelationskoeffizienten mit dem Student-t-Test erfolgt durch Vergleich ihrer Werte mit der Größe des Zufallsfehlers:
; ; .
Zufällige Fehler der linearen Regressionsparameter und des Korrelationskoeffizienten werden durch die Formeln bestimmt:



Beim Vergleich der tatsächlichen und kritischen (tabellarischen) Werte der t-Statistik - t tabl und t fact - akzeptieren oder lehnen wir die Hypothese H o ab.
Die Beziehung zwischen dem Fisher-F-Test und der Student-t-Statistik wird durch die Gleichheit ausgedrückt

Wenn t-Tabelle< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t die Tatsache, dass die Hypothese H ungefähr nicht verworfen wird und die zufällige Natur der Bildung von a, b oder r xy erkannt wird.
Zur Berechnung des Konfidenzintervalls bestimmen wir für jeden Indikator den Grenzfehler D:
Δ a = t Tabelle m a , Δ b = t Tabelle m b .
Die Formeln zur Berechnung der Konfidenzintervalle lauten wie folgt:
γ ein \u003d einΔ ein; γ ein \u003d ein-Δ ein; γ a = a + Δa
γb = bΔb; γb = b-Δb; γb = b + Δb
Wenn Null in die Grenzen des Konfidenzintervalls fällt, d.h. Wenn die untere Grenze negativ und die obere Grenze positiv ist, wird angenommen, dass der geschätzte Parameter Null ist, da er nicht gleichzeitig positive und negative Werte annehmen kann.
Der Prognosewert y p wird bestimmt, indem der entsprechende (Prognose-)Wert x p in die Regressionsgleichung y x = a + b·x eingesetzt wird. Der durchschnittliche Standardfehler der Prognose m y x wird berechnet:
,
wo
und das Konfidenzintervall der Prognose wird gebildet:
γ y x = y p Δ y p ; γyxmin = yp - Δyp; γ y x max = y p + Δ y p
wobei Δ y x = t Tabelle ·m y x .

Lösungsbeispiel

Aufgabe Nummer 1. Für sieben Gebiete der Uralregion sind für 199X die Werte von zwei Zeichen bekannt.
Tabelle 1.

Erforderlich: 1. Um die Abhängigkeit von y von x zu charakterisieren, berechnen Sie die Parameter der folgenden Funktionen:
a) linear;
b) Potenzgesetz (vorher ist es notwendig, das Verfahren der Linearisierung von Variablen durch Logarithmieren beider Teile durchzuführen);
c) demonstrativ;
d) gleichseitige Hyperbel (Sie müssen auch herausfinden, wie Sie dieses Modell vorlinearisieren).
2. Bewerten Sie jedes Modell anhand des durchschnittlichen Approximationsfehlers A und des Fisher-F-Tests.

Lösung (Option Nr. 1)

Zur Berechnung der Parameter a und b der linearen Regression y=a+b·x (die Berechnung kann mit einem Taschenrechner erfolgen).
löse das System der Normalgleichungen bzgl a und b:
Aus den Ausgangsdaten berechnen wir ∑y, ∑x, ∑y x, ∑x², ∑y²:
j x ja x2 y2 yxy-y xEin ich
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Gesamt405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Heiraten Wert (Gesamt/n)57,89
j
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a = y - b x = 57,89 + 0,35 54,9 ≈ 76,88

Regressionsgleichung: y= 76,88 - 0,35X. Bei einer Erhöhung des durchschnittlichen Tageslohns um 1 Rubel. der Anteil der Ausgaben für den Kauf von Lebensmitteln wird um durchschnittlich 0,35 %-Punkte reduziert.
Berechnen Sie den linearen Koeffizienten der Paarkorrelation:

Die Kommunikation ist mäßig, umgekehrt.
Bestimmen wir das Bestimmtheitsmaß: r² xy =(-0,35)=0,127
Die Abweichung des Ergebnisses von 12,7 % erklärt sich durch die Abweichung des x-Faktors. Einsetzen der tatsächlichen Werte in die Regressionsgleichung X ermitteln wir die theoretischen (berechneten) Werte von y x . Lassen Sie uns den Wert des durchschnittlichen Näherungsfehlers A finden:

Im Durchschnitt weichen die errechneten Werte um 8,1 % von den tatsächlichen ab.
Berechnen wir das F-Kriterium:

Der erhaltene Wert weist auf die Notwendigkeit hin, die Hypothese H 0 über die zufällige Natur der aufgedeckten Abhängigkeit und die statistische Bedeutungslosigkeit der Parameter der Gleichung und des Indikators für die Nähe der Verbindung zu akzeptieren.
1b. Der Konstruktion des Potenzmodells y=a x b geht das Verfahren der Linearisierung der Variablen voraus. Im Beispiel erfolgt die Linearisierung durch Logarithmieren beider Seiten der Gleichung:
lg y=lg a + b lg x
Y=C+bY
wobei Y=lg(y), X=lg(x), C=lg(a).

Für Berechnungen verwenden wir die Daten in Tabelle. 1.3.
Tabelle 1.3

YX YX Y2 x2 yxy-y x(y-yx)²Ein ich
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Gesamt12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Mittlere Bedeutung1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Berechnen Sie C und b:

C=Y-bX = 1,7605 + 0,298 1,7370 = 2,278126
Wir erhalten eine lineare Gleichung: Y=2,278-0,298 X
Nach der Potenzierung erhalten wir: y=10 2,278 x -0,298
Setzen Sie in diese Gleichung die tatsächlichen Werte ein X, wir erhalten die theoretischen Werte des Ergebnisses. Basierend darauf berechnen wir die Indikatoren: die Enge der Verbindung - den Korrelationsindex p xy und den durchschnittlichen Annäherungsfehler A .

Die Eigenschaften des Potenzmodells zeigen, dass es den Zusammenhang etwas besser beschreibt als die lineare Funktion.

1v. Der Konstruktion der Gleichung der Exponentialkurve y \u003d a b x geht das Verfahren zur Linearisierung der Variablen voraus, wenn der Logarithmus beider Teile der Gleichung genommen wird:
lg y=lg a + x lg b
Y=C+Bx
Für Berechnungen verwenden wir die Tabellendaten.

Yx Yx Y2 x2yxy-y x(y-yx)²Ein ich
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Gesamt12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Heiraten zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Die Werte der Regressionsparameter A und BEI belief sich auf:

A = Y – B x = 1,7605 + 0,0023 54,9 = 1,887
Es ergibt sich eine lineare Gleichung: Y=1,887-0,0023x. Wir potenzieren die resultierende Gleichung und schreiben sie in der üblichen Form:
y x = 10 1,887 10 -0,0023 x = 77,1 0,9947 x
Wir schätzen die Enge der Beziehung durch den Korrelationsindex p xy ab:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Gesamt405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Mittlere Bedeutung57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX