Beispiel einer Regressionsanalyse. Regressionsanalyse

Das Hauptmerkmal der Regressionsanalyse besteht darin, dass sie verwendet werden kann, um spezifische Informationen über die Form und Art der Beziehung zwischen den untersuchten Variablen zu erhalten.

Die Abfolge der Phasen der Regressionsanalyse

Betrachten wir kurz die Phasen der Regressionsanalyse.

    Aufgabenformulierung. In diesem Stadium werden vorläufige Hypothesen über die Abhängigkeit der untersuchten Phänomene gebildet.

    Definition von abhängigen und unabhängigen (erklärenden) Variablen.

    Erhebung statistischer Daten. Für jede der im Regressionsmodell enthaltenen Variablen müssen Daten gesammelt werden.

    Formulierung einer Hypothese über die Form der Verbindung (einfach oder mehrfach, linear oder nichtlinear).

    Definition Regressionsfunktionen (besteht in der Berechnung der Zahlenwerte der Parameter der Regressionsgleichung)

    Bewertung der Genauigkeit der Regressionsanalyse.

    Interpretation der erhaltenen Ergebnisse. Die Ergebnisse der Regressionsanalyse werden mit vorläufigen Hypothesen verglichen. Die Richtigkeit und Plausibilität der gewonnenen Ergebnisse werden bewertet.

    Vorhersage unbekannter Werte der abhängigen Variablen.

Mit Hilfe der Regressionsanalyse ist es möglich, das Problem der Prognose und Klassifizierung zu lösen. Vorhersagewerte werden berechnet, indem die Werte der erklärenden Variablen in die Regressionsgleichung eingesetzt werden. Das Klassifizierungsproblem wird auf diese Weise gelöst: Die Regressionslinie teilt die gesamte Menge von Objekten in zwei Klassen, und der Teil der Menge, in dem der Wert der Funktion größer als Null ist, gehört zu einer Klasse, und der Teil, in dem er kleiner ist als Null gehört zu einer anderen Klasse.

Aufgaben der Regressionsanalyse

Betrachten Sie die Hauptaufgaben der Regressionsanalyse: Ermittlung der Form der Abhängigkeit, Bestimmung Regressionsfunktionen, eine Schätzung der unbekannten Werte der abhängigen Variablen.

Die Form der Abhängigkeit festlegen.

Die Art und Form der Beziehung zwischen Variablen kann die folgenden Regressionstypen bilden:

    positive lineare Regression (ausgedrückt als gleichmäßiges Wachstum der Funktion);

    positive gleichmäßig beschleunigende Regression;

    positive gleichmäßig ansteigende Regression;

    negative lineare Regression (ausgedrückt als gleichmäßiger Funktionsabfall);

    negative gleichmäßig beschleunigte abnehmende Regression;

    negative gleichmäßig abnehmende Regression.

Allerdings kommen die beschriebenen Sorten meist nicht in Reinform vor, sondern in Kombination miteinander. Man spricht in diesem Fall von kombinierten Regressionsformen.

Definition der Regressionsfunktion.

Die zweite Aufgabe besteht darin, die Wirkung der Hauptfaktoren oder -ursachen auf die abhängige Variable zu bestimmen, wobei alle anderen Dinge gleich bleiben, und vorbehaltlich des Ausschlusses der Auswirkung von Zufallselementen auf die abhängige Variable. Regressionsfunktion definiert als eine mathematische Gleichung des einen oder anderen Typs.

Schätzung unbekannter Werte der abhängigen Variablen.

Die Lösung dieses Problems reduziert sich auf die Lösung eines Problems eines der folgenden Typen:

    Schätzung der Werte der abhängigen Variablen innerhalb des betrachteten Intervalls der Ausgangsdaten, d.h. fehlende Werte; dies löst das Problem der Interpolation.

    Schätzung der zukünftigen Werte der abhängigen Variablen, d.h. Werte außerhalb des angegebenen Intervalls der Anfangsdaten finden; dies löst das Problem der Extrapolation.

Beide Probleme werden gelöst, indem die gefundenen Schätzungen der Parameter der Werte der unabhängigen Variablen in die Regressionsgleichung eingesetzt werden. Das Ergebnis der Lösung der Gleichung ist eine Schätzung des Werts der (abhängigen) Zielvariablen.

Sehen wir uns einige der Annahmen an, auf denen die Regressionsanalyse beruht.

Linearitätsannahme, d.h. es wird angenommen, dass die Beziehung zwischen den betrachteten Variablen linear ist. In diesem Beispiel haben wir also ein Streudiagramm erstellt und konnten eine klare lineare Beziehung erkennen. Wenn wir im Streudiagramm der Variablen ein klares Fehlen einer linearen Beziehung sehen, d.h. ein nichtlinearer Zusammenhang besteht, sollten nichtlineare Analysemethoden verwendet werden.

Normalitätsannahme Reste. Es wird davon ausgegangen, dass die Verteilung der Differenz zwischen vorhergesagten und beobachteten Werten normal ist. Um die Art der Verteilung visuell zu bestimmen, können Sie Histogramme verwenden Reste.

Bei der Verwendung der Regressionsanalyse sollte man ihre Haupteinschränkung berücksichtigen. Es besteht darin, dass Sie mit der Regressionsanalyse nur Abhängigkeiten erkennen können und nicht die Beziehungen, die diesen Abhängigkeiten zugrunde liegen.

Die Regressionsanalyse ermöglicht es, den Grad der Assoziation zwischen Variablen zu beurteilen, indem der erwartete Wert einer Variablen auf der Grundlage mehrerer bekannter Werte berechnet wird.

Regressionsgleichung.

Die Regressionsgleichung sieht folgendermaßen aus: Y=a+b*X

Unter Verwendung dieser Gleichung wird die Variable Y durch die Konstante a und die Steigung der Linie (oder Steigung) b multipliziert mit dem Wert der Variablen X ausgedrückt. Die Konstante a wird auch als Achsenabschnitt bezeichnet, und die Steigung ist die Regression Koeffizient oder B-Faktor.

In den meisten Fällen (wenn nicht immer) gibt es eine gewisse Streuung von Beobachtungen über die Regressionsgerade.

Rest ist die Abweichung eines einzelnen Punktes (Beobachtung) von der Regressionsgerade (vorhergesagter Wert).

Um das Problem der Regressionsanalyse in MS Excel zu lösen, wählen Sie aus dem Menü Service"Analysepaket" und das Regressionsanalyse-Tool. Geben Sie die Eingabeintervalle X und Y an.Das Y-Eingabeintervall ist der Bereich der zu analysierenden abhängigen Daten und muss eine Spalte umfassen. Das Eingangsintervall X ist der Bereich der zu analysierenden unabhängigen Daten. Die Anzahl der Eingabebereiche darf 16 nicht überschreiten.

Bei der Ausgabe der Prozedur im Ausgabebereich erhalten wir den angegebenen Bericht Tabelle 8.3a-8,3 V.

ERGEBNISSE

Tabelle 8.3a. Regressionsstatistik

Regressionsstatistik

Mehrere R

R Quadrat

Normalisiertes R-Quadrat

Standart Fehler

Beobachtungen

Betrachten Sie zunächst den oberen Teil der in dargestellten Berechnungen Tabelle 8.3a, - Regressionsstatistik.

Wert R Quadrat, auch Sicherheitsmaß genannt, charakterisiert die Qualität der resultierenden Regressionsgerade. Diese Qualität wird durch den Grad der Übereinstimmung zwischen den Originaldaten und dem Regressionsmodell (berechnete Daten) ausgedrückt. Das Sicherheitsmaß liegt immer innerhalb des Intervalls .

In den meisten Fällen der Wert R Quadrat liegt zwischen diesen Werten, Extrem genannt, d.h. zwischen null und eins.

Wenn der Wert R Quadrat nahe Eins bedeutet dies, dass das konstruierte Modell fast die gesamte Variabilität der entsprechenden Variablen erklärt. Umgekehrt der Wert R Quadrat, nahe Null, bedeutet schlechte Qualität des konstruierten Modells.

In unserem Beispiel beträgt das Sicherheitsmaß 0,99673, was auf eine sehr gute Anpassung der Regressionslinie an die ursprünglichen Daten hinweist.

Plural R - Koeffizient der multiplen Korrelation R - drückt den Grad der Abhängigkeit von unabhängigen Variablen (X) und abhängigen Variablen (Y) aus.

Mehrere R gleich der Quadratwurzel des Bestimmtheitsmaßes, nimmt dieser Wert Werte im Bereich von null bis eins an.

In einfacher linearer Regressionsanalyse Plural R gleich dem Pearson-Korrelationskoeffizienten. Wirklich, Plural R in unserem Fall ist er gleich dem Pearson-Korrelationskoeffizienten aus dem vorherigen Beispiel (0,998364).

Tabelle 8.3b. Regressionskoeffizienten

Chancen

Standart Fehler

t-Statistik

Y-Kreuzung

Variable X1

* Eine verkürzte Version der Berechnungen ist angegeben

Betrachten Sie nun den mittleren Teil der in dargestellten Berechnungen Tabelle 8.3b. Hier sind der Regressionskoeffizient b (2,305454545) und der Offset entlang der y-Achse angegeben, d.h. Konstante a (2,694545455).

Basierend auf den Berechnungen können wir die Regressionsgleichung wie folgt schreiben:

Y= x*2,305454545+2,694545455

Die Richtung des Zusammenhangs zwischen den Variablen wird anhand der Vorzeichen (negativ oder positiv) der Regressionskoeffizienten (Koeffizient b) bestimmt.

Wenn das Vorzeichen des Regressionskoeffizienten positiv ist, ist die Beziehung zwischen der abhängigen Variablen und der unabhängigen Variablen positiv. In unserem Fall ist das Vorzeichen des Regressionskoeffizienten positiv, daher ist auch die Beziehung positiv.

Wenn das Vorzeichen des Regressionskoeffizienten negativ ist, ist die Beziehung zwischen der abhängigen Variablen und der unabhängigen Variablen negativ (umgekehrt).

BEI Tabelle 8.3c. Ausgabeergebnisse werden präsentiert Reste. Damit diese Ergebnisse im Report erscheinen, muss beim Start des Tools „Regression“ das Kontrollkästchen „Residuen“ aktiviert werden.

RESTLICHE RÜCKTRITT

Tabelle 8.3c. Überreste

Überwachung

Voraussichtliches Y

Überreste

Standardwaagen

Anhand dieses Teils des Berichts können wir die Abweichungen jedes Punktes von der konstruierten Regressionslinie sehen. Größter absoluter Wert Rest in unserem Fall - 0,778, der kleinste - 0,043. Zur besseren Interpretation dieser Daten verwenden wir den Graphen der Originaldaten und die konstruierte Regressionslinie in Abb. Reis. 8.3. Wie man sieht, ist die Regressionsgerade ziemlich genau an die Werte der Originaldaten „angepasst“.

Es sollte berücksichtigt werden, dass das betrachtete Beispiel ziemlich einfach ist und es bei weitem nicht immer möglich ist, eine lineare Regressionslinie qualitativ zu konstruieren.

Reis. 8.3. Anfangsdaten und Regressionsgerade

Das Problem, unbekannte zukünftige Werte der abhängigen Variablen basierend auf den bekannten Werten der unabhängigen Variablen zu schätzen, blieb unberücksichtigt, d.h. Prognoseaufgabe.

Mit einer Regressionsgleichung reduziert sich das Prognoseproblem auf die Lösung der Gleichung Y= x*2.305454545+2.694545455 mit bekannten Werten von x. Die Ergebnisse der Vorhersage der abhängigen Variablen Y sechs Schritte im Voraus werden präsentiert in Tabelle 8.4.

Tabelle 8.4. Vorhersageergebnisse der Y-Variablen

Y (vorhergesagt)

Als Ergebnis der Verwendung der Regressionsanalyse im Microsoft Excel-Paket haben wir also:

    baute eine Regressionsgleichung auf;

    die Form der Abhängigkeit und die Richtung der Beziehung zwischen den Variablen festgelegt - eine positive lineare Regression, die sich in einem gleichmäßigen Wachstum der Funktion ausdrückt;

    stellte die Richtung der Beziehung zwischen den Variablen her;

    bewertete die Qualität der resultierenden Regressionslinie;

    konnten die Abweichungen der berechneten Daten von den Daten des Originalsatzes sehen;

    die zukünftigen Werte der abhängigen Variablen vorhergesagt.

Wenn ein Regressionsfunktion definiert, interpretiert und begründet ist und die Einschätzung der Genauigkeit der Regressionsanalyse den Anforderungen entspricht, können wir davon ausgehen, dass das konstruierte Modell und die Vorhersagewerte ausreichend zuverlässig sind.

Die auf diese Weise erhaltenen Vorhersagewerte sind die zu erwartenden Durchschnittswerte.

In diesem Papier haben wir die wichtigsten Merkmale überprüft beschreibende Statistik und unter ihnen solche Konzepte wie mittlere Bedeutung,Median,maximal,Minimum und andere Merkmale der Datenvariation.

Auch das Konzept wurde kurz besprochen Emissionen. Die betrachteten Merkmale beziehen sich auf die sogenannte explorative Datenanalyse, deren Schlussfolgerungen möglicherweise nicht auf die Allgemeinbevölkerung, sondern nur auf eine Datenstichprobe zutreffen. Die explorative Datenanalyse wird verwendet, um primäre Schlussfolgerungen zu ziehen und Hypothesen über die Population zu bilden.

Dabei wurden auch die Grundlagen der Korrelations- und Regressionsanalyse, ihre Aufgaben und Möglichkeiten des praktischen Einsatzes betrachtet.

Die Regressionsanalyse ist eine Methode zur Erstellung eines analytischen Ausdrucks einer stochastischen Beziehung zwischen den untersuchten Merkmalen. Die Regressionsgleichung zeigt, wie sich der Durchschnitt ändert bei beim Ändern einer von x ich , und sieht aus wie:

wo ja - abhängige Variable (es ist immer eins);

X ich - unabhängige Variablen (Faktoren) (es kann mehrere davon geben).

Wenn es nur eine unabhängige Variable gibt, handelt es sich um eine einfache Regressionsanalyse. Wenn es mehrere sind P 2), dann heißt eine solche Analyse multivariat.

Im Zuge der Regressionsanalyse werden zwei Hauptaufgaben gelöst:

    Konstruktion der Regressionsgleichung, d.h. Finden der Art der Beziehung zwischen dem Ergebnisindikator und unabhängigen Faktoren x 1 , x 2 , …, x n .

    Einschätzung der Signifikanz der resultierenden Gleichung, d.h. Bestimmung, wie stark die ausgewählten Faktormerkmale die Variation des Merkmals erklären j.

Die Regressionsanalyse wird hauptsächlich für die Planung sowie für die Entwicklung eines regulatorischen Rahmens verwendet.

Anders als die Korrelationsanalyse, die nur die Frage beantwortet, ob ein Zusammenhang zwischen den analysierten Merkmalen besteht, gibt die Regressionsanalyse auch ihren formalisierten Ausdruck. Wenn außerdem die Korrelationsanalyse irgendeine Beziehung von Faktoren untersucht, dann untersucht die Regressionsanalyse eine einseitige Abhängigkeit, d. h. eine Verbindung, die zeigt, wie sich eine Änderung der Faktorvorzeichen auf das resultierende Vorzeichen auswirkt.

Die Regressionsanalyse ist eine der am weitesten entwickelten Methoden der mathematischen Statistik. Genau genommen erfordert die Durchführung der Regressionsanalyse die Erfüllung einer Reihe von besonderen Anforderungen (insbesondere x l ,x 2 ,...,x n ;j müssen unabhängige, normalverteilte Zufallsvariablen mit konstanten Varianzen sein). Im wirklichen Leben ist die strenge Einhaltung der Anforderungen der Regressions- und Korrelationsanalyse sehr selten, aber beide Methoden sind in der Wirtschaftsforschung weit verbreitet. Abhängigkeiten in der Wirtschaft können nicht nur direkt, sondern auch invers und nichtlinear sein. Ein Regressionsmodell kann bei Vorhandensein einer Abhängigkeit erstellt werden, jedoch werden in der multivariaten Analyse nur lineare Modelle der Form verwendet:

Die Konstruktion der Regressionsgleichung erfolgt in der Regel nach der Methode der kleinsten Quadrate, deren Kern darin besteht, die Summe der quadratischen Abweichungen der tatsächlichen Werte des resultierenden Attributs von seinen berechneten Werten zu minimieren, d. H.:

wo t - Anzahl der Beobachtungen;

j =a+b 1 x 1 j +b 2 x 2 j + ... + b n X n j - berechneter Wert des Ergebnisfaktors.

Es wird empfohlen, Regressionskoeffizienten mit Analysepaketen für einen PC oder einen speziellen Finanzrechner zu bestimmen. Im einfachsten Fall haben die Regressionskoeffizienten eine einfaktorielle lineare Regressionsgleichung der Form y = a + bx findet man mit den Formeln:

Clusteranalyse

Die Clusteranalyse ist eine der Methoden der multivariaten Analyse, die zum Gruppieren (Clustern) einer Population entwickelt wurde, deren Elemente durch viele Merkmale gekennzeichnet sind. Die Werte jedes der Merkmale dienen als Koordinaten jeder Einheit der untersuchten Population im mehrdimensionalen Merkmalsraum. Jede Beobachtung, die durch die Werte mehrerer Indikatoren gekennzeichnet ist, kann als Punkt im Raum dieser Indikatoren dargestellt werden, deren Werte als Koordinaten in einem mehrdimensionalen Raum betrachtet werden. Abstand zwischen Punkten R und q Mit k Koordinaten ist definiert als:

Das Hauptkriterium für das Clustering ist, dass die Unterschiede zwischen Clustern signifikanter sein sollten als zwischen Beobachtungen, die demselben Cluster zugeordnet sind, d.h. in einem mehrdimensionalen Raum ist die Ungleichung zu beachten:

wo r 1, 2 - Abstand zwischen den Clustern 1 und 2.

Neben den Verfahren der Regressionsanalyse ist das Clustering-Verfahren recht mühsam, es empfiehlt sich, es auf einem Computer durchzuführen.

Im Studium begegnen Studierende sehr oft einer Vielzahl von Gleichungen. Eine davon – die Regressionsgleichung – wird in diesem Artikel betrachtet. Diese Art von Gleichung wird speziell verwendet, um die Eigenschaften der Beziehung zwischen mathematischen Parametern zu beschreiben. Diese Art der Gleichheit wird in der Statistik und Ökonometrie verwendet.

Definition von Regression

Unter Regression versteht man in der Mathematik eine bestimmte Größe, die die Abhängigkeit des Mittelwerts eines Datensatzes von den Werten einer anderen Größe beschreibt. Die Regressionsgleichung zeigt als Funktion eines bestimmten Merkmals den Durchschnittswert eines anderen Merkmals. Die Regressionsfunktion hat die Form einer einfachen Gleichung y \u003d x, in der y als abhängige Variable und x als unabhängige Variable (Feature-Faktor) fungiert. Tatsächlich wird die Regression als y = f (x) ausgedrückt.

Welche Arten von Beziehungen zwischen Variablen gibt es?

Im Allgemeinen werden zwei gegensätzliche Arten von Beziehungen unterschieden: Korrelation und Regression.

Die erste ist durch die Gleichheit der bedingten Variablen gekennzeichnet. In diesem Fall ist nicht sicher bekannt, welche Variable von der anderen abhängt.

Wenn es keine Gleichheit zwischen den Variablen gibt und die Bedingungen sagen, welche Variable erklärend und welche abhängig ist, dann können wir über das Vorhandensein einer Verbindung des zweiten Typs sprechen. Um eine lineare Regressionsgleichung zu erstellen, ist es notwendig herauszufinden, welche Art von Beziehung beobachtet wird.

Arten von Regressionen

Bis heute gibt es 7 verschiedene Regressionsarten: hyperbolisch, linear, mehrfach, nichtlinear, paarweise, invers, logarithmisch linear.

Hyperbolisch, linear und logarithmisch

Die lineare Regressionsgleichung wird in der Statistik verwendet, um die Parameter der Gleichung klar zu erklären. Es sieht aus wie y = c + m * x + E. Die hyperbolische Gleichung hat die Form einer regulären Hyperbel y \u003d c + m / x + E. Die logarithmisch lineare Gleichung drückt die Beziehung unter Verwendung der logarithmischen Funktion aus: In y \u003d In c + m * In x + In E.

Mehrfach und nichtlinear

Zwei komplexere Regressionstypen sind multiple und nichtlineare. Die multiple Regressionsgleichung wird durch die Funktion ausgedrückt y \u003d f (x 1, x 2 ... x c) + E. In dieser Situation ist y die abhängige Variable und x die erklärende Variable. Die Variable E ist stochastisch und bezieht den Einfluss anderer Faktoren in die Gleichung ein. Die nichtlineare Regressionsgleichung ist etwas inkonsistent. Sie ist einerseits hinsichtlich der berücksichtigten Indikatoren nicht linear und andererseits in der Rolle der Bewertung von Indikatoren linear.

Inverse und paarweise Regressionen

Eine Inverse ist eine Art Funktion, die in eine lineare Form umgewandelt werden muss. In den meisten traditionellen Anwendungsprogrammen hat es die Form einer Funktion y \u003d 1 / c + m * x + E. Die paarweise Regressionsgleichung zeigt die Beziehung zwischen den Daten als Funktion von y = f(x) + E. Genau wie die anderen Gleichungen hängt y von x ab und E ist ein stochastischer Parameter.

Das Konzept der Korrelation

Dies ist ein Indikator, der die Existenz einer Beziehung zwischen zwei Phänomenen oder Prozessen zeigt. Die Stärke der Beziehung wird als Korrelationskoeffizient ausgedrückt. Sein Wert schwankt innerhalb des Intervalls [-1;+1]. Ein negativer Indikator zeigt das Vorhandensein von Feedback an, ein positiver Indikator zeigt ein direktes Feedback an. Wenn der Koeffizient einen Wert gleich 0 annimmt, besteht keine Beziehung. Je näher der Wert an 1 liegt, desto stärker ist die Beziehung zwischen den Parametern, je näher an 0, desto schwächer.

Methoden

Korrelationsparametrische Methoden können die Enge der Beziehung abschätzen. Sie werden auf der Grundlage von Verteilungsschätzungen verwendet, um Parameter zu untersuchen, die dem Normalverteilungsgesetz gehorchen.

Die Parameter der linearen Regressionsgleichung sind notwendig, um die Art der Abhängigkeit, die Funktion der Regressionsgleichung zu identifizieren und die Indikatoren der gewählten Beziehungsformel zu bewerten. Das Korrelationsfeld wird als Verfahren zum Identifizieren einer Beziehung verwendet. Dazu müssen alle vorhandenen Daten grafisch dargestellt werden. In einem rechteckigen zweidimensionalen Koordinatensystem müssen alle bekannten Daten aufgetragen werden. So entsteht das Korrelationsfeld. Der Wert des beschreibenden Faktors ist entlang der Abszisse markiert, während die Werte des abhängigen Faktors entlang der Ordinate markiert sind. Wenn zwischen den Parametern ein funktionaler Zusammenhang besteht, reihen sie sich in Form einer Linie aneinander.

Wenn der Korrelationskoeffizient solcher Daten weniger als 30% beträgt, können wir von einem fast vollständigen Fehlen einer Verbindung sprechen. Liegt er zwischen 30 % und 70 %, deutet dies auf das Vorhandensein von Links mittlerer Nähe hin. Ein 100%-Indikator ist ein Beweis für einen funktionalen Zusammenhang.

Eine nichtlineare Regressionsgleichung muss ebenso wie eine lineare um einen Korrelationsindex (R) ergänzt werden.

Korrelation für multiple Regression

Das Bestimmtheitsmaß ist ein Indikator für das Quadrat der multiplen Korrelation. Er spricht über die Enge der Beziehung des präsentierten Satzes von Indikatoren mit dem untersuchten Merkmal. Es kann auch über die Art des Einflusses von Parametern auf das Ergebnis gesprochen werden. Mit diesem Indikator wird die multiple Regressionsgleichung ausgewertet.

Um den multiplen Korrelationsindex zu berechnen, ist es notwendig, seinen Index zu berechnen.

Methode der kleinsten Quadrate

Diese Methode ist eine Möglichkeit, Regressionsfaktoren zu schätzen. Sein Wesen liegt in der Minimierung der Summe der quadratischen Abweichungen, die aufgrund der Abhängigkeit des Faktors von der Funktion erhalten werden.

Mit einem solchen Verfahren kann eine gepaarte lineare Regressionsgleichung geschätzt werden. Diese Art von Gleichungen wird verwendet, wenn zwischen den Indikatoren eine gepaarte lineare Beziehung erkannt wird.

Gleichungsoptionen

Jeder Parameter der linearen Regressionsfunktion hat eine bestimmte Bedeutung. Die gepaarte lineare Regressionsgleichung enthält zwei Parameter: c und m. Der Parameter t zeigt die durchschnittliche Änderung des Endindikators der Funktion y, abhängig von einer Verringerung (Erhöhung) der Variablen x um eine herkömmliche Einheit. Wenn die Variable x Null ist, dann ist die Funktion gleich dem Parameter c. Wenn die Variable x nicht Null ist, dann ist der Faktor c wirtschaftlich nicht sinnvoll. Der einzige Einfluss auf die Funktion ist das Vorzeichen vor dem Faktor c. Wenn es ein Minus gibt, können wir von einer langsamen Änderung des Ergebnisses im Vergleich zum Faktor sprechen. Wenn ein Plus vorhanden ist, weist dies auf eine beschleunigte Änderung des Ergebnisses hin.

Jeder Parameter, der den Wert der Regressionsgleichung ändert, kann durch eine Gleichung ausgedrückt werden. Beispielsweise hat der Faktor c die Form c = y - mx.

Gruppierte Daten

Es gibt solche Bedingungen der Aufgabe, bei denen alle Informationen nach dem Attribut x gruppiert sind, gleichzeitig aber für eine bestimmte Gruppe die entsprechenden Durchschnittswerte des abhängigen Indikators angegeben werden. In diesem Fall charakterisieren die Durchschnittswerte, wie der Indikator von x abhängt. Somit helfen die gruppierten Informationen, die Regressionsgleichung zu finden. Es dient als Beziehungsanalyse. Diese Methode hat jedoch ihre Nachteile. Leider unterliegen Durchschnittswerte oft externen Schwankungen. Diese Schwankungen spiegeln nicht die Muster der Beziehung wider, sie überdecken nur deren „Rauschen“. Durchschnitte zeigen Beziehungsmuster, die viel schlechter sind als eine lineare Regressionsgleichung. Sie können jedoch als Grundlage zum Auffinden einer Gleichung verwendet werden. Indem Sie die Größe einer bestimmten Population mit dem entsprechenden Durchschnitt multiplizieren, erhalten Sie die Summe von y innerhalb der Gruppe. Als nächstes müssen Sie alle erhaltenen Beträge ausschalten und den letzten Indikator y finden. Etwas schwieriger ist es, mit dem Summenindikator xy zu rechnen. Für den Fall, dass die Intervalle klein sind, können wir den Indikator x bedingt für alle Einheiten (innerhalb der Gruppe) gleich nehmen. Multipliziere es mit der Summe von y, um die Summe der Produkte von x und y zu finden. Weiterhin werden alle Summen zusammengeschlagen und die Gesamtsumme xy erhalten.

Gleichungsregression mit mehreren Paaren: Bewertung der Bedeutung einer Beziehung

Wie bereits erwähnt, hat die multiple Regression eine Funktion der Form y \u003d f (x 1, x 2, ..., x m) + E. Am häufigsten wird eine solche Gleichung verwendet, um das Problem von Angebot und Nachfrage nach einem Produkt, Zinserträgen aus zurückgekauften Aktien, Untersuchung der Ursachen und Art der Produktionskostenfunktion zu lösen. Es wird auch aktiv in einer Vielzahl von makroökonomischen Studien und Berechnungen verwendet, aber auf der Ebene der Mikroökonomie wird diese Gleichung etwas seltener verwendet.

Die Hauptaufgabe der multiplen Regression besteht darin, ein Datenmodell aufzubauen, das eine große Menge an Informationen enthält, um weiter zu bestimmen, welche Auswirkungen jeder der Faktoren einzeln und in ihrer Gesamtheit auf den zu modellierenden Indikator und seine Koeffizienten hat. Die Regressionsgleichung kann verschiedene Werte annehmen. In diesem Fall werden normalerweise zwei Arten von Funktionen verwendet, um die Beziehung zu bewerten: linear und nichtlinear.

Eine lineare Funktion wird in Form einer solchen Beziehung dargestellt: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. In diesem Fall werden a2, a m als die Koeffizienten der "reinen" Regression angesehen. Sie sind notwendig, um die durchschnittliche Änderung des Parameters y mit einer Änderung (Abnahme oder Erhöhung) jedes entsprechenden Parameters x um eine Einheit zu charakterisieren, unter der Bedingung eines stabilen Werts anderer Indikatoren.

Nichtlineare Gleichungen haben beispielsweise die Form einer Potenzfunktion y = ax 1 b1 x 2 b2 ... x m bm . In diesem Fall werden die Indikatoren b 1, b 2 ..... b m - als Elastizitätskoeffizienten bezeichnet. Sie zeigen, wie sich das Ergebnis (um wie viel%) bei einer Erhöhung (Verringerung) des entsprechenden Indikators x um 1% ändert. und mit einem stabilen Indikator für andere Faktoren.

Welche Faktoren sollten beim Erstellen einer multiplen Regression berücksichtigt werden?

Um eine multiple Regression korrekt zu konstruieren, ist es notwendig herauszufinden, auf welche Faktoren besonders geachtet werden sollte.

Es ist notwendig, ein gewisses Verständnis für die Art der Beziehung zwischen wirtschaftlichen Faktoren und dem Modell zu haben. Die einzubeziehenden Faktoren müssen folgende Kriterien erfüllen:

  • Muss messbar sein. Um einen Faktor zu verwenden, der die Qualität eines Objekts beschreibt, sollte er in jedem Fall eine quantitative Form erhalten.
  • Es sollte keine Faktorinterkorrelation oder funktionelle Beziehung bestehen. Solche Aktionen führen meistens zu irreversiblen Konsequenzen - das System gewöhnlicher Gleichungen wird bedingungslos, und dies führt zu seiner Unzuverlässigkeit und unscharfen Schätzungen.
  • Bei einem großen Korrelationsindikator gibt es keine Möglichkeit, den isolierten Einfluss von Faktoren auf das Endergebnis des Indikators herauszufinden, daher werden die Koeffizienten uninterpretierbar.

Konstruktionsmethoden

Es gibt eine Vielzahl von Methoden und Möglichkeiten, um zu erklären, wie Sie die Faktoren für die Gleichung auswählen können. Alle diese Methoden basieren jedoch auf der Auswahl von Koeffizienten unter Verwendung des Korrelationsindex. Darunter sind:

  • Ausschlussmethode.
  • Methode einschalten.
  • Schrittweise Regressionsanalyse.

Das erste Verfahren beinhaltet das Aussieben aller Koeffizienten aus dem aggregierten Satz. Die zweite Methode beinhaltet die Einführung vieler zusätzlicher Faktoren. Nun, der dritte ist die Eliminierung von Faktoren, die zuvor auf die Gleichung angewendet wurden. Jede dieser Methoden hat ihre Daseinsberechtigung. Sie haben ihre Vor- und Nachteile, aber sie können das Problem des Aussortierens unnötiger Indikatoren auf ihre eigene Weise lösen. In der Regel liegen die Ergebnisse der einzelnen Methoden recht nah beieinander.

Methoden der multivariaten Analyse

Solche Methoden zur Bestimmung von Faktoren basieren auf der Berücksichtigung individueller Kombinationen zusammenhängender Merkmale. Dazu gehören Diskriminanzanalyse, Mustererkennung, Hauptkomponentenanalyse und Clusteranalyse. Daneben gibt es noch die Faktorenanalyse, die jedoch durch die Entwicklung der Komponentenmethode entstanden ist. Alle von ihnen werden unter bestimmten Umständen, unter bestimmten Bedingungen und Faktoren angewendet.

Das Hauptziel der Regressionsanalyse besteht darin, die analytische Form der Beziehung zu bestimmen, in der die Änderung des resultierenden Attributs auf den Einfluss eines oder mehrerer Faktorzeichen zurückzuführen ist und die Menge aller anderen Faktoren, die das resultierende Attribut ebenfalls beeinflussen, als konstante und durchschnittliche Werte angenommen wird .
Aufgaben der Regressionsanalyse:
a) Feststellung der Abhängigkeitsform. Bezüglich der Art und Form der Beziehung zwischen Phänomenen gibt es positive lineare und nichtlineare und negative lineare und nichtlineare Regression.
b) Definition der Regressionsfunktion in Form einer mathematischen Gleichung der einen oder anderen Art und Ermittlung des Einflusses erklärender Variablen auf die abhängige Variable.
c) Schätzung unbekannter Werte der abhängigen Variablen. Mit der Regressionsfunktion können Sie die Werte der abhängigen Variablen innerhalb des Intervalls gegebener Werte der erklärenden Variablen reproduzieren (d. h. das Interpolationsproblem lösen) oder den Verlauf des Prozesses außerhalb des angegebenen Intervalls auswerten (d. h. Lösung des Extrapolationsproblems). Das Ergebnis ist eine Schätzung des Werts der abhängigen Variablen.

Paarregression - die Gleichung der Beziehung zweier Variablen y und x: y=f(x), wobei y die abhängige Variable (resultierendes Zeichen) ist; x - unabhängige, erklärende Variable (Feature-Faktor).

Es gibt lineare und nichtlineare Regressionen.
Lineare Regression: y = a + bx + ε
Nichtlineare Regressionen werden in zwei Klassen eingeteilt: Regressionen, die in Bezug auf die in die Analyse einbezogenen erklärenden Variablen, aber linear in Bezug auf die geschätzten Parameter sind, und Regressionen, die in Bezug auf die geschätzten Parameter nichtlinear sind.
Regressionen, die in erklärenden Variablen nicht linear sind:

Regressionen, die in den geschätzten Parametern nicht linear sind:

  • Potenz y=a x b ε
  • Exponential y=ab x ε
  • exponentiell y=e a+b x ε
Die Konstruktion der Regressionsgleichung reduziert sich auf die Schätzung ihrer Parameter. Zur Schätzung der Parameter von Regressionen, die linear in Parametern sind, wird die Methode der kleinsten Quadrate (LSM) verwendet. LSM ermöglicht es, solche Schätzungen von Parametern zu erhalten, unter denen die Summe der quadrierten Abweichungen der tatsächlichen Werte des effektiven Merkmals y von den theoretischen Werten y x minimal ist, d.h.
.
Für lineare und nichtlineare Gleichungen, die auf lineare reduziert werden können, wird das folgende System für a und b gelöst:

Sie können fertige Formeln verwenden, die sich aus diesem System ergeben:

Die Nähe der Verbindung zwischen den untersuchten Phänomenen wird durch den linearen Paarkorrelationskoeffizienten r xy für die lineare Regression (-1≤r xy ≤1) geschätzt:

und Korrelationsindex p xy - für nichtlineare Regression (0≤p xy ≤1):

Eine Einschätzung der Güte des konstruierten Modells wird durch das Bestimmtheitsmaß (Index) sowie den mittleren Approximationsfehler gegeben.
Der durchschnittliche Näherungsfehler ist die durchschnittliche Abweichung der berechneten Werte von den tatsächlichen:
.
Zulässige Wertegrenze A - nicht mehr als 8-10%.
Der durchschnittliche Elastizitätskoeffizient E gibt an, um wie viel Prozent sich das Ergebnis y im Mittel von seinem Mittelwert ändert, wenn sich der Faktor x um 1 % von seinem Mittelwert ändert:
.

Die Aufgabe der Varianzanalyse besteht darin, die Varianz der abhängigen Variablen zu analysieren:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
wobei ∑(y-y)² die Gesamtsumme der quadrierten Abweichungen ist;
∑(y x -y)² - Summe der quadratischen Abweichungen aufgrund von Regression ("erklärt" oder "faktoriell");
∑(y-y x)² - Residuensumme der quadrierten Abweichungen.
Der Anteil der durch Regression erklärten Varianz an der Gesamtvarianz des effektiven Merkmals y wird durch das Bestimmtheitsmaß (Index) R2 charakterisiert:

Das Bestimmtheitsmaß ist das Quadrat des Koeffizienten oder Korrelationsindex.

F-Test - Bewertung der Qualität der Regressionsgleichung - besteht darin, die Hypothese zu testen Aber über die statistische Bedeutungslosigkeit der Regressionsgleichung und den Indikator für die Nähe der Verbindung. Dazu wird ein Vergleich des tatsächlichen F-Fakts und der kritischen (tabellarischen) F-Tabelle der Werte des Fisher-F-Kriteriums durchgeführt. F fact wird aus dem Verhältnis der Werte der für einen Freiheitsgrad berechneten Faktor- und Restvarianzen ermittelt:
,
wobei n die Anzahl der Bevölkerungseinheiten ist; m ist die Anzahl der Parameter für Variablen x.
F table ist der maximal mögliche Wert des Kriteriums unter dem Einfluss von Zufallsfaktoren für gegebene Freiheitsgrade und Signifikanzniveau a. Signifikanzniveau a - die Wahrscheinlichkeit, die richtige Hypothese abzulehnen, sofern sie wahr ist. Üblicherweise wird a gleich 0,05 oder 0,01 genommen.
Wenn F-Tabelle< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F eine Tatsache ist, dann wird die Hypothese H etwa nicht verworfen und die statistische Insignifikanz, die Unzuverlässigkeit der Regressionsgleichung erkannt.
Um die statistische Signifikanz der Regressions- und Korrelationskoeffizienten zu beurteilen, werden Student's t-Test und Konfidenzintervalle für jeden der Indikatoren berechnet. Es wird eine Hypothese H über die zufällige Natur der Indikatoren aufgestellt, d. h. über ihre unbedeutende Differenz von Null. Die Bewertung der Signifikanz der Regressions- und Korrelationskoeffizienten mit dem Student-t-Test erfolgt durch Vergleich ihrer Werte mit der Größe des Zufallsfehlers:
; ; .
Zufällige Fehler der linearen Regressionsparameter und des Korrelationskoeffizienten werden durch die Formeln bestimmt:



Beim Vergleich der tatsächlichen und kritischen (tabellarischen) Werte der t-Statistik - t tabl und t fact - akzeptieren oder lehnen wir die Hypothese H o ab.
Die Beziehung zwischen dem Fisher-F-Test und der Student-t-Statistik wird durch die Gleichheit ausgedrückt

Wenn t-Tabelle< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t die Tatsache, dass die Hypothese H ungefähr nicht verworfen wird und die zufällige Natur der Bildung von a, b oder r xy erkannt wird.
Zur Berechnung des Konfidenzintervalls bestimmen wir für jeden Indikator den Grenzfehler D:
Δ a = t Tabelle m a , Δ b = t Tabelle m b .
Die Formeln zur Berechnung der Konfidenzintervalle lauten wie folgt:
γ ein \u003d einΔ ein; γ ein \u003d ein-Δ ein; γ a = a + Δa
γb = bΔb; γb = b-Δb; γb = b + Δb
Wenn Null in die Grenzen des Konfidenzintervalls fällt, d.h. Wenn die untere Grenze negativ und die obere Grenze positiv ist, wird angenommen, dass der geschätzte Parameter Null ist, da er nicht gleichzeitig positive und negative Werte annehmen kann.
Der Prognosewert y p wird bestimmt, indem der entsprechende (Prognose-)Wert x p in die Regressionsgleichung y x = a + b·x eingesetzt wird. Der durchschnittliche Standardfehler der Prognose m y x wird berechnet:
,
wo
und das Konfidenzintervall der Prognose wird gebildet:
γ y x = y p Δ y p ; γyxmin = yp - Δyp; γ y x max = y p + Δ y p
wobei Δ y x = t Tabelle ·m y x .

Lösungsbeispiel

Aufgabe Nummer 1. Für sieben Gebiete der Uralregion sind für 199X die Werte von zwei Zeichen bekannt.
Tabelle 1.

Erforderlich: 1. Um die Abhängigkeit von y von x zu charakterisieren, berechnen Sie die Parameter der folgenden Funktionen:
a) linear;
b) Potenzgesetz (vorher ist es notwendig, das Verfahren der Linearisierung von Variablen durch Logarithmieren beider Teile durchzuführen);
c) demonstrativ;
d) gleichseitige Hyperbel (Sie müssen auch herausfinden, wie Sie dieses Modell vorlinearisieren).
2. Bewerten Sie jedes Modell anhand des durchschnittlichen Approximationsfehlers A und des Fisher-F-Tests.

Lösung (Option Nr. 1)

Zur Berechnung der Parameter a und b der linearen Regression y=a+b·x (die Berechnung kann mit einem Taschenrechner erfolgen).
löse das System der Normalgleichungen bzgl a und b:
Aus den Ausgangsdaten berechnen wir ∑y, ∑x, ∑y x, ∑x², ∑y²:
j x ja x2 y2 yxy-y xAi
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Gesamt405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Heiraten Wert (Gesamt/n)57,89
j
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a = y - b x = 57,89 + 0,35 · 54,9 ≈ 76,88

Regressionsgleichung: y= 76,88 - 0,35X. Bei einer Erhöhung des durchschnittlichen Tageslohns um 1 Rubel. der Anteil der Ausgaben für den Kauf von Lebensmitteln wird um durchschnittlich 0,35 %-Punkte reduziert.
Berechnen Sie den linearen Koeffizienten der Paarkorrelation:

Die Kommunikation ist mäßig, umgekehrt.
Bestimmen wir das Bestimmtheitsmaß: r² xy =(-0,35)=0,127
Die Abweichung des Ergebnisses von 12,7 % erklärt sich durch die Abweichung des x-Faktors. Einsetzen der tatsächlichen Werte in die Regressionsgleichung X ermitteln wir die theoretischen (berechneten) Werte von y x . Lassen Sie uns den Wert des durchschnittlichen Näherungsfehlers A finden:

Im Durchschnitt weichen die errechneten Werte um 8,1 % von den tatsächlichen ab.
Berechnen wir das F-Kriterium:

Der erhaltene Wert weist auf die Notwendigkeit hin, die Hypothese H 0 über die zufällige Natur der aufgedeckten Abhängigkeit und die statistische Bedeutungslosigkeit der Parameter der Gleichung und des Indikators für die Nähe der Verbindung zu akzeptieren.
1b. Der Konstruktion des Potenzmodells y=a x b geht das Verfahren der Linearisierung der Variablen voraus. Im Beispiel erfolgt die Linearisierung durch Logarithmieren beider Seiten der Gleichung:
lg y=lg a + b lg x
Y=C+b Y
wobei Y=lg(y), X=lg(x), C=lg(a).

Für Berechnungen verwenden wir die Daten in Tabelle. 1.3.
Tabelle 1.3

YX YX Y2 x2 yxy-y x(y-yx)²Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Gesamt12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Mittlere Bedeutung1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Berechnen Sie C und b:

C=Y-bX = 1,7605 + 0,298 1,7370 = 2,278126
Wir erhalten eine lineare Gleichung: Y=2,278-0,298 X
Nach der Potenzierung erhalten wir: y=10 2,278 x -0,298
Setzen Sie in diese Gleichung die tatsächlichen Werte ein X, wir erhalten die theoretischen Werte des Ergebnisses. Basierend darauf berechnen wir die Indikatoren: die Enge der Verbindung - den Korrelationsindex p xy und den durchschnittlichen Annäherungsfehler A .

Die Eigenschaften des Potenzmodells zeigen, dass es den Zusammenhang etwas besser beschreibt als die lineare Funktion.

1c. Der Konstruktion der Gleichung der Exponentialkurve y \u003d a b x geht das Verfahren zur Linearisierung der Variablen voraus, wenn der Logarithmus beider Teile der Gleichung genommen wird:
lg y=lg a + x lg b
Y=C+Bx
Für Berechnungen verwenden wir die Tabellendaten.

Yx Yx Y2 x2yxy-y x(y-yx)²Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Gesamt12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Heiraten zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Die Werte der Regressionsparameter A und BEI belief sich auf:

A = Y – B x = 1,7605 + 0,0023 54,9 = 1,887
Es ergibt sich eine lineare Gleichung: Y=1,887-0,0023x. Wir potenzieren die resultierende Gleichung und schreiben sie in der üblichen Form:
y x = 10 1,887 10 -0,0023 x = 77,1 0,9947 x
Wir schätzen die Enge der Beziehung durch den Korrelationsindex p xy ab:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Gesamt405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Mittlere Bedeutung57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

Die Regressionsanalyse ist eine statistische Forschungsmethode, mit der Sie die Abhängigkeit eines Parameters von einer oder mehreren unabhängigen Variablen zeigen können. In der Vor-Computer-Ära war die Nutzung recht schwierig, insbesondere wenn es um große Datenmengen ging. Nachdem Sie heute gelernt haben, wie man eine Regression in Excel erstellt, können Sie komplexe statistische Probleme in nur wenigen Minuten lösen. Nachfolgend finden Sie konkrete Beispiele aus dem Bereich der Wirtschaftswissenschaften.

Arten der Regression

Das Konzept selbst wurde 1886 in die Mathematik eingeführt. Regression passiert:

  • linear;
  • parabolisch;
  • Energie;
  • exponentiell;
  • hyperbolisch;
  • demonstrativ;
  • logarithmisch.

Beispiel 1

Betrachten Sie das Problem, die Abhängigkeit der Anzahl der ausgeschiedenen Teammitglieder vom Durchschnittsgehalt in 6 Industrieunternehmen zu bestimmen.

Eine Aufgabe. Bei sechs Unternehmen haben wir das durchschnittliche Monatsgehalt und die Zahl der freiwilligen Austritte analysiert. In tabellarischer Form haben wir:

Die Anzahl der Personen, die gegangen sind

Gehalt

30000 Rubel

35000 Rubel

40000 Rubel

45000 Rubel

50000 Rubel

55000 Rubel

60000 Rubel

Für das Problem der Bestimmung der Abhängigkeit der Zahl der Rentner vom Durchschnittsgehalt bei 6 Unternehmen hat das Regressionsmodell die Form der Gleichung Y = a 0 + a 1 x 1 +…+a k x k , wobei x i die Einflussgrößen sind , a i sind die Regressionskoeffizienten, a k ist die Anzahl der Faktoren.

Für diese Aufgabe ist Y der Indikator für Mitarbeiter, die gegangen sind, und der Einflussfaktor ist das Gehalt, das wir mit X bezeichnen.

Nutzung der Funktionen der Tabellenkalkulation "Excel"

Der Regressionsanalyse in Excel muss die Anwendung integrierter Funktionen auf die verfügbaren Tabellendaten vorausgehen. Verwenden Sie für diese Zwecke jedoch besser das sehr nützliche Add-In „Analysis Toolkit“. Um es zu aktivieren, benötigen Sie:

  • Gehen Sie auf der Registerkarte "Datei" zum Abschnitt "Optionen".
  • Wählen Sie im sich öffnenden Fenster die Zeile "Add-ons" aus;
  • Klicken Sie unten rechts neben der Zeile „Verwaltung“ auf die Schaltfläche „Los“.
  • Aktivieren Sie das Kontrollkästchen neben dem Namen "Analysepaket" und bestätigen Sie Ihre Aktionen mit einem Klick auf "OK".

Wenn alles richtig gemacht wurde, erscheint die gewünschte Schaltfläche auf der rechten Seite der Registerkarte Daten, die sich über dem Excel-Arbeitsblatt befindet.

im Excel-Format

Jetzt, da wir alle notwendigen virtuellen Werkzeuge zur Durchführung ökonometrischer Berechnungen zur Hand haben, können wir mit der Lösung unseres Problems beginnen. Dafür:

  • Klicken Sie auf die Schaltfläche „Datenanalyse“;
  • Klicken Sie im sich öffnenden Fenster auf die Schaltfläche "Regression".
  • Geben Sie auf der angezeigten Registerkarte den Wertebereich für Y (die Anzahl der gekündigten Mitarbeiter) und für X (ihre Gehälter) ein.
  • Wir bestätigen unsere Aktionen durch Drücken der Schaltfläche "Ok".

Als Ergebnis füllt das Programm automatisch ein neues Tabellenblatt mit Regressionsanalysedaten. Beachten Sie! Excel kann den für diesen Zweck bevorzugten Speicherort manuell festlegen. Beispielsweise könnte es sich um dasselbe Blatt handeln, in dem sich die Y- und X-Werte befinden, oder sogar um eine neue Arbeitsmappe, die speziell zum Speichern solcher Daten entwickelt wurde.

Analyse der Regressionsergebnisse für R-Quadrat

In Excel sehen die bei der Verarbeitung der Daten des betrachteten Beispiels gewonnenen Daten so aus:

Zunächst sollten Sie auf den Wert des R-Quadrats achten. Es ist das Bestimmtheitsmaß. In diesem Beispiel ist R-Quadrat = 0,755 (75,5 %), d. h. die berechneten Parameter des Modells erklären die Beziehung zwischen den betrachteten Parametern zu 75,5 %. Je höher der Wert des Bestimmtheitsmaßes ist, desto geeigneter ist das gewählte Modell für eine bestimmte Aufgabe. Es wird angenommen, dass es die reale Situation mit einem R-Quadrat-Wert über 0,8 korrekt beschreibt. Wenn R-Quadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Verhältnis Analyse

Die Zahl 64,1428 zeigt, was der Wert von Y sein wird, wenn alle Variablen xi in dem Modell, das wir betrachten, auf Null gesetzt werden. Mit anderen Worten, es kann argumentiert werden, dass der Wert des analysierten Parameters auch von anderen Faktoren beeinflusst wird, die nicht in einem bestimmten Modell beschrieben werden.

Der nächste Koeffizient -0,16285, der sich in Zelle B18 befindet, zeigt das Gewicht des Einflusses der Variable X auf Y. Das bedeutet, dass das durchschnittliche Monatsgehalt der Arbeitnehmer innerhalb des betrachteten Modells mit einem Gewicht von -0,16285 auf die Anzahl der Aussteiger wirkt, d. h. der Grad seines Einflusses überhaupt gering. Das "-"-Zeichen zeigt an, dass der Koeffizient einen negativen Wert hat. Das liegt auf der Hand, denn jeder weiß, dass je höher das Gehalt im Unternehmen ist, desto weniger Menschen äußern den Wunsch, den Arbeitsvertrag zu kündigen oder zu kündigen.

Mehrfache Regression

Dieser Begriff bezeichnet eine Verbindungsgleichung mit mehreren unabhängigen Variablen der Form:

y \u003d f (x 1 + x 2 + ... x m) + ε, wobei y das effektive Merkmal (abhängige Variable) und x 1 , x 2 , ... x m die Faktorfaktoren (unabhängige Variablen) sind.

Parameter Schätzung

Bei der multiplen Regression (MR) wird sie nach der Methode der kleinsten Quadrate (OLS) durchgeführt. Für lineare Gleichungen der Form Y = a + b 1 x 1 +…+b m x m + ε konstruieren wir ein System von Normalgleichungen (siehe unten)

Um das Prinzip der Methode zu verstehen, betrachten Sie den Zwei-Faktoren-Fall. Dann haben wir eine durch die Formel beschriebene Situation

Von hier erhalten wir:

wobei σ die Varianz des entsprechenden Merkmals ist, das sich im Index widerspiegelt.

LSM ist auf die MP-Gleichung auf einer standardisierbaren Skala anwendbar. In diesem Fall erhalten wir die Gleichung:

wobei t y , t x 1, … t xm standardisierte Variablen sind, für die die Mittelwerte 0 sind; β i sind die standardisierten Regressionskoeffizienten, und die Standardabweichung ist 1.

Bitte beachten Sie, dass alle β i in diesem Fall als normalisiert und zentralisiert eingestellt sind, sodass ihr Vergleich miteinander als korrekt und zulässig angesehen wird. Außerdem ist es üblich, Faktoren herauszufiltern und diejenigen mit den kleinsten Werten von βi zu verwerfen.

Problem mit linearer Regressionsgleichung

Angenommen, es gibt eine Tabelle der Preisdynamik eines bestimmten Produkts N während der letzten 8 Monate. Es muss entschieden werden, ob es ratsam ist, seine Partie zu einem Preis von 1850 Rubel/t zu kaufen.

Monatsnummer

Monatsname

Preis von Artikel N

1750 Rubel pro Tonne

1755 Rubel pro Tonne

1767 Rubel pro Tonne

1760 Rubel pro Tonne

1770 Rubel pro Tonne

1790 Rubel pro Tonne

1810 Rubel pro Tonne

1840 Rubel pro Tonne

Um dieses Problem in der Excel-Tabelle zu lösen, müssen Sie das bereits aus dem obigen Beispiel bekannte Datenanalyse-Tool verwenden. Wählen Sie als nächstes den Abschnitt "Regression" und stellen Sie die Parameter ein. Es ist zu beachten, dass im Feld "Eingabeintervall Y" ein Wertebereich für die abhängige Variable (in diesem Fall der Preis eines Produkts in bestimmten Monaten des Jahres) eingegeben werden muss und im Feld "Eingabe Intervall X" - für die unabhängige Variable (Monatsnummer). Bestätigen Sie die Aktion mit „Ok“. Auf einem neuen Blatt (wenn es so angegeben wurde) erhalten wir Daten für die Regression.

Basierend darauf erstellen wir eine lineare Gleichung der Form y=ax+b, wobei die Parameter a und b die Koeffizienten der Zeile mit dem Namen der Monatsnummer und der Koeffizienten und der Zeile „Y-Schnittpunkt“ aus der sind Blatt mit den Ergebnissen der Regressionsanalyse. Somit wird die lineare Regressionsgleichung (LE) für Problem 3 wie folgt geschrieben:

Produktpreis N = 11,714* Monatsnummer + 1727,54.

oder in algebraischer Notation

y = 11,714 x + 1727,54

Analyse der Ergebnisse

Um zu entscheiden, ob die resultierende lineare Regressionsgleichung angemessen ist, werden multiple Korrelationskoeffizienten (MCC) und Bestimmungskoeffizienten sowie der Fisher-Test und der Student-Test verwendet. In der Excel-Tabelle mit Regressionsergebnissen erscheinen sie jeweils unter den Namen multiples R, R-Quadrat, F-Statistik und t-Statistik.

KMC R ermöglicht es, die Enge der probabilistischen Beziehung zwischen den unabhängigen und abhängigen Variablen zu beurteilen. Sein hoher Wert weist auf eine ziemlich starke Beziehung zwischen den Variablen "Zahl des Monats" und "Warenpreis N in Rubel pro 1 Tonne" hin. Die Art dieser Beziehung bleibt jedoch unbekannt.

Das Quadrat des Bestimmtheitsmaßes R 2 (RI) ist ein numerisches Merkmal des Anteils an der Gesamtstreuung und zeigt an, welcher Anteil der Streuung an den experimentellen Daten, d. h. Werte der abhängigen Variablen entspricht der linearen Regressionsgleichung. Bei der betrachteten Aufgabe beträgt dieser Wert 84,8 %, d. h. die statistischen Daten werden mit hoher Genauigkeit durch die erhaltene SD beschrieben.

Die F-Statistik, auch Fisher-Test genannt, wird verwendet, um die Signifikanz einer linearen Beziehung zu bewerten und die Hypothese ihrer Existenz zu widerlegen oder zu bestätigen.

(Schülerkriterium) hilft, die Signifikanz des Koeffizienten mit einem unbekannten oder freien Term einer linearen Beziehung zu bewerten. Wenn der Wert des t-Kriteriums > t cr ist, wird die Hypothese der Bedeutungslosigkeit des freien Terms der linearen Gleichung verworfen.

Bei dem betrachteten Problem für das freie Mitglied wurde unter Verwendung der Excel-Tools erhalten, dass t = 169,20903 und p = 2,89E-12, d. h. wir haben eine Wahrscheinlichkeit von Null, dass die richtige Hypothese über die Bedeutungslosigkeit des freien Mitglieds zutrifft Abgelehnt werden. Für den Koeffizienten bei Unbekannt t=5,79405 und p=0,001158. Mit anderen Worten, die Wahrscheinlichkeit, dass die richtige Hypothese über die Geringfügigkeit des Koeffizienten für das Unbekannte verworfen wird, beträgt 0,12 %.

Somit kann argumentiert werden, dass die resultierende lineare Regressionsgleichung angemessen ist.

Das Problem der Zweckmäßigkeit des Kaufs eines Aktienpakets

Die multiple Regression in Excel wird mit demselben Datenanalysetool durchgeführt. Betrachten Sie ein spezifisches angewandtes Problem.

Die Geschäftsführung von NNN muss entscheiden, ob es ratsam ist, eine 20 %-Beteiligung an MMM SA zu erwerben. Die Kosten für das Paket (JV) betragen 70 Millionen US-Dollar. NNN-Spezialisten sammelten Daten über ähnliche Transaktionen. Es wurde beschlossen, den Wert des Aktienpakets nach folgenden Parametern, ausgedrückt in Millionen US-Dollar, zu bewerten:

  • Kreditorenbuchhaltung (VK);
  • Jahresumsatz (VO);
  • Forderungen (VD);
  • Kosten des Anlagevermögens (SOF).

Zusätzlich wird der Parameter Lohnrückstände des Unternehmens (V3 P) in Tausend US-Dollar verwendet.

Lösung mit Excel-Tabelle

Zunächst müssen Sie eine Tabelle mit Anfangsdaten erstellen. Es sieht aus wie das:

  • Rufen Sie das Fenster "Datenanalyse" auf;
  • Wählen Sie den Abschnitt "Regression" aus.
  • Geben Sie im Feld "Eingabeintervall Y" den Wertebereich der abhängigen Variablen aus Spalte G ein.
  • Klicken Sie auf das Symbol mit einem roten Pfeil rechts neben dem Fenster "Eingabeintervall X" und wählen Sie den Bereich aller Werte aus den Spalten B, C, D, F auf dem Blatt aus.

Wählen Sie „Neues Arbeitsblatt“ und klicken Sie auf „Ok“.

Holen Sie sich die Regressionsanalyse für das gegebene Problem.

Prüfung der Ergebnisse und Schlussfolgerungen

„Wir erheben“ aus den oben in der Excel-Tabelle dargestellten gerundeten Daten die Regressionsgleichung:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

In einer bekannteren mathematischen Form kann es geschrieben werden als:

y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844

Daten für JSC "MMM" sind in der Tabelle dargestellt:

Setzt man sie in die Regressionsgleichung ein, erhalten sie einen Wert von 64,72 Millionen US-Dollar. Das bedeutet, dass die Aktien von JSC MMM nicht gekauft werden sollten, da ihr Wert von 70 Millionen US-Dollar eher überbewertet ist.

Wie Sie sehen, war es durch die Verwendung der Excel-Tabelle und der Regressionsgleichung möglich, eine fundierte Entscheidung über die Durchführbarkeit einer sehr spezifischen Transaktion zu treffen.

Jetzt wissen Sie, was Regression ist. Die oben diskutierten Beispiele in Excel helfen Ihnen, praktische Probleme aus dem Bereich der Ökonometrie zu lösen.