Abschätzung der Signifikanz von Koeffizienten und Gleichungen. Schätzung der Signifikanz der Parameter der Gleichung der gepaarten linearen Regression

Die Regressionsanalyse ist eine statistische Forschungsmethode, mit der Sie die Abhängigkeit eines Parameters von einer oder mehreren unabhängigen Variablen zeigen können. In der Vor-Computer-Ära war die Nutzung recht schwierig, insbesondere wenn es um große Datenmengen ging. Nachdem Sie heute gelernt haben, wie man eine Regression in Excel erstellt, können Sie komplexe statistische Probleme in nur wenigen Minuten lösen. Nachfolgend finden Sie konkrete Beispiele aus dem Bereich der Wirtschaftswissenschaften.

Arten der Regression

Das Konzept selbst wurde 1886 in die Mathematik eingeführt. Regression passiert:

  • linear;
  • parabolisch;
  • Energie;
  • exponentiell;
  • hyperbolisch;
  • demonstrativ;
  • logarithmisch.

Beispiel 1

Betrachten Sie das Problem, die Abhängigkeit der Anzahl der ausgeschiedenen Teammitglieder vom Durchschnittsgehalt in 6 Industrieunternehmen zu bestimmen.

Eine Aufgabe. Bei sechs Unternehmen haben wir das durchschnittliche Monatsgehalt und die Zahl der freiwilligen Austritte analysiert. In tabellarischer Form haben wir:

Die Anzahl der Personen, die gegangen sind

Gehalt

30000 Rubel

35000 Rubel

40000 Rubel

45000 Rubel

50000 Rubel

55000 Rubel

60000 Rubel

Für das Problem der Bestimmung der Abhängigkeit der Zahl der Rentner vom Durchschnittsgehalt bei 6 Unternehmen hat das Regressionsmodell die Form der Gleichung Y = a 0 + a 1 x 1 +…+a k x k , wobei x i die Einflussgrößen sind , a i sind die Regressionskoeffizienten, a k ist die Anzahl der Faktoren.

Für diese Aufgabe ist Y der Indikator für Mitarbeiter, die gegangen sind, und der Einflussfaktor ist das Gehalt, das wir mit X bezeichnen.

Nutzung der Funktionen der Tabellenkalkulation "Excel"

Der Regressionsanalyse in Excel muss die Anwendung integrierter Funktionen auf die verfügbaren Tabellendaten vorausgehen. Verwenden Sie für diese Zwecke jedoch besser das sehr nützliche Add-In „Analysis Toolkit“. Um es zu aktivieren, benötigen Sie:

  • Gehen Sie auf der Registerkarte "Datei" zum Abschnitt "Optionen".
  • Wählen Sie im sich öffnenden Fenster die Zeile "Add-ons" aus;
  • Klicken Sie unten rechts neben der Zeile „Verwaltung“ auf die Schaltfläche „Los“.
  • Aktivieren Sie das Kontrollkästchen neben dem Namen "Analysepaket" und bestätigen Sie Ihre Aktionen mit einem Klick auf "OK".

Wenn alles richtig gemacht wurde, erscheint die gewünschte Schaltfläche auf der rechten Seite der Registerkarte Daten, die sich über dem Excel-Arbeitsblatt befindet.

im Excel-Format

Jetzt, da wir alle notwendigen virtuellen Werkzeuge zur Durchführung ökonometrischer Berechnungen zur Hand haben, können wir mit der Lösung unseres Problems beginnen. Dafür:

  • Klicken Sie auf die Schaltfläche „Datenanalyse“;
  • Klicken Sie im sich öffnenden Fenster auf die Schaltfläche "Regression".
  • Geben Sie auf der angezeigten Registerkarte den Wertebereich für Y (die Anzahl der gekündigten Mitarbeiter) und für X (ihre Gehälter) ein.
  • Wir bestätigen unsere Aktionen durch Drücken der Schaltfläche "Ok".

Als Ergebnis füllt das Programm automatisch ein neues Tabellenblatt mit Regressionsanalysedaten. Beachten Sie! Excel kann den für diesen Zweck bevorzugten Speicherort manuell festlegen. Beispielsweise könnte es sich um dasselbe Blatt handeln, in dem sich die Y- und X-Werte befinden, oder sogar um eine neue Arbeitsmappe, die speziell zum Speichern solcher Daten entwickelt wurde.

Analyse der Regressionsergebnisse für R-Quadrat

In Excel sehen die bei der Verarbeitung der Daten des betrachteten Beispiels gewonnenen Daten so aus:

Zunächst sollten Sie auf den Wert des R-Quadrats achten. Es ist das Bestimmtheitsmaß. In diesem Beispiel ist R-Quadrat = 0,755 (75,5 %), d. h. die berechneten Parameter des Modells erklären die Beziehung zwischen den betrachteten Parametern zu 75,5 %. Je höher der Wert des Bestimmtheitsmaßes ist, desto geeigneter ist das gewählte Modell für eine bestimmte Aufgabe. Es wird angenommen, dass es die reale Situation mit einem R-Quadrat-Wert über 0,8 korrekt beschreibt. Wenn R-Quadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Verhältnis Analyse

Die Zahl 64,1428 zeigt, was der Wert von Y sein wird, wenn alle Variablen xi in dem Modell, das wir betrachten, auf Null gesetzt werden. Mit anderen Worten, es kann argumentiert werden, dass der Wert des analysierten Parameters auch von anderen Faktoren beeinflusst wird, die nicht in einem bestimmten Modell beschrieben werden.

Der nächste Koeffizient -0,16285, der sich in Zelle B18 befindet, zeigt das Gewicht des Einflusses der Variable X auf Y. Das bedeutet, dass das durchschnittliche Monatsgehalt der Arbeitnehmer innerhalb des betrachteten Modells mit einem Gewicht von -0,16285 auf die Anzahl der Aussteiger wirkt, also auf die Anzahl der Aussteiger. der Grad seines Einflusses überhaupt gering. Das "-"-Zeichen zeigt an, dass der Koeffizient einen negativen Wert hat. Das liegt auf der Hand, denn jeder weiß, dass je höher das Gehalt im Unternehmen ist, desto weniger Menschen äußern den Wunsch, den Arbeitsvertrag zu kündigen oder zu kündigen.

Mehrfache Regression

Dieser Begriff bezeichnet eine Verbindungsgleichung mit mehreren unabhängigen Variablen der Form:

y \u003d f (x 1 + x 2 + ... x m) + ε, wobei y das effektive Merkmal (abhängige Variable) und x 1 , x 2 , ... x m die Faktorfaktoren (unabhängige Variablen) sind.

Parameter Schätzung

Bei der multiplen Regression (MR) wird sie nach der Methode der kleinsten Quadrate (OLS) durchgeführt. Für lineare Gleichungen der Form Y = a + b 1 x 1 +…+b m x m + ε konstruieren wir ein System von Normalgleichungen (siehe unten)

Um das Prinzip der Methode zu verstehen, betrachten Sie den Zwei-Faktoren-Fall. Dann haben wir eine durch die Formel beschriebene Situation

Von hier erhalten wir:

wobei σ die Varianz des entsprechenden Merkmals ist, das sich im Index widerspiegelt.

LSM ist auf die MP-Gleichung auf einer standardisierbaren Skala anwendbar. In diesem Fall erhalten wir die Gleichung:

wobei t y , t x 1, … t xm standardisierte Variablen sind, für die die Mittelwerte 0 sind; β i sind die standardisierten Regressionskoeffizienten, und die Standardabweichung ist 1.

Bitte beachten Sie, dass alle β i in diesem Fall als normalisiert und zentralisiert eingestellt sind, sodass ihr Vergleich miteinander als korrekt und zulässig angesehen wird. Außerdem ist es üblich, Faktoren herauszufiltern und diejenigen mit den kleinsten Werten von βi zu verwerfen.

Problem mit linearer Regressionsgleichung

Angenommen, es gibt eine Tabelle der Preisdynamik eines bestimmten Produkts N während der letzten 8 Monate. Es muss entschieden werden, ob es ratsam ist, seine Partie zu einem Preis von 1850 Rubel/t zu kaufen.

Monatsnummer

Monatsname

Preis von Artikel N

1750 Rubel pro Tonne

1755 Rubel pro Tonne

1767 Rubel pro Tonne

1760 Rubel pro Tonne

1770 Rubel pro Tonne

1790 Rubel pro Tonne

1810 Rubel pro Tonne

1840 Rubel pro Tonne

Um dieses Problem in der Excel-Tabelle zu lösen, müssen Sie das bereits aus dem obigen Beispiel bekannte Datenanalyse-Tool verwenden. Wählen Sie als nächstes den Abschnitt "Regression" und stellen Sie die Parameter ein. Es ist zu beachten, dass im Feld "Eingabeintervall Y" ein Wertebereich für die abhängige Variable (in diesem Fall der Preis eines Produkts in bestimmten Monaten des Jahres) eingegeben werden muss und im Feld "Eingabe Intervall X" - für die unabhängige Variable (Monatsnummer). Bestätigen Sie die Aktion mit „Ok“. Auf einem neuen Blatt (wenn es so angegeben wurde) erhalten wir Daten für die Regression.

Basierend darauf erstellen wir eine lineare Gleichung der Form y=ax+b, wobei die Parameter a und b die Koeffizienten der Zeile mit dem Namen der Monatsnummer und der Koeffizienten und der Zeile „Y-Schnittpunkt“ aus der sind Blatt mit den Ergebnissen der Regressionsanalyse. Somit wird die lineare Regressionsgleichung (LE) für Problem 3 wie folgt geschrieben:

Produktpreis N = 11,714* Monatsnummer + 1727,54.

oder in algebraischer Notation

y = 11,714 x + 1727,54

Analyse der Ergebnisse

Um zu entscheiden, ob die resultierende lineare Regressionsgleichung angemessen ist, werden multiple Korrelationskoeffizienten (MCC) und Bestimmungskoeffizienten sowie der Fisher-Test und der Student-Test verwendet. In der Excel-Tabelle mit Regressionsergebnissen erscheinen sie jeweils unter den Namen multiples R, R-Quadrat, F-Statistik und t-Statistik.

KMC R ermöglicht es, die Enge der probabilistischen Beziehung zwischen den unabhängigen und abhängigen Variablen zu beurteilen. Sein hoher Wert weist auf eine ziemlich starke Beziehung zwischen den Variablen "Zahl des Monats" und "Warenpreis N in Rubel pro 1 Tonne" hin. Die Art dieser Beziehung bleibt jedoch unbekannt.

Das Quadrat des Bestimmtheitsmaßes R 2 (RI) ist ein numerisches Merkmal des Anteils an der Gesamtstreuung und zeigt an, welcher Anteil der Streuung an den experimentellen Daten, d. h. Werte der abhängigen Variablen entspricht der linearen Regressionsgleichung. Bei der betrachteten Aufgabe beträgt dieser Wert 84,8 %, d. h. die statistischen Daten werden mit hoher Genauigkeit durch die erhaltene SD beschrieben.

Die F-Statistik, auch Fisher-Test genannt, wird verwendet, um die Signifikanz einer linearen Beziehung zu bewerten und die Hypothese ihrer Existenz zu widerlegen oder zu bestätigen.

(Schülerkriterium) hilft, die Signifikanz des Koeffizienten mit einem unbekannten oder freien Term einer linearen Beziehung zu bewerten. Wenn der Wert des t-Kriteriums > t cr ist, wird die Hypothese der Bedeutungslosigkeit des freien Terms der linearen Gleichung verworfen.

In dem betrachteten Problem für das freie Mitglied wurde unter Verwendung der Excel-Tools erhalten, dass t = 169,20903 und p = 2,89E-12, d. h. wir haben eine Nullwahrscheinlichkeit, dass die richtige Hypothese über die Bedeutungslosigkeit des freien Mitglieds sein wird abgelehnt. Für den Koeffizienten bei Unbekannt t=5,79405 und p=0,001158. Mit anderen Worten, die Wahrscheinlichkeit, dass die richtige Hypothese über die Geringfügigkeit des Koeffizienten für das Unbekannte verworfen wird, beträgt 0,12 %.

Somit kann argumentiert werden, dass die resultierende lineare Regressionsgleichung angemessen ist.

Das Problem der Zweckmäßigkeit des Kaufs eines Aktienpakets

Die multiple Regression in Excel wird mit demselben Datenanalysetool durchgeführt. Betrachten Sie ein spezifisches angewandtes Problem.

Die Geschäftsführung von NNN muss entscheiden, ob es ratsam ist, eine 20 %-Beteiligung an MMM SA zu erwerben. Die Kosten für das Paket (JV) betragen 70 Millionen US-Dollar. NNN-Spezialisten sammelten Daten über ähnliche Transaktionen. Es wurde beschlossen, den Wert des Aktienpakets nach folgenden Parametern, ausgedrückt in Millionen US-Dollar, zu bewerten:

  • Kreditorenbuchhaltung (VK);
  • Jahresumsatz (VO);
  • Forderungen (VD);
  • Kosten des Anlagevermögens (SOF).

Zusätzlich wird der Parameter Lohnrückstände des Unternehmens (V3 P) in Tausend US-Dollar verwendet.

Lösung mit Excel-Tabelle

Zunächst müssen Sie eine Tabelle mit Anfangsdaten erstellen. Es sieht aus wie das:

  • Rufen Sie das Fenster "Datenanalyse" auf;
  • Wählen Sie den Abschnitt "Regression" aus.
  • Geben Sie im Feld "Eingabeintervall Y" den Wertebereich der abhängigen Variablen aus Spalte G ein.
  • Klicken Sie auf das Symbol mit einem roten Pfeil rechts neben dem Fenster "Eingabeintervall X" und wählen Sie den Bereich aller Werte aus den Spalten B, C, D, F auf dem Blatt aus.

Wählen Sie „Neues Arbeitsblatt“ und klicken Sie auf „Ok“.

Holen Sie sich die Regressionsanalyse für das gegebene Problem.

Prüfung der Ergebnisse und Schlussfolgerungen

„Wir erheben“ aus den oben in der Excel-Tabelle dargestellten gerundeten Daten die Regressionsgleichung:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

In einer bekannteren mathematischen Form kann es geschrieben werden als:

y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844

Daten für JSC "MMM" sind in der Tabelle dargestellt:

Setzt man sie in die Regressionsgleichung ein, erhalten sie einen Wert von 64,72 Millionen US-Dollar. Das bedeutet, dass die Aktien von JSC MMM nicht gekauft werden sollten, da ihr Wert von 70 Millionen US-Dollar eher überbewertet ist.

Wie Sie sehen, war es durch die Verwendung der Excel-Tabelle und der Regressionsgleichung möglich, eine fundierte Entscheidung über die Durchführbarkeit einer sehr spezifischen Transaktion zu treffen.

Jetzt wissen Sie, was Regression ist. Die oben diskutierten Beispiele in Excel helfen Ihnen, praktische Probleme aus dem Bereich der Ökonometrie zu lösen.

Nachdem die lineare Regressionsgleichung gefunden wurde, wird die Signifikanz sowohl der Gleichung als Ganzes als auch ihrer einzelnen Parameter bewertet.

Überprüfen Sie die Signifikanz der Regressionsgleichung - bedeutet festzustellen, ob das mathematische Modell, das die Beziehung zwischen Variablen ausdrückt, experimentellen Daten entspricht und ob genügend erklärende Variablen in der Gleichung enthalten sind (eine oder mehrere), um die abhängige Variable zu beschreiben.

Signifikanztests basieren auf der Varianzanalyse.

Nach der Idee der Varianzanalyse wird die Gesamtsumme der quadratischen Abweichungen (RMS) von y vom Mittelwert in zwei Teile zerlegt – erklärt und unerklärt:

bzw.:

Hier gibt es zwei Extremfälle: wenn die Gesamtstandardabweichung genau gleich dem Residuum ist und wenn die Gesamtstandardabweichung gleich der Fakultät ist.

Im ersten Fall hat der x-Faktor keinen Einfluss auf das Ergebnis, die gesamte Varianz von y ist auf den Einfluss anderer Faktoren zurückzuführen, die Regressionslinie verläuft parallel zur Ox-Achse und die Gleichung sollte so aussehen.

Im zweiten Fall haben andere Faktoren keinen Einfluss auf das Ergebnis, y ist funktional mit x verbunden und die Reststandardabweichung ist null.

In der Praxis sind jedoch beide Begriffe auf der rechten Seite vorhanden. Die Eignung der Regressionsgerade zur Vorhersage hängt davon ab, wie viel der Gesamtvarianz in y durch die erklärte Varianz erklärt wird. Ist der erklärte RMSD größer als der Residual-RMSD, dann ist die Regressionsgleichung statistisch signifikant und der x-Faktor wirkt sich signifikant auf das y-Ergebnis aus. Dies ist gleichbedeutend damit, dass sich das Bestimmtheitsmaß der Eins nähert.

Die Anzahl der Freiheitsgrade (df-Freiheitsgrade) ist die Anzahl der unabhängig variablen Merkmalswerte.

Die Gesamtstandardabweichung erfordert (n-1) unabhängige Abweichungen,

Die faktorielle Standardabweichung hat einen Freiheitsgrad, und

Somit können wir schreiben:

Aus diesem Gleichgewicht bestimmen wir, dass = n-2.

Indem wir jede Standardabweichung durch die Anzahl ihrer Freiheitsgrade dividieren, erhalten wir das mittlere Abweichungsquadrat oder die Varianz pro Freiheitsgrad: - Gesamtvarianz, - Fakultät, - Residuum.

Analyse der statistischen Signifikanz linearer Regressionskoeffizienten

Obwohl angenommen wird, dass die theoretischen Werte der Koeffizienten der linearen Abhängigkeitsgleichung konstant sind, sind die Schätzungen von a und b dieser Koeffizienten, die im Verlauf der Konstruktion der Gleichung aus Zufallsstichprobendaten erhalten werden, Zufallsvariablen. Wenn die Regressionsfehler normalverteilt sind, dann sind auch die Koeffizientenschätzungen normalverteilt und können durch ihren Mittelwert und ihre Varianz charakterisiert werden. Daher beginnt die Analyse der Koeffizienten mit der Berechnung dieser Merkmale.

Koeffizientenvarianzen werden durch die Formeln berechnet:

Varianz des Regressionskoeffizienten:

wobei die Restdispersion pro Freiheitsgrad ist.

Parameterstreuung:

Daher wird der Standardfehler des Regressionskoeffizienten durch die Formel bestimmt:

Der Standardfehler des Parameters wird durch die Formel bestimmt:

Sie dienen dazu, Nullhypothesen zu testen, dass der wahre Wert des Regressionskoeffizienten b oder Achsenabschnitts a Null ist: .

Die Alternativhypothese hat die Form: .

t-Statistiken haben eine t-Student-Verteilung mit Freiheitsgraden. Gemäß den Verteilungstabellen von Student wird bei einem bestimmten Signifikanzniveau b und Freiheitsgraden ein kritischer Wert gefunden.

Wenn dann die Nullhypothese verworfen werden muss, gelten die Koeffizienten als statistisch signifikant.

Wenn, dann kann die Nullhypothese nicht verworfen werden. (Wenn der Koeffizient b statistisch unbedeutend ist, sollte die Gleichung so aussehen, und dies bedeutet, dass zwischen den Merkmalen kein Zusammenhang besteht. Wenn der Koeffizient a statistisch unbedeutend ist, wird empfohlen, die neue Gleichung in der Form auszuwerten).

Intervallschätzungen der Koeffizienten der linearen Regressionsgleichung:

Konfidenzintervall für a: .

Konfidenzintervall für b:

Dies bedeutet, dass bei einer gegebenen Zuverlässigkeit (wo ist das Signifikanzniveau) die wahren Werte von a, b in den angegebenen Intervallen liegen.

Der Regressionskoeffizient hat eine klare wirtschaftliche Interpretation, daher sollten die Vertrauensgrenzen des Intervalls keine inkonsistenten Ergebnisse enthalten, z. B. Sie sollten keine Null enthalten.

Analyse der statistischen Signifikanz der Gleichung als Ganzes.

Fisher-Verteilung in der Regressionsanalyse

Die Beurteilung der Signifikanz der Regressionsgleichung als Ganzes erfolgt mit dem Fisher's F-Test. In diesem Fall wird die Nullhypothese aufgestellt, dass alle Regressionskoeffizienten, mit Ausnahme des freien Terms a, gleich Null sind und somit der x-Faktor das Ergebnis y (oder) nicht beeinflusst.

Der Wert des F-Kriteriums ist dem Bestimmtheitsmaß zugeordnet. Im Fall von multiple Regression:

wobei m die Anzahl der unabhängigen Variablen ist.

Im Fall von paarweise Regression Formel F - Statistik hat die Form:

Bei der Ermittlung des Tabellenwerts des F-Kriteriums werden ein Signifikanzniveau (normalerweise 0,05 oder 0,01) und zwei Freiheitsgrade festgelegt: - bei multipler Regression, - bei gepaarter Regression.

Wenn, dann wird es verworfen und es wird auf die Signifikanz des statistischen Zusammenhangs zwischen y und x geschlossen.

Wenn, dann wird die als statistisch unbedeutend angesehene Wahrscheinlichkeit der Regressionsgleichung nicht verworfen.

Kommentar. In der paarweisen linearen Regression. Auch deshalb. Somit ist das Testen von Hypothesen über die Signifikanz der Regressions- und Korrelationskoeffizienten äquivalent zum Testen der Hypothese über die Signifikanz der linearen Regressionsgleichung.

Mit der Fisher-Verteilung kann nicht nur die Hypothese getestet werden, dass alle linearen Regressionskoeffizienten gleichzeitig gleich Null sind, sondern auch die Hypothese, dass einige dieser Koeffizienten gleich Null sind. Dies ist wichtig bei der Entwicklung eines linearen Regressionsmodells, da es erlaubt, die Validität des Ausschlusses einzelner Variablen oder ihrer Gruppen aus der Anzahl der erklärenden Variablen oder umgekehrt ihrer Einbeziehung in diese Anzahl zu beurteilen.

Angenommen, es wurde beispielsweise zunächst eine multiple lineare Regression für n Beobachtungen mit m erklärenden Variablen geschätzt, und das Bestimmtheitsmaß ist gleich, dann werden die letzten k Variablen aus der Liste der erklärenden Variablen ausgeschlossen, und die Gleichung, für die der Koeffizient gilt der Determination ist (, weil (jede zusätzliche Variable einen noch so kleinen Teil der Variation in der abhängigen Variable erklärt).

Um die Hypothese über die gleichzeitige Nullgleichheit aller Koeffizienten mit ausgeschlossenen Variablen zu testen, wird der Wert berechnet

die eine Fisher-Verteilung mit Freiheitsgraden hat.

Gemäß den Verteilungstabellen von Fisher finden sie bei einem bestimmten Signifikanzniveau. Und wenn, dann wird die Nullhypothese verworfen. In diesem Fall ist es falsch, alle k Variablen aus der Gleichung auszuschließen.

Eine ähnliche Überlegung kann bezüglich der Gültigkeit des Einschließens einer oder mehrerer k neuer erklärender Variablen in die Regressionsgleichung durchgeführt werden.

In diesem Fall wird F berechnet - Statistik

eine Verteilung haben. Und wenn sie ein kritisches Niveau überschreitet, dann erklärt die Einbeziehung neuer Variablen einen erheblichen Teil der zuvor unerklärten Varianz der abhängigen Variablen (d. h. die Einbeziehung neuer erklärender Variablen ist gerechtfertigt).

Bemerkungen. 1. Es ist ratsam, neue Variablen einzeln aufzunehmen.

2. Um die F - Statistik zu berechnen, ist es wünschenswert, bei der Berücksichtigung der Einbeziehung von erklärenden Variablen in die Gleichung das Bestimmtheitsmaß zu berücksichtigen, das für die Anzahl der Freiheitsgrade angepasst ist.

F - Fisher-Statistik wird auch verwendet, um die Hypothese über die Koinzidenz der Regressionsgleichungen für einzelne Gruppen von Beobachtungen zu testen.

Seien 2 Stichproben vorhanden, die jeweils Beobachtungen enthalten. Für jede dieser Proben wurde die Spezies-Regressionsgleichung ausgewertet. Die Standardabweichung von der Regressionslinie (d. h.) sei für sie jeweils gleich, .

Die Nullhypothese wird getestet: dass alle entsprechenden Koeffizienten dieser Gleichungen einander gleich sind, d.h. die Regressionsgleichung für diese Stichproben ist dieselbe.

Lassen Sie die Regressionsgleichung des gleichen Typs für alle Beobachtungen auf einmal schätzen, und RMS.

Dann wird F berechnet - Statistik nach der Formel:

Es hat eine Fisher-Verteilung mit Freiheitsgraden. F - Statistik wird nahe Null sein, wenn die Gleichung für beide Proben gleich ist, weil in diesem Fall. Diese. wenn, dann wird die Nullhypothese akzeptiert.

Wenn, dann wird die Nullhypothese verworfen und eine einzelne Regressionsgleichung kann nicht konstruiert werden.

Nach Auswertung der Parameter a und b, haben wir eine Regressionsgleichung erhalten, mit der wir die Werte schätzen können j nach eingestellten Werten x. Es liegt nahe anzunehmen, dass die berechneten Werte der abhängigen Variablen nicht mit den tatsächlichen Werten übereinstimmen, da die Regressionsgerade den Zusammenhang im Allgemeinen nur im Mittel beschreibt. Separate Bedeutungen sind darum herum verstreut. Somit wird die Zuverlässigkeit der aus der Regressionsgleichung erhaltenen berechneten Werte weitgehend durch die Streuung der beobachteten Werte um die Regressionslinie herum bestimmt. In der Praxis ist die Fehlervarianz in der Regel unbekannt und wird gleichzeitig mit den Regressionsparametern aus den Beobachtungen geschätzt. a und b. Es ist ziemlich logisch anzunehmen, dass die Schätzung mit der Summe der Quadrate der Regressionsresiduen zusammenhängt. Die Menge ist eine Stichprobenschätzung der Varianz von Störungen, die in dem theoretischen Modell enthalten sind . Dies kann für ein gepaartes Regressionsmodell gezeigt werden

wo ist die Abweichung des tatsächlichen Werts der abhängigen Variablen von ihrem berechneten Wert.

Wenn ein , dann stimmen bei allen Beobachtungen die tatsächlichen Werte der abhängigen Variablen mit den berechneten (theoretischen) Werten überein . Anschaulich bedeutet dies, dass die theoretische Regressionsgerade (die aus der Funktion konstruierte Gerade) durch alle Punkte des Korrelationsfeldes verläuft, was nur bei einem streng funktionalen Zusammenhang möglich ist. Daher das wirksame Zeichen bei vollständig auf den Einfluss des Faktors zurückzuführen X.

In der Praxis gibt es normalerweise eine gewisse Streuung der Punkte des Korrelationsfelds relativ zur theoretischen Regressionslinie, d.h. Abweichungen der empirischen Daten von den theoretischen. Diese Streuung ist sowohl auf den Einfluss des Faktors zurückzuführen X, d.h. Rückschritt j an X, (eine solche Varianz wird als erklärt bezeichnet, da sie durch die Regressionsgleichung erklärt wird) und die Wirkung anderer Ursachen (unerklärte Variation, zufällig). Die Größe dieser Abweichungen liegt der Berechnung der Qualitätsindikatoren der Gleichung zugrunde.

Nach dem Grundprinzip der Varianzanalyse die Summe der quadrierten Abweichungen der abhängigen Variablen j aus dem Mittelwert lässt sich in zwei Komponenten zerlegen: erklärt durch die Regressionsgleichung und unerklärt:

,

wo - Werte j, berechnet nach der Gleichung .

Finden wir das Verhältnis der Summe der quadrierten Abweichungen, erklärt durch die Regressionsgleichung, zur Gesamtsumme der Quadrate:

, wo

. (7.6)

Das Verhältnis des durch die Regressionsgleichung erklärten Teils der Varianz zur Gesamtvarianz des resultierenden Merkmals wird als Bestimmtheitsmaß bezeichnet. Der Wert kann Eins nicht überschreiten und dieser Maximalwert wird erst bei erreicht, d.h. wenn jede Abweichung Null ist und somit alle Punkte des Scatterplots genau auf einer Geraden liegen.

Das Bestimmtheitsmaß charakterisiert den durch die Regression erklärten Anteil der Varianz am Gesamtwert der Varianz der abhängigen Variablen . Dementsprechend charakterisiert der Wert den Anteil der Streuung (Streuung) y, nicht durch die Regressionsgleichung erklärt und daher durch den Einfluss anderer Faktoren verursacht, die im Modell nicht berücksichtigt werden. Je näher an eins, desto höher die Qualität des Modells.



Bei der gepaarten linearen Regression ist das Bestimmtheitsmaß gleich dem Quadrat des gepaarten linearen Korrelationskoeffizienten: .

Die Wurzel dieses Bestimmtheitsmaßes ist der Koeffizient (Index) der Mehrfachkorrelation oder das theoretische Korrelationsverhältnis.

Um herauszufinden, ob der bei der Auswertung der Regression erhaltene Wert des Bestimmtheitsmaßes wirklich den wahren Zusammenhang zwischen widerspiegelt j und xüberprüfen Sie die Aussagekraft der aufgestellten Gleichung als Ganzes und einzelner Parameter. Durch die Signifikanzprüfung der Regressionsgleichung können Sie herausfinden, ob sich die Regressionsgleichung für den praktischen Einsatz, beispielsweise für Prognosen, eignet oder nicht.

Gleichzeitig wird die Haupthypothese über die Bedeutungslosigkeit der Gleichung als Ganzes aufgestellt, die sich formal auf die Hypothese reduziert, dass die Regressionsparameter gleich Null sind oder, was dasselbe ist, dass das Bestimmtheitsmaß gleich ist bis Null: . Eine Alternativhypothese zur Signifikanz der Gleichung ist die Hypothese, dass die Regressionsparameter ungleich Null sind oder dass das Bestimmtheitsmaß ungleich Null ist: .

Um die Signifikanz des Regressionsmodells zu testen, verwenden Sie F- Fisher-Kriterium, berechnet als Verhältnis der Summe der Quadrate (pro unabhängiger Variable) zur Residualsumme der Quadrate (pro Freiheitsgrad):

, (7.7)

wo k ist die Anzahl der unabhängigen Variablen.

Nach Division von Zähler und Nenner der Beziehung (7.7) durch die Gesamtsumme der quadrierten Abweichungen der abhängigen Variablen, F- Das Kriterium kann äquivalent in Form des Koeffizienten ausgedrückt werden:

.

Wenn die Nullhypothese wahr ist, dann unterscheiden sich die durch die Regressionsgleichung erklärte Varianz und die unerklärte (Rest-)Varianz nicht voneinander.

Geschätzter Wert F- das Kriterium wird mit einem kritischen Wert verglichen, der von der Anzahl der unabhängigen Variablen abhängt k, und von der Anzahl der Freiheitsgrade (n-k-1). Tabelle (kritischer) Wert F- Kriterium - Dies ist der maximale Wert des Varianzverhältnisses, der auftreten kann, wenn sie für eine bestimmte Wahrscheinlichkeit des Vorhandenseins einer Nullhypothese zufällig voneinander abweichen. Wenn der berechnete Wert F- das Kriterium bei einem bestimmten Signifikanzniveau größer als das tabellarische ist, dann wird die Nullhypothese über das Fehlen eines Zusammenhangs verworfen und eine Schlussfolgerung über die Signifikanz dieses Zusammenhangs gezogen, d.h. Modell wird als signifikant angesehen.

Für ein gepaartes Regressionsmodell

.

Bei der linearen Regression wird in der Regel nicht nur die Signifikanz der Gleichung als Ganzes, sondern auch ihrer einzelnen Koeffizienten geschätzt. Dazu wird der Standardfehler jedes Parameters bestimmt. Die Standardfehler der Regressionskoeffizienten der Parameter werden durch die Formeln bestimmt:

, (7.8)

(7.9)

Standardfehler der Regressionskoeffizienten oder Standardabweichungen, die nach Formeln (7.8,7.9) berechnet werden, werden in der Regel in den Ergebnissen der Berechnung des Regressionsmodells in statistischen Paketen angegeben.

Anhand der Standardfehler der Regressionskoeffizienten wird die Signifikanz dieser Koeffizienten nach dem üblichen Schema zur Prüfung statistischer Hypothesen überprüft.

Als Haupthypothese wird eine Hypothese über eine unbedeutende Differenz des "wahren" Regressionskoeffizienten von Null aufgestellt. Eine alternative Hypothese ist in diesem Fall die umgekehrte Hypothese, also über die Ungleichheit des „wahren“ Regressionsparameters zu Null. Diese Hypothese wird mit getestet t- Statistiken, die haben t-Studentenverteilung:

Dann die errechneten Werte t- Statistiken werden mit kritischen Werten verglichen t- Statistiken, die aus den Verteilungstabellen des Studenten ermittelt wurden. Der kritische Wert wird abhängig vom Signifikanzniveau bestimmt α und die Anzahl der Freiheitsgrade, die ist (n-k-1), n ​​​​- Anzahl Beobachtungen k- Anzahl unabhängiger Variablen. Bei der linearen Paarregression ist die Anzahl der Freiheitsgrade (P- 2). Der kritische Wert kann auch auf einem Computer mit der in Excel integrierten STUDISP-Funktion berechnet werden.

Wenn der berechnete Wert t- Statistiken größer als kritisch sind, dann wird die Haupthypothese verworfen und es wird angenommen, dass dies mit einer Wahrscheinlichkeit der Fall ist (1-α) Der „wahre“ Regressionskoeffizient unterscheidet sich signifikant von Null, was eine statistische Bestätigung der Existenz einer linearen Beziehung zwischen den entsprechenden Variablen ist.

Wenn der berechnete Wert t- Statistik weniger als kritisch ist, dann gibt es keinen Grund, die Haupthypothese abzulehnen, d. h. der „wahre“ Regressionskoeffizient unterscheidet sich auf dem Signifikanzniveau nicht signifikant von Null α . In diesem Fall sollte der diesem Koeffizienten entsprechende Faktor aus dem Modell ausgeschlossen werden.

Die Signifikanz des Regressionskoeffizienten kann durch die Konstruktion eines Konfidenzintervalls ermittelt werden. Konfidenzintervall für Regressionsparameter a und b wie folgt definiert:

,

,

wobei aus der Verteilungstabelle des Studenten für das Signifikanzniveau bestimmt wird α und Anzahl der Freiheitsgrade (P- 2) für paarweise Regression.

Da Regressionskoeffizienten in ökonometrischen Studien eine klare ökonomische Interpretation haben, sollten Konfidenzintervalle nicht Null enthalten. Der wahre Wert des Regressionskoeffizienten kann nicht gleichzeitig positive und negative Werte einschließlich Null enthalten, da wir sonst widersprüchliche Ergebnisse bei der ökonomischen Interpretation der Koeffizienten erhalten, was nicht sein kann. Somit ist der Koeffizient signifikant, wenn das erhaltene Konfidenzintervall nicht Null abdeckt.

Beispiel 7.4. Nach Beispiel 7.1:

a) Erstellen Sie mit Hilfe von Datenverarbeitungssoftware ein gepaartes lineares Regressionsmodell der Abhängigkeit des Verkaufsgewinns vom Verkaufspreis.

b) Bewerten Sie die Aussagekraft der Regressionsgleichung als Ganzes mit F- Fisher-Kriterium bei α = 0,05.

c) Bewerten Sie die Signifikanz der Regressionsmodellkoeffizienten mit t-Schülerkriterium für α = 0,05 und α = 0,1.

Für die Regressionsanalyse verwenden wir das Standard-Büroprogramm EXCEL. Wir werden ein Regressionsmodell mit dem REGRESSION-Tool der ANALYSE-PAKET-Einstellungen (Abb. 7.5) erstellen, das wie folgt gestartet wird:

ServiceData AnalysisREGRESSIONOK.

Abb.7.5. Verwenden des REGRESSION-Tools

Geben Sie im Dialogfeld REGRESSION im Feld Eingabeintervall Y die Adresse des Zellbereichs ein, der die abhängige Variable enthält. Geben Sie im Feld Eingabeintervall X die Adressen eines oder mehrerer Bereiche ein, die die Werte unabhängiger Variablen enthalten Das Kontrollkästchen Beschriftungen in der ersten Zeile ist aktiv, wenn die Spaltenüberschriften ebenfalls ausgewählt sind. Auf Abb. 7.6. die Maske zur Berechnung des Regressionsmodells mit dem Werkzeug REGRESSION wird angezeigt.

Reis. 7.6. Erstellen eines gepaarten Regressionsmodells mit

REGRESSIONS-Tool

Als Ergebnis der Arbeit des REGRESSION-Tools wird das folgende Regressionsanalyseprotokoll erstellt (Abb. 7.7).

Reis. 7.7. Protokoll der Regressionsanalyse

Die Gleichung für die Abhängigkeit des Verkaufsgewinns vom Verkaufspreis hat die Form:

Wir werden die Signifikanz der Regressionsgleichung mit schätzen F- Fishers Kriterium. Bedeutung F- Das Fisher-Kriterium wird der Tabelle „Avarianzanalyse“ des EXCEL-Protokolls entnommen (Abb. 7.7.). Geschätzter Wert F- Kriterium 53.372. Tabellenwert F- Kriterium auf Signifikanzniveau α = 0,05 und die Anzahl der Freiheitsgrade ist 4,964. Als , dann wird die Gleichung als signifikant angesehen.

Geschätzte Werte t-Schülerkriterien für die Koeffizienten der Regressionsgleichung sind in der resultierenden Tabelle angegeben (Abb. 7.7). Tabellenwert t-Studententest auf Signifikanzniveau α = 0,05 und 10 Freiheitsgraden ist 2,228. Für den Regressionskoeffizienten a, daher der Koeffizient a nicht signifikant. Für den Regressionskoeffizienten b, also der Koeffizient b von Bedeutung.

THEMA 4. STATISTISCHE METHODEN ZUR UNTERSUCHUNG VON BEZIEHUNGEN

Regressionsgleichung - dies ist eine analytische Darstellung der Korrelationsabhängigkeit. Die Regressionsgleichung beschreibt einen hypothetischen funktionalen Zusammenhang zwischen dem bedingten Mittelwert des effektiven Merkmals und dem Wert des Merkmals - Faktor (Faktoren), d.h. der zugrunde liegende Trend der Sucht.

Die Paarkorrelationsabhängigkeit wird durch die Paarregressionsgleichung beschrieben, die Mehrfachkorrelationsabhängigkeit - durch die Mehrfachregressionsgleichung.

Das Merkmalsergebnis in der Regressionsgleichung ist die abhängige Variable (Antwort, erklärende Variable), und der Merkmalsfaktor ist die unabhängige Variable (Argument, erklärende Variable).

Die einfachste Art von Regressionsgleichung ist die Gleichung einer gepaarten linearen Beziehung:

wobei y die abhängige Variable ist (Vorzeichenergebnis); x ist eine unabhängige Variable (Vorzeichenfaktor); und sind die Parameter der Regressionsgleichung; - Schätzungsfehler.

Als Regressionsgleichung können verschiedene mathematische Funktionen verwendet werden. Die Gleichungen der linearen Abhängigkeit, Parabel, Hyperbel, Steppenfunktion usw. finden häufig praktische Anwendung.

In der Regel beginnt die Analyse mit einem linearen Zusammenhang, da die Ergebnisse leicht sinnvoll zu interpretieren sind. Die Wahl des Typs der Nebenbedingungsgleichung ist ein ziemlich wichtiger Schritt in der Analyse. In der „Vor-Computer“-Ära war dieses Verfahren mit gewissen Schwierigkeiten verbunden und verlangte vom Analytiker, die Eigenschaften mathematischer Funktionen zu kennen. Gegenwärtig ist es auf der Grundlage spezialisierter Programme möglich, schnell eine Reihe von Kommunikationsgleichungen zu erstellen und anhand formaler Kriterien das beste Modell auszuwählen (jedoch hat die mathematische Kompetenz eines Analytikers nicht an Relevanz verloren).

Anhand der Ergebnisse der Korrelationsfeldkonstruktion (siehe Vorlesung 6) kann eine Hypothese über die Art der Korrelationsabhängigkeit aufgestellt werden. Basierend auf der Art der Position der Punkte im Diagramm (die Koordinaten der Punkte entsprechen den Werten der abhängigen und unabhängigen Variablen) wird der Trend der Beziehung zwischen den Zeichen (Indikatoren) aufgedeckt. Verläuft die Regressionsgerade durch alle Punkte des Korrelationsfeldes, so deutet dies auf einen funktionalen Zusammenhang hin. In der Praxis der sozioökonomischen Forschung ist ein solches Bild nicht zu beobachten, da eine statistische (Korrelations-)Abhängigkeit besteht. Unter den Bedingungen der Korrelationsabhängigkeit wird beim Zeichnen einer Regressionslinie in einem Streudiagramm eine Abweichung der Punkte des Korrelationsfelds von der Regressionslinie beobachtet, was die sogenannten Residuen oder Schätzfehler zeigt (siehe Abbildung 7.1).

Das Vorhandensein eines Gleichungsfehlers ist darauf zurückzuführen, dass:

§ nicht alle das Ergebnis beeinflussenden Faktoren in der Regressionsgleichung berücksichtigt werden;

§ die Form der Verbindung kann falsch gewählt werden - die Regressionsgleichung;

§ Nicht alle Faktoren sind in der Gleichung enthalten.

Eine Regressionsgleichung zu konstruieren bedeutet, die Werte ihrer Parameter zu berechnen. Die Regressionsgleichung wird auf der Grundlage der tatsächlichen Werte der analysierten Merkmale erstellt. Die Berechnung der Parameter erfolgt in der Regel mit Methode der kleinsten Quadrate (LSM).

Die Essenz des MNC ist, dass es möglich ist, solche Werte der Parameter der Gleichung zu erhalten, bei denen sich die Summe der quadratischen Abweichungen der theoretischen Werte des Attribut-Ergebnisses (berechnet auf der Grundlage der Regressionsgleichung) von seinem tatsächlichen ergibt Werte minimiert:

,

wo - der tatsächliche Wert des Vorzeichenergebnisses der i-ten Einheit der Bevölkerung; - der Wert des Vorzeichenergebnisses der i-ten Einheit der Bevölkerung, erhalten durch die Regressionsgleichung ().

Somit ist das Problem für ein Extremum gelöst, dh es muss herausgefunden werden, bei welchen Werten der Parameter die Funktion S ein Minimum erreicht.

Differentiation durchführen, die partiellen Ableitungen gleich Null setzen:



, (7.3)

, (7.4)

wobei das Durchschnittsprodukt der Faktor- und Ergebniswerte ist; - der Mittelwert des Vorzeichenfaktors; - der Mittelwert des Zeichenergebnisses; - Varianz des Vorzeichenfaktors.

Der Parameter in der Regressionsgleichung charakterisiert die Steigung der Regressionsgeraden im Diagramm. Diese Option wird aufgerufen Regressionskoeffizienten und sein Wert charakterisiert dadurch, um wie viele Einheiten seiner Messung sich das Vorzeichenergebnis ändert, wenn sich der Vorzeichenfaktor um die Einheit seiner Messung ändert. Das Vorzeichen des Regressionskoeffizienten spiegelt die Richtung der Abhängigkeit wider (direkt oder invers) und stimmt mit dem Vorzeichen des Korrelationskoeffizienten (bei paarweiser Abhängigkeit) überein.

Im Rahmen des betrachteten Beispiels berechnete das Programm STATISTICA die Parameter der Regressionsgleichung, die den Zusammenhang zwischen der Höhe des durchschnittlichen monetären Pro-Kopf-Einkommens der Bevölkerung und dem Wert des Bruttoregionalprodukts pro Kopf in den Regionen Russlands beschreibt, siehe Tabelle 7.1.

Tabelle 7.1 - Berechnung und Bewertung der Parameter der Gleichung, die die Beziehung zwischen der Höhe des durchschnittlichen Pro-Kopf-Geldeinkommens der Bevölkerung und dem Wert des Bruttoregionalprodukts pro Kopf in den Regionen Russlands beschreibt, 2013

Spalte "B" der Tabelle enthält die Werte der Parameter der Paarregressionsgleichung, daher können Sie schreiben: = 13406,89 + 22,82 x Diese Gleichung beschreibt den Trend der Beziehung zwischen den analysierten Merkmalen. Der Parameter ist der Regressionskoeffizient. In diesem Fall ist es gleich 22,82 und charakterisiert Folgendes: Bei einer Erhöhung des BRP pro Kopf um 1.000 Rubel steigen die durchschnittlichen Bareinkommen pro Kopf im Durchschnitt (wie durch das "+" -Zeichen angegeben) um 22,28 Rubel.

Der Parameter der Regressionsgleichung in sozioökonomischen Studien wird in der Regel nicht sinnvoll interpretiert. Formal spiegelt es den Wert des Vorzeichens wider - das Ergebnis, sofern der Vorzeichen - Faktor gleich Null ist. Der Parameter charakterisiert die Lage der Regressionsgerade in der Grafik, siehe Abbildung 7.1.

Abbildung 7.1 - Korrelationsfeld und Regressionslinie, die die Abhängigkeit der Höhe des durchschnittlichen Pro-Kopf-Geldeinkommens der Bevölkerung in den Regionen Russlands und dem Wert des BRP pro Kopf widerspiegeln

Der Parameterwert entspricht dem Schnittpunkt der Regressionsgerade mit der Y-Achse bei X=0.

Die Konstruktion der Regressionsgleichung wird begleitet von einer Bewertung der statistischen Signifikanz der Gleichung als Ganzes und ihrer Parameter. Die Notwendigkeit solcher Verfahren ist mit einer begrenzten Datenmenge verbunden, die die Anwendung des Gesetzes der großen Zahlen und damit die Identifizierung eines wahren Trends in der Beziehung der analysierten Indikatoren verhindern kann. Darüber hinaus kann jede untersuchte Population als Stichprobe der Allgemeinbevölkerung und die während der Analyse erhaltenen Merkmale als Schätzung der allgemeinen Parameter betrachtet werden.

Die Bewertung der statistischen Signifikanz der Parameter und der Gleichung als Ganzes ist die Begründung der Möglichkeit, das konstruierte Kommunikationsmodell für Managemententscheidungen und Prognosen (Modellierung) zu verwenden.

Statistische Bedeutung der Regressionsgleichung im Allgemeinen wird mit geschätzt Fisher F-Test, das ist das Verhältnis der für einen Freiheitsgrad berechneten faktoriellen und residualen Varianzen:

wo - Faktorvarianz des Merkmals - Ergebnis; k ist die Anzahl der Freiheitsgrade der faktoriellen Streuung (die Anzahl der Faktoren in der Regressionsgleichung); - der Mittelwert der abhängigen Variablen; - theoretischer (durch die Regressionsgleichung erhaltener) Wert der abhängigen Variablen für die i-te Einheit der Grundgesamtheit; - Restvarianz des Vorzeichens - Ergebnis; n ist das Bevölkerungsvolumen; n-k-1 ist die Anzahl der Freiheitsgrade der Restdispersion.

Der Wert des Fisher-F-Tests charakterisiert gemäß der Formel das Verhältnis zwischen dem Faktor und den Restvarianzen der abhängigen Variablen und zeigt im Wesentlichen, wie oft der Wert des erklärten Teils der Variation den unerklärten übersteigt.

Der Fisher-F-Test ist tabelliert, die Eingabe in die Tabelle ist die Anzahl der Freiheitsgrade der faktoriellen und Residualvarianzen. Der Vergleich des berechneten Werts des Kriteriums mit dem tabellarischen (kritischen) ermöglicht die Beantwortung der Frage: Ist der Teil der Variation des Merkmalsergebnisses, der durch die in der Gleichung dieser Art enthaltenen Faktoren erklärt werden kann, statistisch signifikant? Wenn ein , dann wird die Regressionsgleichung als statistisch signifikant erkannt und dementsprechend ist auch das Bestimmtheitsmaß statistisch signifikant. Sonst ( ), ist die Gleichung statistisch unbedeutend, d.h. die Variation der in der Gleichung berücksichtigten Faktoren erklärt nicht den statistisch signifikanten Teil der Variation des Merkmalsergebnisses, oder die Beziehungsgleichung ist nicht richtig gewählt.

Schätzung der statistischen Signifikanz der Parameter der Gleichung auf der Grundlage durchgeführt t-Statistik, die sich aus dem Verhältnis des Absolutwerts der Parameter der Regressionsgleichung zu ihren Standardfehlern ( ):

, wo ; (7.6)

, wo ; (7.7)

wo - Standardabweichungen von Vorzeichen - Faktor und Vorzeichen - Ergebnis; - Bestimmtheitsmaß.

In spezialisierten Statistikprogrammen wird die Berechnung von Parametern immer von der Berechnung ihrer Standardfehler (root-mean-square) und t-Statistiken begleitet (siehe Tabelle 7.1). Der berechnete Wert der t-Statistik wird mit dem tabellarischen Wert verglichen, wenn das Volumen der untersuchten Population weniger als 30 Einheiten beträgt (definitiv eine kleine Stichprobe), sollte man sich auf die Student's t-Verteilungstabelle beziehen, wenn das Volumen der Population ist groß ist, sollte man die Normalverteilungstabelle (Laplacesches Wahrscheinlichkeitsintegral) verwenden. Ein Gleichungsparameter gilt als statistisch signifikant, wenn.

Die Schätzung von Parametern auf der Grundlage der t-Statistik ist im Wesentlichen ein Test der Nullhypothese über die Gleichheit der allgemeinen Parameter mit Null (H 0: =0; H 0: =0;), dh über einen statistisch unbedeutenden Wert Wert der Parameter der Regressionsgleichung. Das Signifikanzniveau der Hypothese wird in der Regel angenommen: = 0,05. Wenn das berechnete Signifikanzniveau kleiner als 0,05 ist, wird die Nullhypothese verworfen und die alternative akzeptiert - über die statistische Signifikanz des Parameters.

Fahren wir mit dem Beispiel fort. Tabelle 7.1 in Spalte "B" zeigt die Werte der Parameter, in der Spalte Std.Err.ofB - die Werte der Standardfehler der Parameter ( ), in der Spalte t (77 - die Anzahl der Freiheitsgrade) werden die Werte der t - Statistik unter Berücksichtigung der Anzahl der Freiheitsgrade berechnet. Um die statistische Signifikanz der Parameter zu beurteilen, müssen die berechneten Werte der t-Statistik mit dem Tabellenwert verglichen werden. Das angegebene Signifikanzniveau (0,05) in der Normalverteilungstabelle entspricht t = 1,96. Seit 18.02, 10.84, d.h. , sollte man die statistische Signifikanz der erhaltenen Parameterwerte erkennen, d.h. Diese Werte werden unter dem Einfluss von nicht zufälligen Faktoren gebildet und spiegeln den Trend der Beziehung zwischen den analysierten Indikatoren wider.

Um die statistische Signifikanz der Gleichung als Ganzes zu beurteilen, wenden wir uns dem Wert des Fisher-F-Tests zu (siehe Tabelle 7.1). Der errechnete Wert des F-Kriteriums = 117,51, der Tabellenwert des Kriteriums, bezogen auf die entsprechende Anzahl Freiheitsgrade (für Faktorstreuung d.f. =1, für Reststreuung d.f. =77), beträgt 4,00 (siehe Anhang .. .. .). Auf diese Weise, , daher ist die Regressionsgleichung als Ganzes statistisch signifikant. In einer solchen Situation können wir auch von der statistischen Signifikanz des Wertes des Bestimmtheitsmaßes sprechen, d.h. Die 60-prozentige Variation des durchschnittlichen Pro-Kopf-Einkommens der Bevölkerung in den Regionen Russlands lässt sich durch die Variation des Volumens des Bruttoregionalprodukts pro Kopf erklären.

Durch die Bewertung der statistischen Signifikanz der Regressionsgleichung und ihrer Parameter können wir eine andere Kombination von Ergebnissen erhalten.

· Gleichung durch F-Test ist statistisch signifikant und alle Parameter der Gleichung durch t-Statistik sind ebenfalls statistisch signifikant. Diese Gleichung kann sowohl zum Treffen von Managemententscheidungen (welche Faktoren beeinflusst werden sollten, um das gewünschte Ergebnis zu erzielen) als auch zum Vorhersagen des Verhaltens des Ergebnisattributs für bestimmte Werte der Faktoren verwendet werden.

· Nach dem F-Kriterium ist die Gleichung statistisch signifikant, aber die Parameter (Parameter) der Gleichung sind unbedeutend. Die Gleichung kann verwendet werden, um Managemententscheidungen zu treffen (in Bezug auf diejenigen Faktoren, für die die statistische Signifikanz ihres Einflusses bestätigt ist), aber die Gleichung kann nicht für Prognosen verwendet werden.

· Die F-Test-Gleichung ist statistisch nicht signifikant. Die Gleichung kann nicht verwendet werden. Die Suche nach signifikanten Vorzeichen oder einer analytischen Form des Zusammenhangs zwischen Argument und Antwort sollte fortgesetzt werden.

Wenn die statistische Signifikanz der Gleichung und ihrer Parameter bestätigt wird, kann die sogenannte Punktvorhersage durchgeführt werden, d.h. Für bestimmte Werte des Faktors (x) wurde eine Schätzung des Werts des Attributergebnisses (y) erhalten.

Es ist ziemlich offensichtlich, dass der vorhergesagte Wert der abhängigen Variablen, berechnet auf der Grundlage der Beziehungsgleichung, nicht mit ihrem tatsächlichen Wert übereinstimmen wird ( Graphisch wird diese Situation dadurch bestätigt, dass nicht alle Punkte des Korrelationsfeldes auf der Regressionsgerade liegen, nur bei einem funktionalen Zusammenhang wird die Regressionsgerade durch alle Punkte des Streudiagramms verlaufen. Das Vorhandensein von Diskrepanzen zwischen den tatsächlichen und theoretischen Werten der abhängigen Variablen ist in erster Linie auf das Wesen der Korrelationsabhängigkeit zurückzuführen: Gleichzeitig beeinflussen viele Faktoren das Ergebnis, von denen nur ein Teil berücksichtigt werden kann eine bestimmte Beziehungsgleichung. Außerdem kann die Form der Beziehung zwischen Ergebnis und Faktor (die Art der Regressionsgleichung) falsch gewählt sein. In diesem Zusammenhang stellt sich die Frage, wie aussagekräftig die konstruierte Nebenbedingungsgleichung ist. Diese Frage wird durch zwei Indikatoren beantwortet: das Bestimmtheitsmaß (es wurde bereits oben diskutiert) und der Standardfehler der Schätzung.

Die Differenz zwischen den tatsächlichen und theoretischen Werten der abhängigen Variablen wird genannt Abweichungen oder Fehler oder Reste. Basierend auf diesen Werten wird die Restvarianz berechnet. Die Quadratwurzel der Restvarianz ist Root-Mean-Square (Standard) Schätzfehler:

= (7.8)

Der Standardfehler der Gleichung wird in denselben Einheiten wie die vorhergesagte Rate gemessen. Wenn die Gleichungsfehler einer Normalverteilung folgen (bei großen Datenmengen), sollten 95 Prozent der Werte von der Regressionslinie in einem Abstand von nicht mehr als 2S sein (basierend auf der Eigenschaft einer Normalverteilung - die Regel von drei Sigma). Der Wert des Standardschätzungsfehlers wird bei der Berechnung von Konfidenzintervallen verwendet, wenn der Wert eines Zeichens vorhergesagt wird - das Ergebnis für eine bestimmte Einheit der Bevölkerung.

In der praktischen Forschung wird es oft notwendig, den Durchschnittswert eines Merkmals - das Ergebnis für einen bestimmten Wert des Merkmals - Faktor vorherzusagen. In diesem Fall bei der Berechnung des Konfidenzintervalls für den Mittelwert der abhängigen Variablen()

der Wert des mittleren Fehlers wird berücksichtigt:

(7.9)

Die Verwendung unterschiedlicher Fehlerwerte erklärt sich aus der Tatsache, dass die Variabilität der Indikatorenniveaus für bestimmte Bevölkerungseinheiten viel höher ist als die Variabilität des Mittelwerts, daher ist der Prognosefehler des Mittelwerts kleiner.

Konfidenzintervall der Prognose des Mittelwertes der abhängigen Variablen:

, (7.10)

wo - marginaler Schätzfehler (siehe Stichprobentheorie); t ist der Konfidenzkoeffizient, dessen Wert in der entsprechenden Tabelle angegeben ist, basierend auf dem vom Forscher angenommenen Wahrscheinlichkeitsniveau (Anzahl der Freiheitsgrade) (siehe Stichprobentheorie).

Das Konfidenzintervall für den vorhergesagten Wert des Ergebnisattributs kann auch unter Berücksichtigung der Korrektur für die Verschiebung (Shift) der Regressionsgeraden berechnet werden. Der Wert des Korrekturfaktors wird bestimmt durch:

(7.11)

wobei der Wert des Attributfaktors ist, auf dessen Grundlage der Wert des Attributergebnisses vorhergesagt wird.

Daraus folgt, dass der Prognosefehler umso größer ist, je mehr der Wert vom Durchschnittswert des Attributfaktors abweicht, je größer der Wert des Korrekturfaktors ist. Ausgehend von diesem Koeffizienten wird das Konfidenzintervall der Prognose berechnet:

Die Genauigkeit der Prognose auf Basis der Regressionsgleichung kann durch verschiedene Gründe beeinträchtigt werden. Zunächst ist zu berücksichtigen, dass die Bewertung der Güte der Gleichung und ihrer Parameter auf der Annahme einer Normalverteilung zufälliger Residuen beruht. Ein Verstoß gegen diese Annahme kann auf das Vorhandensein stark unterschiedlicher Werte in den Daten mit ungleichmäßiger Variation und dem Vorhandensein einer nichtlinearen Beziehung zurückzuführen sein. In diesem Fall wird die Qualität der Prognose reduziert. Zweitens ist zu beachten, dass die Werte der Faktoren, die bei der Vorhersage des Ergebnisses berücksichtigt werden, den Variationsbereich der Daten, auf denen die Gleichung basiert, nicht überschreiten sollten.

©2015-2019 Seite
Alle Rechte liegen bei ihren Autoren. Diese Website erhebt keinen Anspruch auf Urheberschaft, sondern bietet eine kostenlose Nutzung.
Erstellungsdatum der Seite: 08.01.2018

In der sozioökonomischen Forschung muss man oft unter Bedingungen einer begrenzten Population oder mit selektiven Daten arbeiten. Daher müssen nach den mathematischen Parametern der Regressionsgleichung diese und die Gleichung als Ganzes auf statistische Signifikanz ausgewertet werden, d.h. Es muss sichergestellt werden, dass die resultierende Gleichung und ihre Parameter unter dem Einfluss von nicht zufälligen Faktoren gebildet werden.

Zunächst wird die statistische Signifikanz der Gleichung als Ganzes bewertet. Die Auswertung erfolgt in der Regel mit dem Fisher's F-Test. Die Berechnung des F-Kriteriums basiert auf der Regel der Addition von Varianzen. Das Vorzeichenergebnis der allgemeinen Varianz = Faktorvarianz + Restvarianz.

aktueller Preis

Theoretischer Preis
Nachdem die Regressionsgleichung erstellt wurde, ist es möglich, den theoretischen Wert des Vorzeichenergebnisses zu berechnen, d.h. berechnet durch die Regressionsgleichung unter Berücksichtigung ihrer Parameter.

Diese Werte charakterisieren das Vorzeichenergebnis, das unter dem Einfluss der in die Analyse einbezogenen Faktoren gebildet wird.

Es gibt immer Abweichungen (Residuen) zwischen den tatsächlichen Werten des Ergebnisattributs und den auf der Grundlage der Regressionsgleichung berechneten, aufgrund des Einflusses anderer Faktoren, die nicht in die Analyse einbezogen wurden.

Die Differenz zwischen den theoretischen und tatsächlichen Werten des Attributergebnisses wird als Residuen bezeichnet. Allgemeine Variation des Merkmalsergebnisses:

Die Variation des Merkmalsergebnisses aufgrund der Variation der Merkmale der in die Analyse einbezogenen Faktoren wird durch einen Vergleich der theoretischen Werte des Ergebnisses geschätzt. Merkmal und seine Mittelwerte. Reststreuung durch einen Vergleich von theoretischen und tatsächlichen Werten des resultierenden Merkmals. Die Gesamtabweichung, Residual und Ist haben eine unterschiedliche Anzahl von Freiheitsgraden.

Allgemeines, P- Anzahl der Einheiten in der untersuchten Population

tatsächlich, P- Anzahl der in die Analyse einbezogenen Faktoren

Restwert

Der Fisher-F-Test wird als Verhältnis zu berechnet und für einen Freiheitsgrad berechnet.

Die Verwendung des Fisher-F-Tests als Schätzung der statistischen Signifikanz einer Regressionsgleichung ist sehr logisch. ist das Ergebnis. Merkmal, aufgrund der in die Analyse einbezogenen Faktoren, d.h. dies ist der Anteil des erklärten Ergebnisses. Schild. - Dies ist eine (Variation) des Vorzeichens des Ergebnisses aufgrund von Faktoren, deren Einfluss nicht berücksichtigt wird, d.h. nicht in die Analyse einbezogen.

Dass. F-Kriterium dient der Bewertung von BedeutungÜberschuss vorbei. Liegt es nicht wesentlich unter und erst recht über , werden daher die Faktoren, die das Ergebnisattribut wirklich beeinflussen, nicht in die Analyse einbezogen.

Fisher's F-Test wird tabelliert, der tatsächliche Wert wird mit der Tabelle verglichen. Wenn , dann wird die Regressionsgleichung als statistisch signifikant angesehen. Wenn die Gleichung dagegen statistisch nicht signifikant ist und in der Praxis nicht verwendet werden kann, gibt die Signifikanz der Gleichung als Ganzes die statistische Signifikanz der Korrelationsindikatoren an.

Nach der Bewertung der Gleichung als Ganzes ist es notwendig, die statistische Signifikanz der Parameter der Gleichung zu bewerten. Diese Schätzung erfolgt unter Verwendung der Student-t-Statistik. Die t-Statistik wird als Verhältnis der Gleichungsparameter (Modulo) zu ihrem mittleren quadratischen Standardfehler berechnet. Wenn ein Ein-Faktor-Modell ausgewertet wird, werden 2 Statistiken berechnet.

In allen Computerprogrammen wird die Berechnung des Standardfehlers und der t-Statistik für die Parameter mit der Berechnung der Parameter selbst durchgeführt. T-Statistiken sind tabelliert. Wenn der Wert ist, wird der Parameter als statistisch signifikant angesehen, d. h. unter dem Einfluss von nicht zufälligen Faktoren gebildet.

Die Berechnung der t-Statistik bedeutet im Wesentlichen das Testen der Nullhypothese, dass der Parameter nicht signifikant ist, d.h. seine Gleichheit zu Null. Bei einem Ein-Faktor-Modell werden 2 Hypothesen bewertet: und

Das Signifikanzniveau der Annahme der Nullhypothese hängt von der Höhe des akzeptierten Konfidenzniveaus ab. Wenn der Forscher also ein Wahrscheinlichkeitsniveau von 95 % angibt, wird das Akzeptanz-Signifikanzniveau berechnet. Wenn das Signifikanzniveau also ≥ 0,05 ist, wird es akzeptiert und die Parameter gelten als statistisch nicht signifikant. Wenn , dann wird die Alternative abgelehnt und akzeptiert: und .

Die statistischen Anwendungspakete bieten auch ein Signifikanzniveau für die Annahme von Nullhypothesen. Eine Einschätzung der Aussagekraft der Regressionsgleichung und ihrer Parameter kann zu folgenden Ergebnissen führen:

Erstens ist die Gleichung als Ganzes signifikant (nach dem F-Test) und alle Parameter der Gleichung sind auch statistisch signifikant. Das bedeutet, dass die resultierende Gleichung sowohl für Managemententscheidungen als auch für Prognosen verwendet werden kann.

Zweitens ist die Gleichung nach dem F-Kriterium statistisch signifikant, aber mindestens einer der Parameter der Gleichung ist nicht signifikant. Die Gleichung kann verwendet werden, um Managemententscheidungen in Bezug auf die analysierten Faktoren zu treffen, kann jedoch nicht für Prognosen verwendet werden.

Drittens ist die Gleichung statistisch nicht signifikant oder die Gleichung ist gemäß dem F-Kriterium signifikant, aber alle Parameter der resultierenden Gleichung sind nicht signifikant. Die Gleichung kann für keinen Zweck verwendet werden.

Damit die Regressionsgleichung als Modell des Zusammenhangs zwischen dem Ergebnisvorzeichen und den Faktorvorzeichen anerkannt wird, ist es notwendig, dass sie alle wichtigen ergebnisbestimmenden Faktoren enthält, damit die sinnvolle Interpretation der Gleichungsparameter korrespondiert zu den theoretisch begründeten Zusammenhängen im untersuchten Phänomen. Das Bestimmtheitsmaß R 2 muss > 0,5 sein.

Bei der Aufstellung einer multiplen Regressionsgleichung empfiehlt es sich, eine Bewertung durch das sogenannte adjustierte Bestimmtheitsmaß (R 2) vorzunehmen. Der Wert von R 2 (wie auch die Korrelationen) steigt mit zunehmender Anzahl der in die Analyse einbezogenen Faktoren. Der Wert der Koeffizienten wird insbesondere unter Bedingungen kleiner Populationen überschätzt. Um den negativen Einfluss von R 2 auszulöschen, werden Korrelationen unter Berücksichtigung der Anzahl der Freiheitsgrade korrigiert, d. h. die Anzahl der frei variierenden Elemente, wenn bestimmte Faktoren einbezogen werden.

Angepasstes Bestimmtheitsmaß

P– Größe/Anzahl der Beobachtungen festlegen

k– Anzahl der in die Analyse einbezogenen Faktoren

n-1 ist die Anzahl der Freiheitsgrade

(1-R2)- der Wert der verbleibenden / unerklärten Varianz des resultierenden Attributs

Immer weniger R2. Auf der Grundlage ist es möglich, Schätzungen von Gleichungen mit einer unterschiedlichen Anzahl von analysierten Faktoren zu vergleichen.

34. Probleme beim Studium von Zeitreihen.

Reihen von Dynamiken werden als Zeitreihen oder Zeitreihen bezeichnet. Eine dynamische Reihe ist eine zeitlich geordnete Folge von Indikatoren, die ein bestimmtes Phänomen (das BIP-Volumen von 90 bis 98 Jahren) charakterisieren. Der Zweck der Untersuchung der Reihe von Dynamiken besteht darin, Muster in der Entwicklung des untersuchten Phänomens (Haupttrend) zu identifizieren und auf dieser Grundlage Vorhersagen zu treffen. Aus der Definition von RD folgt, dass jede Serie aus zwei Elementen besteht: der Zeit t und dem Niveau der Serie (jene spezifischen Werte des Indikators, auf deren Grundlage die DR-Serie aufgebaut ist). DR-Serien können 1) Momentan-Serien sein, deren Indikatoren zu einem bestimmten Zeitpunkt an einem bestimmten Datum festgelegt sind, 2) Intervall-Serien, deren Indikatoren für einen bestimmten Zeitraum erhalten werden (1. Population von St. Petersburg, 2. BIP für den Zeitraum). Die Aufteilung der Reihen in Moment- und Intervallreihen ist erforderlich, da dies die Besonderheiten der Berechnung einiger Indikatoren der DR-Reihe bestimmt. Die Aufsummierung der Stufen von Intervallreihen ergibt ein sinnvoll interpretierbares Ergebnis, was von der Aufsummierung der Stufen von Momentreihen nicht gesagt werden kann, da letztere wiederholte Zählungen enthalten. Das wichtigste Problem bei der Analyse von Zeitreihen ist das Problem der Vergleichbarkeit der Ebenen der Reihen. Dieses Konzept ist sehr vielseitig. Die Ebenen sollten in Bezug auf die Berechnungsmethoden sowie in Bezug auf das Gebiet und die Abdeckung von Bevölkerungseinheiten vergleichbar sein. Wenn die DR-Serie kostenmäßig gebaut wird, sollten alle Ebenen in vergleichbaren Preisen dargestellt oder berechnet werden. Bei der Bildung von Intervallreihen sollten die Pegel dieselben Zeiträume charakterisieren. Beim Bau des Moments Serie D müssen die Niveaus zum selben Datum festgelegt werden. Die Zeilen können vollständig oder unvollständig sein. Unvollständige Reihen werden in amtlichen Veröffentlichungen verwendet (1980,1985,1990,1995,1996,1997,1998,1999…). Eine umfassende Analyse des RD umfasst die Untersuchung der folgenden Punkte:

1. Berechnung von Indikatoren für Änderungen der RD-Werte

2. Berechnung der durchschnittlichen Kennziffern von RD

3. Identifizieren des Haupttrends der Serie, Erstellen von Trendmodellen

4. Schätzung der Autokorrelation in RD, Konstruktion von autoregressiven Modellen

5. Korrelation von RD

6. RD-Prognose.

35. Indikatoren für Änderungen in den Niveaus von Zeitreihen .

Im Allgemeinen kann die Serie D dargestellt werden als:

y ist der DR-Pegel, t ist der Moment oder Zeitraum, auf den sich der Pegel (Indikator) bezieht, n ist die Länge der DR-Serie (Anzahl der Perioden). Bei der Untersuchung einer Reihe von Dynamiken werden die folgenden Indikatoren berechnet: 1. absolutes Wachstum, 2. Wachstumsfaktor (Wachstumsrate), 3. Beschleunigung, 4. Wachstumsfaktor (Wachstumsrate), 5. absoluter Wert von 1% Wachstum. Berechnete Indikatoren können sein: 1. Kette – erhalten durch Vergleich jeder Ebene der Reihe mit der unmittelbar vorhergehenden, 2. Basis – erhalten durch Vergleich mit der als Vergleichsbasis gewählten Ebene (sofern nicht anders angegeben, ist die 1. Ebene der Reihe als Grundlage genommen). 1. Absolute Gewinne der Kette:. Zeigt an, wie viel mehr oder weniger. Absolute Ketteninkremente werden als Indikatoren für die Änderungsrate in den Ebenen der dynamischen Reihe bezeichnet. Absolutes Basiswachstum: . Wenn es sich bei den Niveaus der Reihe um relative Indikatoren handelt, die in % ausgedrückt werden, wird der absolute Anstieg in Änderungspunkten ausgedrückt. 2. Wachstumsfaktor (Wachstumsrate): Sie errechnet sich aus dem Verhältnis der Niveaus der Reihe zu den unmittelbar vorhergehenden (Kettenwachstumsfaktoren) oder zu dem als Vergleichsbasis herangezogenen Niveau (Grundwachstumsfaktoren): . Charakterisiert, wie oft jede Ebene der Reihe > oder< предшествующего или базисного. На основе коэффициентов роста рассчитываются темпы роста. Это коэффициенты роста, выраженные в %ах: 3. auf Basis des absoluten Wachstums wird der Indikator berechnet - Beschleunigung des absoluten Wachstums: . Beschleunigung ist das absolute Wachstum des absoluten Wachstums. Wertet aus, wie sich die Inkremente selbst ändern, ob sie stabil sind oder sich beschleunigen (zunehmen). 4. Wachstumsrate ist das Verhältnis des Wachstums zur Vergleichsbasis. Ausgedrückt %: ; . Die Wachstumsrate ist die Wachstumsrate minus 100 %. Zeigt an, wie viel % diese Zeilenebene > oder ist< предшествующего либо базисного. 5. абсолютное значение 1% прироста. Рассчитывается как отношение абсолютного прироста к темпу прироста, т.е.: - сотая доля предыдущего уровня. Все эти показатели рассчитываются для оценки степени изменения уровней ряда. Цепные коэффициенты и темпы роста называются показателями интенсивности изменения уровней ДРядов.

2. Berechnung der durchschnittlichen Indikatoren von RD Berechnen Sie die durchschnittlichen Niveaus der Serie, die durchschnittlichen absoluten Gewinne, die durchschnittliche Wachstumsrate und die durchschnittliche Wachstumsrate. Durchschnittsindikatoren werden berechnet, um Informationen zusammenzufassen und die Niveaus und Indikatoren ihrer Veränderung in verschiedenen Reihen vergleichen zu können. 1. durchschnittliche Zeilenhöhe a) für Intervallzeitreihen wird sie durch das einfache arithmetische Mittel berechnet: , wobei n die Anzahl der Stufen in der Zeitreihe ist; b) Bei Momentenreihen wird der Durchschnittspegel nach einer bestimmten Formel berechnet, die als chronologischer Durchschnitt bezeichnet wird: . 2. durchschnittlicher absoluter Anstieg errechnet sich aus Kettenabsolutinkrementen nach dem arithmetischen Mittel einfach:

. 3. Durchschnittlicher Wachstumsfaktor berechnet auf Basis von Kettenwachstumsfaktoren nach geometrischer Mittelformel: . Bei der Kommentierung der durchschnittlichen Indikatoren der DR-Serie müssen 2 Punkte angegeben werden: der Zeitraum, der den analysierten Indikator charakterisiert, und das Zeitintervall, für das die DR-Serie gebaut wurde. 4. Durchschnittliche Wachstumsrate: . 5. durchschnittliche Wachstumsrate: .