Lineares Regressionsverfahren in der Statistik. Regression in Excel: Gleichung, Beispiele

Die Regressionsanalyse ist eine statistische Forschungsmethode, mit der Sie die Abhängigkeit eines Parameters von einer oder mehreren unabhängigen Variablen zeigen können. In der Vor-Computer-Ära war die Nutzung recht schwierig, insbesondere wenn es um große Datenmengen ging. Nachdem Sie heute gelernt haben, wie man eine Regression in Excel erstellt, können Sie komplexe statistische Probleme in nur wenigen Minuten lösen. Nachfolgend finden Sie konkrete Beispiele aus dem Bereich der Wirtschaftswissenschaften.

Arten der Regression

Das Konzept selbst wurde 1886 in die Mathematik eingeführt. Regression passiert:

  • linear;
  • parabolisch;
  • Energie;
  • exponentiell;
  • hyperbolisch;
  • demonstrativ;
  • logarithmisch.

Beispiel 1

Betrachten Sie das Problem, die Abhängigkeit der Anzahl der ausgeschiedenen Teammitglieder vom Durchschnittsgehalt in 6 Industrieunternehmen zu bestimmen.

Eine Aufgabe. Bei sechs Unternehmen haben wir das durchschnittliche Monatsgehalt und die Zahl der freiwilligen Austritte analysiert. In tabellarischer Form haben wir:

Die Anzahl der Personen, die gegangen sind

Gehalt

30000 Rubel

35000 Rubel

40000 Rubel

45000 Rubel

50000 Rubel

55000 Rubel

60000 Rubel

Für das Problem der Bestimmung der Abhängigkeit der Zahl der Rentner vom Durchschnittsgehalt bei 6 Unternehmen hat das Regressionsmodell die Form der Gleichung Y = a 0 + a 1 x 1 +…+a k x k , wobei x i die Einflussgrößen sind , a i sind die Regressionskoeffizienten, a k ist die Anzahl der Faktoren.

Für diese Aufgabe ist Y der Indikator für Mitarbeiter, die gegangen sind, und der Einflussfaktor ist das Gehalt, das wir mit X bezeichnen.

Nutzung der Funktionen der Tabellenkalkulation "Excel"

Der Regressionsanalyse in Excel muss die Anwendung integrierter Funktionen auf die verfügbaren Tabellendaten vorausgehen. Verwenden Sie für diese Zwecke jedoch besser das sehr nützliche Add-In „Analysis Toolkit“. Um es zu aktivieren, benötigen Sie:

  • Gehen Sie auf der Registerkarte "Datei" zum Abschnitt "Optionen".
  • Wählen Sie im sich öffnenden Fenster die Zeile "Add-ons" aus;
  • Klicken Sie unten rechts neben der Zeile „Verwaltung“ auf die Schaltfläche „Los“.
  • Aktivieren Sie das Kontrollkästchen neben dem Namen "Analysepaket" und bestätigen Sie Ihre Aktionen mit einem Klick auf "OK".

Wenn alles richtig gemacht wurde, erscheint die gewünschte Schaltfläche auf der rechten Seite der Registerkarte Daten, die sich über dem Excel-Arbeitsblatt befindet.

im Excel-Format

Jetzt, da wir alle notwendigen virtuellen Werkzeuge zur Durchführung ökonometrischer Berechnungen zur Hand haben, können wir mit der Lösung unseres Problems beginnen. Dafür:

  • Klicken Sie auf die Schaltfläche „Datenanalyse“;
  • Klicken Sie im sich öffnenden Fenster auf die Schaltfläche "Regression".
  • Geben Sie auf der angezeigten Registerkarte den Wertebereich für Y (die Anzahl der gekündigten Mitarbeiter) und für X (ihre Gehälter) ein.
  • Wir bestätigen unsere Aktionen durch Drücken der Schaltfläche "Ok".

Als Ergebnis füllt das Programm automatisch ein neues Tabellenblatt mit Regressionsanalysedaten. Beachten Sie! Excel kann den für diesen Zweck bevorzugten Speicherort manuell festlegen. Beispielsweise könnte es sich um dasselbe Blatt handeln, in dem sich die Y- und X-Werte befinden, oder sogar um eine neue Arbeitsmappe, die speziell zum Speichern solcher Daten entwickelt wurde.

Analyse der Regressionsergebnisse für R-Quadrat

In Excel sehen die bei der Verarbeitung der Daten des betrachteten Beispiels gewonnenen Daten so aus:

Zunächst sollten Sie auf den Wert des R-Quadrats achten. Es ist das Bestimmtheitsmaß. In diesem Beispiel ist R-Quadrat = 0,755 (75,5 %), d. h. die berechneten Parameter des Modells erklären die Beziehung zwischen den betrachteten Parametern zu 75,5 %. Je höher der Wert des Bestimmtheitsmaßes ist, desto geeigneter ist das gewählte Modell für eine bestimmte Aufgabe. Es wird angenommen, dass es die reale Situation mit einem R-Quadrat-Wert über 0,8 korrekt beschreibt. Wenn R-Quadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Verhältnis Analyse

Die Zahl 64,1428 zeigt, was der Wert von Y sein wird, wenn alle Variablen xi in dem Modell, das wir betrachten, auf Null gesetzt werden. Mit anderen Worten, es kann argumentiert werden, dass der Wert des analysierten Parameters auch von anderen Faktoren beeinflusst wird, die nicht in einem bestimmten Modell beschrieben werden.

Der nächste Koeffizient -0,16285, der sich in Zelle B18 befindet, zeigt das Gewicht des Einflusses der Variable X auf Y. Das bedeutet, dass das durchschnittliche Monatsgehalt der Arbeitnehmer innerhalb des betrachteten Modells mit einem Gewicht von -0,16285 auf die Anzahl der Aussteiger wirkt, also auf die Anzahl der Aussteiger. der Grad seines Einflusses überhaupt gering. Das "-"-Zeichen zeigt an, dass der Koeffizient einen negativen Wert hat. Das liegt auf der Hand, denn jeder weiß, dass je höher das Gehalt im Unternehmen ist, desto weniger Menschen äußern den Wunsch, den Arbeitsvertrag zu kündigen oder zu kündigen.

Mehrfache Regression

Dieser Begriff bezeichnet eine Verbindungsgleichung mit mehreren unabhängigen Variablen der Form:

y \u003d f (x 1 + x 2 + ... x m) + ε, wobei y das effektive Merkmal (abhängige Variable) und x 1 , x 2 , ... x m die Faktorfaktoren (unabhängige Variablen) sind.

Parameter Schätzung

Bei der multiplen Regression (MR) wird sie nach der Methode der kleinsten Quadrate (OLS) durchgeführt. Für lineare Gleichungen der Form Y = a + b 1 x 1 +…+b m x m + ε konstruieren wir ein System von Normalgleichungen (siehe unten)

Um das Prinzip der Methode zu verstehen, betrachten Sie den Zwei-Faktoren-Fall. Dann haben wir eine durch die Formel beschriebene Situation

Von hier erhalten wir:

wobei σ die Varianz des entsprechenden Merkmals ist, das sich im Index widerspiegelt.

LSM ist auf die MP-Gleichung auf einer standardisierbaren Skala anwendbar. In diesem Fall erhalten wir die Gleichung:

wobei t y , t x 1, … t xm standardisierte Variablen sind, für die die Mittelwerte 0 sind; β i sind die standardisierten Regressionskoeffizienten, und die Standardabweichung ist 1.

Bitte beachten Sie, dass alle β i in diesem Fall als normalisiert und zentralisiert eingestellt sind, sodass ihr Vergleich miteinander als korrekt und zulässig angesehen wird. Außerdem ist es üblich, Faktoren herauszufiltern und diejenigen mit den kleinsten Werten von βi zu verwerfen.

Problem mit linearer Regressionsgleichung

Angenommen, es gibt eine Tabelle der Preisdynamik eines bestimmten Produkts N während der letzten 8 Monate. Es muss entschieden werden, ob es ratsam ist, seine Partie zu einem Preis von 1850 Rubel/t zu kaufen.

Monatsnummer

Monatsname

Preis von Artikel N

1750 Rubel pro Tonne

1755 Rubel pro Tonne

1767 Rubel pro Tonne

1760 Rubel pro Tonne

1770 Rubel pro Tonne

1790 Rubel pro Tonne

1810 Rubel pro Tonne

1840 Rubel pro Tonne

Um dieses Problem in der Excel-Tabelle zu lösen, müssen Sie das bereits aus dem obigen Beispiel bekannte Datenanalyse-Tool verwenden. Wählen Sie als nächstes den Abschnitt "Regression" und stellen Sie die Parameter ein. Es ist zu beachten, dass im Feld "Eingabeintervall Y" ein Wertebereich für die abhängige Variable (in diesem Fall der Preis eines Produkts in bestimmten Monaten des Jahres) eingegeben werden muss und im Feld "Eingabe Intervall X" - für die unabhängige Variable (Monatsnummer). Bestätigen Sie die Aktion mit „Ok“. Auf einem neuen Blatt (wenn es so angegeben wurde) erhalten wir Daten für die Regression.

Basierend darauf erstellen wir eine lineare Gleichung der Form y=ax+b, wobei die Parameter a und b die Koeffizienten der Zeile mit dem Namen der Monatsnummer und der Koeffizienten und der Zeile „Y-Schnittpunkt“ aus der sind Blatt mit den Ergebnissen der Regressionsanalyse. Somit wird die lineare Regressionsgleichung (LE) für Problem 3 wie folgt geschrieben:

Produktpreis N = 11,714* Monatszahl + 1727,54.

oder in algebraischer Notation

y = 11,714 x + 1727,54

Analyse der Ergebnisse

Um zu entscheiden, ob die resultierende lineare Regressionsgleichung angemessen ist, werden multiple Korrelationskoeffizienten (MCC) und Bestimmungskoeffizienten sowie der Fisher-Test und der Student-Test verwendet. In der Excel-Tabelle mit Regressionsergebnissen erscheinen sie jeweils unter den Namen multiples R, R-Quadrat, F-Statistik und t-Statistik.

KMC R ermöglicht es, die Enge der probabilistischen Beziehung zwischen den unabhängigen und abhängigen Variablen zu beurteilen. Sein hoher Wert weist auf eine ziemlich starke Beziehung zwischen den Variablen "Zahl des Monats" und "Warenpreis N in Rubel pro 1 Tonne" hin. Die Art dieser Beziehung bleibt jedoch unbekannt.

Das Quadrat des Bestimmtheitsmaßes R 2 (RI) ist ein numerisches Merkmal des Anteils an der Gesamtstreuung und zeigt an, welcher Anteil der Streuung an den experimentellen Daten, d. h. Werte der abhängigen Variablen entspricht der linearen Regressionsgleichung. Bei der betrachteten Aufgabe beträgt dieser Wert 84,8 %, d. h. die statistischen Daten werden mit hoher Genauigkeit durch die erhaltene SD beschrieben.

Die F-Statistik, auch Fisher-Test genannt, wird verwendet, um die Signifikanz einer linearen Beziehung zu bewerten und die Hypothese ihrer Existenz zu widerlegen oder zu bestätigen.

(Schülerkriterium) hilft, die Signifikanz des Koeffizienten mit einem unbekannten oder freien Term einer linearen Beziehung zu bewerten. Wenn der Wert des t-Kriteriums > t cr ist, wird die Hypothese der Bedeutungslosigkeit des freien Terms der linearen Gleichung verworfen.

In dem betrachteten Problem für das freie Mitglied wurde unter Verwendung der Excel-Tools erhalten, dass t = 169,20903 und p = 2,89E-12, d. h. wir haben eine Nullwahrscheinlichkeit, dass die richtige Hypothese über die Bedeutungslosigkeit des freien Mitglieds sein wird abgelehnt. Für den Koeffizienten bei Unbekannt t=5,79405 und p=0,001158. Mit anderen Worten, die Wahrscheinlichkeit, dass die richtige Hypothese über die Geringfügigkeit des Koeffizienten für das Unbekannte verworfen wird, beträgt 0,12 %.

Somit kann argumentiert werden, dass die resultierende lineare Regressionsgleichung angemessen ist.

Das Problem der Zweckmäßigkeit des Kaufs eines Aktienpakets

Die multiple Regression in Excel wird mit demselben Datenanalysetool durchgeführt. Betrachten Sie ein spezifisches angewandtes Problem.

Die Geschäftsführung von NNN muss entscheiden, ob es ratsam ist, eine 20 %-Beteiligung an MMM SA zu erwerben. Die Kosten für das Paket (JV) betragen 70 Millionen US-Dollar. NNN-Spezialisten sammelten Daten über ähnliche Transaktionen. Es wurde beschlossen, den Wert des Aktienpakets nach folgenden Parametern, ausgedrückt in Millionen US-Dollar, zu bewerten:

  • Kreditorenbuchhaltung (VK);
  • Jahresumsatz (VO);
  • Forderungen (VD);
  • Kosten des Anlagevermögens (SOF).

Zusätzlich wird der Parameter Lohnrückstände des Unternehmens (V3 P) in Tausend US-Dollar verwendet.

Lösung mit Excel-Tabelle

Zunächst müssen Sie eine Tabelle mit Anfangsdaten erstellen. Es sieht aus wie das:

  • Rufen Sie das Fenster "Datenanalyse" auf;
  • Wählen Sie den Abschnitt "Regression" aus.
  • Geben Sie im Feld "Eingabeintervall Y" den Wertebereich der abhängigen Variablen aus Spalte G ein.
  • Klicken Sie auf das Symbol mit einem roten Pfeil rechts neben dem Fenster "Eingabeintervall X" und wählen Sie den Bereich aller Werte aus den Spalten B, C, D, F auf dem Blatt aus.

Wählen Sie „Neues Arbeitsblatt“ und klicken Sie auf „Ok“.

Holen Sie sich die Regressionsanalyse für das gegebene Problem.

Prüfung der Ergebnisse und Schlussfolgerungen

„Wir erheben“ aus den oben in der Excel-Tabelle dargestellten gerundeten Daten die Regressionsgleichung:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

In einer bekannteren mathematischen Form kann es geschrieben werden als:

y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844

Daten für JSC "MMM" sind in der Tabelle dargestellt:

Setzt man sie in die Regressionsgleichung ein, erhalten sie einen Wert von 64,72 Millionen US-Dollar. Das bedeutet, dass die Aktien von JSC MMM nicht gekauft werden sollten, da ihr Wert von 70 Millionen US-Dollar eher überbewertet ist.

Wie Sie sehen, war es durch die Verwendung der Excel-Tabelle und der Regressionsgleichung möglich, eine fundierte Entscheidung über die Durchführbarkeit einer sehr spezifischen Transaktion zu treffen.

Jetzt wissen Sie, was Regression ist. Die oben diskutierten Beispiele in Excel helfen Ihnen, praktische Probleme aus dem Bereich der Ökonometrie zu lösen.

Die Regressionsanalyse liegt der Erstellung der meisten ökonometrischen Modelle zugrunde, zu denen auch die Kostenschätzungsmodelle gehören sollten. Zur Erstellung von Bewertungsmodellen kann diese Methode verwendet werden, wenn die Anzahl der Analoga (Vergleichsobjekte) und die Anzahl der Kostenfaktoren (Vergleichselemente) wie folgt miteinander korrelieren: P> (5-g-10) x zu, diese. Es sollte 5-10 mal mehr Analoga als Kostenfaktoren geben. Die gleiche Anforderung an das Verhältnis von Datenmenge und Anzahl der Faktoren gilt für andere Aufgaben: Herstellen einer Beziehung zwischen den Kosten- und Verbrauchsparametern eines Objekts; Begründung des Verfahrens zur Berechnung von Korrekturindizes; Klärung von Preistrends; Herstellen eines Zusammenhangs zwischen Verschleiß und veränderten Einflussfaktoren; Erhalten von Abhängigkeiten zur Berechnung von Kostenstandards usw. Die Erfüllung dieser Anforderung ist notwendig, um die Wahrscheinlichkeit zu verringern, mit einer Datenstichprobe zu arbeiten, die die Anforderung der Normalverteilung von Zufallsvariablen nicht erfüllt.

Die Regressionsbeziehung spiegelt nur den durchschnittlichen Trend der resultierenden Variablen wider, z. B. Kosten, aus Änderungen einer oder mehrerer Faktorvariablen, z. B. Standort, Anzahl der Zimmer, Fläche, Etage usw. Dies ist der Unterschied zwischen einer Regressionsbeziehung und einer funktionalen Beziehung, bei der der Wert der resultierenden Variablen für einen gegebenen Wert von Faktorvariablen streng definiert ist.

Das Vorhandensein einer Regressionsbeziehung / zwischen den resultierenden bei und Faktorvariablen x S ..., x k(Faktoren) weist darauf hin, dass dieser Zusammenhang nicht nur durch den Einfluss der ausgewählten Faktorvariablen bestimmt wird, sondern auch durch den Einfluss von Variablen, von denen einige im Allgemeinen unbekannt sind, andere nicht bewertet und berücksichtigt werden können:

Der Einfluss nicht berücksichtigter Variablen wird durch den zweiten Term dieser Gleichung bezeichnet ?, was als Approximationsfehler bezeichnet wird.

Es gibt die folgenden Arten von Regressionsabhängigkeiten:

  • ? gepaarte Regression - die Beziehung zwischen zwei Variablen (resultierend und faktoriell);
  • ? Multiple Regression - Abhängigkeit einer resultierenden Variablen und zwei oder mehr in die Studie einbezogener Faktorvariablen.

Die Hauptaufgabe der Regressionsanalyse besteht darin, die Nähe der Beziehung zwischen Variablen (bei der gepaarten Regression) und mehreren Variablen (bei der multiplen Regression) zu quantifizieren. Die Enge der Beziehung wird durch den Korrelationskoeffizienten quantifiziert.

Die Verwendung der Regressionsanalyse ermöglicht es Ihnen, die Regelmäßigkeit des Einflusses der Hauptfaktoren (hedonische Merkmale) auf den untersuchten Indikator sowohl in ihrer Gesamtheit als auch für jeden einzeln festzustellen. Mit Hilfe der Regressionsanalyse als Methode der mathematischen Statistik ist es möglich, erstens die Form der analytischen Abhängigkeit der resultierenden (gewünschten) Variablen von den faktoriellen zu finden und zu beschreiben und zweitens die Nähe von abzuschätzen diese Abhängigkeit.

Durch die Lösung des ersten Problems erhält man ein mathematisches Regressionsmodell, mit dessen Hilfe dann für gegebene Faktorwerte der gewünschte Indikator berechnet wird. Die Lösung des zweiten Problems ermöglicht es, die Zuverlässigkeit des berechneten Ergebnisses festzustellen.

Somit kann die Regressionsanalyse als eine Reihe formaler (mathematischer) Verfahren definiert werden, die dazu bestimmt sind, die Nähe, Richtung und den analytischen Ausdruck der Form der Beziehung zwischen den resultierenden und Faktorvariablen zu messen, d.h. Das Ergebnis einer solchen Analyse sollte ein strukturell und quantitativ definiertes statistisches Modell der Form sein:

wo ja - den Durchschnittswert der resultierenden Größe (der gewünschten Kennzahl, zB Kosten, Miete, Kapitalisierungszinssatz) über P ihre Beobachtungen; x ist der Wert der Faktorvariablen (/-ter Kostenfaktor); zu - Anzahl der Faktorvariablen.

Funktion f(xl ,...,xlc), Die Beschreibung der Abhängigkeit der resultierenden Variablen von den faktoriellen Variablen wird als Regressionsgleichung (Funktion) bezeichnet. Der Begriff "Regression" (Regression (lat.) - Rückzug, Rückkehr zu etwas) ist mit den Besonderheiten einer der spezifischen Aufgaben verbunden, die in der Phase der Methodenbildung gelöst wurden, und spiegelt derzeit nicht das gesamte Wesen der Methode, wird aber weiterhin verwendet.

Die Regressionsanalyse umfasst im Allgemeinen die folgenden Schritte:

  • ? Bildung einer Stichprobe homogener Objekte und Erhebung erster Informationen zu diesen Objekten;
  • ? Auswahl der Haupteinflussfaktoren auf die resultierende Variable;
  • ? Überprüfung der Probe auf Normalität mit X 2 oder Binomialkriterium;
  • ? Akzeptanz der Hypothese über die Kommunikationsform;
  • ? mathematische Datenverarbeitung;
  • ? Erhalten eines Regressionsmodells;
  • ? Bewertung seiner statistischen Indikatoren;
  • ? Verifizierungsrechnungen mit einem Regressionsmodell;
  • ? Analyse der Ergebnisse.

Die angegebene Abfolge von Operationen findet bei der Untersuchung sowohl einer Paarbeziehung zwischen einer Faktorvariablen und einer resultierenden Variablen als auch einer Mehrfachbeziehung zwischen der resultierenden Variablen und mehreren Faktorvariablen statt.

Die Verwendung der Regressionsanalyse stellt bestimmte Anforderungen an die Ausgangsinformationen:

  • ? eine statistische Stichprobe von Objekten sollte in funktionaler und konstruktiv-technologischer Hinsicht homogen sein;
  • ? ziemlich zahlreich;
  • ? der zu untersuchende Kostenindikator - die resultierende Variable (Preis, Kosten, Kosten) - muss für seine Berechnung für alle Objekte in der Stichprobe auf die gleichen Bedingungen reduziert werden;
  • ? Faktorvariablen müssen genau genug gemessen werden;
  • ? Faktorvariablen müssen unabhängig oder minimal abhängig sein.

Die Anforderungen an Homogenität und Vollständigkeit der Stichprobe stehen im Widerspruch: Je strenger die Auswahl der Objekte nach ihrer Homogenität erfolgt, desto kleiner fällt die Stichprobe aus, und umgekehrt ist zur Vergrößerung der Stichprobe die Aufnahme von Objekten erforderlich die einander nicht sehr ähnlich sind.

Nachdem die Daten für eine Gruppe homogener Objekte gesammelt wurden, werden sie analysiert, um die Form der Beziehung zwischen den Ergebnis- und Faktorvariablen in Form einer theoretischen Regressionslinie festzulegen. Der Prozess zum Auffinden einer theoretischen Regressionslinie besteht in einer vernünftigen Auswahl einer Annäherungskurve und der Berechnung der Koeffizienten ihrer Gleichung. Die Regressionsgerade ist eine glatte Kurve (im Einzelfall eine Gerade), die mit Hilfe einer mathematischen Funktion den generellen Trend der untersuchten Abhängigkeit beschreibt und unregelmäßige, zufällige Ausreißer durch den Einfluss von Nebenfaktoren glättet.

Um paarweise Regressionsabhängigkeiten in Bewertungsaufgaben anzuzeigen, werden am häufigsten die folgenden Funktionen verwendet: linear - y - eine 0 + ar + s Energie - y - aj&i + c demonstrativ - ja - linear exponentiell - y - a 0 + ar * + s. Hier - e Annäherungsfehler aufgrund der Wirkung nicht berücksichtigter Zufallsfaktoren.

In diesen Funktionen ist y die resultierende Variable; x - Faktorvariable (Faktor); a 0 , ein r ein 2 - Regressionsmodellparameter, Regressionskoeffizienten.

Das lineare Exponentialmodell gehört zur Klasse der sogenannten Hybridmodelle der Form:

wo

wo x (ich = 1, /) - Werte von Faktoren;

b t (ich = 0, /) sind die Koeffizienten der Regressionsgleichung.

In dieser Gleichung sind die Komponenten A, B und Z entsprechen den Anschaffungskosten einzelner Komponenten des zu bewertenden Vermögenswerts, beispielsweise den Anschaffungskosten eines Grundstücks und den Kosten für Verbesserungen, und dem Parameter Q ist üblich. Es soll den Wert aller Komponenten des zu bewertenden Vermögenswerts um einen gemeinsamen Einflussfaktor wie den Standort anpassen.

Die Werte von Faktoren, die im Grad der entsprechenden Koeffizienten liegen, sind binäre Variablen (0 oder 1). Die Faktoren, die dem Grad zugrunde liegen, sind diskrete oder kontinuierliche Variablen.

Faktoren, die Multipzugeordnet sind, sind ebenfalls kontinuierlich oder diskret.

Die Spezifikation erfolgt in der Regel empirisch und umfasst zwei Stufen:

  • ? Zeichnen von Punkten des Regressionsfeldes auf dem Graphen;
  • ? grafische (visuelle) Analyse des Typs einer möglichen Annäherungskurve.

Die Art der Regressionskurve ist nicht immer sofort wählbar. Um sie zu ermitteln, werden zunächst die Punkte des Regressionsfeldes gemäß den Ausgangsdaten in den Graphen eingezeichnet. Dann wird visuell eine Linie entlang der Position der Punkte gezogen, um das qualitative Muster der Verbindung herauszufinden: gleichmäßiges Wachstum oder gleichmäßige Abnahme, Wachstum (Abnahme) mit Zunahme (Abnahme) der Dynamikrate, sanfte Annäherung an ein bestimmtes Niveau.

Dieser empirische Ansatz wird durch eine logische Analyse ergänzt, ausgehend von bereits bekannten Vorstellungen über die wirtschaftliche und physikalische Natur der untersuchten Faktoren und deren gegenseitige Beeinflussung.

So ist beispielsweise bekannt, dass die Abhängigkeiten der resultierenden Variablen - Wirtschaftskennzahlen (Preise, Mieten) von einer Reihe von Faktorvariablen - preisbildenden Faktoren (Entfernung vom Siedlungszentrum, Fläche etc.) nichtlinear sind , und sie können ganz streng durch eine Potenz-, Exponential- oder quadratische Funktion beschrieben werden. Aber auch mit einer linearen Funktion lassen sich bei kleinen Faktorenbereichen akzeptable Ergebnisse erzielen.

Wenn es immer noch nicht möglich ist, sofort eine sichere Auswahl einer Funktion zu treffen, werden zwei oder drei Funktionen ausgewählt, ihre Parameter berechnet und dann unter Verwendung der entsprechenden Kriterien für die Festigkeit der Verbindung die Funktion endgültig ausgewählt.

Theoretisch wird der Regressionsprozess zum Finden der Form einer Kurve bezeichnet Spezifikation Modell und seine Koeffizienten - Kalibrierung Modelle.

Wenn sich herausstellt, dass die resultierende Variable y von mehreren faktoriellen Variablen (Faktoren) abhängt x ( , x 2 , ..., x k, dann greifen sie auf den Aufbau eines multiplen Regressionsmodells zurück. Üblicherweise werden drei Formen multipler Kommunikation verwendet: linear - y - a 0 + a x x x + a^x 2 + ... + ein k x k, demonstrativ - y - a 0 ein*ich a x t - a x b, Energie - y - ein 0 x x ix 2 a 2. .x^ oder Kombinationen davon.

Die Exponential- und Exponentialfunktionen sind universeller, da sie sich nichtlinearen Beziehungen annähern, die die Mehrheit der in der Bewertung untersuchten Abhängigkeiten darstellen. Darüber hinaus können sie bei der Bewertung von Objekten und bei der Methode der statistischen Modellierung zur Massenbewertung und bei der Methode des direkten Vergleichs bei der Einzelbewertung bei der Ermittlung von Korrekturfaktoren angewendet werden.

In der Kalibrierungsphase werden die Parameter des Regressionsmodells nach der Methode der kleinsten Quadrate berechnet, deren Kern darin besteht, dass die Summe der quadratischen Abweichungen der berechneten Werte der resultierenden Variablen ist bei., d.h. berechnet nach der gewählten Beziehungsgleichung, von den tatsächlichen Werten sollte minimal sein:

Werte j) (. und j. bekannt, also Q eine Funktion nur der Koeffizienten der Gleichung ist. Um das Minimum zu finden S partielle Ableitungen nehmen Q durch die Koeffizienten der Gleichung und gleich Null setzen:

Als Ergebnis erhalten wir ein System von Normalgleichungen, deren Anzahl gleich der Anzahl der ermittelten Koeffizienten der gewünschten Regressionsgleichung ist.

Angenommen, wir müssen die Koeffizienten der linearen Gleichung finden y - a 0 + Ars. Die Summe der quadrierten Abweichungen ist:

/=1

Differenziere eine Funktion Q durch unbekannte Koeffizienten eine 0 und und die partiellen Ableitungen gleich Null setzen:

Nach Umformungen erhalten wir:

wo P - Anzahl ursprünglicher Istwerte bei sie (die Anzahl der Analoga).

Das obige Verfahren zur Berechnung der Koeffizienten der Regressionsgleichung ist auch für nichtlineare Abhängigkeiten anwendbar, wenn diese Abhängigkeiten linearisiert werden können, d.h. durch Variablenänderung in eine lineare Form bringen. Potenz- und Exponentialfunktionen nehmen nach Logarithmierung und entsprechender Variablenänderung eine lineare Form an. Zum Beispiel hat eine Potenzfunktion nach dem Logarithmieren die Form: In y \u003d 1n 0 + ein x 1ph. Nach der Änderung von Variablen Y- Im y, L 0 - Im und Nr. X- In x erhalten wir eine lineare Funktion

Y=A0 + cijX, deren Koeffizienten wie oben beschrieben ermittelt werden.

Die Methode der kleinsten Quadrate wird auch verwendet, um die Koeffizienten eines multiplen Regressionsmodells zu berechnen. Also das System normaler Gleichungen zur Berechnung einer linearen Funktion mit zwei Variablen Xj und x 2 Nach einer Reihe von Transformationen sieht es so aus:

Üblicherweise wird dieses Gleichungssystem mit Methoden der linearen Algebra gelöst. Eine mehrfache Exponentialfunktion wird durch Logarithmieren und Ändern von Variablen in eine lineare Form gebracht, genauso wie eine paarige Exponentialfunktion.

Bei der Verwendung von Hybridmodellen werden mehrere Regressionskoeffizienten mit numerischen Verfahren der Methode der sukzessiven Approximation ermittelt.

Um die endgültige Auswahl aus mehreren Regressionsgleichungen zu treffen, ist es notwendig, jede Gleichung auf die Enge der Verbindung zu überprüfen, die durch den Korrelationskoeffizienten, die Varianz und den Variationskoeffizienten gemessen wird. Zur Bewertung können Sie auch die Kriterien von Student und Fisher verwenden. Je fester die Verbindung die Kurve zeigt, desto bevorzugter ist sie, wenn alle anderen Dinge gleich sind.

Wenn ein Problem einer solchen Klasse gelöst werden soll, wenn es darum geht, die Abhängigkeit eines Kostenindikators von Kostenfaktoren festzustellen, dann besteht der Wunsch, möglichst viele Einflussfaktoren zu berücksichtigen und dadurch ein genaueres multiples Regressionsmodell aufzubauen verständlich. Allerdings behindern zwei objektive Einschränkungen die Erweiterung der Anzahl von Faktoren. Erstens erfordert das Erstellen eines multiplen Regressionsmodells eine viel größere Stichprobe von Objekten als das Erstellen eines gepaarten Modells. Es ist allgemein anerkannt, dass die Anzahl der Objekte in der Stichprobe die Anzahl überschreiten sollte P Faktoren, mindestens 5-10 mal. Daraus folgt, dass es zum Erstellen eines Modells mit drei Einflussfaktoren notwendig ist, eine Stichprobe von ungefähr 20 Objekten mit unterschiedlichen Sätzen von Faktorwerten zu sammeln. Zweitens sollten die für das Modell ausgewählten Faktoren in ihrem Einfluss auf den Wertindikator hinreichend unabhängig voneinander sein. Dies ist nicht einfach zu gewährleisten, da die Stichprobe in der Regel Objekte derselben Familie vereint, bei der sich viele Faktoren regelmäßig von Objekt zu Objekt ändern.

Die Qualität von Regressionsmodellen wird üblicherweise anhand der folgenden Statistiken getestet.

Standardabweichung des Fehlers der Regressionsgleichung (Schätzfehler):

wo P - Probengröße (Anzahl der Analoga);

zu - Anzahl Faktoren (Kostenfaktoren);

Durch die Regressionsgleichung nicht erklärbarer Fehler (Abb. 3.2);

j. - der tatsächliche Wert der resultierenden Variablen (z. B. Kosten); y t - berechneter Wert der resultierenden Variablen.

Dieser Indikator wird auch genannt Standardfehler der Schätzung (RMS error). In der Abbildung geben die Punkte spezifische Werte der Stichprobe an, das Symbol zeigt die Linie der Mittelwerte der Stichprobe an, die geneigte strichpunktierte Linie ist die Regressionsgerade.


Reis. 3.2.

Die Standardabweichung des Schätzfehlers misst den Betrag der Abweichung der tatsächlichen Werte von y von den entsprechenden berechneten Werten. bei( , erhalten unter Verwendung des Regressionsmodells. Wenn die Stichprobe, auf der das Modell aufbaut, dem Normalverteilungsgesetz unterliegt, kann argumentiert werden, dass 68 % der realen Werte bei sind im Sortiment bei ± &e von der Regressionslinie und 95% - im Bereich bei ± 2d e. Dieser Indikator ist praktisch, da die Maßeinheiten sg? den Maßeinheiten entsprechen bei,. In diesem Zusammenhang kann es verwendet werden, um die Genauigkeit des im Bewertungsprozess erhaltenen Ergebnisses anzuzeigen. Beispielsweise können Sie in einem Wertzertifikat angeben, dass der Wert des Marktwerts mithilfe des Regressionsmodells ermittelt wurde v liegt mit einer Wahrscheinlichkeit von 95 % im Bereich von (V-2d,.) Vor (bei + 2ds).

Variationskoeffizient der resultierenden Variablen:

wo ja - der Mittelwert der resultierenden Variablen (Abbildung 3.2).

Bei der Regressionsanalyse ist der Variationskoeffizient var die Standardabweichung des Ergebnisses, ausgedrückt in Prozent des Mittelwerts der Ergebnisvariablen. Als Kriterium für die Vorhersagequalität des resultierenden Regressionsmodells kann der Variationskoeffizient dienen: je kleiner der Wert Var, desto höher sind die Vorhersagequalitäten des Modells. Die Verwendung des Variationskoeffizienten ist dem Exponenten &e vorzuziehen, da es sich um einen relativen Exponenten handelt. In der praktischen Anwendung dieses Indikators kann empfohlen werden, kein Modell zu verwenden, dessen Variationskoeffizient 33 % überschreitet, da in diesem Fall nicht gesagt werden kann, dass diese Stichproben dem Normalverteilungsgesetz unterliegen.

Bestimmtheitsmaß (multiple Korrelationskoeffizient im Quadrat):

Dieser Indikator wird verwendet, um die Gesamtqualität des resultierenden Regressionsmodells zu analysieren. Sie gibt an, wie viel Prozent der Variation in der resultierenden Variablen auf den Einfluss aller im Modell enthaltenen Faktorvariablen zurückzuführen ist. Das Bestimmtheitsmaß liegt immer im Bereich von null bis eins. Je näher der Wert des Bestimmtheitsmaßes an Eins liegt, desto besser beschreibt das Modell die ursprüngliche Datenreihe. Das Bestimmtheitsmaß kann auch anders dargestellt werden:

Hier ist der Fehler, der durch das Regressionsmodell erklärt wird,

a - Fehler unerklärlich

Regressionsmodell. Aus ökonomischer Sicht ermöglicht dieses Kriterium eine Beurteilung, wie viel Prozent der Preisvariation durch die Regressionsgleichung erklärt werden.

Die genaue Akzeptanzgrenze des Indikators R2 es ist unmöglich, für alle Fälle zu spezifizieren. Sowohl die Stichprobengröße als auch die sinnvolle Interpretation der Gleichung müssen berücksichtigt werden. In der Regel wird bei der Untersuchung von Daten zu Objekten des gleichen Typs, etwa zur gleichen Zeit, der Wert erhalten R2 das Niveau von 0,6-0,7 nicht überschreitet. Wenn alle Vorhersagefehler Null sind, d.h. wenn die Beziehung zwischen den Ergebnis- und Faktorvariablen funktional ist, dann R2 =1.

Angepasstes Bestimmtheitsmaß:

Die Notwendigkeit, ein angepasstes Bestimmtheitsmaß einzuführen, erklärt sich aus der Tatsache, dass mit zunehmender Anzahl von Faktoren zu das übliche Bestimmtheitsmaß nimmt fast immer zu, aber die Anzahl der Freiheitsgrade nimmt ab (n-k- eines). Die eingegebene Anpassung reduziert immer den Wert R2, weil die (P - 1) > (n- bis - eines). Als Ergebnis der Wert R 2 CKOf) kann sogar negativ werden. Das bedeutet, dass der Wert R2 vor der Anpassung nahe Null war und der Anteil der Varianz durch die Regressionsgleichung der Variablen erklärt wurde bei sehr klein.

Von den beiden Varianten von Regressionsmodellen, die sich im Wert des bereinigten Bestimmtheitsmaßes unterscheiden, aber ansonsten gleich gute Gütekriterien aufweisen, ist die Variante mit einem großen Wert des bereinigten Bestimmtheitsmaßes vorzuziehen. Das Bestimmtheitsmaß wird nicht angepasst, wenn (n - k): k> 20.

Fisher-Verhältnis:

Anhand dieses Kriteriums wird die Signifikanz des Bestimmtheitsmaßes beurteilt. Residuensumme der Quadrate ist ein Maß für den Vorhersagefehler unter Verwendung einer Regression bekannter Kostenwerte bei.. Der Vergleich mit der Summe der Quadrate der Regression zeigt, wie oft die Regressionsabhängigkeit das Ergebnis besser vorhersagt als der Mittelwert bei. Es gibt eine Tabelle mit kritischen Werten F R Fisher-Koeffizient abhängig von der Anzahl der Freiheitsgrade des Zählers - zu, Nenner v 2 = p - k- 1 und Signifikanzniveau a. Wenn der berechnete Wert des Fisher-Kriteriums F R größer als der Tabellenwert ist, dann gilt die Hypothese der Geringfügigkeit des Bestimmtheitsmaßes, d.h. über die Diskrepanz zwischen den in die Regressionsgleichung eingebetteten und den real existierenden Zusammenhängen mit einer Wahrscheinlichkeit p = 1 - a wird verworfen.

Durchschnittlicher Näherungsfehler(durchschnittliche prozentuale Abweichung) wird als durchschnittliche relative Differenz, ausgedrückt in Prozent, zwischen den tatsächlichen und berechneten Werten der resultierenden Variablen berechnet:

Je niedriger der Wert dieses Indikators ist, desto besser ist die Vorhersagequalität des Modells. Wenn der Wert dieses Indikators nicht höher als 7 % ist, weisen sie auf die hohe Genauigkeit des Modells hin. Wenn ein 8 > 15 % weisen auf die ungenügende Genauigkeit des Modells hin.

Standardfehler des Regressionskoeffizienten:

wobei (/I) -1 .- Diagonalelement der Matrix (X G X) ~ 1 bis - Anzahl der Faktoren;

X- Matrix der Faktorvariablenwerte:

X7- transponierte Matrix von Faktorvariablenwerten;

(JL)_| ist eine zu einer Matrix inverse Matrix.

Je kleiner diese Werte für jeden Regressionskoeffizienten sind, desto zuverlässiger ist die Schätzung des entsprechenden Regressionskoeffizienten.

Schülertest (t-Statistik):

Mit diesem Kriterium können Sie den Grad der Zuverlässigkeit (Signifikanz) der Beziehung aufgrund eines bestimmten Regressionskoeffizienten messen. Wenn der berechnete Wert t. größer als Tabellenwert

t v, wo v - p - k - 1 die Anzahl der Freiheitsgrade ist, dann wird die Hypothese, dass dieser Koeffizient statistisch nicht signifikant ist, mit einer Wahrscheinlichkeit von (100 - a)% verworfen. Es gibt spezielle Tabellen der /-Verteilung, die es ermöglichen, den kritischen Wert des Kriteriums durch ein gegebenes Signifikanzniveau a und die Anzahl der Freiheitsgrade v zu bestimmen. Der am häufigsten verwendete Wert von a ist 5 %.

Multikollinearität, d.h. Die Auswirkung gegenseitiger Beziehungen zwischen Faktorvariablen führt dazu, dass man sich mit einer begrenzten Anzahl von ihnen begnügen muss. Wird dies nicht berücksichtigt, kann es zu einem unlogischen Regressionsmodell kommen. Um den negativen Effekt der Multikollinearität zu vermeiden, werden vor dem Erstellen eines multiplen Regressionsmodells Paarkorrelationskoeffizienten berechnet rxjxj zwischen ausgewählten Variablen X. und X

Hier XjX; - Mittelwert des Produkts zweier faktorieller Variablen;

XjXj- das Produkt der Durchschnittswerte zweier Faktorvariablen;

Auswertung der Varianz der Faktorvariablen x..

Zwei Variablen gelten als regressiv verwandt (d. h. kollinear), wenn ihr paarweiser Korrelationskoeffizient im absoluten Wert strikt größer als 0,8 ist. In diesem Fall sollte jede dieser Variablen von der Betrachtung ausgeschlossen werden.

Um die Möglichkeiten der ökonomischen Analyse der resultierenden Regressionsmodelle zu erweitern, werden Durchschnittswerte verwendet Elastizitätskoeffizienten, bestimmt durch die Formel:

wo Xj- Mittelwert der entsprechenden Faktorvariablen;

ja - Mittelwert der resultierenden Variablen; ein ich - Regressionskoeffizient für die entsprechende Faktorvariable.

Der Elastizitätskoeffizient gibt an, um wie viel Prozent sich der Wert der resultierenden Variablen im Mittel ändert, wenn sich die Faktorvariable um 1 % ändert, d.h. wie die resultierende Variable auf eine Änderung der Faktorvariablen reagiert. Wie verändert sich zum Beispiel der Quadratmeterpreis? m Bereich der Wohnung in einer Entfernung vom Stadtzentrum.

Nützlich im Hinblick auf die Analyse der Signifikanz eines bestimmten Regressionskoeffizienten ist die Schätzung privates Bestimmtheitsmaß:

Hier ist die Schätzung der Varianz des Ergebnisses

Variable. Dieser Koeffizient zeigt an, wie viel Prozent die Variation der resultierenden Variablen durch die Variation der /-ten Faktorvariablen erklärt wird, die in der Regressionsgleichung enthalten ist.

  • Unter hedonischen Eigenschaften werden Eigenschaften eines Objekts verstanden, die seine nützlichen (wertvollen) Eigenschaften aus Sicht von Käufern und Verkäufern widerspiegeln.

Regressions- und Korrelationsanalyse - statistische Forschungsmethoden. Dies sind die gebräuchlichsten Methoden, um die Abhängigkeit eines Parameters von einer oder mehreren unabhängigen Variablen darzustellen.

Im Folgenden betrachten wir diese beiden unter Ökonomen sehr beliebten Analysen anhand konkreter Praxisbeispiele. Wir geben auch ein Beispiel für das Erhalten von Ergebnissen, wenn sie kombiniert werden.

Regressionsanalyse in Excel

Zeigt den Einfluss einiger Werte (unabhängig, unabhängig) auf die abhängige Variable. Zum Beispiel, wie die Zahl der erwerbstätigen Bevölkerung von der Zahl der Unternehmen, Löhne und anderen Parametern abhängt. Oder: Wie wirken sich Auslandsinvestitionen, Energiepreise etc. auf die Höhe des BIP aus?

Das Ergebnis der Analyse ermöglicht Ihnen eine Priorisierung. Und basierend auf den Hauptfaktoren, um die Entwicklung vorrangiger Bereiche vorherzusagen, zu planen und Managemententscheidungen zu treffen.

Regression passiert:

  • linear (y = a + bx);
  • parabolisch (y = a + bx + cx 2);
  • exponentiell (y = a * exp(bx));
  • Potenz (y = a*x^b);
  • hyperbolisch (y = b/x + a);
  • logarithmisch (y = b * 1n(x) + a);
  • exponentiell (y = a * b^x).

Betrachten Sie das Beispiel der Erstellung eines Regressionsmodells in Excel und der Interpretation der Ergebnisse. Nehmen wir eine lineare Regression.

Eine Aufgabe. Bei 6 Unternehmen wurden das durchschnittliche Monatsgehalt und die Anzahl der Austritte analysiert. Es ist notwendig, die Abhängigkeit der Anzahl der Rentner vom Durchschnittsgehalt zu ermitteln.

Das lineare Regressionsmodell hat folgende Form:

Y \u003d ein 0 + ein 1 x 1 + ... + ein k x k.

Dabei sind a die Regressionskoeffizienten, x die Einflussgrößen und k die Anzahl der Faktoren.

In unserem Beispiel ist Y der Indikator für gekündigte Arbeitnehmer. Der Einflussfaktor ist der Lohn (x).

Excel verfügt über integrierte Funktionen, mit denen die Parameter eines linearen Regressionsmodells berechnet werden können. Aber das Analyse-ToolPak-Add-In macht es schneller.

Aktivieren Sie ein leistungsstarkes Analysetool:

Nach der Aktivierung ist das Add-on unter der Registerkarte Daten verfügbar.

Nun beschäftigen wir uns direkt mit der Regressionsanalyse.



Zunächst achten wir auf das R-Quadrat und die Koeffizienten.

R-Quadrat ist das Bestimmtheitsmaß. In unserem Beispiel sind es 0,755 oder 75,5 %. Das bedeutet, dass die berechneten Parameter des Modells die Beziehung zwischen den untersuchten Parametern zu 75,5 % erklären. Je höher das Bestimmtheitsmaß, desto besser das Modell. Gut - über 0,8. Schlecht - weniger als 0,5 (eine solche Analyse kann kaum als vernünftig angesehen werden). In unserem Beispiel - "nicht schlecht".

Der Koeffizient 64,1428 zeigt, was Y sein wird, wenn alle Variablen im betrachteten Modell gleich 0 sind. Das heißt, andere Faktoren, die nicht im Modell beschrieben sind, beeinflussen auch den Wert des analysierten Parameters.

Der Koeffizient -0,16285 zeigt die Gewichtung der Variablen X auf Y. Das bedeutet, dass das durchschnittliche Monatsgehalt in diesem Modell die Anzahl der Aussteiger mit einer Gewichtung von -0,16285 beeinflusst (dies ist ein geringer Grad an Einfluss). Das „-“-Zeichen weist auf einen negativen Effekt hin: Je höher das Gehalt, desto weniger Kündigungen. Was gerecht ist.



Korrelationsanalyse in Excel

Die Korrelationsanalyse hilft festzustellen, ob es einen Zusammenhang zwischen Indikatoren in einer oder zwei Stichproben gibt. Zum Beispiel zwischen der Betriebszeit der Maschine und den Kosten für Reparaturen, dem Preis der Ausrüstung und der Betriebsdauer, der Größe und dem Gewicht von Kindern usw.

Wenn es einen Zusammenhang gibt, dann ob eine Zunahme eines Parameters zu einer Zunahme (positive Korrelation) oder einer Abnahme (negative) des anderen führt. Die Korrelationsanalyse hilft dem Analysten festzustellen, ob der Wert eines Indikators den möglichen Wert eines anderen vorhersagen kann.

Der Korrelationskoeffizient wird mit r bezeichnet. Variiert von +1 bis -1. Die Klassifizierung von Korrelationen für verschiedene Bereiche wird unterschiedlich sein. Wenn der Koeffizientenwert 0 ist, gibt es keine lineare Beziehung zwischen den Proben.

Überlegen Sie, wie Sie Excel verwenden, um den Korrelationskoeffizienten zu finden.

Die CORREL-Funktion wird verwendet, um die gepaarten Koeffizienten zu finden.

Aufgabe: Stellen Sie fest, ob ein Zusammenhang zwischen der Betriebszeit einer Drehmaschine und den Kosten für deren Wartung besteht.

Setzen Sie den Cursor in eine beliebige Zelle und drücken Sie die fx-Taste.

  1. Wählen Sie in der Kategorie „Statistik“ die Funktion CORREL aus.
  2. Argument "Array 1" - der erste Wertebereich - die Zeit der Maschine: A2: A14.
  3. Argument "Array 2" - der zweite Wertebereich - die Reparaturkosten: B2:B14. OK klicken.

Um die Art der Verbindung zu bestimmen, müssen Sie die absolute Zahl des Koeffizienten betrachten (jedes Tätigkeitsfeld hat seine eigene Skala).

Für die Korrelationsanalyse mehrerer Parameter (mehr als 2) ist es bequemer, "Data Analysis" (Add-on "Analysis Package") zu verwenden. In der Liste müssen Sie eine Korrelation auswählen und ein Array zuweisen. Alle.

Die resultierenden Koeffizienten werden in der Korrelationsmatrix angezeigt. Wie dieser:

Korrelations-Regressionsanalyse

In der Praxis werden diese beiden Techniken oft zusammen verwendet.

Beispiel:


Jetzt sind die Daten der Regressionsanalyse sichtbar.

Was ist Regression?

Betrachten Sie zwei stetige Variablen x = (x 1 , x 2 , ..., x n), y = (y 1 , y 2 , ..., y n).

Lassen Sie uns die Punkte auf einem 2D-Streudiagramm platzieren und sagen, wir haben lineare Beziehung wenn die Daten durch eine Gerade angenähert werden.

Wenn wir davon ausgehen j hängt von der x, und die Änderungen in j verursacht durch Veränderungen in x, können wir eine Regressionslinie definieren (regression j auf der x), was die geradlinige Beziehung zwischen diesen beiden Variablen am besten beschreibt.

Die statistische Verwendung des Wortes "Regression" stammt von einem Phänomen, das als Regression zum Mittelwert bekannt ist und Sir Francis Galton (1889) zugeschrieben wird.

Er zeigte, dass große Väter zwar tendenziell große Söhne haben, die durchschnittliche Größe der Söhne jedoch kleiner ist als die ihrer großen Väter. Die durchschnittliche Körpergröße der Söhne "verringerte sich" und "wanderte sich zurück" auf die durchschnittliche Größe aller Väter in der Bevölkerung. So haben große Väter im Durchschnitt kleinere (aber immer noch große) Söhne, und kleine Väter haben größere (aber immer noch eher kleine) Söhne.

Regressionslinie

Mathematische Gleichung, die eine einfache (paarweise) lineare Regressionslinie auswertet:

x wird als unabhängige Variable oder Prädiktor bezeichnet.

Y ist die abhängige oder Antwortvariable. Das ist der Wert, den wir erwarten j(im Durchschnitt), wenn wir den Wert kennen x, d.h. ist der vorhergesagte Wert j»

  • a- freies Mitglied (Kreuzung) der Bewertungslinie; dieser Wert Y, Wenn x=0(Abb.1).
  • b- Steigung oder Gefälle der geschätzten Linie; es ist der Betrag, um den Y steigt im Durchschnitt, wenn wir zunehmen x für eine Einheit.
  • a und b werden die Regressionskoeffizienten der geschätzten Linie genannt, obwohl dieser Begriff oft nur für verwendet wird b.

Die paarweise lineare Regression kann erweitert werden, um mehr als eine unabhängige Variable einzubeziehen; in diesem Fall ist es bekannt als multiple Regression.

Abb.1. Lineare Regressionslinie, die den Schnittpunkt von a und der Steigung b zeigt (der Betrag der Zunahme von Y, wenn x um eine Einheit zunimmt)

Methode der kleinsten Quadrate

Wir führen eine Regressionsanalyse mit einer Stichprobe von Beobachtungen durch, bei denen a und b- Stichprobenschätzungen der wahren (allgemeinen) Parameter α und β , die die Linie der linearen Regression in der Grundgesamtheit (allgemeine Grundgesamtheit) bestimmen.

Die einfachste Methode zur Bestimmung der Koeffizienten a und b ist Methode der kleinsten Quadrate(MNK).

Die Anpassung wird unter Berücksichtigung der Residuen (der vertikale Abstand jedes Punktes von der Linie, z. B. Residuum = beobachtbar) bewertet j- vorhergesagt j, Reis. 2).

Die Linie der besten Anpassung wird so gewählt, dass die Summe der Quadrate der Residuen minimal ist.

Reis. 2. Lineare Regressionslinie mit dargestellten Residuen (vertikale gepunktete Linien) für jeden Punkt.

Lineare Regressionsannahmen

Für jeden beobachteten Wert ist das Residuum also gleich der Differenz und dem entsprechenden vorhergesagten. Jedes Residuum kann positiv oder negativ sein.

Sie können Residuen verwenden, um die folgenden Annahmen hinter der linearen Regression zu testen:

  • Die Residuen sind normalverteilt mit dem Mittelwert Null;

Wenn die Annahmen von Linearität, Normalität und/oder konstanter Varianz fraglich sind, können wir transformieren oder eine neue Regressionslinie berechnen, für die diese Annahmen erfüllt sind (z. B. eine logarithmische Transformation verwenden usw.).

Abnorme Werte (Ausreißer) und Einflusspunkte

Eine „einflussreiche“ Beobachtung ändert, wenn sie weggelassen wird, eine oder mehrere Modellparameterschätzungen (dh Steigung oder Achsenabschnitt).

Ein Ausreißer (eine Beobachtung, die den meisten Werten im Datensatz widerspricht) kann eine „einflussreiche“ Beobachtung sein und kann visuell gut erkannt werden, wenn man sich ein 2D-Streudiagramm oder ein Diagramm mit Residuen ansieht.

Sowohl für Ausreißer als auch für "einflussreiche" Beobachtungen (Punkte) werden Modelle verwendet, sowohl mit ihrer Einbeziehung als auch ohne sie, achten Sie auf die Änderung der Schätzung (Regressionskoeffizienten).

Verwerfen Sie bei einer Analyse Ausreißer oder Einflusspunkte nicht automatisch, da das einfache Ignorieren die Ergebnisse beeinflussen kann. Untersuchen Sie immer die Ursachen dieser Ausreißer und analysieren Sie sie.

Lineare Regressionshypothese

Bei der Konstruktion einer linearen Regression wird die Nullhypothese überprüft, dass die allgemeine Steigung der Regressionsgeraden β gleich Null ist.

Wenn die Steigung der Geraden Null ist, gibt es keine lineare Beziehung zwischen und: Die Änderung wirkt sich nicht aus

Um die Nullhypothese zu testen, dass die wahre Steigung null ist, können Sie den folgenden Algorithmus verwenden:

Berechnen Sie die Teststatistik gleich dem Verhältnis , das einer Verteilung mit Freiheitsgraden gehorcht, wobei der Standardfehler des Koeffizienten


,

- Schätzung der Varianz der Residuen.

Normalerweise wird die Nullhypothese verworfen, wenn das Signifikanzniveau erreicht ist.


wobei der Prozentpunkt der Verteilung mit Freiheitsgraden ist, der die Wahrscheinlichkeit eines zweiseitigen Tests angibt

Dies ist das Intervall, das mit einer Wahrscheinlichkeit von 95 % die allgemeine Steigung enthält.

Nehmen wir an, wir können uns bei großen Stichproben mit einem Wert von 1,96 annähern (das heißt, die Teststatistik ist tendenziell normalverteilt).

Bewertung der Qualität der linearen Regression: Bestimmtheitsmaß R 2

Aufgrund der linearen Beziehung erwarten wir, dass sich Änderungen als Änderungen ergeben , und wir nennen dies die Variation, die auf die Regression zurückzuführen ist oder durch diese erklärt wird. Die Restabweichung sollte so gering wie möglich sein.

Wenn dies der Fall ist, wird der größte Teil der Variation durch die Regression erklärt, und die Punkte liegen nahe an der Regressionslinie, d.h. Die Linie passt gut zu den Daten.

Der Anteil der Gesamtvarianz, der durch die Regression erklärt wird, wird genannt Bestimmungskoeffizient, üblicherweise in Prozent ausgedrückt und bezeichnet R2(Bei der gepaarten linearen Regression ist dies der Wert r2, das Quadrat des Korrelationskoeffizienten), erlaubt Ihnen, die Qualität der Regressionsgleichung subjektiv zu beurteilen.

Die Differenz ist der Prozentsatz der Varianz, der nicht durch Regression erklärt werden kann.

Da es keinen formellen Test zur Bewertung gibt, sind wir gezwungen, uns auf ein subjektives Urteil zu verlassen, um die Qualität der Anpassung der Regressionslinie zu bestimmen.

Anwenden einer Regressionslinie auf eine Prognose

Sie können eine Regressionslinie verwenden, um einen Wert aus einem Wert innerhalb des beobachteten Bereichs vorherzusagen (extrapolieren Sie niemals über diese Grenzen hinaus).

Wir sagen den Mittelwert für Observable voraus, die einen bestimmten Wert haben, indem wir diesen Wert in die Regressionsliniengleichung einsetzen.

Wenn wir also vorhersagen, wie wir diesen vorhergesagten Wert und seinen Standardfehler verwenden, um das Konfidenzintervall für den wahren Mittelwert der Grundgesamtheit zu schätzen.

Wenn Sie dieses Verfahren für verschiedene Werte wiederholen, können Sie Vertrauensgrenzen für diese Linie erstellen. Dies ist ein Band oder Bereich, der beispielsweise eine echte Linie mit einem Konfidenzniveau von 95 % enthält.

Einfache Regressionspläne

Einfache Regressionsdesigns enthalten einen kontinuierlichen Prädiktor. Wenn es 3 Fälle mit Prädiktorwerten P gibt, wie z. B. 7, 4 und 9, und das Design einen Effekt erster Ordnung P enthält, dann ist die Designmatrix X

und die Regressionsgleichung mit P für X1 sieht so aus

Y = b0 + b1 P

Wenn ein einfaches Regressionsdesign einen Effekt höherer Ordnung auf P enthält, z. B. einen quadratischen Effekt, werden die Werte in Spalte X1 in der Designmatrix in die zweite Potenz erhoben:

und die Gleichung nimmt die Form an

Y = b0 + b1 P2

Sigma-beschränkte und überparametrisierte Codierungsmethoden gelten nicht für einfache Regressionsdesigns und andere Designs, die nur kontinuierliche Prädiktoren enthalten (weil es einfach keine kategorialen Prädiktoren gibt). Unabhängig von der gewählten Kodierungsmethode werden die Werte der kontinuierlichen Variablen um die entsprechende Potenz erhöht und als Werte für die X-Variablen verwendet. In diesem Fall wird keine Konvertierung durchgeführt. Außerdem können Sie bei der Beschreibung von Regressionsplänen auf die Berücksichtigung der Planmatrix X verzichten und nur mit der Regressionsgleichung arbeiten.

Beispiel: Einfache Regressionsanalyse

Dieses Beispiel verwendet die in der Tabelle bereitgestellten Daten:

Reis. 3. Tabelle der Anfangsdaten.

Die Daten basieren auf einem Vergleich der Volkszählungen von 1960 und 1970 in 30 zufällig ausgewählten Landkreisen. Landkreisnamen werden als Beobachtungsnamen dargestellt. Nachfolgend finden Sie Informationen zu jeder Variablen:

Reis. 4. Variable Spezifikationstabelle.

Forschungsziel

Für dieses Beispiel wird die Korrelation zwischen der Armutsquote und der Aussagekraft für den Prozentsatz der Familien unterhalb der Armutsgrenze analysiert. Daher behandeln wir Variable 3 (Pt_Poor ) als abhängige Variable.

Man kann eine Hypothese aufstellen: Die Bevölkerungsveränderung und der Anteil der Familien unterhalb der Armutsgrenze hängen zusammen. Es scheint vernünftig zu erwarten, dass Armut zu einer Abwanderung der Bevölkerung führt, daher würde es eine negative Korrelation zwischen dem Prozentsatz der Menschen unterhalb der Armutsgrenze und der Bevölkerungsveränderung geben. Daher behandeln wir Variable 1 (Pop_Chng ) als Prädiktorvariable.

Ergebnisse anzeigen

Regressionskoeffizienten

Reis. 5. Regressionskoeffizienten Pt_Poor auf Pop_Chng.

Am Schnittpunkt der Zeile Pop_Chng und Param. der nicht standardisierte Koeffizient für die Regression von Pt_Poor auf Pop_Chng ist -0.40374 . Das bedeutet, dass für jede abnehmende Bevölkerungseinheit die Armutsquote um 0,40374 zunimmt. Die oberen und unteren (Standard-)Konfidenzgrenzen von 95 % für diesen nicht standardisierten Koeffizienten enthalten keine Null, sodass der Regressionskoeffizient auf der p-Ebene signifikant ist<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Verteilung von Variablen

Korrelationskoeffizienten können erheblich über- oder unterschätzt werden, wenn große Ausreißer in den Daten vorhanden sind. Untersuchen wir die Verteilung der abhängigen Variablen Pt_Poor nach Landkreisen. Dazu erstellen wir ein Histogramm der Pt_Poor-Variablen.

Reis. 6. Histogramm der Pt_Poor-Variablen.

Wie Sie sehen, weicht die Verteilung dieser Variablen deutlich von der Normalverteilung ab. Obwohl jedoch sogar zwei Bezirke (die beiden rechten Spalten) einen höheren Prozentsatz an Familien aufweisen, die unter der Armutsgrenze leben, als bei einer normalen Verteilung erwartet, scheinen sie „innerhalb des Bereichs“ zu liegen.

Reis. 7. Histogramm der Pt_Poor-Variablen.

Dieses Urteil ist etwas subjektiv. Als Faustregel gilt, dass Ausreißer berücksichtigt werden sollten, wenn eine Beobachtung (oder Beobachtungen) nicht in das Intervall fällt (Mittelwert ± 3-fache Standardabweichung). In diesem Fall lohnt es sich, die Analyse mit und ohne Ausreißer zu wiederholen, um sicherzustellen, dass diese keinen gravierenden Einfluss auf die Korrelation zwischen den Mitgliedern der Bevölkerung haben.

Streudiagramm

Wenn sich eine der Hypothesen a priori auf die Beziehung zwischen den gegebenen Variablen bezieht, ist es sinnvoll, sie auf dem Diagramm des entsprechenden Streudiagramms zu überprüfen.

Reis. 8. Streudiagramm.

Das Streudiagramm zeigt eine deutliche negative Korrelation (-.65) zwischen den beiden Variablen. Es zeigt auch das 95-%-Konfidenzintervall für die Regressionsgerade, d. h. mit 95-prozentiger Wahrscheinlichkeit verläuft die Regressionsgerade zwischen den beiden gestrichelten Kurven.

Signifikanzkriterien

Reis. 9. Tabelle mit den Signifikanzkriterien.

Der Test für den Pop_Chng-Regressionskoeffizienten bestätigt, dass Pop_Chng stark mit Pt_Poor verwandt ist, p<.001 .

Ergebnis

Dieses Beispiel zeigte, wie ein einfacher Regressionsplan analysiert wird. Eine Interpretation nicht standardisierter und standardisierter Regressionskoeffizienten wurde ebenfalls vorgestellt. Es wird diskutiert, wie wichtig es ist, die Antwortverteilung der abhängigen Variablen zu untersuchen, und es wird eine Technik zur Bestimmung der Richtung und Stärke der Beziehung zwischen dem Prädiktor und der abhängigen Variablen demonstriert.