Bestimmung der Signifikanz der Regressionsgleichung. Beurteilung der statistischen Signifikanz der Regressionsgleichung ihrer Parameter

Für die Koeffizienten der Regressionsgleichung wird ihr Signifikanzniveau gemäß überprüft t -Schülerkriterium und nach dem Kriterium F Fischer. Im Folgenden betrachten wir die Bewertung der Zuverlässigkeit von Regressionsindikatoren nur für lineare Gleichungen (12.1) und (12.2).

Y=a 0+ a 1 X(12.1)

X=b 0+b 1 Y(12.2)

Für diese Art von Gleichungen werden sie ausgewertet durch t-Schülerkriterium nur die Werte der Koeffizienten a 1i b 1 mit der Wertberechnung tf nach folgenden Formeln:

Woher r yx Korrelationskoeffizient und den Wert a 1 kann mit den Formeln 12.5 oder 12.7 berechnet werden.

Formel (12.27) wird verwendet, um die Menge zu berechnen tf, a 1Regressionsgleichungen Y An x.

der Wert b 1 kann mit den Formeln (12.6) oder (12.8) berechnet werden.

Formel (12.29) wird verwendet, um die Menge zu berechnen tf, was es ermöglicht, das Signifikanzniveau des Koeffizienten abzuschätzen b 1Regressionsgleichungen X An Y

Beispiel. Lassen Sie uns das Signifikanzniveau der Regressionskoeffizienten abschätzen a 1i b 1 Gleichungen (12.17) und (12.18), die bei der Lösung von Problem 12.1 erhalten wurden. Verwenden wir dazu die Formeln (12.27), (12.28), (12.29) und (12.30).

Erinnern Sie sich an die Form der erhaltenen Regressionsgleichungen:

Yx = 3 + 0,06 X(12.17)

Xy = 9+ 1 Y(12.19)

Wert a 1 in Gleichung (12.17) ist gleich 0,06. Um nach der Formel (12.27) zu berechnen, müssen Sie daher den Wert berechnen Sb y x. Je nach Zustand des Problems die Menge P= 8. Der Korrelationskoeffizient wurde ebenfalls von uns nach Formel 12.9 berechnet: rxy = √ 0,06 0,997 = 0,244 .

Es bleibt, die Mengen zu berechnen Σ (ein Fernseher- j) 2 und Σ (X ι -x) 2 , die wir nicht berechnet haben. Am besten führen Sie diese Berechnungen in Tabelle 12.2 durch:

Tabelle 12.2

Anzahl der Prüflinge p / p x ι ich x ι –x (x ι –x) 2 ein Fernseher- j (ein Fernseher- j) 2
-4,75 22,56 - 1,75 3,06
-4,75 22,56 -0,75 0,56
-2,75 7,56 0,25 0,06
-2,75 7,56 1,25 15,62
1,25 1,56 1,25 15,62
3,25 10,56 0,25 0,06
5,25 27,56 -0,75 0,56
5,25 27,56 0,25 0,06
Summen 127,48 35,6
Mittel 12,75 3,75

Wir setzen die erhaltenen Werte in die Formel (12.28) ein, wir erhalten:

Lassen Sie uns nun den Wert berechnen tf nach der Formel (12.27):

Wert tf wird auf das Signifikanzniveau nach Tabelle 16 des Anhangs 1 geprüft t- Schülerkriterium. Die Anzahl der Freiheitsgrade beträgt in diesem Fall 8-2 = 6, sodass die kritischen Werte jeweils gleich sind, z P ≤ 0,05 t kr= 2,45 und für Р≤ 0,01 t kr=3,71. In der akzeptierten Form sieht es so aus:

Wir bauen die "Bedeutungsachse":

Erhaltener Wert tf Aber dass der Wert des Regressionskoeffizienten von Gleichung (12.17) nicht von Null zu unterscheiden ist. Mit anderen Worten, die resultierende Regressionsgleichung entspricht nicht den ursprünglichen experimentellen Daten.



Lassen Sie uns nun das Signifikanzniveau des Koeffizienten berechnen b 1. Dazu ist es notwendig, den Wert zu berechnen Sbxy nach der Formel (12.30), für die bereits alle notwendigen Größen berechnet sind:

Lassen Sie uns nun den Wert berechnen tf nach der Formel (12.27):

Wir können sofort die "Bedeutungsachse" erstellen, da alle vorbereitenden Operationen oben durchgeführt wurden:

Erhaltener Wert tf fiel in die Zone der Bedeutungslosigkeit, daher müssen wir die Hypothese akzeptieren Hüber die Tatsache, dass der Wert des Regressionskoeffizienten von Gleichung (12.19) nicht von Null zu unterscheiden ist. Mit anderen Worten, die resultierende Regressionsgleichung entspricht nicht den ursprünglichen experimentellen Daten.

Nichtlineare Regression

Das im vorigen Abschnitt erhaltene Ergebnis ist etwas entmutigend: Wir haben festgestellt, dass beide Regressionsgleichungen (12.15) und (12.17) für die experimentellen Daten unzureichend sind. Letzteres geschah, weil diese beiden Gleichungen eine lineare Beziehung zwischen Merkmalen charakterisieren, und wir haben in Abschnitt 11.9 die zwischen Variablen gezeigt X und Y Es besteht eine signifikante krummlinige Abhängigkeit. Mit anderen Worten, zwischen Variablen X und Y Bei diesem Problem muss man nicht nach linearen, sondern nach krummlinigen Verbindungen suchen. Wir werden dies mit dem Paket „Stage 6.0“ (entwickelt von A. P. Kulaichev, Registrierungsnummer 1205) tun.

Aufgabe 12.2. Der Psychologe möchte ein Regressionsmodell wählen, das den in Aufgabe 11.9 erhaltenen experimentellen Daten angemessen ist.

Entscheidung. Dieses Problem wird durch eine einfache Aufzählung von krummlinigen Regressionsmodellen gelöst, die im Stadiya-Statistikpaket angeboten werden. Das Paket ist so organisiert, dass experimentelle Daten in Form der ersten Spalte für die Variable in die Tabelle eingegeben werden, die die Quelle für die weitere Arbeit ist X und zweite Spalte für Variable Y. Dann wird im Hauptmenü der Abschnitt Statistik ausgewählt, darin ein Unterabschnitt - Regressionsanalyse, in diesem Unterabschnitt wieder ein Unterabschnitt - krummlinige Regression. Das letzte Menü enthält Formeln (Modelle) verschiedener Arten der krummlinigen Regression, nach denen Sie die entsprechenden Regressionskoeffizienten berechnen und sofort auf Signifikanz prüfen können. Im Folgenden betrachten wir nur einige Beispiele für die Arbeit mit vorgefertigten Modellen (Formeln) der krummlinigen Regression.



1. Erstes Modell - Aussteller . Seine Formel lautet:

Bei der Berechnung mit dem Statistikpaket erhalten wir a 0 = 1 und a 1 = 0,022.

Die Berechnung des Signifikanzniveaus für a ergab den Wert R= 0,535. Es ist offensichtlich, dass der erhaltene Wert unbedeutend ist. Daher ist dieses Regressionsmodell für die experimentellen Daten unangemessen.

2. Zweites Modell - Energie . Seine Formel lautet:

Beim Zählen und o = - 5,29, a, = 7,02 und a 1 = 0,0987.

Signifikanzniveau für a 1 - R= 7,02 und für a 2 - P = 0,991. Offensichtlich ist keiner der Koeffizienten signifikant.

3. Das dritte Modell - Polynom . Seine Formel lautet:

Y= a 0 + a 1 X + a 2 X 2+ a 3 X 3

Beim Zählen eine 0= - 29,8, a 1 = 7,28, a 2 = - 0,488 und a 3 = 0,0103. Signifikanzniveau für a, - P = 0,143, für eine 2 - P = 0,2 und für a, - P= 0,272

Schlussfolgerung – dieses Modell ist den experimentellen Daten nicht angemessen.

4. Viertes Modell - Parabel .

Seine Formel lautet: Y \u003d ein o + ein l -X 1 + ein 2 X 2

Beim Zählen a 0 \u003d - 9,88, a, \u003d 2,24 und a 1 = - 0,0839 Signifikanzniveau für a 1 - P = 0,0186, z a 2 - P = 0,0201. Beide Regressionskoeffizienten waren signifikant. Daher ist das Problem gelöst - wir haben die Form einer krummlinigen Beziehung zwischen dem Erfolg beim Lösen des dritten Untertests von Veksler und dem Wissensstand in Algebra identifiziert - dies ist eine Abhängigkeit vom parabolischen Typ. Dieses Ergebnis bestätigt die bei der Lösung von Aufgabe 11.9 gewonnene Schlussfolgerung über das Vorhandensein einer krummlinigen Beziehung zwischen den Variablen. Wir betonen, dass mit Hilfe der krummlinigen Regression die genaue Form der Beziehung zwischen den untersuchten Variablen erhalten wurde.


Kapitel 13 FAKTORANALYSE

Grundbegriffe der Faktorenanalyse

Die Faktorenanalyse ist eine statistische Methode, die bei der Verarbeitung großer Mengen experimenteller Daten verwendet wird. Die Aufgaben der Faktorenanalyse sind: Reduzierung der Anzahl der Variablen (Datenreduktion) und Bestimmung der Beziehungsstruktur zwischen Variablen, d.h. Klassifikation von Variablen, daher wird die Faktorenanalyse als Datenreduktionsverfahren oder als strukturelles Klassifikationsverfahren verwendet.

Ein wichtiger Unterschied zwischen der Faktorenanalyse und allen oben beschriebenen Methoden besteht darin, dass sie nicht verwendet werden kann, um primäre oder, wie sie sagen, "rohe" experimentelle Daten zu verarbeiten, d.h. direkt aus der Prüfung der Fächer erhalten. Das Material für die Faktorenanalyse sind Korrelationen bzw. Korrelationskoeffizienten nach Pearson, die zwischen den in die Erhebung einbezogenen Variablen (d. h. psychologischen Merkmalen) berechnet werden. Mit anderen Worten, Korrelationsmatrizen oder, wie sie auch genannt werden, Interkorrelationsmatrizen werden einer Faktorenanalyse unterzogen. Die Namen der Spalten und Zeilen in diesen Matrizen sind gleich, da sie eine Liste von Variablen darstellen, die in die Analyse einbezogen werden. Aus diesem Grund sind Interkorrelationsmatrizen immer quadratisch, d.h. Die Anzahl der Zeilen in ihnen ist gleich der Anzahl der Spalten und symmetrisch, d. H. symmetrische Orte in Bezug auf die Hauptdiagonale haben die gleichen Korrelationskoeffizienten.

Es muss betont werden, dass die ursprüngliche Datentabelle, aus der die Korrelationsmatrix gewonnen wird, nicht quadratisch sein muss. Zum Beispiel hat ein Psychologe drei Intelligenzindikatoren (verbal, nonverbal und allgemein) und Schulnoten in drei akademischen Fächern (Literatur, Mathematik, Physik) in 100 Fächern gemessen - Schüler der neunten Klasse. Die ursprüngliche Datenmatrix ist 100 x 6 und die Interkorrelationsmatrix ist 6 x 6, da sie nur 6 Variablen hat. Bei so vielen Variablen enthält die Interkorrelationsmatrix 15 Koeffizienten, und es wird nicht schwierig sein, sie zu analysieren.

Stellen Sie sich jedoch vor, was passiert, wenn der Psychologe nicht 6, sondern 100 Indikatoren von jedem Subjekt erhält. In diesem Fall muss er 4950 Korrelationskoeffizienten analysieren. Die Anzahl der Koeffizienten in der Matrix wird nach der Formel n (n + 1) / 2 berechnet und ist in unserem Fall gleich (100 × 99) / 2 = 4950.

Offensichtlich ist es eine schwierige Aufgabe, eine visuelle Analyse einer solchen Matrix durchzuführen. Stattdessen kann ein Psychologe ein mathematisches Verfahren der Faktorenanalyse einer 100 × 100-Korrelationsmatrix (100 Subjekte und 100 Variablen) durchführen und auf diese Weise leichteres Material zur Interpretation experimenteller Ergebnisse erhalten.

Das Hauptkonzept der Faktorenanalyse ist Faktor. Dies ist ein künstlicher statistischer Indikator, der sich aus speziellen Transformationen der Tabelle der Korrelationskoeffizienten zwischen den untersuchten psychologischen Merkmalen oder der Matrix der Interkorrelationen ergibt. Das Verfahren zum Extrahieren von Faktoren aus einer Interkorrelationsmatrix wird als Matrixfaktorisierung bezeichnet. Als Ergebnis der Faktorisierung kann eine unterschiedliche Anzahl von Faktoren aus der Korrelationsmatrix extrahiert werden, bis zu einer Anzahl, die gleich der Anzahl der ursprünglichen Variablen ist. Allerdings sind die durch die Faktorisierung ermittelten Faktoren in der Regel ungleichwertig.

Die Elemente der Faktormatrix werden aufgerufen oder Waage"; und sie sind die Korrelationskoeffizienten eines bestimmten Faktors mit allen in der Studie verwendeten Indikatoren. Die Faktormatrix ist sehr wichtig, da sie zeigt, wie die untersuchten Indikatoren mit jedem ausgewählten Faktor zusammenhängen. Gleichzeitig demonstriert der Faktor Gewicht das Maß bzw. die Nähe dieser Verbindung.

Da jede Spalte der Faktormatrix (Faktor) eine Art Variable ist, können die Faktoren selbst auch miteinander korrelieren. Dabei sind zwei Fälle möglich: Die Korrelation zwischen den Faktoren ist gleich Null, dann sind die Faktoren unabhängig (orthogonal). Ist die Korrelation zwischen den Faktoren größer Null, so gelten die Faktoren in diesem Fall als abhängig (offensichtlich). Wir betonen, dass orthogonale Faktoren im Gegensatz zu schiefen einfachere Varianten von Interaktionen innerhalb der Faktorenmatrix ergeben.

Als Beispiel für orthogonale Faktoren wird oft das Problem von L. Thurstone angeführt, der, nachdem er eine Reihe von Kästen unterschiedlicher Größe und Form genommen hatte, mehr als 20 verschiedene Indikatoren in jedem von ihnen maß und die Korrelationen zwischen ihnen berechnete. Nachdem er die erhaltene Interkorrelationsmatrix faktorisiert hatte, erhielt er drei Faktoren, deren Korrelation gleich Null war. Diese Faktoren waren „Länge“, „Breite“ und „Höhe“.

Um die Essenz der Faktorenanalyse besser zu erfassen, werden wir das folgende Beispiel genauer analysieren.

Angenommen, ein Psychologe erhält die folgenden Daten von einer Zufallsstichprobe von Schülern:

V1- Körpergewicht (in kg);

V 2 - die Zahl der Besuche von Vorlesungen und Seminaren zum Thema;

V3- Beinlänge (in cm);

V4- die Anzahl der zu diesem Thema gelesenen Bücher;

V5- Armlänge (in cm);

V6 - Prüfungsnote im Fach ( v- vom englischen Wort Variable - Variable).

Bei der Analyse dieser Merkmale ist es nicht unangemessen anzunehmen, dass die Variablen V1, K3 und V5- werden miteinander verbunden, denn je größer der Mensch, desto mehr wiegt er und desto länger werden seine Gliedmaßen. Dies bedeutet, dass zwischen diesen Variablen statistisch signifikante Korrelationskoeffizienten bestehen sollten, da diese drei Variablen eine grundlegende Eigenschaft der Personen in der Stichprobe messen, nämlich ihre Größe. Ebenso ist es wahrscheinlich, dass bei der Berechnung von Korrelationen zwischen V2, V4 und V6 es werden auch ausreichend hohe Korrelationskoeffizienten erzielt, da der Besuch von Vorlesungen und das Selbststudium zur Erlangung besserer Noten im studierten Fach beitragen.

Somit aus der gesamten möglichen Matrix von Koeffizienten, die durch Aufzählung von Paaren korrelierter Merkmale erhalten wird V1 und V2, Vt und V3 etc. werden vermutlich zwei Blöcke statistisch signifikanter Korrelationen auffallen. Der Rest der Korrelationen – zwischen den Merkmalen, die in verschiedenen Blöcken enthalten sind, weist wahrscheinlich keine statistisch signifikanten Koeffizienten auf, da die Beziehungen zwischen solchen Merkmalen wie Gliedmaßengröße und schulischer Leistung höchstwahrscheinlich zufälliger Natur sind. Eine aussagekräftige Analyse unserer 6 Variablen zeigt also, dass sie tatsächlich nur zwei verallgemeinerte Merkmale messen, nämlich: Körpergröße und Vorbereitungsgrad des Probanden.

Zu der resultierenden Matrix von Interkorrelationen, d.h. paarweise berechnete Korrelationskoeffizienten zwischen allen sechs Variablen V 1 - V 6, es ist zulässig, eine Faktorenanalyse anzuwenden. Es kann auch manuell mit einem Taschenrechner durchgeführt werden, aber das Verfahren für eine solche statistische Verarbeitung ist sehr mühsam. Aus diesem Grund wird die Faktorenanalyse derzeit auf Computern durchgeführt, meist unter Verwendung von Standard-Statistikpaketen. Alle modernen Statistikpakete verfügen über Programme zur Korrelations- und Faktorenanalyse. Ein Computerprogramm zur Faktorenanalyse versucht im Wesentlichen, Korrelationen zwischen Variablen anhand einer kleinen Anzahl von Faktoren (in unserem Beispiel zwei) zu „erklären“.

Angenommen, wir haben mit einem Computerprogramm die Matrix der Interkorrelationen aller sechs Variablen erhalten und sie einer Faktorenanalyse unterzogen. Als Ergebnis der Faktorenanalyse wurde Tabelle 13.1 erhalten, die als „Faktorenmatrix“ oder „faktorielle Strukturmatrix“ bezeichnet wird.

Tabelle 13.1

Variable Faktor 1 Faktor 2
V1 0,91 0,01
V2 0,20 0,96
V3 0,94 -0,15
V4 0,11 0,85
V5 0,89 0,07
V6 -0,13 0,93

Herkömmlicherweise werden Faktoren in der Tabelle als Spalten und Variablen als Zeilen dargestellt. Die Überschriften der Spalten von Tabelle 13.1 entsprechen den Nummern der ausgewählten Faktoren, aber es wäre genauer, sie „Faktorladungen“ oder „Gewichte“ für Faktor 1 zu nennen, dasselbe für Faktor 2. Wie oben erwähnt, Faktorladungen oder Gewichte sind Korrelationen zwischen der jeweiligen Variablen und dem gegebenen Faktor. Beispielsweise bedeutet die erste Zahl 0,91 im ersten Faktor, dass die Korrelation zwischen dem ersten Faktor und der Variablen besteht V1 gleich 0,91. Je höher die Faktorbelastung im absoluten Wert ist, desto größer ist ihr Verhältnis zum Faktor.

Tabelle 13.1 zeigt, dass die Variablen V1 V3 und V5 haben große Korrelationen mit Faktor 1 (tatsächlich hat Variable 3 eine Korrelation nahe 1 mit Faktor 1). Gleichzeitig die Variablen v 2 ,v 3 und 5 haben Korrelationen nahe 0 mit Faktor 2. In ähnlicher Weise korreliert Faktor 2 stark mit Variablen V2, V4 und V6 und korreliert nicht wirklich mit den Variablen V1,v 3 und V5

In diesem Beispiel ist klar, dass es zwei Korrelationsstrukturen gibt und daher alle Informationen in Tabelle 13.1 durch zwei Faktoren bestimmt werden. Jetzt beginnt die letzte Arbeitsphase - die Interpretation der erhaltenen Daten. Bei der Analyse der Faktormatrix ist es sehr wichtig, die Vorzeichen der Faktorladungen in jedem Faktor zu berücksichtigen. Treten im selben Faktor Belastungen mit entgegengesetztem Vorzeichen auf, bedeutet dies, dass zwischen Variablen mit entgegengesetztem Vorzeichen ein umgekehrt proportionaler Zusammenhang besteht.

Beachten Sie, dass es bei der Interpretation des Faktors der Einfachheit halber möglich ist, die Vorzeichen aller Lasten für diesen Faktor umzukehren.

Die Faktormatrix zeigt auch, aus welchen Variablen jeder Faktor besteht. Dies liegt vor allem an der Signifikanz des Faktors Gewicht. Traditionell wird das minimale Signifikanzniveau von Korrelationskoeffizienten in der Faktorenanalyse gleich 0,4 oder sogar 0,3 (im absoluten Wert) angenommen, da es keine speziellen Tabellen gibt, anhand derer man die kritischen Werte für das Signifikanzniveau in der Faktormatrix bestimmen könnte . Daher ist der einfachste Weg, um zu sehen, welche Variablen zu einem Faktor „gehören“, diejenigen zu kennzeichnen, die Ladungen größer als 0,4 (oder kleiner als -0,4) aufweisen. Wir weisen darauf hin, dass bei Computerpaketen das Signifikanzniveau des Faktors Gewicht manchmal vom Programm selbst bestimmt und auf ein höheres Niveau gesetzt wird, z. B. 0,7.

Aus Tabelle 13.1 folgt also, dass Faktor 1 eine Kombination von Variablen ist V1 K3 und V5(aber nicht V1, K 4 und V6, da ihre Faktorladungen modulo kleiner als 0,4 sind). Ebenso ist Faktor 2 eine Kombination von Variablen V2, V4 und V6.

Der als Ergebnis der Faktorisierung ausgewählte Faktor ist ein Satz der in die Analyse einbezogenen Variablen, die signifikante Lasten aufweisen. Es kommt jedoch häufig vor, dass ein Faktor nur eine Variable mit signifikantem Faktorgewicht enthält, während der Rest eine insignifikante Faktorladung aufweist. In diesem Fall wird der Faktor durch den Namen der einzigen signifikanten Variablen bestimmt.

Im Wesentlichen kann der Faktor als künstliche „Einheit“ von Gruppierungsvariablen (Merkmale) auf der Grundlage der Verbindungen zwischen ihnen betrachtet werden. Diese Einheit ist bedingt, da Sie durch Ändern bestimmter Bedingungen des Interkorrelationsmatrix-Faktorisierungsverfahrens eine andere Faktormatrix (Struktur) erhalten können. In der neuen Matrix kann die Verteilung der Variablen nach Faktoren und deren Faktorladungen anders ausfallen.

In dieser Hinsicht gibt es in der Faktorenanalyse das Konzept der „einfachen Struktur“. Einfach ist die Struktur einer Faktormatrix, in der jede Variable nur in einem der Faktoren signifikante Lasten hat und die Faktoren selbst orthogonal sind, d.h. hängen nicht voneinander ab. In unserem Beispiel sind die beiden gemeinsamen Faktoren unabhängig. Eine einfach aufgebaute Faktormatrix ermöglicht es Ihnen, das Ergebnis zu interpretieren und jedem Faktor einen Namen zu geben. In unserem Fall ist der erste Faktor „Körpergröße“, der zweite Faktor „Fitness“.

Das Vorstehende erschöpft die sinnvollen Möglichkeiten der Faktorenmatrix nicht. Daraus können zusätzliche Merkmale extrahiert werden, die eine genauere Untersuchung der Beziehungen zwischen Variablen und Faktoren ermöglichen. Diese Eigenschaften werden als "Gemeinsamkeit" und "Eigenwert" des Faktors bezeichnet.

Bevor wir jedoch ihre Beschreibung vorstellen, weisen wir auf eine grundlegend wichtige Eigenschaft des Korrelationskoeffizienten hin, aufgrund derer diese Eigenschaften erhalten werden. Der Korrelationskoeffizient, quadriert (d. h. mit sich selbst multipliziert), zeigt, wie viel der Varianz (Varianz) eines Merkmals zwei Variablen gemeinsam ist, oder einfacher, wie sehr sich diese Variablen überlappen. So überlappen sich beispielsweise zwei Variablen mit einer Korrelation von 0,9 mit einer Potenz von 0,9 x 0,9 = 0,81. Das bedeutet, dass 81 % der Varianz beider Variablen gemeinsam sind, d. h. Spiel. Erinnern Sie sich daran, dass die Faktorladungen in der Faktormatrix die Korrelationskoeffizienten zwischen Faktoren und Variablen sind, daher charakterisiert die quadrierte Faktorladung den Grad der Gemeinsamkeit (oder Überlappung) der Varianzen einer gegebenen Variablen und eines gegebenen Faktors.

Wenn die erhaltenen Faktoren nicht voneinander abhängen („orthogonale“ Lösung), kann aus den Gewichten der Faktormatrix bestimmt werden, welcher Anteil der Varianz der Variablen und dem Faktor gemeinsam ist. Um zu berechnen, wie viel der Varianz jeder Variablen mit der Varianz der Faktoren übereinstimmt, können Sie einfach die Quadrate der Faktorladungen über alle Faktoren summieren. Aus Tabelle 13.1 folgt beispielsweise, dass 0,91 × 0,91 + + 0,01 × 0,01 = 0,8282, also etwa 82 % der Variabilität der ersten Variablen werden durch die ersten beiden Faktoren "erklärt". Der resultierende Wert wird aufgerufen Gemeinsamkeit variabel, in diesem Fall variabel V1

Variablen können unterschiedliche Grade der Gemeinsamkeit mit Faktoren haben. Eine Variable mit größerer Allgemeinheit hat einen signifikanten Grad an Überlappung (einen großen Teil der Varianz) mit einem oder mehreren Faktoren. Niedrige Allgemeingültigkeit impliziert, dass alle Korrelationen zwischen Variablen und Faktoren gering sind. Das bedeutet, dass keiner der Faktoren einen überlappenden Varianzanteil mit dieser Variablen hat. Eine geringe Allgemeingültigkeit kann darauf hindeuten, dass eine Variable etwas qualitativ anderes misst als die anderen in die Analyse einbezogenen Variablen. Beispielsweise hat eine Variable, die mit der Bewertung der Motivation unter Aufgaben verbunden ist, die Fähigkeiten bewerten, nahezu keine Gemeinsamkeit mit Fähigkeitsfaktoren.

Eine geringe Allgemeingültigkeit kann auch bedeuten, dass ein bestimmtes Item stark von Messfehlern beeinflusst oder für den Probanden extrem schwierig ist. Es ist im Gegenteil auch möglich, dass die Aufgabe so einfach ist, dass jeder Proband die richtige Antwort darauf gibt, oder die Aufgabe inhaltlich so vage ist, dass der Proband den Kern der Frage nicht versteht. Eine geringe Allgemeingültigkeit impliziert also, dass diese Variable aus einem der folgenden Gründe nicht zu den Faktoren passt: Entweder misst die Variable ein anderes Konzept, oder die Variable hat einen großen Messfehler, oder es gibt Unterschiede zwischen den Probanden in den Antwortmöglichkeiten dafür Element, das die Varianz des Merkmals verzerrt.

Schließlich kann man mit Hilfe eines solchen Merkmals wie dem Eigenwert eines Faktors die relative Bedeutung jedes der ausgewählten Faktoren bestimmen. Dazu müssen Sie berechnen, wie viel der Varianz (Varianz) jeder Faktor erklärt. Der Faktor, der 45 % der Varianz (Überlappung) zwischen Variablen in der ursprünglichen Korrelationsmatrix erklärt, ist offensichtlich signifikanter als derjenige, der nur 25 % der Varianz erklärt. Diese Argumente sind jedoch zulässig, wenn die Faktoren orthogonal sind, also nicht voneinander abhängen.

Um den Eigenwert des Faktors zu berechnen, müssen Sie die Faktorladungen quadrieren und in einer Spalte addieren. Unter Verwendung der Daten in Tabelle 13.1 können wir überprüfen, dass der Eigenwert von Faktor 1 (0,91 × 0,91 + 0,20 × 0,20 + 0,94 × 0,94 + 0,11 × 0,11 + 0,84 × 0,84 + (– 0,13) × ist

× (-0,13)) = 2,4863. Teilt man den Eigenwert des Faktors durch die Anzahl der Variablen (in unserem Beispiel 6), so zeigt die resultierende Zahl, welcher Anteil der Varianz durch diesen Faktor erklärt wird. In unserem Fall erhalten wir 2,4863∙100%/6 = 41,4%. Mit anderen Worten, Faktor 1 erklärt etwa 41 % der Informationen (Streuung) in der ursprünglichen Korrelationsmatrix. Eine ähnliche Berechnung für den zweiten Faktor ergibt 41,5 %. Insgesamt werden dies 82,9 % sein.

Somit erklären zwei gemeinsame Faktoren, wenn sie kombiniert werden, nur 82,9 % der Varianz in den Indikatoren der ursprünglichen Korrelationsmatrix. Was ist mit den „verbleibenden“ 17,1 % passiert? Tatsache ist, dass wir angesichts der Korrelationen zwischen 6 Variablen festgestellt haben, dass die Korrelationen in zwei separate Blöcke fallen, und daher entschieden haben, dass es logisch ist, das Material in Bezug auf zwei Faktoren und nicht 6 sowie die Anzahl von zu analysieren Anfangsvariablen. Mit anderen Worten, die Anzahl der Konstrukte, die zur Beschreibung der Daten benötigt werden, hat sich von 6 (Anzahl der Variablen) auf 2 (Anzahl gemeinsamer Faktoren) verringert. Als Ergebnis der Faktorisierung wurde ein Teil der Informationen in der ursprünglichen Korrelationsmatrix der Konstruktion eines Zwei-Faktoren-Modells geopfert. Die einzige Bedingung, unter der keine Informationen verloren gehen, wäre die Betrachtung eines Sechs-Faktoren-Modells.

Abschlussprüfungen in Ökonometrie

1. Die Bewertung der Signifikanz der Parameter der Regressionsgleichung erfolgt anhand von:

A) t - Schülerkriterium;

b) F-Kriterium von Fisher - Snedekor;

c) mittlerer quadratischer Fehler;

d) mittlerer Näherungsfehler.

2. Der Regressionskoeffizient in der Gleichung, die das Verhältnis zwischen dem Umsatzvolumen (Millionen Rubel) und dem Gewinn von Unternehmen in der Automobilindustrie für das Jahr (Millionen Rubel) charakterisiert, bedeutet, dass das Umsatzvolumen um steigt 1 Millionen Rubel Gewinnsteigerungen um:

d) 0,5 Millionen reiben.;

c) 500.000. reiben.;

D) 1,5 Millionen Rubel

3. Korrelationsverhältnis (Korrelationsindex) misst den Grad der Nähe der Beziehung zwischen X undY:

a) nur bei nichtlinearer Abhängigkeit;

B) mit jeder Form von Sucht;

c) nur mit linearem Zusammenhang.

4. In Richtung Kommunikation gibt es:

a) moderat;

B) gerade;

c) geradlinig.

5. Basierend auf 17 Beobachtungen wurde eine Regressionsgleichung erstellt:
.
Um die Signifikanz der Gleichung zu überprüfen, haben wir gerechnetbeobachteter Wertt- Statistik: 3.9. Fazit:

A) Die Gleichung ist signifikant für a = 0,05;

b) Die Gleichung ist bei a = 0,01 unbedeutend;

c) Die Gleichung ist bei a = 0,05 nicht signifikant.

6. Was sind die Folgen einer Verletzung der OLS-Annahme „Die Erwartung von Regressionsresiduen ist Null“?

A) Voreingenommene Schätzungen von Regressionskoeffizienten;

b) Effiziente, aber inkonsistente Schätzungen von Regressionskoeffizienten;

c) ineffiziente Schätzungen von Regressionskoeffizienten;

d) Inkonsistente Schätzungen der Regressionskoeffizienten.

7. Welche der folgenden Aussagen trifft auf Heteroskedastizität von Residuen zu?

A) Schlussfolgerungen zu t- und F-Statistiken sind unzuverlässig;

d) Schätzungen der Parameter der Regressionsgleichung sind verzerrt.

8. Worauf basiert der Rangkorrelationstest nach Spearman?

A) Zur Verwendung von t-Statistiken;

c) Bei der Verwendung ;

9. Worauf basiert der Weißtest?

b) Zur Verwendung von F-Statistiken;

B) im Einsatz ;

d) Zur grafischen Analyse der Residuen.

10. Welche Methode kann verwendet werden, um die Autokorrelation zu eliminieren?

11. Wie nennt man die Verletzung der Annahme der Konstanz der Varianz der Residuen?

a) Multikollinearität;

b) Autokorrelation;

B) Heteroskedastizität;

d) Homoskedastizität.

12. Dummy-Variablen werden eingeführt in:

a) nur in linearen Modellen;

b) nur in multipler nichtlinearer Regression;

c) nur in nichtlinearen Modellen;

D) sowohl lineare als auch nichtlineare Modelle auf eine lineare Form reduziert.

13. Wenn es in der Matrix paarweise Korrelationskoeffizienten gibt
, dann zeigt dies:

A) Über das Vorhandensein von Multikollinearität;

b) Über die Abwesenheit von Multikollinearität;

c) über das Vorhandensein von Autokorrelation;

d) Über die Abwesenheit von Heteroskedastizität.

14. Welche Maßnahme ist unmöglich, um Multikollinearität loszuwerden?

a) Erhöhung der Stichprobengröße;

D) Transformation der Zufallskomponente.

15. Wenn
und der Rang der Matrix A kleiner als (K-1) ist, dann gilt die Gleichung:

a) überidentifiziert;

B) nicht identifiziert;

c) genau identifiziert.

16. Die Regressionsgleichung sieht folgendermaßen aus:

SONDERN)
;

b)
;

in)
.

17. Was ist das Problem der Modellidentifikation?

A) Erhalten eindeutig definierter Parameter des Modells, das durch das System simultaner Gleichungen gegeben ist;

b) Auswahl und Implementierung von Methoden zur statistischen Schätzung unbekannter Parameter des Modells gemäß den anfänglichen statistischen Daten;

c) Überprüfung der Angemessenheit des Modells.

18. Welche Methode wird verwendet, um die Parameter einer überidentifizierten Gleichung zu schätzen?

C) DMNK,KMNK;

19. Wenn eine qualitative Variable hatkalternative Werte, dann verwendet die Simulation:

A) (k-1) Dummy-Variable;

b) kDummy-Variablen;

c) (k+1) Dummy-Variable.

20. Die Analyse der Nähe und Richtung der Verbindungen zweier Zeichen erfolgt auf der Grundlage von:

A) Paarkorrelationskoeffizient;

b) Bestimmtheitsmaß;

c) multipler Korrelationskoeffizient.

21. In einer linearen Gleichung x = a 0 +a 1 x Regressionskoeffizient zeigt:

a) die Nähe der Verbindung;

b) Varianzanteil „Y“ abhängig von „X“;

C) wie viel "Y" sich durchschnittlich ändert, wenn sich "X" um eine Einheit ändert;

d) Korrelationskoeffizientenfehler.

22. Welcher Indikator wird verwendet, um den Teil der Variation zu bestimmen, der auf eine Änderung des Werts des untersuchten Faktors zurückzuführen ist?

a) Variationskoeffizient;

b) Korrelationskoeffizient;

C) Bestimmtheitsmaß;

d) Elastizitätskoeffizient.

23. Der Elastizitätskoeffizient zeigt:

A) um wie viel % ändert sich der Wert von y, wenn sich x um 1 % ändert;

b) um wie viele Maßeinheiten sich der Wert von y ändert, wenn sich x um 1 % ändert;

c) um wie viel % ändert sich der Wert von y, wenn sich x um eine Einheit ändert. Ihre Messung.

24. Welche Methoden können angewendet werden, um Heteroskedastizität zu erkennen??

A) Golffeld-Quandt-Test;

B) Rangkorrelationstest nach Spearman;

c) Durbin-Watson-Test.

25. Was ist die Grundlage des Golffeld-Quandt-Tests?

a) Zur Verwendung von t-Statistiken;

B) Zur Verwendung von F - Statistiken;

c) Bei der Verwendung ;

d) Zur grafischen Analyse der Residuen.

26. Welche Methoden können nicht verwendet werden, um die Autokorrelation von Residuen zu eliminieren?

a) Verallgemeinerte Methode der kleinsten Quadrate;

B) Methode der gewichteten kleinsten Quadrate;

C) die Maximum-Likelihood-Methode;

D) Zweistufige Methode der kleinsten Quadrate.

27. Wie nennt man die Verletzung der Annahme der Unabhängigkeit von Residuen?

a) Multikollinearität;

B) Autokorrelation;

c) Heteroskedastizität;

d) Homoskedastizität.

28. Welche Methode kann verwendet werden, um Heteroskedastizität zu beseitigen?

A) Verallgemeinerte Methode der kleinsten Quadrate;

b) Methode der gewichteten kleinsten Quadrate;

c) die Maximum-Likelihood-Methode;

d) Zweistufiges Verfahren der kleinsten Quadrate.

30. Wenn bist-Kriterium sind die meisten Regressionskoeffizienten statistisch signifikant, und das Modell als GanzesF- Das Kriterium ist unbedeutend, dann kann dies bedeuten:

a) Multikollinearität;

B) Zur Autokorrelation von Residuen;

c) Zur Heteroskedastizität von Resten;

d) Diese Option ist nicht möglich.

31. Ist es möglich, Multikollinearität durch Transformation von Variablen zu beseitigen?

a) Diese Maßnahme greift nur, wenn die Stichprobengröße erhöht wird;

32. Welche Methode kann verwendet werden, um Schätzungen des Parameters der linearen Regressionsgleichung zu finden:

A) die Methode der kleinsten Quadrate;

b) Korrelations- und Regressionsanalyse;

c) Varianzanalyse.

33. Eine multiple lineare Regressionsgleichung mit Dummy-Variablen wird konstruiert. Um die Signifikanz einzelner Koeffizienten zu überprüfen, verwenden wir Verteilung:

a) normal;

b) Student;

c) Pearson;

d) Fischer-Snedekor.

34. Wenn
und der Rang der Matrix A größer als (K-1) ist, dann gilt die Gleichung:

A) überidentifiziert;

b) nicht identifiziert;

c) genau identifiziert.

35. Um die Parameter eines genau identifizierbaren Gleichungssystems zu schätzen, wird Folgendes verwendet:

a) DMNK, KMNK;

b) DMNK, MNK, KMNK;

36. Chows Kriterium basiert auf der Anwendung von:

A) F - Statistik;

b) t - Statistik;

c) Durbin-Watson-Kriterien.

37. Dummy-Variablen können folgende Werte annehmen:

d) beliebige Werte.

39. Basierend auf 20 Beobachtungen wurde eine Regressionsgleichung erstellt:
.
Um die Signifikanz der Gleichung zu überprüfen, wird der Wert der Statistik berechnet:4.2. Ergebnisse:

a) Die Gleichung ist signifikant bei a=0,05;

b) Die Gleichung ist bei a=0,05 nicht signifikant;

c) Die Gleichung ist bei a=0,01 nicht signifikant.

40. Welche der folgenden Aussagen ist nicht wahr, wenn die Residuen heteroskedastisch sind?

a) Schlussfolgerungen zu t- und F-Statistiken sind unzuverlässig;

b) Heteroskedastizität manifestiert sich durch den geringen Wert der Durbin-Watson-Statistik;

c) Bei Heteroskedastizität bleiben Schätzungen effektiv;

d) Schätzungen sind verzerrt.

41. Der Chow-Test basiert auf einem Vergleich:

A) Dispersionen;

b) Bestimmtheitsmaße;

c) mathematische Erwartungen;

d) mittel.

42. Wenn im Chow-Test
dann gilt:

A) dass die Partitionierung in Teilintervalle vom Standpunkt der Verbesserung der Modellqualität aus nützlich ist;

b) das Modell ist statistisch nicht signifikant;

c) das Modell ist statistisch signifikant;

d) dass es keinen Sinn macht, die Probe in Teile aufzuteilen.

43. Dummy-Variablen sind Variablen:

eine Qualität;

b) zufällig;

B) quantitativ;

d) logisch.

44. Welche der folgenden Methoden kann nicht zur Erkennung von Autokorrelation verwendet werden?

a) Reihenverfahren;

b) Durbin-Watson-Test;

c) Rangkorrelationstest nach Spearman;

D) Weißer Test.

45. Die einfachste Strukturform des Modells ist:

SONDERN)

b)

in)

G)
.

46. ​​​​Welche Maßnahmen können ergriffen werden, um Multikollinearität loszuwerden?

a) Erhöhung der Stichprobengröße;

b) Ausschluss von Variablen, die stark mit dem Rest korrelieren;

c) Änderung der Modellspezifikation;

d) Transformation der Zufallskomponente.

47. Wenn
und der Rang der Matrix A ist (K-1) dann die Gleichung:

a) überidentifiziert;

b) nicht identifiziert;

B) genau identifiziert;

48. Ein Modell gilt als identifiziert, wenn:

a) unter den Gleichungen des Modells gibt es mindestens eine normale;

B) jede Gleichung des Systems ist identifizierbar;

c) unter den Modellgleichungen gibt es mindestens eine nicht identifizierte;

d) unter den Gleichungen des Modells ist mindestens eine überidentifiziert.

49. Welche Methode wird verwendet, um die Parameter einer nicht identifizierten Gleichung zu schätzen?

a) DMNK, KMNK;

b) DMNC, MNC;

C) Die Parameter einer solchen Gleichung können nicht geschätzt werden.

50. An der Schnittstelle welcher Wissensgebiete entstand die Ökonometrie:

A) Wirtschaftstheorie; wirtschaftliche und mathematische Statistik;

b) Wirtschaftstheorie, mathematische Statistik und Wahrscheinlichkeitstheorie;

c) wirtschaftliche und mathematische Statistik, Wahrscheinlichkeitstheorie.

51. In der multiplen linearen Regressionsgleichung werden Konfidenzintervalle für die Regressionskoeffizienten unter Verwendung der Verteilung gebildet:

a) normal;

B) Student;

c) Pearson;

d) Fischer-Snedekor.

52. Basierend auf 16 Beobachtungen wurde eine gepaarte lineare Regressionsgleichung konstruiert. FürSignifikanzprüfung des Regressionskoeffizienten berechnett für 6l =2.5.

a) Der Koeffizient ist bei a=0,05 unbedeutend;

b) Der Koeffizient ist bei a=0,05 signifikant;

c) Der Koeffizient ist bei a=0,01 signifikant.

53. Es ist bekannt, dass zwischen MengenXundYexistierenpositive Verbindung. Inwieweitist der paarweise Korrelationskoeffizient?

a) von -1 bis 0;

b) von 0 bis 1;

C) von -1 bis 1.

54. Der multiple Korrelationskoeffizient beträgt 0,9. Wieviel ProzentDie Streuung des resultierenden Attributs wird durch den Einfluss aller erklärtFaktor Eigenschaften?

55. Welche der folgenden Methoden kann nicht zum Nachweis von Heteroskedastizität verwendet werden??

A) Golffeld-Quandt-Test;

b) Rangkorrelationstest nach Spearman;

c) Reihenmethode.

56. Die gegebene Form des Modells ist:

a) ein System nichtlinearer Funktionen exogener Variablen von endogenen;

B) ein System linearer Funktionen von endogenen Variablen von exogenen;

c) ein System linearer Funktionen exogener Variablen von endogenen;

d) ein System von Normalgleichungen.

57. Innerhalb welcher Grenzen ändert sich der durch rekursive Formeln berechnete partielle Korrelationskoeffizient?

a) von - bis + ;

b) von 0 bis 1;

c) von 0 bis + ;

D) von -1 bis +1.

58. Innerhalb welcher Grenzen ändert sich der durch das Bestimmtheitsmaß berechnete partielle Korrelationskoeffizient?

a) von - bis + ;

B) von 0 bis 1;

c) von 0 bis + ;

d) von –1 bis +1.

59. Exogene Variablen:

a) abhängige Variablen;

B) unabhängige Variablen;

61. Beim Hinzufügen eines weiteren erklärenden Faktors zur Regressionsgleichung, dem multiplen Korrelationskoeffizienten:

a) sinkt

b) wird zunehmen;

c) seinen Wert behalten.

62. Eine hyperbolische Regressionsgleichung wurde erstellt:Y= a+ b/ X. FürDer Signifikanztest der Gleichung verwendet die Verteilung:

a) normal;

B) Student;

c) Pearson;

d) Fischer-Snedekor.

63. Für welche Arten von Systemen können die Parameter einzelner ökonometrischer Gleichungen mit der traditionellen Methode der kleinsten Quadrate gefunden werden?

a) ein System von Normalgleichungen;

B) ein System unabhängiger Gleichungen;

C) ein System rekursiver Gleichungen;

D) ein System voneinander abhängiger Gleichungen.

64. Endogene Variablen:

A) abhängige Variablen;

b) unabhängige Variablen;

c) von früheren Zeitpunkten datiert.

65. Innerhalb welcher Grenzen ändert sich das Bestimmtheitsmaß?

a) von 0 bis + ;

b) von - bis + ;

C) von 0 bis +1;

d) von -1 bis +1.

66. Es wurde eine multiple lineare Regressionsgleichung erstellt. Um die Signifikanz einzelner Koeffizienten zu überprüfen, verwenden wir Verteilung:

a) normal;

b) Student;

c) Pearson;

D) Fischer-Snedekor.

67. Wenn der Regressionsgleichung ein weiterer erklärender Faktor hinzugefügt wird, das Bestimmtheitsmaß:

a) sinkt

B) wird zunehmen;

c) ihren Wert behalten;

d) wird nicht abnehmen.

68. Das Wesentliche der Methode der kleinsten Quadrate ist Folgendes:

A) die Schätzung wird aus der Bedingung bestimmt, dass die Summe der quadrierten Abweichungen der Probendaten von der bestimmten Schätzung minimiert wird;

b) die Schätzung wird aus der Bedingung bestimmt, dass die Summe der Abweichungen von Probendaten von der bestimmten Schätzung minimiert wird;

c) die Schätzung wird aus der Bedingung bestimmt, dass die Summe der quadrierten Abweichungen des Stichprobenmittelwerts von der Stichprobenvarianz minimiert wird.

69. Zu welcher Klasse nichtlinearer Regressionen gehört die Parabel:

73. Zu welcher Klasse nichtlinearer Regressionen gehört die Exponentialkurve:

74. Zu welcher Klasse nichtlinearer Regressionen gehört eine Funktion der Form ŷ?
:

A) Regressionen, die in Bezug auf die in die Analyse einbezogenen Variablen nichtlinear, aber in Bezug auf die geschätzten Parameter linear sind;

b) nichtlineare Regressionen der geschätzten Parameter.

78. Zu welcher Klasse nichtlinearer Regressionen gehört eine Funktion der Form ŷ?
:

a) Regressionen, die in Bezug auf die in die Analyse einbezogenen Variablen nichtlinear, aber in Bezug auf die geschätzten Parameter linear sind;

B) nichtlineare Regressionen auf die geschätzten Parameter.

79. In der Regressionsgleichung in Form einer Hyperbel ŷ
wenn der Wert
b >0 , dann:

A) mit einer Erhöhung des Faktors Merkmal X der Wert des resultierenden Attributs beim langsam abnehmen und x→∞ Durchschnittswert beim wird gleich sein a;

b) der Wert des effektiven Merkmals beim steigt mit langsamem Wachstum mit einer Erhöhung des Faktors Merkmal X, und bei x→∞

81. Der Elastizitätskoeffizient wird durch die Formel bestimmt

A) Lineare Funktion;

b) Parabeln;

c) Hyperbeln;

d) Exponentialkurve;

e) Leistung.

82. Der Elastizitätskoeffizient wird durch die Formel bestimmt
für ein Regressionsmodell in der Form:

a) Lineare Funktion;

B) Parabeln;

c) Hyperbeln;

d) Exponentialkurve;

e) Leistung.

86. Gleichung
namens:

A) ein linearer Trend

b) parabolischer Trend;

c) hyperbolischer Trend;

d) exponentieller Trend.

89. Gleichung
namens:

a) ein linearer Trend;

b) parabolischer Trend;

c) hyperbolischer Trend;

D) ein exponentieller Trend.

90. Systemansichten namens:

A) ein System unabhängiger Gleichungen;

b) ein System rekursiver Gleichungen;

c) ein System voneinander abhängiger (gleichzeitiger, gleichzeitiger) Gleichungen.

93. Ökonometrie kann definiert werden als:

A) Es ist eine unabhängige wissenschaftliche Disziplin, die eine Reihe von theoretischen Ergebnissen, Techniken, Methoden und Modellen kombiniert, die darauf ausgelegt sind, auf der Grundlage von Wirtschaftstheorie, Wirtschaftsstatistik und mathematischen und statistischen Werkzeugen allgemeinen (qualitativen) Mustern einen spezifischen quantitativen Ausdruck zu verleihen aufgrund der Wirtschaftstheorie;

B) die Wissenschaft der ökonomischen Messungen;

C) statistische Analyse von Wirtschaftsdaten.

94. Zu den Aufgaben der Ökonometrie gehören:

A) Prognose wirtschaftlicher und sozioökonomischer Indikatoren, die den Zustand und die Entwicklung des analysierten Systems charakterisieren;

B) Simulation möglicher Szenarien für die sozioökonomische Entwicklung des Systems, um zu ermitteln, wie sich die geplanten Änderungen bestimmter überschaubarer Parameter auf die Leistungsmerkmale auswirken werden;

c) Testen von Hypothesen anhand statistischer Daten.

95. Beziehungen unterscheiden sich durch ihre Natur:

A) Funktion und Korrelation;

b) funktional, krummlinig und geradlinig;

c) Korrelation und Inverse;

d) statistisch und direkt.

96. Bei einem direkten Zusammenhang mit einer Erhöhung eines Faktormerkmals:

a) das effektive Vorzeichen nimmt ab;

b) das effektive Attribut ändert sich nicht;

C) der Leistungsindikator steigt.

97. Welche Methoden werden verwendet, um das Vorhandensein, die Art und die Richtung von Assoziationen in der Statistik zu identifizieren?

a) Durchschnittswerte;

B) Vergleich paralleler Reihen;

C) analytische Gruppierungsmethode;

d) relative Werte;

D) grafische Methode.

98. Welche Methode wird verwendet, um die Formen des Einflusses einiger Faktoren auf andere zu identifizieren?

a) Korrelationsanalyse;

B) Regressionsanalyse;

c) Indexanalyse;

d) Varianzanalyse.

99. Welche Methode wird verwendet, um die Stärke der Auswirkung einiger Faktoren auf andere zu quantifizieren:

A) Korrelationsanalyse;

b) Regressionsanalyse;

c) die Mittelwertmethode;

d) Varianzanalyse.

100. Welche Indikatoren in ihrer Größenordnung gibt es im Bereich von minus bis plus eins:

a) Bestimmtheitsmaß;

b) Korrelationsverhältnis;

C) linearer Korrelationskoeffizient.

101. Der Regressionskoeffizient für ein Einfaktormodell zeigt:

A) um wie viele Einheiten sich die Funktion ändert, wenn sich das Argument um eine Einheit ändert;

b) um wie viel Prozent sich die Funktion pro Einheitsänderung im Argument ändert.

102. Der Elastizitätskoeffizient zeigt:

a) um wie viel Prozent ändert sich die Funktion bei einer Änderung des Arguments um eine Maßeinheit;

B) um wie viel Prozent ändert sich die Funktion bei einer Änderung des Arguments um 1 %;

c) um wie viele Einheiten ihrer Maßeinheit sich die Funktion bei einer Änderung des Arguments um 1 % ändert.

105. Der Wert des Korrelationsindex von 0,087 bedeutet:

A) über ihre schwache Abhängigkeit;

b) eine starke Beziehung;

c) Rechenfehler.

107. Der Wert des Paarkorrelationskoeffizienten von 1,12 bedeutet:

a) über ihre schwache Abhängigkeit;

b) eine starke Beziehung;

C) über Rechenfehler.

109. Welche der angegebenen Zahlen können die Werte des Paarkorrelationskoeffizienten sein:

111. Welche der angegebenen Zahlen können die Werte des multiplen Korrelationskoeffizienten sein:

115. Markieren Sie die richtige Form der linearen Regressionsgleichung:

als
;

von
;

c) ŷ
;

D) ŷ
.

Nach Auswertung der Parameter a und b, haben wir eine Regressionsgleichung erhalten, mit der wir die Werte schätzen können j nach eingestellten Werten x. Es liegt nahe anzunehmen, dass die berechneten Werte der abhängigen Variablen nicht mit den tatsächlichen Werten übereinstimmen, da die Regressionsgerade den Zusammenhang im Allgemeinen nur im Mittel beschreibt. Separate Bedeutungen sind darum herum verstreut. Somit wird die Zuverlässigkeit der aus der Regressionsgleichung erhaltenen berechneten Werte weitgehend durch die Streuung der beobachteten Werte um die Regressionslinie herum bestimmt. In der Praxis ist die Fehlervarianz in der Regel unbekannt und wird gleichzeitig mit den Regressionsparametern aus den Beobachtungen geschätzt. a und b. Es ist ziemlich logisch anzunehmen, dass die Schätzung mit der Summe der Quadrate der Regressionsresiduen zusammenhängt. Die Menge ist eine Stichprobenschätzung der Varianz von Störungen, die in dem theoretischen Modell enthalten sind . Dies kann für ein gepaartes Regressionsmodell gezeigt werden

wo ist die Abweichung des tatsächlichen Werts der abhängigen Variablen von ihrem berechneten Wert.

Wenn ein , dann stimmen bei allen Beobachtungen die tatsächlichen Werte der abhängigen Variablen mit den berechneten (theoretischen) Werten überein . Anschaulich bedeutet dies, dass die theoretische Regressionsgerade (die aus der Funktion konstruierte Gerade) durch alle Punkte des Korrelationsfeldes verläuft, was nur bei einem streng funktionalen Zusammenhang möglich ist. Daher das wirksame Zeichen beim vollständig auf den Einfluss des Faktors zurückzuführen X.

In der Praxis gibt es normalerweise eine gewisse Streuung der Punkte des Korrelationsfelds relativ zur theoretischen Regressionslinie, d.h. Abweichungen der empirischen Daten von den theoretischen. Diese Streuung ist sowohl auf den Einfluss des Faktors zurückzuführen X, d.h. Rückschritt j An X, (eine solche Varianz wird als erklärt bezeichnet, da sie durch die Regressionsgleichung erklärt wird) und die Wirkung anderer Ursachen (unerklärte Variation, zufällig). Die Größe dieser Abweichungen liegt der Berechnung der Qualitätsindikatoren der Gleichung zugrunde.

Nach dem Grundprinzip der Varianzanalyse die Summe der quadrierten Abweichungen der abhängigen Variablen j aus dem Mittelwert lässt sich in zwei Komponenten zerlegen: erklärt durch die Regressionsgleichung und unerklärt:

,

wo - Werte j, berechnet nach der Gleichung .

Finden wir das Verhältnis der Summe der quadrierten Abweichungen, erklärt durch die Regressionsgleichung, zur Gesamtsumme der Quadrate:

, wo

. (7.6)

Das Verhältnis des durch die Regressionsgleichung erklärten Teils der Varianz zur Gesamtvarianz des resultierenden Merkmals wird als Bestimmtheitsmaß bezeichnet. Der Wert kann Eins nicht überschreiten und dieser Maximalwert wird erst bei erreicht, d.h. wenn jede Abweichung Null ist und somit alle Punkte des Scatterplots genau auf einer Geraden liegen.

Das Bestimmtheitsmaß charakterisiert den durch die Regression erklärten Anteil der Varianz am Gesamtwert der Varianz der abhängigen Variablen . Dementsprechend charakterisiert der Wert den Anteil der Streuung (Streuung) y, nicht durch die Regressionsgleichung erklärt und daher durch den Einfluss anderer Faktoren verursacht, die im Modell nicht berücksichtigt werden. Je näher an eins, desto höher die Qualität des Modells.



Bei der gepaarten linearen Regression ist das Bestimmtheitsmaß gleich dem Quadrat des gepaarten linearen Korrelationskoeffizienten: .

Die Wurzel dieses Bestimmtheitsmaßes ist der Koeffizient (Index) der Mehrfachkorrelation oder das theoretische Korrelationsverhältnis.

Um herauszufinden, ob der bei der Auswertung der Regression erhaltene Wert des Bestimmtheitsmaßes wirklich den wahren Zusammenhang zwischen widerspiegelt j und xüberprüfen Sie die Aussagekraft der aufgestellten Gleichung als Ganzes und einzelner Parameter. Durch die Signifikanzprüfung der Regressionsgleichung können Sie herausfinden, ob sich die Regressionsgleichung für den praktischen Einsatz, beispielsweise für Prognosen, eignet oder nicht.

Gleichzeitig wird die Haupthypothese über die Bedeutungslosigkeit der Gleichung als Ganzes aufgestellt, die sich formal auf die Hypothese reduziert, dass die Regressionsparameter gleich Null sind oder, was dasselbe ist, dass das Bestimmtheitsmaß gleich ist bis Null: . Eine Alternativhypothese zur Signifikanz der Gleichung ist die Hypothese, dass die Regressionsparameter ungleich Null sind oder dass das Bestimmtheitsmaß ungleich Null ist: .

Um die Signifikanz des Regressionsmodells zu testen, verwenden Sie F- Fisher-Kriterium, berechnet als Verhältnis der Summe der Quadrate (pro unabhängiger Variable) zur Residualsumme der Quadrate (pro Freiheitsgrad):

, (7.7)

wo k ist die Anzahl der unabhängigen Variablen.

Nach Division von Zähler und Nenner der Beziehung (7.7) durch die Gesamtsumme der quadrierten Abweichungen der abhängigen Variablen, F- Das Kriterium kann äquivalent in Form des Koeffizienten ausgedrückt werden:

.

Wenn die Nullhypothese wahr ist, dann unterscheiden sich die durch die Regressionsgleichung erklärte Varianz und die unerklärte (Rest-)Varianz nicht voneinander.

Geschätzter Wert F- das Kriterium wird mit einem kritischen Wert verglichen, der von der Anzahl der unabhängigen Variablen abhängt k, und von der Anzahl der Freiheitsgrade (n-k-1). Tabelle (kritischer) Wert F- Kriterium - Dies ist der maximale Wert des Varianzverhältnisses, der auftreten kann, wenn sie für eine bestimmte Wahrscheinlichkeit des Vorhandenseins einer Nullhypothese zufällig voneinander abweichen. Wenn der berechnete Wert F- das Kriterium bei einem bestimmten Signifikanzniveau größer als das tabellarische ist, dann wird die Nullhypothese über das Fehlen eines Zusammenhangs verworfen und eine Schlussfolgerung über die Signifikanz dieses Zusammenhangs gezogen, d.h. Modell wird als signifikant angesehen.

Für ein gepaartes Regressionsmodell

.

Bei der linearen Regression wird in der Regel nicht nur die Signifikanz der Gleichung als Ganzes, sondern auch ihrer einzelnen Koeffizienten geschätzt. Dazu wird der Standardfehler jedes Parameters bestimmt. Die Standardfehler der Regressionskoeffizienten der Parameter werden durch die Formeln bestimmt:

, (7.8)

(7.9)

Standardfehler von Regressionskoeffizienten oder Standardabweichungen, die nach Formeln (7.8,7.9) berechnet werden, sind in der Regel in den Berechnungsergebnissen des Regressionsmodells in Statistikpaketen angegeben.

Anhand der Standardfehler der Regressionskoeffizienten wird die Signifikanz dieser Koeffizienten nach dem üblichen Schema zur Prüfung statistischer Hypothesen überprüft.

Als Haupthypothese wird eine Hypothese über eine unbedeutende Differenz des "wahren" Regressionskoeffizienten von Null aufgestellt. Eine alternative Hypothese ist in diesem Fall die umgekehrte Hypothese, also über die Ungleichheit des „wahren“ Regressionsparameters zu Null. Diese Hypothese wird mit getestet t- Statistiken, die haben t-Studentenverteilung:

Dann die errechneten Werte t- Statistiken werden mit kritischen Werten verglichen t- Statistiken, die aus den Verteilungstabellen des Studenten ermittelt wurden. Der kritische Wert wird abhängig vom Signifikanzniveau bestimmt α und die Anzahl der Freiheitsgrade, die ist (n-k-1), n ​​​​- Anzahl Beobachtungen k- Anzahl unabhängiger Variablen. Bei der linearen Paarregression ist die Anzahl der Freiheitsgrade (P- 2). Der kritische Wert kann auch auf einem Computer mit der in Excel integrierten STUDISP-Funktion berechnet werden.

Wenn der berechnete Wert t- Statistiken größer als kritisch sind, dann wird die Haupthypothese verworfen und es wird angenommen, dass dies mit einer Wahrscheinlichkeit der Fall ist (1-α) Der „wahre“ Regressionskoeffizient unterscheidet sich signifikant von Null, was eine statistische Bestätigung der Existenz einer linearen Beziehung zwischen den entsprechenden Variablen ist.

Wenn der berechnete Wert t- Statistik weniger als kritisch ist, dann gibt es keinen Grund, die Haupthypothese abzulehnen, d. h. der „wahre“ Regressionskoeffizient unterscheidet sich auf dem Signifikanzniveau nicht signifikant von Null α . In diesem Fall sollte der diesem Koeffizienten entsprechende Faktor aus dem Modell ausgeschlossen werden.

Die Signifikanz des Regressionskoeffizienten kann durch die Konstruktion eines Konfidenzintervalls ermittelt werden. Konfidenzintervall für Regressionsparameter a und b wie folgt definiert:

,

,

wobei aus der Verteilungstabelle des Studenten für das Signifikanzniveau bestimmt wird α und Anzahl der Freiheitsgrade (P- 2) für paarweise Regression.

Da Regressionskoeffizienten in ökonometrischen Studien eine klare ökonomische Interpretation haben, sollten Konfidenzintervalle nicht Null enthalten. Der wahre Wert des Regressionskoeffizienten kann nicht gleichzeitig positive und negative Werte einschließlich Null enthalten, da wir sonst widersprüchliche Ergebnisse bei der ökonomischen Interpretation der Koeffizienten erhalten, was nicht sein kann. Somit ist der Koeffizient signifikant, wenn das erhaltene Konfidenzintervall nicht Null abdeckt.

Beispiel 7.4. Nach Beispiel 7.1:

a) Erstellen Sie mit Hilfe von Datenverarbeitungssoftware ein gepaartes lineares Regressionsmodell der Abhängigkeit des Verkaufsgewinns vom Verkaufspreis.

b) Bewerten Sie die Aussagekraft der Regressionsgleichung als Ganzes mit F- Fisher-Kriterium bei α = 0,05.

c) Bewerten Sie die Signifikanz der Regressionsmodellkoeffizienten mit t-Schülerkriterium für α = 0,05 und α = 0,1.

Für die Regressionsanalyse verwenden wir das Standard-Büroprogramm EXCEL. Wir werden ein Regressionsmodell mit dem REGRESSION-Tool der ANALYSE-PAKET-Einstellungen (Abb. 7.5) erstellen, das wie folgt gestartet wird:

ServiceData AnalysisREGRESSIONOK.

Abb.7.5. Verwenden des REGRESSION-Tools

Geben Sie im Dialogfeld REGRESSION im Feld Eingabeintervall Y die Adresse des Zellbereichs ein, der die abhängige Variable enthält. Geben Sie im Feld Eingabeintervall X die Adressen eines oder mehrerer Bereiche ein, die die Werte unabhängiger Variablen enthalten Das Kontrollkästchen Beschriftungen in der ersten Zeile wird auf den aktiven Zustand gesetzt, wenn die Spaltenüberschriften ebenfalls ausgewählt sind. Auf Abb. 7.6. die Maske zur Berechnung des Regressionsmodells mit dem Werkzeug REGRESSION wird angezeigt.

Reis. 7.6. Erstellen eines gepaarten Regressionsmodells mit

REGRESSIONS-Tool

Als Ergebnis der Arbeit des REGRESSION-Tools wird das folgende Regressionsanalyseprotokoll erstellt (Abb. 7.7).

Reis. 7.7. Protokoll der Regressionsanalyse

Die Gleichung für die Abhängigkeit des Verkaufsgewinns vom Verkaufspreis hat die Form:

Wir werden die Signifikanz der Regressionsgleichung mit schätzen F- Fishers Kriterium. Bedeutung F- Das Fisher-Kriterium wird der Tabelle „Avarianzanalyse“ des EXCEL-Protokolls entnommen (Abb. 7.7.). Geschätzter Wert F- Kriterium 53.372. Tabellenwert F- Kriterium auf Signifikanzniveau α = 0,05 und die Anzahl der Freiheitsgrade ist 4,964. Als , dann wird die Gleichung als signifikant angesehen.

Geschätzte Werte t-Schülerkriterien für die Koeffizienten der Regressionsgleichung sind in der resultierenden Tabelle angegeben (Abb. 7.7). Tabellenwert t-Studententest auf Signifikanzniveau α = 0,05 und 10 Freiheitsgraden ist 2,228. Für den Regressionskoeffizienten a, daher der Koeffizient a nicht signifikant. Für den Regressionskoeffizienten b, also der Koeffizient b von Bedeutung.

Abschätzung der Signifikanz der Parameter der Regressionsgleichung

Die Signifikanz der Parameter der linearen Regressionsgleichung wird mit dem Student-t-Test geschätzt:

Wenn t kalk. > t cr, dann wird die Haupthypothese akzeptiert ( Ho), die die statistische Signifikanz der Regressionsparameter angibt;

Wenn t kalk.< t cr, dann wird die Alternativhypothese akzeptiert ( H1), was auf die statistische Bedeutungslosigkeit der Regressionsparameter hinweist.

wo m ein , m b sind die Standardfehler der Parameter a und b:

(2.19)

(2.20)

Der kritische (tabellarische) Wert des Kriteriums wird anhand der statistischen Tabellen der Student-Verteilung (Anhang B) oder gemäß den Tabellen ermittelt übertreffen(Abschnitt des Funktionsassistenten "Statistik"):

t cr = STEUDRASP( α=1-P; k=n-2), (2.21)

wo k=n-2 stellt auch die Anzahl der Freiheitsgrade dar .

Die Schätzung der statistischen Signifikanz kann auch auf den linearen Korrelationskoeffizienten angewendet werden

wo Herr ist der Standardfehler bei der Bestimmung der Werte des Korrelationskoeffizienten r yx

(2.23)

Nachfolgend finden Sie die Möglichkeiten für Aufgabenstellungen für Praktika und Laborarbeiten zu den Themen des zweiten Abschnitts.

Fragen zur Selbstprüfung in Abschnitt 2

1. Spezifizieren Sie die Hauptkomponenten des ökonometrischen Modells und ihre Essenz.

2. Der Hauptinhalt der Stufen der ökonometrischen Forschung.

3. Essenz der Ansätze zur Bestimmung der Parameter der linearen Regression.

4. Das Wesen und die Besonderheit der Anwendung der Methode der kleinsten Quadrate bei der Bestimmung der Parameter der Regressionsgleichung.

5. Welche Indikatoren werden verwendet, um die Nähe der Beziehung der untersuchten Faktoren zu bewerten?

6. Das Wesen des linearen Korrelationskoeffizienten.

7. Das Wesen des Bestimmtheitsmaßes.

8. Das Wesen und die Hauptmerkmale der Verfahren zur Bewertung der Angemessenheit (statistische Signifikanz) von Regressionsmodellen.

9. Beurteilung der Angemessenheit linearer Regressionsmodelle durch den Näherungskoeffizienten.

10. Die Essenz des Ansatzes zur Beurteilung der Angemessenheit von Regressionsmodellen anhand des Fisher-Kriteriums. Ermittlung empirischer und kritischer Werte des Kriteriums.

11. Die Essenz des Konzepts der "Streuungsanalyse" in Bezug auf ökonometrische Studien.

12. Das Wesen und die Hauptmerkmale des Verfahrens zur Bewertung der Signifikanz der Parameter der linearen Regressionsgleichung.

13. Merkmale der Anwendung der Student-Verteilung bei der Beurteilung der Signifikanz der Parameter der linearen Regressionsgleichung.

14. Was ist die Aufgabe, Einzelwerte des untersuchten sozioökonomischen Phänomens zu prognostizieren?

1. Erstellen Sie ein Korrelationsfeld und formulieren Sie eine Annahme über die Form der Beziehungsgleichung der untersuchten Faktoren;

2. Schreiben Sie die Grundgleichungen der Methode der kleinsten Quadrate auf, führen Sie die notwendigen Transformationen durch, erstellen Sie eine Tabelle für Zwischenrechnungen und bestimmen Sie die Parameter der linearen Regressionsgleichung;

3. Überprüfen Sie die Richtigkeit der Berechnungen, die unter Verwendung von Standardverfahren und -funktionen von Excel-Tabellen durchgeführt wurden.

4. Analysieren Sie die Ergebnisse, formulieren Sie Schlussfolgerungen und Empfehlungen.

1. Berechnung des Wertes des linearen Korrelationskoeffizienten;

2. Aufbau einer Dispersionsanalysetabelle;

3. Bestimmung des Bestimmtheitsmaßes;

4. Überprüfen Sie die Richtigkeit der Berechnungen, die unter Verwendung von Standardverfahren und -funktionen von Excel-Tabellen durchgeführt wurden.

5. Analysieren Sie die Ergebnisse, formulieren Sie Schlussfolgerungen und Empfehlungen.

4. Führen Sie eine allgemeine Bewertung der Angemessenheit der ausgewählten Regressionsgleichung durch;

1. Beurteilung der Angemessenheit der Gleichung anhand der Werte des Näherungskoeffizienten;

2. Beurteilung der Angemessenheit der Gleichung anhand der Werte des Bestimmtheitsmaßes;

3. Bewertung der Angemessenheit der Gleichung durch das Fisher-Kriterium;

4. Durchführung einer allgemeinen Bewertung der Angemessenheit der Parameter der Regressionsgleichung;

5. Überprüfen Sie die Richtigkeit der Berechnungen, die unter Verwendung von Standardverfahren und -funktionen von Excel-Tabellen durchgeführt wurden.

6. Analysieren Sie die Ergebnisse, formulieren Sie Schlussfolgerungen und Empfehlungen.

1. Verwenden der Standardprozeduren des Excel-Tabellenfunktionsassistenten (aus den Abschnitten „Mathematisch“ und „Statistisch“);

2. Datenvorbereitung und Merkmale der Verwendung der Funktion "RGP";

3. Datenvorbereitung und Merkmale der Verwendung der Funktion "PREDICTION".

1. Verwendung der Standardverfahren des Datenanalysepakets für Excel-Tabellen;

2. Aufbereitung von Daten und Merkmalen der Anwendung des Verfahrens „REGRESSION“;

3. Interpretation und Verallgemeinerung von Daten aus der Regressionsanalysetabelle;

4. Interpretation und Verallgemeinerung der Daten der Ausbreitungsanalysetabelle;

5. Interpretation und Verallgemeinerung der Daten der Tabelle zur Beurteilung der Signifikanz der Parameter der Regressionsgleichung;

Bei der Durchführung von Laborarbeiten gemäß einer der Optionen müssen die folgenden besonderen Aufgaben ausgeführt werden:

1. Wählen Sie die Form der Gleichung der Beziehung der untersuchten Faktoren;

2. Bestimmen Sie die Parameter der Regressionsgleichung;

3. Beurteilung der Enge der Beziehung der untersuchten Faktoren;

4. Beurteilen Sie die Angemessenheit der ausgewählten Regressionsgleichung;

5. Bewerten Sie die statistische Signifikanz der Parameter der Regressionsgleichung.

6. Überprüfen Sie die Richtigkeit der Berechnungen, die unter Verwendung von Standardverfahren und -funktionen von Excel-Tabellen durchgeführt wurden.

7. Analysieren Sie die Ergebnisse, formulieren Sie Schlussfolgerungen und Empfehlungen.

Aufgaben für Praktika und Laborarbeiten zum Thema „Gepaarte lineare Regression und Korrelation in ökonometrischen Studien“.

Variante 1 Option 2 Möglichkeit 3 Möglichkeit 4 Möglichkeit 5
x j x j x j x j x j
Möglichkeit 6 Möglichkeit 7 Möglichkeit 8 Möglichkeit 9 Möglichkeit 10
x j x j x j x j x j

Paarregression ist eine Regression zwischen zwei Variablen

-y und x, d.h. Modell ansehen + E

Woher beim- effektives Vorzeichen, d.h. abhängige Variable; X- Vorzeichenfaktor.

Die lineare Regression wird auf das Finden einer Gleichung der Form oder reduziert

Eine Gleichung der Form ermöglicht, dass die gegebenen Werte des Faktors x die theoretischen Werte des effektiven Merkmals haben, indem die tatsächlichen Werte des Faktors x darin eingesetzt werden.

Die Konstruktion einer linearen Regression reduziert sich auf die Schätzung ihrer Parameter a und b.

Lineare Regressionsparameterschätzungen können durch verschiedene Methoden gefunden werden.

1.

2.

Parameter b namens Regressionskoeffizienten. Sein Wert zeigt

die durchschnittliche Änderung des Ergebnisses bei einer Änderung des Faktors um eine Einheit.

Formal a- Bedeutung beim bei x = 0. Wenn der Vorzeichenfaktor

keinen Nullwert hat und haben kann, dann das Obige

freie Begriffsinterpretation, a Es ist nicht sinnvoll. Parameter, a kann sein

keinen wirtschaftlichen Inhalt haben. Versuche wirtschaftlich

Parameter interpretieren, a kann zur Absurdität führen, besonders wenn a < 0.

Nur das Vorzeichen des Parameters kann interpretiert werden a. Wenn ein a > 0,

dann ist die relative Änderung des Ergebnisses langsamer als die Änderung

Überprüfung der Qualität der gefundenen Parameter und des gesamten Modells als Ganzes:

-Beurteilung der Signifikanz des Regressionskoeffizienten (b) und des Korrelationskoeffizienten

-Bewertung der Bedeutung der gesamten Regressionsgleichung. Bestimmtheitsmaß

Die Regressionsgleichung wird immer um einen Indikator für die Enge der Beziehung ergänzt. Beim

Verwendung der linearen Regression als solcher Indikator

linearer Korrelationskoeffizient r xy . Es gibt verschiedene

Modifikationen der linearen Korrelationskoeffizientenformel.

Der lineare Korrelationskoeffizient liegt in den Grenzen: -1≤ .rxy

≤ 1. Außerdem, je näher r zu 0, desto schwächer die Korrelation und umgekehrt

je näher r an 1 oder -1 liegt, desto stärker ist die Korrelation, d.h. die Abhängigkeit von x und y ist nahe

linear. Wenn ein r genau =1 oder -1 alle Punkte liegen auf derselben Geraden.

Wenn der Koeffizient Regression b>0 dann 0 ≤. rxy≤ 1 und

umgekehrt für b<0 -1≤.rxy≤0. Coef.

Korrelation spiegelt den Grad der linearen Abhängigkeit von m / y-Werten in Gegenwart von wider

ausgeprägte Abhängigkeit von einer anderen Art.

Um die Qualität der Auswahl einer linearen Funktion zu beurteilen, das Quadrat der Linearen

Korrelationskoeffizient

Namens Bestimmungskoeffizient. Bestimmtheitsmaß

charakterisiert den Anteil der Varianz des resultierenden Merkmals y, erklärt durch

Rückschritt. Entsprechender Wert

charakterisiert den Dispersionsanteil y, verursacht durch den Einfluss anderer nicht berücksichtigt

im Faktormodell.

OLS ermöglicht erhalten Sie solche Parameterschätzungen a und b, welche

die Summe der quadrierten Abweichungen der tatsächlichen Werte des resultierenden Attributs

(y) aus berechnet (theoretisch)

Minimum:

Mit anderen Worten, von

des gesamten Satzes von Linien wird die Regressionslinie im Diagramm so gewählt, dass die Summe

Quadrate des vertikalen Abstands zwischen den Punkten und dieser Linie wären

Minimum.

Das System der Normalgleichungen wird gelöst

SCHÄTZUNG DER SIGNIFIKANZ DER PARAMETER DER LINEAREN REGRESSION.

Die Einschätzung der Signifikanz der Regressionsgleichung insgesamt erfolgt über das F-Kriterium

Fischer. In diesem Fall wird die Nullhypothese aufgestellt, dass der Regressionskoeffizient gleich ist

null, d.h. b= 0 und damit der Faktor X bietet keine

Einfluss auf das Ergebnis j.

Der direkten Berechnung des F-Kriteriums geht eine Varianzanalyse voraus.

Zentral ist dabei die Entwicklung der Gesamtsumme der quadrierten Abweichungen

Variable beim vom Durchschnittswert beim in zwei Teile -

"erklärt" und "ungeklärt":

Gesamtsumme der quadrierten Abweichungen

Quadratsumme

Abweichungen erklärt durch Regression

Residualsumme der quadrierten Abweichung.

Jede Summe quadrierter Abweichungen steht in Beziehung zur Anzahl der Freiheitsgrade , t.

h. mit der Zahl der Freiheiten der unabhängigen Variation des Merkmals. Die Anzahl der Freiheitsgrade hängt mit der Anzahl der Einheiten der Grundgesamtheit n und der Anzahl der daraus bestimmten Konstanten zusammen. In Bezug auf das untersuchte Problem sollte die Anzahl der Freiheitsgrade zeigen, wie viele unabhängige Abweichungen von P möglich erforderlich für

die Bildung einer gegebenen Summe von Quadraten.

Streuung pro Freiheitsgrad D.

F-Verhältnisse (F-Kriterium):

Wenn die Nullhypothese wahr ist, dann sind es der Faktor und die Restvarianzen nicht

unterscheiden sich voneinander. Für H 0 ist damit eine Widerlegung notwendig

die Faktorvarianz überstieg die Restvarianz um ein Vielfaches. Englisch

Statistiker Snedecor entwickelte Tabellen mit kritischen Werten von F-Verhältnissen

bei unterschiedlichen Signifikanzniveaus der Nullhypothese und einer unterschiedlichen Gradzahl

Freiheit. Der Tabellenwert des F-Tests ist der Maximalwert des Verhältnisses

Varianzen, die bei ihrer zufälligen Divergenz für ein gegebenes auftreten können

das Wahrscheinlichkeitsniveau für das Vorliegen der Nullhypothese. Berechneter Wert des F-Verhältnisses

wird als zuverlässig anerkannt, wenn o größer als der Tabellenwert ist. In diesem Fall null

Die Hypothese über das Fehlen einer Zeichenbeziehung wird verworfen und eine Schlussfolgerung gezogen

die Bedeutung dieser Beziehung: F Tatsache > F Tabelle H 0

ist abgelehnt.

Wenn der Wert kleiner ist als der tabellarische F-Fakt ‹, F-Tabelle

Dann liegt die Wahrscheinlichkeit der Nullhypothese über einem bestimmten Niveau und kann es nicht sein

ohne ernsthafte Gefahr der Irreführung der Verbindung zurückgewiesen. BEIM

In diesem Fall wird die Regressionsgleichung als statistisch unbedeutend angesehen. Aber

wird nicht abgelehnt.


Ähnliche Informationen.