Zulässige Grenze der mittleren Näherungsfehlerwerte. Schätzung anhand des Fisher-F-Kriteriums der statistischen Zuverlässigkeit der Ergebnisse der Regressionsmodellierung

5. Unter Verwendung des F-Kriteriums wurde festgestellt, dass die erhaltene Paarregressionsgleichung insgesamt statistisch nicht signifikant ist und das untersuchte Phänomen des Zusammenhangs zwischen der monatlichen Rente y und dem Existenzminimum x unzureichend beschreibt.

6. Es wurde ein ökonometrisches Modell der multiplen linearen Regression entwickelt, das den Wert des Nettoeinkommens einer bedingten Firma y mit dem Kapitalumsatz x1 und dem eingesetzten Kapital x2 verknüpft

7. Durch die Berechnung der Elastizitätskoeffizienten zeigt sich, dass sich bei einer Änderung des Kapitalumsatzes um 1 % der Wert des Nettoeinkommens des Unternehmens um 0,0008 % und bei einer Änderung des eingesetzten Kapitals um 1 % der Wert des Unternehmens ändert Der Nettogewinn ändert sich um 0,56 %.

8. Mittels des t-Tests wurde die statistische Signifikanz der Regressionskoeffizienten bewertet, wobei festgestellt wurde, dass die erklärende Variable x 1 statistisch nicht signifikant ist und aus der Regressionsgleichung ausgeschlossen werden kann, während die erklärende Variable x 2 statistisch signifikant ist.

9. Unter Verwendung des F-Kriteriums wurde festgestellt, dass die erhaltene Paarregressionsgleichung als Ganzes statistisch signifikant ist und das untersuchte Phänomen der Beziehung zwischen dem Wert des Nettoeinkommens einer bedingten Firma y und dem Kapitalumsatz x 1 angemessen beschreibt und eingesetztes Kapital x 2.

10. Der durchschnittliche Approximationsfehler der statistischen Daten durch die lineare Gleichung der multiplen Regression wurde berechnet und betrug 29,8%. Es wird angezeigt, aufgrund welcher Beobachtung in der statistischen Datenbank der Wert dieses Fehlers den zulässigen Wert überschreitet.

14. Erstellen eines gepaarten Regressionsmodells ohne Verwendung von EXCEL.

Unter Verwendung des in Tabelle 3.5 angegebenen statistischen Materials ist Folgendes erforderlich:

2. Bewerten Sie die Festigkeit der Verbindung anhand von Korrelations- und Bestimmungsindikatoren.

3. Bestimmen Sie anhand des Elastizitätskoeffizienten den Grad der Verbindung zwischen dem Faktorattribut und dem resultierenden.

4. Bestimmen Sie den mittleren Approximationsfehler.

5. Bewerten Sie die statistische Zuverlässigkeit der Simulation mit dem Fisher F-Test.

Tabelle 3.5. Ausgangsdaten.

Der Anteil der Bareinnahmen zur Erhöhung der Ersparnisse bei Einlagen, Krediten, Zertifikaten und für den Kauf von Devisen am Gesamtbetrag der durchschnittlichen Pro-Kopf-Bareinnahmen, %

Durchschnittlicher aufgelaufener Monatslohn, c.u.

Kaluga

Kostroma

Orlowskaja

Rjasan

Smolensk

Um die unbekannten Parameter b 0 , b 1 der gepaarten linearen Regressionsgleichung zu bestimmen, verwenden wir das Standardsystem von Normalgleichungen, das die Form hat

(3.7)

Um dieses System zu lösen, müssen zunächst die Werte von Sx 2 und Sxy bestimmt werden. Diese Werte werden aus der Tabelle der Ausgangsdaten ermittelt und mit den entsprechenden Spalten ergänzt (Tabelle 3.6).

Tabelle 3.6. Zur Berechnung von Regressionskoeffizienten.

Dann nimmt System (3.7) die Form an

Wenn wir b 0 aus der ersten Gleichung ausdrücken und den resultierenden Ausdruck in die zweite Gleichung einsetzen, erhalten wir:

Wenn wir Term für Term multiplizieren und die Klammern erweitern, erhalten wir:

Schließlich hat die Gleichung der gepaarten linearen Regression, die den Anteil des Geldeinkommens der Bevölkerung zur Erhöhung der Ersparnisse y mit dem durchschnittlichen monatlichen aufgelaufenen Lohn x in Beziehung setzt, die Form:

Während also die gepaarte lineare Regressionsgleichung erstellt wird, bestimmen wir den linearen Korrelationskoeffizienten aus der Abhängigkeit:

wo sind die Werte der Standardabweichungen der entsprechenden Parameter.

Zur Berechnung des linearen Korrelationskoeffizienten aus Abhängigkeit (3.9) führen wir Zwischenrechnungen durch.

Wenn wir die Werte der gefundenen Parameter in den Ausdruck (3.9) einsetzen, erhalten wir

.

Der erhaltene Wert des linearen Korrelationskoeffizienten zeigt das Vorhandensein einer schwachen inversen statistischen Beziehung zwischen dem Anteil des Geldeinkommens der Bevölkerung, der auf die Erhöhung der Ersparnisse y abzielt, und dem durchschnittlichen monatlichen aufgelaufenen Lohn x.

Das Bestimmtheitsmaß beträgt , was bedeutet, dass nur 9,6 % durch die Regression der erklärenden Variable um y erklärt werden. Dementsprechend charakterisiert der Wert 1 gleich 90,4 % den Anteil der Varianz der Variablen, der durch den Einfluss aller anderen im ökonometrischen Modell nicht berücksichtigten erklärenden Variablen verursacht wird.

Der Elastizitätskoeffizient ist gleich

Folglich sinkt bei einer Änderung des Werts des durchschnittlich aufgelaufenen Monatslohns um 1% der Anteil des Bareinkommens der Bevölkerung, der auf eine Erhöhung der Ersparnisse abzielt, ebenfalls um 1%, und bei einer Erhöhung des Lohns nimmt der Anteil ab die Bareinnahmen der Bevölkerung zielten darauf ab, die Ersparnisse zu erhöhen. Diese Schlussfolgerung widerspricht dem gesunden Menschenverstand und kann nur durch die Unrichtigkeit des gebildeten mathematischen Modells erklärt werden.

Lassen Sie uns den durchschnittlichen Näherungsfehler berechnen.

Tabelle 3.7. Zur Berechnung des mittleren Näherungsfehlers.

Der erhaltene Wert übersteigt (12…15)%, was die Signifikanz der durchschnittlichen Abweichung der berechneten Daten von den tatsächlichen Daten anzeigt, auf denen das ökonometrische Modell aufbaut.

Die Zuverlässigkeit der statistischen Modellierung wird auf der Grundlage des F-Kriteriums von Fisher durchgeführt. Der theoretische Wert des Fisher-Kriteriums Fcalc wird aus dem Verhältnis der für einen Freiheitsgrad gemäß der Formel berechneten Werte der Faktor- und Restvarianzen ermittelt

wobei n die Anzahl der Beobachtungen ist;

m ist die Anzahl der erklärenden Variablen (für das betrachtete Beispiel m m = 1).

Der kritische Wert Fkrit wird aus statistischen Tabellen ermittelt und ist für das Signifikanzniveau a = 0,05 gleich 10,13. Da F ber

15. Erstellen eines multiplen Regressionsmodells ohne Verwendung von EXCEL.

Unter Verwendung des in Tabelle 3.8 angegebenen statistischen Materials müssen Sie:

1. Erstellen Sie eine lineare multiple Regressionsgleichung, erklären Sie die wirtschaftliche Bedeutung ihrer Parameter.

2. Eine vergleichende Bewertung der Nähe der Beziehung von Faktoren zu einem Produktionsattribut unter Verwendung von durchschnittlichen (allgemeinen) Elastizitätskoeffizienten zu geben.

3. Beurteilen Sie die statistische Signifikanz der Regressionskoeffizienten mit dem t-Test und die Nullhypothese, dass die Gleichung nicht signifikant ist, mit dem F-Test.

4. Bewerten Sie die Qualität der Gleichung, indem Sie den mittleren Approximationsfehler bestimmen.

Tabelle 3.8. Ausgangsdaten.

Nettoeinkommen, Mio. USD

Kapitalumsatz USD Mio

Verwendetes Kapital, Mio. USD

Um die unbekannten Parameter b 0 , b 1 , b 2 der multiplen linearen Regressionsgleichung zu bestimmen, verwenden wir das Standardsystem von Normalgleichungen, das die Form hat

(3.11)

Um dieses System zu lösen, müssen zunächst die Werte von Sx 1 2 , Sx 2 2 , Sx 1 y, Sx 2 y, Sx 1 x 2 bestimmt werden. Diese Werte werden aus der Tabelle der Ausgangsdaten ermittelt und mit den entsprechenden Spalten ergänzt (Tabelle 3.9).

Tabelle 3.9. Zur Berechnung von Regressionskoeffizienten.

Dann nimmt System (3.11) die Form an

Um dieses System zu lösen, verwenden wir die Gauß-Methode, die in der sukzessiven Eliminierung von Unbekannten besteht: Wir teilen die erste Gleichung des Systems durch 10, dann multiplizieren wir die resultierende Gleichung mit 370,6 und subtrahieren sie von der zweiten Gleichung des Systems. dann multiplizieren wir die resultierende Gleichung mit 158,20 und subtrahieren sie von der dritten Gleichung des Systems. Durch Wiederholen des angegebenen Algorithmus für die transformierte zweite und dritte Gleichung des Systems erhalten wir:

Þ Þ

Þ .

Nach der Transformation haben wir:

Dann schließlich hat die Abhängigkeit des Nettoeinkommens von Kapitalumsatz und eingesetztem Kapital in Form einer linearen multiplen Regressionsgleichung die Form:

Aus der resultierenden ökonometrischen Gleichung ist ersichtlich, dass bei einer Erhöhung des eingesetzten Kapitals die Nettoerträge steigen und umgekehrt bei einer Erhöhung des Kapitalumsatzes die Nettoerträge sinken. Je größer der Regressionskoeffizient ist, desto größer ist außerdem der Einfluss der erklärenden Variablen auf die abhängige Variable. In diesem Beispiel ist der Wert des Regressionskoeffizienten größer als der Wert des Koeffizienten, daher hat das eingesetzte Kapital einen viel größeren Einfluss auf das Nettoeinkommen als der Kapitalumsatz. Um diese Schlussfolgerung zu quantifizieren, bestimmen wir die partiellen Elastizitätskoeffizienten.

Die Analyse der erzielten Ergebnisse zeigt auch, dass das eingesetzte Kapital einen größeren Einfluss auf den Jahresüberschuss hat. So erhöht sich insbesondere bei einer Erhöhung des Capital Employed um 1 % der Jahresüberschuss um 1,17 %. Gleichzeitig sinkt bei einem Anstieg des Kapitalumschlags um 1 % der Nettoertrag um 0,5 %.

Theoretischer Wert des Fisher-Kriteriums F calc

Der Wert des kritischen Wertes F crit wird durch statistische Tabellen bestimmt und ist für das Signifikanzniveau a = 0,05 gleich 4,74. Da F calc > F crit ist, wird die Nullhypothese verworfen und die resultierende Regressionsgleichung als statistisch signifikant angenommen.

Die Beurteilung der statistischen Signifikanz der Regressionskoeffizienten nach dem t-Kriterium reduziert sich darauf, den Zahlenwert dieser Koeffizienten mit der Größe ihrer zufälligen Fehler und nach der Abhängigkeit zu vergleichen:

Die Arbeitsformel zur Berechnung des theoretischen Werts der t-Statistik lautet:

, (3.13)

wobei aus den Abhängigkeiten die Paarkorrelationskoeffizienten und der Mehrfachkorrelationskoeffizient berechnet werden:

Dann sind die theoretischen (berechneten) Werte der t-Statistik jeweils gleich:

Da der nach statistischen Tabellen ermittelte kritische Wert der t-Statistik für das Signifikanzniveau a=0,05 gleich tkrit=2,36 betragsmäßig größer als = - 1,798 ist, wird die Nullhypothese nicht verworfen und die erklärende Variable x 1 ist statistisch nicht signifikant und kann aus der Regressionsgleichung ausgeschlossen werden. Umgekehrt gilt für den zweiten Regressionskoeffizienten > t crit (3,3 > 2,36) und die erklärende Variable x 2 ist statistisch signifikant.

Lassen Sie uns den durchschnittlichen Näherungsfehler berechnen.

Tabelle 3.10. Zur Berechnung des mittleren Näherungsfehlers.

Dann ist der durchschnittliche Näherungsfehler gleich

Der erhaltene Wert überschreitet nicht die zulässige Grenze von (12…15) %.

16. Entwicklungsgeschichte der Theorie der Messungen

Zunächst entwickelte sich TI als Theorie psychophysischer Messungen. In Nachkriegspublikationen hat der amerikanische Psychologe S.S. Stephens konzentrierte sich auf Messskalen. In der zweiten Hälfte des 20. Jahrhunderts. Der Anwendungsbereich von TI erweitert sich schnell. Einer der in den 1950er Jahren in den USA erschienenen Bände der „Encyclopedia of Psychological Sciences“ hieß „Psychological Measurements“. Die Verfasser dieser Veröffentlichung haben den Anwendungsbereich von TI von der Psychophysik auf die Psychologie im Allgemeinen erweitert. Im Artikel dieses Sammelbandes „Grundlagen der Messtheorie“ erfolgte die Darstellung auf einer abstrakt-mathematischen Ebene, ohne Bezug auf ein konkretes Anwendungsgebiet. Darin wurde der Schwerpunkt auf „Homomorphismen empirischer Systeme mit Beziehungen zu numerischen“ gelegt (auf diese mathematischen Begriffe muss hier nicht eingegangen werden), und die mathematische Komplexität der Darstellung nahm im Vergleich zu den Arbeiten von S.S. Stevens.

In einem der ersten inländischen Artikel über TI (Ende der 60er Jahre) wurde festgestellt, dass die von Experten vergebenen Punkte bei der Bewertung von Fachwissen in der Regel auf einer Ordinalskala gemessen werden. Die in den frühen 1970er Jahren erschienenen Werke führten zu einer deutlichen Ausweitung des Einsatzgebietes von TI. Es wurde in der pädagogischen Qualimetrie (Messung der Qualität des Schülerwissens), in Systemstudien, in verschiedenen Aufgaben der Expertenbewertungstheorie, zur Aggregation von Produktqualitätsindikatoren, in soziologischen Studien usw. angewendet.

Neben der Festlegung des Skalentyps zur Messung bestimmter Daten wurde die Suche nach Datenanalysealgorithmen als zwei Hauptprobleme von TI angeführt, deren Ergebnis sich bei keiner zulässigen Transformation der Skala ändert (d.h. invariant bzgl Ordinalskalen in der Geographie sind die Beaufort-Windskala ("ruhig", "schwacher Wind", "mäßiger Wind" usw.), eine Skala der Erdbebenstärke. Offensichtlich kann nicht argumentiert werden, dass ein Erdbeben der Stärke 2 (die Lampe unter der Decke geschwungen) genau 5-mal schwächer ist als ein Erdbeben der Stärke 10 (vollständige Zerstörung von allem auf der Erdoberfläche).

Ordinalskalen sind in der Medizin die Stadienskala der Hypertonie (nach Myasnikov), die Gradskala der Herzinsuffizienz (nach Strazhesko-Vasilenko-Lang), die Schweregradskala der Koronarinsuffizienz (nach Fogelson) usw. Alle diese Waagen sind nach dem Schema aufgebaut: Die Krankheit wird nicht erkannt; das erste Stadium der Krankheit; zweite Etage; das dritte Stadium ... Manchmal werden die Stadien 1a, 16 usw. unterschieden.Jedes Stadium hat eine nur ihm eigene medizinische Eigenschaft. Bei der Beschreibung von Behinderungsgruppen werden Zahlen in umgekehrter Reihenfolge verwendet: die schwerste - die erste Behinderungsgruppe, dann - die zweite, die leichteste - die dritte.

Die Hausnummern werden ebenfalls in einer Ordnungsskala gemessen – sie zeigen die Reihenfolge, in der die Häuser entlang der Straße stehen. Bandnummern in den gesammelten Werken eines Schriftstellers oder Fallnummern in einem Unternehmensarchiv werden normalerweise mit der chronologischen Reihenfolge ihrer Entstehung in Verbindung gebracht.

Bei der Beurteilung der Qualität von Produkten und Dienstleistungen sind Ordinalskalen in der sogenannten Qualimetrie (wörtliche Übersetzung - Qualitätsmessung) beliebt. Eine Ausgabeeinheit wird nämlich als gut oder schlecht bewertet. Bei einer genaueren Analyse wird eine Skala mit drei Abstufungen verwendet: Es liegen erhebliche Mängel vor - es liegen nur geringfügige Mängel vor - es liegen keine Mängel vor. Manchmal werden vier Abstufungen verwendet: Es liegen kritische Mängel vor (die eine Verwendung unmöglich machen) - Es liegen erhebliche Mängel vor - Es liegen nur geringfügige Mängel vor - Es liegen keine Mängel vor. Die Produktnote hat eine ähnliche Bedeutung - die höchste Note, die erste Note, die zweite Note, ...

Bei der Bewertung von Umweltauswirkungen ist die erste, allgemeinste Bewertung normalerweise ordinal, zum Beispiel: Die natürliche Umwelt ist stabil - die natürliche Umwelt ist unterdrückt (degradierend). Die umweltmedizinische Skala ist ähnlich: Es gibt keine ausgeprägten Auswirkungen auf die Gesundheit der Menschen - eine negative Auswirkung auf die Gesundheit wird festgestellt.

Die Ordinalskala wird auch in anderen Bereichen verwendet. In der Ökonometrie sind dies vor allem verschiedene Methoden der Experteneinschätzung.

Alle Messskalen sind in zwei Gruppen unterteilt - Skalen qualitativer Zeichen und Skalen quantitativer Zeichen. Die Ordinalskala und die Namensskala sind die Hauptskalen qualitativer Merkmale, daher können die Ergebnisse der qualitativen Analyse in vielen spezifischen Bereichen als Messungen auf diesen Skalen betrachtet werden. Skalen quantitativer Zeichen sind Skalen von Intervallen, Verhältnissen, Differenzen, absolut. Die Intervallskala misst den Wert der potentiellen Energie oder die Koordinate eines Punktes auf einer geraden Linie. In diesen Fällen kann weder der natürliche Bezugspunkt noch die natürliche Maßeinheit auf der Skala markiert werden. Der Forscher muss selbst den Bezugspunkt setzen und die Maßeinheit selbst wählen. Gültige Transformationen in der Intervallskala sind linear steigende Transformationen, d.h. lineare Funktionen. Die Temperaturskalen Celsius und Fahrenheit sind genau durch diese Beziehung miteinander verbunden: ° С = 5/9 (° F - 32), wobei ° С die Temperatur (in Grad) auf der Celsius-Skala und ° F die Temperatur auf der Fahrenheit-Skala ist Skala.

Von den quantitativen Skalen sind die Quotientenskalen in Wissenschaft und Praxis am weitesten verbreitet. Sie haben einen natürlichen Bezugspunkt - Null, d.h. keine Menge, aber keine natürliche Maßeinheit. Die meisten physikalischen Einheiten werden auf einer Verhältnisskala gemessen: Körpermasse, Länge, Ladung sowie Preise in der Wirtschaft. Zulässige Transformationen in der Skala der Beziehungen sind ähnlich (Änderung nur der Skala). Mit anderen Worten, lineare inkrementelle Umrechnungen ohne Intercept, wie z. B. die Umrechnung von Preisen von einer Währung in eine andere zu einem festen Kurs. Angenommen, wir vergleichen die Wirtschaftlichkeit zweier Investitionsprojekte anhand der Preise in Rubel. Lassen Sie das erste Projekt besser sein als das zweite. Wechseln wir nun zu Chinas Währung, dem Yuan, mit einem festen Wechselkurs. Offensichtlich sollte das erste Projekt wieder rentabler sein als das zweite. Allerdings stellen Berechnungsalgorithmen die Erfüllung dieser Bedingung nicht automatisch sicher und es muss überprüft werden, ob sie erfüllt ist. Die Ergebnisse eines solchen Tests für Durchschnittswerte werden im Folgenden beschrieben.

In der Skala der Unterschiede gibt es eine natürliche Maßeinheit, aber keinen natürlichen Bezugspunkt. Die Zeit wird auf einer Differenzskala gemessen, wenn das Jahr (oder der Tag - von Mittag bis Mittag) als natürliche Maßeinheit genommen wird, und im allgemeinen auf einer Intervallskala. Beim gegenwärtigen Kenntnisstand kann kein natürlicher Bezugspunkt angegeben werden. Verschiedene Autoren berechnen das Datum der Erschaffung der Welt auf unterschiedliche Weise sowie den Moment der Geburt Christi.

Nur für die Absolutskala sind die Messergebnisse Zahlen im üblichen Sinne des Wortes, wie beispielsweise die Anzahl der Personen in einem Raum. Für eine absolute Skala ist nur die Identitätstransformation zulässig.

Im Laufe der Entwicklung des entsprechenden Wissensgebietes kann sich die Art der Skala ändern. Also wurde zunächst die Temperatur auf einer Ordinalskala (kälter - wärmer) gemessen. Dann - auf der Intervallskala (Celsius, Fahrenheit, Reaumur). Schließlich kann nach der Entdeckung des absoluten Nullpunkts die Temperatur auf einer Verhältnisskala (der Kelvin-Skala) gemessen werden. Es sei darauf hingewiesen, dass es unter Fachleuten manchmal Meinungsverschiedenheiten darüber gibt, welche Skalen verwendet werden sollten, um bestimmte reale Größen als gemessen zu betrachten. Mit anderen Worten, der Messprozess umfasst die Definition des Skalentyps (zusammen mit der Begründung für die Wahl eines bestimmten Skalentyps). Zusätzlich zu den sechs aufgeführten Haupttypen von Skalen werden manchmal andere Skalen verwendet.

17. Invariante Algorithmen und Mittelwerte.

Lassen Sie uns die Hauptanforderung an Datenanalysealgorithmen in TI formulieren: Schlussfolgerungen, die auf der Grundlage von Daten gezogen werden, die auf einer Skala eines bestimmten Typs gemessen wurden, sollten sich nicht mit einer akzeptablen Transformation der Messskala dieser Daten ändern. Mit anderen Worten, die Schlussfolgerungen müssen in Bezug auf die zulässigen Skalentransformationen unveränderlich sein.

Daher ist eines der Hauptziele der Theorie der Messungen der Kampf gegen die Subjektivität des Forschers bei der Zuordnung von Zahlenwerten zu realen Objekten. So können Entfernungen in Arshins, Metern, Mikrometern, Meilen, Parsec und anderen Maßeinheiten gemessen werden. Masse (Gewicht) - in Pfund, Kilogramm, Pfund usw. Preise für Waren und Dienstleistungen können in Yuan, Rubel, Tenge, Griwna, Lats, Kronen, Mark, US-Dollar und anderen Währungen angegeben werden (vorbehaltlich angegebener Umrechnungskurse). Lassen Sie uns einen sehr wichtigen, wenn auch ziemlich offensichtlichen Umstand betonen: Die Wahl der Maßeinheiten hängt vom Forscher ab, d.h. subjektiv. Statistische Schlussfolgerungen können nur dann der Realität angemessen sein, wenn sie nicht davon abhängen, welche Maßeinheit der Forscher bevorzugt, wenn sie unter einer akzeptablen Skalentransformation invariant sind. Von den vielen Algorithmen zur ökonometrischen Datenanalyse erfüllen nur wenige diese Bedingung. Lassen Sie es uns an einem Beispiel des Vergleichs von Durchschnittswerten zeigen.

Seien X 1 , X 2 , ..., X n eine Stichprobe der Größe n. Häufig wird das arithmetische Mittel verwendet. Die Verwendung des arithmetischen Mittels ist so alltäglich, dass das zweite Wort in dem Begriff oft weggelassen wird und als Durchschnittsgehalt, Durchschnittseinkommen und andere Durchschnittswerte für bestimmte Wirtschaftsdaten bezeichnet wird, was mit "Durchschnitt" das arithmetische Mittel bedeutet. Eine solche Tradition kann zu falschen Schlussfolgerungen führen. Lassen Sie uns dies am Beispiel der Berechnung des Durchschnittslohns (Durchschnittseinkommen) der Arbeitnehmer eines bedingten Unternehmens zeigen. Von 100 Arbeitern haben nur 5 Löhne, die darüber liegen, und die Löhne der restlichen 95 liegen deutlich unter dem arithmetischen Durchschnitt. Der Grund liegt auf der Hand – das Gehalt einer Person – des Generaldirektors – übersteigt das Gehalt von 95 Arbeitern – gering qualifizierten und hochqualifizierten Arbeitern, Ingenieuren und Angestellten. Die Situation ähnelt der in der bekannten Geschichte über das Krankenhaus beschriebenen, in der 10 Patienten, davon 9 mit 40 ° C Fieber, und einer, der sich bereits erschöpft hat, mit 0 ° C Fieber im Leichenschauhaus liegen. Mittlerweile liegt die Durchschnittstemperatur im Krankenhaus bei 36°C – besser geht es nicht!

Daher kann das arithmetische Mittel nur für ziemlich homogene Grundgesamtheiten (ohne große Ausreißer in die eine oder andere Richtung) verwendet werden. Und was sind die Durchschnittswerte zur Beschreibung der Löhne? Es ist ganz natürlich, den Median zu verwenden - das arithmetische Mittel der 50. und 51. Mitarbeiter, wenn ihre Gehälter in nicht abnehmender Reihenfolge sind. Zuerst kommen die Löhne von 40 Geringqualifizierten und dann – vom 41. bis zum 70. Arbeiter – die Löhne von Hochqualifizierten. Folglich fällt der Median genau auf sie und beträgt 200. Bei 50 Arbeitnehmern übersteigt das Gehalt 200 nicht und bei 50 - mindestens 200, sodass der Median das "Zentrum" zeigt, um das sich der Großteil der untersuchten Werte befindet sind gruppiert. Ein weiterer Durchschnitt ist der Modus, der am häufigsten vorkommende Wert. Im vorliegenden Fall handelt es sich um die Löhne von Geringqualifizierten, d.h. 100. Um das Gehalt zu beschreiben, haben wir also drei Durchschnittswerte - Modus (100 Einheiten), Median (200 Einheiten) und arithmetisches Mittel (400 Einheiten).

Für die im wirklichen Leben beobachteten Einkommens- und Lohnverteilungen gilt dasselbe Muster: Der Modus ist kleiner als der Median, und der Median ist kleiner als das arithmetische Mittel.

Warum werden in der Wirtschaftswissenschaft Durchschnittswerte verwendet? Um eine Menge von Zahlen durch eine einzelne Zahl zu ersetzen, werden die Mengen normalerweise mit Durchschnittswerten verglichen. Seien zum Beispiel Y 1 , Y 2 ,..., Y n eine Reihe von Expertenbewertungen, die einem Objekt der Expertise "gegeben" werden (zum Beispiel eine der Optionen für die strategische Entwicklung des Unternehmens), Z 1, Z 2 , ..., Z n - die zweite (eine andere Variante einer solchen Entwicklung). Wie können diese Aggregate verglichen werden? Der einfachste Weg ist natürlich der Durchschnitt.

Wie werden Durchschnittswerte berechnet? Es sind verschiedene Arten von Mittelwerten bekannt: arithmetisches Mittel, Median, Modus, geometrisches Mittel, harmonisches Mittel, mittleres Quadrat. Denken Sie daran, dass das allgemeine Konzept des Durchschnittswerts von dem französischen Mathematiker der ersten Hälfte des 19. Jahrhunderts eingeführt wurde. Akademiker O. Koshi. Es ist wie folgt: Der Durchschnittswert ist eine beliebige Funktion Ф(X 1, X 2,..., X n), so dass für alle möglichen Werte der Argumente der Wert dieser Funktion nicht kleiner als das Minimum von ist die Zahlen X 1, X 2,... , X n , und nicht mehr als das Maximum dieser Zahlen. Alle oben genannten Arten von Mittelwerten sind Cauchy-Mittelwerte.

Bei einer akzeptablen Skalentransformation ändert sich offensichtlich der Wert des Mittelwerts. Aber die Schlussfolgerungen darüber, für welche Population der Durchschnitt höher und für welche niedriger ist, sollten sich nicht ändern (in Übereinstimmung mit der Anforderung der Invarianz der Schlussfolgerungen, die als Hauptanforderung in TI angenommen wurde). Formulieren wir das entsprechende mathematische Problem der Formfindung von Mittelwerten, deren Vergleichsergebnis gegenüber zulässigen Skalentransformationen stabil ist.

Sei F(X 1 X 2 ,..., X n) der Cauchy-Mittelwert. Der Durchschnitt der ersten Population sei kleiner als der Durchschnitt der zweiten Population: Dann ist es nach TI für die Stabilität des Ergebnisses des Vergleichs der Mittelwerte erforderlich, dass für jede zulässige Transformation g aus der Gruppe der zulässigen Transformationen gilt in der entsprechenden Skala ist es richtig, dass der Durchschnitt der transformierten Werte aus der ersten Grundgesamtheit auch kleiner war als der Durchschnitt der transformierten Werte für die zweite Menge. Außerdem muss die formulierte Bedingung für zwei beliebige Sammlungen Y 1 , Y 2 , ..., Y n und Z 1 , Z 2 , ..., Z n und, man erinnere sich, jede zulässige Transformation wahr sein. Mittelwerte, die die formulierte Bedingung erfüllen, werden als zulässig bezeichnet (in der entsprechenden Skala). Laut TI können nur solche Mittelwerte bei der Analyse von Gutachten und anderen Daten verwendet werden, die in der betrachteten Skala gemessen wurden.

Mit Hilfe der in den 1970er Jahren entwickelten mathematischen Theorie ist es möglich, die Form der zulässigen Mittel in den Hauptskalen zu beschreiben. Es ist klar, dass für Daten, die in der Namenskala gemessen werden, nur der Modus als Durchschnitt geeignet ist.

18. Durchschnittswerte in einer Ordinalskala

Betrachten wir die Verarbeitung von Expertenmeinungen gemessen an einer Ordinalskala. Die folgende Behauptung ist wahr.

Satz1 . Von allen Cauchy-Mittelwerten sind nur die Mitglieder der Variationsreihe (Ordnungsstatistik) akzeptable Mittelwerte in der Ordinalskala.

Satz 1 gilt unter der Bedingung, dass der Mittelwert Ä(Õ 1 Õ 2 ,..., Õ n) stetig (über die Gesamtheit der Variablen) und eine symmetrische Funktion ist. Letzteres bedeutet, dass sich beim Umordnen der Argumente der Wert der Funktion Ä(X 1 X 2 ,..., X n) nicht ändert. Diese Bedingung ist ganz natürlich, weil wir den Mittelwert für die Gesamtheit (Menge) und nicht für die Folge finden. Die Menge ändert sich nicht in Abhängigkeit von der Reihenfolge, in der wir ihre Elemente auflisten.

Nach Theorem 1 kann man bei ordinal gemessenen Daten insbesondere den Median als Mittelwert (bei ungeradem Stichprobenumfang) verwenden. Bei einem geraden Volumen sollte eines der beiden zentralen Mitglieder der Variationsreihe verwendet werden - wie sie manchmal genannt werden, der linke Median oder der rechte Median. Mode kann auch verwendet werden - es ist immer ein Mitglied der Variationsreihe. Aber Sie können niemals das arithmetische Mittel, das geometrische Mittel usw. berechnen.

Der folgende Satz ist wahr.

Satz 2. Seien Y 1 , Y 2 , ..., Y m unabhängige identisch verteilte Zufallsvariablen mit der Verteilungsfunktion F(x) und Z 1 , Z 2 , ..., Z n unabhängige identisch verteilte Zufallsvariablen mit der Funktion Verteilung H(x), außerdem sind die Proben Y 1 , Y 2 , ..., Y m und Z 1 , Z 2 , ..., Z n unabhängig voneinander und MY X > MZ X . Damit die Wahrscheinlichkeit eines Ereignisses als min(m, n) für jede streng steigende stetige Funktion g, die die Bedingung |g i |>X erfüllt, gegen 1 geht, ist es notwendig und ausreichend, dass die Ungleichung F(x)< Н(х), причем существовало число х 0 , для которого F(x 0)

Notiz. Die obere Grenzbedingung ist rein intramathematisch. Tatsächlich ist die Funktion g eine beliebige gültige Transformation in der Ordnungsskala.

Nach Theorem 2 kann das arithmetische Mittel auch auf einer ordinalen Skala verwendet werden, wenn Stichproben aus zwei Verteilungen verglichen werden, die die im Theorem angegebene Ungleichung erfüllen. Vereinfacht gesagt muss immer eine der Verteilungsfunktionen über der anderen liegen. Verteilungsfunktionen können sich nicht schneiden, sie dürfen sich nur berühren. Diese Bedingung ist beispielsweise erfüllt, wenn sich die Verteilungsfunktionen nur in der Verschiebung unterscheiden:

F(x) = H(x + ∆)

für einige ∆.

Die letzte Bedingung ist erfüllt, wenn zwei Werte einer bestimmten Größe mit demselben Messgerät gemessen werden, bei dem sich die Fehlerverteilung beim Übergang von der Messung eines Werts der betrachteten Größe zur Messung eines anderen nicht ändert.

Kolmogorov-Durchschnitte

Eine Verallgemeinerung mehrerer der oben aufgeführten Durchschnittswerte ist der Kolmogorov-Durchschnitt. Für die Zahlen X 1, X 2, ..., X n wird der Kolmogorov-Mittelwert nach der Formel berechnet

G((F(X l) + F(X 2)+...F(X n))/n),

wobei F eine streng monotone Funktion ist (dh streng steigend oder streng fallend),

G ist die Umkehrfunktion von F.

Unter den Kolmogorov-Durchschnitten gibt es viele bekannte Charaktere. Also, wenn F(x) = x, dann ist das Kolmogorov-Mittel das arithmetische Mittel, wenn F(x) = lnx, dann das geometrische Mittel, wenn F(x) = 1/x, dann das harmonische Mittel, wenn F( x) \u003d x 2, dann das mittlere Quadrat usw. Der Kolmogorov-Mittelwert ist ein Spezialfall des Cauchy-Mittelwerts. Andererseits können beliebte Durchschnittswerte wie Median und Modus nicht als Kolmogorov-Durchschnittswerte dargestellt werden. Die folgenden Behauptungen werden in der Monographie bewiesen.

Satz3 . Wenn einige innermathematische Regularitätsbedingungen in der Intervallskala wahr sind, ist von allen Kolmogorov-Mittelwerten nur das arithmetische Mittel zulässig. Daher ist das geometrische Mittel oder der quadratische Mittelwert von Temperaturen (in Celsius) oder Entfernungen bedeutungslos. Als Mittelwert ist das arithmetische Mittel zu verwenden. Sie können auch den Median oder Modus verwenden.

Satz 4. Wenn einige innermathematische Regularitätsbedingungen in der Verhältnisskala zutreffen, sind von allen Kolmogorov-Mittelwerten nur Potenzgesetz-Mittelwerte mit F(x) = x c und geometrischem Mittelwert zulässig.

Kommentar. Das geometrische Mittel ist die Grenze der Potenzmittel für c > 0.

Gibt es Kolmogorov-Durchschnittswerte, die nicht in der Verhältnisskala verwendet werden sollten? Natürlich gibt es. Zum Beispiel F(x) = e x.

Ähnlich wie bei Durchschnittswerten können auch andere statistische Merkmale untersucht werden - Indikatoren für Verbreitung, Verbindung, Entfernung usw. Es ist zum Beispiel leicht zu zeigen, dass sich der Korrelationskoeffizient unter keiner zulässigen Transformation in der Schüssel von Intervallen ändert, wie das Verhältnis der Varianzen, die Varianz sich in der Skala der Differenzen nicht ändert, der Variationskoeffizient - in der Maßstab der Verhältnisse usw.

Die obigen Durchschnittsergebnisse werden häufig verwendet, nicht nur in den Wirtschaftswissenschaften, dem Management, der Theorie der Expertenbewertung oder der Soziologie, sondern auch in den Ingenieurwissenschaften, um beispielsweise die Methoden der Aggregation von Sensoren in APCS von Hochöfen zu analysieren. TI ist von großer praktischer Bedeutung bei Problemen der Standardisierung und des Qualitätsmanagements, insbesondere in der Qualimetrie, wo interessante theoretische Ergebnisse erzielt wurden. So führt beispielsweise jede Änderung der Gewichtungskoeffizienten einzelner Indikatoren der Produktqualität zu einer Änderung der Reihenfolge der Produkte nach dem gewichteten Durchschnitt (dieses Theorem wurde von Prof. V.V. Podinovsky bewiesen). Die obige Kurzinformation über TI und ihre Methoden verbindet daher in gewissem Sinne Wirtschafts-, Soziologie- und Ingenieurwissenschaften und ist somit ein adäquates Instrumentarium zur Lösung komplexester Probleme, die einer effektiven Analyse bisher nicht zugänglich waren. öffnet den Weg zum Aufbau realistischer Modelle und zur Lösung des Problems der Vorhersage.

22. Gepaarte lineare Regression

Wenden wir uns nun einer detaillierteren Untersuchung des einfachsten Falls einer paarweisen linearen Regression zu. Die lineare Regression wird durch den einfachsten funktionalen Zusammenhang in Form einer Geradengleichung beschrieben und zeichnet sich durch eine transparente Interpretation der Modellparameter (Gleichungskoeffizienten) aus. Die rechte Seite der Gleichung ermöglicht es Ihnen, die theoretischen (berechneten) Werte der resultierenden (erklärten) Variablen aus den gegebenen Werten des Regressors (erklärende Variable) zu erhalten. Diese Werte werden manchmal auch als prädiktiv (im gleichen Sinne) bezeichnet, d.h. aus theoretischen Formeln erhalten. Wenn man jedoch eine Hypothese über die Art der Abhängigkeit aufstellt, bleiben die Koeffizienten der Gleichung immer noch unbekannt. Im Allgemeinen ist es mit verschiedenen Methoden möglich, ungefähre Werte dieser Koeffizienten zu erhalten.

Die wichtigste und am weitesten verbreitete Methode ist jedoch die Methode der kleinsten Quadrate (LSM). Es basiert (wie bereits erläutert) auf der Forderung, die Summe der quadrierten Abweichungen der tatsächlichen Werte des resultierenden Merkmals von den berechneten (theoretischen) zu minimieren. Anstelle der theoretischen Werte (um sie zu erhalten) werden die rechten Seiten der Regressionsgleichung in die Summe der quadratischen Abweichungen eingesetzt und dann die partiellen Ableitungen dieser Funktion gefunden (die Summe der quadratischen Abweichungen der tatsächlichen Werte des effektiven Merkmals von den theoretischen). Diese partiellen Ableitungen werden nicht in Bezug auf die Variablen x und y genommen, sondern in Bezug auf die Parameter a und b. Partielle Ableitungen werden mit Null gleichgesetzt und nach einfachen, aber umständlichen Transformationen erhält man ein System von Normalgleichungen zur Bestimmung der Parameter. Koeffizient mit Variable x, d.h. b heißt Regressionskoeffizient, er zeigt die durchschnittliche Änderung des Ergebnisses bei einer Änderung des Faktors um eine Einheit. Der Parameter a hat möglicherweise keine wirtschaftliche Interpretation, insbesondere wenn das Vorzeichen dieses Koeffizienten negativ ist.

Zur Untersuchung der Verbrauchsfunktion wird eine paarweise lineare Regression verwendet. Zur Berechnung des Multiplikators wird der Regressionskoeffizient in der Verbrauchsfunktion verwendet. Fast immer wird die Regressionsgleichung mit einem Indikator für die Festigkeit der Verbindung ergänzt. Für den einfachsten Fall einer linearen Regression ist dieser Indikator für die Enge der Beziehung der lineare Korrelationskoeffizient. Da aber der lineare Korrelationskoeffizient die Nähe des Zusammenhangs von Merkmalen in linearer Form charakterisiert, dient die Nähe des Betrags des linearen Korrelationskoeffizienten zu Null noch nicht als Indikator für das Fehlen eines Zusammenhangs zwischen den Merkmalen.

Bei einer anderen Wahl der Modellspezifikation und damit der Art der Abhängigkeit kann die tatsächliche Beziehung ziemlich nahe an Eins liegen. Die Qualität der Auswahl einer linearen Funktion wird jedoch anhand des Quadrats des linearen Korrelationskoeffizienten - dem Bestimmtheitsmaß - bestimmt. Sie charakterisiert den durch Regression erklärten Anteil der Varianz des resultierenden Attributs y an der Gesamtvarianz des resultierenden Attributs. Der Wert, der das Bestimmtheitsmaß zu 1 ergänzt, charakterisiert den Anteil der Streuung, der durch den Einfluss anderer, im Modell nicht berücksichtigter Faktoren verursacht wird (Reststreuung).

Die Paarregression wird durch eine Beziehung zwischen zwei Variablen y und x der folgenden Form dargestellt:

wobei y die abhängige Variable (Ergebnismerkmal) und x die unabhängige Variable (erklärende Variable oder Merkmalsfaktor) ist. Es gibt lineare Regression und nichtlineare Regression. Die lineare Regression wird durch eine Gleichung der Form beschrieben:

y = a + bx + .

Die nichtlineare Regression wiederum kann in Bezug auf die in die Analyse einbezogenen erklärenden Variablen nichtlinear, in Bezug auf die geschätzten Parameter jedoch linear sein. Oder vielleicht ist die Regression in Bezug auf die geschätzten Parameter nicht linear. Als Beispiele für eine Regression, die nichtlinear in den erklärenden Variablen, aber linear in den geschätzten Parametern ist, können polynomiale Abhängigkeiten unterschiedlichen Grades (Polynome) und eine gleichseitige Hyperbel angegeben werden.

Die nichtlineare Regression durch die geschätzten Parameter ist ein Potenzgesetz in Bezug auf die Parameterabhängigkeit (der Parameter ist im Exponenten), die exponentielle Abhängigkeit, wenn der Parameter an der Basis des Grads liegt, und die exponentielle Abhängigkeit, wenn die gesamte lineare Abhängigkeit vorliegt steht ganz im Exponenten. Beachten Sie, dass in allen diesen drei Fällen die Zufallskomponente (zufälliger Rest)  als Faktor und nicht als Term auf der rechten Seite der Gleichung steht, d. h. multiplikativ! Die durchschnittliche Abweichung der berechneten Werte des resultierenden Merkmals von den tatsächlichen ist durch einen durchschnittlichen Näherungsfehler gekennzeichnet. Sie wird in Prozent ausgedrückt und sollte 7-8 % nicht überschreiten. Dieser durchschnittliche Näherungsfehler wird einfach als Prozentsatz des Durchschnitts der relativen Werte der Differenzen zwischen tatsächlichen und berechneten Werten ausgedrückt.

Von großer Bedeutung ist der durchschnittliche Elastizitätskoeffizient, der als wichtiges Merkmal vieler wirtschaftlicher Phänomene und Prozesse dient. Sie errechnet sich als Produkt des Werts der Ableitung dieser funktionalen Abhängigkeit durch das Verhältnis des Mittelwerts x zum Mittelwert y. Der Elastizitätskoeffizient gibt an, um wie viel Prozent sich das Ergebnis y im Durchschnitt von seinem Mittelwert ändert, wenn sich der Faktor x um 1 % von seinem (Faktor x) Mittelwert ändert.

Bei der gepaarten Regression und bei der multiplen Regression (bei vielen Faktoren) und bei der Residualvarianz sind die Aufgaben der Varianzanalyse eng miteinander verbunden. Die Varianzanalyse untersucht die Varianz der abhängigen Variablen. In diesem Fall wird die Gesamtsumme der quadrierten Abweichungen in zwei Teile geteilt. Der erste Term ist die Summe der quadratischen Abweichungen aufgrund von Regression oder erklärt (faktoriell). Der zweite Term ist die Residuensumme der quadrierten Abweichungen, die nicht durch faktorielle Regression erklärt werden.

Der Anteil der durch die Regression erklärten Varianz an der Gesamtvarianz des resultierenden Merkmals y wird durch den Bestimmtheitsmaß (Index) der Bestimmtheit charakterisiert, der nichts anderes ist als das Verhältnis der Summe der quadrierten Abweichungen aufgrund der Regression zur Gesamtsumme von quadrierte Abweichungen (der erste Term zur gesamten Summe).

Wenn die Modellparameter (Koeffizienten von Unbekannten) unter Verwendung der Methode der kleinsten Quadrate bestimmt werden, dann werden im Wesentlichen einige Zufallsvariablen gefunden (beim Verfahren zum Erhalten von Schätzungen). Von besonderer Bedeutung ist die Schätzung des Regressionskoeffizienten, der eine spezielle Form einer Zufallsvariablen darstellt. Die Eigenschaften dieser Zufallsvariablen hängen von den Eigenschaften des Restterms in der Gleichung (im Modell) ab. Betrachten wir die erklärende Variable x als nicht zufällige exogene Variable für ein gepaartes lineares Regressionsmodell. Es bedeutet nur, dass die Werte der Variablen x in allen Beobachtungen als vorbestimmt angesehen werden können und nichts mit der untersuchten Abhängigkeit zu tun haben. Der tatsächliche Wert der erklärten Größe besteht also aus zwei Komponenten: einer Nicht-Zufallskomponente und einer Zufallskomponente (Restterm).

Andererseits ist der durch die Methode der kleinsten Quadrate (OLS) bestimmte Regressionskoeffizient gleich dem Quotienten aus der Division der Kovarianz der x- und y-Variablen durch die Varianz der x-Variablen. Daher enthält es auch eine zufällige Komponente. Schließlich hängt die Kovarianz von den Werten der Variablen y ab, wobei die Werte der Variablen y von den Werten des zufälligen Restterms  abhängen. Außerdem lässt sich leicht zeigen, dass die Kovarianz der Variablen x und y gleich dem Produkt aus dem geschätzten Regressionskoeffizienten Beta () und der Varianz der Variablen x ist, addiert zur Kovarianz der Variablen x und . Somit ist die Schätzung des Beta-Regressionskoeffizienten gleich diesem unbekannten Regressionskoeffizienten selbst, addiert zum Quotienten aus der Division der Kovarianz der Variablen x und  durch die Varianz der Variablen x. Jene. Die Schätzung des Regressionskoeffizienten b, die aus einer beliebigen Stichprobe erhalten wird, wird als Summe zweier Terme dargestellt: einem konstanten Wert, der dem wahren Wert des Koeffizienten  (Beta) entspricht, und einer Zufallskomponente, die von der Kovarianz der Variablen x abhängt und .

23. Mathematische Bedingungen von Gauß-Markov und ihre Anwendung.

Damit eine Regressionsanalyse auf Basis der gewöhnlichen kleinsten Quadrate die besten Ergebnisse liefert, muss der Zufallsterm die vier Gauß-Markov-Bedingungen erfüllen.

Die mathematische Erwartung des Zufallsterms ist Null, d.h. es ist unvoreingenommen. Wenn die Regressionsgleichung einen konstanten Term enthält, ist es selbstverständlich, eine solche Anforderung als erfüllt zu betrachten, da dies ein konstanter Term ist und jeden systematischen Trend in den Werten der Variablen y berücksichtigen muss, was im Gegenteil sollte die erklärenden Variablen der Regressionsgleichung nicht enthalten.

Die Varianz des Zufallsterms ist für alle Beobachtungen konstant.

Die Kovarianz der Werte der Zufallsvariablen, die die Stichprobe bilden, muss gleich Null sein, d.h. Es gibt keine systematische Beziehung zwischen den Werten des Zufallsterms in zwei beliebigen spezifischen Beobachtungen. Zufällige Mitglieder müssen voneinander unabhängig sein.

Das Verteilungsgesetz des Zufallsterms muss unabhängig von den erklärenden Variablen sein.

Darüber hinaus sind in vielen Anwendungen die erklärenden Variablen nicht stochastisch; keine zufällige Komponente haben. Der Wert jeder unabhängigen Variablen in jeder Beobachtung sollte als exogen angesehen werden und vollständig durch externe Ursachen bestimmt werden, die in der Regressionsgleichung nicht berücksichtigt werden.

Zusammen mit den angegebenen Gauß-Markov-Bedingungen wird auch angenommen, dass der Zufallsterm normalverteilt ist. Es gilt unter sehr weiten Bedingungen und basiert auf dem sogenannten zentralen Grenzwertsatz (CLT). Der Kern dieses Theorems besteht darin, dass, wenn eine Zufallsvariable das allgemeine Ergebnis der Interaktion einer großen Anzahl anderer Zufallsvariablen ist, von denen keine einen vorherrschenden Einfluss auf das Verhalten dieses allgemeinen Ergebnisses hat, dann eine solche resultierende Zufallsvariable sein wird durch eine näherungsweise Normalverteilung beschrieben. Diese Nähe zur Normalverteilung ermöglicht es uns, die Normalverteilung und gewissermaßen ihre Verallgemeinerung, die Student-Verteilung, zu verwenden, die sich von der Normalverteilung hauptsächlich an den sogenannten „Schwänzen“, d.h. für kleine Werte der Stichprobengröße. Wichtig ist auch, dass bei einer Normalverteilung des Zufallsterms auch die Regressionskoeffizienten nach dem Normalgesetz verteilt werden.

Die aufgestellte Regressionskurve (Regressionsgleichung) ermöglicht die Lösung des Problems der sogenannten Punktprognose. Bei solchen Berechnungen wird ein Wert von x außerhalb des untersuchten Beobachtungsintervalls genommen und auf der rechten Seite der Regressionsgleichung eingesetzt (Extrapolationsverfahren). weil Schätzwerte für die Regressionskoeffizienten bereits bekannt sind, ist es möglich, den Wert der erklärten Variablen y zu berechnen, der dem genommenen Wert von x entspricht. Natürlich wird gemäß der Bedeutung von Vorhersage (Prognose) nach vorne (in den Bereich zukünftiger Werte) gerechnet.

Da die Koeffizienten jedoch mit einem gewissen Fehler ermittelt wurden, interessiert nicht die Punktschätzung (Punktprognose) für das effektive Merkmal, sondern die Kenntnis der Grenzen, innerhalb derer die Werte des produktiven Merkmals dem entsprechen der genommene Wert des Faktors x wird mit einer gewissen Wahrscheinlichkeit liegen.

Dazu wird der Wert des Standardfehlers (Standardabweichung) berechnet. Sie kann im Geiste des eben Gesagten wie folgt erhalten werden. Der Ausdruck des freien Terms a aus den Schätzungen in Form von Durchschnittswerten wird in die lineare Regressionsgleichung eingesetzt. Dann zeigt sich, dass der Standardfehler vom Fehler des Mittelwerts des resultierenden Faktors y und additiv vom Fehler des Regressionskoeffizienten b abhängt. Das Quadrat dieses Standardfehlers ist einfach gleich der Summe des quadratischen Fehlers des Mittelwerts y und des Produkts des quadratischen Fehlers des Regressionskoeffizienten mal dem Quadrat der Abweichung des Faktors x und seines Mittelwerts. Ferner ist der erste Term nach den Gesetzen der Statistik gleich dem Quotienten aus der Division der Varianz der Allgemeinbevölkerung durch die Größe (Volumen) der Stichprobe.

Anstelle der unbekannten Varianz wird die Stichprobenvarianz als Schätzwert verwendet. Dementsprechend ist der Fehler des Regressionskoeffizienten definiert als der Quotient aus der Division der Stichprobenvarianz durch die Varianz des x-Faktors. Sie können den Wert des Standardfehlers (Standardabweichung) und andere Überlegungen erhalten, unabhängiger vom linearen Regressionsmodell. Dazu werden die Konzepte des durchschnittlichen Fehlers und des Grenzfehlers und die Beziehung zwischen ihnen verwendet.

Aber auch nach Erhalt des Standardfehlers bleibt die Frage nach den Grenzen, innerhalb derer der vorhergesagte Wert liegen wird. Mit anderen Worten, über das Intervall des Messfehlers, in der natürlichen Annahme in vielen Fällen, dass die Mitte dieses Intervalls durch den berechneten (durchschnittlichen) Wert des effektiven Faktors y gegeben ist. Hier hilft der zentrale Grenzwertsatz, der nur angibt, mit welcher Wahrscheinlichkeit der unbekannte Wert innerhalb dieses Konfidenzintervalls liegt.

Im Wesentlichen charakterisiert die Standardfehlerformel, unabhängig davon, wie und in welcher Form sie erhalten wird, den Fehler in der Position der Regressionsgeraden. Der Wert des Standardfehlers erreicht ein Minimum, wenn der Wert des Faktors x mit dem Mittelwert des Faktors übereinstimmt.

24. Statistische Prüfung von Hypothesen und Bewertung der Signifikanz der linearen Regression nach dem Fisher-Kriterium.

Nachdem die lineare Regressionsgleichung gefunden wurde, wird die Signifikanz sowohl der Gleichung als Ganzes als auch ihrer einzelnen Parameter bewertet. Die Beurteilung der Signifikanz der Regressionsgleichung als Ganzes kann anhand verschiedener Kriterien erfolgen. Die Verwendung des F-Kriteriums von Fisher ist weit verbreitet und effektiv. In diesem Fall wird die Nullhypothese H o aufgestellt, dass der Regressionskoeffizient gleich Null ist, d. h. b=0, also hat der Faktor x keinen Einfluss auf das Ergebnis y. Der direkten Berechnung des F-Kriteriums geht eine Varianzanalyse voraus. Den zentralen Platz darin nimmt die Zerlegung der Gesamtsumme der quadrierten Abweichungen der Variablen y vom Mittelwert von y in zwei Teile ein - "erklärt" und "ungeklärt":

Die Gesamtsumme der quadrierten Abweichungen der Einzelwerte des effektiven Merkmals y vom Mittelwert y wird durch den Einfluss vieler Faktoren verursacht.

Wir unterteilen den gesamten Ursachensatz bedingt in zwei Gruppen: den untersuchten Faktor x und andere Faktoren. Wenn der Faktor das Ergebnis nicht beeinflusst, verläuft die Regressionslinie im Diagramm parallel zur x-Achse und y=y. Dann ist die gesamte Streuung des resultierenden Attributs auf den Einfluss anderer Faktoren zurückzuführen und die Gesamtsumme der quadrierten Abweichungen stimmt mit dem Residuum überein. Wenn andere Faktoren das Ergebnis nicht beeinflussen, steht y in funktionalem Zusammenhang mit x und die Residuensumme der Quadrate ist null. In diesem Fall ist die Summe der quadrierten Abweichungen, die durch die Regression erklärt werden, gleich der Summe der Quadrate. Da nicht alle Punkte des Korrelationsfeldes auf der Regressionsgeraden liegen, erfolgt deren Streuung immer durch den Einfluss des Faktors x, d.h. Regression von y auf x, und verursacht durch die Wirkung anderer Ursachen (unerklärte Variation). Die Eignung der Regressionsgerade zur Vorhersage hängt davon ab, wie viel der Gesamtvariation des Merkmals y auf die erklärte Variation entfällt.

Wenn die Summe der quadrierten Abweichungen aufgrund der Regression größer ist als die Residualsumme der Quadrate, dann ist die Regressionsgleichung offensichtlich statistisch signifikant und der x-Faktor hat einen signifikanten Einfluss auf das Ergebnis. Dies ist gleichbedeutend damit, dass sich das Bestimmtheitsmaß der Eins nähert. Jede Summe quadrierter Abweichungen hängt mit der Anzahl der Freiheitsgrade zusammen, d.h. die Zahl der Freiheit der unabhängigen Variation eines Merkmals. Die Zahl der Freiheitsgrade hängt mit der Zahl der Einheiten der Grundgesamtheit bzw. mit der Zahl der daraus bestimmten Konstanten zusammen. In Bezug auf das zu untersuchende Problem sollte die Anzahl der Freiheitsgrade zeigen, wie viele unabhängige Abweichungen von n möglichen [(y 1 - y), (y 2 - y), ... (y n - y)] erforderlich sind um eine gegebene Summe von Quadraten zu bilden. Für die Gesamtsumme der Quadrate ∑(y-y cf) 2, (n-1) sind also unabhängige Abweichungen erforderlich, da in einer Population von n Einheiten kann nach Berechnung des Durchschnittsniveaus nur (n-1) die Anzahl der Abweichungen frei variieren. Bei der Berechnung der erklärten oder faktoriellen Summe der Quadrate ∑(y-y cf) 2 werden die theoretischen (berechneten) Werte des effektiven Merkmals y* entlang der Regressionslinie verwendet: y(x)=a+bx.

Kehren wir nun zur Erweiterung der Gesamtsumme der quadrierten Abweichungen des Effektivfaktors vom Mittelwert dieses Wertes zurück. Diese Summe enthält zwei bereits oben definierte Teile: die Summe der quadratischen Abweichungen, die durch die Regression erklärt wird, und eine andere Summe, die als Residualsumme der quadratischen Abweichungen bezeichnet wird. Diese Zerlegung hängt mit der Varianzanalyse zusammen, die direkt die grundlegende Frage beantwortet: Wie bewertet man die Signifikanz der Regressionsgleichung als Ganzes und ihrer einzelnen Parameter? Sie bestimmt auch weitgehend die Bedeutung dieser Frage. Zur Beurteilung der Signifikanz der Regressionsgleichung als Ganzes wird das Fisher-Kriterium (F-Kriterium) verwendet. Gemäß dem von Fisher vorgeschlagenen Ansatz wird eine Nullhypothese aufgestellt: Der Regressionskoeffizient ist gleich Null, d. h. Wert b=0. Das bedeutet, dass der Faktor X keinen Einfluss auf das Ergebnis Y hat.

Denken Sie daran, dass die als Ergebnis einer statistischen Studie erhaltenen Punkte fast immer nicht genau auf der Regressionslinie liegen. Sie sind verstreut und mehr oder weniger weit von der Regressionslinie entfernt. Diese Streuung ist auf den Einfluss anderer Faktoren als des erklärenden Faktors X zurückzuführen, die in der Regressionsgleichung nicht berücksichtigt werden. Bei der Berechnung der erklärten oder faktoriellen Summe der quadratischen Abweichungen werden die theoretischen Werte des resultierenden Merkmals entlang der Regressionslinie verwendet.

Für einen gegebenen Satz von Werten der Variablen Y und X ist der berechnete Wert des Durchschnittswerts von Y in der linearen Regression eine Funktion von nur einem Parameter - dem Regressionskoeffizienten. Dementsprechend hat die faktorielle Summe der quadratischen Abweichungen die Anzahl der Freiheitsgrade gleich 1. Und die Anzahl der Freiheitsgrade der Residuensumme der quadratischen Abweichungen in der linearen Regression ist n-2.

Wenn wir daher jede Summe der quadrierten Abweichungen in der ursprünglichen Zerlegung durch die Anzahl der Freiheitsgrade dividieren, erhalten wir die durchschnittlichen quadratischen Abweichungen (Streuung pro Freiheitsgrad). Dividiert man ferner die faktorielle Varianz um einen Freiheitsgrad durch die Residualvarianz um einen Freiheitsgrad, so erhält man ein Kriterium zur Prüfung der Nullhypothese, die sogenannte F-Relation oder das gleichnamige Kriterium. Wenn nämlich die Nullhypothese wahr ist, erweisen sich die faktorielle und die verbleibende Varianz einfach als gleich groß.

Die Nullhypothese abzulehnen, d.h. Akzeptiert man die entgegengesetzte Hypothese, die die Tatsache der Signifikanz (Vorhandenheit) der untersuchten Abhängigkeit ausdrückt, und nicht nur ein zufälliges Zusammentreffen von Faktoren, die eine Abhängigkeit simulieren, die nicht wirklich existiert, ist es notwendig, Tabellen mit kritischen Werten von zu verwenden das angegebene Verhältnis. Die Tabellen bestimmen den kritischen (Schwellen-)Wert des Fisher-Kriteriums. Nennt sich auch theoretisch. Anschließend wird durch Vergleich mit dem entsprechenden empirischen (Ist-)Wert des aus den Beobachtungsdaten berechneten Kriteriums überprüft, ob der Ist-Wert des Verhältnisses den kritischen Wert aus den Tabellen überschreitet.

Genauer gesagt wird dies wie folgt durchgeführt. Es wird eine vorgegebene Wahrscheinlichkeit für das Vorliegen einer Nullhypothese gewählt und aus den Tabellen der kritische Wert des F-Kriteriums ermittelt, bei dem noch eine zufällige Divergenz der Varianzen um 1 Freiheitsgrad auftreten kann, d.h. der maximale derartige Wert. Dann wird der errechnete Wert des Verhältnisses F- als zuverlässig anerkannt (d. h. der die Differenz zwischen der tatsächlichen und der verbleibenden Abweichung ausdrückt), wenn dieses Verhältnis größer als das tabellarische ist. Dann wird die Nullhypothese verworfen (es stimmt nicht, dass es keine Anzeichen für einen Zusammenhang gibt) und wir kommen im Gegenteil zu dem Schluss, dass ein Zusammenhang besteht und signifikant ist (es ist nicht zufällig, signifikant).

Wenn der Wert des Verhältnisses kleiner als der Tabellenwert ist, dann ist die Wahrscheinlichkeit der Nullhypothese höher als das festgelegte (zu Beginn gewählte) Niveau und die Nullhypothese kann nicht verworfen werden, ohne dass eine erkennbare Gefahr besteht, eine falsche Schlussfolgerung darüber zu ziehen Vorhandensein einer Verbindung. Dementsprechend wird die Regressionsgleichung als unbedeutend betrachtet.

Der eigentliche Wert des F-Kriteriums ist mit dem Bestimmtheitsmaß verbunden. Neben der Bewertung der Signifikanz der Regressionsgleichung als Ganzes wird auch die Signifikanz einzelner Parameter der Regressionsgleichung bewertet. Gleichzeitig wird der Standardfehler des Regressionskoeffizienten anhand der empirischen tatsächlichen Standardabweichung und der empirischen Varianz pro Freiheitsgrad bestimmt. Danach wird die Student-Verteilung verwendet, um die Signifikanz des Regressionskoeffizienten für die Berechnung seiner Konfidenzintervalle zu testen.

Die Bewertung der Signifikanz der Regressions- und Korrelationskoeffizienten mit dem Student-t-Test erfolgt durch Vergleich der Werte dieser Werte und des Standardfehlers. Der Fehlerwert der linearen Regressionsparameter und des Korrelationskoeffizienten wird durch die folgenden Formeln bestimmt:

wobei S der quadratische Mittelwert der verbleibenden Stichprobenabweichung ist,

r xy ist der Korrelationskoeffizient.

Dementsprechend wird der Wert des von der Regressionslinie vorhergesagten Standardfehlers durch die Formel angegeben:

Die entsprechenden Verhältnisse der Werte der Werte der Regressions- und Korrelationskoeffizienten zu ihren Standardfehlern bilden die sogenannte t-Statistik und machen einen Vergleich des entsprechenden tabellarischen (kritischen) Werts daraus und seines tatsächlichen Werts Es ist möglich, die Nullhypothese anzunehmen oder abzulehnen. Um das Konfidenzintervall zu berechnen, wird der Grenzfehler für jeden Indikator als Produkt des Tabellenwerts der Statistik t und des durchschnittlichen Zufallsfehlers des entsprechenden Indikators ermittelt. Tatsächlich haben wir es auf etwas andere Weise oben geschrieben. Dann werden die Grenzen der Konfidenzintervalle erhalten: Die untere Grenze wird von den entsprechenden Koeffizienten (eigentlich durchschnittlich) des entsprechenden Grenzfehlers subtrahiert und die obere Grenze wird hinzugefügt (addiert).

In der linearen Regression ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2 . Dies lässt sich leicht anhand der Formel für den linearen Korrelationskoeffizienten überprüfen: r 2 xy \u003d b 2 * σ 2 x / σ 2 y

wobei σ 2 y die Gesamtvarianz des Attributs y ist;

σ 2 x - die Varianz des Attributs y aufgrund des Faktors x. Dementsprechend ist die Summe der quadratischen Abweichungen aufgrund der linearen Regression:

∑(y x -y cf) 2 =b 2 ∑(x-x cf) 2 .

Da bei einer gegebenen Anzahl von Beobachtungen in x und y die faktorielle Summe der Quadrate bei der linearen Regression nur von einer Konstanten des Regressionskoeffizienten b abhängt, hat diese Summe der Quadrate einen Freiheitsgrad. Betrachten Sie die Inhaltsseite des berechneten Werts des Attributs y, d. h. bei x. Der Wert von y x wird durch die lineare Regressionsgleichung bestimmt: y x ​​​​\u003d a + bx.

Der Parameter a kann als a=y-bx definiert werden. Setzen wir den Ausdruck für den Parameter a in das lineare Modell ein, erhalten wir: y x ​​​​=y-bx+bx cp =y-b(x-x cf).

Mit einem gegebenen Satz von Variablen y und x ist der berechnete Wert y x in der linearen Regression eine Funktion von nur einem Parameter - dem Regressionskoeffizienten. Dementsprechend hat die Fakultätssumme der quadratischen Abweichungen eine Anzahl von Freiheitsgraden gleich 1.

Die Anzahl der Freiheitsgrade der Gesamt-, Fakultäts- und Residuenquadratsummen ist gleich. Die Anzahl der Freiheitsgrade der Summe der Quadrate der Residuen in der linearen Regression ist (n-2). Die Anzahl der Freiheitsgrade für die Gesamtsumme der Quadrate wird durch die Anzahl der Einheiten bestimmt, und da wir den aus den Stichprobendaten berechneten Durchschnitt verwenden, verlieren wir einen Freiheitsgrad, d. h. (n-1). Wir haben also zwei Gleichheiten: für die Summen und für die Anzahl der Freiheitsgrade. Und das wiederum bringt uns zurück zu vergleichbaren Streuungen pro Freiheitsgrad, deren Verhältnis das Fisher-Kriterium ergibt.

25. Abschätzung der Signifikanz einzelner Parameter der Regressionsgleichung und Koeffizienten nach Student's Kriterium.

27. Lineare und nichtlineare Regression und Methoden ihrer Untersuchung.

Die lineare Regression und die Methoden zu ihrer Untersuchung und Bewertung wären nicht so wichtig, wenn wir sie nicht zusätzlich zu diesem sehr wichtigen, aber immer noch einfachsten Fall verwenden würden, um ein Werkzeug zur Analyse komplexerer nichtlinearer Abhängigkeiten zu erhalten. Nichtlineare Regressionen können in zwei grundsätzlich verschiedene Klassen eingeteilt werden. Die erste und einfachere ist die Klasse der nichtlinearen Abhängigkeiten, bei denen bezüglich der erklärenden Variablen eine Nichtlinearität besteht, die jedoch bezüglich der darin enthaltenen und zu schätzenden Parameter linear bleiben. Dazu gehören Polynome unterschiedlichen Grades und eine gleichseitige Hyperbel.

Eine solche nichtlineare Regression für die in die Erklärung einbezogenen Variablen durch eine einfache Transformation (Ersetzung) von Variablen lässt sich leicht auf die übliche lineare Regression für neue Variablen zurückführen. Daher erfolgt die Schätzung der Parameter in diesem Fall einfach nach der Methode der kleinsten Quadrate, da die Abhängigkeiten in den Parametern linear sind. Eine wichtige Rolle in der Wirtschaft spielt daher eine nichtlineare Abhängigkeit, die durch eine gleichseitige Übertreibung beschrieben wird:

Seine Parameter werden vom MNC gut geschätzt, und diese Abhängigkeit selbst charakterisiert das Verhältnis der Einheitskosten von Rohstoffen, Brennstoffen, Materialien mit dem Produktionsvolumen, der Zeit des Warenumlaufs und all diesen Faktoren mit dem Wert des Umsatzes . Beispielsweise charakterisiert die Phillips-Kurve den nichtlinearen Zusammenhang zwischen der Arbeitslosenquote und dem Prozentsatz des Lohnwachstums.

Ganz anders verhält es sich bei einer hinsichtlich der geschätzten Parameter nichtlinearen Regression, beispielsweise repräsentiert durch eine Potenzfunktion, bei der der Grad selbst (ihr Indikator) ein Parameter ist bzw. von dem Parameter abhängt. Es kann auch eine Exponentialfunktion sein, bei der die Gradbasis ein Parameter ist, und eine Exponentialfunktion, bei der der Exponent wiederum einen Parameter oder eine Kombination von Parametern enthält. Diese Klasse wiederum ist in zwei Unterklassen unterteilt: Die eine umfasst extern nichtlinear, aber im Wesentlichen intern linear. In diesem Fall können Sie das Modell durch Transformationen in eine lineare Form bringen. Wenn das Modell jedoch intrinsisch nichtlinear ist, kann es nicht auf eine lineare Funktion reduziert werden.

Daher werden nur Modelle, die intrinsisch nichtlinear sind, in der Regressionsanalyse als wirklich nichtlinear betrachtet. Alle anderen, die durch Transformationen auf linear reduziert werden, werden nicht als solche betrachtet und werden am häufigsten in ökonometrischen Studien berücksichtigt. Dies bedeutet jedoch nicht, dass im Wesentlichen nichtlineare Abhängigkeiten nicht in der Ökonometrie untersucht werden können. Ist das Modell parameterintern nichtlinear, so werden iterative Verfahren zur Schätzung der Parameter eingesetzt, deren Erfolg von der Form der Singularitätsgleichung des angewandten iterativen Verfahrens abhängt.

Kehren wir zu den auf lineare reduzierten Abhängigkeiten zurück. Wenn sie sowohl in Bezug auf Parameter als auch auf Variablen nicht linear sind, beispielsweise in der Form y \u003d a multipliziert mit der Potenz von X, deren Indikator der Parameter ist -  (beta):

Offensichtlich lässt sich ein solches Verhältnis leicht durch einen einfachen Logarithmus in eine lineare Gleichung umwandeln.

Nach Einführung neuer Variablen, die Logarithmen bezeichnen, wird eine lineare Gleichung erhalten. Dann besteht das Verfahren der Regressionsschätzung darin, neue Variablen für jede Beobachtung zu berechnen, indem die ursprünglichen Werte logarithmiert werden. Dann wird die Regressionsabhängigkeit der neuen Variablen geschätzt. Um zu den ursprünglichen Variablen zu gelangen, sollte man den Antilogarithmus nehmen, also tatsächlich zu den Potenzen selbst zurückkehren, anstatt zu ihren Exponenten (schließlich ist der Logarithmus der Exponent). Der Fall von Exponential- oder Exponentialfunktionen kann ähnlich betrachtet werden.

Für eine im Wesentlichen nichtlineare Regression kann das übliche Regressionsschätzverfahren nicht verwendet werden, da die entsprechende Abhängigkeit nicht in eine lineare umgerechnet werden kann. Das allgemeine Aktionsschema in diesem Fall ist wie folgt:

1. Einige plausible Anfangsparameterwerte werden akzeptiert;

2. Berechnen Sie die vorhergesagten Y-Werte aus den tatsächlichen X-Werten unter Verwendung dieser Parameterwerte;

3. Berechnen Sie die Residuen für alle Beobachtungen in der Stichprobe und dann die Summe der Quadrate der Residuen;

4. An einer oder mehreren Parameterschätzungen werden kleine Änderungen vorgenommen;

5. Neue vorhergesagte Y-Werte, Residuen und die Summe quadrierter Residuen werden berechnet;

6. Wenn die Summe der quadrierten Residuen kleiner ist als zuvor, dann sind die neuen Parameterschätzungen besser als die alten und sollten als neuer Ausgangspunkt verwendet werden;

7. Die Schritte 4, 5 und 6 werden erneut wiederholt, bis es nicht möglich ist, solche Änderungen in den Parameterschätzungen vorzunehmen, die zu einer Änderung in der Summe der Residuen von Quadraten führen würden;

8. Es wird geschlussfolgert, dass der Wert der Summe der Quadrate der Residuen minimiert ist und die endgültigen Schätzungen der Parameter Schätzungen nach der Methode der kleinsten Quadrate sind.

Unter den nichtlinearen Funktionen, die auf eine lineare Form reduziert werden können, ist die Exponentialfunktion in der Ökonometrie weit verbreitet. Der darin enthaltene Parameter b hat eine klare Interpretation, da er der Elastizitätskoeffizient ist. In Modellen, die in Bezug auf geschätzte Parameter nicht linear sind, aber auf eine lineare Form reduziert werden, wird LSM auf die transformierten Gleichungen angewendet. Die praktische Anwendung des Logarithmus und dementsprechend des Exponenten ist möglich, wenn das resultierende Merkmal keine negativen Werte hat. Bei der Untersuchung von Beziehungen zwischen Funktionen, die den Logarithmus der resultierenden Kennlinie verwenden, herrschen in der Ökonometrie Potenzgesetzabhängigkeiten (Angebots- und Nachfragekurven, Produktionsfunktionen, Entwicklungskurven zur Charakterisierung des Zusammenhangs zwischen der Arbeitsintensität von Produkten, dem Produktionsumfang, die Abhängigkeit des BNE vom Beschäftigungsniveau, Engel-Kurven).

28. Inverses Modell und seine Verwendung

Manchmal wird das sogenannte inverse Modell verwendet, das intern nichtlinear ist, in dem jedoch im Gegensatz zur gleichseitigen Hyperbel nicht die erklärende Variable transformiert wird, sondern das resultierende Merkmal Y. Daher stellt sich das inverse Modell heraus intern nichtlinear sein und die LLS-Anforderung für die tatsächlichen Werte des resultierenden Merkmals Y und für ihre Kehrwerte nicht erfüllt ist. Die Untersuchung der Korrelation für die nichtlineare Regression verdient besondere Aufmerksamkeit. Im allgemeinen Fall nimmt eine Parabel zweiten Grades sowie Polynome höherer Ordnung linearisiert die Form einer multiplen Regressionsgleichung an. Nimmt die bezüglich der zu erklärenden Größe nichtlineare Regressionsgleichung bei der Linearisierung die Form einer linearen Paar-Regressionsgleichung an, so kann zur Beurteilung der Enge des Zusammenhangs ein linearer Korrelationskoeffizient herangezogen werden.

Wenn die Transformation der Regressionsgleichung in eine lineare Form mit einer abhängigen Variablen (resultierendes Merkmal) verbunden ist, dann gibt der lineare Korrelationskoeffizient für die transformierten Merkmalswerte nur eine ungefähre Schätzung des Zusammenhangs und stimmt numerisch nicht mit der Korrelation überein Index. Zu beachten ist, dass bei der Berechnung des Korrelationsindex die Summen der quadrierten Abweichungen des effektiven Merkmals Y verwendet werden und nicht deren Logarithmen. Die Einschätzung der Signifikanz des Korrelationsindex erfolgt analog zur Einschätzung der Reliabilität (Signifikanz) des Korrelationskoeffizienten. Der Korrelationsindex selbst sowie der Bestimmungsindex werden verwendet, um die Signifikanz der gesamten nichtlinearen Regressionsgleichung durch den Fisher-F-Test zu testen.

Beachten Sie, dass die Möglichkeit, nichtlineare Modelle zu erstellen, sowohl durch Reduktion auf eine lineare Form als auch durch Verwendung nichtlinearer Regression, einerseits die Universalität der Regressionsanalyse erhöht. Andererseits erschwert es die Aufgaben des Forschers erheblich. Wenn wir uns auf die paarweise Regressionsanalyse beschränken, können wir Y- und X-Beobachtungen als Streudiagramm darstellen. Oft nähern sich mehrere verschiedene nichtlineare Funktionen den Beobachtungen an, wenn sie auf irgendeiner Kurve liegen. Aber im Fall einer multiplen Regressionsanalyse kann ein solcher Graph nicht erstellt werden.

Bei der Betrachtung alternativer Modelle mit gleicher Definition der abhängigen Variablen ist das Auswahlverfahren relativ einfach. Sie können die Regression basierend auf allen möglichen Funktionen auswerten, die Sie sich vorstellen können, und die Funktion auswählen, die die Änderungen in der abhängigen Variablen am besten erklärt. Es ist klar, dass, wenn eine lineare Funktion etwa 64 % der Varianz in y erklärt und eine hyperbolische 99,9 %, offensichtlich letztere gewählt werden sollte. Wenn jedoch verschiedene Modelle unterschiedliche Funktionsformen verwenden, wird das Problem der Modellauswahl viel komplizierter.

29. Verwendung des Box-Cox-Tests.

Allgemeiner gesagt ist die Wahl einfach, wenn alternative Modelle mit derselben Definition der abhängigen Variablen betrachtet werden. Es ist am sinnvollsten, die Regression basierend auf allen möglichen Funktionen auszuwerten und bei der Funktion anzuhalten, die die Änderungen in der abhängigen Variablen am besten erklärt. Misst das Bestimmtheitsmaß in einem Fall den durch die Regression erklärten Anteil der Varianz und im anderen Fall den durch die Regression erklärten Anteil der Varianz des Logarithmus dieser abhängigen Variablen, so ist die Wahl problemlos getroffen. Eine andere Sache ist, wenn diese Werte für die beiden Modelle sehr nahe beieinander liegen und das Auswahlproblem viel komplizierter wird.

Dann sollte das Standardverfahren in Form des Box-Cox-Tests angewendet werden. Wenn Sie nur Modelle vergleichen müssen, die den resultierenden Faktor und seinen Logarithmus als Variante der abhängigen Variablen verwenden, wird eine Variante des Zarembka-Tests verwendet. Es schlägt eine Y-Skalentransformation vor, die einen direkten Vergleich des mittleren quadratischen Fehlers (RMS) in linearen und logarithmischen Modellen ermöglicht. Das entsprechende Verfahren umfasst die folgenden Schritte:

    Das geometrische Mittel der Y-Werte in der Probe wird berechnet und fällt mit dem Exponenten des arithmetischen Mittels des Logarithmus von Y zusammen;

    Die Beobachtungen Y werden so neu berechnet, dass sie durch den im ersten Schritt erhaltenen Wert dividiert werden;

    Die Regression wird für ein lineares Modell unter Verwendung von skalierten Y-Werten anstelle der ursprünglichen Y-Werte und für ein logarithmisches Modell unter Verwendung des Logarithmus von skalierten Y-Werten geschätzt. Jetzt sind die SD-Werte für die beiden Regressionen vergleichbar und daher ein Modell mit eine kleinere Summe quadrierter Abweichungen liefert eine bessere Übereinstimmung mit der wahren Abhängigkeit der beobachteten Werte;

    Um zu überprüfen, ob eines der Modelle keine wesentlich bessere Anpassung liefert, können Sie das Produkt aus der halben Anzahl von Beobachtungen und dem Logarithmus des Verhältnisses der RMS-Werte in den skalierten Regressionen verwenden und dann den absoluten Wert von nehmen dieser Wert.

30. Konzepte der Interkorrelation und Multikollinearität von Faktoren.

34. Grundlagen des MNC und Gültigkeit seiner Anwendung.

Wenden wir uns nun den Grundlagen von LSM, der Gültigkeit seiner Anwendung (einschließlich Problemen der multiplen Regression) und den wichtigsten Eigenschaften von Schätzungen zu, die mit LSM erhalten werden. Beginnen wir damit, dass neben der analytischen Abhängigkeit auf der rechten Seite der Regressionsgleichung auch der Zufallsterm eine wichtige Rolle spielt. Diese Zufallskomponente ist eine nicht beobachtbare Größe. Die statistischen Tests von Regressionsparametern und Korrelationsmaßen selbst basieren auf nicht verifizierbaren Annahmen über die Verteilung dieser zufälligen Komponente der multiplen Regression. Diese Annahmen sind nur vorläufig. Erst nach Aufstellung der Regressionsgleichung wird geprüft, ob die Schätzungen zufällige Residuen (empirische Analoga der Zufallskomponente) der a priori angenommenen Eigenschaften aufweisen. Im Wesentlichen werden bei der Schätzung der Modellparameter die Differenzen zwischen den theoretischen und tatsächlichen Werten des resultierenden Merkmals berechnet, um die Zufallskomponente selbst zu bewerten. Es ist wichtig zu bedenken, dass dies nur eine selektive Realisierung des unbekannten Rests der gegebenen Gleichung ist.

Die aus dem Normalgleichungssystem erhaltenen Regressionskoeffizienten sind Stichprobenschätzungen der Stärke der Verbindung. Es ist klar, dass sie nur dann von praktischer Bedeutung sind, wenn sie unvoreingenommen sind. Erinnern Sie sich, dass in diesem Fall der Mittelwert der Residuen gleich Null ist, oder, was dasselbe ist, der Mittelwert der Schätzung gleich dem geschätzten Parameter selbst ist. Dann akkumulieren sich die Residuen nicht bei einer großen Anzahl von Stichprobenschätzungen, und der gefundene Regressionsparameter selbst kann als Durchschnitt einer großen Anzahl unverzerrter Schätzungen betrachtet werden.

Außerdem sollten Schätzungen die kleinste Varianz haben, d.h. effektiv sein, und dann wird es möglich, von praktisch ungeeigneten Punktschätzungen zu Intervallschätzungen überzugehen. Schließlich sind Konfidenzintervalle mit einem hohen Maß an Effizienz anwendbar, wenn die Wahrscheinlichkeit, eine Schätzung in einem bestimmten Abstand vom wahren (unbekannten) Wert eines Parameters zu erhalten, nahe bei eins liegt. Solche Schätzungen werden als konsistent bezeichnet, und die Konsistenzeigenschaft ist durch eine Zunahme ihrer Genauigkeit mit zunehmender Stichprobengröße gekennzeichnet.

Die Konsistenzbedingung ist jedoch nicht automatisch erfüllt und hängt wesentlich von der Erfüllung der folgenden beiden wichtigen Anforderungen ab. Erstens müssen die Residuen selbst stochastisch mit der ausgeprägtesten Zufälligkeit sein, d.h. alle explizit funktionalen Abhängigkeiten müssen in der analytischen Komponente der multiplen Regression enthalten sein, außerdem müssen die Werte der Residuen unabhängig voneinander für verschiedene Stichproben verteilt werden (keine Autokorrelation der Residuen). Die zweite, nicht weniger wichtige Anforderung ist, dass die Varianz jeder Abweichung (Residuum) für alle Werte der Variablen X gleich ist (Homoskedastizität). Jene. Homoskedastizität wird durch die Konstanz der Varianz für alle Beobachtungen ausgedrückt:

Im Gegensatz dazu besteht die Heteroskedastizität in der Verletzung dieser Varianzkonstanz für verschiedene Beobachtungen. In diesem Fall wird die a priori (vor Beobachtungen) Wahrscheinlichkeit, stark abweichende Werte mit unterschiedlichen theoretischen Verteilungen des Zufallsterms für verschiedene Beobachtungen in der Stichprobe zu erhalten, relativ hoch sein.

Die Autokorrelation von Residuen oder das Vorhandensein einer Korrelation zwischen den Residuen aktueller und früherer (späterer) Beobachtungen wird durch den Wert des üblichen linearen Korrelationskoeffizienten angezeigt. Wenn es sich signifikant von Null unterscheidet, sind die Residuen autokorreliert und daher hängt die W(Verteilung der Residuen) vom Beobachtungspunkt und von der Verteilung der Residuenwerte an anderen Beobachtungspunkten ab. Es ist bequem, die Autokorrelation der Residuen aus den verfügbaren statistischen Informationen bei Vorliegen einer Ordnung der Beobachtungen nach dem X-Faktor zu bestimmen.Das Fehlen einer Autokorrelation der Residuen stellt die Konsistenz und Effizienz der Schätzungen der Regressionskoeffizienten sicher.

35. Homoskedastizität und Heteroskedastizität, Autokorrelation von Residuen, verallgemeinerte Methode der kleinsten Quadrate (GMLS).

Die Gleichheit der Streuungen der Residuen für alle Werte der Variablen X, bzw. Homoskedastizität, ist ebenfalls unbedingt erforderlich, um konsistente Schätzungen der Regressionsparameter aus dem LSM zu erhalten. Die Nichterfüllung der Homoskedastizitätsbedingung führt zur sogenannten Heteroskedastizität. Dies kann zu Verzerrungen bei den Schätzungen der Regressionskoeffizienten führen. Heteroskedastizität wirkt sich hauptsächlich auf die Abnahme der Effizienz von Schätzungen von Regressionskoeffizienten aus. In diesem Fall wird es besonders schwierig, die Formel für den Standardfehler des Regressionskoeffizienten zu verwenden, bei deren Verwendung eine einzige Varianz der Residuen für beliebige Werte des Faktors angenommen wird. Die Unvoreingenommenheit der Schätzungen der Regressionskoeffizienten hängt in erster Linie von der Unabhängigkeit der Residuen und den Werten der Faktoren selbst ab.

Eine ziemlich visuelle, wenn auch nicht strenge und Geschicklichkeit erfordernde Methode zum Testen der Homoskedastizität ist eine grafische Untersuchung der Art der Abhängigkeit der Residuen von dem durchschnittlich berechneten (theoretischen) resultierenden Merkmal oder den entsprechenden Korrelationsfeldern. Analytische Methoden zur Untersuchung und Bewertung der Heteroskedastizität sind strenger. Bei einem signifikanten Vorhandensein von Heteroskedastizität ist es ratsam, die verallgemeinerten kleinsten Quadrate (GLS) anstelle der kleinsten Quadrate zu verwenden.

Neben den Anforderungen an die multiple Regression, die sich aus der Anwendung der kleinsten Quadrate ergeben, müssen auch die Bedingungen für die im Modell enthaltenen Variablen eingehalten werden. Dazu gehören zunächst die Anforderungen an die Anzahl der Modellfaktoren für eine gegebene Menge an Beobachtungen (1 bis 7). Andernfalls sind die Regressionsparameter statistisch nicht signifikant. Unter dem Gesichtspunkt der Wirksamkeit der Anwendung der entsprechenden numerischen Methoden bei der Durchführung der Methode der kleinsten Quadrate ist es erforderlich, dass die Anzahl der Beobachtungen die Anzahl der geschätzten Parameter (im Gleichungssystem die Anzahl der Gleichungen) übersteigt größer ist als die Anzahl der gesuchten Variablen).

Die bedeutendste Errungenschaft der Ökonometrie ist die signifikante Weiterentwicklung der Methoden zur Schätzung unbekannter Parameter selbst und die Verbesserung der Kriterien zur Identifizierung der statischen Signifikanz der betrachteten Effekte. In diesem Zusammenhang hat die Unmöglichkeit oder Unzweckmäßigkeit der Verwendung des traditionellen LSM aufgrund der sich bis zu einem gewissen Grad manifestierenden Heteroskedastizität zur Entwicklung eines verallgemeinerten LSM (GSM) geführt. Tatsächlich wird gleichzeitig das Modell korrigiert, seine Spezifikation geändert und die Ausgangsdaten transformiert, um die Unvoreingenommenheit, Effizienz und Konsistenz der Schätzungen der Regressionskoeffizienten sicherzustellen.

Es wird angenommen, dass der Mittelwert der Residuen gleich Null ist, aber ihre Varianz ist nicht mehr konstant, sondern proportional zu den Werten von K i , wobei diese Werte Proportionalitätskoeffizienten sind, die für verschiedene Werte unterschiedlich sind des x-Faktors. Somit sind es diese Koeffizienten (Ki-Werte), die die Heterogenität der Dispersion charakterisieren. Natürlich wird angenommen, dass der Wert der Streuung selbst, die ein gemeinsamer Faktor für diese Proportionalitätskoeffizienten ist, unbekannt ist.

Das ursprüngliche Modell bleibt nach Einführung dieser Koeffizienten in die multiple Regressionsgleichung weiterhin heteroskedastisch (genauer gesagt sind dies die Residuen des Modells). Diese Residuen (Residuen) seien nicht autokorreliert. Wir führen neue Variablen ein, die wir erhalten, indem wir die anfänglichen Modellvariablen, die als Ergebnis der i-ten Beobachtung festgelegt wurden, durch die Quadratwurzel der Proportionalitätskoeffizienten К i dividieren. Dann erhalten wir eine neue Gleichung in den transformierten Variablen, in der die Reste bereits homoskedastisch sind. Die neuen Variablen selbst sind gewichtete alte (ursprüngliche) Variablen.

Daher wird die Schätzung der Parameter der so erhaltenen neuen Gleichung mit homoskedastischen Residuen auf ein gewichtetes LSM (im Wesentlichen ist dies das GLS) reduziert. Anstelle der Regressionsvariablen selbst erhalten deren Abweichungen von den Mittelwerten des Ausdrucks für die Regressionskoeffizienten eine einfache und standardisierte (einheitliche) Form, leicht unterschiedlich für LSM und LMLS durch den Korrekturfaktor 1/K im Zähler und Nenner von der Bruch, der den Regressionskoeffizienten ergibt.

Dabei ist zu beachten, dass die Parameter des transformierten (korrigierten) Modells wesentlich davon abhängen, welches Konzept den Proportionalitätskoeffizienten К i zugrunde gelegt wird. Oft wird angenommen, dass die Residuen einfach proportional zu den Werten des Faktors sind. Das Modell nimmt die einfachste Form an, wenn die Hypothese angenommen wird, dass die Fehler proportional zu den Werten des letzten Faktors in der Reihenfolge sind. Dann erlaubt OLS, das Gewicht von Beobachtungen mit kleineren Werten der transformierten Variablen bei der Bestimmung der Regressionsparameter im Vergleich zur Arbeit des Standard-OLS mit den ursprünglichen Originalvariablen zu erhöhen. Aber diese neuen Variablen erhalten bereits einen anderen ökonomischen Inhalt.

Die Hypothese, dass die Residuen proportional zum Wert des Faktors sind, kann durchaus eine echte Berechtigung haben. Lassen Sie zum Beispiel einen nicht ausreichend homogenen Datensatz verarbeiten, der große und kleine Unternehmen gleichzeitig umfasst. Dann können große volumetrische Werte des Faktors sowohl einer großen Varianz des resultierenden Merkmals als auch einer großen Varianz der Residualwerte entsprechen. Darüber hinaus reduziert die Verwendung von GLS und der entsprechende Übergang zu relativen Werten nicht nur die Variation des Faktors, sondern verringert auch die Fehlervarianz. Somit wird der einfachste Fall der Berücksichtigung und Korrektur von Heteroskedastizität in Regressionsmodellen durch die Verwendung von GLS realisiert.

Der obige Ansatz zur Implementierung von OLS in Form eines gewichteten OLS ist durchaus praktikabel – er ist einfach implementiert und hat eine transparente wirtschaftliche Interpretation. Natürlich ist dies nicht der allgemeinste Ansatz, und im Zusammenhang mit der mathematischen Statistik, die als theoretische Grundlage der Ökonometrie dient, wird uns eine viel strengere Methode angeboten, die die GLS in der allgemeinsten Form umsetzt. Es muss die Kovarianzmatrix des Fehlervektors (Residuenspalte) kennen. Und das ist in praktischen Situationen normalerweise unfair, und es ist unmöglich, diese Matrix als solche zu finden. Daher muss man im Allgemeinen die erforderliche Matrix irgendwie schätzen, um eine solche Schätzung anstelle der Matrix selbst in den entsprechenden Formeln zu verwenden. Somit stellt die beschriebene Implementierung des GLS eine dieser Schätzungen dar. Es wird manchmal als zugängliche verallgemeinerte kleinste Quadrate bezeichnet.

Zu berücksichtigen ist auch, dass das Bestimmtheitsmaß bei Verwendung von GLS kein zufriedenstellendes Maß für die Passungsgüte sein kann. Um auf die Verwendung von GLS zurückzukommen, stellen wir auch fest, dass die Methode der Verwendung von Standardabweichungen (Standardfehlern) in der White-Form (die sogenannten konsistenten Standardfehler bei Vorhandensein von Heteroskedastizität) eine ausreichende Allgemeingültigkeit aufweist. Dieses Verfahren ist unter der Bedingung anwendbar, dass die Fehlervektor-Kovarianzmatrix diagonal ist. Wenn es eine Autokorrelation von Residuen (Fehlern) gibt, wenn Elemente ungleich Null (Koeffizienten) in der Kovarianzmatrix und außerhalb der Hauptdiagonale vorhanden sind, sollte eine allgemeinere Standardfehlermethode in der Nevie-West-Form verwendet werden. In diesem Fall gibt es eine erhebliche Einschränkung: Nicht-Null-Elemente befinden sich zusätzlich zur Hauptdiagonale nur auf benachbarten Diagonalen, die nicht mehr als einen bestimmten Betrag von der Hauptdiagonale entfernt sind.

Aus dem Gesagten wird deutlich, dass es notwendig ist, die Daten auf Heteroskedastizität überprüfen zu können. Dazu dienen die folgenden Tests. Sie testen die Haupthypothese über die Gleichheit der Varianzen der Residuen gegen die Alternativhypothese (über die Ungleichheit dieser Hypothesen). Darüber hinaus gibt es a priori strukturelle Beschränkungen für die Natur der Heteroskedastizität. Beim Goldfeld-Kuandt-Test wird in der Regel die Annahme einer direkten Abhängigkeit der Fehlervarianz (Residuum) vom Wert einer unabhängigen Variablen verwendet. Das Schema der Anwendung dieses Tests ist wie folgt. Zunächst werden die Daten absteigend nach der unabhängigen Variablen sortiert, für die Heteroskedastizität vermutet wird. Einige durchschnittliche Beobachtungen werden dann aus diesem geordneten Datensatz ausgeschlossen, wobei das Wort "wenige" etwa ein Viertel (25 %) der Gesamtzahl aller Beobachtungen bedeutet. Als nächstes werden zwei unabhängige Regressionen für die erste der verbleibenden (nach der Eliminierung) mittleren Beobachtungen und die letzten beiden dieser verbleibenden mittleren Beobachtungen durchgeführt. Danach werden zwei entsprechende Reste konstruiert. Schließlich wird die Fisher-F-Statistik erstellt, und wenn die untersuchte Hypothese wahr ist, dann ist F tatsächlich eine Fisher-Verteilung mit den entsprechenden Freiheitsgraden. Dann bedeutet ein großer Wert dieser Statistik, dass die getestete Hypothese verworfen werden muss. Ohne den Schritt des Eliminierens von Beobachtungen nimmt die Aussagekraft dieses Tests ab.

Der Breusch-Pagan-Test wird verwendet, wenn a priori davon ausgegangen wird, dass die Varianzen von einigen zusätzlichen Variablen abhängen. Zunächst wird die übliche (Standard-)Regression durchgeführt und ein Vektor von Residuen erhalten. Dann wird eine Schätzung der Varianz konstruiert. Als nächstes wird die Regression des Quadrats des Vektors der Residuen dividiert durch die empirische Varianz (Schätzung der Varianz) durchgeführt. Für sie (Regression) finden Sie den erklärten Teil der Variation. Und für diesen erklärten Teil der Variante, halbiert, werden Statistiken erstellt. Wenn die Nullhypothese wahr ist (das Fehlen von Heteroskedastizität ist wahr), dann hat diese Größe eine Verteilung hi-Quadrat. Wenn der Test dagegen Heteroskedastizität ergab, wird das ursprüngliche Modell transformiert, indem die Komponenten des Vektors der Residuen durch die entsprechenden Komponenten des Vektors der beobachteten unabhängigen Variablen dividiert werden.

36. Methode der Standardabweichungen in der White-Form.

Wir können folgende Schlussfolgerungen ziehen. Die Verwendung von GLS bei Vorhandensein von Heteroskedastizität wird auf die Minimierung der Summe gewichteter quadratischer Abweichungen reduziert. Die Nutzung der verfügbaren GLS ist mit der Notwendigkeit einer großen Zahl von Beobachtungen verbunden, die die Zahl der geschätzten Parameter übersteigt. Am günstigsten für die Verwendung von GLS ist der Fall, wenn der Fehler (Residuen) proportional zu einer der unabhängigen Variablen ist und die resultierenden Schätzungen konsistent sind. Wenn es jedoch in einem Modell mit Heteroskedastizität erforderlich ist, nicht GLS, sondern Standard-LSM zu verwenden, kann man, um konsistente Schätzungen zu erhalten, Fehlerschätzungen in der White- oder Nevie-West-Form verwenden.

Bei der Analyse von Zeitreihen ist es oft notwendig, die statistische Abhängigkeit von Beobachtungen zu unterschiedlichen Zeitpunkten zu berücksichtigen. In diesem Fall ist die Annahme unkorrelierter Fehler nicht erfüllt. Stellen Sie sich ein einfaches Modell vor, in dem die Fehler einen autoregressiven Prozess erster Ordnung bilden. In diesem Fall erfüllen die Fehler eine einfache Wiederholungsbeziehung, auf deren rechter Seite einer der Terme eine Folge unabhängiger normalverteilter Zufallsvariablen mit einem Mittelwert von Null und einer konstanten Varianz ist. Der zweite Term ist das Produkt aus dem Parameter (Autoregressionskoeffizient) und den Werten der Residuen zum vorherigen Zeitpunkt. Die Folge von Fehlerwerten (Residuen) selbst bildet einen stationären Zufallsprozess. Ein stationärer Zufallsprozess zeichnet sich durch die zeitliche Konstanz seiner Eigenschaften aus, insbesondere des Mittelwerts und der Varianz. In diesem Fall lässt sich die für uns (ihre Mitglieder) interessante Kovarianzmatrix einfach mit den Potenzen des Parameters ausschreiben.

Die Schätzung des autoregressiven Modells für einen bekannten Parameter wird unter Verwendung von GLS durchgeführt. In diesem Fall genügt es, das ursprüngliche Modell einfach durch eine einfache Transformation auf ein Modell zu reduzieren, dessen Fehler die Bedingungen des Standard-Regressionsmodells erfüllen. Sehr selten, aber dennoch gibt es eine Situation, in der der Autoregressionsparameter bekannt ist. Daher ist es im Allgemeinen erforderlich, die Schätzung mit einem unbekannten autoregressiven Parameter durchzuführen. Es gibt drei am häufigsten verwendete Bewertungsverfahren. Cochrane-Orcutt-Methode, Hildreth-Lou-Verfahren und Durbin-Methode.

Im Allgemeinen sind die folgenden Schlussfolgerungen wahr. Die Zeitreihenanalyse erfordert die Korrektur der üblichen kleinsten Quadrate, da hier die Fehler in der Regel korreliert sind. Häufig bilden diese Fehler einen stationären autoregressiven Prozess erster Ordnung. OLS-Schätzungen für die Autoregression erster Ordnung sind unvoreingenommen, konsistent, aber ineffizient. Bei bekanntem Autoregressionskoeffizienten wird OLS auf einfache Transformationen (Korrekturen) des ursprünglichen Systems und dann auf die Anwendung von Standard-Kleinstquadraten reduziert. Wenn, wie es häufiger der Fall ist, der autoregressive Koeffizient unbekannt ist, dann gibt es mehrere Verfahren des verfügbaren GLS, die darin bestehen, den unbekannten Parameter (Koeffizienten) zu schätzen, wonach dieselben Transformationen wie im vorherigen Fall des angewendet werden bekannter Parameter.

37. Das Konzept des Breusch-Pagan-Tests, des Goldfeldt-Quandt-Tests

Landwirtschaftsministerium der Russischen Föderation

Bildungshaushalt der Länder

Hochschule für höhere Berufsbildung

"Staatliche Landwirtschaftsakademie Perm

benannt nach dem Akademiker D.N. Pryanishnikov"

Abteilung für Finanzen, Kredit- und Wirtschaftsanalyse

Kontrollarbeit an der Disziplin "Ökonometrie" Option - 10


    Näherungsfehler und ihre Definition………………………………….3

    Analytische Methode zum Abgleich der Zeitreihen und die dabei verwendeten Funktionen……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………….

    Praktischer Teil………………………………………………………..... 11

    1. Aufgabe 1 ……………………………………………………………… 11

      Aufgabe 2……………………………………………….……………...19

Liste der verwendeten Literatur…………………………………………….....25

  1. Approximationsfehler und ihre Definition.

Durchschnittlicher Näherungsfehler ist die durchschnittliche Abweichung der berechneten Daten von den tatsächlichen Daten. Sie ist als Prozentsatz Modulo definiert.

Die tatsächlichen Werte des resultierenden Attributs weichen von den theoretischen ab. Je kleiner dieser Unterschied ist, desto besser passen die theoretischen Werte zu den empirischen Daten, dies ist die beste Qualität des Modells. Die Größe der Abweichungen der tatsächlichen und berechneten Werte des effektiven Merkmals für jede Beobachtung ist ein Näherungsfehler. Ihre Zahl entspricht dem Bevölkerungsvolumen. In einigen Fällen kann der Näherungsfehler Null sein. Zum Vergleich werden Abweichungen herangezogen, ausgedrückt in Prozent der tatsächlichen Werte.

Da er sowohl positiv als auch negativ sein kann, ist es üblich, die Approximationsfehler für jede Beobachtung als prozentualen Modulo zu bestimmen. Abweichungen können als absoluter Näherungsfehler und als relativer Näherungsfehler betrachtet werden. Um aus den relativen Abweichungen für jede Beobachtung ein allgemeines Urteil über die Güte des Modells zu erhalten, wird der mittlere Approximationsfehler als einfacher arithmetischer Mittelwert bestimmt.

Der durchschnittliche Näherungsfehler wird nach folgender Formel berechnet:

Auch eine andere Definition des mittleren Approximationsfehlers ist möglich:

Wenn A £ 10-12% beträgt, dann können wir über die gute Qualität des Modells sprechen.

  1. Analytische Methode des Zeitreihenabgleichs und dabei verwendete Funktionen.

Eine perfektere Technik zur Identifizierung des Hauptentwicklungstrends in der Reihe der Dynamiken ist die analytische Ausrichtung. Bei der Untersuchung des allgemeinen Trends mit der Methode der analytischen Ausrichtung wird davon ausgegangen, dass Änderungen in den Ebenen einer Reihe von Dynamiken durch bestimmte mathematische Funktionen mit unterschiedlicher Näherungsgenauigkeit ausgedrückt werden können. Die Art der Gleichung wird durch die Art der Dynamik der Entwicklung eines bestimmten Phänomens bestimmt. In der Praxis wird nach den vorhandenen Zeitreihen die Form festgelegt und die Parameter der Funktion y=f(t) gefunden und dann das Verhalten bei Abweichungen vom Trend analysiert. Die folgenden Beziehungen werden am häufigsten beim Ausrichten verwendet: linear, parabolisch und exponentiell. In vielen Fällen liefert die Modellierung von Zeitreihen mit Polynomen oder einer Exponentialfunktion keine zufriedenstellenden Ergebnisse, da die Zeitreihe merkliche periodische Schwankungen um einen allgemeinen Trend herum enthält. In solchen Fällen sollte eine harmonische Analyse (Fourier-Reihen-Harmonische) verwendet werden. Die Verwendung genau dieser Methode ist vorzuziehen, da sie das Gesetz bestimmt, mit dem es möglich ist, die Werte der Ebenen der Reihe genau vorherzusagen.

Zweck des analytischen Abgleichs der dynamischen Reihe ist die Bestimmung der analytischen oder grafischen Abhängigkeit y=f(t). Die Funktion y=f(t) wird so gewählt, dass sie eine sinnvolle Erklärung des untersuchten Prozesses liefert. Dies können unterschiedliche Funktionen sein.

Gleichungssysteme der Form y=f(t) zum Schätzen der Parameter von Polynomen durch LSM

(anklickbar)

Grafische Darstellung von Polynomen n-ter Ordnung

1. Wenn die Änderung der Niveaus einer Reihe durch eine gleichmäßige Zunahme (Abnahme) der Niveaus gekennzeichnet ist, ist der Entwicklungstrend bei nahe beieinander liegenden absoluten Ketteninkrementen durch eine Geradengleichung gekennzeichnet.

2. Wenn als Ergebnis der Analyse der Art des dynamischen Trends eine krummlinige Abhängigkeit mit ungefähr konstanter Beschleunigung festgestellt wird, wird die Form des Trends durch eine Parabelgleichung zweiter Ordnung ausgedrückt.

3. Wenn das Wachstum der Ebenen einer Reihe von Dynamiken exponentiell erfolgt, d.h. Kettenwachstumsfaktoren mehr oder weniger konstant sind, erfolgt die Ausrichtung der Dynamikreihen nach der Exponentialfunktion.

Nach Auswahl des Gleichungstyps müssen die Parameter der Gleichung definiert werden. Die gebräuchlichste Art, die Parameter einer Gleichung zu bestimmen, ist die Methode der kleinsten Quadrate, bei der der Minimalpunkt der Summe der quadratischen Abweichungen zwischen theoretischen (angepasst gemäß der gewählten Gleichung) und empirischen Niveaus als Lösung genommen wird.

Die Ausrichtung in einer Geraden (Definition einer Trendlinie) hat den Ausdruck: yt=a0+a1t

t-Symbol der Zeit;

während 0 und a1 die Parameter der gewünschten Zeile sind.

Die Parameter der Geraden ergeben sich aus der Lösung des Gleichungssystems:

Das Gleichungssystem vereinfacht sich, wenn die Werte von t so gewählt werden, dass ihre Summe gleich Σt = 0 ist, d. h. der Ursprung der Zeit in die Mitte des betrachteten Zeitraums verschoben wird. Wenn vor der Übergabe des Referenzpunktes t = 1, 2, 3, 4…, dann nach der Übergabe:

wenn die Anzahl der Ebenen in der Reihe ungerade ist t = -4 -3 -2 -1 0 +1 +2 +3 +4

wenn die Anzahl der Ebenen in der Reihe gerade ist t = -7 -5 -3 -1 +1 +3 +5 +7

Somit ist ∑t hoch ungerade immer gleich Null.

Ebenso ergeben sich die Parameter der Parabel 2. Ordnung aus der Lösung des Gleichungssystems:

Ausrichtung nach durchschnittlichem absolutem Wachstum oder durchschnittlicher Wachstumsrate:

Δ-durchschnittlicher absoluter Anstieg;

K-durchschnittlicher Wachstumsfaktor;

Y0-Anfangsniveau der Reihe;

Yn ist die letzte Ebene der Serie;

t ist die Ordnungszahl der Ebene, beginnend bei Null.

Nach Aufstellung der Regressionsgleichung erfolgt eine Bewertung ihrer Zuverlässigkeit. Die Signifikanz der ausgewählten Regressionsgleichung, der Gleichungsparameter und des Korrelationskoeffizienten sollte durch Anwendung kritischer Bewertungsmethoden bewertet werden:

Fisher's F-Test, Student's t-Test, in diesem Fall werden die berechneten Werte der Kriterien mit den tabellierten (kritischen) bei einem bestimmten Signifikanzniveau und der Anzahl der Freiheitsgrade verglichen. Fakt > Ftheor - die Regressionsgleichung ist angemessen.

n ist die Anzahl der Beobachtungen (Ebenen der Reihe), m ist die Anzahl der Parameter der Gleichung (des Modells) der Regression.

Die Überprüfung der Angemessenheit der Regressionsgleichung (der Güte des Modells insgesamt) erfolgt anhand des durchschnittlichen Approximationsfehlers, dessen Wert 10-12 % nicht überschreiten sollte (empfohlen).

Für die Gebiete der Region werden Daten für 200X angegeben.

Regionsnummer Durchschnittliches Pro-Kopf-Existenzminimum pro Tag für eine arbeitsfähige Person, rub., x Durchschnittliches Tagesgehalt, rub., at
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Die Übung:

1. Bauen Sie ein Korrelationsfeld auf und formulieren Sie eine Hypothese über die Form der Beziehung.

2. Berechnen Sie die Parameter der linearen Regressionsgleichung

4. Geben Sie anhand des durchschnittlichen (allgemeinen) Elastizitätskoeffizienten eine vergleichende Einschätzung der Stärke des Zusammenhangs zwischen dem Faktor und dem Ergebnis.

7. Berechnen Sie den vorhergesagten Wert des Ergebnisses, wenn der vorhergesagte Wert des Faktors um 10 % von seinem durchschnittlichen Niveau ansteigt. Bestimmen Sie das Konfidenzintervall der Vorhersage für das Signifikanzniveau .

Entscheidung:

Lassen Sie uns dieses Problem mit Excel lösen.

1. Vergleicht man die verfügbaren Daten x und y, z. B. in aufsteigender Reihenfolge des x-Faktors, kann man feststellen, dass ein direkter Zusammenhang zwischen den Vorzeichen besteht, wenn eine Erhöhung des Pro-Kopf-Existenzminimums den durchschnittlichen Tageslohn erhöht. Aufgrund dessen kann davon ausgegangen werden, dass der Zusammenhang zwischen den Merkmalen direkt ist und durch die Gleichung einer Geraden beschrieben werden kann. Dieselbe Schlussfolgerung wird auf der Grundlage einer grafischen Analyse bestätigt.

Um ein Korrelationsfeld zu erstellen, können Sie Excel PPP verwenden. Geben Sie die Anfangsdaten in der Reihenfolge ein: zuerst x, dann y.

Wählen Sie den Bereich der Zellen aus, der die Daten enthält.

Dann wähle: Insert / Scatter / Scatter mit Markierungen wie in Abbildung 1 gezeigt.

Abbildung 1 Aufbau des Korrelationsfeldes

Eine Analyse des Korrelationsfeldes zeigt das Vorhandensein einer nahezu geradlinigen Abhängigkeit, da die Punkte fast auf einer geraden Linie liegen.

2. Um die Parameter der linearen Regressionsgleichung zu berechnen
Verwenden Sie die integrierte Statistikfunktion NÄCHSTES.

Dafür:

1) Öffnen Sie eine vorhandene Datei, die die zu analysierenden Daten enthält;
2) Wählen Sie einen Bereich mit leeren Zellen 5×2 (5 Zeilen, 2 Spalten) aus, um die Ergebnisse der Regressionsstatistik anzuzeigen.
3) Aktivieren Funktionsassistent: im Hauptmenü auswählen Formeln / Funktion einfügen.
4) Im Fenster Kategorie Sie nehmen Statistisch, im Funktionsfenster - NÄCHSTES. Klicken Sie auf die Schaltfläche OK wie in Abbildung 2 gezeigt;

Abbildung 2 Dialogfeld „Funktionsassistent“.

5) Füllen Sie die Funktionsargumente aus:

Bekannte Werte

Bekannte x-Werte

Konstante- ein logischer Wert, der das Vorhandensein oder Fehlen eines freien Terms in der Gleichung anzeigt; wenn Konstante = 1, dann wird der freie Term wie üblich berechnet, wenn Konstante = 0, dann ist der freie Term 0;

Statistiken- ein boolescher Wert, der angibt, ob zusätzliche Informationen zur Regressionsanalyse angezeigt werden sollen oder nicht. Bei Statistik = 1 werden zusätzliche Informationen angezeigt, bei Statistik = 0 werden nur Schätzwerte der Gleichungsparameter angezeigt.

Klicken Sie auf die Schaltfläche OK;

Abbildung 3 Dialogfeld RGP-Argumente

6) Das erste Element der Abschlusstabelle erscheint in der oberen linken Zelle des ausgewählten Bereichs. Um die gesamte Tabelle zu erweitern, drücken Sie die Schaltfläche und dann auf die Tastenkombination ++ .

Zusätzliche Regressionsstatistiken werden in der im folgenden Schema gezeigten Reihenfolge ausgegeben:

Der Wert des Koeffizienten b Der Wert des Koeffizienten a
b Standardfehler Standardfehler a
Standardfehler y
F-Statistik
Regression Summe der Quadrate

Abbildung 4 Das Ergebnis der Berechnung der RGP-Funktion

Wir haben die Regressionsgleichung:

Wir schließen: Mit einer Erhöhung des Pro-Kopf-Existenzminimums um 1 Rubel. der durchschnittliche Tageslohn steigt um durchschnittlich 0,92 Rubel.

Das bedeutet, dass 52 % der Lohnvariation (y) durch die Variation des Faktors x – dem durchschnittlichen Pro-Kopf-Existenzminimum – und 48 % – durch die Wirkung anderer Faktoren, die nicht im Modell enthalten sind, erklärt werden.

Entsprechend dem berechneten Bestimmtheitsmaß kann der Korrelationskoeffizient berechnet werden: .

Die Beziehung wird als eng eingestuft.

4. Anhand des durchschnittlichen (allgemeinen) Elastizitätskoeffizienten bestimmen wir die Stärke des Einflusses des Faktors auf das Ergebnis.

Für die Geradengleichung wird der durchschnittliche (allgemeine) Elastizitätskoeffizient durch die Formel bestimmt:

Wir finden die Durchschnittswerte, indem wir den Bereich der Zellen mit x-Werten auswählen und auswählen Formeln / AutoSumme / Durchschnitt, und machen Sie dasselbe mit den Werten von y.

Abbildung 5 Berechnung von Mittelwerten einer Funktion und eines Arguments

Wenn sich also das durchschnittliche Pro-Kopf-Existenzminimum um 1 % von seinem Durchschnittswert ändert, ändert sich der durchschnittliche Tageslohn um durchschnittlich 0,51 %.

Verwendung eines Datenanalyse-Tools Rückfall du kannst es haben:
- Ergebnisse der Regressionsstatistik,
- Ergebnisse der Ausbreitungsanalyse,
- Ergebnisse von Konfidenzintervallen,
- Residuen- und Regressionslinien-Anpassungsdiagramme,
- Residuen und normale Wahrscheinlichkeit.

Das Verfahren ist wie folgt:

1) Überprüfen Sie den Zugriff auf Analysepaket. Wählen Sie im Hauptmenü nacheinander: Datei/Einstellungen/Add-Ons.

2) Ablegen Steuerung Menüpunkt wählen Excel-Add-Ins und drücken Sie die Taste Gehen.

3) Im Fenster Zusätze Aktivieren Sie das Kontrollkästchen Analysepaket, und klicken Sie dann auf die Schaltfläche OK.

Wenn ein Analysepaket fehlt in Feldliste Verfügbare Add-Ons, Drücken Sie den Knopf Überprüfung suchen.

Wenn Sie eine Meldung erhalten, dass das Analysepaket nicht auf Ihrem Computer installiert ist, klicken Sie auf Ja um es zu installieren.

4) Wählen Sie im Hauptmenü nacheinander: Daten / Datenanalyse / Analysetools / Regression, und klicken Sie dann auf die Schaltfläche OK.

5) Füllen Sie das Dialogfeld Dateneingabe- und Ausgabeoptionen aus:

Eingabeintervall Y- der Bereich, der die Daten des effektiven Attributs enthält;

Eingabeintervall X- der Bereich, der die Daten des Faktorattributs enthält;

Stichworte- ein Flag, das anzeigt, ob die erste Zeile die Namen der Spalten enthält oder nicht;

Konstante - Null- ein Flag, das das Vorhandensein oder Nichtvorhandensein eines freien Terms in der Gleichung anzeigt;

Ausgabeintervall- es reicht aus, die obere linke Zelle des zukünftigen Bereichs anzugeben;

6) Neues Arbeitsblatt – Sie können einen beliebigen Namen für das neue Arbeitsblatt festlegen.

Drücken Sie dann die Taste OK.

Abbildung 6 Dialogfeld zur Eingabe von Parametern des Regressionswerkzeugs

Die Ergebnisse der Regressionsanalyse für die Problemdaten sind in Abbildung 7 dargestellt.

Abbildung 7 Das Ergebnis der Anwendung des Regressionstools

5. Schätzen wir die Güte der Gleichungen anhand des mittleren Approximationsfehlers ab. Lassen Sie uns die Ergebnisse der in Abbildung 8 dargestellten Regressionsanalyse verwenden.

Abbildung 8 Das Ergebnis der Anwendung des Regressionstools „Residual Inference“

Lassen Sie uns eine neue Tabelle erstellen, wie in Abbildung 9 gezeigt. In Spalte C berechnen wir den relativen Näherungsfehler mit der Formel:

Abbildung 9 Berechnung des mittleren Approximationsfehlers

Der durchschnittliche Näherungsfehler wird nach folgender Formel berechnet:

Die Qualität des konstruierten Modells wird als gut bewertet, da sie 8 - 10 % nicht übersteigt.

6. Aus der Tabelle mit den Regressionsstatistiken (Abbildung 4) schreiben wir den tatsächlichen Wert des Fisher-F-Tests heraus:

Soweit bei einem Signifikanzniveau von 5 % können wir schlussfolgern, dass die Regressionsgleichung signifikant ist (die Beziehung ist bewiesen).

8. Wir werden die statistische Signifikanz der Regressionsparameter anhand der Student-t-Statistik und durch Berechnung des Konfidenzintervalls für jeden der Indikatoren bewerten.

Wir stellen die Hypothese H 0 über einen statistisch unbedeutenden Unterschied der Indikatoren von Null auf:

.

für die Anzahl der Freiheitsgrade

Abbildung 7 hat die tatsächlichen Werte der t-Statistik:

Der t-Test für den Korrelationskoeffizienten kann auf zwei Arten berechnet werden:

ich weg:

wo - zufälliger Fehler des Korrelationskoeffizienten.

Die Daten zur Berechnung entnehmen wir der Tabelle in Abbildung 7.

II-Weg:

Die tatsächlichen t-Statistikwerte sind den Tabellenwerten überlegen:

Daher wird die Hypothese H 0 verworfen, dh die Regressionsparameter und der Korrelationskoeffizient sind nicht zufällig von Null verschieden, sondern statistisch signifikant.

Das Konfidenzintervall für Parameter a ist definiert als

Für Parameter a waren die in Abbildung 7 gezeigten 95 %-Grenzwerte:

Das Konfidenzintervall für den Regressionskoeffizienten ist definiert als

Für den Regressionskoeffizienten b waren die 95 %-Grenzen wie in Abbildung 7 gezeigt:

Eine Analyse der oberen und unteren Grenzen der Konfidenzintervalle führt zu dem Schluss, dass mit einer Wahrscheinlichkeit die Parameter a und b, die innerhalb der angegebenen Grenzen liegen, nehmen keine Nullwerte an, d. h. sind statistisch nicht signifikant und signifikant von Null verschieden.

7. Die erhaltenen Schätzungen der Regressionsgleichung ermöglichen es uns, sie für Prognosen zu verwenden. Wenn der prognostizierte Wert des Existenzminimums:

Dann beträgt der prognostizierte Wert des Existenzminimums:

Wir berechnen den Prognosefehler mit der Formel:

wo

Wir berechnen auch die Varianz mit dem Excel PPP. Dafür:

1) Aktivieren Funktionsassistent: im Hauptmenü auswählen Formeln / Funktion einfügen.

3) Füllen Sie den Bereich aus, der die numerischen Daten der Faktorkennlinie enthält. Klicken OK.

Abbildung 10 Abweichungsberechnung

Holen Sie sich den Varianzwert

Um die Restvarianz pro Freiheitsgrad zu berechnen, verwenden wir die Ergebnisse der Varianzanalyse, wie in Abbildung 7 gezeigt.

Konfidenzintervalle für die Vorhersage einzelner Werte von y mit einer Wahrscheinlichkeit von 0,95 werden durch den Ausdruck bestimmt:

Das Intervall ist ziemlich breit, hauptsächlich aufgrund des geringen Beobachtungsvolumens. Generell erwies sich die erfüllte Prognose des durchschnittlichen Monatsgehalts als zuverlässig.

Die Bedingung des Problems ist entnommen aus: Workshop on econometrics: Proc. Zulage / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko und andere; Ed. ich.ich Eliseeva. - M.: Finanzen und Statistik, 2003. - 192 S.: Abb.

Zur allgemeinen Beurteilung der Güte der konstruierten Ökonometrischen werden Kenngrößen wie Bestimmtheitsmaß, Korrelationsindex, mittlerer relativer Approximationsfehler ermittelt und die Aussagekraft der Regressionsgleichung überprüft F- Fisher-Kriterium. Die aufgeführten Eigenschaften sind ziemlich universell und können sowohl auf lineare als auch auf nichtlineare Modelle sowie auf Modelle mit zwei oder mehr Faktorvariablen angewendet werden. Bei der Berechnung aller aufgeführten Qualitätsmerkmale spielt eine Reihe von Residuen eine entscheidende Rolle ε ich, die durch Subtrahieren von den tatsächlichen (aus Beobachtungen erhaltenen) Werten des untersuchten Merkmals berechnet wird y ich Werte berechnet nach der Modellgleichung und pi.

Bestimmtheitsmaß

zeigt, welcher Anteil der Veränderung des untersuchten Merkmals im Modell berücksichtigt wird. Mit anderen Worten, das Bestimmtheitsmaß zeigt, welcher Teil der Änderung der untersuchten Variablen auf der Grundlage von Änderungen der im Modell enthaltenen Faktorvariablen unter Verwendung des ausgewählten Funktionstyps berechnet werden kann, der die Faktorvariablen und das untersuchte Merkmal verknüpft die Modellgleichung.

Bestimmtheitsmaß R2 kann Werte von 0 bis 1 annehmen. Je näher das Bestimmtheitsmaß R2 zur Einheit, desto besser ist die Qualität des Modells.

Korrelationsindex kann leicht berechnet werden, wenn man das Bestimmtheitsmaß kennt:

Korrelationsindex R kennzeichnet die Enge der bei der Erstellung des Modells gewählten Art der Beziehung zwischen den im Modell berücksichtigten Faktoren und der untersuchten Variablen. Bei der linearen Paarregression stimmt ihr Absolutwert mit dem Paarkorrelationskoeffizienten überein r(x, y), die wir zuvor betrachtet haben, und charakterisiert die Enge der linearen Beziehung zwischen x und j. Die Werte des Korrelationsindex liegen offensichtlich auch im Bereich von 0 bis 1. Je näher der Wert R Je enger der ausgewählte Funktionstyp die Faktorvariablen und das untersuchte Merkmal verknüpft, desto besser ist die Qualität des Modells.

(2.11)

in Prozent ausgedrückt und charakterisiert die Genauigkeit des Modells. Die akzeptable Genauigkeit des Modells bei der Lösung praktischer Probleme kann anhand von Überlegungen zur wirtschaftlichen Machbarkeit unter Berücksichtigung einer spezifischen Situation bestimmt werden. Ein weit verbreitetes Kriterium ist, dass die Genauigkeit als zufriedenstellend angesehen wird, wenn der durchschnittliche relative Fehler weniger als 15 % beträgt. Wenn ein E rel.av. weniger als 5 %, dann wird dem Modell eine hohe Genauigkeit nachgesagt. Es wird nicht empfohlen, Modelle mit unbefriedigender Genauigkeit für Analysen und Prognosen zu verwenden, dh wann E rel.av. mehr als 15 %.

Fisher F-Test verwendet, um die Signifikanz der Regressionsgleichung zu bewerten. Der Rechenwert des F-Kriteriums ergibt sich aus dem Verhältnis:

. (2.12)

kritischer Wert F-Kriterium wird aus Tabellen mit einem bestimmten Signifikanzniveau α und Freiheitsgraden bestimmt (Sie können die FDISP-Funktion in Excel verwenden). Hier noch m ist die Anzahl der im Modell berücksichtigten Faktoren, n ist die Anzahl der Beobachtungen. Ist der berechnete Wert größer als der kritische Wert, wird die Modellgleichung als signifikant erkannt. Je größer der berechnete Wert F-Kriterien, desto besser ist die Qualität des Modells.

Lassen Sie uns die Qualitätsmerkmale des linearen Modells bestimmen, für das wir konstruiert haben Beispiel 1. Verwenden wir die Daten aus Tabelle 2. Bestimmtheitsmaß:

Daher wird innerhalb des linearen Modells die Änderung des Verkaufsvolumens um 90,1 % durch die Änderung der Lufttemperatur erklärt.

Korrelationsindex

.

Wie wir sehen, ist der Wert des Korrelationsindex im Fall eines gepaarten linearen Modells tatsächlich modulo gleich dem Korrelationskoeffizienten zwischen den entsprechenden Variablen (Absatz und Temperatur). Da der erhaltene Wert nahe genug bei eins liegt, können wir schließen, dass es eine enge lineare Beziehung zwischen der untersuchten Variablen (Verkaufsvolumen) und der Faktorvariablen (Temperatur) gibt.

Fisher F-Test

kritischer Wert F kr bei α = 0,1; v 1 = 1; ν 2 = 7 – 1 – 1 = 5 ist gleich 4,06. Geschätzter Wert F-Kriterium ist größer als das tabellarische, daher ist die Modellgleichung signifikant.

Mittlerer relativer Näherungsfehler

Das erstellte Regressionsmodell für lineare Paare hat eine unbefriedigende Genauigkeit (>15 %), und es wird nicht empfohlen, es für Analysen und Prognosen zu verwenden.

Obwohl die meisten statistischen Merkmale die Kriterien dafür erfüllen, ist das lineare gepaarte Regressionsmodell daher nicht geeignet, das Verkaufsvolumen in Abhängigkeit von der Lufttemperatur vorherzusagen. Die nichtlineare Natur der Beziehung zwischen diesen Variablen gemäß den Beobachtungsdaten ist in Abb. 1 ziemlich deutlich zu sehen. Die durchgeführte Analyse bestätigte dies.