Konstruieren Sie ein Konfidenzintervall für die mathematische Erwartung. Konfidenzintervalle zur Schätzung der mathematischen Erwartung

Und andere.Alle von ihnen sind Schätzungen ihrer theoretischen Gegenstücke, die erhalten werden könnten, wenn es keine Stichprobe, sondern die allgemeine Bevölkerung gäbe. Aber leider ist die allgemeine Bevölkerung sehr teuer und oft nicht verfügbar.

Das Konzept der Intervallschätzung

Jede Beispielschätzung hat eine gewisse Streuung, weil ist eine Zufallsvariable, die von den Werten in einer bestimmten Probe abhängt. Daher sollte man für zuverlässigere statistische Rückschlüsse nicht nur die Punktschätzung kennen, sondern auch das Intervall, was mit hoher Wahrscheinlichkeit der Fall ist γ (Gamma) deckt den geschätzten Indikator ab θ (Theta).

Formal sind das zwei solche Werte (Statistik) T1(X) und T2(X), was T1< T 2 , für die bei einer bestimmten Wahrscheinlichkeit γ Bedingung ist erfüllt:

Kurz gesagt, es ist wahrscheinlich γ oder mehr liegt der wahre Wert zwischen den Punkten T1(X) und T2(X), die als untere und obere Grenze bezeichnet werden Konfidenzintervall.

Eine der Bedingungen für die Konstruktion von Konfidenzintervallen ist ihre maximale Enge, d.h. es sollte so kurz wie möglich sein. Verlangen ist ganz natürlich, weil. der Forscher versucht, den Befund des gewünschten Parameters genauer zu lokalisieren.

Daraus folgt, dass das Konfidenzintervall die maximalen Wahrscheinlichkeiten der Verteilung abdecken sollte. und die Partitur selbst im Mittelpunkt stehen.

Das heißt, die Wahrscheinlichkeit einer Abweichung (des wahren Indikators von der Schätzung) nach oben ist gleich der Wahrscheinlichkeit einer Abweichung nach unten. Zu beachten ist auch, dass bei schiefen Verteilungen das rechte Intervall ungleich dem linken Intervall ist.

Die obige Abbildung zeigt deutlich, dass das Intervall umso größer ist, je größer das Konfidenzniveau ist – eine direkte Beziehung.

Dies war eine kleine Einführung in die Theorie der Intervallschätzung unbekannter Parameter. Lassen Sie uns weitergehen, um Konfidenzgrenzen für die mathematische Erwartung zu finden.

Konfidenzintervall für mathematische Erwartung

Wenn die Originaldaten über verteilt sind, dann ist der Durchschnitt ein normaler Wert. Dies folgt aus der Regel, dass eine Linearkombination von Normalwerten auch eine Normalverteilung hat. Daher könnten wir zur Berechnung der Wahrscheinlichkeiten den mathematischen Apparat des Normalverteilungsgesetzes verwenden.

Dies erfordert jedoch die Kenntnis von zwei Parametern – dem Erwartungswert und der Varianz, die normalerweise nicht bekannt sind. Anstelle von Parametern (arithmetisches Mittel und ) können Sie natürlich auch Schätzwerte verwenden, aber dann ist die Verteilung des Mittelwerts nicht ganz normal, sondern etwas abgeflacht. Der Bürger William Gosset aus Irland bemerkte diese Tatsache geschickt, als er seine Entdeckung in der Märzausgabe 1908 von Biometrica veröffentlichte. Aus Geheimhaltungsgründen unterschrieb Gosset mit Student. So erschien die Student-t-Verteilung.

Die von K. Gauss bei der Analyse von Fehlern in astronomischen Beobachtungen verwendete Normalverteilung von Daten ist jedoch im irdischen Leben äußerst selten und es ist ziemlich schwierig, dies festzustellen (für eine hohe Genauigkeit werden etwa 2.000 Beobachtungen benötigt). Daher ist es am besten, die Normalitätsannahme fallen zu lassen und Methoden zu verwenden, die nicht von der Verteilung der Originaldaten abhängen.

Es stellt sich die Frage: Wie ist die Verteilung des arithmetischen Mittels, wenn es aus den Daten einer unbekannten Verteilung berechnet wird? Die Antwort gibt die in der Wahrscheinlichkeitstheorie bekannte Zentraler Grenzwertsatz(CPT). In der Mathematik gibt es mehrere Versionen davon (die Formulierungen wurden im Laufe der Jahre verfeinert), aber alle laufen grob gesagt auf die Aussage hinaus, dass die Summe einer großen Anzahl unabhängiger Zufallsvariablen dem Gesetz der Normalverteilung gehorcht.

Bei der Berechnung des arithmetischen Mittels wird die Summe der Zufallsvariablen verwendet. Daraus ergibt sich, dass das arithmetische Mittel eine Normalverteilung hat, bei der der Erwartungswert der Erwartungswert der Originaldaten ist und die Varianz .

Kluge Leute wissen, wie man das CLT beweist, aber wir werden dies mit Hilfe eines in Excel durchgeführten Experiments überprüfen. Lassen Sie uns eine Stichprobe von 50 gleichmäßig verteilten Zufallsvariablen simulieren (unter Verwendung der Excel-Funktion RANDOMBETWEEN). Dann machen wir 1000 solcher Stichproben und berechnen für jede das arithmetische Mittel. Schauen wir uns ihre Verteilung an.

Es ist ersichtlich, dass die Verteilung des Durchschnitts dem normalen Gesetz nahe kommt. Wenn das Volumen der Proben und ihre Anzahl noch größer gemacht werden, wird die Ähnlichkeit noch besser.

Nachdem wir uns nun von der Gültigkeit des CLT überzeugt haben, können wir mit Hilfe die Konfidenzintervalle für den arithmetischen Mittelwert berechnen, die mit einer gegebenen Wahrscheinlichkeit den wahren Mittelwert bzw. mathematischen Erwartungswert abdecken.

Um die Ober- und Untergrenze festzulegen, ist es erforderlich, die Parameter der Normalverteilung zu kennen. In der Regel sind sie es nicht, daher werden Schätzungen verwendet: arithmetisches Mittel und Stichprobenvarianz. Auch dieses Verfahren liefert nur für große Stichproben eine gute Annäherung. Bei kleinen Stichproben wird oft empfohlen, die Student-Verteilung zu verwenden. Glauben Sie nicht! Die Student-Verteilung für den Mittelwert tritt nur auf, wenn die Originaldaten eine Normalverteilung aufweisen, d. h. fast nie. Daher ist es besser, gleich die Mindestmesslatte für die benötigte Datenmenge zu setzen und asymptotisch korrekte Methoden einzusetzen. Sie sagen, 30 Beobachtungen sind genug. Nehmen Sie 50 - Sie können nichts falsch machen.

T 1.2 sind die unteren und oberen Grenzen des Konfidenzintervalls

– arithmetisches Mittel der Stichprobe

s0– Stichprobenstandardabweichung (unverzerrt)

n – Stichprobengröße

γ – Konfidenzniveau (normalerweise gleich 0,9, 0,95 oder 0,99)

cγ =Φ -1 ((1+γ)/2) ist der Kehrwert der Standardnormalverteilungsfunktion. Vereinfacht ausgedrückt ist dies die Anzahl der Standardfehler vom arithmetischen Mittel zur Unter- bzw. Obergrenze (die angegebenen drei Wahrscheinlichkeiten entsprechen den Werten 1,64, 1,96 und 2,58).

Die Essenz der Formel besteht darin, dass das arithmetische Mittel genommen wird und dann ein bestimmter Betrag davon beiseite gelegt wird ( mit γ) Standardfehler ( s 0 /√n). Alles ist bekannt, nimm es und zähle.

Vor dem Masseneinsatz von PCs verwendeten sie . Sie werden immer noch verwendet, aber es ist effizienter, auf vorgefertigte Excel-Formeln zurückzugreifen. Alle Elemente aus der obigen Formel ( , und ) können einfach in Excel berechnet werden. Es gibt aber auch eine fertige Formel zur Berechnung des Konfidenzintervalls - VERTRAUEN NORM. Seine Syntax ist die folgende.

VERTRAUEN NORM(alpha, standard_dev, Größe)

Alpha– Signifikanzniveau oder Konfidenzniveau, das in der obigen Notation gleich 1-γ ist, d.h. die Wahrscheinlichkeit, dass die mathematischedie Erwartung liegt außerhalb des Konfidenzintervalls. Bei einem Konfidenzniveau von 0,95 beträgt Alpha 0,05 und so weiter.

standard_aus ist die Standardabweichung der Stichprobendaten. Sie müssen den Standardfehler nicht berechnen, Excel dividiert durch die Wurzel von n.

die Größe– Stichprobengröße (n).

Das Ergebnis der Funktion CONFIDENCE.NORM ist der zweite Term aus der Formel zur Berechnung des Konfidenzintervalls, d. h. Halbzeit. Dementsprechend sind die unteren und oberen Punkte der Durchschnitt ± der erhaltene Wert.

Damit ist es möglich, einen universellen Algorithmus zur Berechnung von Konfidenzintervallen für den arithmetischen Mittelwert aufzubauen, der nicht von der Verteilung der Ausgangsdaten abhängt. Der Preis für Universalität ist ihre asymptotische Natur, d.h. die Notwendigkeit, relativ große Stichproben zu verwenden. Im Zeitalter der modernen Technologie ist es jedoch normalerweise nicht schwierig, die richtige Menge an Daten zu sammeln.

Testen statistischer Hypothesen mit einem Konfidenzintervall

(Modul 111)

Eines der Hauptprobleme, die in der Statistik gelöst werden, ist. Kurz gesagt, seine Essenz ist dies. Beispielsweise wird angenommen, dass die Erwartung der allgemeinen Bevölkerung einem bestimmten Wert entspricht. Dann wird die Verteilung der Stichprobenmittelwerte konstruiert, die mit einer gegebenen Erwartung beobachtet werden kann. Als nächstes schauen wir uns an, wo in dieser bedingten Verteilung der echte Durchschnitt liegt. Wenn es die zulässigen Grenzen überschreitet, ist das Auftreten eines solchen Durchschnitts sehr unwahrscheinlich, und bei einer einzigen Wiederholung des Experiments ist es fast unmöglich, was der aufgestellten Hypothese widerspricht, die erfolgreich abgelehnt wird. Wenn der Durchschnitt das kritische Niveau nicht überschreitet, wird die Hypothese nicht verworfen (aber auch nicht bewiesen!).

Mit Hilfe von Konfidenzintervallen, in unserem Fall für den Erwartungswert, können Sie also auch einige Hypothesen testen. Es ist sehr einfach zu tun. Angenommen, das arithmetische Mittel einer Stichprobe ist 100. Es wird die Hypothese getestet, dass der erwartete Wert beispielsweise 90 beträgt. Das heißt, wenn wir die Frage primitiv stellen, klingt es so: Kann es das mit dem wahren Wert des sein? Durchschnitt gleich 90, der beobachtete Durchschnitt war 100?

Zur Beantwortung dieser Frage sind zusätzliche Informationen zur Standardabweichung und zum Stichprobenumfang erforderlich. Nehmen wir an, die Standardabweichung beträgt 30 und die Anzahl der Beobachtungen 64 (um die Wurzel einfach zu ziehen). Dann beträgt der Standardfehler des Mittelwerts 30/8 oder 3,75. Um das 95-%-Konfidenzintervall zu berechnen, müssen Sie zwei Standardfehler auf beiden Seiten des Mittelwerts (genauer 1,96) beiseite legen. Das Konfidenzintervall beträgt ungefähr 100 ± 7,5 oder 92,5 bis 107,5.

Weitere Argumentation ist wie folgt. Wenn der getestete Wert in das Konfidenzintervall fällt, dann widerspricht er nicht der Hypothese, da innerhalb der Grenzen zufälliger Schwankungen (mit einer Wahrscheinlichkeit von 95 %). Wenn der getestete Punkt außerhalb des Konfidenzintervalls liegt, ist die Wahrscheinlichkeit eines solchen Ereignisses sehr gering, in jedem Fall unter dem akzeptablen Niveau. Daher wird die Hypothese als widersprüchlich zu den beobachteten Daten zurückgewiesen. In unserem Fall liegt die Erwartungshypothese außerhalb des Konfidenzintervalls (der getestete Wert von 90 ist nicht im Intervall von 100 ± 7,5 enthalten), daher sollte sie verworfen werden. Zur Beantwortung der obigen primitiven Frage sollte man sagen: Nein, das kann es jedenfalls nicht, das kommt äußerst selten vor. Oft deutet dies auf eine bestimmte Wahrscheinlichkeit einer fehlerhaften Ablehnung der Hypothese hin (p-Niveau) und nicht auf ein bestimmtes Niveau, nach dem das Konfidenzintervall gebildet wurde, aber dazu ein anderes Mal mehr.

Wie Sie sehen können, ist es nicht schwierig, ein Konfidenzintervall für den Mittelwert (oder die mathematische Erwartung) zu erstellen. Die Hauptsache ist, die Essenz zu fangen, und dann wird es gehen. In der Praxis verwenden die meisten das 95-%-Konfidenzintervall, das auf beiden Seiten des Mittelwerts etwa zwei Standardfehler breit ist.

Das ist alles für jetzt. Alles Gute!

Lassen Sie eine Probe von einer allgemeinen Bevölkerung machen, die dem Gesetz unterliegt normal Verteilung XN( m; ). Diese Grundannahme der mathematischen Statistik basiert auf dem zentralen Grenzwertsatz. Die allgemeine Standardabweichung sei bekannt , aber die mathematische Erwartung der theoretischen Verteilung ist unbekannt m(mittlere Bedeutung ).

In diesem Fall der Stichprobenmittelwert , die während des Experiments (Abschnitt 3.4.2) erhalten wird, wird ebenfalls eine Zufallsvariable sein m;
). Dann die "normalisierte" Abweichung
N(0;1) ist eine standardmäßige normale Zufallsvariable.

Das Problem besteht darin, eine Intervallschätzung für zu finden m. Lassen Sie uns ein zweiseitiges Konfidenzintervall für konstruieren m so dass ihm die wahre mathematische Erwartung mit einer gegebenen Wahrscheinlichkeit (Zuverlässigkeit) gehört .

Legen Sie ein solches Intervall für den Wert fest
bedeutet, den maximalen Wert dieser Menge zu finden
und minimal
, das sind die Grenzen des kritischen Bereichs:
.

weil diese Wahrscheinlichkeit ist
, dann die Wurzel dieser Gleichung
können anhand der Tabellen der Laplace-Funktion gefunden werden (Tabelle 3, Anhang 1).

Dann mit Wahrscheinlichkeit Es kann argumentiert werden, dass die Zufallsvariable
, das heißt, der gesuchte allgemeine Mittelwert gehört zum Intervall
. (3.13)

der Wert
(3.14)

namens Richtigkeit Schätzungen.

Anzahl
Quantil Normalverteilung - kann als Argument der Laplace-Funktion (Tabelle 3, Anhang 1) gefunden werden, wenn das Verhältnis 2Ф( u)=, d.h. F( u)=
.

Umgekehrt nach dem angegebenen Abweichungswert kann man herausfinden, mit welcher Wahrscheinlichkeit der unbekannte allgemeine Mittelwert zu dem Intervall gehört
. Dazu müssen Sie rechnen

. (3.15)

Lassen Sie eine Zufallsstichprobe aus der Allgemeinbevölkerung nach der Methode der Neuauswahl ziehen. Aus der Gleichung
kann gefunden werden Minimum Resampling-Volumen n erforderlich, um sicherzustellen, dass das Konfidenzintervall mit einer bestimmten Zuverlässigkeit hat den voreingestellten Wert nicht überschritten . Die erforderliche Stichprobengröße wird anhand der Formel geschätzt:

. (3.16)

Erkunden Schätzungsgenauigkeit
:

1) Mit zunehmendem Stichprobenumfang n Größe sinkt, und damit die Genauigkeit der Schätzung erhöht sich.

2)C Zunahme Zuverlässigkeit von Schätzungen der Wert des Arguments wird erhöht u(da F(u) steigt monoton) und damit erhöht sich . In diesem Fall die Erhöhung der Zuverlässigkeit reduziert die Genauigkeit seiner Einschätzung .

Schätzen
(3.17)

namens klassisch(wo t ist ein Parameter, der davon abhängt und n), da es charakterisiert die am häufigsten anzutreffenden Verteilungsgesetze.

3.5.3 Konfidenzintervalle zur Schätzung der Erwartung einer Normalverteilung mit unbekannter Standardabweichung 

Lassen Sie uns wissen, dass die allgemeine Bevölkerung dem Gesetz der Normalverteilung unterliegt XN( m;), wobei der Wert quadratischer Mittelwert Abweichungen Unbekannt.

Um ein Konfidenzintervall zum Schätzen des allgemeinen Mittels zu bilden, werden in diesem Fall Statistiken verwendet
, die eine Studentenverteilung mit hat k= n–1 Freiheitsgrade. Dies folgt daraus, dass N(0;1) (siehe Punkt 3.5.2), und
(siehe Abschnitt 3.5.3) und aus der Definition der Student-Verteilung (Teil 1.Abschnitt 2.11.2).

Lassen Sie uns die Genauigkeit der klassischen Schätzung der Student-Verteilung finden: d.h. finden t aus Formel (3.17). Sei die Wahrscheinlichkeit der Erfüllung der Ungleichung
durch Zuverlässigkeit gegeben :

. (3.18)

Soweit TSt( n-1), das ist offensichtlich t hängt von der und n, so schreiben wir normalerweise
.

(3.19)

wo
ist die Student-Verteilungsfunktion mit n-1 Freiheitsgrade.

Lösen Sie diese Gleichung für m, erhalten wir das Intervall
die mit Zuverlässigkeit  den unbekannten Parameter abdeckt m.

Wert t , n-1 , wird verwendet, um das Konfidenzintervall einer Zufallsvariablen zu bestimmen T(n-1), verteilt von Student mit n-1 Freiheitsgrad heißt Studentischer Koeffizient. Es sollte durch gegebene Werte gefunden werden n und  aus den Tabellen „Kritische Punkte der Schülerverteilung“. (Tabelle 6, Anhang 1), die die Lösungen von Gleichung (3.19) sind.

Als Ergebnis erhalten wir den folgenden Ausdruck Richtigkeit Konfidenzintervall zur Schätzung des mathematischen Erwartungswerts (allgemeiner Mittelwert), wenn die Varianz unbekannt ist:

(3.20)

Somit gibt es eine allgemeine Formel zur Konstruktion von Konfidenzintervallen für die mathematische Erwartung der Allgemeinbevölkerung:

wo ist die Genauigkeit des Konfidenzintervalls abhängig von der bekannten oder unbekannten Varianz wird gemäß den Formeln bzw. 3.16 ermittelt. und 3.20.

Aufgabe 10. Es wurden einige Tests durchgeführt, deren Ergebnisse in der Tabelle aufgeführt sind:

x ich

Es ist bekannt, dass sie dem Normalverteilungsgesetz mit gehorchen
. Finden Sie einen Kostenvoranschlag m* für mathematische Erwartung m, bilden Sie ein 90%-Konfidenzintervall dafür.

Entscheidung:

So, m(2.53;5.47).

Aufgabe 11. Die Meerestiefe wird mit einem Instrument gemessen, dessen systematischer Fehler 0 ist, und zufällige Fehler werden gemäß dem Normalgesetz mit einer Standardabweichung verteilt =15m. Wie viele unabhängige Messungen sollten durchgeführt werden, um die Tiefe mit Fehlern von nicht mehr als 5 m mit einem Vertrauensniveau von 90 % zu bestimmen?

Entscheidung:

Durch die Bedingung des Problems haben wir XN( m; ), wo =15m, =5m, =0,9. Lassen Sie uns das Volumen finden n.

1) Bei gegebener Reliabilität = 0,9 finden wir aus Tabelle 3 (Anhang 1) das Argument der Laplace-Funktion u = 1.65.

2) Kenntnis der gegebenen Schätzgenauigkeit =u=5, finden
. Wir haben

. Daher die Anzahl der Versuche n25.

Aufgabe 12. Temperaturabtastung t für die ersten 6 Januartage ist in der Tabelle dargestellt:

Ermitteln Sie das Konfidenzintervall für die Erwartung m allgemeine Bevölkerung mit Konfidenzwahrscheinlichkeit
und schätzen Sie die allgemeine Standardabweichung s.

Entscheidung:


und
.

2) Unvoreingenommene Schätzung nach Formel finden
:

=-175

=234.84

;
;

=-192

=116


.

3) Da die allgemeine Varianz unbekannt ist, aber ihre Schätzung bekannt ist, dann die mathematische Erwartung zu schätzen m wir verwenden die Student-Verteilung (Tabelle 6, Anhang 1) und die Formel (3.20).

weil n 1 =n 2 = 6, dann ,
, s 1 = 6,85 haben wir:
, also -29.2-4.1<m 1 < -29.2+4.1.

Daher -33.3<m 1 <-25.1.

Ebenso haben wir
, s 2 = 4,8, also

–34.9< m 2 < -29.1. Тогда доверительные интервалы примут вид: m 1 (-33,3;-25,1) und m 2 (-34.9;-29.1).

In den angewandten Wissenschaften, beispielsweise in Baudisziplinen, werden Konfidenzintervalltabellen zur Beurteilung der Genauigkeit von Objekten verwendet, die in der einschlägigen Referenzliteratur angegeben sind.

Häufig muss der Gutachter den Immobilienmarkt des Segments analysieren, in dem sich das Bewertungsobjekt befindet. Wenn der Markt entwickelt ist, kann es schwierig sein, den gesamten Satz präsentierter Objekte zu analysieren, daher wird eine Stichprobe von Objekten zur Analyse verwendet. Diese Stichprobe ist nicht immer homogen, manchmal ist es erforderlich, sie von Extremen zu befreien - zu hohe oder zu niedrige Marktangebote. Zu diesem Zweck wird es angewendet Konfidenzintervall. Der Zweck dieser Studie ist es, eine vergleichende Analyse zweier Methoden zur Berechnung des Konfidenzintervalls durchzuführen und die beste Berechnungsoption auszuwählen, wenn mit verschiedenen Stichproben im estimatica.pro-System gearbeitet wird.

Konfidenzintervall - berechnet auf der Grundlage der Stichprobe, das Werteintervall des Merkmals, das mit bekannter Wahrscheinlichkeit den geschätzten Parameter der Allgemeinbevölkerung enthält.

Die Bedeutung der Berechnung des Konfidenzintervalls besteht darin, ein solches Intervall basierend auf den Stichprobendaten zu bilden, so dass mit einer gegebenen Wahrscheinlichkeit behauptet werden kann, dass der Wert des geschätzten Parameters in diesem Intervall liegt. Mit anderen Worten enthält das Konfidenzintervall mit einer gewissen Wahrscheinlichkeit den unbekannten Wert der geschätzten Größe. Je größer das Intervall, desto größer die Ungenauigkeit.

Zur Bestimmung des Konfidenzintervalls gibt es verschiedene Methoden. In diesem Artikel werden wir 2 Möglichkeiten betrachten:

  • durch Median und Standardabweichung;
  • durch den kritischen Wert der t-Statistik (Studenten-Koeffizient).

Phasen einer vergleichenden Analyse verschiedener Methoden zur Berechnung des KI:

1. eine Datenstichprobe bilden;

2. Wir verarbeiten es mit statistischen Methoden: Wir berechnen den Mittelwert, den Median, die Varianz usw.;

3. Wir berechnen das Konfidenzintervall auf zwei Arten;

4. Analysieren Sie die gereinigten Proben und die erhaltenen Konfidenzintervalle.

Stufe 1. Datenprobenahme

Die Stichprobe wurde mit dem System estimatica.pro gebildet. Die Stichprobe umfasste 91 Angebote zum Verkauf von 1-Zimmer-Wohnungen in der 3. Preiszone mit der Planungsart „Chruschtschow“.

Tabelle 1. Erstmuster

Der Preis von 1 qm, c.u.

Abb.1. Erstexemplar



Stufe 2. Bearbeitung des Erstmusters

Die Probenverarbeitung durch statistische Methoden erfordert die Berechnung der folgenden Werte:

1. Arithmetisches Mittel

2. Median – eine Zahl, die die Stichprobe charakterisiert: Genau die Hälfte der Stichprobenelemente ist größer als der Median, die andere Hälfte ist kleiner als der Median

(für eine Stichprobe mit einer ungeraden Anzahl von Werten)

3. Bereich - die Differenz zwischen den Höchst- und Mindestwerten in der Probe

4. Varianz – wird verwendet, um die Variation der Daten genauer abzuschätzen

5. Die Standardabweichung für die Stichprobe (im Folgenden als RMS bezeichnet) ist der häufigste Indikator für die Streuung von Anpassungswerten um das arithmetische Mittel.

6. Variationskoeffizient – ​​spiegelt den Streuungsgrad der Anpassungswerte wider

7. Oszillationskoeffizient - spiegelt die relative Schwankung der Extremwerte der Preise in der Stichprobe um den Durchschnitt wider

Tabelle 2. Statistische Indikatoren der ursprünglichen Stichprobe

Der Variationskoeffizient, der die Homogenität der Daten charakterisiert, beträgt 12,29 %, aber der Oszillationskoeffizient ist zu groß. Wir können also feststellen, dass die ursprüngliche Stichprobe nicht homogen ist, also fahren wir mit der Berechnung des Konfidenzintervalls fort.

Stufe 3. Berechnung des Konfidenzintervalls

Methode 1. Berechnung durch Median und Standardabweichung.

Das Konfidenzintervall wird wie folgt bestimmt: der Mindestwert - die Standardabweichung wird vom Median abgezogen; der Maximalwert - die Standardabweichung wird zum Median addiert.

Somit ist das Konfidenzintervall (47179 CU; 60689 CU)

Reis. 2. Werte im Konfidenzintervall 1.



Methode 2. Erstellen eines Konfidenzintervalls durch den kritischen Wert der t-Statistik (Schülerkoeffizient)

S.V. Gribovsky beschreibt in dem Buch "Mathematische Methoden zur Bewertung des Immobilienwerts" eine Methode zur Berechnung des Konfidenzintervalls durch den Student-Koeffizienten. Bei der Berechnung nach dieser Methode muss der Schätzer selbst das Signifikanzniveau ∝ festlegen, das die Wahrscheinlichkeit bestimmt, mit der das Konfidenzintervall gebildet wird. Üblicherweise werden Signifikanzniveaus von 0,1 verwendet; 0,05 und 0,01. Sie entsprechen Konfidenzwahrscheinlichkeiten von 0,9; 0,95 und 0,99. Bei dieser Methode gelten die wahren Werte des mathematischen Erwartungswerts und der Varianz als praktisch unbekannt (was bei der Lösung praktischer Bewertungsprobleme fast immer der Fall ist).

Konfidenzintervallformel:

n - Stichprobengröße;

Der kritische Wert der t-Statistik (Schülerverteilungen) mit einem Signifikanzniveau ∝, die Anzahl der Freiheitsgrade n-1, die durch spezielle Statistiktabellen oder mit MS Excel ermittelt wird (→"Statistik"→ STUDRASPOBR);

∝ - Signifikanzniveau, wir nehmen ∝=0,01.

Reis. 2. Werte innerhalb des Konfidenzintervalls 2.

Schritt 4. Analyse verschiedener Möglichkeiten zur Berechnung des Konfidenzintervalls

Zwei Methoden zur Berechnung des Konfidenzintervalls - durch den Median und den Student-Koeffizienten - führten zu unterschiedlichen Werten der Intervalle. Dementsprechend wurden zwei verschiedene gereinigte Proben erhalten.

Tabelle 3. Statistische Indikatoren für drei Proben.

Indikator

Erstexemplar

1 Möglichkeit

Option 2

Mittlere Bedeutung

Streuung

Coef. Variationen

Coef. Schwingungen

Anzahl ausgesonderter Objekte, Stk.

Basierend auf den durchgeführten Berechnungen können wir sagen, dass sich die Werte der Konfidenzintervalle, die mit verschiedenen Methoden erhalten wurden, überschneiden, sodass Sie nach Ermessen des Gutachters jede der Berechnungsmethoden verwenden können.

Wir glauben jedoch, dass es bei der Arbeit im estimatica.pro-System ratsam ist, je nach Grad der Marktentwicklung eine Methode zur Berechnung des Konfidenzintervalls zu wählen:

  • Wenn der Markt nicht entwickelt ist, wenden Sie die Berechnungsmethode über den Median und die Standardabweichung an, da die Anzahl der ausgemusterten Objekte in diesem Fall gering ist.
  • Wenn der Markt entwickelt ist, wenden Sie die Berechnung über den kritischen Wert der t-Statistik (Studentenkoeffizient) an, da es möglich ist, eine große Anfangsstichprobe zu bilden.

Bei der Erstellung des Artikels wurden verwendet:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Mathematische Verfahren zur Ermittlung des Wertes von Immobilien. Moskau, 2014

2. Daten aus dem System estimatica.pro

Es sei eine Zufallsvariable (wir können von der Allgemeinbevölkerung sprechen) nach dem Normalgesetz verteilt, für die die Varianz D = 2 (> 0) bekannt ist. Aus der Allgemeinbevölkerung (auf der Menge der Objekte, von denen eine Zufallsvariable bestimmt wird) wird eine Stichprobe der Größe n gezogen. Die Stichprobe x 1 , x 2 ,..., x n wird als eine Menge von n unabhängigen Zufallsvariablen betrachtet, die auf die gleiche Weise verteilt sind wie (der oben im Text erläuterte Ansatz).

Zuvor wurden auch die folgenden Gleichungen diskutiert und bewiesen:

Mx 1 = Mx 2 = ... = Mx n = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Es genügt, einfach zu beweisen (wir lassen den Beweis weg), dass die Zufallsvariable auch in diesem Fall normalgesetzlich verteilt ist.

Wir bezeichnen den unbekannten Wert M mit a und wählen die Zahl d > 0 entsprechend der gegebenen Zuverlässigkeit, so dass die folgende Bedingung erfüllt ist:

P (- ein< d) = (1)

Da die Zufallsvariable nach dem Normalgesetz mit dem mathematischen Erwartungswert M = M = a und der Varianz D = D /n = 2 /n verteilt ist, erhalten wir:

P (- ein< d) =P(a - d < < a + d) =

Es bleibt d so zu wählen, dass die Gleichheit

Für jeden kann man eine solche Zahl t aus der Tabelle finden, dass (t) \u003d / 2. Diese Zahl t wird manchmal genannt Quantil.

Jetzt von der Gleichberechtigung

Definieren Sie den Wert von d:

Wir erhalten das Endergebnis, indem wir Formel (1) in der Form darstellen:

Die Bedeutung der letzten Formel ist wie folgt: mit Zuverlässigkeit das Konfidenzintervall

deckt den unbekannten Parameter a = M der Grundgesamtheit ab. Man kann es auch anders sagen: Eine Punktschätzung bestimmt den Wert des Parameters M mit einer Genauigkeit von d= t / und Zuverlässigkeit.

Aufgabe. Angenommen, es gebe eine allgemeine Population mit einigen gemäß dem Normalgesetz verteilten Merkmalen mit einer Streuung von 6,25. Es wurde eine Stichprobe der Größe n = 27 gezogen und der durchschnittliche Stichprobenwert des Merkmals = 12. Finden Sie das Konfidenzintervall, das die unbekannte mathematische Erwartung des untersuchten Merkmals der Allgemeinbevölkerung mit der Zuverlässigkeit = 0,99 abdeckt.

Entscheidung. Zuerst finden wir unter Verwendung der Tabelle für die Laplace-Funktion den Wert von t aus der Gleichung (t) \u003d / 2 \u003d 0,495. Basierend auf dem erhaltenen Wert t = 2,58 bestimmen wir die Genauigkeit der Schätzung (oder die halbe Länge des Konfidenzintervalls) d: d = 2,52,58 / 1,24. Daraus erhalten wir das gewünschte Konfidenzintervall: (10.76; 13.24).

statistische Hypothese allgemeine Variationstheorie

Konfidenzintervall für die Erwartung einer Normalverteilung mit unbekannter Varianz

Sei eine nach dem Normalgesetz verteilte Zufallsvariable mit einem unbekannten mathematischen Erwartungswert M, den wir mit dem Buchstaben a bezeichnen. Machen wir ein Muster der Größe n. Lassen Sie uns die durchschnittliche Stichprobe und die korrigierte Stichprobenvarianz s 2 unter Verwendung bekannter Formeln bestimmen.

Zufallswert

verteilt nach dem Studentschen Gesetz mit n - 1 Freiheitsgraden.

Die Aufgabe besteht darin, eine solche Zahl t entsprechend der gegebenen Zuverlässigkeit und der Anzahl der Freiheitsgrade n - 1 zu finden, damit die Gleichheit

oder gleichwertige Gleichstellung

Hier ist in Klammern die Bedingung geschrieben, dass der Wert des unbekannten Parameters a zu einem bestimmten Intervall gehört, das das Konfidenzintervall ist. Seine Grenzen hängen von der Zuverlässigkeit sowie von den Stichprobenparametern und s ab.

Um den Wert von t nach Größe zu bestimmen, transformieren wir Gleichheit (2) in die Form:

Nun, nach der Tabelle für eine Zufallsvariable t, verteilt nach dem Studentschen Gesetz, nach der Wahrscheinlichkeit 1 - und der Anzahl der Freiheitsgrade n - 1, finden wir t. Formel (3) gibt die Antwort auf das Problem.

Aufgabe. Bei Kontrolltests von 20 elektrischen Lampen war die durchschnittliche Betriebsdauer gleich 2000 Stunden mit einer Standardabweichung (berechnet als Quadratwurzel der korrigierten Stichprobenvarianz) gleich 11 Stunden. Es ist bekannt, dass die Dauer des Lampenbetriebs eine normalverteilte Zufallsvariable ist. Bestimmen Sie mit einer Zuverlässigkeit von 0,95 das Konfidenzintervall für den mathematischen Erwartungswert dieser Zufallsvariablen.

Entscheidung. Der Wert 1 - in diesem Fall ist gleich 0,05. Gemäß der Student-Verteilungstabelle finden wir bei einer Anzahl von Freiheitsgraden von 19: t = 2,093. Berechnen wir nun die Genauigkeit der Schätzung: 2,093121/ = 56,6. Daraus erhalten wir das gewünschte Konfidenzintervall: (1943,4; 2056,6).

Bauen wir in MS EXCEL ein Konfidenzintervall zur Schätzung des Mittelwertes der Verteilung bei bekanntem Wert der Varianz.

Natürlich die Wahl Maß an Vertrauen hängt ganz von der jeweiligen Aufgabe ab. So sollte das Vertrauen des Fluggastes in die Zuverlässigkeit des Flugzeugs natürlich höher sein als das Vertrauen des Käufers in die Zuverlässigkeit der Glühbirne.

Aufgabenstellung

Nehmen wir das mal an Population genommen haben Probe Größe N. Es wird angenommen dass Standardabweichung Diese Verteilung ist bekannt. Auf dieser Grundlage erforderlich Proben das Unbekannte bewerten Verteilungsmittel(μ, ) und konstruieren das entsprechende zweiseitig Konfidenzintervall.

Punktschätzung

Wie bekannt aus Statistiken(nennen wir es X vgl) ist ein unvoreingenommene Schätzung des Mittelwerts diese Population und hat die Verteilung N(μ;σ 2 /n).

Notiz: Was ist, wenn Sie bauen müssen Konfidenzintervall im Fall der Verteilung, die ist nicht normal? In diesem Fall kommt die Rettung, die das mit einer ausreichend großen Größe sagt Proben n aus der Verteilung nicht- normal, Stichprobenverteilung der Statistik Х av Wille CA entsprechen Normalverteilung mit Parametern N(μ;σ 2 /n).

So, Punktschätzung Mitte Verteilungswerte wir haben ist Stichprobenmittelwert, d.h. X vgl. Jetzt machen wir uns an die Arbeit Konfidenzintervall.

Aufbau eines Konfidenzintervalls

Wenn wir die Verteilung und ihre Parameter kennen, können wir normalerweise die Wahrscheinlichkeit berechnen, dass eine Zufallsvariable einen Wert aus einem bestimmten Intervall annimmt. Machen wir jetzt das Gegenteil: Finden Sie das Intervall, in das die Zufallsvariable mit einer gegebenen Wahrscheinlichkeit fällt. Zum Beispiel von Eigenschaften Normalverteilung Es ist bekannt, dass mit einer Wahrscheinlichkeit von 95% eine Zufallsvariable über verteilt wird normales Gesetz, wird in das Intervall von etwa +/- 2 fallen Mittelwert(siehe Artikel über). Dieses Intervall dient als unser Prototyp für Konfidenzintervall.

Nun wollen wir sehen, ob wir die Verteilung kennen , um dieses Intervall zu berechnen? Um die Frage zu beantworten, müssen wir die Verteilungsform und ihre Parameter angeben.

Wir kennen die Vertriebsform Normalverteilung(Denken Sie daran, dass wir darüber sprechen Stichprobenverteilung Statistiken X vgl).

Der Parameter μ ist uns unbekannt (er muss nur geschätzt werden mit Konfidenzintervall), aber wir haben seine Schätzung X cf, berechnet nach Probe, die verwendet werden können.

Der zweite Parameter ist mittlere Standardabweichung der Stichprobe wird bekannt sein, es ist gleich σ/√n.

weil kennen wir μ nicht, dann bilden wir das Intervall +/- 2 Standardabweichungen nicht von Mittelwert, aber von seiner bekannten Schätzung X vgl. Jene. beim Rechnen Konfidenzintervall davon gehen wir NICHT aus X vgl wird in das Intervall +/- 2 fallen Standardabweichungen von μ mit einer Wahrscheinlichkeit von 95 %, und wir nehmen an, dass das Intervall +/- 2 ist Standardabweichungen aus X vgl mit einer Wahrscheinlichkeit von 95 % deckt μ ab - Durchschnitt der Gesamtbevölkerung, aus denen Probe. Diese beiden Aussagen sind äquivalent, aber die zweite Aussage erlaubt uns zu konstruieren Konfidenzintervall.

Außerdem verfeinern wir das Intervall: eine Zufallsvariable, die verteilt wird normales Gesetz, fällt mit einer Wahrscheinlichkeit von 95 % in das Intervall +/- 1,960 Standardabweichungen, nicht +/- 2 Standardabweichungen. Dies kann mit der Formel berechnet werden \u003d NORM.ST.OBR ((1 + 0,95) / 2), cm. Beispieldatei Blattabstand.

Jetzt können wir eine probabilistische Aussage formulieren, die uns zur Bildung dienen wird Konfidenzintervall:
„Die Wahrscheinlichkeit, dass Einwohnerzahl gelegen von Stichprobendurchschnitt innerhalb von 1.960" Standardabweichungen des Stichprobenmittelwerts", entspricht 95 %.

Der in der Aussage erwähnte Wahrscheinlichkeitswert hat einen besonderen Namen , die verbunden ist Signifikanzniveau α (Alpha) durch einen einfachen Ausdruck Vertrauens Stufe =1 . In unserem Fall Signifikanzniveau α =1-0,95=0,05 .

Basierend auf dieser probabilistischen Aussage schreiben wir nun einen Ausdruck zum Berechnen Konfidenzintervall:

wobei Zα/2 Standard Normalverteilung(ein solcher Wert einer Zufallsvariablen z, was P(z>=Zα/2 )=α/2).

Notiz: Oberes α/2-Quantil definiert die Breite Konfidenzintervall in Standardabweichungen Stichprobenmittelwert. Oberes α/2-Quantil Standard Normalverteilung ist immer größer als 0, was sehr praktisch ist.

In unserem Fall, bei α=0,05, oberes α/2-Quantil entspricht 1,960. Für andere Signifikanzniveaus α (10 %; 1 %) oberes α/2-Quantil Zα/2 kann mit der Formel \u003d NORM.ST.OBR (1-α / 2) oder, falls bekannt, berechnet werden Vertrauens Stufe, =NORM.ST.OBR((1+Konfidenzniveau)/2).

Normalerweise beim Bauen Konfidenzintervalle für die Schätzung des Mittelwerts nur benutzen oberes α/2-Quantil und nicht verwenden niedrigeres α/2-Quantil. Dies ist möglich, weil Standard Normalverteilung symmetrisch um die x-Achse ( Dichte seiner Verbreitung etwa symmetrisch Durchschnitt, d.h. 0). Eine Berechnung ist daher nicht erforderlich unteres α/2-Quantil(Es heißt einfach α /2-Quantil), da es ist gleich oberes α/2-Quantil mit Minuszeichen.

Daran erinnern, dass unabhängig von der Form der Verteilung von x die entsprechende Zufallsvariable X vgl verteilt CA fein N(μ;σ 2 /n) (siehe Artikel über). Daher gilt im Allgemeinen der obige Ausdruck für Konfidenzintervall ist nur ungefähr. Wenn x verteilt ist über normales Gesetz N(μ;σ 2 /n), dann der Ausdruck für Konfidenzintervall ist exakt.

Berechnung des Konfidenzintervalls in MS EXCEL

Lassen Sie uns das Problem lösen.
Die Reaktionszeit einer elektronischen Komponente auf ein Eingangssignal ist eine wichtige Eigenschaft eines Geräts. Ein Techniker möchte ein Konfidenzintervall für die durchschnittliche Antwortzeit mit einem Konfidenzniveau von 95 % darstellen. Aus früherer Erfahrung weiß der Ingenieur, dass die Standardabweichung der Reaktionszeit 8 ms beträgt. Es ist bekannt, dass der Ingenieur 25 Messungen durchgeführt hat, um die Reaktionszeit abzuschätzen, der Durchschnittswert betrug 78 ms.

Entscheidung: Ein Ingenieur möchte die Reaktionszeit eines elektronischen Geräts wissen, aber er versteht, dass die Reaktionszeit nicht fest ist, sondern eine Zufallsvariable, die ihre eigene Verteilung hat. Das Beste, worauf er hoffen kann, ist also, die Parameter und die Form dieser Verteilung zu bestimmen.

Leider kennen wir vom Zustand des Problems nicht die Form der Verteilung der Antwortzeit (muss nicht sein normal). , diese Verteilung ist ebenfalls unbekannt. Nur er ist bekannt Standardabweichungσ=8. Daher können wir zwar die Wahrscheinlichkeiten nicht berechnen und konstruieren Konfidenzintervall.

Allerdings kennen wir zwar die Verteilung nicht Zeit separate Antwort, das wissen wir gem CPT, Stichprobenverteilung durchschnittliche Antwortzeit ist circa normal(Wir gehen davon aus, dass die Bedingungen CPT durchgeführt werden, weil die Größe Proben groß genug (n=25)) .

Außerdem, der Durchschnitt diese Verteilung ist gleich Mittelwert Einheitsantwortverteilungen, d.h. μ. SONDERN Standardabweichung dieser Verteilung (σ/√n) kann mit der Formel =8/ROOT(25) berechnet werden.

Es ist auch bekannt, dass der Ingenieur erhielt Punktschätzung Parameter μ gleich 78 ms (X cf). Deshalb können wir jetzt die Wahrscheinlichkeiten berechnen, weil wir kennen die Verteilungsform ( normal) und seine Parameter (Х ср und σ/√n).

Ingenieur will es wissen erwarteter Wertμ der Antwortzeitverteilung. Wie oben erwähnt, ist dieses μ gleich Erwartung der Stichprobenverteilung der durchschnittlichen Antwortzeit. Wenn wir verwenden Normalverteilung N(X cf; σ/√n), dann liegt das gesuchte μ mit einer Wahrscheinlichkeit von ca. 95 % im Bereich +/-2*σ/√n.

Signifikanzniveau gleich 1-0,95=0,05.

Finden Sie schließlich die linke und rechte Grenze Konfidenzintervall.
Linker Rand: \u003d 78-NORM.ST.INR (1-0,05 / 2) * 8 / WURZEL (25) = 74,864
Rechte Grenze: \u003d 78 + NORM. ST. OBR (1-0,05 / 2) * 8 / WURZEL (25) \u003d 81,136

Linker Rand: =NORM.INV(0.05/2, 78, 8/QUADRAT(25))
Rechte Grenze: =NORM.INV(1-0.05/2, 78, 8/QUADRAT(25))

Antworten: Konfidenzintervall beim 95 % Konfidenzniveau und σ=8ms gleich 78 +/- 3,136 ms

BEIM Beispieldatei auf Blatt Sigma bekanntlich ein Formular zur Berechnung und Konstruktion erstellt zweiseitig Konfidenzintervall für willkürlich Proben bei gegebenem σ und Signifikanzniveau.

CONFIDENCE.NORM()-Funktion

Wenn die Werte Proben sind im Sortiment B20:B79 , a Signifikanzniveau gleich 0,05; dann MS EXCEL-Formel:
=MITTELWERT(B20:B79)-VERTRAUEN(0,05,σ, ANZAHL(B20:B79))
gibt den linken Rand zurück Konfidenzintervall.

Dieselbe Grenze kann mit der Formel berechnet werden:
=MITTELWERT(B20:B79)-NORM.ST.INV(1-0.05/2)*σ/SQRT(COUNT(B20:B79))

Notiz Hinweis: Die Funktion TRUST.NORM() erschien in MS EXCEL 2010. Frühere Versionen von MS EXCEL verwendeten die Funktion TRUST().