Standardkonfidenzintervall. Konfidenzintervall

Ziel– Vermittlung von Algorithmen zur Berechnung von Konfidenzintervallen statistischer Parameter.

Bei der statistischen Verarbeitung von Daten sollten die berechneten arithmetischen Mittel, Variationskoeffizienten, Korrelationskoeffizienten, Differenzkriterien und andere Punktstatistiken quantitative Vertrauensgrenzen erhalten, die mögliche Schwankungen des Indikators nach oben und unten innerhalb des Vertrauensintervalls anzeigen.

Beispiel 3.1 . Die Verteilung von Calcium im Blutserum von Affen ist, wie zuvor festgestellt, durch die folgenden selektiven Indikatoren gekennzeichnet: = 11,94 mg%; = 0,127 mg%; n= 100. Es ist erforderlich, das Konfidenzintervall für den allgemeinen Durchschnitt ( ) mit Konfidenzwahrscheinlichkeit P = 0,95.

Der allgemeine Durchschnitt liegt mit einer gewissen Wahrscheinlichkeit im Intervall:

, wo – arithmetisches Mittel der Stichprobe; t- Schülerkriterium; ist der Fehler des arithmetischen Mittels.

Gemäß der Tabelle "Werte des Schülerkriteriums" finden wir den Wert mit einem Konfidenzniveau von 0,95 und der Anzahl der Freiheitsgrade k\u003d 100-1 \u003d 99. Es ist gleich 1,982. Zusammen mit den Werten des arithmetischen Mittels und des statistischen Fehlers setzen wir es in die Formel ein:

oder 11.69
12,19

Somit kann mit einer Wahrscheinlichkeit von 95 % argumentiert werden, dass der allgemeine Durchschnitt dieser Normalverteilung zwischen 11,69 und 12,19 mg% liegt.

Beispiel 3.2 . Bestimmen Sie die Grenzen des 95-%-Konfidenzintervalls für die allgemeine Varianz ( ) Verteilung von Calcium im Blut von Affen, sofern dies bekannt ist
= 1,60, mit n = 100.

Um das Problem zu lösen, können Sie die folgende Formel verwenden:

Woher ist der statistische Fehler der Varianz.

Ermitteln Sie den Stichprobenabweichungsfehler mithilfe der Formel:
. Es ist gleich 0,11. Bedeutung t- Kriterium mit einer Konfidenzwahrscheinlichkeit von 0,95 und der Anzahl der Freiheitsgrade k= 100–1 = 99 ist aus dem vorherigen Beispiel bekannt.

Wenden wir die Formel an und erhalten:

oder 1,38
1,82

Ein genaueres Konfidenzintervall für die allgemeine Varianz kann mit konstruiert werden (Chi-Quadrat) - Pearson-Test. Kritische Punkte für dieses Kriterium sind in einer speziellen Tabelle angegeben. Bei Verwendung des Kriteriums ein zweiseitiges Signifikanzniveau wird verwendet, um ein Konfidenzintervall zu erstellen. Für die Untergrenze wird das Signifikanzniveau durch die Formel berechnet
, für das Obere
. Zum Beispiel für ein Konfidenzniveau = 0,99= 0,010,= 0,990. Dementsprechend nach der Tabelle der Verteilung der kritischen Werte , mit den berechneten Konfidenzniveaus und der Anzahl der Freiheitsgrade k= 100 – 1= 99, finde die Werte
und
. Wir bekommen
gleich 135,80 und
gleich 70.06.

Um die Vertrauensgrenzen der allgemeinen Varianz zu finden, verwenden Sie wir verwenden die Formeln: für die untere Grenze
, für die Obergrenze
. Ersetzen Sie die gefundenen Werte durch die Aufgabendaten in Formeln:
= 1,17;
= 2,26. Also mit einem Konfidenzniveau P= 0,99 oder 99 % liegt die allgemeine Varianz im Bereich von 1,17 bis einschließlich 2,26 mg %.

Beispiel 3.3 . Unter den 1000 Weizensamen aus der Charge, die am Aufzug ankamen, wurden 120 mit Mutterkorn infizierte Samen gefunden. Es ist notwendig, die wahrscheinlichen Grenzen des Gesamtanteils infizierter Samen in einer gegebenen Weizenpartie zu bestimmen.

Vertrauensgrenzen für den allgemeinen Anteil für alle möglichen Werte sollten durch die Formel bestimmt werden:

,

Woher n ist die Anzahl der Beobachtungen; m die absolute Zahl einer der Gruppen ist; t ist die normalisierte Abweichung.

Der Probenanteil an infiziertem Saatgut ist gleich
oder 12%. Mit einem Konfidenzniveau R= 95 % normalisierte Abweichung ( t-Schülerkriterium für k =
)t = 1,960.

Wir setzen die verfügbaren Daten in die Formel ein:

Daher sind die Grenzen des Konfidenzintervalls = 0,122–0,041 = 0,081 oder 8,1 %; = 0,122 + 0,041 = 0,163 oder 16,3 %.

Somit kann mit einem Konfidenzniveau von 95 % festgestellt werden, dass der Gesamtanteil an infiziertem Saatgut zwischen 8,1 und 16,3 % liegt.

Beispiel 3.4 . Der Variationskoeffizient, der die Variation von Calcium (mg%) im Blutserum von Affen charakterisiert, betrug 10,6 %. Stichprobengröße n= 100. Es ist notwendig, die Grenzen des 95%-Konfidenzintervalls für den allgemeinen Parameter zu bestimmen Lebenslauf.

Vertrauensgrenzen für den allgemeinen Variationskoeffizienten Lebenslauf werden durch die folgenden Formeln bestimmt:

und
, wo K Zwischenwert berechnet durch die Formel
.

Das mit einem Vertrauensniveau zu wissen R= 95 % normalisierte Abweichung (Student's t-test for k =
)t = 1,960, Wert vorberechnen ZU:

.

oder 9,3 %

oder 12,3 %

Somit liegt der allgemeine Variationskoeffizient mit einer Konfidenzwahrscheinlichkeit von 95 % im Bereich von 9,3 bis 12,3 %. Bei Wiederholungsproben wird der Variationskoeffizient in 95 von 100 Fällen 12,3 % nicht überschreiten und 9,3 % nicht unterschreiten.

Fragen zur Selbstkontrolle:

Aufgaben zur selbstständigen Lösung.

1. Der durchschnittliche Fettanteil in Milch für die Laktation von Kühen von Kholmogory-Kreuzungen war wie folgt: 3,4; 3,6; 3.2; 3.1; 2,9; 3,7; 3.2; 3,6; 4,0; 3.4; 4.1; 3,8; 3.4; 4,0; 3.3; 3,7; 3,5; 3,6; 3.4; 3.8. Legen Sie die Konfidenzintervalle für den Gesamtmittelwert auf einem Konfidenzniveau von 95 % (20 Punkte) fest.

2. An 400 Pflanzen von Hybridroggen erschienen die ersten Blüten im Durchschnitt 70,5 Tage nach der Aussaat. Die Standardabweichung betrug 6,9 Tage. Bestimmen Sie den Fehler des Mittelwerts und die Konfidenzintervalle für den Populationsmittelwert und die Varianz auf einem Signifikanzniveau W= 0,05 und W= 0,01 (25 Punkte).

3. Bei der Untersuchung der Blattlänge von 502 Exemplaren von Gartenerdbeeren wurden folgende Daten erhalten: = 7,86 cm; σ = 1,32 cm, \u003d ± 0,06 cm Bestimmen Sie die Konfidenzintervalle für das arithmetische Mittel der Grundgesamtheit mit Signifikanzniveaus von 0,01; 0,02; 0,05. (25 Punkte).

4. Bei der Untersuchung von 150 erwachsenen Männern betrug die durchschnittliche Körpergröße 167 cm und σ \u003d 6 cm Was sind die Grenzen des allgemeinen Durchschnitts und der allgemeinen Varianz mit einer Konfidenzwahrscheinlichkeit von 0,99 und 0,95? (25 Punkte).

5. Die Verteilung von Calcium im Blutserum von Affen ist durch folgende selektive Indikatoren gekennzeichnet: = 11,94 mg%, σ = 1,27, n = 100. Zeichnen Sie ein 95 %-Konfidenzintervall für den Populationsmittelwert dieser Verteilung. Berechnen Sie den Variationskoeffizienten (25 Punkte).

6. Es wurde der Gesamtstickstoffgehalt im Blutplasma von Albino-Ratten im Alter von 37 und 180 Tagen untersucht. Die Ergebnisse werden in Gramm pro 100 cm 3 Plasma ausgedrückt. Im Alter von 37 Tagen hatten 9 Ratten: 0,98; 0,83; 0,99; 0,86; 0,90; 0,81; 0,94; 0,92; 0,87. Im Alter von 180 Tagen hatten 8 Ratten: 1,20; 1,18; 1,33; 1,21; 1,20; 1,07; 1,13; 1.12. Legen Sie Konfidenzintervalle für die Differenz mit einem Konfidenzniveau von 0,95 (50 Punkte) fest.

7. Bestimmen Sie die Grenzen des 95%-Konfidenzintervalls für die allgemeine Varianz der Verteilung von Calcium (mg%) im Blutserum von Affen, wenn für diese Verteilung der Stichprobenumfang n = 100 beträgt, den statistischen Fehler der Stichprobenvarianz s σ 2 = 1,60 (40 Punkte).

8. Bestimmen Sie die Grenzen des 95%-Konfidenzintervalls für die allgemeine Varianz der Verteilung von 40 Weizenähren entlang der Länge (σ 2 = 40,87 mm 2). (25 Punkte).

9. Rauchen gilt als Hauptfaktor für die Prädisposition für obstruktive Lungenerkrankungen. Passivrauchen wird nicht als ein solcher Faktor angesehen. Wissenschaftler stellten die Sicherheit des Passivrauchens in Frage und untersuchten die Atemwege bei Nichtrauchern, Passiv- und Aktivrauchern. Um den Zustand der Atemwege zu charakterisieren, haben wir einen der Indikatoren für die Funktion der äußeren Atmung genommen - die maximale volumetrische Geschwindigkeit der Ausatmungsmitte. Eine Abnahme dieses Indikators ist ein Zeichen für eine beeinträchtigte Durchgängigkeit der Atemwege. Umfragedaten sind in der Tabelle dargestellt.

Anzahl der untersuchten

Maximale mittelexspiratorische Flussrate, l/s

Standardabweichung

Nichtraucher

in einem Nichtraucherbereich arbeiten

in einem verrauchten Raum arbeiten

Raucher

Rauchen einer kleinen Anzahl von Zigaretten

durchschnittliche Anzahl von Zigarettenrauchern

eine große Anzahl von Zigaretten rauchen

Ermitteln Sie aus der Tabelle die 95 %-Konfidenzintervalle für den allgemeinen Mittelwert und die allgemeine Varianz für jede der Gruppen. Welche Unterschiede gibt es zwischen den Gruppen? Stellen Sie die Ergebnisse grafisch dar (25 Punkte).

10. Bestimmen Sie die Grenzen der 95 %- und 99 %-Konfidenzintervalle für die allgemeine Varianz der Anzahl Ferkel in 64 Abferkelungen, falls der statistische Fehler der Stichprobenvarianz s σ 2 = 8,25 (30 Punkte).

11. Es ist bekannt, dass das Durchschnittsgewicht von Kaninchen 2,1 kg beträgt. Bestimmen Sie die Grenzen der 95 %- und 99 %-Konfidenzintervalle für den allgemeinen Mittelwert und die Varianz wann n= 30, σ = 0,56 kg (25 Punkte).

12. Bei 100 Ähren wurde der Korngehalt der Ähre gemessen ( X), Spikelänge ( Y) und die Getreidemasse in der Ähre ( Z). Finden Sie Konfidenzintervalle für den allgemeinen Mittelwert und die Varianz für P 1 = 0,95, P 2 = 0,99, P 3 = 0,999 wenn = 19, = 6,766 cm, = 0,554 g; σ x 2 = 29,153, σ y 2 = 2,111, σ z 2 = 0,064 (25 Punkte).

13. In zufällig ausgewählten 100 Ähren von Winterweizen wurde die Anzahl der Ährchen gezählt. Das Stichprobenset war durch folgende Indikatoren gekennzeichnet: = 15 Ährchen und σ = 2,28 Stk. Bestimmen Sie die Genauigkeit, mit der das Durchschnittsergebnis erhalten wird ( ) und stellen Sie das Konfidenzintervall für den Gesamtmittelwert und die Varianz auf Signifikanzniveaus von 95 % und 99 % dar (30 Punkte).

14. Die Anzahl der Rippen auf den Schalen einer fossilen Molluske Orthambonite Kalligramm:

Es ist bekannt, dass n = 19, σ = 4,25. Bestimmen Sie die Grenzen des Konfidenzintervalls für den allgemeinen Mittelwert und die allgemeine Varianz auf einem Signifikanzniveau W = 0,01 (25 Punkte).

15. Zur Bestimmung der Milchleistung auf einem kommerziellen Milchviehbetrieb wurde täglich die Produktivität von 15 Kühen bestimmt. Nach den Jahresdaten gab jede Kuh im Durchschnitt folgende Milchmenge pro Tag (l): 22; neunzehn; 25; 20; 27; 17; dreißig; 21; achtzehn; 24; 26; 23; 25; 20; 24. Zeichnen Sie Konfidenzintervalle für die allgemeine Varianz und das arithmetische Mittel. Können wir erwarten, dass die durchschnittliche jährliche Milchleistung pro Kuh 10.000 Liter beträgt? (50 Punkte).

16. Um den durchschnittlichen Weizenertrag für den Betrieb zu ermitteln, wurden Stichproben von 1, 3, 2, 5, 2, 6, 1, 3, 2, 11 und 2 ha gemäht. Der Ertrag (c/ha) der Parzellen betrug 39,4; 38; 35,8; 40; 35; 42,7; 39,3; 41,6; 33; 42; 29 bzw. Zeichnen Sie Konfidenzintervalle für die allgemeine Varianz und das arithmetische Mittel. Kann man erwarten, dass der durchschnittliche Ertrag für den landwirtschaftlichen Betrieb 42 ct/ha beträgt? (50 Punkte).

In der Statistik gibt es zwei Arten von Schätzungen: Punkt und Intervall. Punktschätzung ist eine Einzelstichprobenstatistik, die zum Schätzen eines Populationsparameters verwendet wird. Zum Beispiel der Stichprobenmittelwert ist eine Punktschätzung des Mittelwerts der Grundgesamtheit und der Stichprobenvarianz S2- Punktschätzung der Populationsvarianz σ2. Es wurde gezeigt, dass der Stichprobenmittelwert eine unverzerrte Schätzung der Bevölkerungserwartung ist. Der Stichprobenmittelwert wird als unverzerrt bezeichnet, da der Mittelwert aller Stichprobenmittelwerte (bei gleicher Stichprobengröße n) entspricht der mathematischen Erwartung der Allgemeinbevölkerung.

Zur Stichprobenvarianz S2 wurde zu einem unvoreingenommenen Schätzer der Populationsvarianz σ2, sollte der Nenner der Stichprobenvarianz gleich gesetzt werden n – 1 , und nicht n. Mit anderen Worten, die Populationsvarianz ist der Durchschnitt aller möglichen Stichprobenvarianzen.

Bei der Schätzung von Bevölkerungsparametern sollte berücksichtigt werden, dass Stichprobenstatistiken wie z , hängen von bestimmten Proben ab. Um dieser Tatsache Rechnung zu tragen, zu erhalten Intervallschätzung die mathematische Erwartung der Allgemeinbevölkerung Analyse der Verteilung der Stichprobenmittelwerte (weitere Einzelheiten siehe). Das konstruierte Intervall ist durch ein bestimmtes Konfidenzniveau gekennzeichnet, das die Wahrscheinlichkeit darstellt, dass der wahre Parameter der Grundgesamtheit korrekt geschätzt wird. Ähnliche Konfidenzintervalle können verwendet werden, um den Anteil eines Merkmals zu schätzen R und die wichtigste verteilte Masse der allgemeinen Bevölkerung.

Hinweis im Format oder herunterladen, Beispiele im Format

Konstruktion eines Konfidenzintervalls für die mathematische Erwartung der Allgemeinbevölkerung mit bekannter Standardabweichung

Erstellen eines Konfidenzintervalls für den Anteil eines Merkmals in der Allgemeinbevölkerung

In diesem Abschnitt wird das Konzept eines Konfidenzintervalls auf kategoriale Daten ausgedehnt. Auf diese Weise können Sie den Anteil des Merkmals an der Gesamtbevölkerung abschätzen R mit Probeanteil RS= X/n. Wie gesagt, wenn die Werte nR und n(1 - p) die Zahl 5 überschreiten, kann die Binomialverteilung durch die Normalverteilung angenähert werden. Daher, um den Anteil eines Merkmals in der Allgemeinbevölkerung abzuschätzen R Es ist möglich, ein Intervall zu konstruieren, dessen Konfidenzniveau gleich ist (1 - α) x 100 %.


wo pS- Stichprobenanteil des Merkmals, gleich X/n, d.h. die Anzahl der Erfolge dividiert durch die Stichprobengröße, R- Anteil des Merkmals an der Allgemeinbevölkerung, Z ist der kritische Wert der standardisierten Normalverteilung, n- Probengröße.

Beispiel 3 Nehmen wir an, dass aus dem Informationssystem eine Stichprobe extrahiert wird, die aus 100 im letzten Monat abgeschlossenen Rechnungen besteht. Nehmen wir an, dass 10 dieser Rechnungen falsch sind. Auf diese Weise, R= 10/100 = 0,1. Das 95%-Konfidenzniveau entspricht dem kritischen Wert Z = 1,96.

Somit besteht eine Wahrscheinlichkeit von 95 %, dass zwischen 4,12 % und 15,88 % der Rechnungen Fehler enthalten.

Bei einer gegebenen Stichprobengröße scheint das Konfidenzintervall, das den Anteil des Merkmals in der Allgemeinbevölkerung enthält, breiter zu sein als bei einer kontinuierlichen Zufallsvariablen. Dies liegt daran, dass Messungen einer kontinuierlichen Zufallsvariablen mehr Informationen enthalten als Messungen kategorialer Daten. Mit anderen Worten, kategoriale Daten, die nur zwei Werte annehmen, enthalten unzureichende Informationen, um die Parameter ihrer Verteilung abzuschätzen.

BEIMBerechnung von Schätzungen aus einer endlichen Grundgesamtheit

Schätzung der mathematischen Erwartung. Korrekturfaktor für die Endpopulation ( fpc) wurde verwendet, um den Standardfehler um den Faktor zu reduzieren. Bei der Berechnung von Konfidenzintervallen für Grundgesamtheitsparameterschätzungen wird in Situationen, in denen Stichproben ohne Zurücklegen gezogen werden, ein Korrekturfaktor angewendet. Somit ist das Konfidenzintervall für die mathematische Erwartung mit einem Konfidenzniveau gleich (1 - α) x 100 %, wird nach folgender Formel berechnet:

Beispiel 4 Um die Anwendung eines Korrekturfaktors für eine endliche Grundgesamtheit zu veranschaulichen, kehren wir zu dem Problem der Berechnung des Konfidenzintervalls für den durchschnittlichen Rechnungsbetrag zurück, das in Beispiel 3 oben diskutiert wurde: Angenommen, ein Unternehmen stellt 5.000 Rechnungen pro Monat aus, und X=110,27 US-Dollar, S= 28,95 $ N = 5000, n = 100, α = 0,05, t99 = 1,9842. Nach Formel (6) erhalten wir:

Schätzung des Anteils des Features. Bei Auswahl von „No Return“ das Konfidenzintervall für den Anteil des Merkmals, dessen Konfidenzniveau gleich ist (1 - α) x 100 %, wird nach folgender Formel berechnet:

Konfidenzintervalle und ethische Fragen

Bei der Stichprobenziehung einer Grundgesamtheit und der Formulierung statistischer Schlussfolgerungen treten häufig ethische Probleme auf. Die wichtigste ist, wie die Konfidenzintervalle und Punktschätzungen von Stichprobenstatistiken übereinstimmen. Das Veröffentlichen von Punktschätzungen ohne Angabe der geeigneten Konfidenzintervalle (normalerweise bei 95 % Konfidenzniveau) und der Stichprobengröße, von der sie abgeleitet werden, kann irreführend sein. Dies kann dem Benutzer den Eindruck vermitteln, dass eine Punktschätzung genau das ist, was er braucht, um die Eigenschaften der gesamten Population vorherzusagen. Daher ist es notwendig zu verstehen, dass bei jeder Forschung nicht Punkt-, sondern Intervallschätzungen im Vordergrund stehen sollten. Außerdem sollte besonderes Augenmerk auf die richtige Wahl der Probengrößen gelegt werden.

Gegenstand statistischer Manipulationen sind meistens die Ergebnisse soziologischer Bevölkerungsumfragen zu verschiedenen politischen Themen. Gleichzeitig werden die Ergebnisse der Umfrage auf den Titelseiten der Zeitungen platziert und der Stichprobenfehler und die Methodik der statistischen Analyse irgendwo in der Mitte abgedruckt. Um die Gültigkeit der erhaltenen Punktschätzungen zu beweisen, ist es notwendig, den Stichprobenumfang, auf dessen Grundlage sie erhalten wurden, die Grenzen des Konfidenzintervalls und sein Signifikanzniveau anzugeben.

Nächste Anmerkung

Es werden Materialien aus dem Buch Levin et al. Statistics for Managers verwendet. - M.: Williams, 2004. - p. 448–462

Zentraler Grenzwertsatz besagt, dass bei einem ausreichend großen Stichprobenumfang die Stichprobenverteilung der Mittelwerte durch eine Normalverteilung angenähert werden kann. Diese Eigenschaft hängt nicht von der Art der Bevölkerungsverteilung ab.

In den vorangegangenen Unterabschnitten haben wir uns mit der Frage der Schätzung des unbekannten Parameters beschäftigt a eine Nummer. Eine solche Bewertung wird "Punkt" genannt. Bei einer Reihe von Aufgaben ist es erforderlich, nicht nur nach dem Parameter zu suchen a geeigneten Zahlenwert, sondern bewerten Sie auch dessen Genauigkeit und Zuverlässigkeit. Es muss bekannt sein, zu welchen Fehlern die Parametersubstitution führen kann a seine Punktschätzung a und mit welchem ​​Grad an Vertrauen können wir erwarten, dass diese Fehler nicht über bekannte Grenzen hinausgehen?

Probleme dieser Art sind besonders relevant für eine kleine Anzahl von Beobachtungen, wenn die Punktschätzung und in ist weitgehend zufällig und eine ungefähre Ersetzung von a durch a kann zu schwerwiegenden Fehlern führen.

Um eine Vorstellung von der Genauigkeit und Zuverlässigkeit der Schätzung zu geben a,

In der mathematischen Statistik werden sogenannte Konfidenzintervalle und Konfidenzwahrscheinlichkeiten verwendet.

Let für den Parameter a abgeleitet aus erfahrungsneutralen Schätzungen a. Wir wollen den möglichen Fehler in diesem Fall abschätzen. Lassen Sie uns eine ausreichend große Wahrscheinlichkeit p zuweisen (z. B. p = 0,9, 0,95 oder 0,99), sodass ein Ereignis mit der Wahrscheinlichkeit p als praktisch sicher angesehen werden kann, und einen Wert von s dafür finden

Dann der Bereich der praktisch möglichen Werte des Fehlers, der beim Austausch auftritt a auf der a, wird ± s sein; große absolute Fehler treten nur mit einer kleinen Wahrscheinlichkeit a = 1 - p auf. Schreiben wir (14.3.1) um als:

Gleichheit (14.3.2) bedeutet, dass mit Wahrscheinlichkeit p der unbekannte Wert des Parameters ist a fällt in das Intervall

In diesem Fall sollte ein Umstand beachtet werden. Zuvor haben wir wiederholt die Wahrscheinlichkeit betrachtet, dass eine Zufallsvariable in ein bestimmtes nicht zufälliges Intervall fällt. Hier ist die Situation anders: a nicht zufällig, sondern zufälliges Intervall / r. Zufällig seine Position auf der x-Achse, bestimmt durch seinen Mittelpunkt a; im Allgemeinen ist auch die Länge des Intervalls 2s zufällig, da der Wert von s in der Regel aus experimentellen Daten berechnet wird. Daher wäre es in diesem Fall besser, den Wert von p nicht als Wahrscheinlichkeit zu interpretieren, den Punkt zu "treffen". a in das Intervall / p, sondern als Wahrscheinlichkeit, dass ein zufälliges Intervall / p den Punkt abdeckt a(Abb. 14.3.1).

Reis. 14.3.1

Die Wahrscheinlichkeit p wird aufgerufen Vertrauensstufe, und das Intervall / p - Konfidenzintervall. Intervallgrenzen Wenn. ein x \u003d ein- s und ein 2 = ein + und gerufen werden Grenzen vertrauen.

Lassen Sie uns das Konzept eines Konfidenzintervalls noch einmal interpretieren: Es kann als ein Intervall von Parameterwerten betrachtet werden a, mit experimentellen Daten kompatibel sind und ihnen nicht widersprechen. In der Tat, wenn wir uns darauf einigen, ein Ereignis mit einer Wahrscheinlichkeit a = 1-p als praktisch unmöglich zu betrachten, dann sind diese Werte des Parameters a für die ein - ein> s muss als Widerspruch zu den experimentellen Daten erkannt werden, und diejenigen, für die |a - a ein t na 2 .

Let für den Parameter a es gibt eine unvoreingenommene Schätzung a. Wenn wir das Verteilungsgesetz der Menge kennen würden a, wäre das Problem, das Konfidenzintervall zu finden, ganz einfach: Es würde ausreichen, einen Wert von s zu finden, für den

Die Schwierigkeit liegt darin, dass das Verteilungsgesetz der Schätzung a hängt vom Gesetz der Mengenverteilung ab X und folglich auf seinen unbekannten Parametern (insbesondere auf dem Parameter selbst a).

Um diese Schwierigkeit zu umgehen, kann man den folgenden grob angenäherten Trick anwenden: Ersetzen Sie die unbekannten Parameter im Ausdruck für s durch ihre Punktschätzungen. Mit relativ vielen Experimenten P(ca. 20 ... 30) Diese Technik liefert normalerweise zufriedenstellende Ergebnisse in Bezug auf die Genauigkeit.

Betrachten Sie als Beispiel das Problem des Konfidenzintervalls für den mathematischen Erwartungswert.

Produzieren lassen P x, deren Merkmale die mathematische Erwartung sind t und Varianz D- Unbekannt. Für diese Parameter wurden die folgenden Schätzungen erhalten:

Für den mathematischen Erwartungswert ist es erforderlich, ein Konfidenzintervall / ð zu bilden, das der Konfidenzwahrscheinlichkeit ð entspricht t Mengen x.

Bei der Lösung dieses Problems nutzen wir die Tatsache, dass die Menge t ist die Summe P unabhängige identisch verteilte Zufallsvariablen X Std und nach dem zentralen Grenzwertsatz für hinreichend groß P sein Verteilungsgesetz ist nahezu normal. In der Praxis kann das Verteilungsgesetz der Summe selbst bei einer relativ kleinen Anzahl von Begriffen (in der Größenordnung von 10 ... 20) ungefähr als normal angesehen werden. Wir gehen davon aus, dass der Wert t nach dem normalen Gesetz verteilt. Die Eigenschaften dieses Gesetzes – der mathematische Erwartungswert und die Varianz – sind jeweils gleich t und

(siehe Kapitel 13 Unterabschnitt 13.3). Nehmen wir an, dass der Wert D ist uns bekannt und wir werden einen solchen Wert Ep finden, für den wir finden

Unter Anwendung von Formel (6.3.5) aus Kapitel 6 drücken wir die Wahrscheinlichkeit auf der linken Seite von (14.3.5) durch die Normalverteilungsfunktion aus

wo ist die Standardabweichung der Schätzung t.

Aus der Gleichung

Finden Sie den Sp-Wert:

wobei arg Ä* (x) die Umkehrfunktion von Ä* ist (X), jene. ein solcher Wert des Arguments, für den die Normalverteilungsfunktion gleich ist X.

Streuung D, durch die der Wert ausgedrückt wird a 1P wissen wir nicht genau; Als ungefähren Wert können Sie die Schätzung verwenden D(14.3.4) und setzen ungefähr:

Damit ist das Problem der Konstruktion eines Konfidenzintervalls näherungsweise gelöst, das gleich ist zu:

wobei gp durch Formel (14.3.7) definiert ist.

Um eine umgekehrte Interpolation in den Tabellen der Funktion Ф * (l) bei der Berechnung von s p zu vermeiden, ist es zweckmäßig, eine spezielle Tabelle (Tabelle 14.3.1) zu erstellen, in der die Werte der Größe aufgeführt sind

abhängig von r. Der Wert (p bestimmt für das Normalgesetz die Anzahl der Standardabweichungen, die rechts und links vom Streuzentrum zurückgestellt werden müssen, damit die Wahrscheinlichkeit, in den resultierenden Bereich zu fallen, gleich p ist.

Durch den Wert von 7 p wird das Konfidenzintervall ausgedrückt als:

Tabelle 14.3.1

Beispiel 1. 20 Experimente wurden mit dem Wert durchgeführt x; die Ergebnisse sind in der Tabelle gezeigt. 14.3.2.

Tabelle 14.3.2

Es ist erforderlich, einen Schätzwert für die mathematische Erwartung der Menge zu finden X und ein Konfidenzintervall konstruieren, das einem Konfidenzniveau p = 0,8 entspricht.

Entscheidung. Wir haben:

Wenn wir für den Ursprung n: = 10 wählen, finden wir gemäß der dritten Formel (14.2.14) die unverzerrte Schätzung D :

Laut Tabelle 14.3.1 finden wir

Grenzen des Selbstvertrauens:

Konfidenzintervall:

Parameterwerte t, in diesem Intervall liegen, sind mit den in der Tabelle angegebenen experimentellen Daten kompatibel. 14.3.2.

Auf ähnliche Weise kann ein Konfidenzintervall für die Varianz konstruiert werden.

Produzieren lassen P unabhängige Experimente mit einer Zufallsvariablen X mit unbekannten Parametern aus und A und für die Varianz D Die unverzerrte Schätzung wird erhalten:

Es ist erforderlich, ungefähr ein Konfidenzintervall für die Varianz zu bilden.

Aus Formel (14.3.11) ist ersichtlich, dass der Wert D repräsentiert

Menge P Zufallsvariablen der Form . Diese Werte sind es nicht

unabhängig, da jede von ihnen die Menge enthält t, abhängig von allen anderen. Es kann jedoch gezeigt werden, dass als P das Verteilungsgesetz ihrer Summe ist ebenfalls nahezu normal. Fast bei P= 20...30 kann es schon als normal angesehen werden.

Nehmen wir an, dass dies so ist, und finden Sie die Eigenschaften dieses Gesetzes heraus: den mathematischen Erwartungswert und die Varianz. Da die Partitur D- also unvoreingenommen M[D] = D.

Abweichungsberechnung D D ist mit relativ aufwendigen Berechnungen verbunden, daher geben wir seinen Ausdruck ohne Herleitung an:

wo c 4 - das vierte zentrale Moment der Menge x.

Um diesen Ausdruck zu verwenden, müssen Sie die Werte 4 und ersetzen D(zumindest ungefähr). Anstatt D Sie können die Auswertung verwenden D. Prinzipiell kann das vierte zentrale Moment auch durch seine Schätzung ersetzt werden, beispielsweise durch einen Wert der Form:

ein solcher Ersatz ergibt jedoch eine extrem geringe Genauigkeit, da im Allgemeinen mit einer begrenzten Anzahl von Experimenten Momente höherer Ordnung mit großen Fehlern bestimmt werden. In der Praxis kommt es jedoch häufig vor, dass die Form des Verteilungsgesetzes der Menge entspricht X im Voraus bekannt: nur seine Parameter sind unbekannt. Dann können wir versuchen, u4 in Form von auszudrücken D.

Nehmen wir den häufigsten Fall, wenn der Wert X nach dem normalen Gesetz verteilt. Dann wird sein viertes zentrales Moment durch die Varianz ausgedrückt (siehe Kapitel 6 Unterabschnitt 6.2);

und Formel (14.3.12) ergibt oder

Ersetzen in (14.3.14) das Unbekannte D seine Einschätzung D, erhalten wir: woher

Das Moment u 4 kann ausgedrückt werden als D auch in einigen anderen Fällen, wenn die Verteilung der Menge X ist nicht normal, aber sein Aussehen ist bekannt. Für das Gesetz der gleichmäßigen Dichte (siehe Kapitel 5) gilt beispielsweise:

wobei (a, P) das Intervall ist, in dem das Gesetz gegeben ist.

Somit,

Nach der Formel (14.3.12) erhalten wir: von wo wir ungefähr finden

In Fällen, in denen die Form des Verteilungsgesetzes des Werts 26 unbekannt ist, wird bei der Schätzung des Werts von a /) dennoch empfohlen, die Formel (14.3.16) zu verwenden, wenn kein besonderer Grund zu der Annahme besteht, dass dieses Gesetz gilt unterscheidet sich stark von der normalen (hat eine merkliche positive oder negative Kurtosis).

Wenn der ungefähre Wert von a /) auf die eine oder andere Weise erhalten wird, dann ist es möglich, ein Konfidenzintervall für die Varianz auf die gleiche Weise zu konstruieren, wie wir es für den mathematischen Erwartungswert konstruiert haben:

wobei der von der gegebenen Wahrscheinlichkeit p abhängige Wert in Tabelle zu finden ist. 14.3.1.

Beispiel 2. Finden Sie ein Konfidenzintervall von ungefähr 80 % für die Varianz einer Zufallsvariablen X unter den Bedingungen von Beispiel 1, wenn bekannt ist, dass der Wert X nach einem Gesetz verteilt, das der Normalität nahe kommt.

Entscheidung. Der Wert bleibt derselbe wie in Tabelle. 14.3.1:

Nach der Formel (14.3.16)

Nach der Formel (14.3.18) finden wir das Vertrauensintervall:

Der entsprechende Wertebereich der Standardabweichung: (0,21; 0,29).

14.4. Exakte Methoden zur Bildung von Konfidenzintervallen für die Parameter einer normalgesetzlich verteilten Zufallsvariablen

Im vorangegangenen Unterabschnitt haben wir grob angenäherte Methoden zum Konstruieren von Konfidenzintervallen für den Mittelwert und die Varianz betrachtet. Hier geben wir eine Vorstellung von den genauen Methoden zur Lösung des gleichen Problems. Wir betonen, dass es zur genauen Bestimmung der Konfidenzintervalle unbedingt erforderlich ist, die Form des Verteilungsgesetzes der Größe im Voraus zu kennen x, während dies für die Anwendung von Näherungsverfahren nicht erforderlich ist.

Die Idee von exakten Methoden zur Konstruktion von Konfidenzintervallen ist wie folgt. Jedes Konfidenzintervall wird aus der Bedingung gefunden, die die Wahrscheinlichkeit der Erfüllung einiger Ungleichungen ausdrückt, zu denen die für uns interessierende Schätzung gehört a. Notenverteilungsgesetz a im allgemeinen Fall hängt von den unbekannten Parametern der Größe ab x. Manchmal ist es jedoch möglich, Ungleichungen aus einer Zufallsvariablen zu übergeben a zu einer anderen Funktion von beobachteten Werten X p X 2, ..., X p. deren Verteilungsgesetz nicht von unbekannten Parametern abhängt, sondern nur von der Anzahl der Versuche und von der Form des Verteilungsgesetzes der Größe x. Zufallsvariablen dieser Art spielen in der mathematischen Statistik eine große Rolle; sie sind am ausführlichsten für den Fall einer Normalverteilung der Größe untersucht worden x.

Beispielsweise wurde nachgewiesen, dass bei einer Normalverteilung der Menge X Zufallswert

unterliegt der sog Studentenvertriebsrecht mit P- 1 Freiheitsgrade; die Dichte dieses Gesetzes hat die Form

wobei G(x) die bekannte Gammafunktion ist:

Es ist auch bewiesen, dass die Zufallsvariable

hat "Verteilung % 2 " mit P- 1 Freiheitsgrade (siehe Kapitel 7), deren Dichte durch die Formel ausgedrückt wird

Ohne auf die Ableitungen der Verteilungen (14.4.2) und (14.4.4) einzugehen, werden wir zeigen, wie sie bei der Konstruktion von Konfidenzintervallen für die Parameter angewendet werden können Ty D.

Produzieren lassen P unabhängige Experimente mit einer Zufallsvariablen x, verteilt nach dem normalen Gesetz mit unbekannten Parametern TIO. Für diese Parameter Schätzungen

Es ist erforderlich, für beide Parameter Konfidenzintervalle entsprechend der Konfidenzwahrscheinlichkeit p zu konstruieren.

Konstruieren wir zunächst ein Konfidenzintervall für die mathematische Erwartung. Es ist natürlich, dieses Intervall symmetrisch zu nehmen t; bezeichne mit s p die halbe Länge des Intervalls. Der Wert von sp muss so gewählt werden, dass die Bedingung

Versuchen wir, die linke Seite der Gleichheit (14.4.5) von einer Zufallsvariablen weiterzugeben t zu einer Zufallsvariablen T, verteilt nach Studentengesetz. Dazu multiplizieren wir beide Teile der Ungleichung |m-w?|

auf einen positiven Wert: oder, unter Verwendung der Notation (14.4.1),

Lassen Sie uns eine Zahl / p finden, sodass der Wert / p aus der Bedingung gefunden werden kann

Aus Formel (14.4.2) ist ersichtlich, dass (1) eine gerade Funktion ist, also ergibt (14.4.8).

Gleichheit (14.4.9) bestimmt den Wert / p in Abhängigkeit von p. Wenn Sie eine Tabelle mit ganzzahligen Werten zur Verfügung haben

dann kann der Wert / p durch Rückwärtsinterpolation in der Tabelle gefunden werden. Bequemer ist es jedoch, sich vorab eine Wertetabelle / p zusammenzustellen. Eine solche Tabelle befindet sich im Anhang (Tabelle 5). Diese Tabelle zeigt die Werte in Abhängigkeit von der Konfidenzwahrscheinlichkeit p und der Anzahl der Freiheitsgrade P- 1. Nachdem ich / p gemäß der Tabelle bestimmt habe. 5 und vorausgesetzt

wir finden die halbe Breite des Konfidenzintervalls / p und das Intervall selbst

Beispiel 1. 5 unabhängige Experimente wurden mit einer Zufallsvariablen durchgeführt x, normalverteilt mit unbekannten Parametern t und über. Die Ergebnisse der Experimente sind in der Tabelle angegeben. 14.4.1.

Tabelle 14.4.1

Finden Sie einen Kostenvoranschlag t für die mathematische Erwartung und konstruieren Sie ein 90% -Konfidenzintervall / p dafür (d. h. das Intervall, das der Konfidenzwahrscheinlichkeit p \u003d 0,9 entspricht).

Entscheidung. Wir haben:

Gemäß Tabelle 5 der Anmeldung für P - 1 = 4 und p = 0,9 finden wir wo

Das Konfidenzintervall wird sein

Beispiel 2. Für die Bedingungen von Beispiel 1 von Unterabschnitt 14.3 unter Annahme des Werts X normalverteilt, finden Sie das genaue Konfidenzintervall.

Entscheidung. Gemäß Tabelle 5 der Anmeldung finden wir bei P - 1 = 19ir =

0,8 / p = 1,328; von hier

Im Vergleich mit der Lösung von Beispiel 1 von Unterabschnitt 14.3 (e p = 0,072) sehen wir, dass die Diskrepanz sehr klein ist. Wenn wir die Genauigkeit auf die zweite Dezimalstelle halten, dann sind die Konfidenzintervalle, die durch die exakte und die ungefähre Methode gefunden werden, gleich:

Fahren wir mit der Konstruktion eines Konfidenzintervalls für die Varianz fort. Betrachten Sie die unverzerrte Varianzschätzung

und die Zufallsvariable ausdrücken D durch den Wert v(14.4.3) mit Verteilung x 2 (14.4.4):

Kenntnis des Verteilungsgesetzes der Menge V, es ist möglich, das Intervall / (1) zu finden, in das es mit einer gegebenen Wahrscheinlichkeit p fällt.

Vertriebsrecht k n _ x (v) der Wert von I 7 hat die in Abb. 1 gezeigte Form. 14.4.1.

Reis. 14.4.1

Es stellt sich die Frage: Wie wählt man das Intervall / p? Wenn das Verteilungsgesetz der Menge v symmetrisch wäre (wie ein Normalgesetz oder eine Student-Verteilung), wäre es natürlich, das Intervall /p in Bezug auf die mathematische Erwartung symmetrisch zu nehmen. In diesem Fall das Gesetz k n _ x (v) asymmetrisch. Vereinbaren wir, das Intervall /p so zu wählen, dass die Ausgabewahrscheinlichkeiten der Menge v außerhalb des Intervalls nach rechts und links (schattierte Bereiche in Abb. 14.4.1) waren gleich und gleich

Um ein Intervall / p mit dieser Eigenschaft zu konstruieren, verwenden wir Table. 4 Anwendungen: Es enthält Zahlen j) so dass

für die Menge V, mit x 2 -Verteilung mit r Freiheitsgraden. In unserem Fall r = n- 1. Korrigieren r = n- 1 und finden Sie in der entsprechenden Zeile der Tabelle. 4 zwei Werte x 2 - das eine entspricht einer Wahrscheinlichkeit das andere - Wahrscheinlichkeiten Lassen Sie uns diese benennen

Werte um 2 und XL? Das Intervall hat ja 2 , mit seiner linken, und y ~ rechtes Ende.

Nun finden wir das benötigte Konfidenzintervall /| für die Varianz mit Grenzen D, und D2, was den Punkt abdeckt D mit Wahrscheinlichkeit p:

Konstruieren wir ein solches Intervall / (, = (?> b A), das den Punkt überdeckt D wenn und nur wenn der Wert v fällt in das Intervall / r. Zeigen wir, dass das Intervall

erfüllt diese Bedingung. In der Tat, die Ungleichheiten sind äquivalent zu den Ungleichungen

und diese Ungleichungen gelten mit Wahrscheinlichkeit p. Somit wird das Konfidenzintervall für die Streuung gefunden und durch die Formel (14.4.13) ausgedrückt.

Beispiel 3. Finden Sie das Konfidenzintervall für die Varianz unter den Bedingungen von Beispiel 2 von Unterabschnitt 14.3, wenn bekannt ist, dass der Wert X normal verteilt.

Entscheidung. Wir haben . Gemäß Tabelle 4 des Antrags

finden wir bei r = n - 1 = 19

Nach der Formel (14.4.13) finden wir das Vertrauensintervall für die Streuung

Entsprechendes Intervall für die Standardabweichung: (0,21; 0,32). Dieses Intervall überschreitet nur geringfügig das Intervall (0,21; 0,29), das in Beispiel 2 von Unterabschnitt 14.3 durch das Näherungsverfahren erhalten wurde.

  • Abbildung 14.3.1 betrachtet ein um a symmetrisches Konfidenzintervall. Im Allgemeinen ist dies, wie wir später sehen werden, nicht erforderlich.

Schätzung von Konfidenzintervallen

Lernziele

Die Statistik berücksichtigt Folgendes zwei Hauptaufgaben:

    Wir haben eine Schätzung auf der Grundlage von Beispieldaten und möchten eine probabilistische Aussage darüber machen, wo der wahre Wert des geschätzten Parameters liegt.

    Wir haben eine bestimmte Hypothese, die anhand von Beispieldaten getestet werden muss.

In diesem Thema betrachten wir das erste Problem. Wir führen auch die Definition eines Konfidenzintervalls ein.

Ein Konfidenzintervall ist ein Intervall, das um den geschätzten Wert eines Parameters herum aufgebaut ist und zeigt, wo der wahre Wert des geschätzten Parameters mit einer a priori gegebenen Wahrscheinlichkeit liegt.

Nach dem Studium des Materials zu diesem Thema:

    erfahren, was das Konfidenzintervall der Schätzung ist;

    lernen, statistische Probleme zu klassifizieren;

    beherrschen die Technik der Konstruktion von Konfidenzintervallen, sowohl unter Verwendung statistischer Formeln als auch unter Verwendung von Software-Tools;

    lernen, die erforderlichen Stichprobenumfänge zu bestimmen, um bestimmte Parameter der Genauigkeit statistischer Schätzungen zu erreichen.

Verteilungen von Stichprobenmerkmalen

T-Verteilung

Wie oben diskutiert, liegt die Verteilung der Zufallsvariablen nahe an einer standardisierten Normalverteilung mit den Parametern 0 und 1. Da wir den Wert von σ nicht kennen, ersetzen wir ihn durch einen Schätzwert s . Die Menge hat bereits eine andere Verteilung, nämlich, oder Schülerverteilung, die durch den Parameter n -1 (Anzahl der Freiheitsgrade) bestimmt wird. Diese Verteilung liegt nahe an der Normalverteilung (je größer n, desto enger die Verteilungen).

Auf Abb. 95
Dargestellt ist die studentische Verteilung mit 30 Freiheitsgraden. Wie Sie sehen können, ist es sehr nah an der Normalverteilung.

Ähnlich wie die Funktionen zum Arbeiten mit der Normalverteilung NORMVERT und NORMINV gibt es Funktionen zum Arbeiten mit der t-Verteilung - STUDIST (TDIST) und STUDRASPBR (TINV). Ein Beispiel für die Verwendung dieser Funktionen finden Sie in der Datei STUDRIST.XLS (Vorlage und Lösung) und in Abb. 96
.

Verteilungen anderer Merkmale

Wie wir bereits wissen, benötigen wir zur Bestimmung der Genauigkeit der Erwartungsschätzung eine t-Verteilung. Um andere Parameter, wie z. B. die Varianz, zu schätzen, sind andere Verteilungen erforderlich. Zwei davon sind die F-Verteilung und x 2 -Verteilung.

Konfidenzintervall für den Mittelwert

Konfidenzintervall ist ein Intervall, das um den geschätzten Wert des Parameters herum aufgebaut ist und zeigt, wo der wahre Wert des geschätzten Parameters mit einer a priori gegebenen Wahrscheinlichkeit liegt.

Es erfolgt die Bildung eines Konfidenzintervalls für den Mittelwert auf die folgende Weise:

Beispiel

Das Schnellrestaurant plant, sein Sortiment um eine neue Sandwich-Sorte zu erweitern. Um die Nachfrage danach abzuschätzen, plant der Manager, 40 Besucher zufällig aus denjenigen auszuwählen, die es bereits ausprobiert haben, und sie zu bitten, ihre Einstellung zu dem neuen Produkt auf einer Skala von 1 bis 10 zu bewerten. Der Manager möchte die schätzen erwartete Punktzahl, die das neue Produkt erhalten wird, und konstruieren Sie ein 95-%-Konfidenzintervall für diese Schätzung. Wie es geht? (siehe Datei SANDWICH1.XLS (Vorlage und Lösung).

Entscheidung

Um dieses Problem zu lösen, können Sie . Die Ergebnisse sind in Abb. 1 dargestellt. 97
.

Konfidenzintervall für den Gesamtwert

Manchmal ist es gemäß Beispieldaten erforderlich, nicht die mathematische Erwartung, sondern die Gesamtsumme der Werte zu schätzen. Beispielsweise kann es in einer Situation mit einem Wirtschaftsprüfer von Interesse sein, nicht den Durchschnittswert einer Rechnung zu schätzen, sondern die Summe aller Rechnungen.

Sei N die Gesamtzahl der Elemente, n die Stichprobengröße, T 3 die Summe der Werte in der Stichprobe, T" die Schätzung für die Summe über die gesamte Grundgesamtheit, dann , und das Konfidenzintervall wird durch die Formel berechnet, wobei s die Schätzung der Standardabweichung für die Stichprobe ist, die Schätzung des Mittelwerts für die Stichprobe ist.

Beispiel

Nehmen wir an, ein Finanzamt möchte für 10.000 Steuerzahler die Höhe der gesamten Steuererstattungen schätzen. Der Steuerzahler erhält entweder eine Rückerstattung oder zahlt zusätzliche Steuern. Ermitteln Sie das 95-%-Konfidenzintervall für den Erstattungsbetrag bei einer angenommenen Stichprobengröße von 500 Personen (siehe Datei ERSTATTUNGSBETRAG.XLS (Vorlage und Lösung).

Entscheidung

Für diesen Fall gibt es in StatPro kein spezielles Verfahren, aber Sie können sehen, dass die Schranken mit den obigen Formeln aus den Schranken für den Mittelwert erhalten werden können (Abb. 98
).

Konfidenzintervall für Anteil

Sei p die Erwartung eines Anteils von Kunden und pv eine Schätzung dieses Anteils, die aus einer Stichprobe der Größe n erhalten wird. Es kann gezeigt werden, dass für ausreichend groß die Schätzverteilung ist nahezu normal mit Mittelwert p und Standardabweichung . Der Standardfehler der Schätzung wird in diesem Fall ausgedrückt als , und das Konfidenzintervall als .

Beispiel

Das Schnellrestaurant plant, sein Sortiment um eine neue Sandwich-Sorte zu erweitern. Um die Nachfrage danach abzuschätzen, hat der Manager zufällig 40 Besucher aus denjenigen ausgewählt, die es bereits ausprobiert haben, und sie gebeten, ihre Einstellung zum neuen Produkt auf einer Skala von 1 bis 10 zu bewerten. Der Manager möchte den erwarteten Anteil schätzen von Kunden, die das neue Produkt mit mindestens 6 Punkten bewerten (er erwartet, dass diese Kunden die Verbraucher des neuen Produkts sind).

Entscheidung

Zunächst erstellen wir eine neue Spalte auf der Grundlage von 1, wenn die Punktzahl des Kunden mehr als 6 Punkte betrug, und ansonsten von 0 (siehe Datei SANDWICH2.XLS (Vorlage und Lösung).

Methode 1

Wir zählen den Betrag von 1, schätzen den Anteil und verwenden dann die Formeln.

Der Wert von z cr wird aus speziellen Normalverteilungstabellen entnommen (z. B. 1,96 für ein 95-%-Konfidenzintervall).

Unter Verwendung dieses Ansatzes und spezifischer Daten zur Konstruktion eines 95-%-Intervalls erhalten wir die folgenden Ergebnisse (Abb. 99
). Der kritische Wert des Parameters z cr beträgt 1,96. Der Standardfehler der Schätzung beträgt 0,077. Die untere Grenze des Konfidenzintervalls beträgt 0,475. Die Obergrenze des Konfidenzintervalls beträgt 0,775. So kann ein Manager mit 95-prozentiger Sicherheit davon ausgehen, dass der Prozentsatz der Kunden, die ein neues Produkt mit 6 oder mehr Punkten bewerten, zwischen 47,5 und 77,5 liegen wird.

Methode 2

Dieses Problem kann mit Standard-StatPro-Tools gelöst werden. Dazu genügt die Feststellung, dass der Anteil in diesem Fall mit dem Durchschnittswert der Spalte Art übereinstimmt. Als nächstes bewerben StatPro/Statistische Inferenz/Analyse einer Stichprobe um ein Konfidenzintervall für den Mittelwert (Erwartungsschätzung) für die Spalte Typ zu erstellen. Die in diesem Fall erhaltenen Ergebnisse werden dem Ergebnis der 1. Methode (Abb. 99) sehr nahe kommen.

Konfidenzintervall für die Standardabweichung

s wird als Schätzwert der Standardabweichung verwendet (die Formel ist in Abschnitt 1 angegeben). Die Dichtefunktion der Schätzung s ist die Chi-Quadrat-Funktion, die wie die t-Verteilung n-1 Freiheitsgrade hat. Für die Arbeit mit dieser Distribution gibt es spezielle Funktionen CHI2DIST (CHIDIST) und CHI2OBR (CHIINV) .

Das Konfidenzintervall ist in diesem Fall nicht mehr symmetrisch. Das Bedingungsschema der Grenzen ist in Abb. 1 dargestellt. 100 .

Beispiel

Die Maschine soll Teile mit einem Durchmesser von 10 cm produzieren, jedoch kommt es durch verschiedene Umstände zu Fehlern. Dem Qualitätskontrolleur geht es um zwei Dinge: Erstens sollte der Durchschnittswert 10 cm betragen; zweitens werden auch in diesem Fall bei großen Abweichungen viele Details verworfen. Jeden Tag stellt er ein Muster von 50 Teilen her (siehe Datei QUALITÄTSKONTROLLE.XLS (Vorlage und Lösung). Welche Schlussfolgerungen kann ein solches Muster geben?

Entscheidung

Wir konstruieren 95% Konfidenzintervalle für den Mittelwert und für die Standardabweichung unter Verwendung von StatPro/Statistische Inferenz/Ein-Stichproben-Analyse(Abb. 101
).

Außerdem berechnen wir unter der Annahme einer Normalverteilung der Durchmesser den Anteil fehlerhafter Produkte, wobei wir eine maximale Abweichung von 0,065 festlegen. Unter Verwendung der Möglichkeiten der Lookup-Tabelle (im Fall von zwei Parametern) konstruieren wir die Abhängigkeit des Prozentsatzes an Ausschuss von Mittelwert und Standardabweichung (Abb. 102
).

Konfidenzintervall für die Differenz zweier Mittelwerte

Dies ist eine der wichtigsten Anwendungen statistischer Methoden. Situationsbeispiele.

    Ein Bekleidungsgeschäftsleiter möchte wissen, wie viel mehr oder weniger die durchschnittliche Käuferin im Geschäft ausgibt als ein Mann.

    Die beiden Fluggesellschaften fliegen ähnliche Strecken. Eine Verbraucherorganisation möchte die Differenz zwischen den durchschnittlich erwarteten Flugverspätungen beider Fluggesellschaften vergleichen.

    Das Unternehmen verschickt Coupons für bestimmte Arten von Waren in einer Stadt und nicht in einer anderen. Manager möchten die durchschnittlichen Käufe dieser Artikel in den nächsten zwei Monaten vergleichen.

    Ein Autohändler hat bei Präsentationen oft mit Ehepaaren zu tun. Um ihre persönlichen Reaktionen auf die Präsentation zu verstehen, werden Paare oft getrennt befragt. Der Manager möchte den Unterschied zwischen den Bewertungen von Männern und Frauen auswerten.

Fall von unabhängigen Stichproben

Die mittlere Differenz hat eine t-Verteilung mit n 1 + n 2 – 2 Freiheitsgraden. Das Konfidenzintervall für μ 1 - μ 2 wird durch das Verhältnis ausgedrückt:

Dieses Problem kann nicht nur durch die obigen Formeln gelöst werden, sondern auch durch Standard-StatPro-Tools. Dazu genügt es, sich zu bewerben

Konfidenzintervall für die Differenz zwischen Anteilen

Sei die mathematische Erwartung der Aktien. Seien ihre Stichprobenschätzungen, die auf Stichproben der Größe n 1 bzw. n 2 aufgebaut sind. Dann ist eine Schätzung für die Differenz . Daher wird das Konfidenzintervall für diese Differenz ausgedrückt als:

Hier ist z cr der Wert, der sich aus der Normalverteilung spezieller Tabellen ergibt (z. B. 1,96 für 95 % Konfidenzintervall).

Der Standardfehler der Schätzung wird in diesem Fall ausgedrückt durch die Beziehung:

.

Beispiel

Das Geschäft führte in Vorbereitung auf den großen Verkauf die folgende Marktforschung durch. Die 300 besten Einkäufer wurden ausgewählt und nach dem Zufallsprinzip in zwei Gruppen mit jeweils 150 Mitgliedern aufgeteilt. Alle ausgewählten Käufer erhielten Einladungen zur Teilnahme am Verkauf, aber nur für Mitglieder der ersten Gruppe wurde ein Gutschein beigefügt, der das Recht auf einen Rabatt von 5 % gewährt. Während des Verkaufs wurden die Käufe aller 300 ausgewählten Käufer erfasst. Wie kann ein Manager die Ergebnisse interpretieren und ein Urteil über die Wirksamkeit von Couponing fällen? (Siehe Datei COUPONS.XLS (Vorlage und Lösung)).

Entscheidung

In unserem speziellen Fall haben von 150 Kunden, die einen Rabattgutschein erhalten haben, 55 einen Kauf im Ausverkauf getätigt, und von 150, die keinen Gutschein erhalten haben, haben nur 35 einen Kauf getätigt (Abb. 103
). Dann sind die Werte der Probenanteile 0,3667 bzw. 0,2333. Und die Stichprobendifferenz zwischen ihnen beträgt jeweils 0,1333. Unter der Annahme eines Konfidenzintervalls von 95 % finden wir aus der Normalverteilungstabelle z cr = 1,96. Die Berechnung des Standardfehlers der Stichprobendifferenz beträgt 0,0524. Schließlich erhalten wir, dass die untere Grenze des 95-%-Konfidenzintervalls 0,0307 und die obere Grenze 0,2359 beträgt. Die erhaltenen Ergebnisse können so interpretiert werden, dass wir pro 100 Kunden, die einen Rabattgutschein erhalten haben, mit 3 bis 23 Neukunden rechnen können. Es sollte jedoch beachtet werden, dass diese Schlussfolgerung an sich nicht die Effizienz der Verwendung von Coupons bedeutet (denn durch die Gewährung eines Rabatts verlieren wir Gewinn!). Lassen Sie uns dies an bestimmten Daten demonstrieren. Angenommen, der durchschnittliche Kaufbetrag beträgt 400 Rubel, davon 50 Rubel. Es gibt einen Ladengewinn. Dann ist der erwartete Gewinn pro 100 Kunden, die keinen Gutschein erhalten haben, gleich:

50 0,2333 100 \u003d 1166,50 Rubel.

Ähnliche Berechnungen für 100 Käufer, die einen Gutschein erhalten haben, ergeben:

30 0,3667 100 \u003d 1100,10 Rubel.

Der Rückgang des durchschnittlichen Gewinns auf 30 erklärt sich aus der Tatsache, dass Käufer, die einen Gutschein erhalten haben, mit dem Rabatt im Durchschnitt einen Kauf für 380 Rubel tätigen.

Somit weist die endgültige Schlussfolgerung auf die Ineffizienz der Verwendung solcher Coupons in dieser besonderen Situation hin.

Kommentar. Dieses Problem kann mit Standard-StatPro-Tools gelöst werden. Dazu genügt es, dieses Problem auf das Problem zu reduzieren, die Differenz zweier Mittelwerte durch das Verfahren zu schätzen und dann anzuwenden StatPro/Statistische Inferenz/Zwei-Stichproben-Analyse um ein Konfidenzintervall für die Differenz zweier Mittelwerte zu bilden.

Konfidenzintervallkontrolle

Die Länge des Konfidenzintervalls hängt von ab folgenden Bedingungen:

    direkt Daten (Standardabweichung);

    Signifikanzniveau;

    Stichprobengröße.

Stichprobenumfang zur Schätzung des Mittelwerts

Betrachten wir zunächst das Problem im allgemeinen Fall. Bezeichnen wir den Wert der halben Länge des uns gegebenen Konfidenzintervalls mit B (Abb. 104
). Wir wissen, dass das Konfidenzintervall für den Mittelwert einer Zufallsvariablen X ausgedrückt wird als , wo . Angenommen:

und wenn wir n ausdrücken, erhalten wir .

Leider kennen wir den genauen Wert der Varianz der Zufallsvariablen X nicht. Außerdem kennen wir den Wert von t cr nicht, da er über die Anzahl der Freiheitsgrade von n abhängt. In dieser Situation können wir Folgendes tun. Anstelle der Varianz s verwenden wir eine Schätzung der Varianz für einige verfügbare Realisierungen der untersuchten Zufallsvariablen. Anstelle des t cr -Werts verwenden wir den z cr -Wert für die Normalverteilung. Dies ist durchaus akzeptabel, da die Dichtefunktionen für die Normal- und die t-Verteilung sehr nahe beieinander liegen (außer für den Fall kleiner n). Somit hat die gesuchte Formel die Form:

.

Da die Formel im Allgemeinen nicht ganzzahlige Ergebnisse liefert, wird als gewünschter Stichprobenumfang eine Rundung mit einem Überschuss des Ergebnisses angenommen.

Beispiel

Das Schnellrestaurant plant, sein Sortiment um eine neue Sandwich-Sorte zu erweitern. Um die Nachfrage danach einzuschätzen, plant der Manager, aus den Besuchern, die es bereits ausprobiert haben, nach dem Zufallsprinzip eine Anzahl von Besuchern auszuwählen und sie zu bitten, ihre Einstellung zum neuen Produkt auf einer Skala von 1 bis 10 zu bewerten. Der Manager möchte Schätzen Sie die erwartete Anzahl von Punkten, die das neue Produkt erhalten wird. Er möchte jedoch, dass die halbe Breite des Konfidenzintervalls 0,3 nicht überschreitet. Wie viele Besucher muss er abfragen?

wie folgt:

Hier Rott eine Schätzung des Bruchteils p ist und B eine gegebene Hälfte der Länge des Konfidenzintervalls ist. Mit dem Wert kann ein überhöhter Wert für n erhalten werden Rott= 0,5. In diesem Fall wird die Länge des Konfidenzintervalls den gegebenen Wert B für keinen wahren Wert von p überschreiten.

Beispiel

Lassen Sie den Manager aus dem vorherigen Beispiel planen, den Anteil der Kunden zu schätzen, die einen neuen Produkttyp bevorzugen. Er möchte ein 90 %-Konfidenzintervall konstruieren, dessen halbe Länge kleiner oder gleich 0,05 ist. Wie viele Kunden sollten zufällig ausgewählt werden?

Entscheidung

In unserem Fall ist der Wert von z cr = 1,645. Daher wird die erforderliche Menge berechnet als .

Wenn der Manager Grund zu der Annahme hätte, dass der gewünschte Wert von p beispielsweise etwa 0,3 beträgt, dann würden wir durch Einsetzen dieses Werts in die obige Formel einen kleineren Wert der Stichprobe erhalten, nämlich 228.

Formel zu bestimmen Stichprobenumfänge bei Differenz zwischen zwei Mittelwerten geschrieben als:

.

Beispiel

Einige Computerunternehmen haben ein Kundendienstzentrum. In letzter Zeit hat die Zahl der Kundenbeschwerden über die schlechte Servicequalität zugenommen. Das Service-Center beschäftigt hauptsächlich zwei Arten von Mitarbeitern: solche mit wenig Erfahrung, die spezielle Schulungen absolviert haben, und solche mit umfangreicher praktischer Erfahrung, die keine speziellen Schulungen absolviert haben. Das Unternehmen will die Kundenbeschwerden der letzten sechs Monate analysieren und deren durchschnittliche Anzahl für jede der beiden Mitarbeitergruppen vergleichen. Es wird davon ausgegangen, dass die Zahlen in den Proben für beide Gruppen gleich sind. Wie viele Mitarbeiter müssen in die Stichprobe aufgenommen werden, um ein 95 %-Intervall mit einer halben Länge von nicht mehr als 2 zu erhalten?

Entscheidung

Hier ist σ ots eine Schätzung der Standardabweichung beider Zufallsvariablen unter der Annahme, dass sie nahe beieinander liegen. Daher müssen wir in unserer Aufgabe diese Schätzung irgendwie erhalten. Dies kann beispielsweise wie folgt erfolgen. Betrachtet man die Kundenbeschwerdedaten der letzten sechs Monate, stellt ein Manager möglicherweise fest, dass es im Allgemeinen zwischen 6 und 36 Beschwerden pro Mitarbeiter gibt. Da er weiß, dass bei einer Normalverteilung praktisch alle Werte nicht mehr als drei Standardabweichungen vom Mittelwert entfernt sind, kann er vernünftigerweise glauben, dass:

, womit σ ots = 5 ist.

Setzen wir diesen Wert in die Formel ein, erhalten wir .

Formel zu bestimmen die Größe einer Stichprobe bei der Schätzung der Differenz zwischen den Anteilen sieht aus wie:

Beispiel

Einige Unternehmen haben zwei Fabriken für die Herstellung ähnlicher Produkte. Der Manager eines Unternehmens möchte die Fehlerquoten beider Fabriken vergleichen. Nach vorliegenden Informationen liegt die Ablehnungsquote in beiden Werken zwischen 3 und 5 %. Es soll ein 99-%-Konfidenzintervall mit einer halben Länge von nicht mehr als 0,005 (oder 0,5 %) bilden. Wie viele Produkte sollten aus jeder Fabrik ausgewählt werden?

Entscheidung

Hier sind p 1ot und p 2ot Schätzwerte für zwei unbekannte Ausschussanteile in der 1. und 2. Fabrik. Wenn wir p 1ots \u003d p 2ots \u003d 0,5 setzen, erhalten wir einen überschätzten Wert für n. Da wir aber in unserem Fall einige a priori Informationen über diese Anteile haben, nehmen wir die obere Schätzung dieser Anteile, nämlich 0,05. Wir bekommen

Beim Schätzen einiger Populationsparameter aus Stichprobendaten ist es hilfreich, nicht nur eine Punktschätzung des Parameters bereitzustellen, sondern auch ein Konfidenzintervall, das zeigt, wo der genaue Wert des geschätzten Parameters liegen kann.

In diesem Kapitel haben wir auch quantitative Beziehungen kennengelernt, die es uns erlauben, solche Intervalle für verschiedene Parameter zu bilden; gelernt, wie man die Länge des Konfidenzintervalls steuern kann.

Wir stellen auch fest, dass das Problem der Schätzung der Stichprobengröße (Experimentplanungsproblem) mit Standard-StatPro-Tools gelöst werden kann, nämlich StatPro/Statistische Inferenz/Auswahl der Stichprobengröße.

Der Verstand besteht nicht nur aus Wissen, sondern auch aus der Fähigkeit, Wissen in der Praxis anzuwenden. (Aristoteles)

Vertrauensintervalle

allgemeine Überprüfung

Anhand einer Stichprobe aus der Grundgesamtheit erhalten wir eine Punktschätzung des für uns interessierenden Parameters und berechnen den Standardfehler, um die Genauigkeit der Schätzung anzuzeigen.

In den meisten Fällen ist der Standardfehler als solcher jedoch nicht akzeptabel. Es ist viel sinnvoller, dieses Präzisionsmaß mit einer Intervallschätzung für den Populationsparameter zu kombinieren.

Dies kann erfolgen, indem die Kenntnis der theoretischen Wahrscheinlichkeitsverteilung der Stichprobenstatistik (Parameter) verwendet wird, um ein Konfidenzintervall (CI – Confidence Interval, CI – Confidence Interval) für den Parameter zu berechnen.

Im Allgemeinen erweitert das Konfidenzintervall die Schätzungen in beide Richtungen um ein Vielfaches des Standardfehlers (eines bestimmten Parameters); Die beiden Werte (Vertrauensgrenzen), die das Intervall definieren, werden normalerweise durch ein Komma getrennt und in Klammern eingeschlossen.

Konfidenzintervall für Mittelwert

Unter Verwendung der Normalverteilung

Der Stichprobenmittelwert hat eine Normalverteilung, wenn der Stichprobenumfang groß ist, sodass die Kenntnis der Normalverteilung bei der Betrachtung des Stichprobenmittelwerts angewendet werden kann.

Insbesondere liegen 95 % der Verteilung der Stichprobenmittelwerte innerhalb von 1,96 Standardabweichungen (SD) des Mittelwerts der Grundgesamtheit.

Wenn wir nur eine Stichprobe haben, nennen wir dies den Standardfehler des Mittelwerts (SEM) und berechnen das 95%-Konfidenzintervall für den Mittelwert wie folgt:

Wenn dieses Experiment mehrmals wiederholt wird, enthält das Intervall zu 95 % der Zeit den wahren Populationsmittelwert.

Dabei handelt es sich in der Regel um ein Konfidenzintervall, also den Wertebereich, innerhalb dessen der wahre Mittelwert der Grundgesamtheit (allgemeiner Mittelwert) mit einem Konfidenzniveau von 95 % liegt.

Obwohl es nicht ganz streng ist (der Grundgesamtheitsmittelwert ist ein fester Wert und kann daher keine Wahrscheinlichkeit darauf beziehen), das Konfidenzintervall auf diese Weise zu interpretieren, ist es konzeptionell einfacher zu verstehen.

Verwendungszweck t- Verteilung

Sie können die Normalverteilung verwenden, wenn Sie den Wert der Varianz in der Grundgesamtheit kennen. Wenn die Stichprobengröße klein ist, folgt der Stichprobenmittelwert einer Normalverteilung, wenn die der Grundgesamtheit zugrunde liegenden Daten normalverteilt sind.

Wenn die der Grundgesamtheit zugrunde liegenden Daten nicht normalverteilt sind und/oder die allgemeine Varianz (Grundgesamtheitsvarianz) unbekannt ist, gehorcht der Stichprobenmittelwert Studentische t-Verteilung.

Berechnen Sie das 95 %-Konfidenzintervall für den Populationsmittelwert wie folgt:

Wo - Prozentpunkt (Perzentil) t- Studentische Verteilung mit (n-1) Freiheitsgraden, was eine zweiseitige Wahrscheinlichkeit von 0,05 ergibt.

Im Allgemeinen bietet sie ein breiteres Intervall als bei Verwendung einer Normalverteilung, da sie die zusätzliche Unsicherheit berücksichtigt, die durch die Schätzung der Standardabweichung der Grundgesamtheit und/oder aufgrund der kleinen Stichprobengröße eingeführt wird.

Wenn der Stichprobenumfang groß ist (in der Größenordnung von 100 oder mehr), ist die Differenz zwischen den beiden Verteilungen ( t-Student und normal) ist vernachlässigbar. Allerdings immer verwenden t- Verteilung bei der Berechnung von Konfidenzintervallen, auch wenn der Stichprobenumfang groß ist.

In der Regel wird ein 95 %-KI angezeigt. Andere Konfidenzintervalle können berechnet werden, z. B. 99 %-KI für den Mittelwert.

Statt Produkt aus Standardfehler und Tabellenwert t- Verteilung, die einer zweiseitigen Wahrscheinlichkeit von 0,05 entspricht, multiplizieren Sie sie (Standardfehler) mit einem Wert, der einer zweiseitigen Wahrscheinlichkeit von 0,01 entspricht. Dies ist ein breiteres Konfidenzintervall als im 95 %-Fall, da es ein erhöhtes Vertrauen widerspiegelt, dass das Intervall tatsächlich den Mittelwert der Grundgesamtheit enthält.

Konfidenzintervall für Anteil

Die Stichprobenverteilung der Anteile ist binomialverteilt. Allerdings, wenn die Stichprobengröße n ziemlich groß, dann ist die Stichprobenverteilung des Anteils ungefähr normal mit Mittelwert .

Schätzung nach Stichprobenverhältnis p=r/n(wo r- die Anzahl der Personen in der Stichprobe mit den für uns interessanten Merkmalen), und der Standardfehler wird geschätzt:

Das 95 %-Konfidenzintervall für den Anteil wird geschätzt:

Wenn die Stichprobengröße klein ist (normalerweise wenn np oder n(1-p) kleiner 5 ), dann muss die Binomialverteilung verwendet werden, um die genauen Konfidenzintervalle zu berechnen.

Beachten Sie, dass wenn p dann in Prozent ausgedrückt (1-p) ersetzt durch (100p).

Interpretation von Konfidenzintervallen

Bei der Interpretation des Konfidenzintervalls interessieren uns folgende Fragen:

Wie breit ist das Konfidenzintervall?

Ein breites Konfidenzintervall zeigt an, dass die Schätzung ungenau ist; schmal zeigt eine feine Schätzung an.

Die Breite des Konfidenzintervalls hängt von der Größe des Standardfehlers ab, der wiederum von der Stichprobengröße abhängt, und ergibt bei Berücksichtigung einer numerischen Variablen aus der Variabilität der Daten breitere Konfidenzintervalle als Studien mit einem großen Datensatz von wenigen Variablen.

Enthält das CI irgendwelche Werte von besonderem Interesse?

Sie können prüfen, ob der wahrscheinliche Wert für einen Populationsparameter in ein Konfidenzintervall fällt. Wenn ja, dann stimmen die Ergebnisse mit diesem wahrscheinlichen Wert überein. Wenn nicht, dann ist es unwahrscheinlich (bei einem Konfidenzintervall von 95 % beträgt die Wahrscheinlichkeit fast 5 %), dass der Parameter diesen Wert hat.