Die Probe kann sein. Ein Beispiel für eine nicht repräsentative Stichprobe

Intervallschätzung der Ereigniswahrscheinlichkeit. Formeln zur Berechnung der Stichprobenanzahl bei einem zufälligen Auswahlverfahren.

Um die Wahrscheinlichkeiten der für uns interessanten Ereignisse zu ermitteln, verwenden wir das Stichprobenverfahren: Wir führen durch n unabhängige Experimente, bei denen jeweils A eintreten kann (oder auch nicht) (Wahrscheinlichkeit R Auftreten von Ereignis A in jedem Experiment ist konstant). Dann die relative Häufigkeit p* des Auftretens von Ereignissen ABER in einer Reihe von n Tests wird als Punktschätzung für die Wahrscheinlichkeit genommen p Auftreten eines Ereignisses ABER in einem separaten Test. In diesem Fall wird der Wert p* aufgerufen Probe teilen Ereignisereignisse ABER, und r - allgemeiner Anteil .

Aufgrund der Folgerung aus dem zentralen Grenzwertsatz (Theorem von Moivre-Laplace) kann die relative Häufigkeit eines Ereignisses bei großem Stichprobenumfang mit den Parametern M(p*)=p und als normalverteilt betrachtet werden

Daher kann für n>30 das Konfidenzintervall für den allgemeinen Bruch mithilfe der folgenden Formeln gebildet werden:


wobei u cr nach den Tabellen der Laplace-Funktion unter Berücksichtigung der gegebenen Konfidenzwahrscheinlichkeit γ ermittelt wird: 2Ф(u cr)=γ.

Bei einem kleinen Stichprobenumfang n≤30 wird der Grenzfehler ε aus der Student-Verteilungstabelle bestimmt:
wobei t cr = t(k; α) und die Anzahl der Freiheitsgrade k = n-1 Wahrscheinlichkeit α = 1-γ (zweiseitiger Bereich).

Die Formeln gelten, wenn die Auswahl zufällig wiederholt durchgeführt wurde (die Grundgesamtheit ist unendlich), ansonsten ist eine Korrektur für die sich nicht wiederholende Auswahl vorzunehmen (Tabelle).

Durchschnittlicher Stichprobenfehler für den allgemeinen Anteil

BevölkerungEndlosultimative Lautstärke N
AuswahltypWiederholtsich nicht wiederholen
Durchschnittlicher Stichprobenfehler

Formeln zur Berechnung des Stichprobenumfangs mit einem geeigneten Zufallsauswahlverfahren

AuswahlverfahrenFormeln für Stichprobengrößen
für Mittezum Teilen
Wiederholt
sich nicht wiederholen
Anteil der Einheiten w = . Genauigkeit ε = . Wahrscheinlichkeit γ =

Probleme mit der allgemeinen Aktie

Auf die Frage "Deckt der gegebene Wert von p 0 das Konfidenzintervall ab?" - kann durch Testen der statistischen Hypothese H 0:p=p 0 beantwortet werden. Es wird angenommen, dass die Experimente nach dem Bernoulli-Testschema durchgeführt werden (unabhängig, Wahrscheinlichkeit p Auftreten eines Ereignisses ABER Konstante). Nach Volumenprobe n Bestimmen Sie die relative Häufigkeit p * des Auftretens von Ereignis A: wobei m- Häufigkeit des Ereignisses ABER in einer Reihe von n Prüfungen. Um die Hypothese H 0 zu testen, werden Statistiken verwendet, die bei ausreichend großem Stichprobenumfang eine Standardnormalverteilung aufweisen (Tabelle 1).
Tabelle 1 - Hypothesen zum allgemeinen Anteil

Hypothese

H0:p=p0H 0: p 1 \u003d p 2
AnnahmenBernoulli-TestschemaBernoulli-Testschema
Beispielschätzungen
Statistiken K
Statistikverteilung K Standard normal N(0,1)

Beispiel 1. Mittels Random Resampling befragte die Unternehmensleitung stichprobenartig 900 Mitarbeiter. Unter den Befragten waren 270 Frauen. Zeichnen Sie ein Konfidenzintervall, das mit einer Wahrscheinlichkeit von 0,95 den wahren Frauenanteil im gesamten Team der Firma abdeckt.
Lösung. Nach Bedingung ist der Stichprobenanteil von Frauen (die relative Häufigkeit von Frauen unter allen Befragten). Da die Auswahl wiederholt wird und der Stichprobenumfang groß ist (n = 900), wird der marginale Stichprobenfehler durch die Formel bestimmt

Der Wert von u cr ergibt sich aus der Tabelle der Laplace-Funktion aus der Beziehung 2Ф(u cr)=γ, d.h. Die Laplace-Funktion (Anhang 1) nimmt bei u cr =1,96 den Wert 0,475 an. Daher der Grenzfehler und das gewünschte Konfidenzintervall
(p – ε, p + ε) = (0,3 – 0,18; 0,3 + 0,18) = (0,12; 0,48)
So kann mit einer Wahrscheinlichkeit von 0,95 garantiert werden, dass der Frauenanteil im gesamten Team der Kanzlei im Bereich von 0,12 bis 0,48 liegt.

Beispiel #2. Der Parkplatzbesitzer betrachtet den Tag als „glücklich“, wenn der Parkplatz zu mehr als 80 % belegt ist. Im Laufe des Jahres wurden 40 Parkplatzkontrollen durchgeführt, von denen 24 „erfolgreich“ waren. Finden Sie mit einer Wahrscheinlichkeit von 0,98 das Konfidenzintervall für die Schätzung des wahren Prozentsatzes an "glücklichen" Tagen im Jahr.
Lösung. Die Stichprobenfraktion der „guten“ Tage ist
Gemäß der Tabelle der Laplace-Funktion finden wir den Wert von u cr für gegeben
Vertrauensstufe
Ä(2,23) = 0,49, u cr = 2,33.
In Anbetracht der Tatsache, dass die Auswahl nicht repetitiv ist (d. h. zwei Kontrollen wurden nicht am selben Tag durchgeführt), finden wir den geringfügigen Fehler:
wobei n=40 , N = 365 (Tage). Von hier
und Konfidenzintervall für den allgemeinen Bruch: (p – ε, p + ε) = (0,6 – 0,17; 0,6 + 0,17) = (0,43; 0,77)
Mit einer Wahrscheinlichkeit von 0,98 ist zu erwarten, dass der Anteil „guter“ Tage im Jahr im Bereich von 0,43 bis 0,77 liegt.

Beispiel #3. Nachdem sie 2500 Artikel in der Charge überprüft hatten, stellten sie fest, dass 400 Artikel von höchster Qualität waren, n–m jedoch nicht. Wie viele Produkte müssen Sie prüfen, um den Anteil der Premium-Qualität mit einer Genauigkeit von 0,01 mit 95-prozentiger Sicherheit zu bestimmen?
Wir suchen nach einer Lösung gemäß der Formel zur Bestimmung des Stichprobenumfangs für die Neuauswahl.

Ä(t) = γ/2 = 0,95/2 = 0,475 und gemäß der Laplace-Tabelle entspricht dieser Wert t=1,96
Probenfraktion w = 0,16; Abtastfehler ε = 0,01

Beispiel Nr. 4. Eine Produktcharge wird akzeptiert, wenn die Wahrscheinlichkeit, dass das Produkt die Norm erfüllt, mindestens 0,97 beträgt. Unter den zufällig ausgewählten 200 Produkten der getesteten Charge wurden 193 Produkte gefunden, die den Standard erfüllen. Ist es möglich, die Charge auf dem Signifikanzniveau α=0,02 zu akzeptieren?
Lösung. Wir formulieren die Haupt- und Alternativhypothesen.
H 0: p \u003d p 0 \u003d 0,97 - unbekannter allgemeiner Anteil p gleich dem angegebenen Wert p 0 = 0,97. In Bezug auf den Zustand - die Wahrscheinlichkeit, dass das Teil aus dem getesteten Los der Norm entspricht, beträgt 0,97; diese. Charge von Produkten kann angenommen werden.
H1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Beobachteter statistischer Wert K(Tabelle) Berechnen Sie für gegebene Werte p 0 =0,97, n=200, m=193


Der kritische Wert ergibt sich aus der Tabelle der Laplace-Funktion aus der Gleichheit


Gemäß der Bedingung α=0,02, also F(Kcr)=0,48 und Kcr=2,05. Der kritische Bereich ist linkshändig, d.h. ist das Intervall (-∞;-K kp)= (-∞;-2,05). Der beobachtete Wert Kobs = -0,415 gehört nicht zum kritischen Bereich, daher gibt es auf diesem Signifikanzniveau keinen Grund, die Haupthypothese abzulehnen. Eine Charge von Produkten kann akzeptiert werden.

Beispiel Nummer 5. Zwei Fabriken produzieren die gleiche Art von Teilen. Um ihre Qualität zu beurteilen, wurden Proben von den Produkten dieser Fabriken entnommen und die folgenden Ergebnisse erhalten. Von den 200 ausgewählten Produkten der ersten Fabrik waren 20 defekt, und von den 300 Produkten der zweiten Fabrik waren 15 defekt.
Finden Sie auf einem Signifikanzniveau von 0,025 heraus, ob es einen signifikanten Unterschied in der Qualität der von diesen Fabriken hergestellten Teile gibt.

Gemäß der Bedingung α=0,025, also F(Kcr)=0,4875 und Kcr=2,24. Bei einer zweiseitigen Alternative hat der Bereich der zulässigen Werte die Form (-2,24; 2,24). Der beobachtete Wert Kobs = 2,15 fällt in dieses Intervall, d. h. Auf diesem Signifikanzniveau gibt es keinen Grund, die Haupthypothese abzulehnen. Fabriken produzieren Produkte von gleicher Qualität.

Planen:

1. Probleme der mathematischen Statistik.

2. Beispieltypen.

3. Auswahlmethoden.

4. Statistische Verteilung der Stichprobe.

5. Empirische Verteilungsfunktion.

6. Polygon und Histogramm.

7. Numerische Merkmale der Variationsreihe.

8. Statistische Schätzungen von Verteilungsparametern.

9. Intervallschätzungen von Verteilungsparametern.

1. Aufgaben und Methoden der mathematischen Statistik

Mathematische Statistiken ist ein Teilgebiet der Mathematik, das sich den Methoden der Erhebung, Analyse und Verarbeitung der Ergebnisse statistischer Beobachtungsdaten für wissenschaftliche und praktische Zwecke widmet.

Es sei erforderlich, eine Menge homogener Objekte im Hinblick auf ein qualitatives oder quantitatives Merkmal zu untersuchen, das diese Objekte charakterisiert. Wenn es beispielsweise eine Charge von Teilen gibt, kann der Standard des Teils als qualitatives Zeichen dienen, und die kontrollierte Größe des Teils kann als quantitatives Zeichen dienen.

Manchmal wird eine kontinuierliche Studie durchgeführt, d.h. Untersuchen Sie jedes Objekt hinsichtlich des gewünschten Merkmals. In der Praxis wird eine umfassende Erhebung selten verwendet. Enthält die Grundgesamtheit beispielsweise eine sehr große Anzahl von Objekten, ist es physikalisch unmöglich, eine vollständige Vermessung durchzuführen. Wenn die Vermessung des Objekts mit seiner Zerstörung verbunden ist oder einen hohen Materialaufwand erfordert, macht es keinen Sinn, eine vollständige Vermessung durchzuführen. In solchen Fällen wird eine begrenzte Anzahl von Objekten (Sample Set) zufällig aus der gesamten Population ausgewählt und ihrer Untersuchung unterzogen.

Die Hauptaufgabe der mathematischen Statistik besteht darin, die gesamte Bevölkerung anhand von Stichprobendaten je nach Ziel zu untersuchen, d.h. das Studium der probabilistischen Eigenschaften der Bevölkerung: das Verteilungsgesetz, numerische Merkmale usw. für das Treffen von Managemententscheidungen unter unsicheren Bedingungen.

2. Beispieltypen

Bevölkerung ist die Menge von Objekten, aus denen die Probe hergestellt wird.

Stichprobenpopulation (Stichprobe) ist eine Sammlung von zufällig ausgewählten Objekten.

Einwohnerzahl ist die Anzahl der Objekte in dieser Sammlung. Angegeben ist das Volumen der Allgemeinbevölkerung N, selektiv - n.

Beispiel:

Wenn aus 1000 Teilen 100 Teile zur Prüfung ausgewählt werden, dann das Volumen der Allgemeinbevölkerung N = 1000 und die Stichprobengröße n = 100.

Die Probenahme kann auf zwei Arten erfolgen: Nachdem das Objekt ausgewählt und darüber beobachtet wurde, kann es an die allgemeine Bevölkerung zurückgegeben oder nicht zurückgegeben werden. Dass. Die Proben werden in wiederholte und nicht wiederholte unterteilt.

Wiederholtgenannt Probenahme, bei dem das ausgewählte Objekt (vor der Auswahl des nächsten) an die allgemeine Population zurückgegeben wird.

Nicht wiederholendgenannt Probenahme, bei der das ausgewählte Objekt nicht an die allgemeine Bevölkerung zurückgegeben wird.

In der Praxis wird in der Regel eine sich nicht wiederholende Zufallsauswahl verwendet.

Damit die Daten der Stichprobe das interessierende Merkmal in der Allgemeinbevölkerung ausreichend sicher beurteilen können, ist es notwendig, dass die Objekte der Stichprobe es korrekt repräsentieren. Die Stichprobe muss die Anteile der Grundgesamtheit korrekt wiedergeben. Die Probe muss sein Vertreter (Vertreter).

Aufgrund des Gesetzes der großen Zahlen kann argumentiert werden, dass die Stichprobe repräsentativ ist, wenn sie zufällig durchgeführt wird.

Wenn die Größe der allgemeinen Population groß genug ist und die Stichprobe nur einen kleinen Teil dieser Population darstellt, wird die Unterscheidung zwischen wiederholten und nicht wiederholten Stichproben gelöscht; im Grenzfall, wenn eine unendliche Grundgesamtheit betrachtet wird und die Stichprobe eine endliche Größe hat, verschwindet dieser Unterschied.

Beispiel:

In der amerikanischen Zeitschrift Literary Review wurden mit statistischen Methoden Prognosen zum Ausgang der bevorstehenden US-Präsidentschaftswahl 1936 untersucht. Bewerber für diese Stelle waren F.D. Roosevelt und A. M. Landon. Als Quelle für die allgemeine Bevölkerung der untersuchten Amerikaner wurden Nachschlagewerke von Telefonteilnehmern herangezogen. Aus diesen wurden zufällig 4 Millionen Adressen ausgewählt, an die die Redakteure des Magazins Postkarten verschickten, in denen sie aufgefordert wurden, ihre Haltung gegenüber den Präsidentschaftskandidaten zum Ausdruck zu bringen. Nach Auswertung der Umfrageergebnisse veröffentlichte das Magazin eine soziologische Prognose, dass Landon die anstehenden Wahlen mit großem Vorsprung gewinnen würde. Und ... ich habe mich geirrt: Roosevelt hat gewonnen.
Dieses Beispiel kann als Beispiel für eine nicht repräsentative Stichprobe angesehen werden. Tatsache ist, dass in den Vereinigten Staaten in der ersten Hälfte des zwanzigsten Jahrhunderts nur der wohlhabende Teil der Bevölkerung, der die Ansichten von Landon unterstützte, Telefone hatte.

3. Auswahlverfahren

In der Praxis werden verschiedene Auswahlmethoden verwendet, die in 2 Typen unterteilt werden können:

1. Die Auswahl erfordert keine Teilung der Population in Teile (a) einfach zufällig keine Wiederholung; b) einfache zufällige Wiederholung).

2. Selektion, bei der die allgemeine Bevölkerung in Teile geteilt wird. (a) typische Auswahl; b) mechanische Auswahl; in) seriell Auswahl).

Einfach zufällig nenne das Auswahl, bei dem Objekte nacheinander aus der gesamten Allgemeinbevölkerung (zufällig) extrahiert werden.

Typischgenannt Auswahl, bei der Objekte nicht aus der gesamten Allgemeinbevölkerung ausgewählt werden, sondern aus jedem ihrer „typischen“ Teile. Wird beispielsweise ein Teil auf mehreren Maschinen gefertigt, so erfolgt die Auswahl nicht aus der Gesamtheit der von allen Maschinen produzierten Teile, sondern aus den Produkten jeder Maschine separat. Eine solche Auswahl wird verwendet, wenn das untersuchte Merkmal in verschiedenen "typischen" Teilen der allgemeinen Bevölkerung merklich schwankt.

Mechanischgenannt Auswahl, bei dem die allgemeine Bevölkerung "mechanisch" in so viele Gruppen eingeteilt wird, wie es Objekte gibt, die in die Stichprobe aufgenommen werden sollen, und aus jeder Gruppe ein Objekt ausgewählt wird. Wenn Sie beispielsweise 20 % der von der Maschine hergestellten Teile auswählen müssen, wird jedes 5. Teil ausgewählt; wenn es erforderlich ist, 5% der Teile auszuwählen - jeden 20. usw. Manchmal gewährleistet eine solche Auswahl keine repräsentative Stichprobe (wenn jede 20. Drehwalze ausgewählt wird und die Schneide sofort nach der Auswahl ersetzt wird, werden alle mit stumpfen Schneide gedrehten Walzen ausgewählt).

Seriellgenannt Auswahl, bei dem Objekte nicht einzeln, sondern in „Serien“ aus der Allgemeinbevölkerung ausgewählt und einer kontinuierlichen Erhebung unterzogen werden. Werden beispielsweise Produkte von einer großen Gruppe von Automaten hergestellt, dann werden die Produkte von nur wenigen Maschinen einer kontinuierlichen Prüfung unterzogen.

In der Praxis wird häufig eine kombinierte Selektion verwendet, bei der die oben genannten Methoden kombiniert werden.

4. Statistische Verteilung der Stichprobe

Nehmen wir eine Stichprobe aus der Allgemeinbevölkerung und den Wert x 1- einmal beobachtet, x 2 -n 2 mal, ... x k - n k mal. n= n 1 +n 2 +...+n k ist die Stichprobengröße. Beobachtete Wertegenannt Optionen, und die Sequenz ist eine in aufsteigender Reihenfolge geschriebene Variante - Variationsreihe. Anzahl der Beobachtungengenannt Häufigkeiten (absolute Häufigkeiten), und ihr Verhältnis zum Stichprobenumfang- relative Häufigkeiten oder statistische Wahrscheinlichkeiten.

Wenn die Anzahl der Optionen groß ist oder die Stichprobe aus einer kontinuierlichen Grundgesamtheit besteht, wird die Variationsreihe nicht nach einzelnen Punktwerten, sondern nach Intervallen von Werten der Grundgesamtheit zusammengestellt. Eine solche Reihe heißt Intervall. Die Längen der Intervalle müssen gleich sein.

Die statistische Verteilung der Stichprobe eine sogenannte Liste von Optionen und ihren entsprechenden Häufigkeiten oder relativen Häufigkeiten.

Die statistische Verteilung kann auch als Folge von Intervallen und deren entsprechenden Häufigkeiten angegeben werden (die Summe der Häufigkeiten, die in dieses Intervall von Werten fallen).

Die Punktvariationsreihe von Frequenzen kann durch eine Tabelle dargestellt werden:

x ich
x 1
x2

x k
n ich
n 1
n 2

nk

In ähnlicher Weise kann man eine Punktvariationsreihe relativer Häufigkeiten darstellen.

Und:

Beispiel:

Es stellte sich heraus, dass die Anzahl der Buchstaben in einem Text X gleich 1000 war. Der erste Buchstabe war "i", der zweite - der Buchstabe "i", der dritte - der Buchstabe "a", der vierte - "u". Dann kamen die Buchstaben „o“, „e“, „y“, „e“, „s“.

Schreiben wir die Stellen auf, die sie im Alphabet einnehmen, wir haben: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Nachdem wir diese Zahlen in aufsteigender Reihenfolge angeordnet haben, erhalten wir eine Variationsreihe: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Die Häufigkeit des Auftretens von Buchstaben im Text: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu" - 7," I "- 22.

Wir bilden eine Punktvariationsreihe von Frequenzen:

Beispiel:

Häufigkeitsverteilung der Volumenabtastung angegeben n = 20.

Erstellen Sie eine Reihe von Punktvariationen relativer Häufigkeiten.

x ich

2

6

12

n ich

3

10

7

Lösung:

Finden Sie die relativen Häufigkeiten:


x ich

2

6

12

w ich

0,15

0,5

0,35

Beim Erstellen einer Intervallverteilung gibt es Regeln für die Auswahl der Anzahl von Intervallen oder der Größe jedes Intervalls. Kriterium ist hier das optimale Verhältnis: Mit zunehmender Anzahl der Intervalle verbessert sich zwar die Repräsentativität, aber die Datenmenge und die Zeit für deren Verarbeitung nehmen zu. Unterschied x max - x min zwischen dem größten und kleinsten Wert wird Variante aufgerufen im großen Stil Proben.

Um die Anzahl der Intervalle zu zählen k Wenden Sie normalerweise die empirische Formel von Sturgess an (was eine Rundung auf die nächste geeignete ganze Zahl impliziert): k = 1 + 3,322 log n .

Dementsprechend der Wert jedes Intervalls h kann mit der Formel berechnet werden:

5. Empirische Verteilungsfunktion

Betrachten Sie eine Stichprobe aus der allgemeinen Bevölkerung. Gegeben sei die statistische Verteilung der Häufigkeiten des quantitativen Merkmals X. Führen wir die Notation ein: n xist die Anzahl der Beobachtungen, bei denen ein Merkmalswert kleiner als x beobachtet wurde; n ist die Gesamtzahl der Beobachtungen (Stichprobengröße). Relative Ereignishäufigkeit X<х равна n x /n . Ändert sich x, so ändert sich auch die relative Häufigkeit, d.h. relative Frequenznx/nist eine Funktion von x. Da es wird empirisch gefunden, es heißt empirisch.

Empirische Verteilungsfunktion (Stichprobenverteilungsfunktion) Rufen Sie die Funktion auf, die für jedes x die relative Häufigkeit des Ereignisses X bestimmt<х.


wobei die Anzahl der Optionen kleiner als x ist,

n - Stichprobengröße.

Anders als die empirische Verteilungsfunktion der Stichprobe wird die Verteilungsfunktion F(x) der Grundgesamtheit genannt Theoretische Verteilungsfunktion.

Der Unterschied zwischen empirischer und theoretischer Verteilungsfunktion besteht darin, dass die theoretische Funktion F(x) die Wahrscheinlichkeit eines Ereignisses X bestimmt F*(x) tendiert in der Wahrscheinlichkeit zur Wahrscheinlichkeit F (x) dieses Ereignisses. Das heißt, für große n F*(x) und F(x) unterscheiden sich wenig voneinander.

Dass. es empfiehlt sich, die empirische Verteilungsfunktion der Stichprobe für eine näherungsweise Darstellung der theoretischen (integralen) Verteilungsfunktion der Allgemeinbevölkerung zu verwenden.

F*(x) hat alle Eigenschaften F(x).

1. Werte F*(x) gehören zum Intervall.

2. F*(x) ist eine nicht abnehmende Funktion.

3. Ist die kleinste Variante, dann ist F*(x) = 0, bei x < x1; wenn x k die größte Variante ist, dann ist F*(x) = 1, für x > x k .

Diese. F*(x) dient zur Schätzung von F(x).

Wenn die Stichprobe durch eine Variationsreihe gegeben ist, hat die empirische Funktion die Form:

Der Graph der empirischen Funktion heißt kumulativ.

Beispiel:

Zeichnen Sie eine empirische Funktion über die gegebene Stichprobenverteilung.


Lösung:

Stichprobenumfang n = 12 + 18 +30 = 60. Die kleinste Option ist 2, d. h. bei x < 2. Ereignis X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 um 2 < x < 6. Ereignis X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Weil x=10 ist dann die größte Option F*(x) = 1 bei x > 10. Die gesuchte empirische Funktion hat die Form:

Kumulieren:


Die Kumulierung ermöglicht es, die grafisch dargestellten Informationen zu verstehen, um beispielsweise die Fragen zu beantworten: „Bestimmen Sie die Anzahl der Beobachtungen, bei denen der Wert des Merkmals kleiner als 6 oder nicht kleiner als 6 war. F*(6) = 0,2 » Dann ist die Anzahl der Beobachtungen, bei denen der Wert des beobachteten Merkmals kleiner als 6 war, 0,2* n \u003d 0,2 * 60 \u003d 12. Die Anzahl der Beobachtungen, bei denen der Wert des beobachteten Merkmals nicht weniger als 6 war, beträgt (1-0,2) * n \u003d 0,8 * 60 \u003d 48.

Ist eine Intervallvariationsreihe gegeben, so werden zur Erstellung der empirischen Verteilungsfunktion die Mittelpunkte der Intervalle ermittelt und daraus ähnlich wie bei der Punktvariationsreihe die empirische Verteilungsfunktion gewonnen.

6. Polygon und Histogramm

Zur Verdeutlichung werden verschiedene Graphen der statistischen Verteilung erstellt: Polynome und Histogramme

Frequenzpolygon- dies ist eine gestrichelte Linie, deren Segmente die Punkte ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ) verbinden, wobei die Optionen sind, sind die ihnen entsprechenden Frequenzen.

Polygon der relativen Häufigkeiten - dies ist eine unterbrochene Linie, deren Segmente die Punkte ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ) verbinden, wobei x i Optionen sind, w i ihnen entsprechende relative Häufigkeiten sind.

Beispiel:

Zeichnen Sie das Polynom der relativen Häufigkeit über der gegebenen Stichprobenverteilung:

Lösung:

Bei einem stetigen Merkmal empfiehlt es sich, ein Histogramm aufzubauen, bei dem das Intervall, das alle beobachteten Werte des Merkmals enthält, in mehrere Teilintervalle der Länge h aufgeteilt und für jedes Teilintervall n i ermittelt wird - die Summe der Variantenhäufigkeiten, die in das i-te Intervall fallen. (Zum Beispiel haben wir es bei der Messung der Größe oder des Gewichts einer Person mit einem fortlaufenden Zeichen zu tun).

Frequenzhistogramm- dies ist eine Stufenfigur, bestehend aus Rechtecken, deren Grundflächen Teilintervalle der Länge h sind und deren Höhen gleich dem Verhältnis (Häufigkeitsdichte) sind.

Quadrat Das i-te Teilrechteck ist gleich der Summe der Häufigkeiten der Variante des i-ten Intervalls, d.h. der Häufigkeitshistogrammbereich ist gleich der Summe aller Häufigkeiten, d.h. Stichprobengröße.

Beispiel:

Die Ergebnisse der Spannungsänderung (in Volt) im Stromnetz werden angegeben. Stellen Sie eine Variationsreihe zusammen, erstellen Sie ein Polygon und ein Frequenzhistogramm, wenn die Spannungswerte wie folgt sind: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Lösung:

Lassen Sie uns eine Reihe von Variationen erstellen. Wir haben n = 20, x min = 212, x max = 232.

Lassen Sie uns die Sturgess-Formel verwenden, um die Anzahl der Intervalle zu berechnen.

Die Intervallvariationsreihe von Frequenzen hat die Form:


Frequenzdichte

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Lassen Sie uns ein Histogramm der Häufigkeiten erstellen:

Lassen Sie uns ein Frequenzpolygon konstruieren, indem wir zuerst die Mittelpunkte der Intervalle finden:


Histogramm der relativen Häufigkeiten nennen wir eine Stufenfigur, die aus Rechtecken besteht, deren Grundflächen Teilintervalle der Länge h sind und deren Höhen gleich dem Verhältnis w sind ich/h (relative Frequenzdichte).

Quadrat Das i-te Teilrechteck ist gleich der relativen Häufigkeit der Variante, die in das i-te Intervall gefallen ist. Diese. die Fläche des Histogramms der relativen Häufigkeiten ist gleich der Summe aller relativen Häufigkeiten, d.h. Einheit.

7. Numerische Merkmale der Variationsreihe

Berücksichtigen Sie die Hauptmerkmale der allgemeinen und Stichprobenpopulationen.

Allgemeine Sekundär wird das arithmetische Mittel der Werte des Merkmals der Allgemeinbevölkerung genannt.

Für verschiedene Werte x 1 , x 2 , x 3 , …, x n . Zeichen der Allgemeinbevölkerung des Bandes N haben wir:

Wenn die Attributwerte entsprechende Häufigkeiten haben N 1 +N 2 +…+N k =N , dann


Stichprobenmittelwert wird das arithmetische Mittel der Werte des Merkmals der Stichprobenpopulation genannt.

Wenn die Attributwerte entsprechende Häufigkeiten haben n 1 +n 2 +…+n k = n, dann


Beispiel:

Berechnen Sie den Stichprobenmittelwert für die Stichprobe: x 1 = 51,12; x 2 \u003d 51,07 x 3 \u003d 52,95; x 4 \u003d 52,93; x 5 \u003d 51,1; x 6 \u003d 52,98; x 7 \u003d 52,29; x 8 \u003d 51,23; x 9 \u003d 51,07; x10 = 51,04.

Lösung:

Allgemeine Abweichung wird das arithmetische Mittel der quadrierten Abweichungen der Werte des Merkmals X der Allgemeinbevölkerung vom allgemeinen Durchschnitt genannt.

Für verschiedene Werte x 1 , x 2 , x 3 , …, x N des Vorzeichens der Besetzung des Volumens N haben wir:

Wenn die Attributwerte entsprechende Häufigkeiten haben N 1 +N 2 +…+N k =N , dann

Allgemeine Standardabweichung (Standard) als Quadratwurzel der allgemeinen Varianz bezeichnet

Stichprobenabweichung nennt man das arithmetische Mittel der quadrierten Abweichungen der beobachteten Werte des Merkmals vom Mittelwert.

Für verschiedene Werte x 1 , x 2 , x 3 , ..., x n des Vorzeichens der Stichprobenpopulation des Volumens n gilt:


Wenn die Attributwerte entsprechende Häufigkeiten haben n 1 +n 2 +…+n k = n, dann


Stichproben-Standardabweichung (Standard) wird als Quadratwurzel der Stichprobenvarianz bezeichnet.


Beispiel:

Die Stichprobenmenge ergibt sich aus der Verteilungstabelle. Finden Sie die Stichprobenvarianz.


Lösung:

Satz: Die Varianz ist gleich der Differenz zwischen dem Mittelwert der Quadrate der Merkmalswerte und dem Quadrat des Gesamtmittelwerts.

Beispiel:

Finden Sie die Varianz für diese Verteilung.



Lösung:

8. Statistische Schätzungen von Verteilungsparametern

Lassen Sie die allgemeine Bevölkerung durch eine Stichprobe untersuchen. In diesem Fall ist es möglich, nur einen ungefähren Wert des unbekannten Parameters Q zu erhalten, der als seine Schätzung dient. Es ist offensichtlich, dass die Schätzungen von einer Stichprobe zur anderen variieren können.

Statistische AuswertungQ* Der unbekannte Parameter der theoretischen Verteilung wird als Funktion f bezeichnet, die von den beobachteten Werten der Stichprobe abhängt. Die Aufgabe der statistischen Schätzung unbekannter Parameter aus einer Stichprobe besteht darin, aus den verfügbaren Daten statistischer Beobachtungen eine solche Funktion zu konstruieren, die die genauesten Näherungswerte realer, dem Forscher unbekannter Werte dieser Parameter liefern würde.

Statistische Schätzungen werden je nach Art der Bereitstellung (Anzahl oder Intervall) in Punkt und Intervall unterteilt.

Eine Punktschätzung wird als statistische Schätzung bezeichnet. Parameter Q der theoretischen Verteilung bestimmt durch einen Wert des Parameters Q *=f (x 1 , x 2 , ..., x n), wobeix 1 , x 2 , ...,xn- die Ergebnisse empirischer Beobachtungen zum quantitativen Attribut X einer bestimmten Probe.

Solche aus verschiedenen Stichproben erhaltenen Parameterschätzungen unterscheiden sich meistens voneinander. Die absolute Differenz wird /Q *-Q / genannt Stichprobenfehler (Schätzung).

Damit statistische Schätzungen zuverlässige Ergebnisse über die geschätzten Parameter liefern, müssen sie unvoreingenommen, effizient und konsistent sein.

Punktschätzung, dessen mathematische Erwartung gleich (ungleich) dem geschätzten Parameter ist, wird aufgerufen unverschoben (verschoben). M(Q*)=Q .

Differenz M( Q *)-Q wird aufgerufen Voreingenommenheit oder systematischer Fehler. Bei unverzerrten Schätzungen beträgt der systematische Fehler 0.

effizient Bewertung Q *, die bei gegebenem Stichprobenumfang n die kleinstmögliche Varianz hat: D min(n = const ). Der effektive Schätzer hat im Vergleich zu anderen unverzerrten und konsistenten Schätzern die kleinste Streuung.

Reichnennt man eine solche Statistik Bewertung Q *, was für ntendiert mit Wahrscheinlichkeit zum geschätzten Parameter Q , d.h. mit einer Erhöhung der Stichprobengröße n die Schätzung tendiert mit Wahrscheinlichkeit zum wahren Wert des Parameters Q.

Das Konsistenzgebot steht im Einklang mit dem Gesetz der großen Zahlen: Je mehr Ausgangsinformationen über das Untersuchungsobjekt vorliegen, desto genauer ist das Ergebnis. Wenn die Stichprobengröße klein ist, kann die Punktschätzung des Parameters zu schwerwiegenden Fehlern führen.

Irgendein Probe (Volumenn) kann als geordneter Satz betrachtet werdenx 1 , x 2 , ...,xn unabhängige identisch verteilte Zufallsvariablen.

Probe bedeutet für verschiedene Volumenproben n aus der gleichen Bevölkerung wird anders sein. Das heißt, der Stichprobenmittelwert kann als Zufallsvariable betrachtet werden, was bedeutet, dass wir über die Verteilung des Stichprobenmittelwerts und seine numerischen Eigenschaften sprechen können.

Der Stichprobenmittelwert erfüllt alle Anforderungen, die an statistische Schätzungen gestellt werden, d. h. liefert eine unvoreingenommene, effiziente und konsistente Schätzung des Mittelwerts der Grundgesamtheit.

Das lässt sich belegen. Daher ist die Stichprobenvarianz eine verzerrte Schätzung der allgemeinen Varianz, was ihr einen unterschätzten Wert verleiht. Das heißt, bei einer kleinen Stichprobengröße ergibt sich ein systematischer Fehler. Für eine unverzerrte, konsistente Schätzung reicht es aus, die Menge zu nehmen, die als korrigierte Varianz bezeichnet wird. d.h.

In der Praxis wird zur Schätzung der allgemeinen Varianz die korrigierte Varianz verwendet, wenn n < 30. In anderen Fällen ( n >30) Abweichung von kaum wahrnehmbar. Daher für große Werte n Der Bias-Fehler kann vernachlässigt werden.

Das kann man auch anhand der relativen Häufigkeit nachweisenn i / n ist eine unvoreingenommene und konsistente Wahrscheinlichkeitsschätzung P(X=x i ). Empirische Verteilungsfunktion F*(x ) ist eine unverzerrte und konsistente Schätzung der theoretischen Verteilungsfunktion F(x)=P(X< x ).

Beispiel:

Ermitteln Sie die unverzerrten Schätzungen des Mittelwerts und der Varianz aus der Beispieltabelle.

x ich
n ich

Lösung:

Stichprobenumfang n=20.

Die unverzerrte Schätzung der mathematischen Erwartung ist der Stichprobenmittelwert.


Um die unverzerrte Schätzung der Varianz zu berechnen, finden wir zuerst die Stichprobenvarianz:

Lassen Sie uns nun die unverzerrte Schätzung finden:

9. Intervallschätzungen von Verteilungsparametern

Ein Intervall ist eine statistische Schätzung, die durch zwei numerische Werte bestimmt wird - die Enden des untersuchten Intervalls.

Nummer> 0, wobei | Q-Q*|< , charakterisiert die Genauigkeit der Intervallschätzung.

Vertrauenswürdigegenannt Intervall , die mit einer gegebenen Wahrscheinlichkeitdeckt unbekannten Parameterwert ab Q . Ergänze das Konfidenzintervall um die Menge aller möglichen Parameterwerte Q genannt Kritischen Bereich. Befindet sich der kritische Bereich nur auf einer Seite des Konfidenzintervalls, so wird das Konfidenzintervall genannt einseitig: linksseitig, wenn der kritische Bereich nur links existiert, und Rechtshändig außer rechts. Andernfalls wird das Konfidenzintervall aufgerufen zweiseitig.

Zuverlässigkeit oder Konfidenzniveau, Q-Schätzungen (unter Verwendung von Q *) Nennen Sie die Wahrscheinlichkeit, mit der die folgende Ungleichung erfüllt ist: | Q-Q*|< .

Meistens wird die Konfidenzwahrscheinlichkeit im Voraus festgelegt (0,95; 0,99; 0,999) und ihr wird die Anforderung auferlegt, nahe bei eins zu sein.

Wahrscheinlichkeitgenannt die Fehlerwahrscheinlichkeit oder das Signifikanzniveau.

Lassen Sie | Q-Q*|< , dann. Das bedeutet, dass mit einer WahrscheinlichkeitEs kann argumentiert werden, dass der wahre Wert des Parameters Q gehört zum Intervall. Je kleiner die Abweichung, desto genauer die Schätzung.

Die Grenzen (Enden) des Konfidenzintervalls werden aufgerufen Vertrauensgrenzen oder kritische Grenzen.

Die Werte der Grenzen des Konfidenzintervalls hängen vom Verteilungsgesetz des Parameters ab Q*.

Abweichungswertdie halbe Breite des Konfidenzintervalls genannt Beurteilungsgenauigkeit.

Methoden zur Konstruktion von Konfidenzintervallen wurden erstmals von dem amerikanischen Statistiker Y. Neumann entwickelt. Schätzungsgenauigkeit, Konfidenzwahrscheinlichkeit und Stichprobenumfang n verbunden. Wenn Sie also die spezifischen Werte zweier Größen kennen, können Sie immer die dritte berechnen.

Ermittlung des Konfidenzintervalls zur Schätzung der mathematischen Erwartung einer Normalverteilung bei bekannter Standardabweichung.

Lassen Sie eine Stichprobe aus der Allgemeinbevölkerung ziehen, die dem Gesetz der Normalverteilung unterliegt. Die allgemeine Standardabweichung sei bekannt, aber die mathematische Erwartung der theoretischen Verteilung ist unbekannt a().

Es gilt folgende Formel:

Diese. entsprechend dem angegebenen Abweichungswertkann man herausfinden, mit welcher Wahrscheinlichkeit der unbekannte allgemeine Mittelwert zu dem Intervall gehört. Umgekehrt. Aus der Formel ist ersichtlich, dass bei einer Erhöhung des Stichprobenumfangs und einem festen Wert der Konfidenzwahrscheinlichkeit der Wert- nimmt ab, d.h. die Genauigkeit der Schätzung wird erhöht. Mit zunehmender Reliabilität (Konfidenzwahrscheinlichkeit) steigt der Wert-erhöht, d.h. die Genauigkeit der Schätzung nimmt ab.

Beispiel:

Als Ergebnis der Tests wurden die folgenden Werte erhalten -25, 34, -20, 10, 21. Es ist bekannt, dass sie dem Normalverteilungsgesetz mit einer Standardabweichung von 2 gehorchen. Finden Sie die Schätzung a* für die mathematische Erwartung a. Zeichnen Sie dafür ein 90%-Konfidenzintervall.

Lösung:

Finden wir die unverzerrte Schätzung

Dann


Das Konfidenzintervall für a hat die Form: 4 - 1,47< a< 4+ 1,47 или 2,53 < a < 5, 47

Ermittlung des Konfidenzintervalls zur Schätzung der mathematischen Erwartung einer Normalverteilung bei unbekannter Standardabweichung.

Lassen Sie uns wissen, dass die allgemeine Bevölkerung dem Gesetz der Normalverteilung unterliegt, wobei a und. Genauigkeit der Konfidenzintervallabdeckung mit ZuverlässigkeitDer wahre Wert des Parameters a wird in diesem Fall durch die Formel berechnet:

, wobei n die Stichprobengröße ist, , - Schülerkoeffizient (er sollte aus den angegebenen Werten ermittelt werden n und aus der Tabelle "Kritische Punkte der Schülerverteilung").

Beispiel:

Als Ergebnis der Tests wurden die folgenden Werte erhalten -35, -32, -26, -35, -30, -17. Es ist bekannt, dass sie dem Gesetz der Normalverteilung gehorchen. Ermitteln Sie das Konfidenzintervall für den Grundgesamtheitsmittelwert a mit einem Konfidenzniveau von 0,9.

Lösung:

Finden wir die unverzerrte Schätzung.

Lass uns finden.

Dann

Das Konfidenzintervall nimmt die Form an(-29,2 - 5,62; -29,2 + 5,62) oder (-34,82; -23,58).

Ermitteln des Konfidenzintervalls für die Varianz und Standardabweichung einer Normalverteilung

Lassen Sie eine zufällige Volumenprobe aus einer allgemeinen Menge von Werten entnehmen, die nach dem normalen Gesetz verteilt sindn < 30, für die Stichprobenvarianzen berechnet werden: verzerrtund korrigiert s 2. Dann um Intervallschätzungen mit einer gegebenen Zuverlässigkeit zu findenzur allgemeinen StreuungDallgemeine StandardabweichungDie folgenden Formeln werden verwendet.


oder,

Werte- Finden Sie anhand der Wertetabelle kritische PunktePearson-Verteilungen.

Das Konfidenzintervall für die Varianz wird aus diesen Ungleichungen ermittelt, indem alle Teile der Ungleichung quadriert werden.

Beispiel:

Die Qualität von 15 Schrauben wurde überprüft. Unter der Annahme, dass der Fehler bei ihrer Herstellung dem Normalverteilungsgesetz und der Stichprobenstandardabweichung unterliegtgleich 5 mm, zuverlässig bestimmenKonfidenzintervall für unbekannten Parameter

Wir stellen die Grenzen des Intervalls als doppelte Ungleichung dar:

Die Enden des zweiseitigen Konfidenzintervalls für die Varianz lassen sich ohne Rechenoperationen für ein gegebenes Konfidenzniveau und Stichprobenumfang anhand der entsprechenden Tabelle (Grenzen der Konfidenzintervalle für die Varianz in Abhängigkeit von der Zahl der Freiheitsgrade und der Reliabilität ). Dazu werden die aus der Tabelle ermittelten Intervallenden mit der korrigierten Varianz s 2 multipliziert.

Beispiel:

Lassen Sie uns das vorherige Problem auf eine andere Weise lösen.

Lösung:

Finden wir die korrigierte Varianz:

Gemäß der Tabelle „Grenzen der Konfidenzintervalle für die Varianz in Abhängigkeit von der Zahl der Freiheitsgrade und der Reliabilität“ finden wir die Grenzen des Konfidenzintervalls für die Varianz beik=14 und: Untergrenze 0,513 und Obergrenze 2,354.

Multiplizieren Sie die erhaltenen Grenzen mits 2 und wurzeln (weil wir ein Konfidenzintervall nicht für die Varianz, sondern für die Standardabweichung brauchen).

Wie aus den Beispielen ersichtlich ist, hängt der Wert des Konfidenzintervalls von der Methode seiner Konstruktion ab und ergibt ähnliche, aber unterschiedliche Ergebnisse.

Für ausreichend große Proben (n>30) können die Grenzen des Konfidenzintervalls für die allgemeine Standardabweichung durch die Formel bestimmt werden: - eine bestimmte Zahl, die tabelliert und in der entsprechenden Referenztabelle angegeben ist.

Wenn 1- q<1, то формула имеет вид:

Beispiel:

Lassen Sie uns das vorherige Problem auf die dritte Weise lösen.

Lösung:

Früher gefundens= 5,17. q(0,95; 15) = 0,46 - finden wir gemäß der Tabelle.

Dann:

Es kommt oft vor, dass es notwendig ist, ein bestimmtes soziales Phänomen zu analysieren und Informationen darüber zu erhalten. Solche Aufgaben treten häufig in der Statistik und in der statistischen Forschung auf. Die Überprüfung eines vollständig definierten sozialen Phänomens ist oft unmöglich. Wie kann man beispielsweise die Meinung der Bevölkerung oder aller Einwohner einer bestimmten Stadt zu einem beliebigen Thema herausfinden? Absolut jeden zu fragen ist fast unmöglich und sehr mühsam. In solchen Fällen benötigen wir ein Muster. Dies ist genau das Konzept, auf dem fast alle Forschungen und Analysen basieren.

Was ist eine Probe

Bei der Analyse eines bestimmten sozialen Phänomens ist es notwendig, Informationen darüber zu erhalten. Wenn wir irgendeine Studie nehmen, können wir sehen, dass nicht jede Einheit der Gesamtheit des Studiengegenstandes Gegenstand von Forschung und Analyse ist. Nur ein gewisser Teil dieser Gesamtheit wird berücksichtigt. Dieser Prozess ist Sampling: wenn nur bestimmte Einheiten aus dem Set untersucht werden.

Natürlich hängt viel von der Art der Probe ab. Aber es gibt auch Grundregeln. Die wichtigste besagt, dass die Auswahl aus der Bevölkerung absolut zufällig sein muss. Die zu verwendenden Bevölkerungseinheiten sollten nicht aufgrund irgendwelcher Kriterien ausgewählt werden. Wenn es grob gesagt notwendig ist, eine Bevölkerung aus der Bevölkerung einer bestimmten Stadt zu erheben und nur Männer auszuwählen, dann liegt ein Fehler in der Studie vor, weil die Auswahl nicht zufällig, sondern nach Geschlecht erfolgt ist. Nahezu alle Stichprobenverfahren basieren auf dieser Regel.

Stichprobenregeln

Damit das ausgewählte Set die Hauptqualitäten des gesamten Phänomens widerspiegelt, muss es nach bestimmten Gesetzen gebaut werden, wobei das Hauptaugenmerk auf die folgenden Kategorien gelegt werden sollte:

  • Stichprobe (Stichprobe);
  • Durchschnittsbevölkerung;
  • Repräsentativität;
  • Repräsentativitätsfehler;
  • Bevölkerungseinheit;
  • Stichprobenverfahren.

Merkmale der selektiven Beobachtung und Probenahme sind wie folgt:

  1. Alle erhaltenen Ergebnisse basieren auf mathematischen Gesetzen und Regeln, dh bei korrekter Durchführung der Studie und korrekten Berechnungen werden die Ergebnisse nicht subjektiv verzerrt
  2. Es macht es möglich, viel schneller und mit weniger Zeit und Ressourcen zu einem Ergebnis zu kommen, indem nicht die gesamte Reihe von Ereignissen untersucht wird, sondern nur ein Teil davon.
  3. Es kann verwendet werden, um verschiedene Objekte zu untersuchen: von spezifischen Themen, zum Beispiel Alter, Geschlecht der für uns interessanten Gruppe, bis hin zur Untersuchung der öffentlichen Meinung oder des Niveaus der materiellen Unterstützung der Bevölkerung.

Selektive Beobachtung

Selektiv - Dies ist eine solche statistische Beobachtung, bei der nicht die gesamte untersuchte Bevölkerung untersucht wird, sondern nur ein Teil davon, der auf bestimmte Weise ausgewählt wird, und die Ergebnisse der Untersuchung dieses Teils für die gesamte Bevölkerung gelten. Dieser Teil wird als Stichprobenrahmen bezeichnet. Nur so kann eine große Bandbreite des Untersuchungsgegenstandes untersucht werden.

Die selektive Beobachtung kann jedoch nur in Fällen verwendet werden, in denen nur eine kleine Gruppe von Einheiten untersucht werden muss. Wenn zum Beispiel das Verhältnis von Männern zu Frauen in der Welt untersucht wird, wird eine selektive Beobachtung verwendet. Aus offensichtlichen Gründen ist es unmöglich, jeden Bewohner unseres Planeten zu berücksichtigen.

Aber bei gleichem Studium, aber nicht von allen Erdbewohnern, sondern von einer bestimmten A-Klasse in einer bestimmten Schule, einer bestimmten Stadt, einem bestimmten Land, kann auf eine punktuelle Beobachtung verzichtet werden. Schließlich ist es durchaus möglich, die gesamte Bandbreite des Untersuchungsgegenstandes zu analysieren. Es ist notwendig, die Jungen und Mädchen dieser Klasse zu zählen - das wird das Verhältnis sein.

Stichprobe und Population

Es ist eigentlich nicht so schwierig, wie es sich anhört. In jedem Studienobjekt gibt es zwei Systeme: allgemeine und Stichprobenpopulation. Was ist es? Alle Einheiten gehören dem General. Und zur Stichprobe - jene Einheiten der Gesamtbevölkerung, die für die Stichprobe entnommen wurden. Wenn alles richtig gemacht ist, ist der ausgewählte Teil ein reduziertes Layout der gesamten (allgemeinen) Bevölkerung.

Wenn wir über die allgemeine Bevölkerung sprechen, können wir nur zwei ihrer Varianten unterscheiden: die bestimmte und die unbestimmte allgemeine Bevölkerung. Hängt davon ab, ob die Gesamtzahl der Einheiten eines bestimmten Systems bekannt ist oder nicht. Wenn es sich um eine bestimmte Grundgesamtheit handelt, ist die Probenahme einfacher, da bekannt ist, welcher Prozentsatz der Gesamtzahl der Einheiten beprobt wird.

Dieser Moment ist in der Forschung sehr notwendig. Zum Beispiel, wenn es notwendig ist, den Anteil minderwertiger Süßwaren in einem bestimmten Werk zu untersuchen. Angenommen, die Population wurde bereits definiert. Es ist sicher bekannt, dass dieses Unternehmen 1000 Süßwaren pro Jahr herstellt. Wenn wir aus diesen Tausend eine Stichprobe von 100 zufälligen Süßwaren herstellen und zur Untersuchung einsenden, ist der Fehler minimal. Grob gesagt wurden 10 % aller Produkte untersucht, und basierend auf den Ergebnissen, unter Berücksichtigung des Repräsentativitätsfehlers, können wir von einer schlechten Qualität aller Produkte sprechen.

Und wenn Sie eine Probe von 100 Süßwarenprodukten aus einer unbestimmten Allgemeinbevölkerung nehmen, wo es tatsächlich, sagen wir, 1 Million Einheiten gab, dann wird das Ergebnis der Probe und der Studie selbst äußerst unplausibel und ungenau sein. Fühle den Unterschied? Daher ist die Gewissheit der Allgemeinbevölkerung in den meisten Fällen äußerst wichtig und beeinflusst das Ergebnis der Studie stark.

Bevölkerungsrepräsentativität

Also, jetzt eine der wichtigsten Fragen - was soll die Probe sein? Dies ist der wichtigste Punkt der Studie. In diesem Stadium ist es notwendig, die Stichprobe zu berechnen und Einheiten aus der Gesamtzahl auszuwählen. Die Grundgesamtheit wurde richtig ausgewählt, wenn bestimmte Merkmale und Merkmale der Allgemeinbevölkerung in der Stichprobe verbleiben. Dies wird als Repräsentativität bezeichnet.

Mit anderen Worten, wenn ein Teil nach der Selektion die gleichen Tendenzen und Eigenschaften behält wie die gesamte Menge der Untersuchten, dann wird eine solche Population als repräsentativ bezeichnet. Aber nicht jede spezifische Stichprobe kann aus einer repräsentativen Population ausgewählt werden. Es gibt auch solche Forschungsobjekte, deren Stichprobe schlichtweg nicht repräsentativ sein kann. Daraus leitet sich der Begriff des Repräsentativitätsfehlers ab. Aber lass uns noch ein bisschen darüber reden.

So treffen Sie eine Auswahl

Um die Repräsentativität zu maximieren, gibt es also drei grundlegende Stichprobenregeln:


Fehler (Fehler) der Repräsentativität

Das Hauptmerkmal der Qualität der ausgewählten Stichprobe ist das Konzept des „Repräsentativitätsfehlers“. Was ist es? Dies sind gewisse Diskrepanzen zwischen den Indikatoren der selektiven und kontinuierlichen Beobachtung. Gemäß den Fehlerindikatoren wird die Repräsentativität in zuverlässig, gewöhnlich und ungefähr unterteilt. Mit anderen Worten sind Abweichungen von bis zu 3 %, von 3 bis 10 % bzw. von 10 bis 20 % akzeptabel. Obwohl es in der Statistik wünschenswert ist, dass der Fehler 5-6% nicht überschreitet. Ansonsten gibt es Anlass, von einer unzureichenden Repräsentativität der Stichprobe zu sprechen. Um den Repräsentativitätsfehler zu berechnen und wie er sich auf eine Stichprobe oder Grundgesamtheit auswirkt, werden viele Faktoren berücksichtigt:

  1. Die Wahrscheinlichkeit, mit der ein genaues Ergebnis erhalten werden soll.
  2. Anzahl der Probenahmeeinheiten. Wie bereits erwähnt, ist der Repräsentativitätsfehler umso größer, je kleiner die Anzahl der Einheiten in der Stichprobe ist, und umgekehrt.
  3. Homogenität der Studienpopulation. Je heterogener die Bevölkerung ist, desto größer ist der Repräsentativitätsfehler. Die Repräsentativität einer Population hängt von der Homogenität aller ihrer Bestandteile ab.
  4. Eine Methode zur Auswahl von Einheiten in einer Stichprobenpopulation.

In bestimmten Studien wird der prozentuale Fehler des Mittelwerts normalerweise vom Untersucher selbst festgelegt, basierend auf dem Beobachtungsprogramm und gemäß Daten aus früheren Studien. In der Regel wird ein maximaler Stichprobenfehler (Repräsentativitätsfehler) innerhalb von 3-5 % als akzeptabel angesehen.

Mehr ist nicht immer besser

Es sei auch daran erinnert, dass die Hauptsache bei der Organisation einer selektiven Beobachtung darin besteht, die Lautstärke auf ein akzeptables Minimum zu bringen. Gleichzeitig sollte eine übermäßige Reduzierung der Stichprobenfehlergrenzen nicht angestrebt werden, da dies zu einer ungerechtfertigten Erhöhung der Stichprobendatenmenge und damit zu einer Erhöhung der Stichprobenkosten führen kann.

Gleichzeitig sollte die Größe des Repräsentativitätsfehlers nicht übermäßig erhöht werden. Denn in diesem Fall wird zwar die Stichprobengröße verringert, dies führt jedoch zu einer Verschlechterung der Zuverlässigkeit der erhaltenen Ergebnisse.

Welche Fragen werden normalerweise von den Forschern gestellt?

Jede Forschung, sofern sie durchgeführt wird, dient einem bestimmten Zweck und der Erzielung einiger Ergebnisse. Bei der Durchführung einer Stichprobenerhebung lauten die Ausgangsfragen in der Regel:


Methoden zur Auswahl von Forschungseinheiten in der Stichprobe

Nicht jede Probe ist repräsentativ. Manchmal wird ein und dasselbe Zeichen im Ganzen und in seinem Teil unterschiedlich ausgedrückt. Um die Anforderungen an die Repräsentativität zu erfüllen, empfiehlt es sich, verschiedene Stichprobenverfahren anzuwenden. Darüber hinaus hängt die Verwendung der einen oder anderen Methode von den spezifischen Umständen ab. Einige dieser Stichprobenverfahren umfassen:

  • zufällige Auswahl;
  • mechanische Selektion;
  • typische Auswahl;
  • serielle (verschachtelte) Auswahl.

Zufallsauswahl ist ein System von Aktivitäten, die auf eine zufällige Auswahl von Bevölkerungseinheiten abzielen, wenn die Wahrscheinlichkeit, in die Stichprobe aufgenommen zu werden, für alle Einheiten der allgemeinen Bevölkerung gleich ist. Es ist ratsam, diese Technik nur bei Homogenität und einer kleinen Anzahl ihrer inhärenten Merkmale anzuwenden. Anderenfalls laufen einige charakteristische Merkmale Gefahr, sich nicht in der Stichprobe widerzuspiegeln. Allen anderen Methoden der Stichprobenziehung liegen Merkmale der Zufallsauswahl zugrunde.

Bei mechanischer Auswahl der Einheiten erfolgt in einem bestimmten Intervall. Ist eine Stichprobenziehung von bestimmten Straftaten erforderlich, kann jede 5., 10. oder 15. Karte je nach Gesamtzahl und zur Verfügung stehenden Stichprobengrößen aus allen statistischen Erfassungen der erfassten Straftaten herausgenommen werden. Der Nachteil dieser Methode besteht darin, dass vor der Auswahl eine vollständige Erfassung der Bevölkerungseinheiten erforderlich ist, dann eine Rangfolge durchgeführt werden muss und erst danach eine Stichprobe mit einem bestimmten Intervall möglich ist. Diese Methode nimmt viel Zeit in Anspruch und wird daher nicht oft verwendet.

Typische (regionale) Selektion ist eine Art Stichprobe, bei der die Allgemeinbevölkerung nach einem bestimmten Merkmal in homogene Gruppen eingeteilt wird. Manchmal verwenden Forscher statt „Gruppen“ andere Begriffe: „Bezirke“ und „Zonen“. Dann wird aus jeder Gruppe zufällig eine bestimmte Anzahl von Einheiten im Verhältnis zum Anteil der Gruppe an der Gesamtbevölkerung ausgewählt. Eine typische Selektion erfolgt oft in mehreren Stufen.

Die Serienbemusterung ist ein Verfahren, bei dem die Auswahl der Einheiten in Gruppen (Serien) erfolgt und alle Einheiten der ausgewählten Gruppe (Serien) einer Prüfung unterzogen werden. Der Vorteil dieser Methode besteht darin, dass es manchmal schwieriger ist, einzelne Einheiten als Serien auszuwählen, beispielsweise wenn eine Person untersucht wird, die eine Strafe verbüßt. Innerhalb der ausgewählten Bereiche, Zonen, wird die Untersuchung aller Einheiten ohne Ausnahme angewendet, zum Beispiel die Untersuchung aller Personen, die Strafen in einer bestimmten Anstalt verbüßen.

Teil der Objekte aus der für die Untersuchung ausgewählten Population, um einen Rückschluss auf die Gesamtpopulation zu ziehen. Damit die durch die Untersuchung der Stichprobe gewonnene Schlussfolgerung auf die gesamte Bevölkerung ausgedehnt werden kann, muss die Stichprobe die Eigenschaft haben, repräsentativ zu sein.

Stichprobenrepräsentativität

Die Eigenschaft der Stichprobe, die Grundgesamtheit korrekt wiederzugeben. Dieselbe Stichprobe kann für verschiedene Populationen repräsentativ sein oder nicht.
Beispiel:

Eine Stichprobe, die ausschließlich aus Moskowitern besteht, die ein Auto besitzen, repräsentiert nicht die gesamte Bevölkerung Moskaus.

Die Stichprobe russischer Unternehmen mit bis zu 100 Beschäftigten repräsentiert nicht alle Unternehmen in Russland.

Die Stichprobe der Moskowiter, die auf dem Markt einkaufen, repräsentiert nicht das Kaufverhalten aller Moskowiter.

Gleichzeitig können diese Muster (vorbehaltlich anderer Bedingungen) Moskauer Autobesitzer, kleine und mittlere russische Unternehmen bzw. Käufer, die auf den Märkten einkaufen, perfekt repräsentieren.

Es ist wichtig zu verstehen, dass die Repräsentativität der Stichprobe und der Stichprobenfehler unterschiedliche Phänomene sind. Im Gegensatz zum Fehler hängt die Repräsentativität nicht von der Stichprobengröße ab.

Egal wie sehr wir die Zahl der befragten Moskowiter-Autobesitzer erhöhen, wir werden mit dieser Stichprobe nicht alle Moskowiter repräsentieren können.

Stichprobenfehler (Konfidenzintervall)

Die Abweichung der mit Hilfe von Stichprobenbeobachtungen erzielten Ergebnisse von den wahren Daten der Allgemeinbevölkerung.

Es gibt zwei Arten von Stichprobenfehlern: statistische und systematische. Der statistische Fehler hängt von der Stichprobengröße ab. Je größer die Stichprobengröße, desto geringer ist sie.

Beispiel:
Bei einer einfachen Zufallsstichprobe von 400 Einheiten beträgt der maximale statistische Fehler (bei 95 % Konfidenz) 5 %, bei einer Stichprobe von 600 Einheiten - 4 %, bei einer Stichprobe von 1100 Einheiten - 3 %.

Der systematische Fehler hängt von verschiedenen Faktoren ab, die sich ständig auf die Studie auswirken und die Ergebnisse der Studie in eine bestimmte Richtung verzerren.

Beispiel:
- Die Verwendung einer beliebigen Wahrscheinlichkeitsstichprobe unterschätzt den Anteil der Menschen mit hohem Einkommen, die einen aktiven Lebensstil führen. Dies liegt daran, dass solche Personen an einem bestimmten Ort (z. B. zu Hause) viel schwieriger zu finden sind.

Das Problem der Befragten, die sich weigern, die Fragen des Fragebogens zu beantworten (der Anteil der „Verweigerer“ in Moskau reicht für verschiedene Umfragen von 50% bis 80%)

In einigen Fällen, wenn die wahren Verteilungen bekannt sind, kann die Verzerrung durch die Einführung von Quoten oder die Neugewichtung der Daten ausgeglichen werden, aber in den meisten realen Studien kann sogar eine Schätzung ziemlich problematisch sein.

Beispieltypen

Proben werden in zwei Arten unterteilt:

probabilistisch

Unwahrscheinlichkeit

Wahrscheinlichkeitsstichproben

1.1 Zufallsauswahl (einfache Zufallsauswahl)

Eine solche Stichprobe setzt die Homogenität der Allgemeinbevölkerung, die gleiche Wahrscheinlichkeit der Verfügbarkeit aller Elemente, das Vorhandensein einer vollständigen Liste aller Elemente voraus. Bei der Auswahl von Elementen wird in der Regel eine Tabelle mit Zufallszahlen verwendet.
1.2 Mechanische (systematische) Probenahme

Eine Art Zufallsstichprobe, sortiert nach einem Attribut (alphabetische Reihenfolge, Telefonnummer, Geburtsdatum etc.). Das erste Element wird zufällig ausgewählt, dann wird jedes 'k'-te Element in Schritten von 'n' ausgewählt. Die Größe der allgemeinen Bevölkerung, während - N=n*k

1.3 Geschichtet (gezont)

Es wird bei Heterogenität der allgemeinen Bevölkerung verwendet. Die allgemeine Bevölkerung wird in Gruppen (Schichten) eingeteilt. In jeder Schicht erfolgt die Auswahl zufällig oder mechanisch.

1.4 Serielles (verschachteltes oder geclustertes) Sampling

Beim seriellen Sampling sind die Auswahleinheiten nicht die Objekte selbst, sondern Gruppen (Cluster oder Nester). Die Gruppen werden zufällig ausgewählt. Objekte innerhalb von Gruppen werden rundum vermessen.

Unglaubliche Proben

Die Auswahl in einer solchen Stichprobe erfolgt nicht nach Zufallsprinzipien, sondern nach subjektiven Kriterien – Zugänglichkeit, Typizität, Gleichverteilung etc.

Quotenstrichprobenerhebung

Zunächst wird eine bestimmte Anzahl von Objektgruppen zugewiesen (z. B. Männer im Alter von 20 bis 30 Jahren, 31 bis 45 Jahren und 46 bis 60 Jahren; Personen mit einem Einkommen von bis zu 30.000 Rubel mit einem Einkommen von 30 bis 60 Tausend Rubel und mit einem Einkommen von mehr als 60 Tausend Rubel ) Für jede Gruppe wird die Anzahl der zu vermessenden Objekte angegeben. Die Anzahl der Objekte, die in jede der Gruppen fallen sollten, wird meistens entweder im Verhältnis zum vorher bekannten Anteil der Gruppe an der allgemeinen Bevölkerung oder für jede Gruppe gleich festgelegt. Innerhalb der Gruppen werden Objekte zufällig ausgewählt. Quotenstichproben werden häufig in der Marktforschung eingesetzt.

Schneeballmethode

Die Probe ist wie folgt aufgebaut. Jeder Befragte, beginnend mit dem ersten, wird gebeten, sich mit seinen Freunden, Kollegen, Bekannten in Verbindung zu setzen, die zu den Auswahlbedingungen passen und an der Studie teilnehmen könnten. Die Stichprobenbildung erfolgt also mit Ausnahme des ersten Schrittes unter Beteiligung der Untersuchungsobjekte selbst. Die Methode wird häufig eingesetzt, wenn es darum geht, schwer erreichbare Gruppen von Befragten zu finden und zu befragen (z. )
2.3 Spontane Probenahme

Die zugänglichsten Befragten werden befragt. Typische Beispiele für spontane Stichproben sind Umfragen in Zeitungen/Zeitschriften, Fragebögen, die den Befragten zum Selbstausfüllen gegeben werden, die meisten Internetumfragen. Die Größe und Zusammensetzung der Spontanstichproben ist im Voraus nicht bekannt und wird nur durch einen Parameter bestimmt – die Aktivität der Befragten.
2.4 Beispiel typischer Fälle

Es werden Einheiten der allgemeinen Bevölkerung ausgewählt, die einen durchschnittlichen (typischen) Wert des Attributs haben. Dies wirft das Problem auf, ein Merkmal auszuwählen und seinen typischen Wert zu bestimmen.

Umsetzung des Forschungsplans

Wir erinnern uns, dass diese Phase das Sammeln von Informationen und ihre Analyse umfasst. Der Prozess der Umsetzung eines Marktforschungsplans erfordert in der Regel die meiste Recherchearbeit und ist die Quelle der größten Fehler.

Bei der Erhebung statistischer Daten treten eine Reihe von Mängeln und Problemen auf:

erstens befinden sich einige Befragte möglicherweise nicht am vereinbarten Ort und müssen erneut kontaktiert oder ersetzt werden;

Zweitens könnten einige Befragte unkooperativ sein oder voreingenommene, wissentlich falsche Antworten geben.

Dank moderner Computer- und Telekommunikationstechnologien entwickeln und verbessern sich Datenerfassungsmethoden.

Einige Unternehmen führen Umfragen von einem einzigen Zentrum aus durch. In diesem Fall sitzen professionelle Interviewer in Büros und wählen zufällige Telefonnummern. Wenn sie die Antworten von Anrufern hören, bittet der Interviewer die Person, die den Anruf entgegengenommen hat, einige Fragen zu beantworten. Letztere werden vom Computerbildschirm abgelesen und die Antworten der Befragten auf der Tastatur eingetippt. Diese Methode macht das Formatieren und Kodieren von Daten überflüssig und reduziert die Anzahl von Fehlern.