Die Stichprobe ist repräsentativ. Repräsentativität – was ist das? Systematische Stichprobenziehung

Tatsächlich beginnen wir nicht mit einer, sondern mit drei Fragen: Was ist eine Stichprobe? Wann ist es repräsentativ? was stellt sie dar?

Aggregat- dies ist jede für uns interessante Gruppe von Personen, Organisationen, Ereignissen, über die wir Rückschlüsse ziehen möchten, und Ereignis, oder Objekt, - jedes Element einer solchen Sammlung.

Probe- beliebige Untergruppe der für die Analyse ausgewählten Gruppe von Fällen (Objekten).

Wenn wir die Entscheidungstätigkeit der Gesetzgeber der Bundesstaaten untersuchen wollen, könnten wir eine solche Tätigkeit in den Gesetzgebern der Bundesstaaten Virginia, North Carolina und South Carolina untersuchen und nicht in allen fünfzig Bundesstaaten, und auf dieser Grundlage verteilen erhielten Daten über die Bevölkerung, aus der diese drei Staaten ausgewählt wurden. Wenn wir das Wählerpräferenzsystem von Pennsylvania untersuchen wollen, könnten wir dies tun, indem wir 50 US-Arbeiter befragen. S. Steele in Pittsburgh und verteilen die Ergebnisse der Umfrage an alle Wähler im Bundesstaat.

Ähnlich Wenn wir die Intelligenz von College-Studenten messen wollen, könnten wir alle in einer bestimmten Fußballsaison im Bundesstaat Ohio registrierten Abwehrspieler testen und die Ergebnisse dann auf die Bevölkerung ausdehnen, zu der sie gehören. In jedem Beispiel gehen wir wie folgt vor: Wir bilden eine Untergruppe innerhalb der Bevölkerung, untersuchen diese Untergruppe oder Stichprobe etwas detaillierter und dehnen unsere Ergebnisse auf die gesamte Bevölkerung aus. Dies sind die Hauptphasen der Probenahme.

Jedoch scheint Es ist ziemlich offensichtlich, dass jede dieser Proben einen signifikanten Nachteil hat. Obwohl beispielsweise die gesetzgebenden Körperschaften von Virginia, North Carolina und South Carolina Teil der Konstellation der einzelstaatlichen gesetzgebenden Körperschaften sind, werden sie aus historischen, geografischen und politischen Gründen wahrscheinlich auf sehr ähnliche Weise und sehr unterschiedlich von solchen unterschiedlichen gesetzgebenden Körperschaften arbeiten Staaten wie New York, Nebraska und Alaska. Während die fünfzig Stahlarbeiter in Pittsburgh tatsächlich Wähler in Pennsylvania sind, können sie aufgrund ihres sozioökonomischen Status, ihrer Bildung und ihrer Lebenserfahrung durchaus andere Ansichten haben als viele andere Menschen, die auf die gleiche Weise Wähler sind.

Auch wenn Fußballer aus dem US-Bundesstaat Ohio College-Studenten sind, können sie sich aus verschiedenen Gründen durchaus von anderen Studenten unterscheiden. Mit anderen Worten, obwohl jede dieser Untergruppen tatsächlich eine Stichprobe ist, unterscheiden sich die Mitglieder jeder von ihnen systematisch von den meisten anderen Mitgliedern der Population, aus der sie ausgewählt wurden. Als eigenständige Gruppe ist keine von ihnen typisch hinsichtlich der Verteilung von Meinungsmerkmalen, Verhaltensmotiven und Merkmalen in der ihnen zugeordneten Allgemeinbevölkerung. Dementsprechend würden Politikwissenschaftler sagen, dass keine dieser Stichproben repräsentativ ist.


Repräsentative Stichprobe- Dies ist eine solche Stichprobe, bei der alle Hauptmerkmale der Allgemeinbevölkerung, aus der die gegebene Stichprobe stammt, ungefähr im gleichen Verhältnis oder mit der gleichen Häufigkeit vorhanden sind, mit der dieses Merkmal in dieser Allgemeinbevölkerung auftritt. Wenn also 50 % aller bundesstaatlichen gesetzgebenden Körperschaften nur alle zwei Jahre zusammentreten, sollte etwa die Hälfte einer repräsentativen Stichprobe von bundesstaatlichen gesetzgebenden Körperschaften von dieser Art sein. Wenn 30 % der Wähler in Pennsylvania Arbeiter sind, sollten etwa 30 % einer repräsentativen Stichprobe dieser Wähler (statt 100 % wie im obigen Beispiel) Arbeiter sein.

Und wenn 2 % aller College-Studenten Sportler sind, sollte ungefähr der gleiche Anteil einer repräsentativen Stichprobe von College-Studenten Sportler sein. Mit anderen Worten, eine repräsentative Stichprobe ist ein Mikrokosmos, ein kleineres, aber genaues Modell der Bevölkerung, die sie repräsentieren soll. Soweit die Stichprobe repräsentativ ist, können die auf der Untersuchung dieser Stichprobe basierenden Schlussfolgerungen sicher als auf die ursprüngliche Population anwendbar angesehen werden. Diese Ergebnisverteilung nennen wir Generalisierbarkeit.

Vielleicht hilft eine grafische Darstellung, dies zu verdeutlichen. Angenommen, wir wollen Muster der politischen Gruppenzugehörigkeit unter US-Erwachsenen untersuchen. Abbildung 5.1 zeigt drei Kreise, die in sechs gleiche Sektoren unterteilt sind. Abbildung 5.1a repräsentiert die gesamte betrachtete Population. Die Mitglieder der Bevölkerung werden nach den politischen Gruppierungen (zB Parteien und Interessengruppen) eingeteilt, denen sie angehören.

In diesem Beispiel jeder Erwachsene gehört mindestens einer und höchstens sechs Fraktionen an; und diese sechs Mitgliedschaftsebenen sind insgesamt gleich häufig (daher die gleichen Sektoren). Angenommen, wir wollen die Motive der Menschen, einer Gruppe beizutreten, die Gruppenwahl und die Beteiligungsmuster untersuchen, aber aufgrund von Ressourcenbeschränkungen können wir nur eines von sechs Mitgliedern der Bevölkerung untersuchen. Wer sollte für die Analyse ausgewählt werden?

Reis. 5.1. Bildung einer Stichprobe aus der Allgemeinbevölkerung

Eines der möglichen Muster einer gegebenen Größe wird durch den schraffierten Bereich in Abb. 5.1b spiegelt jedoch eindeutig nicht die Bevölkerungsstruktur wider.

Wenn wir basierend auf dieser Stichprobe Verallgemeinerungen vornehmen würden, würden wir schließen:

1) dass alle erwachsenen Amerikaner fünf politischen Gruppen angehören und

2) dass das gesamte Gruppenverhalten der Amerikaner mit dem Verhalten derjenigen zusammenfällt, die genau zu den fünf Gruppen gehören.

Wir wissen jedoch, dass die erste Schlussfolgerung nicht wahr ist, und dies kann dazu führen, dass wir an der Gültigkeit der zweiten zweifeln.

Daher ist die in Abbildung 5.1b gezeigte Stichprobe nicht repräsentativ, da sie nicht die Verteilung einer gegebenen Populationseigenschaft (häufig als Parameter bezeichnet) gemäß ihrer tatsächlichen Verteilung widerspiegelt. Eine solche Probe soll es sein hin verschoben Mitglieder der fünf Gruppen bzw weg verschoben von alle anderen Gruppenmitgliedschaftsmodelle. Basierend auf einer solchen voreingenommenen Stichprobe kommen wir normalerweise zu falschen Schlussfolgerungen über die Bevölkerung.

Am deutlichsten wird dies am Beispiel der Katastrophe der Zeitschrift Literary Digest in den 1930er Jahren, die eine Meinungsumfrage zu den Wahlergebnissen durchführte. „ Literarische Zusammenfassung“ war eine Zeitschrift, die Leitartikel aus Zeitungen und anderen Materialien nachdruckte, die die öffentliche Meinung widerspiegelten; diese zeitschrift war zu beginn des jahrhunderts sehr beliebt.

Seit 1920. Das Magazin führte eine weitreichende landesweite Umfrage durch, bei der mehr als einer Million Menschen Stimmzettel zugeschickt wurden, in denen sie gebeten wurden, ihren bevorzugten Kandidaten für die bevorstehenden Präsidentschaftswahlen zu benennen. Einige Jahre lang waren die Ergebnisse der Umfragen des Magazins so genau, dass die September-Umfrage die Wahlen im November irrelevant zu machen schien.

Und wie konnte bei einer so großen Stichprobe ein Fehler passieren? Doch 1936 geschah genau das: Mit großer Stimmenmehrheit (60:40) prognostizierte der republikanische Kandidat Alf Landon den Sieg. Bei den Wahlen verlor Landon gegen eine behinderte Person - Franklin D. Roosevelt- praktisch mit dem gleichen Ergebnis, mit dem er hätte gewinnen sollen. Die Glaubwürdigkeit des Literary Digest wurde so stark untergraben, dass die Zeitschrift bald darauf vergriffen war. Was ist passiert? Es ist ganz einfach: Die Digest-Umfrage verwendete eine voreingenommene Stichprobe. Postkarten wurden an Personen verschickt, deren Namen aus zwei Quellen entnommen wurden: Telefonverzeichnissen und Kfz-Zulassungslisten.

Obwohl sich diese Auswahlmethode vorher nicht sehr von anderen Methoden unterschieden hatte, war sie jetzt, während der Weltwirtschaftskrise von 1936, ganz anders, als sich die weniger wohlhabenden Wähler, Roosevelts wahrscheinlichste Stütze, kein Telefon leisten konnten, geschweige denn ein Auto. Daher war die in der Digest-Umfrage verwendete Stichprobe tatsächlich auf diejenigen ausgerichtet, die am ehesten für die Republikaner kandidieren würden, und es ist immer noch überraschend, dass Roosevelt ein so gutes Ergebnis erzielte.

Wie kann man dieses Problem lösen? Um zu unserem Beispiel zurückzukehren, vergleichen wir die Probe in Abb. 5.1b mit einer Auswahl in Abb. 5.1c. Im letzteren Fall wurde ebenfalls ein Sechstel der Bevölkerung für die Analyse ausgewählt, aber jeder der Haupttypen der Bevölkerung ist in der Stichprobe in dem Anteil vertreten, in dem er in der Gesamtbevölkerung vertreten ist. Eine solche Stichprobe zeigt, dass jeder sechste amerikanische Erwachsene einer politischen Gruppe angehört, einer von sechs bis zwei und so weiter. Eine solche Stichprobe würde auch andere Unterschiede zwischen ihren Mitgliedern aufdecken, die mit der Teilnahme an einer unterschiedlichen Anzahl von Gruppen zusammenhängen könnten. Somit ist die in Abbildung 5.1c dargestellte Stichprobe eine repräsentative Stichprobe für die betrachtete Grundgesamtheit.

Natürlich ist dieses Beispiel von mindestens zwei äußerst wichtigen Gesichtspunkten vereinfacht. Erstens sind die meisten für Politikwissenschaftler interessanten Populationen vielfältiger als die im Beispiel. Personen, Dokumente, Regierungen, Organisationen, Entscheidungen usw. unterscheiden sich nicht in einem, sondern in einer viel größeren Anzahl von Merkmalen. Daher sollte eine repräsentative Stichprobe so sein jeder des Kerns war ein bestimmtes Gebiet im Verhältnis zu seinem Anteil an der Bevölkerung vertreten.

Zweitens ist die Situation, dass die tatsächliche Verteilung der Variablen oder Merkmale, die wir messen wollen, nicht im Voraus bekannt ist, viel häufiger als das Gegenteil – vielleicht wurde sie bei der vorherigen Volkszählung nicht gemessen. Daher muss eine repräsentative Stichprobe so gestaltet werden, dass sie die bestehende Verteilung genau widerspiegelt, auch wenn wir ihre Gültigkeit nicht direkt beurteilen können. Das Stichprobenverfahren muss eine interne Logik haben, die uns davon überzeugen kann, dass die Stichprobe tatsächlich repräsentativ wäre, wenn wir sie mit der Volkszählung vergleichen könnten.

Um die Gelegenheit zu bieten genaues Abbild der komplexen Organisation einer gegebenen Population und ein gewisses Maß an Vertrauen, dass die vorgeschlagenen Verfahren dazu in der Lage sind, wenden sich die Forscher statistischen Methoden zu. Dabei agieren sie in zwei Richtungen. Erstens entscheiden die Forscher anhand bestimmter Regeln (interne Logik), welche bestimmten Objekte untersucht werden sollen, was genau in eine bestimmte Probe aufgenommen werden soll. Zweitens entscheiden sie nach sehr unterschiedlichen Regeln, wie viele Objekte sie auswählen. Wir werden diese zahlreichen Regeln nicht im Detail untersuchen, sondern nur ihre Rolle in der politikwissenschaftlichen Forschung betrachten. Beginnen wir mit den Strategien zur Auswahl von Objekten, die eine repräsentative Stichprobe bilden.

Das ultimative Ziel der Untersuchung einer Stichprobenpopulation ist immer, Informationen über die Population zu erhalten. Dazu muss eine Musterstudie bestimmte Voraussetzungen erfüllen. Eine der Hauptbedingungen Repräsentativität (Repräsentativität) der Stichprobe. Wie bereits erwähnt, wird zwischen qualitativer und quantitativer Repräsentativität unterschieden.

Die Zufälligkeit, die die qualitative (strukturelle) Repräsentativität statistischer Studien garantiert, wird durch die Erfüllung einer Reihe von Bedingungen für die Bildung von Stichprobengruppen (Sets) erreicht:

1. Jedes Mitglied der Grundgesamtheit muss die gleiche Wahrscheinlichkeit haben, in die Stichprobe aufgenommen zu werden.

2. Die Auswahl von Beobachtungseinheiten aus der Allgemeinbevölkerung muss unabhängig von dem untersuchten Merkmal erfolgen. Wird die Selektion gezielt durchgeführt, so sind auch die Bedingungen für die Unabhängigkeit der Verteilung des untersuchten Merkmals zu beachten.

3. Die Auswahl sollte aus homogenen Gruppen erfolgen.

Die Einhaltung der Bedingungen, die eine größtmögliche Nähe der Stichprobe zur Allgemeinbevölkerung gewährleisten, wird durch spezielle Auswahlverfahren sichergestellt. Je nach Art der Bildung werden folgende Proben unterschieden:

1. Stichproben, die keine Teilung der Allgemeinbevölkerung in Teile erfordern (eigentlich zufällige wiederholte oder nicht wiederholte Stichproben).

2. Proben, die eine Aufteilung der Allgemeinbevölkerung in Teile erfordern (mechanische, typische oder typologische Proben, Kohorten, paarweise konjugierte Proben).

Eigentlich wird eine Zufallsstichprobe durch Zufallsauswahl gebildet – nach dem Zufallsprinzip. Die zufällige Auswahl basiert auf dem Mischen. Zum Beispiel: Auswahl einer Kugel in einem Sportlotto, nachdem alle Kugeln gemischt wurden, Auswahl der Lotteriegewinnzahlen, zufällige Auswahl von Patientenkarten für die Forschung usw. Manchmal werden Zufallszahlen verwendet, die aus Zufallszahlentabellen oder mit Hilfe von Zufallszahlengeneratoren gewonnen werden. Entsprechend diesen Nummern werden aus einem vornummerierten Array der Allgemeinbevölkerung Beobachtungseinheiten ausgewählt, deren Nummern den herausgefallenen Zufallszahlen entsprechen.

Wenn Sie eine Zufallsstichprobe zusammenstellen, nachdem das Objekt ausgewählt und alle erforderlichen Daten darüber registriert wurden, können Sie zwei Dinge tun: Das Objekt kann an die allgemeine Bevölkerung zurückgegeben oder nicht zurückgegeben werden. Bezüglich dieser die Probe wird als wiederholt bezeichnet(das Objekt wird an die Bevölkerung zurückgegeben) oder nicht wiederholend(das Objekt wird nicht an die Population zurückgegeben). Da in den meisten statistischen Untersuchungen praktisch kein Unterschied zwischen wiederholten und nicht wiederholten Stichproben gemacht wird, wird die Bedingung a priori akzeptiert, dass die Stichprobe wiederholt wird.

Schätzung der erforderlichen Stichprobengröße

Damit die Stichprobe quantitativ repräsentativ für die Allgemeinbevölkerung ist, muss zunächst die in die Stichprobe einzubeziehende Datenmenge geschätzt werden.

Mit einer unbekannten Größe der allgemeinen Bevölkerung die Menge an Resampling, die repräsentative Ergebnisse garantiert, wenn sich das Ergebnis im Indikator als widerspiegelt relativer Wert (Anteil), bestimmt durch die Formel:

wobei p der Wert des Indikators des untersuchten Merkmals in % ist; q = (100- p) ;

t ist ein Konfidenzkoeffizient, der angibt, wie hoch die Wahrscheinlichkeit ist, dass die Größe des Indikators die Grenzen des Grenzfehlers nicht überschreitet (normalerweise wird t = 2 angenommen, was eine Wahrscheinlichkeit von 95 % für eine fehlerfreie Prognose liefert);

 - marginaler Fehler des Indikators.

Zum Beispiel: Einer der Indikatoren, der die Gesundheit von Arbeitnehmern in Industrieunternehmen charakterisiert, ist der Prozentsatz der Arbeitnehmer, die während des Jahres nicht krank waren. Angenommen, für den Industriesektor, dem das befragte Unternehmen angehört, beträgt dieser Indikator 25 %. Der zulässige Grenzfehler, damit die Streuung der Indikatorwerte angemessene Grenzen nicht überschreitet, beträgt 5%. In diesem Fall kann der Indikator Werte von 25 % ± 5 % annehmen, d.h. von 20 % auf 30 %. Unter der Annahme von t = 2 erhalten wir

In diesem Fall, wenn der Indikator der Durchschnittswert ist, dann kann die Anzahl der Beobachtungen durch die Formel bestimmt werden:

wobei σ die Standardabweichung ist, die aus früheren Studien oder auf der Grundlage von Versuchsstudien (Pilotstudien) erhalten werden kann.

Mit wiederholter Auswahl und unter der Bedingung einer bekannten Allgemeinbevölkerung zur Ermittlung des erforderlichen Stichprobenumfangs im Verwendungsfall relative Werte (Aktien) es gilt die formel:

für Durchschnittswerte die Formel wird verwendet:

wobei N die Größe der Gesamtbevölkerung ist.

Basierend auf den Bedingungen des obigen Beispiels und unter der Annahme der Größe der allgemeinen Bevölkerung N=500 Arbeiter erhalten wir:

Es ist leicht zu erkennen, dass die erforderliche Stichprobengröße für nicht wiederholte Stichproben geringer ist als für wiederholte Stichproben (188 bzw. 300 Arbeitnehmer).

Im Allgemeinen variiert die Anzahl der erforderlichen Beobachtungen, um repräsentative Daten zu erhalten, umgekehrt zum Quadrat des zulässigen Fehlers.

Mechanische Probenahme- Stichprobenziehung, wenn Beobachtungseinheiten mechanisch aus der befragten Grundgesamtheit ausgewählt werden. Zum Beispiel: die Auswahl von jedem fünften oder jedem zehnten Arbeitnehmer nach den Karten der Personalabteilung des Unternehmens oder nach den Ambulanzkarten der Poliklinik der medizinischen Abteilung.

typisch, typologisch oder in Zonen aufgeteilt Bei der Stichprobenziehung wird die allgemeine Bevölkerung in eine Reihe qualitativ homogener Gruppen zerlegt. Beispiel: Bei der Untersuchung der Inzidenz von Universitätsstudenten für eine vertiefende Prüfung in jedem Studiengang werden Studentengruppen ausgewählt, die in ihrer Zusammensetzung typisch sind. Oft wird diese Auswahlmethode mit anderen Methoden kombiniert. Zum Beispiel: Das Territorium der Stadt wird je nach Verschmutzungsgrad in typische Bereiche eingeteilt, in diesen Bereichen werden Beobachtungsgruppen durch zufällige Auswahl gebildet.

Kohortenauswahl bezieht sich auf gezielte Selektion. Bei dieser Methode werden Personen aus der Allgemeinbevölkerung ausgewählt (die Verteilung in Untergruppen ist nicht zufällig), vereint durch den Zeitpunkt des Auftretens eines Anzeichens oder des untersuchten Effekts, der eine signifikante Rolle in der Studie spielt (Geburtsjahr, Beginn der Krankheit, Einnahme des Medikaments usw.).

Fall-Kontroll-Studie(SC) ist eine Art epidemiologische Studie, bei der die Verteilung eines Risikofaktors zwischen einer Gruppe von Patienten mit einer Erkrankung und einer Kontrollgruppe verglichen wird. Die Studie (SC) bezieht sich auf Retrospektive, da der Forscher, indem er Patienten in Gruppen einteilt, je nachdem, ob sie eine Krankheit haben oder nicht, Informationen aus der Vergangenheit von ihnen erfährt.

Auf die Verwendung der Stichprobenmethode in der Gesundheitsstatistik sollte bei der Untersuchung der allgemeinen Morbidität der Bevölkerung gesondert eingegangen werden. Die theoretischen Voraussetzungen des Stichprobenverfahrens wurden im Rahmen spezieller Studien erprobt. Also, V.S. Bykhovsky et al. 1928 verarbeiteten sie parallel 132,8 Tausend Karten mit Krankheitsdaten nach einer kontinuierlichen Methode und nach der Methode der mechanischen Auswahl jeder fünften Karte. Eine Analyse der Ergebnisse dieser Verarbeitung zeigte eine hohe Repräsentativität der Daten aus einer selektiven Studie zur Morbidität. Bis heute gibt es jedoch in der breiten Praxis keine einheitlichen methodischen Ansätze zur Durchführung selektiver sanitärstatistischer Studien.

Stichprobenrepräsentativität

Parametername Bedeutung
Betreff des Artikels: Stichprobenrepräsentativität
Rubrik (thematische Kategorie) Psychologie

Beispielanforderungen

An die Stichprobe werden eine Reihe obligatorischer Anforderungen gestellt, die in erster Linie durch die Ziele und Zielsetzungen der Studie bestimmt werden. Bei der Planung eines Experiments sollten sowohl die Stichprobengröße als auch einige ihrer Merkmale berücksichtigt werden. Daher in der psychologischen Forschung die Anforderung Homogenität Proben. Dies bedeutet, dass ein Psychologe, der beispielsweise Jugendliche untersucht, Erwachsene nicht in dieselbe Stichprobe aufnehmen kann. Im Gegensatz dazu geht eine Studie, die nach der Methode der Alterskürzung durchgeführt wird, grundsätzlich von der Anwesenheit von Probanden unterschiedlichen Alters aus. Gleichzeitig sollte in diesem Fall auf die Homogenität der Stichprobe geachtet werden, jedoch nach anderen Kriterien, vor allem wie Alter und Geschlecht. Grundlage für die Bildung einer homogenen Stichprobe können unterschiedliche Merkmale sein, wie z. B. der Intelligenzgrad, die Nationalität, das Fehlen bestimmter Krankheiten etc., je nach Zielsetzung der Studie.

In der allgemeinen Statistik gibt es ein Konzept wiederholt und nicht wiederholend Auswahlen, oder anders ausgedrückt, Auswahlen mit und ohne Rückkehr. Als Beispiel wird in der Regel die Wahl eines aus einem Behälter entnommenen Balls gegeben. Bei einem Unentschieden mit Retoure wird jede ausgewählte Kugel erneut in den Behälter zurückgelegt und muss daher erneut ausgewählt werden. Bei einer sich nicht wiederholenden Auswahl wird der einmal ausgewählte Ball beiseite gelegt und kann nicht mehr an der Auswahl teilnehmen. In der psychologischen Forschung findet man Analogien zu dieser Art von Methoden zur Organisation selektiver Forschung, da ein Psychologe oft dieselben Themen mehrmals mit derselben Methodik testen muss. Gleichzeitig wird in diesem Fall streng genommen der Prüfvorgang wiederholt. Eine Stichprobe von Probanden mit vollständiger Identität der Zusammensetzung bei wiederholten Studien wird aufgrund der allen Menschen innewohnenden funktionellen und altersbedingten Variabilität immer einige Unterschiede aufweisen. Eine solche Auswahl durch die Art des Verfahrens wiederholt sich, obwohl die Bedeutung des Begriffs hier offensichtlich anders ist als im Fall von Kugeln.

Es ist wichtig zu betonen, dass alle Anforderungen für jede Stichprobe darauf hinauslaufen, dass der Psychologe auf ihrer Grundlage möglichst vollständige und unverzerrte Informationen über die Merkmale der allgemeinen Bevölkerung erhalten muss, aus der diese Stichprobe entnommen wird. Mit anderen Worten, die Stichprobe sollte die Merkmale der untersuchten Allgemeinbevölkerung so vollständig wie möglich widerspiegeln.

Die Zusammensetzung der Versuchsstichprobe sollte die Allgemeinbevölkerung repräsentieren (simulieren), da die im Experiment gewonnenen Erkenntnisse zukünftig auf die gesamte Allgemeinbevölkerung übertragen werden sollen. Aus diesem Grund muss die Probe eine besondere Qualität haben - Repräsentativität, wodurch es möglich wird, die daraus gewonnenen Schlussfolgerungen auf die gesamte allgemeine Bevölkerung auszudehnen.

Die Repräsentativität der Stichprobe ist sehr wichtig, jedoch aus objektiven Gründen äußerst schwierig aufrechtzuerhalten. So ist es eine bekannte Tatsache, dass in den 60er Jahren des 20. Jahrhunderts in den USA 70 bis 90 % aller psychologischen Studien zum menschlichen Verhalten mit College-Studenten durchgeführt wurden, von denen die meisten Studenten der Psychologie waren. In Laborstudien, die an Tieren durchgeführt werden, sind Ratten das häufigste Untersuchungsobjekt. Aus diesem Grund wurde die Psychologie nicht umsonst als „Wissenschaft der Zweitklässler und weißen Ratten“ bezeichnet. College-Psychologiestudenten machen nur 3 % der gesamten US-Bevölkerung aus. Offensichtlich ist die Schülerstichprobe nicht repräsentativ als Modell, das den Anspruch erhebt, die gesamte Bevölkerung des Landes zu repräsentieren.

Vertreter Probe, oder wie sie sagen, Vertreter eine Stichprobe ist eine solche Stichprobe, in der alle Hauptmerkmale der Allgemeinbevölkerung in etwa dem gleichen Anteil und mit der gleichen Häufigkeit vertreten sind, mit der dieses Merkmal in dieser Allgemeinbevölkerung auftritt. Mit anderen Worten, eine repräsentative Stichprobe ist ein kleineres, aber genaues Modell der Population, die sie repräsentieren soll. Soweit die Stichprobe repräsentativ ist, können die auf der Untersuchung dieser Stichprobe basierenden Schlussfolgerungen mit hoher Sicherheit auf die gesamte Bevölkerung übertragen werden. Diese Verbreitung der Ergebnisse wird genannt Generalisierbarkeit.

Idealerweise sollte eine repräsentative Stichprobe so sein, dass jedes der vom Psychologen untersuchten grundlegenden Merkmale, Merkmale, Persönlichkeitsmerkmale usw. darin im Verhältnis zu den gleichen Merkmalen in der Allgemeinbevölkerung vertreten wären. Nach diesen Anforderungen muss das Stichprobenverfahren eine innere Logik haben, die den Forscher davon überzeugen kann, dass es sich im Vergleich zur Allgemeinbevölkerung tatsächlich als repräsentativ, repräsentativ herausstellen wird.

In seiner konkreten Tätigkeit geht der Psychologe folgendermaßen vor: Er bildet eine Untergruppe (Stichprobe) innerhalb der Allgemeinbevölkerung, untersucht diese Stichprobe im Detail (führt experimentelle Arbeiten damit durch) und erweitert dann, wenn es die Ergebnisse der statistischen Analyse zulassen Erkenntnisse für die gesamte Bevölkerung. Dies sind die Hauptphasen der Arbeit eines Psychologen mit einer Probe.

Der unerfahrene Psychologe muss sich eines häufig wiederholten Fehlers bewusst sein: Jedes Mal, wenn er irgendwelche Daten mit irgendeiner Methode und aus irgendeiner Quelle sammelt, ist er immer versucht, seine Schlussfolgerungen auf die gesamte Bevölkerung auszudehnen. Um einen solchen Fehler zu vermeiden, muss man nicht nur gesunden Menschenverstand haben, sondern vor allem die Grundbegriffe der mathematischen Statistik gut beherrschen.

Musterrepräsentativität - Konzept und Typen. Einordnung und Merkmale der Kategorie „Repräsentativität der Stichprobe“ 2017, 2018.

Der Begriff der Repräsentativität findet sich häufig in der statistischen Berichterstattung und bei der Erstellung von Reden und Berichten. Ohne sie ist es vielleicht schwierig, sich irgendeine Art der Präsentation von Informationen zur Überprüfung vorzustellen.

Repräsentativität – was ist das?

Repräsentativität spiegelt wider, wie die ausgewählten Objekte oder Teile dem Inhalt und der Bedeutung des Datensatzes entsprechen, aus dem sie ausgewählt wurden.

Andere Definitionen

Das Konzept der Repräsentativität kann in unterschiedlichen Kontexten entwickelt werden. Aber in seiner Bedeutung ist Repräsentativität die Übereinstimmung der Merkmale und Eigenschaften ausgewählter Einheiten aus der allgemeinen Bevölkerung, die die Eigenschaften der gesamten allgemeinen Datenbank als Ganzes genau widerspiegeln.

Die Repräsentativität von Informationen wird auch definiert als die Fähigkeit von Stichprobendaten, die Parameter und Eigenschaften der Population darzustellen, die aus Sicht der laufenden Studie wichtig sind.

Repräsentative Stichprobe

Das Prinzip der Stichprobenziehung besteht darin, die wichtigsten auszuwählen und die Eigenschaften des gesamten Datensatzes genau wiederzugeben. Dazu werden verschiedene Methoden verwendet, die es ermöglichen, genaue Ergebnisse zu erhalten, und eine allgemeine Idee, nur ausgewählte Materialien zu verwenden, die die Qualität aller Daten beschreiben.

Es ist also nicht notwendig, das gesamte Material zu studieren, sondern es genügt, die Repräsentativität der Stichprobe zu berücksichtigen. Was ist das? Dies ist eine Auswahl von Einzeldaten, um eine Vorstellung von der Gesamtmasse an Informationen zu haben.

Je nach Methode werden sie in probabilistisch und unwahrscheinlich unterschieden. Eine probabilistische Stichprobe ist eine Stichprobe, die durch Berechnung der wichtigsten und interessantesten Daten, die weitere Repräsentanten der Allgemeinbevölkerung sind, erstellt wird. Dies ist eine bewusste Auswahl oder eine zufällige Auswahl, die jedoch durch ihren Inhalt gerechtfertigt ist.

Unglaublich - dies ist eine der Varianten der Zufallsstichprobe, die nach dem Prinzip einer gewöhnlichen Lotterie zusammengestellt wurde. In diesem Fall wird die Meinung desjenigen, der eine solche Stichprobe zusammenstellt, nicht berücksichtigt. Es wird nur ein Blindlot verwendet.

Wahrscheinlichkeitsstichprobe

Wahrscheinlichkeitsstichproben können auch in mehrere Typen unterteilt werden:

  • Eines der einfachsten und verständlichsten Prinzipien ist das nicht-repräsentative Sampling. Diese Methode wird beispielsweise häufig in sozialen Umfragen verwendet. Gleichzeitig werden die Umfrageteilnehmer nicht aus bestimmten Gründen aus der Masse ausgewählt, sondern Informationen von den ersten 50 Personen erhalten, die daran teilgenommen haben.
  • Absichtliche Stichproben unterscheiden sich dadurch, dass sie eine Reihe von Anforderungen und Bedingungen bei der Auswahl haben, sich aber dennoch auf zufällige Zufälle verlassen und keine guten Statistiken als Ziel verfolgen.
  • Quotenbasiertes Sampling ist eine weitere Variante des nicht-probabilistischen Samplings, das häufig verwendet wird, um große Datensätze zu untersuchen. Es verwendet viele Geschäftsbedingungen. Es werden Objekte ausgewählt, die ihnen entsprechen sollen. Das heißt, am Beispiel einer Sozialerhebung kann davon ausgegangen werden, dass 100 Personen befragt werden, aber nur die Meinung einer bestimmten Anzahl von Personen, die die festgelegten Anforderungen erfüllen, wird bei der Erstellung eines statistischen Berichts berücksichtigt.

Wahrscheinlichkeitsstichproben

Für probabilistische Stichproben werden eine Reihe von Parametern berechnet, denen die Objekte in der Stichprobe entsprechen, und unter ihnen können auf unterschiedliche Weise genau diejenigen Fakten und Daten ausgewählt werden, die als Repräsentativität der Stichprobendaten dargestellt werden. Solche Wege zur Berechnung der notwendigen Daten können sein:

  • Eine einfache Zufallsstichprobe. Es besteht darin, dass unter dem ausgewählten Segment ein völlig zufälliges Lotterieverfahren die erforderliche Datenmenge auswählt, die eine repräsentative Stichprobe darstellt.
  • Die systematische und zufällige Auswahl ermöglicht es, ein System zur Berechnung der erforderlichen Daten auf der Grundlage eines zufällig ausgewählten Segments zu erstellen. Wenn somit die erste Zufallszahl, die die Sequenznummer der aus der Gesamtpopulation ausgewählten Daten angibt, 5 ist, dann können die nachfolgenden auszuwählenden Daten beispielsweise 15, 25, 35 usw. sein. Dieses Beispiel macht deutlich, dass auch eine zufällige Auswahl auf systematischen Berechnungen der notwendigen Eingabedaten beruhen kann.

Stichprobe von Verbrauchern

Das absichtliche Sampling ist eine Methode, die darin besteht, jedes einzelne Segment zu betrachten, und basierend auf seiner Bewertung wird eine Grundgesamtheit zusammengestellt, die die Merkmale und Eigenschaften der gesamten Datenbank widerspiegelt. Auf diese Weise werden mehr Daten erhoben, die den Anforderungen einer repräsentativen Stichprobe genügen. Es ist einfach, eine Reihe von Optionen auszuwählen, die nicht in der Gesamtzahl enthalten sind, ohne die Qualität der ausgewählten Daten zu verlieren, die die Gesamtbevölkerung darstellen. Auf diese Weise wird die Repräsentativität der Ergebnisse der Studie festgestellt.

Stichprobengröße

Nicht das letzte Problem, das angesprochen werden muss, ist die Stichprobengröße für eine repräsentative Repräsentation der Bevölkerung. Die Stichprobengröße hängt nicht immer von der Anzahl der Quellen in der Allgemeinbevölkerung ab. Die Repräsentativität der Stichprobengesamtheit hängt jedoch direkt davon ab, in wie viele Segmente das Ergebnis aufgeteilt werden soll. Je mehr solche Segmente vorhanden sind, desto mehr Daten gelangen in die resultierende Stichprobe. Wenn die Ergebnisse eine allgemeine Notation erfordern und keine Spezifizierungen erfordern, wird die Stichprobe entsprechend kleiner, da die Informationen, ohne auf Details einzugehen, oberflächlicher dargestellt werden, was bedeutet, dass sie allgemein gelesen werden.

Das Konzept des Repräsentativitätsfehlers

Repräsentativitätsfehler ist eine spezifische Diskrepanz zwischen den Merkmalen der Grundgesamtheit und den Stichprobendaten. Bei der Durchführung einer Stichprobenstudie ist es unmöglich, absolut genaue Daten zu erhalten, wie bei einer vollständigen Studie der allgemeinen Bevölkerung und einer Stichprobe, die nur mit einem Teil der Informationen und Parameter versehen ist, während eine detailliertere Studie nur möglich ist, wenn die gesamte Bevölkerung untersucht wird. Daher sind einige Fehler und Irrtümer unvermeidlich.

Arten von Fehlern

Bei der Zusammenstellung einer repräsentativen Stichprobe treten einige Fehler auf:

  • Systematisch.
  • Zufällig.
  • Absichtlich.
  • Unbeabsichtigt.
  • Standard.
  • Grenze.

Der Grund für das Auftreten zufälliger Fehler kann die diskontinuierliche Natur der Untersuchung der Allgemeinbevölkerung sein. Typischerweise ist der zufällige Fehler der Repräsentativität von vernachlässigbarer Größe und Art.

Systematische Fehler treten dagegen auf, wenn die Regeln zur Auswahl von Daten aus der Gesamtpopulation verletzt werden.

Der mittlere Fehler ist die Differenz zwischen dem Mittelwert der Stichprobe und der zugrunde liegenden Grundgesamtheit. Sie hängt nicht von der Anzahl der Einheiten in der Probe ab. Es ist umgekehrt proportional: Je größer das Volumen, desto kleiner der Wert des durchschnittlichen Fehlers.

Der Grenzfehler ist die größtmögliche Differenz zwischen den Durchschnittswerten der gezogenen Stichprobe und der Gesamtpopulation. Ein solcher Fehler wird als das Maximum wahrscheinlicher Fehler unter gegebenen Bedingungen ihres Auftretens charakterisiert.

Beabsichtigte und unbeabsichtigte Fehler der Repräsentativität

Datenversatzfehler können beabsichtigt oder unbeabsichtigt sein.

Dann ist der Grund für das Auftreten absichtlicher Fehler die Herangehensweise an die Auswahl von Daten nach der Methode zur Bestimmung von Trends. Unbeabsichtigte Fehler treten bereits bei der Vorbereitung einer Stichprobenbeobachtung auf und bilden eine repräsentative Stichprobe. Um solche Fehler zu vermeiden, ist es notwendig, einen guten Stichprobenrahmen für die Auflistung von Stichprobeneinheiten zu erstellen. Sie muss den Zielen der Probenahme vollständig entsprechen, zuverlässig sein und alle Aspekte der Studie abdecken.

Validität, Reliabilität, Repräsentativität. Fehlerberechnung

Berechnung des Repräsentativitätsfehlers (Mm) des arithmetischen Mittels (M).

Standardabweichung: Stichprobenumfang (>30).

Repräsentativer Fehler (Mr) und (R): Stichprobengröße (n>30).

Wenn Sie eine Grundgesamtheit untersuchen müssen, bei der die Anzahl der Stichproben klein ist und weniger als 30 Einheiten beträgt, wird die Anzahl der Beobachtungen um eine Einheit geringer.

Die Größe des Fehlers ist direkt proportional zur Stichprobengröße. Die Repräsentativität der Informationen und die Berechnung des Grades der Möglichkeit, eine zutreffende Prognose zu treffen, spiegeln einen gewissen marginalen Fehler wider.

Repräsentationssysteme

Bei der Bewertung der Informationsdarstellung wird nicht nur eine repräsentative Stichprobe herangezogen, sondern der Informationsempfänger selbst nutzt repräsentative Systeme. So verarbeitet das Gehirn einige, indem es eine repräsentative Stichprobe aus dem gesamten Informationsfluss erstellt, um die übermittelten Daten qualitativ und schnell zu bewerten und die Essenz des Problems zu verstehen. Beantworten Sie die Frage: "Repräsentativität - was ist das?" - auf der Skala des menschlichen Bewusstseins ist ganz einfach. Dazu nutzt das Gehirn alle Fächer, je nachdem, welche Art von Informationen aus dem allgemeinen Strom isoliert werden müssen. Sie unterscheiden also:

  • Das visuelle Repräsentationssystem, an dem die visuellen Wahrnehmungsorgane des Auges beteiligt sind. Personen, die ein solches System häufig verwenden, werden als Visuals bezeichnet. Mit Hilfe dieses Systems verarbeitet eine Person Informationen, die in Form von Bildern kommen.
  • auditives Repräsentationssystem. Das Hauptorgan, das verwendet wird, ist das Gehör. Informationen, die in Form von Tondateien oder Sprache geliefert werden, werden von diesem speziellen System verarbeitet. Menschen, die Informationen besser per Gehör wahrnehmen, werden als auditiv bezeichnet.
  • Das kinästhetische Repräsentationssystem ist die Verarbeitung des Informationsflusses durch Wahrnehmung mit Hilfe von olfaktorischen und taktilen Kanälen.
  • Das digitale Repräsentationssystem wird zusammen mit anderen als Mittel zur Informationsbeschaffung von außen genutzt. Wahrnehmung und Verständnis der empfangenen Daten.

Repräsentativität – was ist das? Eine einfache Auswahl aus einer Vielzahl oder ein integraler Vorgang der Informationsverarbeitung? Wir können definitiv sagen, dass die Repräsentativität unsere Wahrnehmung von Datenflüssen weitgehend bestimmt und dabei hilft, die wichtigsten und signifikantesten davon zu isolieren.

Bevölkerung- eine Reihe von Einheiten, die Massencharakter, Typizität, qualitative Einheitlichkeit und das Vorhandensein von Variationen aufweisen.

Die statistische Grundgesamtheit besteht aus materiell existierenden Objekten (Beschäftigte, Unternehmen, Länder, Regionen), ist ein Objekt.

Bevölkerungseinheit- jede spezifische Einheit der statistischen Grundgesamtheit.

Ein und dieselbe Grundgesamtheit kann in einem Merkmal homogen und in einem anderen heterogen sein.

Qualitative Einheitlichkeit- die Ähnlichkeit aller Bevölkerungseinheiten für jedes Merkmal und die Unähnlichkeit für den Rest.

In einer statistischen Grundgesamtheit sind die Unterschiede zwischen einer Einheit der Grundgesamtheit und einer anderen häufiger quantitativer Natur. Quantitative Änderungen der Werte des Attributs verschiedener Bevölkerungseinheiten werden als Variation bezeichnet.

Feature-Variation- quantitative Änderung eines Zeichens (für ein quantitatives Zeichen) während des Übergangs von einer Einheit der Bevölkerung zu einer anderen.

Schild- dies ist eine beobachtbare oder messbare Eigenschaft, Eigenschaft oder sonstige Eigenschaft von Einheiten, Objekten und Phänomenen. Zeichen werden in quantitative und qualitative unterteilt. Die Vielfalt und Variabilität des Wertes eines Merkmals in einzelnen Einheiten der Population wird als bezeichnet Variation.

Attributive (qualitative) Merkmale sind nicht quantifizierbar (Zusammensetzung der Bevölkerung nach Geschlecht). Quantitative Merkmale haben einen numerischen Ausdruck (Zusammensetzung der Bevölkerung nach Alter).

Indikator- Dies ist ein verallgemeinerndes quantitatives und qualitatives Merkmal jeder Eigenschaft von Einheiten oder Aggregaten für den Zweck unter bestimmten Bedingungen von Zeit und Ort.

Scorekarte ist eine Reihe von Indikatoren, die das untersuchte Phänomen umfassend widerspiegeln.

Denken Sie zum Beispiel an das Gehalt:
  • Zeichen - Löhne
  • Grundgesamtheit - alle Arbeitnehmer
  • Die Einheit der Bevölkerung ist jeder Arbeiter
  • Qualitative Homogenität - aufgelaufenes Gehalt
  • Feature-Variation - eine Reihe von Zahlen

Allgemeine Bevölkerung und Stichprobe daraus

Grundlage ist ein Datensatz, der durch die Messung eines oder mehrerer Merkmale gewonnen wird. Die tatsächlich beobachtete Menge von Objekten, statistisch repräsentiert durch eine Reihe von Beobachtungen einer Zufallsvariablen, ist Probenahme, und das hypothetisch Vorhandene (Erdachte) - Durchschnittsbevölkerung. Die Grundgesamtheit kann endlich sein (Anzahl der Beobachtungen N = konst) oder unendlich ( N = ∞), und eine Stichprobe aus der Allgemeinbevölkerung ist immer das Ergebnis einer begrenzten Anzahl von Beobachtungen. Die Anzahl der Beobachtungen, aus denen eine Stichprobe besteht, wird aufgerufen Stichprobengröße. Wenn die Stichprobengröße groß genug ist n→∞) wird die Probe betrachtet groß, andernfalls wird es als Probe bezeichnet begrenztes Volumen. Die Probe wird betrachtet klein, wenn bei der Messung einer eindimensionalen Zufallsvariablen der Stichprobenumfang 30 ( n<= 30 ) und bei gleichzeitiger Messung mehrerer ( k) Merkmale in einer mehrdimensionalen Raumbeziehung n zu k weniger als 10 (k< 10) . Die Musterformulare Variationsreihe wenn seine Mitglieder sind Bestellstatistik, also Stichprobenwerte der Zufallsvariablen X aufsteigend sortiert (ranked) werden die Werte des Attributs aufgerufen Optionen.

Beispiel. Fast die gleiche zufällig ausgewählte Menge von Objekten – Geschäftsbanken eines Verwaltungsbezirks von Moskau – kann als Stichprobe aus der Gesamtbevölkerung aller Geschäftsbanken in diesem Bezirk und als Stichprobe aus der Gesamtbevölkerung aller Geschäftsbanken in Moskau betrachtet werden , sowie eine Stichprobe von Geschäftsbanken im Land und etc.

Grundlegende Stichprobenverfahren

Die Zuverlässigkeit statistischer Schlussfolgerungen und eine sinnvolle Interpretation der Ergebnisse hängt davon ab Repräsentativität Proben, d.h. Vollständigkeit und Angemessenheit der Darstellung der Eigenschaften der Allgemeinbevölkerung, in Bezug auf die diese Stichprobe als repräsentativ angesehen werden kann. Die Untersuchung der statistischen Eigenschaften der Bevölkerung kann auf zwei Arten organisiert werden: Verwendung kontinuierlich und diskontinuierlich. Kontinuierliche Beobachtung beinhaltet die Prüfung aller Einheiten studiert Aggregate, a nicht kontinuierliche (selektive) Beobachtung- nur Teile davon.

Es gibt fünf Möglichkeiten, die Probenahme zu organisieren:

1. einfache Zufallsauswahl, bei dem Objekte zufällig aus der allgemeinen Population von Objekten ausgewählt werden (z. B. unter Verwendung einer Tabelle oder eines Zufallszahlengenerators), und jede der möglichen Stichproben eine gleiche Wahrscheinlichkeit hat. Solche Proben werden aufgerufen eigentlich zufällig;

2. einfache Auswahl durch ein regelmäßiges Verfahren erfolgt anhand einer mechanischen Komponente (z. B. Datum, Wochentag, Wohnungsnummer, Buchstabe des Alphabets usw.) und die so gewonnenen Proben werden aufgerufen mechanisch;

3. geschichtet Die Selektion besteht darin, dass die allgemeine Volumenpopulation in Teilmengen oder Schichten (Strata) des Volumens unterteilt wird, so dass . Schichten sind hinsichtlich statistischer Merkmale homogene Objekte (z. B. wird die Bevölkerung in Schichten nach Altersgruppen oder sozialen Schichten eingeteilt; Unternehmen nach Branchen). In diesem Fall werden die Proben aufgerufen geschichtet(ansonsten, geschichtet, typisch, zoniert);

4. Methoden seriell Auswahl werden verwendet, um zu bilden seriell oder verschachtelte Proben. Sie sind praktisch, wenn es notwendig ist, einen "Block" oder eine Reihe von Objekten auf einmal zu untersuchen (z. B. eine Warensendung, Produkte einer bestimmten Serie oder eine Bevölkerung in der territorial-administrativen Aufteilung des Landes). Die Auswahl der Serien kann zufällig oder mechanisch erfolgen. Gleichzeitig wird eine kontinuierliche Erhebung einer bestimmten Warencharge oder einer ganzen Gebietseinheit (ein Wohngebäude oder ein Quartier) durchgeführt;

5. kombiniert(gestufte) Auswahl kann mehrere Auswahlverfahren gleichzeitig kombinieren (z. B. stratifiziert und zufällig oder zufällig und mechanisch); ein solches Beispiel wird aufgerufen kombiniert.

Auswahltypen

Von Geist es gibt Einzel-, Gruppen- und kombinierte Auswahl. Beim individuelle Auswahl einzelne Einheiten der Allgemeinbevölkerung werden in der Stichprobe mit ausgewählt Gruppenauswahl sind qualitativ homogene Gruppen (Reihen) von Einheiten, und kombinierte Auswahl beinhaltet eine Kombination des ersten und zweiten Typs.

Von Methode Auswahl unterscheiden wiederholt und nicht wiederholt Probe.

Unwiederholbar sogenannte Selektion, bei der die in die Stichprobe gefallene Einheit nicht zur ursprünglichen Grundgesamtheit zurückkehrt und nicht an der weiteren Selektion teilnimmt; während die Anzahl der Einheiten der allgemeinen Bevölkerung N im Auswahlverfahren reduziert. Beim wiederholt Auswahl erwischt in der Stichprobe wird die Einheit nach Registrierung an die allgemeine Bevölkerung zurückgegeben und behält damit eine gleichberechtigte Verwendung mit anderen Einheiten für das weitere Auswahlverfahren; während die Anzahl der Einheiten der allgemeinen Bevölkerung N bleibt unverändert (die Methode wird selten in sozioökonomischen Studien verwendet). Allerdings mit einem großen N (N → ∞) Formeln für unwiederholt Auswahl sind nah an denen für wiederholt Auswahl und letztere werden fast häufiger verwendet ( N = konst).

Die Hauptmerkmale der Parameter der allgemeinen und Stichprobenpopulation

Grundlage der statistischen Schlussfolgerungen der Studie ist die Verteilung einer Zufallsvariablen, während die beobachteten Werte (x 1, x 2, ..., x n) heißen Realisierungen der Zufallsvariablen X(n ist die Stichprobengröße). Die Verteilung einer Zufallsvariablen in der allgemeinen Bevölkerung ist theoretisch, idealer Natur, und ihr Beispielanalog ist es empirisch Verteilung. Einige theoretische Verteilungen sind analytisch gegeben, d.h. Sie Optionen Bestimmen Sie den Wert der Verteilungsfunktion an jedem Punkt im Raum möglicher Werte der Zufallsvariablen. Für eine Stichprobe ist es daher schwierig und manchmal unmöglich, die Verteilungsfunktion zu bestimmen Optionen werden aus empirischen Daten geschätzt und dann in einen analytischen Ausdruck eingesetzt, der die theoretische Verteilung beschreibt. In diesem Fall ist die Annahme (bzw Hypothese) über die Art der Verteilung können sowohl statistisch richtig als auch falsch sein. Aber in jedem Fall charakterisiert die aus der Stichprobe rekonstruierte empirische Verteilung nur grob die wahre. Die wichtigsten Verteilungsparameter sind erwarteter Wert und Streuung.

Distributionen sind von Natur aus kontinuierlich und diskret. Die bekannteste stetige Verteilung ist normal. Selektive Analoga von Parametern und dafür sind: Mittelwert und empirische Varianz. Unter den diskreten in sozioökonomischen Studien, die am häufigsten verwendeten alternativ (dichotom) Verteilung. Der Erwartungsparameter dieser Verteilung drückt den relativen Wert (bzw Teilen) Einheiten der Grundgesamtheit, die das untersuchte Merkmal aufweisen (es ist durch den Buchstaben gekennzeichnet); der Anteil der Bevölkerung, der dieses Merkmal nicht aufweist, wird durch den Buchstaben gekennzeichnet q (q = 1 - p). Auch die Varianz der Alternativverteilung hat ein empirisches Analogon.

Je nach Art der Verteilung und je nach Auswahlverfahren der Bevölkerungseinheiten werden die Ausprägungen der Verteilungsparameter unterschiedlich berechnet. Die wichtigsten für die theoretischen und empirischen Verteilungen sind in der Tabelle angegeben. 9.1.

Stichprobenanteil k n ist das Verhältnis der Anzahl der Einheiten der Stichprobenpopulation zur Anzahl der Einheiten der Allgemeinbevölkerung:

kn = n/N.

Probenanteil m ist das Verhältnis der Einheiten, die das untersuchte Merkmal aufweisen x zur Stichprobengröße n:

w = n n / n.

Beispiel. Bei einer Warenpartie von 1000 Stück mit 5% Stichprobe Probenfraktion k n im absoluten Wert beträgt 50 Einheiten. (n = N*0,05); wenn in dieser Probe 2 fehlerhafte Produkte gefunden werden, dann Probenfraktion w 0,04 (w = 2/50 = 0,04 oder 4 %).

Da sich die Stichprobenpopulation von der allgemeinen Bevölkerung unterscheidet, gibt es Stichprobenfehler.

Tabelle 9.1 Hauptparameter der Grund- und Stichprobenpopulationen

Stichprobenfehler

Bei allen (festen und selektiven) Fehlern können zwei Arten auftreten: Registrierung und Repräsentativität. Fehler Anmeldung haben kann zufällig und systematisch Charakter. Zufällig Fehler setzen sich aus vielen verschiedenen unkontrollierbaren Ursachen zusammen, sind unbeabsichtigter Natur und gleichen sich meist in Kombination aus (z. B. Änderungen der Instrumentenanzeige aufgrund von Temperaturschwankungen im Raum).

Systematisch Fehler sind verzerrt, da sie gegen die Regeln zur Auswahl von Objekten in der Stichprobe verstoßen (z. B. Messabweichungen bei Änderung der Einstellungen des Messgeräts).

Beispiel. Um den sozialen Status der Bevölkerung in der Stadt zu beurteilen, ist geplant, 25 % der Familien zu untersuchen. Wenn jedoch jede vierte Wohnung nach ihrer Nummer ausgewählt wird, besteht die Gefahr, dass alle Wohnungen nur eines Typs (z. B. Einzimmerwohnungen) ausgewählt werden, was zu einem systematischen Fehler führt und die Ergebnisse verfälscht; Die Wahl der Wohnungsnummer per Los ist vorzuziehen, da der Fehler zufällig ist.

Repräsentativitätsfehler Sie sind nur der punktuellen Beobachtung inhärent, lassen sich nicht vermeiden und entstehen dadurch, dass die Stichprobe die allgemeine nicht vollständig wiedergibt. Die Werte der aus der Stichprobe erhaltenen Indikatoren unterscheiden sich von den Indikatoren mit denselben Werten in der Allgemeinbevölkerung (oder erhalten während der kontinuierlichen Beobachtung).

Stichprobenfehler ist die Differenz zwischen dem Wert des Parameters in der Allgemeinbevölkerung und seinem Stichprobenwert. Für den Durchschnittswert eines quantitativen Attributs ist es gleich: , und für den Anteil (alternatives Attribut) - .

Stichprobenfehler sind nur Stichprobenbeobachtungen inhärent. Je größer diese Fehler sind, desto mehr weicht die empirische Verteilung von der theoretischen ab. Die Parameter der empirischen Verteilung und sind Zufallsvariablen, daher sind Stichprobenfehler auch Zufallsvariablen, sie können für verschiedene Stichproben unterschiedliche Werte annehmen und sind daher üblich zu berechnen durchschnittlicher Fehler.

Durchschnittlicher Stichprobenfehler ist ein Wert, der die Standardabweichung des Stichprobenmittelwerts von der mathematischen Erwartung ausdrückt. Dieser Wert hängt nach dem Zufallsprinzip vor allem von der Stichprobengröße und dem Variationsgrad des Merkmals ab: Je größer und je geringer die Variation des Merkmals (daher der Wert von ), desto kleiner der Wert von der durchschnittliche Stichprobenfehler . Das Verhältnis zwischen den Varianzen der Grundgesamtheit und der Stichprobenpopulation wird durch die Formel ausgedrückt:

jene. für ausreichend groß können wir davon ausgehen, dass . Der durchschnittliche Stichprobenfehler zeigt die möglichen Abweichungen des Parameters der Stichprobengesamtheit vom Parameter der Allgemeinbevölkerung. Im Tisch. 9.2 zeigt Ausdrücke zur Berechnung des durchschnittlichen Stichprobenfehlers für verschiedene Methoden zur Organisation der Beobachtung.

Tabelle 9.2 Mittlerer Fehler (m) des Stichprobenmittelwerts und -anteils für verschiedene Stichprobentypen

Wo ist der Durchschnitt der gruppeninternen Stichprobenvarianzen für ein kontinuierliches Merkmal;

Der Durchschnitt der gruppeninternen Streuungen der Aktie;

— Anzahl der ausgewählten Serien, — Gesamtzahl der Serien;

,

wo ist der Durchschnitt der th Reihe;

- der allgemeine Durchschnitt über die gesamte Stichprobe für ein kontinuierliches Merkmal;

,

wo ist der Anteil des Merkmals in der th-Serie;

— der Gesamtanteil des Merkmals an der gesamten Stichprobe.

Allerdings kann die Größe des mittleren Fehlers nur mit einer gewissen Wahrscheinlichkeit Р (Р ≤ 1) beurteilt werden. Ljapunow A.M. bewiesen, dass die Verteilung von Stichprobenmittelwerten und damit ihre Abweichungen vom allgemeinen Mittelwert bei einer ausreichend großen Anzahl ungefähr dem Normalverteilungsgesetz gehorcht, vorausgesetzt, die allgemeine Grundgesamtheit hat einen endlichen Mittelwert und eine begrenzte Varianz.

Mathematisch wird diese Aussage für den Mittelwert ausgedrückt als:

und für den Bruch nimmt der Ausdruck (1) die Form an:

wo - Es gibt marginaler Stichprobenfehler, was ein Vielfaches des durchschnittlichen Stichprobenfehlers ist , und der Multiplizitätsfaktor ist das Student-Kriterium ("Vertrauensfaktor"), vorgeschlagen von W.S. Gosset (Pseudonym „Student“); Werte für unterschiedliche Stichprobenumfänge werden in einer speziellen Tabelle gespeichert.

Die Werte der Funktion Ф(t) für einige Werte von t sind:

Daher kann Ausdruck (3) wie folgt gelesen werden: mit Wahrscheinlichkeit P = 0,683 (68,3 %) Es kann argumentiert werden, dass die Differenz zwischen der Stichprobe und dem allgemeinen Mittelwert einen Wert des mittleren Fehlers nicht überschreitet m(t=1), mit Wahrscheinlichkeit P = 0,954 (95,4 %)— dass er den Wert von zwei mittleren Fehlern nicht überschreitet m (t = 2) , mit Wahrscheinlichkeit P = 0,997 (99,7 %)- wird drei Werte nicht überschreiten m (t = 3) . Somit bestimmt die Wahrscheinlichkeit, dass diese Differenz den dreifachen Wert des mittleren Fehlers überschreitet Fehlerstufe und ist nicht mehr als 0,3% .

Im Tisch. 9.3 Formeln zur Berechnung des marginalen Stichprobenfehlers sind angegeben.

Tabelle 9.3 Grenzstichprobenfehler (D) für Mittelwert und Anteil (p) für verschiedene Stichprobenarten

Ausweitung der Probenergebnisse auf die Grundgesamtheit

Das ultimative Ziel der Stichprobenbeobachtung ist die Charakterisierung der Allgemeinbevölkerung. Bei kleinen Stichprobenumfängen können empirische Schätzungen der Parameter ( und ) erheblich von ihren wahren Werten ( und ) abweichen. Daher wird es notwendig, die Grenzen festzulegen, innerhalb derer die wahren Werte ( und ) für die Beispielwerte der Parameter ( und ) liegen.

Konfidenzintervall eines Parameters θ der Allgemeinbevölkerung wird als zufälliger Wertebereich dieses Parameters bezeichnet, der mit einer Wahrscheinlichkeit nahe 1 ( Verlässlichkeit) enthält den wahren Wert dieses Parameters.

marginaler Fehler Proben Δ ermöglicht es Ihnen, die Grenzwerte der Merkmale der Allgemeinbevölkerung und deren zu bestimmen Vertrauensintervalle, die gleich sind:

Endeffekt Konfidenzintervall durch Subtrahieren erhalten marginaler Fehler aus dem Stichprobenmittelwert (Anteil) und dem obersten durch Hinzufügen.

Konfidenzintervall für den Mittelwert verwendet es den marginalen Stichprobenfehler und wird für ein bestimmtes Konfidenzniveau durch die Formel bestimmt:

Dies bedeutet, dass mit einer bestimmten Wahrscheinlichkeit R, das Konfidenzniveau genannt wird und eindeutig durch den Wert bestimmt wird t, kann argumentiert werden, dass der wahre Wert des Mittelwerts im Bereich von liegt , und der wahre Wert der Aktie liegt im Bereich von

Bei der Berechnung des Konfidenzintervalls für die drei Standard-Konfidenzniveaus P = 95 %, P = 99 % und P = 99,9 % Wert wird durch ausgewählt. Anwendungen abhängig von der Anzahl der Freiheitsgrade. Wenn der Stichprobenumfang groß genug ist, dann entsprechen die Werte diesen Wahrscheinlichkeiten t sind gleich: 1,96, 2,58 und 3,29 . Der marginale Stichprobenfehler ermöglicht es uns also, die Randwerte der Merkmale der Allgemeinbevölkerung und ihre Konfidenzintervalle zu bestimmen:

Die Verteilung der Ergebnisse der selektiven Beobachtung an die allgemeine Bevölkerung in sozioökonomischen Studien hat ihre eigenen Merkmale, da sie die Vollständigkeit der Repräsentativität aller ihrer Typen und Gruppen erfordert. Grundlage für die Möglichkeit einer solchen Verteilung ist die Berechnung relativer Fehler:

wo Δ % - relativer marginaler Stichprobenfehler; , .

Es gibt zwei Hauptmethoden, um eine Stichprobenbeobachtung auf die Grundgesamtheit auszudehnen: direkte Umrechnung und Methode der Koeffizienten.

Wesen direkte Konvertierung ist, den Stichprobenmittelwert!!\overline(x) mit der Größe der Grundgesamtheit zu multiplizieren.

Beispiel. Lassen Sie die durchschnittliche Anzahl von Kleinkindern in der Stadt durch ein Stichprobenverfahren schätzen und auf eine Person belaufen. Bei 1000 jungen Familien in der Stadt ergibt sich die benötigte Anzahl an Plätzen in der städtischen Kita aus der Multiplikation dieses Durchschnitts mit der Gesamtbevölkerungszahl N = 1000, d.h. wird 1200 Sitzplätze sein.

Methode der Koeffizienten Es ist ratsam, es zu verwenden, wenn eine selektive Beobachtung durchgeführt wird, um die Daten einer kontinuierlichen Beobachtung zu klären.

Dabei wird die Formel verwendet:

wobei alle Variablen die Größe der Bevölkerung sind:

Erforderliche Stichprobengröße

Tabelle 9.4 Erforderlicher Stichprobenumfang (n) für verschiedene Arten von Stichprobenorganisationen

Bei der Planung einer Stichprobenerhebung mit einem vorgegebenen Wert des zulässigen Stichprobenfehlers ist es erforderlich, den erforderlichen richtig einzuschätzen Stichprobengröße. Dieser Betrag kann auf der Grundlage des zulässigen Fehlers während der selektiven Beobachtung auf der Grundlage einer bestimmten Wahrscheinlichkeit bestimmt werden, die ein akzeptables Fehlerniveau garantiert (unter Berücksichtigung der Art und Weise, wie die Beobachtung organisiert ist). Formeln zur Bestimmung des erforderlichen Stichprobenumfangs n lassen sich leicht direkt aus den Formeln für den marginalen Stichprobenfehler ableiten. Also aus dem Ausdruck für den Grenzfehler:

die Stichprobengröße wird direkt bestimmt n:

Diese Formel zeigt dies mit abnehmendem marginalen Stichprobenfehler Δ erhöht die erforderliche Stichprobengröße erheblich, was proportional zur Varianz und zum Quadrat des Student-t-Tests ist.

Für eine bestimmte Art der Organisation der Beobachtung wird die erforderliche Stichprobengröße gemäß den in der Tabelle angegebenen Formeln berechnet. 9.4.

Praktische Berechnungsbeispiele

Beispiel 1. Berechnung von Mittelwert und Konfidenzintervall für ein kontinuierliches quantitatives Merkmal.

Zur Beurteilung der Abwicklungsgeschwindigkeit gegenüber den Gläubigern der Bank wurde eine Stichprobe von 10 Zahlungsbelegen durchgeführt. Ihre Werte erwiesen sich als gleich (in Tagen): 10; 3; fünfzehn; fünfzehn; 22; 7; acht; ein; neunzehn; 20.

Mit Wahrscheinlichkeit erforderlich P = 0,954 Grenzfehler bestimmen Δ Stichprobenmittelwert und Vertrauensgrenzen der durchschnittlichen Berechnungszeit.

Entscheidung. Der Durchschnittswert wird nach der Formel aus Tabelle berechnet. 9.1 für die Stichprobenpopulation

Die Dispersion wird nach der Formel aus Tabelle berechnet. 9.1.

Der mittlere quadratische Fehler des Tages.

Der Fehler des Mittelwerts wird nach folgender Formel berechnet:

jene. Mittelwert ist x ± m = 12,0 ± 2,3 Tage.

Die Zuverlässigkeit des Mittelwerts war

Der Grenzfehler wird nach der Formel aus Tabelle berechnet. 9.3 für eine Neuauswahl, da die Größe der Grundgesamtheit unbekannt ist, und z P = 0,954 Vertrauensstufe.

Somit ist der Mittelwert `x ± D = `x ± 2m = 12,0 ± 4,6, d.h. ihr wahrer Wert liegt im Bereich von 7,4 bis 16,6 Tagen.

Nutzung des Schülertisches. Die Anwendung lässt den Schluss zu, dass für n = 10 – 1 = 9 Freiheitsgrade der erhaltene Wert zuverlässig ist mit einem Signifikanzniveau a £ 0,001, d.h. der resultierende Mittelwert unterscheidet sich signifikant von 0.

Beispiel 2. Schätzung der Wahrscheinlichkeit (allgemeiner Anteil) r.

Mit einem maschinellen Stichprobenverfahren zur Erhebung des sozialen Status von 1000 Familien wurde aufgedeckt, dass der Anteil der Familien mit niedrigem Einkommen war w = 0,3 (30 %)(Die Probe war 2% , d.h. n/N = 0,02). Erforderlich mit Konfidenzniveau p = 0,997 einen Indikator definieren R einkommensschwache Familien in der gesamten Region.

Entscheidung. Gemäß den vorgestellten Funktionswerten Ф(t) für ein gegebenes Konfidenzniveau finden P = 0,997 Bedeutung t=3(siehe Formel 3). Fehler bei geringfügigem Anteil w mit der Formel aus Tabelle bestimmen. 9.3 bei einmaliger Probenahme (mechanische Probenahme ist immer einmalig):

Begrenzung des relativen Abtastfehlers in % wird sein:

Die Wahrscheinlichkeit (allgemeiner Anteil) von Familien mit niedrigem Einkommen in der Region wird sein p=w±Δw, und die Vertrauensgrenzen p werden aufgrund der doppelten Ungleichung berechnet:

w — Δw ≤ p ≤ w — Δw, d.h. der wahre Wert von p liegt innerhalb:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Somit kann mit einer Wahrscheinlichkeit von 0,997 argumentiert werden, dass der Anteil der Familien mit niedrigem Einkommen an allen Familien in der Region zwischen 28,6 % und 31,4 % liegt.

Beispiel 3 Berechnung von Mittelwert und Konfidenzintervall für ein durch eine Intervallreihe vorgegebenes diskretes Merkmal.

Im Tisch. 9.5. die Verteilung von Anträgen auf Erstellung von Aufträgen nach dem Zeitpunkt ihrer Umsetzung durch das Unternehmen wird festgelegt.

Tabelle 9.5 Verteilung der Beobachtungen nach Zeitpunkt des Auftretens

Entscheidung. Die durchschnittliche Auftragsfertigstellungszeit wird nach folgender Formel berechnet:

Die durchschnittliche Zeit wird sein:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 Monate

Die gleiche Antwort erhalten wir, wenn wir die Daten zu p i aus der vorletzten Spalte der Tabelle verwenden. 9.5 mit der Formel:

Beachten Sie, dass die Mitte des Intervalls für die letzte Abstufung gefunden wird, indem sie künstlich mit der Breite des Intervalls der vorherigen Abstufung von 60 - 36 = 24 Monaten ergänzt wird.

Die Streuung wird nach der Formel berechnet

wo x ich- die Mitte der Intervallreihe.

Daher!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) und der Standardfehler ist .

Der Fehler des Mittelwerts wird nach der Formel für Monate berechnet, d.h. der Mittelwert ist !!\overline(x) ± m = 23,1 ± 13,4.

Der Grenzfehler wird nach der Formel aus Tabelle berechnet. 9,3 für die Neuauswahl, da die Populationsgröße unbekannt ist, für ein Konfidenzniveau von 0,954:

Der Mittelwert ist also:

jene. sein wahrer Wert liegt im Bereich von 0 bis 50 Monaten.

Beispiel 4 Um die Abwicklungsgeschwindigkeit mit Gläubigern von N = 500 Unternehmen der Gesellschaft in einer Geschäftsbank zu bestimmen, ist es notwendig, eine selektive Studie mit der Methode der zufälligen, nicht wiederholten Auswahl durchzuführen. Bestimmen Sie den erforderlichen Stichprobenumfang n so, dass mit einer Wahrscheinlichkeit P = 0,954 der Fehler des Stichprobenmittelwerts 3 Tage nicht überschreitet, wenn die Probeschätzungen ergaben, dass die Standardabweichung s 10 Tage betrug.

Entscheidung. Um die Anzahl der notwendigen Studien n zu bestimmen, verwenden wir die Formel für nicht-repetitive Auswahl aus Tabelle. 9.4:

Darin wird der Wert von t für das Konfidenzniveau P = 0,954 bestimmt. Es ist gleich 2. Der mittlere quadratische Wert s = 10, die Populationsgröße N = 500 und der marginale Fehler des Mittelwerts Δ x = 3. Setzen wir diese Werte in die Formel ein, erhalten wir:

jene. Es reicht aus, eine Stichprobe von 41 Unternehmen zu erstellen, um den erforderlichen Parameter abzuschätzen - die Geschwindigkeit der Abwicklung mit den Gläubigern.